JP2023064695A

JP2023064695A - ディープ・ニューラル・ネットワークにおけるニアメモリ疎行列計算

Info

Publication number: JP2023064695A
Application number: JP2022118148A
Authority: JP
Inventors: ランガチャースリニバサスリバトサ; Rangachar Srinivasa Srivatsa; サンダラムプリヤジャイナビーン; Sundaram Priya Jainaveen; エー．ジャクソンブラッドリー; A Jackson Bradley; ベンガラーアンビリ; Vengallur Ambili; ジョンクリアンディリープ; John Kurian Dileep; カーニックタネイ; Karnik Tanay
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-10-26
Filing date: 2022-07-25
Publication date: 2023-05-11
Also published as: US20220101091A1

Abstract

【解決手段】ＤＮＮアクセラレータは、重み値に基づいて行列計算を実行するかどうかをコントロールする乗算コントローラを含む。乗算コントローラは、ＤＮＮアクセラレータ内のＷＲＡＭから重み行列を読み出し、重み行列内の行について行値を決定する。行値が１である一実施形態では、第１のスイッチは、行内の重みを読み出すためにＷＲＡＭに読み出し要求を送り、第２のスイッチは、ＤＮＮアクセラレータ内のＩＲＡＭからＤＮＮアクセラレータ内のＰＥへのデータ伝送経路を形成する。ＰＥは、ＩＲＡＭに格納された重み及び入力データを受け取り、ＭＡＣ演算を実行する。行値が０である一実施形態では、第１及び第２のスイッチはトリガされない。ＷＲＡＭに読み出し要求が送られず、データ伝送経路は形成されない。ＰＥは一切のＭＡＣ演算を実行しない。
【選択図】図２

Description

関連出願の相互参照
本出願は、２０２１年１０月２６日に出願されたインド特許出願第２０２１４１０４８９５６号の利益を主張し、その全体が参照により組み込まれる。

本開示は、一般にニューラルネットワークに関し、より詳細には、ディープ・ニューラル・ネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）における疎行列計算に関する。

ＤＮＮは、現在、コンピュータビジョンから音声認識及び自然言語処理に及ぶさまざまな人工知能アプリケーションに広く使用されている。ＤＮＮは、通常、入力層、隠れ層、及び出力層を含む。隠れ層は、訓練済のデータセットを用いた行列計算によって、入力特徴マップ（ＩＦＭ）を表す入力行列を、出力特徴マップ（ＯＦＭ）を表す出力行列に変換する。ＤＮＮは、物体検出、画像分類などのさまざまなアプリケーションにおいて大いに成功している。しかしながら、ＤＮＮモデル（重み及び活性化の両方）は、かなりの疎性を見せることが示されており、行列計算動作中に計算リソース及び時間の著しい消費を引き起こす。

実施形態は、添付の図面と併せて以下の詳細な説明によって容易に理解されるであろう。この説明を容易にするために、類似の符号は類似の構造要素を示す。実施形態は、添付の図面の図において、限定を目的としてではなく、例示を目的として示されている。

さまざまな実施形態に係る、例示的なＤＮＮのアーキテクチャを示す。

さまざまな実施形態に係る、一例示的な疎ＤＮＮアクセラレータのアーキテクチャを示す。

さまざまな実施形態に係る、一例示的な処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ、ＰＥ）のアーキテクチャを示す。

さまざまな実施形態に係る、並列ＤＮＮアクセラレータを含む一例示的なタイルアーキテクチャを示す。

さまざまな実施形態に係る、ＤＮＮ層における疎行列計算をアクセラレーションする例示的なプロセスを示す。さまざまな実施形態に係る、ＤＮＮ層における疎行列計算をアクセラレーションする例示的なプロセスを示す。さまざまな実施形態に係る、ＤＮＮ層における疎行列計算をアクセラレーションする例示的なプロセスを示す。

さまざまな実施形態に係る、ＤＮＮアクセラレータに関連付けられたシステムメモリに格納された重み行列及びＩＦＭ行列を示す。

さまざまな実施形態に係る、圧縮モジュールによって図６Ａの重み行列から変換された重み行列を示す。

さまざまな実施形態に係る、図６ＡのＩＦＭ行列の非圧縮状態を示す。

さまざまな実施形態に係る、図６ＡのＩＦＭ行列の圧縮状態を示す。

さまざまな実施形態に係る、ディープラーニング環境を示す。

さまざまな実施形態に係る、ＤＮＮシステムのブロック図である。

さまざまな実施形態に係る、ＤＮＮにおける疎行列計算をコントロールする方法を示すフローチャートである。

さまざまな実施形態に係る、一例示的な計算デバイスのブロック図である。

概要
ＤＮＮは、自動潜在特徴抽出を使用してデータの効果的な抽象表現を生成する能力を特徴とする。ＤＮＮは、推論、物体検出、推奨システム、ビデオレンダリングなど、さまざまな分野において複雑な問題を解決するために使用されてきた。ＤＮＮを訓練することは、ネットワークにおいて、特定の問題を解決するのに有用な、「重み」を特定することを伴う。行列の乗算は、ＩＦＭ及び重みを伴う基本的なＤＮＮ計算である。行列の乗算演算は、かなりの量の計算リソース及び時間を消費し得る。したがって、疎行列計算動作をアクセラレーションすることにより、ＤＬモデルを訓練する性能ボトルネックを軽減することができる。

重み及び特徴の両方は、本質的に疎であり得る。ＤＮＮワークロードからの行列入力は大きくて疎であり、同時にアルゴリズムは、全体的な精度に影響を与えることなく追加の疎性を導入する。したがって、ハードウェア実施態様の一部として疎性に対処する手法が存在してきた。疎行列は、要素のいくつかが０の行列である。疎行列計算手法は、任意の利益を得るために入力行列が圧縮されることを必要とする。

一例示的な手法は、ＧＰＵ（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、グラフィック処理ユニット）ベースのシステムで疎行列計算を実行し、これにより、大規模なマルチスレッド及びＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｄａｔａ、単一命令、複数データ）スタイルの実行のおかげでスループットの向上を提供することができる。これらのマルチスレッドは、計算のオンチップメモリを共有することができる。しかしながら、多数の計算リソースが利用可能であっても、メモリが小さく、メモリアクセスが不連続であるために、マッピングが困難であることから、メモリ帯域幅が不十分であることによって性能が制限されている。

別の手法では、ハードウェアアクセラレータは、非０の被乗数要素と乗数要素とを特定するために圧縮されたインデックス情報を利用することができる。そうしたハードウェアアクセラレータは、並列に計算するために行列を複数のより小さなチャンクに分割するか、又は中間データを格納するために専用メモリ空間を使用するかのいずれかである。このように、追加のデータマッピングスキームが採用される必要がある。圧縮された疎情報は、乗算されるべき要素を決定するために使用される。しかしながら、計算リソースは賢明に使用されることができない。十分に高いレベルの並列化が達成されない。また、データ移動のためのコストは依然として高いままであり得る。

さらに別の手法では、圧縮スキームを通じて疎性情報を生成するためにコンパイラが使用され、疎データが付加される。この手法は、一般に、行列の１つが静的であり、複数の疎行列計算動作にわたって変化しない（たとえば、ＤＮＮにおける重み行列）場合に採用される。コンパイラによって、圧縮された疎情報を生成することは、静的行列に対して機能する。しかしながら、絶えず変化する入力行列に対しては同様には機能しない。動的行列データに対して、又はアプリケーション実行時間中に行列が変化しているとき、圧縮された情報を生成するためにコンパイラを採用することは困難である。

上記の手法は、圧縮されたフォーマットは行列に対して必要であるがベクトル入力に対しては必要でないため、メモリ空間の管理が複雑ではないケース、たとえば疎行列がベクトルと乗算されるケースに対して機能することができる。しかしながら、疎行列計算中の両行列の行列次元及び疎性に基づいて、疎情報は、非０のデータ要素よりも多くのメモリ空間を必要とし得る。行列の１つを複数の列ベクトル（ベクトルの数＝行列の列）に分割することによって、疎行列計算を実行するために上記手法が使用されることができる。これによって、行列の１つに対する圧縮された疎フォーマット化の必要性が回避される。しかしながら、計算量は所望よりも大きくなり得る。乗算数の増加は、大きなボトルネックであるデータ移動の増加に直接寄与する。

本発明の実施形態は、ニアメモリ疎行列計算が可能なＤＮＮアクセラレータに関する。例示的なＤＮＮアクセラレータは、乗算コントローラと、バッファと、２つのスイッチと、処理要素（ｐｒｏｃｅｓｓｅｌｅｍｅｎｔ、ＰＥ）のアレイを含み、これらは重みを格納するランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）（「重みランダムアクセスメモリ（ｗｅｉｇｈｔｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＷＲＡＭ」）、入力を格納するＲＡＭ（「入力ＲＡＭ（ｉｎｐｕｔＲＡＭ、ＩＲＡＭ）」）、及び出力を格納するＲＡＭ（「出力ＲＡＭ（ｏｕｔｐｕｔＲＡＭ、ＯＲＡＭ）」）の近くに配置される。入力は、ＤＮＮ層のＩＦＭ行列（又はＩＦＭ行列の一部）であり得る。出力は、ＤＮＮ層のＯＦＭ行列（又はＯＦＭ行列の一部）であり得る。

乗算コントローラは、ＤＮＮアクセラレータによる疎行列計算をコントロールする。たとえば、乗算コントローラは、重み値に基づいたＰＥによるＭＡＣ演算のためにＩＲＡＭ及びＷＲＡＭからデータを読み出すべきかどうか、及びいつ読み出すべきかを決定する。たとえば、乗算コントローラは、ＷＲＡＭから重み行列にアクセスし、重み行列内の行のそれぞれについて行値を決定する。たとえば、乗算コントローラは、非０値の重みを有さない行の行値は０であり、少なくとも１つの非０値の重みを有する行の行値は１である、と決定する。乗算コントローラは、行値をバッファに格納する。ＷＲＡＭからの読み出し動作をコントロールする第１のスイッチは、非０の行値によってトリガされることができる。第１のスイッチがトリガされた後、これは、その行内の重みを読み出すためにＷＲＡＭに読み出し要求を送る。一実施形態では、重みはＩＲＡＭに読み出される。ＩＲＡＭからＰＥへのデータの伝送をコントロールする第２のスイッチも、非０の行値によってトリガされることができる。第２のスイッチがトリガされると、入力データ及び重みがＰＥに伝送されることができる。次いで、ＰＥは、入力データ及び重みに対してＭＡＣ演算を実行する。言い換えると、行が１又は複数の非０値の重みを有するとき、乗算コントローラ２５５は、ＭＡＣ演算を可能にする。対照的に、行内のすべての重みが０値である（すなわち、行値が０である）とき、２つのスイッチはトリガされず、ＰＥにデータが送られず、ＰＥは一切のＭＡＣ演算を実行しない。したがって、乗算コントローラ及び２つのスイッチは、ＤＮＮアクセラレータが必要に応じて行列計算を実行し、ＤＮＮアクセラレータが意味のない行列計算を実行することを防止する（すなわち、すべての重みが０値であるとき、実行された場合に行列計算の結果が０になるので）、ことを確実にすることができる。このように、乗算コントローラ及びスイッチは、行列計算におけるＤＮＮアクセラレータの効率を向上させることができ、意味のない行列計算動作に対する計算リソースの浪費を回避する。また、乗算コントローラ及びスイッチがＩＲＡＭ及びＷＲＡＭの近くに配置されるので、行列計算をコントロールするために必要とされるデータ移動が低減されるか、又は、さらに、最小化される。

いくつかの実施形態では、ＤＮＮアクセラレータはまた、ＤＮＮアクセラレーションの効率をさらに向上させるためにＩＦＭ行列を圧縮する圧縮モジュールも含む。ＩＦＭ行列が圧縮される実施形態では、ＰＥは、出力を再構成するために乗算演算の結果に対してデマルチプレクス動作を実行し得る。さらに、ＤＮＮアクセラレータは、１つのＤＮＮ計算タイルとして使用され得る。いくつかのそうしたＤＮＮアクセラレータは、ＤＮＮ層をアクセラレーションするために使用されることができるタイルアーキテクチャを形成するために並列に配置されることができる。タイルアーキテクチャ内のＤＮＮアクセラレータは、ＤＮＮ層の入力又はＯＦＭを格納する１つのシステムメモリを共有し得る。タイルアーキテクチャなどによって、全体的なメモリストレージ要件が軽減されることができる。

説明を目的として、例示的な実施態様の十分な理解を提供するために具体的な数字、材料及び構成が明記されている。しかしながら、本開示が特定の詳細なしで実践され得ること、又は／及び本開示が説明された態様のいくつかのみで実践され得ることは、当業者には明らかであろう。他の例では、例示的な実施態様を不明瞭にしないために、周知の特徴は省略又は簡略化されている。

さらに、本明細書の一部を形成し、実践され得る実施形態が例示として示されている添付の図面を参照する。本開示の範囲から逸脱することなく、他の実施形態が利用され得、構造的又は論理的な変更が行われ得ることが理解されるべきである。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきではない。

さまざまな動作は、特許請求される主題を理解するのに最も有用な方法で、順番に複数の別個のアクション又は動作として説明され得る。しかしながら、説明の順序は、これらの動作が必ずしも順序に依存することを暗示すると解釈されるべきではない。具体的には、これらの動作は、提示順に実行されなくてもよい。説明される動作は、説明される実施形態とは異なる順序で実行されてもよい。さまざまな追加の動作が実行されてもよく、又は追加の実施形態において、説明された動作が省略されてもよい。

本開示の目的では、「Ａ及び／又はＢ」というフレーズは、（Ａ）、（Ｂ）又は（Ａ及びＢ）を意味する。本開示の目的では、「Ａ、Ｂ、及び／又はＣ」というフレーズは、（Ａ）、（Ｂ）、（Ｃ）、（Ａ及びＢ）、（Ａ及びＣ）、又は（Ａ、Ｂ、及びＣ）を意味する。「の間（ｂｅｔｗｅｅｎ）」という用語は、測定範囲に関して使用されるとき、測定範囲の端を含む。

説明では、「一実施形態において（一実施形態では）」又は「実施形態において（実施形態では）」というフレーズを使用するが、これらのフレーズは、同じ実施形態又は異なる実施形態のうち１又は複数をそれぞれ指し得る。本開示の実施形態に関して使用されるとき、「備える、含む（ｃｏｍｐｒｉｓｉｎｇ）」、「備える、含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」等の用語は同義である。開示では、図のさまざまな特徴を説明するために「上（ａｂｏｖｅ）」、「下（ｂｅｌｏｗ）」、「一番上（ｔｏｐ）」、「一番下（ｂｏｔｔｏｍ）」、及び「横（ｓｉｄｅ）」などの視点ベースの説明を使用し得るが、これらの用語は単に議論を容易にするためであり、所望又は必要な向きを暗示するものではない。添付の図面は必ずしも縮尺どおり示されているとは限らない。別段の指定がない限り、共通の対象を説明するための序数形容詞「第１の」、「第２の」、及び「第３の」などの使用は、同様の対象の異なるインスタンスが参照されていることを単に示すだけであり、そのように説明された対象が時間的に、空間的に、ランキング的に、又はいずれかの他の方法で所与のシーケンスになければならないことを暗示することは意図されていない。

以下の詳細な説明では、例示的な実施態様のさまざまな態様は、自身の作業の内容を他の当業者に伝えるために当業者によって一般的に使用される用語を使用して説明される。

用語「実質的に（ｓｕｂｓｔａｎｔｉａｌｌｙ）」、「近い（ｃｌｏｓｅ）」、「およそ（ａｐｐｒｏｘｉｍａｔｅｌｙ）」、「近く（ｎｅａｒ）」、及び「約（ａｂｏｕｔ）」は、本明細書に説明されるような、又は当技術分野で知られているような特定の値のコンテキストに基づく目標値の＋／－２０％以内であることを一般に指す。同様に、さまざまな要素の向きを示す用語、たとえば「同一平面上の（ｃｏｐｌａｎａｒ）」、「垂直の（ｐｅｒｐｅｎｄｉｃｕｌａｒ）」、「直交の（ｏｒｔｈｏｇｏｎａｌ）」、「平行の（ｐａｒａｌｌｅｌ）」、若しくは要素間の任意の他の角度は、本明細書に説明されるような、又は当技術分野で知られているような特定の値のコンテキストに基づく目標値の＋／－５～２０％以内であることを一般に指す。

さらに、用語「備える、含む（ｃｏｍｐｒｉｓｅ）」、「備える、含む（ｃｏｍｐｒｉｓｉｎｇ）」、「備える、含む（ｉｎｃｌｕｄｅ）」、「備える、含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｅ）」、「有する（ｈａｖｉｎｇ）」、又はそれらの任意の他の変形語は、非排他的包含を網羅することが意図されている。たとえば、要素のリストを含む方法、プロセス、デバイス、又はシステムは、必ずしもそれらの要素のみに限定されるわけではなく、明示的に列挙されていないか、又はそうした方法、プロセス、デバイス、若しくはシステムに固有の、他の要素を含み得る。また、「又は（ｏｒ）」という用語は、包括的な「又は（ｏｒ）」を指し、排他的な「又は（ｏｒ）」を指すものではない。

本開示のシステム、方法、及びデバイスはそれぞれ、いくつかの革新的な態様を有し、そのうちの１つが本明細書に開示されるすべての望ましい属性を単独で担うものではない。本明細書に説明された主題の１又は複数の実施態様の詳細は、以下の説明及び添付の図面に明記されている。
例示的なＤＮＮアーキテクチャ

図１は、さまざまな実施形態に係る、一例示的なＤＮＮ１００のアーキテクチャを示している。例示の目的のため、図１のＤＮＮ１００は、視覚幾何学グループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ、ＶＧＧ）ベースの畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）である。他の実施形態では、ＤＮＮ１００は、他のタイプのＤＮＮであり得る。ＤＮＮ１００は、画像を受け取り、画像内の物体の分類を出力するように訓練される。図１の実施形態では、ＤＮＮ１００は、物体１１５、１２５、及び１３５含む入力画像１０５を受け取る。ＤＮＮ１００は、複数の畳み込み層１１０（「畳み込み層１１０」と個々に称される）と、複数のプーリング層１２０（「プーリング層１２０」と個々に称される）と、複数の全結合層１３０（「全結合層１３０」と個々に称される）とを含む一連の層を含む。他の実施形態では、ＤＮＮ１００は、より少ない、より多い、又は異なる層を含み得る。

畳み込み層１１０は、入力画像１０５内の特徴の存在を集約する。畳み込み層１１０は、特徴抽出器として機能する。ＤＮＮ１００の第１層は、畳み込み層１１０である。一例では、畳み込み層１１０は、フィルタ１５０を使用してＩＦＭ１４０に畳み込みを実行し、畳み込みからＯＦＭ１６０を生成し、ＯＦＭ１６０をシーケンス内の次の層に渡す。ＩＦＭ１４０は、複数のＩＦＭ行列を含み得る。フィルタ１５０は、複数の重み行列を含み得る。ＯＦＭ１６０は、複数のＯＦＭ行列を含み得る。ＤＮＮ１００の第１層でもある第１の畳み込み層１１０については、ＩＦＭ１４０は入力画像１０５である。他の畳み込み層については、ＩＦＭ１４０は、別の畳み込み層１１０の出力、又はプーリング層１２０の出力であり得る。畳み込みは、フィルタ１５０とＩＦＭ１４０との乗算を伴う線形演算である。フィルタは、重みの２次元アレイであり得る。フィルタの重みは、初期化され、勾配降下法を使用して逆誤差伝搬法によって更新されることができる。フィルタの重みの大きさは、ＩＦＭ１４０から特徴を抽出する際のフィルタ１５０の重要性を示すことができる。フィルタは、ＩＦＭ１４０よりも小さくあり得る。

ＩＦＭ１４０のフィルタサイズのパッチとフィルタとの間に適用される乗算はドット積であり得る。ドット積は、ＩＦＭ１４０のフィルタサイズのパッチと対応するフィルタとの間の要素ごとの乗算であり、次いで合計され、常に単一の値をもたらす。単一の値をもたらすことから、この演算はしばしば「スカラ積」と称される。ＩＦＭ１４０よりも小さいフィルタを使用することは、ＩＦＭ１４０上の異なる点で同じフィルタ（重みのセット）にＩＦＭ１４０を複数回乗算することを可能にするので、意図的である。具体的には、フィルタは、ＩＦＭ１４０の各重なる部分又はフィルタサイズのパッチに、左から右、一番上から一番下に体系的に適用される。フィルタにＩＦＭ１４０を１回乗算した結果は、単一の値である。フィルタがＩＦＭ１４０に複数回適用されるので、乗算結果は、ＩＦＭ１４０のフィルタリングを表す出力値の２次元アレイになる。そのため、この動作からの２次元出力アレイは「特徴マップ」と呼ばれる。

いくつかの実施形態では、ＯＦＭ１６０は、活性化関数に通される。例示的な活性化関数は、正規化線形活性化関数（ＲｅＬＵ）である。ＲｅＬＵは、入力として提供された値をそのまま、又は入力が０以下の場合は値０を返す計算である。畳み込み層１１０は、いくつかの画像を入力として受け取り、それらのそれぞれとフィルタのそれぞれとの畳み込みを計算し得る。このプロセスは、数回繰り返されることができる。たとえば、ＯＦＭ１６０は、後続の畳み込み層１１０（すなわち、シーケンス内で、ＯＦＭ１６０を生成する畳み込み層１１０に続く畳み込み層１１０）に渡される。後続の畳み込み層１１０は、ＯＦＭ１６０に対して新しいフィルタとの畳み込みを実行し、新しい特徴マップを生成する。新しい特徴マップはまた、正規化及びリサイズもされ得る。新しい特徴マップは、さらなる後続の畳み込み層１１０によって再びフィルタリングされることができる、が同じように続く。

いくつかの実施形態では、畳み込み層１１０は、４つのハイパーパラメータ、すなわち、フィルタの数、サイズＦフィルタ（たとえば、フィルタがＦ×Ｆ×Ｄ画素の寸法である）、フィルタに対応するウィンドウが画像上でドラッグされるＳステップ（たとえば、１のステップは、ウィンドウを１回に１画素移動させることを意味する）、及び０パディングＰ（たとえば、畳み込み層１１０の入力画像にＰピクセル厚の黒い輪郭を追加する）を有する。畳み込み層１１０は、２次元畳み込み、拡張畳み込み又はアトラス畳み込み、空間的分離可能畳み込み、深さごとの分離可能畳み込み、転置畳み込みなど、さまざまなタイプの畳み込みを実行し得る。ＤＮＮ１００は、１６の畳み込み層１１０を含む。他の実施形態では、ＤＮＮ１００は、異なる数の畳み込み層を含み得る。

プーリング層１２０は、たとえば、特徴マップのパッチ内の特徴の存在を集約することによって、畳み込み層によって生成された特徴マップをダウンサンプリングする。プーリング層１２０は、２つの畳み込み層１１０の間、すなわち、先行する畳み込み層１１０（層のシーケンスにおいてプーリング層１２０に先行する畳み込み層１１０）と後続の畳み込み層１１０（層のシーケンスにおいてプーリング層１２０に後続する畳み込み層１１０）との間に配置される。いくつかの実施形態では、プーリング層１２０は、畳み込み層１１０の後、たとえば活性化関数（たとえば、ＲｅＬＵ）がＯＦＭ１６０に適用された後に追加される。

プーリング層１２０は、先行する畳み込み層１１０によって生成された特徴マップを受け取り、特徴マップにプーリング演算を適用する。プーリング演算は、それらの重要な特性を維持しながら特徴マップのサイズを減少させる。それに応じて、プーリング演算は、ＤＮＮの効率を向上させ、過学習を回避する。プーリング層１２０は、平均プーリング（特徴マップ上の各パッチについて平均値を計算する）、最大値プーリング（特徴マップの各パッチについて最大値を計算する）、又はその両方の組合せによってプーリング演算を実行し得る。プーリング演算のサイズは、特徴マップのサイズよりも小さい。さまざまな実施形態において、プーリング演算は、２ピクセルのストライドで適用される２×２ピクセルであり、その結果、プーリング演算は、特徴マップのサイズを２分の１に減少させ、たとえば、特徴マップ内のピクセル又は値の数は、サイズの４分の１に減少させられる。一例では、６×６の特徴マップに適用されたプーリング層１２０は、３×３の出力プール済特徴マップをもたらす。プーリング層１２０の出力は、さらなる特徴抽出のために後続の畳み込み層１１０に入力される。いくつかの実施形態では、プーリング層１２０は、同じ数のプール済特徴マップの新しいセットを生成するために、各特徴マップに対して別々に動作する。

全結合層１３０は、ＤＮＮの最後の層である。全結合層１３０は、畳み込みであってもなくてもよい。全結合層１３０は、入力ベクトルを受け取る。入力ベクトルは、畳み込み層１１０及びプーリング層１２０の出力を定義し、シーケンスにおける最後のプーリング層１２０によって生成された最後の特徴マップの値を含む。全結合層１３０は、線形結合及び活性化関数を入力ベクトルに適用し、出力ベクトルを生成する。出力ベクトルは、クラスと同数の要素を含み得、すなわち、要素ｉは、画像がクラスｉに属する確率を表す。したがって、各要素は０と１との間であり、すべての合計は１に値する。これらの確率は、活性化関数としてロジスティック関数（二値分類）又はソフトマックス関数（多クラス分類）を使用して、最後の全結合層１３０によって計算される。

いくつかの実施形態では、全結合層１３０は、入力画像１０５を分類し、サイズＮのベクトルを返し、Ｎは、画像分類問題におけるクラスの数である。図１の実施形態では、入力画像内に３つの物体１１５、１２５、及び１３５があるので、Ｎは３に等しい。ベクトルの各要素は、入力画像１０５がクラスに属する確率を示す。確率を計算するために、全結合層１３０は、各入力要素に重みを乗算し、合計を作成し、次いで活性化関数（たとえば、Ｎ＝２の場合はロジスティック、Ｎ＞２の場合はソフトマックス）を適用する。これは、入力ベクトルに重みを含む行列を乗算することに相当する。一例では、出力ベクトルは、物体１１５が木であることを示す第１の確率、物体１２５が車であることを示す第２の確率、物体１３５が人であることを示す第３の確率の、３つの確率を含む。入力画像１０５が異なる物体又は異なる数の物体を含む他の実施形態では、出力ベクトルは異なり得る。
例示的な疎ＤＮＮアクセラレータ

図２は、さまざまな実施形態に係る、一例示的な疎ＤＮＮアクセラレータ２２０のアーキテクチャを示している。疎ＤＮＮアクセラレータ２２０は、疎行列計算によってＤＮＮ層の畳み込みをアクセラレーションする。疎ＤＮＮアクセラレータ２２０は、システムメモリ２１０と計算モジュール２４０とに連結された圧縮モジュール２３０を含む。他の実施形態では、疎ＤＮＮアクセラレータ２２０は、より少ない、より多い、又は異なるコンポーネントを含み得る。

システムメモリ２１０は、ＤＮＮ層のＩＦＭ及びフィルタの重みを格納する。システムメモリ２１０は、疎ＤＮＮアクセラレータ２２０の外部にある。圧縮モジュール２３０は、ＩＦＭ行列内の疎性を低減するためにＩＦＭ行列を圧縮することができる。いくつかの実施形態では、圧縮モジュール２３０は、ＩＦＭをさまざまな圧縮された疎フォーマット、たとえば、座標リスト（ｃｏｏｒｄｉｎａｔｅｌｉｓｔ、ＣＯＯ）、圧縮疎行（ｃｏｍｐｒｅｓｓｅｄｓｐａｒｓｅｒｏｗ、ＣＳＲ）、圧縮行格納（ｃｏｍｐｒｅｓｓｅｄｒｏｗｓｔｏｒａｇｅ、ＣＲＳ）などに圧縮する。いくつかの実施形態では、圧縮モジュール２３０は、ＩＦＭ内の疎性にもかかわらず、ＩＦＭを圧縮しない。ＩＦＭは、システムメモリ２１０からそのまま計算モジュール２４０に伝送されることができる。圧縮モジュール２３０はまた、重み行列を圧縮し得る。ＩＦＭ行列及び重み行列に関するさらなる詳細は、図６Ａ～図６Ｄに関連して以下に説明される。

計算モジュール２４０は、ＤＮＮ層のＯＦＭを生成するために、ＤＮＮ層のＩＦＭ及びフィルタに対して行列計算を実行する。たとえば、計算モジュール２４０は、畳み込み層において畳み込みを実行する。計算モジュール２４０は、重みメモリ２５０と、乗算コントローラ２５５と、バッファ２６０と、スイッチ２６５と、入力メモリ２７０と、別のスイッチ２７５と、ＰＥ２８０と、出力メモリ２８５とを含む。重みメモリ２５０は、ＤＮＮ層内のフィルタの重みを格納する。いくつかの実施形態では、重みメモリ２５０は、１つのフィルタ又はフィルタのサブセットの重みを格納する。入力メモリ２７０は、システムメモリ２１０又は圧縮モジュール２３０からの入力データを格納する。入力データは、ＤＮＮ層のＩＦＭ、圧縮されたバージョンのＩＦＭ、又は非圧縮の若しくは圧縮されたＩＦＭの一部、であり得る。出力メモリ２８５は、ＰＥ２８０の出力である、ＤＮＮ層のＯＦＭを格納する。重みメモリ２５０、入力メモリ２７０、又は出力メモリ２８５は、１又は複数のレジスタファイルを含むＲＡＭであり得る。入力メモリ２７０は、入力メモリ２７０からＰＥ２８０への効率的なデータ伝送を容易にするために、広い帯域幅を有するレジスタファイルであり得る。

乗算コントローラ２５５は、計算モジュール２４０が重みメモリ２５０に格納された重みに基づいて行列計算を実行するかどうかを決定する。いくつかの実施形態では、乗算コントローラ２５５は、ＷＲＡＭから重み行列にアクセスする。重み行列は、フィルタ又はフィルタの一部であっあり得る。重み行列は、１又は複数の行を含む。各行は重みを含む。重みは、０又は非０の値を有し得る。乗算コントローラ２５５は、行内の重みの値に基づいて、重み行列内の各行について行値を決定する。たとえば、乗算コントローラ２５５は、行内のいずれかの重みが非０値を有するかどうかを決定する。行内の少なくとも１つの重みが非０値を有すると乗算コントローラ２５５が決定する一実施形態では、乗算コントローラ２５５は、行の行値が１であると決定する。行内の重みが非０値を全く有しない（すなわち、すべての重みが０値である）と乗算コントローラ２５５が決定する一実施形態では、乗算コントローラ２５５は、行の行値が０であると決定する。

乗算コントローラ２５５は、行値をバッファ２６０に格納する。バッファ２６０内の行値は、たとえば、スイッチ２６５及び２７５をオン及びオフにすることによって、スイッチ２６５及び２７５をコントロールする。スイッチ２６５は、重みメモリ２５０に関連付けられた読み出し動作をコントロールする。スイッチ２７５は、入力メモリ２７０からＰＥ２８０へのデータの伝送をコントロールする。たとえば、行値が０である場合、スイッチ２６５はオフになり、重みメモリ２５０からデータを読み出さない。０値の行値は、対応する行内のすべての重みが０値を有することを示し、したがって、この行では重みに対してＭＡＣ演算が行われる必要がない。スイッチ２７５はまた、入力メモリ２７０からＰＥ２８０へのデータ伝送をブロックするためにオフになり、その結果、ＰＥ２８０はデータを受信せず、一切のＭＡＣ演算を実行しない。対照的に、行値が１である場合、スイッチ２６５はオンになり、重みメモリ２５０から行の重みを読み出す。１値の行値は、対応する行内の少なくとも１つの重みが非０値を有することを示し、したがって、この行についてＭＡＣ演算が必要とされる。行の重みは、入力メモリ２７０に読み出されることができる。スイッチ２７５もオンし、入力データ及び重みが入力メモリ２７０からＰＥ２８０へ伝送されることを可能にする。

ＰＥ２８０は、入力データ及び重みに対してＭＡＣ演算を実行する。いくつかの実施形態では、ＰＥは、ＤＮＮ内のニューロンであり得る。ＰＥ２８０は、２つの入力信号、すなわち、入力データ及び重み、並びに１つの出力信号、すなわち、ＭＡＣ演算の結果、を有する。いくつかの実施形態では、ＰＥ２８０は、乗算器のアレイ及び積算器のアレイを含む。各乗算器は、入力信号の一部に対して乗算演算を実行する。積算器は、積算演算を実行する。積算器は互いに接続されている。一実施形態では、各積算器は異なる乗算器に対応し、乗算器の出力を入力として受け取る。また、積算器の出力は、積算器間の相互接続を経由して入力として他の積算器に送られる（場合によっては自身に戻される）。積算器の出力は、積算器の積算演算によって１又は複数の他の積算器の出力を組み込むことができる。

圧縮モジュール２３０がＩＦＭを圧縮する実施形態などの他の実施形態では、ＰＥ２８０はまた、デマルチプレクサも含み得る。デマルチプレクサは、乗算演算の結果に対してデマルチプレクス動作を実行する。ＰＥ２８０の出力を生成するために、デマルチプレクス動作の結果に対して積算演算が実行される。デマルチプレクス動作は、ＰＥ２８０の出力を再構成し、その結果、疎ＤＮＮアクセラレータ２２０の外部で出力を再構成するために追加のステップは必要ない。ＰＥ２８０についてのさらなる詳細は、図３、及び図５Ａ～図５Ｃに関連して以下に説明される。

図３は、さまざまな実施形態に係る、一例示的なＰＥ３００のアーキテクチャを示している。ＰＥ３００は、図２のＰＥ２８０の一実施形態である。ＰＥ３００は、圧縮モジュール２３０がＩＦＭを圧縮する疎ＤＮＮアクセラレータ２２０の実施形態において使用され得る。図３に示されるように、ＰＥ３００は、乗算器３１０Ａ～３１０Ｃ（「乗算器３１０」と総称される）と、デマルチプレクサ３２０と、積算器３３０Ａ～３３０Ｃ（「積算器３３０」と総称される）とを含む。簡単及び例示の目的のために、ＰＥ３００は、３つの乗算器３１０と３つの積算器３３０とを含む。他の実施形態では、ＰＥ３００は、より多くの乗算器３１０又は積算器３３０を含み得る。

各乗算器３１０は、ＤＮＮ層のＩＦＭの一部と、ＤＮＮ層のフィルタ重みの一部との乗算演算を実行する。乗算器３１０は、各乗算演算からドット積を返し得る。乗算器３１０の出力は、デマルチプレクサ３２０に伝送される。デマルチプレクサ３２０は、乗算器３１０の出力に対してデマルチプレクス動作を実行する。デマルチプレクサ３２０は、圧縮モジュール２３０によって行われたＩＦＭの圧縮を相殺するために乗算器３１０の出力を再構成する。デマルチプレクサ３２０は、乗算器３１０の出力を対応する積算器３３０にマッピングする。たとえば、デマルチプレクサ３２０は、乗算器３１０Ａの出力に対してデマルチプレクス動作を実行し、デマルチプレクス動作の結果を積算器３３０Ａに伝送する。デマルチプレクサ３２０をＰＥ３００に統合することによって、再構成がニアメモリで行われることができ、疎ＤＮＮアクセラレータ２２０の外部に追加の再構成ステップは必要とされない。これによって、データ移動を最小限に抑え、計算効率を向上させることができる。

積算器３３０は、デマルチプレクス動作の結果に対して積算演算を実行する。積算器３３０は接続されている。たとえば、積算器３３０Ａの出力は、積算器３３０Ｂに、それらの相互接続を通じて送られることができる。上述されるように、積算器３３０Ｂはまた、デマルチプレクサ３２０を通じて乗算器３１０Ｂの再構成された出力を受け取る。積算器３３０Ｂは、積算器３３０Ａの出力、及び乗算器３１０Ｂの再構成された出力に対して積算演算を実行することができる。同様に、積算器３３０Ｃは、積算器３３０Ｂの出力、及び乗算器３１０Ｃの再構成された出力に対して積算演算を実行することができる。積算器３３０Ｃがシーケンス内の最後の積算器３３０であると仮定する。積算器３３０Ｃの出力が、ＰＥ３００の出力である。

図４は、さまざまな実施形態に係る、並列ＤＮＮアクセラレータタイル４２０を含む一例示的なタイルアーキテクチャ４００を示している。簡単及び例示の目的のために、図４は、４つのＤＮＮアクセラレータ４２０（個別に「ＤＮＮアクセラレータタイル４２０」と称される）を示している。他の実施形態では、タイルアーキテクチャ４００は、より少ない又はより多いＤＮＮアクセラレータタイル４２０を含み得る。各ＤＮＮアクセラレータタイル４２０は、タイルアーキテクチャ４００のＤＮＮ計算タイルを構成する。タイルアーキテクチャ４００は、ＤＮＮ層、たとえば畳み込み層の、アーキテクチャであり得る。

図４に示されるように、ＤＮＮアクセラレータタイル４２０は、システムメモリ４１０及び４３０に連結されている。システムメモリ４１０は、ＤＮＮ層のＩＦＭ及びフィルタを格納する。システムメモリ４３０は、ＤＮＮ層のＯＦＭを格納する。いくつかの実施形態では、システムメモリ４１０及び４３０は、１つのメモリに組み合わされる。

ＤＮＮアクセラレータタイル４２０は、並列に配置され、並列に機能する。ＤＮＮアクセラレータタイル４２０の一実施形態は、図２及び図３に関連して上述される疎ＤＮＮアクセラレータ２２０である。各ＤＮＮアクセラレータタイル４２０は、システムメモリ４１０からＩＦＭの一部及びフィルタの一部を受け取る。ＤＮＮアクセラレータタイル４２０は、受け取ったデータに対して行列計算を実行し、ＯＦＭの一部を出力する。ＤＮＮアクセラレータタイル４２０の出力は、システムメモリ４３０に格納される。そうしたＤＮＮアクセラレータタイル４２０の並列配置によって、ＤＮＮアクセラレータタイル４２０は、互いに干渉することなくシステムメモリ４１０及び４３０を共有することができる。このように、ＤＮＮ層のための全体的なメモリストレージの要件が低減されることができる。
疎行列計算をアクセラレーションする例示的なプロセス

図５Ａ～図５Ｃは、さまざまな実施形態に係る、ＤＮＮ層における疎行列計算をアクセラレーションする３つの例示的なプロセスを示している。図５Ａは、２つの行を含む重み行列５１０を示している。図５Ａはまた、行インデックス５０５内に行のインデックスも示している。１行目（一番上の行）のインデックスは０である。２行目（一番下の行）のインデックスは１である。行についての行値は、たとえば図２の乗算コントローラ２５５によって決定される。行０は非０値の重みを含むので、行０についての行値は１である。行１も非０値の重みを含むので、行１についての行値も１である。重み行列５１０は、その重みのいずれも０値ではないので、高密度表現である。行値が非０であるので、重みに対するＭＡＣ演算がトリガされることになる。ＭＡＣ演算は、行０内の重み（Ｗ［０００］）から始まる。図５Ａは、それぞれが行０内の重みを入力データ（図５Ａには示されていない）と乗算する５つの乗算器３１０を示している。図５Ａの実施形態では、入力データは圧縮された疎フォーマットであり、たとえば、ＩＦＭは圧縮モジュール２３０によって圧縮されている。入力データが圧縮されているので、次いで、乗算演算の結果は、乗算器３１０の出力を再構成するためにデマルチプレクサ３２０に送られる。さらに、デマルチプレクサ３２０の出力は、積算機能を実行するために、５つの積算器３３０に伝送される。

図５Ａとは異なり、図５Ｂは疎性を有する重み行列５２０を示している。重み行列５２０の行０は、２つの非０値の重みと３つの０値の重みとを含んでいる。たとえ行０が疎性を有していても、２つの非０値の重みがあるため、行値は依然として１であり、そのため依然として行０に対して行列計算を実行する必要がある。図５Ａと同様に、行０内の重みは、重みを入力データと乗算する５つの乗算器３１０に送られる。図５Ｂの実施形態における入力データも圧縮されたデータである。このように、乗算演算の結果は、再構成のためにデマルチプレクサ３２０に送られる。デマルチプレクサ３２０の出力は、積算機能を実行するために、５つの積算器３３０に伝送される。

図５Ｃは、より高い疎性を有する重み行列５３０を示している。重み行列５２０の行０は、５つの０値の重みを含んでおり、非０値の重みを一切含んでいない。それに応じて、行０に対して行列計算を実行する必要はなく、行０についての行値は０である。行０は乗算器３１０に送られない。対照的に、行１は非０値の重みを含んでおり、行値１を有している。そのため、行１内の重み（「Ｗ［００１］」）は乗算器３１０に送られ、入力データと乗算される。図５Ｃの実施形態における入力データは、いかなる圧縮された疎フォーマットでもなく、入力データはＩＦＭから抽出されるが、圧縮モジュール２３０によって圧縮されないことを意味する。このように、図５Ｃは、再構成が不要であるため、デマルチプレクサ３２０を含んでいない。乗算器３１０の出力は、積算器機能能を実行するために、５つの積算器３３０にそのまま伝送される。
例示的な重み行列及びＩＦＭ行列

図６Ａは、さまざまな実施形態に係る、ＤＮＮアクセラレータに関連付けられたシステムメモリに格納された重み行列６１０及びＩＦＭ行列６２０を示している。システムメモリは、図２のシステムメモリ２１０であり得る。図６Ａに示されるように、重み行列６１０は、２行２列に配置された４つの重みを含んでいる。重みはすべて非０値を有している。他の実施形態では、重みのいくつかは０値を有し得る。図６Ａはまた、重みの列インデックス６１３及び行インデックス６１５も示している。ＩＦＭ行列６２０は、３行３列を含む行列である。図６Ａはまた、ＩＦＭ行列６２０内の要素の行インデックス６２５及び列インデックス６２３も示している。ＩＦＭ行列６２０は、０値を有する５つの要素を含んでいるため、疎性を有している。疎性を考慮すると、ＩＦＭ行列６２０は、ＩＦＭ行列６２０をより高密度に、すなわち、より少ない０値の要素を有するようにするために、たとえば圧縮された疎フォーマットに圧縮され得る。ただし、ＩＦＭ行列６２０は、一切圧縮せずにそのままで格納されてもよい。重み行列６１０及びＩＦＭ行列６２０は、システムメモリから圧縮ロジック、たとえば図２の圧縮モジュール２３０に読み込まれ得る。圧縮モジュール２３０は、重み行列６１０及びＩＦＭ行列６２０のフォーマットを変更することができる。

図６Ｂは、さまざまな実施形態に係る、圧縮モジュール２３０によって図６Ａの重み行列６１０から変換された重み行列６３０を示している。重み行列６３０は、重み行列６１０の中間的表現である。図６Ｂでは、重み６３７は、それらの行インデックス６３５及び列インデックス６３３と共に格納されている。重み行列は、重みメモリ２５０にさらに伝送され、重みメモリ２５０に格納されることができる。行インデックス６３５及び列インデックス６３３は、重みメモリ２５０内の重みの位置を特定することができ、重みメモリ２５０から重みを読み出すために使用されることができる。一実施形態では、行又は列インデックスは、重み自体よりも多くのビットを有する。たとえば、行又は列インデックスは１２ビットを取り得るが、重みは１ビットを取り得る。

図６Ｃは、さまざまな実施形態に係る、図６ＡのＩＦＭ行列６２０の非圧縮状態を示している。ＩＦＭ行列６２０の非圧縮状態は、「非圧縮のＩＦＭ６４０」と称される。非圧縮のＩＦＭ６４０は、図２の圧縮モジュール２３０によって図６ＡのＩＦＭ行列６２０から変換されることができる。図６Ｂに示されるように、行インデックス６４５は、要素６４７と共に、非圧縮のＩＦＭ６４０内に新しい列として格納される。非圧縮のＩＦＭ６４０は、入力メモリ２７０に格納されることができ、ＭＡＣ演算のためにＰＥ２８０にさらに伝送されることができる。図６Ｃに示されるように、ＩＦＭ行列６２０のすべての要素が非圧縮のＩＦＭ６４０に存在しており、非圧縮のＩＦＭ６４０は圧縮されていない。デマルチプレクス動作は必要ではない。

図６Ｄは、さまざまな実施形態に係る、図６ＡのＩＦＭ行列６２０の圧縮状態を示している。ＩＦＭ行列６２０の圧縮状態は、「圧縮されたＩＦＭ６５０」と称される。圧縮されたＩＦＭ行列６５０は、図２の圧縮モジュール２３０によって生成され得る。たとえば、圧縮モジュール２３０は、ＩＦＭ行列６２０のストレージフォーマットを変換し、ＩＦＭ行列６２０を圧縮する。圧縮プロセスは、０値を有する要素６５７の除去を含む。上述されるように、圧縮モジュール２３０は、データをさまざまな圧縮された疎フォーマットに圧縮し得る。図６Ｄの実施形態では、圧縮されたＩＦＭ６５０は、ＣＯＯフォーマットを有している。図６Ｄに示されるように、圧縮されたＩＦＭ６５０内の要素６５７は、先ずは行インデックス６５５によってソートされ、次いで列インデックス６５３によってソートされる。そうした配置は、ランダムアクセス時間を改善することができ、増分行列構築に適している。０値を有する要素６５７並びにそれらの列インデックスは、図６Ｄにおいて網掛けされている。各行が少なくとも１つの非０値要素を含むので、行インデックス６５５はどれも網掛けされていない。
例示的なＤＬ環境

図７は、さまざまな実施形態に係る、ＤＬ環境７００を示している。ＤＬ環境７００は、ＤＬサーバ７１０と、複数のクライアントデバイス７２０（個々にクライアントデバイス７２０と称される）とを含んでいる。ＤＬサーバ７１０は、ネットワーク７４０を通じてクライアントデバイス７２０に接続されている。他の実施形態では、ＤＬ環境７００は、より少ない、より多い、又は異なるコンポーネントを含み得る。

ＤＬサーバ７１０は、ニューラルネットワークを使用してＤＬモデルを訓練する。ニューラルネットワークは、人間の脳のように構成されており、ノードとしても知られる人工ニューロンから成る。これらのノードは３つのタイプの層、すなわち、入力層、隠れ層、及び出力層において互いに隣接して積層されている。データは、入力の形態で各ノードに情報を提供する。ノードは、入力をランダムな重みと乗算し、それらを計算し、バイアスを加える。最後に、どのニューロンを発火させるかを決定するために、活性化関数としても知られる非線形関数が適用される。ＤＬサーバ７１０は、ＣＮＮ、リカレント・ニューラル・ネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）、敵対的生成ネットワーク（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ、ＧＡＮ）、長期短期記憶ネットワーク（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙｎｅｔｗｏｒｋ、ＬＳＴＭＮ）など、さまざまなタイプのＤＮＮを使用することができる。ＤＬモデルを訓練するプロセスの間、ニューラルネットワークは、特徴を抽出し、物体をグループ化し、有用なデータパターンを発見するために、入力分布内の未知の要素を使用する。ＤＬモデルは、たとえば予測の作成、画像の分類など、さまざまな問題を解決するために使用されることができる。ＤＬサーバ７１０は、解決される必要がある特定のタイプの問題に固有のＤＬモデルを構築し得る。ＤＬモデルは、入力を受け取り、特定の問題に対する解を出力するように訓練される。

図７において、ＤＬサーバ７１０は、ＤＮＮシステム７５０と、データベース７６０と、ディストリビュータ７７０とを含んでいる。ＤＮＮシステム７５０は、ＤＮＮを訓練する。ＤＮＮは、たとえば、自律車両、医療機器、衛星などによって撮像された画像を処理するなど、さまざまな問題を解決するために使用されることができる。一実施形態では、ＤＮＮは、入力画像を受け取り、入力画像内の物体の分類を出力する。ＤＮＮの一例は、図１と関連して上述されるＤＮＮ１００である。

データベース７６０は、ＤＬサーバ７１０と受信、使用、生成、又はその他の方法で関連付けられたデータを格納する。たとえば、データベース７６０は、ＤＮＮシステム７５０がＤＮＮを訓練するために使用する訓練データセットを格納する。一実施形態では、訓練データセットは、画像を分類するためにＤＮＮを訓練するために使用されることができる画像ギャラリである。訓練データセットは、クライアントデバイス７２０から受け取ったデータを含み得る。別の例として、データベース７６０は、ＤＬサーバ７１０によって構築されたニューラルネットワークのハイパーパラメータを格納する。

ディストリビュータ７７０は、ＤＬサーバ７１０によって生成されたＤＬモデルをクライアントデバイス７２０に供給する。いくつかの実施形態では、ディストリビュータ７７０は、ネットワーク７４０を通じてクライアントデバイス７２０からＤＮＮの要求を受け取る。要求は、クライアントデバイス７２０が解決する必要がある問題の記述を含み得る。要求はまた、クライアントデバイス上の利用可能な計算リソースを記述する情報など、クライアントデバイス７２０の情報も含み得る。クライアントデバイス７２０上の利用可能な計算リソースを記述する情報は、ネットワーク帯域幅を示す情報、利用可能なメモリサイズを示す情報、クライアントデバイス７２０の処理パワーを示す情報などであり得る。一実施形態では、ディストリビュータは、要求に従ってＤＮＮを生成するようにＤＮＮシステム７５０に命令し得る。ＤＮＮシステム７５０は、問題の記述に基づいてＤＮＮを生成し得る。代替的又は追加的に、ＤＮＮシステム７５０は、クライアントデバイス上の利用可能な計算リソースを記述する情報に基づいてＤＮＮを圧縮し得る。

いくつかの実施形態では、ディストリビュータ７７０は、クライアントデバイス７２０からフィードバックを受け取り得る。たとえば、ディストリビュータ７７０は、クライアントデバイス７２０から新しい訓練データを受け取り、ＤＮＮをさらに訓練するために新しい訓練データをＤＮＮシステム７５０に送り得る。別の例として、フィードバックは、クライアントデバイス７２０上の利用可能な計算リソースの更新を含む。ディストリビュータ７７０は、更新に基づいて異なるＤＮＮをクライアントデバイス７２０に送り得る。たとえば、クライアントデバイス７２０の計算リソースが削減されたことを示すフィードバックを受け取った後、ディストリビュータ７７０は、より小さいサイズのＤＮＮをクライアントデバイス７２０に送る。

クライアントデバイス７２０は、ディストリビュータ７７０からＤＮＮを受け取り、問題を解決するため、たとえば、画像内の物体を分類するために、ＤＮＮを適用する。さまざまな実施形態では、クライアントデバイス７２０は、ＤＮＮに画像を入力し、さまざまなアプリケーション、たとえば、視覚的再構成、拡張現実、ロボットの位置認識及びナビゲーション、医療診断、気象予測などのために、ＤＮＮの出力を使用する。クライアントデバイス７２０は、ユーザ入力を受け取り、並びにネットワーク７４０を経由してデータを伝送及び／又は受信する、ことができる１又は複数の計算デバイスであり得る。一実施形態では、クライアントデバイス７２０は、デスクトップ又はラップトップコンピュータなど、従来のコンピュータシステムである。代替的に、クライアントデバイス７２０は、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）、携帯電話、スマートフォン、自律車両、又は別の適切なデバイスなど、コンピュータ機能性を有するデバイスであり得る。クライアントデバイス７２０は、ネットワーク７４０を経由して通信するように構成されている。一実施形態では、クライアントデバイス７２０は、クライアントデバイス７２０のユーザがＤＬサーバ７１０（たとえば、ＤＬサーバ７１０のディストリビュータ７７０）とインタラクションすることを可能にするアプリケーションを実行する。クライアントデバイス７２０は、アプリケーションを通じてディストリビュータ７７０に、ＤＮＮを要求、又はフィードバックを送り得る。たとえば、クライアントデバイス７２０は、ネットワーク７４０を経由したクライアントデバイス７２０とＤＬサーバ７１０との間のインタラクションを可能にするために、ブラウザアプリケーションを実行する。別の実施形態では、クライアントデバイス７２０は、ＩＯＳ（登録商標）又はＡＮＤＲＯＩＤ（登録商標）など、クライアントデバイス７２０のネイティブ・オペレーティング・システム上で実行されるアプリケーション・プログラミング・インタフェース（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ、ＡＰＩ）を通じてＤＬサーバ７１０とインタラクションする。

一実施形態では、クライアントデバイス７２０は、スタンドアロンのネットワーク対応デバイスとして動作する統合された計算デバイスである。たとえば、クライアントデバイス７２０は、ディスプレイ、スピーカ、マイク、カメラ、及び、入力デバイスを含む。別の実施形態では、クライアントデバイス７２０は、テレビ又は他の外部ディスプレイ及び／又はオーディオ出力システムなどの外部メディアデバイスに連結するための計算デバイスである。この実施形態では、クライアントデバイス７２０は、無線インタフェース又は有線インタフェース（たとえば、ＨＤＭＩ（登録商標）ケーブル）を経由して外部メディアデバイスに連結し得、それのディスプレイ、スピーカ、マイク、カメラ、及び入力デバイスなどの外部メディアデバイスのさまざまな機能を利用し得る。ここで、クライアントデバイス７２０は、特にクライアントデバイス７２０とインタラクションするための専用のソフトウェア、ファームウェア、又はハードウェアを有しない汎用外部メディアデバイスと互換性があるように構成され得る。

ネットワーク７４０は、ＤＬサーバ７１０とクライアントデバイス７２０との間の通信をサポートする。ネットワーク７４０は、有線通信システム及び／又は無線通信システムの両方を使用して、ローカル・エリア・ネットワーク及び／又はワイド・エリア・ネットワークの任意の組合せを含み得る。一実施形態では、ネットワーク７４０は、標準的な通信技術及び／又はプロトコルを使用し得る。たとえば、ネットワーク７４０は、イーサネット（登録商標）、８０７．１１、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（ｗｏｒｌｄｗｉｄｅｉｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒｍｉｃｒｏｗａｖｅａｃｃｅｓｓ、ＷｉＭＡＸ（登録商標））、３Ｇ、４Ｇ、符号分割多重アクセス（ｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ、ＣＤＭＡ）、デジタル加入者回線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ、ＤＳＬ）などの技術を使用する通信リンクを含み得る。ネットワーク７４０を経由して通信するために使用されるネットワーキングプロトコルの例は、マルチプロトコル・ラベル・スイッチング（ｍｕｌｔｉｐｒｏｔｏｃｏｌｌａｂｅｌｓｗｉｔｃｈｉｎｇ、ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ｔｒａｎｓｍｉｓｓｉｏｎｃｏｎｔｒｏｌｐｒｏｔｏｃｏｌ／Ｉｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌ、ＴＣＰ／ＩＰ）、ハイパーテキスト転送プロトコル（ｈｙｐｅｒｔｅｘｔｔｒａｎｓｐｏｒｔｐｒｏｔｏｃｏｌ、ＨＴＴＰ）、簡易メール転送プロトコル（ｓｉｍｐｌｅｍａｉｌｔｒａｎｓｆｅｒｐｒｏｔｏｃｏｌ、ＳＭＴＰ）、及びファイル転送プロトコル（ｆｉｌｅｔｒａｎｓｆｅｒｐｒｏｔｏｃｏｌ、ＦＴＰ）を含み得る。ネットワーク７４０を通じて交換されるデータは、ハイパーテキストマークアップ言語（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ、ＨＴＭＬ）又は拡張可能マークアップ言語（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ、ＸＭＬ）など、任意の適切なフォーマットを使用して表され得る。いくつかの実施形態では、ネットワーク７４０の通信リンクの全部又は一部は、任意の適切な技術を使用して暗号化され得る。
例示的なＤＮＮシステム

図８は、さまざまな実施形態に係る、ＤＮＮシステム７５０のブロック図である。ＤＮＮシステム７５０は、画像分類、生物細胞間の関係の学習（たとえば、ＤＮＡ、タンパク質など）、デバイスのコントロール挙動（たとえば、ロボット、機械など）など、さまざまな問題を解決するために、ＤＮＮを訓練及び適用する。ＤＮＮシステム７５０は、インタフェースモジュール８１０と、訓練モジュール８２０と、バリデーションモジュール８３０と、アプリケーションモジュール８４０と、メモリ８６０とを含む。他の実施形態では、代替的な構成、異なる又は追加のコンポーネントがＤＮＮシステム７５０に含まれ得る。さらに、ＤＮＮシステム７５０のコンポーネントに帰属する機能性は、ＤＮＮシステム７５０に含まれる異なるコンポーネント又は異なるシステムによって達成されてもよい。

インタフェースモジュール８１０は、ＤＮＮシステム７５０と他のシステムとの通信を容易にする。たとえば、インタフェースモジュール８１０は、ＤＮＮを訓練するために使用されることができるデータ又はタスクを実行するためのＤＮＮへの入力を受け取るために、ＤＮＮシステム７５０と外部データベースとの間の通信を確立する。別の例として、インタフェースモジュール８１０は、ＤＮＮを他のシステム、たとえば、タスクを実行するためにＤＮＮを適用するように構成された計算デバイスに供給するために、ＤＮＮシステム７５０をサポートする。

訓練モジュール８２０は、訓練データセットを使用してＤＮＮを訓練する。訓練モジュール８２０は、訓練データセットを形成する。訓練データセットの一例は、訓練物体及び訓練ラベルを含む。訓練ラベルは、対応する訓練物体のグランドトゥルースを記述する。いくつかの実施形態では、最初にＤＮＮを訓練するために訓練データセットの一部が使用され得、訓練データセットの残りは、訓練済みＤＮＮをバリデーションするためのバリデーションサブセットとしてバリデーションモジュール８３０によって保留され得る。

訓練モジュール８２０はまた、ＤＮＮを訓練するためのハイパーパラメータも決定する。ハイパーパラメータは、ＤＮＮ訓練プロセスを指定する変数である。いくつかの実施形態では、ハイパーパラメータは、隠れ層の数など、ＤＮＮのアーキテクチャを決定する変数を含む。ハイパーパラメータはまた、バッチサイズ、エポック数など、ＤＮＮがどのように訓練されるかを決定する変数を含む。バッチサイズは、ＤＮＮのパラメータを更新する前にこなすべき訓練サンプルの数を定義する。バッチサイズは、訓練データセット内のサンプル数と同じか又はそれよりも小さい。訓練データセットは、１又は複数のバッチに分割されることができる。エポック数は、訓練データセット全体がネットワーク全体を通じてフォアワード及びバックワードに何回パスされるかを定義する。エポックは、１又は複数のバッチを含み得る。エポック数は、１０、１００、５００、１０００、又はそれ以上であり得る。ハイパーパラメータは、ＤＮＮ内部のパラメータ（たとえば、フィルタの重み）とは異なる。

訓練モジュール８２０は、たとえばハイパーパラメータのいくつかに基づいて、ＤＮＮのアーキテクチャを定義する。ＤＮＮのアーキテクチャは、入力層と、出力層と、複数の隠れ層とを含む。訓練モジュール８２０は、訓練データセットをＤＮＮに入力し、生成された訓練物体のラベルと訓練ラベルとの間の誤差を最小にするようにＤＮＮ内のパラメータを修正する。パラメータは、ＤＮＮの畳み込み層内のフィルタの重みを含む。いくつかの実施形態では、訓練モジュール８２０は、誤差を最小化するためにコスト関数を使用する。訓練モジュール８２０が所定数のエポックを終了した後、訓練モジュール８２０は、ＤＮＮ内のパラメータの更新を停止し得る。更新されたパラメータを有するＤＮＮは、訓練済みＤＮＮと称される。

バリデーションモジュール８３０は、訓練済みＤＮＮの精度を検証する。いくつかの実施形態では、バリデーションモジュール８３０は、バリデーションデータセット内のサンプルをＤＮＮに入力し、モデル精度を決定するためにＤＮＮの出力を使用する。いくつかの実施形態では、バリデーションデータセットは、訓練データセット内のいくつか又はすべてのサンプルから形成され得る。追加的又は代替的に、バリデーションデータセットは、訓練セット内のサンプル以外に追加のサンプルを含む。いくつかの実施形態では、バリデーションモジュール８３０は、ＤＮＮの適合率（ｐｒｅｃｉｓｉｏｎ）、再現率（ｒｅｃａｌｌ）、又は適合率と再現率との組合せを測定する精度スコアを決定し得る。バリデーションモジュール８３０は、精度スコアを決定するために以下のメトリックを使用し得、すなわち、適合率＝ＴＰ／（ＴＰ＋ＦＰ）及び再現率＝ＴＰ／（ＴＰ＋ＦＮ）であり、適合率は、予測した総数（ＴＰ＋ＦＰ又は偽陽性）のうちの参照分類モデルが正しく予測した数（ＴＰ又は真陽性）であり得、再現率は、当該の特性をまさに有していた物体の総数（ＴＰ＋ＦＮ又は偽陰性）のうちの参照分類モデルが正しく予測した数（ＴＰ）であり得る。Ｆ値（Ｆ値＝２＊ＰＲ／（Ｐ＋Ｒ））は、適合率と再現率とを単一の尺度に統合する。

バリデーションモジュール８３０は、精度スコアを閾値スコアと比較し得る。一例では拡張モデルの精度スコアが閾値スコアよりも低いとバリデーションモジュール８３０が決定した一例では、バリデーションモジュール８３０は、ＤＮＮを再訓練するように訓練モジュール８２０に命令する。一実施形態では、訓練モジュール８２０は、ＤＮＮが十分に正確であり得るという精度測定指示、又は行われた訓練ラウンドの数など、停止条件の発生までＤＮＮを反復的に再訓練し得る。

アプリケーションモジュール８４０は、タスクを実行するために、訓練済みＤＮＮを適用する。たとえば、アプリケーションモジュール８４０は、ＤＮＮに画像を入力する。ＤＮＮは、画像内の物体の分類を出力する。一例として、ＤＮＮは、セキュリティカメラによって撮像された画像内の悪意のある又は危険な物体を検出するためにセキュリティ設定でプロビジョニングされ得る。別の例として、ＤＮＮは、自律車両のカメラによって撮像された画像内の物体（たとえば、道路標識、危険物、人間、ペットなど）を検出するようにプロビジョニングされ得る。ＤＮＮへの入力は、訓練データセットがＤＮＮに提供された方法を反映する所定の入力構造に従ってフォーマットされ得る。ＤＮＮは、たとえば、画像の分類、検出された物体のリスト、検出された物体の境界、などであり得る出力構造を生成し得る。いくつかの実施形態では、アプリケーションモジュール８４０は、他のシステムがタスクを実行するためにＤＮＮを適用するために、ＤＮＮを他のシステム、たとえば、ＤＮＮシステム７５０と通信する計算デバイスに供給する。

図８において、アプリケーションモジュール８４０は、乗算コントロールモジュール８５０を含んでいる。乗算コントロールモジュール８５０は、ＤＮＮにおける行列計算をコントロールする。乗算コントロールモジュール８５０の一実施形態は、図２の乗算コントローラ２５５である。いくつかの実施形態では、乗算コントロールモジュール８５０は、重みの値に基づいてＤＮＮにおいて行列計算が実行されるかどうか、又はいつ実行されるかを決定する。たとえば、乗算コントロールモジュール８５０は、ＤＮＮの層の重み行列を格納するＷＲＡＭから重み行列を読み出す。乗算コントロールモジュール８５０は、重み行列の行を特定し、その行内の重みの値に基づいて、行値を決定する。たとえば、乗算コントロールモジュール８５０は、行が非０値の重みを有するかどうかを決定する。行が非０値の重みを有すると決定したことに応答して、乗算コントロールモジュール８５０は、行値が１であると決定する。そうでない場合、乗算コントロールモジュール８５０は、行値が０であると決定する。乗算コントロールモジュール８５０は、行値を一時的に格納するバッファ、たとえばバッファ２６０に行値を送り得る。行値は、ＤＮＮ層内のＰＥがＭＡＣ演算のために重み及び入力データを受け取るかどうかをコントロールするために使用される。

いくつかの実施形態では、行値は２つのスイッチに送られる。第１のスイッチは、行値１を受け取った後、行値に対応する行内の重みを読み出すために、ＷＲＡＭに読み出し要求を送る。ただし、行値が０である実施形態では、第１のスイッチはＷＲＡＭにいかなる読み出し要求も送らない。第２のスイッチは、行値１を受け取った後、ＤＮＮ層内のＩＲＡＭからＰＥへの間にデータ伝送経路を形成する。データ伝送経路は、広い帯域幅を通じてＩＲＡＭをＰＥに接続するバスを含み得る。いくつかの実施形態では、第２のスイッチは、１の値の行値によってトリガされると、データ伝送バスを形成するために閉じる。ＩＲＡＭは、ＤＮＮ層のＩＦＭ行列を格納する。ＩＦＭ行列のデータ（「入力データ」）は、データ伝送経路を通じてＰＥに送られることができる。ＩＲＡＭはまた、入力データ及び重みの両方がデータ伝送経路を通じてＰＥに伝送されることができるように、ＷＲＡＭから読み出された重みも格納し得る。

重み及び入力データの読み出し及び伝送をコントロールすることによって、乗算コントロールモジュール８５０は、行値が０である、すなわち、行内のすべての重みが０値であるシナリオにおいて、ＰＥがＭＡＣ演算を実行することを防止する。このように、乗算コントロールモジュール８５０は、ＤＮＮ層の効率を向上させる。さらに、乗算コントロールモジュール８５０及びスイッチがＷＲＡＭ及びＩＲＡＭの近くにあるので、乗算コントロールモジュール８５０、ＷＲＡＭ、ＩＲＡＭ、及びＰＥの間のデータ移動が最小限に抑えられることができ、時間及び計算リソースの消費も最小限に抑えられることができることを意味する。

メモリ８６０は、ＤＮＮシステム７５０と受信、生成、使用、又はその他の方法で関連付けられたデータを格納する。たとえば、メモリ８６０は、訓練モジュール８２０及びバリデーションモジュール８３０によって使用されるデータセットを格納する。メモリ８６０はまた、ＤＮＮを訓練するためのハイパーパラメータ、ＤＮＮを圧縮するためのアルゴリズムなど、訓練モジュール８２０、バリデーションモジュール８３０、及びアプリケーションモジュール８４０によって生成されたデータも格納し得る。メモリ８６０は、訓練モジュール８２０によって生成されたＤＮＮの内部パラメータをさらに格納し得る。図８の実施形態では、メモリ８６０はＤＮＮシステム７５０のコンポーネントである。他の実施形態では、メモリ８６０は、ＤＮＮシステム７５０の外部にあり得、ネットワークを通じてＤＮＮシステム７５０と通信し得る。
ＤＮＮ層をアクセラレーションする例示的な方法

図９は、さまざまな実施形態に係る、ＤＮＮにおける疎行列計算をコントロールする方法を示すフローチャートである。方法９００は、図８に関連して上述される乗算コントロールモジュール８５０によって実行され得る。方法９００は、図９に示されるフローチャートを参照しつつ説明されるが、ディープラーニングにおいて疎行列計算をコントロールするための多くの他の方法が代替的に使用されてもよい。たとえば、図９のステップの実行順序は変更されてもよい。別の例として、ステップのいくつかが、変更、排除、又は組み合わされ得る。

乗算コントロールモジュール８５０は、ＲＡＭから重み行列にアクセスする（９１０）。いくつかの実施形態では、乗算コントロールモジュール８５０は、狭い帯域幅を通じてＲＡＭから重み行列にアクセスする。重み行列は、複数の行を含む。乗算コントロールモジュール８５０は、重み行列の行を特定する（９２０）。行は、複数の重みを含む。

乗算コントロールモジュール８５０は、複数の重みのうちの重みが非０値を有するかどうかを決定する（９３０）。重みが非０値を有すると決定したことに応答して、乗算コントロールモジュール８５０は、その行についての行値が１であると決定する（９４０）。乗算コントロールモジュール８５０は、行値を格納するように構成されたバッファに行値をさらに送る（９５０）。行値は、ＲＡＭからの複数の重みの読み出しを可能にするために使用される。

行値は、追加のＲＡＭとＰＥとの間のデータ伝送経路を形成するためにさらに使用されることができる。データ伝送経路は、広い帯域幅を有し得る。追加のＲＡＭは、入力データを格納するように構成されている。ＰＥは、入力データ及び複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている。ＲＡＭから読み出された複数の重みは、追加のＲＡＭに伝送され得る。

いくつかの実施形態では、乗算コントロールモジュール８５０はまた、重み行列の追加の行も特定する。追加の行は追加の重みを含む。乗算コントロールモジュール８５０は、追加の重みのいずれかが非０値を有するかどうかを決定する。追加の重みのいずれも非０値を有しないと決定することに応答して、乗算コントロールモジュール８５０は、追加の行についての追加の行値が０であると決定する。乗算コントロールモジュール８５０は、追加の行値をバッファに送る。追加の行値は、ＲＡＭからの追加の重みの読み出しを防止するために使用される。
例示的な計算デバイス

図１０は、さまざまな実施形態に係る、ＤＮＮシステム７５０として使用するための一例示的な計算システムのブロック図である。計算システム１０００に含まれるようにいくつかのコンポーネントが図１０に示されているが、これらのコンポーネントのうちいずれの１又は複数も、アプリケーションに適するように省略又は複製され得る。いくつかの実施形態では、計算システム１０００に含まれるコンポーネントのいくつか又は全部は、１又は複数のマザーボードに取り付けられ得る。いくつかの実施形態では、これらのコンポーネントのいくつか又は全部は、単一のシステムオンチップ（ｓｙｓｔｅｍｏｎａｃｈｉｐ、ＳｏＣ）ダイ上に製造される。さらに、さまざまな実施形態において、計算システム１０００は、図１０に示されるコンポーネントのうち１又は複数を含まない場合があるが、計算システム１０００は、１又は複数のコンポーネントに連結するためのインタフェース回路を含み得る。たとえば、計算システム１０００は、ディスプレイデバイス１００６を含まない場合があるが、ディスプレイデバイス１００６が連結され得るディスプレイ・デバイス・インタフェース回路（たとえば、コネクタ及びドライバ回路）を含み得る。別のセットの例では、計算システム１０００は、オーディオ入力デバイス１０１８又はオーディオ出力デバイス１００８を含まない場合があるが、オーディオ入力デバイス１０１８又はオーディオ出力デバイス１００８が連結され得るオーディオ入力又は出力デバイスインタフェース回路（たとえば、コネクタ及びサポート回路）を含み得る。

計算システム１０００は、処理デバイス１００２（たとえば、１又は複数の処理デバイス）を含み得る。本明細書で使用される場合、「処理デバイス」又は「プロセッサ」という用語は、電子データをレジスタ及び／又はメモリに格納され得る他の電子データに変換するために、レジスタ及び／又はメモリからの当該の電子データを処理する、任意のデバイス又はデバイスの一部を指し得る。処理デバイス１００２は、１又は複数のデジタル・シグナル・プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向けＩＣ（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃＩＣ、ＡＳＩＣ）、ＣＰＵ、ＧＰＵ、暗号プロセッサ（ハードウェア内で暗号アルゴリズムを実行する専用プロセッサ）、サーバプロセッサ、又は任意の他の適切な処理デバイスを含み得る。計算システム１０００は、それ自体が揮発性メモリ（たとえば、ＤＲＡＭ）、不揮発性メモリ（たとえば、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ（ＲＯＭ））、フラッシュメモリ、ソリッドステートメモリ、及び／又はハードドライブなどの１又は複数のメモリデバイスを含み得るメモリ１００４を含み得る。いくつかの実施形態では、メモリ１００４は、処理デバイス１００２とダイを共有するメモリを含み得る。いくつかの実施形態では、メモリ１００４は、ディープラーニングにおいて疎行列計算をアクセラレーションするための動作を実行するように実行可能な命令を格納する１又は複数の非一時的コンピュータ可読媒体を含む。１又は複数の非一時的コンピュータ可読媒体に格納された命令は、処理デバイス１００２によって実行され得る。

いくつかの実施形態では、計算システム１０００は、通信チップ１０１２（たとえば、１又は複数の通信チップ）を含み得る。たとえば、通信チップ１０１２は、計算システム１０００へ、及びそこからのデータの転送のための無線通信を管理するために構成され得る。「無線」という用語及びその派生語は、非固体媒体を通じて変調された電磁放射線の使用によってデータを通信し得る回路、デバイス、システム、方法、技術、通信チャネルなどを説明するために使用され得る。この用語は、関連するデバイスがワイヤを一切含まないことを暗示するものではないが、いくつかの実施形態では含まない場合もある。

通信チップ１０１２は、Ｗｉ－Ｆｉ（登録商標）（ＩＥＥＥ８０２．１０ファミリ）、ＩＥＥＥ８０２．１６規格（たとえば、ＩＥＥＥ８０２．１６－２００５追補）、一切の追補、更新、及び／又は改訂（たとえば、アドバンストＬＴＥプロジェクト、ウルトラモバイルブロードバンド（ｕｌｔｒａｍｏｂｉｌｅｂｒｏａｄｂａｎｄ（ＵＭＢ）プロジェクト（「３ＧＰＰ（登録商標）２」とも称される）など）と共にロングタームエボリューション（Ｌｏｎｇ－Ｔｅｒｍ－Ｅｖｏｌｕｔｉｏｎ、ＬＴＥ）プロジェクトを含む、電気電子技術者協会（ＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｓ、ＩＥＥＥ）規格を含むがこれらには限定されない、いくつかの無線規格又はプロトコルのいずれかを実施し得る。ＩＥＥＥ８０２．１６互換性のある広帯域無線アクセス（ＢｒｏａｄｂａｎｄＷｉｒｅｌｅｓｓＡｃｃｅｓｓ、ＢＷＡ）ネットワークは、ＷｉＭＡＸネットワークと一般に称され、ＷｉＭＡＸ（登録商標）ネットワークは、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（ｗｏｒｌｄｗｉｄｅｉｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒｍｉｃｒｏｗａｖｅａｃｃｅｓｓ）を表す頭字語であり、ＩＥＥＥ８０２．１６規格の適合性及び相互運用性試験に合格した製品の認証マークである。通信チップ１０１２は、移動通信用グローバルシステム（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎ、ＧＳＭ（登録商標））、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳ）、ユニバーサル移動体通信システム（ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ、ＵＭＴＳ）、高速パケットアクセス（ＨｉｇｈＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ、ＨＳＰＡ）、進化型ＨＳＰＡ（Ｅ－ＨＳＰＡ）、又はＬＴＥネットワークに従って動作し得る。通信チップ１０１２は、ＧＳＭ（登録商標）進化型拡張データ（ＥｎｈａｎｃｅｄＤａｔａｆｏｒＧＳＭＥｖｏｌｕｔｉｏｎ、ＥＤＧＥ）、ＧＳＭＥＤＧＥ無線アクセスネットワーク（ＧＳＭＥＤＧＥＲａｄｉｏＡｃｃｅｓｓＮｅｔｗｏｒｋ、ＧＥＲＡＮ）、ユニバーサル地上無線アクセスネットワーク（ＵｎｉｖｅｒｓａｌＴｅｒｒｅｓｔｒｉａｌＲａｄｉｏＡｃｃｅｓｓＮｅｔｗｏｒｋ、ＵＴＲＡＮ）、又は進化型ＵＴＲＡＮ（ＥｖｏｌｖｅｄＵＴＲＡＮ、Ｅ－ＵＴＲＡＮ）に従って動作し得る。通信チップ１０１２は、ＣＤＭＡ、時分割多重アクセス（ＴｉｍｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＴＤＭＡ）、デジタル拡張コードレス通信（ＤｉｇｉｔａｌＥｎｈａｎｃｅｄＣｏｒｄｌｅｓｓＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ、ＤＥＣＴ）、進化データ最適化（Ｅｖｏｌｕｔｉｏｎ－ＤａｔａＯｐｔｉｍｉｚｅｄ、ＥＶ－ＤＯ）、及びこれらの派生物、並びに３Ｇ、４Ｇ、５Ｇ及びそれ以降として指定された任意の他の無線プロトコルに従って動作し得る。通信チップ１０１２は、他の実施形態では、他の無線プロトコルに従って動作し得る。計算システム１０００は、無線通信を容易にするため、及び／又は他の無線通信（ＡＭ又はＦＭ無線伝送など）を受信するためにアンテナ１０２２を含み得る。

いくつかの実施形態では、通信チップ１０１２は、電気、光、又は任意の他の適切な通信プロトコル（たとえば、イーサネット（登録商標））など、有線通信を管理し得る。上述のように、通信チップ１０１２は、複数の通信チップを含み得る。たとえば、第１の通信チップ１０１２は、Ｗｉ－Ｆｉ（登録商標）又はＢｌｕｅｔｏｏｔｈ（登録商標）などのより短距離の無線通信専用であり得、第２の通信チップ１０１２は、全地球測位システム（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ、ＧＰＳ）、ＥＤＧＥ、ＧＰＲＳ、ＣＤＭＡ、ＷｉＭＡＸ（登録商標）、ＬＴＥ、ＥＶ－ＤＯなどのより長距離の無線通信専用であり得る。いくつかの実施形態では、第１の通信チップ１０１２は無線通信専用であり得、第２の通信チップ１０１２は有線通信専用であり得る。

計算システム１０００は、バッテリ／電源回路１０１４を含み得る。バッテリ／電源回路１０１４は、１又は複数のエネルギー貯蔵デバイス（たとえば、バッテリ又はコンデンサ）、及び／又は計算システム１０００のコンポーネントを計算システム１０００とは別のエネルギー源（たとえば、ＡＣライン電源）に連結するための回路を含み得る。

計算システム１０００は、ディスプレイデバイス１００６（又は、上述のように、対応するインタフェース回路）を含み得る。ディスプレイデバイス１００６は、たとえば、ヘッドアップディスプレイ、コンピュータモニタ、プロジェクタ、タッチスクリーンディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ、フラットパネルディスプレイなど、任意の視覚的インジケータを含み得る。

計算システム１０００は、オーディオ出力デバイス１００８（又は、上述のように、対応するインタフェース回路）を含み得る。オーディオ出力デバイス１００８は、たとえば、スピーカ、ヘッドセット、又はイヤホンなど、可聴インジケータを生成する任意のデバイスを含み得る。

計算システム１０００は、オーディオ入力デバイス１０１８（又は、上述のように、対応するインタフェース回路）を含み得る。オーディオ入力デバイス１０１８は、マイク、マイクアレイ、又はデジタル機器（たとえば、電子楽器デジタルインタフェース（ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｄｉｇｉｔａｌｉｎｔｅｒｆａｃｅ、ＭＩＤＩ）出力を有する機器）など、音を表す信号を生成する任意のデバイスを含み得る。

計算システム１０００は、ＧＰＳデバイス１０１６（又は、上述のように、対応するインタフェース回路）を含み得る。ＧＰＳデバイス１０１６は、衛星ベースのシステムと通信し得、当技術分野で知られているように、計算システム１０００の位置を受信し得る。

計算システム１０００は、他の出力デバイス１０１０（又は、上述のように、対応するインタフェース回路）を含み得る。他の出力デバイス１０１０の例は、オーディオコーデック、ビデオコーデック、プリンタ、他のデバイスに情報を提供するための有線若しくは無線トランスミッタ、又は追加のストレージデバイスを含み得る。

計算システム１０００は、他の入力デバイス１０２０（又は、上述のように、対応するインタフェース回路）を含み得る。他の入力デバイス１０２０の例は、加速度計、ジャイロスコープ、コンパス、画像撮像デバイス、キーボード、マウスなどのカーソル・コントロール・デバイス、スタイラス、タッチパッド、バー・コード・リーダ、クイック・レスポンス（ＱＲ）・コード・リーダ、任意のセンサ、又は無線周波数識別（レジスタｆｉｌｅＩＤ）リーダを含み得る。

計算システム１０００は、ハンドヘルド若しくはモバイル計算システム（たとえば、携帯電話、スマートフォン、モバイル・インターネット・デバイス、音楽プレーヤ、タブレットコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、ウルトラブックコンピュータ、ＰＤＡ、ウルトラモバイル・パーソナル・コンピュータなど）、デスクトップ計算システム、サーバ若しくは他のネットワーク化された計算コンポーネント、プリンタ、スキャナ、モニタ、セットトップボックス、エンターテイメント・コントロール・ユニット、車両コントロールユニット、デジタルカメラ、デジタル・ビデオ・レコーダ、又はウェアラブル計算システムなど、任意の所望のフォームファクタを有し得る。いくつかの実施形態では、計算システム１０００は、データを処理する任意の他の電子デバイスであり得る。
選択された実施例

実施例１は、ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための装置であって、乗算コントローラであって、重み行列であって、複数の行を含む重み行列にアクセスし、複数の行のそれぞれの行毎に、それぞれの行内の重みの値に基づいて、行値を決定するように構成された乗算コントローラと、乗算コントローラによって決定された行値を格納するように構成されたバッファと、行値によってコントロールされる１又は複数のスイッチであって、重み行列と関連付けられた読み出し及び伝送動作をコントロールするように構成された、１又は複数のスイッチと、重み行列に基づいて乗算演算及び積算演算を実行するように構成された処理要素とを備える、装置を提供する。

実施例２は、乗算コントローラが、それぞれの行内の重みの値が非０値を含むかどうか決定すること、及びそれぞれの行内の重みの値が非０値を含むと決定することに応答して、行値が１に等しいと決定することによって、複数の行のそれぞれの行毎に、それぞれの行内の重みの値に基づいて、行値を決定するように構成されている、実施例１に記載の装置を提供する。

実施例３は、乗算コントローラがさらに、それぞれの行内の重みの値が非０値を含まないと決定することに応答して、行値が０に等しいと決定することによって、複数の行のそれぞれの行毎に、それぞれの行内の重みの値に基づいて、行値を決定するように構成されている、実施例２に記載の装置を提供する。

実施例４は、重み行列を格納するランダムアクセスメモリをさらに備える、実施例１に記載の装置を提供する。

実施例５は、乗算コントローラが、狭い帯域幅を通じてランダムアクセスメモリから重み行列にアクセスするように構成されている、実施例４に記載の装置を提供する。

実施例６は、１又は複数のスイッチが、重み行列に関連付けられた読み出し及び伝送動作を、バッファから行値にアクセスすること、行値が１に等しいかどうかを決定すること、及び行値が１に等しいと決定したことに応答して、行値に対応する行内の重みを読み出すためにランダムアクセスメモリに読み出し要求を送ることによってコントロールするように構成されている、実施例４に記載の装置を提供する。

実施例７は、ＤＮＮ層の入力データを格納するランダムアクセスメモリと、ランダムアクセスメモリを処理要素に接続するように構成されたバスであって、１又は複数のスイッチのうちのスイッチによってコントロールされる、バスとをさらに備える、実施例１に記載の装置を提供する。

実施例８は、スイッチが、バッファから行値にアクセスし、行値が１に等しいかどうかを決定し、行値が１に等しいと決定することに応答して、ランダムアクセスメモリから処理要素に入力データを伝送するために、ランダムアクセスメモリを処理要素に接続するようにバスをコントロールするように構成されている、実施例７に記載の装置を提供する。

実施例９は、入力データが、広い帯域幅を通じてランダムアクセスメモリから処理要素に伝送される、実施例８に記載の装置を提供する。

実施例１０は、処理要素が、乗算演算を実行するように構成された乗算器と、積算演算を実行するように構成された積算器であって、積算器の積算演算は、乗算器の出力と別の積算器の出力とを積算することを含む、積算器とを有する、実施例１に記載の装置を提供する。

実施例１１は、処理要素が、乗算器及び積算器に連結されたデマルチプレクサであって、乗算器の出力に対してデマルチプレクス動作を実行するように構成されており、デマルチプレクス動作は、０の値を有する要素を乗算器の出力に追加することを含む、デマルチプレクサをさらに有する、実施例１０に記載の装置を提供する。

実施例１２は、乗算器のうちのそれぞれの乗算器が、積算器のうちの異なる積算器にそれぞれ対応し、デマルチプレクサは、それぞれの乗算器の出力に対するデマルチプレクス動作の結果を対応する積算器に送るようにさらに構成されている、実施例１１に記載の装置を提供する。

実施例１３は、ＤＮＮ層の入力特徴マップ行列を圧縮することによって入力データを生成する圧縮モジュールをさらに備え、乗算器は、入力データに対して乗算演算を実行するように構成されている、実施例１１に記載の装置を提供する。

実施例１４は、ディープラーニングにおける疎行列計算をコントロールするための方法であって、ランダムアクセスメモリから重み行列にアクセスする段階であって、重み行列は複数の行を含む、アクセスする段階と、重み行列の行を特定する段階であって、行は複数の重みを含む、特定する段階と、複数の重みのうちの重みが非０値を有するかどうか決定する段階と、重みが非０値を有すると決定したことに応答して、行についての行値が１であると決定する段階と、行値を格納するように構成されたバッファに行値を送る段階であって、行値は、ランダムアクセスメモリからの複数の重みの読み出しを可能にするために使用される、送る段階とを含む、方法を提供する。

実施例１５は、重み行列の追加の行を特定する段階であって、追加の行は追加の重みを含む、特定する段階と、追加の重みのいずれかが非０値を有するかどうか決定する段階と、追加の重みのいずれも非０値を有さないと決定したことに応答して、追加の行についての追加の行値が０であると決定する段階と、追加の行値をバッファに送る段階であって、追加の行値は、ランダムアクセスメモリからの追加の重みの読み出しを防止するために使用される、送る段階とをさらに含む、実施例１４に記載の方法を提供する。

実施例１６は、ランダムアクセスメモリから重み行列にアクセスする段階が、狭い帯域幅を通じてランダムアクセスメモリから重み行列にアクセスする段階を含む、実施例１４に記載の方法を提供する。

実施例１７は、行値が、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、ランダムアクセスメモリは、入力データを格納するように構成されており、処理要素は、入力データ及び複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、実施例１４に記載の方法を提供する。

実施例１８は、ランダムアクセスメモリから読み出された複数の重みが、追加のランダムアクセスメモリに伝送される、実施例１７に記載の方法を提供する。

実施例１９は、データ伝送経路が広い帯域幅を有する、実施例１７に記載の方法を提供する。

実施例２０は、ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための動作を実行するように実行可能な命令を格納する１又は複数の非一時的コンピュータ可読媒体であって、動作が、ランダムアクセスメモリから重み行列にアクセスする手順であって、重み行列は複数の行を含む、アクセスする手順と、重み行列の行を特定する手順であって、行は複数の重みを含む、特定する手順と、複数の重みのうちの重みが非０値を有するかどうか決定する手順と、重みが非０値を有すると決定したことに応答して、行についての行値が１であると決定する手順と、行値を格納するように構成されたバッファに行値を送る手順であって、行値は、ランダムアクセスメモリからの複数の重みの読み出しを可能にするために使用される、送る手順とを含む、１又は複数の非一時的コンピュータ可読媒体を提供する。

実施例２１は、動作が、重み行列の追加の行を特定することであって、追加の行は追加の重みを含む、特定する手順と、追加の重みのいずれかが非０値を有するかどうか決定する手順と、追加の重みのいずれも非０値を有さないと決定したことに応答して、追加の行についての追加の行値が０であると決定する手順と、追加の行値をバッファに送る手順であって、追加の行値は、ランダムアクセスメモリからの追加の重みの読み出しを防止するために使用される、送る手順とをさらに含む、実施例２０に記載の１又は複数の非一時的コンピュータ可読媒体を提供する。

実施例２２は、ランダムアクセスメモリから重み行列にアクセスすることが、狭い帯域幅を通じてランダムアクセスメモリから重み行列にアクセスすることを含む、実施例２０に記載の１又は複数の非一時的コンピュータ可読媒体を提供する。

実施例２３は、行値が、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、ランダムアクセスメモリは、入力データを格納するように構成されており、処理要素は、入力データ及び複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、実施例２０に記載の１又は複数の非一時的コンピュータ可読媒体を提供する。

実施例２４は、ランダムアクセスメモリから読み出された複数の重みが、追加のランダムアクセスメモリに伝送される、実施例２３に記載の１又は複数の非一時的コンピュータ可読媒体を提供する。

実施例２５は、データ伝送経路が広い帯域幅を有する、実施例２３に記載の１又は複数の非一時的コンピュータ可読媒体を提供する。

本開示の例示された実施態様の上記の記述は、網羅的であること、又は本開示を開示された形態そのものに限定することを意図するものではない。本開示の具体的な実施態様及び実施例は、例示目的で本明細書に説明されているが、関連する技術における当業者が認識するであろうように、本開示の範囲内でさまざまな同等の修正が可能である。これらの修正は、上記の詳細な記述を考慮して本開示に対して行われ得る。
［他の可能な項目］
［項目１］
ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための装置であって、
重み行列にアクセスし、前記重み行列は複数の行を含み、及び
前記複数の行のそれぞれの行毎に、前記それぞれの行内の重みの値に基づいて、行値を決定する、
ように構成された乗算コントローラと、
前記乗算コントローラによって決定された前記行値を格納するように構成されたバッファと、
前記行値によってコントロールされる１又は複数のスイッチであって、前記重み行列と関連付けられた読み出し及び伝送動作をコントロールするように構成された、１又は複数のスイッチと、
前記重み行列に基づいて乗算演算及び積算演算を実行するように構成された処理要素と
を備える、装置。
［項目２］
前記乗算コントローラは、
前記それぞれの行内の前記重みの前記値が非０値を含むかどうか決定すること、及び
前記それぞれの行内の前記重みの前記値が非０値を含むと決定することに応答して、前記行値が１に等しいと決定すること
によって、前記複数の行のそれぞれの行毎に、前記それぞれの行内の前記重みの前記値に基づいて、前記行値を決定するように構成されている、項目１に記載の装置。
［項目３］
前記乗算コントローラはさらに、
前記それぞれの行内の前記重みの前記値が非０値を含まないと決定することに応答して、前記行値が０に等しいと決定すること
によって、前記複数の行のそれぞれの行毎に、前記それぞれの行内の前記重みの前記値に基づいて、前記行値を決定するように構成されている、項目２に記載の装置。
［項目４］
前記重み行列を格納するランダムアクセスメモリをさらに備える、項目１に記載の装置。
［項目５］
前記乗算コントローラは、狭い帯域幅を通じて前記ランダムアクセスメモリから前記重み行列にアクセスするように構成されている、項目４に記載の装置。
［項目６］
前記１又は複数のスイッチは、
前記バッファから行値にアクセスすること、
前記行値が１に等しいかどうかを決定すること、及び
前記行値が１に等しいと決定したことに応答して、前記行値に対応する前記行内の前記重みを読み出すために前記ランダムアクセスメモリに読み出し要求を送ること
によって、前記重み行列に関連付けられた前記読み出し及び伝送動作をコントロールするように構成されている、項目４に記載の装置。
［項目７］
前記ＤＮＮ層の入力データを格納するランダムアクセスメモリと、
前記ランダムアクセスメモリを前記処理要素に接続するように構成されたバスであって、前記１又は複数のスイッチのうちのスイッチによってコントロールされる、バスと
をさらに備える、項目１に記載の装置。
［項目８］
前記スイッチは、
前記バッファから行値にアクセスし、
前記行値が１に等しいかどうかを決定し、
前記行値が１に等しいと決定することに応答して、前記ランダムアクセスメモリから前記処理要素に前記入力データを伝送するために、前記ランダムアクセスメモリを前記処理要素に接続するように前記バスをコントロールする
ように構成されている、項目７に記載の装置。
［項目９］
前記入力データは、広い帯域幅を通じて前記ランダムアクセスメモリから前記処理要素に伝送される、項目８に記載の装置。
［項目１０］
前記処理要素は、
前記乗算演算を実行するように構成された乗算器と、
前記積算演算を実行するように構成された積算器であって、積算器の積算演算は、乗算器の出力と別の積算器の出力とを積算することを含む、積算器と
を有する、項目１に記載の装置。
［項目１１］
前記処理要素は、
前記乗算器及び積算器に連結されたデマルチプレクサであって、前記乗算器の出力に対してデマルチプレクス動作を実行するように構成されており、デマルチプレクス動作は、０の値を有する要素を乗算器の出力に追加することを含む、デマルチプレクサ
をさらに有する、項目１０に記載の装置。
［項目１２］
前記乗算器のうちのそれぞれの乗算器は、前記積算器のうちの異なる積算器にそれぞれ対応し、前記デマルチプレクサは、前記それぞれの乗算器の出力に対するデマルチプレクス動作の結果を前記対応する積算器に送るようにさらに構成されている、項目１１に記載の装置。
［項目１３］
前記ＤＮＮ層の入力特徴マップ行列を圧縮することによって入力データを生成する圧縮モジュールをさらに備え、
前記乗算器は、前記入力データに対して前記乗算演算を実行するように構成されている、項目１１に記載の装置。
［項目１４］
ディープラーニングにおける疎行列計算をコントロールするための方法であって、
ランダムアクセスメモリから重み行列にアクセスする段階であって、前記重み行列は複数の行を含む、アクセスする段階と、
前記重み行列の行を特定する段階であって、前記行は複数の重みを含む、特定する段階と、
前記複数の重みのうちの重みが非０値を有するかどうか決定する段階と、
前記重みが前記非０値を有すると決定したことに応答して、前記行についての行値が１であると決定する段階と、
前記行値を格納するように構成されたバッファに前記行値を送る段階であって、前記行値は、前記ランダムアクセスメモリからの前記複数の重みの読み出しを可能にするために使用される、送る段階と
を含む、方法。
［項目１５］
前記重み行列の追加の行を特定する段階であって、前記追加の行は追加の重みを含む、特定する段階と、
前記追加の重みのいずれかが非０値を有するかどうか決定する段階と、
前記追加の重みのいずれも非０値を有さないと決定したことに応答して、前記追加の行についての追加の行値が０であると決定する段階と、
前記追加の行値を前記バッファに送る段階であって、前記追加の行値は、前記ランダムアクセスメモリからの前記追加の重みの読み出しを防止するために使用される、送る段階と
をさらに含む、項目１４に記載の方法。
［項目１６］
前記ランダムアクセスメモリから前記重み行列にアクセスする段階は、
狭い帯域幅を通じて前記ランダムアクセスメモリから前記重み行列にアクセスする段階
を含む、項目１４に記載の方法。
［項目１７］
前記行値は、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、前記ランダムアクセスメモリは、入力データを格納するように構成されており、前記処理要素は、前記入力データ及び前記複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、項目１４に記載の方法。
［項目１８］
前記ランダムアクセスメモリから読み出された前記複数の重みは、前記追加のランダムアクセスメモリに伝送される、項目１７に記載の方法。
［項目１９］
前記データ伝送経路は広い帯域幅を有する、項目１７に記載の方法。
［項目２０］
ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための動作を実行するように実行可能な命令を格納する１又は複数の非一時的コンピュータ可読媒体であって、前記動作は、
ランダムアクセスメモリから重み行列にアクセスする手順であって、前記重み行列は複数の行を含む、アクセスする手順と、
前記重み行列の行を特定する手順であって、前記行は複数の重みを含む、特定する手順と、
前記複数の重みのうちの重みが非０値を有するかどうか決定する手順と、
前記重みが前記非０値を有すると決定したことに応答して、前記行についての行値が１であると決定する手順と、
前記行値を格納するように構成されたバッファに前記行値を送る手順であって、前記行値は、前記ランダムアクセスメモリからの前記複数の重みの読み出しを可能にするために使用される、送る手順と
を含む、１又は複数の非一時的コンピュータ可読媒体。
［項目２１］
前記動作は、
前記重み行列の追加の行を特定する手順であって、前記追加の行は追加の重みを含む、特定する手順と、
前記追加の重みのいずれかが非０値を有するかどうか決定する手順と、
前記追加の重みのいずれも非０値を有さないと決定したことに応答して、前記追加の行についての追加の行値が０であると決定する手順と、
前記追加の行値を前記バッファに送る手順であって、前記追加の行値は、前記ランダムアクセスメモリからの前記追加の重みの読み出しを防止するために使用される、送る手順と
をさらに含む、項目２０に記載の１又は複数の非一時的コンピュータ可読媒体。
［項目２２］
ランダムアクセスメモリから重み行列にアクセスする手順は、
狭い帯域幅を通じてランダムアクセスメモリから重み行列にアクセスする手順
を含む、項目２０に記載の１又は複数の非一時的コンピュータ可読媒体。
［項目２３］
前記行値は、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、前記ランダムアクセスメモリは、入力データを格納するように構成されており、前記処理要素は、前記入力データ及び前記複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、項目２０に記載の１又は複数の非一時的コンピュータ可読媒体。
［項目２４］
前記ランダムアクセスメモリから読み出された前記複数の重みは、前記追加のランダムアクセスメモリに伝送される、項目２３に記載の１又は複数の非一時的コンピュータ可読媒体。
［項目２５］
前記データ伝送経路は広い帯域幅を有する、項目２３に記載の１又は複数の非一時的コンピュータ可読媒体。

Claims

ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための装置であって、前記装置は、
乗算コントローラであって、
重み行列であって、複数の行を含む重み行列にアクセスし、
前記複数の行のそれぞれの行毎に、前記それぞれの行内の重みの値に基づいて、行値を決定する
ように構成された乗算コントローラと、
前記乗算コントローラによって決定された前記行値を格納するように構成されたバッファと、
前記行値によってコントロールされる１又は複数のスイッチであって、前記重み行列と関連付けられた読み出し及び伝送動作をコントロールするように構成された、１又は複数のスイッチと、
前記重み行列に基づいて乗算演算及び積算演算を実行するように構成された処理要素と
を備える、装置。
前記乗算コントローラは、
前記それぞれの行内の前記重みの前記値が非０値を含むかどうか決定すること、及び
前記それぞれの行内の前記重みの前記値が非０値を含むと決定することに応答して、前記行値が１に等しいと決定すること
によって、前記複数の行のそれぞれの行毎に、前記それぞれの行内の前記重みの前記値に基づいて、前記行値を決定するように構成されている、請求項１に記載の装置。
前記乗算コントローラはさらに、
前記それぞれの行内の前記重みの前記値が非０値を含まないと決定することに応答して、前記行値が０に等しいと決定すること
によって、前記複数の行のそれぞれの行毎に、前記それぞれの行内の前記重みの前記値に基づいて、前記行値を決定するように構成されている、請求項２に記載の装置。
前記重み行列を格納するランダムアクセスメモリをさらに備える、請求項１に記載の装置。
前記乗算コントローラは、狭い帯域幅を通じて前記ランダムアクセスメモリから前記重み行列にアクセスするように構成されている、請求項４に記載の装置。
前記１又は複数のスイッチは、
前記バッファから行値にアクセスすること、
前記行値が１に等しいかどうかを決定すること、及び
前記行値が１に等しいと決定したことに応答して、前記行値に対応する前記行内の前記重みを読み出すために前記ランダムアクセスメモリに読み出し要求を送ること
によって、前記重み行列に関連付けられた前記読み出し及び伝送動作をコントロールするように構成されている、請求項４に記載の装置。
前記ＤＮＮ層の入力データを格納するランダムアクセスメモリと、
前記ランダムアクセスメモリを前記処理要素に接続するように構成されたバスであって、前記１又は複数のスイッチのうちのスイッチによってコントロールされる、バスと
をさらに備える、請求項１に記載の装置。
前記スイッチは、
前記バッファから行値にアクセスし、
前記行値が１に等しいかどうかを決定し、
前記行値が１に等しいと決定することに応答して、前記ランダムアクセスメモリから前記処理要素に前記入力データを伝送するために、前記ランダムアクセスメモリを前記処理要素に接続するように前記バスをコントロールする
ように構成されている、請求項７に記載の装置。
前記入力データは、広い帯域幅を通じて前記ランダムアクセスメモリから前記処理要素に伝送される、請求項８に記載の装置。
前記処理要素は、
前記乗算演算を実行するように構成された乗算器と、
前記積算演算を実行するように構成された積算器であって、積算器の積算演算は、乗算器の出力と別の積算器の出力とを積算することを含む、積算器と
を有する、請求項１から９のいずれか一項に記載の装置。
前記処理要素は、
前記乗算器及び積算器に連結されたデマルチプレクサであって、前記乗算器の出力に対してデマルチプレクス動作を実行するように構成されており、デマルチプレクス動作は、０の値を有する要素を乗算器の出力に追加することを含む、デマルチプレクサ
をさらに有する、請求項１０に記載の装置。
前記乗算器のうちのそれぞれの乗算器は、前記積算器のうちの異なる積算器にそれぞれ対応し、前記デマルチプレクサは、前記それぞれの乗算器の出力に対するデマルチプレクス動作の結果を前記対応する積算器に送るようにさらに構成されている、請求項１１に記載の装置。
前記ＤＮＮ層の入力特徴マップ行列を圧縮することによって入力データを生成する圧縮モジュールをさらに備え、
前記乗算器は、前記入力データに対して前記乗算演算を実行するように構成されている、請求項１１に記載の装置。
ディープラーニングにおける疎行列計算をコントロールするための方法であって、
ランダムアクセスメモリから重み行列にアクセスする段階であって、前記重み行列は複数の行を含む、アクセスする段階と、
前記重み行列の行を特定する段階であって、前記行は複数の重みを含む、特定する段階と、
前記複数の重みのうちの重みが非０値を有するかどうか決定する段階と、
前記重みが前記非０値を有すると決定したことに応答して、前記行についての行値が１であると決定する段階と、
前記行値を格納するように構成されたバッファに前記行値を送る段階であって、前記行値は、前記ランダムアクセスメモリからの前記複数の重みの読み出しを可能にするために使用される、送る段階と
を含む、方法。
前記重み行列の追加の行を特定する段階であって、前記追加の行は追加の重みを含む、特定する段階と、
前記追加の重みのいずれかが非０値を有するかどうか決定する段階と、
前記追加の重みのいずれも非０値を有さないと決定したことに応答して、前記追加の行についての追加の行値が０であると決定する段階と、
前記追加の行値を前記バッファに送る段階であって、前記追加の行値は、前記ランダムアクセスメモリからの前記追加の重みの読み出しを防止するために使用される、送る段階と
をさらに含む、請求項１４に記載の方法。
前記ランダムアクセスメモリから前記重み行列にアクセスする段階は、
狭い帯域幅を通じて前記ランダムアクセスメモリから前記重み行列にアクセスする段階
を含む、請求項１４に記載の方法。
前記行値は、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、前記追加のランダムアクセスメモリは、入力データを格納するように構成されており、前記処理要素は、前記入力データ及び前記複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、請求項１４から１６のいずれか一項に記載の方法。
前記ランダムアクセスメモリから読み出された前記複数の重みは、前記追加のランダムアクセスメモリに伝送される、請求項１７に記載の方法。
前記データ伝送経路は広い帯域幅を有する、請求項１７に記載の方法。
ディープ・ニューラル・ネットワーク（ＤＮＮ）層をアクセラレーションするための動作を実行するように実行可能な命令を備えるコンピュータプログラムであって、前記動作は、
ランダムアクセスメモリから重み行列にアクセスする手順であって、前記重み行列は複数の行を含む、アクセスする手順と、
前記重み行列の行を特定する手順であって、前記行は複数の重みを含む、特定する手順と、
前記複数の重みのうちの重みが非０値を有するかどうか決定する手順と、
前記重みが前記非０値を有すると決定したことに応答して、前記行についての行値が１であると決定する手順と、
前記行値を格納するように構成されたバッファに前記行値を送る手順であって、前記行値は、前記ランダムアクセスメモリからの前記複数の重みの読み出しを可能にするために使用される、送る手順と
を含む、コンピュータプログラム。
前記動作は、
前記重み行列の追加の行を特定する手順であって、前記追加の行は追加の重みを含む、特定する手順と、
前記追加の重みのいずれかが非０値を有するかどうか決定する手順と、
前記追加の重みのいずれも非０値を有さないと決定したことに応答して、前記追加の行についての追加の行値が０であると決定する手順と、
前記追加の行値を前記バッファに送る手順であって、前記追加の行値は、前記ランダムアクセスメモリからの前記追加の重みの読み出しを防止するために使用される、送る手順と
をさらに含む、請求項２０に記載のコンピュータプログラム。
ランダムアクセスメモリから重み行列にアクセスする手順は、
狭い帯域幅を通じてランダムアクセスメモリから重み行列にアクセスする手順
を含む、請求項２０に記載のコンピュータプログラム。
前記行値は、追加のランダムアクセスメモリと処理要素との間にデータ伝送経路を形成するためにさらに使用され、前記追加のランダムアクセスメモリは、入力データを格納するように構成されており、前記処理要素は、前記入力データ及び前記複数の重みに基づいて乗算演算及び積算演算を実行するように構成されている、請求項２０に記載のコンピュータプログラム。
前記ランダムアクセスメモリから読み出された前記複数の重みは、前記追加のランダムアクセスメモリに伝送される、請求項２３に記載のコンピュータプログラム。
前記データ伝送経路は広い帯域幅を有する、請求項２３に記載のコンピュータプログラム。
請求項２０から２５のいずれか一項に記載のコンピュータプログラムを格納するコンピュータ可読格納媒体。