JP7243006B1 - ネットワークオンチップリコンフィギュアビリティ - Google Patents
ネットワークオンチップリコンフィギュアビリティ Download PDFInfo
- Publication number
- JP7243006B1 JP7243006B1 JP2022096966A JP2022096966A JP7243006B1 JP 7243006 B1 JP7243006 B1 JP 7243006B1 JP 2022096966 A JP2022096966 A JP 2022096966A JP 2022096966 A JP2022096966 A JP 2022096966A JP 7243006 B1 JP7243006 B1 JP 7243006B1
- Authority
- JP
- Japan
- Prior art keywords
- tiles
- computational
- tile
- memory
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 claims abstract description 248
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 25
- 239000000872 buffer Substances 0.000 description 20
- 238000009825 accumulation Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 16
- 238000000034 method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000003491 array Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036316 preload Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Multi Processors (AREA)
Abstract
Description
他のコンポーネント、値、動作、材料、配置等が考えられる。加えて、本開示は、様々な例において参照番号及び/又は文字を繰り返し得る。この繰り返しは、簡易性及び明瞭さを目的としており、記載された様々な実施形態及び/又は構成の間の関係をそれ自体で規定するものではない。
少なくともいくつかの実施形態では、チェーン内の計算タイル間の各接続は、直接接続又は複数のメモリタイルのうちのメモリタイルを介した接続である。少なくともいくつかの実施形態では、相互接続コントローラ104は、回線交換、トランジスタ、送信ゲート、マルチプレクサなどの開閉のような回路スイッチ方式で相互接続を開閉するように構成される。
少なくともいくつかの実施形態では、相互接続コントローラ104は、一般コントローラ106からの命令に応答する。
少なくともいくつかの実施形態では、外部メモリは、ホストプロセッサと通信するDRAMメモリである。少なくともいくつかの実施形態では、装置100は、DRAMメモリがデータの残りを格納している間に、計算シーケンスのためのデータの小さな作業部分を格納する。
少なくともいくつかの実施形態では、メモリバンクは、揮発性データストレージを含む。
少なくともいくつかの実施形態では、装置100は複数のメモリタイルを含み、複数のメモリタイルのうちの各メモリタイルは入力ポートと出力ポートとを含み、入力ポートを介して受信した値を格納し、格納された値を、出力ポートを介して送信するように構成される。少なくともいくつかの実施形態では、メモリタイルは、図3に示されるように構成され、以下で説明される。
計算タイル210は、第1の計算メモリ212と、第2の計算メモリ213と、計算コントローラ215と、固定動作プロセッサ217と、可変動作プロセッサ219とを含む。
少なくともいくつかの実施形態では、第1の計算メモリ212及び第2の計算メモリ213は、固定動作プロセッサ217、可変プロセッサ219、又は計算タイル210の入力ポートから受信した値を格納するように構成される。
少なくともいくつかの実施形態では、第1の計算メモリ212及び第2の計算メモリ213は、固定動作プロセッサ217、可変プロセッサ219、又は計算タイル210の出力ポートに値を送信するように構成される。少なくともいくつかの実施形態では、第1の計算メモリ212は、第2の計算メモリ213とは異なる量のメモリ又は異なるタイプのメモリで構成される。少なくともいくつかの実施形態では、第1の計算メモリ212及び第2の計算メモリ213は、計算コントローラ215からの命令に従って動作する。
少なくともいくつかの実施形態では、計算コントローラ215は、固定動作プロセッサ217及び可変動作プロセッサ219に選択的に値を入力するようにさらに構成される。少なくともいくつかの実施形態では、計算コントローラ215は、計算タイル210の入力ポートを介して値を受け取り、任意の計算メモリ上に値を格納し、任意のプロセッサに値を入力し、計算タイル210の出力ポートを介して値を送信するように構成される。
少なくともいくつかの実施形態では、固定動作プロセッサ217は、1つよりも多いタイプの数学的演算を実行するように構成された専用回路を含む。少なくともいくつかの実施形態では、固定動作プロセッサ217は、画像処理、圧縮/解凍、並列計算などを実行するように構成された専用回路を含む。少なくともいくつかの実施形態では、固定動作プロセッサ217は、ポイントワイズ畳み込み又はデプスワイズ畳み込みのような畳み込み演算を実行するように構成される。少なくともいくつかの実施形態では、固定動作プロセッサ217は、高さ(KH)x幅(KW)のカーネルサイズ、垂直及び水平ストライド、拡張、パディングなどのような、数学的演算の異なるパラメータに対する直接支援を提供するよう構成され得る。少なくともいくつかの実施形態では、固定動作プロセッサ217は、図6A及び図6Bに示すように、又は図7に示すように構成され、それらのそれぞれは以下に説明される。
少なくともいくつかの実施形態では、メモリコントローラ324は、図1の一般コントローラ106のような一般コントローラから信号を受信し、受信した信号に従ってメモリタイル320を動作させるように構成される。少なくともいくつかの実施形態では、メモリコントローラ324は、計算タイルから受信された信号に応答してメモリバンク322をロックし、メモリバンク322に、格納された値を1つ又は複数の計算タイルへ送信させる。
少なくともいくつかの実施形態では、メモリコントローラ324は、メモリバンク322を特定の計算タイルに接続させ、メモリバンク322に、接続された計算タイルから送信された1つ又は複数の値を記録させる。
少なくともいくつかの実施形態では、タイル401は、1つ又は複数の入力ポートと、1つ又は複数の出力ポートとを含む。少なくともいくつかの実施形態では、タイル401は、他のタイル又は外部メモリインタフェースから値を受信するための少なくとも1つの入力ポートを含む。少なくともいくつかの実施形態では、タイル401は、他のタイル又は外部メモリインタフェースに値を送信するための少なくとも1つの出力ポートを含む。少なくともいくつかの実施形態では、タイル401は、他のタイル、外部メモリインタフェース、又は図1の一般コントローラ106のような一般コントローラから制御信号を受信するための少なくとも1つの入力ポートを含む。少なくともいくつかの実施形態では、タイル401は、他のタイル、外部メモリインタフェース、又は一般コントローラに制御信号を送信するための少なくとも1つの出力ポートを含む。
計算タイルは、第1の計算メモリ512と、第2の計算メモリ513と、入力マルチプレクサ516Aのような複数の入力マルチプレクサと、出力マルチプレクサ516Bと、プロセッサ518とを含む。第1の計算メモリ512、第2の計算メモリ513、及びプロセッサ518は、以下で説明が異なる部分を除き、それぞれ図2の第1の計算メモリ212、第2の計算メモリ213、及び固定動作プロセッサ217と実質的に同じ構造を有し、実質的に同じ機能を実行する。計算タイル510は、接続クラスタ504Aを介して値を受信するための2つの入力ポートを含む。計算タイル510は、接続クラスタ504Bを介して値を送信するための1つの出力ポートを含む。
少なくともいくつかの実施形態では、ニューラルネットワークの推論の実行は、ニューラルネットワークをトレーニングする処理の一部である。少なくともいくつかの実施形態では、計算シーケンスは、テンソル仮想マシン(TVM)、他のコンパイラスタックなどのような計算グラフである。少なくともいくつかの実施形態では、計算シーケンスは、装置内の計算タイルにおいて計算シーケンスを実現するために相互接続を開閉する命令を含む。
Claims (19)
- 複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、
入力ポートと、
出力ポートと、
値を格納するように構成された計算メモリと、
値に対して数学的演算を実行するように構成された回路を含むプロセッサと、
前記入力ポートを介して値を受信し、前記計算メモリに値を格納し、前記プロセッサに値を入力し、前記出力ポートを介して値を送信するように構成された計算コントローラと
を含む、複数の計算タイルと、
複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルが、入力ポート及び出力ポートを含み、前記入力ポートを介して受信した値を格納し、格納した値を前記出力ポートを介して送信するように構成された、複数のメモリタイルと、
外部メモリとデータを交換するように構成された入力ポート及び出力ポートを含む外部メモリインタフェースと、
複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記出力ポートが、前記複数の相互接続のうちの1つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記入力ポートに接続可能であるように配置された、複数の相互接続と、
計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成された相互接続コントローラであって、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースから受信した初期値が適用される計算タイルシーケンスにおける連続する計算タイルによって実行されて前記外部メモリインタフェースに送信される結果値を生成し、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを通じた接続である、相互接続コントローラと
を備える集積回路。 - 前記計算シーケンスは、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、1つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を1つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介した接続である
請求項1に記載の集積回路。 - 前記複数の計算タイル及び前記複数のメモリタイルは、2次元グリッドに配置され、各タイルが、前記複数の相互接続のうちの1つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項1又は2に記載の集積回路。 - 前記複数の相互接続のうちの相互接続は、複数のスイッチクラスタ及び複数の接続クラスタの間で分散されており、
前記複数のスイッチクラスタのうちの各スイッチクラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の接続クラスタのうちの接続クラスタとを接続する相互接続を含み、
前記複数の接続クラスタのうちの各接続クラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の計算タイル及び前記複数のメモリタイルのうちの対応するタイルとを接続する相互接続を含む
請求項1又は2に記載の集積回路。 - 前記複数の計算タイルのうちの各計算タイルの前記プロセッサは、固定動作プロセッサであり、
前記複数の計算タイルのうちの各計算タイルは、値に対して数学的演算を実行するために前記計算シーケンスに基づいてコンフィギュア可能な可変動作プロセッサをさらに含み、
前記計算コントローラは、前記固定動作プロセッサ及び前記可変動作プロセッサに選択的に値を入力するようにさらに構成される
請求項1又は2に記載の集積回路。 - 前記複数の計算タイルのうちの各計算タイルの前記可変動作プロセッサは、計算タイルによって消費される電力又は計算タイルによって実行される処理のレイテンシのうちの1つをモニタするようにさらにコンフィギュア可能である
請求項5に記載の集積回路。 - 前記可変動作プロセッサは、値に対して数学的演算を実行するために、前記計算シーケンスに基づいてコンフィギュア可能である
請求項5に記載の集積回路。 - 各計算タイルの前記プロセッサは、ポイントワイズ畳み込み又はデプスワイズ畳み込みの1つを実行するように構成される
請求項1又は2に記載の集積回路。 - 前記計算シーケンスを含む命令を受信し、
前記相互接続コントローラに、前記計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせる
ように構成された一般コントローラ
をさらに備える請求項1又は2に記載の集積回路。 - ニューラルネットワークの推論を実行する命令を受信し、前記命令が前記計算シーケンスを含み、
前記相互接続コントローラに、前記計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの推論を実行する
ように構成された一般コントローラ
さらに備える請求項1又は2に記載の集積回路。 - 前記命令は、前記ニューラルネットワークの第1の部分に関連する第1の計算シーケンスと、前記ニューラルネットワークの第2の部分に関連する第2の計算シーケンスとを含み、
前記一般コントローラは、
前記相互接続コントローラに、前記第1の計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの前記第1の部分の推論を実行し、
前記相互接続コントローラに、前記第2の計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの前記第2の部分の推論を実行する、
ようにさらに構成される
請求項10に記載の集積回路。 - 前記相互接続コントローラは、回線交換式で相互接続を開閉するように構成される、
請求項1又は2に記載の集積回路。 - 複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルは、値を格納するように構成された、複数のメモリタイルと、
外部メモリとデータを交換するように構成された外部メモリインタフェースと、
複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルは、
値を格納するように構成された計算メモリと、
前記計算メモリ、前記複数のメモリタイルのうちのメモリタイル、又は前記外部メモリインタフェースのうちの少なくとも2つに格納された値の組み合わせに対して数学的演算を実行するように構成された回路を含む、プロセッサと
を含む、複数の計算タイルと
を備え、
計算シーケンスが、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルのうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、1つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を1つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介する接続である
装置。 - 複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの出力ポートが、前記複数の相互接続のうちの1つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの入力ポートに接続可能であるように配置された、複数の相互接続と、
前記計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成され、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースに送信される結果値を生成するために、前記外部メモリインタフェースから受信した初期値に適用される計算タイルシーケンスにおける連続する計算タイルによって実行され、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介する接続である、相互接続コントローラと
をさらに備える請求項13に記載の装置。 - 前記複数の計算タイル及び前記複数のメモリタイルは、2次元グリッドに配置され、
各タイルが、複数の相互接続のうちの1つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項13又は14に記載の装置。 - 複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、
入力ポートと、
出力ポートと、
値を格納するように構成された計算メモリと、
値に対して数学的演算を実行するように構成された回路を含むプロセッサと、
前記入力ポートを介して値を受信し、前記計算メモリに値を格納し、前記プロセッサに値を入力し、前記出力ポートを介して値を送信するように構成された計算コントローラと
して構成された回路を含む、複数の計算タイルと、
複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルが、入力ポート及び出力ポートとして構成され、前記入力ポートを介して受信した値を格納し、格納した値を前記出力ポートを介して送信するようにさらに構成された回路を含む、複数のメモリタイルと、
外部メモリとデータを交換するように構成された入力ポート及び出力ポートとして構成された回路を含む外部メモリインタフェースと、
回線交換式の複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記出力ポートが、前記複数の相互接続のうちの1つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記入力ポートに接続可能であるように配置された、回線交換式の複数の相互接続と、
計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成された回路を含む相互接続コントローラであって、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースから受信した初期値が適用される計算タイルシーケンスにおける連続する計算タイルによって実行されて前記外部メモリインタフェースに送信される結果値を生成し、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを通じた接続である、相互接続コントローラと
を備える集積回路。 - 前記計算シーケンスは、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、1つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を1つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介した接続である
請求項16に記載の集積回路。 - 前記複数の計算タイル及び前記複数のメモリタイルは、2次元グリッドに配置され、
各タイルが、前記複数の相互接続のうちの1つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項16又は17に記載の集積回路。 - 前記複数の相互接続のうちの相互接続は、複数のスイッチクラスタ及び複数の接続クラスタの間で分散されており、
前記複数のスイッチクラスタのうちの各スイッチクラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の接続クラスタのうちの接続クラスタとを接続する相互接続を含み、
前記複数の接続クラスタのうちの各接続クラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の計算タイル及び前記複数のメモリタイルのうちの対応するタイルとを接続する相互接続を含む
請求項16又は17に記載の集積回路。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202117555505A | 2021-12-20 | 2021-12-20 | |
US17/555,505 | 2021-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7243006B1 true JP7243006B1 (ja) | 2023-03-22 |
JP2023091712A JP2023091712A (ja) | 2023-06-30 |
Family
ID=85684992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022096966A Active JP7243006B1 (ja) | 2021-12-20 | 2022-06-16 | ネットワークオンチップリコンフィギュアビリティ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7243006B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020529676A (ja) | 2017-07-30 | 2020-10-08 | ニューロブレード リミテッド | メモリベースの分散型プロセッサアーキテクチャ |
JP2021177366A (ja) | 2020-05-05 | 2021-11-11 | インテル コーポレイション | フィードバック入力を有するシストリック・アレイを利用するスケーラブルなスパース行列乗算加速 |
-
2022
- 2022-06-16 JP JP2022096966A patent/JP7243006B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020529676A (ja) | 2017-07-30 | 2020-10-08 | ニューロブレード リミテッド | メモリベースの分散型プロセッサアーキテクチャ |
JP2021177366A (ja) | 2020-05-05 | 2021-11-11 | インテル コーポレイション | フィードバック入力を有するシストリック・アレイを利用するスケーラブルなスパース行列乗算加速 |
Also Published As
Publication number | Publication date |
---|---|
JP2023091712A (ja) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110325963B (zh) | 用于神经网络处理的针对可编程硬件节点的多功能单元 | |
Borkar et al. | Warp: an integrated solution of high-speed parallel computing | |
US7937558B2 (en) | Processing system with interspersed processors and communication elements | |
US20210312320A1 (en) | Machine learning network implemented by statically scheduled instructions, with compiler | |
US11227030B2 (en) | Matrix multiplication engine using pipelining | |
JP7449963B2 (ja) | ヘテロジニアス処理システムのためのデータフローグラフプログラミング環境 | |
US20190266218A1 (en) | Matrix computation within a reconfigurable processor fabric | |
CN111199275B (zh) | 用于神经网络的片上系统 | |
US20190057060A1 (en) | Reconfigurable fabric data routing | |
US20200167309A1 (en) | Reconfigurable fabric configuration using spatial and temporal routing | |
US20190197018A1 (en) | Dynamic reconfiguration using data transfer control | |
US20220083500A1 (en) | Flexible accelerator for a tensor workload | |
Wang et al. | SOLAR: Services-oriented deep learning architectures-deep learning as a service | |
US20220083314A1 (en) | Flexible accelerator for a tensor workload | |
JP7243006B1 (ja) | ネットワークオンチップリコンフィギュアビリティ | |
US20210326189A1 (en) | Synchronization of processing elements that execute statically scheduled instructions in a machine learning accelerator | |
Jain et al. | Sparse deep neural network acceleration on HBM-enabled FPGA platform | |
US20230195836A1 (en) | One-dimensional computational unit for an integrated circuit | |
JP2005531843A (ja) | アレイプロセッサにおける除算 | |
CN113407238A (zh) | 一种具有异构处理器的众核架构及其数据处理方法 | |
KR100722428B1 (ko) | 리소스 공유 및 파이프 라이닝 구성을 갖는 재구성가능배열구조 | |
US11734605B2 (en) | Allocating computations of a machine learning network in a machine learning accelerator | |
US11734549B2 (en) | Avoiding data routing conflicts in a machine learning accelerator | |
Zhang et al. | Design of coarse-grained dynamically reconfigurable architecture for DSP applications | |
US11886981B2 (en) | Inter-processor data transfer in a machine learning accelerator, using statically scheduled instructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220824 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7243006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |