JP7243006B1

JP7243006B1 - ネットワークオンチップリコンフィギュアビリティ

Info

Publication number: JP7243006B1
Application number: JP2022096966A
Authority: JP
Inventors: アーメドタンヴィル; ダスグプタサキャシンガ
Original assignee: エッジコーティックスピーティーイー．リミテッド
Priority date: 2021-12-20
Filing date: 2022-06-16
Publication date: 2023-03-22
Anticipated expiration: 2042-06-16
Also published as: JP2023091712A

Abstract

【課題】より多くのリソースを要求するタスクに対応する計算リソースで設計されるニューラルネットワークアクセラレータチップを提供する。【解決手段】ネットワークオンチップリコンフィギュアビリティは、複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルは、値を格納するように構成される、複数のメモリタイルと、外部メモリとデータを交換するように構成された外部メモリインタフェースと、複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、値を格納するように構成された計算メモリと、値に対して数学的演算を実行するように構成された回路を含む、プロセッサとを含む、複数の計算タイルとを含む装置によって実行される。【選択図】図１

Description

リアルタイムニューラルネットワーク（ＮＮ）推論は、自律走行車両、ロボット工学、スマートフォン、可搬健康デバイス、監視などのようなアプリケーションに対するエッジデバイス上のコンピュータビジョン又は発話タスクで普及しつつある。専用のＮＮ推論ハードウェアは、電力効率のよい推論を提供する主流手段になってきている。集積回路のようなチップ内により多くの計算リソースが載せられるようになるにつれて、計算能力のコストが下がっている。多くの状況において、チップは、より多くのリソースを要求するタスクに対応する計算リソースで設計されている。

本開示の態様は、添付の図と共に読まれるときに以下の詳細な説明から最適に理解される。当業界の標準的な慣行に従って、様々な特徴はスケールどおりに描かれていないことに留意されたい。実際には、様々な特徴の寸法が、説明を明瞭にするために任意に拡大され、又は減少され得る。

本発明の少なくともいくつかの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置のブロック図である。

本発明の少なくともいくつかの実施形態による、計算タイルのブロック図である。

本発明の少なくともいくつかの実施形態による、メモリタイルのブロック図である。

本発明の少なくともいくつかの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置の一部の模式図である。

本発明の少なくともいくつかの実施形態による、計算タイルの模式図である。

本発明の少なくともいくつかの実施形態による、デプスワイズ畳み込みプロセッサの模式図である。

本発明の少なくともいくつかの実施形態による、デプスワイズ畳み込みプロセッサのためのチャネル毎のパイプラインの模式図である。

本発明の少なくともいくつかの実施形態による、ポイントワイズ畳み込みプロセッサの模式図である。

本発明の少なくともいくつかの実施形態による、計算シーケンスの図である。

本発明の少なくともいくつかの実施形態による、計算シーケンスのために構成された装置のブロック図である。

本発明の少なくともいくつかの実施形態による、マルチキャスト送信を実行する装置のブロック図である。

本発明の少なくともいくつかの実施形態による、ポイント・ツー・ポイント送信を実行する装置のブロック図である。

本発明の少なくともいくつかの実施形態による、計算シーケンスを実行するための動作フローである。

本発明の少なくともいくつかの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置をリコンフィギュアするための動作フローである。

以下の開示は、提供される主題の異なる特徴を実装するための多くの異なる実施形態又は例を提供する。コンポーネント、値、動作、材料、配置等の具体例は、本開示を簡略化するために以下に説明される。当然ながら、これらは例に過ぎず、限定が意図されていない。
他のコンポーネント、値、動作、材料、配置等が考えられる。加えて、本開示は、様々な例において参照番号及び／又は文字を繰り返し得る。この繰り返しは、簡易性及び明瞭さを目的としており、記載された様々な実施形態及び／又は構成の間の関係をそれ自体で規定するものではない。

いくつかのニューラルネットワークハードウェアアクセラレータは、ネットワークオンチップのような複数のプロセッサ間でかかる処理を分散させることによって推論処理を実行する。かかるネットワークオンチップニューラルネットワークハードウェアアクセラレータはまた、処理のために必要とされるまで様々な値を保持するための複数のメモリバンクを含む。

ニューラルネットワーク推論の実行について、様々な並列度が存在し、計算効率向上のために利用可能である。特に、多くの計算リソースを擁するチップにより実行されるシンプルなタスクは、並列性を介してより多くのリソースを利用可能である。しかし、最高性能のチップは、多くの場合、限定数の利用可能な並列度を活用するように最適化された、固定アーキテクチャを持ち、したがって、全ての並列度を効率的にサポートすることはできない。したがって、シンプルなタスクを強力なチップ上で実行することは、計算リソースの低利用率、低性能及び低電力効率の危険が増加する。

タスクに依存して、ニューラルネットワークアクセラレータは、外部メモリアクセスを減少させるために空間マッピングに適合され、又は大規模なニューラルネットワークのために時間マッピングに適合される。いくつかのニューラルアクセラレータは単一命令複数データ（ＳＩＭＤ）用に構成される。他方、他のニューラルネットワークアクセラレータは複数命令複数データ（ＭＩＭＤ）モードでマッピングされる。

他方、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）のような完全なアーキテクチャリコンフィギュレーションが可能なチップは、各特定タスクについてリコンフィギュアされることが可能であるが、多くの場合、かかるチップを実際にリコンフィギュアするのに必要なリソースは、タスク中に全ての計算リソースを利用する際のリソース節約を超える。さらに、ＦＰＧＡは、高粒度リコンフィギュアビリティにより高い柔軟性を提供するが、これによりそのピーク計算性能は、同様のチップサイズの特定用途向け集積回路（ＡＳＩＣ）と比較して限定される。

本明細書の少なくともいくつかの実施形態では、ネットワークオンチップ（ＮｏＣ）は、その上の計算タイルの相互接続を介して計算シーケンスが実現されるようにリコンフィギュア可能である。少なくともいくつかの実施形態では、相互接続された計算タイルシーケンスは、メモリポートでのルーチング輻輳を回避するために、計算タイル間にメモリタイルを含む。少なくともいくつかの実施形態では、各計算タイルは、マルチレベルのメモリ機能のためにプロセッサと計算メモリとを含む。少なくともいくつかの実施形態では、計算メモリは、メモリタイルの代わりに計算メモリに値を格納するオプションを介して、減少された電力消費構成を可能にする。

少なくともいくつかの実施形態では、各計算タイルは、計算タイルがデジタル信号プロセッサ（ＤＳＰ）より複雑な処理を実行できるように、コントローラをさらに含む。

少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、スケーラビリティのためのモジュール設計を有する。少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、多くの異なる命令セットアーキテクチャのための主計算エンジンとしてコンフィギュア可能である。少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、マルチキャスト又はブロードキャスト送信のために、計算タイル又はメモリタイルの出力ポートを複数のメモリタイル又は計算タイルの入力ポートに接続するようにコンフィギュア可能である。少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、計算タイル及びメモリタイルに接続するようにコンフィギュア可能な外部メモリインタフェースを含む。

少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、２次元グリッドに配置された計算タイル及びメモリタイルを含む。少なくともいくつかの実施形態では、各計算タイル及び各メモリタイルは、ＳＩＭＤ及びＭＩＭＤ構成での動作を支援するためのコントローラを含む。少なくともいくつかの実施形態では、リコンフィギュア可能なＮｏＣは、スループット最適化ＳＩＭＤ構成、パイプライン化ＭＩＭＤ構成、及びレイテンシ最適化ストリーミング構成のためのＦＰＧＡライクな相互接続を含む。

図１は、本発明の少なくとも１つの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置１００のブロック図である。少なくともいくつかの実施形態では、装置１００は集積回路である。s少なくともいくつかの実施形態では、装置１００は、図１に示される専用回路を含むＡＳＩＣである。装置１００は、相互接続１０２のような複数の相互接続、計算タイル１１０のような複数の計算タイル、メモリタイル１２０のような複数のメモリタイル、相互接続コントローラ１０４、一般コントローラ１０６、及び外部メモリインタフェース１０８を含む。少なくともいくつかの実施形態では、複数の計算タイル及び複数のメモリタイルは、２次元グリッドで配置される。

相互接続１０２のような複数の相互接続は、計算タイル、メモリタイル、及び外部メモリインタフェース１０８を接続する。少なくともいくつかの実施形態では、各計算タイル、各メモリタイル、及び外部メモリインタフェース１０８の出力ポートが、複数の相互接続のうちの１つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び外部メモリインタフェース１０８の入力ポートに接続可能であるように、複数の相互接続が配置される。少なくともいくつかの実施形態では、複数の相互接続は、任意の計算タイル、メモリタイル、又は外部メモリインタフェース１０８の出力ポートから、任意の計算タイル、メモリタイル、又は外部メモリインタフェース１０８への値の送信を容易にするように、コンフィギュア可能である。少なくともいくつかの実施形態では、複数の相互接続は、受動相互接続である。

相互接続コントローラ１０４は、計算タイル、メモリタイル、及び外部メモリインタフェース１０８を接続するために相互接続を開閉するように構成される。少なくともいくつかの実施形態では、相互接続コントローラ１０４は、計算シーケンスに応じて、複数の相互接続のうちの個々の相互接続を開閉するように構成される。少なくともいくつかの実施形態では、相互接続コントローラ１０４は、計算シーケンスに応じて複数の計算タイルのうちの計算タイルを接続するために、複数の相互接続のうちの個々の相互接続を開閉するように構成され、外部メモリインタフェースから受信された初期値に適用される計算タイルシーケンス内の連続する計算タイルによって、計算シーケンスの連続する各計算が実行されて、外部メモリインタフェースに送信される結果値を生成する。
少なくともいくつかの実施形態では、チェーン内の計算タイル間の各接続は、直接接続又は複数のメモリタイルのうちのメモリタイルを介した接続である。少なくともいくつかの実施形態では、相互接続コントローラ１０４は、回線交換、トランジスタ、送信ゲート、マルチプレクサなどの開閉のような回路スイッチ方式で相互接続を開閉するように構成される。
少なくともいくつかの実施形態では、相互接続コントローラ１０４は、一般コントローラ１０６からの命令に応答する。

少なくともいくつかの実施形態では、集積回路１００は、計算シーケンスを実行するための命令を受信するように構成された、一般コントローラ１０６のようなコントローラを含む。少なくともいくつかの実施形態では、一般コントローラ１０６は、計算シーケンスを含む命令を受信し、相互接続コントローラに、計算シーケンスに応じて複数の相互接続をリコンフィギュアさせるように構成される。少なくともいくつかの実施形態では、一般コントローラ１０６は、ニューラルネットワーク推論、画像処理、圧縮／解凍、並列計算などのような計算シーケンスを装置１００に実行させるための命令を実行するように構成された回路を含む。少なくともいくつかの実施形態では、一般コントローラ１０６は、ホストプロセッサからコンパイルされた命令を受信するように構成される。少なくともいくつかの実施形態では、コンパイルされた命令は、処理のスケジューリング、各処理を実行するための指定された計算タイル、中間データを格納するための指定されたメモリタイル及びアドレス、複数の相互接続をコンフィギュアするための接続スキーム、及び集積回路が計算シーケンスを実行するために必要な任意の他の詳細を含む。少なくともいくつかの実施形態では、一般コントローラ１０６は、計算タイルよりも低い周波数で動作するように構成される。

外部メモリインタフェース１０８は、メモリタイル及び計算タイルが外部メモリとデータを交換することを可能にするように構成された回路を含む。少なくともいくつかの実施形態では、外部メモリインタフェース１０８は、外部メモリとデータを交換するように構成された入力ポート及び出力ポートを含む。
少なくともいくつかの実施形態では、外部メモリは、ホストプロセッサと通信するＤＲＡＭメモリである。少なくともいくつかの実施形態では、装置１００は、ＤＲＡＭメモリがデータの残りを格納している間に、計算シーケンスのためのデータの小さな作業部分を格納する。

計算タイル１１０のような計算タイルは、値に対して数学的演算を実行するように構成された回路を含む。少なくともいくつかの実施形態では、装置１００は、複数の計算タイルを含み、複数の計算タイルのうちの各計算タイルは、入力ポート、出力ポート、計算メモリ、プロセッサ、及び計算コントローラを含む。少なくともいくつかの実施形態では、複数の計算タイルのうちの各計算タイルのプロセッサは、ポイントワイズ畳み込み又はデプスワイズ畳み込みのうちの少なくとも１つを実行するように構成される。少なくともいくつかの実施形態では、複数の計算タイルのうちの各計算タイルのプロセッサは、固定動作プロセッサである。少なくともいくつかの実施形態では、計算タイルは、図２に示されるように構成され、以下で説明される。

メモリタイル１２０のようなメモリタイルは、データを格納するように構成された回路を含む。
少なくともいくつかの実施形態では、メモリバンクは、揮発性データストレージを含む。
少なくともいくつかの実施形態では、装置１００は複数のメモリタイルを含み、複数のメモリタイルのうちの各メモリタイルは入力ポートと出力ポートとを含み、入力ポートを介して受信した値を格納し、格納された値を、出力ポートを介して送信するように構成される。少なくともいくつかの実施形態では、メモリタイルは、図３に示されるように構成され、以下で説明される。

図２は、本発明の少なくとも１つの実施形態による、計算タイル２１０のブロック図である。
計算タイル２１０は、第１の計算メモリ２１２と、第２の計算メモリ２１３と、計算コントローラ２１５と、固定動作プロセッサ２１７と、可変動作プロセッサ２１９とを含む。

第１の計算メモリ２１２及び第２の計算メモリ２１３は、データを格納するように構成される。少なくともいくつかの実施形態では、第１の計算メモリ２１２及び第２の計算メモリ２１３のそれぞれは、１つ又は複数のメモリバンクを含む。
少なくともいくつかの実施形態では、第１の計算メモリ２１２及び第２の計算メモリ２１３は、固定動作プロセッサ２１７、可変プロセッサ２１９、又は計算タイル２１０の入力ポートから受信した値を格納するように構成される。
少なくともいくつかの実施形態では、第１の計算メモリ２１２及び第２の計算メモリ２１３は、固定動作プロセッサ２１７、可変プロセッサ２１９、又は計算タイル２１０の出力ポートに値を送信するように構成される。少なくともいくつかの実施形態では、第１の計算メモリ２１２は、第２の計算メモリ２１３とは異なる量のメモリ又は異なるタイプのメモリで構成される。少なくともいくつかの実施形態では、第１の計算メモリ２１２及び第２の計算メモリ２１３は、計算コントローラ２１５からの命令に従って動作する。

少なくともいくつかの実施形態では、計算コントローラ２１５は、計算タイル２１０を動作させるように構成された回路を含む。少なくともいくつかの実施形態では、計算コントローラ２１５は、装置の一般コントローラから信号を受信し、受信した信号に従って計算タイル２１０を動作させるように構成される。少なくともいくつかの実施形態では、計算コントローラ２１５は、第１の計算メモリ２１２及び第２の計算メモリ２１３に特定値を格納又は送信させ、固定動作プロセッサ２１７及び可変動作プロセッサ２１９に値に対して数学的演算を実行させ、それに応じて計算タイル２１０内のマルチプレクサに値をルーチングさせる。
少なくともいくつかの実施形態では、計算コントローラ２１５は、固定動作プロセッサ２１７及び可変動作プロセッサ２１９に選択的に値を入力するようにさらに構成される。少なくともいくつかの実施形態では、計算コントローラ２１５は、計算タイル２１０の入力ポートを介して値を受け取り、任意の計算メモリ上に値を格納し、任意のプロセッサに値を入力し、計算タイル２１０の出力ポートを介して値を送信するように構成される。

少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、数学的演算を実行するように構成された専用回路を含む。
少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、１つよりも多いタイプの数学的演算を実行するように構成された専用回路を含む。少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、画像処理、圧縮／解凍、並列計算などを実行するように構成された専用回路を含む。少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、ポイントワイズ畳み込み又はデプスワイズ畳み込みのような畳み込み演算を実行するように構成される。少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、高さ（ＫＨ）ｘ幅（ＫＷ）のカーネルサイズ、垂直及び水平ストライド、拡張、パディングなどのような、数学的演算の異なるパラメータに対する直接支援を提供するよう構成され得る。少なくともいくつかの実施形態では、固定動作プロセッサ２１７は、図６Ａ及び図６Ｂに示すように、又は図７に示すように構成され、それらのそれぞれは以下に説明される。

少なくともいくつかの実施形態では、可変動作プロセッサ２１９は、処理を実行するようにコンフィギュア可能なプログラマブル回路を含む。少なくともいくつかの実施形態では、複数の計算タイルのうちの各計算タイルは、値に対して数学的演算を実行するために計算シーケンスに基づいてコンフィギュア可能な可変動作プロセッサ２１９をさらに含む。少なくともいくつかの実施形態では、可変動作プロセッサ２１９は、処理を実行するようにコンフィギュア可能である。少なくともいくつかの実施形態では、可変動作プロセッサ２１９は、値に対して数学的演算を実行するために計算シーケンスに基づいてコンフィギュア可能である。少なくともいくつかの実施形態では、可変動作プロセッサ２１９は、計算タイル２１０によって消費された電力又は計算タイル２１０によって実行された処理のレイテンシのうちの１つをモニタし、消費された電力及び処理のレイテンシに基づいて計算タイル２１０のプロファイリングを実行するようにコンフィギュア可能である。少なくともいくつかの実施形態では、可変動作プロセッサ２１９は、値に対して活性化関数を実行するようにコンフィギュア可能である。

図３は、本発明の少なくとも１つの実施形態による、メモリタイル３２０のブロック図である。メモリタイル３２０は、メモリバンク３２２及びメモリコントローラ３２４を含む。少なくともいくつかの実施形態では、メモリバンク３２２は、値を格納するように構成された回路を含む。少なくともいくつかの実施形態では、メモリバンク３２２は、揮発性データストレージを含む。少なくともいくつかの実施形態では、メモリバンク３２２は、不揮発性データストレージを含む。

少なくともいくつかの実施形態では、メモリコントローラ３２４は、メモリタイル３２０を動作させるように構成された回路を含む。
少なくともいくつかの実施形態では、メモリコントローラ３２４は、図１の一般コントローラ１０６のような一般コントローラから信号を受信し、受信した信号に従ってメモリタイル３２０を動作させるように構成される。少なくともいくつかの実施形態では、メモリコントローラ３２４は、計算タイルから受信された信号に応答してメモリバンク３２２をロックし、メモリバンク３２２に、格納された値を１つ又は複数の計算タイルへ送信させる。
少なくともいくつかの実施形態では、メモリコントローラ３２４は、メモリバンク３２２を特定の計算タイルに接続させ、メモリバンク３２２に、接続された計算タイルから送信された１つ又は複数の値を記録させる。

図４は、本発明の少なくとも１つの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置の一部の模式図である。図１の装置１００のような装置の一部は、相互接続４０２のような複数の相互接続、及びタイル４０１を含む。少なくともいくつかの実施形態では、タイル４０１は、計算タイル又はメモリタイルのいずれかである。複数の相互接続は、スイッチクラスタ４０３Ａ及び４０３Ｂのような複数のスイッチクラスタと、接続クラスタ４０４Ａ及び４０４Ｂのようなの複数の接続クラスタとの間に分散される。少なくともいくつかの実施形態では、各スイッチクラスタは、複数のスイッチクラスタのうちの近くのスイッチクラスタと、複数の接続クラスタのうちの接続クラスタとを接続する複数の相互接続のうちの相互接続を含む。スイッチクラスタ４０３Ａは、少なくともスイッチクラスタ４０３Ｂと接続クラスタ４０４Ａとを接続する相互接続を含む。少なくともいくつかの実施形態では、複数の接続クラスタのうちの各接続クラスタは、複数のスイッチクラスタのうちの近くのスイッチクラスタと、複数の計算タイル及びメモリタイルのうちの対応するタイルとを接続する相互接続を含む。接続クラスタ４０４Ａは、少なくともスイッチクラスタ４０３Ａ及びタイル４０１を接続する相互接続を含む。少なくともいくつかの実施形態では、各タイルは、複数の相互接続のうちの１つ又は複数の相互接続によって、複数の計算タイル及び複数のメモリタイルのうちの隣接するタイルから分離される。

少なくともいくつかの実施形態では、接続クラスタ４０４Ａの相互接続は、タイル４０１の様々な入力ポートに接続する。少なくともいくつかの実施形態では、接続クラスタ４０４Ｂの相互接続は、タイル４０１の様々な出力ポートに接続する。
少なくともいくつかの実施形態では、タイル４０１は、１つ又は複数の入力ポートと、１つ又は複数の出力ポートとを含む。少なくともいくつかの実施形態では、タイル４０１は、他のタイル又は外部メモリインタフェースから値を受信するための少なくとも１つの入力ポートを含む。少なくともいくつかの実施形態では、タイル４０１は、他のタイル又は外部メモリインタフェースに値を送信するための少なくとも１つの出力ポートを含む。少なくともいくつかの実施形態では、タイル４０１は、他のタイル、外部メモリインタフェース、又は図１の一般コントローラ１０６のような一般コントローラから制御信号を受信するための少なくとも１つの入力ポートを含む。少なくともいくつかの実施形態では、タイル４０１は、他のタイル、外部メモリインタフェース、又は一般コントローラに制御信号を送信するための少なくとも１つの出力ポートを含む。

図５は、本発明の少なくとも１つの実施形態による、計算タイル５１０の模式図である。
計算タイルは、第１の計算メモリ５１２と、第２の計算メモリ５１３と、入力マルチプレクサ５１６Ａのような複数の入力マルチプレクサと、出力マルチプレクサ５１６Ｂと、プロセッサ５１８とを含む。第１の計算メモリ５１２、第２の計算メモリ５１３、及びプロセッサ５１８は、以下で説明が異なる部分を除き、それぞれ図２の第１の計算メモリ２１２、第２の計算メモリ２１３、及び固定動作プロセッサ２１７と実質的に同じ構造を有し、実質的に同じ機能を実行する。計算タイル５１０は、接続クラスタ５０４Ａを介して値を受信するための２つの入力ポートを含む。計算タイル５１０は、接続クラスタ５０４Ｂを介して値を送信するための１つの出力ポートを含む。

少なくともいくつかの実施形態では、計算タイル５１０は、接続クラスタ５０４Ａから計算コントローラへの制御信号を受信するための少なくとも１つのさらなる入力を含む。少なくともいくつかの実施形態では、計算タイル５１０は、計算コントローラから接続クラスタ５０４Ｂに制御信号を送信するための少なくとも１つのさらなる出力を含む。

入力マルチプレクサ５１６Ａ及び出力マルチプレクサ５１６Ｂのような計算タイル内の各マルチプレクサは、複数の入力と単一の出力とを含む。少なくともいくつかの実施形態では、各マルチプレクサは、データ入力接続を選択するように構成される。少なくともいくつかの実施形態では、各マルチプレクサは、計算コントローラからの信号のような選択命令に応答するように構成される。少なくともいくつかの実施形態では、第１の計算メモリ５１２への入力マルチプレクサ及び第２の計算メモリ５１３への入力マルチプレクサはそれぞれ、接続クラスタ５０４Ａに接続された入力ポートからの２つの入力と、プロセッサ５１８の出力に接続された入力を含む。少なくともいくつかの実施形態では、入力マルチプレクサ５１６Ａのようなプロセッサ５１８への入力マルチプレクサはそれぞれ、第１の計算メモリ５１２の出力に接続された入力、第２の計算メモリ５１３の出力に接続された入力、及び接続クラスタ５０４Ａに接続された入力ポートのうちの１つからの入力をそれぞれ含んでいる。出力マルチプレクサ５１６Ｂは、第１の計算メモリ５１２の出力に接続された入力、第２の計算メモリ５１３の出力に接続された入力、プロセッサ５１８の出力に接続された入力、及び接続クラスタ５０４Ｂに接続された出力ポートへの出力を含む。

図６Ａは、本発明の少なくとも１つの実施形態による、デプスワイズ畳み込みプロセッサ６１７の模式図である。デプスワイズ畳み込みプロセッサ６１７は、キュー６１７Ｑ、主シーケンサ６１７ＭＳ、ウィンドウシーケンサ６１７ＷＳ、活性化フィーダ６１７ＡＦ、重みフィーダ６１７ＷＦ、パイプラインコントローラ６１７ＰＣ、畳み込みパイプライン６１７ＣＰ、外部累積ロジック６１７Ａ及び累積メモリインタフェース６１７ＡＩを含む。

キュー６１７Ｑは命令を受信及び送信する。キュー６１７Ｑは、図２の計算コントローラ２１５のような計算コントローラから命令を受信し、その命令を主シーケンサ６１７ＭＳに送信し得る。キュー６１７Ｑは、ＦＩＦＯメモリ又は命令をキューするのに適したいかなる他のメモリであり得る。

主シーケンサ６１７ＭＳは、畳み込みのための制御パラメータをシーケンスする。主シーケンサ６１７ＭＳは、キュー６１７Ｑから命令を受信し、ウィンドウシーケンサ６１７ＷＳに命令を出力し得る。主シーケンサ６１７ＭＳは、ＫＨｘＫＷ畳み込みを１ｘ＜ウィンドウ＞の大きさのより小さな畳み込みに分け、カーネル内の入力領域の順序に応じて活性化データ及び重み値に対する命令を準備する。ここで＜ウィンドウ＞はラインバッファ長を決定するアーキテクチャーパラメータを指す。

ウィンドウシーケンサ６１７ＷＳは、一つの１ｘ＜ウィンドウ＞畳み込みのための制御パラメータをシーケンスする。ウィンドウシーケンサ６１７ＷＳは、主シーケンサ６１７ＭＳから命令を受信してよく、かつ、カーネル内の入力領域の順序に応じた活性化データのデータシーケンスを活性化フィーダ６１７ＡＦに、及び、カーネル内の入力領域の順序に応じた重み値のデータシーケンスを重みフィーダ６１７ＷＦに出力してよい。

活性化フィーダ６１７ＡＦは、ウィンドウシーケンサ６１７Ｓからのデータシーケンスに示される活性化データに従って、データメモリインタフェース６１７ＤＩを介してメモリバンクからアクセスされた活性化データを、畳み込みパイプライン６１７ＣＰに供給する。活性化フィーダ６１７ＡＦは、メモリバンクから、１ｘ＜ウィンドウ＞計算に十分な活性化データを、畳み込みパイプライン６１７ＣＰのラインバッファ内へ読み取り得る。

重みフィーダ６１７ＷＦは、ウィンドウシーケンサ６１７Ｓからのデータシーケンスに示される重み値に従って、重みメモリインタフェース６１７ＷＩを介して、メモリバンクからアクセスされた重み値を、畳み込みパイプライン６１７ＣＰへプリロードする。重みフィーダ６１７ＷＦは、重みメモリから、１ｘ＜ウィンドウ＞計算に十分な重み値を、畳み込みパイプライン６１７ＣＰの重みバッファ内へ読み取り得る。

パイプラインコントローラ６１７ＰＣは畳み込みパイプライン６１７ＣＰのデータ送信オペレーションを制御する。一旦、現在の活性化バッファコンテンツが処理されたら、パイプラインコントローラ６１７ＰＣは、ラインバッファから畳み込みパイプライン６１７ＣＰの活性化バッファへのデータのコピーを開始し得る。パイプラインコントローラ６１７ＰＣは、畳み込みパイプライン６１７ＣＰの各チャネルパイプライン６１７ＣＨで実行される畳み込み演算を制御し得、ここで、各チャネルパイプライン６１７ＣＨはデプスワイズ畳み込み層への入力の１つのチャネルで動作する。

畳み込みパイプライン６１７ＣＰは、活性化フィーダ６１７ＡＦから与えられた活性化データ及び重みフィーダ６１７ＷＦからプリロードされた重み値に数学的演算を実行する。畳み込みパイプライン６１７ＣＰはチャネルパイプライン６１７ＣＨへ分割され、各チャネルパイプライン６１７ＣＨは１つのチャネルに対して数学的演算を実行する。活性化フィーダ６１７ＡＦ、重みフィーダ６１７ＷＦ及びパイプラインコントローラ６１７ＰＣと組み合わせて、畳み込みパイプラインが畳み込み演算を論理的に実行する。

外部累積ロジック６１７Ａは、畳み込みパイプライン６１７ＣＰからデータを受信し、累積メモリインタフェース６１７ＡＩを介してメモリバンクにデータを格納する。累積ロジック６１７Ａは、各チャネルパイプライン６１７ＣＨについて加算器６１７Ｐを含む。累積ロジック６１７Ａは、メモリバンクのコンテンツと１ｘ＜ウィンドウ＞畳み込みの結果とのポイントワイズ加算のために用いられ得る。

この実施形態において、３つのウィンドウパイプラインで例示された３つのチャネルがある。しかし、他の実施形態は異なる数のチャネルを有し得る。可能であるものの、この実施形態は主に簡易性のため３つのチャネルを示した。多くの実施形態は、実際の適用に対応すべく少なくとも１６チャネルを含むだろう。

図６Ｂは、本発明の少なくとも１つの実施形態による、デプスワイズ畳み込みプロセッサのためのチャネル毎のパイプラインの模式図である。チャネルパイプライン６１７ＣＨは、ラインバッファ６１７ＬＢ、活性化バッファ６１７ＡＢ、重みバッファ６１７ＷＢ、複数の乗算器６１７Ｘ、複数の加算器６１７Ｐ、遅延レジスタ６１７ＤＲ及び内部累積レジスタ６１７ＮＢを含む。

ラインバッファ６１７ＬＢは、活性化フィーダ６１７ＡＦから受け取った活性化データを格納する。ラインバッファ６１７ＬＢは、サイクルあたり１ピクセルで活性化フィーダ６１７ＡＦによって読み取られる活性化データを格納するシフトレジスタを含み得る。

活性化バッファ６１７ＡＢは、ラインバッファ６１７ＬＢから受け取った活性化データを格納する。活性化バッファ６１７ＡＢは、現在の畳み込み演算が適用される活性化データを格納する１セットのレジスタを含み得る。

重みバッファ６１７ＷＢは、重みフィーダ６１７ＷＦから受け取った重み値を格納する。重みバッファ６１７ＷＢは、現在の畳み込み演算が適用される重み値を格納するシフトレジスタを含み得る。

乗算器６１７Ｘは、活性化バッファ６１７ＡＢからの活性化データに重みバッファ６１７ＷＢからの重み値を掛け合わせる。この実施形態では、３つの乗算器６１７Ｘがあり、これは畳み込みカーネルの幅又は高さ次元の並列度が３であることを意味する。加算器６１７Ｐは、集合的に加算木を形成し、その後、活性化データと重み値との積を一緒に加算する。この処理の間、加算木の一部ともみなされる遅延レジスタ６１７ＤＲは、ものでもあるが、加算木をバランスさせる。内部累積レジスタ６１７ＩＡは、部分和を格納することにより加算を補助する。例えば、内部累積レジスタ６１７ＩＡは、この実施形態では６つであるバッファのウィンドウの数、及び、畳み込みフィルタの幅又は高さが、３である並列度よりも多いときに、部分和を累積するのに用いられ得る。

一旦、積が全て総和としてまとめて加算されると、総和は累積ロジック６１７Ａに出力され、累積ロジック６１７Ａは、その後、累積メモリインタフェース６１７ＡＩを介して、そのデータをメモリバンクに格納する。

図７は、本発明の少なくとも１つの実施形態による、ポイントワイズ畳み込みプロセッサ７１７の模式図である。ポイントワイズ畳み込みプロセッサ７１７は、キュー７１７Ｑ、主シーケンサ７１７Ｓ、重みメモリインタフェース７１７ＷＩ、重みフィーダ７１７ＷＦ、活性化フィーダ７１７ＡＦ、データメモリインタフェース７１７ＤＩ、シストリックアレイ７１７Ｓ、累積ロジック７１７Ａ及び累積メモリインタフェース７１７ＡＩを含む。

キュー７１７Ｑは命令を受信及び送信する。キュー７１７Ｑは、図２の計算コントローラ２１５のような計算コントローラから命令を受信し、主シーケンサ７１７Ｓにその命令を送信し得る。キュー７１７Ｑは、ＦＩＦＯメモリ又は命令をキューイングするのに適した任意の他のメモリであり得る。

主シーケンサ７１７Ｓは畳み込みのための制御パラメータをシーケンスする。主シーケンサ７１７Ｓは、キュー７１７Ｑから命令を受信し、制御シーケンスを、重みフィーダ７１７ＷＦ及び活性化フィーダ７１７ＡＦへ、各々キューを介して出力し得る。この実施形態において、主シーケンサ７１７ＳはＫＨｘＫＷ畳み込みを１ｘ１畳み込みのシーケンスに分け、それらが制御パラメータとして重みフィーダ７１７ＷＦ及び活性化フィーダ７１７ＡＦに与えられる。

重みフィーダ７１７ＷＦは、主シーケンサ７１７Ｓからの制御パラメータに示される活性化データに従って、重みメモリインタフェース７１７ＷＩを介して、メモリバンクからアクセスされた重み値を、シストリックアレイ７１７ＳＡにプリロードする。

活性化フィーダ７１７ＡＦは、主シーケンサ７１７Ｓからのデータシーケンスに示される活性化データに従って、データメモリインタフェース７１７ＤＩを介してメモリバンクからアクセスされた活性化データを、シストリックアレイ７１７ＳＡに供給する。

シストリックアレイ７１７ＳＡは、複数のＭＡＣ要素７１７Ｍを含む。各ＭＡＣ要素７１７Ｍは、計算開始前に、重みフィーダ７１７ＷＦからの重み値とともにプリロードされ、その後、活性化フィーダ７１７Ｆから活性化値を受信する。計算及び重み値のプリロードのオーバーラップを可能にすべく、複数の重みバッファが用いられ得る。先行のＭＡＣ要素７１７Ｍから出力された重みと活性化値との積が次のＭＡＣ要素７１７Ｍに入力されるように、ＭＡＣ要素７１７Ｍはアレイ状に配置されている。本実施形態では、毎サイクルにおいて、各ＭＡＣ要素７１７Ｍは、プリロードされた重み値７１７Ｗで乗算された自身の左に隣接するＭＡＣ要素７１７Ｍから出力された値に等しい累積値を出力し、その積は自身の上に隣接するＭＡＣ要素７１７Ｍから出力された値に加算される。最下行のＭＡＣ要素７１７Ｍは、それらの積を累積ロジック７１７Ａに出力する。

累積ロジック７１７Ａは、シストリックアレイ７１７ＳＡから積を受信し、その積をメモリバンクに格納する。本実施形態において、主シーケンサ７１７Ｓで必要とされる累積が書き込まれるべきメモリロケーションの古い値を読み取る場合、累積ロジック７１７Ａはそれを新しい値で和によって上書きするであろう。さもなくば、累積ロジック７１７Ａは、新しい値をそのまま書き込む。

ポイントワイズ畳み込みモジュール７１７は、単一のＫＨｘＫＷ畳み込みを複数のＫＨｘＫＷの１ｘ１畳み込みに分割することによってポイントワイズ畳み込みを実行するのに有用であり得る。例えば、４つの異なる１ｘ１畳み込みに対応するメモリバンクの領域において、２ｘ２畳み込みが代用され得る。ポイントワイズ畳み込みモジュール７１７は、各１ｘ１畳み込みを、ＭＡＣ要素の活性化値の行列とＭＡＣ要素の重み値の行列とのドット積として計算し、その後、その１ｘ１畳み込みの結果を合計し得る。

図６Ａ、６Ｂ、及び７の畳み込みプロセッサは、畳み込みネットワークの推論を実行するように構成された少なくともいくつかの実施形態で実装される。他のプロセッサは、他のタイプのディープネットワークを含む他のタイプのニューラルネットワークの推論を実行するように構成された専用回路を含む少なくともいくつかの他の実施形態で使用される。他のプロセッサは、画像処理、圧縮／解凍、並列計算などを実行するように構成された専用回路を含む少なくともいくつかの実施形態で使用される。

図８は、本発明の少なくとも１つの実施形態による、計算シーケンスの図である。この計算シーケンスは、ニューラルネットワークの推論を実行するためのものである。計算シーケンスは、第１の層８３０を含む３つの層を有する。第１の層８３０は、計算８３２を含む４つの計算を含む。計算８３２は、データ値及び第１の重み値８３７に対して実行される。少なくともいくつかの実施形態では、計算８３２に関与する重み値８３７は、接続８３８を介して取得される。第２の層は、計算８３３を含む４つの計算を含む。計算８３３は、計算８３２の結果値及び第２の重み値に対して実行される。少なくともいくつかの実施形態では、計算８３２の結果値は、接続８３５を介して取得される。第３の層は、８つの計算を含み、そのそれぞれは、第２の層の計算の結果値と第３の重み値とに対して実行される。少なくともいくつかの実施形態では、計算シーケンスは、３つよりも多くの層を有し、少なくともいくつかの実施形態では３つよりも少ない層を有する。計算シーケンスの層の数は、必ずしも、推論の対象となるニューラルネットワークの層の数に等しくない。

図９Ａは、本発明の少なくとも１つの実施形態による、計算シーケンスのために構成された装置のブロック図である。この装置は、計算タイル９３２及び計算タイル９３３を含む複数の計算タイルと、メモリタイル９３７を含む複数のメモリタイルと、相互接続９０２を含む複数の相互接続とを含む。装置は、図８の計算シーケンスに応じて構成され、それによって、計算シーケンスの各計算は、装置内の計算タイルによって実現される。この実施形態では、メモリタイルは、計算シーケンスの重み値を格納するように構成される。

図９Ｂは、本発明の少なくとも１つの実施形態による、計算シーケンスのためのマルチキャスト送信を実行する装置のブロック図である。この実施形態では、複数の相互接続は、入力ポート及び出力ポートの直接接続を介して値が流れるように、計算シーケンスに応じて、計算タイル及びメモリタイルを逐次に接続するように構成される。少なくともいくつかの実施形態では、計算シーケンスは、階層の各先頭計算タイルが外部メモリインタフェースから初期値を受信し、１つ又は複数の後続の計算タイルに中間値を送信するように構成され、階層の各中間計算タイルが、先行の計算タイルから先行中間値を受信して１つ又は複数の後続の計算タイルに後続の中間値を出力するように構成され、階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、外部メモリインタフェースに結果値を出力するように構成される、ように接続された複数の計算タイルのうちの計算タイルの階層を含み、階層内の計算タイル間の各接続は、直接接続又は複数のメモリタイルのうちのメモリタイルを介する接続である。特に、複数の相互接続は、第１の重み値を格納しているメモリタイル９３７の出力ポートを、計算タイル９３２を含む最初の層９３０内の計算タイルの入力ポートに接続するように構成される。少なくともいくつかの実施形態では、メモリタイル９３７は、マルチキャスト送信を実行し、それによって、メモリタイル９３７は、実質的にほぼ同じ時刻に最初の層９３０における全ての計算タイルによって受信される単一の送信を実行する。

図９Ｃは、本発明の少なくとも１つの実施形態による、計算シーケンスのためのポイント・ツー・ポイント送信を実行する装置のブロック図である。この実施形態では、複数の相互接続は、入力ポート及び出力ポートの直接接続を介して値が流れるように、計算シーケンスに応じて、計算タイル及びメモリタイルを逐次に接続するように構成される。特に、複数の相互接続は、計算タイル９３２の出力ポートを計算タイル９３３の入力ポートに接続するように構成される。少なくともいくつかの実施形態では、一旦計算タイル９３２が計算を実行すると、計算タイル９３２はポイント・ツー・ポイント送信を実行し、それによって、計算タイル９３２は結果値を計算タイル９３３に送信する。

少なくともいくつかの実施形態では、複数の相互接続は、ブロードキャスト送信のために、タイルの出力ポートを、全ての他のタイルの入力ポートに接続するように構成される。少なくともいくつかの実施形態では、ブロードキャスト送信において、タイルは、実質的にほぼ同じ時刻に全ての他のタイルによって受信される単一の送信を実行する。

図１０は、本発明の少なくとも１つの実施形態による、計算シーケンスを実行するための動作フローである。動作フローは、計算シーケンスを実行するための方法を提供する。少なくともいくつかの実施形態では、方法は、図１の一般コントローラ１０６のような、ネットワークオンチップリコンフィギュアビリティのための装置の一般コントローラによって実行される。

Ｓ１０４０において、一般コントローラ又はその部分は、計算シーケンスを受信する。少なくともいくつかの実施形態では、一般コントローラは、ニューラルネットワークの推論を実行する命令を受信し、その命令は、計算シーケンスを含む。
少なくともいくつかの実施形態では、ニューラルネットワークの推論の実行は、ニューラルネットワークをトレーニングする処理の一部である。少なくともいくつかの実施形態では、計算シーケンスは、テンソル仮想マシン（ＴＶＭ）、他のコンパイラスタックなどのような計算グラフである。少なくともいくつかの実施形態では、計算シーケンスは、装置内の計算タイルにおいて計算シーケンスを実現するために相互接続を開閉する命令を含む。

Ｓ１０５０において、一般コントローラ又はその部分は、計算シーケンスに応じて装置をリコンフィギュアする。少なくともいくつかの実施形態では、一般コントローラは、相互接続コントローラに、計算シーケンスに応じて複数の相互接続をリコンフィギュアさせる。少なくともいくつかの実施形態では、一般コントローラは、装置の他のゾーンのコンフィギュレーションを維持しながら、装置の第１のゾーンをリコンフィギュアする。少なくともいくつかの実施形態では、一般コントローラは、計算シーケンスの一部のために装置をリコンフィギュアする。少なくともいくつかの実施形態では、計算シーケンスは、部分に分割される。少なくともいくつかの実施形態では、命令は、ニューラルネットワークの第１の部分に関連する第１の計算シーケンスと、ニューラルネットワークの第２の部分に関連する第２の計算シーケンスとを含む。少なくともいくつかの実施形態では、装置のリコンフィギュレーションは、図１１に関して以下に説明するように実行される。

Ｓ１０４２において、一般コントローラ又はその部分は、計算シーケンスの一部を実行する。少なくともいくつかの実施形態では、一般コントローラは、計算シーケンスの計算をそれぞれの計算タイルによって実行させるために、計算タイル及びメモリタイルに制御信号を送信する。少なくともいくつかの実施形態では、一般コントローラは、複数の計算タイル及び複数のメモリタイルを調整することによって、ニューラルネットワークの推論を実行する。少なくともいくつかの実施形態では、一般コントローラは、第１のイテレーションにおいて、複数の計算タイル及び複数のメモリタイルを調整することによってニューラルネットワークの第１の部分の推論を実行し、その後、第２のイテレーションにおいて、複数の計算タイル及び複数のメモリタイルを調整することによってニューラルネットワークの第２の部分の推論を実行する。

Ｓ１０４４において、一般コントローラ又はそのサブ部分は、計算シーケンスの全ての部分が計算されたかどうかを判断する。一般コントローラが、計算シーケンスの全ての部分よりも少ない部分が計算されたと判断した場合、動作フローは、Ｓ１０５０の装置リコンフィギュアに戻る前に、次の部分を選択する（Ｓ１０４６）。計算シーケンスの全ての部分が計算されたと一般コントローラが判断した場合、動作フローは終了する。

図１１は、本発明の少なくとも１つの実施形態による、ネットワークオンチップリコンフィギュアビリティのための装置をリコンフィギュアするための動作フローである。動作フローは、ネットワークオンチップリコンフィギュアビリティのための装置をリコンフィギュアするための方法を提供する。少なくともいくつかの実施形態では、方法は、図１の一般コントローラ１０６のような、装置の一般コントローラによって実行される。

Ｓ１１５２において、一般コントローラ又はその部分は、計算シーケンスに応じて複数の相互接続をリコンフィギュアする。少なくともいくつかの実施形態では、一般コントローラは、図１の相互接続コントローラ１０４のような相互接続コントローラに、計算シーケンスに応じて複数の相互接続をリコンフィギュアさせる。少なくともいくつかの実施形態では、一般コントローラは、相互接続コントローラに、第１の計算シーケンスに応じて複数の相互接続をリコンフィギュアさせる。少なくともいくつかの実施形態では、一般コントローラは、相互接続コントローラに、第２の計算シーケンスに応じて複数の相互接続をリコンフィギュアさせる。

Ｓ１１５４において、一般コントローラ又はその部分は、計算シーケンスが、計算タイルの可変動作プロセッサのためのカスタム動作を含むかどうかを判断する。少なくともいくつかの実施形態では、計算タイルの可変動作プロセッサは、値に対する活性化関数、又はプロファイリングのようなカスタム動作を実行するように構成される。一般コントローラが、計算シーケンスがカスタム動作を含むと判断した場合、動作フローは、Ｓ１１５６のプロセッサコンフィギュレーションに進む。一般コントローラが、計算シーケンスがカスタム動作を含まないと判断した場合、動作フローは、Ｓ１１５８の値取得に進む。

Ｓ１１５６において、一般コントローラ又はその部分は、計算タイルの可変動作プロセッサをコンフィギュアする。少なくともいくつかの実施形態では、一般コントローラは、計算タイルの計算コントローラに、可変動作プロセッサをコンフィギュアさせる。

Ｓ１１５８で、一般コントローラ又はその部分は、外部メモリインタフェースから値を取得する。少なくともいくつかの実施形態では、一般コントローラは、個々のタイルに外部メモリインタフェースから値を取得させる。少なくともいくつかの実施形態では、一般コントローラは、計算を実行する前に、メモリタイルに外部メモリインタフェースから重み値を取得させる。少なくともいくつかの実施形態では、一般コントローラは、計算タイルに、外部メモリインタフェースからデータ値を取得させ、取得されたデータ値を１つ又は複数の計算メモリに格納させる。

少なくともいくつかの実施形態は、ブロックが（１）処理が実行される動作のステップ、又は（２）処理の実行を担うコントローラの部分を表し得るフローチャート及びブロック図との関連で説明された。少なくともいくつかの実施形態では、特定のステップ及び部分は、専用回路、コンピュータ可読媒体に格納されたコンピュータ可読命令が供給されたプログラマブル回路、及び／又はコンピュータ可読媒体に格納されたコンピュータ可読命令が供給されたプロセッサにより実装される。少なくともいくつかの実施形態では、専用回路は、デジタル及び／又はアナログハードウェア回路を含み、集積回路（ＩＣ）及び／又はディスクリート回路を含む。少なくともいくつかの実施形態では、プログラマブル回路は、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）などのような、論理ＡＮＤ、ＯＲ、ＸＯＲ、ＮＡＮＤ、ＮＯＲ、及び他の論理演算、フリップ－フロップ、レジスタ、メモリ要素などを備える再構成可能なハードウェア回路を含む。

少なくともいくつかの実施形態では、コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持及び格納可能な物理的デバイスを含む。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は上述の任意の好適な組み合わせを含むが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカード若しくは記録された命令を有するグルーブ内の隆起構造のような機械的にエンコードされたデバイス、及び上述のものの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書で用いられるように、それ自体で、電波又は他の自由に伝搬する電磁波、導波管又は他の伝送媒体を通して伝播する電磁波（例えば、光ファイバ・ケーブルを進む光パルス）、又はワイヤを通して送信される電気信号のような、一時的な信号であると解釈されるものではない。

少なくともいくつかの実施形態では、本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイス又は外部コンピュータ又は外部記憶装置へ、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークなどのネットワークを介して、ダウンロード可能である。少なくともいくつかの実施形態では、当該ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含み得る。少なくともいくつかの実施形態では、各コンピューティング／処理デバイスにおけるネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するためのコンピュータ可読プログラム命令を転送する。

少なくともいくつかの実施形態では、上述した動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、例えばＳｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語若しくは同様のプログラミング言語のような従来の手続き型プログラミング言語とを含む１つ又は複数のプログラミング言語の任意の組み合わせで書き込まれたソースコード若しくはオブジェクトコードのいずれかであり得る。少なくともいくつかの実施形態では、コンピュータ可読プログラム命令は、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で全て実行され得るか、部分的にユーザのコンピュータ上で実行され得るか、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行され得るか、又は、リモートコンピュータ若しくはサーバ上で全て実行され得る。少なくともいくつかの実施形態では、後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続され、若しくは、接続は、外部コンピュータに対して（例えば、インターネットサービスプロバイダを用いてインターネットを介して）行われる。少なくともいくつかの実施形態では、例えば、プログラマブルロジック回路］、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するため、電子回路を個別に扱うためのコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行してよい。

以上、本発明を実施形態を用いて説明したが、請求される任意の主題の技術的範囲は上記実施形態には限定されない。当業者は、上記実施形態に、多様な変更及び改良を加えることが可能であることを理解するだろう。当業者はまた、特許請求の範囲から、かかる変更又は改良を加えた実施形態も本発明の技術的範囲に含まれることを理解するだろう。

請求項、実施形態、又は図面中において示した装置、システム、プログラム、及び方法によって実行される各処理の動作、手順、ステップ、及びステージは、その順序が特段「先立って」、「前に」等のように示されていない限り、また、前の処理の出力を後の処理で使用されない限り、任意の順序で実行することが可能であることに留意すべきである。請求項、実施形態又は図面において、処理フローが、「まず」又は「次に」のような表現を用いて説明されたとしても、かかる説明は、必ずしも説明された順序で処理が実行されることが必須であることを意味するものではない。

少なくともいくつかの実施形態では、ネットワークオンチップリコンフィギュアビリティは、複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルは、値を格納するように構成される、複数のメモリタイルと、外部メモリとデータを交換するように構成された外部メモリインタフェースと、複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、値を格納するように構成された計算メモリと、値に対して数学的演算を実行するように構成された回路を含む、プロセッサとを含む、複数の計算タイルとを含む装置によって実行される。

上記は、当業者が本開示の態様をより良く理解するように、いくつかの実施形態の特徴を概説している。当業者は、本開示が、本明細書に導入された実施形態と同じ目的を遂行する及び／又は同じ利点を実現するための他のプロセス及び構造を設計又は修正するための基礎として容易に使用可能であることを理解するはずである。当業者はまた、かかる均等な構造が本開示の主旨及び範囲から逸脱しないこと、並びに本開示の主旨及び範囲から逸脱することなく本明細書における様々な変更、置換、及び変更が可能であることを認識するはずである。

Claims

複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、
入力ポートと、
出力ポートと、
値を格納するように構成された計算メモリと、
値に対して数学的演算を実行するように構成された回路を含むプロセッサと、
前記入力ポートを介して値を受信し、前記計算メモリに値を格納し、前記プロセッサに値を入力し、前記出力ポートを介して値を送信するように構成された計算コントローラと
を含む、複数の計算タイルと、
複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルが、入力ポート及び出力ポートを含み、前記入力ポートを介して受信した値を格納し、格納した値を前記出力ポートを介して送信するように構成された、複数のメモリタイルと、
外部メモリとデータを交換するように構成された入力ポート及び出力ポートを含む外部メモリインタフェースと、
複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記出力ポートが、前記複数の相互接続のうちの１つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記入力ポートに接続可能であるように配置された、複数の相互接続と、
計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成された相互接続コントローラであって、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースから受信した初期値が適用される計算タイルシーケンスにおける連続する計算タイルによって実行されて前記外部メモリインタフェースに送信される結果値を生成し、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを通じた接続である、相互接続コントローラと
を備える集積回路。
前記計算シーケンスは、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、１つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を１つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介した接続である
請求項１に記載の集積回路。
前記複数の計算タイル及び前記複数のメモリタイルは、２次元グリッドに配置され、各タイルが、前記複数の相互接続のうちの１つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項１又は２に記載の集積回路。
前記複数の相互接続のうちの相互接続は、複数のスイッチクラスタ及び複数の接続クラスタの間で分散されており、
前記複数のスイッチクラスタのうちの各スイッチクラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の接続クラスタのうちの接続クラスタとを接続する相互接続を含み、
前記複数の接続クラスタのうちの各接続クラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の計算タイル及び前記複数のメモリタイルのうちの対応するタイルとを接続する相互接続を含む
請求項１又は２に記載の集積回路。
前記複数の計算タイルのうちの各計算タイルの前記プロセッサは、固定動作プロセッサであり、
前記複数の計算タイルのうちの各計算タイルは、値に対して数学的演算を実行するために前記計算シーケンスに基づいてコンフィギュア可能な可変動作プロセッサをさらに含み、
前記計算コントローラは、前記固定動作プロセッサ及び前記可変動作プロセッサに選択的に値を入力するようにさらに構成される
請求項１又は２に記載の集積回路。
前記複数の計算タイルのうちの各計算タイルの前記可変動作プロセッサは、計算タイルによって消費される電力又は計算タイルによって実行される処理のレイテンシのうちの１つをモニタするようにさらにコンフィギュア可能である
請求項５に記載の集積回路。
前記可変動作プロセッサは、値に対して数学的演算を実行するために、前記計算シーケンスに基づいてコンフィギュア可能である
請求項５に記載の集積回路。
各計算タイルの前記プロセッサは、ポイントワイズ畳み込み又はデプスワイズ畳み込みの１つを実行するように構成される
請求項１又は２に記載の集積回路。
前記計算シーケンスを含む命令を受信し、
前記相互接続コントローラに、前記計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせる
ように構成された一般コントローラ
をさらに備える請求項１又は２に記載の集積回路。
ニューラルネットワークの推論を実行する命令を受信し、前記命令が前記計算シーケンスを含み、
前記相互接続コントローラに、前記計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの推論を実行する
ように構成された一般コントローラ
さらに備える請求項１又は２に記載の集積回路。
前記命令は、前記ニューラルネットワークの第１の部分に関連する第１の計算シーケンスと、前記ニューラルネットワークの第２の部分に関連する第２の計算シーケンスとを含み、
前記一般コントローラは、
前記相互接続コントローラに、前記第１の計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの前記第１の部分の推論を実行し、
前記相互接続コントローラに、前記第２の計算シーケンスに応じて前記複数の相互接続をリコンフィギュアさせ、
前記複数の計算タイル及び前記複数のメモリタイルを調整することによって、前記ニューラルネットワークの前記第２の部分の推論を実行する、
ようにさらに構成される
請求項１０に記載の集積回路。
前記相互接続コントローラは、回線交換式で相互接続を開閉するように構成される、
請求項１又は２に記載の集積回路。
複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルは、値を格納するように構成された、複数のメモリタイルと、
外部メモリとデータを交換するように構成された外部メモリインタフェースと、
複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルは、
値を格納するように構成された計算メモリと、
前記計算メモリ、前記複数のメモリタイルのうちのメモリタイル、又は前記外部メモリインタフェースのうちの少なくとも２つに格納された値の組み合わせに対して数学的演算を実行するように構成された回路を含む、プロセッサと
を含む、複数の計算タイルと
を備え、
計算シーケンスが、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルのうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、１つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を１つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介する接続である
装置。
複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの出力ポートが、前記複数の相互接続のうちの１つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの入力ポートに接続可能であるように配置された、複数の相互接続と、
前記計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成され、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースに送信される結果値を生成するために、前記外部メモリインタフェースから受信した初期値に適用される計算タイルシーケンスにおける連続する計算タイルによって実行され、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介する接続である、相互接続コントローラと
をさらに備える請求項１３に記載の装置。
前記複数の計算タイル及び前記複数のメモリタイルは、２次元グリッドに配置され、
各タイルが、複数の相互接続のうちの１つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項１３又は１４に記載の装置。
複数の計算タイルであって、前記複数の計算タイルのうちの各計算タイルが、
入力ポートと、
出力ポートと、
値を格納するように構成された計算メモリと、
値に対して数学的演算を実行するように構成された回路を含むプロセッサと、
前記入力ポートを介して値を受信し、前記計算メモリに値を格納し、前記プロセッサに値を入力し、前記出力ポートを介して値を送信するように構成された計算コントローラと
して構成された回路を含む、複数の計算タイルと、
複数のメモリタイルであって、前記複数のメモリタイルのうちの各メモリタイルが、入力ポート及び出力ポートとして構成され、前記入力ポートを介して受信した値を格納し、格納した値を前記出力ポートを介して送信するようにさらに構成された回路を含む、複数のメモリタイルと、
外部メモリとデータを交換するように構成された入力ポート及び出力ポートとして構成された回路を含む外部メモリインタフェースと、
回線交換式の複数の相互接続であって、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記出力ポートが、前記複数の相互接続のうちの１つ又は複数の相互接続を介して、各計算タイル、各メモリタイル、及び前記外部メモリインタフェースの前記入力ポートに接続可能であるように配置された、回線交換式の複数の相互接続と、
計算シーケンスに応じて前記複数の計算タイルのうちの計算タイルを接続するために、前記複数の相互接続のうちの個々の相互接続を開閉するように構成された回路を含む相互接続コントローラであって、前記計算シーケンスにおける連続する各計算が、前記外部メモリインタフェースから受信した初期値が適用される計算タイルシーケンスにおける連続する計算タイルによって実行されて前記外部メモリインタフェースに送信される結果値を生成し、チェーンにおける計算タイル間の各接続が、直接接続又は前記複数のメモリタイルのうちのメモリタイルを通じた接続である、相互接続コントローラと
を備える集積回路。
前記計算シーケンスは、前記複数の計算タイルのうちの計算タイルの階層を含み、前記複数の計算タイルうちの計算タイルは、
前記階層の各先頭計算タイルが、前記外部メモリインタフェースから初期値を受信し、１つ又は複数の後続の計算タイルに中間値を送信するように構成され、
前記階層の各中間計算タイルが、先行の計算タイルから先行の中間値を受信し、後続の中間値を１つ又は複数の後続の計算タイルに出力するように構成され、
前記階層の各最終計算タイルが、先行の計算タイルから中間値を受信し、前記外部メモリインタフェースに結果値を出力するように構成される、
ように接続され、
前記階層内の計算タイル間の各接続は、直接接続又は前記複数のメモリタイルのうちのメモリタイルを介した接続である
請求項１６に記載の集積回路。
前記複数の計算タイル及び前記複数のメモリタイルは、２次元グリッドに配置され、
各タイルが、前記複数の相互接続のうちの１つ又は複数の相互接続によって、前記複数の計算タイル及び前記複数のメモリタイルのうちの隣接するタイルから分離される
請求項１６又は１７に記載の集積回路。
前記複数の相互接続のうちの相互接続は、複数のスイッチクラスタ及び複数の接続クラスタの間で分散されており、
前記複数のスイッチクラスタのうちの各スイッチクラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の接続クラスタのうちの接続クラスタとを接続する相互接続を含み、
前記複数の接続クラスタのうちの各接続クラスタは、前記複数のスイッチクラスタのうちの近くのスイッチクラスタと、前記複数の計算タイル及び前記複数のメモリタイルのうちの対応するタイルとを接続する相互接続を含む
請求項１６又は１７に記載の集積回路。