JP7073403B2 - 高スループット内部通信プロトコルを用いる画像処理プロセッサ - Google Patents

高スループット内部通信プロトコルを用いる画像処理プロセッサ Download PDF

Info

Publication number
JP7073403B2
JP7073403B2 JP2019559364A JP2019559364A JP7073403B2 JP 7073403 B2 JP7073403 B2 JP 7073403B2 JP 2019559364 A JP2019559364 A JP 2019559364A JP 2019559364 A JP2019559364 A JP 2019559364A JP 7073403 B2 JP7073403 B2 JP 7073403B2
Authority
JP
Japan
Prior art keywords
data
data packet
processor
receiver
transmitter circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019559364A
Other languages
English (en)
Other versions
JP2020519996A (ja
JP2020519996A5 (ja
Inventor
レッドグレイブ,ジェイソン・ルパート
メイクスナー,アルバート
ヂュー,チウリン
キム,ジ
バシリエブ,アルテム
シャチャム,オフェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020519996A publication Critical patent/JP2020519996A/ja
Publication of JP2020519996A5 publication Critical patent/JP2020519996A5/ja
Application granted granted Critical
Publication of JP7073403B2 publication Critical patent/JP7073403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • G06F15/8023Two dimensional arrays, e.g. mesh, torus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/38Synchronous or start-stop systems, e.g. for Baudot code
    • H04L25/40Transmitting circuits; Receiving circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/39Credit based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • H04L49/9063Intermediate storage in different physical parts of a node or terminal
    • H04L49/9078Intermediate storage in different physical parts of a node or terminal using an external memory or storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Multi Processors (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

発明の分野
本発明の分野は、概して、コンピューティングサイエンスに関し、より具体的には、高スループット内部通信プロトコルを用いる画像処理プロセッサに関する。
背景
画像処理には、通常、アレイに編成された画素値の処理が伴う。ここで、空間的に編成された2次元アレイは、画像の2次元の特性をキャプチャする(さらなる次元として、時間(たとえば、一続きの2次元画像)およびデータ型(たとえば、色)を含み得る)。通常のシナリオでは、配列された画素値は、静止画像または動きを撮影するための一続きのフレームを生成したカメラによって提供される。従来の画像処理プロセッサは、通常、両極端に分かれる。
第1の極端な側面として、汎用プロセッサまたは汎用のようなプロセッサ(たとえば、ベクトル命令が強化された汎用プロセッサ)上で実行されるソフトウェアプログラムとして、画像処理タスクが実行される。第1の極端な側面は、通常、高度の多目的アプリケーションソフトウェア開発プラットフォームを提供するが、細粒度のデータ構造を、関連するオーバーヘッド(たとえば、命令フェッチおよびデコード、オンチップデータおよびオフチップデータの処理、投機的実行)と組み合わせて利用することによって、最終的には、プログラムコードの実行時にデータの単位当たりに消費されるエネルギーの量が多くなってしまう。
正反対の第2の極端な側面として、より大きな単位のデータに、固定関数結線回路が適用される。カスタム設計された回路に直接適用される(細粒度とは対照的な)より大きな単位のデータを利用することによって、データの単位当たりの消費電力が大幅に抑えられる。しかしながら、カスタム設計された固定関数回路を利用することによって、一般に、プロセッサが実行できるタスクのセットが限られてしまう。このように、第2の極端な側面では、(第1の極端な側面に関連する)広く多目的なプログラミング環境がない。
高度の多目的アプリケーションソフトウェア開発機会およびデータの単位当たりの電力効率の向上を可能にするテクノロジープラットフォームが依然として望まれているが、いまだ解決策が見つかっていない。
概要
プロセッサを記載する。プロセッサはネットワークを含む。複数の処理コアが当該ネットワークに連結されている。当該プロセッサは、当該ネットワークに連結されたトランスミッタ回路(transmitter circuit)を含む。当該トランスミッタ回路は、当該複数の処理コアのうちの1つによって生成される出力データを当該ネットワーク内に送信するためのものである。当該トランスミッタ回路は制御論理回路を含む。当該制御論理回路は、当該トランスミッタ回路が出力データのうち先行の第1のパケットの送信を完了する前に、当該トランスミッタ回路に、出力データのうち第2のパケットを送信するための要求を送信させる。
以下の説明および添付の図面を用いて、本発明の実施形態を説明する。
ステンシルプロセッサのアーキテクチャを示す高レベル図である。 画像処理プロセッサのアーキテクチャをより詳細に示した図である。 画像処理プロセッサのアーキテクチャをさらに詳細に示した図である。 画像処理プロセッサが実行できるアプリケーションソフトウェアプログラムを示す図である。 第1の通信シーケンスを示す図である。 改善された通信シーケンスを示す図である。 通信フロー中のカウンタ使用挙動を示す図である。 トランスミッタ回路の一実施形態を示す図である。 レシーバ回路の一実施形態を示す図である。 通信方法を示す図である。 画像データをライングループに解析すること、ライングループをシートに解析すること、および重なり合うステンシルを有するシートに対して行う動作を示した図である。 画像データをライングループに解析すること、ライングループをシートに解析すること、および重なり合うステンシルを有するシートに対して行う動作を示した図である。 画像データをライングループに解析すること、ライングループをシートに解析すること、および重なり合うステンシルを有するシートに対して行う動作を示した図である。 画像データをライングループに解析すること、ライングループをシートに解析すること、および重なり合うステンシルを有するシートに対して行う動作を示した図である。 画像データをライングループに解析すること、ライングループをシートに解析すること、および重なり合うステンシルを有するシートに対して行う動作を示した図である。 ステンシルプロセッサの一実施形態を示す図である。 ステンシルプロセッサの命令語の一実施形態を示す図である。 ステンシルプロセッサ内のデータ演算部の一実施形態を示す図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 重なり合うステンシルを有する隣接する出力画素値のペアを判定するための2次元シフトアレイおよび実行レーンアレイの使用例を示した図である。 統合型実行レーンアレイおよび2次元シフトアレイの単位セルの一実施形態を示す図である。 例示的なコンピューティングシステムを示す図である。
詳細な説明
1.0 固有の画像処理プロセッサのアーキテクチャ
当技術分野において公知であるように、プログラムコードを実行するための基本的な回路構造は、実行ステージとレジスタ空間とを含む。実行ステージは、命令を実行するための実行部を含んでいる。実行される命令のための入力オペランドがレジスタ空間から実行ステージに提供される。実行ステージが命令を実行することによって生成される結果は、レジスタ空間に書き戻される。
従来のプロセッサ上でのソフトウェアスレッドの実行には、実行ステージによる、一連の命令の順次実行が伴う。最も一般的には、1つの入力オペランドセットから1つの結果が生成されるという意味では、演算は、「スカラー」である。しかしながら、「ベクトル」プロセッサの場合、実行ステージによる命令の実行によって、入力オペランドのベクトルから結果のベクトルが生成されることになる。
図1は、2次元シフトレジスタアレイ102に連結された実行レーン(execution lane)のアレイ101を含む固有の画像処理プロセッサのアーキテクチャ100を示す高レベル図である。ここで、実行レーンアレイに含まれる各実行レーンは、プロセッサ100がサポートする命令セットを実行するために必要な実行部を含んだ離散実行ステージとして見ることができる。さまざまな実施形態では、プロセッサが2次元SIMD(Single Instruction Multiple Data)プロセッサとして動作するよう、各実行レーンは、同じマシンサイクルで実行する同じ命令を受け付ける。
各実行レーンは、2次元シフトレジスタアレイ102内の対応する位置に専用のレジスタ空間を有する。たとえば、隅にある実行レーン103は、隅にあるシフトレジスタ位置104に専用のレジスタ空間を有し、隅にある実行レーン105は、隅にあるシフトレジスタ位置106に専用のレジスタ空間を有する。
加えて、前のマシンサイクル時に別の実行レーンのレジスタ空間にあった値を各実行レーンが自分のレジスタ空間から直接操作できるよう、シフトレジスタアレイ102はコンテンツをシフトさせることができる。たとえば、a+1水平シフトによって、各実行レーンのレジスタ空間に、その左端の隣接するレジスタ空間から値を受け付けさせる。水平軸に沿って左右両方向に値をシフトさせ、垂直軸に沿って上下両方向に値をシフトさせることができる機能のおかげで、プロセッサは、画像データのステンシルを効率よく処理することができる。
ここで、当技術分野において公知であるように、ステンシルとは、基本的データ単位として利用される画像表面領域のスライスである。たとえば、出力画像における特定の画素位置の新しい値が、この特定の画素位置が中心にある入力画像における領域の画素値の平均として算出されてもよい。たとえば、ステンシルが縦に3画素、横に3画素の大きさを有している場合、特定の画素位置は、3×3画素アレイの中央の画素に対応してもよく、3×3画素アレイ内の9つすべての画素の平均が算出されてもよい。
図1のプロセッサ100のさまざまな動作の実施形態によると、実行レーンアレイ101の各実行レーンは、出力画像における特定の位置についての画素値を算出する役割を果たす。よって、上記3×3ステンシルを平均する例で引き続き説明すると、入力画素データ、およびシフトレジスタ内の8つのシフト演算からなる調整されたシフトシーケンスを最初にロードした後、実行レーンアレイに含まれる各実行レーンは、対応する画素位置についての平均を算出するのに必要な9つすべての画素値をローカルレジスタ空間に受け付けさせる。つまり、プロセッサは、たとえば、隣接する出力画像の画素位置の中心に存在する複数の重なり合うステンシルを同時に処理することができる。図1のプロセッサのアーキテクチャは、特に画像ステンシルの処理に長けているので、ステンシルプロセッサとも称され得る。
図2は、複数のステンシルプロセッサ202_1~202_Nを有する画像処理プロセッサのためのアーキテクチャ200の一実施形態を示す。このため、画像処理プロセッサは、個々のステンシルプロセッサが画像処理コア、処理コア、プロセッサコア、コアなどのような語として、より一般的に特徴付けられ得るマルチコアプロセッサと称してもよい。図2に見られるように、アーキテクチャ200は、ネットワーク204(たとえば、オンチップスイッチネットワーク、オンチップリングネットワークまたはその他の種類のネットワークを含むNOC(Network On Chip))を通して複数のステンシルプロセッサユニット202_1~202_Nおよび対応するシート生成部203_1~203_Nと互いに接続された複数のラインバッファ部201_1~201_Mを含む。一実施形態では、いずれのラインバッファ部201_1~201_Mも、ネットワーク204を通していずれのシート生成部203_1~203_Nおよび対応するステンシルプロセッサ202_1~202_Nに接続してもよい。
プログラムコードがコンパイルされ、対応するステンシルプロセッサ202上にロードされて、ソフトウェア開発者が以前に定義した画像処理演算が実行される(また、プログラムコードは、たとえば、設計および実装に応じて、ステンシルプロセッサの関連するシート生成部203にロードされてもよい)。少なくともいくつかの例では、第1のパイプラインステージ用の第1カーネルプログラムを第1のステンシルプロセッサ202_1にロードし、第2のパイプラインステージ用の第2のカーネルプログラムを第2のステンシルプロセッサ202_2にロードするなどして画像処理パイプラインが実現されてもよい。この場合、第1カーネルがパイプラインの第1のステージの関数を実行し、第2カーネルがパイプラインの第2のステージの関数を実行する等々であって、パイプラインのあるステージからパイプラインの次のステージに出力画像データを渡すためのさらなる制御フロー方法がインストールされている。
その他の構成では、画像処理プロセッサは、同じカーネルプログラムコードを動作させる2つ以上のステンシルプロセッサ202_1、202_2を有する並列マシンとして実現されてもよい。たとえば、高密度かつ高データ転送速度の画像データストリームを、各々が同じ関数を実行する複数のステンシルプロセッサ間にフレームを分散させることによって処理してもよい。
さらに他の構成では、カーネルの本質的にいずれの有向非巡回グラフ(DAG:Directed Acyclic Graph)も、それぞれのステンシルプロセッサを自身のプログラムコードのカーネルで構成し、DAG設計において、あるカーネルからの出力画像を次のカーネルの入力に向けるよう適切な制御フローフックをハードウェアに構成することによって、画像処理プロセッサ上にロードされてもよい。
一般的なフローとして、画像データのフレームは、マクロ入出力部205によって受け付けられ、フレーム単位でラインバッファ部201のうちの1つ以上に渡される。特定のラインバッファ部は、画像データのそのフレームを、「ライングループ」と呼ばれる、画像データよりも小さな領域に解析し、その後、当該ライングループを、ネットワーク204を通して特定のシート生成部に渡す。完成した、または「完全な」1つのライングループは、たとえば、複数の連続した完全な行または列からなるフレームのデータで構成されてもよい(わかりやすくするために、本明細書では、主に、連続した行を例に用いる)。シート生成部は、さらに、画像データのライングループを、「シート」と呼ばれる、画像データのさらに小さな領域に解析し、このシートを対応するステンシルプロセッサに提示する。
1つの入力を有する画像処理パイプラインまたはDAGフローの場合、一般に、入力フレームは、同じラインバッファ部201_1に向けられ、ラインバッファ部201_1は、画像データをライングループに解析し、これらのライングループをシート生成部203_1に向ける。シート生成部203_1の対応するステンシルプロセッサ202_1は、パイプライン/DAGにおいて第1カーネルのコードを実行している。ステンシルプロセッサ202_1が処理するライングループに対する処理が完了すると、シート生成部203_1は、出力ライングループを「下流」ラインバッファ部201_2に送る(場合によっては、出力ライングループは、以前に入力ライングループを送ったのと同じラインバッファ部201_1に送り返してもよい)。
次に、自身の各々のその他のシート生成部およびステンシルプロセッサ(たとえば、シート生成部203_2およびステンシルプロセッサ202_2)上で実行されるパイプライン/DAGにおける次のステージ/演算を表す1つ以上の「コンシューマ」カーネルが、第1のステンシルプロセッサ202_1によって生成された画像データを下流ラインバッファ部201_2から受け取る。このように、第1のステンシルプロセッサ上で動作する「プロデューサ」カーネルが、第2のステンシルプロセッサ上で動作する「コンシューマ」カーネルに出力データを転送する。第2のステンシルプロセッサでは、コンシューマカーネルが、パイプラインまたはDAG全体の設計と整合性のあるプロデューサカーネルの後に次のタスクセットを実行する。
図1で上述したように、各ステンシルプロセッサ202_1~202_Nは、画像データの複数の重なり合うステンシルを同時に処理するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内蔵ハードウェア処理能力によって、シートのサイズが効果的に決定される。ここでも、上述したように、任意のステンシルプロセッサ202_1~202_N内で、実行レーンのアレイが一斉に動作し、複数の重なり合うステンシルで覆われた画像データ表面領域を同時に処理する。
加えて、さまざまな実施形態では、ステンシルプロセッサ202の対応する(たとえば、ローカルの)シート生成部203によって、当該ステンシルプロセッサの2次元シフトレジスタアレイに画像データのシートがロードされる。シートおよび2次元シフトレジスタアレイ構造の使用によって、たとえば、実行レーンアレイによってその直後に大量のデータに対して直接実行される処理タスクを用いた1つのロード動作として当該データを大量のレジスタ空間に移動することによって、消費電力が効果的に改善されると考えられている。これに加えて、実行レーンアレイおよび対応するレジスタアレイの使用によって、簡単にプログラム可能/構成可能なそれぞれ異なるステンシルサイズが可能になる。ラインバッファ部、シート生成部、およびステンシルプロセッサの動作についてのさらなる詳細を下記のセクション3.0でさらに説明する。
図3は、図2の画像処理プロセッサの特定のハードウェア実装の一実施形態をより詳細に示す。図3に見られるように、図2のネットワーク204は、ラインバッファ部301とシート生成部/ステンシルプロセッサコア302との各交点に4×4ネットワークノード314を有するリングトポロジー304で実現される。わかりやすくするために、図3は、ラインバッファ部301_4とシート生成部/ステンシルプロセッサコア302_4との間に存在するネットワークノード314のみをラベル付けしている。
ここで、シート生成部/ステンシルプロセッサコア302_1~302_8の各々がステンシルプロセッサおよび対応するシート生成部の両方を含んでいることが分かる。わかりやすくするために、以下、シート生成部/ステンシルプロセッサコア302_1~302_8の各々を、単に、ステンシルプロセッサコアまたはコアと称す。8つのラインバッファ部301_1~301_8および8つのコア302_1~402_8を図3の特定の実施形態に図示しているが、異なる数のラインバッファ部および/またはコアを有する異なるアーキテクチャが可能であると理解すべきである。リングトポロジー以外のネットワークトポロジーも可能である。
図3の画像処理プロセッサに関して、リングネットワーク304によって、(1)入出力部305が入力データを任意のラインバッファ部301_1~301_8(または、任意のコア302_1~302_8)に渡すことができ、(2)任意のラインバッファ部301_1~301_8が任意のコア302_1~302_8にライングループを転送することができ、(3)任意のコア302_1~302_8がその出力データを任意のラインバッファ部301_1~301_8に渡すことができ、(4)任意のラインバッファ部301_1~301_8が、画像処理プロセッサの出力データを入出力部305に渡すことができる。このように、異なるソフトウェアカーネルをロードする豊富なオプションおよび内部ネットワーク構成が可能である。つまり、理論上は、プロセッサのさまざまなコア302上で実行される複数のカーネルから構成されるソフトウェアアプリケーションのいずれについても、任意のコアに任意のカーネルをロードすることができ、ラインバッファ部のいずれも、任意のコアに入出力データをソース入力し、任意のコアから入出力データをシンク出力するように構成できる。
図4は、図3の画像処理プロセッサ上にロードされ得る、例示的なアプリケーションソフトウェアプログラムまたはその一部を示す。図4に見られるように、プログラムコードを実行して入力画像データ401の1つ以上のフレームを処理し、何らかの全変換をこの入力画像データ401に対して実行してもよい。変換は、入力画像データ上でアプリケーションソフトウェア開発者が明示するうまく組み立てられたシーケンスで動作するプログラムコード402の1つ以上のカーネルの動作で実現される。
図4の例では、全変換は、まず、第1カーネルK1を用いて各入力画像を処理することによって生じる。次に、カーネルK1によって生成された出力画像は、カーネルK2によって処理される。次に、カーネルK2によって生成された出力画像の各々は、カーネルK3_1またはK3_2によって処理され、次に、カーネル(複数可)K3_1/K3_2によって生成された出力画像は、カーネルK4によって処理される。図3の特定の例では、カーネルK3_1およびK3_2は、たとえば、異なる画像処理演算を行う異なるカーネルであってもよい(たとえば、カーネルK3_1は、第1の特定の種類の入力画像を処理し、カーネルK3_2は、第2の異なる種類の入力画像を処理する)。
わかりやすくするために、4つのカーネルK1~K4のみを図示している。図3の画像処理プロセッサハードウェアアーキテクチャの実施形態を参照すると、各カーネルが異なるステンシルプロセッサ上で動作するという基本的な構成において、おそらく、プロセッサのコア302のすべてが対応するカーネル(図4の4つのカーネルのフローは、図3のプロセッサのコアのうちの半数しか利用していない)を有する前に、カーネルK4からさらに4つのカーネルが生じ得ることが分かる。
2.0 トランザクションを効率的に実現するトランシーバ
上述のとおり、1つのステンシルプロセッサ上で実行されているプログラムコードの生成カーネル(producing kernel)は、その出力データを(たとえば、複数ラインのグループとして)ラインバッファ部に送信する。ラインバッファ部は、当該データを(たとえば、複数ラインのグループとして)待ち行列に入れる(queue)かまたは格納して、1つ以上の他のステンシルプロセッサに転送する。1つ以上の他のステンシルプロセッサは、プログラムコードのうち、生成カーネルの出力データを消費するそれぞれのカーネルを実行している。画像処理プロセッサ全体の内部において、複数のラインバッファ部に相互接続された複数のステンシルプロセッサが存在しているので、たとえば、多数の生成/消費カーネル接続が実現され得る。
さまざまな実施形態においては、特定の生成/消費カーネル関係のための格納および転送待ち行列(store and forward queue)は、「バッファ」または「ラインバッファ」と称されてもよく、「ラインバッファ部」は、複数のバッファを同時にサポートすることができるハードウェア構成要素である。ここで、ラインバッファ部は、メモリリソースおよび関連する論理を含んでいてもよい。ラインバッファ部によってサポートされるさまざまなバッファは、それぞれの格納および転送アクティビティのためのメモリリソースのうち異なる部分に割当てられる。
画像処理プロセッサの内部ネットワークは、画像処理プロセッサ内に同時に存在する、ラインバッファ部の通信/接続に対するさまざまな生成カーネルと、消費カーネル通信/接続に対するさまざまなラインバッファ部とをサポートする。ここで、一実施形態においては、各々のステンシルプロセッサは、内部ネットワークに連結されているトランスミッタおよびレシーバからなるトランシーバを含む。同様に、各々のラインバッファ部は、内部ネットワークに連結されたトランシーバを含む。
ステンシルプロセッサとラインバッファ部との組合せによって内部ネットワークに対してどの時点においても提供され得る潜在的に大量のトラフィックがあれば、さまざまな実施形態において、クレジット制御メカニズム(credit control mechanism)は、(ネットワークならびに/または他のリソース、たとえば、ラインバッファ部のメモリリソースおよび/もしくはステンシルプロセッサのローカルメモリリソースなどを含む)画像処理プロセッサ内におけるリソースの過負荷を防ぐために利用される。
たとえば、一実施形態においては、生成ステンシルプロセッサ(生成カーネルを実行しているステンシルプロセッサ、以下、送信プロセッサとする)からラインバッファ部への通信用のラインバッファ部メモリリソースおよび/またはネットワークの過負荷を防ぐために、クレジット制御メカニズムは、生成カーネルからその関連するラインバッファ部までの出力画像データの流れを制御するように、ラインバッファ部の各々において実現される。ここで、ラインバッファ部は、いくつかのクレジットに対する制御を維持するとともに、ラインバッファ部に出力画像データを送信することを所望する送信プロセッサに対してクレジットを発行する。各々のクレジットは、送信プロセッサが送信できるデータ量に相当する。
このため、送信プロセッサは、それが有するクレジットの数に相当するデータ量しか送信することができない。ステンシルプロセッサが実際にラインバッファ部にその出力データを送信すると、当該ステンシルプロセッサは、そのクレジットカウントを相当する量にまで減らす。たとえば、各々のクレジットが1MBのデータに相当する場合、送信プロセッサは、それがラインバッファ部に送信するデータの1MBごとに、1ずつ、そのクレジット量(credit amount)を減らす(なお、実際のプロセッサ実現例においては、パケットおよび対応するデータ転送がはるかに細粒化されていること、たとえば、各パケットが典型的には数10バイトまたは数100バイトであって、各クレジットが数10バイト(たとえば32バイト)に相当することに留意されたい)。ラインバッファ部は、送信プロセッサがデータを送信し続けることができるように、(たとえば、リソースがラインバッファ部内において空になると)送信プロセッサに追加のクレジットを送信し続けてもよい。しかしながら、如何なる場合であっても、送信プロセッサのクレジットカウントがゼロにまで減らされる場合、ラインバッファ部から追加のクレジットを受信するまでラインバッファ部にデータをさらに送信することができない。
図5aは、上述の原理に従って作用する先行技術の設計についての例示的なシナリオを示す。ここで、ラインバッファ部502は、送信プロセッサ501から受取ったいくつかの単位のデータを保持するための、固定サイズの内部待ち行列(単純化のために図5aには示されない)を含む。特に、待ち行列がN=5のエントリを有すると想定すると、各々のエントリは特定量のデータ(たとえば、Mバイト)を保持することができる。基本的構成においては、送信プロセッサ501は、ラインバッファ部502との特定の通信セッションまたは「接続」(たとえば、各々がMバイトを含むデータ単位を複数含んでいるパケットの送信)の際に、各々がMバイトを含むデータ単位を1つ以上、送信する。送信プロセッサ501がラインバッファ部502にMバイトを含む次のデータ単位を送信するたびに、次のデータ単位が待ち行列に入力される。
(たとえば、ラインバッファ部502がこれをそのメモリリソースに書込むことができるので)Mバイトのデータ単位が待ち行列から供給されると、ラインバッファ部502は1つのクレジットを送信プロセッサ501に送信する。ここで、待ち行列からMバイトのデータ単位を供給することで、送信プロセッサ501から送信される次のMバイト単位で満たすことができる1つの待ち行列エントリが実質的に空になる。たとえば、ラインバッファ部502が待ち行列から複数のMバイト単位を高速で供給することができる場合、対応するクレジット量が送信プロセッサ501に送信し返される。たとえば、ラインバッファ部502が待ち行列から3のMバイト単位を高速で供給する場合、ラインバッファ部502は3つのクレジットを送信プロセッサ501に送信し返す。
このため、図5aを参照すると、初期状態では、送信プロセッサ501は、たとえば、ラインバッファ部502に送信するべき出力画像データの次のパケットを有している場合、要求RTS_1を送信するようにとの要求をラインバッファ部502に送信する。ラインバッファ部の待ち行列は初めは空であるので、受取り確認(acknowledgement)ACK_1で要求を承諾する際に、ラインバッファ部502は、待ち行列のサイズ(N=5)と等しいクレジットの量を送信する。送信プロセッサ501は、次いで、D1、D2、…の順でいくつかのMバイトデータ単位を送信し始める。データ単位の送信からプロセッサのクレジットカウントの削減までが図5aのシナリオのプロセッサ側に示されている。
ラインバッファ部502側では、ラインバッファ部502が、Mのデータ単位を送信プロセッサ501から連続して受信し、これらを受信すると待ち行列に入力し、さらに、(たとえば、メモリに書込むために)ラインバッファ部の能力に応じて待ち行列からこれらMのデータ単位を供給する。待ち行列からMバイトデータ単位が供給されるたびに、ラインバッファ部502は、追加クレジットを送信プロセッサ501に送信し、送信プロセッサ501が、新しく受信したクレジットをそのクレジットカウントに追加する。
最終的に、送信プロセッサは、その時点での接続のためにMバイトデータ単位をすべて送信することとなる(たとえば、或るパケットのうちMバイトデータ単位がすべて送信されてしまっている)。図5aのシナリオにおいては、その時点での接続は、6のMバイトデータ単位でできている(たとえば、パケットが6のMバイトデータ単位で構成されている)と想定される。そのため、送信プロセッサ501は、パケットのためのその最後のデータ単位を送信するとともに、D6データ単位を送信した。さらに、最終的に、ラインバッファ部502は、その待ち行列からMバイト単位をすべて供給して、対応するクレジットを送信プロセッサ501に送信し返してしまっているだろう。そのため、送信プロセッサ501は、セッションのためのデータ単位をすべて送信し終えてそのクレジットカウントがラインバッファ部の待ち行列のサイズ(N=5)と等しくなると、接続の完了を認識するだろう。ここで、送信プロセッサ501はフルセットのクレジットを有しているが、たとえば第2の以降のパケットのために、これらクレジットを用いることは許可されていない。なぜなら、送信プロセッサ501が、このような以降のパケットについて、まだ要求を送信していないかまたは如何なる受取り確認も受信していないからである。
図5aの先行技術の設計においては、送信プロセッサ501が現在のセッションの完了前に(たとえば、シナリオの第1のパケットのデータ単位を送信している間)ラインバッファ部502に送信するべき別のパケットを有している場合、前のパケットの送信が完了したとみなされた後にしか、第2の以降のパケットについての要求を送信することができない。上述のとおり、送信プロセッサが接続のためのデータをすべて送信して、そのクレジットカウント量がラインバッファ部の待ち行列のサイズ(N=5)と等しくなるまで、送信プロセッサによって、接続が完了しているとはみなされない。
このアプローチに関する問題は、先行パケットの最後のデータ単位の送信と、後続パケットの第1のデータ単位の送信との間に浪費される可能性のある時間504の量である。ここで、図5aにおいて見られるように、D6データ単位の送信の時点で第1のパケットの送信が完了しているが、接続は時間503までに完了しているとは見なされないことに留意されたい。浪費された時間504は、大部分が、第2のパケットについてのRTS_2/ACK_2伝搬遅延と連動する待ち行列のサイズと等しくなるように、生成プロセッサがラインバッファ部502からのクレジットの返却を待っていた結果、生じるものである。長い待ち時間は、結果として、トラフィックが(他の態様では送信され得たものの)ネットワークを介しては送信されていないという点で、プロセッサが非効率になってしまう可能性がある。
先行技術の設計に従うと、パケットの最後のデータ単位(たとえばD6)が特にマーク付けされるか、または、側波帯信号が、パケットの最後のデータ単位の送信に応じてラインバッファ部502に送信される。このため、ラインバッファ部502は、それが特定のパケット/接続のためにいつ最後のデータ単位を受信したかが分かるようになる。ここで、パケット/接続の最後のデータ単位(D6)がラインバッファ部の待ち行列から供給されると、ラインバッファ部502は、ACK_2を次の要求RTS_2と認めることが許可される。ここで、完了直後(またはそれよりも前)の第1のパケット/接続の処理中に、ラインバッファ部502を用いる他の生成部/消費部カーネル関係についての他の生成プロセッサからの要求は、ラインバッファ部502によって受信されていたかもしれない。ラインバッファ部502は、完了直後の接続から最後のデータ単位(D6)を供給した後に次のパケット転送を開始するように、これらの要求のうちの1つ(たとえば、最も古いペンディング中の要求)を自由に承認することができる。
パケット転送がちょうど完了したところの送信プロセッサ501は、その先行パケットの転送が完了すると直ちに(図5aの時間503に)、上述のとおり、次の要求RTS_2を自由に送信することができる。他の生成ステンシル・プロセッサからの他の競合する要求がいずれもラインバッファ部502でペンディング中でない場合、ラインバッファ部502は、先行パケットの転送がちょうど完了したところの送信プロセッサ501によって送信された要求RTS_2の受け取り確認をするだろう。第1のパケットに関して上述されたプロセスが繰り返される。
図5bは、図5aの先行技術の設計に対する第1の改善例を示す。この場合、送信プロセッサ501が、現在のパケットの送信完了前に次のパケットについての要求REQ_2を送信することが許可されている。すなわち、たとえば、期間515は、送信されたパケットが第1のパケットの送信に関与している期間としてみなすことができる(第1のパケットの通信セッションまたは接続が期間515にわたっている)。図5bの改善された設計においては、送信プロセッサは、送信プロセッサが第1のパケットの送信に関与している間(すなわち、期間515内)に、第2のパケットについての要求REQ_2を送信することができる。
図5bの特定の例においては、送信プロセッサ501は、送信すべき別のパケットを有していることを認識すると直ちに、要求を送信することが許可される。図から分かるように、送信プロセッサ501は、それが、第1のパケットについての要求RTS_1を送信したほとんど直ぐ後に送信するべき別のパケットを有していることを認識する(RTS_2はRTS_1の直後に送信される)。
同様に、改善された設計においては、ラインバッファ部502は、たとえその時点で処理しているパケット転送がまだ完了していなくても、要求に自由に応えることができる。たとえば、ラインバッファ部502が他の送信プロセッサからの他の競合する要求を有していない(または、REQ_2が、このような競合する要求よりも前にラインバッファ部502によって受信されていた)状況においては、ラインバッファ部502は自由に第2の要求ACK_2の受け取り確認をすることができる。ここで、第2の受取り確認ACK_2に関連付けられているクレジットはない。なぜなら、すべてのクレジットがその時点でアクティブなパケット(第1のパケット)の転送に充てられているからである。加えて、第2の受取り確認ACK_2が、転送中の現在のパケットを送信している同じ送信プロセッサ501に発行されている場合、送信プロセッサ501およびラインバッファ部502はともに、現在のパケットの転送が完了した後に、現在の送信プロセッサ501がラインバッファ部502に次のパケットを送信するであろうことを理解する。
これらの状況下では、送信プロセッサ501が、転送されるべき第2のパケットについての受取り確認ACK_2を既に受信していた場合、送信プロセッサ501は、第2の次のパケットの送信のために、第1のパケット転送の終端を示す、蓄積されたクレジットを用いることができる。すなわち、図5aの説明を再び参照すると、送信プロセッサ501は、パケットの最後のデータ単位D6を送信した後に第1のパケット転送の完了を認識する。そのクレジットカウントはラインバッファ部の待ち行列のサイズ(N=5)に対応している。
したがって、図5aの先行技術の設計に従うと、第2のパケットACK_2についての受取り確認がまだ受信されていなかったので、このようなクレジットを直ちに利用することはできなかった。対照的に、図5bの改善されたアプローチによれば、送信プロセッサ501は、第2のパケットACK_2についての受取り確認を既に受信しているので、第2のパケットの転送のためにこれらのクレジットを直ちに用いることができる。ラインバッファ部502は、(図5aに関連付けて上述された)データ単位D6を受信することで第1のパケットの完了を認識したので、受信されるべき次のデータ単位が第2のパケットのためのものであることを理解するだろう。
また、先行技術設計の送信プロセッサ501は、現在のラインバッファ部502による現在の転送が完了するまで、別のラインバッファ部に次のパケットを転送するようにとの要求を送信することが許可されない(生成カーネルは、2以上のラインバッファ部に出力画像データを送信することができる)。そのため、図5aの第2のパケットが別のラインバッファ部に送信されることになっていたとしても、浪費された時間504が依然として存在することとなるだろう。
図5bの改善された設計に関連付けて説明されるように、送信プロセッサ501はその現在のパケットの完了前に第2のパケットについての要求を送信することが許可されている。さまざまな実施形態においては、これは、送信プロセッサがその時点でそれ自体とのトランザクションに関与しているラインバッファ部とは異なるラインバッファ部に要求を送信することを含む。図5bに明確に示されていないが、RTS_2がラインバッファ部502以外の他のラインバッファ部に送信されるとともに、ACK_2が当該他のラインバッファ部502から受信されると想定する。ここでは、割当てられたクレジット量がラインバッファ部ごとにラインバッファ部上に提供されているので、他のラインバッファ部が認識ACK_2を送信することによって要求を承認すると、送信プロセッサ501は、第1のパケットをラインバッファ部501に転送している間、他のラインバッファ部から関連するクレジットを受信する。
そのため、一実施形態においては、送信プロセッサのトランシーバは複数のクレジットカウンタを維持している。この場合、異なるクレジットカウンタを用いて異なるラインバッファ部からのクレジットを追跡している。第2のパケットが第1のパケットとは異なる宛先に送信されるべき場合、トランスミッタは、複数の宛先のうちの1つの宛先についてのクレジットカウンタのうち第1のクレジットカウンタを用いるとともに、複数の宛先のうち別の宛先についてのクレジットカウンタのうち第2のクレジットカウンタを用いて、第1のパケットおよび第2のパケットを交互にそれぞれの宛先に同時に送信することができる(第1のパケットが完了するまで第2のパケットの送信を待つ必要はない)。さまざまな実施形態においては、どのクレジットカウンタがどの宛先に対応しているのかは、送信プロセッサによって送信されているトラフィックパターンに応じて変化する可能性がある。
図5cに一例が示されている。図5cに見られるように、第1の時間間隔521中に、送信プロセッサは第1のパケットを第1のラインバッファ部(LBU_1)に送信している。そのクレジットカウントは第1のクレジットカウンタ531に保持される。次いで、第2の時間間隔522中、送信プロセッサは、依然として第1のパケットを第1のラインバッファ部に送信しているが、第2のパケットも第2のラインバッファ部(LBU_2)に送信している。第2のパケットについてのクレジットカウントは、第2の異なるクレジットカウンタ532において保持されている。なぜなら、第2のパケットについてのクレジットカウントは、第1のクレジットカウンタ531に応じてそのトランザクションが進行しているラインバッファ部とは異なるラインバッファ部に送信されているからである。
次いで、第3の時間間隔523中に、第1のパケットの送信が完了したが、第2のパケットは依然として送信されている。次いで、第4の時間間隔524中に、送信プロセッサは、第1のラインバッファ部および第2のラインバッファ部とは異なる第3のラインバッファ(LBU_3)部に第3のパケットを送信する。第3のパケットのクレジットカウントは第1のクレジットカウンタ531に保持される。次いで、第5の時間間隔525中に、第2のパケットの転送が完了すると、第2のラインバッファ部または他のラインバッファ部に送信するべき次のパケットはなくなる。
次いで、第6の時間間隔526中に、送信プロセッサは、第1のラインバッファ部に送信するべき別のパケットを有している。この場合、第2のクレジットカウンタ532は、第1のラインバッファ部に送信されるべきこの新しいパケットについてのクレジットを保持するのに用いられる。なお、第1のラインバッファ部についてのクレジットカウンタが、第1のラインバッファ部に送信されるべきパケット対の間でなされるのと同様に、実質的に交換されていたことに留意されたい。すなわち、第1の時間間隔521および第2の時間間隔522中に、第1のクレジットカウンタ531は第1のラインバッファ部についてのクレジットを追跡するために用いられたのに対して、第6の間隔526中、第2のクレジットカウンタ532は、第1のラインバッファ部についてのクレジットを追跡するために用いられる。
上述の説明がラインバッファ部にデータを送信している処理コアに関係するものであったが、上述の画像処理プロセッサにおいては、同じプロトコルシナリオが、或るラインバッファ部から、消費カーネルを実行する処理コアへのパケット転送のために存在し得ることを指摘することは適切である。この場合、ラインバッファ部は、図5aから図5cの送信機の動作を想定しており、処理コアは、図5aおよび図5bの受信機の動作を想定している。そのため、さまざまな実施形態においては、処理コア(および/または、それらの対応するシート生成部)ならびにラインバッファ部はともに、送信機回路および受信機回路の両方を含む。
図6aおよび図6bは、それぞれ、送信機回路および受信機回路の実施形態を示す。図6aに見られるように、送信機回路601は、上述のプロトコルに従ってデータ単位またはRTS要求を送信するトランスミッタを含む。送信の準備ができているデータ単位は出力待ち行列604に入れられる。RTSおよびクレジット制御論理回路605は、クレジットカウンタ606_1および606_2のうちの一方における宛先を備えた現在のセッションのために維持されるクレジットカウントに従って、次のデータ単位のその宛先への送信を認可する。制御論理605はまた、適切な宛先を備えた転送セッションを開始するためのRTS要求を発行する。次のRTSを送信すべき宛先のアイデンティティは、たとえば、アウトバウンド(outbound)待ち行列604におけるアウトバウンドパケットに関連付けられた宛先アドレスから判断されてもよい。
受信回路611は、受取り確認およびクレジット量を受信して、これらを制御論理605に転送する。なお、2つのクレジットカウンタ606_1および606_2が605の制御論理において観察されることに留意されたい。さまざまな実施形態におけるクレジットカウント606_1および606_2は、図5cに関連付けて上述されたように、アウトバウンドトラフィックフローに依拠するために、クレジットを保持するいずれの宛先をも交換し得るように、たとえば通信セッションごとに、特定の宛先についてのクレジットを保持するために割当てられる。
他の実施形態においては、送信回路602が3つ以上の異なる宛先を備える3つ以上の転送セッションを同時に維持することができるように、3つ以上のクレジットカウンタが存在する可能性もある。すなわち、異なる宛先で同時にいくつのトランザクションが行われるかについては、たとえば、ネットワークの能力/容量に応じて、実施形態ごとに異なる可能性がある。一実施形態においては、送信機回路601は、第1の先行パケットが送信されている間、第2のパケットについてのRTSを送信することが許可されている。第2のパケットについてのRTSが送信される宛先は、第1の先行パケットが送信されている宛先または他の何らかの宛先であってもよい。
図6bは受信機側回路602を示す。ここで、受信機回路620によって受信される受信データ単位は、インバウンド待ち行列(inbound queue)607に入れられている(さまざまな実施形態においては、未処理のクレジットの数がインバウンド待ち行列607のサイズに対応していることが想起される)。受信データ単位が待ち行列607から供給されると、制御論理608は、対応するクレジット量を伝送回路621を介してデータ単位の送信機に送信し返す。制御論理608はまた、RTS要求を受信機602に向けて送り出した可能性のある複数の送信機のうちいずれが、受信機602が受信するであろうパケットを送信する次の送信機として選ばれるべきであるかを判断する。複数のペンディング中のRTS要求は、(図6bには示されない)制御論理608内の待ち行列に存在し得るとともに、論理は、何らかの(たとえば、公平性)アルゴリズムに従って待ち行列からRTS要求のうちの1つを選択する(たとえば、さまざまな送信機(受信機602はこれら送信機から受信するように構成されている)にわたるラウンドロビン、待ち行列における最も古いRTS、など)。複数の要求送信機のうちどの送信機が受信機へのパケットの送信を許可されるべきであるかを制御論理608が判断すると、制御論理608は、伝送回路621を介して送信機に受取り確認を送信する。
さまざまな実施形態においては、受信機がその時点で受信しているパケットの送信元と同じ送信機に送信される受取り確認についてのクレジットは送信されない。加えて、さまざまな実施形態においては、待ち行列607のサイズに相当するクレジット量は、受信機602がその時点で受信していないパケットの送信元である送信機に送信される受取り確認と共に送信される。さまざまな実施形態においては、受信機602は、同じ送信機または異なる送信機からの複数のパケットをインタリーブしない(受信機602による受信が許可されるのは、1つの送信機からの1つのパケットだけである)。
制御論理回路605および608は、制御論理関数またはこれらのアプローチのいずれかの組合せを実行するために、専用のハードウェア論理回路、プログラマブル論理回路(たとえば、フィールドプログラマブルゲートアレイ(field programmable gate array:FPGA)論理回路、プログラマブルロジックデバイス(programmable logic device:PLD)論理回路、プログラマブルロジックアレイ(programmable logic array:PLA)論理回路)、プログラムコードを実行する埋込み型プロセッサ回路として実現されてもよい。
図7は、上述された方法を示す。当該方法は、プロセッサの処理コアの出力データを生成するために処理コア上でプログラムコードを処理するステップ701を含む。当該方法は、プロセッサ内のネットワークに連結されているトランスミッタ回路によって、当該トランスミッタ回路が先行の第1のパケットの送信を完了する前に第2のパケットについての送信のための要求を送信するステップ702を含む。第2のパケットは、処理コアによって生成される第2の出力データを含み、第1のパケットは、処理コアによって生成される第1の出力データを含む。当該方法はまた、ネットワークに連結されているプロセッサのうち1つ以上の他の処理コアで第1の出力データおよび第2の出力データを処理するステップ703を含む。
3.0 画像処理プロセッサ実装の実施形態
図8a~図8e~図12は、上述した画像処理プロセッサおよび関連するステンシルプロセッサのさまざまな実施形態のより詳細な動作および設計を提供する。ラインバッファ部がライングループをステンシルプロセッサの関連するシート生成部に送るという図2の説明を思い返すと、図8a~図8eは、ラインバッファ部201の解析アクティビティ、シート生成部203の細粒度の解析アクティビティ、およびシート生成部203に連結されるステンシルプロセッサ702のステンシル処理アクティビティの実施形態を高レベルで示している。
図8aは、画像データ801の入力フレームの一実施形態を示す。また、図8aは、ステンシルプロセッサが処理するように設計された、3つの重なり合うステンシル802(各々の寸法は、3画素×3画素である)の輪郭も示している。各ステンシルが出力画像データを生成する出力画素を、黒い実線で強調表示している。わかりやすくするために、3つの重なり合うステンシル802は、垂直方向にのみ重なり合うよう示されている。ステンシルプロセッサは、実際には、垂直方向および水平方向の両方に重なり合うステンシルを有するように設計されてもよいことを認識することが適切である。
ステンシルプロセッサ内でステンシル802が縦に重なり合っているために、図8aに見られるように、フレーム内に1つのステンシルプロセッサが処理できる幅広い帯状の画像データが存在する。以下により詳細に説明されているが、一実施形態では、ステンシルプロセッサは、重なり合うステンシル内のデータを、画像データの端から端まで左から右へ処理する(さらに、次のラインセットに対して上から下の順に繰り返す)。このため、ステンシルプロセッサがこの動作で前進を続けると黒い実線の出力画素ブロックの数が水平右方向に増える。上述したように、ラインバッファ部201は、ステンシルプロセッサが以降の多くの周期数にわたって処理するのに十分な受信フレームからの入力画像データのライングループを解析する役割を果たす。ライングループの例を、影付き領域803として示している。一実施形態では、ラインバッファ部201は、シート生成部にライングループを送信/シート生成部からライングループを受信するためのそれぞれ異なる力学を理解できる。たとえば、「グループ全体」と称するあるモードによると、画像データの完全な全幅のラインがラインバッファ部とシート生成部との間で渡される。「実質上縦長」と称する第2モードによると、最初に1つのライングループが全幅の行のサブセットとともに渡される。その後、残りの行がより小さい(全幅未満の)一部として順番に渡される。
入力画像データのライングループ803がラインバッファ部によって規定されてシート生成部に渡されると、シート生成部は、さらに、このライングループを、ステンシルプロセッサのハードウェア制約により正確に適合するより細かいシートに解析する。より具体的には、以下にさらにより詳細に説明されているが、一実施形態では、各ステンシルプロセッサは、2次元シフトレジスタアレイから構成される。2次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「下」にシフトさせる。シフトパターンは、各実行レーンに、レーン自体の個々のステンシル内のデータを処理させる(つまり、各実行レーンは、それ自体の情報のステンシルを処理し、そのステンシルの出力を生成する)。一実施形態では、シートは、2次元シフトレジスタアレイを「埋める」または2次元シフトレジスタアレイにロードされる入力画像データの表面領域である。
さらにより詳細に後述されているように、さまざまな実施形態では、実際には、任意の周期でシフトさせることができる2次元レジスタデータから構成されるレイヤは複数ある。便宜上、本明細書のほとんどでは、シフトさせることができる2次元レジスタデータから構成される1つ以上のこのようなレイヤを有する構造を指すのに、単に、用語「2次元シフトレジスタ」などを用いている。
よって、図8bに見られるように、シート生成部は、ライングループ803からの最初のシート804を解析し、ステンシルプロセッサに提供する(ここで、データのシートは、参照番号804で全体的に識別される陰影領域に対応する)。図8cおよび図8dに見られるように、ステンシルプロセッサは、重なり合うステンシル802を入力画像データのシートの左から右へ効果的に移動させることによって当該シートを処理する。図8dの時点では、シート内のデータから出力値を算出できる画素数はなくなっている(他の画素位置では、シート内の情報から決定される出力値を有し得るものはない)。わかりやすくするために、画像の境界領域は無視している。
図8eに見られるように、次に、シート生成部は、ステンシルプロセッサに引き続き処理させるために次のシート805を提供する。なお、次のシートに対する処理を開始するときのステンシルの初期位置は、(すでに図8dで示したように)第1シートの画素数がなくなっている箇所から右隣に進んだ場所であることが分かる。新しいシート805では、ステンシルプロセッサが第1シートの処理と同じ方法でこの新しいシートを処理するのに従って、ステンシルは、右に移動し続けるだけである。
なお、出力画素位置を囲むステンシルの境界領域のために、第1シート804のデータと第2シート805のデータとの間に重なりがある。この重なりは、シート生成部が重なり合うデータを2回再送信するだけで処理できる。代替的な実装形態では、次のシートをステンシルプロセッサに送るために、シート生成部は、新しいデータをステンシルプロセッサに送るだけであってもよく、ステンシルプロセッサは、重なり合うデータを前のシートから再利用する。
図9は、ステンシルプロセッサのアーキテクチャ900の一実施形態を示す。図9に見られるように、ステンシルプロセッサは、データ演算部901と、スカラープロセッサ902および関連するメモリ903と、入出力部904とを備える。データ演算部901は、実行レーン905のアレイと、2次元シフトアレイ構造906と、アレイの特定の行または列に対応付けられた別個のRAM907とを含む。
入出力部904は、シート生成部から受け付けたデータの「入力」シートをデータ演算部901にロードして、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、シートデータをデータ演算部901にロードすることは、受け付けたシートを画像データの行/列に解析し、画像データの行/列を2次元シフトレジスタ構造906または実行レーンアレイ(より詳細に後述される)の行/列のRAM907のそれぞれにロードすることを伴う。シートがメモリ907に最初にロードされた場合、実行レーンアレイ905内の個々の実行レーンは、適宜、シートデータを(たとえば、シートのデータを処理する直前のロード命令として)RAM907から2次元シフトレジスタ構造906にロードしてもよい。(シート生成部から直接であろうと、メモリ907からであろうと)レジスタ構造906ほのデータのシートのロードが完了すると、実行レーンアレイ905のうちの実行レーンが当該データを処理し、最終的には、仕上がったデータをシートとしてシート生成部またはRAM907に直接「書き戻す」。後者の場合、入出力部904がデータをRAM907からフェッチして出力シートを形成し、その後、出力シートはシート生成部に転送される。
スカラープロセッサ902は、プログラムコントローラ909を含む。プログラムコントローラ909は、ステンシルプロセッサのプログラムコードの命令をスカラーメモリ903から読み出し、実行レーンアレイ905内の実行レーンにこの命令を発行する。一実施形態では、1つの同じ命令がアレイ905内のすべての実行レーンに一斉送信され、データ演算部901がSIMDのような動作を行う。一実施形態では、スカラーメモリ903から読み出されて実行レーンアレイ905の実行レーンに発行される命令の命令フォーマットは、命令あたり2つ以上のオペコードを含むVLIW(Very-Long-Instruction-Word)型フォーマットを含む。さらなる実施形態では、VLIWフォーマットは、(後述するが、一実施形態では、2つ以上の従来のALU演算を指定し得る)各実行レーンのALUによって実行される数学関数を指示するALUオペコード、および(特定の実行レーンまたは特定の実行レーンセットについてのメモリ操作を指示する)メモリオペコードの両方を含む。
用語「実行レーン」とは、1つの命令を実行可能な1つ以上の実行部からなるセットを指す(たとえば、命令を実行できる論理回路)。しかしながら、実行レーンは、さまざまな実施形態では、単なる実行部ではなく、よりプロセッサのような機能を含み得る。たとえば、1つ以上の実行部以外に、実行レーンは、受け付けた命令をデコードする論理回路、または、よりMIMDのような設計の場合、命令をフェッチおよびデコードする論理回路を含んでもよい。MIMDのような手法に関しては、本明細書では集中プログラム制御手法が大まかに説明してきたが、さまざまな代替的実施形態(たとえば、アレイ905の各実行レーン内にプログラムコードとプログラムコントローラとを含む)では、より分散した手法が実施されてもよい。
実行レーンアレイ905と、プログラムコントローラ909と、2次元シフトレジスタ構造906とを組み合わせることによって、広範囲のプログラム可能な機能のための広く適合可能/構成可能なハードウェアプラットフォームが提供される。たとえば、個々の実行レーンが多種多様な機能を実行でき、かつ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスできるならば、アプリケーションソフトウェア開発者は、広範囲にわたるさまざまな機能能力および寸法(たとえば、ステンシルサイズ)を有するカーネルをプログラミングすることができる。
実行レーンアレイ905によって処理されている画像データ用のデータストアとして機能すること以外に、RAM907は、1つ以上のルックアップテーブルを保持してもよい。さまざまな実施形態では、1つ以上のスカラールックアップテーブルもスカラーメモリ903内でインスタンス化されてもよい。
スカラールックアップでは、同じインデックスからの同じルックアップテーブルからの同じデータ値を実行レーンアレイ905内の実行レーンの各々に渡すことを伴う。さまざまな実施形態では、スカラープロセッサによって行われるスカラールックアップテーブルの検索動作を指示するスカラーオペコードも含むよう、上述したVLIW命令フォーマットが拡大される。オペコードとともに使用するために指定されるインデックスは、即値オペランドであってもよく、または、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルの検索は、本質的に、同じクロック周期の間に実行レーンアレイ905内のすべての実行レーンに同じデータ値を一斉送信することを伴う。ルックアップテーブルの使用および操作のさらなる詳細を以下においてさらに説明する。
図9bは、上述したVLIW命令語の実施形態(複数可)を要約している。図9bに見られるように、VLIW命令語フォーマットは、次の3つの別個の命令についてのフィールドを含む。(1)スカラープロセッサによって実行されるスカラー命令951、(2)実行レーンアレイ内のそれぞれのALUによってSIMD式で一斉送信および実行されるALU命令952、(3)部分SIMD式で一斉送信および実行されるメモリ命令953(たとえば、実行レーンアレイの同じ行にある実行レーンが同じRAMを共有する場合、異なる行の各々からの1つの実行レーンが実際に命令を実行する(メモリ命令953のフォーマットは、各行のどの実行レーンが命令を実行するのかを識別するオペランドを含み得る)。
1つ以上の即値オペランド用のフィールド954も含まれている。命令951、952、953のうちのいずれがどの即値オペランド情報を使用するかは、命令フォーマットで識別されてもよい。また、命令951、952、953の各々は、それら自体の入力オペランドおよび結果情報も含む(たとえば、ALU演算のためのローカルレジスタ、ならびにメモリアクセス命令のためのローカルレジスタおよびメモリアドレス)。一実施形態では、スカラー命令951は、実行レーンアレイ内の実行レーンがその他2つの命令952、953を実行する前に、スカラープロセッサによって実行される。つまり、VLIW語の実行は、スカラー命令951が実行される第1周期を含み、その次にその他の命令952、953が実行され得る第2周期を含む(なお、さまざまな実施形態では、命令952および953は、並列で実行されてもよい)。
一実施形態では、スカラープロセッサによって実行されるスカラー命令は、データ演算部のメモリまたは2Dシフトレジスタからシートをロードする/データ演算部のメモリまたは2Dシフトレジスタにシートを格納するためにシート生成部に発行されるコマンドを含む。ここで、シート生成部の動作は、ラインバッファ部の動作によって、または、スカラープロセッサが発行したコマンドをシート生成部が完了させるのにかかる周期の数を実行時前に理解することを防ぐその他の変数によって、異なり得る。このように、一実施形態では、シート生成部に発行されるコマンドにスカラー命令951が対応するまたはスカラー命令951がコマンドをシート生成部に対して発行させるVLIW語は、いずれも、その他の2つの命令フィールド952、953にNOOP(no-operation)命令も含む。次に、シート生成部がデータ演算部へのロード/データ演算部からの格納を完了するまで、プログラムコードは、命令フィールド952、953のNOOP命令のループに入る。ここで、シート生成部にコマンドを発行すると、スカラープロセッサは、コマンドが完了するとシート生成部がリセットするインターロックレジスタのビットを設定してもよい。NOOPループの間、スカラープロセッサは、インターロックビットのビットを監視する。シート生成部がそのコマンドを完了したことをスカラープロセッサが検出すると、通常の実行が再び開始される。
図10は、データ演算コンポーネント1001の一実施形態を示す。図10に見られるように、データ演算コンポーネント1001は、2次元シフトレジスタアレイ構造1006の「上方」に論理的に位置する実行レーンのアレイ1005を含む。上述したように、さまざまな実施形態では、シート生成部が提供する画像データのシートが2次元シフトレジスタ1006にロードされる。次に、実行レーンがレジスタ構造1006からのシートデータを処理する。
実行レーンアレイ1005およびシフトレジスタ構造1006は、互いに対して定位置に固定されている。しかしながら、シフトレジスタアレイ1006内のデータは、戦略的かつ調整された方法でシフトし、実行レーンアレイ内の各実行レーンにデータ内の異なるステンシルを処理させる。このように、各実行レーンは、生成された出力シートに含まれる異なる画素の出力画像値を判断する。図10のアーキテクチャから、実行レーンアレイ1005が上下に隣接する実行レーンおよび左右に隣接する実行レーンを含むので、重なり合うステンシルは、縦方向だけでなく、横方向にも配置されていることは明らかである。
データ演算部1001のいくつかの注目すべきアーキテクチャ上の特徴として、シフトレジスタ構造1006の寸法は、実行レーンアレイ1005よりも広い。つまり、実行レーンアレイ1005の外側にレジスタ1009の「ハロー(halo)」が存在する。ハロー1009は、実行レーンアレイの2つの側面に存在するように図示されているが、実装によっては、ハローは、実行レーンアレイ1005のより少ない(1つ)またはより多い(3つまたは4つの)側面に存在してもよい。ハロー1005は、実行レーン1005の「下」をデータがシフトすると実行レーンアレイ1005の境界の外側にこぼれ出るデータの「スピルオーバ」空間を提供する役割を果たす。簡単な例として、ステンシルの左端の画素が処理されると、実行レーンアレイ1005の右端の中心にある5×5ステンシルは、さらに右側に4つのハローレジスタ位置を必要とすることになる。図をわかりやすくするために、図10は、標準的な実施形態において、いずれの側面(右、下)のレジスタも横接続および縦接続の両方を有し得る場合、ハローの右側のレジスタを横方向にのみシフト接続しているように示しており、ハローの下側のレジスタを縦方向にのみシフト接続しているように示している。さまざまな実施形態では、ハロー領域は、画像処理命令を実行するための対応する実行レーン論理を含まない(たとえば、ALUは存在しない)。しかしながら、個々のハローレジスタ位置がメモリから個々にデータをロードし、データをメモリに格納できるよう、個々のメモリアクセスユニット(M)がハロー領域位置の各々に存在する。
アレイの各行および/または各列、またはそれらの一部に連結されたさらなるスピルオーバ空間がRAM1007によって提供される(たとえば、行方向に4つの実行レーン、列方向に2つの実行レーンにまたがる実行レーンアレイの「領域」に1つのRAMが割り当てられてもよい。わかりやすくするために、残りの明細書では、主に、行ベースおよび/または列ベースの割り当て方式について言及する)。ここで、実行レーンのカーネル動作は、(いくつかの画像処理ルーチンが必要とし得る)2次元シフトレジスタアレイ1006の外側の画素値を処理する必要がある場合、画像データの面は、たとえば、ハロー領域1009からRAM1007にさらにこぼれ出る(スピルオーバする)ことができる。たとえば、実行レーンアレイの右端の実行レーンの右側に4つのストレージ要素のみから構成されるハロー領域をハードウェアが含む、6×6ステンシルについて考える。この場合、ステンシルを完全に処理するために、データは、さらに右にシフトされてハロー1009の右端からはみ出る必要がある。ハロー領域1009の外にシフトされるデータは、その後、RAM1007にこぼれ出る。RAM1007および図9のステンシルプロセッサのその他の適用例をさらに以下に説明する。
図11a~図11kは、上述したように実行レーンアレイの「下」の2次元シフトレジスタアレイ内で画像データがシフトされる方法の例を説明する。図11aに見られるように、2次元シフトアレイのデータコンテンツが第1アレイ1107に図示され、実行レーンアレイがフレーム1105によって図示されている。また、実行レーンアレイ内の2つの隣接する実行レーン1110を簡略化して図示している。この単純化した図示1110では、各実行レーンはレジスタR1を含む。レジスタR1は、シフトレジスタからデータを受け付けることができるか、(たとえば、周期間の累算器として動作するために)ALU出力からデータを受け付けることができるか、または、出力データを出力宛先に書き込むことができる。
また、各実行レーンは、ローカルレジスタR2において、その「下」のコンテンツを2次元シフトアレイにおいて利用可能である。よって、R1は、実行レーンの物理レジスタであるのに対して、R2は、2次元シフトレジスタアレイの物理レジスタである。実行レーンは、R1および/またはR2が提供するオペランドを処理できるALUを含む。以下においてさらに詳細に記載するが、一実施形態では、シフトレジスタは、実際には、アレイ位置ごとに複数のストレージ/レジスタ要素(の「深度」)を有して実装されるが、シフトアクティビティは、ストレージ要素の1つの面に限られる(たとえば、ストレージ要素の1つの面のみが周期ごとにシフトできる)。図11a~11kは、これらの深度がより深いレジスタ位置のうちの1つを、それぞれの実行レーンからの結果Xを格納するのに用いられるものとして示している。図をわかりやすくするために、深度がより深い結果レジスタは、対応するレジスタR2の下ではなく、横に並べて図示されている。
図11a~11kは、実行レーンアレイ内に図示された実行レーン位置1111のペアと中央位置が揃えられた2つのステンシルの算出に焦点を当てている。図をわかりやすくするために、実行レーン1110のペアは、実際には下記の例によると縦方向に隣接している場合に、横方向に隣接するものとして示されている。
最初に、図11aに見られるように、実行レーンは、その中央のステンシル位置の中心に位置決めされる。図11bは、両方の実行レーンによって実行されるオブジェクトコードを示す。図11bに見られるように、両方の実行レーンのプログラムコードによって、シフトレジスタアレイ内のデータは、位置を下に1つシフトさせられ、位置を右に1つシフトさせられる。これにより、両方の実行レーンがそれぞれのステンシルの左上隅に揃えられる。次に、プログラムコードは、(R2において)それぞれの位置にあるデータをR1にロードさせる。
図11cに見られるように、次に、プログラムコードは、実行レーンのペアに、シフトレジスタアレイ内のデータを1単位だけ左にシフトさせ、これによって、各実行レーンのそれぞれの位置の右にある値が、各実行レーンの位置にシフトされる。次に、(R2における)実行レーンの位置までシフトされた新しい値がR1の値(前の値)に加算される。その結果がR1に書き込まれる。図11dに見られるように、図11cで説明したのと同じ処理が繰り返され、これによって、結果R1は、ここで、上部実行レーンにおいて値A+B+Cを含み、下部実行レーンにおいてF+G+Hを含む。この時点で、両方の実行レーンは、それぞれのステンシルの上側の行を処理済みである。なお、データは、実行レーンアレイの左側のハロー領域(左側に存在する場合)にこぼれ出るが、ハロー領域が実行レーンアレイの左側に存在しない場合はRAMにこぼれ出る。
図11eに見られるように、次に、プログラムコードは、シフトレジスタアレイ内のデータを1単位だけ上にシフトさせ、これによって、両方の実行レーンがそれぞれのステンシルの中央行の右端に揃えられる。両方の実行レーンのレジスタR1は、このとき、ステンシルの最上行および中央行の右端の値の総和を含む。図11fおよび図11gは、両方の実行レーンのステンシルの中央行を左方向に移動する続きの進行を説明する図である。図11gの処理の終わりに両方の実行レーンがそれぞれのステンシル最上行および中央行の値の総和を含むよう、累積加算が続く。
図11hは、各実行レーンを対応するステンシルの最下行に揃えるための別のシフトを示す。図11iおよび図11jは、両方の実行レーンのステンシルに対する処理を完了するための、続きのシフト処理を示す。図11kは、データ配列において各実行レーンをその正しい位置に揃えて結果をそこに書き込むためのさらなるシフト処理を示す。
なお、図11a~図11kの例では、シフト演算用のオブジェクトコードは、(X,Y)座標で表されるシフトの方向および大きさを識別する命令フォーマットを含んでもよい。たとえば、位置を1つ上にシフトさせるためのオブジェクトコードは、SHIFT0、+1というオブジェクトコードで表されてもよい。別の例として、位置を右に1つシフトすることは、SHIFT+1、0というオブジェクトコードで表現されてもよい。また、さまざまな実施形態では、より大きなシフトも、オブジェクトコード(たとえば、SHIFT0、+2)で指定されてもよい。ここで、2Dシフトレジスタハードウェアが周期あたり位置1つ分のシフトしかサポートしない場合、命令は、マシンによって、複数周期の実行を必要とすると解釈されてもよく、または、周期あたり位置2つ分以上のシフトをサポートするよう2Dシフトレジスタハードウェアが設計されてもよい。後者の実施形態をより詳細にさらに後述する。
図12は、実行レーンおよび対応するシフトレジスタ構造(ハロー領域のレジスタは、対応する実行レーンを含まないが、さまざまな実施形態のメモリを含む)の単位セルをより詳細に示す別の図である。実行レーン、および実行レーンアレイの各位置に対応付けられたレジスタ空間は、一実施形態では、図12に見られる回路を実行レーンアレイの各ノードにおいてインスタンス化することによって実現される。図12に見られるように、単位セルは、4つのレジスタR2~R5から構成されるレジスタファイル1202に連結された実行レーン1201を含む。いずれの周期の間も、実行レーン1201は、レジスタR1~R5のうちのいずれかから読み出されたり、書き込まれたりしてもよい。2つの入力オペランドを必要とする命令については、実行レーンは、両方のオペランドをR1~R5のうちのいずれかから取り出してもよい。
一実施形態では、2次元シフトレジスタ構造は、1つの周期の間、レジスタR2~R4のうちのいずれか1つ(のみ)のコンテンツを出力マルチプレクサ1203を通してその隣接するレジスタのレジスタファイルのうちの1つにシフト「アウト」させ、隣接するレジスタ間のシフトが同じ方向になるよう、レジスタR2~R4のうちのいずれか1つ(のみ)のコンテンツを対応するレジスタファイルから入力マルチプレクサ1204を通してシフト「イン」されるコンテンツと置き換えることによって実現される(たとえば、すべての実行レーンが左にシフトする、すべての実行レーンが右にシフトする、など)。同じレジスタのコンテンツがシフトアウトされて、同じ周期上でシフトされるコンテンツと置き換えられることは一般的であり得るが、マルチプレクサ配列1203、1204は、同じ周期の間、同じレジスタファイル内で異なるシフト元および異なるシフト対象のレジスタを可能にする。
図12に示すように、シフトシーケンスの間、実行レーンは、そのレジスタファイル1202からその左隣、右隣、上隣、および下隣の各々にコンテンツをシフトアウトすることになることが分かる。同じシフトシーケンスと連動して、実行レーンは、そのレジスタファイルに左隣、右隣、上隣、および下隣のうちの特定のレジスタファイルからコンテンツをシフトする。ここでも、シフトアウトする対象およびシフトインする元は、すべての実行レーンについて同じシフト方向に一致していなければならない(たとえば、右隣にシフトアウトする場合、シフトインは左隣からでなければならない)。
一実施形態において、周期あたり実行レーン1つにつき1つのレジスタのコンテンツのみをシフトさせることが可能であるが、その他の実施形態は、2つ以上のレジスタのコンテンツをシフトイン/アウトさせることが可能であってもよい。たとえば、図12に見られるマルチプレクサ回路1203、1204の第2インスタンスが図12の設計に組み込まれている場合、同じ周期で2つのレジスタのコンテンツをシフトアウト/インしてもよい。当然、周期ごとに1つのレジスタのコンテンツのみをシフトさせることができる実施形態では、数値演算間のシフトのためにより多くのクロック周期を消費することによって複数のレジスタからのシフトが数値演算間で生じてもよい(たとえば、数値演算間の2つのシフト演算を消費することによって2つのレジスタのコンテンツが当該数値演算間でシフトされてもよい)。
なお、シフトシーケンス時に実行レーンのレジスタファイルのすべてのコンテンツよりも少ない数のコンテンツがシフトアウトされた場合、各実行レーンのシフトアウトされなかったレジスタのコンテンツは、所定の位置に留まっている(シフトしない)ことが分かる。このように、シフトインされたコンテンツに置き換えられないシフトされなかったコンテンツは、いずれも、シフト周期にわたって、実行レーンにローカルに留まる。各実行レーンに見られるメモリユニット(「M」)を使用して、実行レーンアレイ内の実行レーンの行および/または列に対応付けられたランダムアクセスメモリ空間からデータをロード/またはそれに格納する。ここで、Mユニットは、標準Mユニットとして機能し、標準Mユニットは、実行レーン自体のレジスタ空間からロード/またはそれに格納できないデータをロード/格納するために利用される場合が多い。さまざまな実施形態では、Mユニットの主な動作は、ローカルレジスタからのデータをメモリに書き込み、メモリからデータを読み出してローカルレジスタに書き込むことである。
ハードウェア実行レーン1201のALUユニットがサポートするISAオペコードに関して、さまざまな実施形態では、ハードウェアALUがサポートする数値演算オペコードは、(たとえば、ADD、SUB、MOV、MUL、MAD、ABS、DIV、SHL、SHR、MIN/MAX、SEL、AND、OR、XOR、NOT)を含む。上述したように、実行レーン1201によって、関連するRAMからデータをフェッチ/当該RAMにデータを格納するためのメモリアクセス命令が実行され得る。これに加えて、ハードウェア実行レーン1201は、2次元シフトレジスタ構造内でデータをシフトさせるためのシフト演算命令(右、左、上、下)をサポートする。上述したように、プログラム制御命令は、主に、ステンシルプロセッサのスカラープロセッサによって実行される。
4.0 実装の実施形態
上述したさまざまな画像処理プロセッサのアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限られないため、画像処理プロセッサを新たに特徴付け得る(または、させ得ない)その他のアプリケーションに適用され得ることを指摘することが適切である。たとえば、上述したさまざまな画像処理プロセッサのアーキテクチャの特徴のうちのいずれかが、実際のカメラ画像の処理とは対照的に、アニメーションの作成ならびに/または生成および/もしくは描画に使用される場合、画像処理プロセッサは、GPU(Graphics Processing Unit)として特徴付けられてもよい。加えて、上述した画像処理プロセッサアーキテクチャの特徴を、映像処理、視野処理、画像認識および/または機械学習など、その他の技術用途に適用してもよい。このように適用すると、画像処理プロセッサは、(たとえば、コプロセッサとして)、(たとえば、コンピューティングシステムのCPU(Central Processing Unit)もしくはその一部である)より汎用的なプロセッサと統合されてもよく、または、コンピューティングシステム内のスタンドアロン型のプロセッサであってもよい。
上述したハードウェア設計の実施形態は、半導体チップ内に実施されてもよく、および/または、最終的に半導体製造プロセスに向けての回路設計の記述として実施されてもよい。後者の場合、このような回路記述は、(たとえば、VHDLまたはVerilog)レジスタ転送レベル(RTL:Register Transfer Level)回路記述、ゲートレベル回路記述、トランジスタレベル回路記述もしくはマスク記述、またはそれらのさまざまな組合せなどの形態をとり得る。回路記述は、通常、コンピュータ読み取り可能な記憶媒体(CD-ROMまたはその他の種類のストレージ技術など)上で実施される。
上記段落から、後述する画像処理プロセッサをコンピュータシステム上のハードウェアで(たとえば、ハンドヘルド端末のカメラからのデータを処理するハンドヘルド端末のSOC(System On Chip)の一部として)実施してもよいことを認識することが適切である。なお、画像処理プロセッサがハードウェア回路として実施された場合、画像処理プロセッサによって処理される画像データをカメラから直接受け付けてもよいことが分かる。ここで、画像処理プロセッサは、単品カメラの一部、またはカメラを内蔵したコンピューティングシステムの一部であってもよい。後者の場合、カメラからまたはコンピューティングシステムのシステムメモリから画像データを直接受け付けてもよい(たとえば、カメラは、その画像データを、画像処理プロセッサではなくシステムメモリに送る)。また、上記段落に記載の特徴の多くは、(アニメーションを描画する)GPUに適用可能である。
図13は、コンピューティングシステムを例示的に示している。上述したコンピューティングシステムの構成要素のうちの多くは、内蔵カメラおよび関連する画像処理プロセッサ(たとえば、スマートフォンまたはタブレットコンピュータなどのハンドヘルド端末)を有するコンピューティングシステムに適用可能である。当業者は、これら2つの違いを容易に明確にするであろう。これに加えて、図13のコンピューティングシステムは、ワークステーションまたはスーパーコンピュータなどの高性能なコンピューティングシステムの多くの特徴も含んでいる。
図13に見られるように、基本的なコンピューティングシステムは、CPU1301(たとえば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア1315_1~1315_Nおよびメインメモリコントローラ1317を含んでもよい)と、システムメモリ1302と、ディスプレイ1303(たとえば、タッチスクリーン、フラットパネル)と、ローカル有線ポイントツーポイントリンク(たとえば、USB)インタフェース1304と、さまざまなネットワーク入出力機能部1305(Ethernet(登録商標)インタフェースおよび/またはセルラーモデムサブシステムなど)と、無線ローカルエリアネットワーク(たとえば、WiFi)インタフェース1306と、無線ポイントツーポイントリンク(たとえば、Bluetooth(登録商標))インタフェース1307およびGPS(Global Positioning System)インタフェース1308と、さまざまなセンサ1309_1~1309_Nと、1つ以上のカメラ1310と、バッテリー1311と、電力管理制御部1312と、スピーカ/マイクロフォン1313と、オーディオコーダ/デコーダ1314とを含んでもよい。
アプリケーションプロセッサまたはマルチコアプロセッサ1350は、そのCPU1201内に1つ以上の汎用処理コア1315と、1つ以上のGPU1316と、メモリ管理機能部1317(たとえば、メモリコントローラ)と、入出力制御機能部1318と、画像処理部1319とを含んでもよい。汎用処理コア1315は、通常、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。GPU1316は、通常、グラフィックスを多く使う機能を実行して、たとえば、ディスプレイ1303上に提示されるグラフィックス情報を生成する。メモリ制御機能部1317は、システムメモリ1302とインタフェース接続され、システムメモリ1302にデータを書き込む/システムメモリ1302からデータを読み出す。電力管理制御部1312は、一般に、システム1300の消費電力を制御する。
画像処理部1319は、上記段落で詳細に記載された画像処理部の実施形態のいずれかに従って実現されてもよい。代替的には、またはこれと組み合わせて、IPU1319がGPU1316およびCPU1301のいずれかまたは両方に、そのコプロセッサとして連結されてもよい。これに加えて、さまざまな実施形態では、GPU1316は、詳細に上述した画像処理プロセッサの特徴のいずれかを用いて実現されてもよい。画像処理部1319、またはデータを送信するコンピューティングシステムの他の部は、詳細に上述されたように、効率的な通信シーケンスを実現するトランシーバで構成されてもよい。
タッチスクリーンディスプレイ1303、通信インタフェース1304~1307、GPSインタフェース1308、センサ1309、カメラ1310、およびスピーカ/マイクロフォンコーデック1313、1314の各々は、すべて、内蔵型周辺機器(たとえば、1つ以上のカメラ1310)も適宜備えたコンピュータシステム全体に対するさまざまな形態のI/O(入力部および/または出力部)として見ることができる。実現例によっては、これらのI/OコンポーネントのうちのさまざまなI/Oコンポーネントがアプリケーションプロセッサ/マルチコアプロセッサ1350上に集積されてもよく、ダイからずれて配置されてもよく、またはアプリケーションプロセッサ/マルチコアプロセッサ1350のパッケージの外に配置されてもよい。
一実施形態では、1つ以上のカメラ1310は、カメラと視野に存在するオブジェクトとの間の奥行きを測定可能な深度カメラを含む。アプリケーションプロセッサまたはその他のプロセッサの汎用CPUコア(または、プログラムコードを実行するための命令実行パイプラインを有するその他の機能ブロック)上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェア、および/またはファームウェアが、上述した機能のいずれかを実行してもよい。
本発明の実施形態は、上述したさまざまな処理を含んでもよい。処理は、機械によって実行可能な命令に含まれてもよい。命令を用いて、汎用プロセッサまたは特定用途向けプロセッサに特定の処理を実行させることができる。代替的には、これらの処理は、処理を実行するための結線ロジックおよび/またはプログラム可能なロジックを含んだ専用のハードウェア部品によって実行されてもよく、プログラムを組み込まれたコンピュータ構成要素とカスタムハードウェア部品との任意の組み合わせによって実行されてもよい。
また、本発明の要素は、機械によって実行可能な命令を格納するための機械読み取り可能な媒体として提供されてもよい。機械読み取り可能な媒体は、フロッピー(登録商標)ディスク、光ディスク、CD-ROM、および光磁気ディスク、FLASHメモリ、ROM、RAM、EPROM、EEPROM、磁気カードまたは光カード、電子命令を格納するのに適した伝播媒体またはその他の種類の媒体/機械読み取り可能な媒体などを含み得るが、これらに限定されない。たとえば、本発明は、コンピュータプログラムとしてダウンロードされてもよく、コンピュータプログラムは、搬送波またはその他の伝播媒体において具体化されるデータ信号として、通信リンク(たとえば、モデムまたはネットワーク接続)を介してリモートコンピュータ(たとえば、サーバ)から要求元コンピュータ(たとえば、クライアント)に転送され得る。
上記の明細書において、具体的、例示的な実施形態を用いて本発明を説明したが、特許請求の範囲に記載の本発明のより広義の趣旨および範囲から逸脱することなく、さまざまな変形および変更が実施可能であることは明らかであろう。したがって、明細書および添付の図面は、限定的ではなく例示的なものとみなされるべきである。
以下において、いくつかの例示的な実施形態が記載される。
例1:プロセッサであって、
ネットワークと、
当該ネットワークに連結された複数の処理コアと、
当該ネットワークに連結されたトランスミッタ回路とを備え、当該トランスミッタ回路は、当該複数の処理コアのうちの1つによって生成された出力データを当該ネットワーク内に送信し、当該トランスミッタ回路は制御論理回路を含み、当該制御論理回路は、当該トランスミッタ回路が出力データのうち先行の第1のパケットの送信を完了する前に、当該トランスミッタ回路に、出力データのうち第2のパケットの送信のための要求を送信させる、プロセッサ。
例2:当該要求は、
当該第2のパケットを当該第1のパケットが送信されつつあるのと同じ宛先へ送信すべき場合に当該同じ宛先、または、
当該第2のパケットを異なる宛先に送信すべき場合に当該異なる宛先、
に送信されることになる、例1に記載のプロセッサ。
例3:当該制御論理回路は、
当該第1のパケットおよび当該第2のパケットが同じ宛先に送信されている場合、当該第1のパケットおよび当該第2のパケットのために同じクレジットカウンタを用いることになるか、または、
当該第1のパケットおよび当該第2のパケットが異なる宛先に送信されている場合、当該第1のパケットのために第1のクレジットカウンタを用いることになるとともに当該第2のパケットのために第2のクレジットカウンタを用いることになる、例1または例2に記載のプロセッサ。
例4:制御論理は、異なる宛先に対する複数のパケットの同時送信を制御するための複数のクレジットカウンタを含む、上述の例のうち少なくとも1つの例に記載のプロセッサ。
例5:当該クレジットカウンタの各々は、いずれかの特定の宛先に対する送信を制御するために永久的に割当てられるものではない、例2から例4のうち少なくとも1つの例に記載のプロセッサ。
例6:当該プロセッサは画像処理プロセッサであり、当該第1のパケットおよび当該第2のパケットはデータの画像の複数ラインを含む、上述の例のうち少なくとも1つの例に記載のプロセッサ。
例7:当該第1のパケットおよび当該第2のパケットのデータ単位は、前記トランスミッタによって送信された後、および、当該データ単位が当該複数の処理コアのうち別の1つ以上の処理コアによって処理される前に、当該プロセッサのメモリ回路によって待ち行列に入れられる、上述の例のうち少なくとも1つの例に記載のプロセッサ。
例8:当該画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、例6または例7に記載のプロセッサ。
例9:当該画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、例6から例8のうち少なくとも1つの例に記載のプロセッサ。
例10:部分的に重なっているステンシル上で動作するように構成される、例9に記載のプロセッサ。
例11:当該実行レーンのアレイの外側にレジスタの「ハロー」が存在するように、当該実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは当該データ演算部に連結される、上述の例のうち少なくとも1つの例に記載のプロセッサ。
例12:コンピューティングシステムであって、
複数の汎用処理コアと、
システムメモリと、
当該システムメモリと当該汎用処理コアとの間で連結されるメモリコントローラと、
画像処理プロセッサとを備え、当該画像処理プロセッサは、
a)ネットワークと、
b)当該ネットワークに連結された複数の画像処理コアと、
c)当該ネットワークに連結されたトランスミッタ回路とを含み、当該トランスミッタ回路は、当該画像処理コアのうちの1つによって生成された出力データを当該ネットワーク内に送信し、当該トランスミッタ回路は制御論理回路を含み、当該制御論理回路は、当該トランスミッタ回路が出力データのうち先行の第1のパケットの送信を完了する前に、当該トランスミッタ回路に、出力データのうち第2のパケットの送信のための要求を送信させる、コンピューティングシステム。
例13:当該要求は、
当該第2のパケットを当該第1のパケットが送信されつつあるのと同じ宛先へ送信すべき場合に当該同じ宛先、または、
当該第2のパケットを異なる宛先に送信すべき場合に当該異なる宛先、
に送信されることになる、例12に記載のコンピューティングシステム。
例14:当該制御論理回路は、
当該第1のパケットおよび当該第2のパケットが同じ宛先に送信されている場合、当該第1のパケットおよび当該第2のパケットのために同じクレジットカウンタを用いることになるか、または、
当該第1のパケットおよび当該第2のパケットが異なる宛先に送信されている場合、当該第1のパケットのために第1のクレジットカウンタを用いることになるとともに当該第2のパケットのために第2にクレジットカウンタを用いることになる、例12または例13に記載のコンピューティングシステム。
例15:制御論理は、異なる宛先に対する複数のパケットの同時送信を制御するための複数のクレジットカウンタを含む、例12から例14のうち少なくとも1つの例に記載のコンピューティングシステム。
例16:当該クレジットカウンタの各々は、いずれかの特定の宛先に対する送信を制御するために永久的に割当てられるものではない、例12から例15のうち少なくとも1つの例に記載のコンピューティングシステム。
例17:当該第1のパケットおよび当該第2のパケットはデータの画像の複数ラインを含む、例12から例16のうち少なくとも1つの例に記載コンピューティングシステム。
例18:当該第1のパケットおよび第2のパケットのデータ単位は、前記トランスミッタによって送信された後、および、当該データ単位が当該複数の画像処理コアのうち別の1つ以上の画像処理コアによって処理される前に、当該画像処理プロセッサのメモリ回路によって待ち行列に入れられる、例12から例17のうち少なくとも1つの例に記載のコンピューティングシステム。
例19:当該画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、例12から例18のうち少なくとも1つの例に記載のコンピューティングシステム。
例20:当該画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、例12から例19のうち少なくとも1つの例に記載のコンピューティングシステム。
例21:部分的に重なっているステンシル上で動作するように構成される、例20に記載のコンピューティングシステム。
例22:当該実行レーンのアレイの外側にレジスタの「ハロー」が存在するように、当該実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは当該データ演算部に連結される、例12から例21のうち少なくとも1つの例に記載のコンピューティングシステム。
例23:プロセッサによって実行される方法であって、
当該プロセッサの処理コアの出力データを生成するために当該処理コア上でプログラムコードを処理するステップと、
当該プロセッサ内のネットワークに連結されているトランスミッタ回路によって、当該トランスミッタ回路が先行の第1のパケットの送信を完了する前に、第2のパケットについての送信のための要求を送信するステップとを含み、当該第2のパケットは、当該処理コアによって生成された第2の出力データを含み、当該第1のパケットは、当該処理コアによって生成された第1の出力データを含み、前記方法はさらに、
当該ネットワークに連結されている当該プロセッサのうち1つ以上の他の処理コアで当該第1の出力データおよび当該第2の出力データを処理するステップを含む、方法。
例24:当該トランスミッタ回路によって当該第1の出力データを送信した後であって、当該1つ以上の処理コアによって当該第1の出力データを処理する前に、当該第1の出力データを待ち行列に入れるステップをさらに含む、例23に記載の方法。
例25:当該待ち行列に入れるステップは、当該ネットワークに連結されているバッファによって画像データの複数ラインを待ち行列に入れるステップを含む、例23または例24に記載の方法。
例26:当該トランスミッタ回路が、当該第1のパケットの送信に関与するとともに、第2のパケットの送信に関与するステップをさらに含み、当該第2のパケットは当該第1のパケットとは異なる宛先に送信される、例23から例25のうち少なくとも1つの例に記載の方法。
例27:当該第1のパケットおよび当該第2のパケットが同じ宛先に送信される場合、前記トランスミッタからの当該第1のパケットおよび当該第2のパケットの送信を制御するために同じクレジットカウンタを用いるステップをさらに含む、例23から例26のうち少なくとも1つの例に記載の方法。
例28:当該トランスミッタからの第3のパケットの送信を制御するために当該同じクレジットカウンタを用いるステップをさらに含み、当該第3のパケットは、当該第1のパケットおよび当該第2のパケットを送信するとき以外の期間中に当該第1のパケットおよび当該第2のパケットとは異なる宛先に送信される、例23から例27のうち少なくとも1つに記載の方法。
例29:当該画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、例23から例28のうち少なくとも1つの例に記載の方法。
例30:当該画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、例23から例29のうち少なくとも1つの例に記載の方法。
例31:部分的に重なっているステンシル上で動作するように構成される、例30に記載の方法。
例32:当該実行レーンのアレイの外側にレジスタの「ハロー」が存在するように、当該実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは当該データ演算部に連結される、例23から例31のうち少なくとも1つの例に記載の方法。

Claims (26)

  1. プロセッサであって、
    ネットワークと、
    前記ネットワークに連結された複数の処理コアと、
    前記複数の処理コアのうちの第1の処理コアを前記ネットワークに連結するトランスミッタ回路とを備え、前記トランスミッタ回路は、前記第1の処理コアによって出力された複数のデータ単位を含むデータパケットを前記ネットワーク内に送信し、前記トランスミッタ回路は制御論理回路を含み、前記制御論理回路は、
    前記プロセッサの第1のレシーバに向けた第1のデータパケットの送信を、前記トランスミッタ回路に開始させ、
    前記第1のレシーバに向けた前記第1のデータパケットの最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第1のレシーバに向けた第2のデータパケットの送信のための要求を送信させ
    前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第2のデータパケットの送信のために予め発行された受取り確認を受信させ、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す表示を、前記トランスミッタ回路に受信させ、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す前記表示を受信したことに応答して、前記トランスミッタ回路に、前記第1のレシーバに割り当てられた第1のクレジットカウンタを増加させ、前記第1のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第1のレシーバに送信可能なデータ量に対応し、前記制御論理回路は、さらに、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す前記表示を受信したことで増加した前記第1のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記トランスミッタ回路に、前記第1のレシーバに向けて前記第2のデータパケットの最初のデータ単位を送信させる、プロセッサ。
  2. 前記制御論理回路は、さらに、
    前記第1のレシーバに向けた前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記プロセッサの第2のレシーバに向けた第3のデータパケットの送信のための要求を送信させ
    前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第3のデータパケットの送信のために予め発行された受取り確認を受信させ、
    前記第3のデータパケットの送信のために前記予め発行された受取り確認を受信したことに応答して、前記トランスミッタ回路に、前記第2のレシーバに割り当てられた第2のクレジットカウンタを増加させ、前記第2のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第2のレシーバに送信可能なデータ量に対応し、前記制御論理回路は、さらに、
    前記第3のデータパケットの送信のための前記予め発行された受取り確認を受信したことで増加した前記第2のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記トランスミッタ回路に、前記第2のレシーバに向けて前記第3のデータパケットの最初のデータ単位を送信させる、請求項1に記載のプロセッサ。
  3. 前記制御論理回路は、異なる宛先に対する複数のデータパケットの同時送信を制御するための、前記第1のクレジットカウンタおよび前記第2のクレジットカウンタを含む複数のクレジットカウンタを含み、
    前記複数のクレジットカウンタの各々は、いずれかの特定の宛先に対する送信を制御するために永久的に割当てられるものではない、請求項に記載のプロセッサ。
  4. 前記第1のデータパケットおよび前記第2のデータパケットのデータ単位は、前記トランスミッタ回路によって送信された後、および、前記データ単位が前記複数の処理コアのうち別の1つ以上の処理コアによって処理される前に、前記プロセッサのメモリ回路によって待ち行列に入れられる、請求項1からのいずれか1項に記載のプロセッサ。
  5. 前記プロセッサは画像処理プロセッサであり、前記第1のデータパケットおよび前記第2のデータパケットはデータの画像の複数ラインを含む、請求項1からのいずれか1項に記載のプロセッサ。
  6. 前記画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、請求項に記載のプロセッサ。
  7. 前記画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、請求項5または6に記載のプロセッサ。
  8. 部分的に重なっているステンシル上で動作するように構成される、請求項に記載のプロセッサ。
  9. 行レーンのアレイの外側にレジスタの「ハロー」が存在するように、前記実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは前記データ演算部に連結される、請求項1からのいずれか1項に記載のプロセッサ。
  10. コンピューティングシステムであって、
    複数の汎用処理コアと、
    システムメモリと、
    前記システムメモリと前記汎用処理コアとの間で連結されるメモリコントローラと、
    画像処理プロセッサとを備え、前記画像処理プロセッサは、
    a)ネットワークと、
    b)前記ネットワークに連結された複数の画像処理コアと、
    c)前記複数の画像処理コアのうちの第1の画像処理コアを前記ネットワークに連結するトランスミッタ回路とを含み、前記トランスミッタ回路は、前記第1の画像処理コアによって出力された複数のデータ単位を含むデータパケットを前記ネットワーク内に送信し、前記トランスミッタ回路は制御論理回路を含み、前記制御論理回路は、
    前記画像処理プロセッサの第1のレシーバに向けた第1のデータパケットの送信を、前記トランスミッタ回路に開始させ、
    前記第1のレシーバに向けた前記第1のデータパケットの最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第1のレシーバに向けた第2のデータパケットの送信のための要求を送信させ
    前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第2のデータパケットの送信のために予め発行された受取り確認を受信させ、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す表示を、前記トランスミッタ回路に受信させ、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す表示を受信したことに応答して、前記トランスミッタ回路に、前記第1のレシーバに割り当てられた第1のクレジットカウンタを増加させ、前記第1のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第1のレシーバに送信可能なデータ量に対応し、前記制御論理回路は、さらに、
    前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す前記表示を受信したことで増加した前記第1のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記トランスミッタ回路に、前記第1のレシーバに向けて前記第2のデータパケットの最初のデータ単位を送信させる、コンピューティングシステム。
  11. 前記制御論理回路は、さらに、
    前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記画像処理プロセッサの第2のレシーバに向けた第3のデータパケットの送信のための要求を送信させ
    前記第1のレシーバに向けた前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記トランスミッタ回路に、前記第3のデータパケットの送信のために予め発行された受取り確認を受信させ、
    前記第3のデータパケットの送信のために前記予め発行された受取り確認を受信したことに応答して、前記トランスミッタ回路に、前記第2のレシーバに割り当てられた第2のクレジットカウンタを増加させ、前記第2のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第2のレシーバに送信可能なデータ量に対応し、前記制御論理回路は、さらに、
    前記第3のデータパケットの送信のための前記予め発行された受取り確認を受信したことで増加した前記第2のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記トランスミッタ回路に、前記第2のレシーバに向けて前記第3のデータパケットの最初のデータ単位を送信させる、請求項10に記載のコンピューティングシステム。
  12. 前記制御論理回路は、異なる宛先に対する複数のデータパケットの同時送信を制御するための、前記第1のクレジットカウンタおよび前記第2のクレジットカウンタを含む複数のクレジットカウンタを含み、
    前記複数のクレジットカウンタの各々は、いずれかの特定の宛先に対する送信を制御するために永久的に割当てられるものではない、請求項11に記載のコンピューティングシステム。
  13. 前記第1のデータパケットおよび前記第2のデータパケットのデータ単位は、前記トランスミッタ回路によって送信された後、および、前記データ単位が前記複数の画像処理コアのうち別の1つ以上の画像処理コアによって処理される前に、前記画像処理プロセッサのメモリ回路によって待ち行列に入れられる、請求項1から1のいずれか1項に記載のコンピューティングシステム。
  14. 前記第1のデータパケットおよび前記第2のデータパケットはデータの画像の複数ラインを含む、請求項1から1のいずれか1項に記載のコンピューティングシステム。
  15. 前記画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、請求項14に記載のコンピューティングシステム。
  16. 前記画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、請求項14または15に記載のコンピューティングシステム。
  17. 部分的に重なっているステンシル上で動作するように構成される、請求項16に記載のコンピューティングシステム。
  18. 行レーンのアレイの外側にレジスタの「ハロー」が存在するように、前記実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは前記データ演算部に連結される、請求項10から17のいずれか1項に記載のコンピューティングシステム。
  19. ネットワークと前記ネットワークに連結された複数の処理コアとを有するプロセッサによって実行される方法であって、
    前記複数の処理コアのうちの第1の処理コアが、第1のデータパケットおよび第2のデータパケット内で送信される、前記プロセッサの前記第1の処理コアの出力データを生成するためプログラムコードを処理するステップを備え、前記第1のデータパケットおよび前記第2のデータパケットの各々は複数のデータ単位を含み前記方法はさらに、
    前記ネットワークに前記第1の処理コアを連結するトランスミッタ回路が、前記プロセッサの第1のレシーバに向けた前記第1のデータパケットの送信を開始するステップと、
    記トランスミッタ回路前記第1のデータパケットの最後のデータ単位の送信を完了する前に、前記第2のデータパケットの送信のための要求を送信するステップと
    前記トランスミッタ回路が、前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記第2のデータパケットの送信のために予め発行された受取り確認を受信するステップと、
    前記トランスミッタ回路が、前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す表示を受信するステップと、
    前記トランスミッタ回路が、前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す前記表示を受信したことに応答して、前記第1のレシーバに割り当てられた第1のクレジットカウンタを増加させるステップとを備え、前記第1のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第1のレシーバに送信可能なデータ量に対応し、前記方法はさらに、
    前記トランスミッタ回路が、前記第1のデータパケットの前記最後のデータ単位が前記第1のレシーバによって消費されたことを示す前記表示を受信したことで増加した前記第1のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記第1のレシーバに向けて前記第2のデータパケットの最初のデータ単位を送信するステップとを備える、方法。
  20. 前記複数の処理コアのうちの第2の処理コアが、第3のデータパケット内で送信される、前記第2の処理コアの出力データを生成するためのプログラムコードを処理するステップをさらに備え、前記第3のデータパケットは複数のデータ単位を含み、前記方法はさらに、
    前記トランスミッタ回路が、前記第1のレシーバに向けた前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記プロセッサの第2のレシーバに向けた第3のデータパケットの送信のための要求を送信するステップと、
    前記トランスミッタ回路が、前記第1のデータパケットの前記最後のデータ単位の送信を完了する前に、前記第3のデータパケットの送信のために予め発行された受取り確認を受信するステップと、
    前記トランスミッタ回路が、前記第3のデータパケットの送信のために前記予め発行された受取り確認を受信したことに応答して、前記第2のレシーバに割り当てられた第2のクレジットカウンタを増加させるステップとを備え、前記第2のクレジットカウンタのクレジットは、前記トランスミッタ回路によって前記第2のレシーバに送信可能なデータ量に対応し、前記方法はさらに、
    前記トランスミッタ回路が、前記第3のデータパケットの送信のための前記予め発行された受取り確認を受信したことで増加した前記第2のクレジットカウンタの前記クレジットの1つ以上を使用することにより、前記第2のレシーバに向けて前記第3のデータパケットの最初のデータ単位を送信するステップを備える、請求項19に記載の方法。
  21. 前記トランスミッタ回路前記第1のデータパケットを送信した後であって、前記1つ以上の処理コア前記第1のデータパケットのデータ単位を処理する前に、前記プロセッサのメモリ回路が前記第1のデータパケットの前記データ単位を待ち行列に入れるステップをさらに含む、請求項20に記載の方法。
  22. 前記待ち行列に入れるステップは、前記ネットワークに連結されているバッファによって画像データの複数ラインを待ち行列に入れるステップを含む、請求項21に記載の方法。
  23. 前記プロセッサは画像処理プロセッサであり、前記画像処理プロセッサは、2次元シフトレジスタアレイに連結された、実行レーンのアレイを含む、請求項19から2のいずれか1項に記載の方法。
  24. 前記画像処理プロセッサは、画像データのステンシルを処理するための複数のステンシルプロセッサを含む、請求項23に記載の方法。
  25. 部分的に重なっているステンシル上で動作するように構成される、請求項24に記載の方法。
  26. 行レーンのアレイの外側にレジスタの「ハロー」が存在するように、前記実行レーンのアレイよりも広い寸法を有するシフトレジスタ構造を備えたデータ演算部を含むかまたは前記データ演算部に連結される、請求項19から25のいずれか1項に記載の方法。
JP2019559364A 2017-05-15 2018-01-05 高スループット内部通信プロトコルを用いる画像処理プロセッサ Active JP7073403B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/595,242 US10872393B2 (en) 2017-05-15 2017-05-15 Image processor with high throughput internal communication protocol
US15/595,242 2017-05-15
PCT/US2018/012521 WO2018212793A1 (en) 2017-05-15 2018-01-05 Image processor with high throughput internal communication protocol

Publications (3)

Publication Number Publication Date
JP2020519996A JP2020519996A (ja) 2020-07-02
JP2020519996A5 JP2020519996A5 (ja) 2020-10-01
JP7073403B2 true JP7073403B2 (ja) 2022-05-23

Family

ID=61094589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019559364A Active JP7073403B2 (ja) 2017-05-15 2018-01-05 高スループット内部通信プロトコルを用いる画像処理プロセッサ

Country Status (7)

Country Link
US (1) US10872393B2 (ja)
EP (1) EP3625755A1 (ja)
JP (1) JP7073403B2 (ja)
KR (1) KR102284078B1 (ja)
CN (1) CN110574068B (ja)
TW (1) TWI718359B (ja)
WO (1) WO2018212793A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489878B2 (en) * 2017-05-15 2019-11-26 Google Llc Configurable and programmable image processor unit

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218415A (ja) 2009-03-18 2010-09-30 Olympus Corp ハードウエアスイッチ及び分散処理システム
JP2010218351A (ja) 2009-03-18 2010-09-30 Ricoh Co Ltd データ転送システム及びデータ転送方法
US20160314555A1 (en) 2015-04-23 2016-10-27 Google Inc. Architecture for high performance, power efficient, programmable image processing

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203192A (ja) * 1998-01-16 1999-07-30 Sony Corp 並列プロセッサおよび演算処理方法
US7453878B1 (en) * 2000-07-21 2008-11-18 Silicon Graphics, Inc. System and method for ordering of data transferred over multiple channels
US7966661B2 (en) * 2004-04-29 2011-06-21 Microsoft Corporation Network amplification attack mitigation
US7478811B2 (en) 2004-08-02 2009-01-20 Garrett Johnson Wave driven gaming apparatus
US7793074B1 (en) * 2006-04-14 2010-09-07 Tilera Corporation Directing data in a parallel processing environment
US8463843B2 (en) * 2006-05-26 2013-06-11 Riverbed Technology, Inc. Throttling of predictive ACKs in an accelerated network communication system
US8478834B2 (en) * 2007-07-12 2013-07-02 International Business Machines Corporation Low latency, high bandwidth data communications between compute nodes in a parallel computer
US8700877B2 (en) 2009-09-25 2014-04-15 Nvidia Corporation Address mapping for a parallel thread processor
US20110249744A1 (en) * 2010-04-12 2011-10-13 Neil Bailey Method and System for Video Processing Utilizing N Scalar Cores and a Single Vector Core
US9021237B2 (en) * 2011-12-20 2015-04-28 International Business Machines Corporation Low latency variable transfer network communicating variable written to source processing core variable register allocated to destination thread to destination processing core variable register allocated to source thread
JP5966561B2 (ja) * 2012-04-20 2016-08-10 富士通株式会社 通信装置および通信方法
US9489322B2 (en) 2013-09-03 2016-11-08 Intel Corporation Reducing latency of unified memory transactions
US20160188519A1 (en) * 2014-12-27 2016-06-30 Intel Corporation Method, apparatus, system for embedded stream lanes in a high-performance interconnect
US9792044B2 (en) * 2016-02-12 2017-10-17 Oracle International Corporation Decompression history buffer read/write pipelines
US10437616B2 (en) * 2016-12-31 2019-10-08 Intel Corporation Method, apparatus, system for optimized work submission to an accelerator work queue
US10764209B2 (en) * 2017-03-28 2020-09-01 Mellanox Technologies Tlv Ltd. Providing a snapshot of buffer content in a network element using egress mirroring

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218415A (ja) 2009-03-18 2010-09-30 Olympus Corp ハードウエアスイッチ及び分散処理システム
JP2010218351A (ja) 2009-03-18 2010-09-30 Ricoh Co Ltd データ転送システム及びデータ転送方法
US20160314555A1 (en) 2015-04-23 2016-10-27 Google Inc. Architecture for high performance, power efficient, programmable image processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nicola Concer et al.,"CTC: an End-To-End Flow Control Protocol for Multi-Core Systems-on-Chip",2009 3rd ACM/IEEE International Symposium on Networks-on-Chip,米国,IEEE,2009年05月10日,pp.1-10

Also Published As

Publication number Publication date
KR20190133028A (ko) 2019-11-29
EP3625755A1 (en) 2020-03-25
TWI718359B (zh) 2021-02-11
JP2020519996A (ja) 2020-07-02
CN110574068B (zh) 2023-06-27
CN110574068A (zh) 2019-12-13
US20180330465A1 (en) 2018-11-15
TW201901609A (zh) 2019-01-01
WO2018212793A1 (en) 2018-11-22
KR102284078B1 (ko) 2021-07-30
US10872393B2 (en) 2020-12-22

Similar Documents

Publication Publication Date Title
JP7066732B2 (ja) 設定可能且つプログラム可能な画像プロセッサユニット
JP6571790B2 (ja) 高性能で、電力効率の良い、プログラマブルな画像処理のためのアーキテクチャ
JP6612403B2 (ja) 画像プロセッサのためのエネルギ効率的なプロセッサコアアーキテクチャ
JP6389571B2 (ja) 画像プロセッサのための二次元シフトアレイ
US10685423B2 (en) Determination of per line buffer unit memory allocation
JP2019507922A (ja) 画像プロセッサのためのコンパイラ管理メモリ
US10998070B2 (en) Shift register with reduced wiring complexity
JP6967597B2 (ja) 設定可能な数のアクティブなコアを有する画像処理プロセッサおよびサポートする内部ネットワーク
CN110574067A (zh) 图像处理器i/o单元
US11030005B2 (en) Configuration of application software on multi-core image processor
JP7073403B2 (ja) 高スループット内部通信プロトコルを用いる画像処理プロセッサ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220511

R150 Certificate of patent or registration of utility model

Ref document number: 7073403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150