JP6793228B2

JP6793228B2 - 画像プロセッサのためのシート生成部

Info

Publication number: JP6793228B2
Application number: JP2019136231A
Authority: JP
Inventors: メイクスナー，アルバート; レッドグレイブ，ジェイソン・ルパート; シャチャム，オフェル; ヂュー，チウリン; フィンチェルステイン，ダニエル・フレデリック
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-23
Filing date: 2019-07-24
Publication date: 2020-12-02
Anticipated expiration: 2036-04-04
Also published as: KR20200021003A; US20170257515A1; EP3286725A1; CN107438861B; CN112967169B; KR20170125393A; CN107438861A; US20160316094A1; DE112016001835T5; EP3286725B1; JP6563512B2; US10560598B2; US11140293B2; JP2019215887A; US10284744B2; US10291813B2; JP2018513474A; US20190208075A1; CN112967169A; WO2016171882A1

Description

発明の分野
本発明は、一般に、画像処理に関し、特に、画像プロセッサのシート生成部に関する。

背景
画像処理は、典型的には、アレイに編成されたピクセル値の処理を含む。ここで、空間的に編成された二次元アレイは、画像の二次元的性質を捕捉する（追加の次元は、時間（例えば二次元画像のシーケンス）およびデータタイプ（例えば色）を含み得る。典型的なケースでは、アレイ化されたピクセル値は、静止画像または動きの画像を捕捉するためにフレームのシーケンスを生成したカメラによって提供される。伝統的な画像プロセッサは、典型的には、２つの極端な側面のいずれかに分類される。

第１の極端な側面は、汎用プロセッサまたは汎用状プロセッサ（例えばベクトル命令拡張を備えた汎用プロセッサ）上で実行されるソフトウェアプログラムとして画像処理タスクを実行する。第１の極端な側面は、一般的に非常に汎用性の高いアプリケーションソフトウェア開発プラットフォームを提供するが、関連するオーバーヘッド（例えば、命令フェッチおよびデコード、オンチップおよびオフチップデータの処理、投機的実行）と組み合わされたより精細な粒子のデータ構造の使用は、究極的には、プログラムコードの実行中に、データの単位あたり、より多くのエネルギーが消費される結果となる。

第２の逆の極端な側面は、固定機能のハードワイヤード回路系をはるかに大きなデータブロックに適用する。カスタム設計された回路に直接適用される、（粒度の細かいブロックとは対照的な）より大きなデータブロックの使用は、データ単位あたりの消費電力を大幅に削減する。しかしながら、カスタム設計された固定機能回路系の使用は、一般に、プロセッサが実行することができるタスクのセットが限られる結果となる。このように、（第１の極端な側面に関連する）幅広く汎用性の高いプログラミング環境は第２の極端な側面においては欠けている。

高度に汎用性の高いアプリケーションソフトウェア開発の機会と、データ単位あたりの電力効率の向上とを両立させた技術プラットフォームは、依然として望ましいが、欠けている解決策である。

概要
シート生成部回路が記載される。シート生成部は、画像データのフレームから複数の行のデータを含む画像データのライングループを受け取るための電子回路系を含む。複数の行は、複数の近隣の重なり合うステンシルを包含するよう数が十分である。電子回路系はライングループをより小さなサイズにされたシートに解析する。電子回路系はプロセッサのアレイに結合される二次元シフトアレイ構造を有するデータ計算ユニットにシートをロードする。

画像データのフレームから複数の行のデータを含む画像データのライングループを受け取るための手段を有する装置が記載される。複数の行は、複数の近隣の重なり合うステンシルを包含するよう数が十分である。装置は、ライングループをより小さなサイズにされ
たシートに解析するための手段も含む。装置は、プロセッサのアレイに結合される二次元シフトアレイ構造にシートをロードするための手段も含む。装置は、プロセッサのアレイ上でプログラムコードを実行して、複数の近隣の重なり合うステンシルをシートについて処理するための手段も含む。

図面のリスト
以下の説明および添付の図面は、本発明の実施形態を例示するために使用される。

画像プロセッサハードウェアアーキテクチャの実施形態を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。ステンシルプロセッサの実施形態を示す。ステンシルプロセッサの命令ワードの実施形態を示す図である。ステンシルプロセッサ内のデータ計算ユニットの一実施形態を示す図である。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。統合された実行レーンアレイおよび二次元シフトアレイのための単位セルの実施形態を示す図である。シート生成部によって実行される第１の動作に関する。シート生成部によって実行される第２の動作に関する。シート生成部によって実行される第３の動作に関する。シート生成部によって実行される第４の動作に関する。シート生成部によって実行される第５の動作に関する。シート生成部によって実行される第６の動作に関する。シート生成部の実施形態を示す。コンピューティングシステムの実施形態を示す。

詳細な記載
ａ．画像プロセッサハードウェアアーキテクチャおよび動作
図１は、ハードウェアで実現される画像プロセッサのためのアーキテクチャ１００の実施形態を示す。画像プロセッサは、例えば、シミュレートされた環境内で仮想プロセッサ用に書かれたプログラムコードを、ハードウェアプロセッサによって実際に実行されるプログラムコードに変換するコンパイラによって対象とされてもよい。図１に示すように、アーキテクチャ１００は、複数のラインバッファユニット１０１＿１〜１０１＿Ｍを含み、それらは、複数のステンシルプロセッサユニット１０２＿１〜１０２＿Ｎおよび対応するシート生成部ユニット１０３＿１〜１０３＿Ｎに、ネットワーク１０４（例えば、ネットワークオンチップ（ＮＯＣ）（オンチップスイッチネットワーク、オンチップリングネットワークまたは他の種類のネットワークを含む））を介して相互接続される。一実施形態では、どのラインバッファユニットが、ネットワーク１０４を介してどのシート生成部および対応するステンシルプロセッサに接続してもよい。

一実施形態では、プログラムコードはコンパイルされ、対応するステンシルプロセッサ１０２にロードされて、ソフトウェア開発者によって以前に定義された画像処理動作を実行する（プログラムコードは、例えば、設計および実装に応じて、ステンシルプロセッサの関連のシート生成部１０３にもロードされてもよい）。少なくともいくつかの例では、画像処理パイプラインを、第１のパイプラインステージ用の第１のカーネルプログラムを第１のステンシルプロセッサ１０２＿１にロードし、第２のパイプラインステージ用の第２のカーネルプログラムを第２のステンシルプロセッサ１０２＿２にロードするなどして、実現することができ、第１のカーネルはパイプラインの第１ステージの機能を実行し、第２のカーネルはパイプラインの第２ステージの機能を実行し、追加の制御フロー方法がインストールされて、出力画像データをパイプラインの１つのステージからの次のステージに渡す。

他の構成では、画像プロセッサは、同じカーネルプログラムコードを動作させる２つ以上のステンシルプロセッサ１０２＿１，１０２＿２を有する並列マシンとして実現することができる。例えば、画像データの高密度かつ高データレートのストリームが、各々が同じ機能を実行する複数のステンシルプロセッサにわたってフレームを広げることによって処理されてもよい。

さらに他の構成では、カーネルの本質的に任意のＤＡＧのハードウェアプロセッサへのロードを、それぞれのステンシルプロセッサをそれら自身のプログラムコードのカーネルとともに構成し、適切な制御フローフックをハードウェアに構成して、出力画像をＤＡＧ設計における１つのカーネルから次のカーネルの入力に向けることによって、行なってもよい。

一般的なフローとして、画像データのフレームは、マクロＩ／Ｏユニット１０５で受信され、フレーム単位でラインバッファユニット１０１の１つ以上に渡される。特定のラインバッファユニットは、それの画像データのフレームを、「ライングループ」と呼ばれる画像データのより小さな領域に解析し、次いでライングループをネットワーク１０４を介
して特定のシート生成部に渡す。ある完全な（ｆｕｌｌ）単数のライングループを、例えば、フレームの複数の連続した完全な行または列のデータで構成することができる（簡単にするために、本明細書では主に連続した行と称する）。シート生成部は、画像データのライングループを「シート」と呼ばれる画像データのより小さな領域にさらに解析し、そのシートを対応するステンシルプロセッサに提示する。

単一入力の画像処理パイプラインやＤＡＧフローの場合、一般に、入力フレームは、同じラインバッファユニット１０１＿１に向けられ、それは、画像データをライングループに解析し、ライングループを対応するシート生成部１０３＿１（対応するステンシルプロセッサ１０２＿１はパイプライン／ＤＡＧにおいて第１のカーネルのコードを実行している）に向ける。ステンシルプロセッサ１０２＿１による、それが処理するライングループでの動作が終了した後、シート生成部１０３＿１は、出力ライングループを「下流」のラインバッファユニット１０１＿２に送信する（ある使用例では、出力ライングループは、先に入力ライングループを送信したのと同じラインバッファ装置１０１＿１に送り返すことができる）。

自身のそれぞれの他のシート生成部およびステンシルプロセッサ（例えば、シート生成部１０３＿２およびステンシルプロセッサ１０２＿２）上で実行されるパイプライン／ＤＡＧにおける次のステージ／動作を表す１つ以上の「消費側」カーネルは、下流ラインバッファユニット１０１＿２から、第１のステンシルプロセッサ１０２＿１によって生成された画像データを受信する。このようにして、第１のステンシルプロセッサ上で動作する「作成側」カーネルは、その出力データが、第２のステンシルプロセッサ上で動作する「消費側」カーネルに転送され、消費側カーネルは、パイプラインまたはＤＡＧ全体の設計と整合する作成側カーネルの後に次のタスクのセットを実行する。

ステンシルプロセッサ１０２は、画像データの複数の重なり合うステンシル上で同時に動作するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内部ハードウェア処理能力は、シートのサイズを効果的に決定する。ここでは、ステンシルプロセッサ１０２内で、実行レーンのアレイが一致して動作して、複数の重なり合うステンシルによってカバーされる画像データ表面領域を同時に処理する。

以下でより詳細に説明するように、様々な実施形態において、画像データのシートは、ステンシルプロセッサ１０２内において二次元レジスタアレイ構造にロードされる。シートおよび二次元レジスタアレイ構造の使用は、大量のデータを、大量のレジスタ空間に、例えば、処理タスクが実行レーンアレイによってその直後に直接データ上で実行される単一のロード動作として移動することによって、電力消費の改善を効果的に提供すると考えられている。さらに、実行レーンアレイおよび対応するレジスタアレイの使用は、容易にプログラマブル／設定可能な異なるステンシルサイズを提供する。

図２ａ〜図２ｅは、ラインバッファユニット１０１の解析アクティビティ、およびシート生成部ユニット１０３のより微細な粒子の解析アクティビティ、ならびにシート生成部１０３に結合されるステンシルプロセッサ１０２のステンシル処理アクティビティの両方のハイレベルの実施形態を示す。

図２ａは、画像データ２０１の入力フレームの一実施形態を示す。図２ａはまた、ステンシルプロセッサが動作するように設計された３つの重なり合うステンシル２０２（各々３ピクセル×３ピクセルの寸法を有する）の概要を示す。各ステンシルがそれぞれ出力画像データを生成する出力ピクセルは、ベタ黒で強調表示される。簡略化のために、３つの重なり合うステンシル２０２は、垂直方向にのみ重なるように示されている。実際には、ステンシルプロセッサは、垂直方向および水平方向の両方に重なるステンシルを有するよ
うに設計されてもよいことを認識することが適切である。

図２ａに見られるように、ステンシルプロセッサ内の垂直に重なり合うステンシル２０２のために、フレーム内に単一のステンシルプロセッサが動作することができる画像データの広い帯域が存在する。以下でより詳細に説明するように、一実施形態では、ステンシルプロセッサは、データを、それらの重なり合うステンシル内で、左から右への態様で、画像データにわたって処理する（そして、次のラインのセットに対して、上から下の順序で繰り返す）。このように、ステンシルプロセッサがそれらの動作を前方に進めるにつれて、ベタ黒出力ピクセルブロックの数は、水平方向に右に成長する。上述したように、ラインバッファユニット１０１は、ステンシルプロセッサが今後の拡張された数のサイクルにわたって動作するのに十分な入来フレームからの入力画像データのライングループを解析することを担う。ライングループの例示的な図示は、陰影領域２０３として示されている。一実施形態では、ラインバッファユニット１０１は、ライングループをシート生成部との間で送受信するための異なるダイナミクスを理解することができる。例えば、「完全なグループ」と呼ばれる１つのモードによれば、画像データの完全な全幅のラインが、ラインバッファユニットとシート生成部との間で渡される。「仮想的に高い」と呼ばれる第２のモードによれば、ライングループは最初に全幅行のサブセットと共に渡される。その後、残りの行は、より小さい（全幅未満の）片で順番に渡される。

入力画像データのライングループ２０３がラインバッファユニットによって画定され、シート生成部ユニットに渡されると、シート生成部ユニットはさらに、ライングループを、ステンシルプロセッサのハードウェア制限に、より正確に適合する、より微細なシートに、解析する。より具体的には、以下でさらに詳細に説明するように、一実施形態では、各ステンシルプロセッサは、二次元シフトレジスタアレイからなる。二次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「真下」にシフトし、シフトのパターンは、各実行レーンをそれ自身のステンシル内においてデータに対して動作させる（すなわち、各実行レーンは、それ自身の情報のステンシル上で処理して、そのステンシルの出力を生成する）。一実施形態では、シートは、二次元シフトレジスタアレイを「満たす」か、さもなければ二次元シフトレジスタアレイにロードされる入力画像データの表面領域である。

以下でより詳細に説明するように、様々な実施形態では、実際には、任意のサイクルでシフト可能な二次元レジスタデータの複数の層が存在する。便宜上、本記載の多くは、「二次元シフトレジスタ」などの用語を、シフト可能な二次元レジスタデータの１つ以上のそのような層を有する構造を指すために単純に使用する。

したがって、図２ｂに見られるように、シート生成部は、ライングループ２０３から最初のシート２０４を解析し、それをステンシルプロセッサに供給する（ここで、データのシートは、参照番号２０４によって全体的に識別される陰影領域に対応する）。図２ｃおよび図２ｄに示すように、ステンシルプロセッサは、重なるステンシル２０２をシート上で左から右へ効果的に移動させることによって、入力画像データのシートに対して動作する。図２ｄのように、シート内のデータから出力値を計算することができるピクセル数が使い果たされる（他のピクセル位置は、シート内の情報から決定される出力値を有することができない）。簡単にするために、画像の境界領域は無視されている。

図２ｅにおいて見られるように、シート生成部は次いで、ステンシルプロセッサが動作を継続する次のシート２０５を提供する。ステンシルが次のシートに対して動作を開始するときのステンシルの初期位置は、（先に図２ｄに示されている）最初のシート上の消耗点から右への次の進行であることに留意されたい。新たなシート２０５で、ステンシルプロセッサが最初のシートの処理と同じ態様で新たなシートに対して動作するにつれ、ステ
ンシルは単に右に移動し続ける。

出力ピクセル位置を取り囲むステンシルの境界領域のために、第１のシート２０４のデータと第２のシート２０５のデータとの間にいくらかの重なりがあることに留意されたい。重なりは、シート生成部が重なり合うデータを２回再送信することによって簡単に処理することができる。別の実現例では、次のシートをステンシルプロセッサに供給するために、シート生成部は、ステンシルプロセッサに新たなデータを送るだけに進んでもよく、ステンシルプロセッサは、前のシートからの重なり合うデータを再利用する。

ｂ．ステンシルプロセッサ設計および動作
図３ａは、ステンシルプロセッサ３００の実施形態を示す。図３ａにおいて見られるように、ステンシルプロセッサは、データ計算ユニット３０１、スカラープロセッサ３０２および関連するメモリ３０３およびＩ／Ｏユニット３０４を含む。データ計算ユニット３０１は、実行レーンのアレイ３０５、二次元シフトアレイ構造３０６、およびアレイの特定の行または列に関連する別個のランダムアクセスメモリ３０７を含む。

Ｉ／Ｏユニット３０４は、シート生成部から受け取ったデータの「入力」シートをデータ計算ユニット３０１にロードし、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、データ計算ユニット３０１へのシートデータのロードは、受け取ったシートを画像データの行／列に解析し、画像データの行／列を二次元シフトレジスタ構造３０６または実行レーンアレイの行／列のそれぞれのランダムアクセスメモリ３０７にロードすることを必要とする（以下でより詳細に説明する）。シートが最初にメモリ３０７にロードされる場合、実行レーンアレイ３０５内の個々の実行レーンは、適宜、ランダムアクセスメモリ３０７からシートデータを二次元シフトレジスタ構造３０６にロードすることができる（例えば、シートのデータ上での動作のすぐ前のロード命令として）。データのシートのレジスタ構造３０６へのロード（シート生成部からの直接的であろうとまたはメモリ３０７からであろうと）が完了すると、実行レーンアレイ３０５の実行レーンはデータに対して動作し、最終的に、完成したデータをシートとしてシート生成部に、またはランダムアクセスメモリ３０７に「書き戻す」。後者の場合、Ｉ／Ｏユニット３０４はランダムアクセスメモリ３０７からデータをフェッチして出力シートを形成し、出力シートはシート生成部に転送される。

スカラープロセッサ３０２は、スカラーメモリ３０３からステンシルプロセッサのプログラムコードの命令を読み出し、実行レーンアレイ３０５の実行レーンに命令を発行するプログラムコントローラ３０９を含む。一実施形態では、データ計算ユニット３０１からＳＩＭＤのような動作を実行するために、単一の同じ命令がアレイ３０５内のすべての実行レーンにブロードキャストされる。一実施形態では、スカラーメモリ３０３から読み出され、実行レーンアレイ３０５の実行レーンに発行される命令の命令フォーマットは、命令当たり２つ以上のオペコードを含む非常に長い命令語（ＶＬＩＷ）タイプのフォーマットを含む。さらなる実施形態では、ＶＬＩＷフォーマットは、（以下に説明するように、一実施形態では２つ以上の従来のＡＬＵ動作を指定することができる）各実行レーンのＡＬＵによって実行される数学的機能を指示するＡＬＵオペコードと、（特定の実行レーンまたは実行レーンのセットに対してメモリ操作を指示する）メモリオペコードとの両方を含む。

「実行レーン」という用語は、命令を実行することができる１つ以上の実行ユニットのセット（例えば、命令を実行することができる論理回路系）を指す。実行レーンは、しかしながら、様々な実施形態では、単なる実行ユニットを超えた、よりプロセッサに似た機能を含むことができる。例えば、１つ以上の実行ユニットに加えて、実行レーンは、受信された命令をデコードする論理回路系、または、よりＭＩＭＤのような設計の場合、命令
をフェッチおよびデコードする論理回路系を含むことができる。ＭＩＭＤのようなアプローチに関しては、ここでは集中プログラム制御アプローチが主に記載されているが、より分散型のアプローチが様々な代替実施形態（例えば、アレイ３０５の各実行レーン内のプログラムコードおよびプログラムコントローラを含む）において実施されてもよい。

実行レーンアレイ３０５、プログラムコントローラ３０９および二次元シフトレジスタ構造３０６の組み合わせは、広範囲のプログラマブルな機能のための幅広く適応可能／設定可能なハードウェアプラットフォームを提供する。例えば、アプリケーションソフトウェア開発者は、個々の実行レーンが多種多様な機能を実行することができ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスすることができれば、寸法（例えばステンシルサイズ）だけでなく幅広い異なる機能能力を有するカーネルをプログラミングすることができる。

実行レーンアレイ３０５によって操作される画像データのためのデータ記憶装置として機能することとは別に、ランダムアクセスメモリ３０７は、１つ以上のルックアップテーブルを保持することもできる。様々な実施形態では、１つ以上のスカラールックアップテーブルをスカラーメモリ３０３内でインスタンス化することもできる。

スカラールックアップは、同じルックアップテーブルからの同じインデックスからの同じデータ値を実行レーンアレイ３０５内の各実行レーンに渡すことを含む。様々な実施形態では、上述のＶＬＩＷ命令フォーマットは、スカラープロセッサによって実行されるルックアップ動作をスカラールックアップテーブルに向けるスカラーオペコードを含むようにも拡張される。オペコードとともに使用するために指定されたインデックスは、即値オペランドでもよいし、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルからのルックアップは、基本的に同じクロックサイクル中に実行レーンアレイ３０５内のすべての実行レーンに同じデータ値をブロードキャストすることを含む。ルックアップテーブルの使用および動作に関する追加の詳細は、以下でさらに説明する。

図３ｂは、上述のＶＬＩＷ命令ワードの実施形態を要約したものである。図３ｂにおいて見られるように、ＶＬＩＷ命令ワードフォーマットは、３つの別個の命令、すなわち、１）スカラープロセッサによって実行されるスカラー命令３５１、２）実行レーンアレイ内でそれぞれのＡＬＵによってＳＩＭＤ方式でブロードキャストされ実行されるＡＬＵ命令３５２、および３）部分的ＳＩＭＤ方式でブロードキャストされ実行されるメモリ命令３５３に対するフィールドを含む（例えば、実行レーンアレイ内において同じ行に沿った実行レーンが同じランダムアクセスメモリを共有する場合、異なる行の各々からの１つの実行レーンが実際に命令を実行する（メモリ命令３５３のフォーマットは、各行からのどの実行レーンが命令を実行するかを識別するオペランドを含むことができる）。

１つ以上の即時オペランドに対するフィールド３５４も含まれる。命令３５１，３５２，３５３のどれが、どの即時オペランド情報を用いるかは命令フォーマットで識別されてもよい。命令３５１，３５２，３５３の各々は、また、それら自身のそれぞれの入力オペランドおよび結果情報（例えば、ＡＬＵ演算用のローカルレジスタならびにメモリアクセス命令用のローカルレジスタおよびメモリアドレス）を含む。一実施形態では、スカラー命令３５１は、実行レーンアレイ内の実行レーンが他の２つの命令３５２，３５３のいずれかを実行する前にスカラープロセッサによって実行される。すなわち、ＶＬＩＷワードの実行は、スカラー命令３５１が実行される第１のサイクルと、続いて他の命令３５２，３５３が実行されてもよい第２のサイクルとを含む。（様々な実施形態では、命令３５２，３５３は並列して実行されてもよい）。

一実施形態では、スカラープロセッサによって実行されるスカラー命令は、シートをデータ計算ユニットのメモリもしくは２Ｄシフトレジスタからロードまたはそれに格納するようシート生成部に発行されるコマンドを含む。ここで、シート生成部の動作は、ラインバッファユニットの動作またはスカラープロセッサによって発行されたコマンドをシート生成部が完了するのに要するサイクル数のプレランタイムの理解を妨げる他の変数に依存し得る。したがって、一実施形態では、スカラー命令３５１がシート生成部に発行されるべきコマンドに対応するか、さもなければコマンドをシート生成部に発行させるＶＬＩＷワードは、他の２つの命令フィールド３５２，３５３に無操作（ＮＯＯＰ）命令を含む。次に、プログラムコードは、シート生成部がデータ計算ユニットに対するそのロードまたはデータ計算ユニットからのその格納を完了するまで、命令フィールド３５２，３５３についてＮＯＯＰ命令のループに入る。ここで、シート生成部にコマンドを発行すると、スカラープロセッサは、シート生成部がコマンドの完了時にリセットするインターロックレジスタのビットをセットしてもよい。ＮＯＯＰループの間、スカラープロセッサはインターロックビットのビットを監視する。スカラープロセッサが、シート生成部がそのコマンドを完了したことを検出すると、通常の実行が再び開始される。

図４は、データ計算コンポーネント４０１の一実施形態を示す。図４において見られるように、データ計算コンポーネント４０１は、二次元シフトレジスタアレイ構造４０６「の上に」論理的に位置決めされる実行レーンのアレイ４０５を含む。上述したように、様々な実施形態では、シート生成部によって提供される画像データのシートが二次元シフトレジスタ４０６にロードされる。実行レーンは、レジスタ構造４０６からのシートデータに対して動作する。

実行レーンアレイ４０５およびシフトレジスタ構造４０６は、互いに対して適所に固定される。しかし、シフトレジスタアレイ４０６内のデータは、戦略的かつ調整された態様でシフトして、実行レーンアレイ内の各実行レーンがデータ内で異なるステンシルを処理するようにする。したがって、各実行レーンは、生成されている出力シートにおいて異なるピクセルに対する出力画像値を決定する。図４のアーキテクチャから、実行レーンアレイ４０５が垂直に近接する実行レーンおよび水平に近接する実行レーンを含むので、重なり合うステンシルが垂直に配置されるだけでなく水平にも配置されることは明らかである。

データ計算ユニット４０１のいくつかの注目すべきアーキテクチャ上の特徴には、実行レーンアレイ４０５よりも広い寸法を有するシフトレジスタ構造４０６が含まれる。すなわち、実行レーンアレイ４０５の外側にレジスタ４０９の「ハロー」が存在する。ハロー４０９は、実行レーンアレイの２つの側に存在するように示されているが、実現例に応じて、実行レーンアレイ４０５の２つ未満（１つ）またはそれ以上（３つまたは４つ）の側に存在してもよい。ハロー４０５は、データが実行レーン４０５の「下で」シフトしているときに、実行レーンアレイ４０５の境界の外側にこぼれ出るデータのための「スピルオーバ」空間を提供する働きをする。単純なケースとして、実行レーンアレイ４０５の右端を中心とする５×５のステンシルは、ステンシルの最も左側のピクセルが処理されるとき、さらに右側に４つのハローレジスタ位置を必要とすることになる。図面を簡単にするために、図４は、名目上の実施例において、どちらの側（右、底）のレジスタでも水平方向接続および垂直方向接続の両方を有するであろうとき、ハローの右側のレジスタを、水平方向シフト接続を有するだけとして、およびハローの底側のレジスタを、垂直方向シフト接続を有するだけとして示す。

アレイの各行および／もしくは各列またはその一部分に結合されるランダムアクセスメモリ４０７によって追加のスピルオーバールームが提供される（例えば、ランダムアクセスメモリは、４つの実行レーン行状と２つの実行レーン列状にまたがる実行レーンアレイ
の「領域」に割り当てられてもよい。簡略化のために、アプリケーションの残りの部分は、主に、行および／または列に基づく割り当てスキームを指す）。ここで、実行レーンのカーネル動作が、それが（一部の画像処理ルーチンが必要とする場合がある）二次元シフトレジスタアレイ４０６の外にあるピクセル値を処理することを必要とする場合、画像データの面は、ハロー領域４０９からランダムアクセスメモリ４０７にさらにこぼれ出ることができる。例えば、ハードウェアが実行レーンアレイの右端の実行レーンの右側にわずか４つの記憶素子のハロー領域を含む場合の６Ｘ６ステンシルを考える。この場合、ステンシルを完全に処理するために、データをハロー４０９の右端からさらに右側にシフトする必要があるであろう。ハロー領域４０９の外側にシフトされたデータは、ランダムアクセスメモリ４０７にこぼれ出る。ランダムアクセスメモリ４０７および図３のステンシルプロセッサの他の適用例を以下でさらに説明する。

図５ａないし図５ｋは、上述のように実行レーンアレイ「の下で」二次元シフトレジスタアレイ内で画像データがシフトされる態様の実施例を示す。図５ａにおいて見られるように、二次元シフトアレイのデータ内容は第１のアレイ５０７に示され、実行レーンアレイはフレーム５０５によって示される。また、実行レーンアレイ内の２つの近隣の実行レーン５１０が簡略化して示されている。この簡単な図示５１０では、各実行レーンは、シフトレジスタからデータを受け付け、ＡＬＵ出力からデータを受け付け（例えば、サイクルにわたってアキュムレータとして動作する）、または出力データを出力先に書き込むことができるレジスタＲ１を含む。

各実行レーンはまた、ローカルレジスタＲ２において、二次元シフトアレイにおけるそれ「の下の」内容が利用可能である。したがって、Ｒ１は実行レーンの物理レジスタであり、Ｒ２は二次元シフトレジスタアレイの物理レジスタである。実行レーンは、Ｒ１および／またはＲ２によって提供されるオペランドに対して動作可能なＡＬＵを含む。さらに詳細に後述するように、一実施形態では、シフトレジスタは、実際にはアレイ位置ごとに複数の（ある「深さ」の）記憶／レジスタ素子で実現されるが、シフト動作は記憶素子の１つの面に限られる（例えば、記憶素子の１つの面のみがサイクルごとにシフトすることができる）。図５ａないし図５ｋは、それぞれの実行レーンから結果のＸを格納するために使用されるとしてこれらのより深いレジスタ位置の１つを示している。例示を容易にするために、より深い結果のレジスタは、その対応するレジスタＲ２の下ではなく、その横に図示されている。

図５ａ〜図５ｋは、実行レーンアレイ内に示された実行レーン位置５１１の対に中心位置が整列された２つのステンシルの計算に焦点を当てている。例示を容易にするために、実行レーン５１０の対は、実際には、以下の例によれば、それらが垂直方向の近隣実行レーンである場合に、水平方向の近隣実行レーンとして図示されている。

図５ａで最初に見られるように、実行レーンはそれらの中央のステンシル位置上に中心を配される。図５ｂは、両方の実行レーンによって実行されるオブジェクトコードを示す。図５ｂにおいて見られるように、両方の実行レーンのプログラムコードは、シフトレジスタアレイ内のデータを、１つの位置だけ下にシフトさせ、１つの位置だけ右にシフトさせる。これにより、両方の実行レーンがそれらのそれぞれのステンシルの左上隅に整列される。次に、プログラムコードは、（Ｒ２において）それらのそれぞれの位置にあるデータをＲ１にロードさせる。

図５ｃに示すように、次にプログラムコードは、実行レーンの対に、シフトレジスタアレイ内のデータを１単位だけ左にシフトさせ、各実行レーンのそれぞれの位置の右の値を各実行レーンの位置にシフトさせる。Ｒ１の値（以前の値）は、次いで、（Ｒ２における）実行レーンの位置にシフトした新しい値とともに加算される。結果はＲ１に書き込まれ
る。図５ｄで見られるように、図５ｃについて上述したのと同じプロセスが繰り返され、結果のＲ１に対して、今度は上側実行レーンにおける値Ａ＋Ｂ＋Ｃ、および下側実行レーンにおけるＦ＋Ｇ＋Ｈ値を含ませるようにする。この時点で、両方の実行レーンはそれらのそれぞれのステンシルの上側の行を処理している。（左側に存在する場合には）実行レーンアレイの左側でハロー領域に、またはハロー領域が存在しない場合にはランダムアクセスメモリにこぼれ出ることは、実行レーンアレイの左側には存在しないことに注目されたい。

図５ｅに示すように、次に、プログラムコードは、シフトレジスタアレイ内のデータを１単位だけ上にシフトさせ、両方の実行レーンをそれらのそれぞれのステンシルの中間行の右端に整列される。両方の実行レーンのレジスタＲ１は、現在、ステンシルの最上行および中間行の一番右の値の合計を含む。図５ｆおよび図５ｇは、両方の実行レーンのステンシルの中間行にわたって左方向に移動する継続的な進行を示す。累積加算は、図５ｇの処理の終了時に、両方の実行レーンがそれらのそれぞれのステンシルの最上行の値と中間行の値との合計を含むように、継続する。

図５ｈは、各実行レーンをそれの対応するステンシルの最下行に整列させる別のシフトを示す。図５ｉおよび図５ｊは、両方の実行レーンのステンシルの過程にわたって処理を完了するための継続的なシフトを示す。図５ｋは、各実行レーンをデータアレイにおいてそれの正しい位置に整列させ、その結果をそこに書き込むための追加のシフトを示す。

図５ａ〜図５ｋの例では、シフト動作のためのオブジェクトコードは、（Ｘ、Ｙ）座標で表されるシフトの方向および大きさを識別する命令フォーマットを含むことができることに留意されたい。例えば、１つの位置分の上方向シフトのためのオブジェクトコードは、オブジェクトコードでＳＨＩＦＴ０，＋１として表現されてもよい。別の例として、１つの位置分の右方向へのシフトは、オブジェクトコードでＳＨＩＦＴ＋１，０として表現されてもよい。様々な実施形態では、より大きい大きさのシフトも、オブジェクトコードで指定することができる（例えば、シフト０，＋２）。ここで、２Ｄシフトレジスタハードウェアが１サイクルにつき１つの位置だけしかシフトをサポートしない場合、命令は機械によって複数のサイクル実行を要求するように解釈されてもよく、または２Ｄシフトレジスタハードウェアは、１サイクルにつき２つ以上の位置分シフトをサポートするように設計されてもよい。後者の実施形態はより詳細にさらに下に記載される。

図６ａは、アレイ実行レーンおよびシフトレジスタ構造の単位セルの別のより詳細な図を示す（ハロー領域のレジスタは、対応する実行レーンを含まない）。実行レーンおよび実行レーンアレイの各位置に関連するレジスタ空間は、一実施形態では、実行レーンアレイの各ノードで、図６ａに示す回路系をインスタンス化することによって実施される。図６ａに示すように、単位セルは、４つのレジスタＲ２〜Ｒ５からなるレジスタファイル６０２に結合される実行レーン６０１を含む。任意のサイクルの間、実行レーン６０１は、レジスタＲ１〜Ｒ５のいずれかから読み書きすることができる。２つの入力オペランドを必要とする命令の場合、実行レーンはＲ１〜Ｒ５のいずれかからオペランドの両方を取り出すことができる。

一実施形態では、二次元シフトレジスタ構造は、近隣のレジスタファイル間のシフトが同じ方向にあるように（例えば、すべての実行レーンは左にシフトする、すべての実行レーンは右にシフトするなど）、それの近隣のレジスタファイルが入力マルチプレクサ６０４を介する場合に、単一のサイクルの間に、レジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が、出力マルチプレクサ６０３を介してその近隣のレジスタファイルの１つにシフト「アウト」され、対応するものからシフト「イン」される内容でレジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が置き換えられることによって、実現される。同じレジスタ
がその内容がシフトアウトされて同じサイクルでシフトインされる内容で置き換えられるのが一般的であるかもしれないが、マルチプレクサ構成６０３，６０４は、同じサイクル中に同じレジスタファイル内で異なるシフトソースおよびシフトターゲットレジスタを可能にする。

図６ａに示すように、シフトシーケンスの間、実行レーンは、内容をそのレジスタファイル６０２からその左、右、上および下の近隣のレジスタファイルにシフトアウトする。同じシフトシーケンスと関連して、実行レーンは、さらに、内容をその左、右、上および下の近隣のレジスタファイルの特定のものからそれのレジスタファイルにシフトする。再び、シフトアウトターゲットおよびシフトインソースは、すべての実行レーンについて同じシフト方向と整合しなければならない（例えば、シフトアウトが右隣に対する場合、シフトインは左隣からでなければならない）。

一実施形態では、１サイクルにつき１つの実行レーンにつき１つのレジスタの内容だけをシフトすることが許されるが、他の実施形態では、２つ以上のレジスタの内容をシフトイン／アウトすることが許されてもよい。例えば、図６ａに示されたマルチプレクサ回路系６０３，６０４の第２の例が図６ａの設計に組み込まれる場合、同じサイクルの間に２つのレジスタの内容がシフトアウト／インされてもよい。もちろん、１つのレジスタの内容だけがサイクルごとにシフトされることが許される実施形態では、数学的演算間のシフトのためにより多くのクロックサイクルを消費することによって、複数のレジスタからのシフトが数学的演算間に起こってもよい（例えば、２つのレジスタの内容が、数学的演算間で２つのシフト演算を消費することによって数学的演算間でシフトされてもよい）。

実行レーンのレジスタファイルのすべての内容未満がシフトシーケンス中にシフトアウトされる場合、各実行レーンのシフトアウトされないレジスタの内容は適所に残る（シフトしない）ことに留意されたい。したがって、シフトインされる内容と置き換えられないシフトされない内容は、シフトサイクルにわたって実行レーンにローカルに維持される。各実行レーンで見られるメモリユニット（「Ｍ」）は、データを、実行レーンアレイ内の実行レーンの行および／または列に関連付けられるランダムアクセスメモリ空間からロードまたはそれに格納するために使用される。ここで、Ｍユニットは、実行レーンの自身のレジスタ空間からロードまたはそれに格納できないデータをロード／格納するためによく使用されるという点で、標準的なＭユニットとして機能する。様々な実施形態では、Ｍユニットの主な動作は、ローカルレジスタからメモリにデータを書き込み、メモリからデータを読み出してそれをローカルレジスタに書き込むことである。

ハードウェア実行レーン６０１のＡＬＵユニットによってサポートされるＩＳＡオペコードに関して、様々な実施形態において、ハードウェアＡＬＵによってサポートされる数学的オペコードは、仮想実行レーンによってサポートされる数学的オペコード（例えば、ＡＤＤ、ＳＵＢ、ＭＯＶ、ＭＵＬ、ＭＡＤ、ＡＢＳ、ＤＩＶ、ＳＨＬ、ＳＨＲ、ＭＩＮ／ＭＡＸ、ＳＥＬ、ＡＮＤ、ＯＲ、ＸＯＲ、ＮＯＴ）と一体的に結び付けられる（例えば実質的に同じである）。上述のように、メモリアクセス命令は、実行レーン６０１によって実行され、データをそれらの関連付けられるランダムアクセスメモリからフェッチまたはそれに格納することができる。さらに、ハードウェア実行レーン６０１は、シフト演算命令（右、左、上、下）をサポートし、二次元シフトレジスタ構造内でデータをシフトする。上述したように、プログラム制御命令は主にステンシルプロセッサのスカラープロセッサによって実行される。

ｃ．シート生成部動作および設計
図７〜図１２は、シート生成部の特別な考察および／または動作に関する。上述したように、シート生成部は、対応するステンシルプロセッサによる処理のために情報のシート
を生成する役割を担う。プロセッサ全体の設計に幅広い汎用性／プログラマビリティを課すために、シート生成部は、ある状況では、受け取られたライングループから適切なセクションを解析するだけでなく、入力シートを準備する際に追加の動作を実行する必要があり得る。

例えば、ある場合には、プログラムコードは、同じ画像の複数のチャネルを同時に処理することを要求する。例えば、多くのビデオ画像は、赤（Ｒ）チャンネル、青（Ｂ）チャンネルおよび緑（Ｇ）チャンネルを有する。一実施形態では、シート生成部は、関連のメモリを有するプロセッサおよびそのメモリから実行されるプログラムコードとともに実現される。

図７において見られるように、アプリケーションソフトウェアからの、カーネルが異なるチャネル（コンパイラから示唆されている可能性がある）からデータを同時に処理する必要性に応答して、シート生成部によって実行されるプログラムコードは、異なる「面」に沿って別々のシートを形成し（すなわち、各チャネルから異なるシートを形成し）、それらを一緒にデータ計算ユニットにロードすることに進む。すなわち、シート生成部は、アレイの同じ部分についてＲシート、ＢシートおよびＧシートを生成し、３つのシートすべてを計算ユニットにロードする。実行レーンアレイ内の実行レーンは、次いで、必要に応じて（例えば、Ｒシートをレジスタファイルの１つの層に、Ｇシートをレジスタファイルの別の層に、Ｂシートをレジスタファイルのさらに別の層に格納することによって）Ｒ、Ｇ、およびＢシート上で自由に動作することができる。

図８は、多次元入力画像のためのシート生成に関する。ここでは、多くの入力画像が単純なアレイの形式にあるが、場合によっては、アレイの各位置が多次元データ構成に対応する。例示的な例として、図８は、各アレイ位置が３×３×３立方の異なるセグメントに対応する２７個の異なる値を含む画像を示す。ここで、各アレイ位置が多次元データ構成を有する場合、シート生成部は入力アレイを「展開」して、各データ構成次元について別々のシートを形成する。したがって、図８に見られるように、シート生成部は、すべてのシートにわたる各シートの各アレイ位置がスカラー値（１つの立方セグメント）を含む２７枚のシート（各立方セグメントごとに１枚）を生成する。２７枚のシートは、次いで、ステンシルプロセッサにロードされる。実行レーンアレイ内の実行レーンによって実行されるプログラムコードは、次いで、多次元入力アレイが展開された態様を理解して２７枚のシートに対して動作する。

図９は、実行レーンアレイ内の実行レーンが異なるデータビット幅を処理することを可能にするために使用される技術に関する。ここで、当技術分野で理解されているように、より大きなダイナミックレンジが、データ値のビット幅を増加させることによって達成される（１６ビット値は、８ビット値より大きいダイナミックレンジで値を表現することができる）。一実施形態では、ステンシルプロセッサは、８、１６、または３２ビットピクセル値のような異なるビット幅を有する画像に対して動作することが期待される。したがって、１つのアプローチによれば、実行レーンそれら自体は、３２ビットオペランドを内部で処理できるという意味で、３２ビットマシンである。

しかし、二次元シフトレジスタのサイズおよび複雑さを低減するために、各実行レーンのレジスタファイル内のレジスタの個々の記憶素子は８ビットに制限される。８ビットの画像データの場合には、データのシート全体がレジスタファイルの１つのレジスタに収まり得るので問題はない。対照的に、１６または３２ビットオペランドの場合、シート生成部は、入力オペランドデータセットを適切に表現するために複数のシートを生成する。

例えば、図９に示すように、１６ビットの入力オペランドの場合、シート生成部は、Ｈ
Ｉ半シートおよびＬＯ半シートを生成する。ＨＩ半シートは、正しいアレイ位置において各データ項目の上位８ビットを含む。ＬＯ半シートは、正しいアレイ位置において各データ項目の下位８ビットを含む。次いで、両方のシートをステンシルプロセッサにロードし、１６ビット演算が行われることを実行レーンハードウェアに（例えば、プログラムコードの即値を介して）通知することによって、１６ビット演算が実行される。ここでは、ほんの１つの可能な動作モードとして、ＨＩシートおよびＬＯシートの両方が、各実行レーンレジスタファイルの２つの異なるレジスタにロードされる。

実行レーンユニットは、最初にレジスタファイル位置の１つから読み出し、その中のデータを別のレジスタファイル位置から読み出されたデータで付加することにより、正しいオペランドを内部的に構築することができる。同様に、書込方向では、実行レーンユニットは２つの書込を実行しなくてはならない。具体的には、ＬＯシートを含むレジスタファイルの第１のレジスタへの下位８ビットの第１の書込と、ＨＩシートを含むレジスタファイルの第２のレジスタへの上位８ビットの第２の書込とを行う。

図１２の考察から、様々な実施形態のシフトでは、１つのレジスタのみの内容がサイクルごとにシフトされることが許可されることを思い出されたい。このように、二次元シフトレジスタ構造の周りで１６ビットデータ値を移動させるためには、８ビットデータ値の場合における１サイクルではなく、（演算間で）シフトシーケンスにつき２サイクルが消費される。つまり、８ビットのデータ値の公称の場合では、すべてのデータを位置間で１サイクルでシフトすることができる。対照的に、１６ビットのデータ値の場合には、２つの８ビット値がシフトレジスタシフト動作ごとにシフトされなければならない（ＨＩ半シートおよびＬＯ半シート）。一実施形態では、３２ビットの場合、画像データ全体を表すために２つのシートではなく４つのシートが作成される以外は、同じ原理が適用される。同様に、シフトシーケンスごとに４サイクルも消費する必要があり得る。

図１０は、画像プロセッサが入力画像データをより低密度の解像度からより高密度の解像度に「アップサンプリング」する状況に関係する。ここで、ステンシルプロセッサは、入力画像が含むよりも、画像の単位面積当たり、より多くの出力値を生成することを担う。シート生成部は、シートデータ値密度がアップサンプリングされた（より高密度の）出力画像に対応するようにシートにわたって同じデータ値を繰り返すことによって、アップサンプリングの問題を処理する。すなわち、例えば、図１０に示すように、入力された画像の密度を考慮して、出力実行レーンアレイ密度が４：１のアップサンプリングに対応する場合（入力ピクセルごとに４つの出力ピクセル）、シート生成部は、入力値ごとに４つの同じ値でシートを製造する。

図１１は、「ダウンサンプリング」の状況に関する。ダウンサンプリングの場合、シート生成部は、より低い密度の入力画像に対してよりも多くのシートを生成する。具体的には、入力画像が、１つの（例えば、Ｘ）方向においてＳのより高い解像度のファクタと、他の（例えば、Ｙ）方向においてＴのより高い解像度のファクタとを有する場合、シート生成部は初期のより密な初期シートからＳ＊Ｔシートを生成する。これは、より多くの入力ピクセルを任意の特定の出力ピクセルに効果的に割り当てる。

図１２は、実行レーンアレイ内の実行レーンによって実行される数学的演算が、二次元シフトレジスタ構造のサイズよりも大きい画像データの表面積を必要とする状況に関連する。図１２に示すように、処理のために二次元シフトレジスタ構造にロードされるシートは、入力フレームの陰影付き領域１２０１に対応する。しかしながら、陰影付き領域内のアレイ位置に対する出力値を計算する数学的演算は、図１２で見られる破線の境界線１２０２によって境界付けられるフレーム内の値を必要とする。したがって、二次元シフトレジスタ構造の表面積の外側に演算に含まれる大きな「サポート領域」が存在する。

これらの条件下では、シート生成部は、陰影付き領域１２０１に対応するシートをステンシルプロセッサにロードするだけでなく、３つの（陰影なし）の近隣シートもデータ計算ユニットにロードする。実行レーンによって実行されるプログラムコードは、必要に応じてシートをランダムアクセスメモリに呼び込み、およびそれから移動し、ならびに／またはシートの一部または全部を二次元シフトレジスタアレイのより深いレジスタに格納する。

図１３は、シート生成部のためのハードウェア設計１３００の実施形態を提供する。図１３で見られるように、一実施形態では、シート生成部は、メモリ１３０２に格納されたプログラムコードを実行して、図７〜図１２に関して上に記載されたタスクのいずれかなどのシート生成部タスクを実行するプロセッサ／コントローラ１３０１を有するコンピューティングシステムとして実装される。また、シート生成部は、ネットワークとの間でライングループを送受信し、シート生成部の関連するステンシルプロセッサとの間でシートを送受信するためのＩ／Ｏユニット１３０３を含む。

シート生成部の関連する特徴は、（図１３に示されるように）シート生成部内、プロセッサ／コントローラ１３０１内、および／またはメモリ１３０２内で別個のレジスタ空間として実施され得るその構成空間１３０４である。構成空間１３０４は、プラットフォーム全体の幅広い適応性およびプログラマビリティに役立つ。ここで、構成空間１３０４内で行われる設定は、例えば、フレームサイズ、ライングループサイズ、シートサイズ、入力画像ピクセル解像度、出力画像ピクセル解像度などの関連の画像特徴および寸法を含んでもよい。次に、メモリ１３０２内のプログラムコードは、構成空間内の情報を入力変数として使用して、正しくサイズ決めされたシート等に対する正しい操作を行う。

代替的に、またはある組み合わせでは、特定のアプリケーションおよび／または画像寸法についてメモリ１３０２にカスタムプログラムコードをロードすることによって、プラットフォーム全体の幅広い適応性およびプログラマビリティを実現することができる。ここで、例えば、コンパイラは、位置相対的アドレス指定方式のＸ、Ｙ座標、ならびに／またはフレームサイズおよびライングループサイズのいずれかを簡単に参照して、シートサイズ、シート境界などを容易に決定し、汎用プログラムコードテンプレートを手元の画像処理タスクに特有のソフトウェアプログラムにカスタマイズしてもよい。同様に、相対的な位置決めまたは他の画像寸法の任意のそのような変換および実際の使用を、シート生成部上に存在するプログラムコードがシート境界、シートサイズなどを決定する構成空間１３０４に入れてもよい。

ｄ．実現例の実施形態
上述した様々な画像プロセッサアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限定されず、したがって、画像プロセッサを再特徴付けしてもよい（またはしなくてもよい）他のアプリケーションに適用することができることを指摘することが適切である。例えば、実際のカメラ画像の処理とは対照的に、アニメーションの作成および／または生成および／またはレンダリングにおいて上述した様々な画像プロセッサアーキテクチャの特徴のいずれかが使用される場合、画像プロセッサはグラフィックス処理ユニットとして徳経づけられてもよい。さらに、上述した画像プロセッサアーキテクチャの特徴は、ビデオ処理、視覚処理、画像認識および／または機械学習などの他の技術的用途にも適用することができる。このように適用されて、画像プロセッサは、より汎用的なプロセッサ（例えば、コンピューティングシステムのＣＰＵの一部であるか、またはその一部である）と（例えばコプロセッサとして）一体化されてもよく、またはコンピューティングシステム内のスタンドアロンプロセッサであってもよい。

上述したハードウェア設計の実施形態は、半導体チップ内において、および／または最終的に半導体製造プロセスに向けての回路設計の記述として実施することができる。後者の場合、そのような回路記述は、より高い／挙動レベルの回路記述（例えばＶＨＤＬ記述）もしくはより低いレベルの回路記述（例えばレジスタ転送レベル（ＲＴＬ）記述、トランジスタレベル記述もしくはマスク記述）またはそれらの様々な組み合わせの形態をとってもよい。回路記述は、典型的には、コンピュータ可読記憶媒体（例えばＣＤ−ＲＯＭまたは他のタイプの記憶技術）上に実施される。

先のセクションから、上記の画像プロセッサは、（例えば、ハンドヘルド装置のカメラからのデータを処理するハンドヘルド装置のシステムオンチップ（ＳＯＣ）の一部として）コンピュータシステム上のハードウェアで実施できることを認識することに関係する。画像プロセッサがハードウェア回路として実施される場合、画像プロセッサによって処理される画像データはカメラから直接受信されてもよいことに留意されたい。ここで、画像プロセッサは、別体のカメラの一部であってもよいし、一体化されたカメラを有するコンピューティングシステムの一部であってもよい。後者の場合、画像データは、カメラから直接、またはコンピューティングシステムのシステムメモリから受信することができる（例えば、カメラは、その画像データを画像プロセッサではなくシステムメモリに送信する）。先のセクションで説明した機能の多くは、（アニメーションをレンダリングする）グラフィックスプロセッサユニットにも適用可能であることにも留意されたい。

図１４は、コンピューティングシステムの例示的な図である。以下に説明するコンピューティングシステムのコンポーネントの多くは、一体化されたカメラおよび関連する画像プロセッサ（例えば、スマートフォンまたはタブレットコンピュータなどのハンドヘルドデバイス）を有するコンピューティングシステムに適用可能である。当業者は、２つの間の範囲を容易に定めることができるであろう。

図１４に見られるように、基本的なコンピューティングシステムは、中央処理ユニット１４０１（例えば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア１４１５＿１〜１４１５＿Ｎおよびメインメモリコントローラ１４１７を含み得る）、システムメモリ１４０２、ディスプレイ１４０３（例えばタッチスクリーン、フラットパネル）、ローカル有線ポイントツーポイントリンク（例えばＵＳＢ）インタフェース１４０４、様々なネットワークＩ／Ｏ機能１４０５（イーサネット（登録商標）インタフェースおよび／またはセルラーモデムサブシステムなど）、無線ローカルエリアネットワーク（例えばＷｉＦｉ）インタフェース１４０６、ワイヤレスポイントツーポイントリンク（例えばブルートゥース（登録商標））インタフェース１４０７およびグローバルポジショニングシステムインタフェース１４０８、様々なセンサ１４０９＿１〜１４０９＿Ｎ、１つ以上のカメラ１４１０、バッテリ１４１１、電力管理制御ユニット１４１２、スピーカおよびマイクロホン１４１３、ならびに音声コーダ／デコーダ１４１４を含んでもよい。

アプリケーションプロセッサまたはマルチコアプロセッサ１４５０は、そのＣＰＵ１４０１内における１つ以上の汎用処理コア１４１５、１つ以上のグラフィカル処理ユニット１４１６、メモリ管理機能１４１７（例えばメモリコントローラ）、Ｉ／Ｏ制御機能１４１８および画像処理ユニット１４１９を含んでもよい。汎用処理コア１４１５は、典型的には、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。グラフィックス処理ユニット１４１６は、典型的には、ディスプレイ１４０３上に提示されるグラフィックス情報を生成するために、グラフィックス集中型機能を実行する。メモリ制御機能１４１７は、システムメモリ１４０２とインタフェースして、システムメモリ１４０２との間でデータの書込／読出を行う。電力管理制御ユニット１４１２は、システム１４００の電力消費を全体的に制御する。

画像処理ユニット１４１９は、先のセクションで説明した画像処理ユニットの実施形態のいずれかに従って実現することができる。代替的にまたは組み合わせて、ＩＰＵ１４１９は、ＧＰＵ１４１６およびＣＰＵ１４０１のいずれかまたは両方にそのコプロセッサとして結合されてもよい。さらに、様々な実施形態では、ＧＰＵ１４１６は、上で説明した画像プロセッサの特徴のいずれかを用いて実現することができる。

タッチスクリーンディスプレイ１４０３、通信インタフェース１４０４〜１４０７、ＧＰＳインタフェース１４０８、センサ１４０９、カメラ１４１０、およびスピーカ／マイクコーデック１４１３，１４１４の各々はすべて、適切な場合には、一体化された周辺装置（例えば１つ以上のカメラ１４１０）も含むコンピューティングシステム全体に対して様々な形態のＩ／Ｏ（入力および／または出力）として見ることができる。実現例によっては、これらのＩ／Ｏコンポーネントの様々なものは、アプリケーションプロセッサ／マルチコアプロセッサ１４５０上に統合されてもよく、またはアプリケーションプロセッサ／マルチコアプロセッサ１４５０のダイから離れて、またはそのパッケージ外に配置されてもよい。

一実施形態では、１つ以上のカメラ１４１０は、カメラとその視野内の対象との間の深度を測定することができる深度カメラを含む。アプリケーションプロセッサまたは他のプロセッサの汎用ＣＰＵコア（もしくはプログラムコードを実行するために命令実行パイプラインを有する他の機能ブロック）上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェアおよび／またはファームウェアは、上記の機能のいずれかを実行してもよい。

本発明の実施形態は、上述したような様々なプロセスを含むことができる。これらのプロセスは、機械実行可能命令で実施されてもよい。これらの命令は、汎用または特殊目的のプロセッサに特定のプロセスを実行させるために使用できる。代替的に、これらのプロセスは、プロセスを実行するためのハードワイヤード論理を含む特定のハードウェアコンポーネントによって、またはプログラミングされたコンピュータコンポーネントとカスタムハードウェアコンポーネントとの任意の組み合わせによって実行されてもよい。

本発明の要素はまた、機械実行可能命令を記憶するための機械可読媒体として提供されてもよい。機械可読媒体は、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、および光磁気ディスク、フラッシュメモリ、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気もしくは光カード、伝搬媒体、または電子命令を記憶するのに適した他のタイプの媒体／機械可読媒体を含むが、それらに限定はされない。例えば、本発明は、搬送波または通信リンク（例えばモデムもしくはネットワーク接続）を介する他の伝搬媒体で実施されたデータ信号によって、遠隔のコンピュータ（例えばサーバ）から要求側コンピュータ（例えばクライアント）に転送され得るコンピュータプログラムとしてダウンロードすることができる。

前述の明細書では、本発明をその特定の例示的な実施形態を参照して説明した。しかしながら、特許請求の範囲に記載される本発明のより広い精神および範囲から逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。

Claims

コンピューティングデバイスであって、
１以上のステンシルプロセッサを備え、各ステンシルプロセッサは、処理要素の二次元アレイを使用して画像データのステンシルに対して１以上のカーネル関数を実行するように構成され、各ステンシルは画像の二次元領域であり、
前記コンピューティングデバイスは、構成レジスタ空間とプログラムメモリとを含むシート生成部をさらに備え、前記構成レジスタ空間は、ライングループサイズを含む前記シート生成部のプログラマブルな設定を記憶するように構成され、前記プログラムメモリは、前記構成レジスタ空間に記憶される前記プログラマブルな設定を参照するプログラムコードを記憶するように構成され、
前記シート生成部は、
入力ラインバッファからデータをロードするためのコマンドを受け取り、
前記プログラムメモリ内の前記プログラムコードを実行して、前記入力ラインバッファから、前記構成レジスタ空間内の前記プログラマブルな設定の前記ライングループサイズによって定義されるサイズを有する入力ライングループを取得し、
前記プログラムメモリ内の前記プログラムコードを実行して、前記入力ライングループから複数の最初の画像データのシートを生成し、
前記複数の最初の画像データのシートを、前記１以上のステンシルプロセッサの第１のステンシルプロセッサに出力し、
前記１以上のステンシルプロセッサは、各最初のシートにおける画像データのステンシルに対して１以上のカーネル関数を実行してそれぞれの処理された画像データのシートを生成し、
各最初の画像データのシートは、前記第１のステンシルプロセッサの前記処理要素の二次元アレイにおける処理要素と少なくとも同数のピクセルを有し、前記入力ライングループは、画像データのフレームからの複数の行のデータを含み、
前記シート生成部はさらに、
前記第１のステンシルプロセッサの前記処理要素の二次元アレイがそれぞれ前記複数の最初の画像データのシートを操作することによって計算された複数の処理された画像データのシートを受け取り、
前記処理されたシートを出力ライングループに追加し、
前記出力ライングループを前記コンピューティングデバイスの出力ラインバッファに書き込み、
前記出力ライングループは前記複数の処理されたシートを含む、コンピューティングデバイス。
前記コンピューティングデバイスは複数のシート生成部を含み、前記１以上のステンシルプロセッサの各ステンシルプロセッサはそれぞれの専用のシート生成部を有する、請求項１に記載のコンピューティングデバイス。
前記複数のシート生成部の各シート生成部は、前記コンピューティングデバイスの複数のラインバッファのうちのいずれかに対して読み書きし、
前記複数のラインバッファは、前記入力ラインバッファおよび前記出力ラインバッファを含む、請求項２に記載のコンピューティングデバイス。
前記シート生成部は、前記入力ラインバッファから第１のライングループの画像データを取得し、
前記第１のライングループの画像データは、前記シート生成部が１以上の出力ラインバッファに書き込む第２のライングループの画像データよりも大きい、請求項１〜３のいずれか１項に記載のコンピューティングデバイス。
各最初の画像データのシートは、複数の重なり合うステンシルのデータを含む、請求項１〜４のいずれか１項に記載のコンピューティングデバイス。
前記第１のステンシルプロセッサのメモリは、二次元シフトレジスタアレイを含む、請求項１〜５のいずれか１項に記載のコンピューティングデバイス。
各ステンシルプロセッサは複数のレジスタ層を有し、前記シート生成部は、前記複数のレジスタ層の各々に対して別々のシートを生成し、各別々のシートを前記複数のレジスタ層の異なるレジスタ層に格納する、請求項１〜６のいずれか１項に記載のコンピューティングデバイス。
前記シート生成部は、入力画像データの複数チャネルの各チャネルに対して、または多次元データ構成の各コンポーネントに対して、別々のシートを生成する、請求項７に記載のコンピューティングデバイス。
前記画像データのビット幅は、前記第１のステンシルプロセッサのレジスタのビット幅よりも大きく、
前記シート生成部は、画像データの上位ビット部分を有する第１のシートと前記画像データの下位ビット部分を有する第２のシートとを生成し、前記第１のシートを前記第１のステンシルプロセッサの第１のレジスタ層に格納し、前記第２のシートを前記第１のステンシルプロセッサの第２のレジスタ層に格納する、請求項７に記載のコンピューティングデバイス。
前記シート生成部は、前記入力ラインバッファから受け取られる前記入力ライングループ内において各データ値の複数のインスタンスをコピーすることによって、アップサンプリングされた画像データを有するアップサンプリングされたシートを生成する、請求項１〜９のいずれか１項に記載のコンピューティングデバイス。
前記シート生成部は、前記出力ラインバッファに与えられる前記出力ライングループに各データ値の複数のインスタンスを書き込むことによって、ダウンサンプリングされた画像データを生成する、請求項１〜１０のいずれか１項に記載のコンピューティングデバイス。
前記コマンドは、前記コンピューティングデバイスのスカラープロセッサによって発行される、請求項１〜１１のいずれか１項に記載のコンピューティングデバイス。
前記シート生成部の前記プログラマブルな設定は、シートのそれぞれのサイズをさらに含み、前記複数の最初の画像データのシートの各々は、前記プログラマブルな設定によって定義される前記サイズを有する、請求項１〜１２のいずれか１項に記載のコンピューティングデバイス。
方法であって、
シート生成部が、入力ラインバッファからデータをロードするためのコマンドを受け取ることを備え、前記シート生成部は、構成レジスタ空間とプログラムメモリとを含み、前記構成レジスタ空間は、ライングループサイズを含む前記シート生成部のプログラマブルな設定を記憶するように構成され、前記プログラムメモリは、前記構成レジスタ空間に記憶される前記プログラマブルな設定を参照するプログラムコードを記憶するように構成され、前記方法はさらに、
前記シート生成部が、前記プログラムメモリ内の前記プログラムコードを実行して、前記入力ラインバッファから、前記構成レジスタ空間内の前記プログラマブルな設定の前記ライングループサイズによって定義されるサイズを有する入力ライングループを取得することと、
前記シート生成部が、前記プログラムメモリ内の前記プログラムコードを実行して、前記入力ライングループから複数の最初の画像データのシートを生成することと、
前記シート生成部が、前記複数の最初の画像データのシートを、前記入力ライングループから、コンピューティングデバイスの１以上のステンシルプロセッサの第１のステンシルプロセッサに出力することとを含み、
各最初の画像データのシートは、前記第１のステンシルプロセッサの処理要素の二次元アレイにおける処理要素と少なくとも同数のピクセルを有し、前記入力ライングループは、画像データのフレームからの複数の行のデータを含み、前記方法はさらに、
前記第１のステンシルプロセッサが、前記複数の最初の画像データのシートの各最初のシートの画像データのステンシルに対して、前記処理要素の二次元アレイを使用して、１以上のカーネル関数を実行することを含み、各ステンシルは画像データの二次元領域であり、前記方法はさらに、
前記シート生成部が、前記第１のステンシルプロセッサの前記処理要素の二次元アレイによって計算された複数の処理された画像データのシートを受け取ることと、
前記シート生成部が、前記処理されたシートを出力ライングループに追加することと、
前記シート生成部が、前記出力ライングループを前記コンピューティングデバイスの出力ラインバッファに書き込むこととを含み、前記出力ライングループは前記複数の処理されたシートを含む、方法。
前記コンピューティングデバイスは複数のシート生成部を含み、前記１以上のステンシルプロセッサの各ステンシルプロセッサはそれぞれの専用のシート生成部を有する、請求項１４に記載の方法。
前記複数のシート生成部の各シート生成部は、前記コンピューティングデバイスの複数のラインバッファのうちのいずれかに対して読み書きし、
前記複数のラインバッファは、前記入力ラインバッファおよび前記出力ラインバッファを含む、請求項１５に記載の方法。
前記シート生成部は、前記入力ラインバッファから、第１のライングループの画像データを取得し、
前記第１のライングループの画像データは、前記シート生成部が１以上の出力ラインバッファに書き込む第２のライングループの画像データよりも大きい、請求項１４〜１６のいずれか１項に記載の方法。
各最初の画像データのシートは、複数の重なり合うステンシルのデータを含む、請求項１４〜１７のいずれか１項に記載の方法。
前記第１のステンシルプロセッサのメモリは、二次元シフトレジスタアレイを含む、請求項１４〜１８のいずれか１項に記載の方法。
請求項１４〜１９のいずれか１項に記載の方法をコンピューティングデバイスに実行させる、プログラム。