JP6764904B2

JP6764904B2 - 画像プロセッサのための二次元シフトアレイ

Info

Publication number: JP6764904B2
Application number: JP2018130045A
Authority: JP
Inventors: シャチャム，オフェル; レッドグレイブ，ジェイソン・ルパート; メイクスナー，アルバート; ヂュー，チウリン; フィンチェルステイン，ダニエル・フレデリック; パターソン，デイビッド; スターク，ドナルド
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-23
Filing date: 2018-07-09
Publication date: 2020-10-07
Anticipated expiration: 2036-04-08
Also published as: EP3286724A1; WO2016171926A1; US20170310855A1; US10397450B2; US11153464B2; CN107430760A; KR20170125395A; CN107430760B; KR20190102086A; DE112016001844T5; JP2018520399A; US20190364174A1; US9769356B2; KR102016097B1; EP3286724B1; JP6389571B2; KR102202579B1; US20160316107A1; JP2018185847A

Description

発明の分野
本発明は、一般に、画像処理に関し、特に、画像プロセッサのための二次元シフトアレイに関する。

背景
画像処理は、典型的には、アレイに編成されたピクセル値の処理を含む。ここで、空間的に編成された二次元アレイは、画像の二次元的性質を捕捉する（追加の次元は、時間（例えば二次元画像のシーケンス）およびデータタイプ（例えば色）を含み得る。典型的なケースでは、アレイ化されたピクセル値は、静止画像または動きの画像を捕捉するためにフレームのシーケンスを生成したカメラによって提供される。伝統的な画像プロセッサは、典型的には、２つの極端な側面のいずれかに分類される。

第１の極端な側面は、汎用プロセッサまたは汎用状プロセッサ（例えばベクトル命令拡張を備えた汎用プロセッサ）上で実行されるソフトウェアプログラムとして画像処理タスクを実行する。第１の極端な側面は、一般的に非常に汎用性の高いアプリケーションソフトウェア開発プラットフォームを提供するが、関連するオーバーヘッド（例えば、命令フェッチおよびデコード、オンチップおよびオフチップデータの処理、投機的実行）と組み合わされたより精細な粒子のデータ構造の使用は、究極的には、プログラムコードの実行中に、データの単位あたり、より多くのエネルギーが消費される結果となる。

第２の逆の極端な側面は、固定機能のハードワイヤード回路系をはるかに大きなデータブロックに適用する。カスタム設計された回路に直接適用される、（粒度の細かいブロックとは対照的な）より大きなデータブロックの使用は、データ単位あたりの消費電力を大幅に削減する。しかしながら、カスタム設計された固定機能回路系の使用は、一般に、プロセッサが実行することができるタスクのセットが限られる結果となる。このように、（第１の極端な側面に関連する）幅広く汎用性の高いプログラミング環境は第２の極端な側面においては欠けている。

高度に汎用性の高いアプリケーションソフトウェア開発の機会と、データ単位あたりの電力効率の向上とを両立させた技術プラットフォームは、依然として望ましいが、欠けている解決策である。

概要
装置が記載される。この装置は、二次元シフトレジスタアレイ構造内の複数の連続した位置からデータを同じ方向および数の位置でシフトして、実行レーンアレイ内の複数の異なる実行レーンの各々に、複数の異なる実行レーンのそれぞれの専用レジスタ内における新しい値を提供するための手段を備える。異なる実行レーンは、それらのそれぞれの専用レジスタに、実行レーンアレイおよび二次元シフトレジスタアレイのそれぞれの同じ位置で結合される。

装置が記載される。この装置は、二次元シフトレジスタアレイ構造に結合される実行レーンアレイを含む。実行レーンアレイにおける位置は、異なる実行レーンが異なる専用レ
ジスタを有するように、二次元シフトレジスタアレイ構造における同じ位置に結合される。

図面のリスト
以下の説明および添付の図面は、本発明の実施形態を例示するために使用される。

画像プロセッサハードウェアアーキテクチャの実施形態を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。ステンシルプロセッサの実施形態を示す。ステンシルプロセッサ内のデータ計算ユニットの一実施形態を示す図である。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。統合された実行レーンアレイおよび二次元シフトアレイのための単位セルの実施形態を示す図である。第１の二次元レジスタアレイ構造相互接続スキームを示す図である。第２の二次元レジスタアレイ構造相互接続スキームを示す。二次元レジスタアレイ構造の第１の行または列を示す図である。二次元レジスタアレイ構造の第２の行または列を示す図である。メモリユニットに結合される図８ｂの行を示す。別のトロイドの実施形態を示す。電力保存回路を示す。コンピューティングシステムの一実施形態を示す。

詳細な記載
ａ．画像プロセッサハードウェアアーキテクチャおよび動作
図１は、ハードウェアで実現される画像プロセッサのためのアーキテクチャ１００の実施形態を示す。画像プロセッサは、例えば、シミュレートされた環境内で仮想プロセッサ用に書かれたプログラムコードを、ハードウェアプロセッサによって実際に実行されるプログラムコードに変換するコンパイラによって対象とされてもよい。図４に示すように、アーキテクチャ１００は、複数のラインバッファユニット１０１＿１〜１０１＿Ｍを含み、それらは、複数のステンシルプロセッサユニット１０２＿１〜１０２＿Ｎおよび対応するシート生成部ユニット１０３＿１〜１０３＿Ｎに、ネットワーク１０４（例えば、ネットワークオンチップ（ＮＯＣ）（オンチップスイッチネットワーク、オンチップリングネットワークまたは他の種類のネットワークを含む））を介して相互接続される。一実施形態では、どのラインバッファユニットが、ネットワーク１０４を介してどのシート生成部および対応するステンシルプロセッサに接続してもよい。

一実施形態では、プログラムコードはコンパイルされ、対応するステンシルプロセッサ１０２にロードされて、ソフトウェア開発者によって以前に定義された画像処理動作を実行する（プログラムコードは、例えば、設計および実装に応じて、ステンシルプロセッサの関連のシート生成部１０３にもロードされてもよい）。少なくともいくつかの例では、画像処理パイプラインを、第１のパイプラインステージ用の第１のカーネルプログラムを第１のステンシルプロセッサ１０２＿１にロードし、第２のパイプラインステージ用の第２のカーネルプログラムを第２のステンシルプロセッサ１０２＿２にロードするなどして、実現することができ、第１のカーネルはパイプラインの第１ステージの機能を実行し、第２のカーネルはパイプラインの第２ステージの機能を実行し、追加の制御フロー方法がインストールされて、出力画像データをパイプラインの１つのステージからの次のステージに渡す。

他の構成では、画像プロセッサは、同じカーネルプログラムコードを動作させる２つ以上のステンシルプロセッサ１０２＿１，１０２＿２を有する並列マシンとして実現することができる。例えば、画像データの高密度かつ高データレートのストリームが、各々が同じ機能を実行する複数のステンシルプロセッサにわたってフレームを広げることによって処理されてもよい。

さらに他の構成では、カーネルの本質的に任意のＤＡＧのハードウェアプロセッサへのロードを、それぞれのステンシルプロセッサをそれら自身のプログラムコードのカーネルとともに構成し、適切な制御フローフックをハードウェアに構成して、出力画像をＤＡＧ設計における１つのカーネルから次のカーネルの入力に向けることによって、行なってもよい。

一般的なフローとして、画像データのフレームは、マクロＩ／Ｏユニット１０５で受信され、フレーム単位でラインバッファユニット１０１の１つ以上に渡される。特定のラインバッファユニットは、それの画像データのフレームを、「ライングループ」と呼ばれる画像データのより小さな領域に解析し、次いでライングループをネットワーク１０４を介して特定のシート生成部に渡す。ある完全な（ｆｕｌｌ）単数のライングループを、例えば、フレームの複数の連続した完全な行または列のデータで構成することができる（簡単にするために、本明細書では主に連続した行と称する）。シート生成部は、画像データの
ライングループを「シート」と呼ばれる画像データのより小さな領域にさらに解析し、そのシートを対応するステンシルプロセッサに提示する。

単一入力の画像処理パイプラインやＤＡＧフローの場合、一般に、入力フレームは、同じラインバッファユニット１０１＿１に向けられ、それは、画像データをライングループに解析し、ライングループを対応するシート生成部１０３＿１（対応するステンシルプロセッサ１０２＿１はパイプライン／ＤＡＧにおいて第１のカーネルのコードを実行している）に向ける。ステンシルプロセッサ１０２＿１による、それが処理するライングループでの動作が終了した後、シート生成部１０３＿１は、出力ライングループを「下流」のラインバッファユニット１０１＿２に送信する（ある使用例では、出力ライングループは、先に入力ライングループを送信したのと同じラインバッファ装置１０１＿１に送り返すことができる）。

自身のそれぞれの他のシート生成部およびステンシルプロセッサ（例えば、シート生成部１０３＿２およびステンシルプロセッサ１０２＿２）上で実行されるパイプライン／ＤＡＧにおける次のステージ／動作を表す１つ以上の「消費側」カーネルは、下流ラインバッファユニット１０１＿２から、第１のステンシルプロセッサ１０２＿１によって生成された画像データを受信する。このようにして、第１のステンシルプロセッサ上で動作する「作成側」カーネルは、その出力データが、第２のステンシルプロセッサ上で動作する「消費側」カーネルに転送され、消費側カーネルは、パイプラインまたはＤＡＧ全体の設計と整合する作成側カーネルの後に次のタスクのセットを実行する。

ステンシルプロセッサ１０２は、画像データの複数の重なり合うステンシル上で同時に動作するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内部ハードウェア処理能力は、シートのサイズを効果的に決定する。ここでは、ステンシルプロセッサ１０２内で、実行レーンのアレイが一致して動作して、複数の重なり合うステンシルによってカバーされる画像データ表面領域を同時に処理する。

以下でより詳細に説明するように、様々な実施形態において、画像データのシートは、ステンシルプロセッサ１０２内において二次元レジスタアレイ構造にロードされる。シートおよび二次元レジスタアレイ構造の使用は、大量のデータを、大量のレジスタ空間に、例えば、処理タスクが実行レーンアレイによってその直後に直接データ上で実行される単一のロード動作として移動することによって、電力消費の改善を効果的に提供すると考えられている。さらに、実行レーンアレイおよび対応するレジスタアレイの使用は、容易にプログラマブル／設定可能な異なるステンシルサイズを提供する。

図２ａ〜図２ｅは、ラインバッファユニット１０１の解析アクティビティ、およびシート生成部ユニット１０３のより微細な粒子の解析アクティビティ、ならびにシート生成部１０３に結合されるステンシルプロセッサ１０２のステンシル処理アクティビティの両方のハイレベルの実施形態を示す。

図２ａは、画像データ２０１の入力フレームの一実施形態を示す。図２ａはまた、ステンシルプロセッサが動作するように設計された３つの重なり合うステンシル２０２（各々３ピクセル×３ピクセルの寸法を有する）の概要を示す。各ステンシルがそれぞれ出力画像データを生成する出力ピクセルは、ベタ黒で強調表示される。簡略化のために、３つの重なり合うステンシル２０２は、垂直方向にのみ重なるように示されている。実際には、ステンシルプロセッサは、垂直方向および水平方向の両方に重なるステンシルを有するように設計されてもよいことを認識することが適切である。

図２ａに見られるように、ステンシルプロセッサ内の垂直に重なり合うステンシル２０
２のために、フレーム内に単一のステンシルプロセッサが動作することができる画像データの広い帯域が存在する。以下でより詳細に説明するように、一実施形態では、ステンシルプロセッサは、データを、それらの重なり合うステンシル内で、左から右への態様で、画像データにわたって処理する（そして、次のラインのセットに対して、上から下の順序で繰り返す）。このように、ステンシルプロセッサがそれらの動作を前方に進めるにつれて、ベタ黒出力ピクセルブロックの数は、水平方向に右に成長する。上述したように、ラインバッファユニット１０１は、ステンシルプロセッサが今後の拡張された数のサイクルにわたって動作するのに十分な入来フレームからの入力画像データのライングループを解析することを担う。ライングループの例示的な図示は、陰影領域２０３として示されている。一実施形態では、ラインバッファユニット１０１は、ライングループをシート生成部との間で送受信するための異なるダイナミクスを理解することができる。例えば、「完全なグループ」と呼ばれる１つのモードによれば、画像データの完全な全幅のラインが、ラインバッファユニットとシート生成部との間で渡される。「仮想的に高い」と呼ばれる第２のモードによれば、ライングループは最初に全幅行のサブセットと共に渡される。その後、残りの行は、より小さい（全幅未満の）片で順番に渡される。

入力画像データのライングループ２０３がラインバッファユニットによって画定され、シート生成部ユニットに渡されると、シート生成部ユニットはさらに、ライングループを、ステンシルプロセッサのハードウェア制限に、より正確に適合する、より微細なシートに、解析する。より具体的には、以下でさらに詳細に説明するように、一実施形態では、各ステンシルプロセッサは、二次元シフトレジスタアレイからなる。二次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「真下」にシフトし、シフトのパターンは、各実行レーンをそれ自身のステンシル内においてデータに対して動作させる（すなわち、各実行レーンは、それ自身の情報のステンシル上で処理して、そのステンシルの出力を生成する）。一実施形態では、シートは、二次元シフトレジスタアレイを「満たす」か、さもなければ二次元シフトレジスタアレイにロードされる入力画像データの表面領域である。

以下でより詳細に説明するように、様々な実施形態では、実際には、任意のサイクルでシフト可能な二次元レジスタデータの複数の層が存在する。便宜上、本記載の多くは、「二次元シフトレジスタ」などの用語を、シフト可能な二次元レジスタデータの１つ以上のそのような層を有する構造を指すために単純に使用する。

したがって、図２ｂに見られるように、シート生成部は、ライングループ２０３から最初のシート２０４を解析し、それをステンシルプロセッサに供給する（ここで、データのシートは、参照番号２０４によって全体的に識別される陰影領域に対応する）。図２ｃおよび図２ｄに示すように、ステンシルプロセッサは、重なるステンシル２０２をシート上で左から右へ効果的に移動させることによって、入力画像データのシートに対して動作する。図２ｄのように、シート内のデータから出力値を計算することができるピクセル数が使い果たされる（他のピクセル位置は、シート内の情報から決定される出力値を有することができない）。簡単にするために、画像の境界領域は無視されている。

図２ｅにおいて見られるように、シート生成部は次いで、ステンシルプロセッサが動作を継続する次のシート２０５を提供する。ステンシルが次のシートに対して動作を開始するときのステンシルの初期位置は、（先に図２ｄに示されている）最初のシート上の消耗点から右への次の進行であることに留意されたい。新たなシート２０５で、ステンシルプロセッサが最初のシートの処理と同じ態様で新たなシートに対して動作するにつれ、ステンシルは単に右に移動し続ける。

出力ピクセル位置を取り囲むステンシルの境界領域のために、第１のシート２０４のデ
ータと第２のシート２０５のデータとの間にいくらかの重なりがあることに留意されたい。重なりは、シート生成部が重なり合うデータを２回再送信することによって簡単に処理することができる。別の実現例では、次のシートをステンシルプロセッサに供給するために、シート生成部は、ステンシルプロセッサに新たなデータを送るだけに進んでもよく、ステンシルプロセッサは、前のシートからの重なり合うデータを再利用する。

ｂ．ステンシルプロセッサ設計および動作
図３は、ステンシルプロセッサ３００の実施形態を示す。図３において見られるように、ステンシルプロセッサは、データ計算ユニット３０１、スカラープロセッサ３０２および関連するメモリ３０３およびＩ／Ｏユニット３０４を含む。データ計算ユニット３０１は、実行レーンのアレイ３０５、二次元シフトアレイ構造３０６、およびアレイの特定の行または列に関連する別個のランダムアクセスメモリ３０７を含む。

Ｉ／Ｏユニット３０４は、シート生成部から受け取ったデータの「入力」シートをデータ計算ユニット３０１にロードし、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、データ計算ユニット３０１へのシートデータのロードは、受け取ったシートを画像データの行／列に解析し、画像データの行／列を二次元シフトレジスタ構造３０６または実行レーンアレイの行／列のそれぞれのランダムアクセスメモリ３０７にロードすることを必要とする（以下でより詳細に説明する）。シートが最初にメモリ３０７にロードされる場合、実行レーンアレイ３０５内の個々の実行レーンは、適宜、ランダムアクセスメモリ３０７からシートデータを二次元シフトレジスタ構造３０６にロードすることができる（例えば、シートのデータ上での動作のすぐ前のロード命令として）。データのシートのレジスタ構造３０６へのロード（シート生成部からの直接的であろうとまたはメモリ３０７からであろうと）が完了すると、実行レーンアレイ３０５の実行レーンはデータに対して動作し、最終的に、完成したデータをシートとしてシート生成部に、またはランダムアクセスメモリ３０７に「書き戻す」。後者の場合、Ｉ／Ｏユニット３０４はランダムアクセスメモリ３０７からデータをフェッチして出力シートを形成し、出力シートはシート生成部に転送される。

スカラープロセッサ３０２は、スカラーメモリ３０３からステンシルプロセッサのプログラムコードの命令を読み出し、実行レーンアレイ３０５の実行レーンに命令を発行するプログラムコントローラ３０９を含む。一実施形態では、データ計算ユニット３０１からＳＩＭＤのような動作を実行するために、単一の同じ命令がアレイ３０５内のすべての実行レーンにブロードキャストされる。一実施形態では、スカラーメモリ３０３から読み出され、実行レーンアレイ３０５の実行レーンに発行される命令の命令フォーマットは、命令当たり２つ以上のオペコードを含む非常に長い命令語（ＶＬＩＷ）タイプのフォーマットを含む。さらなる実施形態では、ＶＬＩＷフォーマットは、（以下に説明するように、一実施形態では２つ以上の従来のＡＬＵ動作を指定することができる）各実行レーンのＡＬＵによって実行される数学的機能を指示するＡＬＵオペコードと、（特定の実行レーンまたは実行レーンのセットに対してメモリ操作を指示する）メモリオペコードとの両方を含む。

「実行レーン」という用語は、命令を実行することができる１つ以上の実行ユニットのセット（例えば、命令を実行することができる論理回路系）を指す。実行レーンは、しかしながら、様々な実施形態では、単なる実行ユニットを超えた、よりプロセッサに似た機能を含むことができる。例えば、１つ以上の実行ユニットに加えて、実行レーンは、受信された命令をデコードする論理回路系、または、よりＭＩＭＤのような設計の場合、命令をフェッチおよびデコードする論理回路系を含むことができる。ＭＩＭＤのようなアプローチに関しては、ここでは集中プログラム制御アプローチが主に記載されているが、より分散型のアプローチが様々な代替実施形態（例えば、アレイ３０５の各実行レーン内のプ
ログラムコードおよびプログラムコントローラを含む）において実施されてもよい。

実行レーンアレイ３０５、プログラムコントローラ３０９および二次元シフトレジスタ構造３０６の組み合わせは、広範囲のプログラマブルな機能のための幅広く適応可能／設定可能なハードウェアプラットフォームを提供する。例えば、アプリケーションソフトウェア開発者は、個々の実行レーンが多種多様な機能を実行することができ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスすることができれば、寸法（例えばステンシルサイズ）だけでなく幅広い異なる機能能力を有するカーネルをプログラミングすることができる。

実行レーンアレイ３０５によって操作される画像データのためのデータ記憶装置として機能することとは別に、ランダムアクセスメモリ３０７は、１つ以上のルックアップテーブルを保持することもできる。様々な実施形態では、１つ以上のスカラールックアップテーブルをスカラーメモリ３０３内でインスタンス化することもできる。

スカラールックアップは、同じルックアップテーブルからの同じインデックスからの同じデータ値を実行レーンアレイ３０５内の各実行レーンに渡すことを含む。様々な実施形態では、上述のＶＬＩＷ命令フォーマットは、スカラープロセッサによって実行されるルックアップ動作をスカラールックアップテーブルに向けるスカラーオペコードを含むようにも拡張される。オペコードとともに使用するために指定されたインデックスは、即値オペランドでもよいし、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルからのルックアップは、基本的に同じクロックサイクル中に実行レーンアレイ３０５内のすべての実行レーンに同じデータ値をブロードキャストすることを含む。ルックアップテーブルの使用および動作に関する追加の詳細は、以下でさらに説明する。

図４は、データ計算コンポーネント４０１の一実施形態を示す。図４において見られるように、データ計算コンポーネント４０１は、二次元シフトレジスタアレイ構造４０６「の上に」論理的に位置決めされる実行レーンのアレイ４０５を含む。上述したように、様々な実施形態では、シート生成部によって提供される画像データのシートが二次元シフトレジスタ４０６にロードされる。実行レーンは、レジスタ構造４０６からのシートデータに対して動作する。

実行レーンアレイ４０５およびシフトレジスタ構造４０６は、互いに対して適所に固定される。しかし、シフトレジスタアレイ４０６内のデータは、戦略的かつ調整された態様でシフトして、実行レーンアレイ内の各実行レーンがデータ内で異なるステンシルを処理するようにする。したがって、各実行レーンは、生成されている出力シートにおいて異なるピクセルに対する出力画像値を決定する。図４のアーキテクチャから、実行レーンアレイ４０５が垂直に近接する実行レーンおよび水平に近接する実行レーンを含むので、重なり合うステンシルが垂直に配置されるだけでなく水平にも配置されることは明らかである。

データ計算ユニット４０１のいくつかの注目すべきアーキテクチャ上の特徴には、実行レーンアレイ４０５よりも広い寸法を有するシフトレジスタ構造４０６が含まれる。すなわち、実行レーンアレイ４０５の外側にレジスタ４０９の「ハロー」が存在する。ハロー４０９は、実行レーンアレイの２つの側に存在するように示されているが、実現例に応じて、実行レーンアレイ４０５の２つ未満（１つ）またはそれ以上（３つまたは４つ）の側に存在してもよい。ハロー４０５は、データが実行レーン４０５の「下で」シフトしているときに、実行レーンアレイ４０５の境界の外側にこぼれ出るデータのための「スピルオーバ」空間を提供する働きをする。単純なケースとして、実行レーンアレイ４０５の右端
を中心とする５×５のステンシルは、ステンシルの最も左側のピクセルが処理されるとき、さらに右側に４つのハローレジスタ位置を必要とすることになる。図面を簡単にするために、図４は、名目上の実施例において、どちらの側（右、底）のレジスタでも水平方向接続および垂直方向接続の両方を有するであろうとき、ハローの右側のレジスタを、水平方向シフト接続を有するだけとして、およびハローの底側のレジスタを、垂直方向シフト接続を有するだけとして示す。

アレイの各行および／もしくは各列またはその一部分に結合されるランダムアクセスメモリ４０７によって追加のスピルオーバールームが提供される（例えば、ランダムアクセスメモリは、４つの実行レーン行状と２つの実行レーン列状にまたがる実行レーンアレイの「領域」に割り当てられてもよい。簡略化のために、アプリケーションの残りの部分は、主に、行および／または列に基づく割り当てスキームを指す）。ここで、実行レーンのカーネル動作が、それが（一部の画像処理ルーチンが必要とする場合がある）二次元シフトレジスタアレイ４０６の外にあるピクセル値を処理することを必要とする場合、画像データの面は、ハロー領域４０９からランダムアクセスメモリ４０７にさらにこぼれ出ることができる。例えば、ハードウェアが実行レーンアレイの右端の実行レーンの右側にわずか４つの記憶素子のハロー領域を含む場合の６×６ステンシルを考える。この場合、ステンシルを完全に処理するために、データをハロー４０９の右端からさらに右側にシフトする必要があるであろう。ハロー領域４０９の外側にシフトされたデータは、ランダムアクセスメモリ４０７にこぼれ出る。ランダムアクセスメモリ４０７および図３のステンシルプロセッサの他の適用例を以下でさらに説明する。

図５ａないし図５ｋは、上述のように実行レーンアレイ「の下で」二次元シフトレジスタアレイ内で画像データがシフトされる態様の実施例を示す。図５ａにおいて見られるように、二次元シフトアレイのデータ内容は第１のアレイ５０７に示され、実行レーンアレイはフレーム５０５によって示される。また、実行レーンアレイ内の２つの近隣の実行レーン５１０が簡略化して示されている。この簡単な図示５１０では、各実行レーンは、シフトレジスタからデータを受け付け、ＡＬＵ出力からデータを受け付け（例えば、サイクルにわたってアキュムレータとして動作する）、または出力データを出力先に書き込むことができるレジスタＲ１を含む。

各実行レーンはまた、ローカルレジスタＲ２において、二次元シフトアレイにおけるそれ「の下の」内容が利用可能である。したがって、Ｒ１は実行レーンの物理レジスタであり、Ｒ２は二次元シフトレジスタアレイの物理レジスタである。実行レーンは、Ｒ１および／またはＲ２によって提供されるオペランドに対して動作可能なＡＬＵを含む。さらに詳細に後述するように、一実施形態では、シフトレジスタは、実際にはアレイ位置ごとに複数の（ある「深さ」の）記憶／レジスタ素子で実現されるが、シフト動作は記憶素子の１つの面に限られる（例えば、記憶素子の１つの面のみがサイクルごとにシフトすることができる）。図５ａないし図５ｋは、それぞれの実行レーンから結果のＸを格納するために使用されるとしてこれらのより深いレジスタ位置の１つを示している。例示を容易にするために、より深い結果のレジスタは、その対応するレジスタＲ２の下ではなく、その横に図示されている。

図５ａ〜図５ｋは、実行レーンアレイ内に示された実行レーン位置５１１の対に中心位置が整列された２つのステンシルの計算に焦点を当てている。例示を容易にするために、実行レーン５１０の対は、実際には、以下の例によれば、それらが垂直方向の近隣実行レーンである場合に、水平方向の近隣実行レーンとして図示されている。

図５ａで最初に見られるように、実行レーンはそれらの中央のステンシル位置上に中心を配される。図５ｂは、両方の実行レーンによって実行されるオブジェクトコードを示す
。図５ｂにおいて見られるように、両方の実行レーンのプログラムコードは、シフトレジスタアレイ内のデータを、１つの位置だけ下にシフトさせ、１つの位置だけ右にシフトさせる。これにより、両方の実行レーンがそれらのそれぞれのステンシルの左上隅に整列される。次に、プログラムコードは、（Ｒ２において）それらのそれぞれの位置にあるデータをＲ１にロードさせる。

図５ｃに示すように、次にプログラムコードは、実行レーンの対に、シフトレジスタアレイ内のデータを１単位だけ左にシフトさせ、各実行レーンのそれぞれの位置の右の値を各実行レーンの位置にシフトさせる。Ｒ１の値（以前の値）は、次いで、（Ｒ２における）実行レーンの位置にシフトした新しい値とともに加算される。結果はＲ１に書き込まれる。図５ｄで見られるように、図５ｃについて上述したのと同じプロセスが繰り返され、結果のＲ１に対して、今度は上側実行レーンにおける値Ａ＋Ｂ＋Ｃ、および下側実行レーンにおけるＦ＋Ｇ＋Ｈ値を含ませるようにする。この時点で、両方の実行レーンはそれらのそれぞれのステンシルの上側の行を処理している。（左側に存在する場合には）実行レーンアレイの左側でハロー領域に、またはハロー領域が存在しない場合にはランダムアクセスメモリにこぼれ出ることは、実行レーンアレイの左側には存在しないことに注目されたい。

図５ｅに示すように、次に、プログラムコードは、シフトレジスタアレイ内のデータを１単位だけ上にシフトさせ、両方の実行レーンをそれらのそれぞれのステンシルの中間行の右端に整列される。両方の実行レーンのレジスタＲ１は、現在、ステンシルの最上行および中間行の一番右の値の合計を含む。図５ｆおよび図５ｇは、両方の実行レーンのステンシルの中間行にわたって左方向に移動する継続的な進行を示す。累積加算は、図５ｇの処理の終了時に、両方の実行レーンがそれらのそれぞれのステンシルの最上行の値と中間行の値との合計を含むように、継続する。

図５ｈは、各実行レーンをそれの対応するステンシルの最下行に整列させる別のシフトを示す。図５ｉおよび図５ｊは、両方の実行レーンのステンシルの過程にわたって処理を完了するための継続的なシフトを示す。図５ｋは、各実行レーンをデータアレイにおいてそれの正しい位置に整列させ、その結果をそこに書き込むための追加のシフトを示す。

図５ａ〜図５ｋの例では、シフト動作のためのオブジェクトコードは、（Ｘ、Ｙ）座標で表されるシフトの方向および大きさを識別する命令フォーマットを含むことができることに留意されたい。例えば、１つの位置分の上方向シフトのためのオブジェクトコードは、オブジェクトコードでＳＨＩＦＴ０，＋１として表現されてもよい。別の例として、１つの位置分の右方向へのシフトは、オブジェクトコードでＳＨＩＦＴ＋１，０として表現されてもよい。様々な実施形態では、より大きい大きさのシフトも、オブジェクトコードで指定することができる（例えば、シフト０，＋２）。ここで、２Ｄシフトレジスタハードウェアが１サイクルにつき１つの位置だけしかシフトをサポートしない場合、命令は機械によって複数のサイクル実行を要求するように解釈されてもよく、または２Ｄシフトレジスタハードウェアは、１サイクルにつき２つ以上の位置分シフトをサポートするように設計されてもよい。後者の実施形態はより詳細にさらに下に記載される。

図６ａは、アレイ実行レーンおよびシフトレジスタ構造の単位セルの別のより詳細な図を示す（ハロー領域のレジスタは、対応する実行レーンを含まない）。実行レーンおよび実行レーンアレイの各位置に関連するレジスタ空間は、一実施形態では、実行レーンアレイの各ノードで、図６ａに示す回路系をインスタンス化することによって実施される。図６ａに示すように、単位セルは、４つのレジスタＲ２〜Ｒ５からなるレジスタファイル６０２に結合される実行レーン６０１を含む。任意のサイクルの間、実行レーン６０１は、レジスタＲ１〜Ｒ５のいずれかから読み書きすることができる。２つの入力オペランドを
必要とする命令の場合、実行レーンはＲ１〜Ｒ５のいずれかからオペランドの両方を取り出すことができる。

一実施形態では、二次元シフトレジスタ構造は、近隣のレジスタファイル間のシフトが同じ方向にあるように（例えば、すべての実行レーンは左にシフトする、すべての実行レーンは右にシフトするなど）、それの近隣のレジスタファイルが入力マルチプレクサ６０４を介する場合に、単一のサイクルの間に、レジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が、出力マルチプレクサ６０３を介してその近隣のレジスタファイルの１つにシフト「アウト」され、対応するものからシフト「イン」される内容でレジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が置き換えられることによって、実現される。同じレジスタがその内容がシフトアウトされて同じサイクルでシフトインされる内容で置き換えられるのが一般的であるかもしれないが、マルチプレクサ構成６０３，６０４は、同じサイクル中に同じレジスタファイル内で異なるシフトソースおよびシフトターゲットレジスタを可能にする。

図６ａに示すように、シフトシーケンスの間、実行レーンは、内容をそのレジスタファイル６０２からその左、右、上および下の近隣のレジスタファイルにシフトアウトする。同じシフトシーケンスと関連して、実行レーンは、さらに、内容をその左、右、上および下の近隣のレジスタファイルの特定のものからそれのレジスタファイルにシフトする。再び、シフトアウトターゲットおよびシフトインソースは、すべての実行レーンについて同じシフト方向と整合しなければならない（例えば、シフトアウトが右隣に対する場合、シフトインは左隣からでなければならない）。

一実施形態では、１サイクルにつき１つの実行レーンにつき１つのレジスタの内容だけをシフトすることが許されるが、他の実施形態では、２つ以上のレジスタの内容をシフトイン／アウトすることが許されてもよい。例えば、図６ａに示されたマルチプレクサ回路系６０３，６０４の第２の例が図６ａの設計に組み込まれる場合、同じサイクルの間に２つのレジスタの内容がシフトアウト／インされてもよい。もちろん、１つのレジスタの内容だけがサイクルごとにシフトされることが許される実施形態では、数学的演算間のシフトのためにより多くのクロックサイクルを消費することによって、複数のレジスタからのシフトが数学的演算間に起こってもよい（例えば、２つのレジスタの内容が、数学的演算間で２つのシフト演算を消費することによって数学的演算間でシフトされてもよい）。

実行レーンのレジスタファイルのすべての内容未満がシフトシーケンス中にシフトアウトされる場合、各実行レーンのシフトアウトされないレジスタの内容は適所に残る（シフトしない）ことに留意されたい。したがって、シフトインされる内容と置き換えられないシフトされない内容は、シフトサイクルにわたって実行レーンにローカルに維持される。各実行レーンで見られるメモリユニット（「Ｍ」）は、実行レーンアレイ内の実行レーンの行および／または列に関連付けられるランダムアクセスメモリ空間からデータをロード／に格納するために使用される。ここで、Ｍユニットは、実行レーンの自身のレジスタ空間からロード／に格納できないデータをロード／格納するためによく使用されるという点で、標準的なＭユニットとして機能する。様々な実施形態では、Ｍユニットの主な動作は、ローカルレジスタからメモリにデータを書き込み、メモリからデータを読み出してそれをローカルレジスタに書き込むことである。

ハードウェア実行レーン６０１のＡＬＵユニットによってサポートされるＩＳＡオペコードに関して、様々な実施形態において、ハードウェアＡＬＵによってサポートされる数学的オペコードは、仮想実行レーンによってサポートされる数学的オペコード（例えば、ＡＤＤ、ＳＵＢ、ＭＯＶ、ＭＵＬ、ＭＡＤ、ＡＢＳ、ＤＩＶ、ＳＨＬ、ＳＨＲ、ＭＩＮ／ＭＡＸ、ＳＥＬ、ＡＮＤ、ＯＲ、ＸＯＲ、ＮＯＴ）と一体的に結び付けられる（例えば実
質的に同じである）。上述のように、メモリアクセス命令は、実行レーン６０１によって実行され、データをそれらの関連付けられるランダムアクセスメモリからフェッチ／に格納することができる。さらに、ハードウェア実行レーン６０１は、シフト演算命令（右、左、上、下）をサポートし、二次元シフトレジスタ構造内でデータをシフトする。上述したように、プログラム制御命令は主にステンシルプロセッサのスカラープロセッサによって実行される。

図７ａは、二次元レジスタアレイ構造の論理的（および潜在的には物理的な）設計の「トップダウン」図の一実施形態を示す。図７ａの「トップダウン」図は、図６の単位セル設計の実施形態に本質的に従っており、特定のアレイ位置の各レジスタファイルが、その左、右、上および下の近隣の単位セル位置のレジスタファイルに結合されている。すなわち、例えば、図７ａに見られるように、レジスタファイルＡは、レジスタファイルＢ、Ｃ、ＤおよびＥに結合される。

図７ｂは、二次元レジスタアレイ構造の論理的（および潜在的に物理的な）設計の「トップダウン」図の別の実施形態を示す。図７ｂに見られるように、単位セルは、最も近い垂直および水平方向の近隣に結合されるだけでなく、「第２に」最も近い垂直および水平方向の近隣にも結合される。例えば、図７ｂに見られるように、単位セルＡは、単位セルＢ、Ｃ、ＤおよびＥに結合されるだけでなく、単位セルＦ、Ｇ、ＨおよびＩにも結合される。図示および表示を容易にするために、単位セルＡだけが、最も近い近隣結合および第２に最も近い近隣結合の両方を有するのに必要な接続の全セットを有するものとして示されている。単位セルＡ以外では、１つおきの単位セルだけが、任意の特定の行または列に沿って第２に最も近い近隣結合を示す（例えば、単位セルＢは、第２に最も近い近隣結合を全く示さない）。読者は、好ましい実施形態が、例えば、コア内の、第２に最も近い近隣結合をサポートするようアレイ縁部から十分離れている全ての単位セルに対して単位セルＡの結合を含むであろうことを理解するであろう。

第２に最も近い接続を有することにより、レジスタアレイを介したレジスタ値のより高速な伝搬が可能になる。例えば、レジスタ値を４つの位置だけ離れた単位セルに移動する必要がある場合、図７ｂのアレイ構造は２サイクルで移動を達成することができるが、図７ｂのアレイ構造は４サイクルだけで同じ移動を達成することができる。図７ｂの実施形態は、最も近い近隣接続も有することに留意されたい。したがって、図７ｂの構造に対する実行レーン命令セットは、図７ａの構造のための実行レーン命令セットよりも拡張的であり得る（前者は１ホップおよび２ホップＭＯＶ命令を有するが、後者は１ホップＭＯＶ命令しか持たない）。

異なる番号のホップ移動の数および組合せ、ならびに対応するアレイ構造の実施形態は、迅速なレジスタ値の移動の必要性とアレイ構造配線密度の許容差との間の適切なトレードオフのバランスに応じて、実施形態ごとに大きく異なり得ることを指摘することが適切である。一部の実施形態は、第３および／または第４に最も近い近隣接続をサポートしてもよく、他の接続はサポートしなくてもよい（第４に最も近い近隣接続の場合、例えば、単位セルＤは、図７ｂの単位セルＪに直接結合されるであろう）。いくつかの実施形態は、最も近い近隣接続および第３に最も近いかまたはそれより遠い接続などのみを有してもよい。おそらく、より精巧な実施形態は、斜め接続（例えば、単位セルＡを図７ｂの単位セルＫおよびそれの他の３つの近隣コーナー単位セルと接続すること）をサポートすることさえできる。当業者であれば、単位セル間の様々な拡張された接続のいずれでも、図６の入力マルチプレクサ構造６０４への入力のソースを拡張し、出力マルチプレクサ構造６０３からのファンアウトを拡張することによって、容易に達成されることを認識するであろう。

図８ａは、二次元レジスタアレイ構造内で行または列に沿ったレジスタの例示的な論理配置を示す（図示を容易にするため、レジスタアレイは８×８の寸法しか持たないが、実際には寸法ははるかに大きくてもよい）。ここで、処理されているアレイにおける近隣のピクセルは、数値的に近隣の単位セルに位置する（例えば、アレイにおける近隣のピクセルの対は、単位セル３および５ではなく単位セル３および４に配置される）。図８ａの論理設計はまた、接続８０１を介して最初の論理単位セル１を最後の単位セル８に結合することによってロール能力を含む（したがって、実行レーンアレイの実行レーンはロールオペコードを含むこともできる）。

しかし、図８ａの設計が論理設計を表すだけでなく、物理的設計も表す場合には、特に大きな寸法のアレイの場合に問題が生じる可能性がある。図８ａのアプローチが物理的設計も表す場合、接続８０１は、対１および８以外の単位セル対を接続する他の配線の長さと比較して、極端に長い配線に対応する。この特定の配線長外れ値は、（すべての単位セル間のすべてのシフト時間を最も遅い１＜−＞８シフト時間以上になるように遅くすることにより、または任意の他の近隣の単位セル間のシフトよりも１＜−＞８シフト間においてより多くのサイクルを認識する複雑さを導入することにより）回路のタイミングの複雑さを引き起こす可能性がある。

図８ｂは、図８ａの論理設計を有するレジスタアレイ構造の行または列に対する改良された物理的設計の実施形態を示す。ここで、物理的設計は、（論理設計の場合のように）単なる論理接続に対立するものとしての回路構造の実際のレイアウトに対応する。図８ｂに見られるように、物理的設計は、レイアウトの論理にトロイド設計を課すことによって、他の単位セル間において１＜−＞８接続に必要とされる余分な長さを償却する。例えば、単位セル１は論理設計を保存するために単位セル２に物理的に接続されているが、単位セル８は物理的にそれらの間に座する。結果は、図８ａの配線８０１の長さよりもはるかに短い、図８ｂの構造における単位セル間の最大配線長さである。したがって、図８ｂの構造のタイミングの複雑さは、上述した図８ａの構造のタイミングの複雑さを回避する。一実施形態では、すべての単位セル間のレジスタ内容のロールが単一のサイクル内で発生し得る。

図８ｃは、シート生成部またはランダムアクセスメモリ８０２（図４のＲＡＭ４０７のいずれかなど）とレジスタアレイの行または列との間のデータバス構造が一種の攪拌構造８０３を含み、トロイド物理レイアウトを有するアレイまたは行への正しい論理接続を維持するのを示す。図８ｄは、任意のレジスタ値が移動する最大距離が４単位セルである４ホップシフトを実現することができる別のトロイド構造を示す。ここでは、図８ｄのレジスタとシート生成部またはＲＡＭとの間に別の攪拌状のデータバスが存在するであろうことは明らかである。このように、トロイド物理レイアウトの実現の特徴は、論理的順序で配列される入力を接続するデータバスによる攪拌の存在である。

図８ｅは、シフトアレイ構造の単位セルの出力マルチプレクサ８０４からの特別なファンアウト回路系を示す。ここで、出力マルチプレクサ８０４は、図６ａの出力マルチプレクサ６０３に類似していると見ることができる。シフトアレイが、ますます多くの接続（１ホップ、２ホップなど）をサポートするように設計されるにつれ、出力マルチプレクサ８０４のファンアウトは増大する。マルチプレクサ８０４のファンアウトが増大するにつれて、電力消費はますます問題になる可能性がある。図８ｅは、１ホップおよび２つの接続の両方を充分にサポートするシフトレジスタアレイのための出力マルチプレクサ８０４を示す。ここで、図８ｅに見られる論理ゲートの存在なしで、マルチプレクサ８０４における新たな出力（例えば新しいシフトアウト値）は、８つの異なる位置（左隣、右隣、…、２ホップ下隣）にブロードキャストされるであろう。ここでは、当技術分野で理解されているように、論理回路における配線のランレングスを横切るデータの変化は、「スイッ
チング動作」に対応し、これは電力を消費する。

マルチプレクサ８０４の出力で見られる８つの論理ゲートの存在は、シフト方向に対応する実際の配線上を除くそのようなデータ変化を防止するように設計される。例えば、シフト方向が右へ１ホップである場合、すぐ右隣に結合されるゲートのみが、マルチプレクサ８０４の出力を通過させる。すべての他の論理ゲートは、データ値が（シフト値が必要とされない）他のノードに伝搬するのを防止し、プロセスにおけるシフト動作の電力消費を低減する。

ｃ．実現例の実施形態
上述した様々な画像プロセッサアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限定されず、したがって、画像プロセッサを再特徴付けしてもよい（またはしなくてもよい）他のアプリケーションに適用することができることを指摘することが適切である。例えば、実際のカメラ画像の処理とは対照的に、アニメーションの作成および／または生成および／またはレンダリングにおいて上述した様々な画像プロセッサアーキテクチャの特徴のいずれかが使用される場合、画像プロセッサはグラフィックス処理ユニットとして特徴づけられてもよい。さらに、上述した画像プロセッサアーキテクチャの特徴は、ビデオ処理、視覚処理、画像認識および／または機械学習などの他の技術的用途にも適用することができる。このように適用されて、画像プロセッサは、より汎用的なプロセッサ（例えば、コンピューティングシステムのＣＰＵの一部であるか、またはその一部である）と（例えばコプロセッサとして）一体化されてもよく、またはコンピューティングシステム内のスタンドアロンプロセッサであってもよい。

上述したハードウェア設計の実施形態は、半導体チップ内において、および／または最終的に半導体製造プロセスに向けての回路設計の記述として実施することができる。後者の場合、そのような回路記述は、より高い／挙動レベルの回路記述（例えばＶＨＤＬ記述）もしくはより低いレベルの回路記述（例えばレジスタ転送レベル（ＲＴＬ）記述、トランジスタレベル記述もしくはマスク記述）またはそれらの様々な組み合わせの形態をとってもよい。回路記述は、典型的には、コンピュータ可読記憶媒体（例えばＣＤ−ＲＯＭまたは他のタイプの記憶技術）上に実施される。

先のセクションから、上記の画像プロセッサは、（例えば、ハンドヘルド装置のカメラからのデータを処理するハンドヘルド装置のシステムオンチップ（ＳＯＣ）の一部として）コンピュータシステム上のハードウェアで実施できることを認識することに関係する。画像プロセッサがハードウェア回路として実施される場合、画像プロセッサによって処理される画像データはカメラから直接受信されてもよいことに留意されたい。ここで、画像プロセッサは、別体のカメラの一部であってもよいし、一体化されたカメラを有するコンピューティングシステムの一部であってもよい。後者の場合、画像データは、カメラから直接、またはコンピューティングシステムのシステムメモリから受信することができる（例えば、カメラは、その画像データを画像プロセッサではなくシステムメモリに送信する）。先のセクションで説明した機能の多くは、（アニメーションをレンダリングする）グラフィックスプロセッサユニットにも適用可能であることにも留意されたい。

図９は、コンピューティングシステムの例示的な図である。以下に説明するコンピューティングシステムのコンポーネントの多くは、一体化されたカメラおよび関連する画像プロセッサ（例えば、スマートフォンまたはタブレットコンピュータなどのハンドヘルドデバイス）を有するコンピューティングシステムに適用可能である。当業者は、２つの間の範囲を容易に定めることができるであろう。

図９に見られるように、基本的なコンピューティングシステムは、中央処理ユニット９
０１（例えば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア９１５＿１〜９１５＿Ｎおよびメインメモリコントローラ９１７を含み得る）、システムメモリ９０２、ディスプレイ９０３（例えばタッチスクリーン、フラットパネル）、ローカル有線ポイントツーポイントリンク（例えばＵＳＢ）インタフェース９０４、様々なネットワークＩ／Ｏ機能９０５（イーサネット（登録商標）インタフェースおよび／またはセルラーモデムサブシステムなど）、無線ローカルエリアネットワーク（例えばＷｉＦｉ）インタフェース９０６、ワイヤレスポイントツーポイントリンク（例えばブルートゥース（登録商標））インタフェース９０７およびグローバルポジショニングシステムインタフェース９０８、様々なセンサ９０９＿１〜９０９＿Ｎ、１つ以上のカメラ９１０、バッテリ９１１、電力管理制御ユニット９１２、スピーカおよびマイクロホン９１３、ならびに音声コーダ／デコーダ９１４を含んでもよい。

アプリケーションプロセッサまたはマルチコアプロセッサ９５０は、そのＣＰＵ９０１内における１つ以上の汎用処理コア９１５、１つ以上のグラフィカル処理ユニット９１６、メモリ管理機能９１７（例えばメモリコントローラ）、Ｉ／Ｏ制御機能９１８および画像処理ユニット９１９を含んでもよい。汎用処理コア９１５は、典型的には、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。グラフィックス処理ユニット９１６は、典型的には、ディスプレイ９０３上に提示されるグラフィックス情報を生成するために、グラフィックス集中型機能を実行する。メモリ制御機能９１７は、システムメモリ９０２とインタフェースして、システムメモリ９０２との間でデータの書込／読出を行う。電力管理制御ユニット９１２は、システム９００の電力消費を全体的に制御する。

画像処理ユニット９１９は、先のセクションで説明した画像処理ユニットの実施形態のいずれかに従って実現することができる。代替的にまたは組み合わせて、ＩＰＵ９１９は、ＧＰＵ９１６およびＣＰＵ９０１のいずれかまたは両方にそのコプロセッサとして結合されてもよい。さらに、様々な実施形態では、ＧＰＵ９１６は、上で説明した画像プロセッサの特徴のいずれかを用いて実現することができる。

タッチスクリーンディスプレイ９０３、通信インタフェース９０４〜９０７、ＧＰＳインタフェース９０８、センサ９０９、カメラ９１０、およびスピーカ／マイクコーデック９１３，９１４の各々はすべて、適切な場合には、一体化された周辺装置（例えば１つ以上のカメラ９１０）も含むコンピューティングシステム全体に対して様々な形態のＩ／Ｏ（入力および／または出力）として見ることができる。実現例によっては、これらのＩ／Ｏコンポーネントの様々なものは、アプリケーションプロセッサ／マルチコアプロセッサ９５０上に統合されてもよく、またはアプリケーションプロセッサ／マルチコアプロセッサ９５０のダイから離れて、またはそのパッケージ外に配置されてもよい。

一実施形態では、１つ以上のカメラ９１０は、カメラとその視野内の対象との間の深度を測定することができる深度カメラを含む。アプリケーションプロセッサまたは他のプロセッサの汎用ＣＰＵコア（もしくはプログラムコードを実行するために命令実行パイプラインを有する他の機能ブロック）上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェアおよび／またはファームウェアは、上記の機能のいずれかを実行してもよい。

本発明の実施形態は、上述したような様々なプロセスを含むことができる。これらのプロセスは、機械実行可能命令で実施されてもよい。これらの命令は、汎用または特殊目的のプロセッサに特定のプロセスを実行させるために使用できる。代替的に、これらのプロセスは、プロセスを実行するためのハードワイヤード論理を含む特定のハードウェアコンポーネントによって、またはプログラミングされたコンピュータコンポーネントとカスタ
ムハードウェアコンポーネントとの任意の組み合わせによって実行されてもよい。

本発明の要素はまた、機械実行可能命令を記憶するための機械可読媒体として提供されてもよい。機械可読媒体は、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、および光磁気ディスク、フラッシュメモリ、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気もしくは光カード、伝搬媒体、または電子命令を記憶するのに適した他のタイプの媒体／機械可読媒体を含むが、それらに限定はされない。例えば、本発明は、搬送波または通信リンク（例えばモデムもしくはネットワーク接続）を介する他の伝搬媒体で実施されたデータ信号によって、遠隔のコンピュータ（例えばサーバ）から要求側コンピュータ（例えばクライアント）に転送され得るコンピュータプログラムとしてダウンロードすることができる。

前述の明細書では、本発明をその特定の例示的な実施形態を参照して説明した。しかしながら、特許請求の範囲に記載される本発明のより広い精神および範囲から逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。

Claims

プロセッサであって、
複数の実行レーンを備え、各実行レーンは命令を実行することができる論理回路を含み、
電気的に結合された複数のシフトレジスタからなる二次元シフトレジスタアレイを備え、各実行レーンは、当該実行レーンに専用のそれぞれのシフトレジスタから前記二次元シフトレジスタアレイ上で１つ以上の隣接するシフトレジスタにデータをシフトするように構成され、前記１つ以上の隣接するシフトレジスタの各々は、異なる実行レーンに専用のシフトレジスタであり、
前記プロセッサは、前記複数の実行レーンによって、重なり合うステンシルのうち複数に亘るステンシル機能の命令を実行するように構成されており、当該命令は、各実行レーンによって実行されることで、各実行レーンが前記ステンシル機能によって定義されたそれぞれのステンシルの複数の値を読み出せるように、前記二次元シフトレジスタアレイのシフトレジスタにおいてデータを二次元に複数回シフトすることを前記実行レーンに実行させる、プロセッサ。
前記複数の実行レーンの各実行レーンは、当該実行レーンに専用の１つ以上のシフトレジスタに読み書きするように構成された算術論理ユニットを含む、請求項１に記載のプロセッサ。
前記複数の実行レーンのすべての実行レーンは、前記シフトレジスタ上のデータを同じ指定された方向に同時にシフトするように構成される、請求項１に記載のプロセッサ。
前記プロセッサは、前記二次元シフトレジスタアレイの二次元のうち１つに沿った方向を指定するシフト命令を受け取り、前記指定された方向を示すデータを前記複数の実行レーンの各々にブロードキャストするように構成される、請求項１に記載のプロセッサ。
前記実行レーンは、前記方向を前記シフト命令の一部として受け取ることに応答して、前記二次元シフトレジスタアレイの同じ方向に沿って前記二次元シフトレジスタアレイ上のデータをシフトするように構成される、請求項４に記載のプロセッサ。
前記プロセッサは、二次元画像データのシートを受け取り、前記二次元画像データのシートの別個の部分を前記二次元シフトレジスタアレイの対応のシフトレジスタに格納するように構成される、請求項１に記載のプロセッサ。
各実行レーンは、ランダムアクセスメモリに読み書きすることなく、当該実行レーンに専用のシフトレジスタから隣接するシフトレジスタにデータをシフトするように構成される、請求項１に記載のプロセッサ。
各実行レーンは、当該実行レーンの算術論理ユニットによってデータが処理されることなく、当該実行レーンに専用のシフトレジスタから隣接するシフトレジスタへ前記データをシフトするように構成される、請求項１に記載のプロセッサ。
各実行レーンは、１つ以上の専用シフトレジスタと１つ以上の専用テンポラリレジスタとを含む２つ以上の異なるタイプの専用レジスタを有し、各実行レーンの算術論理ユニットは、当該実行レーンの前記１つ以上の専用シフトレジスタおよび前記１つ以上の専用テンポラリレジスタに対する読み書きを行うように構成される、請求項１に記載のプロセッサ。
複数のハロー実行レーンをさらに備え、各ハロー実行レーンは、前記二次元シフトレジスタアレイ上の前記複数のシフトレジスタのうち１つ以上のシフトレジスタを有し、
前記ハロー実行レーンに専用のシフトレジスタは、前記二次元シフトレジスタアレイの縁部に沿って位置するシフトレジスタであり、
前記複数のハロー実行レーンの各ハロー実行レーンは、算術論理ユニットを有していない、請求項１に記載のプロセッサ。
前記ステンシル機能の命令を実行することで、各実行レーンは、それぞれのステンシルの複数の値を使用して、前記ステンシルに従う値をそれぞれ単一の出力値を算出する、請求項１に記載のプロセッサ。
プロセッサにおける複数の実行レーンによって、重なり合うステンシルのうち複数に亘るステンシル機能の命令を実行する、コンピュータによって実現される方法であって、前記プロセッサは、電気的に結合された複数のシフトレジスタを含む二次元シフトレジスタアレイを備え、前記複数のシフトレジスタの各々は、異なる実行レーンに専用のシフトレジスタであり、
前記プロセッサにおける複数の実行レーンの各実行レーンが、前記ステンシル機能を実現する命令を受け取るステップを備え、
各実行レーンは、命令を実行可能な論理回路を含み、各実行レーンは、当該実行レーンに専用のそれぞれのシフトレジスタから前記二次元シフトレジスタアレイ上で１つ以上の隣接するシフトレジスタにデータをシフトするように構成され、
前記ステンシル機能の命令が前記複数の実行レーンの各実行レーンによって実行されるることで、各実行レーンが前記ステンシル機能によって定義されたそれぞれのステンシルの複数の値を読み出せるように、前記二次元シフトレジスタアレイのシフトレジスタにおいてデータを二次元に複数回シフトすることを前記実行レーンに実行させる、方法。
前記複数の実行レーンの各実行レーンは、当該実行レーンに専用の１つ以上のシフトレジスタに読み書きするように構成された算術論理ユニットを含む、請求項１２に記載の方法。
各実行レーンがステンシル機能の命令を実行することで、前記実行レーンに、前記シフトレジスタ上のデータを同じ指定された方向に同時にシフトさせる、請求項１２に記載の方法。
前記ステンシル機能の命令は、前記二次元シフトレジスタアレイの二次元のうち１つに沿った方向を指定し、前記方法は、前記プロセッサが前記指定された方向を示すデータを前記複数の実行レーンの各々にブロードキャストするステップをさらに備える、請求項１２に記載の方法。
前記実行レーンは、前記方向を前記命令の一部として受け取ることに応答して、前記二次元シフトレジスタアレイの同じ方向に沿って前記二次元シフトレジスタアレイ上のデータをシフトするように構成される、請求項１５に記載の方法。
前記プロセッサが二次元画像データのシートを受け取るステップと、
前記プロセッサが前記二次元画像データのシートの別個の部分を前記二次元シフトレジスタアレイ上の対応のシフトレジスタに格納するステップとをさらに備える、請求項１２に記載の方法。
各実行レーンが前記シフトレジスタ上のデータをシフトするステップは、ランダムアクセスメモリに読み書きすることなく、前記実行レーンに専用のシフトレジスタから隣接するシフトレジスタに前記データをシフトするステップを含む、請求項１２に記載の方法。
各実行レーンがデータをシフトすることは、前記シフトレジスタ上のデータを当該実行レーンの算術論理ユニットによって処理することなく、当該実行レーンに専用のシフトレジスタから隣接するシフトレジスタに前記データをシフトするステップを含む、請求項１２に記載の方法。
各実行レーンは、１つ以上の専用シフトレジスタと１つ以上の専用テンポラリレジスタとを含む２つ以上の異なるタイプの専用レジスタを有し、各実行レーンの算術論理ユニットは、当該実行レーンの前記１つ以上の専用シフトレジスタおよび前記１つ以上の専用テンポラリレジスタに対する読み書きを行うように構成される、請求項１２に記載の方法。
各実行レーンがデータをシフトするステップは、１つ以上の実行レーンによって、１つ以上のハロー実行レーンに専用の１つ以上のシフトレジスタにデータをシフトするステップを含み、
前記ハロー実行レーンに専用のシフトレジスタは、前記二次元シフトレジスタアレイの縁部に沿って位置するシフトレジスタであり、
前記１つ以上のハロー実行レーンの各ハロー実行レーンは、算術論理ユニットを有していない、請求項１２に記載の方法。
前記ステンシル機能の命令を実行することで、各実行レーンは、それぞれのステンシルの複数の値を使用して、前記ステンシルに従う値をそれぞれ単一の出力値を算出する、請求項１２に記載の方法。