JP6612403B2

JP6612403B2 - 画像プロセッサのためのエネルギ効率的なプロセッサコアアーキテクチャ

Info

Publication number: JP6612403B2
Application number: JP2018148594A
Authority: JP
Inventors: メイクスナー，アルバート; レッドグレイブ，ジェイソン・ルパート; シャチャム，オフェル; フィンチェルステイン，ダニエル・フレデリック; ヂュー，チウリン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-23
Filing date: 2018-08-07
Publication date: 2019-11-27
Anticipated expiration: 2036-04-08
Also published as: KR20170125932A; US20210004232A1; US20170249153A1; WO2016171928A1; US20160313999A1; US11138013B2; CN107408041A; JP6967570B2; JP2018206413A; JP2020035471A; US20190220282A1; DE112016001836T5; US10754654B2; JP2018513473A; KR101971657B1; US10275253B2; CN107408041B; US9772852B2; EP3286722A1; JP6412663B2

Description

発明の分野
本発明の分野は、一般に画像処理に関し、より詳細には、画像プロセッサのためのエネルギ効率的なプロセッサコアアーキテクチャに関する。

背景
画像処理は、典型的には、アレイに編成されたピクセル値の処理を含む。ここで、空間的に編成された二次元アレイは、画像の二次元的性質を捕捉する（追加の次元は、時間（例えば二次元画像のシーケンス）およびデータタイプ（例えば色）を含み得る。典型的なケースでは、アレイ化されたピクセル値は、静止画像または動きの画像を捕捉するためにフレームのシーケンスを生成したカメラによって提供される。伝統的な画像プロセッサは、典型的には、２つの極端な側面のいずれかに分類される。

第１の極端な側面は、汎用プロセッサまたは汎用状プロセッサ（例えばベクトル命令拡張を備えた汎用プロセッサ）上で実行されるソフトウェアプログラムとして画像処理タスクを実行する。第１の極端な側面は、一般的に非常に汎用性の高いアプリケーションソフトウェア開発プラットフォームを提供するが、関連するオーバーヘッド（例えば、命令フェッチおよびデコード、オンチップおよびオフチップデータの処理、投機的実行）と組み合わされたより精細な粒子のデータ構造の使用は、究極的には、プログラムコードの実行中に、データの単位あたり、より多くのエネルギが消費される結果となる。

第２の逆の極端な側面は、固定機能のハードワイヤード回路系をはるかに大きなデータブロックに適用する。カスタム設計された回路に直接適用される、（粒度の細かいブロックとは対照的な）より大きなデータブロックの使用は、データ単位あたりの消費電力を大幅に削減する。しかしながら、カスタム設計された固定機能回路系の使用は、一般に、プロセッサが実行することができるタスクのセットが限られる結果となる。このように、（第１の極端な側面に関連する）幅広く汎用性の高いプログラミング環境は第２の極端な側面においては欠けている。

高度に汎用性の高いアプリケーションソフトウェア開発の機会と、データ単位あたりの電力効率の向上とを両立させた技術プラットフォームは、依然として望ましいが、欠けている解決策である。

概要
装置が記載される。装置は、命令をフェッチし発行するためのプログラムコントローラを含む。装置は、命令を実行するよう少なくとも１つの実行ユニットを有する実行レーンを含む。実行レーンは、二次元シフトレジスタアレイ構造に結合される実行レーンアレイの一部であり、実行レーンアレイの実行レーンは、それぞれのアレイ位置に位置し、二次元シフトレジスタアレイにおいてそれぞれの同じアレイ位置で専用レジスタに結合される。

図面のリスト
以下の説明および添付の図面は、本発明の実施形態を例示するために使用される。

画像プロセッサハードウェアアーキテクチャの実施形態を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。ステンシルプロセッサの実施形態を示す。ステンシルプロセッサの命令ワードの実施形態を示す。ステンシルプロセッサ内のデータ計算ユニットの一実施形態を示す図である。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。統合された実行レーンアレイおよび二次元シフトアレイのための単位セルの実施形態を示す。実行レーンＡＬＵの一実施形態を示す図である。第１の二次元レジスタアレイ構造相互接続スキームを示す図である。第２の二次元レジスタアレイ構造相互接続スキームを示す。二次元レジスタアレイ構造の第１の行または列を示す図である。二次元レジスタアレイ構造の第２の行または列を示す図である。メモリユニットに結合される図８ｂの行を示す。別のトロイドの実施形態を示す。電力保存回路を示す。レジスタファイル内のレジスタのより高いビット幅での動作に関連する。実行レーンアレイ内においてメモリ動作を制御することに関する。コンピューティングシステムの一実施形態を示す。

詳細な記載
ａ．画像プロセッサハードウェアアーキテクチャおよび動作
図１は、ハードウェアで実現される画像プロセッサのためのアーキテクチャ１００の実施形態を示す。画像プロセッサは、例えば、シミュレートされた環境内で仮想プロセッサ用に書かれたプログラムコードを、ハードウェアプロセッサによって実際に実行されるプログラムコードに変換するコンパイラによって対象とされてもよい。図４に示すように、アーキテクチャ１００は、複数のラインバッファユニット１０１＿１〜１０１＿Ｍを含み、それらは、複数のステンシルプロセッサユニット１０２＿１〜１０２＿Ｎおよび対応するシート生成部ユニット１０３＿１〜１０３＿Ｎに、ネットワーク１０４（例えば、ネットワークオンチップ（ＮＯＣ）（オンチップスイッチネットワーク、オンチップリングネットワークまたは他の種類のネットワークを含む））を介して相互接続される。一実施形態では、どのラインバッファユニットが、ネットワーク１０４を介してどのシート生成部および対応するステンシルプロセッサに接続してもよい。

一実施形態では、プログラムコードはコンパイルされ、対応するステンシルプロセッサ１０２にロードされて、ソフトウェア開発者によって以前に定義された画像処理動作を実行する（プログラムコードは、例えば、設計および実装に応じて、ステンシルプロセッサの関連のシート生成部１０３にもロードされてもよい）。少なくともいくつかの例では、画像処理パイプラインを、第１のパイプラインステージ用の第１のカーネルプログラムを第１のステンシルプロセッサ１０２＿１にロードし、第２のパイプラインステージ用の第２のカーネルプログラムを第２のステンシルプロセッサ１０２＿２にロードするなどして、実現することができ、第１のカーネルはパイプラインの第１ステージの機能を実行し、第２のカーネルはパイプラインの第２ステージの機能を実行し、追加の制御フロー方法がインストールされて、出力画像データをパイプラインの１つのステージからの次のステージに渡す。

他の構成では、画像プロセッサは、同じカーネルプログラムコードを動作させる２つ以上のステンシルプロセッサ１０２＿１，１０２＿２を有する並列マシンとして実現することができる。例えば、画像データの高密度かつ高データレートのストリームが、各々が同じ機能を実行する複数のステンシルプロセッサにわたってフレームを広げることによって処理されてもよい。

さらに他の構成では、カーネルの本質的に任意のＤＡＧのハードウェアプロセッサへのロードを、それぞれのステンシルプロセッサをそれら自身のプログラムコードのカーネルとともに構成し、適切な制御フローフックをハードウェアに構成して、出力画像をＤＡＧ設計における１つのカーネルから次のカーネルの入力に向けることによって、行なってもよい。

一般的なフローとして、画像データのフレームは、マクロＩ／Ｏユニット１０５で受信され、フレーム単位でラインバッファユニット１０１の１つ以上に渡される。特定のラインバッファユニットは、それの画像データのフレームを、「ライングループ」と呼ばれる画像データのより小さな領域に解析し、次いでライングループをネットワーク１０４を介して特定のシート生成部に渡す。ある完全な（ｆｕｌｌ）単数のライングループを、例えば、フレームの複数の連続した完全な行または列のデータで構成することができる（簡単にするために、本明細書では主に連続した行と称する）。シート生成部は、画像データのライングループを「シート」と呼ばれる画像データのより小さな領域にさらに解析し、そ
のシートを対応するステンシルプロセッサに提示する。

単一入力の画像処理パイプラインやＤＡＧフローの場合、一般に、入力フレームは、同じラインバッファユニット１０１＿１に向けられ、それは、画像データをライングループに解析し、ライングループを対応するシート生成部１０３＿１（対応するステンシルプロセッサ１０２＿１はパイプライン／ＤＡＧにおいて第１のカーネルのコードを実行している）に向ける。ステンシルプロセッサ１０２＿１による、それが処理するライングループでの動作が終了した後、シート生成部１０３＿１は、出力ライングループを「下流」のラインバッファユニット１０１＿２に送信する（ある使用例では、出力ライングループは、先に入力ライングループを送信したのと同じラインバッファ装置１０１＿１に送り返すことができる）。

自身のそれぞれの他のシート生成部およびステンシルプロセッサ（例えば、シート生成部１０３＿２およびステンシルプロセッサ１０２＿２）上で実行されるパイプライン／ＤＡＧにおける次のステージ／動作を表す１つ以上の「消費側」カーネルは、下流ラインバッファユニット１０１＿２から、第１のステンシルプロセッサ１０２＿１によって生成された画像データを受信する。このようにして、第１のステンシルプロセッサ上で動作する「作成側」カーネルは、その出力データが、第２のステンシルプロセッサ上で動作する「消費側」カーネルに転送され、消費側カーネルは、パイプラインまたはＤＡＧ全体の設計と整合する作成側カーネルの後に次のタスクのセットを実行する。

ステンシルプロセッサ１０２は、画像データの複数の重なり合うステンシル上で同時に動作するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内部ハードウェア処理能力は、シートのサイズを効果的に決定する。ここでは、ステンシルプロセッサ１０２内で、実行レーンのアレイが一致して動作して、複数の重なり合うステンシルによってカバーされる画像データ表面領域を同時に処理する。

以下でより詳細に説明するように、様々な実施形態において、画像データのシートは、ステンシルプロセッサ１０２内において二次元レジスタアレイ構造にロードされる。シートおよび二次元レジスタアレイ構造の使用は、大量のデータを、大量のレジスタ空間に、例えば、処理タスクが実行レーンアレイによってその直後に直接データ上で実行される単一のロード動作として移動することによって、電力消費の改善を効果的に提供すると考えられている。さらに、実行レーンアレイおよび対応するレジスタアレイの使用は、容易にプログラマブル／設定可能な異なるステンシルサイズを提供する。

図２ａ〜図２ｅは、ラインバッファユニット１０１の解析アクティビティ、およびシート生成部ユニット１０３のより微細な粒子の解析アクティビティ、ならびにシート生成部１０３に結合されるステンシルプロセッサ１０２のステンシル処理アクティビティの両方のハイレベルの実施形態を示す。

図２ａは、画像データ２０１の入力フレームの一実施形態を示す。図２ａはまた、ステンシルプロセッサが動作するように設計された３つの重なり合うステンシル２０２（各々３ピクセル×３ピクセルの寸法を有する）の概要を示す。各ステンシルがそれぞれ出力画像データを生成する出力ピクセルは、ベタ黒で強調表示される。簡略化のために、３つの重なり合うステンシル２０２は、垂直方向にのみ重なるように示されている。実際には、ステンシルプロセッサは、垂直方向および水平方向の両方に重なるステンシルを有するように設計されてもよいことを認識することが適切である。

図２ａに見られるように、ステンシルプロセッサ内の垂直に重なり合うステンシル２０２のために、フレーム内に単一のステンシルプロセッサが動作することができる画像デー
タの広い帯域が存在する。以下でより詳細に説明するように、一実施形態では、ステンシルプロセッサは、データを、それらの重なり合うステンシル内で、左から右への態様で、画像データにわたって処理する（そして、次のラインのセットに対して、上から下の順序で繰り返す）。このように、ステンシルプロセッサがそれらの動作を前方に進めるにつれて、ベタ黒出力ピクセルブロックの数は、水平方向に右に成長する。上述したように、ラインバッファユニット１０１は、ステンシルプロセッサが今後の拡張された数のサイクルにわたって動作するのに十分な入来フレームからの入力画像データのライングループを解析することを担う。ライングループの例示的な図示は、陰影領域２０３として示されている。一実施形態では、ラインバッファユニット１０１は、ライングループをシート生成部との間で送受信するための異なるダイナミクスを理解することができる。例えば、「完全なグループ」と呼ばれる１つのモードによれば、画像データの完全な全幅のラインが、ラインバッファユニットとシート生成部との間で渡される。「仮想的に高い」と呼ばれる第２のモードによれば、ライングループは最初に全幅行のサブセットと共に渡される。その後、残りの行は、より小さい（全幅未満の）片で順番に渡される。

入力画像データのライングループ２０３がラインバッファユニットによって画定され、シート生成部ユニットに渡されると、シート生成部ユニットはさらに、ライングループを、ステンシルプロセッサのハードウェア制限に、より正確に適合する、より微細なシートに、解析する。より具体的には、以下でさらに詳細に説明するように、一実施形態では、各ステンシルプロセッサは、二次元シフトレジスタアレイからなる。二次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「真下」にシフトし、シフトのパターンは、各実行レーンをそれ自身のステンシル内においてデータに対して動作させる（すなわち、各実行レーンは、それ自身の情報のステンシル上で処理して、そのステンシルの出力を生成する）。一実施形態では、シートは、二次元シフトレジスタアレイを「満たす」か、さもなければ二次元シフトレジスタアレイにロードされる入力画像データの表面領域である。

以下でより詳細に説明するように、様々な実施形態では、実際には、任意のサイクルでシフト可能な二次元レジスタデータの複数の層が存在する。便宜上、本記載の多くは、「二次元シフトレジスタ」などの用語を、シフト可能な二次元レジスタデータの１つ以上のそのような層を有する構造を指すために単純に使用する。

したがって、図２ｂに見られるように、シート生成部は、ライングループ２０３から最初のシート２０４を解析し、それをステンシルプロセッサに供給する（ここで、データのシートは、参照番号２０４によって全体的に識別される陰影領域に対応する）。図２ｃおよび図２ｄに示すように、ステンシルプロセッサは、重なるステンシル２０２をシート上で左から右へ効果的に移動させることによって、入力画像データのシートに対して動作する。図２ｄのように、シート内のデータから出力値を計算することができるピクセル数が使い果たされる（他のピクセル位置は、シート内の情報から決定される出力値を有することができない）。簡単にするために、画像の境界領域は無視されている。

図２ｅにおいて見られるように、シート生成部は次いで、ステンシルプロセッサが動作を継続する次のシート２０５を提供する。ステンシルが次のシートに対して動作を開始するときのステンシルの初期位置は、（先に図２ｄに示されている）最初のシート上の消耗点から右への次の進行であることに留意されたい。新たなシート２０５で、ステンシルプロセッサが最初のシートの処理と同じ態様で新たなシートに対して動作するにつれ、ステンシルは単に右に移動し続ける。

出力ピクセル位置を取り囲むステンシルの境界領域のために、第１のシート２０４のデータと第２のシート２０５のデータとの間にいくらかの重なりがあることに留意されたい
。重なりは、シート生成部が重なり合うデータを２回再送信することによって簡単に処理することができる。別の実現例では、次のシートをステンシルプロセッサに供給するために、シート生成部は、ステンシルプロセッサに新たなデータを送るだけに進んでもよく、ステンシルプロセッサは、前のシートからの重なり合うデータを再利用する。

ｂ．ステンシルプロセッサ設計および動作
図３ａは、ステンシルプロセッサアーキテクチャ３００の一実施形態を示す。図３ａにおいて見られるように、ステンシルプロセッサは、データ計算ユニット３０１、スカラープロセッサ３０２および関連するメモリ３０３およびＩ／Ｏユニット３０４を含む。データ計算ユニット３０１は、実行レーンのアレイ３０５、二次元シフトアレイ構造３０６、およびアレイの特定の行または列に関連する別個のランダムアクセスメモリ３０７を含む。

Ｉ／Ｏユニット３０４は、シート生成部から受け取ったデータの「入力」シートをデータ計算ユニット３０１にロードし、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、データ計算ユニット３０１へのシートデータのロードは、受け取ったシートを画像データの行／列に解析し、画像データの行／列を二次元シフトレジスタ構造３０６または実行レーンアレイの行／列のそれぞれのランダムアクセスメモリ３０７にロードすることを必要とする（以下でより詳細に説明する）。シートが最初にメモリ３０７にロードされる場合、実行レーンアレイ３０５内の個々の実行レーンは、適宜、ランダムアクセスメモリ３０７からシートデータを二次元シフトレジスタ構造３０６にロードすることができる（例えば、シートのデータ上での動作のすぐ前のロード命令として）。データのシートのレジスタ構造３０６へのロード（シート生成部からの直接的であろうとまたはメモリ３０７からであろうと）が完了すると、実行レーンアレイ３０５の実行レーンはデータに対して動作し、最終的に、完成したデータをシートとしてシート生成部に、またはランダムアクセスメモリ３０７に「書き戻す」。後者の場合、Ｉ／Ｏユニット３０４はランダムアクセスメモリ３０７からデータをフェッチして出力シートを形成し、出力シートはシート生成部に転送される。

スカラープロセッサ３０２は、スカラーメモリ３０３からステンシルプロセッサのプログラムコードの命令を読み出し、実行レーンアレイ３０５の実行レーンに命令を発行するプログラムコントローラ３０９を含む。一実施形態では、データ計算ユニット３０１からＳＩＭＤのような動作を実行するために、単一の同じ命令がアレイ３０５内のすべての実行レーンにブロードキャストされる。一実施形態では、スカラーメモリ３０３から読み出され、実行レーンアレイ３０５の実行レーンに発行される命令の命令フォーマットは、命令当たり２つ以上のオペコードを含む非常に長い命令語（ＶＬＩＷ）タイプのフォーマットを含む。さらなる実施形態では、ＶＬＩＷフォーマットは、（以下に説明するように、一実施形態では２つ以上の従来のＡＬＵ動作を指定することができる）各実行レーンのＡＬＵによって実行される数学的機能を指示するＡＬＵオペコードと、（特定の実行レーンまたは実行レーンのセットに対してメモリ操作を指示する）メモリオペコードとの両方を含む。

「実行レーン」という用語は、命令を実行することができる１つ以上の実行ユニットのセット（例えば、命令を実行することができる論理回路系）を指す。実行レーンは、しかしながら、様々な実施形態では、単なる実行ユニットを超えた、よりプロセッサに似た機能を含むことができる。例えば、１つ以上の実行ユニットに加えて、実行レーンは、受信された命令をデコードする論理回路系、または、よりＭＩＭＤのような設計の場合、命令をフェッチおよびデコードする論理回路系を含むことができる。ＭＩＭＤのようなアプローチに関しては、ここでは集中プログラム制御アプローチが主に記載されているが、より分散型のアプローチが様々な代替実施形態（例えば、アレイ３０５の各実行レーン内のプ
ログラムコードおよびプログラムコントローラを含む）において実施されてもよい。

実行レーンアレイ３０５、プログラムコントローラ３０９および二次元シフトレジスタ構造３０６の組み合わせは、広範囲のプログラマブルな機能のための幅広く適応可能／設定可能なハードウェアプラットフォームを提供する。例えば、アプリケーションソフトウェア開発者は、個々の実行レーンが多種多様な機能を実行することができ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスすることができれば、寸法（例えばステンシルサイズ）だけでなく幅広い異なる機能能力を有するカーネルをプログラミングすることができる。

実行レーンアレイ３０５によって操作される画像データのためのデータ記憶装置として機能することとは別に、ランダムアクセスメモリ３０７は、１つ以上のルックアップテーブルを保持することもできる。様々な実施形態では、１つ以上のスカラールックアップテーブルをスカラーメモリ３０３内でインスタンス化することもできる。

スカラールックアップは、同じルックアップテーブルからの同じインデックスからの同じデータ値を実行レーンアレイ３０５内の各実行レーンに渡すことを含む。様々な実施形態では、上述のＶＬＩＷ命令フォーマットは、スカラープロセッサによって実行されるルックアップ動作をスカラールックアップテーブルに向けるスカラーオペコードを含むようにも拡張される。オペコードとともに使用するために指定されたインデックスは、即値オペランドでもよいし、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルからのルックアップは、基本的に同じクロックサイクル中に実行レーンアレイ３０５内のすべての実行レーンに同じデータ値をブロードキャストすることを含む。ルックアップテーブルの使用および動作に関する追加の詳細は、以下でさらに説明する。

図３ｂは、上述のＶＬＩＷ命令ワードの実施形態を要約したものである。図３ｂにおいて見られるように、ＶＬＩＷ命令ワードフォーマットは、３つの別個の命令、すなわち、１）スカラープロセッサによって実行されるスカラー命令３５１、２）実行レーンアレイ内でそれぞれのＡＬＵによってＳＩＭＤ方式でブロードキャストされ実行されるＡＬＵ命令３５２、および３）部分的ＳＩＭＤ方式でブロードキャストされ実行されるメモリ命令３５３に対するフィールドを含む（例えば、実行レーンアレイ内において同じ行に沿った実行レーンが同じランダムアクセスメモリを共有する場合、異なる行の各々からの１つの実行レーンが実際に命令を実行する（メモリ命令３５３のフォーマットは、各行からのどの実行レーンが命令を実行するかを識別するオペランドを含むことができる）。

１つ以上の即時オペランドに対するフィールド３５４も含まれる。命令３５１，３５２，３５３のどれが、どの即時オペランド情報を用いるかは命令フォーマットで識別されてもよい。命令３５１，３５２，３５３の各々は、また、それら自身のそれぞれの入力オペランドおよび結果情報（例えば、ＡＬＵ演算用のローカルレジスタならびにメモリアクセス命令用のローカルレジスタおよびメモリアドレス）を含む。一実施形態では、スカラー命令３５１は、実行レーンアレイ内の実行レーンが他の２つの命令３５２，３５３のいずれかを実行する前にスカラープロセッサによって実行される。すなわち、ＶＬＩＷワードの実行は、スカラー命令３５１が実行される第１のサイクルと、続いて他の命令３５２，３５３が実行されてもよい第２のサイクルとを含む。（様々な実施形態では、命令３５２，３５３は並列して実行されてもよい）。

一実施形態では、スカラープロセッサによって実行されるスカラー命令は、シートをデータ計算ユニットのメモリもしくは２Ｄシフトレジスタからロードまたはそれに格納するようシート生成部に発行されるコマンドを含む。ここで、シート生成部の動作は、ライン
バッファユニットの動作またはスカラープロセッサによって発行されたコマンドをシート生成部が完了するのに要するサイクル数のプレランタイムの理解を妨げる他の変数に依存し得る。したがって、一実施形態では、スカラー命令３５１がシート生成部に発行されるべきコマンドに対応するか、さもなければコマンドをシート生成部に発行させるＶＬＩＷワードは、他の２つの命令フィールド３５２，３５３に無操作（ＮＯＯＰ）命令を含む。次に、プログラムコードは、シート生成部がデータ計算ユニットに対するそのロードまたはデータ計算ユニットからのその格納を完了するまで、命令フィールド３５２，３５３についてＮＯＯＰ命令のループに入る。ここで、シート生成部にコマンドを発行すると、スカラープロセッサは、シート生成部がコマンドの完了時にリセットするインターロックレジスタのビットをセットしてもよい。ＮＯＯＰループの間、スカラープロセッサはインターロックビットのビットを監視する。スカラープロセッサが、シート生成部がそのコマンドを完了したことを検出すると、通常の実行が再び開始される。

図４は、データ計算コンポーネント４０１の一実施形態を示す。図４において見られるように、データ計算コンポーネント４０１は、二次元シフトレジスタアレイ構造４０６「の上に」論理的に位置決めされる実行レーンのアレイ４０５を含む。上述したように、様々な実施形態では、シート生成部によって提供される画像データのシートが二次元シフトレジスタ４０６にロードされる。実行レーンは、レジスタ構造４０６からのシートデータに対して動作する。

実行レーンアレイ４０５およびシフトレジスタ構造４０６は、互いに対して適所に固定される。しかし、シフトレジスタアレイ４０６内のデータは、戦略的かつ調整された態様でシフトして、実行レーンアレイ内の各実行レーンがデータ内で異なるステンシルを処理するようにする。したがって、各実行レーンは、生成されている出力シートにおいて異なるピクセルに対する出力画像値を決定する。図４のアーキテクチャから、実行レーンアレイ４０５が垂直に近接する実行レーンおよび水平に近接する実行レーンを含むので、重なり合うステンシルが垂直に配置されるだけでなく水平にも配置されることは明らかである。

データ計算ユニット４０１のいくつかの注目すべきアーキテクチャ上の特徴には、実行レーンアレイ４０５よりも広い寸法を有するシフトレジスタ構造４０６が含まれる。すなわち、実行レーンアレイ４０５の外側にレジスタ４０９の「ハロー」が存在する。ハロー４０９は、実行レーンアレイの２つの側に存在するように示されているが、実現例に応じて、実行レーンアレイ４０５の２つ未満（１つ）またはそれ以上（３つまたは４つ）の側に存在してもよい。ハロー４０５は、データが実行レーン４０５の「下で」シフトしているときに、実行レーンアレイ４０５の境界の外側にこぼれ出るデータのための「スピルオーバ」空間を提供する働きをする。単純なケースとして、実行レーンアレイ４０５の右端を中心とする５×５のステンシルは、ステンシルの最も左側のピクセルが処理されるとき、さらに右側に４つのハローレジスタ位置を必要とすることになる。図面を簡単にするために、図４は、名目上の実施例において、どちらの側（右、底）のレジスタでも水平方向接続および垂直方向接続の両方を有するであろうとき、ハローの右側のレジスタを、水平方向シフト接続を有するだけとして、およびハローの底側のレジスタを、垂直方向シフト接続を有するだけとして示す。

アレイの各行および／もしくは各列またはその一部分に結合されるランダムアクセスメモリ４０７によって追加のスピルオーバールームが提供される（例えば、ランダムアクセスメモリは、４つの実行レーン行状と２つの実行レーン列状にまたがる実行レーンアレイの「領域」に割り当てられてもよい。簡略化のために、アプリケーションの残りの部分は、主に、行および／または列に基づく割り当てスキームを指す）。ここで、実行レーンのカーネル動作が、それが（一部の画像処理ルーチンが必要とする場合がある）二次元シフ
トレジスタアレイ４０６の外にあるピクセル値を処理することを必要とする場合、画像データの面は、ハロー領域４０９からランダムアクセスメモリ４０７にさらにこぼれ出ることができる。例えば、ハードウェアが実行レーンアレイの右端の実行レーンの右側にわずか４つの記憶素子のハロー領域を含む場合の６Ｘ６ステンシルを考える。この場合、ステンシルを完全に処理するために、データをハロー４０９の右端からさらに右側にシフトする必要があるであろう。ハロー領域４０９の外側にシフトされたデータは、ランダムアクセスメモリ４０７にこぼれ出る。ランダムアクセスメモリ４０７および図３のステンシルプロセッサの他の適用例を以下でさらに説明する。

図５ａないし図５ｋは、上述のように実行レーンアレイ「の下で」二次元シフトレジスタアレイ内で画像データがシフトされる態様の実施例を示す。図５ａにおいて見られるように、二次元シフトアレイのデータ内容は第１のアレイ５０７に示され、実行レーンアレイはフレーム５０５によって示される。また、実行レーンアレイ内の２つの近隣の実行レーン５１０が簡略化して示されている。この簡単な図示５１０では、各実行レーンは、シフトレジスタからデータを受け付け、ＡＬＵ出力からデータを受け付け（例えば、サイクルにわたってアキュムレータとして動作する）、または出力データを出力先に書き込むことができるレジスタＲ１を含む。

各実行レーンはまた、ローカルレジスタＲ２において、二次元シフトアレイにおけるそれ「の下の」内容が利用可能である。したがって、Ｒ１は実行レーンの物理レジスタであり、Ｒ２は二次元シフトレジスタアレイの物理レジスタである。実行レーンは、Ｒ１および／またはＲ２によって提供されるオペランドに対して動作可能なＡＬＵを含む。さらに詳細に後述するように、一実施形態では、シフトレジスタは、実際にはアレイ位置ごとに複数の（ある「深さ」の）記憶／レジスタ素子で実現されるが、シフト動作は記憶素子の１つの面に限られる（例えば、記憶素子の１つの面のみがサイクルごとにシフトすることができる）。図５ａないし図５ｋは、それぞれの実行レーンから結果のＸを格納するために使用されるとしてこれらのより深いレジスタ位置の１つを示している。例示を容易にするために、より深い結果のレジスタは、その対応するレジスタＲ２の下ではなく、その横に図示されている。

図５ａ〜図５ｋは、実行レーンアレイ内に示された実行レーン位置５１１の対に中心位置が整列された２つのステンシルの計算に焦点を当てている。例示を容易にするために、実行レーン５１０の対は、実際には、以下の例によれば、それらが垂直方向の近隣実行レーンである場合に、水平方向の近隣実行レーンとして図示されている。

図５ａで最初に見られるように、実行レーンはそれらの中央のステンシル位置上に中心を配される。図５ｂは、両方の実行レーンによって実行されるオブジェクトコードを示す。図５ｂにおいて見られるように、両方の実行レーンのプログラムコードは、シフトレジスタアレイ内のデータを、１つの位置だけ下にシフトさせ、１つの位置だけ右にシフトさせる。これにより、両方の実行レーンがそれらのそれぞれのステンシルの左上隅に整列される。次に、プログラムコードは、（Ｒ２において）それらのそれぞれの位置にあるデータをＲ１にロードさせる。

図５ｃに示すように、次にプログラムコードは、実行レーンの対に、シフトレジスタアレイ内のデータを１単位だけ左にシフトさせ、各実行レーンのそれぞれの位置の右の値を各実行レーンの位置にシフトさせる。Ｒ１の値（以前の値）は、次いで、（Ｒ２における）実行レーンの位置にシフトした新しい値とともに加算される。結果はＲ１に書き込まれる。図５ｄで見られるように、図５ｃについて上述したのと同じプロセスが繰り返され、結果のＲ１に対して、今度は上側実行レーンにおける値Ａ＋Ｂ＋Ｃ、および下側実行レーンにおけるＦ＋Ｇ＋Ｈ値を含ませるようにする。この時点で、両方の実行レーンはそれら
のそれぞれのステンシルの上側の行を処理している。（左側に存在する場合には）実行レーンアレイの左側でハロー領域に、またはハロー領域が存在しない場合にはランダムアクセスメモリにこぼれ出ることは、実行レーンアレイの左側には存在しないことに注目されたい。

図５ｅに示すように、次に、プログラムコードは、シフトレジスタアレイ内のデータを１単位だけ上にシフトさせ、両方の実行レーンをそれらのそれぞれのステンシルの中間行の右端に整列される。両方の実行レーンのレジスタＲ１は、現在、ステンシルの最上行および中間行の一番右の値の合計を含む。図５ｆおよび図５ｇは、両方の実行レーンのステンシルの中間行にわたって左方向に移動する継続的な進行を示す。累積加算は、図５ｇの処理の終了時に、両方の実行レーンがそれらのそれぞれのステンシルの最上行の値と中間行の値との合計を含むように、継続する。

図５ｈは、各実行レーンをそれの対応するステンシルの最下行に整列させる別のシフトを示す。図５ｉおよび図５ｊは、両方の実行レーンのステンシルの過程にわたって処理を完了するための継続的なシフトを示す。図５ｋは、各実行レーンをデータアレイにおいてそれの正しい位置に整列させ、その結果をそこに書き込むための追加のシフトを示す。

図５ａ〜図５ｋの例では、シフト動作のためのオブジェクトコードは、（Ｘ、Ｙ）座標で表されるシフトの方向および大きさを識別する命令フォーマットを含むことができることに留意されたい。例えば、１つの位置分の上方向シフトのためのオブジェクトコードは、オブジェクトコードでＳＨＩＦＴ０，＋１として表現されてもよい。別の例として、１つの位置分の右方向へのシフトは、オブジェクトコードでＳＨＩＦＴ＋１，０として表現されてもよい。様々な実施形態では、より大きい大きさのシフトも、オブジェクトコードで指定することができる（例えば、シフト０，＋２）。ここで、２Ｄシフトレジスタハードウェアが１サイクルにつき１つの位置だけしかシフトをサポートしない場合、命令は機械によって複数のサイクル実行を要求するように解釈されてもよく、または２Ｄシフトレジスタハードウェアは、１サイクルにつき２つ以上の位置分シフトをサポートするように設計されてもよい。後者の実施形態はより詳細にさらに下に記載される。

図６ａは、アレイ実行レーンおよびシフトレジスタ構造の単位セルの別のより詳細な図を示す（ハロー領域のレジスタは、対応する実行レーンを含まない）。実行レーンおよび実行レーンアレイの各位置に関連するレジスタ空間は、一実施形態では、実行レーンアレイの各ノードで、図６ａに示す回路系をインスタンス化することによって実施される。図６ａに示すように、単位セルは、４つのレジスタＲ２〜Ｒ５からなるレジスタファイル６０２に結合される実行レーン６０１を含む。任意のサイクルの間、実行レーン６０１は、レジスタＲ１〜Ｒ５のいずれかから読み書きすることができる。２つの入力オペランドを必要とする命令の場合、実行レーンはＲ１〜Ｒ５のいずれかからオペランドの両方を取り出すことができる。

一実施形態では、二次元シフトレジスタ構造は、近隣のレジスタファイル間のシフトが同じ方向にあるように（例えば、すべての実行レーンは左にシフトする、すべての実行レーンは右にシフトするなど）、それの近隣のレジスタファイルが入力マルチプレクサ６０４を介する場合に、単一のサイクルの間に、レジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が、出力マルチプレクサ６０３を介してその近隣のレジスタファイルの１つにシフト「アウト」され、対応するものからシフト「イン」される内容でレジスタＲ２〜Ｒ４のいずれか（ただ）１つの内容が置き換えられることによって、実現される。同じレジスタがその内容がシフトアウトされて同じサイクルでシフトインされる内容で置き換えられるのが一般的であるかもしれないが、マルチプレクサ構成６０３，６０４は、同じサイクル中に同じレジスタファイル内で異なるシフトソースおよびシフトターゲットレジスタを可
能にする。

図６ａに示すように、シフトシーケンスの間、実行レーンは、内容をそのレジスタファイル６０２からその左、右、上および下の近隣のレジスタファイルにシフトアウトする。同じシフトシーケンスと関連して、実行レーンは、さらに、内容をその左、右、上および下の近隣のレジスタファイルの特定のものからそれのレジスタファイルにシフトする。再び、シフトアウトターゲットおよびシフトインソースは、すべての実行レーンについて同じシフト方向と整合しなければならない（例えば、シフトアウトが右隣に対する場合、シフトインは左隣からでなければならない）。

一実施形態では、１サイクルにつき１つの実行レーンにつき１つのレジスタの内容だけをシフトすることが許されるが、他の実施形態では、２つ以上のレジスタの内容をシフトイン／アウトすることが許されてもよい。例えば、図６ａに示されたマルチプレクサ回路系６０３，６０４の第２の例が図６ａの設計に組み込まれる場合、同じサイクルの間に２つのレジスタの内容がシフトアウト／インされてもよい。もちろん、１つのレジスタの内容だけがサイクルごとにシフトされることが許される実施形態では、数学的演算間のシフトのためにより多くのクロックサイクルを消費することによって、複数のレジスタからのシフトが数学的演算間に起こってもよい（例えば、２つのレジスタの内容が、数学的演算間で２つのシフト演算を消費することによって数学的演算間でシフトされてもよい）。

実行レーンのレジスタファイルのすべての内容未満がシフトシーケンス中にシフトアウトされる場合、各実行レーンのシフトアウトされないレジスタの内容は適所に残る（シフトしない）ことに留意されたい。したがって、シフトインされる内容と置き換えられないシフトされない内容は、シフトサイクルにわたって実行レーンにローカルに維持される。各実行レーンで見られるメモリユニット（「Ｍ」）は、実行レーンアレイ内の実行レーンの行および／または列に関連付けられるランダムアクセスメモリ空間からデータをロード／に格納するために使用される。ここで、Ｍユニットは、実行レーンの自身のレジスタ空間からロード／に格納できないデータをロード／格納するためによく使用されるという点で、標準的なＭユニットとして機能する。様々な実施形態では、Ｍユニットの主な動作は、ローカルレジスタからメモリにデータを書き込み、メモリからデータを読み出してそれをローカルレジスタに書き込むことである。

ハードウェア実行レーン６０１のＡＬＵユニットによってサポートされるＩＳＡオペコードに関して、様々な実施形態において、ハードウェアＡＬＵによってサポートされる数学的オペコードは、仮想実行レーンによってサポートされる数学的オペコード（例えば、ＡＤＤ、ＳＵＢ、ＭＯＶ、ＭＵＬ、ＭＡＤ、ＡＢＳ、ＤＩＶ、ＳＨＬ、ＳＨＲ、ＭＩＮ／ＭＡＸ、ＳＥＬ、ＡＮＤ、ＯＲ、ＸＯＲ、ＮＯＴ）と一体的に結び付けられる（例えば実質的に同じである）。上述のように、メモリアクセス命令は、実行レーン６０１によって実行され、データをそれらの関連付けられるランダムアクセスメモリからフェッチ／に格納することができる。さらに、ハードウェア実行レーン６０１は、シフト演算命令（右、左、上、下）をサポートし、二次元シフトレジスタ構造内でデータをシフトする。上述したように、プログラム制御命令は主にステンシルプロセッサのスカラープロセッサによって実行される。

図６ｂは、プロセッサＡＬＵの一実施形態を示す。図６ｂに示すように、プロセッサＡＬＵは、乗算−加算ユニット６１１と、第１および第２の名目ＡＬＵ６１２，６１３とを含む。乗算−加算部６１１は、演算（Ａ＊Ｂ）＋Ｃを行う。第１および第２の名目ＡＬＵは、比較演算を含む名目数学的演算および論理演算（例えば、加算、減算、ａｎｄ、ｏｒ、ｘｏｒ、比較、最小値、最大値、絶対値、シフト）を実行する。ＡＬＵ設計は、２つの主データパス、すなわち、乗算−加算ユニット６１１を含む第１のものと、デュアルＡＬ
Ｕ６１２，６１３チェーンを含む第２のものとを有するとして見ることができる。デュアルＡＬＵチェーン６１２，６１３は、単一の命令における２つの演算（例えば、単一の命令における２つのＡＤＤ；単一の命令におけるＡＤＤと除算（ＤＩＶ）；単一の命令における減算（ＳＵＢ）と絶対値（ＡＢＳ）など）を有するより複雑な命令を可能にする。入力オペランドはレジスタから受け取り可能である。様々な実施形態は、オペコードに付加される即値オペランドの使用を含むことができる。出力結果はレジスタに書き込まれる。

ｃ．２Ｄシフトレジスタの実施形態
図７ａは、二次元レジスタアレイ構造の論理的（および潜在的には物理的な）設計の「トップダウン」図の一実施形態を示す。図７ａの「トップダウン」図は、図６の単位セル設計の実施形態に本質的に従っており、特定のアレイ位置の各レジスタファイルが、その左、右、上および下の近隣の単位セル位置のレジスタファイルに結合されている。すなわち、例えば、図７ａに見られるように、レジスタファイルＡは、レジスタファイルＢ、Ｃ、ＤおよびＥに結合される。

図７ｂは、二次元レジスタアレイ構造の論理的（および潜在的に物理的な）設計の「トップダウン」図の別の実施形態を示す。図７ｂに見られるように、単位セルは、最も近い垂直および水平方向の近隣に結合されるだけでなく、「第２に」最も近い垂直および水平方向の近隣にも結合される。例えば、図７ｂに見られるように、単位セルＡは、単位セルＢ、Ｃ、ＤおよびＥに結合されるだけでなく、単位セルＦ、Ｇ、ＨおよびＩにも結合される。図示および表示を容易にするために、単位セルＡだけが、最も近い近隣結合および第２に最も近い近隣結合の両方を有するのに必要な接続の全セットを有するものとして示されている。単位セルＡ以外では、１つおきの単位セルだけが、任意の特定の行または列に沿って第２に最も近い近隣結合を示す（例えば、単位セルＢは、第２に最も近い近隣結合を全く示さない）。読者は、好ましい実施形態が、例えば、コア内の、第２に最も近い近隣結合をサポートするようアレイ縁部から十分離れている全ての単位セルに対して単位セルＡの結合を含むであろうことを理解するであろう。

第２に最も近い接続を有することにより、レジスタアレイを介したレジスタ値のより高速な伝搬が可能になる。例えば、レジスタ値を４つの位置だけ離れた単位セルに移動する必要がある場合、図７ｂのアレイ構造は２サイクルで移動を達成することができるが、図７ｂのアレイ構造は４サイクルだけで同じ移動を達成することができる。図７ｂの実施形態は、最も近い近隣接続も有することに留意されたい。したがって、図７ｂの構造に対するプロセッサ命令セットは、図７ａの構造のためのプロセッサ命令セットよりも拡張的であり得る（前者は１ホップおよび２ホップＭＯＶ命令を有するが、後者は１ホップＭＯＶ命令しか持たない）。

異なる番号のホップ移動の数および組合せ、ならびに対応するアレイ構造の実施形態は、迅速なレジスタ値の移動の必要性とアレイ構造配線密度の許容差との間の適切なトレードオフのバランスに応じて、実施形態ごとに大きく異なり得ることを指摘することが適切である。一部の実施形態は、第３および／または第４に最も近い近隣接続をサポートしてもよく、他の接続はサポートしなくてもよい（第４に最も近い近隣接続の場合、例えば、単位セルＤは、図７ｂの単位セルＪに直接結合されるであろう）。いくつかの実施形態は、最も近い近隣接続および第３に最も近いかまたはそれより遠い接続などのみを有してもよい。おそらく、より精巧な実施形態は、斜め接続（例えば、単位セルＡを図７ｂの単位セルＫおよびそれの他の３つの近隣コーナー単位セルと接続すること）をサポートすることさえできる。当業者であれば、単位セル間の様々な拡張された接続のいずれでも、図６ａの入力マルチプレクサ構造６０４への入力のソースを拡張し、出力マルチプレクサ構造６０３からのファンアウトを拡張することによって、容易に達成されることを認識するであろう。

図８ａは、二次元レジスタアレイ構造内で行または列に沿ったレジスタの例示的な論理配置を示す（図示を容易にするため、レジスタアレイは８ｘ８の寸法しか持たないが、実際には寸法ははるかに大きくてもよい）。ここで、処理されているアレイにおける近隣のピクセルは、数値的に近隣の単位セルに位置する（例えば、アレイにおける近隣のピクセルの対は、単位セル３および５ではなく単位セル３および４に配置される）。図８ａの論理設計はまた、接続８０１を介して最初の論理単位セル１を最後の単位セル８に結合することによってロール能力を含む（したがって、実行レーンのプロセッサはロールオペコードを含むこともできる）。

しかし、図８ａの設計が論理設計を表すだけでなく、物理的設計も表す場合には、特に大きな寸法のアレイの場合に問題が生じる可能性がある。図８ａのアプローチが物理的設計も表す場合、接続８０１は、対１および８以外の単位セル対を接続する他の配線の長さと比較して、極端に長い配線に対応する。この特定の配線長外れ値は、（すべての単位セル間のすべてのシフト時間を最も遅い１＜−＞８シフト時間以上になるように遅くすることにより、または任意の他の近隣の単位セル間のシフトよりも１＜−＞８シフト間においてより多くのサイクルを認識する複雑さを導入することにより）回路のタイミングの複雑さに影響する可能性がある。

図８ｂは、図８ａの論理設計を有するレジスタアレイ構造の行または列に対する改良された物理的設計の実施形態を示す。ここで、物理的設計は、（論理設計の場合のように）単なる論理接続に対立するものとしての回路構造の実際のレイアウトに対応する。図８ｂに見られるように、物理的設計は、レイアウトの論理にトロイド設計を課すことによって、他の単位セル間において１＜−＞８接続に必要とされる余分な長さを償却する。例えば、単位セル１は論理設計を保存するために単位セル２に物理的に接続されているが、単位セル８は物理的にそれらの間に座する。結果は、図８ａの配線８０１の長さよりもはるかに短い、図８ｂの構造における単位セル間の最大配線長さである。したがって、図８ｂの構造のタイミングの複雑さは、上述した図８ａの構造のタイミングの複雑さを回避する。一実施形態では、すべての単位セル間のレジスタ内容のロールが単一のサイクル内で発生し得る。

図８ｃは、シート生成部またはランダムアクセスメモリ８０２（図４のＲＡＭ４０７のいずれかなど）とレジスタアレイの行または列との間のデータバス構造が一種の攪拌構造８０３を含み、トロイド物理レイアウトを有するアレイまたは行への正しい論理接続を維持するのを示す。図８ｄは、任意のレジスタ値が移動する最大距離が４単位セルである４ホップシフトを実現することができる別のトロイド構造を示す。ここでは、図８ｄのレジスタとシート生成部またはＲＡＭとの間に別の攪拌状のデータバスが存在するであろうことは明らかである。このように、トロイド物理レイアウトの実現の特徴は、論理的順序で配列される入力を接続するデータバスによる攪拌の存在である。

図８ｅは、シフトアレイ構造の単位セルの出力マルチプレクサ８０４からの特別なファンアウト回路系を示す。ここで、出力マルチプレクサ８０４は、図６ａの出力マルチプレクサ６０３に類似していると見ることができる。シフトアレイが、ますます多くの接続（１ホップ、２ホップなど）をサポートするように設計されるにつれ、出力マルチプレクサ８０４のファンアウトは増大する。マルチプレクサ８０４のファンアウトが増大するにつれて、電力消費はますます問題になる可能性がある。図８ｅは、１ホップおよび２つの接続の両方を充分にサポートするシフトレジスタアレイのための出力マルチプレクサ８０４を示す。ここで、図８ｅに見られる論理ゲートの存在なしで、マルチプレクサ８０４における新たな出力（例えば新しいシフトアウト値）は、８つの異なる位置（左隣、右隣、…、２ホップ下隣）にブロードキャストされるであろう。ここでは、当技術分野で理解され
ているように、論理回路における配線のランレングスを横切るデータの変化は、「スイッチング動作」に対応し、これは電力を消費する。

マルチプレクサ８０４の出力で見られる８つの論理ゲートの存在は、シフト方向に対応する実際の配線上を除くそのようなデータ変化を防止するように設計される。例えば、シフト方向が右へ１ホップである場合、すぐ右隣に結合されるゲートのみが、マルチプレクサ８０４の出力を通過させる。すべての他の論理ゲートは、データ値が（シフト値が必要とされない）他のノードに伝搬するのを防止し、プロセスにおけるシフト動作の電力消費を低減する。

ｄ．注記の追加的実行レーン動作
図９は、実行レーンアレイ内の実行レーンが異なるデータビット幅を処理することを可能にするために使用される技術に関する。ここで、当技術分野で理解されているように、より大きなダイナミックレンジが、データ値のビット幅を増加させることによって達成される（１６ビット値は、８ビット値より大きいダイナミックレンジで値を表現することができる）。一実施形態では、ステンシルプロセッサは、８、１６、または３２ビットピクセル値のような異なるビット幅を有する画像に対して動作することが期待される。したがって、１つのアプローチによれば、実行レーンそれら自体は、３２ビットオペランドを内部で処理できるという意味で、３２ビットマシンである。

しかし、二次元シフトレジスタのサイズおよび複雑さを低減するために、各実行レーンのレジスタファイル内のレジスタの個々の記憶素子は８ビットに制限される。８ビットの画像データの場合には、データのシート全体がレジスタファイルの１つのレジスタに収まり得るので問題はない。対照的に、１６または３２ビットオペランドの場合、シート生成部は、入力オペランドデータセットを適切に表現するために複数のシートを生成する。

例えば、図９に示すように、１６ビットの入力オペランドの場合、シート生成部は、ＨＩ半シートおよびＬＯ半シートを生成する。ＨＩ半シートは、正しいアレイ位置において各データ項目の上位８ビットを含む。ＬＯ半シートは、正しいアレイ位置において各データ項目の下位８ビットを含む。次いで、両方のシートをステンシルプロセッサにロードし、１６ビット演算が行われることを実行レーンハードウェアに（例えば、プログラムコードの即値を介して）通知することによって、１６ビット演算が実行される。ここでは、ほんの１つの可能な動作モードとして、ＨＩシートおよびＬＯシートの両方が、各実行レーンのレジスタファイルの２つの異なるレジスタにロードされる。

実行レーンユニットは、最初にレジスタファイル位置の１つから読み出し、その中のデータを別のレジスタファイル位置から読み出されたデータで付加することにより、正しいオペランドを内部的に構築することができる。同様に、書込方向では、実行レーンユニットは２つの書込を実行しなくてはならない。具体的には、ＬＯシートを含むレジスタファイルの第１のレジスタへの下位８ビットの第１の書込と、ＨＩシートを含むレジスタファイルの第２のレジスタへの上位８ビットの第２の書込とを行う。

先の考察から、様々な実施形態のシフトでは、１つのレジスタのみの内容がサイクルごとにシフトされることが許可されることを思い出されたい。これらの場合において、二次元シフトレジスタ構造の周りで１６ビットデータ値を移動させるためには、８ビットデータ値の場合における１サイクルではなく、（演算間で）シフトシーケンスにつき２サイクルが消費される。つまり、８ビットのデータ値の公称の場合では、すべてのデータを位置間で１サイクルでシフトすることができる。対照的に、１６ビットのデータ値の場合には、２つの８ビット値がシフトレジスタシフト動作ごとにシフトされなければならない（ＨＩ半シートおよびＬＯ半シート）。一実施形態では、３２ビットの場合、画像データ全体
を表すために２つのシートではなく４つのシートが作成される以外は、同じ原理が適用される。同様に、シフトシーケンスごとに４サイクルも消費する必要があり得る。

図１０は、動作中に実際のハードウェア内において競合するメモリアクセスがないように、ランダムメモリアクセスをアンロールするコンパイラ動作に関する。ここで、図１０の手順は、データがより高いレベルの仮想コードによって操作されることおよび基礎となるマシンの物理的制限を考慮してオブジェクトコードを構成することに向けられる。前述のように、実行レーンアレイにおける各実行レーンは、関連するレジスタファイル（例えば、実行レーン当たり４つのレジスタ）を有する。ほとんどの実行レーンと同様に、実行レーンは、オブジェクトコード命令と整合するレジスタとデータの読み書きを行う。コンパイラは、ほとんどのコンパイラと同様に、どのレジスタにどのデータが格納されているかを意識し、使用可能なレジスタ空間の物理的な制限を認識する。

したがって、時折、実行レーンは、レジスタ空間にはないが、実行レーンアレイにおける実行レーンの行および／または列に関連付けられるランダムアクセスメモリに位置するデータ項目を必要とし得る。同様に、時折、実行レーンはデータ項目を書き込む必要があり得るが、（現在レジスタ空間内のすべてのデータが依然として依存性を有するため）データを書き込むことができるレジスタ空間がない。このような状況では、コンパイラは、メモリロード命令またはメモリストア命令を（レジスタロード命令またはレジスタストア命令とは対照的に）オブジェクトコードに挿入して、レジスタ空間ではなくランダムアクセスメモリとデータのフェッチ／書込を行う。

図１０は、アレイの各行に沿って別個のランダムアクセスメモリ１００７＿１ないし１００７＿Ｒを示すハードウェアアーキテクチャの実施形態を示す。このアーキテクチャから、実行レーンアレイの同じ行に沿った実行レーンは、同じランダムアクセスメモリへのアクセスが与えられる。図示のように、各実行レーンは、それのそれぞれのランダムアクセスメモリにアクセスするためのメモリユニットを含む。したがって、異なる行の２つの異なる実行レーンが同じサイクル中にメモリロード命令を実行するとき、命令は、異なるランダムアクセスメモリに向けられるので、競合しない。

対照的に、同じ行の実行レーンが同じサイクルでメモリアクセスを実行する場合、メモリアクセスは競合する。実行レーンアレイがＳＩＭＤのような態様でに動作することを想定すると、プログラムコードは当然、（行及び列の両方を含む）アレイの実行レーンに同じサイクルでメモリアクセス要求を発行させる。したがって、同じ行にある実行レーンからの競合するメモリアクセスは予見可能な危険である。図１０は、同じ行の２つの異なる実行レーン上で実行するためのスレッド１００１の対を示す。マシンのＳＩＭＤのような性質が与えられると、両方の実行レーンは、最初の２つの示されるサイクルでメモリロード命令の対を含む同じサイクルで同じオペコードを実行する。メモリロード命令のアドレスを調べると、すべてのアドレスが異なることに注目されたい。したがって、両方のスレッドの第１のメモリロード命令は真に互いと競合し、両方のスレッドの第２のメモリロード命令は真に互いと競合する。

このように、コンパイラがオブジェクトコードにメモリロード命令を課すと、コンパイラはメモリロード命令が同じ行にある実行レーンに対してコンフリクトを押付けることも認識する。それに応答して、コンパイラは、シーケンシャルなメモリロード命令をコードに課して、同じ行に沿った競合するメモリロード命令を効果的にアンロールし、各実行レーンにメモリにアクセスするためのそれ自身の予約サイクルが提供されるようにする。図１０の例では、最終オブジェクトコード１００２は、４つのサイクルにわたる４つのシーケンシャルなメモリロード命令のシーケンスを含み、ある実行レーンのメモリアクセスが同じ行に沿った別の実行レーンのメモリアクセスと干渉しないことを保証する。

図１０の手法は、セクション１．０で上述したメモリモデルのルックアップテーブル部分に特に適用可能であることに注目されたい。ここで、異なる実行レーンが同じルックアップテーブル内の異なるインデックスを使用して、同じサイクルで同じルックアップテーブルの異なるエントリにアクセスすることができることを想起されたい。一実施形態では、コンパイラは、同じルックアップテーブルの異なるコピーを各ランダムアクセスメモリ１００７＿１ないし１００７＿Ｒにインスタンス化する。したがって、異なる行の実行レーンによって同じサイクル中にローカルテーブルコピーにルックアップを作成することができる。そのようなルックアップは競合せず、各ルックアップのインデックスは異なり得る。対照的に、同じ行に沿った実行レーンによって実行されるルックアップは、同じメモリにおける同じルックアップテーブルにアクセスし、シーケンシャルにアンロールされ実行される必要がある。シーケンシャルなアクセスへのアンロールによって、インデックス値は異なることを許される。一実施形態では、オブジェクトコードのＶＬＩＷ命令フォーマットは、数学的演算のためのオペコードと共に、実際に命令を実行することになっているある行に沿った実行レーンの識別情報をさらに含むメモリ動作のためのオペコードを含む（行に沿った他の実行レーンはそれをノーオペレーションとして扱う）。

様々な実施形態では、コンパイラはアトミック更新命令をルックアップテーブルと同様に扱う。すなわち、アトミック命令の結果のためにランダムアクセスメモリ１００７＿１ないし１００７＿Ｒに（例えば、行ごとに）メモリ空間が予約される。（例えば、異なる行に沿った同じ位置決めされた実行レーンからの）競合しない更新は、同じサイクル中に実行することが許可され、（例えば、同じ行に沿った実行レーンによる）競合する更新は、別々の命令にアンロールされる。アトミック更新命令は、多くの場合、コンパイラによってリード・モディファイ・ライト命令として実現され、読出は実行レーンのレジスタ空間に存在する最近の結果データからなされ、そのようなデータは数学的に演算され、次いで、特別に予約されたアトミック更新テーブルに書き込まれる。

ｃ．実現例の実施形態
上述した様々な画像プロセッサアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限定されず、したがって、画像プロセッサを再特徴付けしてもよい（またはしなくてもよい）他のアプリケーションに適用することができることを指摘することが適切である。例えば、実際のカメラ画像の処理とは対照的に、アニメーションの作成および／または生成および／またはレンダリングにおいて上述した様々な画像プロセッサアーキテクチャの特徴のいずれかが使用される場合、画像プロセッサはグラフィックス処理ユニットとして徳経づけられてもよい。さらに、上述した画像プロセッサアーキテクチャの特徴は、ビデオ処理、視覚処理、画像認識および／または機械学習などの他の技術的用途にも適用することができる。このように適用されて、画像プロセッサは、より汎用的なプロセッサ（例えば、コンピューティングシステムのＣＰＵの一部であるか、またはその一部である）と（例えばコプロセッサとして）一体化されてもよく、またはコンピューティングシステム内のスタンドアロンプロセッサであってもよい。

上述したハードウェア設計の実施形態は、半導体チップ内において、および／または最終的に半導体製造プロセスに向けての回路設計の記述として実施することができる。後者の場合、そのような回路記述は、より高い／挙動レベルの回路記述（例えばＶＨＤＬ記述）もしくはより低いレベルの回路記述（例えばレジスタ転送レベル（ＲＴＬ）記述、トランジスタレベル記述もしくはマスク記述）またはそれらの様々な組み合わせの形態をとってもよい。回路記述は、典型的には、コンピュータ可読記憶媒体（例えばＣＤ−ＲＯＭまたは他のタイプの記憶技術）上に実施される。

先のセクションから、上記の画像プロセッサは、（例えば、ハンドヘルド装置のカメラ
からのデータを処理するハンドヘルド装置のシステムオンチップ（ＳＯＣ）の一部として）コンピュータシステム上のハードウェアで実施できることを認識することに関係する。画像プロセッサがハードウェア回路として実施される場合、画像プロセッサによって処理される画像データはカメラから直接受信されてもよいことに留意されたい。ここで、画像プロセッサは、別体のカメラの一部であってもよいし、一体化されたカメラを有するコンピューティングシステムの一部であってもよい。後者の場合、画像データは、カメラから直接、またはコンピューティングシステムのシステムメモリから受信することができる（例えば、カメラは、その画像データを画像プロセッサではなくシステムメモリに送信する）。先のセクションで説明した機能の多くは、（アニメーションをレンダリングする）グラフィックスプロセッサユニットにも適用可能であることにも留意されたい。

図１１は、コンピューティングシステムの例示的な図である。以下に説明するコンピューティングシステムのコンポーネントの多くは、一体化されたカメラおよび関連する画像プロセッサ（例えば、スマートフォンまたはタブレットコンピュータなどのハンドヘルドデバイス）を有するコンピューティングシステムに適用可能である。当業者は、２つの間の範囲を容易に定めることができるであろう。

図１１に見られるように、基本的なコンピューティングシステムは、中央処理ユニット１１０１（例えば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア１１１５＿１〜１１１５＿Ｎおよびメインメモリコントローラ１１１７を含み得る）、システムメモリ１１０２、ディスプレイ１１０３（例えばタッチスクリーン、フラットパネル）、ローカル有線ポイントツーポイントリンク（例えばＵＳＢ）インタフェース１１０４、様々なネットワークＩ／Ｏ機能１１０５（イーサネット（登録商標）インタフェースおよび／またはセルラーモデムサブシステムなど）、無線ローカルエリアネットワーク（例えばＷｉＦｉ）インタフェース１１０６、ワイヤレスポイントツーポイントリンク（例えばブルートゥース（登録商標））インタフェース１１０７およびグローバルポジショニングシステムインタフェース１１０８、様々なセンサ１１０９＿１〜１１０９＿Ｎ、１つ以上のカメラ１１１０、バッテリ１１１１、電力管理制御ユニット１１１２、スピーカおよびマイクロホン１１１３、ならびに音声コーダ／デコーダ１１１４を含んでもよい。

アプリケーションプロセッサまたはマルチコアプロセッサ１１５０は、そのＣＰＵ１１０１内における１つ以上の汎用処理コア１１１５、１つ以上のグラフィカル処理ユニット１１１６、メモリ管理機能１１１７（例えばメモリコントローラ）、Ｉ／Ｏ制御機能１１１８および画像処理ユニット１１１９を含んでもよい。汎用処理コア１１１５は、典型的には、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。グラフィックス処理ユニット１１１６は、典型的には、ディスプレイ１１０３上に提示されるグラフィックス情報を生成するために、グラフィックス集中型機能を実行する。メモリ制御機能１１１７は、システムメモリ１１０２とインタフェースして、システムメモリ１１０２との間でデータの書込／読出を行う。電力管理制御ユニット１１１２は、システム１１００の電力消費を全体的に制御する。

画像処理ユニット１１１９は、先のセクションで説明した画像処理ユニットの実施形態のいずれかに従って実現することができる。代替的にまたは組み合わせて、ＩＰＵ１１１９は、ＧＰＵ１１１６およびＣＰＵ１１０１のいずれかまたは両方にそのコプロセッサとして結合されてもよい。さらに、様々な実施形態では、ＧＰＵ１１１６は、上で説明した画像プロセッサの特徴のいずれかを用いて実現することができる。

タッチスクリーンディスプレイ１１０３、通信インタフェース１１０４〜１１０７、ＧＰＳインタフェース１１０８、センサ１１０９、カメラ１１１０、およびスピーカ／マイ
クコーデック１１１３，１１１４の各々はすべて、適切な場合には、一体化された周辺装置（例えば１つ以上のカメラ１１１０）も含むコンピューティングシステム全体に対して様々な形態のＩ／Ｏ（入力および／または出力）として見ることができる。実現例によっては、これらのＩ／Ｏコンポーネントの様々なものは、アプリケーションプロセッサ／マルチコアプロセッサ１１５０上に統合されてもよく、またはアプリケーションプロセッサ／マルチコアプロセッサ１１５０のダイから離れて、またはそのパッケージ外に配置されてもよい。

一実施形態では、１つ以上のカメラ１１１０は、カメラとその視野内の対象との間の深度を測定することができる深度カメラを含む。アプリケーションプロセッサまたは他のプロセッサの汎用ＣＰＵコア（もしくはプログラムコードを実行するために命令実行パイプラインを有する他の機能ブロック）上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェアおよび／またはファームウェアは、上記の機能のいずれかを実行してもよい。

本発明の実施形態は、上述したような様々なプロセスを含むことができる。これらのプロセスは、機械実行可能命令で実施されてもよい。これらの命令は、汎用または特殊目的のプロセッサに特定のプロセスを実行させるために使用できる。代替的に、これらのプロセスは、プロセスを実行するためのハードワイヤード論理を含む特定のハードウェアコンポーネントによって、またはプログラミングされたコンピュータコンポーネントとカスタムハードウェアコンポーネントとの任意の組み合わせによって実行されてもよい。

本発明の要素はまた、機械実行可能命令を記憶するための機械可読媒体として提供されてもよい。機械可読媒体は、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、および光磁気ディスク、フラッシュメモリ、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気もしくは光カード、伝搬媒体、または電子命令を記憶するのに適した他のタイプの媒体／機械可読媒体を含むが、それらに限定はされない。例えば、本発明は、搬送波または通信リンク（例えばモデムもしくはネットワーク接続）を介する他の伝搬媒体で実施されたデータ信号によって、遠隔のコンピュータ（例えばサーバ）から要求側コンピュータ（例えばクライアント）に転送され得るコンピュータプログラムとしてダウンロードすることができる。

前述の明細書では、本発明をその特定の例示的な実施形態を参照して説明した。しかしながら、特許請求の範囲に記載される本発明のより広い精神および範囲から逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。

Claims

コンピューティングデバイスであって、
複数の実行レーンを含むステンシルプロセッサと、
複数の命令オペコードを有する命令を受信するように構成されたスカラーレーンとを備え、前記命令は、（１）前記スカラーレーンによって実行されるべきスカラー演算に対応するスカラーオペコードと、（２）前記複数の実行レーンの各々によって実行されるべき１つ以上の実行レーン演算に対応する実行レーンオペコードとを含み、
前記命令を受信すると、前記スカラーレーンは、前記スカラー演算を実行し、前記実行レーンオペコードを前記複数の実行レーンの各々にブロードキャストするように構成される、コンピューティングデバイス。
前記スカラーレーンは、前記実行レーンオペコードを前記複数の実行レーンの各々にブロードキャストする前に前記スカラー演算を実行するように構成される、請求項１に記載のコンピューティングデバイス。
前記実行レーンオペコードは、前記複数の実行レーンのうちの１つ以上によって実行されるべきメモリ動作に対応するメモリオペコードである、請求項１または２に記載のコンピューティングデバイス。
複数のメモリユニットをさらに備え、実行レーンの複数のグループの各々が前記複数のメモリユニットのうちのあるメモリユニットを共有し、前記命令は、あるメモリユニットを共有する実行レーンの各グループ内においてどの実行レーンが前記メモリ動作を実行するかを指定するフィールドを含む、請求項３に記載のコンピューティングデバイス。
前記命令は、前記スカラーオペコードおよび複数の実行レーンオペコードを含む、請求項１から４のいずれか１項に記載のコンピューティングデバイス。
前記複数の実行レーンオペコードは、
（１）各実行レーンによって実行されるべき数学的演算に対応する第１の数学的オペコードと、
（２）１つ以上の実行レーンによって実行されるべきメモリ動作に対応するメモリオペコードとを含む、請求項５に記載のコンピューティングデバイス。
前記スカラー演算は、前記スカラーレーンによって実行されると、前記スカラーレーンに、データ値を前記複数の実行レーンの各々へとブロードキャストさせる、請求項１から６のいずれか１項に記載のコンピューティングデバイス。
前記複数の実行レーンの各々にブロードキャストされる前記データ値は、前記命令の即値オペランドである、請求項７に記載のコンピューティングデバイス。
スカラーメモリユニットをさらに備え、前記複数の実行レーンの各々にブロードキャストされる前記データ値は、前記スカラーメモリユニットに格納された値である、請求項７に記載のコンピューティングデバイス。
画像データのシートを前記ステンシルプロセッサに提供するように構成されたシート生成部をさらに備え、前記スカラー演算は、前記スカラーレーンによって実行されると、前記スカラーレーンに、前記シート生成部に対して画像データのシートを前記ステンシルプロセッサに与えるよう要求させる、請求項１から９のいずれか１項に記載のコンピューティングデバイス。
前記スカラーレーンは、前記シート生成部に前記画像データのシートを前記ステンシルプロセッサに与えるよう要求した後、前記複数の実行レーンの各々に無操作オペコードをブロードキャストするように構成される、請求項１０に記載のコンピューティングデバイス。
複数の実行レーンを含むステンシルプロセッサと、
スカラーレーンおよび複数の実行レーンを有するステンシルプロセッサのスカラーレーンによって、複数の命令オペコードを有する命令を受信することとを備え、前記命令は、（１）前記スカラーレーンによって実行されるべきスカラー演算に対応するスカラーオペコードと、（２）前記複数の実行レーンの各々によって実行されるべき１つ以上の実行レーン演算に対応する実行レーンオペコードとを含み、さらに、
前記スカラーレーンによって、前記スカラーオペコードに対応するスカラー演算を実行することと、
前記スカラーレーンによって、前記複数の実行レーンの各々に、前記１つ以上の実行レーン演算に対応する実行レーンオペコードをブロードキャストすることとを備える、方法。
前記スカラー演算を実行することは、前記実行レーンオペコードを前記複数の実行レーンの各々にブロードキャストする前に前記スカラー演算を実行することを含む、請求項１２に記載の方法。
前記実行レーンオペコードは、前記複数の実行レーンのうちの１つ以上によって実行されるべきメモリ動作に対応するメモリオペコードである、請求項１２または１３に記載の方法。
前記ステンシルプロセッサは複数のメモリユニットを備え、実行レーンの複数のグループの各々が前記複数のメモリユニットのうちのあるメモリユニットを共有し、前記命令は、あるメモリユニットを共有する実行レーンの各グループ内においてどの実行レーンが前記メモリ動作を実行するかを指定するフィールドを含み、前記方法はさらに、
特定のメモリユニットを共有する実行レーンのグループの各実行レーンによって、前記メモリ動作を実行する実行レーンのグループのうちの特定の実行レーンを指定するフィールドを受け取ることと、
前記特定のメモリユニットを共有する前記実行レーンのグループに属する実行レーンのうちの前記特定の実行レーンのみによって、前記特定のメモリユニットを使用して前記メモリオペコードに対応する前記メモリ動作を実行することとを備える、請求項１４に記載の方法。
前記命令は、前記スカラーオペコードおよび複数の実行レーンオペコードを含む、請求項１２から１５のいずれか１項に記載の方法。
前記複数の実行レーンオペコードは、
（１）各実行レーンによって実行されるべき数学的演算に対応する第１の数学的オペコードと、
（２）１つ以上の実行レーンによって実行されるべきメモリ動作に対応するメモリオペコードとを含み、前記方法はさらに、
各実行レーンによって、前記命令の第１の数学的オペコードに対応する数学的演算を実行することと、
各実行レーンによって、前記命令のメモリオペコードに対応するメモリ動作を実行することとをさらに備える、請求項１６に記載の方法。
前記スカラー演算を実行することは、データ値を前記複数の実行レーンの各々にブロードキャストすることを含む、請求項１２から１７のいずれか１項に記載の方法。
前記スカラー演算を実行することは、
スカラーメモリユニットからデータ値を得ることと、
前記スカラーメモリユニットから得られた前記データ値を前記複数の実行レーンの各々にブロードキャストすることとを含む、請求項１８に記載の方法。
前記スカラー演算を実行することは、シート生成部に対して、前記シート生成部が画像データのシートを前記ステンシルプロセッサに提供する要求を出すことを含む、請求項１２から１９のいずれか１項に記載の方法。