JP2019507922A - 画像プロセッサのためのコンパイラ管理メモリ - Google Patents

画像プロセッサのためのコンパイラ管理メモリ Download PDF

Info

Publication number
JP2019507922A
JP2019507922A JP2018539834A JP2018539834A JP2019507922A JP 2019507922 A JP2019507922 A JP 2019507922A JP 2018539834 A JP2018539834 A JP 2018539834A JP 2018539834 A JP2018539834 A JP 2018539834A JP 2019507922 A JP2019507922 A JP 2019507922A
Authority
JP
Japan
Prior art keywords
array
sheet
shift register
image data
dimensional shift
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018539834A
Other languages
English (en)
Other versions
JP6726752B2 (ja
Inventor
メイクスナー,アルバート
パーク,ヒュンチュル
チュー,チューリン
レッドグレイブ,ジェイソン・ルパート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019507922A publication Critical patent/JP2019507922A/ja
Application granted granted Critical
Publication of JP6726752B2 publication Critical patent/JP6726752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30032Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30134Register stacks; shift registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30138Extension of register space, e.g. register cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N3/00Scanning details of television systems; Combination thereof with generation of supply voltages
    • H04N3/10Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical
    • H04N3/14Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical by means of electrically scanned solid-state devices
    • H04N3/15Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical by means of electrically scanned solid-state devices for picture signal generation
    • H04N3/1575Picture signal readout register, e.g. shift registers, interline shift registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

ある方法が記載される。この方法は、メモリの第1の位置から次の画像データのシートを二次元シフトレジスタアレイに繰り返しロードすることを備える。メモリは、二次元シフトレジスタアレイと、少なくとも1つのアレイ軸に沿って二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイとに、ローカルに結合される。ロードされた次の画像データのシートは、二次元シフトレジスタアレイの画像領域内に保持される。この方法は、さらに、実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して次の画像データのシートに対する出力値を繰り返し判断することを備え、出力値を判断するのに使用されるステンシルサイズは、二次元シフトレジスタアレイ内に存在するピクセルのみを包含する。この方法は、さらに、二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートをメモリの第2の位置からメモリの第1の位置に繰り返し移動することを備える。

Description

関連事例
この出願は、2016年2月26日に出願された米国仮特許出願第62/300,671号「画像プロセッサのためコンパイラ管理メモリ(“COMPILER MANAGED MEMORY FOR IMAGE PROCESSOR”)」の利益を主張し、その全体をここに引用により援用する。
発明の分野
本発明の分野は、一般に画像処理に関し、より詳細には、画像プロセッサのためのコンパイラ管理メモリに関する。
背景
画像処理は、典型的には、アレイに編成されたピクセル値の処理を含む。ここで、空間的に編成された二次元アレイは、画像の二次元的性質を捕捉する(追加の次元は、時間(例えば二次元画像のシーケンス)およびデータタイプ(例えば色)を含み得る。典型的なケースでは、アレイ化されたピクセル値は、静止画像または動きの画像を捕捉するためにフレームのシーケンスを生成したカメラによって提供される。伝統的な画像プロセッサは、典型的には、2つの極端な側面のいずれかに分類される。
第1の極端な側面は、汎用プロセッサまたは汎用状プロセッサ(例えばベクトル命令拡張を備えた汎用プロセッサ)上で実行されるソフトウェアプログラムとして画像処理タスクを実行する。第1の極端な側面は、一般的に非常に汎用性の高いアプリケーションソフトウェア開発プラットフォームを提供するが、関連するオーバーヘッド(例えば、命令フェッチおよびデコード、オンチップおよびオフチップデータの処理、投機的実行)と組み合わされたより精細な粒子のデータ構造の使用は、究極的には、プログラムコードの実行中に、データの単位あたり、より多くのエネルギーが消費される結果となる。
第2の逆の極端な側面は、固定機能のハードワイヤード回路系をはるかに大きなデータブロックに適用する。カスタム設計された回路に直接適用される、(粒度の細かいブロックとは対照的な)より大きなデータブロックの使用は、データ単位あたりの消費電力を大幅に削減する。しかしながら、カスタム設計された固定機能回路系の使用は、一般に、プロセッサが実行することができるタスクのセットが限られる結果となる。このように、(第1の極端な側面に関連する)幅広く汎用性の高いプログラミング環境は第2の極端な側面においては欠けている。
高度に汎用性の高いアプリケーションソフトウェア開発の機会と、データ単位あたりの電力効率の向上とを両立させた技術プラットフォームは、依然として望ましいが、欠けている解決策である。
概要
ある方法が記載される。この方法は、メモリの第1の位置から次の画像データのシートを二次元シフトレジスタアレイに繰り返しロードすることを備える。メモリは、二次元シフトレジスタアレイと、少なくとも1つのアレイ軸に沿って二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイとに、ローカルに結合される。ロードされた次の画像データのシートは、二次元シフトレジスタアレイの画像領域内に保持される。この方法は、さらに、実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して次の画像データのシートに対する出力値を繰り返し判断することを備え、出力値を判断するのに使用されるステンシルサイズは、二次元シフトレジスタアレイ内に存在するピクセルのみを包含する。この方法は、さらに、二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートをメモリの第2の位置からメモリの第1の位置に繰り返し移動することを備える。
図面のリスト
以下の説明および添付の図面は、本発明の実施形態を例示するために使用される。
画像プロセッサハードウェアアーキテクチャの実施形態を示す。 画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。 画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。 画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。 画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。 画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。 ステンシルプロセッサの実施形態を示す。 ステンシルプロセッサの命令ワードの実施形態を示す図である。 ステンシルプロセッサ内のデータ計算ユニットの一実施形態を示す図である。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。 統合された実行レーンアレイおよび二次元シフトアレイのための単位セルの実施形態を示す図である。 画像プロセッサデータ計算ユニットのためのコンパイラ管理メモリアクセス手法に関する。 画像プロセッサデータ計算ユニットのためのコンパイラ管理メモリアクセス手法に関する。 画像プロセッサデータ計算ユニットのためのコンパイラ管理メモリアクセス手法に関する。 画像プロセッサのメモリアクセス方法を示す。 メモリアドレスを生成するために使用される命令に関する。 メモリアドレスを生成するために使用される命令に関する。 別のコンパイラ管理メモリアクセス手法に関する。 コンピューティングシステムの一実施形態を示す。
詳細な記載
a.画像プロセッサハードウェアアーキテクチャおよび動作
図1は、ハードウェアで実現される画像プロセッサのためのアーキテクチャ100の実施形態を示す。画像プロセッサは、例えば、シミュレートされた環境内で仮想プロセッサ用に書かれたプログラムコードを、ハードウェアプロセッサによって実際に実行されるプログラムコードに変換するコンパイラによって対象とされてもよい。図4に示すように、アーキテクチャ100は、複数のラインバッファユニット101_1〜101_Mを含み、それらは、複数のステンシルプロセッサユニット102_1〜102_Nおよび対応するシート生成部ユニット103_1〜103_Nに、ネットワーク104(例えば、ネットワークオンチップ(NOC)(オンチップスイッチネットワーク、オンチップリングネットワークまたは他の種類のネットワークを含む))を介して相互接続される。一実施形態では、どのラインバッファユニットが、ネットワーク104を介してどのシート生成部および対応するステンシルプロセッサに接続してもよい。
一実施形態では、プログラムコードはコンパイルされ、対応するステンシルプロセッサ102にロードされて、ソフトウェア開発者によって以前に定義された画像処理動作を実行する(プログラムコードは、例えば、設計および実装に応じて、ステンシルプロセッサの関連のシート生成部103にもロードされてもよい)。少なくともいくつかの例では、画像処理パイプラインを、第1のパイプラインステージ用の第1のカーネルプログラムを第1のステンシルプロセッサ102_1にロードし、第2のパイプラインステージ用の第2のカーネルプログラムを第2のステンシルプロセッサ102_2にロードするなどして、実現することができ、第1のカーネルはパイプラインの第1ステージの機能を実行し、第2のカーネルはパイプラインの第2ステージの機能を実行し、追加の制御フロー方法がインストールされて、出力画像データをパイプラインの1つのステージからの次のステージに渡す。
他の構成では、画像プロセッサは、同じカーネルプログラムコードを動作させる2つ以上のステンシルプロセッサ102_1,102_2を有する並列マシンとして実現することができる。例えば、画像データの高密度かつ高データレートのストリームが、各々が同じ機能を実行する複数のステンシルプロセッサにわたってフレームを広げることによって処理されてもよい。
さらに他の構成では、カーネルの本質的に任意のDAGのハードウェアプロセッサへのロードを、それぞれのステンシルプロセッサをそれら自身のプログラムコードのカーネルとともに構成し、適切な制御フローフックをハードウェアに構成して、出力画像をDAG設計における1つのカーネルから次のカーネルの入力に向けることによって、行なってもよい。
一般的なフローとして、画像データのフレームは、マクロI/Oユニット105で受信され、フレーム単位でラインバッファユニット101の1つ以上に渡される。特定のラインバッファユニットは、それの画像データのフレームを、「ライングループ」と呼ばれる画像データのより小さな領域に解析し、次いでライングループをネットワーク104を介して特定のシート生成部に渡す。ある完全な(full)単数のライングループを、例えば、フレームの複数の連続した完全な行または列のデータで構成することができる(簡単にするために、本明細書では主に連続した行と称する)。シート生成部は、画像データのライングループを「シート」と呼ばれる画像データのより小さな領域にさらに解析し、そのシートを対応するステンシルプロセッサに提示する。
単一入力の画像処理パイプラインやDAGフローの場合、一般に、入力フレームは、同じラインバッファユニット101_1に向けられ、それは、画像データをライングループに解析し、ライングループを対応するシート生成部103_1(対応するステンシルプロセッサ102_1はパイプライン/DAGにおいて第1のカーネルのコードを実行している)に向ける。ステンシルプロセッサ102_1による、それが処理するライングループでの動作が終了した後、シート生成部103_1は、出力ライングループを「下流」のラインバッファユニット101_2に送信する(ある使用例では、出力ライングループは、先に入力ライングループを送信したのと同じラインバッファ装置101_1に送り返すことができる)。
自身のそれぞれの他のシート生成部およびステンシルプロセッサ(例えば、シート生成部103_2およびステンシルプロセッサ102_2)上で実行されるパイプライン/DAGにおける次のステージ/動作を表す1つ以上の「消費側」カーネルは、下流ラインバッファユニット101_2から、第1のステンシルプロセッサ102_1によって生成された画像データを受信する。このようにして、第1のステンシルプロセッサ上で動作する「作成側」カーネルは、その出力データが、第2のステンシルプロセッサ上で動作する「消費側」カーネルに転送され、消費側カーネルは、パイプラインまたはDAG全体の設計と整合する作成側カーネルの後に次のタスクのセットを実行する。
ステンシルプロセッサ102は、画像データの複数の重なり合うステンシル上で同時に動作するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内部ハードウェア処理能力は、シートのサイズを効果的に決定する。ここでは、ステンシルプロセッサ102内で、実行レーンのアレイが一致して動作して、複数の重なり合うステンシルによってカバーされる画像データ表面領域を同時に処理する。
以下でより詳細に説明するように、様々な実施形態において、画像データのシートは、ステンシルプロセッサ102内において二次元レジスタアレイ構造にロードされる。シートおよび二次元レジスタアレイ構造の使用は、大量のデータを、大量のレジスタ空間に、例えば、処理タスクが実行レーンアレイによってその直後に直接データ上で実行される単一のロード動作として移動することによって、電力消費の改善を効果的に提供すると考えられている。さらに、実行レーンアレイおよび対応するレジスタアレイの使用は、容易にプログラマブル/設定可能な異なるステンシルサイズを提供する。
図2a〜図2eは、ラインバッファユニット101の解析アクティビティ、およびシート生成部ユニット103のより微細な粒子の解析アクティビティ、ならびにシート生成部103に結合されるステンシルプロセッサ102のステンシル処理アクティビティの両方のハイレベルの実施形態を示す。
図2aは、画像データ201の入力フレームの一実施形態を示す。図2aはまた、ステンシルプロセッサが動作するように設計された3つの重なり合うステンシル202(各々3ピクセル×3ピクセルの寸法を有する)の概要を示す。各ステンシルがそれぞれ出力画像データを生成する出力ピクセルは、ベタ黒で強調表示される。簡略化のために、3つの重なり合うステンシル202は、垂直方向にのみ重なるように示されている。実際には、ステンシルプロセッサは、垂直方向および水平方向の両方に重なるステンシルを有するように設計されてもよいことを認識することが適切である。
図2aに見られるように、ステンシルプロセッサ内の垂直に重なり合うステンシル202のために、フレーム内に単一のステンシルプロセッサが動作することができる画像データの広い帯域が存在する。以下でより詳細に説明するように、一実施形態では、ステンシルプロセッサは、データを、それらの重なり合うステンシル内で、左から右への態様で、画像データにわたって処理する(そして、次のラインのセットに対して、上から下の順序で繰り返す)。このように、ステンシルプロセッサがそれらの動作を前方に進めるにつれて、ベタ黒出力ピクセルブロックの数は、水平方向に右に成長する。上述したように、ラインバッファユニット101は、ステンシルプロセッサが今後の拡張された数のサイクルにわたって動作するのに十分な入来フレームからの入力画像データのライングループを解析することを担う。ライングループの例示的な図示は、陰影領域203として示されている。一実施形態では、ラインバッファユニット101は、ライングループをシート生成部との間で送受信するための異なるダイナミクスを理解することができる。例えば、「完全なグループ」と呼ばれる1つのモードによれば、画像データの完全な全幅のラインが、ラインバッファユニットとシート生成部との間で渡される。「仮想的に高い」と呼ばれる第2のモードによれば、ライングループは最初に全幅行のサブセットと共に渡される。その後、残りの行は、より小さい(全幅未満の)片で順番に渡される。
入力画像データのライングループ203がラインバッファユニットによって画定され、シート生成部ユニットに渡されると、シート生成部ユニットはさらに、ライングループを、ステンシルプロセッサのハードウェア制限に、より正確に適合する、より微細なシートに、解析する。より具体的には、以下でさらに詳細に説明するように、一実施形態では、各ステンシルプロセッサは、二次元シフトレジスタアレイからなる。二次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「真下」にシフトし、シフトのパターンは、各実行レーンをそれ自身のステンシル内においてデータに対して動作させる(すなわち、各実行レーンは、それ自身の情報のステンシル上で処理して、そのステンシルの出力を生成する)。一実施形態では、シートは、二次元シフトレジスタアレイを「満たす」か、さもなければ二次元シフトレジスタアレイにロードされる入力画像データの表面領域である。
以下でより詳細に説明するように、様々な実施形態では、実際には、任意のサイクルでシフト可能な二次元レジスタデータの複数の層が存在する。便宜上、本記載の多くは、「二次元シフトレジスタ」などの用語を、シフト可能な二次元レジスタデータの1つ以上のそのような層を有する構造を指すために単純に使用する。
したがって、図2bに見られるように、シート生成部は、ライングループ203から最初のシート204を解析し、それをステンシルプロセッサに供給する(ここで、データのシートは、参照番号204によって全体的に識別される陰影領域に対応する)。図2cおよび図2dに示すように、ステンシルプロセッサは、重なるステンシル202をシート上で左から右へ効果的に移動させることによって、入力画像データのシートに対して動作する。図2dのように、シート内のデータから出力値を計算することができるピクセル数が使い果たされる(他のピクセル位置は、シート内の情報から決定される出力値を有することができない)。簡単にするために、画像の境界領域は無視されている。
図2eにおいて見られるように、シート生成部は次いで、ステンシルプロセッサが動作を継続する次のシート205を提供する。ステンシルが次のシートに対して動作を開始するときのステンシルの初期位置は、(先に図2dに示されている)最初のシート上の消耗点から右への次の進行であることに留意されたい。新たなシート205で、ステンシルプロセッサが最初のシートの処理と同じ態様で新たなシートに対して動作するにつれ、ステンシルは単に右に移動し続ける。
出力ピクセル位置を取り囲むステンシルの境界領域のために、第1のシート204のデータと第2のシート205のデータとの間にいくらかの重なりがあることに留意されたい。重なりは、シート生成部が重なり合うデータを2回再送信することによって簡単に処理することができる。別の実現例では、次のシートをステンシルプロセッサに供給するために、シート生成部は、ステンシルプロセッサに新たなデータを送るだけに進んでもよく、ステンシルプロセッサは、前のシートからの重なり合うデータを再利用する。
b.ステンシルプロセッサ設計および動作
図3aは、ステンシルプロセッサ300の実施形態を示す。図3aにおいて見られるように、ステンシルプロセッサは、データ計算ユニット301、スカラープロセッサ302および関連するメモリ303およびI/Oユニット304を含む。データ計算ユニット301は、実行レーンのアレイ305、二次元シフトアレイ構造306、およびアレイの特定の行または列に関連する別個のランダムアクセスメモリ307を含む。
I/Oユニット304は、シート生成部から受け取ったデータの「入力」シートをデータ計算ユニット301にロードし、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、データ計算ユニット301へのシートデータのロードは、受け取ったシートを画像データの行/列に解析し、画像データの行/列を二次元シフトレジスタ構造306または実行レーンアレイの行/列のそれぞれのランダムアクセスメモリ307にロードすることを必要とする(以下でより詳細に説明する)。シートが最初にメモリ307にロードされる場合、実行レーンアレイ305内の個々の実行レーンは、適宜、ランダムアクセスメモリ307からシートデータを二次元シフトレジスタ構造306にロードすることができる(例えば、シートのデータ上での動作のすぐ前のロード命令として)。データのシートのレジスタ構造306へのロード(シート生成部からの直接的であろうとまたはメモリ307からであろうと)が完了すると、実行レーンアレイ305の実行レーンはデータに対して動作し、最終的に、完成したデータをシートとしてシート生成部に、またはランダムアクセスメモリ307に「書き戻す」。後者の場合、I/Oユニット304はランダムアクセスメモリ307からデータをフェッチして出力シートを形成し、出力シートはシート生成部に転送される。
スカラープロセッサ302は、スカラーメモリ303からステンシルプロセッサのプログラムコードの命令を読み出し、実行レーンアレイ305の実行レーンに命令を発行するプログラムコントローラ309を含む。一実施形態では、データ計算ユニット301からSIMDのような動作を実行するために、単一の同じ命令がアレイ305内のすべての実行レーンにブロードキャストされる。一実施形態では、スカラーメモリ303から読み出され、実行レーンアレイ305の実行レーンに発行される命令の命令フォーマットは、命令当たり2つ以上のオペコードを含む非常に長い命令語(VLIW)タイプのフォーマットを含む。さらなる実施形態では、VLIWフォーマットは、(以下に説明するように、一実施形態では2つ以上の従来のALU動作を指定することができる)各実行レーンのALUによって実行される数学的機能を指示するALUオペコードと、(特定の実行レーンまたは実行レーンのセットに対してメモリ操作を指示する)メモリオペコードとの両方を含む。
「実行レーン」という用語は、命令を実行することができる1つ以上の実行ユニットのセット(例えば、命令を実行することができる論理回路系)を指す。実行レーンは、しかしながら、様々な実施形態では、単なる実行ユニットを超えた、よりプロセッサに似た機能を含むことができる。例えば、1つ以上の実行ユニットに加えて、実行レーンは、受信された命令をデコードする論理回路系、または、よりMIMDのような設計の場合、命令をフェッチおよびデコードする論理回路系を含むことができる。MIMDのようなアプローチに関しては、ここでは集中プログラム制御アプローチが主に記載されているが、より分散型のアプローチが様々な代替実施形態(例えば、アレイ305の各実行レーン内のプログラムコードおよびプログラムコントローラを含む)において実施されてもよい。
実行レーンアレイ305、プログラムコントローラ309および二次元シフトレジスタ構造306の組み合わせは、広範囲のプログラマブルな機能のための幅広く適応可能/設定可能なハードウェアプラットフォームを提供する。例えば、アプリケーションソフトウェア開発者は、個々の実行レーンが多種多様な機能を実行することができ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスすることができれば、寸法(例えばステンシルサイズ)だけでなく幅広い異なる機能能力を有するカーネルをプログラミングすることができる。
実行レーンアレイ305によって操作される画像データのためのデータ記憶装置として機能することとは別に、ランダムアクセスメモリ307は、1つ以上のルックアップテーブルを保持することもできる。様々な実施形態では、1つ以上のスカラールックアップテーブルをスカラーメモリ303内でインスタンス化することもできる。
スカラールックアップは、同じルックアップテーブルからの同じインデックスからの同じデータ値を実行レーンアレイ305内の各実行レーンに渡すことを含む。様々な実施形態では、上述のVLIW命令フォーマットは、スカラープロセッサによって実行されるルックアップ動作をスカラールックアップテーブルに向けるスカラーオペコードを含むようにも拡張される。オペコードとともに使用するために指定されたインデックスは、即値オペランドでもよいし、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルからのルックアップは、基本的に同じクロックサイクル中に実行レーンアレイ305内のすべての実行レーンに同じデータ値をブロードキャストすることを含む。ルックアップテーブルの使用および動作に関する追加の詳細は、以下でさらに説明する。
図3bは、上述のVLIW命令ワードの実施形態を要約したものである。図3bにおいて見られるように、VLIW命令ワードフォーマットは、3つの別個の命令、すなわち、1)スカラープロセッサによって実行されるスカラー命令351、2)実行レーンアレイ内でそれぞれのALUによってSIMD方式でブロードキャストされ実行されるALU命令352、および3)部分的SIMD方式でブロードキャストされ実行されるメモリ命令353に対するフィールドを含む(例えば、実行レーンアレイ内において同じ行に沿った実行レーンが同じランダムアクセスメモリを共有する場合、異なる行の各々からの1つの実行レーンが実際に命令を実行する(メモリ命令353のフォーマットは、各行からのどの実行レーンが命令を実行するかを識別するオペランドを含むことができる)。
1つ以上の即時オペランドに対するフィールド354も含まれる。命令351,352,353のどれが、どの即時オペランド情報を用いるかは命令フォーマットで識別されてもよい。命令351,352,353の各々は、また、それら自身のそれぞれの入力オペランドおよび結果情報(例えば、ALU演算用のローカルレジスタならびにメモリアクセス命令用のローカルレジスタおよびメモリアドレス)を含む。一実施形態では、スカラー命令351は、実行レーンアレイ内の実行レーンが他の2つの命令352,353のいずれかを実行する前にスカラープロセッサによって実行される。すなわち、VLIWワードの実行は、スカラー命令351が実行される第1のサイクルと、続いて他の命令352,353が実行されてもよい第2のサイクルとを含む。(様々な実施形態では、命令352,353は並列して実行されてもよい)。
一実施形態では、スカラープロセッサによって実行されるスカラー命令は、シートをデータ計算ユニットのメモリもしくは2Dシフトレジスタからロードまたはそれに格納するようシート生成部に発行されるコマンドを含む。ここで、シート生成部の動作は、ラインバッファユニットの動作またはスカラープロセッサによって発行されたコマンドをシート生成部が完了するのに要するサイクル数のプレランタイムの理解を妨げる他の変数に依存し得る。したがって、一実施形態では、スカラー命令351がシート生成部に発行されるべきコマンドに対応するか、さもなければコマンドをシート生成部に発行させるVLIWワードは、他の2つの命令フィールド352,353に無操作(NOOP)命令を含む。次に、プログラムコードは、シート生成部がデータ計算ユニットに対するそのロードまたはデータ計算ユニットからのその格納を完了するまで、命令フィールド352,353についてNOOP命令のループに入る。ここで、シート生成部にコマンドを発行すると、スカラープロセッサは、シート生成部がコマンドの完了時にリセットするインターロックレジスタのビットをセットしてもよい。NOOPループの間、スカラープロセッサはインターロックビットのビットを監視する。スカラープロセッサが、シート生成部がそのコマンドを完了したことを検出すると、通常の実行が再び開始される。
図4は、データ計算コンポーネント401の一実施形態を示す。図4において見られるように、データ計算コンポーネント401は、二次元シフトレジスタアレイ構造406「の上に」論理的に位置決めされる実行レーンのアレイ405を含む。上述したように、様々な実施形態では、シート生成部によって提供される画像データのシートが二次元シフトレジスタ406にロードされる。実行レーンは、レジスタ構造406からのシートデータに対して動作する。
実行レーンアレイ405およびシフトレジスタ構造406は、互いに対して適所に固定される。しかし、シフトレジスタアレイ406内のデータは、戦略的かつ調整された態様でシフトして、実行レーンアレイ内の各実行レーンがデータ内で異なるステンシルを処理するようにする。したがって、各実行レーンは、生成されている出力シートにおいて異なるピクセルに対する出力画像値を決定する。図4のアーキテクチャから、実行レーンアレイ405が垂直に近接する実行レーンおよび水平に近接する実行レーンを含むので、重なり合うステンシルが垂直に配置されるだけでなく水平にも配置されることは明らかである。
データ計算ユニット401のいくつかの注目すべきアーキテクチャ上の特徴には、実行レーンアレイ405よりも広い寸法を有するシフトレジスタ構造406が含まれる。すなわち、実行レーンアレイ405の外側にレジスタ409の「ハロー」が存在する。ハロー409は、実行レーンアレイの2つの側に存在するように示されているが、実現例に応じて、実行レーンアレイ405の2つ未満(1つ)またはそれ以上(3つまたは4つ)の側に存在してもよい。ハロー405は、データが実行レーン405の「下で」シフトしているときに、実行レーンアレイ405の境界の外側にこぼれ出るデータのための「スピルオーバ」空間を提供する働きをする。単純なケースとして、実行レーンアレイ405の右端を中心とする5×5のステンシルは、ステンシルの最も左側のピクセルが処理されるとき、さらに右側に4つのハローレジスタ位置を必要とすることになる。図面を簡単にするために、図4は、名目上の実施例において、どちらの側(右、底)のレジスタでも水平方向接続および垂直方向接続の両方を有するであろうとき、ハローの右側のレジスタを、水平方向シフト接続を有するだけとして、およびハローの底側のレジスタを、垂直方向シフト接続を有するだけとして示す。
アレイの各行および/もしくは各列またはその一部分に結合されるランダムアクセスメモリ407によって追加のスピルオーバールームが提供される(例えば、ランダムアクセスメモリは、4つの実行レーン行状と2つの実行レーン列状にまたがる実行レーンアレイの「領域」に割り当てられてもよい。簡略化のために、アプリケーションの残りの部分は、主に、行および/または列に基づく割り当てスキームを指す)。ここで、実行レーンのカーネル動作が、それが(一部の画像処理ルーチンが必要とする場合がある)二次元シフトレジスタアレイ406の外にあるピクセル値を処理することを必要とする場合、画像データの面は、ハロー領域409からランダムアクセスメモリ407にさらにこぼれ出ることができる。例えば、ハードウェアが実行レーンアレイの右端の実行レーンの右側にわずか4つの記憶素子のハロー領域を含む場合の6X6ステンシルを考える。この場合、ステンシルを完全に処理するために、データをハロー409の右端からさらに右側にシフトする必要があるであろう。ハロー領域409の外側にシフトされたデータは、ランダムアクセスメモリ407にこぼれ出る。ランダムアクセスメモリ407および図3のステンシルプロセッサの他の適用例を以下でさらに説明する。
図5aないし図5kは、上述のように実行レーンアレイ「の下で」二次元シフトレジスタアレイ内で画像データがシフトされる態様の実施例を示す。図5aにおいて見られるように、二次元シフトアレイのデータ内容は第1のアレイ507に示され、実行レーンアレイはフレーム505によって示される。また、実行レーンアレイ内の2つの近隣の実行レーン510が簡略化して示されている。この簡単な図示510では、各実行レーンは、シフトレジスタからデータを受け付け、ALU出力からデータを受け付け(例えば、サイクルにわたってアキュムレータとして動作する)、または出力データを出力先に書き込むことができるレジスタR1を含む。
各実行レーンはまた、ローカルレジスタR2において、二次元シフトアレイにおけるそれ「の下の」内容が利用可能である。したがって、R1は実行レーンの物理レジスタであり、R2は二次元シフトレジスタアレイの物理レジスタである。実行レーンは、R1および/またはR2によって提供されるオペランドに対して動作可能なALUを含む。さらに詳細に後述するように、一実施形態では、シフトレジスタは、実際にはアレイ位置ごとに複数の(ある「深さ」の)記憶/レジスタ素子で実現されるが、シフト動作は記憶素子の1つの面に限られる(例えば、記憶素子の1つの面のみがサイクルごとにシフトすることができる)。図5aないし図5kは、それぞれの実行レーンから結果のXを格納するために使用されるとしてこれらのより深いレジスタ位置の1つを示している。例示を容易にするために、より深い結果のレジスタは、その対応するレジスタR2の下ではなく、その横に図示されている。
図5a〜図5kは、実行レーンアレイ内に示された実行レーン位置511の対に中心位置が整列された2つのステンシルの計算に焦点を当てている。例示を容易にするために、実行レーン510の対は、実際には、以下の例によれば、それらが垂直方向の近隣実行レーンである場合に、水平方向の近隣実行レーンとして図示されている。
図5aで最初に見られるように、実行レーンはそれらの中央のステンシル位置上に中心を配される。図5bは、両方の実行レーンによって実行されるオブジェクトコードを示す。図5bにおいて見られるように、両方の実行レーンのプログラムコードは、シフトレジスタアレイ内のデータを、1つの位置だけ下にシフトさせ、1つの位置だけ右にシフトさせる。これにより、両方の実行レーンがそれらのそれぞれのステンシルの左上隅に整列される。次に、プログラムコードは、(R2において)それらのそれぞれの位置にあるデータをR1にロードさせる。
図5cに示すように、次にプログラムコードは、実行レーンの対に、シフトレジスタアレイ内のデータを1単位だけ左にシフトさせ、各実行レーンのそれぞれの位置の右の値を各実行レーンの位置にシフトさせる。R1の値(以前の値)は、次いで、(R2における)実行レーンの位置にシフトした新しい値とともに加算される。結果はR1に書き込まれる。図5dで見られるように、図5cについて上述したのと同じプロセスが繰り返され、結果のR1に対して、今度は上側実行レーンにおける値A+B+C、および下側実行レーンにおけるF+G+H値を含ませるようにする。この時点で、両方の実行レーンはそれらのそれぞれのステンシルの上側の行を処理している。(左側に存在する場合には)実行レーンアレイの左側でハロー領域に、またはハロー領域が存在しない場合にはランダムアクセスメモリにこぼれ出ることは、実行レーンアレイの左側には存在しないことに注目されたい。
図5eに示すように、次に、プログラムコードは、シフトレジスタアレイ内のデータを1単位だけ上にシフトさせ、両方の実行レーンをそれらのそれぞれのステンシルの中間行の右端に整列される。両方の実行レーンのレジスタR1は、現在、ステンシルの最上行および中間行の一番右の値の合計を含む。図5fおよび図5gは、両方の実行レーンのステンシルの中間行にわたって左方向に移動する継続的な進行を示す。累積加算は、図5gの処理の終了時に、両方の実行レーンがそれらのそれぞれのステンシルの最上行の値と中間行の値との合計を含むように、継続する。
図5hは、各実行レーンをそれの対応するステンシルの最下行に整列させる別のシフトを示す。図5iおよび図5jは、両方の実行レーンのステンシルの過程にわたって処理を完了するための継続的なシフトを示す。図5kは、各実行レーンをデータアレイにおいてそれの正しい位置に整列させ、その結果をそこに書き込むための追加のシフトを示す。
図5a〜図5kの例では、シフト動作のためのオブジェクトコードは、(X、Y)座標で表されるシフトの方向および大きさを識別する命令フォーマットを含むことができることに留意されたい。例えば、1つの位置分の上方向シフトのためのオブジェクトコードは、オブジェクトコードでSHIFT0,+1として表現されてもよい。別の例として、1つの位置分の右方向へのシフトは、オブジェクトコードでSHIFT+1,0として表現されてもよい。様々な実施形態では、より大きい大きさのシフトも、オブジェクトコードで指定することができる(例えば、シフト0,+2)。ここで、2Dシフトレジスタハードウェアが1サイクルにつき1つの位置だけしかシフトをサポートしない場合、命令は機械によって複数のサイクル実行を要求するように解釈されてもよく、または2Dシフトレジスタハードウェアは、1サイクルにつき2つ以上の位置分シフトをサポートするように設計されてもよい。後者の実施形態はより詳細にさらに下に記載される。
図6aは、アレイ実行レーンおよびシフトレジスタ構造の単位セルの別のより詳細な図を示す(ハロー領域のレジスタは、対応する実行レーンを含まない)。実行レーンおよび実行レーンアレイの各位置に関連するレジスタ空間は、一実施形態では、実行レーンアレイの各ノードで、図6aに示す回路系をインスタンス化することによって実施される。図6aに示すように、単位セルは、4つのレジスタR2〜R5からなるレジスタファイル602に結合される実行レーン601を含む。任意のサイクルの間、実行レーン601は、レジスタR1〜R5のいずれかから読み書きすることができる。2つの入力オペランドを必要とする命令の場合、実行レーンはR1〜R5のいずれかからオペランドの両方を取り出すことができる。
一実施形態では、二次元シフトレジスタ構造は、近隣のレジスタファイル間のシフトが同じ方向にあるように(例えば、すべての実行レーンは左にシフトする、すべての実行レーンは右にシフトするなど)、それの近隣のレジスタファイルが入力マルチプレクサ604を介する場合に、単一のサイクルの間に、レジスタR2〜R4のいずれか(ただ)1つの内容が、出力マルチプレクサ603を介してその近隣のレジスタファイルの1つにシフト「アウト」され、対応するものからシフト「イン」される内容でレジスタR2〜R4のいずれか(ただ)1つの内容が置き換えられることによって、実現される。同じレジスタがその内容がシフトアウトされて同じサイクルでシフトインされる内容で置き換えられるのが一般的であるかもしれないが、マルチプレクサ構成603,604は、同じサイクル中に同じレジスタファイル内で異なるシフトソースおよびシフトターゲットレジスタを可能にする。
図6aに示すように、シフトシーケンスの間、実行レーンは、内容をそのレジスタファイル602からその左、右、上および下の近隣のレジスタファイルにシフトアウトする。同じシフトシーケンスと関連して、実行レーンは、さらに、内容をその左、右、上および下の近隣のレジスタファイルの特定のものからそれのレジスタファイルにシフトする。再び、シフトアウトターゲットおよびシフトインソースは、すべての実行レーンについて同じシフト方向と整合しなければならない(例えば、シフトアウトが右隣に対する場合、シフトインは左隣からでなければならない)。
一実施形態では、1サイクルにつき1つの実行レーンにつき1つのレジスタの内容だけをシフトすることが許されるが、他の実施形態では、2つ以上のレジスタの内容をシフトイン/アウトすることが許されてもよい。例えば、図6aに示されたマルチプレクサ回路系603,604の第2の例が図6aの設計に組み込まれる場合、同じサイクルの間に2つのレジスタの内容がシフトアウト/インされてもよい。もちろん、1つのレジスタの内容だけがサイクルごとにシフトされることが許される実施形態では、数学的演算間のシフトのためにより多くのクロックサイクルを消費することによって、複数のレジスタからのシフトが数学的演算間に起こってもよい(例えば、2つのレジスタの内容が、数学的演算間で2つのシフト演算を消費することによって数学的演算間でシフトされてもよい)。
実行レーンのレジスタファイルのすべての内容未満がシフトシーケンス中にシフトアウトされる場合、各実行レーンのシフトアウトされないレジスタの内容は適所に残る(シフトしない)ことに留意されたい。したがって、シフトインされる内容と置き換えられないシフトされない内容は、シフトサイクルにわたって実行レーンにローカルに維持される。各実行レーンで見られるメモリユニット(「M」)は、データを、実行レーンアレイ内の実行レーンの行および/または列に関連付けられるランダムアクセスメモリ空間からロードまたはそれに格納するために使用される。ここで、Mユニットは、実行レーンの自身のレジスタ空間からロードまたはそれに格納できないデータをロード/格納するためによく使用されるという点で、標準的なMユニットとして機能する。様々な実施形態では、Mユニットの主な動作は、ローカルレジスタからメモリにデータを書き込み、メモリからデータを読み出してそれをローカルレジスタに書き込むことである。
ハードウェア実行レーン601のALUユニットによってサポートされるISAオペコードに関して、様々な実施形態において、ハードウェアALUによってサポートされる数学的オペコードは、仮想実行レーンによってサポートされる数学的オペコード(例えば、ADD、SUB、MOV、MUL、MAD、ABS、DIV、SHL、SHR、MIN/MAX、SEL、AND、OR、XOR、NOT)と一体的に結び付けられる(例えば実質的に同じである)。上述のように、メモリアクセス命令は、実行レーン601によって実行され、データをそれらの関連付けられるランダムアクセスメモリからフェッチまたはそれに格納することができる。さらに、ハードウェア実行レーン601は、シフト演算命令(右、左、上、下)をサポートし、二次元シフトレジスタ構造内でデータをシフトする。上述したように、プログラム制御命令は主にステンシルプロセッサのスカラープロセッサによって実行される。
c.コンパイラ管理ステンシルプロセッサメモリ
図4を再び参照すると、図4の特定の実施形態では、実行レーンアレイ405の右端および下端の周りに存在するレジスタ409のハロー領域の存在を想起されたい(他の実施形態は、実行レーンアレイのより多くのまたはより少ない辺上にハローレジスタを含み得る)。前述の説明では、「シート」は、実行レーンアレイ405の寸法を有する内部のシフトレジスタ空間を消費した画像情報のアレイであると理解された。ここで、様々な実施形態において、ハロー409内のレジスタ位置は、画像データ上で画像処理命令を実行するための関連付けられたALUユニットを含まず、例えば、ハロー409領域は、例えば、実行レーンアレイ領域内のシフトアクティビティからの「スピルオーバ」データを蓄積するために存在する。したがって、処理可能な画像データの領域は領域405に対応し、「シート」は領域405と同一の広がりを持つと理解される。レジスタアレイ406へのシートのロードは、画像データを領域405にロードすることを含む。
コンパイラは、シート生成部とステンシルプロセッサのデータ計算ユニット401の内部RAM407との間の情報のシートのロードを本質的に制御する命令をプログラムコードに挿入することを担う。したがって、様々な実施形態において、コンパイラは、どのシートがシート生成部からRAM407にロードされるべきか、およびそのようなシートがいつロードされるべきかを判断することを担う。さらに、コンパイラは、ステンシルプロセッサRAM407内のどのシートが二次元シフトアレイ406にロードされるべきかを判断することを担う。RAM407は、別々のバンクに分解され、各バンクはシフトレジスタアレイに対して画像の特定の領域を割り当てられてもよい(例えば、RAMバンク407_1は、シフトレジスタアレイの第1の行に対する画像データを保持し、RAMバンク407_2は、シフトレジスタアレイの第2の行に対する画像データを保持するなど)。
ここで、シート生成部からRAM407への同じデータのシートの「再ロード」および/またはRAM407からの二次元シフトレジスタ406への同じデータのシートの再ロードは、例えば、画像プロセッサの電力消費を最小限に抑えるために、可能な場合には避けるべきである。すぐ下に、より詳細に説明されるように、画像データの基本単位が実行レーンアレイ405のより小さい領域に対応するデータのシートであると理解されていても、コンパイラがハロー領域409の存在を認識する場合には、非効率性を回避することができる。回避された非効率性は、画像処理アルゴリズムが、実行レーンアレイ405内の任意の出力ピクセルについてハローの外側に延びるデータを処理する場合に特に顕著である。
図7a〜図7dは、基本的な例を示す。図7aにおいて観察されるように、入力画像データのシートは、より大きな入力画像の領域701に対応する。図7a〜図7dは、簡略化のために、入力シートは実行レーンアレイと同じ寸法を有すると仮定する。このような構成は便利であることが多いが、必ずしも必要ではない。例えば、入力表面の解像度が出力表面と異なる場合(例えば、アップサンプリングまたはダウンサンプリングから)、シートは実行レーンアレイとは異なる寸法を有し得る。例えば、16x16の実行レーンアレイを有するプロセッサでは、2xダウンサンプリングされた入力シートは寸法32x32であり得、2xアップサンプリングされた入力シートは寸法8x8であり得る。
入力画像が、シート701だけでなく、ハロー領域に収まる可能性がある周囲の画像データも含むと理解される場合、入力画像データの総量は陰影領域720を消費するであろう。シート701内のピクセルについて出力ピクセル値を判断する際に、より大きな領域730にわたるなど、ハロー領域の外側の入力画像データを処理するために、少なくともいくつかのアルゴリズムを設計することができる。
例えば、実行レーンアレイ405の寸法が16個のピクセル位置×16個のピクセル位置であり、ハロー領域のサイズがX軸に沿った追加の4つのピクセル位置およびY軸に沿った4つのピクセル位置である場合、シート701は、16個のピクセル位置×16個のピクセル位置の寸法を有し、領域720は20個のピクセル位置×20個のピクセル位置を有するであろう。シート701内のピクセルについての出力ピクセル値を決定するアルゴリズムが寸法18ピクセル×18ピクセルのステンシルにわたって処理する場合、シート701について処理が行なわれる必要があるであろう表面領域は、境界730内の領域を含むように領域720から外方向に延びるであろう。ここでは、例えば、シート701の右下隅のピクセル位置のための処理に対応するために、境界730によって境界が定められた領域の右下隅のピクセルが必要となるであろう。このようなシート701の処理は、シート702,703および704から実質的な量のデータを必要とする。
一実施形態では、コンパイラは、入力画像内の複数のシートのレイアウト、実行レーンアレイの寸法、ハローの寸法、および実行レーンアレイ領域内の特定の出力ピクセルについて処理が行なわれるべきステンシルのサイズを理解するように設計されている。次に、コンパイラは、コード内の適切な位置で、シート生成部からの次の情報シートをデータ計算ユニットRAM407にロードするメモリロード命令を挿入するよう進む。
さらに、以下でさらに詳細に説明するように、コンパイラは、さらに、データ移動命令を挿入して、データ計算ユニットのランダムアクセスメモリ407内のデータのシートを移動させて、それらの再使用を向上させ、それにより、同じデータのシートをシート生成部からランダムアクセスメモリ407に重複ロードすることを低減する。
図7bは、第1のシート位置701のピクセル位置の各々についてアルゴリズムを完全に実行するためにシート生成器に十分な数のシートをランダムアクセスメモリ407に最初にロードさせるためにコンパイラによって構築された一連の命令740を示す。図7bに示すように、4つのシート701〜704からのデータがロードされ、論理シート識別子(Lsheet_0、Lsheet_1、LSheet_2、LSheet_3)を割り当てられる。ここで、ロードされるシートの数は、ハロー領域409を含むシフトレジスタアレイ406全体を考慮する場合に、画像処理アルゴリズムが及ぶシートの数に相当する。図3aおよび図3bの考察から、様々な実施形態において、スカラープロセッサ302に関連付けられるプログラムコントローラ309は、データのシートをデータ計算ユニット301へロードまたはデータ計算ユニット301から格納するシート生成部へのコマンドに対応する命令を実行することを想起されたい。したがって、命令740は、スカラープロセッサ302によって実行されてもよい。
コンパイラはまた、RAMにちょうどロードされた4枚のシートからのコンテンツをシフトレジスタアレイ406にロードするために、後続の命令750,760(MEM LOAD)を構築する。命令750は、実行レーンアレイ405と同一の広がりを有するシフトレジスタ領域にLsheet_0のコンテンツ(画像領域701のコンテンツ)を事前設定する。同様に、上記の議論と整合して、スカラープロセッサ302は命令750,760も実行し得る。
命令760は、ハロー領域を事前設定する。すなわち、命令760は、以下を実行する:1)シート702(Lsheet_1)の左側(LHS)を実行レーンアレイ405の右端から直接離れているハロー409の領域にロードする;2)シート704(Lsheet_3)の上部領域(UPR)を実行レーンアレイ405の下端の直下にあるハロー409の領域にロードする;3)シート705(Lsheet_4)の左上隅を、実行レーンアレイ405の右下隅から離れたハローの領域にロードする。これらのロードが実行された後、ハロー領域(図7aの領域720)を含むシフトレジスタアレイ全体のコンテンツは、適切に位置決めされた入力画像データをロードされる。
ここで、図4を参照すると、各実行レーンアレイ位置は、ランダムアクセスメモリ407から画像データをフェッチするためにメモリロード命令(MEM LOAD)を実行するためのメモリアクセスユニット(M)を含むことに留意されたい。図4には示されていないが、様々な実施形態では、ハロー領域409内の各位置もまた、ランダムアクセスメモリ407からハロー領域409に画像データ値をロードできるように、メモリアクセスユニットを含む。しかしながら、再び、様々な実施形態では、ハロー領域位置はALUユニットを含まず、実際の画像処理は実行レーンアレイ405内の画像データに限定されたままである。したがって、命令750は、各実行レーンアレイ位置で個別に実行されるが、アレイ内のそれの位置に基づいて異なる入力オペランドデータ(ロードされるべき画像データを定義する)を有するメモリロード命令に対応し、一方、同様に、MEM LOAD命令760は、ハロー領域409内の特定の位置で個別に実行されるが、実行レーンアレイの周囲のそれの位置に基づいて異なる入力オペランドデータ(ロードされる画像データを定義する)を有するメモリロード命令に対応する。これらの命令に対するアドレスを指定する技法については、以下にさらに詳細に説明する。
コンパイラはまた、Lsheet_0位置内のピクセル位置に対して出力ピクセル値を判断する画像処理アルゴリズムを実行するために、以下の命令セット770を構築する。上記の議論と整合して、計算は、二次元シフトレジスタアレイ内でコンテンツをシフトすることによって行われる各ピクセル位置に対するステンシル領域上での動作を含む。したがって、コンパイラは、ステンシル上の数学的計算だけでなく、対応するレジスタシフト命令も実行するための命令も構築する。
現在考察されている例では、Lsheet_0内の任意のピクセル位置について処理が行なわれるステンシルは寸法18×18であることを想起されたい。したがって、実行レーンアレイ405の上側および左側から離れてランダムアクセスメモリ407に入る画像データの「スピルオーバ」があることになる。すなわち、データの左へのシフトは、境界720によって境界付けられた領域内ではあるが境界701によって境界付けられた領域外のシート702(Lsheet_1)およびシート703(Lsheet_2)からのデータをハロー領域409の右端にロードさせる。ハロー領域409の右端へのデータのロードは、シフトレジスタからの「スピルオーバ」データを、実行レーンアレイの左端、および実行レーンアレイ405の直下にあるハロー領域409の左端から、効果的に押し出す。こぼれた/押し出されたデータは、ランダムアクセスメモリ407に書き込まれる。
同様に、「上」のデータのシフトは、境界720によって境界付けられた領域内であるが実行レーン領域外のシート704(Lsheet_3)およびシート703(Lsheet_2)からのデータをハロー領域409の下端にロードさせる。ハロー領域409の下端へのデータのロードは、シフトレジスタからの「スピルオーバ」データを、実行レーンアレイ409の上端および実行レーンアレイ405の右にあるハロー領域の上端から効果的に押し出す。このこぼれた/押し出されたデータも、ランダムアクセスメモリ407に書き込まれる。再び、シフトを実行するために、コンパイラは、RAM407からシフトレジスタへの新たなデータの全てのロード、およびシフトレジスタからRAM407への押し出されたデータの書き戻しのためのコードを構築する。
すべてのシフトおよび計算770がシート701(Lsheet_0)に対して実行された後、プロセスはラスタ態様で右へスキャンを続ける(領域701に対する出力シートはまた、シート生成部への転送のためにランダムアクセスメモリ407に書き込まれてもよい)。アルゴリズムのラスタ態様走査を達成するために、論理シートの再割り当てだけが必要であり、その後、同じプログラムコードを再実行して、次のシートのピクセルに対する出力値を処理することができる。したがって、画像に対して走査のような態様でアルゴリズムを実行することは、コンパイラによってソフトウェアループとして構築することができる。ここで、ループプログラム内の内部ポインタは、ループの新たな反復ごとに更新することができる。具体的には、コアルーチンが、それが即時再帰のためにロードされるべきデータの遠い「右」に到達したことを認識すると、それは、同様に、次の再帰が差し迫っていると認識する。
ここで、図7cに示すように、コンパイラは、次のシート上においてラスタ走査でアルゴリズムを処理するようにマシンを準備する追加の命令セット780を構築する。命令は、Lsheet_1のコンテンツをLsheet_0に移動(MOV)することと、Lsheet_2のコンテンツをLsheet_3に移動することとを含む。さらに、命令780は、シート生成部からRAM407に次のLsheet_1(シート705)および次のLsheet_2(シート706)をロードする命令を含む。これらの命令780が実行された後、処理されるべきシートの位置が1つ右のシート(すなわち、シート701の代わりにシート702)であることを除いて、マシンのコンテキストは、命令770の実行前の図7bのマシンのコンテキストと変わらない。重要なことに、既にRAM407にロードされたシート(すなわち、シート702および703)は、シート生成部からRAM407に再ロードされない。したがって、シート702および703がRAM407に再ロードされた場合に生じるであろうどのような非効率性も回避される。
命令780内のSG命令によって示されるような、Lsheet_1(シート705)およびLsheet_2(シート706)をシート生成部からRAM740にロードすることは、例えば、動作770中に実行され、その後、これらのシートの先のコンテンツがそれぞれLsheet_0およびLsheet_3に移動されたのち、RAM内でSheet_1位置およびSheet_2位置に移動されてもよい。したがって、命令780のSG LOAD命令は、実際には、RAM407内での追加のMOV命令として実施されてもよい。一実施形態では、命令780の移動(MOV)命令は、RAM407内でのデータの実際の物理的移動である。したがって、プログラムコード内で指定されるLsheet_0〜Lsheet_3に対するアドレスは固定アドレスである。
図7a〜7cに関して上で概説した方法は、シート701内のピクセルについて処理が行なわれるべきステンシルサイズが、ハロー領域の外側にあるピクセルを含むよう十分に大きい例に向けられていたが、この方法は、シート701内(すなわち、実行レーンアレイ内)のピクセルについて処理が行なわれるべきステンシルサイズが、処理されるべきすべてのピクセルがハロー領域内に存在するように充分小さい適用例に対して最適であると考えられる(すなわち、境界720外および境界730またはそれ以上内のピクセルは必要ではない)。この場合、二次元シフトレジスタへの付加的な画像データのロード(例えば、ハロー領域の右端に沿った)は回避される。
図8は、上記の方法を示す。この方法は、以下を繰り返すこと801を含む。メモリの第1の位置から二次元シフトレジスタアレイに次の画像データのシートをロードすること802。メモリは、二次元シフトレジスタアレイと、少なくとも1つのアレイ軸に沿って二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイとに、ローカルに結合される。ロードされた次の画像データのシートは、二次元シフトレジスタアレイの画像領域内に保持される。実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して次の画像データのシートに対する出力値を判断すること803であって、出力値を判断するのに使用されるステンシルサイズは、二次元シフトレジスタアレイ内に存在するピクセルのみを包含する。二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートをメモリの第2の位置からメモリの第1の位置に移動すること804。
先の考察から、命令750,760、770の実行中に、画像データはRAM407から二次元シフトレジスタ406にロードされてもよいことを想起されたい。ここで、二次元シフトレジスタ406(ハロー領域を含む)の各個々の位置は、RAM407からそれのローカルレジスタ空間にデータを個別にロードできるように、メモリロード命令をローカルに実行するためのメモリアクセスユニットを含むものとする。一実施形態では、コンパイラは、RAM407内におけるLsheet_0に対するベースアドレス成分を固定し、ループを実行するためにコンパイラによって認識される追加の論理シート(例えば、Lsheet_1、Lsheet_2およびLsheet_3)に対するアドレスは、ベースアドレス成分に対してオフセットを有する。たとえば、RAM407における、Lsheet_0に対するアドレスが[ベース]である場合、Lsheet_1に対するアドレスは[ベース]+1であり、Lsheet_2に対するアドレスは[ベース]+2であり、Lsheet_3に対するアドレスは[ベース]+3である。
広くプログラマブルな環境をサポートするために、実行レーンアレイおよびハロー領域における実行ユニットの命令セットアーキテクチャは、特定のシフトレジスタアレイ位置について正しいオフセットを生成する命令をサポートする。オフセットは、ついで、その後、例えば、正しいアドレスを生成するために使用することができる。ここで、図7a〜図7cの例は、シート寸法が実行レーンアレイ寸法と同一であったという意味では単純であったことを指摘することが適切である。すなわち、シートおよび実行レーンアレイの両方は、16個のピクセル位置×16個のピクセル位置の寸法を有していた。
他の実施形態は、例えば、いずれかまたは両方の寸法に沿って実行レーンアレイよりも大きいかまたは小さいシートサイズを有するよう選択することができる。前者の場合、例えば、Lsheet_0はハロー領域に拡張することになり、後者の場合、例えばLsheet_1および/またはLsheet_3は、最初に実行レーンアレイ405の寸法内にロードすることになる。単純化のために、図9aおよび図9bの考察は、シートの寸法が実行レーンアレイの寸法と同じであるという単純な場合を指す。しかし、命令の一般的な動作は、より明確にされるように、寸法が異なる実施形態に対して使用することができる。
図9aは、本質的に、二次元シフトレジスタアレイの、そのハロー領域を含むフルサイズが陰影付き領域として観察される、図7aの図のズームインを示す。図9bは、各アレイ位置で実行される特殊命令(QUADRANT)の結果を示す。ここで、各シフトレジスタアレイの位置について、QUADRANT命令は、RAM407から特定のシフトアレイ位置にコンテンツをロードするときに、ベースメモリアドレスに加算されるべき正しいオフセットを計算する。
図9bの特定の例では、シートの寸法が実行レーンアレイの寸法と同じであり、実行レーンアレイ領域に関連付けられるすべてのアレイ位置は、オフセットが0であるLsheet_0をロードすることになる。対照的に、実行レーンアレイのすぐ右のハロー領域内のアレイ位置は、オフセットが+1であるLsheet_1からロードを行ない、実行レーンアレイの直下のハロー領域内のアレイ位置は、オフセットが+3であるLsheet_3からロードを行ない、実行レーンアレイの角から離れたハロー領域内のアレイ位置は、オフセットが+2のLsheet_2からロードを行なう。
一実施形態では、命令は、シートのXおよびY寸法(Xs,Ys)ならびにアレイ位置の位置を指定するXおよびY座標(Xa,Ya)の両方を入力パラメータとして受け入れる。これらの値で、QUADRANT命令はオフセットを次のように計算できる。
オフセット=
(Xa<Xs)かつ(Ya<Ys)=真の場合0
(Xa>Xs)かつ(Ya<Ys)=真の場合1
(Xa>Xs)かつ(Ya>Ys)=真の場合2
(Xa<Xs)かつ(Ya>Ys)=真の場合3
様々な実施形態において、コンパイラは、座標対を読み出すアレイ位置を本質的に識別するXa、Ya座標対のアレイを生成し、XsおよびYsを即値オペランドとして指定し、なぜならば、それらは、QUADRANT命令のすべての実行にわたって一定であるからである。XaおよびYa座標対は、命令の実行に先立って入力オペランド情報としてそれぞれのアレイ位置にロードされる。別の実施形態では、命令は、さらに、[ベース]アドレス値を入力オペランドとして受け入れ、フルアドレス値[ベース]+オフセットをQUADRANT命令の結果として提供することができる。[ベース]オペランドは即値オペランドとして指定されてもよく、または[ベース]値を動的に決定し、それを追加の入力オペランドとしてアレイ位置にブロードキャストするように、プログラムコードを構成してもよい。
QUADRANT命令は、出力ピクセル値を決定するアルゴリズムが4つのシートに亘ってピクセル値上で動作する動作環境に特有であることに留意されたい。例えば9つのシートにわたってアルゴリズムが動作するような動作環境では、命令セットアーキテクチャに、任意の特定のアレイ位置に対して9つの異なるオフセットのうちのどれを使用すべきかを計算する別の命令HECTANTを組み込むことができる。
図10は、図7a〜図7cに関して上述したラスタ走査処理手法の代替実施形態を示す。図10のアプローチでは、スキャンが右である場合、ハロー領域の右側は最初にロードされない。代わりに、実行レーンの真下のハロー部分だけがロードされる。アルゴリズムの動作中、新たな値がLsheet_1から必要とされる、例えば左へのシフトを行うという点で、値はハローの右端に沿ってではなく、実行レーンアレイの右端に沿ってロードされる。図10のアプローチは、アルゴリズムがハロー領域外で動作せず、より少ないロード命令を有するコードを効果的に生成する場合に、特に有用である。
d.実現例の実施形態
上述した様々な画像プロセッサアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限定されず、したがって、画像プロセッサを再特徴付けしてもよい(またはしなくてもよい)他のアプリケーションに適用することができることを指摘することが適切である。例えば、実際のカメラ画像の処理とは対照的に、アニメーションの作成および/または生成および/またはレンダリングにおいて上述した様々な画像プロセッサアーキテクチャの特徴のいずれかが使用される場合、画像プロセッサはグラフィックス処理ユニットとして徳経づけられてもよい。さらに、上述した画像プロセッサアーキテクチャの特徴は、ビデオ処理、視覚処理、画像認識および/または機械学習などの他の技術的用途にも適用することができる。このように適用されて、画像プロセッサは、より汎用的なプロセッサ(例えば、コンピューティングシステムのCPUの一部であるか、またはその一部である)と(例えばコプロセッサとして)一体化されてもよく、またはコンピューティングシステム内のスタンドアロンプロセッサであってもよい。
上述したハードウェア設計の実施形態は、半導体チップ内において、および/または最終的に半導体製造プロセスに向けての回路設計の記述として実施することができる。後者の場合、そのような回路記述は、(例えばVHDLもしくはVerilog)レジスタ転送レベル(RTL)回路記述、ゲートレベル回路記述、トランジスタレベル回路記述もしくはマスク記述、またはそれらの様々な組み合わせの形態をとってもよい。回路記述は、典型的には、コンピュータ可読記憶媒体(例えばCD−ROMまたは他のタイプの記憶技術)上に実施される。
先のセクションから、上記の画像プロセッサは、(例えば、ハンドヘルド装置のカメラからのデータを処理するハンドヘルド装置のシステムオンチップ(SOC)の一部として)コンピュータシステム上のハードウェアで実施できることを認識することに関係する。画像プロセッサがハードウェア回路として実施される場合、画像プロセッサによって処理される画像データはカメラから直接受信されてもよいことに留意されたい。ここで、画像プロセッサは、別体のカメラの一部であってもよいし、一体化されたカメラを有するコンピューティングシステムの一部であってもよい。後者の場合、画像データは、カメラから直接、またはコンピューティングシステムのシステムメモリから受信することができる(例えば、カメラは、その画像データを画像プロセッサではなくシステムメモリに送信する)。先のセクションで説明した機能の多くは、(アニメーションをレンダリングする)グラフィックスプロセッサユニットにも適用可能であることにも留意されたい。
図11は、コンピューティングシステムの例示的な図である。以下に説明するコンピューティングシステムのコンポーネントの多くは、一体化されたカメラおよび関連する画像プロセッサ(例えば、スマートフォンまたはタブレットコンピュータなどのハンドヘルドデバイス)を有するコンピューティングシステムに適用可能である。当業者は、2つの間の範囲を容易に定めることができるであろう。
図11に見られるように、基本的なコンピューティングシステムは、中央処理ユニット1101(例えば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア1115_1〜1115_Nおよびメインメモリコントローラ1117を含み得る)、システムメモリ1102、ディスプレイ1103(例えばタッチスクリーン、フラットパネル)、ローカル有線ポイントツーポイントリンク(例えばUSB)インタフェース1104、様々なネットワークI/O機能1105(イーサネット(登録商標)インタフェースおよび/またはセルラーモデムサブシステムなど)、無線ローカルエリアネットワーク(例えばWiFi)インタフェース1106、ワイヤレスポイントツーポイントリンク(例えばブルートゥース(登録商標))インタフェース1107およびグローバルポジショニングシステムインタフェース1108、様々なセンサ1109_1〜1109_N、1つ以上のカメラ1110、バッテリ1114、電力管理制御ユニット1112、スピーカおよびマイクロホン1113、ならびに音声コーダ/デコーダ1114を含んでもよい。
アプリケーションプロセッサまたはマルチコアプロセッサ1150は、そのCPU1101内における1つ以上の汎用処理コア1115、1つ以上のグラフィカル処理ユニット1116、メモリ管理機能1117(例えばメモリコントローラ)、I/O制御機能1118および画像処理ユニット1119を含んでもよい。汎用処理コア1115は、典型的には、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。グラフィックス処理ユニット1116は、典型的には、ディスプレイ1103上に提示されるグラフィックス情報を生成するために、グラフィックス集中型機能を実行する。メモリ制御機能1117は、システムメモリ1102とインタフェースして、システムメモリ1102との間でデータの書込/読出を行う。電力管理制御ユニット1112は、システム1100の電力消費を全体的に制御する。
画像処理ユニット1119は、先のセクションで説明した画像処理ユニットの実施形態のいずれかに従って実現することができる。代替的にまたは組み合わせて、IPU1119は、GPU1116およびCPU1101のいずれかまたは両方にそのコプロセッサとして結合されてもよい。さらに、様々な実施形態では、GPU1116は、上で説明した画像プロセッサの特徴のいずれかを用いて実現することができる。
タッチスクリーンディスプレイ1103、通信インタフェース1104〜1107、GPSインタフェース1108、センサ1109、カメラ1110、およびスピーカ/マイクコーデック1113,1114の各々はすべて、適切な場合には、一体化された周辺装置(例えば1つ以上のカメラ1110)も含むコンピューティングシステム全体に対して様々な形態のI/O(入力および/または出力)として見ることができる。実現例によっては、これらのI/Oコンポーネントの様々なものは、アプリケーションプロセッサ/マルチコアプロセッサ1150上に統合されてもよく、またはアプリケーションプロセッサ/マルチコアプロセッサ1150のダイから離れて、またはそのパッケージ外に配置されてもよい。
一実施形態では、1つ以上のカメラ1110は、カメラとその視野内の対象との間の深度を測定することができる深度カメラを含む。アプリケーションプロセッサまたは他のプロセッサの汎用CPUコア(もしくはプログラムコードを実行するために命令実行パイプラインを有する他の機能ブロック)上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェアおよび/またはファームウェアは、上記の機能のいずれかを実行してもよい。
本発明の実施形態は、上述したような様々なプロセスを含むことができる。これらのプロセスは、機械実行可能命令で実施されてもよい。これらの命令は、汎用または特殊目的のプロセッサに特定のプロセスを実行させるために使用できる。代替的に、これらのプロセスは、プロセスを実行するためのハードワイヤード論理を含む特定のハードウェアコンポーネントによって、またはプログラミングされたコンピュータコンポーネントとカスタムハードウェアコンポーネントとの任意の組み合わせによって実行されてもよい。
本発明の要素はまた、機械実行可能命令を記憶するための機械可読媒体として提供されてもよい。機械可読媒体は、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、および光磁気ディスク、フラッシュメモリ、ROM、RAM、EPROM、EEPROM、磁気もしくは光カード、伝搬媒体、または電子命令を記憶するのに適した他のタイプの媒体/機械可読媒体を含むが、それらに限定はされない。例えば、本発明は、搬送波または通信リンク(例えばモデムもしくはネットワーク接続)を介する他の伝搬媒体で実施されたデータ信号によって、遠隔のコンピュータ(例えばサーバ)から要求側コンピュータ(例えばクライアント)に転送され得るコンピュータプログラムとしてダウンロードすることができる。
前述の明細書では、本発明をその特定の例示的な実施形態を参照して説明した。しかしながら、特許請求の範囲に記載される本発明のより広い精神および範囲から逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。

Claims (22)

  1. プロセッサによって処理されると方法が実行されるプログラムコードを含む機械可読記憶媒体であって、前記方法は、
    メモリの第1の位置から次の画像データのシートを二次元シフトレジスタアレイにロードすることを備え、前記メモリは、前記二次元シフトレジスタアレイと、少なくとも1つのアレイ軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイとに、ローカルに結合され、前記ロードされた次の画像データのシートは、前記二次元シフトレジスタアレイの画像領域内に保持され、前記方法はさらに、
    前記実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して前記次の画像データのシートに対する出力値を判断することを備え、前記出力値を判断するのに使用されるステンシルサイズは、前記二次元シフトレジスタアレイ内に存在するピクセルのみを包含し、前記方法はさらに、
    前記二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートを前記メモリの第2の位置から前記メモリの前記第1の位置に移動することを備え、前記方法は、前記ロードすること、前記判断すること、および前記移動することを繰り返し行うことを備える、機械可読記憶媒体。
  2. 前記実行レーンアレイおよび二次元シフトレジスタアレイは、画像プロセッサの構成要素であり、前記画像プロセッサは、複数の汎用処理コアを含むシステムオンチップの構成要素である、請求項1に記載の機械可読記憶媒体。
  3. 前記実行レーンアレイは、2つのアレイ軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する、請求項1または請求項2に記載の機械可読媒体。
  4. 前記方法は、前記次のシートの画像コンテンツに隣接する画像コンテンツを有する次の隣接する画像データのシートを前記二次元シフトレジスタアレイの周辺レジスタ位置に繰り返しロードすることをさらに備える、先行する請求項のいずれか1項に記載の機械可読媒体。
  5. 前記方法は、前記メモリの第3の位置から前記次の隣接する画像データのシートを繰り返し読み出すことをさらに備える、請求項4に記載の機械可読媒体。
  6. 前記次の隣接する画像データのシートは、前記二次元シフトレジスタアレイに完全にロードされるべき前記次の画像データのシートでもあり、前記第2および第3のメモリ位置は同じメモリ位置である、請求項4に記載の機械可読媒体。
  7. 前記方法は、前記二次元シフトレジスタアレイの隅のレジスタ位置に、前記次のシートの画像コンテンツの隅から離れた画像コンテンツを有する次の隅の画像データのシートを繰り返しロードすることをさらに備える、請求項1に記載の機械可読媒体。
  8. プロセッサによって処理されると方法が実行されるプログラムコードを含む機械可読記憶媒体であって、前記方法は、先行する請求項のいずれか1項に記載のプログラムコードを構築することを備える、機械可読記憶媒体。
  9. 方法であって、
    メモリの第1の位置から次の画像データのシートを二次元シフトレジスタアレイにロードすることを備え、前記メモリは、前記二次元シフトレジスタアレイと、少なくとも1つのアレイ軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイとに、ローカルに結合され、前記ロードされた次の画像データのシートは、前記二次元シフトレジスタアレイの画像領域内に保持され、前記方法はさらに、
    前記実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して前記次の画像データのシートに対する出力値を判断することを備え、前記出力値を判断するのに使用されるステンシルサイズは、前記二次元シフトレジスタアレイ内に存在するピクセルのみを包含し、前記方法はさらに、
    前記二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートを前記メモリの第2の位置から前記メモリの前記第1の位置に移動することを備え、前記方法は、前記ロードすること、前記判断すること、および前記移動することを繰り返し行うことを備える、方法。
  10. 前記実行レーンアレイおよび二次元シフトレジスタアレイは、画像プロセッサの構成要素であり、前記画像プロセッサは、複数の汎用処理コアを含むシステムオンチップの構成要素である、請求項9に記載の方法。
  11. 前記実行レーンアレイは、2つのアレイ軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する、請求項9または請求項10に記載の方法。
  12. 前記方法は、前記次のシートの画像コンテンツに隣接する画像コンテンツを有する次の隣接する画像データのシートを前記二次元シフトレジスタアレイの周辺レジスタ位置に繰り返しロードすることをさらに備える、請求項9〜請求項11のいずれか1項に記載の方法。
  13. 前記方法は、前記メモリの第3の位置から前記次の隣接する画像データのシートを繰り返し読み出すことをさらに備える、請求項12に記載の方法。
  14. 前記次の隣接する画像データのシートは、前記二次元シフトレジスタアレイに完全にロードされるべき前記次の画像データのシートでもあり、前記第2および第3のメモリ位置は同じメモリ位置である、請求項12に記載の方法。
  15. 前記方法は、前記二次元シフトレジスタアレイの隅のレジスタ位置に、前記次のシートの画像コンテンツの隅から離れた画像コンテンツを有する次の隅の画像データのシートを繰り返しロードすることをさらに備える、請求項9に記載の方法。
  16. コンピューティングシステムであって、
    a)複数の汎用処理コアと、
    b)システムメモリと、
    c)前記システムメモリと前記複数の処理コアとの間に結合されるメモリコントローラと、
    d)二次元実行レーンアレイおよび二次元シフトレジスタアレイにローカルに結合されるメモリを含む画像プロセッサとを備え、前記二次元実行レーンアレイは、前記二次元シフトレジスタアレイよりも小さい寸法を有し、前記コンピューティングシステムはさらに、
    e)前記画像プロセッサが方法を実行するように前記画像プロセッサによって実行されるべきプログラムコードを含む機械可読記憶媒体を備え、前記方法は、
    前記メモリの第1の位置から次の画像データのシートを前記二次元シフトレジスタアレイにロードすることを備え、前記ロードされた次の画像データのシートは、前記二次元シフトレジスタアレイの画像領域内に保持され、前記方法はさらに、
    前記実行レーンアレイのそれぞれのレーンに沿ってプログラムコード命令を実行することを通して前記次の画像データのシートに対する出力値を判断することを備え、前記出力値を判断するのに使用されるステンシルサイズは、前記二次元シフトレジスタアレイ内に存在するピクセルのみを包含し、前記方法はさらに、
    前記二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートを前記メモリの第2の位置から前記メモリの前記第1の位置に移動することを備え、前記方法は、前記ロードすること、前記判断すること、および前記移動することを繰り返し行うことを備える、コンピューティングシステム。
  17. 前記実行レーンアレイは、2つのアレイ軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する、請求項16に記載のコンピューティングシステム。
  18. 前記方法は、前記次のシートの画像コンテンツに隣接する画像コンテンツを有する次の隣接する画像データのシートを前記二次元シフトレジスタアレイの周辺レジスタ位置に繰り返しロードすることをさらに備える、請求項16または請求項17に記載のコンピューティングシステム。
  19. 前記方法は、前記メモリの第3の位置から前記次の隣接する画像データのシートを繰り返し読み出すことをさらに備える、請求項18に記載のコンピューティングシステム。
  20. 前記次の隣接する画像データのシートは、前記二次元シフトレジスタアレイに完全にロードされるべき前記次の画像データのシートであり、前記第2および第3のメモリ位置は同じメモリ位置である、請求項18に記載のコンピューティングシステム。
  21. 前記方法は、前記二次元シフトレジスタアレイの隅のレジスタ位置に、前記次のシートの画像コンテンツの隅から離れた画像コンテンツを有する次の隅の画像データのシートを繰り返しロードすることをさらに備える、請求項16に記載のコンピューティングシステム。
  22. 画像プロセッサであって、
    二次元シフトレジスタアレイに結合され、次の画像データのシートを第1の位置に保持するメモリと、
    前記メモリに結合される二次元シフトレジスタアレイとを備え、前記次の画像データのシートは前記メモリ内の第1の位置から前記二次元シフトレジスタアレイ内にロードされ、前記ロードされた次の画像データのシートは、前記二次元シフトレジスタアレイの画像領域内に保持され、前記画像プロセッサはさらに、
    少なくとも1つの軸に沿って前記二次元シフトレジスタアレイよりも小さい寸法を有する実行レーンアレイを備え、前記実行レーンアレイは、前記実行レーンアレイのそれぞれのレーンに沿って前記次の画像データのシートに対する出力値を判断し、前記出力値を判断するのに使用されるステンシルサイズは、前記二次元シフトレジスタアレイ内に存在するピクセルのみを包含し、
    前記画像プロセッサは、前記二次元シフトレジスタアレイに完全にロードされるべき次の画像データのシートを前記メモリの第2の位置から前記メモリの前記第1の位置に繰り返し移動し、前記実行レーンアレイは画像データのシートのシーケンスについて出力値を繰り返し判断できる、画像プロセッサ。
JP2018539834A 2016-02-26 2017-02-17 画像プロセッサのためのコンパイラ管理メモリ Active JP6726752B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662300671P 2016-02-26 2016-02-26
US62/300,671 2016-02-26
US15/427,374 US10204396B2 (en) 2016-02-26 2017-02-08 Compiler managed memory for image processor
US15/427,374 2017-02-08
PCT/US2017/018444 WO2017147020A1 (en) 2016-02-26 2017-02-17 Compiler managed memory for image processor

Publications (2)

Publication Number Publication Date
JP2019507922A true JP2019507922A (ja) 2019-03-22
JP6726752B2 JP6726752B2 (ja) 2020-07-22

Family

ID=58228574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018539834A Active JP6726752B2 (ja) 2016-02-26 2017-02-17 画像プロセッサのためのコンパイラ管理メモリ

Country Status (9)

Country Link
US (3) US10204396B2 (ja)
EP (1) EP3420528B1 (ja)
JP (1) JP6726752B2 (ja)
KR (1) KR102050899B1 (ja)
CN (1) CN107133908B (ja)
DE (2) DE202017101012U1 (ja)
GB (3) GB2576117B (ja)
TW (2) TWI698832B (ja)
WO (1) WO2017147020A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6815926B2 (ja) * 2017-04-27 2021-01-20 キヤノン株式会社 撮像装置、撮像システム、移動体、チップ
US10503689B2 (en) * 2017-05-15 2019-12-10 Google Llc Image processor I/O unit
US10489878B2 (en) * 2017-05-15 2019-11-26 Google Llc Configurable and programmable image processor unit
US10460416B1 (en) 2017-10-17 2019-10-29 Xilinx, Inc. Inline image preprocessing for convolution operations using a matrix multiplier on an integrated circuit
US11386644B2 (en) * 2017-10-17 2022-07-12 Xilinx, Inc. Image preprocessing for generalized image processing
CN107633477B (zh) * 2017-10-20 2021-04-20 上海兆芯集成电路有限公司 图像处理方法及其装置
CN108230229B (zh) * 2018-01-04 2021-07-06 格兰菲智能科技有限公司 图像处理装置以及图像处理方法
CN112005213A (zh) * 2018-02-27 2020-11-27 谷歌有限责任公司 用于图像处理器的大型查找表
US10983583B2 (en) * 2018-08-23 2021-04-20 Apple Inc. Electronic display reduced blanking duration systems and methods
US10552939B1 (en) 2019-02-12 2020-02-04 Google Llc Image processor complex transfer functions
US11848980B2 (en) * 2020-07-09 2023-12-19 Boray Data Technology Co. Ltd. Distributed pipeline configuration in a distributed computing system
CN112184536B (zh) * 2020-09-24 2022-09-30 成都海光集成电路设计有限公司 基于gemm处理图像数据的方法、装置、设备和介质
TWI771921B (zh) * 2021-02-22 2022-07-21 瑞鼎科技股份有限公司 顯示驅動系統
WO2023172660A1 (en) * 2022-03-10 2023-09-14 Ascenium, Inc. Highly parallel processing architecture with out-of-order resolution

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165756A (ja) * 2006-12-01 2008-07-17 Thomson Licensing ローカル・レジスタを有する処理要素のアレイ

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4445177A (en) 1981-05-22 1984-04-24 Data General Corporation Digital data processing system utilizing a unique arithmetic logic unit for handling uniquely identifiable addresses for operands and instructions
DE3851005T2 (de) 1987-06-01 1995-04-20 Applied Intelligent Syst Inc Paralleles Nachbarverarbeitungssystem und -Verfahren.
US4935894A (en) 1987-08-31 1990-06-19 Motorola, Inc. Multi-processor, multi-bus system with bus interface comprising FIFO register stocks for receiving and transmitting data and control information
US5253308A (en) 1989-06-21 1993-10-12 Amber Engineering, Inc. Massively parallel digital image data processor using pixel-mapped input/output and relative indexed addressing
US6948050B1 (en) 1989-11-17 2005-09-20 Texas Instruments Incorporated Single integrated circuit embodying a dual heterogenous processors with separate instruction handling hardware
WO1994009595A1 (en) 1991-09-20 1994-04-28 Shaw Venson M Method and apparatus including system architecture for multimedia communications
JP3482660B2 (ja) 1993-09-08 2003-12-22 ソニー株式会社 画像データ処理装置および画像データ処理方法
US5612693A (en) 1994-12-14 1997-03-18 International Business Machines Corporation Sliding window data compression using a toroidal bit shift register
JP3573755B2 (ja) 1996-01-15 2004-10-06 シーメンス アクチエンゲゼルシヤフト 画像処理プロセッサ
US5892962A (en) 1996-11-12 1999-04-06 Lucent Technologies Inc. FPGA-based processor
US6366289B1 (en) 1998-07-17 2002-04-02 Microsoft Corporation Method and system for managing a display image in compressed and uncompressed blocks
US6587158B1 (en) 1998-07-23 2003-07-01 Dvdo, Inc. Method and apparatus for reducing on-chip memory in vertical video processing
US7010177B1 (en) 1998-08-27 2006-03-07 Intel Corporation Portability of digital images
EP1164544B1 (en) 1999-03-16 2011-11-02 Hamamatsu Photonics K.K. High-speed vision sensor
JP3922859B2 (ja) 1999-12-28 2007-05-30 株式会社リコー 画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6745319B1 (en) 2000-02-18 2004-06-01 Texas Instruments Incorporated Microprocessor with instructions for shuffling and dealing data
US6728862B1 (en) 2000-05-22 2004-04-27 Gazelle Technology Corporation Processor array and parallel data processing methods
US6728722B1 (en) 2000-08-28 2004-04-27 Sun Microsystems, Inc. General data structure for describing logical data spaces
US7286717B2 (en) 2001-10-31 2007-10-23 Ricoh Company, Ltd. Image data processing device processing a plurality of series of data items simultaneously in parallel
JP4146654B2 (ja) 2002-02-28 2008-09-10 株式会社リコー 画像処理回路、複合画像処理回路、および、画像形成装置
US9170812B2 (en) 2002-03-21 2015-10-27 Pact Xpp Technologies Ag Data processing system having integrated pipelined array data processor
WO2003088033A1 (en) 2002-04-09 2003-10-23 University Of Rochester Multiplier-based processor-in-memory architectures for image and graphics processing
US7084929B2 (en) * 2002-07-29 2006-08-01 Koninklijke Philips Electronics N.V. Video data filtering arrangement and method
AU2003286131A1 (en) 2002-08-07 2004-03-19 Pact Xpp Technologies Ag Method and device for processing data
US20060044576A1 (en) 2004-07-30 2006-03-02 Kabushiki Kaisha Toshiba Apparatus for image processing
US7667764B2 (en) 2004-06-04 2010-02-23 Konica Minolta Holdings, Inc. Image sensing apparatus
US8424012B1 (en) 2004-11-15 2013-04-16 Nvidia Corporation Context switching on a video processor having a scalar execution unit and a vector execution unit
JP4219887B2 (ja) 2004-12-28 2009-02-04 富士通マイクロエレクトロニクス株式会社 画像処理装置及び画像処理方法
ATE504043T1 (de) 2005-04-28 2011-04-15 Univ Edinburgh Umkonfigurierbares anweisungs-zellen-array
US7882339B2 (en) 2005-06-23 2011-02-01 Intel Corporation Primitives to enhance thread-level speculation
JP2007067917A (ja) 2005-08-31 2007-03-15 Matsushita Electric Ind Co Ltd 画像データ処理装置
US7602974B2 (en) 2005-10-21 2009-10-13 Mobilic Technology (Cayman) Corp. Universal fixed-pixel-size ISP scheme
FR2895103B1 (fr) 2005-12-19 2008-02-22 Dxo Labs Sa Procede et systeme de traitement de donnees numeriques
US7802073B1 (en) 2006-03-29 2010-09-21 Oracle America, Inc. Virtual core management
US7834873B2 (en) * 2006-08-25 2010-11-16 Intel Corporation Display processing line buffers incorporating pipeline overlap
CN100409259C (zh) * 2006-08-29 2008-08-06 中国航天时代电子公司第七七一研究所 可缩放大规模二维卷积电路
US20080111823A1 (en) 2006-11-13 2008-05-15 Faraday Technology Corp. Graphics processing system
US8321849B2 (en) 2007-01-26 2012-11-27 Nvidia Corporation Virtual architecture and instruction set for parallel thread computing
US20080244222A1 (en) 2007-03-30 2008-10-02 Intel Corporation Many-core processing using virtual processors
JP4389976B2 (ja) 2007-06-29 2009-12-24 ブラザー工業株式会社 画像処理装置および画像処理プログラム
JP4844853B2 (ja) 2007-09-05 2011-12-28 国立大学法人東北大学 固体撮像素子及びその駆動方法
CN102047241B (zh) 2008-05-30 2014-03-12 先进微装置公司 本地与全局数据共享
JP4999791B2 (ja) 2008-06-30 2012-08-15 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
US8456480B2 (en) 2009-01-14 2013-06-04 Calos Fund Limited Liability Company Method for chaining image-processing functions on a SIMD processor
KR101572879B1 (ko) 2009-04-29 2015-12-01 삼성전자주식회사 병렬 응용 프로그램을 동적으로 병렬처리 하는 시스템 및 방법
US20110055495A1 (en) 2009-08-28 2011-03-03 Qualcomm Incorporated Memory Controller Page Management Devices, Systems, and Methods
CN101697486A (zh) * 2009-09-27 2010-04-21 华中科技大学 一种二维小波变换集成电路结构
US8976195B1 (en) 2009-10-14 2015-03-10 Nvidia Corporation Generating clip state for a batch of vertices
US8436857B2 (en) 2009-10-20 2013-05-07 Oracle America, Inc. System and method for applying level of detail schemes
US8595428B2 (en) 2009-12-22 2013-11-26 Intel Corporation Memory controller functionalities to support data swizzling
TWI424372B (zh) * 2010-03-24 2014-01-21 Altek Corp Selectable image line path means
US8749667B2 (en) 2010-08-02 2014-06-10 Texas Instruments Incorporated System and method for maintaining maximum input rate while up-scaling an image vertically
US8508612B2 (en) 2010-09-30 2013-08-13 Apple Inc. Image signal processor line buffer configuration for processing ram image data
US8797323B2 (en) 2011-01-18 2014-08-05 Intel Corporation Shadowing dynamic volumetric media
WO2012105174A1 (ja) 2011-01-31 2012-08-09 パナソニック株式会社 プログラム生成装置、プログラム生成方法、プロセッサ装置及びマルチプロセッサシステム
US9092267B2 (en) 2011-06-20 2015-07-28 Qualcomm Incorporated Memory sharing in graphics processing unit
US20130027416A1 (en) 2011-07-25 2013-01-31 Karthikeyan Vaithianathan Gather method and apparatus for media processing accelerators
US9183614B2 (en) 2011-09-03 2015-11-10 Mireplica Technology, Llc Processor, system, and method for efficient, high-throughput processing of two-dimensional, interrelated data sets
JP5742651B2 (ja) 2011-10-15 2015-07-01 コニカミノルタ株式会社 画像処理装置、連携方法および連携プログラム
US20140089634A1 (en) 2011-12-23 2014-03-27 Victor W. Lee Apparatus and method for detecting identical elements within a vector register
JP5746100B2 (ja) 2011-12-27 2015-07-08 京セラドキュメントソリューションズ株式会社 画像形成装置
US8823736B2 (en) 2012-01-20 2014-09-02 Intel Corporation Graphics tiling architecture with bounding volume hierarchies
US10244246B2 (en) 2012-02-02 2019-03-26 Texas Instruments Incorporated Sub-pictures for pixel rate balancing on multi-core platforms
US9235769B2 (en) 2012-03-15 2016-01-12 Herta Security, S.L. Parallel object detection method for heterogeneous multithreaded microarchitectures
CN102665049B (zh) * 2012-03-29 2014-09-17 中国科学院半导体研究所 基于可编程视觉芯片的视觉图像处理系统
TWI520598B (zh) 2012-05-23 2016-02-01 晨星半導體股份有限公司 影像處理裝置與影像處理方法
US9232139B2 (en) 2012-07-24 2016-01-05 Apple Inc. Image stabilization using striped output transformation unit
US9378181B2 (en) 2012-11-09 2016-06-28 Intel Corporation Scalable computing array
CN103019656B (zh) * 2012-12-04 2016-04-27 中国科学院半导体研究所 可动态重构的多级并行单指令多数据阵列处理系统
CN103020890B (zh) * 2012-12-17 2015-11-04 中国科学院半导体研究所 基于多层次并行处理的视觉处理装置
US8954992B2 (en) 2013-03-15 2015-02-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Distributed and scaled-out network switch and packet processing
US9165337B2 (en) 2013-05-31 2015-10-20 Qualcomm Incorporated Command instruction management
US9477999B2 (en) * 2013-09-20 2016-10-25 The Board Of Trustees Of The Leland Stanford Junior University Low power programmable image processor
US9749548B2 (en) 2015-01-22 2017-08-29 Google Inc. Virtual linebuffers for image signal processors
US9769356B2 (en) 2015-04-23 2017-09-19 Google Inc. Two dimensional shift array for image processor
US10095479B2 (en) 2015-04-23 2018-10-09 Google Llc Virtual image processor instruction set architecture (ISA) and memory model and exemplary target hardware having a two-dimensional shift array structure
US9772852B2 (en) * 2015-04-23 2017-09-26 Google Inc. Energy efficient processor core architecture for image processor
US9965824B2 (en) 2015-04-23 2018-05-08 Google Llc Architecture for high performance, power efficient, programmable image processing
US10291813B2 (en) 2015-04-23 2019-05-14 Google Llc Sheet generator for image processor
US9785423B2 (en) 2015-04-23 2017-10-10 Google Inc. Compiler for translating between a virtual image processor instruction set architecture (ISA) and target hardware having a two-dimensional shift array structure
US9756268B2 (en) 2015-04-23 2017-09-05 Google Inc. Line buffer unit for image processor
US10387988B2 (en) * 2016-02-26 2019-08-20 Google Llc Compiler techniques for mapping program code to a high performance, power efficient, programmable image processing hardware platform

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165756A (ja) * 2006-12-01 2008-07-17 Thomson Licensing ローカル・レジスタを有する処理要素のアレイ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JAMES HEGARTY; JOHN BRUNHAVER: ZACHARY DEVITO; JONATHAN RAGAN-KELLEY; NOY COHEN STEVEN BELL;ARTEM VA: "Darkroom: Compiling High-Level Image Processing Code into Hardware Pipelines", ACM TRANSACTIONS ON GRAPHICS, vol. 33, no. 4, JPN7019003552, July 2014 (2014-07-01), US, pages 144 - 1, ISSN: 0004148879 *

Also Published As

Publication number Publication date
US10304156B2 (en) 2019-05-28
TWI698832B (zh) 2020-07-11
US10685422B2 (en) 2020-06-16
US20190188824A1 (en) 2019-06-20
CN107133908A (zh) 2017-09-05
TW201737201A (zh) 2017-10-16
JP6726752B2 (ja) 2020-07-22
GB2549578A (en) 2017-10-25
GB2549578B (en) 2019-01-30
KR20180100374A (ko) 2018-09-10
US10204396B2 (en) 2019-02-12
GB201912713D0 (en) 2019-10-16
GB2576117A (en) 2020-02-05
US20170249717A1 (en) 2017-08-31
GB201702925D0 (en) 2017-04-12
US20170287105A1 (en) 2017-10-05
DE102017103764A1 (de) 2017-08-31
TW201830329A (zh) 2018-08-16
EP3420528A1 (en) 2019-01-02
GB2567757B (en) 2019-10-23
KR102050899B1 (ko) 2019-12-02
GB201820155D0 (en) 2019-01-23
TWI628618B (zh) 2018-07-01
CN107133908B (zh) 2021-01-12
DE202017101012U1 (de) 2017-05-29
GB2576117B (en) 2020-08-12
GB2567757A (en) 2019-04-24
EP3420528B1 (en) 2022-06-15
WO2017147020A1 (en) 2017-08-31

Similar Documents

Publication Publication Date Title
JP7202987B2 (ja) 高性能で、電力効率の良い、プログラマブルな画像処理のためのアーキテクチャ
JP6612403B2 (ja) 画像プロセッサのためのエネルギ効率的なプロセッサコアアーキテクチャ
JP6726752B2 (ja) 画像プロセッサのためのコンパイラ管理メモリ
JP6793228B2 (ja) 画像プロセッサのためのシート生成部
JP6389571B2 (ja) 画像プロセッサのための二次元シフトアレイ
KR102278021B1 (ko) 이미지 프로세서 런타임 효율성을 개선하기 위한 프로그램 코드 변환
US11030005B2 (en) Configuration of application software on multi-core image processor
JP2019526849A (ja) 二次元画像プロセッサ上での統計演算

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R150 Certificate of patent or registration of utility model

Ref document number: 6726752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250