JP2003167726A

JP2003167726A - コプロセッサ装置およびデータ転送を容易にするための方法

Info

Publication number: JP2003167726A
Application number: JP2001357206A
Authority: JP
Inventors: Sun Weiyun; ウェイユン・スン; Donglok Kim; ドンロク・キム; Kim Yonmin; ヨンミン・キム
Original assignee: University of Washington
Current assignee: University of Washington
Priority date: 2001-11-22
Filing date: 2001-11-22
Publication date: 2003-06-13
Anticipated expiration: 2021-11-22
Also published as: JP4384828B2

Abstract

(57)【要約】【課題】メディアプロセッサ１２からのブロックデー
タ転送動作をオフロードするために、テンプレートデー
タ転送コプロセッサ（ＴＤＴＰ）１４を実現する。【解決手段】ユニブロックテンプレート３６、プログ
ラム誘導テンプレート６６、間接テンプレート８０およ
びキューに基づくテンプレート１０２が説明される。Ｔ
ＤＴＰは、テンプレートインタプリタ１１０を含み、該
テンプレートインタプリタ１１０は、事象駆動制御機構
を用いてテンプレートを設定し、ブロック情報およびテ
ンプレートごとのブロック情報を計算する。ビデオおよ
び画像処理アルゴリズムに対するブロックデータ転送を
規定することにかかわるプログラミングは、これらのテ
ンプレートを用いることによって実質的に減じられる。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】この発明は、オンチップ並列性を実現す
るプロセッサのためのデータフロー管理に関し、より特
定的には、データ転送を管理し、オンチップ並列性を示
す効率のよい性能のプロセッサを可能にするためのコプ
ロセッサに関する。

【０００２】ここで用いられる「メディアプロセッサ」
は、ビデオまたは画像データを処理するためのオンチッ
プ並列性を示すプロセッサを指す。効率のよいデータフ
ロー管理は、メディアプロセッサにおいて高性能を達成
するために必須である。しかしながら、現在のメディア
プロセッサはアプリケーションプログラマに対して低レ
ベルのデータ転送インターフェイスしか提供せず、これ
はデータフロープログラミングを困難にするだけでな
く、ソースコードを長くし維持を難しくする。

【０００３】現在のメディアプロセッサは典型的には、
広いデータ経路でサブＧＨｚクロック周波数で動作す
る。これは、メモリに対する高いデータアクセス率を要
求する。しかしながら、オフチップメモリへのアクセス
は長いレイテンシに関わり、結果として全体的なメモリ
帯域幅を制限する。したがって、これらの頻繁に用いら
れるデータをキャッシュし、かつ外部メモリアクセスペ
ナルティを減じるために高速オンチップメモリが用いら
れる。さらに、実効アクセスレイテンシを減じるため
の、すなわちＣＰＵが実際にデータを用いる前にデータ
をオンチップメモリ上で利用可能にするためのさまざま
なデータプリフェッチ技術が開発されている。

【０００４】負担の大きい、大量の生データに関わる画
像およびビデオアプリケーションがメディアプロセッサ
の主なターゲットである。典型的な画像およびビデオ処
理アルゴリズムは、規則的なデータアクセスパターンを
有する。こうして、プログラムはまもなく使われるデー
タのブロックを前もってフェッチできる。しかしなが
ら、そのような負荷を実現するために従来のメディアプ
ロセッサによって要求されるプログラミングは非常に制
限されている。ほとんどのメディアプロセッサは、プロ
グラマが処理タスクを区分して、ブロック転送を行なう
ために区分の各々に対して用いられるデータブロックの
サイズおよびアドレスを決定することを要求する。画像
とビデオフレームとは異なったサイズを有し得るので、
プログラマは不規則な区分および付加的な制御フローを
用いてコードを一般化しなければならず、プログラムが
長くなる。さらに、いくつかのアルゴリズムにおいて
は、パッディングのようなさらなるタスクが行なわれる
ことが必要となる。これらは付加されたプログラム命令
によって行なわれるので、データ処理タスクの効率性を
減じる。ブロックに基づくデータフロープログラミング
が用いられる多くのアルゴリズムにおいて、バルクデー
タに加えて境界のピクセルを明確にフェッチすることが
必要である。プログラムにおけるそのような不規則なデ
ータフローを取扱うことは、プログラマの全体的な生産
性を減じ、かつソースコードをアップグレードおよび維
持することをも困難にする。さらに、計算とデータフロ
ーとの間の同時実行の程度が減じられる。したがって、
ブロックデータ転送を行なう、より効率的で汎用性の高
い態様に対する必要性が存在する。

【０００５】広いデータ経路を備えたメディアプロセッ
サに対する特別な懸念は、多倍精度（multiple small p
recision）オペランドを異なった記憶場所からワイドワ
ード（wide word）へのパッキングのオーバーヘッドで
ある。これは従来、メディアプロセッサにおいて命令を
明示的に実行することにより行なわれるので、貴重なＣ
ＰＵサイクルが消費され、かつ全体的な性能が減じられ
る。したがって、多数のオペランドをパッキングするた
めの、より効率的な態様に対する必要性が存在する。

【０００６】

【発明の概要】この発明によると、メディアプロセッサ
からのオフロードブロックデータ転送動作に対してテン
プレートデータ転送コプロセッサが実現される。テンプ
レートデータ転送コプロセッサは、さまざまなタイプの
ブロックデータ転送動作を指定するための汎用性の高い
プロトコルを提供する。

【０００７】この発明の一局面によると、さまざまなタ
イプのデータ転送テンプレートが導入される：ユニブロ
ック（uniblock）テンプレート、プログラム誘導（prog
ram-guided）テンプレート、間接（indirect）テンプレ
ート、およびキューに基づく（queue-based）テンプレ
ートである。これらのテンプレートは、メディアプロセ
ッサにおけるさまざまなタイプのデータ転送フローを容
易にする。この発明の利点によると、ブロック転送ごと
に低レベルデータ転送パラメータを計算しかつ設定する
のではなく、パラメータ化されたテンプレートがプログ
ラマに特定のアルゴリズムに対して必要なデータフロー
を容易に設計できる効率的で汎用性の高い機構を提供す
る。たとえば、２Ｄ畳み込みおよびアフィンワーピング
（affinewarping）においては、データフロープログラ
ミングに関するソースコードラインの数が実質的に減じ
られる（たとえば、テンプレートなしで要求されるデー
タ転送を達成する場合に要求される数の約６分の１とな
る）。

【０００８】この発明の別の局面によると、ユニブロッ
クおよびプログラム誘導テンプレートは、メディアプロ
セッサのオンチップメモリとオフチップメモリとの間で
ブロックに基づくデータ転送において用いられる。その
ようなテンプレートの利点によると、オンチップメモリ
における入力および出力データブロックはダブルバッフ
ァリングされることが可能であり、それによりメディア
プロセッサ機能ユニットは高速計算のためにオンチップ
メモリにおけるデータにアクセスするだけでよい一方
で、遅い外部メモリとの間のデータ転送は機能ユニット
から隠される。ブロックごとに、アドレスおよびサイズ
はテンプレートデータ転送コプロセッサによってテンプ
レートから計算される。したがって、データフロープロ
グラミングは簡略化され、ＣＰＵの計算負荷は減じられ
る。

【０００９】ユニブロックテンプレートは、オーバーラ
ップすることができるソースメモリ空間からのブロック
を指定する。したがって、境界のブロックはパッディン
グされるか、またはラップアラウンドされて、境界に沿
った必要なオーバーラップ領域を準備する。

【００１０】パッディングおよびラッピングは実際のデ
ータ転送の間に行なわれる。したがって、メディアプロ
セッサ計算はさらに減じられ、かつこれらの不規則なデ
ータコピー動作はテンプレートデータ転送コプロセッサ
によって自動的に扱われるという事実により、プログラ
マの負担は軽くなる。

【００１１】この発明の別の局面によると、間接データ
フローテンプレートは、プロセッサの計算エンジンに顕
著な負荷を生成することなく、ランダムな場所からデー
タをアセンブルするための効率的な方法を可能にする。

【００１２】この発明の別の局面によると、キューに基
づくデータフローテンプレートは、仮想キューと物理キ
ューとの間のデータ転送を容易にする。仮想キューは、
循環的にアクセスされるメモリ空間であってもよく、任
意のサイズを有する。物理キューはデータをバッファ
し、かつ計算エンジンに対してオペランドストリームを
提供する。テンプレートデータ転送コプロセッサは、２
Ｄメモリ空間からオペランドバッファへのデータをスト
リーム化するか、またはデスティネーションオペランド
バッファにストアされるメディアプロセッサ結果を２Ｄ
メモリ空間にディスパッチする。そのようなテンプレー
トの利点によると、キューに基づくデータフローは多く
のロード／ストア命令をなくし、レジスタファイルサイ
ズに対する圧力を緩和する。さらに、長いレイテンシロ
ード／ストア命令がなくなってコードスケジューリング
はより簡略化され、高性能のために要求されるループア
ンローリングの量は減じられ、よりコンパクトなコード
をもたらす。

【００１３】この発明の別の局面によると、テンプレー
トデータ転送コプロセッサは２Ｄアドレス生成ユニット
（ＡＧＵ）を含み、これは割込なしでアドレスのシーケ
ンスが生成されることを可能にする組込み論理ユニット
を有する。これらのアドレスが２Ｄブロックに対応し、
これは最も小さなデータ転送ユニットとしての役割を果
たす。この態様で、テンプレートデータ転送コプロセッ
サ内のセントラルコントローラは、アドレス生成事象の
各々に関与する必要がなく、よってたとえば、次の転送
ブロックの位置の突き止めや、データフローのアービト
レーションなどの他のテンプレート計算のためのさらな
る時間をもたらす。

【００１４】この発明の別の局面によると、テンプレー
トデータ転送コプロセッサはテンプレートインタプリタ
を含み、これはコプロセッサのメインコントローラとし
ての役割を果たす。一実施例においては、インタプリタ
はテンプレートをセットアップし、テンプレートごとに
ブロック情報を計算するための事象駆動制御機構を用い
る。インタプリタの利点によると、テンプレートのタイ
プごとの計算はモジュラ化される。したがって、新しい
テンプレートタイプを簡単に追加することができる。

【００１５】この発明のこれらおよび他の局面と利点と
は、添付の図面と併せて以下の詳細な説明を参照するこ
とにより、よりよく理解されるであろう。

【００１６】

【特定の実施例の説明】概要図１を参照すると、画像またはビデオデータを処理する
ためのホストシステム１０は、１つ以上のバス構造２２
によって相互接続される、メディアプロセッサ１２、テ
ンプレートデータコプロセッサ１４、メインメモリ１
６、不揮発性メモリ１８、およびユーザインターフェイ
ス２０を含む。ユーザインターフェイス２０はディスプ
レイ装置２４、キーボード２６およびポイント／クリッ
ク装置２８を含む。

【００１７】図２を参照すると、一実施例においてメデ
ィアプロセッサ１２は、日本国東京の株式会社日立製作
所およびカリフォルニア州キャンベルのイクエータ・テ
クノロジー（Equator Technologies）によって製造され
るメディア加速プロセッサ（Media Accelerated Proces
sor）１０００（ＭＡＰ１０００）によって形成され
る。ＭＡＰ１０００は、直接メモリアクセス（ＤＭＡ）
コントローラ２９、オンチップメモリ（データキャッシ
ュ３０および命令キャッシュ３２）およびクラスタ３４
と呼ばれる並列実行ユニットを含む。クラスタ３４の各
々は、整数演算および論理ユニット（ＩＡＬＵ）３６
と、整数浮動小数点グラフィック演算および論理ユニッ
ト（ＩＦＧＡＬＵ）３８とを含む。また、クラスタ３４
の各々はいくつかの汎用レジスタ（たとえば３２ビット
レジスタ）、いくつかの１ビットプレディケートレジス
タおよび多数の特別レジスタ（たとえば、１２８ビット
レジスタ）を含む。

【００１８】他のさまざまなメディアプロセッサ実施例
もまた実現される。特に、ここで用いられる「メディア
プロセッサ」は、ビデオまたは画像データを処理するた
めのオンチップ並列性を示すプロセッサを指す。マイク
ロプロセッサおよびデジタル信号プロセッサは、命令レ
ベル並列性と呼ばれる技術によってオンチップ並列性を
用いる。命令レベル並列性は、多数の動作が単一のクロ
ックサイクルで開始されるものである。命令レベル並列
性への２つの方策は：超長命令語（ＶＬＩＷ）アーキテ
クチャおよびスーパースカラアーキテクチャである。Ｖ
ＬＩＷアーキテクチャにおいては、プロセッサは多数の
独立処理ユニットを含む。長い命令の各々は機能ユニッ
トの各々に対するオペレーションコードを含む。すべて
の機能ユニットは、実質的に同じ時点でそれらのオペレ
ーションコードを受取る。機能ユニットはそれらの割当
てられたタスクを同時に実行する。スーパースカラアー
キテクチャは特別なオンチップハードウェアを用いて、
命令ストリームを調べ、並列性を最大化するために同時
に実行し得る独立した動作を見出す。

【００１９】命令レベル並列性は、サブワード並列性を
用いていくつかのシステムにおいてさらに展開される
が、ここでは実行ユニットは多数のより小さなユニット
に区分される。たとえば、主に６４ビット論理演算装置
（ＡＬＵ）によって実現されるプロセスは、ＡＬＵを論
理的に４つの小さな１６ビットＡＬＵに分割する。特定
的には、ＡＬＵへのデータ入力は４つの小さなサブワー
ドの連結である。ＡＬＵ出力は４つのサブワードでの結
果の連結である。そのようなサブワード並列性は、「単
一命令多重データ」（ＳＩＭＤ）命令と呼ばれるものを
与えることによりアーキテクチャに組入れられる。メデ
ィアプロセッサ１２のＳＩＭＤ実現化の例は：サン・マ
イクロシステムズ（Sun Microsystems）のビジュアル命
令セット、インテル（Intel）のマルチメディア拡張機
構、ヒューレット・パッカード（Hewlett-Packard）のm
ultimedia acceleration extensions-s、デジタル・イ
クイップメント・コーポレーション（Digital Equipmen
t Corporation）のマルチメディア拡張機構、シリコン
・グラフィックス（Silicon Graphics, Inc.）のデジタ
ルメディア拡張機構である。これらの拡張機構における
命令は、データワード（たとえば３２ビットまたは６４
ビット）を１組の多数のサブワード（８、１６または３
２）として処理する。サブワードの各々で区分された動
作を実行することができ、最小限の付加的なハードウェ
アで２倍、４倍または８倍の性能向上が得られる。

【００２０】テンプレートデータ転送コプロセッサ（Ｔ
ＤＴＰ）１４は、メディアプロセッサの処理ユニット
（たとえばクラスタ３４）、メディアプロセッサのオン
チップメモリキャッシュ３０、３２および外部メモリ
（たとえばシステムキャッシュ１６および不揮発性メモ
リ１８）の間のさまざまなデータフローパターンを扱う
役割を果たす。テンプレートを用いることにより、最小
限のプログラミングが実現されてこのデータフロー制御
を達成する。

【００２１】テンプレートテンプレートは、（ｉ）パラメータ化されたデータ構
造、または（ii）規定されたパラメータの組を備えたパ
ラメータ化されたデータ構造、のいずれかである。メデ
ィアプロセッサにおいて異なったタイプのデータフロー
を扱うためにさまざまなテンプレートが用いられる。こ
こでは、ユニブロックテンプレート、プログラム誘導テ
ンプレート、間接テンプレートおよびキューに基づくテ
ンプレートを含む４つのテンプレートを説明する。これ
らのテンプレートタイプの各々は、同様のデータフロー
の群に対して用いられる。ユニブロックテンプレート
は、２つの記憶場所領域の間のブロックごとのデータ転
送を説明する。すべてのデータブロックパラメータ、た
とえばアドレスおよびサイズは、テンプレートから導出
される。プログラム誘導テンプレートもまたブロックに
基づくデータ転送を規定するが、データブロックパラメ
ータはプログラムによって明示的に与えられる。ユニブ
ロックテンプレートおよびプログラム誘導テンプレート
は主に画像／ビデオ処理に対して望ましいフローパター
ンであるダブルバッファリングデータフローを実現する
ために用いられる。間接テンプレートにより、離散的デ
ータ要素を（隣接するデータをインデクシングすること
により）連結するメモリ空間へマッピングすることが可
能になる。間接テンプレートは効率的にメディアプロセ
ッサの作業負荷を減じる。キューに基づくテンプレート
は、メディアプロセッサに対するメモリ空間とバッファ
されたオペランドの小さな物理ストリームキューとの間
のデータ転送を指定する。一実施例においてはテンプレ
ートの各々における第１の項目はテンプレートのタイプ
を識別するためのコードである。各々のテンプレートタ
イプのより詳細な説明を以下に述べる。

【００２２】ユニブロックテンプレートほとんどの画像およびビデオアルゴリズムは、単一のデ
ータフレームまたは多数のデータフレームで計算を実行
する。多くのアルゴリズムは連続的なデータが独立して
計算できるデータレベルの並列性さえも実現する。たと
えば、処理は区分され、各々の区分が制限されたオンチ
ップメモリ空間に整合する画像データのブロックに動作
し得る。そのような処理に対するデータ転送を容易にす
るために、ユニブロックテンプレートが導入される。ユ
ニブロックテンプレートは、予め定められた転送ブロッ
ク次元およびサイズでオンチップメモリ空間とオフチッ
プメモリ空間との間のデータ転送を説明するために用い
られる。

【００２３】図３を参照すると、ユニブロックテンプレ
ートは、ソースブロックパラメータ３８とデスティネー
ションブロックパラメータ４０とを用いてソースブロッ
クとデスティネーションブロックとを規定する。ソース
ブロックパラメータ３８は、ベースアドレス、幅、高
さ、ピッチおよびソースアクセスモードを含む。同様
に、デスティネーションブロックパラメータ４０は、ベ
ースアドレス、幅、高さ、ピッチおよびデスティネーシ
ョンアクセスモードを含む。次元フラグ４２（すなわ
ち、１Ｄ／２Ｄフラグと標識付けされる）は、データ転
送の次元を決定する。典型的には、２次元（２Ｄ）ブロ
ックはブロック幅４４およびブロック高さ４６パラメー
タで規定される。フラグ４２が１次元（１Ｄ）を示す場
合、ブロック幅４４のみが有効である。２次元データ転
送に関しては、オーバーラップモードパラメータ４８が
用いられ、これはソースメモリ空間における隣接するブ
ロックがオーバーラップするか否かを指定する。オーバ
ーラップが設定される場合、パッディングモードパラメ
ータ５０またはラッピングモードパラメータ５２のいず
れかが有効であり、オーバーラップする境界で必要であ
るデータを処理するためにパッディングまたはラッピン
グのいずれかが用いられることを示す。さらに、パッデ
ィングモードおよびラッピングモードの各々に対して、
水平オーバーラップパラメータ５４値および垂直オーバ
ーラップパラメータ５６値が設定される。オーバーラッ
プする部分で、ソースブロックおよび隣接するデータの
ウィンドウからピクセル値が導出される。

【００２４】そのようなパッディングおよびラッピング
指定は、あるアルゴリズムをより効率的に実現するため
に望ましい。たとえば、２Ｄ畳み込みを含むアルゴリズ
ムにおいては、境界上のデータブロックがパッディング
される必要がある。ウェーブレット変換を含むアルゴリ
ズムにおいては、データブロックはラップアラウンドさ
れる必要がある。ブロックに基づくデータフロープログ
ラミングが用いられる多くのアルゴリズムにおいて、バ
ルクデータに加えて境界のピクセルを明示的にフェッチ
することが必要である。プログラム内でそのような不規
則なデータフローを扱うことは、プログラマの全体的な
生産性を減じ、かつソースコードをアップグレードし維
持することを難しくする傾向がある。さらに、計算とデ
ータフローとの間の同時性の度合が減じられる。ユニブ
ロックテンプレートは、そのような機能を指定するため
の効率的なプログラミングインターフェイスを提供す
る。

【００２５】図４を参照すると、パッディングが実施さ
れるべき９つのブロック５８のソースデータが示され
る。ピクセルを計算するのに隣接するピクセルが用いら
れる場合、示される対称的な隣接ウィンドウが境界で用
いられる。図４は、ブロック６４に対する水平オーバー
ラップ６０および垂直オーバーラップ６２を示す。対称
的な隣接ウィンドウに対しては、パッディングは同様で
ある。

【００２６】図５を参照すると、ラッピングモードが用
いられる場合、オーバーラップは対称的ではない。そう
ではなく、これは単方向性である。パッディングモード
は、ゼロパッディングと境界拡張との間を選択可能であ
る一方、ラッピングモードはさらに垂直（上または下）
および水平（左または右）ラッピングを指定できる。図
５は、ブロック６４′に対する水平オーバーラップ６
０′および垂直オーバーラップ６２′を示す。

【００２７】ソースおよびデスティネーションアクセス
モードを用いることにより、付加的な柔軟性が得られ
る。アクセスモードは、アクセスされたデータがオンチ
ップに向けられているか、またはオフチップメモリに対
して向けられているかを判断する。これはオンチップメ
モリにおけるオフチップデータのダブルバッファリング
において主要な問題である。また、アクセスモードはソ
ースまたはデスティネーションメモリ空間における次の
データブロックがどのようにアドレスされるかを決定す
る。図６（Ａ）を参照すると、アクセスモードは次のブ
ロックが２Ｄメモリ空間において行ごとにまたは列ごと
にアクセスされるかを決定する。図６（Ｂ）を参照する
と、メモリ空間境界に到達すると、アクセスモードは次
に逆方向のブロックがアクセスされるべきかまたはメモ
リ空間は循環的にアクセスされるべきかを判断する。

【００２８】ユニブロックテンプレート３６は、ソース
ブロックとデスティネーションブロックとが同じサイズ
であることを必要としない。たとえば、テンプレート３
６が入力データフローを規定する場合、ソースメモリ空
間はソース画像に対応する一方、デスティネーションメ
モリ空間は入力データをダブルバッファするオンチップ
メモリ領域に対応する。データ転送は、大きい方のソー
スメモリ空間におけるすべてのデータが転送されたとき
に終了する。小さい方のオンチップメモリ空間は逆方向
のまたは循環的なアクセスモードのいずれかによって、
図６（Ｂ）に示されるように再利用される。

【００２９】テンプレートデータ転送コプロセッサ１４
は、ブロック転送ごとにデータブロックアドレスを計算
し、ソースまたはデスティネーションメモリ空間に整合
するようブロックサイズを調整する。したがって、画像
境界におけるブロックは異なった幅および／または高さ
値を、テンプレートに指定されるものからは異なって有
し得る。ランタイムブロック情報、たとえばアドレス、
幅、および高さは、プログラムにパスされる。こうし
て、プログラムは単にデータフローテンプレートを初期
化し、ブロック転送を同期させ、ブロックをオンチップ
に処理するだけでよい。

【００３０】プログラム誘導テンプレートいくつかのア
ルゴリズムは不規則なブロックアクセスを要求し、すな
わちデータブロックの各々のアドレスおよびサイズがプ
ログラムから計算されなければならない。図７に示すプ
ログラム誘導テンプレート６６は、そのようなプログラ
ムによって導かれるデータ転送を容易にするために用い
られる。プログラム誘導テンプレート６６は記述アドレ
スパラメータ６８、ソースフィールド６９およびデステ
ィネーションフィールド７３を含む。ソースフィールド
６９は、ソースアドレスパラメータ７０およびソースピ
ッチパラメータ７２を含む。デスティネーションフィー
ルドは、デスティネーションアドレスパラメータ７４お
よびデスティネーションピッチパラメータ７６を含む。

【００３１】記述アドレスパラメータ６８は、転送され
るべきブロックの各々のソースアドレスオフセット、デ
スティネーションアドレスオフセット、およびサイズ情
報を含むブロック記述テーブル７８をポイントするアド
レスをストアする。ソースフィールド６９およびデステ
ィネーションフィールド７３は、それぞれソースブロッ
クおよびデスティネーションブロックを開始するための
ベースアドレスおよびピッチ値をストアする。異なった
ベースアドレスを用いることにより、同じブロック記述
テーブルは異なったプログラムによって再利用されるこ
とができる。

【００３２】ブロックを転送する場合、テンプレートデ
ータ転送コプロセッサ１４はブロック記述テーブル７８
からブロック情報をフェッチし、ソースおよびデスティ
ネーションブロックアドレスを計算し、データ転送を開
始する。ブロック記述テーブルにおいて規定されるブロ
ックは、記述テーブルが到達されるまでシーケンシャル
に転送される。

【００３３】プログラム誘導テンプレートはまた、外部
メモリ１６、１８とオンチップメモリ３０、３２との間
での計算の実行と同時のデータ転送のために用いられ、
こうしてプロセッサ計算サイクルからメモリレイテンシ
サイクルを隠す。特に、プログラム誘導データフロー
は、ランダムに配置される任意の大きさのデータブロッ
クのシーケンスを転送することを可能にする。したがっ
て、これはプログラムがデータフローを規定すること
に、より柔軟性を与える。関連するオーバーヘッドは、
テンプレートデータ転送コプロセッサ１４が、ブロック
転送ごとにブロック記述にアクセスすることである。

【００３４】間接データフローテンプレート図８を参照すると、間接データフローテンプレート８０
によって容易になるデータ転送は、３つのメモリ空間、
すなわちインデックスデータ領域８２、ソースデータ領
域８４、およびデスティネーションデータ領域８６に関
わる。インデックスデータはソースデータアドレスを計
算するために用いられる。したがって、ソースデータ領
域８４へのアクセスは極めてランダムになり得る。イン
デックスデータ領域８２およびデスティネーションデー
タ領域８６へのアクセスは、シーケンシャルであること
が期待される。間接データフローテンプレート８０はイ
ンデックスフィールド８８（たとえばインデックスアド
レス９０およびインデックス幅９２）、ソースデータア
ドレスパラメータ９４およびデスティネーションデータ
アドレスパラメータ９６を含む。これはまた、データ幅
９８およびデータカウント１００を指定する。インデッ
クス幅パラメータ９２は、さまざまな形式のデータ、た
とえば８、１６または３２ビットのデータをインデック
スとして用いることを可能にする。テンプレートデータ
転送コプロセッサ１４は、インデックスデータ８２をシ
ーケンシャルな順序に参照し、現在アクセスされている
インデックスデータ値を対応のソースアドレスパラメー
タ値９４に加え、結果として生じるアドレスをソースデ
ータ領域８４へのアクセスに用いる。アクセスされたソ
ースデータはデスティネーション領域８６にシーケンシ
ャルに書込まれる。転送されるデータ項目の数および項
目の各々のデータ幅は、カウントパラメータ１００およ
び幅パラメータ９８によって決定される。この態様で、
ランダム記憶場所からのデータはパックされることがで
きる。間接データフローは、たとえばジオメトリ変換お
よびグレースケールマッピングなどの、ルックアップテ
ーブルが用いられるアルゴリズムに望ましい。

【００３５】間接データ転送は、データフローを通して
パックまたはアンパックし、かつプロセッサのアドレス
計算を緩和するために用いられるので、ＴＤＴＰ１４を
用いて達成されるそのような転送速度は、好ましくはメ
ディアプロセッサクラスタ３４によって行なわれるもの
に匹敵する。しかしながら、デスティネーションデータ
要素の移動を終了させるためには３つのメモリアクセ
ス、すなわち１つはインデックス領域８２からの読出、
１つはソース領域８４からの読出、および１つはデステ
ィネーション領域８６への書込、が必要となるが、これ
はオフチップメモリアクセスに関わる場合に遅くなる。
このような潜在的なボトルネックを避けるために、間接
データフローはいくつかの実施例においては、上のセク
ションにおいて説明されたブロックに基づくデータフロ
ーを通してプリフェッチすることができるオンチップデ
ータを扱うためにのみ限定される。

【００３６】キューに基づくデータフローストリームキューは、計算エンジンに対して一定のオペ
ランドのフローを効率的に提供し、こうしてレジスタに
対する圧力を緩和する。キューはハードウェア、たとえ
ばＦＩＦＯ（先入れ先出し）メモリを用いるか、または
ソフトウェア、たとえば規則的なメモリ空間を用いるこ
とのいずれかによって実現される。一実施例においては
テンプレートデータ転送コプロセッサは、ハードウェア
キューを用いて計算エンジンに対して必要なオペランド
をバッファする。別の実施例においては、テンプレート
データ転送コプロセッサによって循環的にアドレスされ
るメモリ空間として仮想キューが規定される。さらに別
の実施例においては、物理キューとその関連の仮想キュ
ーとの組合せとして、プログラマに対して可視である論
理キューが規定される。テンプレートデータ転送コプロ
セッサ１４は、仮想キューと物理キューとの間のデータ
転送を制御し、それにより論理キューが仮想キューに匹
敵する深さを有するようにする。物理キューはデータを
バッファするためにだけ用いられるので、これはデータ
転送レートの変動を扱える限り、小さくてもよい。

【００３７】従来は、キューにストアされたデータはシ
ーケンシャルにアクセスされる。しかしながら、ＴＤＴ
Ｐ１４は、キューに基づくテンプレートを用いることに
よりさらなる柔軟性を可能にする。図９を参照すると、
キューに基づくテンプレート１０２は、物理キュー名を
指定するためのパラメータ１０４と、関連の仮想キュー
１０７を指定するためのパラメータのフィールド１０６
とを含む。仮想キューパラメータは、仮想キューアドレ
ス１０８、幅１１０、ストライド１１２、およびサイズ
１１４を含む。仮想キュー１０７に対するアクセスは一
定のストライドを有し、これはメモリ空間におけるシー
ケンシャルではないデータがキューにストリーム化され
ることを可能にする。ＴＤＴＰ１４は、仮想および物理
キューの間で、方向パラメータ１１６の値に従ってデー
タを転送する。方向は、キューがクラスタ３４機能ユニ
ット内でソースまたはデスティネーションのどちらとし
て用いられるかを決定する。仮想キューメモリ空間は循
環状にアドレスされ、かつ一度にいくつかの物理キュー
に関連付けられることができる。たとえば、同じ仮想キ
ューが、ソースオペランドキューおよびデスティネーシ
ョンオペランドキューに関連付けられることができる。
機能ユニットはメモリ空間におけるソースキューデータ
を消費する一方で、その結果でデスティネーションキュ
ーメモリ空間を埋める。

【００３８】キューに基づくデータ転送は、物理キュー
ステータスによって制御される。ソースオペランドキュ
ーに対しては、オンチップメモリからオペランドバッフ
ァへの転送は、物理キューがフルになったときに停止す
る。デスティネーションオペランドキューに対しては、
オペランドバッファからオンチップメモリへの転送は物
理キューが空になったときに停止する。

【００３９】テンプレートデータ転送コプロセッサアー
キテクチャ図１０を参照すると、一実施例においてテンプレートデ
ータ転送コプロセッサ１４は、テンプレートインタプリ
タ１１０、２Ｄアドレス生成ユニット（ＡＧＵ）１１２
の群、テンプレートバッファ１１４、パッディングバッ
ファ１１６およびデータ転送バッファ１１８を含む。テ
ンプレートバッファ１１４は、１つ以上のテンプレート
タイプ３６、６６、８０、１０２に対してＴＤＴＰを用
いるアプリケーションプログラムによって設定されるテ
ンプレートパラメータのような静的なデータフロー情報
を含む。テンプレートバッファ１１４はまた、ランタイ
ムに計算されるブロックアドレスのような動的データフ
ロー情報をも含む。

【００４０】テンプレートインタプリタ１１０は、アク
ティブなテンプレートエントリのリストを維持し、アク
ティブなテンプレートごとのランタイムデータ転送パラ
メータを計算する。ブロックに基づくテンプレートに対
しては、すなわちユニブロックおよびプログラム誘導テ
ンプレート３６、６６に対しては、ブロックごとの転送
パラメータはプログラムに同期して計算される。

【００４１】２ＤＡＧＵ１１２の各々は、２Ｄブロッ
ク情報を受け、そのブロックに対してアドレスのシーケ
ンスを生成し、これはデータ転送のためのオンチップバ
スを駆動するために用いられる。２ＤＡＧＵ１１２の
数は、外部メモリ１６、１８およびオンチップメモリ３
０、３２に接続されるオンチップデータバスの数によっ
て決定される。マルチバンクオンチップメモリは、多数
のデータフローが最小限のコンフリクトで同時に進行す
ることを可能にする。

【００４２】異なったテンプレートのタイプは、異なっ
た２ＤＡＧＵ１１２の組を用い得るが、これは２Ｄ
ＡＧＵが別々のデータバスに関連付けられるためであ
る。たとえば、キューに基づくテンプレート１０２は、
オンチップメモリ３０、３２およびオペランドキュー１
２０に接続するデータバス２２に結合される２ＤＡＧ
Ｕ１１２の組を用いる。多数のデータフローが同じＡＧ
Ｕ１１２を共用し得る。ＡＧＵが利用可能になると、テ
ンプレートインタプリタ１１０は、このＡＧＵを用いる
ことができるアクティブなテンプレートからブロックを
選択する。この選択は、ラウンドロビン方式で行なわれ
る。しかしながら、テンプレートにおいて優先パラメー
タを用いることにより、代替的な選択規則もまた実施し
得る。

【００４３】テンプレートの各々は、ソースおよびデス
ティネーションメモリ空間を規定し、データはソースメ
モリから転送されて、（必要であれば）データ転送バッ
ファ１１８にストアされる前に整列される。データ転送
バッファ１１８の数は、外部メモリ１６、１８とオンチ
ップメモリ３０、３２との間の同時データフローの最大
数を決定する。転送バッファ１１８内のデータもまた、
（必要であれば）デスティネーションメモリに転送され
る前に整列される。

【００４４】さらに、２つの特別な場合を説明する。第
１に、間接テンプレート８０に対して、ソースデータア
ドレスは、ソースアドレスパラメータ９４（図８を参
照）にストアされるソースベースアドレスにインデック
スデータを加えることにより計算される。関連の２Ｄ
ＡＧＵ１１２は、オペランドを直接オンチップメモリま
たはこのインデックスデータをストアするオペランドキ
ューから取ることによりこれらの加算を素早く実行す
る。第２に、パッディングおよびラッピングデータフロ
ーを実現するために、境界のピクセルはＴＤＴＰ１４に
ロードされる。これらのピクセルはパッディングバッフ
ァ１１６にストアされて、他のデータとともにデータ整
列ユニットにシンクロナスに挿入される。

【００４５】テンプレートインタプリタ１１０は、デー
タ転送を制御し、メディアプロセッサクラスタ３４およ
びＡＧＵ１１２からの信号に応答する。図１１を参照す
ると、テンプレートインタプリタ１１０の制御フロー１
２２が示される。テンプレートインタプリタ１１０は、
ステップ１２４においてクラスタ３４の信号または次の
利用可能な２ＤＡＧＵ１１２を待機する。４つの潜在
的な動作のうちの１つが、受信される信号に応じて発生
する。クラスタ信号「Ａ」に対しては、インタプリタは
ステップ１２６において新しいテンプレートを初期化す
る。これを行なうために、インタプリタ１１０は、テン
プレートタイプに従って適切なテンプレートセットアッ
プモジュールを呼出し、ステップ１２７において転送さ
れるべき最初のブロックを決定する。クラスタ信号
「Ｂ」に対しては、インタプリタ１１０はステップ１２
８においてテンプレートを削除することによりテンプレ
ート転送を終了させる。テンプレートに対するブロック
転送を行なうためのクラスタ信号「Ｃ」に対しては、イ
ンタプリタはステップ１３０において現在のブロックを
準備モードに設定する。ステップ１３２において、イン
タプリタは、最後のブロックに到達したか否かをテスト
する。もし到達していなければ、次に転送されるべきブ
ロックがステップ１３４において決定される。テンプレ
ートで指定されるブロックがない場合、インタプリタ１
１０はクラスタ３４に（クラスタによってポーリングさ
れるフラグを設定することにより）信号を送り、テンプ
レートの終了を示す。

【００４６】第４の起こり得る動作は、ＡＧＵ１１２の
うちの１つのテンプレートデータ転送コプロセッサ１４
内で生成される。２ＤＡＧＵユニット１１２が利用可
能になると、ＡＧＵはインタプリタ１１０に対して信号
「Ｄ」を生成する。次いでステップ１３６において、イ
ンタプリタ１１０はテンプレートを選択し、準備された
ブロックをＡＧＵユニットに対してディスパッチする。
２ＤＡＧＵはまた、ブロック転送の各々が完了した場
合にインタプリタに信号を送る。

【００４７】以下の例は、テンプレートデータ転送のプ
ログラミングインターフェイスを示す。第１の例におい
ては、関数はset＿uniblockルーチン（ライン１−２）
を用いて２つのブロックに基づくデータフローを生成す
るが、１つは入力データのためであり、他方は出力デー
タのためのものである。set＿uniblockルーチンはＴＤ
ＴＰ１４がテンプレートを指定し、テンプレートバッフ
ァ１１４にパラメータをコピーし、ハンドラにそのテン
プレートを返すことを要求する。データフローは、tran
sferルーチン（ライン３、６および１０）によって開始
される。transferルーチンへのコールの各々は、データ
のブロックをソースメモリからデスティネーションメモ
リに転送する。テンプレートで指定されたデータのすべ
てが転送されると、さらなる転送は無効にされる。

【００４８】waitルーチン（ライン５および９）は、テ
ンプレートに関連の準備信号をポーリングすることによ
りブロック転送が完了することを待機する。テンプレー
トが生成されると、その準備信号が自動的に設定され
る。ＴＤＴＰは、ブロックの転送を開始するときに準備
信号をリセットする。準備信号は、ブロック転送が完了
したときに設定される。タイトループコールは、クラス
タ３４とＴＤＴＰ１４との間の共通のデータ構造から入
力および出力データブロックに関するアドレスおよびサ
イズ情報を受ける。タイトループがクラスタ３４で実行
される一方で、次の入力データブロックおよび先行する
出力データブロックはＴＤＴＰ１４によって転送され
る。テンプレートに対するすべてのデータが転送される
と、ＴＤＴＰ１４はテンプレート完了信号を設定し、こ
れもまたプログラムにおいてループ制御のために用いら
れる。

【００４９】deleteルーチン（ライン１１−１２）は、
関連のテンプレートバッファを無効化することによりテ
ンプレートを終了させる。例１に示されるように、ＴＤ
ＴＰ１４はアプリケーションプログラムに対して効率的
で簡単なプログラミングインターフェイスの組を提供す
る。特に、データフローの詳細は、適切なテンプレート
パラメータを選択することによりＴＤＴＰ１４において
隠されている。

【００５０】例１：ユニブロックテンプレート転送

【００５１】

【表１】

【００５２】プログラム誘導テンプレートは、ユニブロ
ックテンプレートに加えてデータブロックをダブルバッ
ファリングするために用い得るので、そのプログラミン
グインターフェイスは例１のものに似ているが、テンプ
レートがset＿guidedルーチンによって設定され、ブロ
ック記述テーブルがデータフローを活性化する前に誘導
テンプレートに対してオンチップメモリで確立される点
が異なる。

【００５３】第２の例は、間接データフローのためのプ
ログラミングインターフェイスを示す。間接データフロ
ーは、set＿indirectルーチン（ライン１）によって生
成され、これはＴＤＴＰ１４がテンプレートバッファ１
１４における間接テンプレートを指定し、次いで指定さ
れたテンプレートにパラメータを転送することを要求す
る。ルーチンはまた、ハンドラを返し、これによりプロ
グラムがテンプレートに関するステータス情報にアクセ
スすることができる。間接データ転送は、transferルー
チン（ライン２）を用いることにより開始され、その後
に他のタスク（ライン３）が続く。同じ時点で、プログ
ラムは間接データ転送が完了するのを待機し、次いで転
送されたデータを計算する。deleteはテンプレートを終
了させる。

【００５４】例２：間接テンプレートデータ転送

【００５５】

【表２】

【００５６】例３は、キューに基づくデータフローイン
ターフェイスを示す。ブロックに基づくデータフローお
よび間接データフローと同様に、set＿voq（ライン１）
がテンプレートを生成するために用いられ、transferル
ーチン（ライン２）がデータ転送を開始するために用い
られる。しかしながら、プログラムは転送が完了するの
を待機することなく、transferルーチンのすぐ後にキュ
ーを使い始める。

【００５７】例３：キューに基づくテンプレート転送

【００５８】

【表３】

【００５９】価値のある有利な効果パラメータ化されたテンプレートの１つの利点は、その
ようなテンプレートはブロック転送ごとに低レベルデー
タ転送パラメータを計算し設定するのではなく、プログ
ラマが特定のアルゴリズムのために必要なデータフロー
を容易に設計するために効率的で汎用性の高い機構であ
ることである。

【００６０】ユニブロックテンプレートの利点は、オン
チップメモリにおける入力および出力データブロックが
ダブルバッファリングされることが可能であり、それに
よりメディアプロセッサ機能ユニットは、高速計算のた
めにオンチップメモリにおけるデータにアクセスするだ
けでよく、一方で遅い外部メモリとの間のデータ転送は
機能ユニットから隠されることである。また、ブロック
ごとに、テンプレートデータ転送コプロセッサによって
テンプレートからアドレスおよびサイズが計算される。
したがって、データフロープログラミングは簡略化さ
れ、ＣＰＵの計算負荷は減じられる。別の利点とは、ユ
ニブロックテンプレートがソースメモリ空間からオーバ
ーラップされるべきブロックを指定することである。し
たがって、境界のブロックはパッディングされるかまた
はラップアラウンドされ、境界に沿った必要なオーバー
ラッピングを準備する。

【００６１】パッディングおよびラッピングは実際のデ
ータ転送の間に行なわれる。したがって、メディアプロ
セッサ計算はさらに減じられ、かつプログラマの負担
は、テンプレートデータ転送コプロセッサによってこれ
らの不規則なデータコピー動作が自動的に扱われるとい
う事実により、減じられる。

【００６２】間接テンプレートの利点は、これがプロセ
ッサの計算エンジンに対して顕著な負荷を生成すること
なく、ランダムな場所からデータをアセンブルするため
の効率的な方法を提供することである。

【００６３】キューに基づくデータフローテンプレート
の利点は、仮想キューと物理キューとの間のデータ転送
を促進することである。キューに基づくデータフロー
は、ロード／ストア命令をなくし、レジスタファイルサ
イズに対する圧力を緩和する。さらに、コードスケジュ
ーリングは長いレイテンシロード／ストア命令をなくし
て簡略化され、高性能のために必要となるループアンロ
ーリングの量は減じられ、よりコンパクトなコードをも
たらす。

【００６４】この発明の好ましい実施例を例示し説明し
たが、さまざまな代替例、変形および等価物を用い得
る。したがって、上述の説明は前掲の特許請求の範囲に
よって規定されるこの発明の範囲を限定するものと解さ
れてはならない。

【図面の簡単な説明】

【図１】この発明の実施例に従った、メディアプロセ
ッサおよびテンプレートデータ転送コプロセッサを有す
る画像／ビデオ処理システムのブロック図である。

【図２】例示的なメディアプロセッサ実施例のブロッ
ク図である。

【図３】図１のテンプレートデータ転送コプロセッサ
によって実現されるデータ転送のためのユニブロックテ
ンプレートの図である。

【図４】１組の画像データブロックの間のソースブロ
ックに対するパッディング領域の図である。

【図５】１組の画像データブロックの間のソースブロ
ックに対するデータラッピングの図である。

【図６】データブロックに対するアクセスパターンを
示す図である。

【図７】図１のテンプレートデータ転送コプロセッサ
によって実現されるデータ転送のためのプログラム誘導
テンプレートの図である。

【図８】図１のテンプレートデータ転送コプロセッサ
によって実現されるデータ転送のための間接テンプレー
トの図である。

【図９】図１のテンプレートデータ転送コプロセッサ
によって実現されるデータ転送のためのキューに基づく
テンプレートの図である。

【図１０】この発明の実施例に従った、図１のテンプ
レートデータ転送コプロセッサのブロック図である。

【図１１】図１０のテンプレートインタプリタに対す
る処理状況のフローチャートである。

【符号の説明】

１２メディアプロセッサ、１４テンプレートデータ
転送コプロセッサ、３６ユニブロックテンプレート。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウェイユン・スンアメリカ合衆国、98125 ワシントン州、シアトル、ワンハンドレッドアンドシックスス・ストリート、エヌ・イー、818、アパートメント・410 (72)発明者ドンロク・キムアメリカ合衆国、98105 ワシントン州、シアトル、ミサン・プレイス・エヌ・イー、5290 (72)発明者ヨンミン・キムアメリカ合衆国、98155 ワシントン州、シアトル、エヌ・イー・ワンハンドレッドアンドエイティナインス・プレイス、4431 Ｆターム(参考） 5B013 DD03 DD05 5B057 CH04 CH14 5B061 BA03 DD09 DD12 PP05 5B069 LA02 LA14

Claims

【特許請求の範囲】

【請求項１】メディアプロセッサ１２によってアクセ
スするためにデータをロードおよびアンロードするデー
タ転送を扱うためのテンプレートデータ転送コプロセッ
サ装置１４であって、前記コプロセッサ装置は、１つ以上のデータ転送テンプレートをストアするテンプ
レートバッファ１１４を含み、前記１つ以上のデータ転
送テンプレート３６／６６／８０／１０２の各々は、対
応のデータ転送動作を規定する１組のパラメータを含
み、前記コプロセッサ装置はさらに前記１つ以上のデー
タ転送テンプレートを読出し、かつ前記１つ以上のデー
タ転送テンプレートに対する対応のデータ転送動作をト
ラッキングするテンプレートインタプリタ１１０と、現在のデータ転送テンプレートに対してアクセスするた
めの１組のアドレスを生成するアドレス生成ユニット１
１２と、ソースからデスティネーションに転送されるデータを受
けるデータ転送バッファ１１８とを含む、コプロセッサ
装置。
【請求項２】前記テンプレートバッファ１１４にスト
アされる前記１つ以上のデータ転送テンプレートの所与
の１つに対するパラメータの組は、コンパイルの間に設
定される静的なデータフロー情報と、ランタイムに計算
される動的なデータフロー情報とを含み、前記テンプレ
ートインタプリタ１１０は、ランタイムの間に動的なデ
ータフロー情報を導出する、請求項１に記載の装置。
【請求項３】前記１つ以上のデータ転送テンプレート
の前記少なくとも１つのタイプ３６は、ブロックデータ
転送を容易にし、ブロックデータ転送のブロックサイズ
が導出されブロックデータ転送に対するソースおよびデ
スティネーションアドレスが導出されるパラメータを含
む、請求項１に記載の装置。
【請求項４】前記１つ以上のデータ転送テンプレート
の前記少なくとも１つのタイプ３６は、ソースブロック
パラメータおよびデスティネーションブロックパラメー
タと、かつブロック転送が１次元データブロックに対す
るものであるか、または２次元データブロックに対する
ものであるかの表示４２とを含む、請求項３に記載の装
置。
【請求項５】ブロックデータ転送を容易にする前記１
つ以上のデータ転送テンプレートの前記少なくとも１つ
のタイプ３６は、オーバーラップモードおよび境界デー
タを変更する態様の表示４８をさらに含む、請求項４に
記載の装置。
【請求項６】前記１つ以上のデータ転送テンプレート
の前記少なくとも１つのタイプ６６は、プログラム誘導
ブロックデータ転送を容易にし、ランダムに配置される
任意のサイズのデータブロックのシーケンスの転送を容
易にするためのソースパラメータ６９とデスティネーシ
ョンパラメータ７３とを含む、請求項１に記載の装置。
【請求項７】前記１つ以上のデータ転送テンプレート
の前記少なくとも１つのタイプ８０は、間接データ転送
を容易にし、インデックス開始アドレスパラメータ９
０、ソースアドレスパラメータ９４およびデスティネー
ションアドレスパラメータ９６を含む、請求項１に記載
の装置。
【請求項８】前記１つ以上のデータ転送テンプレート
の前記少なくとも１つのタイプ１０２は、物理キューと
仮想キュー１０７との間のデータ転送を容易にするため
のキューに基づくデータ転送を容易にする、請求項１に
記載の装置。
【請求項９】外部メモリ１６／１８とオンチップメモ
リを有するメディアプロセッサ１２との組合せにおい
て、テンプレートデータ転送コプロセッサ装置１４は、
外部メモリとオンチップメモリとの間のデータ転送を容
易にする。請求項１に記載の装置。
【請求項１０】メディアプロセッサ１２のオンチップ
メモリとオフチップメモリ１８との間のデータ転送を容
易にするための方法であって、複数のデータ転送テンプレート３６／６６／８０／１０
２を含むコードをコンパイルするステップを含み、前記
複数のデータ転送テンプレートの各々は、オンチップメ
モリとオフチップメモリとの間のデータ転送を容易にす
るためのパラメータを識別するためのものであり、前記
方法はさらに複数の画像データブロックに対してメディアプロセッサ
１２で画像処理アルゴリズムを実行するステップと、テンプレートバッファ１１４から前記複数のデータ転送
テンプレートの少なくとも１つを読出すステップと、前記データ転送テンプレートのうちの少なくとも１つに
アクセスして前記画像処理アルゴリズムを実行するステ
ップのためにメディアプロセッサ１２に複数の画像デー
タブロックを提供するコプロセッサ１４によって、オン
チップメモリとオフチップメモリとの間のデータ転送を
容易にするステップとを含む、方法。
【請求項１１】前記複数のデータ転送テンプレートの
前記少なくとも１つはブロックデータ転送を容易にし、
ブロックデータ転送のブロックサイズを導出できブロッ
クデータ転送に対するソースおよびデスティネーション
アドレスを導出できるパラメータを含む、請求項１０に
記載の方法。
【請求項１２】前記複数のデータ転送テンプレートの
前記少なくとも１つ３６は、ソースブロックパラメータ
とデスティネーションブロックパラメータとを含み、か
つブロック転送が１次元データブロックに対するもので
あるか、または２次元データブロックに対するものであ
るかの表示４２を含む、請求項１０に記載の方法。
【請求項１３】前記複数のデータ転送テンプレートの
うちの前記少なくとも１つは、オーバーラップモードお
よび境界データを変更する態様の表示４８をさらに含
む、請求項１２に記載の方法。
【請求項１４】前記１つ以上のデータ転送テンプレー
トの前記少なくとも１つ６６は、プログラム誘導ブロッ
クデータ転送を容易にし、ランダムに配置される任意の
サイズのデータブロックのシーケンスを転送することを
容易にするためのソースパラメータとデスティネーショ
ンパラメータとを含む、請求項１０に記載の方法。
【請求項１５】前記１つ以上のデータ転送パラメータ
の前記少なくとも１つ８０は、間接データ転送を容易に
し、インデックス開始アドレスパラメータ、ソースアド
レスパラメータ９４、およびデスティネーションアドレ
スパラメータ９６を含む、請求項１０に記載の方法。
【請求項１６】前記１つ以上のデータ転送テンプレー
トの前記少なくとも１つ１０２は、物理キューと仮想キ
ュー１０７との間のデータ転送を容易にするためのキュ
ーに基づくデータ転送を容易にする、請求項１０に記載
の方法。
【請求項１７】前記識別されたパラメータは、コンパ
イル時に決定される、請求項１０に記載の方法。
【請求項１８】前記識別されたパラメータの少なくと
も１つは、コプロセッサによってランタイムに規定され
る、請求項１０に記載の方法。
【請求項１９】前記容易にするステップは、サブワー
ド区分を有するオペランドとしてパックした前記複数の
画像データブロックをメディアプロセッサ１２に提供す
るステップを含み、サブワードは、前記複数のデータブ
ロックの画像データブロックの１つのデータ項目に対応
する、請求項１０に記載の方法。