JP5748935B2 - Simd命令をサポートするプログラマブルデータ処理回路 - Google Patents

Simd命令をサポートするプログラマブルデータ処理回路 Download PDF

Info

Publication number
JP5748935B2
JP5748935B2 JP2007539681A JP2007539681A JP5748935B2 JP 5748935 B2 JP5748935 B2 JP 5748935B2 JP 2007539681 A JP2007539681 A JP 2007539681A JP 2007539681 A JP2007539681 A JP 2007539681A JP 5748935 B2 JP5748935 B2 JP 5748935B2
Authority
JP
Japan
Prior art keywords
register
instruction
operand
circuit
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007539681A
Other languages
English (en)
Other versions
JP2008519349A (ja
Inventor
ウェル,アントニウス,アー,エム ファン
ウェル,アントニウス,アー,エム ファン
Original Assignee
インテル コーポレイション
インテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテル コーポレイション, インテル コーポレイション filed Critical インテル コーポレイション
Publication of JP2008519349A publication Critical patent/JP2008519349A/ja
Application granted granted Critical
Publication of JP5748935B2 publication Critical patent/JP5748935B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30109Register structure having multiple operands in a single register
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Programmable Controllers (AREA)
  • Communication Control (AREA)
  • Image Processing (AREA)

Description

本発明は、SIMD(Single Instruction Multiple Data)を含む命令セットを有するプログラマブルデータ処理回路に関する。本発明はまた、画像データの補間を実行する方法に関する。
Intel Pentium(登録商標)(R)IIIプロセッサの命令セットのSIMD命令の使用が、Intel Technology Journal Q2,1999に刊行され、“www.intel.com/technology/itj/q21999/articles/art_5.htm”を介しインターネット上で公衆に利用可能なJames Abel、Kumar Balasubramanian、Mike Bargeron、Tom Craver及びMike Philpotによる“Applications Tuning for Streaming SIMD Extensions”という論文に記載されている。当該論文は、Abel等として参照される。SIMD命令に応答して、プロセッサは、複数の数列として(例えば、32ビットレジスタの4つの8ビット数など)オペランド及び結果レジスタのコンテンツを処理する。プロセッサは、SIMD命令により規定された処理をパラレルに数回実行し、各回毎にオペランドとして各入力レジスタからの異なる数のペアを利用する。プロセッサは、これらパラレルに実行される処理から得られる各数を含む合成された結果を命令により規定された結果レジスタに書き込む。
プロセッサの命令セットにおけるこのタイプのSIMD命令の利用性は、タスクを実行するため実行される必要がある命令の合計数を低減する。ここでは、同一の関数が、コンピュータグラフィックス処理、画像圧縮又は解凍などの画像処理タスクなど、大量のデータに適用される必要がある。合計の命令数の低減は、このようなタスクが実行可能なスピードを増大させ、このようなタスクの実行に伴う電力消費を低減する。
あるタスクがSIMD命令を用いて実行されるとき、アライメント(alignment)が問題を生じさせるかもしれない。アライメント問題は、オペランドデータがメモリからオペランドデータをSIMD命令に供給するのに利用されるレジスタにロード可能な方法の結果である。典型的には、オペランドデータは、ベーシックアドレス距離のある整数倍であるアドレスからスタートすることによってのみロード可能である。大部分のケースでは、すべてのデータが連続的なロード命令を利用することによってロード可能となるように、処理される必要があるデータ(連続するピクセルのデータなど)はアラインされたアドレス(aligned address)からスタートして連続的に格納されるため、これは問題とならない。Abel等は、キャッシュライン分割に関するアライメント問題について述べている。特殊なケースについて、Abel等は、アラインされていないアドレス(unaligned address)からのロードをサポートするため、“moveups”命令の利用を記載している。さらに、Abel等は、レジスタからの数を再構成するのに利用可能な“shuffling”命令を記載している。このタイプの命令を利用する必要性は、実行される必要がある命令数を増大させる。
アライメント問題の一例は、隣接ピクセルの情報の組み合わせに関する画像データの補間中に発生する。Abel等は、SIMD命令のパラレル化が同一のピクセルの異なるカラーコンポーネントを補間するのに利用される補間アプローチについて記載している。このケースでは、連続するピクセルのカラーコンポーネントセットが連続的に格納されるメモリが利用される。
あるいは、隣接ピクセルの1つのカラーコンポーネントのピクセルデータが、連続する隣接したメモリ位置に格納されてもよい。好ましくは、SIMD命令を用いて、複数のピクセル位置の補間データをパラレルに生成することが可能であるべきである。この場合、従来はSIMD命令の第1オペランドが複数の第1隣接ピクセルのピクセルデータを含むべきであり、第2オペランドが複数の第2ピクセルのピクセルデータを含むべきであり、そのピクセル位置は、固定されたオフセット(典型的には、1ピクセルポジション)だけ複数の第1ピクセルの位置にオフセットされる。しかしながら、この場合、オペランドの少なくとも1つは、アラインされていない位置からロードされる必要があり、このことは必要とされる命令数を増大させる。
本発明の課題は、特にアライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することである。
本発明の課題は、特に選択可能なアラインされていないアドレス距離によりメモリに格納されているオペランドを利用してSIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供する。
本発明は、請求項1記載のデータ処理回路を提供する。本発明によると、データ処理回路は、新たなタイプのSIMD命令を有する命令セットを有する。このSIMD命令に応答して、N個の算術回路(N=4又は8など)が、N個の同一の処理をパラレルに実行する。SIMD命令は、当該SIMD命令によって選択される第1及び第2レジスタからのSIMD命令のN個の各SIMD命令オペランドの第1及び第2系列を規定する。各算術回路は、SIMD命令を実行する際、それぞれ第1及び第2系列から各自の第1オペランドと各自の第2オペランドを受け付けるよう構成される。命令実行ユニットは、第1及び第2系列が部分的に重複部分を有することを可能にするよう構成される。すなわち、第1及び第2レジスタからのオペランドのすべてではないが、少なくとも1つが、2つの算術ユニットにより利用される。典型的には、第1及び第2系列の少なくとも1つは、第1レジスタから取得される部分と、第2レジスタから取得される部分とを有するN個のオペランドを含む。
一実施例では、SIMD命令が信号サンプルの補間又はフィルタリングに適用される。連続する出力サンプルポジションに対して補間された値は、入力サンプルポジションの各自のオペランドペアから計算されるN個のSIMD結果である。本実施例では、連続する各ペアに対して1つのオペランドが、先行するペアの他のオペランドと重複する。
好ましくは、第1及び第2レジスタ内の第1系列のポジションは、プログラムにより選択可能である。従って、補間又はフィルタリングアプリケーションでは、最初のSIMD結果が計算される最初の入力サンプルポジションは、オペランドレジスタのコンテンツがアラインされたロード処理によりロードされたとしても、各サンプルポジションにプログラムにより調整することが可能である。これは、フィルタリング又は補間が、任意のポジションのウィンドウなど、任意の位置からスタートして格納されるアレイについて実行される必要がある場合に有用である。第2系列は、好ましくは、オペランドレジスタ内の1つのオペランドポジションによるオフセットなど、第1系列に関して所定の相対ポジションを有する。
一実施例では、ポジションの選択は、SIMD命令のオペレーションコードによって制御される。他の実施例では、ポジションは、SIMD命令によって選択されるさらなるレジスタからのオペランドデータにより制御される。このように、異なる命令タイプの最小限しか必要でない。好ましくは、さらなるレジスタがまた、すべての算術回路に共通に供給されるフィルタリング又は補間に対する係数を供給する。
さらなる実施例では、データ処理回路は、レジスタセット(典型的には、レジスタファイル)と算術回路との間に接続されるオペランド分配回路を有する。本実施例では、オペランド分配回路は、少なくとも第1オペランド系列のポジションを選択するため、命令データ及び/又はオペランドデータにより制御される。
さらなる実施例では、SIMD命令は、第1及び第2オペランドに対して選択されたポジションと関係なく、さらなるオペランドレジスタの所定のポジションから提供されるさらなるオペランドを有する。フィルタリング又は補間アプリケーションでは、例えば、SIMD命令は、好ましくは、N個の積の和を計算する。この場合、N個の和がさらなるオペランドレジスタから提供されてもよい。あるいは、このような和は、算術回路により包含されるアキュミュレータレジスタから提供可能であるが、これは、SIMD命令が利用可能なフレキシビリティを制限する。
このタイプのSIMD命令によると、例えば、いくつかのポジションに対するオペランド値a[]のアレイから、
Figure 0005748935
などの結果r[i]のアレイをパラレル計算することが可能となる。他のオペランド又はオフセットが利用されるこのタイプの命令の他の実行に対する入力値sとして結果rを利用することによって、より大きなサポート領域(結果に影響を与える位置の領域)を有する補間又はフィルタリング処理が、最小数の命令により処理回路に対してプログラムにより実現可能である。
さらに、命令セットはまた、好ましくは、従来のSIMD命令を有するようにしてもよく、これに応答して、算術回路はN個の同一の処理をパラレルに実行する。各算術回路は、さらなるSIMD命令によって選択されるレジスタの第1のレジスタからの各自の第1オペランドと、さらなるSIMD命令によって選択されるレジスタの第2レジスタからの各自の第2オペランドとを利用する。
本発明の上記及び他の課題及び効果的特徴が、以下の図面に示される非限定的な具体例を用いてより詳細に説明される。
図1は、本発明が実現可能なデータ処理回路の一例を示す。データ処理回路は、命令発行回路10と、複数の機能ユニット12a及び12bと、レジスタファイル14と、データメモリ16とを有する。命令発行回路10は、レジスタファイル14のアドレスポートと機能ユニット12a及び12bとに接続される発行スロット出力11a及び11bを有する。機能ユニット12a及び12bは、レジスタファイルに接続されるオペランド/結果通信ライン13a及び13bを有する。第1機能ユニット12aは、データメモリ16に接続されるアドレス/データインタフェース15を有する。
動作について、命令発行回路10は、発行スロット11a及び11bを介し命令を発行する。各命令は、機能ユニット12a及び12bに供給されるオペレーションコードと、レジスタファイル14に供給される少なくとも1つのオペランドレジスタアドレスと、レジスタファイル14に供給される少なくとも1つの結果レジスタアドレスとを有する。オペランドレジスタアドレスに応答して、レジスタファイル14は、アドレス指定されたレジスタからオペランドデータを読み込み、当該オペランドデータを命令を実行する機能ユニット12a及び12bに供給する。オペレーションコードに応答して、機能ユニット12a及び12bは、オペランドデータを入力として利用して選択された処理を実行する。機能ユニット12a及び12bは、結果レジスタアドレスによってアドレス指定されたレジスタに結果データを格納するレジスタファイル14に、処理の結果を結果データとして書き込む。
図のデータ処理回路の構成は単なる一例であり、他の多数の構成が利用可能であるということが強調されるべきである。あるアーキテクチャの処理回路が本発明を説明するのに利用されたが、処理回路は本発明を実現するのに利用可能な処理回路の単なる一例であり、何れかのケースでは、最小限の詳細のみが示されることが理解されるべきである。例えば、2つの発行スロット11a及び11bと2つの機能ユニット12a及び12bとを有する処理回路が示されているが、より多く又はより少ない発行スロット及び/又は機能ユニットが利用可能であるということが理解されるべきである。他の例として、簡単化のためパイプライン処理については記載しないが、各命令の各処理部分が重複し、命令の各部分が異なる時点に発行されるように、典型的には、パイプライン処理が利用されるということが理解されるべきである。さらに、独立した機能ユニットが独立した発行スロットに接続されるよう示されているが、これらの機能結いニットの1以上が適切な命令を受け付けると、アクティブ状態となるように、これらの機能ユニットの機能は単一の機能ユニットに合成され、又は各機能ユニットは同一の発行ユニットに接続可能であることが理解されるべきである。さらに、簡単化のため、1つのレジスタファイル14しか示されていないが、実際には、レジスタファイルは、おそらく互いの異なるビット幅のレジスタを有する複数のレジスタファイルなどを有する何れかのレジスタセットを表すかもしれないということが理解されるべきである。発行スロットの各フィールドは、これらのレジスタファイルの異なるレジスタファイルをアドレス指定するかもしれない。さらに、各部分の間の接続を示すのに1つのラインが示されているが、各ラインは、一般には複数のビットをパラレルに供給する複数のコンダクタを表していることが理解されるべきである。
第1機能ユニット12aは、データメモリ16へのアクセス処理を実行することによって、オペレーションコードに応答するメモリアクセスユニットである。例えば、リードオペレーションコードに応答して、機能ユニット12aは、アドレスとリードコントロール信号をメモリに供給し、当該アドレスからメモリが読み込んだデータを受け取り、当該データをレジスタファイル14に書き込むかもしれない。ライトオペレーションコードに応答する他の例として、機能ユニット12aは、アドレスを供給し、データとライトコントロール信号をメモリに書き込み、ライトデータはレジスタファイル14から受け付けされるオペランドデータであってもよい。この結果、データメモリ16は、当該アドレスによってアドレス指定された位置にライトデータを格納する。典型的には、メモリアクセスユニットは、連続するアラインしたアドレスの間の距離が、1つのレジスタに一緒にロード可能なメモリ位置の個数に対応するように、アラインしたアドレスと呼ばれる選択されたアドレスから始まるレジスタにデータをロード可能な高速ロード及び/又はストア命令をサポートする。
第2機能ユニット12bは、各種SIMD(Single Instruction Multiple Data)命令を実行可能な算術プロセッサを有する。
図2は、このような算術プロセッサの実施例を示す。この実施例では、機能ユニット12bは、2つのオペランド入力20a及び20bの入力接続22a及び22bと、オペランド分配回路24と、複数の算術回路26a〜26dと、出力接続28と、結果出力29とを有する。典型的には、入力20a及び20bはそれぞれ、レジスタファイル14(図示せず)に機能的にパラレルに接続される複数のコンダクタを有する。32又は64個のコンダクタが、各入力20a及び20bなどに対してパラレルに利用されるかもしれない。入力接続22a及び22bは、実際の回路に対応している必要はなく、入力20a及び20bが複数のオペランドに分割されるものとして処理可能であることを示すため単に示されている。32ビット入力20a及び20bは、例えば、各8ビットの4つのオペランドに分割されてもよく、又は64ビット入力20a及び20bは、例えば、各8ビットの8つのオペランド又は各16ビットの4つのオペランドに分割されてもよい。典型的には、各入力20a及び20bは、オペランド分配回路24の入力に提供される各オペランドのグループに分割可能な複数のコンダクタをパラレルに表す。
オペランド分配回路24は、算術回路26a〜26dの各入力に接続される出力を有する。算術回路26a〜26dは、出力接続28に接続される出力を有し、さらに、出力接続28は、結果出力29に接続される出力を有する。出力接続28はまた、出力29が複数の結果に分割されるものとして処理可能であることを示すため単に示される。典型的には、各算術回路26a〜26dの出力は、出力29に合成可能な複数のコンダクタをパラレルに表す。32又は64個のコンダクタは、出力29などについてパラレルに利用可能である。32ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの4つの結果に分割されてもよく、又は64ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの8つのオペランド(図示せず)又は各算術回路26a〜26dからの各16ビットの4つの結果に分割されてもよい。
命令発行回路10(図示せず)からオペレーションコードを受け付ける入力27は、各算術回路26a〜26dとオペランド分配回路24とに接続される。SIMD処理について、各算術回路26a〜26dは、それの入力オペランドに対して同一の処理を実行することによって応答する。従来のSIMD命令の実行については、オペランド分配回路24は、第1入力20aの各ポジションから算術回路26a〜26dの第1入力にオペランドを提供することによって、そして、第2入力20bの各ポジションから算術回路26a〜26dの第1入力に対応するオペランドを提供することによって、このような従来のSIMD命令を選択するオペレーションコードに応答するよう構成される。
図3は、このような従来のSIMD命令に対するデータフローを示す。ここでは、各レジスタからの入力30a及び30bは、各オペランドに対応するフィールドに分割されるよう示されている。丸印32は処理を表し、フィールドと処理の間の矢印はデータフローを表す。このSIMD命令は、例えば、
Figure 0005748935
などのアセンブリ言語表現によるベクトルADD命令とすることが可能である。
ここでは、“ADDVECTOR”は、実行される必要がある処理を特定するオペレーションコードを表し、R1及びR2は、各レジスタが複数のオペランドとして処理されるコンテンツを有するレジスタのアドレスを表す。命令は複数の加算を実行することによって実行され、第1加算は、R1及びR2によりアドレス指定されるレジスタの第1ポジションからのオペランドを加算し、第2加算は、R1及びR2などによってアドレス指定されるレジスタの第2ポジションからのオペランドを加算する。R3は、複数の結果の和が命令に応答して格納されるレジスタのアドレスを表す。もちろん、減算、乗算などの他の処理に対して、同様の従来のSIMD命令が可能である。
Figure 0005748935
図4aは、本発明によるSIMD命令の一例に対するデータフローを示す。この例では、第1入力30aの第1及び第2フィールドからのオペランドを利用して、処理が実行され、同一の処理が第1入力30aの第2及び第3フィールドからのオペランドを利用して実行し、同一の処理が、第1入力30aの第3及び第4フィールドからのオペランドを利用して実行され、同一の処理が、第1入力30aの第4フィールドと第2入力30bの第1フィールドからのオペランドを利用して実行される。SIMD命令は、
Figure 0005748935
などの加算命令であってもよい。
ここでは、R1によりアドレス指定されるレジスタの隣接ポジションのペアからのオペランドが加算され、R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタの拡張として処理される。これらの加算の結果は、R3によりアドレス指定されるレジスタに格納される。もちろん、減算、乗算、MAC(Multiply Accumulate)処理などの他の処理の対する他の命令が、レジスタの隣接位置のペアからのオペランドについて可能である。
Figure 0005748935
オペランド分配回路24は、オペランドの分配を実現する。従来タイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、図3のデータフローに従って当該オペランドを算術回路26a〜26dに転送する。新しいタイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、図4aのデータフローに従って算術回路26a〜26dに当該オペランドを転送する。
本発明は図4aに示されるタイプのデータフローに限定されるものでないということが、理解されるべきである。他の命令に応答して、オペランド分配回路24は、図4bまたh4cに示されるデータフローを提供するようにしてもよい。図4bは、SIMD命令のオペレーションコードに対する応答を示し、そこでは、算術回路26a及び26bが、第1入力の第1、第2、第3及び第4フィールドからそれらの第1オペランドをそれぞれ受け取り、第1入力の第4フィールドと、第2入力の第1、第2及び第3フィールドから第2オペランドをそれぞれ受け取る。このような命令は、
Figure 0005748935
などのアセンブリ言語表現を有することが可能である。
ここでは、オペレーションコードADD14又はMAC14は、処理とR1によりアドレス指定されるレジスタの第1オペランドのポジションとを示す。
図4cは、SIMD命令のオペレーションコードに対する応答を示し、ここでは、算術回路26a及び26bは、第1入力の第2、第3及び第4フィールドと、第2入力の第1フィールドからそれぞれそれらの第1オペランドを受け取り、また第1入力の第3及び第4フィールドと、第2入力の第1及び第2フィールドとからそれぞれ第2オペランドを受け取る。
このような命令は、
Figure 0005748935
などのアセンブリ言語表現を有することが可能である。
もちろん、同一の処理のすべてのポジションの組み合わせに対してオペレーションコードが必要となるわけでない。プログラムにおいて頻繁に必要とされる組み合わせのみを提供すれば十分であるかもしれない。
ここまで与えられた例では、オペランド分配回路24は、命令発行回路10からのオペレーションコードの制御の下、フィールドからオペランドを選択する。あるいは、当該選択は、レジスタファイル14から受け付けたさらなるオペランドからのオペレーションコードの制御の下、又は命令発行回路10からのオペレーションコードとそのようなオペランドの組み合わせの制御の下、実行されてもよい。
図5は、レジスタファイル14(図示せず)に接続されるさらなるオペランド入力50を有する機能ユニット12bの実施例を示す。本実施例では、命令発行回路10により発行される命令は、命令発行回路10がレジスタファイル14に供給するさらなるオペランドレジスタ選択アドレスを有する。このような命令の具体例のアセンブリ言語表現は、例えば、
Figure 0005748935
である。
ここで、レジスタアドレスRpは、さらなるオペランドを提供するレジスタのアドレスを指定する。
本実施例では、オペランド分配回路24は、さらなるオペランド入力50からのさらなるオペランドと、命令発行回路10からのオペレーションコードとの組み合わせの制御の下、オペランドの選択を実行する。本実施例では、オペレーションコードは、従来のフロー(図3に示されるような)が必要であるか、またさらなるオペランド入力50からのさらなるオペランドがどのオペランド選択を利用するか制御しないか示すのに利用されてもよい。
一例では、さらなるオペランドは、第1入力30aからのオペランドに対して第1フィールドを選択し、オペランド分配回路24は、当該フィールドからスタートして、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1フィールドを選択する。この場合、オペランド分配回路24は、第1入力30aの選択されたフィールドに続く次のフィールドからスタートし、存在する場合には、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、例えば、図4cのデータフローが選択されるかもしれない。この場合、さらなるオペランドは、例えば、0,1,2,3などの4つの値の1つを有し、各値は異なるポジションを示す。この場合、このためには、さらなるオペランドの2ビットで十分である。
他の例では、オペランド分配回路24は、2つのさらなるオペランドから、又は上記さらなるオペランドの制御の下、2つのスタートオペランドのポジションの独立した選択を行うよう構成されてもよい。従って、例えば、さらなるオペランドは、第1フィールドが第1又は第2入力の第1フィールドを選択するためのものであり、第2フィールドが第1又は第2入力の第2フィールドを選択するためのものである2つのフィールドを有するかもしれない。この場合、オペランド分配回路24は、存在する場合には、第1入力30aの第1フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1オペランドを選択するよう構成されてもよい。同様に、オペランド分配回路24は、存在する場合には、第1入力30aの第2フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、図4bのデータフローは、さらなるオペランドの第1フィールドが第1入力の第1フィールドを選択し、さらなるオペランドの第2フィールドが第1入力の第4フィールドを選択する場合に実現されるかもしれない。この場合、このためには、各フィールドについてさらなるオペランドの2ビットが2回あれば十分である。
さらなる実施例では、さらなるオペランドは、各オペランドの独立した選択のための選択フィールドを有するかもしれない。従って、各レジスタがN個のオペランドを有するものとして処理される場合、さらなるレジスタは、オペランドを選択するため、各logNビットの2Nフィールドを有するようにしてもよい。しかしながら、実際のプログラムについては、第1処理の第1オペランドについて1つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、又は第1処理の第1及び第2オペランドに対して2つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、より少ない選択で十分であるということが判明した。
図6は、制限されたオペランド選択のみが使用されるときに利用可能な簡単化された機能ユニットの一部を示す。そこでは、最後の算術回路26d以外の各算術回路の第2オペランドが、次の算術回路の第1オペランドとして供される。このようにして、オペランド分配回路24をかなり簡単化することができる。オペランド分配回路24は、例えば、各マルチプレクサが算術回路26dの各オペランド入力と選択可能な入力とを選択可能に接続するマルチプレクサセットとして実現されてもよい。しかしながら、本発明の他の実現形態が可能である。例えば、複数の算術回路26a〜26dが、このタイプの命令によりアドレス指定されるレジスタからの所定のフィールドからのオペランドデータを利用する1つのタイプの命令のみを実行するため設けられてもよい。この場合、算術回路の入力は、アドレス指定されたレジスタのコンテンツの所定部分を受け付けるよう配線されてもよく、算術回路は、当該命令がこのタイプのものであることを示すオペレーションコードに応答して、当該結果を結果レジスタに書き込むよう起動される。この場合、オペランド分配回路24は、関連する配線接続より多く有する必要はない。
図7は、すべての算術回路26a〜26dに共通に提供されるさらなるオペランドデータが提供可能なさらなる入力60が提供されるさらなる実施例を示す。この場合、機能ユニットの命令は、
Figure 0005748935
などのアセンブリ言語表現を有するようにしてもよい。
ここでは、Rcは、算術回路26a〜26dについて共通のさらなるオペランドによるレジスタのアドレスを示す。このさらなるオペランドデータは、例えば、フィルタ係数を表すものであるかもしれない。一実施例では、このような命令は、
Figure 0005748935
の計算を実現するのに利用可能である。
ここでは、a[0],a[1],a[2],a[3],a[4]などは、R1及びR2によりアドレス指定されるレジスタの各フィールドに格納されているオペランドデータを表す。(R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタも拡張として扱われる。)オペランド“offset”は、Rpによりアドレス指定されるレジスタから取得され、R1及びR2によりアドレス指定されるレジスタのスタートフィールドポジションを示す。各算術回路26a〜26dは、b[0],b[1],b[2],b[3]のそれぞれを計算し、これらの結果は、R3によりアドレス指定されるレジスタの各フィールド(部分)に書き込まれる。
本実施例では、Rcによりアドレス指定されるレジスタは、各算術回路26a〜26dに供給される係数w0及びw1を有する。他の実施例では、オペランド分配回路24を制御するオペランドと、算術回路26a〜26dに共通に提供されるオペランドとは、1つのさらなるオペランドから取得されるかもしれない。例えば、32ビットのレジスタの場合、2つの8ビット係数と2ビットオフセット選択とが、
Figure 0005748935
の1つのオペランドの各フィールドから提供されるかもしれない。
ここでは、ポジション及び係数情報は、Rpcによりアドレス指定されるレジスタからの1オペランドにより合成されて供給されると仮定される。当該フィールドは、Rsのコンテンツによって選択される。
図8は、機能ユニットのさらなる実施例を示す。ここでは、追加的なオペランド接続70が加えられ、当該追加的オペランド接続70から各算術回路26a〜26dに各オペランドを提供する入力72に接続される。さらに、追加的な結果接続74が出力接続28に加えられた。この機能ユニットは、例えば、命令に応答して、
Figure 0005748935
の計算を実行するのに利用可能である。
これは、レジスタの連続する隣接フィールドからのオペランドを利用した乗算加算命令である。
図9は、積w0*a[..]及びw1*a[..]を計算する乗算器90a及び90bと加算回路92とを有する上記目的に利用可能な算術回路26を示す。
本例では、機能ユニットは、加数(summand)s[..]と積w0*a[..]及びw1*a[..]の各和を出力する。各算術回路26a〜26dの加数s[..]は、Rsによりアドレス指定されるレジスタの所定のフィールドから取得され、共通の係数は、R1及びR2によりアドレス指定されるレジスタの各フィールドから取得される。これらのオペランドが求められるポジションは、Rpcによりアドレス指定されるレジスタからのオフセット情報により制御される。各算術回路26a〜26dからの結果は合成され、R3によりアドレス指定されるレジスタに書き込まれる。
好ましくは、結果が格納されるレジスタ(R3)は、オペランドa[..]を提供するのに利用されるレジスタ(R1,R2)のものの少なくとも2倍の長さを有する。これは、精度のロスなく2Mビットが2つのMビット数の積を表すのに必要とされる事実を考慮するため利用される。累積が利用される場合(ある数の積への加算)、さらに多くのビット、例えば、2M+2ビットなどが必要とされるかもしれない。この幅は、結果の関連する幅に従って選択されてもよい。従って、例えば、4つの8ビットオペランドa[..](M=8)が32ビット入力レジスタ(R1,R2)から供給される場合、好ましくは、64ビット出力レジスタ(R3)が、4つの16ビット結果(M=16)を格納するのに利用される。さらに、命令に応答して、当該結果はまた、好ましくは、入力レジスタ(R1,R2)と同じ幅を有するさらなる結果レジスタR4の丸められた精度により格納される。このさらなる結果レジスタでは、各結果b[..]の一部のみが、例えば、ビットの上位1/2のみ、ビットの上位関連する1/2のみ、ビット4〜12など各結果からのいくつかの所定のポジションからのビットなどが格納される。好ましくは、和s[..]を提供するのに利用されるレジスタ(Rs)はまた、オペランドa[..]を供給するのに用いられるレジスタ(R1,R2)のものの2倍の幅(ビット数)を有する。このことは、
Figure 0005748935
の命令を利用して、多次元補間(2次元画像補間など)を実現するため利用されてもよい。
ここでは、R1によりアドレス指定されるレジスタが、画像ラインに沿った隣接ピクセルポジションのN個(N=4など)のピクセル値(ピクセル値p[i,j],p[i+1,j],p[i+2,j],p[i+3,j]など(jはラインを表し、iはスタートピクセルポジションを表す))を有し、R2によりアドレス指定されるレジスタは、R1のものに続くポジションのピクセル値(ピクセル値p[i+4,j],p[i+5,j],p[i+6,j],p[i+7,j]など)を有すると仮定される。Rpc1によりアドレス指定されるレジスタは、2つの係数w00及びw01を有する。同様に、R1’及びR2’はそれぞれ、R1及びR2の画像ラインに隣接する次の画像ラインに沿った隣接するピクセルポジションのN個(N=4など)のピクセル値(それぞれピクセル値p[i,j+1],p[i+1,j+1],p[i+2,j+1],p[i+3,j+1]及びp[i+4,j+1],p[i+5,j+1],p[i+6,j+1],p[i+7,j+1]など)を有する。Rpc2によりアドレス指定されるレジスタは、2つの係数w10及びw11を有する。Rsによりアドレス指定されるレジスタは、ゼロの値を有する。この場合、上記2つの処理の後に、R3によりアドレス指定されるレジスタの結果は、
Figure 0005748935
を含むであろう。
このため、4つの4ピクセル補間が2つの命令を実行することによって実行された。完全な画像を補間するため、これは連続するピクセルグループのロードと共に繰り返されてもよい。
好ましくは、機能ユニットはさらに、例えば、Rpc1及びRpc2によりアドレス指定されるレジスタのオペランドの一部として、オフセットを規定する少なくとも1つのオペランドをサポートする。このようにして、R1,R2,R1’,R2’によりアドレス指定されるレジスタのスタートピクセル値p[i+0,j]及びp[i+0,j+1]のポジションは、プログラムの制御の下で選択可能である。このことは、アラインされたアドレスを利用したロード処理と共にさらなる再アライメントなしに、データメモリの任意のアドレスからスタートして格納されているピクセル値に対する結果を生成することを可能にする。従って、例えば、あるラインに沿ったピクセル系列が、
Figure 0005748935
の命令を利用して処理することが可能である。
ここでは、隣接するメモリ位置のグループからのピクセル値が、R1,R2,R1’,R2’によりアドレス指定されるレジスタにロードされ、(MAC命令により)4つの補間された結果のグループを生成するのに利用される。ここで、第1補間結果を生成するのに利用されるレジスタR1及びR2から利用される第1ピクセルのオフセットは、Rpc1によりアドレス指定されるレジスタにより制御される。隣接メモリ位置の次のグループからの次のピクセル値がR1(及びR1’)にロードされ、R1及びR2の役割が補間命令(MAC)において交換される。この後、ループが繰り返される。
このプログラムのメモリアクセス命令(LOAD及びSTORE)はすべてアラインされたアドレスを利用することが理解されるべきである。従って、アラインされていないスタートアドレスからスタートして格納されているピクセルデータの補間が容易になる。このことは、特に画像の任意に選択可能なポジションからスタートする相対的に小さなウィンドウにおいて補間が要求される場合、スピードを増大させる。
本発明のアプリケーションが2次元画像処理について説明されたが、本発明が当該アプリケーションに限定されないということが理解されるべきである。本発明はまた、1次元アレイ処理又は3次以上のアレイ処理にも適用可能である。さらに、係数とピクセルの積の和に関するSIMD命令へのアプリケーションが説明されたが、他の命令も利用可能であるということが理解されるべきである。
本発明によると、処理回路は、それの命令セットに新規な命令を含むよう構成される。周知なように、プロセッサの命令セットの仕様は、一般には何れの実現形態がプロセッサを実現するのに利用可能であるか当業者に通知すれば十分である。命令セットは、プロセッサに対するマシーンプログラムに含めることが可能な各種命令タイプを規定する。(ここで使用される「命令」とは、最終的に命令でない部分とならず、プログラムが分割可能な最小ユニットであるマシーンプログラムの“アトム”を表す。)本発明による処理回路の命令セットは、各々が複数の潜在的なオペランドを有するレジスタからのオペランドを利用して、同一タイプの処理をパラレルに実行することによって複数の結果が生成されるという意味において、処理回路にSIMD処理を実行させる命令を有する。パラレルに実行される処理は、オペランド系列の重複を利用する。好ましくは、命令は、オペランドが取得する必要があるレジスタのポジションを示すさらなるオペランドを有する。あるいは、異なるオペレーションコードが、異なるポジションを示す。
図1は、データ処理回路を示す。 図2は、機能ユニットの一部を示す。 図3は、従来のSIMD命令のデータフローを示す。 図4aは、新規なSIMD命令のデータフローを示す。 図4bは、新規なSIMD命令のデータフローを示す。 図4cは、新規なSIMD命令のデータフローを示す。 図5は、簡単化されたデータフローによる機能ユニットを示す。 図6は、さらなるオペランド入力による機能ユニットを示す。 図7は、共通のオペランドのオペランド入力による機能ユニットを示す。 図8は、加数入力により機能ユニットを示す。 図9は、算術回路を示す。

Claims (12)

  1. 命令セットを有する命令実行回路と、
    前記命令セットの1以上の命令により選択可能なレジスタのセットであって、各レジスタが各自のSIMD命令オペランド及び/又は結果を格納するデータ処理回路の動作状態においてN個の部分を含む、前記レジスタのセットと、
    を有するデータ処理回路であって、
    前記命令セットは、SIMD命令を有し、
    前記命令実行回路は、複数の算術回路を有し、前記SIMD命令に応答してパラレルにN個の各同一処理を実行するよう構成され、
    前記SIMD命令は、前記SIMD命令によって選択されるレジスタの第1レジスタと第2レジスタとから前記SIMD命令のN個の各SIMD命令オペランドの第1系列と第2系列とを規定し、
    各算術回路は、前記SIMD命令の実行時、前記第1系列と前記第2系列とから各自の第1オペランドと各自の第2オペランドを受け付けるよう構成され、
    前記命令実行回路は、前記第1レジスタと前記第2レジスタとからのオペランドのすべてではないが少なくとも1つが2つの算術回路により利用される点で前記第1系列と前記第2系列とが互いに部分的に重複するように、前記第1系列と前記第2系列とを選択するよう構成され
    当該データ処理回路は更に、
    前記SIMD命令を選択し、前記第1レジスタと前記第2レジスタとをそれぞれ選択する命令データを提供するため、前記命令実行回路と前記レジスタのセットと接続される命令発行回路と、
    前記レジスタのセットと前記算術回路との間に接続され、前記第1系列のポジションを選択するため、前記命令データ及び/又はオペランドデータによって制御されるオペランド分配回路と、
    を有するデータ処理回路。
  2. 前記命令実行回路は、前記第1レジスタと前記第2レジスタの両方の各自の部分から少なくとも前記オペランドの第2系列を抽出するよう構成される、請求項1記載のデータ処理回路。
  3. 前記命令実行回路は、プログラム制御の下、前記第1レジスタと前記第2レジスタの内部において前記第1系列のポジションを少なくとも選択するよう構成される、請求項1記載のデータ処理回路。
  4. 記第1系列の選択可能なポジションは、前記第1系列が前記第1レジスタと前記第2レジスタとの両方の部分に拡張する少なくとも1つのポジションを有する、請求項3記載のデータ処理回路。
  5. 前記SIMD命令は、ポジション制御レジスタを選択し、
    前記命令実行回路は、前記選択されたポジション制御レジスタからの情報の制御の下、前記第1系列のポジションを制御するよう構成される、請求項3記載のデータ処理回路。
  6. 前記命令実行回路は、前記第1系列に関して所定の相対ポジションから前記第2系列を選択するよう構成される、請求項3記載のデータ処理回路。
  7. 前記SIMD命令は、各自のSIMD命令オペランドを格納する複数の部分を有する加数レジスタを選択し、
    前記命令実行回路は、さらなるオペランドを提供するため、前記算術回路の所定の各算術回路と、前記加数レジスタ内の所定のポジションからの部分とを接続し、
    前記算術回路のそれぞれは、(a)前記加数レジスタからのオペランドと、(b)前記算術回路のすべてに共通した第1係数と前記第1系列からのオペランドとの積と、(c)前記算術回路のすべてに共通した第2係数と前記第2系列からのオペランドとの積との和を計算するよう構成される、請求項1記載のデータ処理回路。
  8. 前記命令実行回路は、前記所定のポジションが前記第1系列のポジションのプログラムされた選択によって影響を受けないように、プログラム制御の下、前記第1レジスタと前記第2レジスタの内部において前記第1系列の少なくとも1つのポジションを選択するよう構成される、請求項7記載のデータ処理回路。
  9. 前記命令は、追加的レジスタを選択し、
    前記係数は、前記追加的レジスタから前記算術回路に提供される、請求項7記載のデータ処理回路。
  10. 前記命令実行回路は、前記命令によって選択された前記追加的レジスタからのデータの制御の下、前記第1レジスタと前記第2レジスタとの内部における前記第1系列のポジションを少なくとも選択するよう構成される、請求項9記載のデータ処理回路。
  11. ピクセルのグループに対してピクセル補間をパラレルに実行する前記SIMD命令を有するプログラムによってプログラムされる、請求項7記載のデータ処理回路。
  12. 前記命令セットは、さらなるSIMD命令を有し、
    前記命令実行回路は、前記さらなるSIMD命令に応答して、前記算術回路にN個の同一のさらなる処理をパラレルに実行させるよう構成され、
    各算術回路は、前記さらなるSIMD命令によって選択される第1レジスタからの各自の第1オペランドと、前記さらなるSIMD命令によって選択される第2レジスタからの各自の第2オペランドとを利用する、請求項1記載のデータ処理回路。
JP2007539681A 2004-11-03 2005-11-02 Simd命令をサポートするプログラマブルデータ処理回路 Expired - Fee Related JP5748935B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04105471.9 2004-11-03
EP04105471 2004-11-03
PCT/IB2005/053575 WO2006048828A1 (en) 2004-11-03 2005-11-02 Programmable data processing circuit that supports simd instruction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015040233A Division JP6239544B2 (ja) 2004-11-03 2015-03-02 Simd命令をサポートするプログラマブルデータ処理回路

Publications (2)

Publication Number Publication Date
JP2008519349A JP2008519349A (ja) 2008-06-05
JP5748935B2 true JP5748935B2 (ja) 2015-07-15

Family

ID=34929799

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007539681A Expired - Fee Related JP5748935B2 (ja) 2004-11-03 2005-11-02 Simd命令をサポートするプログラマブルデータ処理回路
JP2015040233A Expired - Fee Related JP6239544B2 (ja) 2004-11-03 2015-03-02 Simd命令をサポートするプログラマブルデータ処理回路

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015040233A Expired - Fee Related JP6239544B2 (ja) 2004-11-03 2015-03-02 Simd命令をサポートするプログラマブルデータ処理回路

Country Status (8)

Country Link
US (2) US8122227B2 (ja)
EP (1) EP1812849B8 (ja)
JP (2) JP5748935B2 (ja)
KR (1) KR101239304B1 (ja)
CN (1) CN101052947A (ja)
AT (1) ATE493703T1 (ja)
DE (1) DE602005025677D1 (ja)
WO (1) WO2006048828A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5182284B2 (ja) * 2007-03-08 2013-04-17 日本電気株式会社 ベクトル処理装置
US8248422B2 (en) * 2008-01-18 2012-08-21 International Business Machines Corporation Efficient texture processing of pixel groups with SIMD execution unit
KR100960148B1 (ko) 2008-05-07 2010-05-27 한국전자통신연구원 데이터 프로세싱 회로
US8831101B2 (en) * 2008-08-02 2014-09-09 Ecole De Technologie Superieure Method and system for determining a metric for comparing image blocks in motion compensated video coding
US8494056B2 (en) * 2009-05-21 2013-07-23 Ecole De Technologie Superieure Method and system for efficient video transcoding
US9100656B2 (en) 2009-05-21 2015-08-04 Ecole De Technologie Superieure Method and system for efficient video transcoding using coding modes, motion vectors and residual information
US8755438B2 (en) 2010-11-29 2014-06-17 Ecole De Technologie Superieure Method and system for selectively performing multiple video transcoding operations
WO2013089791A1 (en) * 2011-12-16 2013-06-20 Intel Corporation Instruction and logic to provide vector linear interpolation functionality
CN103377031B (zh) * 2012-04-27 2017-09-26 腾讯科技(深圳)有限公司 一种多数据处理方法和装置
US9092429B2 (en) 2012-10-23 2015-07-28 Analog Devices Global DMA vector buffer
US9201828B2 (en) * 2012-10-23 2015-12-01 Analog Devices, Inc. Memory interconnect network architecture for vector processor
US9342306B2 (en) 2012-10-23 2016-05-17 Analog Devices Global Predicate counter
JP6003744B2 (ja) 2013-03-22 2016-10-05 富士通株式会社 演算処理装置及び演算処理方法
TWI681300B (zh) * 2014-11-14 2020-01-01 美商凱為有限責任公司 在64位元資料路徑上實行128位元simd操作之方法、系統及電腦可讀取媒體
US9898286B2 (en) * 2015-05-05 2018-02-20 Intel Corporation Packed finite impulse response (FIR) filter processors, methods, systems, and instructions
US20170003966A1 (en) * 2015-06-30 2017-01-05 Microsoft Technology Licensing, Llc Processor with instruction for interpolating table lookup values
GB2540943B (en) * 2015-07-31 2018-04-11 Advanced Risc Mach Ltd Vector arithmetic instruction
CN105159766B (zh) * 2015-08-31 2018-05-25 安一恒通(北京)科技有限公司 数据的同步访问方法和同步访问装置
US11126439B2 (en) * 2019-11-15 2021-09-21 Apple Inc. SIMD operand permutation with selection from among multiple registers

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2840686B2 (ja) 1989-12-28 1998-12-24 ソニー株式会社 画像処理装置
JP3251421B2 (ja) 1994-04-11 2002-01-28 株式会社日立製作所 半導体集積回路
GB9509983D0 (en) * 1995-05-17 1995-07-12 Sgs Thomson Microelectronics Replication of data
US5668638A (en) 1996-06-27 1997-09-16 Xerox Corporation Error diffusion method with symmetric enhancement
JPH1115801A (ja) * 1997-06-24 1999-01-22 Sony Corp データ演算装置および方法、並びに伝送媒体
EP3073388A1 (en) 1998-03-18 2016-09-28 Koninklijke Philips N.V. Data processing device and method of computing the cosine transform of a matrix
US6212618B1 (en) * 1998-03-31 2001-04-03 Intel Corporation Apparatus and method for performing multi-dimensional computations based on intra-add operation
US6041404A (en) * 1998-03-31 2000-03-21 Intel Corporation Dual function system and method for shuffling packed data elements
US6115812A (en) * 1998-04-01 2000-09-05 Intel Corporation Method and apparatus for efficient vertical SIMD computations
JP3922859B2 (ja) * 1999-12-28 2007-05-30 株式会社リコー 画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
GB2362731B (en) * 2000-05-23 2004-10-06 Advanced Risc Mach Ltd Parallel processing of multiple data values within a data word
US7155601B2 (en) * 2001-02-14 2006-12-26 Intel Corporation Multi-element operand sub-portion shuffle instruction execution
US7685212B2 (en) * 2001-10-29 2010-03-23 Intel Corporation Fast full search motion estimation with SIMD merge instruction
US7558816B2 (en) * 2001-11-21 2009-07-07 Sun Microsystems, Inc. Methods and apparatus for performing pixel average operations
US7315934B2 (en) 2002-03-06 2008-01-01 Matsushita Electric Industrial Co., Ltd. Data processor and program for processing a data matrix
JP4020804B2 (ja) * 2002-03-06 2007-12-12 松下電器産業株式会社 データ処理装置
US7392368B2 (en) * 2002-08-09 2008-06-24 Marvell International Ltd. Cross multiply and add instruction and multiply and subtract instruction SIMD execution on real and imaginary components of a plurality of complex data elements
GB2409063B (en) * 2003-12-09 2006-07-12 Advanced Risc Mach Ltd Vector by scalar operations

Also Published As

Publication number Publication date
EP1812849A1 (en) 2007-08-01
KR20070083872A (ko) 2007-08-24
DE602005025677D1 (de) 2011-02-10
JP2015133132A (ja) 2015-07-23
WO2006048828A1 (en) 2006-05-11
JP6239544B2 (ja) 2017-11-29
KR101239304B1 (ko) 2013-03-05
US8856494B2 (en) 2014-10-07
ATE493703T1 (de) 2011-01-15
US20120124334A1 (en) 2012-05-17
CN101052947A (zh) 2007-10-10
JP2008519349A (ja) 2008-06-05
US8122227B2 (en) 2012-02-21
US20090083524A1 (en) 2009-03-26
EP1812849B1 (en) 2010-12-29
EP1812849B8 (en) 2011-02-16

Similar Documents

Publication Publication Date Title
JP5748935B2 (ja) Simd命令をサポートするプログラマブルデータ処理回路
CN100447777C (zh) 处理器
KR102413832B1 (ko) 벡터 곱셈 덧셈 명령
JP5647859B2 (ja) 乗累算演算を実行するための装置および方法
JP3149348B2 (ja) 代理命令を用いる並列処理システム及び方法
US6163836A (en) Processor with programmable addressing modes
JP2002536738A (ja) 間接vliwプロセッサにおける実行時間並列処理のための動的vliwサブ命令選択システム
TWI780116B (zh) 用於資料處理設備、方法、電腦可讀式儲存媒體及虛擬機器的向量逐元素操作
JP3237858B2 (ja) 演算装置
KR19980041758A (ko) 축소 데이타 경로 폭을 갖는 2-비트 부스 곱셈기
EP1499956B1 (en) Method and apparatus for swapping the contents of address registers
KR102591988B1 (ko) 데이터 처리장치에서의 벡터 인터리빙
JP2018521422A (ja) ベクトル長クエリ命令
JP3727395B2 (ja) マイクロコンピュータ
US8200945B2 (en) Vector unit in a processor enabled to replicate data on a first portion of a data bus to primary and secondary registers
Fridman Data alignment for sub-word parallelism in DSP
JP3841820B2 (ja) マイクロコンピュータ
WO2001033385A2 (en) Surface computer and computing method using the same
US20040243788A1 (en) Vector processor and register addressing method
JP2004334297A (ja) 並列演算処理装置及び並列演算処理方法
JP3733137B2 (ja) マイクロコンピュータ
JPH11119993A (ja) 信号処理装置
JP2625510B2 (ja) 計算機システム
CN114063977A (zh) 通用数字信号处理装置、方法及系统
JP2001034603A (ja) 積和演算処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081031

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130807

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130814

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140303

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140306

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent or registration of utility model

Ref document number: 5748935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees