JP2015133132A - Simd命令をサポートするプログラマブルデータ処理回路 - Google Patents

Simd命令をサポートするプログラマブルデータ処理回路 Download PDF

Info

Publication number
JP2015133132A
JP2015133132A JP2015040233A JP2015040233A JP2015133132A JP 2015133132 A JP2015133132 A JP 2015133132A JP 2015040233 A JP2015040233 A JP 2015040233A JP 2015040233 A JP2015040233 A JP 2015040233A JP 2015133132 A JP2015133132 A JP 2015133132A
Authority
JP
Japan
Prior art keywords
instruction
register
series
operand
simd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015040233A
Other languages
English (en)
Other versions
JP6239544B2 (ja
Inventor
ウェル,アントニウス,アー,エム ファン
A M Van Wel Antonius
ウェル,アントニウス,アー,エム ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2015133132A publication Critical patent/JP2015133132A/ja
Application granted granted Critical
Publication of JP6239544B2 publication Critical patent/JP6239544B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30109Register structure having multiple operands in a single register
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]

Abstract

【課題】アライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供する。【解決手段】データ処理回路は、SIMD命令を有する命令セットを有する命令実行回路を有し、SIMD命令に応答して、N個の各自の同一の処理を実行するよう構成される複数の算術回路を有する。SIMD命令は、第1レジスタと第2レジスタとの選択を規定し、アドレス指定されたレジスタからのSIMD命令のN個の各自のSIMD命令オペランドの第1及び第2系列を規定する。各算術回路は、SIMD命令の実行時、第1及び第2系列からそれぞれ各自の第1オペランドと各自の第2オペランドとを受け付ける。命令実行回路は、部分的に重複するように、第1及び第2系列を選択するよう構成される。【選択図】図1

Description

本発明は、SIMD(Single Instruction Multiple Data)を含む命令セットを有するプログラマブルデータ処理回路に関する。本発明はまた、画像データの補間を実行する方法に関する。
Intel Pentium(登録商標)IIIプロセッサの命令セットのSIMD命令の使用が、Intel Technology Journal Q2,1999に刊行され、“www.intel.com/technology/itj/q21999/articles/art_5.htm”を介しインターネット上で公衆に利用可能なJames Abel、Kumar Balasubramanian、Mike Bargeron、Tom Craver及びMike Philpotによる“Applications Tuning for Streaming SIMD Extensions”という論文に記載されている。当該論文は、Abel等として参照される。SIMD命令に応答して、プロセッサは、複数の数列として(例えば、32ビットレジスタの4つの8ビット数など)オペランド及び結果レジスタのコンテンツを処理する。プロセッサは、SIMD命令により規定された処理をパラレルに数回実行し、各回毎にオペランドとして各入力レジスタからの異なる数のペアを利用する。プロセッサは、これらパラレルに実行される処理から得られる各数を含む合成された結果を命令により規定された結果レジスタに書き込む。
プロセッサの命令セットにおけるこのタイプのSIMD命令の利用性は、タスクを実行するため実行される必要がある命令の合計数を低減する。ここでは、同一の関数が、コンピュータグラフィックス処理、画像圧縮又は解凍などの画像処理タスクなど、大量のデータに適用される必要がある。合計の命令数の低減は、このようなタスクが実行可能なスピードを増大させ、このようなタスクの実行に伴う電力消費を低減する。
あるタスクがSIMD命令を用いて実行されるとき、アライメント(alignment)が問題を生じさせるかもしれない。アライメント問題は、オペランドデータがメモリからオペランドデータをSIMD命令に供給するのに利用されるレジスタにロード可能な方法の結果である。典型的には、オペランドデータは、ベーシックアドレス距離のある整数倍であるアドレスからスタートすることによってのみロード可能である。大部分のケースでは、すべてのデータが連続的なロード命令を利用することによってロード可能となるように、処理される必要があるデータ(連続するピクセルのデータなど)はアラインされたアドレス(aligned address)からスタートして連続的に格納されるため、これは問題とならない。Abel等は、キャッシュライン分割に関するアライメント問題について述べている。特殊なケースについて、Abel等は、アラインされていないアドレス(unaligned address)からのロードをサポートするため、“moveups”命令の利用を記載している。さらに、Abel等は、レジスタからの数を再構成するのに利用可能な“shuffling”命令を記載している。このタイプの命令を利用する必要性は、実行される必要がある命令数を増大させる。
アライメント問題の一例は、隣接ピクセルの情報の組み合わせに関する画像データの補間中に発生する。Abel等は、SIMD命令のパラレル化が同一のピクセルの異なるカラーコンポーネントを補間するのに利用される補間アプローチについて記載している。このケースでは、連続するピクセルのカラーコンポーネントセットが連続的に格納されるメモリが利用される。
あるいは、隣接ピクセルの1つのカラーコンポーネントのピクセルデータが、連続する隣接したメモリ位置に格納されてもよい。好ましくは、SIMD命令を用いて、複数のピクセル位置の補間データをパラレルに生成することが可能であるべきである。この場合、従来はSIMD命令の第1オペランドが複数の第1隣接ピクセルのピクセルデータを含むべきであり、第2オペランドが複数の第2ピクセルのピクセルデータを含むべきであり、そのピクセル位置は、固定されたオフセット(典型的には、1ピクセルポジション)だけ複数の第1ピクセルの位置にオフセットされる。しかしながら、この場合、オペランドの少なくとも1つは、アラインされていない位置からロードされる必要があり、このことは必要とされる命令数を増大させる。
本発明の課題は、特にアライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することである。
本発明の課題は、特に選択可能なアラインされていないアドレス距離によりメモリに格納されているオペランドを利用してSIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供する。
本発明は、請求項1記載のデータ処理回路を提供する。本発明によると、データ処理回路は、新たなタイプのSIMD命令を有する命令セットを有する。このSIMD命令に応答して、N個の算術回路(N=4又は8など)が、N個の同一の処理をパラレルに実行する。SIMD命令は、当該SIMD命令によって選択される第1及び第2レジスタからのSIMD命令のN個の各SIMD命令オペランドの第1及び第2系列を規定する。各算術回路は、SIMD命令を実行する際、それぞれ第1及び第2系列から各自の第1オペランドと各自の第2オペランドを受け付けるよう構成される。命令実行ユニットは、第1及び第2系列が部分的に重複部分を有することを可能にするよう構成される。すなわち、第1及び第2レジスタからのオペランドのすべてではないが、少なくとも1つが、2つの算術ユニットにより利用される。典型的には、第1及び第2系列の少なくとも1つは、第1レジスタから取得される部分と、第2レジスタから取得される部分とを有するN個のオペランドを含む。
一実施例では、SIMD命令が信号サンプルの補間又はフィルタリングに適用される。連続する出力サンプルポジションに対して補間された値は、入力サンプルポジションの各自のオペランドペアから計算されるN個のSIMD結果である。本実施例では、連続する各ペアに対して1つのオペランドが、先行するペアの他のオペランドと重複する。
好ましくは、第1及び第2レジスタ内の第1系列のポジションは、プログラムにより選択可能である。従って、補間又はフィルタリングアプリケーションでは、最初のSIMD結果が計算される最初の入力サンプルポジションは、オペランドレジスタのコンテンツがアラインされたロード処理によりロードされたとしても、各サンプルポジションにプログラムにより調整することが可能である。これは、フィルタリング又は補間が、任意のポジションのウィンドウなど、任意の位置からスタートして格納されるアレイについて実行される必要がある場合に有用である。第2系列は、好ましくは、オペランドレジスタ内の1つのオペランドポジションによるオフセットなど、第1系列に関して所定の相対ポジションを有する。
一実施例では、ポジションの選択は、SIMD命令のオペレーションコードによって制御される。他の実施例では、ポジションは、SIMD命令によって選択されるさらなるレジスタからのオペランドデータにより制御される。このように、異なる命令タイプの最小限しか必要でない。好ましくは、さらなるレジスタがまた、すべての算術回路に共通に供給されるフィルタリング又は補間に対する係数を供給する。
さらなる実施例では、データ処理回路は、レジスタセット(典型的には、レジスタファイル)と算術回路との間に接続されるオペランド分配回路を有する。本実施例では、オペランド分配回路は、少なくとも第1オペランド系列のポジションを選択するため、命令データ及び/又はオペランドデータにより制御される。
さらなる実施例では、SIMD命令は、第1及び第2オペランドに対して選択されたポジションと関係なく、さらなるオペランドレジスタの所定のポジションから提供されるさらなるオペランドを有する。フィルタリング又は補間アプリケーションでは、例えば、SIMD命令は、好ましくは、N個の積の和を計算する。この場合、N個の和がさらなるオペランドレジスタから提供されてもよい。あるいは、このような和は、算術回路により包含されるアキュミュレータレジスタから提供可能であるが、これは、SIMD命令が利用可能なフレキシビリティを制限する。
このタイプのSIMD命令によると、例えば、いくつかのポジションに対するオペランド値a[]のアレイから、
Figure 2015133132
などの結果r[i]のアレイをパラレル計算することが可能となる。他のオペランド又はオフセットが利用されるこのタイプの命令の他の実行に対する入力値sとして結果rを利用することによって、より大きなサポート領域(結果に影響を与える位置の領域)を有する補間又はフィルタリング処理が、最小数の命令により処理回路に対してプログラムにより実現可能である。
さらに、命令セットはまた、好ましくは、従来のSIMD命令を有するようにしてもよく、これに応答して、算術回路はN個の同一の処理をパラレルに実行する。各算術回路は、さらなるSIMD命令によって選択されるレジスタの第1のレジスタからの各自の第1オペランドと、さらなるSIMD命令によって選択されるレジスタの第2レジスタからの各自の第2オペランドとを利用する。
本発明によると、アライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することができる。
本発明によると、特に選択可能なアラインされていないアドレス距離によりメモリに格納されているオペランドを利用してSIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することができる。
本発明の上記及び他の課題及び効果的特徴が、以下の図面に示される非限定的な具体例を用いてより詳細に説明される。
図1は、データ処理回路を示す。 図2は、機能ユニットの一部を示す。 図3は、従来のSIMD命令のデータフローを示す。 図4aは、新規なSIMD命令のデータフローを示す。 図4bは、新規なSIMD命令のデータフローを示す。 図4cは、新規なSIMD命令のデータフローを示す。 図5は、簡単化されたデータフローによる機能ユニットを示す。 図6は、さらなるオペランド入力による機能ユニットを示す。 図7は、共通のオペランドのオペランド入力による機能ユニットを示す。 図8は、加数入力により機能ユニットを示す。 図9は、算術回路を示す。
図1は、本発明が実現可能なデータ処理回路の一例を示す。データ処理回路は、命令発行回路10と、複数の機能ユニット12a及び12bと、レジスタファイル14と、データメモリ16とを有する。命令発行回路10は、レジスタファイル14のアドレスポートと機能ユニット12a及び12bとに接続される発行スロット出力11a及び11bを有する。機能ユニット12a及び12bは、レジスタファイルに接続されるオペランド/結果通信ライン13a及び13bを有する。第1機能ユニット12aは、データメモリ16に接続されるアドレス/データインタフェース15を有する。
動作について、命令発行回路10は、発行スロット11a及び11bを介し命令を発行する。各命令は、機能ユニット12a及び12bに供給されるオペレーションコードと、レジスタファイル14に供給される少なくとも1つのオペランドレジスタアドレスと、レジスタファイル14に供給される少なくとも1つの結果レジスタアドレスとを有する。オペランドレジスタアドレスに応答して、レジスタファイル14は、アドレス指定されたレジスタからオペランドデータを読み込み、当該オペランドデータを命令を実行する機能ユニット12a及び12bに供給する。オペレーションコードに応答して、機能ユニット12a及び12bは、オペランドデータを入力として利用して選択された処理を実行する。機能ユニット12a及び12bは、結果レジスタアドレスによってアドレス指定されたレジスタに結果データを格納するレジスタファイル14に、処理の結果を結果データとして書き込む。
図のデータ処理回路の構成は単なる一例であり、他の多数の構成が利用可能であるということが強調されるべきである。あるアーキテクチャの処理回路が本発明を説明するのに利用されたが、処理回路は本発明を実現するのに利用可能な処理回路の単なる一例であり、何れかのケースでは、最小限の詳細のみが示されることが理解されるべきである。例えば、2つの発行スロット11a及び11bと2つの機能ユニット12a及び12bとを有する処理回路が示されているが、より多く又はより少ない発行スロット及び/又は機能ユニットが利用可能であるということが理解されるべきである。他の例として、簡単化のためパイプライン処理については記載しないが、各命令の各処理部分が重複し、命令の各部分が異なる時点に発行されるように、典型的には、パイプライン処理が利用されるということが理解されるべきである。さらに、独立した機能ユニットが独立した発行スロットに接続されるよう示されているが、これらの機能ユニットの1以上が適切な命令を受け付けると、アクティブ状態となるように、これらの機能ユニットの機能は単一の機能ユニットに合成され、又は各機能ユニットは同一の発行ユニットに接続可能であることが理解されるべきである。さらに、簡単化のため、1つのレジスタファイル14しか示されていないが、実際には、レジスタファイルは、おそらく互いの異なるビット幅のレジスタを有する複数のレジスタファイルなどを有する何れかのレジスタセットを表すかもしれないということが理解されるべきである。発行スロットの各フィールドは、これらのレジスタファイルの異なるレジスタファイルをアドレス指定するかもしれない。さらに、各部分の間の接続を示すのに1つのラインが示されているが、各ラインは、一般には複数のビットをパラレルに供給する複数のコンダクタを表していることが理解されるべきである。
第1機能ユニット12aは、データメモリ16へのアクセス処理を実行することによって、オペレーションコードに応答するメモリアクセスユニットである。例えば、リードオペレーションコードに応答して、機能ユニット12aは、アドレスとリードコントロール信号をメモリに供給し、当該アドレスからメモリが読み込んだデータを受け取り、当該データをレジスタファイル14に書き込むかもしれない。ライトオペレーションコードに応答する他の例として、機能ユニット12aは、アドレスを供給し、データとライトコントロール信号をメモリに書き込み、ライトデータはレジスタファイル14から受け付けされるオペランドデータであってもよい。この結果、データメモリ16は、当該アドレスによってアドレス指定された位置にライトデータを格納する。典型的には、メモリアクセスユニットは、連続するアラインしたアドレスの間の距離が、1つのレジスタに一緒にロード可能なメモリ位置の個数に対応するように、アラインしたアドレスと呼ばれる選択されたアドレスから始まるレジスタにデータをロード可能な高速ロード及び/又はストア命令をサポートする。
第2機能ユニット12bは、各種SIMD(Single Instruction Multiple Data)命令を実行可能な算術プロセッサを有する。
図2は、このような算術プロセッサの実施例を示す。この実施例では、機能ユニット12bは、2つのオペランド入力20a及び20bの入力接続22a及び22bと、オペランド分配回路24と、複数の算術回路26a〜26dと、出力接続28と、結果出力29とを有する。典型的には、入力20a及び20bはそれぞれ、レジスタファイル14(図示せず)に機能的にパラレルに接続される複数のコンダクタを有する。32又は64個のコンダクタが、各入力20a及び20bなどに対してパラレルに利用されるかもしれない。入力接続22a及び22bは、実際の回路に対応している必要はなく、入力20a及び20bが複数のオペランドに分割されるものとして処理可能であることを示すため単に示されている。32ビット入力20a及び20bは、例えば、各8ビットの4つのオペランドに分割されてもよく、又は64ビット入力20a及び20bは、例えば、各8ビットの8つのオペランド又は各16ビットの4つのオペランドに分割されてもよい。典型的には、各入力20a及び20bは、オペランド分配回路24の入力に提供される各オペランドのグループに分割可能な複数のコンダクタをパラレルに表す。
オペランド分配回路24は、算術回路26a〜26dの各入力に接続される出力を有する。算術回路26a〜26dは、出力接続28に接続される出力を有し、さらに、出力接続28は、結果出力29に接続される出力を有する。出力接続28はまた、出力29が複数の結果に分割されるものとして処理可能であることを示すため単に示される。典型的には、各算術回路26a〜26dの出力は、出力29に合成可能な複数のコンダクタをパラレルに表す。32又は64個のコンダクタは、出力29などについてパラレルに利用可能である。32ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの4つの結果に分割されてもよく、又は64ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの8つのオペランド(図示せず)又は各算術回路26a〜26dからの各16ビットの4つの結果に分割されてもよい。
命令発行回路10(図示せず)からオペレーションコードを受け付ける入力27は、各算術回路26a〜26dとオペランド分配回路24とに接続される。SIMD処理について、各算術回路26a〜26dは、それの入力オペランドに対して同一の処理を実行することによって応答する。従来のSIMD命令の実行については、オペランド分配回路24は、第1入力20aの各ポジションから算術回路26a〜26dの第1入力にオペランドを提供することによって、そして、第2入力20bの各ポジションから算術回路26a〜26dの第1入力に対応するオペランドを提供することによって、このような従来のSIMD命令を選択するオペレーションコードに応答するよう構成される。
図3は、このような従来のSIMD命令に対するデータフローを示す。ここでは、各レジスタからの入力30a及び30bは、各オペランドに対応するフィールドに分割されるよう示されている。丸印32は処理を表し、フィールドと処理の間の矢印はデータフローを表す。このSIMD命令は、例えば、
Figure 2015133132
などのアセンブリ言語表現によるベクトルADD命令とすることが可能である。
ここでは、“ADDVECTOR”は、実行される必要がある処理を特定するオペレーションコードを表し、R1及びR2は、各レジスタが複数のオペランドとして処理されるコンテンツを有するレジスタのアドレスを表す。命令は複数の加算を実行することによって実行され、第1加算は、R1及びR2によりアドレス指定されるレジスタの第1ポジションからのオペランドを加算し、第2加算は、R1及びR2などによってアドレス指定されるレジスタの第2ポジションからのオペランドを加算する。R3は、複数の結果の和が命令に応答して格納されるレジスタのアドレスを表す。もちろん、減算、乗算などの他の処理に対して、同様の従来のSIMD命令が可能である。
Figure 2015133132
図4aは、本発明によるSIMD命令の一例に対するデータフローを示す。この例では、第1入力30aの第1及び第2フィールドからのオペランドを利用して、処理が実行され、同一の処理が第1入力30aの第2及び第3フィールドからのオペランドを利用して実行し、同一の処理が、第1入力30aの第3及び第4フィールドからのオペランドを利用して実行され、同一の処理が、第1入力30aの第4フィールドと第2入力30bの第1フィールドからのオペランドを利用して実行される。SIMD命令は、
Figure 2015133132
などの加算命令であってもよい。
ここでは、R1によりアドレス指定されるレジスタの隣接ポジションのペアからのオペランドが加算され、R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタの拡張として処理される。これらの加算の結果は、R3によりアドレス指定されるレジスタに格納される。もちろん、減算、乗算、MAC(Multiply Accumulate)処理などの他の処理の対する他の命令が、レジスタの隣接位置のペアからのオペランドについて可能である。
Figure 2015133132
オペランド分配回路24は、オペランドの分配を実現する。従来タイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、図3のデータフローに従って当該オペランドを算術回路26a〜26dに転送する。新しいタイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、図4aのデータフローに従って算術回路26a〜26dに当該オペランドを転送する。
本発明は図4aに示されるタイプのデータフローに限定されるものでないということが、理解されるべきである。他の命令に応答して、オペランド分配回路24は、図4bまたh4cに示されるデータフローを提供するようにしてもよい。図4bは、SIMD命令のオペレーションコードに対する応答を示し、そこでは、算術回路26a及び26bが、第1入力の第1、第2、第3及び第4フィールドからそれらの第1オペランドをそれぞれ受け取り、第1入力の第4フィールドと、第2入力の第1、第2及び第3フィールドから第2オペランドをそれぞれ受け取る。このような命令は、
Figure 2015133132
などのアセンブリ言語表現を有することが可能である。
ここでは、オペレーションコードADD14又はMAC14は、処理とR1によりアドレス指定されるレジスタの第1オペランドのポジションとを示す。
図4cは、SIMD命令のオペレーションコードに対する応答を示し、ここでは、算術回路26a及び26bは、第1入力の第2、第3及び第4フィールドと、第2入力の第1フィールドからそれぞれそれらの第1オペランドを受け取り、また第1入力の第3及び第4フィールドと、第2入力の第1及び第2フィールドとからそれぞれ第2オペランドを受け取る。
このような命令は、
Figure 2015133132
などのアセンブリ言語表現を有することが可能である。
もちろん、同一の処理のすべてのポジションの組み合わせに対してオペレーションコードが必要となるわけでない。プログラムにおいて頻繁に必要とされる組み合わせのみを提供すれば十分であるかもしれない。
ここまで与えられた例では、オペランド分配回路24は、命令発行回路10からのオペレーションコードの制御の下、フィールドからオペランドを選択する。あるいは、当該選択は、レジスタファイル14から受け付けたさらなるオペランドからのオペレーションコードの制御の下、又は命令発行回路10からのオペレーションコードとそのようなオペランドの組み合わせの制御の下、実行されてもよい。
図5は、レジスタファイル14(図示せず)に接続されるさらなるオペランド入力50を有する機能ユニット12bの実施例を示す。本実施例では、命令発行回路10により発行される命令は、命令発行回路10がレジスタファイル14に供給するさらなるオペランドレジスタ選択アドレスを有する。このような命令の具体例のアセンブリ言語表現は、例えば、
Figure 2015133132
である。
ここで、レジスタアドレスRpは、さらなるオペランドを提供するレジスタのアドレスを指定する。
本実施例では、オペランド分配回路24は、さらなるオペランド入力50からのさらなるオペランドと、命令発行回路10からのオペレーションコードとの組み合わせの制御の下、オペランドの選択を実行する。本実施例では、オペレーションコードは、従来のフロー(図3に示されるような)が必要であるか、またさらなるオペランド入力50からのさらなるオペランドがどのオペランド選択を利用するか制御しないか示すのに利用されてもよい。
一例では、さらなるオペランドは、第1入力30aからのオペランドに対して第1フィールドを選択し、オペランド分配回路24は、当該フィールドからスタートして、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1フィールドを選択する。この場合、オペランド分配回路24は、第1入力30aの選択されたフィールドに続く次のフィールドからスタートし、存在する場合には、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、例えば、図4cのデータフローが選択されるかもしれない。この場合、さらなるオペランドは、例えば、0,1,2,3などの4つの値の1つを有し、各値は異なるポジションを示す。この場合、このためには、さらなるオペランドの2ビットで十分である。
他の例では、オペランド分配回路24は、2つのさらなるオペランドから、又は上記さらなるオペランドの制御の下、2つのスタートオペランドのポジションの独立した選択を行うよう構成されてもよい。従って、例えば、さらなるオペランドは、第1フィールドが第1又は第2入力の第1フィールドを選択するためのものであり、第2フィールドが第1又は第2入力の第2フィールドを選択するためのものである2つのフィールドを有するかもしれない。この場合、オペランド分配回路24は、存在する場合には、第1入力30aの第1フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1オペランドを選択するよう構成されてもよい。同様に、オペランド分配回路24は、存在する場合には、第1入力30aの第2フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、図4bのデータフローは、さらなるオペランドの第1フィールドが第1入力の第1フィールドを選択し、さらなるオペランドの第2フィールドが第1入力の第4フィールドを選択する場合に実現されるかもしれない。この場合、このためには、各フィールドについてさらなるオペランドの2ビットが2回あれば十分である。
さらなる実施例では、さらなるオペランドは、各オペランドの独立した選択のための選択フィールドを有するかもしれない。従って、各レジスタがN個のオペランドを有するものとして処理される場合、さらなるレジスタは、オペランドを選択するため、各logNビットの2Nフィールドを有するようにしてもよい。しかしながら、実際のプログラムについては、第1処理の第1オペランドについて1つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、又は第1処理の第1及び第2オペランドに対して2つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、より少ない選択で十分であるということが判明した。
図6は、制限されたオペランド選択のみが使用されるときに利用可能な簡単化された機能ユニットの一部を示す。そこでは、最後の算術回路26d以外の各算術回路の第2オペランドが、次の算術回路の第1オペランドとして供される。このようにして、オペランド分配回路24をかなり簡単化することができる。オペランド分配回路24は、例えば、各マルチプレクサが算術回路26dの各オペランド入力と選択可能な入力とを選択可能に接続するマルチプレクサセットとして実現されてもよい。しかしながら、本発明の他の実現形態が可能である。例えば、複数の算術回路26a〜26dが、このタイプの命令によりアドレス指定されるレジスタからの所定のフィールドからのオペランドデータを利用する1つのタイプの命令のみを実行するため設けられてもよい。この場合、算術回路の入力は、アドレス指定されたレジスタのコンテンツの所定部分を受け付けるよう配線されてもよく、算術回路は、当該命令がこのタイプのものであることを示すオペレーションコードに応答して、当該結果を結果レジスタに書き込むよう起動される。この場合、オペランド分配回路24は、関連する配線接続より多く有する必要はない。
図7は、すべての算術回路26a〜26dに共通に提供されるさらなるオペランドデータが提供可能なさらなる入力60が提供されるさらなる実施例を示す。この場合、機能ユニットの命令は、
Figure 2015133132
などのアセンブリ言語表現を有するようにしてもよい。
ここでは、Rcは、算術回路26a〜26dについて共通のさらなるオペランドによるレジスタのアドレスを示す。このさらなるオペランドデータは、例えば、フィルタ係数を表すものであるかもしれない。一実施例では、このような命令は、
Figure 2015133132
の計算を実現するのに利用可能である。
ここでは、a[0],a[1],a[2],a[3],a[4]などは、R1及びR2によりアドレス指定されるレジスタの各フィールドに格納されているオペランドデータを表す。(R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタも拡張として扱われる。)オペランド“offset”は、Rpによりアドレス指定されるレジスタから取得され、R1及びR2によりアドレス指定されるレジスタのスタートフィールドポジションを示す。各算術回路26a〜26dは、b[0],b[1],b[2],b[3]のそれぞれを計算し、これらの結果は、R3によりアドレス指定されるレジスタの各フィールド(部分)に書き込まれる。
本実施例では、Rcによりアドレス指定されるレジスタは、各算術回路26a〜26dに供給される係数w0及びw1を有する。他の実施例では、オペランド分配回路24を制御するオペランドと、算術回路26a〜26dに共通に提供されるオペランドとは、1つのさらなるオペランドから取得されるかもしれない。例えば、32ビットのレジスタの場合、2つの8ビット係数と2ビットオフセット選択とが、
Figure 2015133132
の1つのオペランドの各フィールドから提供されるかもしれない。
ここでは、ポジション及び係数情報は、Rpcによりアドレス指定されるレジスタからの1オペランドにより合成されて供給されると仮定される。当該フィールドは、Rsのコンテンツによって選択される。
図8は、機能ユニットのさらなる実施例を示す。ここでは、追加的なオペランド接続70が加えられ、当該追加的オペランド接続70から各算術回路26a〜26dに各オペランドを提供する入力72に接続される。さらに、追加的な結果接続74が出力接続28に加えられた。この機能ユニットは、例えば、命令に応答して、
Figure 2015133132
の計算を実行するのに利用可能である。
これは、レジスタの連続する隣接フィールドからのオペランドを利用した乗算加算命令である。
図9は、積w0*a[..]及びw1*a[..]を計算する乗算器90a及び90bと加算回路92とを有する上記目的に利用可能な算術回路26を示す。
本例では、機能ユニットは、加数(summand)s[..]と積w0*a[..]及びw1*a[..]の各和を出力する。各算術回路26a〜26dの加数s[..]は、Rsによりアドレス指定されるレジスタの所定のフィールドから取得され、共通の係数は、R1及びR2によりアドレス指定されるレジスタの各フィールドから取得される。これらのオペランドが求められるポジションは、Rpcによりアドレス指定されるレジスタからのオフセット情報により制御される。各算術回路26a〜26dからの結果は合成され、R3によりアドレス指定されるレジスタに書き込まれる。
好ましくは、結果が格納されるレジスタ(R3)は、オペランドa[..]を提供するのに利用されるレジスタ(R1,R2)のものの少なくとも2倍の長さを有する。これは、精度のロスなく2Mビットが2つのMビット数の積を表すのに必要とされる事実を考慮するため利用される。累積が利用される場合(ある数の積への加算)、さらに多くのビット、例えば、2M+2ビットなどが必要とされるかもしれない。この幅は、結果の関連する幅に従って選択されてもよい。従って、例えば、4つの8ビットオペランドa[..](M=8)が32ビット入力レジスタ(R1,R2)から供給される場合、好ましくは、64ビット出力レジスタ(R3)が、4つの16ビット結果(M=16)を格納するのに利用される。さらに、命令に応答して、当該結果はまた、好ましくは、入力レジスタ(R1,R2)と同じ幅を有するさらなる結果レジスタR4の丸められた精度により格納される。このさらなる結果レジスタでは、各結果b[..]の一部のみが、例えば、ビットの上位1/2のみ、ビットの上位関連する1/2のみ、ビット4〜12など各結果からのいくつかの所定のポジションからのビットなどが格納される。好ましくは、和s[..]を提供するのに利用されるレジスタ(Rs)はまた、オペランドa[..]を供給するのに用いられるレジスタ(R1,R2)のものの2倍の幅(ビット数)を有する。このことは、
Figure 2015133132
の命令を利用して、多次元補間(2次元画像補間など)を実現するため利用されてもよい。
ここでは、R1によりアドレス指定されるレジスタが、画像ラインに沿った隣接ピクセルポジションのN個(N=4など)のピクセル値(ピクセル値p[i,j],p[i+1,j],p[i+2,j],p[i+3,j]など(jはラインを表し、iはスタートピクセルポジションを表す))を有し、R2によりアドレス指定されるレジスタは、R1のものに続くポジションのピクセル値(ピクセル値p[i+4,j],p[i+5,j],p[i+6,j],p[i+7,j]など)を有すると仮定される。Rpc1によりアドレス指定されるレジスタは、2つの係数w00及びw01を有する。同様に、R1’及びR2’はそれぞれ、R1及びR2の画像ラインに隣接する次の画像ラインに沿った隣接するピクセルポジションのN個(N=4など)のピクセル値(それぞれピクセル値p[i,j+1],p[i+1,j+1],p[i+2,j+1],p[i+3,j+1]及びp[i+4,j+1],p[i+5,j+1],p[i+6,j+1],p[i+7,j+1]など)を有する。Rpc2によりアドレス指定されるレジスタは、2つの係数w10及びw11を有する。Rsによりアドレス指定されるレジスタは、ゼロの値を有する。この場合、上記2つの処理の後に、R3によりアドレス指定されるレジスタの結果は、
Figure 2015133132
を含むであろう。
このため、4つの4ピクセル補間が2つの命令を実行することによって実行された。完全な画像を補間するため、これは連続するピクセルグループのロードと共に繰り返されてもよい。
好ましくは、機能ユニットはさらに、例えば、Rpc1及びRpc2によりアドレス指定されるレジスタのオペランドの一部として、オフセットを規定する少なくとも1つのオペランドをサポートする。このようにして、R1,R2,R1’,R2’によりアドレス指定されるレジスタのスタートピクセル値p[i+0,j]及びp[i+0,j+1]のポジションは、プログラムの制御の下で選択可能である。このことは、アラインされたアドレスを利用したロード処理と共にさらなる再アライメントなしに、データメモリの任意のアドレスからスタートして格納されているピクセル値に対する結果を生成することを可能にする。従って、例えば、あるラインに沿ったピクセル系列が、
Figure 2015133132
の命令を利用して処理することが可能である。
ここでは、隣接するメモリ位置のグループからのピクセル値が、R1,R2,R1’,R2’によりアドレス指定されるレジスタにロードされ、(MAC命令により)4つの補間された結果のグループを生成するのに利用される。ここで、第1補間結果を生成するのに利用されるレジスタR1及びR2から利用される第1ピクセルのオフセットは、Rpc1によりアドレス指定されるレジスタにより制御される。隣接メモリ位置の次のグループからの次のピクセル値がR1(及びR1’)にロードされ、R1及びR2の役割が補間命令(MAC)において交換される。この後、ループが繰り返される。
このプログラムのメモリアクセス命令(LOAD及びSTORE)はすべてアラインされたアドレスを利用することが理解されるべきである。従って、アラインされていないスタートアドレスからスタートして格納されているピクセルデータの補間が容易になる。このことは、特に画像の任意に選択可能なポジションからスタートする相対的に小さなウィンドウにおいて補間が要求される場合、スピードを増大させる。
本発明のアプリケーションが2次元画像処理について説明されたが、本発明が当該アプリケーションに限定されないということが理解されるべきである。本発明はまた、1次元アレイ処理又は3次以上のアレイ処理にも適用可能である。さらに、係数とピクセルの積の和に関するSIMD命令へのアプリケーションが説明されたが、他の命令も利用可能であるということが理解されるべきである。
本発明によると、処理回路は、それの命令セットに新規な命令を含むよう構成される。周知なように、プロセッサの命令セットの仕様は、一般には何れの実現形態がプロセッサを実現するのに利用可能であるか当業者に通知すれば十分である。命令セットは、プロセッサに対するマシーンプログラムに含めることが可能な各種命令タイプを規定する。(ここで使用される「命令」とは、最終的に命令でない部分とならず、プログラムが分割可能な最小ユニットであるマシーンプログラムの“アトム”を表す。)本発明による処理回路の命令セットは、各々が複数の潜在的なオペランドを有するレジスタからのオペランドを利用して、同一タイプの処理をパラレルに実行することによって複数の結果が生成されるという意味において、処理回路にSIMD処理を実行させる命令を有する。パラレルに実行される処理は、オペランド系列の重複を利用する。好ましくは、命令は、オペランドが取得する必要があるレジスタのポジションを示すさらなるオペランドを有する。あるいは、異なるオペレーションコードが、異なるポジションを示す。
10 命令発行回路
12 機能ユニット
14 レジスタファイル
15 アドレス/データインタフェース
16 データメモリ

Claims (16)

  1. 命令選択可能なレジスタを有するレジスタのセットであって、各レジスタは各SIMD命令オペランド及び/又は結果を格納するのに適した複数のN個のパーツを有する、レジスタのセットと、
    SIMD命令を有する命令セットを有する命令実行回路であって、前記命令実行回路は前記SIMD命令に応答してN個の各自の同一の処理をパラレルに実行するよう構成される複数の算術回路を有し、前記SIMD命令は、前記SIMD命令によって選択される前記レジスタのセットからの第1レジスタ及び第2レジスタからの前記SIMD命令のN個の各自のSIMD命令オペランドの第1及び第2系列を規定し、各算術回路は、前記SIM命令を実行するとき、前記第1及び第2系列からそれぞれ各自の第1オペランド及び各自の第2オペランドを受信するよう構成される、命令実行回路と、
    を有するデータ処理回路であって、
    前記命令実行回路は、前記第1及び第2系列が部分的に重複するように前記第1及び第2系列を選択するよう構成され、
    前記複数の算術回路の少なくとも第1及び第2算術回路は、前記第1及び/又は第2系列からのオペランドを通常利用し、
    前記第2系列は、前記複数の算術回路のオペランドレジスタ内に前記第1系列に関する所定の相対ポジションを有し、
    前記複数の算術回路のオペランドレジスタからの少なくとも2つの異なるオペランドは前記第1及び第2オペランド系列において重複するデータ処理回路。
  2. 前記命令実行回路は、前記レジスタのセットからの第1レジスタ及び第2レジスタの双方の各パーツから少なくとも第2オペランド系列を抽出するよう構成される、請求項1記載のデータ処理回路。
  3. 前記命令実行回路は、プログラム制御の下で前記レジスタのセットからの第1レジスタ及び第2レジスタ内の前記第1系列のポジションを少なくとも選択するよう構成される、請求項1記載のデータ処理回路。
  4. 前記命令実行回路及び前記レジスタのセットに接続され、前記SIMD命令を選択し、前記レジスタのセットから前記第1レジスタ及び第2レジスタをそれぞれ選択するため命令データを供給する命令発行回路と、
    前記レジスタのセットと前記算術回路との間に接続され、前記命令データ及び/又はオペランドデータによって制御され、少なくとも1つのポジションを含む前記第1系列の選択可能なポジションを選択するオペランド配信回路と、
    を有し、
    前記第1系列は、前記レジスタのセットからの第1レジスタ及び第2レジスタの双方のパーツに拡張する、請求項3記載のデータ処理回路。
  5. 前記SIMD命令は、更なるレジスタを選択し、
    前記命令実行回路は、前記選択された更なるレジスタからの情報の制御の下で前記第1系列のポジションを制御するよう構成される、請求項3記載のデータ処理回路。
  6. 前記命令実行回路は、前記第1系列に関する所定の相対ポジションから前記第2系列を選択するよう構成される、請求項3記載のデータ処理回路。
  7. 前記SIMD命令は、各自のSIMD命令オペランドを格納するための複数のパーツを有する更なるレジスタを選択し、
    前記命令実行回路は、前記更なるレジスタ内の所定のポジションからのパーツと、更なるオペランドを供給するための前記算術回路の各自の所定の算術回路とを接続する、請求項1記載のデータ処理回路。
  8. 前記命令実行回路は、前記所定のポジションがプログラム制御の下で選択された前記第1系列のポジションによって影響を受けないように、プログラム制御の下で前記レジスタのセットからの前記第1レジスタ及び第2レジスタ内の前記第1系列のポジションを少なくとも選択するよう構成される、請求項7記載のデータ処理回路。
  9. 前記算術回路のそれぞれは、前記更なるレジスタからのオペランドと、前記算術回路の全てに共通の係数と前記第1及び第2系列からのオペランドとの各自の積との和を計算するよう構成される、請求項7記載のデータ処理回路。
  10. 前記SIMD命令は、追加的なレジスタを選択し、
    前記係数は、前記追加的なレジスタから前記算術回路に供給される、請求項9記載のデータ処理回路。
  11. 前記命令実行回路は、前記SIMD命令により選択される前記追加的なレジスタからのデータの制御の下で、前記レジスタのセットからの前記第1レジスタ及び第2レジスタ内の前記第1系列のポジションを少なくとも選択するよう構成される、請求項10記載のデータ処理回路。
  12. ピクセルのグループに対してピクセル補間をパラレルに実行するためのSIMD命令を含むプログラムによりプログラムされる、請求項9記載のデータ処理回路。
  13. 前記命令セットは、更なるSIMD命令を有し、
    前記命令実行回路は、前記更なるSIMD命令に応答して、前記算術回路にN個の同一の更なる処理をパラレルに実行させるよう構成され、
    各算術回路は、前記更なるSIMD命令によって選択された前記レジスタのセットからの第1レジスタからの各自の第1オペランドと、前記更なるSIMD命令によって選択された前記レジスタのセットからの第2レジスタからの各自の第2オペランドとを利用する、請求項1記載のデータ処理回路。
  14. SIMD命令を有する命令セットを有するプログラマブル命令処理回路上でコンピュータプログラムを実行する方法であって、前記コンピュータプログラムは前記SIMD命令の少なくとも1つのインスタンスを有し、
    当該方法は、
    前記SIMD命令に応答して、前記SIMD命令により選択される第1及び第2レジスタのコンテンツを抽出するステップであって、各レジスタは複数のN個の各自のSIMDオペランドを格納し、前記SIMD命令は前記第1及び第2レジスタからのオペランドのN個の各自のオペランドの第1系列及び第2系列を規定し、前記第1及び第2系列は重複を有する、抽出するステップと、
    前記SIMD命令に応答して、N個の各自の同一の処理をパラレルに実行するステップであって、各処理は前記第1及び第2系列のそれぞれからの各自の第1オペランド及び各自の第2オペランドを利用する、実行するステップと、
    を有し、
    前記N個の各自の同一の処理の少なくとも第1及び第2処理は、前記第1系列及び/又は前記第2系列からの共通のオペランドを利用し、
    前記第2系列は、前記複数の算術回路のオペランドレジスタ内の前記第1系列に関する所定の相対ポジションを有し、
    前記複数の算術ユニットのオペランドレジスタからの少なくとも2つの異なるオペランドは、前記第1及び第2オペランド系列において重複する方法。
  15. イメージデータ値の2次元アレイを受信するステップと、
    前記SIMD命令を利用して補間されたイメージデータを計算するステップと、
    を更に有する、請求項14記載の方法。
  16. 実行時に請求項14記載の方法をプログラマブル命令処理回路に実行させるコンピュータ実行可能な命令を有する物理的なコンピュータ可読媒体であって、
    前記コンピュータ実行可能な命令は前記SIMD命令を含むコンピュータ可読媒体。
JP2015040233A 2004-11-03 2015-03-02 Simd命令をサポートするプログラマブルデータ処理回路 Expired - Fee Related JP6239544B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105471 2004-11-03
EP04105471.9 2004-11-03

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007539681A Division JP5748935B2 (ja) 2004-11-03 2005-11-02 Simd命令をサポートするプログラマブルデータ処理回路

Publications (2)

Publication Number Publication Date
JP2015133132A true JP2015133132A (ja) 2015-07-23
JP6239544B2 JP6239544B2 (ja) 2017-11-29

Family

ID=34929799

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007539681A Expired - Fee Related JP5748935B2 (ja) 2004-11-03 2005-11-02 Simd命令をサポートするプログラマブルデータ処理回路
JP2015040233A Expired - Fee Related JP6239544B2 (ja) 2004-11-03 2015-03-02 Simd命令をサポートするプログラマブルデータ処理回路

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007539681A Expired - Fee Related JP5748935B2 (ja) 2004-11-03 2005-11-02 Simd命令をサポートするプログラマブルデータ処理回路

Country Status (8)

Country Link
US (2) US8122227B2 (ja)
EP (1) EP1812849B8 (ja)
JP (2) JP5748935B2 (ja)
KR (1) KR101239304B1 (ja)
CN (1) CN101052947A (ja)
AT (1) ATE493703T1 (ja)
DE (1) DE602005025677D1 (ja)
WO (1) WO2006048828A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5182284B2 (ja) * 2007-03-08 2013-04-17 日本電気株式会社 ベクトル処理装置
US8248422B2 (en) * 2008-01-18 2012-08-21 International Business Machines Corporation Efficient texture processing of pixel groups with SIMD execution unit
KR100960148B1 (ko) 2008-05-07 2010-05-27 한국전자통신연구원 데이터 프로세싱 회로
US8831101B2 (en) * 2008-08-02 2014-09-09 Ecole De Technologie Superieure Method and system for determining a metric for comparing image blocks in motion compensated video coding
US9100656B2 (en) 2009-05-21 2015-08-04 Ecole De Technologie Superieure Method and system for efficient video transcoding using coding modes, motion vectors and residual information
US8411756B2 (en) * 2009-05-21 2013-04-02 Ecole De Technologie Superieure Method and system for generating block mode conversion table for efficient video transcoding
US8755438B2 (en) 2010-11-29 2014-06-17 Ecole De Technologie Superieure Method and system for selectively performing multiple video transcoding operations
WO2013089791A1 (en) * 2011-12-16 2013-06-20 Intel Corporation Instruction and logic to provide vector linear interpolation functionality
CN103377031B (zh) * 2012-04-27 2017-09-26 腾讯科技(深圳)有限公司 一种多数据处理方法和装置
US9201828B2 (en) * 2012-10-23 2015-12-01 Analog Devices, Inc. Memory interconnect network architecture for vector processor
US9342306B2 (en) 2012-10-23 2016-05-17 Analog Devices Global Predicate counter
US9092429B2 (en) 2012-10-23 2015-07-28 Analog Devices Global DMA vector buffer
JP6003744B2 (ja) 2013-03-22 2016-10-05 富士通株式会社 演算処理装置及び演算処理方法
US9898286B2 (en) * 2015-05-05 2018-02-20 Intel Corporation Packed finite impulse response (FIR) filter processors, methods, systems, and instructions
US20170003966A1 (en) * 2015-06-30 2017-01-05 Microsoft Technology Licensing, Llc Processor with instruction for interpolating table lookup values
GB2540943B (en) * 2015-07-31 2018-04-11 Advanced Risc Mach Ltd Vector arithmetic instruction
CN105159766B (zh) * 2015-08-31 2018-05-25 安一恒通(北京)科技有限公司 数据的同步访问方法和同步访问装置
US11126439B2 (en) 2019-11-15 2021-09-21 Apple Inc. SIMD operand permutation with selection from among multiple registers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188898A (ja) * 1999-12-28 2001-07-10 Ricoh Co Ltd 画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003038601A1 (en) * 2001-10-29 2003-05-08 Intel Corporation Method and apparatus for parallel shift right merge of data
JP2003337696A (ja) * 2002-03-06 2003-11-28 Matsushita Electric Ind Co Ltd データ処理装置及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2840686B2 (ja) 1989-12-28 1998-12-24 ソニー株式会社 画像処理装置
JP3251421B2 (ja) 1994-04-11 2002-01-28 株式会社日立製作所 半導体集積回路
GB9509983D0 (en) * 1995-05-17 1995-07-12 Sgs Thomson Microelectronics Replication of data
US5668638A (en) 1996-06-27 1997-09-16 Xerox Corporation Error diffusion method with symmetric enhancement
JPH1115801A (ja) * 1997-06-24 1999-01-22 Sony Corp データ演算装置および方法、並びに伝送媒体
EP3073388A1 (en) 1998-03-18 2016-09-28 Koninklijke Philips N.V. Data processing device and method of computing the cosine transform of a matrix
US6212618B1 (en) * 1998-03-31 2001-04-03 Intel Corporation Apparatus and method for performing multi-dimensional computations based on intra-add operation
US6041404A (en) * 1998-03-31 2000-03-21 Intel Corporation Dual function system and method for shuffling packed data elements
US6115812A (en) * 1998-04-01 2000-09-05 Intel Corporation Method and apparatus for efficient vertical SIMD computations
GB2362731B (en) * 2000-05-23 2004-10-06 Advanced Risc Mach Ltd Parallel processing of multiple data values within a data word
US7155601B2 (en) * 2001-02-14 2006-12-26 Intel Corporation Multi-element operand sub-portion shuffle instruction execution
US7558816B2 (en) * 2001-11-21 2009-07-07 Sun Microsystems, Inc. Methods and apparatus for performing pixel average operations
US7315934B2 (en) 2002-03-06 2008-01-01 Matsushita Electric Industrial Co., Ltd. Data processor and program for processing a data matrix
US7392368B2 (en) * 2002-08-09 2008-06-24 Marvell International Ltd. Cross multiply and add instruction and multiply and subtract instruction SIMD execution on real and imaginary components of a plurality of complex data elements
GB2409063B (en) * 2003-12-09 2006-07-12 Advanced Risc Mach Ltd Vector by scalar operations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188898A (ja) * 1999-12-28 2001-07-10 Ricoh Co Ltd 画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003038601A1 (en) * 2001-10-29 2003-05-08 Intel Corporation Method and apparatus for parallel shift right merge of data
JP2003337696A (ja) * 2002-03-06 2003-11-28 Matsushita Electric Ind Co Ltd データ処理装置及びプログラム

Also Published As

Publication number Publication date
JP6239544B2 (ja) 2017-11-29
CN101052947A (zh) 2007-10-10
EP1812849B1 (en) 2010-12-29
EP1812849B8 (en) 2011-02-16
US8856494B2 (en) 2014-10-07
DE602005025677D1 (de) 2011-02-10
JP5748935B2 (ja) 2015-07-15
US20090083524A1 (en) 2009-03-26
JP2008519349A (ja) 2008-06-05
US8122227B2 (en) 2012-02-21
ATE493703T1 (de) 2011-01-15
US20120124334A1 (en) 2012-05-17
EP1812849A1 (en) 2007-08-01
KR20070083872A (ko) 2007-08-24
KR101239304B1 (ko) 2013-03-05
WO2006048828A1 (en) 2006-05-11

Similar Documents

Publication Publication Date Title
JP6239544B2 (ja) Simd命令をサポートするプログラマブルデータ処理回路
CN100447777C (zh) 处理器
JP5647859B2 (ja) 乗累算演算を実行するための装置および方法
CN100410919C (zh) 处理器
JP2002536738A (ja) 間接vliwプロセッサにおける実行時間並列処理のための動的vliwサブ命令選択システム
JP2011511986A (ja) プロセッサ
KR102425668B1 (ko) 데이터 처리장치에서의 곱셈-누적
CN107315717B (zh) 一种用于执行向量四则运算的装置和方法
TWI780116B (zh) 用於資料處理設備、方法、電腦可讀式儲存媒體及虛擬機器的向量逐元素操作
US20020040378A1 (en) Single instruction multiple data processing
KR100254915B1 (ko) 축소 데이타 경로 폭을 갖는 2-비트 부스 곱셈기
EP3264261B1 (en) Processor and control method of processor
KR102591988B1 (ko) 데이터 처리장치에서의 벡터 인터리빙
US11106465B2 (en) Vector add-with-carry instruction
EP1499956B1 (en) Method and apparatus for swapping the contents of address registers
JP2018521422A (ja) ベクトル長クエリ命令
US7260711B2 (en) Single instruction multiple data processing allowing the combination of portions of two data words with a single pack instruction
Fridman Data alignment for sub-word parallelism in DSP
JP2006502489A (ja) 並行処理する機能ユニットを有するデータ処理装置
JP2004334297A (ja) 並列演算処理装置及び並列演算処理方法
WO2008077803A1 (en) Simd processor with reduction unit
JP3547316B2 (ja) プロセッサ
CN114063977A (zh) 通用数字信号处理装置、方法及系统
JP2004303058A (ja) ベクトルプロセッサおよびそのデータ処理方法
JPH1063639A (ja) 演算装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171101

R150 Certificate of patent or registration of utility model

Ref document number: 6239544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees