JP2002510418A

JP2002510418A - マトリックスのコサイン変換を計算するためのデータ処理装置およびその方法

Info

Publication number: JP2002510418A
Application number: JP54674899A
Authority: JP
Inventors: エイントホーベンヨゼフスティージェーファン; フランシスカスダブリュスェスターマンス
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1998-03-18
Filing date: 1999-02-22
Publication date: 2002-04-02
Anticipated expiration: 2019-02-22
Also published as: KR100538605B1; JP4672744B2; KR20010012703A; WO1999048025A3; JP2010079922A; US6397235B1; WO1999048025A2; JP2008171448A; EP0983557A2; JP4158864B2; JP4778086B2; US20180129631A1; EP0983557B1; EP3073388A1; USRE46712E1

Abstract

(57)【要約】 SIMD方式で演算を適用できる数値を含むセグメントとしてフォーマットできるレジスタ用のデータ処理装置。さらに、１つのレジスタの異なるレジスタを、または異なるレジスタ内の異なる位置でのセグメントを組み合わせる演算を実行することが可能である。このように、専用に選択されたレジスタを提供することにより、多次元の分離可能な変換をレジスタ内の数値を置き換えずに実行することが可能となった。

Description

【発明の詳細な説明】マトリックスのコサイン変換を計算するためのデータ処理装置およびその方法技術分野本発明は、請求項１の特徴記載部分に記載されているデータ処理装置に関する。背景技術このようなデータ処理装置は、PCT特許出願番号97/31308から公知である。このデータ処理装置は、SIMD(Single Instruction Multiple Data)命令などの並列命令の制御下での並列処理を可能とする。SIMD命令は、同じ演算を何度も並列に適用する。一般的にSIMD命令は、通常、レジスタアドレスにより２つのオペランドを定義する。これらの各オペランドの内容は、パック化データの複数のセグメントとして扱われる。例えば、64ビットレジスタの内容は、このレジスタ内のビット位置0-15、16-31、32-47、48-63における４つの16ビットの数値として扱うことができる。データ処理装置がSIMD命令に遭遇すると、同じ演算がオペランド内の数値のいくつかの相異なるペアに並列に適用される。例えば、第１オペランドレジスタ内のビット位置0-15の内容が、第２オペランドレジスタ内のビット位置0-15の内容に加えられ、第１オペランドレジスタ内のビット位置16-31の内容が、第２オペランドレジスタ内のビット位置16-31の内容に加えられる。 SIMD命令を使用すると、１つの機能を行うために実行しなくてはならない命令の数を減らすことができる。例えば、ピクセル値のブロックの個々の列の離散コサイン変換(IDCT)を実行するという機能を考察する。ブロックの相異なる行のピクセル値は、それぞれ相異なるオペランドに格納される。各オペランドにおいて、ピクセル値は、セグメント内の位置のうち、ピクセル値の列によって決まる位置に格納される。例えば、第１レジスタの場合、第１行、第１列のピクセル値はビット位置０-15に格納され、第１行、第２列のピクセル値はビット位置16-32に格納される。第２レジスタには、第２行からのピクセル値が格納され、以下同じように各行のピクセル値がそれぞれの列によって決まる位置に格納される。この結果、IDCTを１列に適用する演算用にコーディングされた一連の命令を実行すると、算術演算がすべてSIMD命令を使用して実行される場合、IDCTが自動的に多数の列について並列に実行される。これによって実行する必要のある命令の数が少なくなる。分離可能な２次元IDCTの場合には、１次元IDCTをブロックの個々の列と個々の行に適用する必要がある。この場合、列の変換と行の変換の間で行と列の役割を交換すれば、同じように命令の数を減らすことができる。行と列の役割は、ブロックの置き換えによって交換できる。この置き換えにより、１つの列の相異なるピクセル値が、１つの行の相異なるピクセル値に代えて同じレジスタに格納される。つまり置き換えにより、相異なるレジスタの(同じ列に)対応する位置の内容が、別のレジスタ内の相異なる位置に移動される。しかしながら置き換えの実行自体には、かなりの数の命令を加えることが必要となる。このため２次元変換では、１次元変換に必要な命令数の２倍以上の命令数が必要となる。 SIMDの利点に対するこの制約は、パック化データの中の互いに対応しない位置にあるデータを組み合わせる必要がある機能をプログラムしなくてはならないときには、一般にはさらに大きくなる。この場合、互いに独立した数値を含むパック化フォーマットとしてオペランドの内容を扱うSIMD並列命令を使用することはできず、またSIMD演算を使用できるようにデータを並べ替えるための追加演算が少なくとも必要となる。発明の開示本発明の目的は、実行する必要のある命令の数をさらに減らすことができる、於て書きに記載した処理装置を提供することである。本発明のデータ処理装置は、請求項１の特徴記載部分を特徴とする。これにより、オペランド内の互いに同じでない位置のセグメントを組み合わせ、または相異なる演算を使用して、オペランドのセグメントの相異なる組み合わせをつくる、並列演算をプログラムすることができる。これは、同じ位置のセグメントのペアに毎回同じ演算を適用する先行技術のSIMD命令とは対照的である。本発明の命令の場合、例えば、オペランドレジスタのビット位置0-15に格納されている数値が、ビット位置16-31に格納されている数値に加算され、それと並列に、ビット位置3 2-47に格納されている数値が、ビット位置48-63に格納されている数値に加算される。同一オペランドレジスタ内のセグメントを組み合わせる演算と、異なるオペランドレジスタ内のセグメントを組み合わせる演算の両方に対する命令を提供することができる。１つまたは複数の如何なるセグメントも、２つ以上の演算で使用することができる。並列に実行される演算は、すべて同じタイプの演算(例：すべて加算)でも良いし、相異なる演算(例：加算と減算)でも良い。通常、SIMD命令以外には、セグメントを組み合わせるアプリケーション固有命令は、ごく限られた命令セットしか提供されないであろう。例えば、相異なる位置の特定のセグメント間での加算などの演算を行う命令が利用可能なとき、可能なセグメントペアすべての間にその演算をプログラムする命令セットを用意する必要はない。同様に、(少なくとも演算の１つが他の演算と異なる)いくつかのあるセグメントペアをそれ自身の演算に組み合わせる命令が利用可能なとき、それらのセグメントに適用される演算の可能な組み合わせすべてについて命令セットを用意する必要はない。如何なるアプリケーションに対しても、可能な演算すべてまたは可能な演算の組み合わせすべてのうちのごく一部、および／またはセグメントの可能な組み合わせすべてのうちのごく一部しか必要とされない。ブロックについての分離可能な２次元変換に対しては、本発明は、ブロックの置き換えなしに必要な命令の数を減らすことを可能にする。各レジスタは、１つの行からの異なるピクセル値を含み、かつ別のレジスタが同じ列からのピクセル値を同じセグメントに格納していてよい。列の変換は、SIMD命令を使用して実行されるであろうが、行の変換は、相異なるセグメント内の同じ行からのピクセル値を組み合わせる並列演算によって実行される。例えば、IDCT命令の中で参照されるオペランドレジスタの異なるセグメントに格納されている行のピクセル値から、その行全体のIDCTを計算するIDCT命令を提供することもできる。また、レジスタ内の異なるセグメントのペアの内容の合計と差を計算する演算も用いることができる。この演算は、IDCT変換とこれに類似する変換で一般に必要となるタイプの演算である。図面の簡単な説明上述した本発明の利点とその他の利点について、以下の図を用い、例示的に説明する。第１図は、データ処理装置を示す。第２図は、８点１次元IDCTの実行のデータフロー図の例を示す。第３図は、本発明による命令のデータフロー図を示す。第4a図と第4b図は、本発明による命令を実行するための機能単位を示す。発明を実施するための最良の形態第１図は、VLIW(Very Long Instruction Word)タイプのデータ処理装置を示す。本発明は、VLIWタイプの装置を用いて図示されているが、このタイプの装置に限定されるものではない。この装置は、命令発行ユニット10、多数の機能単位12 a-c、レジスタファイル14を有する。命令発行ユニット10は、機能単位12a-cとレジスタファイル14に結合された命令出力端を有する。レジスタファイル14は、機能単位12a-cのオペランド入力／出力端に結合された読み取り／書き込みポートを有する。１つの機能単位12aが、詳細に図示されている。この機能単位12aは、命令デコーダ120、多数のALU(算術論理演算ユニット)122a〜122d、第１入力レジスタ124a および第２入力レジスタ124b、出力レジスタ126を有する。命令デコーダは、ALU 122a〜122dに結合されている。入力レジスタ124aおよび124bは、多数のセグメントに分割されている。第１入力レジスタ124aおよび第２入力レジスタ124bのセグメントは、ALU 122a-dに接続されている。動作時には、命令発行ユニット10が、プログラムの中の連続する命令にアクセスし、それらの命令を機能単位12a-cに発行する。機能単位12a-cに発行される命令は、代表的には、１つの演算コード、２つのソースレジスタアドレス、１つの結果レジスタアドレスを有する(命令のこれらの要素は必ずしも同時に発行されなくてもよい)。演算コードは、機能単位12a-cが実行しなけらばならない１つまたは複数の演算を定義する。ソースレジスタアドレスは、その１つまたは複数の演算を実行する対象のオペランドが格納されるレジスタファイル14の中のレジスタを参照する。命令発行ユニット10は、これらのアドレスをレジスタファイル14 に適用する。結果レジスタアドレスは、１つまたは複数の演算の結果が格納されるレジスタファイル14の中のレジスタを参照する。命令発行ユニット10は、結果レジスタアドレスをレジスタファイル14に適用する。機能単位12a-cのほとんどは、各レジスタの内容を１つの数値として扱う。例えば、レジスタの長さが64ビットの場合、その内容は、別の64ビットの数値に加えたり、算術的あるいは論理的にシフト等ができる64ビットの数値として扱われる。しかしながら機能単位12a-cの少なくともいくつかは、レジスタの内容を、そのレジスタの各セグメントに格納されている一連の数値として扱うことが(または扱うことも)できる。次のような専用演算を、これらの数値に対し互いに無関係に並列に実行することができる。つまり、キャリービットによって１つのセグメントから別のセグメントに桁上げされず、シフトによって１つのセグメントから別のセグメントにビットが桁送りされず、クリッピングが各セグメントごとに独立して行われる等である。機能単位12aは、各レジスタの内容を、それぞれ個別の数値が格納されている複数のセグメントとして扱う機能単位である。この目的のため、すべてのレジスタは、同じ方式で仮想的にセグメントに分割される。命令が実行されると、その命令内で参照されるソースレジスタの各セグメントの内容が、ALU 122a-dのそれぞれに適用される。 SIMD命令の場合、２つのソースオペランド内の同じ位置にあるセグメントの内容が、同じALU 122a-dに供給される。例えば、オペラントが64ビットであり、ビット位置0-15、16-31、32-47、48-63は、４つのセグメントS0、S1、S2、S3をそれぞれ構成するとする。このとき両方のオペランドのビット位置0-15の内容は最初のALU 122aに供給され、ビット位置16-31の内容は２番目のALU 122bに供給される（以下同様）。またSIMD命令の場合、命令デコーダ120は、ALU 122a-dのすべてに同じ制御コードを適用する。このためALU 122a-dは、すべて同じタイプの演算(例：加算)をそれぞれ別のセグメントに実行する。 STMD命令は、例えば、数値B_ij(1=0..n、j=0..m)のブロックB(例：8×8ブロック(n=7、m=7))の多数の列の１次元変換の計算に適用できる。そのために、ブロックの同じ行の数値は、１つのレジスタの各セグメントにロードされる。例えば、数値B_0,0、B_0,1、B_0,2、B_0,3は、第１レジスタR1のセグメントS0、S1、S2、S3 にそれぞれロードされ、数値B_0,4、B_0,5、B_0,6、B_0,7は、第２レジスタR2のセグメントS0、S1、S2、S3にそれぞれロードされ、数値B_1,0、B_1,1、B_1,2、B_1,3は、第３レジスタR3のセグメントS0、S1、S2、S3にそれぞれロードされ、数値B_1,4、 B_1,5、B_1,6、B_1,7は、第４レジスタR4のセグメントS0、S1、S2、S3にそれぞれロードされる。ここで、１列の変換を実行するプログラムがあり、このプログラムは、１列の数値B_ij(i=0..n)が格納されているレジスタに適用される加算、減算、乗算などの算術命令を含む命令で表現されていると仮定する。これらの算術命令すべてに SIMD命令が使われる場合、このプログラムは、多数の列j=0..3について並列に変換を自動的に計算する。従って、列数がN、各レジスタの各セグメントにP個の数値が格納されているブロックの場合、N個の列を変換するには、このプログラムをN/P回のみ実行すればよい。分離可能な２次元変換の場合には、すべての列は上述のように変換できる。次いで、変換後のブロックの行すべてを変換する必要がある。このような２次元変換の例として、２次元IDCTがある。この場合、変換後のブロックA_ijは次のように表わされる。ここで、u=0の場合C_u=1/sqrt(2)、それ以外ではC_u=１であり、かつ0からＮ−１までの整数について合計が実行される。この２次元変換は、最初に、という１次元変換によって中間ブロックINT_ivを得、次いでこの中間ブロックに次の１次元変換を適用することにより計算できる。従って、この２次元変換は、２つの１次元変換、つまりBをINTにする変換とINT をAにする変換の合成として計算される(2つの変換の「合成」とは、１つの変換の適用結果に別の変換が適用されることを意味する)。IDCTの例では、どちらの１次元変換が最初に適用されるかは問題ではない。本例では、まずブロックB_u,v の最初の添字に沿って合計を計算し、次に２番目の添字vに沿って合計を計算しているが、この順序を逆にしても最終結果は同じである。このような２段階の２次元変換は、SIMD命令を使うことにより計算速度を高めることができる。中間ブロックBの数値B_u,vが前述したように格納されるとき、つまり同じ行の数値B_u,v(v=0,1,2,3)がレジスタの各セグメントに格納されるときには、中間ブロックINT_i,vの計算は、多数の列を並列に（第１列の中のｖ=0の数値すべて、第２列の中のv=１の数値すべて、以下同様）変換することにより実行できる。例えば、第１レジスタのセグメントにTNT_i,v(i=0..3、v=0)がそれぞれ格納され、第２レジスタのセグメントにINT_i,v、(i=4..7、v=0)がそれぞれ格納され、第３レジスタのセグメントにINT_i,v(i=0..3、v=1)がそれぞれ格納される（以下同様）ように１つの列のいくつかの数値が１つのレジスタに格納されるように中間ブロックの数値がレジスタに格納されている場合には、SIMD命令を使用して同様の並列処理を行うことが可能である。この場合、中間ブロックINTの多数の行は、SIMD命令を使用して並列に変換できる。しかしながら、ブロックBからの中問ブロックINTの計算後には、数値は、レジスタにこのように格納されることはないであろう。つまり、１つの列のいくつかの数値INT_s,v、(i=0..3v=0)が１つのレジスタに格納されるのではなく、１つの行のいくつかの数値INT_i,v(i=0 v=0..3)が各レジスタに格納されるであろう。この理由は、中間ブロックの計算時には各列について個別に１次元変換を行う必要があるのに対し、最終ブロックAの計算時には各行について個別に１次元変換を行う必要があるためである。両方のタイプの変換にSIMD命令を使えるようにするには、中間ブロックを置き換える、つまりレジスタ間で数値を再編成する必要がある。これは複雑な操作である。４セグメントレジスタ、8×8ブロックの例では、置き換えのために16個のレジスタと、２つの入力をもつ32個の演算が必要となる。本発明の目的は、この置き換えを不要とすることにある。行の変換に対して、同じ行の異なる数値がレジスタに格納されている中間ブロックの数値の配置が、そのま維持され、かつこれらのレジスタに格納されている行における１次元変換を実行するために、これらのレジスタ内のこれらの数値を組み合わせる専用命令が使用される。専用命令を使用することにより、置き換えを行わずに２次元の分離可能な変換を実行することできる。また３次元以上の変換も、１次元用のこの専用命令と、２次元以上用のSIMDタイプの演算との組み合わせにより、他の方策を必要とせずに使用することができる。もっとも単純な実行例では、１行のIDCT全体を実行できる機能単位が少なくとも１つ設けられる。１つの列の４つの数値をそれぞれ格納するレジスタを使用する８点IDCTの場合、このような命令は、２つのオペランドレジスタと２つの結果レジスタを必要とする。第２図は、８点１次元IDCTの実行のデータフロー図の例を示す。このデータフロー図は、Proceedings International Conference on Acoustics，Speech and Signal Processing 1989(IC-IASSP‘89)の第988〜991頁に刊行された、C．Loeff ler、A．Ligtenberg、G．Moschytzらによって発表された「Practical Fast 1-D DCT Algorithms with 11 multiplications」という題名の記事の記載に基づいている。左側のノード30a-hは、変換する必要のある行における位置ｖ=0..7の添字ｖの値により数値を表わしている。右側ノード32a-hは、変換後の行における位置ｊ=0..7の添字ｊの値により変換後の数値を表している。ノード32a-hからの線は、数値から各演算までのデータフローと、これらの演算の結果から別の演算または変換後の数値までのデータフローを表す。演算は次のように表わされる。２本の実線が入力しているドットは合計を表す。１本の実線と１本の破線が入力しているドットは減算を表し、実線に沿って送られる数値から破線に沿って送られる数値が引かれる。２つの入力と２つの出力をもつボックスは回転と因数分解、つまり次の式に従う(X0,Y0)から(X1,Y1)への計算を表す。 X₁=I(X₀cosψ-Y₀sinψ) Y₁=I(X₀sinψ+Y₀cosψ) ボックス内には係数Ｉの値と角度の識別が記されていて、これらはあらかじめ決められた値である。ブロックは、４つの乗算、加算、減算を使用して実行できる (これに代えて、３つの乗算と３つの加算を使うこともできる)。１つの実行例の場合、行IDCT命令によってそのオペランドのセグメントの内容をIDCT変換させる行IDCT命令を実行できる少なくとも１つの機能単位が設けられている。レジスタあたり４セグメントの８点IDCTの例では、行を変換するために２つのオペランドが必要となる。そしてこのような命令は、変換を表す数値がその変換における周波数位置(frequency position)に従って各セグメントに書き込まれる結果レジスタを２つ必要とする。このような機能単位によるIDCTの実行は、個々の命令による実行よりもはるかに高速である。その理由は、少なくとも、オペランド内の異なる位置のセグメントに格納されている数値の組み合わせを、機能単位内の配線によって実現できることにある。この配線は、IDCTに固有な配線である。さらに、第３図のデータフロー図は、このような機能単位ではかなり多くの並列処理が可能であるため、多数の演算を並列に実行することにより実行速度をさらに高速にすることが可能であることを示している。このように、２次元IDCT変換は、列については算術SIMD命令を使用して、多数の列に１次元IDCT変換を並列に適用し、かつ行についてはこれとは別の専用IDCT 命令を使用して、機能的に同じIDCT変換を行に適用することにより実行することができる。プロセッサアーキテクチャによっては、機能単位が、代表的には１つの演算コード、２つのソースレジスタ参照、１つの結果レジスタ参照を含む標準の命令フォーマットを使用する必要がある。この場合、各機能単位は、レジスタファイルの読み取りポートに接続される２つのポートと、レジスタファイルの書き込みポートに接続される１つのポートを有することが出来る。しかしながら、２つ以上のレジスタに格納されている数値を変換するIDCT命令の場合、変換後の数値を書き込むために２つ以上の結果レジスタが必要となる。１つの結果レジスタしか使用できないアーキテクチャの場合、この要件は、論理上隣接する結果レジスタに時間をずらして結果を順次書き込むなどのさまざまな方法で実現できる。これに代えて、機能単位に並列に発行される２つの命令の組み合わせを使用することもできる。通常、このような２つの命令は、２つの機能単位に対し並列に使用されるであろう。これに代えて、IDCTを実行する１つの機能単位をプログラムする２つの命令の組み合わせが使用される。この２つの命令の組み合わせを使用することにより、相異なる２つの結果レジスタを指定できる。並列に発行される各命令に対しレジスタファイルへの１つの書き込みポートを備えるプロセッサの場合、この方法によって、レジスタファイルへの１つの書き込みポートを両方の結果に対し確実に利用することが可能となる。これに代えて、機能単位に対し２種類の命令、つまりレジスタ内の数値の半分を生成する命令と、残りの半分を生成する命令とを定義することもできる。より一般的には、どの命令も結果レジスタの最大数(例：1つ)より多くの結果レジスタを必要としないように、IDCTの計算の部分ごとに専用の命令を用意してもよい。このような命令を選択するためには、IDCTデータフロー図を部分図に分け、１つの専用命令を各部分図に割り当てても良い。すべての部分図の出力数を一定数以下とすることにより、どの専用命令についても２つ以上の結果レジスタは不必要となるようにすることができる。第３図は、破線のボックス39a-gによって示される部分図への分割の例を示す。各ボックスは、変換の計算速度を高めるために並列に実行される演算の組み合わせを提供する多数の専用命令のデータフローを定義する。各命令の結果に必要なセグメント数は４以下になっている。これらの命令は、各セグメント内の数値の場所がSIMD変換に必要な場所に対応するように、つまり第３図の左側のｖ=0.. 3によって示される第１レジスタの各セグメント内の数値と、ｕ=4..7によって示される第２レジスタの各セグメント内の数値に対応するように定義される。第１の例である、第１破線ボックス39aに対応する最初の命令INS1 R1,R2,R3は、オペランドとして２つのレジスタR1、R2を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - 第１レジスタR1の第１セグメント内の数値(v=0)と第２レジスタR2の第１セグメント内の数値(v＝4)とを加算する。その結果を結果レジスタR3の第１セグメントに格納する。 - 同じこれらの２つの数値の減算を行い、その結果を結果レジスタR3の第２セグメントに格納する。 - 第１レジスタR1の第３セグメント(v=2)内の数値と第２レジスタR2の第３セグメント内の数値を、係数sqrt(2)およびあらかじめ決められたサイン値とコサイン値の回転におけるX₀、Y₀として使用する。その結果であるX₁、Y₁を、結果レジスタの第３セグメントと第４セグメントに格納する。第4b図は、INS1命令を実行するための機能単位40の例を示す。機能単位40は、第１レジスタR1と第２レジスタR2の内容をそれぞれ受け取る２つの入力セクション 42、46と、この機能単位を作動させる命令デコーダ48、それにR1とR2の第１セグメントS0の合計、R1とR2の第Ｌセグメントの差、R1とR2の第３セグメントS2の回転を計算する演算回路44a-cを有する。これらの計算の結果は、結果レジスタR3 への書き込みのために、出力セクション49のセグメントS0〜S3に結合される。２番目の例である、第２破線ボックス39bに対応する２番目の命令INS2 R3,R4 は、オペランドとして１つのレジスタR3を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - オペランドレジスタR3の第１セグメントと第４セグメントに格納されている数値を加算し、その結果を結果レジスタR4の第１セグメントに格納する。 - オペランドレジスタR3の第２セグメントと第３セグメントに格納されている数値を加算し、その結果を結果レジスタR4の第２セグメントに格納する。 - オペランドレジスタR3の第２セグメント内の数値からオペランドレジスタR3 の第３セグメント内の数値を減算し、その結果を結果レジスタR4の第３セグメントに格納する。 - オペランドレジスタR3の第１セグメント内の数値からオペランドレジスタR3 の第４セグメント内の数値を減算し、その結果を結果レジスタR4の第４セグメントに格納する。第4a図は、INS2命令を実行する機能単位20の例を示す。機能単位20は、オペランドレジスタR3の内容を受け取る入力セクション、加算と減算を計算する演算装置 24a-bと25a-b、機能単位20を作動させる命令デコーダ28、出力セクション26を有する。加算と減算の結果は、結果レジスタR4への書き込みのために出力セクション26のセグメントS0〜S3に結合される。３番目の例である、第３破線ボックス39cに対応する３番目の命令INS3R4,R5,R 6は、オペランドとして２つのレジスタR4、R5を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - 第１オペランドレジスタR4の第１セグメントとオペランドレジスタR5の第４セグメントに格納されている数値を加算し、その結果を結果レジスタR6の第１セグメントに格納する。 - 第１オペランドレジスタR4の第２セグメントと第２オペランドレジスタR5の第３セグメントに格納されている数値を加算し、その結果を結果レジスタR6 の第２セグメントに格納する。 - 第１オペランドレジスタR4の第３セグメントと第２オペランドレジスタR5の第２セグメントに格納されている数値を加算し、その結果を結果レジスタR6 の第３セグメントに格納する。 - 第１オペランドレジスタR4の第４セグメントと第２オペランドレジスタR5の第１セグメントに格納されている数値を加算し、その結果を結果レジスタR6 の第４セグメントに格納する。４番目の例である、破線ボックス39hに対応する４番目の命令INS4 R4,R5,R6は、オペランドとして２つのレジスタR4、R5を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - オペランドレジスタR5の第４セグメントに格納されている数値から、第１オペランドレジスタR4の第１セグメントに格納されている数値を減算し、その結果を結果レジスタR6の第４セグメントに格納する。 - 第２オペランドレジスタR5の第３セグメントに格納されている数値から、第１オペランドレジスタR4の第２セグメントに格納されている数値を減算し、その結果を結果レジスタR6の第３セグメントに格納する。 - 第２オペランドレジスタR5の第２セグメントに格納されている数値から、第１オペランドレジスタR4の第３セグメントに格納されている数値を減算し、その結果を結果レジスタR6の第２セグメントに格納する。 - 第２オペランドレジスタR5の第１セグメントに格納されている数値から、第１オペランドレジスタR4の第４セグメントに格納されている数値を減算し、その結果を結果レジスタR6の第４セグメントに格納する。５番目の例である、第４破線ボックス39dに対応する５番目の命令INS5 R1,R2, R7は、オペランドとして２つのレジスタR1、R2を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - 第１ソースレジスタR1の第４セグメントと第２ソースレジスタR2の第２セグメントからの数値を、結果レジスタR7の第２セグメントと第３セグメントにそれぞれ格納する。 - 第２レジスタR2の第３セグメント(v=2)の中の数値と第１レジスタR1の第２セグメントの中の数値を、係数２およびあらかじめ決められたサイン値とコサイン値(45°に対応)の回転におけるX₀、Y₀として使用する。その結果のX₁、 Y₁を結果レジスタの第３セグメントと第４セグメントに格納する(この回転は、45°のサインとコサインは互いに等しいので少ない回数の乗算で実行できる)。６番目の例である、第６破線ボックス39eに対応する６番目の命令INS6 R7,R8 は、オペランドとして１つのレジスタR7を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - オペランドレジスタR7の第１セグメントと第３セグメントに格納されている数値を合計し、その結果を結果レジスタR8の第１セグメントに格納する。 - オペランドレジスタR7の第２セグメントと第４セグメントに格納されている数値を合計し、その結果を結果レジスタR8の第４セグメントに格納する。 - オペランドレジスタR7の第１セグメント内の数値からオペランドレジスタR7 の第３セグメント内の数値を減算し、その結果を結果レジスタR8の第３セグメントに格納する。 - オペランドレジスタR7の第４セグメント内の数値からオペランドレジスタR7 の第２セグメント内の数値を減算し、その結果を結果レジスタR8の第２セグメントに格納する。７番目の例である、第７破線ボックス39fに対応する７番目の命令INS7R8,R9は、オペランドとして１つのレジスタR8を参照する。この命令により、機能単位は以下の演算を並列に実行する。 - ソースレジスタR8の第１セグメントと第４セグメント内の数値を、係数sqrt( 2)およびあらかじめ決められたサイン値とコサイン値の回転におけるX₀、Y₀ として使用する。その結果のX₁、Y₁を結果レジスタR9の第１セグメント第４セグメントに格納する。 - ソースレジスタR8の第２セグメントと第３セグメント内の数値を、係数sqrt( 2)およびあらかじめ決められたサイン値とコサイン値の回転におけるX₀、Y₀ として使用する。その結果のX₁、Y₁を結果レジスタR9の第２セグメント第３セグメントに格納する。これらの命令において、乗算時にいくつかの最下位ビットが破棄されるように、レジスタ内の数値をすべてビット数が同じ固定小数点数として表わしてもよい。ほとんどすべての固定小数点数は、+1〜-1の範囲で定義することが出来る。しかしながら、回転／スケーリングの結果はこの例外であり、-2〜2の範囲の固定小数点数が望ましい。この数値表現を使用しかつデータフロー図を前述したように命令に分割すると、丸めにより精度は、ほとんど失われないことが判明している。これらの命令における加算および／または乗算は、結果の大きさがレジスタに保持できる値範囲を超える場合には、命令の結果のクリッピングを提供することが望ましい。しかしながら、先に示したようにデータフロー図が命令に分割されているときは、通常、クリッピングは必要ないことが判明している。これらの命令すべてがデータ処理装置によって提供される場合には、２つのレジスタR1、R2のセグメントに含まれる行の８点IDCTは、次のプログラムを使用してプログラムできる。 INSI R1,R2,R3 INS2 R3,R4 INS5 R1,R2,R7 INS6 R7,R8 INS7 R8,R9 INS3 R4,R9,R5 INS4 R4,R9,R6 この結果として、IDCT変換の行を構成する数値は、レジスタR5、R6のセグメントに格納される。ブロック全体を変換するためには、必要となる他のレジスタを使用して、これらの命令を他の行についても繰り返す必要がある。また言うまでもないが、２つ以上の機能単位を有するVLIWプロセッサの場合、命令INSI-INS7すべてを１つの同じ機能単位に対する命令とすることが出来るが、これらの命令IN S1-INS7を複数の機能単位によって実行させることもできる。例えば、乗算を行う命令のための機能単位と、加算と減算のみを行う命令のための機能単位をそれぞれ用意することもできる。命令への演算のグループ分けを再編成することも可能である。例えば、INS1R1 ,R2,X;INS2 X,R4の順次実行とINSA R1,R2,R4の実行とが機能的に等価となるように、INS1とINS2の演算を１つの命令INSAに結合することができる。同様に、INS5 R1,R2,X;INS6 X,Y;INS7 Y,R9の順次実行とINSB R1,R2,R9の実行とが等価となるように、INS5、INS6、INS7を１つの命令に結合することができる。また演算の結果を逆の順序で結果レジスタのセグメントに格納するように命令INS7を修正することにより、INS3とINS4をそれぞれSIMD加算、SIMD減算に置き換えることができる。しかしながらこの場合、セグメント0-3の内容を互いに交換し、セグメント1 -2の内容を互いに交換する追加の「逆順」命令が必要になる。この命令は、変換後の数値が正しい順序で得られるようにTNS4のSIMDバージョンの結果に適用する必要がある。ブロックを変換するために実行する必要のある命令の数は、命令INS1-INS7を受け取って演算を並列に実行し、命令内で参照される１つまたは複数のオペランド内の相異なるセグメントを組み合わせる１つまたは複数の機能単位を提供することにより減らすことができる。これにより変換に必要な時間(命令サイクルの数)が短縮される。このような機能単位によるIDCTの実行は、個々の命令による実行よりもはるかに高速である。その理由は、少なくとも、オペランド内の異なる位置のセグメントに格納されている数値の組み合わせを機能単位内の配線によって実現できることにある。この配線はIDCTに固有なものである。もちろん、追加命令INS1-1NS7のうちの１つ、またはこれらの命令の任意の組み合わせが機能単位によって提供されている場合には、実行時間の短縮はすでに達成されている。これらの命令のうち提供されていない命令が１つ以上あるときは、それらの機能は従来の命令を使用して実行できる。さらに、プログラムを格納するのに必要なメモリ空間も減少し、これは特に、変換が行われるプログラムで顕著である。当然ながらこの利点は、命令の中の演算が並列に実行されない場合にも得られる。どのような組み合わせの命令に対してもプログラム空間は減少するであろう。しかしながら、INS1-INS7の組み合わせは任意ではなく、それらは、IDCTの計算に必要なセグメントを組み合わせて処理速度を高めるための演算と、さらに並列に実行できる演算を組み合わせてIDCT の計算速度をさらに高めるための演算とを提供する特殊な特性を持つ。先に示した例は、８点２次元IDCTを実行するのに４つのセグメントをもつレジスタ、例えば、４つの16ビットセグメントをもつ64ビットのレジスタを使用している。当然ながら、本発明は、これらの数値に限定されるものではない。これ以外のサイズのセグメント(例:8ビット、12ビット、32ビットのセグメント)および／またはこれ以外のビット数のレジスタ(例：128ビット)も使用できる。16ビッドセグメントの128ビットレジスタを使用する場合、８つの数値を格納でき、例えば、８点IDCTおよび８ビットブロックの行全体を、１つのレジスタと１つの結果レジスタのみの１つの命令として実行できる。より一般的には、レジスタ内の異なる位置のセグメントに格納されているオペランドを組み合わせる演算を実行する(並列実行が望ましい)専用命令を実行できる機能単位を提供することにより、如何なる種類のプログラムの速度も高めることができる。前述した分離可能な変換は、その一例である。１つのプログラムが与えられたとき、そのプログラムのデータフローを分析し、同じオペランドまたは２つのオペランド内の異なるセグメントを組み合わせる演算の頻度の高い組み合わせを取り出すことにより、適切な専用命令を見出すことができる。適切な命令が見出された場合、命令デコーダ120とスイッチ回路125は、機能単位がその命令を扱えるように設計される。これらの専用命令は、SIMD命令セットと組み合わせるのが望ましい。この場合、１つまたは複数の機能単位は、協働して、またはそれぞれ個別に、(オペランド内の対応する位置のセグメントのペアを組み合わせて)SIMDデータフローによる算術命令の完全なセットを提供する。さらに少なくとも１つの機能単位は、命令の１つまたは複数のオペランド内の異なる位置のセグメントを組み合わせる2 〜3個の選択された命令を実行できる（この場合の「異なる位置」とは、SIMD命令におけるオペレータランド内の位置と異なるという意味である）。この方法は、IDCTのみならず、あらゆる種類の分離可能な変換に特に使用できる。例えば、２次元フーリエ変換やHadamard変換のほか、H1(x)H2(y)と書くことのできる(ガウスカーネルのような)2次元の分離可能なカーネルH(x,y)によるたたみこみ、あるいは３次元以上の変換やたたみこみなどに利用できる。一般に、分離可能な変換は、入力値として一連の数値をとって出力として一連の新しい数値を定義する１次元変換を使用する。分離可能な変換は、２つのこのような１次元変換の合成を有する。第１の１次元変換は、一連の数値の各セットそれぞれについて計算され、新しい一連の数値のセットが生成される。第２の変換は、この新しい一連の数値のセットから対応する位置の数値を連続してとることにより得られる横方向の一連の数値について計算される。上記それぞれの場合において、変換する必要のある数値は、オペランドのセグメント内に格納してもよい。その場合、数値が格納されるセグメントの位置は、数値が位置する列によって各行ごとに同じ方法で決定される（各オペランド内の数値は同じ行に属す）。変換は、専用命令を使用して行方向に、そしてSIMD命令によって行を横切る方向に並列に何度でも実行できる。

Claims

【特許請求の範囲】 1. -オペランド内の各位置で複数のセグメントにそれぞれ分割されている、オペランドを格納するオペランド格納回路と、 -１つまたは複数のオペランド参照を含む命令を実行し、それぞれが、前記オペランド格納回路の各ソースオペランドの前記セグメントを共通に参照する、命令実行ユニットとを有するデータ処理装置であって、当該命令が、前記命令実行ユニットに複数の演算を並列かつ互いに独立に実行させ、各演算が、前記１つまたは複数の各ソースオペランドからのあらかじめ決められているセグメントを組み合わせる、データ処理装置において、少なくとも前記演算の１つが、前記１つまたは複数の各ソースオペランド内の相異なる位置を有するセグメントを組み合わせ、および／または少なくとも前記演算の１つが、前記他の演算と異なることを特徴とするデータ処理装置。 2. 当該命令がクロス命令として参照され、前記命令実行ユニットが、複数のオペランド参照をさらに含む並列命令を実行するようにも構成されていて、それぞれが、前記オペランド格納回路内の各ソースオペランドのセグメントを共通に参照し、当該並列命令が、前記命令実行ユニットに複数の演算を並列かつ互いに独立に実行させ、各演算が、さらに参照される前記複数のソースオペランド内に互いに対応する位置を有する前記ソースオペランドからのあらかじめ決められているセグメントを組み合わせる、請求項１のデータ処理装置。 3. 少なくとも行と列を有するマトリックスの列変換と行変換の合成を計算するプログラムがプログラムされていて、 -前記列変換が、それぞれ１次元列変換に従って列を変換し、前記列変換が、前記並列命令を使用して実行され、前記複数の各オペランドが、相異なる列の情報項目を前記列に従って各セグメントに格納し、 -前記行変換が、それぞれ１次元行変換に従って行を変換し、かつ前記行変換が、前記クロス命令を使用して実行され、同じ行の情報項目が、前記少なくとも１つのオペランドの各セグメントに格納される、請求項２のデータ処理装置。 4. 前記行変換と前記列変換とが、前記同じ１次元変換に対応する、請求項３のデータ処理装置。 5. 前記命令によって行われる前記演算が、前記１つまたは複数のソースオペランド内の２つのセグメントの合計と差の計算を含む、請求項１のデータ処理装置。 6. 前記命令によって行われる前記演算により、前記１つまたは複数のソースオペランドの各セグメントに格納されている数値の(IDCTやDCTのような)ベクトル変換の複数の成分係数が計算され、かつ前記データ処理装置が、前記命令によって共通に参照される結果オペランドの各位置のセグメントに前記成分係数を格納する、請求項１のデータ処理装置。 7. 前記複数のソースオペランドの前記セグメント内に格納されている前記数値が、変換される入力ベクトルを構成し、前記入力ベクトルの前記変換の前記成分係数が、複数の結果オペランドの前記セグメントに格納される、請求項６のデータ処理装置。 8. セグメント化オペランド格納回路を有するプロセッサを使用して少なくとも行と列を有するマトリックスを変換する方法であって、前記方法が、列変換と行変換の合成の計算を有し、 -前記列変換が、それぞれ１次元列変換に従って列を変換し、前記列変換が、少なくとも１つのSIMD命令を使用して実行され、前記SIMD命令が、前記SIMD命令内で参照されるオペランド格納回路の各セグメントに格納されている前記相異なる列の情報項目を使用して、前記プロセッサに前記相異なる列を並列に処理させ、 -前記行変換が、それぞれ１次元の行変換に従って行を変換し、前記行変換が、前記同じ行の情報項目に対して前記プロセッサにいくつかの演算を並列に実行させる少なくとも１つのクロス命令を使用して実行され、前記同じ行の前記情報項目が、前記クロス命令内で参照されるオペランド格納回路の各セグメントに格納される、変換方法。 9. 前記行変換と前記列変換とが、前記同じ１次元変換に対応する、請求項７の方法。 10．請求項７または８の前記方法を実行するコンピュータプログラムを格納する、コンピュータによって読み取ることのできるメディア。