JPH10512069A

JPH10512069A - パックされたデータのシフト演算を行うプロセッサ

Info

Publication number: JPH10512069A
Application number: JP8519115A
Authority: JP
Inventors: ペレグ，アレキザンダー; ヤーリ，ヤーコブ; ミタル，ミリンド; メネマイアー，ラリー・エム; エイタン，ベニー
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1994-12-01
Filing date: 1995-12-01
Publication date: 1998-11-17
Also published as: CA2205830C; ZA9510127B; BR9509841A; DE19581873C2; CA2205830A1; US5666298A; US5818739A; JP2006172486A; KR100252411B1; DE19581873T1; JP3924307B2; AU4595596A; WO1996017289A1

Abstract

(57)【要約】プロセッサ（１０９）が、制御信号（２０７）を受け取るように結合されたデコーダ（２０２）を備える。制御信号は、第１のソース・アドレスと第２のソース・アドレスと宛先アドレスと命令フィールドとを有する。第１のソース・アドレスは第１の場所に対応する。第２のソース・アドレスは第２の場所に対応する。宛先アドレスは第３の場所に対応する。命令フィールドは、あるタイプのパックされたデータのシフト演算を行うことを示す。プロセッサは、デコーダに結合された回路（２０３）をさらに備える。この回路は、第１の場所に格納されている第１のパックされたデータを第２の場所に格納されている値によってシフトする回路である。この回路はさらに、対応するパックされた結果データを第３の場所に伝達する。

Description

【発明の詳細な説明】シフト演算機能を有する新規なプロセッサ発明の背景１．発明の分野特に、本発明は、単一の制御信号を使用して複数のデータ要素を操作する算術演算（オペレーション）を行う装置および方法に関する。本発明は、パックされたデータ・タイプに対するシフト演算の実行を可能にする。２．関連技術の説明現在、ほとんどのパーソナル・コンピュータ・システムは１つの命令によって演算（オペレーション）を行って１つの結果を出す。命令の実行速度とプロセッサ命令の複雑さを増すことによって、パフォーマンスの向上が実現され、これは複雑命令セット・コンピュータ（ＣＩＳＣ）と呼ばれる。米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０２８６^TM マイクロプロセッサのようなプロセッサがＣＩＳＣプロセッサの範疇に入る。以前のコンピュータ・システム・アーキテクチャは、ＣＩＳＣの概念を利用するように最適化されていた。そのようなシステムは一般に、３２ビット幅のデータ・バスを持つ。しかし、コンピュータ・サポーテッド・コオペレーション（ＣＳＣ：電子会議と混在メディア・データ操作を統合したもの）、二次元／三次元グラフィックス、画像処理、ビデオ圧縮／圧縮解除、認識アルゴリズム、および音声操作を対象にしたアプリケーションによって、パフォーマンス向上の必要が増す。しかし、命令の実行速度と複雑さを増すことが唯一の解決策である。これらのアプリケーションの１つの一般的な点は、数ビットだけが重要な、大量のデータを操作することが多いことである。すなわち、意味のあるビットがデータ・バスのサイズよりもはるかに少ないビット数で表されるデータである。たとえば、プロセッサは８ビットおよび１６ビットのデータ（たとえばビデオ画像における画素の色成分）に対して多くの演算を実行するが、それよりかなり広いデータ・バスとレジスタを有する。したがって、３２ビットのデータ・バスとレジスタを有し、これらのアルゴリズムの１つを実行するプロセッサは、データの先頭８ビットだけが重要であるので、そのデータの処理、伝送、および記憶容量の最大７５パーセントが無駄になることがある。したがって、操作するデータを表すのに必要なビット数とプロセッサの実際のデータ伝送および記憶容量との差をより効率的に使用することによってパフォーマンスを向上させるプロセッサが望ましい。発明の概要複数のデータ要素に対して作用するシフト演算を有するプロセッサについて説明する。このプロセッサは、制御信号を受信するように結合されたデコーダを備える。制御信号は、第１のソース・アドレスと、第２のソース・アドレスと、宛先アドレスと、命令フィールドとを有する。第１のソース・アドレスは第１の場所に対応する。第２のソース・アドレスは第２の場所に対応する。宛先アドレスは第３の場所に対応する。演算フィールドは、あるタイプのパックされたデータのシフト演算を行うことを示す。プロセッサはさらに、デコーダに結合された回路を備える。この回路は、第１の場所に格納された第１のパックされたデータを第２の場所に格納された値によってシフトする回路である。この回路はさらに、対応するパックされた結果データを第３の場所に伝達する。本説明および図には多くの詳細が含まれるが、本発明は請求の範囲によって定義される。本発明には、それらの請求の範囲に記載されている限定だけが適用される。図面の簡単な説明本発明を、図面に限定的なものではなく例として図示する。同様の参照符号は同様の要素を示す。第１図は、本発明の方法および装置を使用するコンピュータ・システムの実施形態を示す図である。第２図は、本発明のプロセッサの実施形態を示す図である。第３図は、プロセッサがレジスタ・ファイル内のデータを操作するために使用する一般的なステップを示す流れ図である。第４ａ図は、記憶データ・タイプを示す図である。第４ｂ図、第４ｃ図、および第４ｄ図は、レジスタ内整数データ表現を示す図である。第５ａ図は、パックされたデータ・タイプを示す図である。第５ｂ図、第５ｃ図、および第５ｄ図は、レジスタ内パックされたデータ表現を示す図である。第６ａ図は、パックされたデータの使用を示す、コンピュータ・システムで使用される制御信号形式の図である。第６ｂ図は、パックされたデータの使用を示す、コンピュータ・システムで使用可能な第２の制御信号形式の図である。第７図は、パックされたデータに対してシフト演算を行うときにプロセッサが従う方法の一実施形態を示す図である。第８図は、パックされたデータの個々のバイトを処理することができる回路を示す図である。好ましい実施形態の説明概要複数のデータ要素に対して作用するシフト演算を有するプロセッサについて説明する。以下の説明では、本発明を十分に理解することができるように、回路などの多くの特定の詳細を記載する。他の場合には、本発明が無用に不明瞭にならないように、周知の構造および技法については詳細に示さない。定義本発明の実施態様の説明を理解する基礎となるように、以下のように定義を示す。ビットＸないしビットＹ：二進数のサブフィールドを規定する。たとえば、（基数２で示した）バイト００１１１０１０₂のビット６ないしビット０は、１１１０１０₂のサブフィールドを表す。二進数の後の「２」は基数２を示す。したがって、１０００₂は８₁₀に等しく、Ｆ₁₆は１５₁₀に等しい。Ｒ_x：レジスタである。レジスタは、データの記憶と供給を行うことができる任意の素子である。レジスタの他の機能については後述する。レジスタはプロセッサのパッケージの一部であるとは限らない。ＤＥＳＴ：データ・アドレスである。ＳＲＣ１：データ・アドレスである。ＳＲＣ２：データ・アドレスである。結果：ＤＥＳＴによってアドレス指定されたレジスタに格納されるデータである。ソース１：ＳＲＣＩによってアドレス指定されたレジスタに格納されているデータである。ソース２：ＳＲＣ２によってアドレス指定されたレジスタに格納されているデータである。コンピュータ・システム第１図を参照すると、本発明の実施形態を実施することができるコンピュータ・システムが、コンピュータ・システム１００として図示されている。コンピュータ・システム１００は、情報を伝送するバス１０１またはその他の通信ハードウェアおよびソフトウェアと、バス１０１に結合された情報を処理するプロセッサ１０９とを備える。コンピュータ・システム１００はさらに、バス１０１に結合され、プロセッサ１０９によって実行される情報と命令を記憶するランダム・アクセス・メモリ（ＲＡＭ）またはその他のダイナミック記憶装置（メイン・メモリ１０４と呼ぶ）を備える。メイン・メモリ１０４は、プロセッサ１０９による命令の実行中に変数またはその他の中間情報を一時的に記憶するためにも使用することができる。コンピュータ・システム１００は、バス１０１に結合され、プロセッサ１０９のための静的情報および命令を記憶する読取り専用メモリ（ＲＯＭ）１０６またはその他のスタティック記憶装置あるいはその両方も備える。バス１０１には情報と命令を記憶するデータ記憶装置１０７が結合されている。さらに、コンピュータ・システム１００には磁気ディスクや光ディスクなどのデータ記憶装置１０７とそれに対応するディスク・ドライブを結合することができる。コンピュータ・システム１００は、コンピュータ・ユーザに情報を表示するためにバス１０１を介して表示装置１２１にも結合することができる。表示装置１２１は、フレーム・バッファ、専用グラフィックス・レンダリング装置、陰極線管（ＣＲＴ）、フラット・パネル・ディスプレイを含むことができる。プロセッサ１０９に情報とコマンド選択を伝えるために、英数字およびその他のキーを備える英数字入力装置１２２が、典型的にはバス１０１に結合されている。他のタイプのユーザ入力装置は、プロセッサ１０９に指示情報とコマンド選択を伝え、表示装置１２１上のカーソル移動を制御する、マウス、トラックボール、ペン、タッチ画面、カーソル指示キーなどのカーソル制御装置１２３である。この入力装置は一般に、第１の軸（たとえばｘ）と第２の軸（たとえばｙ）の２つの軸に２つの自由度を持ち、それによってこの装置は平面内の位置を指定することができる。しかし、本発明は、２つの自由度しかもたない入力装置には限定されない。バス１０１に結合することができる他の装置は、命令、データ、またはその他の情報を、紙、フィルム、または同様のタイプの媒体などの媒体に印刷するために使用することができるハード・コピー装置１２４である。さらに、コンピュータ・システム１００は、情報を記録するためにマイクロホンに結合されたオーディオ・ディジタイザなど、録音または再生あるいはその両方のための装置１２５に結合することができる。さらに、この装置は、ディジタル化された音声を再生するためにディジタル−アナログ（Ｄ／Ａ）変換器に結合されたスピーカも含むことができる。また、コンピュータ・システム１００は、コンピュータ・ネットワーク（たとえばＬＡＮ）内の端末とすることもできる。その場合、コンピュータ・システム１００は、いくつかのネットワーク化された装置を含むコンピュータ・システムのコンピュータ・サブシステムとなる。コンピュータ・システム１００は、任意選択としてビデオ・ディジタイジング装置１２６を備える。ビデオ・ディジタイジング装置１２６を使用して、ビデオ画像を捕らえ、それをコンピュータ・ネットワーク上の他の装置に送信することができる。コンピュータ・システム１００は、コンピュータ・サポーテッド・コオペレーション（ＣＳＣ：電子会議と混在媒体データ操作とが統合されたもの）、二次元／三次元グラフィックス、画像処理、ビデオ圧縮／圧縮解除、認識アルゴリズム、および音声操作に対応するのに有用である。プロセッサ第２図にプロセッサ１０９の詳細図を示す。プロセッサ１０９は、ＢｉＣＭＯＳ、ＣＭＯＳ、ＮＭＯＳなどのいくつかの処理技法のいずれかを使用して、１つまたは複数の基板上に実装することができる。プロセッサ１０９は、プロセッサ１０９が使用する制御信号とデータをデコードするデコーダ２０２を備える。その場合、データは内部バス２０５を介してレジスタ・ファイル２０４に格納することができる。明確に言えば、実施形態のレジスタは特定のタイプの回路にのみに限定されることを意味しない。むしろ実施形態のレジスタは、データの記憶および供給と、本明細書に記載の機能を実行することができればよい。データは、データのタイプに応じて、整数レジスタ２０１、レジスタ２０９、状態レジスタ２０８、または命令ポインタ・レジスタ２１１に格納することができる。たとえば浮動小数点レジスタなど他のレジスタをレジスタ・ファイル２０４に含めることができる。一実施形態では、整数レジスタ２０１には、３２ビットの整数データが格納される。一実施形態では、レジスタ２０９にはＲ₀２１２ａ〜Ｒ₇２１２ｈの８個のレジスタが含まれる。レジスタ２０９内の各レジスタ長は６４ビットである。Ｒ₁２１２ａ、Ｒ₂２１２ｂ、およびＲ₃２１２ｃがレジスタ２０９内の個々のレジスタの例である。レジスタ２０９内の３２ビットのレジスタを、整数レジスタ２０１内の整数レジスタに移動させることができる。同様に、整数レジスタ内の値をレジスタ２０９内の３２ビットのレジスタに移動させることができる。状態レジスタ２０８は、プロセッサ１０９の状態を示す。命令ポインタ・レジスタ２１１には、次に実行される命令のアドレスが格納される。整数レジスタ２０１，レジスタ２０９、状態レジスタ２０８、および命令ポインタ・レジスタ２１１はすべて内部バス２０５に接続されている。内部バスには任意の追加のレジスタが接続される。他の実施形態では、これらのレジスタのうちのいくつかは２つの異なるタイプのデータに使用することができる。たとえば、レジスタ２０９と整数レジスタ２０１を組み合わせて、各レジスタに整数データまたはパックされたデータを格納することができる。他の実施形態では、レジスタ２０９を浮動小数点レジスタとして使用することができる。この実施形態では、パックされたデータはレジスタ２０９または浮動小数点データに格納することができる。一実施形態では、組み合わされたレジスタの長さは６４ビットで、整数は６４ビットで表される。この実施形態では、パックされたデータと整数データを格納する際に、レジスタはその２つのデータ・タイプを区別する必要がない。機能ユニット２０３は、プロセッサ１０９が行う演算を実行する。このような演算には、シフト、加算、減算、乗算などが含まれる。機能ユニット２０３は内部バス２０５に接続している。キャッシュ２０６は、プロセッサ１０９の任意選択要素であり、たとえばメイン・メモリ１０４からのデータまたは制御信号あるいはその両方をキャッシュするために使用される。キャッシュ２０６は、デコーダ２０２に接続され、制御信号２０７を受信するように接続されている。第３図に、プロセッサ１０９の動作概要を示す。すなわち、第３図にはプロセッサ１０９がパックされたデータに対する演算、アンパックされたデータに対する演算、または他の何らかの操作を実行する間にたどるステップが示されている。たとえば、このような操作にはレジスタ・ファイル２０４内のレジスタに、キャッシュ２０６、メイン・メモリ１０４、読取り専用メモリ（ＲＯＭ）１０６、またはデータ記憶装置１０７からデータをロードする操作が含まれる。本発明の一実施形態では、プロセッサ１０９は、米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０４８６^TMによってサポートされる命令のほとんどをサポートする。本発明の他の実施形態では、プロセッサ１０９は米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０４８６^TMによってサポートされるすべての演算をサポートする。本発明の他の実施形態では、プロセッサ１０９は、すべて米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するｐｅｎｔｉｕｍ^TMプロセッサ、Ｉｎｔｅｌ８０４８６^TMプロセッサ、８０３８６^TMプロセッサ、Ｉｎｔｅｌ８０２８６^TMプロセッサ、およびＩｎｔｅｌ８０８６^TMプロセッサによってサポートされるすべての演算をサポートする。本発明の他の実施形態では、プロセッサ１０９は、米国カリフォルニア州サンタクララのインテル・コーポレイションが定義するＩＡ^TM（インテル・アーキテクチャ）でサポートされるすべての演算をサポートする（米国カリフォルニア州サンタクララのインテルから入手可能な「Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ，ＩｎｔｅｌＤａｔａＢｏｏｋｓｖｏｌｕｍｅ１およびｖｏｌｕｍｅ２、１９９２年および１９９３年刊」を参照）。一般に、プロセッサ１０９はＰｅｎｔｉｕｍ^TMプロセッサの現行命令セットをサポートすることができるが、将来の命令と本明細書に記載の命令を組み込むように修正することもできる。重要なのは、汎用プロセッサ１０９が、本明細書に記載の演算に加えて、従来使用されていた演算をサポートすることができることである。ステップ３０１で、デコーダ２０２がキャッシュ２０６またはバス１０１から制御信号２０７を受け取る。デコーダ２０２は、制御信号をデコードして、実行すべき演算を判断する。ステップ３０２で、デコーダ２０２はレジスタ・ファイル２０４またはメモリ内の記憶場所にアクセスする。制御信号２０７で指定されたレジスタ・アドレスに応じて、レジスタ・ファイル２０４内のレジスタかメモリ内の記憶場所のどちらかにアクセスする。たとえば、パックされたデータに対する演算の場合、制御信号２０７にはＳＲＣ１、ＳＲＣ２、およびＤＥＳＴレジスタ・アドレスを含めることができる。ＳＲＣＩは第１のソース・レジスタのアドレスである。ＳＲＣ２は第２のソース・レジスタのアドレスである。すべての演算が２つのソース・アドレスを必要とするわけではないので、場合によってはＳＲＣ２アドレスは任意選択である。ＳＲＣ２アドレスが不要な場合、ＳＲＣ１アドレスのみが使用される。ＤＥＳＴは、結果データが格納される宛先レジスタのアドレスである。一実施形態では、ＳＲＣ１またはＳＲＣ２はＤＥＳＴとしても使用される。ＳＲＣ１、ＳＲＣ２、およびＤＥＳＴについては第６ａ図および第６ｂ図を参照しながら詳述する。対応するレジスタに格納されているデータをそれぞれＳｏｕｒｃｅ１、Ｓｏｕｒｃｅ２、およびＲｅｓｕｌｔと呼ぶ。これらの各データの長さは６４ビットである。本発明の他の実施形態では、ＳＲＣ１、ＳＲＣ２、およびＤＥＳＴのいずれか１つまたは全部は、プロセッサ１０９のアドレス可能記憶空間内の記憶場所を規定することができる。たとえば、ＳＲＣ１はメイン・メモリ１０４内の記憶場所を識別し、ＳＲＣ２は整数レジスタ２０１内の第１のレジスタを識別し、ＤＥＳＴはレジスタ２０９内の第２のレジスタを識別する。本明細書では説明を簡単にするために、レジスタ・ファイル２０４へのアクセスについて言及するが、これらのアクセスはレジスタ・ファイル２０４の代わりにメモりに対して行うこともできる。本発明の他の実施形態では、命令コードはＳＲＣ１とＳＲＣ２の２つのアドレスしか含まない。この実施形態では、演算の結果はＳＲＣ１レジスタまたはＳＲＣ２レジスタに格納される。すなわち、ＳＲＣ１（またはＳＲＣ２）をＤＥＳＴとして使用する。このタイプのアドレス指定は、２つのアドレスしか持たない以前のＣＩＳＣ命令に対応する。これによって、デコーダ２０２における複雑さが減少する。この実施形態では、ＳＲＣ１レジスタに含まれるデータを破壊してはならない場合、演算を実行する前にそのデータをまず別のレジスタにコピーしなければならないことに留意されたい。コピーには追加の命令が必要になる。本明細書では説明を簡単にするために、３アドレスのアドレス指定方式について説明する（すなわちＳＲＣ１、ＳＲＣ２、およびＤＥＳＴ）。しかし、一実施形態では制御信号にＳＲＣ１とＳＲＣ２しか含めることができず、ＳＲＣ１（またはＳＲＣ２）によって宛先レジスタを識別することを想起されたい。制御信号が演算を必要とする場合、ステップ３０３で、機能ユニット２０３がレジスタ・ファイル２０４内のアクセス・データに対してその演算を実行するようにされる。機能ユニット２０３で演算が実行されると、ステップ３０４でその結果が制御信号２０７の要件に従ってレジスタ・ファイル２０４に戻されて格納される。データ形式および記憶形式第４ａ図に、第１図のコンピュータ・システムで使用可能なデータ形式をいくつか示す。これらのデータ形式は固定小数点である。プロセッサ１０９はこれらのデータ形式を操作することができる。マルチメディア・アルゴリズムはこれらのデータ形式を使用することが多い。バイト４０１は８ビットの情報を含む。ワード４０２は１６ビットの情報、すなわち２バイトを含む。ダブルワード４０３は３２ビットの情報、すなわち４バイトを含む。したがって、プロセッサ１０９はこれらの記憶データ形式のうちの任意の１つに対して操作を行うことができる制御信号を実行する。以下の説明では、ビット、バイト、ワード、およびダブルワード・サブフィールドについて言及する。たとえば、（基数２で示す）バイト００１１１０１０₂ のビット６ないしビット０はサブフィールド１１１０１０₂を表す。第４ｂ図ないし第４ｄ図に、本発明の一実施形態で使用するレジスタ内表現を示す。たとえば、無符号バイトのレジスタ内表現４１０によって、整数レジスタ２０１内のレジスタに格納されているデータを表すことができる。一実施形態では、整数レジスタ２０１内のレジスタ長は６４ビットである。他の実施形態では、整数レジスタ２０１内のレジスタ長は３２ビットである。説明を簡単にするために、以下の説明では６４ビットの整数レジスタについて説明するが、３２ビットの整数レジスタを使用することもできる。無符号バイトのレジスタ内表現４１０は、プロセッサ１０９が整数レジスタ２０１にバイト４０１を格納し、そのレジスタ内のビット７ないしビット０の先頭８ビットがそのデータ・バイト４０１専用であることを示している。これらのビットを｛ｂ｝と示す。このバイトを正しく表すには、残りの５６ビットがゼロでなければならない。符号付きバイトのレジスタ内表現４１１の場合、整数レジスタ２０１にはデータはビット６ないしビット０の最初の７ビットにデータとして格納される。７番目のビットは符号ビットを表し、｛ｓ｝で示す。残りのビット６３ないしビット８はそのバイトの符号の継続である。無符号ワードのレジスタ内表現４１２は、レジスタ２０１のうちの１つのレジスタに格納される。ビット１５ないしビット０には、無符号ワード４０２が入れられる。これらのビットを｛ｗ｝で示す。このワードを正しく表すには、残りのビット６３ないしビット１６はゼロでなければならない。符号付きワード４０２は、符号付きワードのレジスタ内表現４１３が示すように、ビット１４ないしビット０に格納される。残りのビット６３ないしビット１５は符号フィールドである。ダブルワード４０３は、無符号ダブルワードのレジスタ内表現４１４または符号付きダブルワードのレジスタ内表現４１５として格納することができる。無符号ダブルワードのレジスタ内表現４１４のビット３１ないしビット０がデータである。これらのビットを｛ｄ｝で示す。この無符号ダブルワードを正しく表すには、残りのビット６３ないしビット３２はゼロでなければならない。整数レジスタ２０１には、符号付きダブルワードのレジスタ内表現４１５が、そのビット３０ないしビット０に格納される。残りのビット６３ないしビット３１は符号フィールドである。前述の第４ｂ図ないし第４ｄ図に示すように、データ・タイプによっては６４ビット幅のレジスタに格納するのは非効率的な格納方法である。たとえば、無符号バイトのレジスタ内表現４１０を格納する場合、ビット６３ないしビット８はゼロでなければならず、ビット７ないしビット０にしか非ゼロ・ビットを入れることができない。したがって、６４ビット・レジスタに１バイトを格納するプロセッサは、レジスタの容量の１２．５％しか使用しない。同様に、機能ユニット２０３によって実行される命令は始めの数ビットしか重要ではない。第５ａ図に、パックされたデータのデータ形式を示す。パックされたバイト５０１、パックされワード５０２、パックされたダブルワード５０３の３つのパックされたデータ形式が図示されている。パックされたバイトは、本発明の一実施形態では６４ビット長であり、８個のデータ要素を含む。各データ要素は１バイト長である。一般に、データ要素は１つのレジスタ（または記憶場所）に同じ長さの他のデータ要素と共に格納される個々のデータである。本発明の一実施形態では、１つのレジスタに格納されるデータ要素の数は、６４ビットをデータ要素のビット長で割った商である。パックされたワード５０２は６４ビット長であり、４個のワード４０２データ要素を含む。各ワード４０２データ要素は、１６ビットの情報を含む。パックされたダブルワード５０３は６４ビット長であり、２個のダブルワード４０３データ要素を含む。各ダブルワード４０３データ要素は３２ビットの情報を含む。第５ｂ図ないし第５ｄ図にレジスタ内にパックされたデータ記憶表現を示す。無符号のパックされたバイトのレジスタ内の表現５１０は、レジスタＲ₀２１２ａ〜Ｒ_n２１２ａｆのうちの１つにパックされたバイト５０１が格納されている様子を示している。各バイト・データ要素の情報は、バイト０はビット７ないしビット０に格納され、バイト１はビット１５ないしビット８、バイト２はビット２３ないしビット１６、バイト３はビット３１ないしビット２４，バイト４はビット３９ないしビット３２、バイト５はビット４７ないしビット４０、バイト６はビット５５ないしビット４８、バイト７はビット６３ないしビット５６に格納される。したがって、レジスタ内ですべての使用可能ビットが使用される。この記憶構成によって、プロセッサの記憶効率が向上する。また、８個のデータ要素にアクセスして、１つの操作を８個のデータ要素に同時に実行することができるようになる。符号付きパックされたバイトのレジスタ内表現５１１も同様にレジスタ２０９内のレジスタに格納される。どのバイト・データ要素でも８番目のビットのみが必要な符号ビットであり、他のビットは使用してもしなくても符号が示されることに留意されたい。無符号のパックされたワードのレジスタ内表現５１２は、ワード３ないしワード０がレジスタ２０９のうちの１つのレジスタに格納される様子を示している。ビット１５ないしビット０にはワード０のデータ要素情報が入り、ビット３１ないしビット１６にはデータ要素ワード１の情報が入り、ビット４７ないしビット３２にはデータ要素ワード２の情報が入り、ビット６３ないしビット４８にはデータ要素ワード３の情報が入る。符号付きパックされたワードのレジスタ内表現５１３は無符号のパックされたワードのレジスタ内表現５１２と同様である。各ワード・データ要素の１６番目のビットにのみ、必要な符号標識が入ることに留意されたい。無符号のパックされたダブルワードのレジスタ内表現５１４は、レジスタ２０９に２個のダブルワード・データ要素が格納される様子を示している。ダブルワード０はレジスタのビット３１ないしビット０に格納される。ダブルワード１はレジスタのビット６３ないしビット３２に格納される。符号付きパックされたダブルワードのレジスタ内表現５１５は無符号のパックされたダブルワードのレジスタ内表現５１４と同様である。必要な符号ビットはダブルワード・データ要素の３２番目のビットであることに留意されたい。前述のように、レジスタ２０９はパックされたデータと整数データの両方に使用することができる。本発明のこの実施形態では、アドレス指定されたレジスタ、たとえばＲ₁２１２ａにパックされたデータと単純整数／固定小数点データのどちらが格納されているかを追跡するために、個々のプログラミング・プロセッサ１０９が必要である。他の実施形態では、プロセッサ１０９はレジスタ２０９の個々のレジスタに格納されているデータのタイプを追跡することができる。この代替実施形態では、たとえば単純／固定小数点整数データに対してパックされた加算を行おうとした場合、エラーを生成することができる。制御信号の形式以下に、プロセッサ１０９がパックされたデータを操作するために使用する制御信号形式の一実施形態について説明する。本発明の一実施形態では、制御信号は３２ビットで表される。デコーダ２０２はバス１０１から制御信号２０７を受け取ることができる。他の実施形態では、デコーダ２０２はキャッシュ２０６からもそのような制御信号を受け取ることができる。第６ａ図にパックされたデータを操作する制御信号の一般的な形式を示す。命令フィールドＯＰ６０１（ビット３１ないしビット２６）は、たとえば、パックされた加算、パックされた減算など、プロセッサ１０９によって実行される演算に関する情報を供給する。ＳＲＣ１６０２（ビット２５ないしビット２０）は、レジスタ２０９内のレジスタのソース・レジスタ・アドレスを供給する。このソース・レジスタは、制御信号の実行で使用される第１のパックされたデータＳｏｕｒｃｅ１を保持する。同様に、ＳＲＣ２６０３（ビット１９ないしビット１４）には、レジスタ２０９内のレジスタのアドレスが入れられる。この第２のソース・レジスタは、演算の実行時に使用されるパックされたデータＳｏｕｒｃｅ２を保持する。ＤＥＳＴ６０５（ビット５ないしビット０）にはレジスタ２０９内のレジスタのアドレスが入れられる。この宛先レジスタには、パックされたデータ演算のパックされた結果データＲｅｓｕｌｔが格納される。制御ビットＳＺ６１０（ビット１２およびビット１３）は、第１および第２のパックされたデータ・ソース・レジスタ内のデータ要素の長さを示す。ＳＺ６１０が０１₂に等しい場合、パックされたデータはパックされたバイト５０１としてフォーマットされる。ＳＺ６１０が１０₂に等しい場合、パックされたデータはパックされたワード５０２としてフォーマットされる。しかし、００₂または１１₂と等しいＳＺ６１０を受け取った場合、他の実施形態では、これらの値のうちの１つを使用してパックされたダブルワード５０３を示すことができる。制御ビットＴ６１１（ビット１１）は、演算を飽和モードで行うかどうかを示す。Ｔ６１１が１の場合、飽和演算が行われる。Ｔ６１１がゼロの場合、非飽和演算が行われる。飽和演算については後述する。制御ビットＳ６１２（ビット１０）は、符号付き演算の使用を示す。Ｓ６１２が１の場合、符号付き演算が行われる。Ｓ６１２がゼロの場合、無符号演算が行われる。第６ｂ図に、パックされたデータを操作する制御信号の第２の一般的形式を示す。この形式は、米国イリノイ州マウント・プロスペクトＰ．Ｏ．Ｂｏｘ７６４１インテル・コーポレイションのＬｉｔｅｒａｔｕｒｅＳａｌｅｓから入手可能な”Ｐｅｎｔｉｕｍ^TM ＰｒｏｃｅｓｓｏｒＦａｍｉｌｙＵｓｅｒ’ｓＭａｎｕａｌ”に記載されている汎用整数命令コード形式に対応する。ＯＰ６０１、ＳＺ６１０、Ｔ６１１、およびＳ６１２がすべて組み合わされて１つの大きなフィールドになることに留意されたい。制御信号によっては、ビット３ないし５がＳＲＣ１６０２となる。一実施形態では、ＳＲＣ１６０２アドレスがある場合、ビット３ないし５はＤＥＳＴ６０５にも対応する。ＳＲＣ２６０３アドレスが存在する一代替実施形態では、ビット０ないし２もＤＥＳＴ６０５に対応する。パックされたシフト即値演算のような他の制御信号の場合、ビット３ないし５は命令コード・フィールドの拡張部を表す。一実施形態では、この拡張部によってプログラマはシフト・カウント値などの即値を制御信号と共に組み込むことができる。一実施形態では、即値は制御信号の後に続く。これについては” Ｐｅｎｔｉｕｍ^TM ＰｒｏｃｅｓｓｏｒＦａｍｉｌｙＵｓｅｒ’ｓＭａｎｕａｌ”の付録ＦのＦ−１〜Ｆ−３ページに詳述されている。ビット０ないし２はＳＲＣ２６０３を表す。この汎用形式によって、レジスタからレジスタ、メモリからレジスタ、メモリによるレジスタ、レジスタによるレジスタ、即値によるレジスタ、レジスタからメモリのアドレス指定を行うことができる。また、一実施形態では、この汎用形式は整数レジスタからレジスタと、レジスタから整数レジスタへのアドレス指定もサポートする。飽和／非飽和の説明前述のように、Ｔ６１１は演算が任意選択で飽和するかどうかを示す。飽和を可能にした演算の結果がデータの範囲からオーバーフローまたはアンダーフローする場合、その結果はクランプされる。クランプとは、結果がその範囲の最大値または最小値を超える場合、その結果を最大値または最小値に設定することを意味する。アンダーフローの場合、飽和によって結果がその範囲内の最低値にクランプされ、オーバーフローの場合は最高値にクランプされる。各データ形式の許容範囲を表１に示す。前述のように、Ｔ６１１は飽和演算を行うかどうかを示す。したがって、無符号バイト・データ形式を使用し、演算結果＝２５８で、飽和を使用可能にしていた場合、結果は演算の宛先レジスタに格納される前に２５５にクランプされることになる。同様に、演算結果＝−３２９９９で、プロセッサ１０９が飽和を使用可能にして符号付きデータ形式を使用した場合、結果は演算の宛先レジスタに格納される前に−３２７６８にクランプされることになる。シフト演算本発明の一実施形態では、標準ＣＩＳＣ命令セット（アンパックされたデータ演算）をサポートするだけでなくパックされたデータのシフト演算もサポートすることによって、ＣＳＣアプリケーションのパフォーマンスを向上させる。パックされたシフト演算を使用して、高速フーリエ変換、コサイン変換、およびその他のディジタル画像および音声信号処理アルゴリズムの固定小数点インプレリメントの速度を高速化することができる。本発明の一実施形態では、ＳＲＣ１レジスタにはシフトさせるデータ（Ｓｏｕｒｃｅｌ）が入れられ、ＳＲＣ２レジスタにはシフト・カウントを表すデータ（Ｓｏｕｒｃｅ２）が入れられ、ＤＥＳＴレジスタにはシフトの結果（Ｒｅｓｕｌｔ）が入れられる。すなわちＳｏｕｒｃｅｌはシフト・カウントによって独立してシフトされた各データ要素を有することになる。一実施形態では、Ｓｏｕｒｃｅ２は無符号６４ビット・スカラと解釈される。他の実施形態では、Ｓｏｕｒｃｅ２はパックされたデータであり、Ｓｏｕｒｃｅ１内のそれぞれの対応するデータ要素のシフト・カウントが入れられる。本発明の一実施形態では、算術シフトと論理シフトの両方をサポートする。算術シフトは、各データ要素のビットを指定された数だけ下にシフトし、各データ要素の上位ビットを符号ビットの初期値で満たす。パックされたバイト・データの場合の７を超えるシフト・カウント、パックされたワード・データの場合の１５を超えるシフト・カウント、またはパックされたダブルワードの場合の３１を超えるシフト・カウントがあると、各Ｒｅｓｕｌｔデータ要素は符号ビットの初期値で満たされる。論理シフトは、ビットを上下にシフトさせることによって機能することができる。右シフト論理演算では、各データ要素の上位ビットがゼロで満たされる。左シフト論理演算では、各データ要素の下位ビットがゼロで満たされる。本発明の一実施形態では、パックされたバイトおよびパックされたワードの右シフト算術演算と右シフト論理演算と左シフト論理演算がサポートされる。本発明の他の実施形態では、パックされたダブルワードでもこれらの演算がサポートされる。第７図に、パックされたデータに対してシフト演算を行う方法の一実施形態を示す。この実施形態は、第２図のプロセッサ１０９で実施することができる。ステップ７０１で、プロセッサ１０９が受け取った制御信号２０７をデコーダ２０２がデコードする。したがって、デコーダ２０２は、適切なシフト演算の命令コードと、整数レジスタ２０９内のＳＲＣ１６０２、ＳＲＣ２６０３、およびＤＥＳＴ６０５アドレスと、飽和／非飽和（シフト演算の場合は必ずしも必要ではない）と、符号付き／無符号（これも必ずしも必要ではない）と、パックされたデータ内のデータ要素の長さとをデコードする。ステップ７０２で、ＳＲＣ１６０２アドレスとＳＲＣ２６０３アドレスが与えられた場合、内部バス２０５を介してデコーダ２０２がレジスタ・ファイル２０４内の整数レジスタ２０９にアクセスする。整数レジスタ２０９は機能ユニット２０３にＳＲＣ１６０２レジスタに格納されているパックされたデータ（Ｓｏｕｒｃｅ１）と、ＳＲＣ２６０３レジスタに格納されているスカラ・シフト・カウント（Ｓｏｕｒｃｅ２）を供給する。すなわち、整数レジスタ２０９は、パックされたデータを内部バス２０５を介して機能ユニット２０３に伝達する。ステップ７０３で、デコーダ２０２は機能ユニット２０３が適切なパックされたシフト演算を実行することができるようにする。デコーダ２０２は、さらに、内部バス２０５を介してデータ要素のサイズとシフト演算のタイプとシフトの方向（論理シフトの場合）も伝達する。ステップ７１０で、データ要素のサイズによって次にどのステップを実行するかが決まる。データ要素のサイズが８ビット（バイト・データ）の場合、機能ユニット２０３はステップ７１２を実行する。しかしパックされたデータ内のデータ要素のサイズが１６ビット（ワード・データ）の場合、機能ユニット２０３はステップ７１４を実行する。一実施形態では、８ビットと１６ビットのデータ要素サイズのパックされたシフトのみがサポートされる。しかし、他の実施形態では、３２ビットのデータ要素サイズのパックされたシフトもサポートされる。データ要素のサイズが８ビットであると仮定すると、ステップ７１２が実行される。ステップ７１２では以下のシフト演算が行われる。Ｓｏｕｒｃｅ１のビット７ないし０がシフト・カウント（Ｓｏｕｒｃｅ２のビット６３ないし０）によってシフトされ、Ｒｅｓｕｌｔのビット７ないし０が生成される。Ｓｏｕｒｃｅ１のビット１５ないし８がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット１５ないし８が生成される。Ｓｏｕｒｃｅ１のビット２３ないし１６がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット２３ないし１６が生成される。Ｓｏｕｒｃｅ１のビット３１ないし２４がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット３１ないし２４が生成される。Ｓｏｕｒｃｅ１のビット３９ないし３２がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット３９ないし３２が生成される。Ｓｏｕｒｃｅ１のビット４７ないし４０がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット４７ないし４０が生成される。Ｓｏｕｒｃｅ１のビット５５ないし４８がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット５５ないし４８が生成される。Ｓｏｕｒｃｅ１のビット６３ないし５６がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット６３ないし５６が生成される。データ要素のサイズが１６ビットであると仮定すると、ステップ７１４が実行される。ステップ７１４では以下のシフト演算が行われる。Ｓｏｕｒｃｅ１のビット１５ないし０がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット１５ないし０が生成される。Ｓｏｕｒｃｅ１のビット３１ないし１６がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット３１ないし１６が生成される。Ｓｏｕｒｃｅ１のビット４７ないし３２がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット４７ないし３２が生成される。Ｓｏｕｒｃｅ１のビット６３ないし４８がシフト・カウントによってシフトされ、Ｒｅｓｕｌｔのビット６３ないし４８が生成される。一実施形態では、ステップ７１２のシフト演算が同時に行われる。しかし、他の実施形態では、これらのシフト演算は順次に行われる。他の実施形態では、これらのシフト演算の一部が同時に行われ、一部は順次に行われる。これは、ステップ７１４のシフト演算にも同様に適用される。ステップ７２０で、ＲｅｓｕｌｔがＤＥＳＴレジスタに格納される。表２に、パックされた右シフト算術演算のレジスタ内表現を示す。最初の行のビットはＳｏｕｒｃｅ１のパックされたデータ表現である。２番目の行のビットはＳｏｕｒｃｅ２のデータ表現である。３番目の行のビットはＲｅｓｕｌｔのパックされたデータ表現である。各データ要素ビットの下の数字はデータ要素番号である。たとえば、Ｓｏｕｒｃｅ１データ要素３は１０００００００₂である。表３に、パックされたバイト・データに対するパック右シフト論理演算のレジスタ内表現を示す。表４に、パックされたバイト・データに対するパック左シフト論理演算のレジスタ内表現を示す。パックされたデータ回路一実施形態では、アンパックされたデータに対する単一のシフト演算と同じクロック・サイクル数で複数のデータ要素に対するシフト演算を行うことができる。同じクロック・サイクル数での実行を実現するために、並列処理を使用する。すなわち、データ要素に対してシフト演算を行うように各レジスタが同時に命令される。これについては以下で詳述する。第８図に、アンパックされたデータに対するシフト演算と同じクロック・サイクル数でパックされたデータに対するシフト演算を行うことができる回路の一部の一実施形態を示す。第８図には、修正バイト・スライス・シフト回路であるバイト・スライス段_i ８９９の使用が図示されている。最上位データ要素バイト・スライスを除く各バイト・スライスは、シフト・ユニットとビット制御回路を含む。最上位データ要素バイト・スライスはシフト・ユニットのみを備えるだけでよい。シフト・ユニット_i８１１とシフト・ユニット_i+1８７１はそれぞれ、シフト・カウントによってＳｏｕｒｃｅ１から８ビットをシフトさせることができる。一実施形態では、各シフト・ユニットは周知の８ビット・シフト回路のように動作する。各シフト・ユニットは、Ｓｏｕｒｃｅ１入力とＳｏｕｒｃｅ２入力と制御入力と次段信号と最終段信号と結果出力とを有する。したがって、シフト・ユニット_i８１１は、Ｓｏｕｒｃｅ１_i８３１入力とＳｏｕｒｃｅ２［６３：０］８３３入力と制御_i８０１入力と次段_i８１３信号と、最終段_i８１２入力と結果レジスタ_i８５１に格納される結果とを有する。したがって、シフト・ユニット_i+1８７１は、Ｓｏｕｒｃｅ１_i+1８３２入力とＳｏｕｒｃｅ２［６３：０］８３３入力と制御_i+1８０２入力と次段_i+1８７３信号と最終段_i+1８７２入力と、結果レジスタ_i+1８５２に格納される結果とを有する。Ｓｏｕｒｃｅ１入力は典型的にはＳｏｕｒｃｅ１の８ビット部分である。この８ビットは、最小のタイプのデータ要素である１パックされたバイト・データ要素を表す。Ｓｏｕｒｃｅ２入力はシフト・カウントを表す。一実施形態では、各シフト・ユニットがＳｏｕｒｃｅ２［６３：０］８３３から同じシフト・カウントを受け取る。操作制御回路８００が制御信号を送り、各シフト・ユニットをイネーブルにし、必要なシフトを行うようにする。この制御信号はシフトのタイプ（算術または論理）とシフトの方向から決定される。そのシフト・ユニットのビット制御回路から次段信号を受け取る。シフト・ユニットは、シフトの方向（左または右）に応じて、次段信号について最上位ビットをシフト・アウトまたはシフト・インする。同様に、各シフト・ユニットは、シフトの方向（右または左）に応じて、最終段信号について最下位ビットをシフト・アウトまたはシフト・インする。最終段信号は直前の段のビット制御ユニットから受け取る。その結果の出力は、シフト・ユニットが操作しているＳｏｕｒｃｅ１の部分に対するシフト演算の結果を表す。操作制御回路８００からパックされたデータ・イネーブル_i８０６を介してビット制御回路_i８２０がイネーブルにされる。ビット制御_i８２０は次段_i８１３と最終段_i+1８７２を制御する。たとえば、シフト・ユニット_i８１１がＳｏｕｒｃｅ１の下位８ビットを操作し、シフト・ユニット_i+1８７１がＳｏｕｃｅ１の次の８ビットを操作するものとする。パックされたバイトに対するシフトを行う場合、ビット制御_i８２０はシフト・ユニット_i+1８７１からの最下位ビットがシフト・ユニット_i８１１の最上位ビットに伝達されないようにする。しかし、パックされたワードに対するシフトを行う場合は、ビット制御_i８２０はシフト・ユニット_i+1８７１からの最下位ビットがシフト・ユニット_i８１１の最上位ビットと連絡するようにする。たとえば、表５ではパックされたバイト算術右シフトを行う。シフト・ユニット_i+1８７１はデータ要素１を操作し、シフト・ユニット_i８１１はデータ要素０を操作する。シフト・ユニット_i+1８７１はその最下位ビットをシフト・アウトする。しかし、操作制御回路８００はビット制御_i８２０に最終段_i+1８２１から受け取ったそのビットを次段_i８１３に伝播させるのを停止させる。その代わりに、シフト・ユニット_i８１１が上位ビットを符号ビットであるＳｏｕｒｃｅ１［７］で満たす。しかし、パックされたワード算術シフトを行う場合、シフト・ユニット_i+1８７１の最下位ビットがシフト・ユニット_i８１１の最上位ビットに伝達される。表６にこの結果を示す。この伝達はパックされたダブルワード・シフトの場合にも可能になる。各シフト・ユニットは任意選択で結果レジスタに接続される。結果レジスタには、完全な結果であるＲｅｓｕｌｔ［６３：０］８６０をＤＥＳＴレジスタに送ることができるまでシフト演算の結果が一時的に格納される。完全な６４ビット・パックされたシフト回路の場合、８個のシフト・ユニットと７個のビット制御ユニットが使用される。このような回路を使用して６４ビットのアンパックされたデータに対するシフトを行うこともでき、それによって同じ回路を使用してアンパックされたシフト演算とパックされたシフト演算が行われる。以上、複数データ要素に対して作用するシフト演算を有するプロセッサについて説明した。

【手続補正書】【提出日】１９９７年７月２５日【補正内容】（１）発明の名称を「パックされたデータのシフト演算を行うプロセッサ」に補正する。（２）請求の範囲を、別紙の通り補正する。請求の範囲１．第１の命令が、複数のパックされたデータ要素を有する一連の第１のパックされたデータに対して行うシフト演算を指定し、かつ、前記一連の第１のパックされたデータに含まれる数が変わるパックされたデータ要素を設定し、さらに、前記一連のパックされたデータに含まれるサイズが変わるデータ要素を設定するように作用するとき、その第１の命令をデコードするように動作するデコーダと、前記デコーダに結合され、前記第１の命令に応答して前記複数のパックされたデータ要素を同時に独立してシフトさせるように動作する回路とを備えるプロセッサ。２．前記回路が前記複数のパックされたデータ要素を論理シフトさせるようにさらに動作し、各パックされたデータ要素内のシフト・カウント数のビットがゼロで満たされる請求項２に記載のプロセッサ。３．前記回路が前記複数のパックされたデータ要素の算術シフトを行うように動作し、各パックされたデータ要素内のシフト・カウント数のビットがそれぞれのパックされたデータ要素の符号ビットで満たされる請求項２に記載のプロセッサ。４．前記一連の第１のパックされたデータが２個のパックされた要素を含み、各パックされた要素が３２ビットを有する請求項３に記載のプロセッサ。５．前記一連の第１のパックされたデータが４個のパックされたデータ要素を含み、前記一連の第１のパックされたデータの各パックされた要素が１６ビットを有するパックされたワードを表す請求項３に記載のプロセッサ。６．前記一連の第１のパックされたデータが２個のパックされたデータ要素を含み、各パックされたデータ要素が３２ビットを有する請求項２に記載のプロセッサ。７．前記一連の第１のパックされたデータが４個のパックされたデータ要素を含み、前記一連の第１のパックされたデータの各パックされた要素が１６ビットを有するパックされたワードを表す請求項２に記載のプロセッサ。８．一連の第１のパックされたデータに含まれる複数のパックされたデータ要素に対して行うシフト演算を指定するように作用し、前記一連の第１のパックされたデータに含まれるいくつかのパックされたデータ要素を設定し、前記一連の第１のパックされたデータに含まれる前記パックされたデータ要素のサイズを設定するようにさらに作用可能な第１の制御信号をデコードするように動作するデコーダと、前記デコーダに結合され、前記第１の制御信号に応答してパックされたデータ要素を同時かつ互いに独立してシフトさせるように動作可能な回路とを備えるプロセッサ。９．前記回路が複数のパックされたデータ要素を論理シフトさせるように動作し、各パックされたデータ要素内のシフト・カウント数のビットがゼロで満たされる請求項８に記載のプロセッサ。１０．前記回路が複数のパックされたデータ要素の算術シフトを行うように動作し、各パックされたデータ要素内のシフト・カウント数のビットがそれぞれのパックされたデータ要素の符号ビットで満たされる請求項８に記載のプロセッサ。１１．前記一連の第１のパックされたデータが４個のパックされたデータ要素を含み、前記一連の第１のパックされたデータの各パックされた要素が１６ビットを有するパックされたワードを表す請求項９に記載のプロセッサ。１２．前記複数のパックされたデータ要素が２個のパックされたダブルワードを含み、各パックされたダブルワードが３２ビットを有する請求項９に記載のプロセッサ。１３．前記一連の第１のパックされたデータが４個のパックされたデータ要素を含み、前記一連の第１のパックされたデータの各パックされた要素が１６ビットを有するパックされたワードを表す請求項１０に記載のプロセッサ。１４．前記複数のパックされたデータ要素が２個のパックされたダブルワードを含み、各パックされたダブルワードが３２ビットを有する請求項１０に記載のプロセッサ。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＡＬ，ＡＭ，ＡＴ，ＡＴ，ＡＵ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＣＺ，ＤＥ，ＤＥ，ＤＫ，ＤＫ，ＥＥ，ＥＥ，ＥＳ，ＦＩ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＫ，ＴＪ，ＴＭ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ (72)発明者ミタル，ミリンドアメリカ合衆国・94080・カリフォルニア州・サウスサンフランシスコ・ヒルサイドブルバード・1149 (72)発明者メネマイアー，ラリー・エムアメリカ合衆国・95006・カリフォルニア州・ボルダークリーク・ピーオーボックス・587・（番地なし) (72)発明者エイタン，ベニーイスラエル国・ハイファ・スティーブンウィース・25

Claims

【特許請求の範囲】１．第１の場所に対応する第１のソース・アドレスと、第２の場所に対応する第２のソース・アドレスと、第３の場所に対応する宛先アドレスと、あるタイプのパックされたデータのシフト演算を行うことを示す命令フィールドとを有する制御信号を受信するように結合されたデコーダと、前記デコーダに結合され、前記第１の場所に格納されている第１のパックされたデータを前記第２の場所に格納されている値によってシフトし、対応するパックされた結果データを前記第３の場所に伝達する回路とを備えるプロセッサ。２．前記第１のパックされたデータが複数のデータ要素を含み、前記複数のデータ要素の各データ要素がサイズを有し、前記命令フィールドが前記サイズに対応する標識をさらに含むことを特徴とする、請求項１に記載のプロセッサ。３．前記サイズがパックされたバイトとパックされたワードとパックされたダブルワードとのうちの１つであることを特徴とする、請求項２に記載のプロセッサ。４．前記第１のパックされたデータが６４ビットであることを特徴とする、請求項２に記載のプロセッサ。５．前記宛先アドレスが前記第１のソース・アドレスであることを特徴とする、請求項１に記載のプロセッサ。６．前記命令フィールドが符号標識を含み、前記符号標識が前記シフトを符号付きと無符号のどちらで行うかを決定することを特徴とする、請求項１に記載のプロセッサ。７．前記タイプのパックされたデータのシフト演算が右シフト論理演算と右シフト算術演算と左シフト演算とのうちの１つであることを特徴とする、請求項１に記載のプロセッサ。８．前記プロセッサが、レジスタを含むレジスタ・ファイルを備え、前記第２の場所が前記レジスタに対応することを特徴とする、請求項１に記載のプロセッサ。９．前記第１の場所が記憶場所に対応することを特徴とする、請求項８に記載のプロセッサ。１０．デコーダが機能ユニットと第１のレジスタと第２のレジスタとに結合され、前記デコーダと前記機能ユニットと前記第１のレジスタと前記第２のレジスタとを有するプロセッサにおいて、パックされたデータをシフトする方法であって、前記デコーダが制御信号をデコードするステップと、前記第１のレジスタに格納された第１のパックされたデータにアクセスするステップと、前記第２のレジスタに格納されたシフト値にアクセスするステップと、前記制御信号をデコードする前記デコーダに応答して、前記機能ユニットが前記第１のパックされたデータ内の各データ要素を前記シフト値によってシフトしてパックされた結果データを生成するステップと、前記パックされた結果データを前記第１のレジスタに格納するステップとを含む方法。１１．前記制御信号があるタイプのシフト標識を含み、前記タイプのシフト標識が左シフト演算と右シフト算術演算と右シフト論理演算のグループのうちの１つのシフト演算を示すことを特徴とする、請求項１０に記載の方法。１２．前記第１のパックされたデータが複数のデータ要素を含み、前記複数のデータ要素の各データ要素が所定のビット数によって表され、前記制御信号がサイズ標識を含み、前記サイズ標識が前記所定のビット数を示すことを特徴とする、請求項１０に記載の方法。１３．前記第１のレジスタが６４ビット長であり、前記第１のパックされたデータが８個のパックされたバイト・データ要素を含むことを特徴とする、請求項１０に記載の方法。１４．シフト演算を有するプロセッサであって、即値によるシフト演算を示す制御信号を受信する制御信号入力を有するデコーダと、パックされたデータを格納するレジスタと、前記デコーダと前記レジスタとに結合され、前記パックされたデータ内の各データ要素を前記即値によってシフトする機能ユニットとを備えるプロセッサ。１５．前記プロセッサが宛先レジスタを備え、前記宛先レジスタが前記機能ユニットに結合され、前記機能ユニットがさらにパックされたデータを生成し、前記宛先レジスタが前記パックされた結果データを格納することを特徴とする、請求項１４に記載のプロセッサ。