JPH11500547A

JPH11500547A - 乗算を有するマイクロプロセッサ

Info

Publication number: JPH11500547A
Application number: JP8519114A
Authority: JP
Inventors: ペレグ，アレキザンダー; ヤーリ，ヤーコブ; ミタル，ミリンド; メネマイアー，ラリー・エム; エイタン，ベニー
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1994-12-01
Filing date: 1995-12-01
Publication date: 1999-01-12
Also published as: EP0795155A4; HK1003189A1; WO1996017293A1; US5675526A; HK1057108A1; TW309605B; EP0795155A1; EP1302848A3; AU4738396A; EP0795155B1; EP1302848A2; EP1302848B1; US5677862A

Abstract

(57)【要約】プロセッサ（１０９）が、制御信号（２０７）を受け取るように結合されたデコーダ（２０２）を備える。制御信号は、第１のソース・アドレスと第２のソース・アドレスと宛先アドレスと命令フィールドとを有する。第１のソース・アドレスは第１の場所に対応する。第２のソース・アドレスは第２の場所に対応する。宛先アドレスは第３の場所に対応する。命令フィールドは、あるタイプのパックされたデータ乗算を行うことを示す。プロセッサは、デコーダに結合された回路（２０３）をさらに備える。この回路は、第１の場所に格納されている第１のパックされたデータに第２の場所に格納されている第２のパックされたデータを乗じる回路である。この回路はさらに、対応する結果パックされたデータを第３の場所に伝達する。

Description

【発明の詳細な説明】乗算を有するマイクロプロセッサ発明の背景発明の分野本発明は、単一の制御信号を使用して算術演算を行い、複数のデータ要素を操作する装置および方法に関する。本発明は、パックされたされたデータ・タイプに対する乗算の実行を可能にする。２．関連技術の説明現在、ほとんどのパーソナル・コンピュータ・システムは１つの命令によって演算を行って１つの結果を出す。命令の実行速度を増し、複雑命令セット・コンピュータ（ＣＩＳＣ）と呼ばれるプロセッサ命令の複雑さを増すことによって、パフォーマンスの向上が実現される。米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０２８６^TMマイクロプロセッサのようなプロセッサがＣＩＳＣプロセッサの範疇に入る。以前のコンピュータ・システム・アーキテクチャは、ＣＩＳＣの概念を利用するように最適化されていた。そのようなシステムは一般に、３２ビット幅のデータ・バスを持つ。しかし、コンピュータ・サポーテッド・コオペレーション（ＣＳＣ：電子会議と混在メディア・データ操作を統合したもの）、二次元／三次元グラフィックス、画像処理、ビデオ圧縮／圧縮解除、認識アルゴリズム、および音声操作を対象にしたアプリケーションによって、パフォーマンス向上の必要が増す。しかし、命令の実行速度と複雑さを増すことが唯一の解決策である。これらのアプリケーションの１つの一般的な点は、数ビットだけが重要な、大量のデータを操作することが多いことである。すなわち、意味のあるビットがデータ・バスのサイズよりもはるかに少ないビット数で表されるデータである。たとえば、プロセッサは８ビットおよび１６ビットのデータ（たとえばビデオ画像における画素の色成分）に対して多くの演算を実行するが、それよりかなり広いデータ・バスとレジスタを有する。したがって、３２ビットのデータ・バスとレジスタを有し、これらのアルゴリズムの１つを実行するプロセッサは、データの先頭８ビットだけが重要であるため、そのデータの処理、伝送、および記憶容量の最大７５パーセントが無駄になることがある。したがって、操作するデータを表すのに必要なビット数とプロセッサの実際のデータ伝送および記憶容量との差をより効率的に使用することによってパフォーマンスを向上させるプロセッサが望ましい。発明の概要改良されたデータ比較操作を有するマイクロプロセッサ（またはプロセッサ）について説明する。このプロセッサは、制御信号を受信するように結合されたデコーダを備える。制御信号は、第１のソース・アドレスと、第２のソース・アドレスと、宛先アドレスと、命令フィールドとを有する。第１のソース・アドレスは第１の場所に対応する。第２のソース・アドレスは第２の場所に対応する。宛先アドレスは第３の場所に対応する。命令フィールドは、あるタイプのパックされたデータ乗算を行うことを示す。プロセッサはさらに、デコーダに結合された回路を備える。この回路は、第１の場所に記憶された第１のパックされたデータに第２の場所に記憶された第２のパックされたデータを乗じる回路である。この回路はさらに、対応する結果パックされたデータを第３の場所に伝達する。本説明および図には多くの詳細が含まれるが、本発明は請求の範囲によって定義される。本発明には、それらの請求の範囲に記載されている限定だけが適用される。図面の簡単な説明本発明を、図面に限定的なものではなく例として図示する。同様の参照符号は同様の要素を示す。第１図は、本発明の方法および装置を使用するコンピュータ・システムの実施形態を示す図である。第２図は、本発明のプロセッサの実施形態を示す図である。第３図は、プロセッサがレジスタ・ファイル内のデータを操作するために使用する一般的なステップを示す流れ図である。第４ａ図は、記憶データ・タイプを示す図である。第４ｂ図、第４ｃ図、および第４ｄ図は、レジスタ内整数データ表現を示す図である。第５ａ図は、パックされたデータ・タイプを示す図である。第５ｂ図、第５ｃ図、および第５ｄ図は、レジスタ内パックされたデータ表現を示す図である。第６ａ図は、パックされたデータの使用法を示す、コンピュータ・システムで使用される制御信号形式の図である。第６ｂ図は、パックされたデータの使用法を示す、コンピュータ・システムで使用可能な第２の制御信号形式の図である。第７図は、パックされたデータに対して乗算を行うときにプロセッサが従う方法の一実施形態を示す図である。第８図は、パックされたデータの個々のデータ要素を処理することができる回路を示す図である。好ましい実施形態の説明本発明の一実施形態の概要複数のデータ要素に対して作用する乗算を有するプロセッサについて説明する。以下の説明では、本発明を十分に理解することができるように、回路などの多くの特定の詳細を記載する。他の場合には、本発明が無用に不明瞭にならないように、周知の構造および技法については詳細に示さない。定義本発明の実施形態の説明を理解する基礎となるように、以下のように定義を示す。ビットＸないしビットＹ：二進数のサブフィールドを規定する。たとえば、（基数で示した）バイト００１１１０１０₂のビット６ないしビット０は、１１１０１０₂のサブフィールドを表す。二進数の後の「２」は基数２を示す。したがって、１０００₂は８₁₀に等しく、Ｆ₁₆は１５₁₀に等しい。Ｒ_x：レジスタである。レジスタは、データの記憶と供給を行うことができる任意の素子である。レジスタの他の機能については後述する。レジスタはプロセッサのパッケージの一部であるとは限らない。ＤＥＳＴ：データ・アドレスである。ＳＲＣ１：データ・アドレスである。ＳＲＣ２：データ・アドレスである。結果：ＤＥＳＴによってアドレス指定されたレジスタに格納されるデータである。ソース１：ＳＲＣ１によってアドレス指定されたレジスタに格納されているデータである。ソース２：ＳＲＣ２によってアドレス指定されたレジスタに格納されているデータである。コンピュータ・システム第１図を参照すると、本発明の実施形態を実施することができるコンピュータ・システムが、コンピュータ・システム１００として図示されている。コンピュータ・システム１００は、情報を伝送するバス１０１またはその他の通信ハードウェアおよびソフトウェアと、バス１０１に結合された情報を処理するプロセッサ１０９とを備える。コンピュータ・システム１００はさらに、バス１０１に結合され、プロセッサ１０９によって実行される情報と命令を記憶するランダム・アクセス・メモリ（ＲＡＭ）またはその他のダイナミック記憶装置（メイン・メモリ１０４と呼ぶ）を備える。メイン・メモリ１０４は、プロセッサ１０９による命令の実行中に変数またはその他の中間情報を一時的に記憶するためにも使用することができる。コンピュータ・システム１００は、バス１０１に結合され、プロセッサ１０９のための静的情報および命令を記憶する読取り専用メモリ（ＲＯＭ）１０６またはその他のスタティック記憶装置あるいはその両方も備える。バス１０１には情報と命令を記憶するデータ記憶装置１０７が結合されている。さらに、コンピュータ・システム１００には磁気ディスクや光ディスクなどのデータ記憶装置１０７とそれに対応するディスク・ドライブを結合することができる。コンピュータ・システム１００は、コンピュータ・ユーザに情報を表示するためにバス１０１を介して表示装置１２１にも結合することができる。表示装置１２１は、フレーム・バッファ、専用グラフィックス・レンダリング装置、陰極線管（ＣＲＴ）、フラット・パネル・ディスプレイを含むことができる。プロセッサ１０９に情報とコマンド選択を伝えるために、英数字およびその他のキーを備える英数字入力装置１２２が、典型的にはバス１０１に結合されている。他のタイプのユーザ入力装置は、プロセッサ１０９に指示情報とコマンド選択を伝え、表示装置１２１上のカーソル移動を制御する、マウス、トラックボール、ペン、タッチ画面、カーソル指示キーなどのカーソル制御装置１２３である。この入力装置は一般に、第１の軸（たとえばｘ）と第２の軸（たとえばｙ）の２つの軸に２つの自由度を持ち、それによってこの装置は平面内の位置を指定することができる。しかし、本発明は、２つの自由度しかもたない入力装置には限定されない。バス１０１に結合することができる他の装置は、命令、データ、またはその他の情報を、紙、フィルム、または同様のタイプの媒体などの媒体に印刷するために使用することができるハード・コピー装置１２４である。さらに、コンピュータ・システム１００は、情報を記録するためにマイクロホンに結合されたオーディオ・ディジタイザなど、録音または再生あるいはその両方のための装置１２５に結合することができる。さらに、この装置は、ディジタル化された音声を再生するためにディジタル−アナログ（Ｄ／Ａ）変換器に結合されたスピーカも含むことができる。また、コンピュータ・システム１００は、コンピュータ・ネットワーク（たとえばＬＡＮ）内の端末とすることもできる。その場合、コンピュータ・システム１００は、いくつかのネットワーク化された装置を含むコンピュータ・システムのコンピュータ・サブシステムとなる。コンピュータ・システム１００は、任意選択としてビデオ・ディジタイジング装置１２６を備える。ビデオ・ディジタイジング装置１２６を使用して、ビデオ画像を捕らえ、それをコンピュータ・ネットワーク上の他の装置に送信することができる。コンピュータ・システム１００は、コンピュータ・サポーテッド・コオペレーション（ＣＳＣ：電子会議と混在媒体データ操作とが統合されたもの）、二次元／三次元グラフィックス、画像処理、ビデオ圧縮／圧縮解除、認識アルゴリズム、および音声操作に対応するのに有用である。プロセッサ第２図にプロセッサ１０９の詳細図を示す。プロセッサ１０９は、ＢｉＣＭＯＳ、ＣＭＯＳ、ＮＭＯＳなどのいくつかの処理技法のいずれかを使用して、１つまたは複数の基板上に実装することができる。プロセッサ１０９は、使用する制御信号とデータをデコードするデコーダ２０２を備える。その場合、データは内部バス２０５を介してレジスタ・ファイル２０４に格納することができる。明確に言えば、実施形態のレジスタは特定のタイプの回路にのみに限定されることを意味しない。実施形態のレジスタは、データの記憶および供給と、本明細書に記載の機能を実行することができればよい。データは、データのタイプに応じて、整数レジスタ２０１、レジスタ２０９、状態レジスタ２０８、または命令ポインタ・レジスタ２１１に格納することができる。たとえば浮動小数点レジスタなど他のレジスタをレジスタ・ファイル２０４に含めることができる。一実施形態では、整数レジスタ２０１には、３２ビットの整数データが格納される。一実施形態では、レジスタ２０９にはＲ₀２１２ａ〜Ｒ₇２１２ｈの８個のレジスタが含まれる。レジスタ２０９内の各レジスタ長は６４ビットである。Ｒ₁２１２ａ、Ｒ₂２１２ｂ、およびＲ₃２１２ｃがレジスタ２０９内の個々のレジスタの例である。レジスタ２０９内の３２ビットのレジスタを、整数レジスタ２０１内の整数レジスタに移動させることができる。同様に、整数レジスタ内の値をレジスタ２０９内の３２ビットのレジスタに移動させることができる。状態レジスタ２０８は、プロセッサ１０９の状態を示す。命令ポインタ・レジスタ２１１には、次に実行される命令のアドレスが格納される。整数レジスタ２０１，レジスタ２０９、状態レジスタ２０８、および命令ポインタ・レジスタ２１１はすべて内部バス２０５に接続されている。内部バス２０５には任意の追加のレジスタが接続される。他の実施形態では、これらのレジスタのうちのいくつかは２つの異なるタイプのデータに使用することができる。たとえば、レジスタ２０９と整数レジスタ２０１を組み合わせて、各レジスタに整数データまたはパックされたデータを格納することができる。他の実施形態では、レジスタ２０９を浮動小数点レジスタとして使用することができる。この実施形態では、パックされたデータはレジスタ２０９または浮動小数点データに格納することができる。一実施形態では、組み合わされたレジスタの長さは６４ビットで、整数は６４ビットで表される。この実施形態では、パックされたデータと整数データを格納する際に、レジスタはその２つのデータ・タイプを区別する必要がない。機能ユニット２０３は、プロセッサ１０９が行う演算を実行する。このような演算には、シフト、加算、減算、乗算などが含まれる。機能ユニット２０３は内部バス２０５に接続している。キャッシュ２０６は、プロセッサ１０９の任意選択要素であり、たとえばメイン・メモリ１０４からのデータまたは制御信号あるいはその両方をキャッシュするために使用される。キャッシュ２０６は、デコーダ２０２に接続され、制御信号２０７を受信するように接続されている。第３図に、プロセッサ１０９の動作概要を示す。すなわち、第３図にはプロセッサ１０９がパックされたデータに対する演算、パックされていないデータに対する演算、または他の何らかの操作を実行する間にたどるステップが示されている。たとえば、このような操作にはレジスタ・ファイル２０４内のレジスタに、キャッシュ２０６、メイン・メモリ１０４、読取り専用メモリ（ＲＯＭ）１０６、またはデータ記憶装置１０７からデータをロードするロード操作が含まれる。本発明の一実施形態では、プロセッサ１０９は、米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０４８６^TMによってサポートされる命令のほとんどをサポートする。本発明の他の実施形態では、プロセッサ１０９は米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＩｎｔｅｌ８０４８６^TMによってサポートされるすべての演算をサポートする。本発明の他の実施形態では、プロセッサ１０９は、すべて米国カリフォルニア州サンタクララのインテル・コーポレイションが販売するＰｅｎｔｉｕｍ^TMプロセッサ、Ｉｎｔｅｌ８０４８６^TMプロセッサ、８０３８６^TMプロセッサ、Ｉｎｔｅｌ８０２８６^TMプロセッサ、およびＩｎｔｅｌ８０８６^TMプロセッサによってサポートされるすべての演算をサポートする。本発明の他の実施形態では、プロセッサ１０９は、米国カリフォルニア州サンタクララのインテル・コーポレイションが定義するＩＡ^TM（インテル・アーキテクチャ）でサポートされるすべての演算をサポートする（米国カリフォルニア州サンタクララのインテルから入手可能な「Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ，ＩｎｔｅｌＤａｔａＢｏｏｋｓｖｏｌｕｍｅｌおよびｖｏｌｕｍｅ２、１９９２年および１９９３年刊」を参照）。一般に、プロセッサ１０９はＰｅｎｔｉｕｍ^TMプロセッサの現行命令セットをサポートすることができるが、将来の命令と本明細書に記載の命令を組み込むように修正することもできる。重要なのは、汎用プロセッサ１０９が、本明細書に記載の演算に加えて、従来使用されていた演算をサポートすることができることである。ステップ３０１で、デコーダ２０２がキャッシュ２０６またはバス１０１から制御信号２０７を受け取る。デコーダ２０２は、制御信号をデコードして、実行すべき演算を判断する。ステップ３０２で、デコーダ２０２はレジスタ・ファイル２０４またはメモリ内の記憶場所にアクセスする。制御信号２０７で指定されたレジスタ・アドレスに応じて、レジスタ・ファイル２０４内のレジスタかメモリ内の記憶場所のどちらかにアクセスする。たとえば、パックされたデータに対する演算の場合、制御信号２０７にはＳＲＣ１、ＳＲＣ２、およびＤＥＳＴレジスタ・アドレスを含めることができる。ＳＲＣ１は第１のソース・レジスタのアドレスである。ＳＲＣ２は第２のソース・レジスタのアドレスである。すべての演算が２つのソース・アドレスを必要とするわけではないので、場合によってはＳＲＣ２アドレスは任意選択である。ＳＲＣ２アドレスが操作にとって不要な場合、ＳＲＣ１アドレスのみが使用される。ＤＥＳＴは、結果データが記憶される宛先レジスタのアドレスである。一実施形態では、ＳＲＣ１またはＳＲＣ２はＤＥＳＴとしても使用される。ＳＲＣ１、ＳＲＣ２、およびＤＥＳＴについては第６ａ図および第６ｂ図を参照しながら詳述する。対応するレジスタに格納されているデータをそれぞれＳｏｕｒｃｅ１、Ｓｏｕｒｃｅ２、およびＲｅｓｕｌｔと呼ぶ。これらの各データの長さは６４ビットである。本発明の他の実施形態では、ＳＲＣ１、ＳＲＣ２、およびＤＥＳＴのいずれか１つまたは全部は、プロセッサ１０９のアドレス可能記憶空間内の記憶場所を規制することができる。たとえば、ＳＲＣ１はメイン・メモリ１０４内の記憶場所を識別し、ＳＲＣ２は整数レジスタ２０１内の第１のレジスタを識別し、ＤＥＳＴはレジスタ２０９内の第２のレジスタを識別する。本明細書では説明を簡単にするために、レジスタ・ファイル２０４へのアクセスについて言及するが、これらのアクセスはレジスタ・ファイル２０４の代わりにメモリに対して行うこともできる。本発明の他の実施形態では、命令コードはＳＲＣ１とＳＲＣ２の２つのアドレスしか含まない。この実施形態では、演算の結果はＳＲＣ１レジスタまたはＳＲＣ２レジスタに格納される。すなわち、ＳＲＣ１（またはＳＲＣ２）をＤＥＳＴとして使用する。このタイプのアドレス指定は、２つのアドレスしか持たない以前のＣＩＳＣ命令に対応する。これによって、デコーダ２０２における複雑さが減少する。この実施形態では、ＳＲＣ１レジスタに含まれるデータを破壊してはならない場合、演算を実行する前にそのデータをまず別のレジスタにコピーしなければならないことに留意されたい。コピーには追加の命令が必要になる。本明細書では説明を簡単にするために、３アドレスのアドレス指定方式について説明する（すなわちＳＲＣ１、ＳＲＣ２、およびＤＥＳＴ）。しかし、一実施形態では制御信号にＳＲＣ１とＳＲＣ２しか含めることができず、ＳＲＣ１（またはＳＲＣ２）によって宛先レジスタを識別することを想起されたい。制御信号が演算を必要とする場合、ステップ３０３で、機能ユニット２０３がレジスタ・ファイル２０４内のアクセス・データに対してその演算を実行するように使用可能にされる。機能ユニット２０３で演算が実行されると、ステップ３０４でその結果が制御信号２０７の要件に従ってレジスタ・ファイル２０４に戻されて格納される。データ形式および記憶形式第４ａ図に、第１図のコンピュータ・システムで使用可能なデータ形式をいくつか示す。これらのデータ形式は固定小数点である。プロセッサ１０９はこれらのデータ形式を操作することができる。マルチメディア・アルゴリズムはこれらのデータ形式を使用することが多い。バイト４０１は８ビットの情報を含む。ワード４０２は１６ビットの情報、すなわち２バイトを含む。ダブルワード４０３は３２ビットの情報、すなわち４バイトを含む。したがって、プロセッサ１０９はこれらの記憶データ形式のうちの任意の１つに対して操作を行うことができる制御信号を実行する。以下の説明では、ビット、バイト、ワード、およびダブルワード・サブフィールドについて言及する。たとえば、（基数２で示す）バイト００１１１０１０₂ のビット６ないしビット０はサブフィールド１１１０１０₂を表す。第４ｂ図ないし第４ｄ図に、本発明の一実施形態で使用するレジスタ内表現を示す。たとえば、無符号バイトのレジスタ内表現４１０によって、整数レジスタ２０１内のレジスタに格納されているデータを表すことができる。一実施形態では、整数レジスタ２０１内のレジスタ長は６４ビットである。他の実施形態では、整数レジスタ２０１内のレジスタ長は３２ビットである。説明を簡単にするために、以下の説明では６４ビットの整数レジスタについて説明するが、３２ビットの整数レジスタを使用することもできる。無符号バイトのレジスタ内表現４１０は、プロセッサ１０９が整数レジスタ２０１にバイト４０１を格納し、そのレジスタ内のビット７ないしビット０の先頭８ビットがそのデータ・バイト４０１専用であることを示している。これらのビットを｛ｂ｝と示す。このバイトを正しく表すには、残りの５６ビットがゼロでなければならない。符号付きバイトのレジスタ内表現４１１の場合、整数レジスタ２０１にはデータはビット６ないしビット０の先頭７ビットにデータとして格納される。７番目のビットは符号ビットを表し、｛ｓ｝で示す。残りのビット６３ないしビット８はそのバイトの符号の継続である。無符号ワードのレジスタ内表現４１２は、整数レジスタ２０１のうちの１つのレジスタに格納される。ビット１５ないしビット０には、無符号ワード４０２が入れられる。これらのビットを｛ｗ｝で示す。このワードを正しく表すには、残りのビット６３ないしビット１６はゼロでなければならない。符号付きワード４０２は、符号付きワードのレジスタ内表現４１３が示すように、ビット１４ないしビット０に格納される。残りのビット６３ないしビット１５は符号フィールドである。ダブルワード４０３は、無符号ダブルワードのレジスタ内表現４１４または符号付きダブルワードのレジスタ内表現４１５として格納することができる。無符号ダブルワードのレジスタ内表現４１４のビット３１ないしビット０はデータである。これらのビットを｛ｄ｝で示す。この無符号ダブルワードを正しく表すには、残りのビット６３ないしビット３２はゼロでなければならない。整数レジスタ２０１は、符号付きダブルワードのレジスタ内表現４１５を、そのビット３０ないしビット０を格納する。残りのビット６３ないしビット３１は符号フィールドである。前述の第４ｂ図ないし第４ｄ図に示すように、データ・タイプによっては６４ビット幅のレジスタに格納するのは非効率的な格納方法である。たとえば、無符号バイトのレジスタ内表現４１０を格納する場合、ビット６３ないしビット８はゼロでなければならず、ビット７ないしビット０にしか非ゼロビットを入れることができない。したがって、６４ビット・レジスタに１バイトを格納するプロセッサは、レジスタの容量の１２．５％しか使用しない。同様に、機能ユニット２０３によって実行される演算は先頭の数ビットしか重要ではない。第５ａ図に、パックされたデータのデータ形式を示す。パックされたバイト５０１、パックされたワード５０２、パックされたダブルワード５０３の３つのパックされたデータ形式が図示されている。パックされたバイトは、本発明の一実施形態では６４ビット長であり、８個のデータ要素を含む。各データ要素は１バイト長である。一般に、データ要素は１つのレジスタ（または記憶場所）に同じ長さの他のデータ要素と共に格納される個々のデータである。本発明の一実施形態では、１つのレジスタに格納されるデータ要素の数は、６４ビットをデータ要素のビット長で割った商である。パックされたワード５０２は６４ビット長であり、４個のワード４０２データ要素を含む。各ワード４０２データ要素は、１６ビットの情報を含む。パックされたダブルワード５０３は６４ビット長であり、２個のダブルワード４０３データ要素を含む。各ダブルワード４０３データ要素は３２ビットの情報を含む。第５ｂ図ないし第５ｄ図にレジスタ内パックされたデータ記憶表現を示す。無符号のパックされたバイトのレジスタ内表現５１０は、レジスタＲ₀２１２ａ〜Ｒ_n２１２ａｆのうちの１つにパックされたバイト５０１が格納されている様子を示している。各バイト・データ要素の情報は、バイト０はビット７ないしビット０に格納され、バイト１はビット１５ないしビット８、バイト２はビット２３ないしビット１６、バイト３はビット３１ないしビット２４，バイト４はビット３９ないしビット３２、バイト５はビット４７ないしビット４０、バイト６はビット５５ないしビット４８、バイト７はビット６３ないしビット５６に格納される。したがって、レジスタ内ですべての使用可能ビットが使用される。この記憶構成によって、プロセッサの記憶効率が向上する。また、８個のデータ要素にアクセスして、１つの操作を８個のデータ要素に同時に実行することができるようになる。符号付きパックされたバイトのレジスタ内表現５１１も同様にレジスタ２０９内のレジスタに格納される。どのバイト・データ要素でも８番目のビットのみが必要な符号ビットであり、他のビットは使用してもしなくても符号が示されることに留意されたい。無符号パックされたワードのレジスタ内表現５１２は、ワード３ないしワード０がレジスタ２０９のうちの１つのレジスタに格納される様子を示している。ビット１５ないしビット０にはワード０のデータ要素情報が入り、ビット３１ないしビット１６にはデータ要素ワード１の情報が入り、ビット４７ないしビット３２にはデータ要素ワード２の情報が入り、ビット６３ないしビット４８にはデータ要素ワード３の情報が入る。符号付きパックされたワードのレジスタ内表現５１３は無符号パックされたワードのレジスタ内表現５１２と同様である。各ワード・データ要素の１６番目のビットにのみ、必要な符号標識が入ることに留意されたい。無符号パックされたダブルワードのレジスタ内表現５１４は、レジスタ２０９に２個のダブルワード・データ要素が格納される様子を示している。ダブルワード０はレジスタのビット３１ないしビット０に格納される。ダブルワード１はレジスタのビット６３ないしビット３２に格納される。符号付きパックされたダブルワードのレジスタ内表現５１５は無符号パックされたダブルワードのレジスタ内表現５１４と同様である。必要な符号ビットはダブルワード・データ要素の３２番目のビットであることに留意されたい。前述のように、レジスタ２０９はパックされたデータと整数データの両方に使用することができる。本発明のこの実施形態では、アドレス指定されたレジスタ、たとえばＲ₁２１２ａにパックされたデータと単純整数／固定小数点データのどちらが格納されているかを追跡するために、個々のプログラミング・プロセッサ１０９が必要である。他の実施形態では、プロセッサ１０９はレジスタ２０９の個々のレジスタに格納されているデータのタイプを追跡することができる。この代替実施形態では、たとえば単純／固定小数点整数データに対してパックされた加算を行おうとした場合、エラーを生成することがある。制御信号の形式以下に、プロセッサ１０９がパックされたデータを操作するために使用する制御信号形式の一実施形態について説明する。本発明の一実施形態では、制御信号は３２ビットで表される。デコーダ２０２はバス１０１から制御信号２０７を受け取ることができる。他の実施形態では、デコーダ２０２はキャッシュ２０６からもそのような制御信号を受け取ることができる。第６ａ図にパックされたデータを操作する制御信号の一般的な形式を示す。命令フィールドＯＰ６０１（ビット３１ないしビット２６）は、たとえば、パックされた加算、パックされた減算など、プロセッサ１０９によって実行される演算に関する情報を供給する。ＳＲＣ１６０２（ビット２５ないしビット２０）は、レジスタ２０９内のレジスタのソース・レジスタ・アドレスを供給する。このソース・レジスタは、制御信号の実行で使用される第１のパックされたデータＳｏｕｒｃｅ１を保持する。同様に、ＳＲＣ２６０３（ビット１９ないしビット１４）には、レジスタ２０９内のレジスタのアドレスが入れられる。この第２のソース・レジスタは、演算の実行時に使用されるパックされたデータＳｏｕｒｃｅ２を保持する。ＤＥＳＴ６０５（ビット５ないしビット０）にはレジスタ２０９内のレジスタのアドレスが入れられる。この宛先レジスタには、パックされたデータ演算の結果のパックされたデータＲｅｓｕｌｔが格納される。制御ビットＳＺ６１０（ビット１２およびビット１３）は、第１および第２のパックされたデータ・ソース・レジスタ内のデータ要素の長さを示す。ＳＺ６１０が０１₂に等しい場合、パックされたデータはパックされたバイト５０１としてフォーマットされる。ＳＺ６１０が１０₂に等しい場合、パックされたデータはパックされたワード５０２としてフォーマットされる。しかし、００₂または１１₂と等しいＳＺ６１０を受け取った場合、他の実施形態では、これらの値のうちの１つを使用してパックされたダブルワード５０３を示すことができる。制御ビットＴ６１１（ビット１１）は、演算を飽和モードで行うかどうかを示す。Ｔ６１１が１の場合、飽和演算が行われる。Ｔ６１１がゼロの場合、非飽和演算が行われる。飽和演算については後述する。制御ビットＳ６１２（ビット１０）は、符号付き演算の使用を示す。Ｓ６１２が１の場合、符号付き演算が行われる。Ｓ６１２がゼロの場合、無符号演算が行われる。第６ｂ図に、パックされたデータを操作する制御信号の第２の一般的形式を示す。この形式は、米国イリノイ州マウント・プロスペクトＰ．Ｏ．Ｂｏｘ７６４１インテル・コーポレイションのＬｉｔｅｒａｔｕｒｅＳａｌｅｓから入手可能な”Ｐｅｎｔｉｕｍ^TM ＰｒｏｃｅｓｓｏｒＦａｍｉｌｙＵｓｅｒ’ｓＭａｎｕａｌ”に記載されている汎用整数命令コード形式に対応する。ＯＰ６０１、ＳＺ６１０、Ｔ６１１、およびＳ６１２がすべて組み合わされて１つの大きなフィールドになることに留意されたい。制御信号によっては、ビット３ないし５がＳＲＣ１６０２となる。一実施形態では、ＳＲＣ１６０２アドレスがある場合、ビット３ないし５はＤＥＳＴ６０５にも対応する。ＳＲＣ２６０３アドレスがある代替実施形態では、ビット０ないし２もＤＥＳＴ６０５にも対応する。パックされたシフト即値演算のような他の制御信号の場合、ビット３ないし５は命令コード・フィールドの拡張部を表す。一実施形態では、この拡張部によってプログラマはシフト・カウント値などの即値を制御信号と共に組み込むことができる。一実施形態では、即値は制御信号の後に続く。これについては”Ｐｅｎｔｉｕｍ^TM ＰｒｏｃｅｓｓｏｒＦａｍｉｌｙＵｓｅｒ'ｓＭａｎｕａｌ”の付録Ｆ−１〜Ｆ−３ページに詳述されている。ビット０ないし２はＳＲＣ２６０３を表す。この汎用形式によって、レジスタからレジスタ、メモリからレジスタ、メモリによるレジスタ、レジスタによるレジスタ、即値によるレジスタ、レジスタからメモリのアドレス指定を行うことができる。また、一実施形態では、この汎用形式は整数レジスタからレジスタと、レジスタから整数レジスタへのアドレス指定もサポートする。飽和／非飽和の説明前述のように、Ｔ６１１は演算が任意選択で飽和するかどうかを示す。飽和を可能にした演算の結果がデータの範囲からオーバーフローまたはアンダーフローする場合、その結果はクランプされる。クランプとは、結果がその範囲の最大値または最小値を超える場合、その結果を最大値または最小値に設定することを意味する。アンダーフローの場合、飽和によって結果がその範囲内の最低値にクランプされ、オーバーフローの場合は最高値にクランプされる。各データ形式の許容範囲を表１に示す。前述のように、Ｔ６１１は飽和演算を行うかどうかを示す。したがって、無符号バイト・データ形式を使用し、演算結果＝２５８で、飽和を使用可能にしていた場合、結果は演算の宛先レジスタに格納される前に２５５にクランプされることになる。同様に、演算結果＝−３２９９９で、プロセッサ１０９が飽和を使用可能にして符号付きワード・データ形式を使用した場合、結果は演算の宛先レジスタに格納される前に−３２７６８にクランプされることになる。乗算本発明の一実施形態では、標準ＣＩＳＣ命令セット（パックされていないデータ演算）をサポートするだけでなくパックされたデータの乗算もサポートすることによって、ｃｓｃアプリケーションのパフォーマンスを向上させる。パックされた乗算を使用して、高速フーリエ変換、コサイン変換、およびその他のディジタル／画像信号処理アルゴリズムの速度を高速化することができる。本発明の一実施形態では、ＳＲＣ１レジスタには被乗数データ（Ｓｏｕｒｃｅ１）が入れられ、ＳＲＣ２レジスタには乗数データ（Ｓｏｕｒｃｅ２）が入れられ、ＤＥＳＴレジスタには乗算の積の部分（Ｒｅｓｕｌｔ）が入れられる。すなわちＳｏｕｒｃｅ１は、Ｓｏｕｒｃｅ２のそれぞれのデータ要素を独立して乗じられた各データ要素を有することになる。乗算のタイプに応じて、Ｒｅｓｕｌｔには積の上位ビットまたは下位ビットが含まれる。本発明の一実施形態では、サポートされる乗算は以下の通りである。すなわち、無符号パックされた上位乗算、符号付きパックされた上位乗算、およびパックされた下位乗算である。上位｜下位は乗算の積からどのビットをＲｅｓｕｌｔに含めるかを示す。これは、２つのＮビット数値の乗算の結果が２Ｎビットを有する積になるためである。各結果データ要素は被乗数および乗数のデータ要素と同じサイズであるため、結果では積の半分だけを表すことができる。上位乗算によって上位ビットが結果として出力される。下位乗算によって下位ビットが結果として出力される。たとえば、Ｓｏｕｒｃｅ１［７：０］をＳｏｕｒｃｅ２［７：０］によって無符号上位乗算すると、その積の上位ビットが結果Ｒｅｓｕｌｔ［７：０］として求められる。本発明の一実施形態では、上位｜下位演算変更子の使用によって、１つのデータ要素から次に高いデータ要素へのオーバーフローの可能性がなくなる。すなわち、この変更子によって、プログラマはオーバーフローを心配せずに積のどのビットを結果に含めるかを選択することができる。プログラマはパックされた乗算の組み合わせを使用して完全な２Ｎビットの積を得ることができる。たとえば、プログラマは無符号パックされた上位乗算を使用し、次に同じＳｏｕｒｃｅ１とＳｏｕｒｃｅ２を使用して、下位パックされた乗算を使用することによって、完全な（２Ｎ）積を得ることができる。上位乗算を行うのは、積の上位ビットのみが積の重要な部分であることが多いためである。プログラマは、パックされていないデータ演算でしばしば必要になる切り捨てを先に行わなくても、積の上位ビットを求めることができる。本発明の一実施形態では、Ｓｏｕｒｃｅ２内の各データ要素が異なる値を持つことができる。これによって、プログラマはＳｏｕｒｃｅ１内の各被乗数の乗数として異なる値を使用する柔軟性が得られる。第７図に、パックされたデータに対して乗算を行う方法の一実施形態を示す。この実施形態は、第２図のプロセッサ１０９で実施することができる。ステップ７０１で、プロセッサ１０９が受け取った制御信号２０７をデコーダ２０２がデコードする。したがって、デコーダ２０２は、適切な乗算の命令コードと、整数レジスタ２０９内のＳＲＣ１６０２、ＳＲＣ２６０３、およびＤＥＳＴ６０５アドレスと、符号付き｜無符号と、上位｜下位と、パックされたデータ内のデータ要素の長さとをデコードする。ステップ７０２で、ＳＲＣ１６０２アドレスとＳＲＣ２６０３アドレスが与えられた場合、内部バス２０５を介してデコーダ２０２がレジスタ・ファイル２０４内の整数レジスタ２０９にアクセスする。整数レジスタ２０９は機能ユニット２０３にＳＲＣ１６０２レジスタに格納されているパックされたデータ（Ｓｏｕｒｃｅ１）と、ＳＲＣ２６０３レジスタに格納されているパックされたデータ（Ｓｏｕｒｃｅ２）を供給する。すなわち、整数レジスタ２０９は、パックされたデータを内部バス２０５を介して機能ユニット２０３に伝達する。ステップ７０３で、デコーダ２０２は機能ユニット２０３が適切なパックされた乗算を実行することができるようにする。デコーダ２０２は、さらに、内部バス２０５を介してデータ要素のサイズと乗算の上位｜下位も伝達する。ステップ７１０で、データ要素のサイズによって次にどのステップを実行するかが決まる。データ要素のサイズが８ビット（バイト・データ）の場合、機能ユニット２０３はステップ７１２を実行する。しかしパックされたデータ内のデータ要素のサイズが１６ビット（ワード・データ）の場合、機能ユニット２０３はステップ７１４を実行する。一実施形態では、１６ビットのデータ要素サイズのパックされた乗算のみがサポートされる。他の実施形態では、８ビットと１６ビットのデータ要素サイズのパックされた乗算がサポートされる。しかし、他の実施形態では、３２ビットのデータ要素サイズのパックされた乗算もサポートされる。データ要素のサイズが８ビットであると仮定すると、ステップ７１２が実行される。ステップ７１２では、以下の演算が行われる。Ｓｏｕｒｃｅ１のビット７ないしゼロにＳｏｕｒｃｅ２のビット７ないしゼロを乗じて、Ｒｅｓｕｌｔのビット７ないし０を生成する。Ｓｏｕｒｃｅ１のビット１５ないし８にＳｏｕｒｃｅ２のビット１５ないし８を乗じてＲｅｓｕｌｔのビット１５ないし８を生成する。Ｓｏｕｒｃｅ１のビット２３ないし１６にＳｏｕｒｃｅ２のビット２３ないし１６を乗じてＲｅｓｕｌｔのビット２３ないし１６を生成する。Ｓｏｕｒｃｅ１のビット３１ないし２４にＳｏｕｒｃｅ２のビット３１ないし２４を乗じてＲｅｓｕｌｔのビット３１ないし２４を生成する。Ｓｏｕｒｃｅ１のビット３９ないし３２にｓｏｕｒｃｅ２のビット３９ないし３２を乗じてＲｅｓｕｌｔのビット３９ないし３２を生成する。Ｓｏｕｒｃｅ１のビット４７ないし４０にＳｏｕｒｃｅ２のビット４７ないし４０を乗じてＲｅｓｕｌｔのビット４７ないし４０を生成する。Ｓｏｕｒｃｅ１のビット５５ないし４８にＳｏｕｒｃｅ２のビット５５ないし４８を乗じてＲｅｓｕｌｔのビット５５ないし４８を生成する。Ｓｏｕｒｃｅ１のビット６３ないし５６にＳｏｕｒｃｅ２のビットを乗じてＲｅｓｕｌｔのビット６３ないし５６を生成する。データ要素のサイズが１６ビットであると仮定すると、ステップ７１４が実行される。ステップ７１４では、以下の演算が行われる。Ｓｏｕｒｃｅ１のビット１５ないし０にＳｏｕｃｅ２のビット１５ないし０を乗じてＲｅｓｕｌｔのビット１５ないし０を生成する。Ｓｏｕｒｃｅ１のビット３１ないし１６にＳｏｕｒｃｅ２のビット３１ないし１６を乗じてＲｅｓｕｌｔのビット３１ないし１６を生成する。Ｓｏｕｒｃｅ１のビット４７ないし３２にＳｏｕｒｃｅ２のビット４７ないし３２を乗じてＲｅｓｕｌｔのビット４７ないし３２を生成する。Ｓｏｕｒｃｅ１のビット６３ないし４８にＳｏｕｒｃｅ２のビット６３ないし４８を乗じてＲｅｓｕｌｔのビット６３ないし４８を生成する。一実施形態では、ステップ７１２の乗算が同時に行われる。しかし、他の実施形態では、これらの乗算は順次に行われる。他の実施形態では、これらの乗算の一部が同時に行われ、一部は順次に行われる。これは、ステップ７１４の乗算にも同様に適用される。ステップ７２０で、ＲｅｓｕｌｔがＤＥＳＴレジスタに格納される。表２に、パックされたワード・データに対するパックされた無符号上位乗算のレジスタ内表現を示す。最初の行のビットはＳｏｕｒｃｅ１のパックされたデータ表現である。２番目の行のビットはＳｏｕｒｃｅ２のデータ表現である。３番目の行のビットはＲｅｓｕｌｔのパックされたデータ表現である。各データ要素ビットの下の数字はデータ要素番号である。たとえば、Ｓｏｕｒｃｅ１データ要素２は１１１１１１１１００００００００₂である。表３に、パックされたワード・データに対する符号付きパックされた上位乗算のレジスタ内表現を示す。表４に、パックされたワード・データに対するパックされた下位乗算のレジスタ内表現を示す。パックされたデータ回路一実施形態では、パックされていないデータに対する単一の乗算と同じクロック・サイクル数で複数のデータ要素に対する乗算を行うことができる。同じクロック・サイクル数での実行を実現するために、並列処理を使用する。すなわち、データ要素に対して乗算を行うように各レジスタが同時に命令される。これについては以下で詳述する。第８図に、パックされていないデータに対する乗算と同じクロック・サイクル数でパックされたデータに対する乗算を行うことができる回路の一実施形態を示す。第８図には、パックされたバイト乗算またはパックされたワード乗算を実行するための乗算回路の使用が示されている。操作制御回路８００が、乗算を行う回路を制御する。操作制御回路８００は、乗算のための制御信号を処理し、上位｜下位イネーブル信号８８０と、バイト｜ワード・イネーブル信号８８１と符号イネーブル信号８８２を出力する。上位｜下位イネーブル８８０は、積の上位ビットと下位ビットのどちらを結果に含めるかを識別する。バイト｜ワード・イネーブル８８１は、バイト・パックされたデータとワード・パックされたデータのどちらの乗算を実行するかを識別する。符号イネーブル８８２は、符号付き乗算を使用するかどうかを識別する。パックされたワード乗算回路８０１は、４個のワード・データ要素を同時に乗算する。パックされたバイト乗算回路８０２は、８個のバイト・データ要素を乗算する。パックされたワード乗算回路８０１とパックされたバイト乗算回路８０２の両方が、Ｓｏｕｒｃｅ１［６３：０］８３１と、Ｓｏｕｒｃｅ２［６３：０］８３３と、符号イネーブル８８２と上位｜下位イネーブル８８０の各入力を持つ。パックされたワード乗算回路８０１は４個の１６×１６乗算回路を含む。すなわち１６×１６乗算回路Ａ８１０と、１６×１６乗算回路Ｂ８１１と、１６×１６乗算回路Ｃ８１２と１６×１６乗算回路Ｄ８１３である。１６×１６乗算回路Ａ８１０は入力としてＳｏｕｒｃｅ１［１５：０］とＳｏｕｒｃｅ２［１５：０］を持つ。１６×１６乗算回路Ｂ８１１は入力としてＳｏｕｒｃｅ１［３１：１６］とＳｏｕｒｃｅ２［３１：１６］を持つ。１６×１６乗算回路Ｃ８１２は入力としてＳｏｕｒｃｅ１［４７：３２］とＳｏｕｒｃｅ２［４７：３２］を持つ。１６×１６乗算回路Ｄ８１３は入力としてＳｏｕｒｃｅ１［６３：４８］とＳｏｕｒｃｅ２［６３：４８］を持つ。各１６×１６乗算回路は符号イネーブル８８２に接続されている。各１６×１６乗算回路は３２ビットの積を出力する。各乗算回路について、マルチプレクサ（それぞれＭｘ０８５０、Ｍｘ１８５１、Ｍｘ２８５２、およびＭｘ３８５３）が３２ビットの結果を受け取る。上位｜下位イネーブル８８０の値に応じて、各マルチプレクサは積の上位１６ビットまたは下位１６ビットを出力する。４個のマルチプレクサの出力が組み合わされて６４ビットの結果になる。この結果は任意選択で結果レジスタ１８７１に格納される。パックされたバイト乗算回路８０２は、８×８乗算回路Ａ８２０ないし８×８乗算回路Ｈ８２７の８個の８×８乗算回路を含む。各８×８乗算回路は、Ｓｏｕｒｃｅ１［６３：０］８３１とＳｏｕｒｃｅ２［６３：０］８３３のそれぞれからの８ビットの入力を持つ。たとえば、８×８乗算回路Ａ８２０は入力としてＳｏｕｒｃｅ１［７：０］とＳｏｕｒｃｅ２［７：０］を持ち、８×８乗算回路Ｈ８２７は入力としてＳｏｕｒｃｅ１［６３：５６］とＳｏｕｒｃｅ２［６３：５６］を持つ。各８×８乗算回路は符号イネーブル８８２に接続されている。各８ ×８乗算回路は１６ビットの積を出力する。各乗算回路について、マルチプレクサ（たとえばＭｘ４８６０およびＭｘ１１８６７）が１６ビットの結果を受け取る。上位｜下位イネーブル８８０の値に応じて、各マルチプレクサは積の上位８ビットまたは下位８ビットを出力する。８個のマルチプレクサの出力が組み合わされて１つの６４ビットの結果になる。この結果は任意選択で結果レジスタ２８７２に格納される。バイト｜ワード・イネーブル８８１は、その演算に必要なデータ要素のサイズに応じて、特定の結果レジスタを使用可能にする。一実施形態では、２個の８×８数値の両方の乗算または１個の１６×１６数値の乗算をすることができる回路を作成することによって、乗算を実現するために使用される面積を小さくする。すなわち、２個の８×８乗算回路と１個の１６× １６乗算回路を組み合わせて１個の８×８および１６×１６乗算回路とする。操作制御回路８００が乗算のための適切なサイズを使用可能にすることになる。このような実施形態では、乗算回路によって使用される物理的面積が小さくなるが、パックされたバイト乗算とパックされたワード乗算を実行するのが難しくなる。パックされたダブルワード乗算をサポートする他の実施形態では、１個の乗算回路が４つの８×８乗算、２つの１６×１６乗算、または１つの３２×３２乗算を実行することができる。一実施形態では、パックされたワード乗算だけが行われる。この実施形態では、パックされたバイト乗算回路８０２と結果レジスタ２８７２が組み込まれることになる。したがって、複数のデータ要素に対してパックされた乗算を行うことができる。従来技術のプロセッサでは、それぞれが１ワード長の８個のデータを乗算するのに、４つの別々の乗算が必要になる。各演算で一度に２ワードが乗算されることになり、ビット１６より上のビットに使用されるデータ線と回路が事実上無駄になる。また、積全体がプログラマの役に立つとは限らない。したがって、プログラマは各積を切り捨てなければならないことになる。パックされた乗算を使用すると、上位ビットのみが重要な場合、プロセッサによって１回の演算で８個のデータを乗算することができる。この実施形態では、データ線はすべて意味のあるデータを伝達する。以上、改良されたデータ乗算を有するマイクロプロセッサについて説明した。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９６年１０月１日【補正内容】補正請求の範囲１．第１のパックされたデータが第１の複数のデータ要素を含み、第２のパックされたデータが第２の複数のデータ要素を含み、前記第１の複数のデータ要素内の各データ要素は、第２の複数のデータ要素内のデータ要素に対応している、前記第１のパックされたデータと前記第２のパックされたデータを保持するように構成された記憶装置と、命令をデコードするように構成されたデコーダと、記憶装置とデコーダとに結合され、命令に応答して、第１の複数のデータ要素の各データ要素に第２の複数のデータ要素のうちの対応するデータ要素を同時に乗じ、各結果データ要素が上位ビットのみを含む第３のパックされたデータ内の複数の結果データ要素を生成する回路とを備えるプロセッサ。２．各結果データ要素が下位ビットのみを含むことを特徴とする請求項１に記載のプロセッサ。３．第１、第２、および第３のパックされたデータがそれぞれ４個のパックされたワード・データ要素を含み、各パックされたデータ要素が１６ビットで表現されることを特徴とする請求項１に記載のプロセッサ。４．前記回路が、命令に応答して第１の複数のデータ要素の各符号付きデータ要素に第２の複数のデータ要素のうちの対応する符号付きデータ要素を同時に乗じ、第３のパックされたデータ内の複数の符号付き結果データ要素を生成するように構成されていることを特徴とする請求項３に記載のプロセッサ。５．第１、第２、および第３のパックされたデータがそれぞれ４個のパックされたワード・データ要素を含み、各パックされたワード・データ要素が１６ビットで表されることを特徴とする請求項２に記載のプロセッサ。６．前記回路が、命令に応答して第１の複数のデータ要素の各符号付きまたは無符号データ要素に第２の複数のデータ要素のうちの対応する符号付きまたは無符号データ要素を同時に乗じ、第３のパックされたデータ内の複数の符号付きまたは無符号結果データ要素を生成するように構成されていることを特徴とする請求項５に記載のプロセッサ。７．前記回路が４個の１６ビット乗算回路を含み、各乗算回路が第１の複数のデータ要素のうちのデータ要素と第２のパックされたデータのうちの対応するデータ要素を受け取り、各乗算回路が上位／下位イネーブル入力を有し、各乗算回路が別々のマルチプレクサに結合され、各マルチプレクサが１６ビットの乗算回路から３２ビットの結果を受け取り、上位／下位イネーブル入力での入力値に応じて、各マルチプレクサが３２ビットの結果の上位１６ビットまたは下位１６ビットを生成し、生成された上位１６ビットまたは下位１６ビットが複数の結果データ要素として第３のパックされたデータに入れられることを特徴とする請求項１に記載のプロセッサ。８．第１の複数のデータ要素を有する第１のパックされたデータを保持するように構成され、かつ第２の複数のデータ要素を有する第２のパックされたデータを保持するように構成された第１の記憶装置と、第１の記憶装置に対応する第１のアドレスと、第２の記憶装置に対応する第２のアドレスと、宛先アドレスと、第１の複数のデータ要素と第２の複数のデータ要素との間で行う乗算とを示すパックされた乗算命令をデコードするように構成されたデコーダと、第１の記憶装置とデコーダとに結合され、パックされた乗算命令に応答して、第１の複数のデータ要素の各データ要素に第２の複数のデータ要素のうちの対応するデータ要素を並列して乗じ、各結果データ要素が上位ビットのみを含む第３のパックされたデータ内の複数の結果データ要素を生成するように構成された回路とを備えるプロセッサ。９．各結果データ要素が下位ビットのみを含むことを特徴とする請求項８に記載のプロセッサ。１０．第１、第２、および第３のパックされたデータがそれぞれ４個のパックされたワード・データ要素を含み、各パックされたワード・データ要素が１６ビットで表されることを特徴とする請求項８に記載のプロセッサ。１１．回路が、命令に応答して、第１の複数のデータ要素の各符号付きデータ要素に第２の複数のデータ要素のうちの対応する符号付きデータ要素を並列して乗じ、第３のパックされたデータ内の複数の符号付きデータ要素を生成するように構成されていることを特徴とする請求項１０に記載のプロセッサ。１２．第１、第２、および第３のパックされたデータがそれぞれ４個のパックされたワード・データ要素を含み、各パックされたワード・データ要素が１６ビットで表されることを特徴とする請求項９に記載のプロセッサ。１３．前記回路が、命令に応答して、第１の複数のデータ要素のうちの各符号付きまたは無符号データ要素に第２の複数のデータ要素の内の対応する符号付きまたは無符号データ要素を並列して乗じ、第３のパックされたデータ内の複数の符号付きまたは無符号結果データ要素を生成するように構成されていることを特徴とする請求項１２に記載のプロセッサ。１４．前記回路が４個の１６ビット乗算回路を含み、各乗算回路が第１の複数のデータ要素のうちのデータ要素と第２のパックされたデータ要素のうちの対応するデータ要素とを受け取り、各乗算回路が上位／下位イネーブル入力を有し、各乗算回路が別々のマルチプレクサに結合され、各マルチプレクサがそれぞれの１６ビット乗算回路から３２ビットの結果を受け取り、上位／下位イネーブル入力での入力値に応じて、各マルチプレクサが３２ビットの結果の上位１６ビットまたは下位１６ビットを生成し、生成された上位１６ビットまたは下位１６ビットが複数の結果データ要素として第３のパックされたデータに入れられることを特徴とする請求項８に記載のプロセッサ。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＡＬ，ＡＭ，ＡＴ，ＡＴ，ＡＵ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＣＺ，ＤＥ，ＤＥ，ＤＫ，ＤＫ，ＥＥ，ＥＥ，ＥＳ，ＦＩ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＫ，ＴＪ，ＴＭ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ (72)発明者ミタル，ミリンドアメリカ合衆国・94080・カリフォルニア州・サウスサンフランシスコ・ヒルサイドブルバード・1149 (72)発明者メネマイアー，ラリー・エムアメリカ合衆国・95006・カリフォルニア州・ボルダークリーク・ピーオーボックス・587 (72)発明者エイタン，ベニーイスラエル国・ハイファ・スティーブンウィース・25

Claims

【特許請求の範囲】１．第１の場所に対応する第１のソース・アドレスと、第２の場所に対応する第２のソース・アドレスと、第３の場所に対応する宛先アドレスと、あるタイプのパックされたデータ乗算を行うことを示す命令フィールドとを有する制御信号を受信するように結合されたデコーダと、前記デコーダに結合され、前記第１の場所に格納されている第１のパックされたデータに第２の場所に格納されている第２のパックされたデータを乗じ、対応する結果パックされたデータを前記第３の場所に伝達する回路とを備えるプロセッサ。２．前記第１のパックされたデータが複数のデータ要素を含み、前記複数のデータ要素の各データ要素がサイズを有し、前記命令フィールドが前記サイズに対応する標識をさらに含むことを特徴とする、請求項１に記載のプロセッサ。３．前記サイズがパックされたバイトとパックされたワードとパックされたダブルワードとのうちの１つであることを特徴とする、請求項２に記載のプロセッサ。４．前記第１のパックされたデータが６４ビットであることを特徴とする、請求項２に記載のプロセッサ。５．前記宛先アドレスが前記第１のソース・アドレスであることを特徴とする、請求項１に記載のプロセッサ。６．前記命令フィールドが、前記結果パックされたデータが前記乗算について上位パックされたデータと下位パックされたデータのどちらを含むかを規定することを特徴とする、請求項１に記載のプロセッサ。７．前記タイプのパックされたデータ乗算が符号付き上位乗算、無符号上位乗算、および下位乗算のうちの１つであることを特徴とする、請求項１にプロセッサ。８．前記プロセッサが、レジスタを含むレジスタ・ファイルを備え、前記第２の場所が前記レジスタに対応することを特徴とする、請求項１に記載のプロセッサ。９．前記第１の場所が記憶場所に対応することを特徴とする、請求項８に記載のプロセッサ。１０．デコーダが機能ユニットと第１のレジスタと第２のレジスタとに結合され、前記デコーダと前記機能ユニットと前記第１のレジスタと前記第２のレジスタとを有するプロセッサにおいて、パックされたデータを乗算する方法であって、前記デコーダが制御信号をデコードするステップと、前記第１のレジスタに格納された第１のパックされたデータにアクセスするステップと、前記第２のレジスタに格納された第２のパックされたデータにアクセスするステップと、前記制御信号をデコードする前記デコーダに応答して、前記機能ユニットが前記第１のパックされたデータに前記第２のパックされたデータを乗じ、結果パックされたデータを生成するステップと、前記結果パックされたデータを前記第１のレジスタに格納するステップとを含む方法。１１．前記制御信号があるタイプの乗算標識を含み、前記タイプの乗算標識が符号付き上位乗算と無符号上位乗算と下位乗算のグループのうちの１つの乗算を示すことを特徴とする、請求項１０に記載の方法。１２．前記第１のパックされたデータが複数のデータ要素を含み、前記複数のデータ要素の各データ要素が所定のビット数によって表され、前記制御信号がサイズ標識を含み、前記サイズ標識が前記所定のビット数を示すことを特徴とする、請求項１０に記載の方法。１３．前記第１のレジスタが６４ビット長であり、前記第１のパックされたデータが８個のパックされたバイト・データ要素を含むことを特徴とする、請求項１０に記載の方法。１４．前記乗算の結果として２倍サイズのデータ要素が得られ、前記２倍サイズのデータ要素が前記第１のパックされたデータ内のデータ要素のサイズの２倍であり、前記結果パックされたデータ内のデータ要素が前記２倍サイズのデータ要素の半分であることを特徴とする、請求項１０に記載の方法。