JPH0844880A

JPH0844880A - 統合されたグラフィックス機能を含むｃｐｕ

Info

Publication number: JPH0844880A
Application number: JP7128841A
Authority: JP
Inventors: Hook Timothy J Van; ティモシー・ジェイ・ヴァン・フック; Leslie Dean Kohn; レスリー・ディーン・コーン; Young Robert; ロバート・ヤング
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1994-04-29
Filing date: 1995-05-01
Publication date: 1996-02-16
Also published as: US5933157A; KR950033886A; DE69527674D1; EP0680013A2; EP0680013B1; US5938756A; US5734874A; EP0680013A3

Abstract

(57)【要約】【目的】より高度のグラフィック機能を組み込んだ中
央演算処理装置(ＣＰＵ)を提供すること。【構成】中央演算処理装置（ＣＰＵ）の整数実行ユニ
ット（ＩＥＵ）は、グラフィックス・データ・スケール
・ファクタおよびグラフィックス・データ整列アドレス
・オフセットを記憶するグラフィックス状態レジスタ
（ＧＳＲ）を備える。また、ＣＰＵは、グラフィックス
・データ・スケール・ファクタおよびグラフィックス・
データ整列アドレス・オフセットに応じて多数のグラフ
ィックス動作を実行するグラフィックス実行ユニット
（ＧＲＵ）を備え、グラフィックス・データは多数のグ
ラフィックス・データ・フォーマットを有する。グラフ
ィックス・データ演算は、第１範疇および第２範疇とし
て範疇分けされ、ＧＲＵは各範疇の１つのグラフィック
ス演算を並行的に実行する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータ・システ
ムの分野に関する。詳細には、本発明は、統合されたグ
ラフィックス機能を有する費用有効な高性能中央演算処
理装置（ＣＰＵ）に関する。

【０００２】

【従来の技術】グラフィックス・コンピュータ・システ
ムで高性能を達成するうえで３つの主要な問題がある。
第１の問題は、浮動小数点処理スループットにある。グ
ラフィックス・アプリケーションは通常、浮動小数点デ
ータを使用して変換やクリッピングなど大量の図形処理
動作を実行する。第２の問題は、整数処理スループット
または固定小数点スループットにある。また、グラフィ
ックス・アプリケーションは通常、整数データまたは固
定小数点データを使用して走査変換（スキャン・コンバ
ージョン）や色補間など大量の表示動作を実行する。第
３の問題は、メモリ参照にある。上述の動作は通常、た
とえばフレーム・バッファやＺバッファとの間の読取り
および書込みのために大量のメモリ参照を必要とする。

【０００３】歴史的に見ると、初期の従来技術のコンピ
ュータ・システム中のＣＰＵは、グラフィックス機能と
非グラフィックス機能の両方を負担していた。大量の浮
動小数点処理および固定小数点処理を実行する際にも、
あるいは、メモリ参照を実行する際にも、このような初
期のＣＰＵを助ける特殊なハードウェアは提供されなか
った。このような初期の従来技術のシステムの設計は簡
単なものであるが、その性能は通常、低速である。

【０００４】いくつかの後の従来技術のコンピュータ・
システムでは、補助表示プロセッサが提供された。この
補助表示プロセッサによって、このような後のＣＰＵは
いくつかの表示関連動作を実行しなく済むようになっ
た。しかし、このような後のＣＰＵは依然として、大部
分のグラフィックス処理を負担していた。通常、このよ
うな後の従来技術のコンピュータ・システムのシステム
・バスの帯域幅は、バス上のプロセッサ間の通信量の増
加に適応するために、それに応じて増大される。場合に
よっては、プロセッサ間のメモリ競合の量を低減させる
ために、補助表示プロセッサにそれ自体のメモリを備え
ることもある。しかし、一般に性能は向上するが、この
手法はコストがかかり、複雑である。

【０００５】他の後の従来技術のコンピュータシステム
では、より豊富なグラフィックス機能を含むグラフィッ
クス・プロセッサが提供された。この補助グラフィック
ス・プロセッサによって、このような後の従来技術のコ
ンピュータ・システムのＣＰＵは、大部分のグラフィッ
クス処理を実行しなくて済むようになった。この手法の
下では、広範囲の専用ハードウェアと、ＣＰＵと補助グ
ラフィックス・プロセッサの間の精巧なソフトウェア・
インタフェースを提供する必要がある。性能は大幅に向
上するが、この手法は、表示プロセッサ手法よりもずっ
とコストがかかり、かつずっと複雑である。

【０００６】マイクロプロセッサの場合、技術進歩によ
ってさらに多くの回路を小さな領域にパッケージングで
きるようになるにつれて、その代わりに、汎用ＣＰＵ
を、組込みグラフィックス機能と統合することがますま
す望ましくなっている。いくつかの現代の従来技術のコ
ンピュータ・システムでは、そのような統合が始まって
いる。しかし、このような現代のコンピュータ・システ
ムに統合されるグラフィックス機能の量および性質は通
常、依然として非常に限られている。既知の統合された
グラフィックス機能に含まれるのは、フレーム・バッフ
ァ検査、ピクセル・マージによる追加、およびＺバッフ
ァ・マージによる追加だけである。このような現代の従
来技術のシステム上のグラフィックス処理の多くは、依
然として、追加組込みグラフィックス機能なしで汎用Ｃ
ＰＵによって処理され、あるいは、補助表示／グラフィ
ックス・プロセッサによって処理されている。

【０００７】

【発明が解決しようとする課題】本発明は、このような
性能面の問題の多くを有利に解決し、上述およびその他
の望ましい結果を達成する、統合された固有のグラフィ
ックス機能を含む費用有効な高性能ＣＰＵを提供するこ
とを課題とする。

【０００８】

【課題を解決するための手段】本発明によれば、中央演
算処理装置（ＣＰＵ）にグラフィックス実行ユニット
（ＧＲＵ）を与えることによって、望ましい結果が有利
に達成される。ＧＲＵは、グラフィックス状態レジスタ
（ＧＳＲ）と少なくとも１つの分割実行パスとを備え
る。ＧＳＲは、グラフィックス・データ・スケール・フ
ァクタ、およびグラフィックス・データ整列アドレス・
オフセットを記憶するために使用される。この少なくと
も１つの分割実行パスは、多数のグラフィックス・デー
タ・フォーマットを有するグラフィックス・データに対
して多数のグラフィックス演算を実行するために使用さ
れる。このようなグラフィックス演算のいくつかは、グ
ラフィックス・データ・スケール・ファクタおよびグラ
フィックス・データ整列アドレス・オフセットに応じて
動作するグラフィックス演算を含め、グラフィックス・
データの複数の構成要素に対して同時に動作する分割演
算（パーティションド・オペレーション）である。

【０００９】一実施例では、ＧＲＵは、第１の分割実行
パスと第２の分割実行パスとを備える。これらの２つの
分割実行パスは、相互に独立している。第１の分割実行
パスは、独立に、多数の分割加算演算および分割減算演
算、拡張演算、マージ演算、ならびに論理演算をグラフ
ィックス・データに対して実行し、かつ整列アドレス・
オフセットを使用してグラフィックス・データに対して
多数の整列演算を実行するために使用される。第２の分
割実行パスは、独立に、多数の分配乗算演算、多数のピ
クセル距離計算、および比較演算をグラフィックス・デ
ータに対して実行し、かつスケール・ファクタを使用し
て多数のグラフィックス・パッキング操作をグラフィッ
クス・データに対して実行するために使用される。

【００１０】また、この実施例の下では、ＣＰＵの整数
実行ユニット（ＩＥＵ）を使用して、グラフィックス・
データ・アドレスに対して多数のエッジ処理演算が実行
され、かつ３−Ｄアレイ・アドレス変換用の追加回路に
よってＩＥＵが拡張され、ＣＰＵのロード・記憶ユニッ
ト（ＬＳＵ）を使用して、部分条件付き記憶操作を含
め、多数のグラフィックス・データ・ロード操作および
グラフィックス・データ記憶操作も実行される。

【００１１】

【実施例】以下では、本発明の完全な理解のために説明
の目的で、特定の数、材料、構成について述べる。しか
し、当業者には、特定の細部なしで本発明を実施できる
ことが明らかになろう。他の例では、本発明をあいまい
にしないように、周知のシステムを概略図またはブロッ
ク図の形で示す。

【００１２】図１には、本発明の教示を組み込んだ典型
的なグラフィックス・コンピュータ・システムのＣＰＵ
を示すブロック図が示されている。ＣＰＵ２４は、図の
ように相互に結合された、命令キャッシュ４０を含むプ
リフェッチ・デスパッチユニット（ＰＤＵ）４６と、整
数実行ユニット（ＩＥＵ）３０と、整数レジスタ・ファ
イル３６と、浮動小数点ユニット（ＦＰＵ）２６と、浮
動小数点レジスタ・ファイル３８と、グラフィックス実
行ユニット（ＧＲＵ）２８とを備えている。また、ＣＰ
Ｕ２４は、図のように相互に結合され前述の要素に結合
された、２つのメモリ管理ユニット（ＩＭＭＵおよびＤ
ＭＭＵ）４４ａおよび４４ｂと、データ・キャッシュ４
２を含むロード記憶ユニット（ＬＳＵ）４８とを備え
る。これらのユニットは協働して、パイプライン的に、
グラフィックス命令を含め、命令をフェッチし、ディス
パッチし、実行し、その結果を保存する。

【００１３】ＰＤＵ４６は、メモリから命令を取り出
し、それに応じてＩＥＵ３０、ＦＰＵ２６、ＧＲＵ２
８、およびＬＳＵ４８にディスパッチする。プリフェッ
チされた命令は、命令キャッシュ４０に記憶される。Ｉ
ＥＵ３０、ＦＰＵ２６、およびＧＲＵ２８はそれぞれ、
整数演算、浮動小数点演算、およびグラフィックス演算
を実行する。一般に、整数オペランド／結果は、整数レ
ジスタ・ファイル３６に記憶され、浮動小数点・グラフ
ィックス・オペランド／結果は、浮動小数点レジスタ・
ファイル３８に記憶される。ＩＥＵ３０は、多数のグラ
フィックス演算も実行し、アクセスすべきアドレス空間
を識別するアドレス空間識別子（ＡＳＩ）を、ＬＳＵ４
８に対するロード／記憶命令のアドレスに追加する。Ｌ
ＳＵ４８は、すべてのロード操作および記憶操作に関す
るアドレスを生成する。ＬＳＵ４８は、具体的にはグラ
フィックス・データ向けに設計された多数のロード操作
および記憶操作もサポートする。メモリ参照は、仮想ア
ドレスで行われる。ＭＭＵ４４ａおよび４４ｂは、仮想
アドレスを物理アドレスにマップする。

【００１４】ＰＤＵ４６、ＩＥＵ３０、ＦＰＵ２６、整
数レジスタ・ファイル３６および浮動小数点レジスタ・
ファイル３８、ＭＭＵ４４ａおよび４４ｂ、ならびにＬ
ＳＵ４８をどのように相互に結合するかには多数の変形
例がある。ある種の変形例では、これらの要素４６、３
０、２６、３６、３８、４４ａ、４４ｂ、４８のうちの
いくつかを組み合わせることができるが、他の変形例で
は、これらの要素４６、３０、２６、３６、３８、４４
ａ、４４ｂ、４８のいくつかが他の機能を実行すること
ができる。したがって、本発明を組み込んだ場合を除
き、これらの要素４６、３０、２６、３６、３８、４４
ａおよび４４ｂ、４８は、多数のグラフィックスＣＰＵ
および非グラフィックスＣＰＵにある広義のＰＤＵ、Ｉ
ＥＵ、ＦＰＵ、整数レジスタ・ファイルおよび浮動小数
点レジスタ・ファイル、ＭＭＵ、ならびにＬＳＵを表わ
すものである。これらの要素の構成および機能は周知で
あり、それについてはこれ以上説明しない。これらの要
素４６、３０、２６、３６、３８、４４ａおよび４４
ｂ、４８と、ＧＲＵ２８に組み込まれる本発明の教示に
ついて、以下でさらに詳しく説明する。

【００１５】図２を参照すると、ＧＲＵの一実施例の関
連部分を示すさらに詳しいブロック図が示されている。
この実施例では、ＧＲＵ２８は、グラフィックス状態レ
ジスタ（ＧＳＲ）５０と、第１分割実行パス３２および
第２の分割実行パス３４とを備える。２つの実行パス３
２および３４は相互に独立している。言い換えると、２
つのグラフィックス命令を独立にかつ同時に２つの実行
パス３２および３４に発行することができる。これらの
実行パスは共に、独立にグラフィックス命令を実行して
グラフィックス・データを操作する。これらの要素５
０、３２、３４の機能および構成について、残りの図に
関してさらに詳しく説明する。

【００１６】次に、図３を参照すると、グラフィックス
状態レジスタ（ＧＳＲ）の一実施例の関連部分を示す図
が示されている。この実施例では、ＧＳＲ５０を使用し
て、整列位置の前のピクセル・アドレスの最下位３ビッ
ト（ａｌｉｇｎａｄｄｒ＿ｏｆｆｓｅｔ）５４が記憶さ
れ、ピクセルのフォーマットに使用すべきスケール・フ
ァクタ（ｓｃａｌｅ＿ｆａｃｔｏｒ）５２が記憶され
る。ａｌｉｇｎａｄｄｒ＿ｏｆｆｓｅｔ５４はビットＧ
ＳＲ［２：０］に記憶され、ｓｃａｌｅ＿ｆａｃｔｏｒ
５２はビットＧＳＲ［６：３］に記憶される。以下でさ
らに詳しく説明するように、ＧＳＲ５０との間の読取り
および書込みのために２つの特殊命令ＲＤＡＳＲおよび
ＷＲＡＳＲが用意されている。ＲＤＡＳＲ命令およびＷ
ＲＡＳＲ命令と、ａｌｉｎｇａｄｄｒ＿ｏｆｆｓｅｔ５
４およびｓｃａｌｅ＿ｆａｃｔｏｒ５２の使用法につい
ては以下でさらに詳しく説明する。

【００１７】次に、図４を参照すると、第１の分割実行
パス３２の一実施例の関連部分を示すブロック図が示さ
れている。第１の分割実行パス３２は、図のように相互
に結合された、分割キャリー・アダー３７と、グラフィ
ックス・データ整列回路３９と、グラフィックス・デー
タ拡張／マージ回路６０と、グラフィックス・データ論
理演算回路６２とを備える。第１の分割実行パス３２は
さらに、図のように相互に結合され前述の要素に結合さ
れた、２つのレジスタ３５ａおよび３５ｂと、４：１マ
ルチプレクサ４３も備える。各ディスパッチで、ＰＤＵ
４６は、グラフィックス・データ分割加算／減算命令、
グラフィックス・データ整列命令、グラフィックス・デ
ータ拡張／マージ命令、またはグラフィックス・データ
論理演算を第１の分割実行パス３２にディスパッチする
ことができる。分割キャリー・アダー３７は、分割グラ
フィックス・データ加算／減算命令を実行し、グラフィ
ックス・データ整列回路３９は、ＧＳＲ５０に記憶され
ているａｌｉｇｎａｄｄｒ−ｏｆｆｓｅｔを使用してグ
ラフィックス・データ整列命令を実行する。グラフィッ
クス・データ拡張／マージ回路６０は、グラフィックス
・データ・マージ／拡張命令を実行する。グラフィック
ス・データ論理演算回路６２は、グラフィックス・デー
タ論理演算を実行する。

【００１８】分割キャリー・アダー３７の機能および構
成は、オペランドの分割された異なる部分に対して複数
の加算／減算を同時に実行できるように、複数のハード
ウェアが複製されていることを除き、当技術分野で知ら
れている多数の整数実行ユニットにある簡単なキャリー
・アダーに類似している。キャリー・チェーンを２つの
１６ビット・チェーンに分割することもできる。したが
って、分割キャリー・アダー３７についてはこれ以上説
明しない。

【００１９】同様に、グラフィックス・データ拡張／マ
ージ回路６０およびグラフィックス・データ論理演算回
路６２の機能および構成は、オペランドの分割された異
なる部分に対して複数の拡張／マージ動作および論理演
算を同時に実行できるように、複数のハードウェアが複
製されていることを除き、当技術分野で知られている多
数の整数実行ユニットにある拡張／マージ回路および論
理回路に類似している。したがって、ラフィックス・デ
ータ拡張／マージ回路６０およびグラフィックス・デー
タ論理演算回路６２についてはこれ以上説明しない。

【００２０】グラフィックス・データ分割加算／減算命
令およびグラフィックス・データ整列命令と、グラフィ
ックス・データ整列回路３９について、以下でさらに詳
しく説明する。

【００２１】次に、図５を参照すると、第２の分割実行
パスの一実施例の関連部分をさらに詳しく示すブロック
図が示されている。この実施例では、第２の分割実行パ
ス３４は、図示のように相互に結合された、ピクセル距
離計算回路３６と、分割乗算器５８と、グラフィックス
・データ・パッキング回路５９と、グラフィックス・デ
ータ比較回路６４とを備える。第２の分割実行パス３４
はさらに、図のように相互に結合され前述の要素に結合
された、多数のレジスタ５５ａないし５５ｃと、４：１
マルチプレクサ５３も備える。各ディスパッチで、ＰＤ
Ｕ４６は、ピクセル距離計算命令、グラフィックス・デ
ータ分割乗算命令、グラフィックス・データ・パッキン
グ命令、またはグラフィックス・データ比較命令を第２
の分割実行パス３４にディスパッチすることができる。
ピクセル距離計算回路５６は、ピクセル距離計算命令を
実行する。分割乗算器５８は、グラフィックス・データ
分割乗算命令を実行する。グラフィックス・データ・パ
ッキング回路５９は、グラフィックス・データ・パッキ
ング命令を実行する。グラフィックス・データ比較回路
６４は、グラフィックス・データ比較命令を実行する。

【００２２】分割乗算器５８およびグラフィックス・デ
ータ比較回路６４の機能および構成は、オペランドの分
割された異なる部分に対して複数の乗算演算および比較
演算を同時に実行できるように、複数のハードウェアが
複製されていることを除き、当技術分野で知られている
多数の整数実行ユニットにある簡単な乗算器および比較
回路に類似している。また、丸めができるように、分割
乗算器に複数のマルチプレクサが設けられ、比較回路６
４によって比較マスクが生成される。したがって、分割
乗算器５８およびグラフィックス・データ比較回路６４
についてはこれ以上説明しない。

【００２３】ピクセル距離計算命令、グラフィックス・
データ分割乗算命令、グラフィックス・データ・パック
／拡張／マージ命令、グラフィックス・データ論理演算
命令、グラフィックス・データ比較命令と、ピクセル距
離回路５６およびグラフィックス・データ・パック回路
５９について、以下でさらにくわしく説明する。

【００２４】以下の説明に基づいて、２つの独立の分割
実行パスを有するＧＲＵ２８の実施例と、グラフィック
ス命令実行責任の実行パス間での特定の割振りに関して
本発明を説明するが、１つの独立の分割実行パスでも、
あるいは、複数の独立の分割実行パスでも、本発明を実
行することができ、かつグラフィックス命令実行責任を
多数の方法で割り振ることができることが理解されよ
う。

【００２５】次に図６〜図８を参照すると、グラフィッ
クス・データ・フォーマット、グラフィックス命令フォ
ーマット、およびグラフィックス命令を示す３つの図が
示されている。図６に示したように、典型的なＣＰＵ２
４は、８ビット・フォーマット（Ｐｉｘｅｌ）６６ａ、
１６ビット・フォーマット（Ｆｉｘｅｄ１６）６６ｂ、
および３２ビット・フォーマット（Ｆｉｘｅｄ３２）６
６ｃの３つのグラフィックス・データ・フォーマットを
サポートする。したがって、４つのピクセル・フォーマ
ット・グラフィックス・データが３２ビット・ワード６
６ａとして記憶され、４つのＦｉｘｅｄ１６フォーマッ
ト・グラフィックス・データまたは２つのＦｉｘｅｄ３
２フォーマット・グラフィックス・データが６４ビット
・ワード６６ｂまたは６６ｃとして記憶される。イメー
ジ構成要素は、Ｐｉｘｅｌフォーマット６６ａまたはＦ
ｉｘｅｄ１６フォーマット６６ｂで記憶される。中間結
果は、Ｆｉｘｅｄ１６フォーマット６６ｂまたはＦｉｘ
ｅｄ３２フォーマット６６ｃで記憶される。通常、イメ
ージのピクセルの輝度値、たとえば、アルファ値、緑
値、青値、および赤値（α、Ｇ、Ｂ、Ｒ）はＰｉｘｅｌ
フォーマット６６ａで記憶される。これらの輝度値は、
イメージ中の点の様々な色構成要素が記憶されるバンド
・インターリーブで記憶することも、あるいは、１つの
構成要素に関するすべての値が記憶されるバンド順次で
記憶することもできる。Ｆｉｘｅｄ１６フォーマット６
６ｂおよびＦｉｘｅｄ３２フォーマット６６ｃは、ピク
セル・データに対して実行されるフィルタリング演算お
よびその他のイメージ処理演算の間に算出される中間デ
ータを記憶するのに十分な精度および動的範囲を提供す
る。グラフィックス・データ・フォーマット変換は、後
述のグラフィックス・データ・パック命令、拡張命令、
マージ命令、および乗算命令を使用して実行される。

【００２６】図７に示したように、ＣＰＵ２４は、３つ
のグラフィックス命令フォーマット６８ａないし６８ｃ
をサポートする。命令フォーマット６８ａないし６８ｃ
にかかわらず、２つの最上位ビット［３１：３０］７０
ａないし７０ｃは、グラフィックス命令に関する一次命
令フォーマット識別を提供し、ビット［２４：１９］７
４ａないし７４ｃは、グラフィックス命令に関する二次
命令フォーマット識別を提供する。また、ビット［２
９：２５］（ｒｄ）７２ａないし７２ｃは、グラフィッ
クス（ブロック／部分条件付き記憶）命令の宛先レジス
タ（第３のソース・レジスタ）を識別し、ビット［１
８：１４］（ｒｓ１）７６ａないし７６ｃは、グラフィ
ックス命令の第１のソース・レジスタを識別する。第１
のグラフィックス命令フォーマット６８ａの場合、ビッ
ト［１３：５］（ｏｐｆ）およびビット［４：０］（ｒ
ｓ２）８２ａは、このフォーマットのグラフィックス命
令に関する命令コードおよび第２のソース・レジスタを
識別する。第２および第３の命令フォーマット６８ｂお
よび６８ｃの場合、ビット［１３：５］（ｉｍｍ＿ａｓ
ｉ）およびビット［１３：０］（ｓｉｍｍ＿１３）は任
意選択でＡＳＩを識別する。最後に、第２のグラフィッ
クス命令フォーマット６８ｂの場合、ビット［４：０］
（ｒｓ２）はさらに、そのフォーマットのグラフィック
ス命令用の第２のソース・レジスタ（または部分条件付
き記憶用のマスク）を提示する。

【００２７】図８に示したように、ＣＰＵ２４は、多数
のＧＳＲ関連命令２００、多数の分割加算／減算減算２
０２および分割乗算命令２０８、多数のグラフィックス
・データ整列命令２０４、多数のピクセル距離計算命令
２０６、多数のグラフィックス・データ・パック命令２
１２および拡張／マージ命令２１０、多数のグラフィッ
クス・データ論理命令２１４および比較命令２１２、多
数のエッジ処理命令２１８および３−Ｄアレイ・アクセ
ス命令２２０、ならびに多数のメモリ・アクセス命令２
２２をサポートする。

【００２８】ＧＳＲ関連命令２００は、ａｌｉｇｎａｄ
ｄｒ＿ｏｆｆｓｅｔおよびｓｃａｌｅ＿ｆａｃｔｏｒ
を、ＧＳＲ５０から読み取り、ＧＳＲ５０に書き込むた
めのＲＤＡＳＲ命令とＷＲＡＳＲ命令とを含む。ＲＤＡ
ＳＲ命令およびＷＲＡＳＲ命令は、ＩＥＵ３０によって
実行される。ＲＤＡＳＲ命令およびＷＲＡＳＲ命令は、
他のＣＰＵ制御レジスタ読取り／書込み命令に類似して
おり、したがって、これについてはこれ以上説明しな
い。

【００２９】グラフィックス・データ分割加算／減算命
令２０２は、それぞれ、４つの１６ビット・グラフィッ
クス・データ、２つの１６ビット・グラフィックス・デ
ータ、２つの３２ビット・グラフィックス・データ、お
よび１つの３２ビット・グラフィックス・データを加算
し減算する、４つの分割グラフィックス・データ加算命
令と４つの分割グラフィックス・データ減算命令とを含
む。これらの命令は、ｒｓ１レジスタおよびｒｓ２レジ
スタ中の対応する固定小数点値を加算または減算する。
前述のように、グラフィックス・データ分割加算／減算
命令２０２は、ＧＲＵ２８の第１の独立の実行パス３２
中の分割キャリー・アダー３７によって実行される。

【００３０】グラフィックス・データ分割乗算命令２０
８は、２つまたは４つの８ビット・グラフィックス・デ
ータに、同時に、２つまたは４つの対応する他の１６ビ
ット・グラフィックス・データを乗算する、７つの分割
グラフィックス・データ乗算命令を含む。ＦＭＵＬ８ｘ
１６命令は、ｒｓ１レジスタ中の４つの８ビット・グラ
フィックス・データに、ｒｓ２レジスタ中の対応する４
つの１６ビット・グラフィックス・データを乗算する。
各積ごとに、上位１６ビットは、ｒｄレジスタの対応す
る位置に記憶される。ＦＭＵＬ８ｘ１６ＡＵ命令および
ＦＭＵＬ８ｘ１６ＡＬ命令は、ｒｓ１レジスタ中の４つ
の８ビット・グラフィックス・データに、ｒｓ２レジス
タ中の３２ビット・グラフィックス・データの上半分お
よび下半分をそれぞれ乗算する。同様に、各積ごとに、
上位１６ビットは、ｒｄレジスタの対応する位置に記憶
される。

【００３１】ＦＭＵＬ８ＳＵｘ１６命令は、ｒｓ１レジ
スタ中の４つの１６ビット・グラフィックス・データの
うちの４つの上位８ビットに、ｒｓ２レジスタ中の対応
する４つの１６ビット・グラフィックス・データを乗算
する。同様に、各積ごとに、上位１６ビットは、ｒｄレ
ジスタの対応する位置に記憶される。ＦＭＵＬ８ＵＬｘ
１６命令は、ｒｓ１レジスタ中の４つの１６ビット・グ
ラフィックス・データのうちの４つの下位８ビットに、
ｒｓ２レジスタ中の対応する４つの１６ビット・グラフ
ィックス・データを乗算する。各積ごとに、符号拡張さ
れた上位８ビットは、ｒｄレジスタの対応する位置に記
憶される。

【００３２】ＦＭＵＬＤ８ＳＵｘ１６命令は、ｒｓ１レ
ジスタ中の２つの１６ビット・グラフィックス・データ
のうちの２つの上位８ビットに、ｒｓ２レジスタ中の対
応する２つの１６ビット・グラフィックス・データを乗
算する。各積ごとに、この２４ビットに８ビットのゼロ
が追加され、ｒｄレジスタの対応する位置に記憶され
る。ＦＭＵＬＤ８ＵＬｘ１６命令は、ｒｓ１レジスタ中
の２つの１６ビット・グラフィックス・データのうちの
２つの下位８ビットに、ｒｓ２レジスタ中の対応する２
つの１６ビット・グラフィックス・データを乗算する。
各積ごとに、この２４ビットは、符号拡張され、ｒｄレ
ジスタの対応する位置に記憶される。

【００３３】前述のように、グラフィックス・データ分
割乗算命令２０８は、ＧＲＵ２８の第２の独立の実行パ
ス３４中の分割乗算器５８によって実行される。

【００３４】グラフィックス・データ拡張・マージ命令
２１０は、それぞれ、４つの８ビット・グラフィックス
・データを同時に４つの１６ビット・グラフィックス・
データとして拡張し、８つの８ビット・グラフィックス
・データを４つの１６ビット・グラフィックス・データ
としてインタリーブ的にマージする、グラフィックス・
データ拡張命令とグラフィックス・データ・マージ命令
とを含む。ＦＥＸＰＡＮＤ命令は、ｒｓ２レジスタ中の
４つの８ビット・グラフィックス・データを取り出し、
各８ビット・グラフィックス・データを４ビットだけ左
シフトさせ、次いで、左シフトされた各グラフィックス
・データを１６ビットにゼロ拡張する。結果は、ｒｄレ
ジスタの対応する位置に置かれる。ＦＰＭＥＲＧＥ命令
は、ｒｓ１レジスタから得た４つの８ビット・グラフィ
ックス・データおよびｒｓ２から得た４つの８ビット・
グラフィックス・データを、ｒｄレジスタ中の６４ビッ
ト・グラフィックス・データとしてインタリーブ的にマ
ージする。前述のように、グラフィックス・データ拡張
・マージ命令２１０は、ＧＲＵ２８の第１の独立の実行
パス３２中のグラフィックス・データ拡張／マージ回路
６０の拡張／マージ部によって実行される。

【００３５】グラフィックス・データ論理演算命令２１
４は、グラフィックス・データに対して論理演算を実行
する３２個の論理演算命令を含む。４つの論理演算は、
単精度または倍精度でｒｄレジスタをゼロ充填または１
充填するために設けられている。４つの論理演算は、ｒ
ｓ１レジスタまたはｒｓ２レジスタの内容を単精度また
は倍精度でｒｄレジスタにコピーするために設けられて
いる。４つの論理演算は、ｒｓ１またはｒｓ２の内容を
否定し、単精度または倍精度でｒｄレジスタに結果を記
憶するためにある。いくつかの論理演算は、ｒｓ１レジ
スタおよびｒｓ２レジスタの内容に対して単精度または
倍精度で多数のブール演算を実行し、ブール結果をｒｄ
レジスタに記憶するためにある。これらのブール演算の
うちのいくつかは、まずｒｓ１レジスタまたはｒｓ２レ
ジスタの内容が否定された後に実行される。前述のよう
に、これらのグラフィックス・データ論理演算命令２１
４は、ＧＲＵ２８の第１の独立のパス３２中のグラフィ
ックス・データ論理演算回路６２によって実行される。

【００３６】グラフィックス・データ比較命令２１６
は、４つの１６ビット・グラフィックス・データ対また
は２つの３２ビット・グラフィックス・データ対を同時
に比較する８つのグラフィックス・データ比較命令を含
む。ｒｓ１レジスタ中のグラフィックス・データとｒｓ
２レジスタ中のグラフィックス・データの間の比較に
は、「より多い」、「より少ない」、「等しくない」、
および「等しい」が含まれる。４つまたは２つの結果ビ
ットが、ｒｄレジスタ中の最下位ビットとして記憶され
る。各結果ビットは、対応する比較が真である場合にセ
ットされる。グラフィックス・データ間のコンプリメン
タリ比較、すなわち、「以下」および「以上」は、ｒｓ
１レジスタ中のグラフィックス・データとｒｓ２レジス
タ中のグラフィックス・データをスワップすることによ
って実行される。前述のように、これらのグラフィック
ス・データ比較命令２１６は、ＧＲＵ２８の第１の独立
の実行パス３２中のグラフィックス・データ比較回路６
２によって実行される。

【００３７】グラフィックス・データメモリ参照命令２
２２は、部分（条件付き）記憶命令と、ショート・ロー
ド命令と、ショート記憶命令と、ブロック・ロード命令
と、ブロック記憶命令とを含む。グラフィックス・デー
タ・ロード命令およびグラフィックス・データ記憶命令
は、グラフィックス・データ・ロード命令１４４とグラ
フィックス・データ記憶命令１４６を８ビット・グラフ
ィックス・データと１６ビット・グラフィックス・デー
タに対して同時に実行すべきかどうかと、そのオペレー
ションを、ビッグ・エンジアン（ｅｎｄｉａｎ）・フォ
ーマットまたはリトル・エンジアン・フォーマットで一
次アドレス空間または二次アドレス空間に向けるかどう
かを決定する、ｉｍｍ＿ａｓｉ値およびａｓｉ値によっ
て指定される。記憶操作の場合、ｉｍｍ＿ａｓｉ値およ
びａｓｉ値はさらに、グラフィックス・データ記憶操作
が条件付きであるかどうかを決定する。

【００３８】部分（条件付き）記憶操作は、（ｒｓ２ビ
ット位置に）指定されたマスクを使用して、ｒｄレジス
タの適当な数の値を、ｒｓ１レジスタによって指定され
たアドレスに記憶する。マスクは、ピクセル比較命令に
よって生成される結果と同じフォーマットを有する。マ
スクの最上位ビットは、ｒｓ１レジスタの最上位部に対
応する。任意のバイト・アドレスに対して省略８ビット
ロード操作を実行することができる。ショート１６ビッ
ト・ロード操作の場合、アドレスの最上位ビットは０で
なければならない。ショート・ロードは、浮動小数点宛
先レジスタを充填するようにゼロ拡張される。ショート
記憶は、浮動小数点ソース・レジスタの下位８ビットま
たは下位１６ビットにアクセスする。ブロック・ロード
／記憶操作は、８つの連続６４ビット浮動小数点レジス
タと、メモリ中の整列している６４バイト・ブロックの
間でデータを転送する。

【００３９】前述のように、これらのグラフィックス・
データ・メモリ参照命令２２２は、ＣＰＵ２４のＬＳＵ
４８によって実行される。

【００４０】グラフィックス・データ整列命令２０４、
ピクセル距離計算命令２０６、グラフィックス・データ
・パック命令２１２、エッジ処理命令２１８、および３
−Ｄアレイ・アクセス命令２２０について、ＧＲＵ２８
の第２の独立の実行パス３４中のピクセル距離計算回路
５６およびグラフィックス・データ・パック回路５９に
関して以下でさらに詳しく説明する。

【００４１】次に図９〜図１１を参照すると、グラフィ
ックス・データ整列命令と、グラフィックス・データ整
列回路の一実施例の関連部分が示されている。図９に示
したように、２つのグラフィックス・データ・アドレス
計算回路９８ａおよび９８ｂと、整列していないグラフ
ィックス・データを算出して整列させる１つのグラフィ
ックス・データ整列命令１００がある。

【００４２】ＡＬＩＧＮＡＤＤＲ命令９８ａは、ｒｓ１
レジスタの内容とｒｓ２レジスタの内容を加算して、ｒ
ｄレジスタに結果を記憶する。ただし、最下位３ビット
は強制的に０になる。結果の最下位３ビットは、ＧＳＲ
５０のａｌｉｇｎａｄｄｒ＿ｏｆｆｓｅｔフィールドに
記憶される。ＡＬＩＧＮＡＤＤＲＬ命令９８ｂは、結果
の最下位３ビットの２補数がＧＳＲ５０のａｌｉｇｎａ
ｄｄｒ＿ｏｆｆｓｅｔフィールドに記憶されることを除
き、ａｌｉｇｎａｄｄｒ命令９８ａと同じである。

【００４３】ＦＡＬＩＧＮＤＡＴＡ命令１００は、ｒｓ
１レジスタ中の２つの６４ビット浮動小数点値とｒｓ２
レジスタ中の２つの６４ビット浮動小数点値を連結して
１６バイト値を形成する。ｒｓ１レジスタ中の浮動小数
点値は、連結値の上半分として使用され、ｒｓ２レジス
タ中の浮動小数点値は、連結値の下半分として使用され
る。連結値中のバイトは、最上位バイトから最下位バイ
トへと番号付けされ、最上位バイトが０になる。この連
結値から８バイトが抽出される。抽出される値の最上位
バイトの番号は、ＧＳＲ５０のａｌｉｇｎａｄｄｒ＿ｏ
ｆｆｓｅｔフィールドによって指定されているものであ
る。この結果は、６４ビット浮動小数点値としてｒｄレ
ジスタに記憶される。

【００４４】したがって、図１０に示したように、ＡＬ
ＩＧＮＡＤＤＲＥＳＳ｛＿ＬＩＴＴＬＥ｝命令を使用し
てａｌｉｇｎａｄｄｒ＿ｏｆｆｓｅｔをＧＳＲ５０に記
憶し（ステップａ）、整列していないグラフィックス・
データ・ブロックの２つの部分９９ａおよび９９ｂをメ
モリからｒｓ１レジスタおよびｒｓ２レジスタにコピー
し、ＦＡＬＩＧＮＤＡＴＡ命令を使用して、整列させた
グラフィックス・データ・ブロックをｒｄレジスタに記
憶し、次いで、整列させたグラフィックス・データ・ブ
ロック１０１をｒｄレジスタから新しいメモリ位置にコ
ピーすることによって、整列していないグラフィックス
・データ・ブロック９９ａおよび９９ｂを迅速にかつ効
率的に整列させることができる。

【００４５】図１１に示したように、この実施例では、
グラフィックス・データ整列回路３９は、図のように相
互に結合され浮動小数点レジスタ・ファイルに結合され
た６４ビット・マルチプレクサ５１を備える。マルチプ
レクサ５１は、一致していないグラフィックス・データ
を上述のように整列させる。

【００４６】次に、図１２〜図１８を参照すると、グラ
フィックス・データ・パッキング命令と、グラフィック
ス・データ・パック／拡張／マージ回路のパッキング部
の関連部分が示されている。図１２〜図１５に示したよ
うに、４つの１６ビット・グラフィックス・データを４
つの８ビット・グラフィックス・データとして、２つの
３２ビット・グラフィックス・データを２つの８ビット
・グラフィックス・データとして、２つの３２ビット・
グラフィックス・データを２つの１６ビット・グラフィ
ックス・データとして同時にパックする、３つのグラフ
ィックス・データ・パッキング命令１０６ａないし１０
６ｃがある。

【００４７】ＦＰＡＣＫ１６命令１０６ａは、ｒｓ２レ
ジスタ中の４つの１６ビット固定値を取り出し、ＧＳＲ
５０中のｓｃａｌｅ＿ｆａｃｔｏｒに応じて、かつクリ
ッピング情報を維持して、これらの値を左シフトさせ、
次いで、（各１６ビット値のビット７とビット６の間に
ある）暗黙的な２進位置のすぐ左にある対応するビット
から始まる８ビット値を抽出してクリップする。抽出さ
れた値が負である（すなわち、ｍｓｂがセットされてい
る）場合、クリップされる値として０が供給される。抽
出された値が２５５よりも大きい場合、２５５が供給さ
れる。そうでない場合、抽出された値が最終結果であ
る。クリップされた値は、ｒｄレジスタ中の対応する位
置に置かれる。

【００４８】ＦＰＡＣＫ３２命令１０６ｂは、ｒｓ２レ
ジスタ中の２つの３２ビット固定値を取り出し、ＧＳＲ
５０中のｓｃａｌｅ＿ｆａｃｔｏｒに応じて、かつクリ
ッピング情報を維持して、これらの値を左シフトさせ、
次いで、（３２ビット値のビット２３とビット２２の間
にある）暗黙的な２進位置のすぐ左にある対応するビッ
トから始まる８ビット値を抽出してクリップする。抽出
された各値ごとに、前述のようにクリッピングが実行さ
れる。また、ＦＰＡＣＫ３２命令１０６ｂは、ｒｓ１レ
ジスタ中の各３２ビット値を８ビットだけ左シフトさせ
る。最後に、ＦＰＡＣＫ３２命令１０６ｂは、ｒｓ２レ
ジスタから得たクリップされた値を、ｒｓ２レジスタか
ら得たシフトされた値とマージする。この場合、クリッ
プされた値は、最下位バイト位置を占有する。この結果
得られる値は、ｒｄレジスタ中の対応する位置に置かれ
る。

【００４９】ＦＰＡＣＫＦＩＸ命令１０６ｃは、ｒｓ２
レジスタ中の２つの３２ビット固定値を取り出し、ＧＳ
Ｒ５０中のｓｃａｌｅ＿ｆａｃｔｏｒに応じて、かつク
リッピング情報を維持して、各３２ビット値を左シフト
させ、次いで、暗黙的な２進位置（すなわち、３２ビッ
ト値のビット１６とビット１５の間）のすぐ左にあるビ
ットから始まる１６ビット値を抽出してクリップする。
抽出された値が−３２７６８よりも小さい場合、−３２
７６８が、クリップされる値として供給される。抽出さ
れた値が３２７６７よりも大きい場合、３２７６７が供
給される。そうでない場合、抽出された値が最終結果で
ある。クリップされた値は、ｒｄレジスタ中の対応する
位置に置かれる。

【００５０】図１６〜図１８に示したように、この実施
例では、グラフィックス・データ・パッキング回路５９
は、それぞれ、ＦＰＡＣＫ１６命令、ＦＰＡＣＫ３２命
令、およびＦＰＡＣＫＦＩＸ命令を実行する、回路２４
８、２５８、２６８を備える。

【００５１】ＦＰＡＣＫ１６命令を実行する回路２４８
は、ｒｓ２レジスタ中の対応する４つの１６ビット固定
値のそれぞれ用の４つの同じ部分２４０ａないし２４０
ｄを備える。各部分２４０ａないし２４０ｄは、図のよ
うに相互に結合された、シフタ２４２ａないし２４２ｄ
と、ＯＲゲート２４４ａないし２４４ｄと、マルチプレ
クサ２４６ａないし２４６ｄとを備える。シフタ２４２
ａないし２４２ｄは、ＧＳＲ５０に記憶されているスケ
ール・ファクタに応じて対応する１６ビット固定値（符
号ビットを除く）をシフトさせる。符号ビットと、各シ
フト結果のビット［２９：１５］の論理ＯＲを使用し
て、対応するマルチプレクサ２４６ａないし２４６ｄが
制御される。シフト結果のビット［１４：７］、値０×
ＦＦ、または値０×００が出力される。

【００５２】ＦＰＡＣＫ３２命令を実行する回路２５８
は、ｒｓ２レジスタ中の対応する２つの３２ビット固定
値のそれぞれ用の２つの同じ部分２５０ａおよび２５０
ｂを備える。各部分２５０ａまたは２５０ｂは、図のよ
うに相互に結合された、シフタ２５２ａまたは２５２ｄ
と、ＯＲゲート２５４ａまたは２５４ｂと、マルチプレ
クサ２５６ａまたは２５６ｂとを備える。シフタ２５２
ａまたは２５２ｄは、ＧＳＲ５０に記憶されているスケ
ール・ファクタに応じて対応する３２ビット固定値（符
号ビットを除く）をシフトさせる。符号ビットと、各シ
フト結果のビット［４５：３１］の論理ＯＲを使用し
て、対応するマルチプレクサ２５６ａまたは２５６ｂが
制御される。シフト結果のビット［３０：２３］、値０
×ＦＦ、または値０×００が出力される。この出力はさ
らに、ｒｓ１レジスタのビット［５５：３２］またはビ
ット［２３：０］と組み合わせられる。

【００５３】ＦＰＡＣＫＦＩＸ命令を実行する回路２６
８は、ｒｓ２レジスタ中の対応する２つの３２ビット固
定値のそれぞれ用の２つの同じ部分２６０ａおよび２６
０ｂを備える。各部分２６０ａまたは２６０ｂは、図の
ように相互に結合された、シフタ２６２ａまたは２６２
ｄと、ＮＡＮＤゲート２６３ａまたは２６３ｂと、ＮＯ
Ｒゲート２６４ａまたは２６４ｂと、２つのＡＮＤゲー
ト２６５ａおよび２６５ｂまたは２６５ｃおよび２６５
ｄと、マルチプレクサ２６６ａまたは２６６ｂとを備え
る。シフタ２６２ａまたは２６２ｄは、ＧＳＲ５０に記
憶されているスケール・ファクタに応じて対応する３２
ビット固定値（符号ビットを除く）をシフトさせる。符
号ビットの論理ＡＮＤと、各シフト結果のビット［４
５：３２］の論理ＮＡＮＤと、反転された符号ビットの
論理ＡＮＤと、各シフト結果のビット［４５：３２］の
論理ＮＯＲとを使用して、対応するマルチプレクサ２６
６ａまたは２６６ｂが制御される。シフト結果のビット
［３１：１６］、値０×ＥＦＦＦ、または値０×８００
０が出力される。

【００５４】次に、図１９および図２０を参照すると、
ピクセル計算命令とピクセル距離計算回路が示されてい
る。図１９に示したように、グラフィックス・データ間
の絶対差分を、一度に８つだけ同時に累積する、１つの
グラフィックス・データ距離計算命令１３８がある。Ｐ
ＤＩＳＴ命令１３８は、ｒｓ１レジスタ中の８つの８ビ
ット・グラフィックス・データを、ｒｓ２レジスタ中の
対応する８つの８ビット・グラフィックス・データから
減算する。この差分の絶対値の和は、ｒｄレジスタの内
容に加算される。ＰＤＩＳＴ命令は通常、ビデオ圧縮ア
ルゴリズムでの運動の推定に使用される。

【００５５】図２０に示したように、この実施例では、
ピクセル距離計算回路５６は、８つの８ビット減算器対
５７ａないし５７ｈを備える。ピクセル距離計算回路５
６は、図のように相互に結合された、３つの４：２繰上
り保存加算器６１ａないし６１ｃと、３：２キャリー保
存アダー６２と、２つのレジスタ６３ａおよび６３ｂ
と、１１ビットキャリー伝搬アダー６５も備える。８つ
の８ビット減算器対５７ａないし５７ｈと、３つの４：
２キャリー保存アダー６１ａないし６１ｃと、３：２キ
ャリー保存加算器６２と、２つのレジスタ６３ａおよび
６３ｂと、１１ビットキャリー伝搬加算器６５は協働し
て、８つの８ビット値対の間の絶対差分を算出し、絶対
差分を合計して６４ビット和を求める。

【００５６】次に、図２１および図２２を参照すると、
グラフィックス・データ・エッジ処理命令が示されてい
る。図のように、８つの８ビット・エッジ・マスク、４
つの１６ビット・エッジ・マスク、２つの３２ビット・
エッジ・マスクをビッグ・エンジアン・フォーマットま
たはリトル・エンジアン・フォーマットで同時に生成す
る６つのグラフィックス・エッジ処理命令１４０ａない
し１４０ｆがある。

【００５７】マスクは、それぞれ、次にレンダリングす
べき一連のピクセルのアドレス、および走査線の最後の
ピクセルのアドレスが記憶されている、ｒｓ１レジスタ
およびｒｓ２レジスタ中のグラフィックス・データ・ア
ドレスに応じて生成される。生成されたマスクは、ｒｄ
レジスタの最下位ビットに記憶される。

【００５８】各マスクは、以下のように左エッジ・マス
クから右エッジ・マスクへ算出される。ａ）図２２に従って、ｒｓ１レジスタの最下位３ビット
（ＬＳＢ）から左エッジ・マスクが算出され、ｒｓ２レ
ジスタの最下位３ビット（ＬＳＢ）から右エッジ・マス
クが算出される。ｂ）３２ビット・アドレス・マスキングがディスエーブ
ルされ、すなわち、６４ビット・アドレス指定であり、
ｒｓ１レジスタの上位６１ビットがｒｓ２レジスタの対
応するビットに等しい場合、ｒｄは、右エッジ・マスク
と左エッジ・レジスタの論理ＡＮＤに等しく設定され
る。ｃ）３２ビット・アドレス・マスキングがイネーブルさ
れ、すなわち、３２ビット・アドレス指定であり、ｒｓ
１レジスタの上位２９ビット（［２６：２］）がｒｓ２
レジスタの対応するビットに等しい場合、ｒｄレジスタ
は、右エッジ・マスクと左エッジ・レジスタの論理ＡＮ
Ｄに等しく設定される。ｄ）その他の場合、ｒｄは左エッジ・マスクにセットさ
れる。

【００５９】また、多数の条件コードが以下のように修
正される。ａ）ｒｓ１レジスタのビット３１（符号）とｒｓ２レジ
スタのビット３１（符号）が異なり、差分のビット３１
（符号）がｒｓ１のビット３１（符号）と異なる場合、
３２ビット桁あふれ条件コードがセットされる。ｒｓ１
レジスタのビット６３（符号）とｒｓ２レジスタのビッ
ト６３（符号）が異なり、差分のビット６３（符号）が
ｒｓ１のビット６３（符号）と異なる場合、６４ビット
桁あふれ条件コードがセットされる。ｂ）差分のビット３１（符号）がセットされた場合、３
２ビット負条件コードがセットされる。差分のビット６
３（符号）がセットされた場合、６４ビット負条件コー
ドがセットされる。ｃ）３２ビット差分が０である場合、３２ビット・ゼロ
条件コードがセットされる。６４ビット差分が０である
場合、６４ビット・ゼロ条件コードがセットされる。

【００６０】前述のように、グラフィックス・エッジ処
理命令１４０ａないし１４０ｆはＩＥＵ３０によって実
行される。ＩＥＵ３０は追加ハードウェアを必要としな
い。

【００６１】次に、図２３および図２４を参照すると、
３−Ｄアドレス指定命令および３−Ｄアドレス指定回路
が示されている。図２３に示したように、８ビット３−
Ｄアドレス、１６ビット３−Ｄアドレス、および３２ビ
ット３−Ｄアドレスをブロック化バイト・アドレスに変
換する３つの３−Ｄアレイ・アドレス指定命令１４２ａ
ないし１４２ｃがある。

【００６２】これらの命令１４２ａないし１４２ｃはそ
れぞれ、ｒｓ１レジスタ中の３−Ｄ固定小数点アドレス
をブロック化バイト・アドレスに変換し、その結果得ら
れるブロック化バイト・アドレスをｒｄレジスタに記憶
する。これらの命令１４２ａないし１４２ｃは通常、平
面再フォーマットのためのアドレス補間に使用される。
ブロック化は、アドレス補間の配向にかかわらずに、６
４バイト・レベルでは外部キャッシュ・クロック再使用
度を最大にするために使用され、６４ｋバイトレベルで
はデータ・キャッシュの変換ルックアサイド・バッファ
（ＴＬＢ）項目再使用度を最大にするために使用され
る。要素のサイズ、すなわち、８ビット、１６ビット、
または３２ビットは命令によって暗黙指定される。ｒｓ
２レジスタの値は、３Ｄイメージ・アレイのＸ次元およ
びＹ次元の２つのサイズの累乗を指定する。図の実施例
では、妥当な値は０ないし５である。値０では６４個の
要素が指定され、値１では１２８個の要素が指定され、
以下同様であり、値５では、外部キャッシュ・ブロック
・サイズに関する最大の２０４８個の要素が指定され
る。Ｘ、Ｙ、Ｚ（ｒｓ１）の整数部は、８ビット・フォ
ーマット、１６ビット・フォーマット、または３２ビッ
ト・フォーマットに変換される。Ｚ上位ビットを超える
ビットはゼロにセットされる。最下位ビット中の０の数
は、要素サイズによって決定される。８ビットの要素サ
イズには０がなく、１６ビットの要素サイズは１つの０
を有し、３２ビットの要素サイズは２つの０を有する。
ｒｓ２レジスタによって指定されたサイズを超えるＸお
よびＹのビットは無視される。

【００６３】前述のように、３−Ｄアレイ・アドレス指
定命令１４２ａないし１４０ｃもＩＥＵ３０によって実
行される。図２４は、ＩＥＵ３０に設けられる追加回路
の一実施例を示す。追加回路３００は、図のように相互
に結合された、２つのシフト・レジスタ３０８および３
１０と、多数のマルチプレクサ３０４ａ、３０４ｂ、３
０６とを備える。まず、Ｘ、Ｙ、Ｚの下位整数部および
中央整数部の適当なビット（すなわち、ビット＜１２：
１１＞、＜３４：３３＞、＜５５＞、＜１６：１３＞、
＜３８：３５＞、および＜５９：５６＞）がシフト・レ
ジスタＡ３０８に記憶される。同様に、Ｚの上位整数部
の適当なビット（すなわち、＜６３：６０＞）がシフト
・レジスタＢ３１０に記憶される。次いで、ＸおよびＹ
の上位整数部の選択されたビットが、ｒｓ２の値に応じ
て、シフト・レジスタＢ３１０内に順序正しくシフトさ
れる。最後に、アレイ要素サイズ（すなわち、８ビッ
ト、１６ビット、または３２ビット）に応じて、０個、
１個、または２個のゼロ・ビットがシフト・レジスタＡ
３０８内にシフトされ、シフト・アウト・ビットがシフ
ト・レジスタＢ３１０内にシフトされる。

【００６４】現在好ましい実施例および代替実施例に関
して本発明を説明したが、当業者には、本発明が、説明
した実施例に限らないことが認識されよう。本発明の方
法および装置は、添付の特許請求の範囲の趣旨および範
囲の範囲内で修正を加えて実施することができる。した
がって、以上の説明は、本発明の例とみなすものであ
り、本発明の範囲を制限するものではない。

【図面の簡単な説明】

【図１】本発明の開示を組み込んだ典型的なグラフィッ
クス・コンピュータ・システムのＣＰＵを示す図であ
る。

【図２】グラフィックス実行ユニット（ＧＲＵ）の一実
施例の関連部分を詳細に示す図である。

【図３】ＧＲＵのグラフィックス状態レジスタ（ＧＳ
Ｒ）を詳細に示す図である。

【図４】ＧＲＵの第１の分割実行パスを詳細に示す図で
ある。

【図５】ＧＲＵの第２の分割実行パスを詳細に示す図で
ある。

【図６】グラフィックス・データ・フォーマットを詳細
に示す図である。

【図７】グラフィックス命令フォーマットを詳細に示す
図である。

【図８】グラフィック命令グループを詳細に示す図であ
る。

【図９】グラフィックス・データ整列命令を詳細に示す
図である。

【図１０】グラフィックス・データ整列回路を詳細に示
す図である。

【図１１】グラフィックス・データ整列回路を詳細に示
す図である。

【図１２】グラフィックス・データ・パッキング命令を
詳細に示す図である。

【図１３】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１４】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１５】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１６】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１７】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１８】グラフィックス・データ・パッキング回路を
詳細に示す図である。

【図１９】グラフィックス・データ・ピクセル距離計算
命令を詳細に示す図である。

【図２０】グラフィックス・データ・ピクセル距離計算
回路を詳細に示す図である。

【図２１】グラフィックス・データ・エッジ処理命令を
詳細に示す図である。

【図２２】グラフィックス・データ・エッジ処理命令を
詳細に示す図である。

【図２３】グラフィックス・データ３−Ｄアレイ・アド
レス命令を詳細に示す図である。

【図２４】グラフィックス・データ３−Ｄアレイ・アド
レス回路を詳細に示す図である。

【符号の説明】

２４ＣＰＵ２６浮動小数点ユニット（ＦＰＵ）２８グラフィックス実行ユニット（ＧＲＵ）３０整数実行ユニット（ＩＥＵ）３２第１の分割実行パス３５第２の分割実行パス３６整数レジスタ・ファイル３７分割繰上り加算器３８浮動小数点レジスタ・ファイル３９グラフィックス・データ整列回路４０命令キャッシュ４２データ・キャッシュ４３４：１マルチプレクサ４４メモリ管理ユニット（ＩＭＭＵおよびＤＭＭＵ）４６プリフェッチ・ディスパッチユニット（ＰＤＵ）４８ロード・記憶ユニット（ＬＳＵ）５０グラフィックス状態レジスタ（ＧＳＲ）５２ａｌｉｇｎａｄｄｒ＿ｏｆｆｓｅｔ５４ｓｃａｌｅ＿ｆａｃｔｏｒ５８分割乗算器５９グラフィックス・データ・パッキング回路６０グラフィックス・データ拡張／マージ回路６２グラフィックス・データ論理演算回路６４グラフィックス・データ比較回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者レスリー・ディーン・コーンアメリカ合衆国 94539 カリフォルニア州・フレモント・ロズメアドライブ・ 43967 (72)発明者ロバート・ヤングアメリカ合衆国 94555 カリフォルニア州・フレモント・コマースドライブ・ 5797

Claims

【特許請求の範囲】

【請求項１】グラフィックス・データに関するスケー
ル・ファクタを記憶するグラフィックス状態レジスタ
（ＧＳＲ）と、前記記憶されたスケール・ファクタに応じて、第１の分
割グラフィックス・データ・フォーマットの複数のグラ
フィックス・データを同時に、第２の分割グラフィック
ス・データ・フォーマットとしてそれぞれパックする複
数のグラフィックス・データ・パッキング命令を実行す
る、前記ＧＳＲに結合されたグラフィックス・データ変
換回路とを備えることを特徴とする装置。
【請求項２】グラフィックス・データ・アドレス整列
オフセットを記憶するグラフィックス状態レジスタ（Ｇ
ＳＲ）と、整列していないグラフィックス・データ・ブロックのア
ドレスとアドレス整列オフセットをそれぞれ算出する、
複数のグラフィックス・データ非整列アドレス計算命令
を実行するために前記ＧＳＲに結合されたグラフィック
ス・データ整列回路とを備えることを特徴とする装置。
【請求項３】複数のグラフィックス・データ対の絶対
差分を同時に算出して、その絶対差分を累積するピクセ
ル距離計算命令を実行する、ピクセル距離計算回路を備
えることを特徴とする装置。
【請求項４】複数の非グラフィックス整数命令と、複
数のグラフィックス・データ・アドレス対用の複数のエ
ッジ・マスクをそれぞれ同時に生成する、複数のグラフ
ィックス・データ・エッジ処理命令とを実行する整数実
行ユニット（ＩＥＵ）を備えることを特徴とする装置。
【請求項５】複数の非グラフィックス整数命令と、複
数の３−Ｄグラフィックス・データ・アレイ固定小数点
アドレスをブロック化バイト・アドレスにそれぞれ変換
する、複数のグラフィックス・データ三次元（３−Ｄ）
アレイ・アドレス指定命令とを実行する整数実行ユニッ
ト（ＩＥＵ）を備えることを特徴とする装置。
【請求項６】浮動小数点データおよびグラフィックス
・データを記憶する浮動小数点レジスタ・ファイル（Ｆ
ＰＲＦ）と、整数データ・アドレスおよびグラフィックス・データ・
アドレスを記憶する整数レジスタ・ファイル（ＩＲＦ）
と、複数の非グラフィックス浮動小数点命令を実行するため
に前記ＦＰＲＦに結合された浮動小数点実行ユニット
（ＦＰＵ）と、複数の非グラフィックス整数命令と、複数のグラフィッ
クス・データ・アドレス対用の複数のエッジ・マスクを
それぞれ同時に生成する、複数のグラフィックス・デー
タ・エッジ処理命令と、複数の３−Ｄグラフィックス・
データ・アレイ固定小数点アドレスをブロック化バイト
・アドレスにそれぞれ変換する、複数のグラフィックス
・データ三次元（３−Ｄ）アレイ・アドレス指定命令と
を実行する、前記ＩＲＦに結合された整数実行ユニット
（ＩＥＵ）と、スケール・ファクタに応じて、第１の分割グラフィック
ス・データ・フォーマットの複数のグラフィックス・デ
ータを同時に、第２の分割グラフィックス・データ・フ
ォーマットとしてそれぞれパックする、複数のグラフィ
ックス・データ・パッキング命令と、整列していないグ
ラフィックス・データ・ブロックのアドレスとアドレス
整列オフセットをそれぞれ算出する、複数のグラフィッ
クス・データ非整列アドレス計算命令と、アドレス整列
オフセットに応じて、整列していないグラフィックス・
データ・ブロックをそれぞれ整列させる、複数のグラフ
ィックス・データ整列命令と、複数のグラフィックス・
データ対の絶対差分を同時に算出して、その絶対差分を
累積するピクセル距離計算命令とを実行する、前記ＦＰ
ＲＦに結合されたグラフィックス実行ユニット（ＧＲ
Ｕ）とを備えることを特徴とする装置。
【請求項７】中央演算処理装置（ＣＰＵ）によってグ
ラフィックス命令を実行する方法において、前記ＣＰＵに配設されたグラフィックス状態レジスタ
（ＧＳＲ）に、グラフィックス・データに関するスケー
ル・ファクタを記憶するステップと、前記ＣＰＵに配設された専用グラフィックス・データ変
換回路を使用して、前記記憶されたスケール・ファクタ
に応じて、第１の分割グラフィックス・データ・フォー
マットの複数のグラフィックス・データを同時に、第２
の分割グラフィックス・データ・フォーマットとしてパ
ックする、複数のグラフィックス・データ・パッキング
命令を実行するステップとを含むことを特徴とする方
法。
【請求項８】中央処理装置（ＣＰＵ）によってグラフ
ィックス命令を実行する方法において、複数のグラフィックス・データ非整列アドレス計算命令
を実行し、前記ＣＰＵに配設された専用グラフィックス
・データ整列回路を使用して、整列していないグラフィ
ックス・データ・ブロックのアドレスとアドレス整列オ
フセットを算出するステップと、前記ＣＰＵに配設されたグラフィックス状態レジスタ
（ＧＳＲ）に前記アドレス整列オフセットを記憶するス
テップとを含むことを特徴とする方法。
【請求項９】中央処理装置（ＣＰＵ）によってグラフ
ィックス命令を実行する方法において、ピクセル距離計算命令を実行し、前記ＣＰＵに配設され
た専用ピクセル距離計算回路を使用して、複数のグラフ
ィックス・データ対の絶対差分を同時に算出してその絶
対差分を累積するステップを含むことを特徴とする方
法。
【請求項１０】中央処理装置（ＣＰＵ）によってグラ
フィックス命令を実行する方法において、複数のグラフィックス・データ・エッジ処理命令を実行
し、前記ＣＰＵに配設された整数実行ユニット（ＩＥ
Ｕ）を使用して、複数のグラフィックス・データ・アド
レス対用の複数のエッジ・マスクを同時に生成するステ
ップを含むことを特徴とする方法。
【請求項１１】中央処理装置（ＣＰＵ）によってグラ
フィックス命令を実行する方法において、複数のグラフ
ィックス・データ三次元（３−Ｄ）アレイ・アドレス指
定命令を実行し、前記ＣＰＵに配設された整数実行ユニ
ット（ＩＥＵ）を使用して、複数の３−Ｄグラフィック
ス・データ・アレイ固定小数点アドレスをブロック化バ
イト・アドレスに変換するステップを含むことを特徴と
する方法。
【請求項１２】中央処理装置（ＣＰＵ）によってグラ
フィックス命令を実行する方法において、前記ＣＰＵに配設されたグラフィックス状態レジスタ
（ＧＳＲ）に、グラフィックス・データに関するスケー
ル・ファクタを記憶するステップと、前記ＣＰＵに配設された専用グラフィックス・データ変
換回路を使用して、前記記憶されたスケール・ファクタ
に応じて、第１の分割グラフィックス・データ・フォー
マットの複数のグラフィックス・データを同時に、第２
の分割グラフィックス・データ・フォーマットとしてパ
ックする、複数のグラフィックス・データ・パッキング
命令を実行するステップと、複数のグラフィックス・データ非整列アドレス計算命令
を実行し、前記ＣＰＵに配設された専用グラフィックス
・データ整列回路を使用して、整列していないグラフィ
ックス・データ・ブロックのアドレスとアドレス整列オ
フセットを算出し、前記アドレス整列オフセットを前記
ＧＳＲに記憶するステップと、複数のグラフィックス・データ整列命令を実行し、前記
専用グラフィックス・データ整列回路を使用して、前記
記憶されたアドレス整列オフセットに応じて、整列して
いないグラフィックス・データ・ブロックを整列するス
テップと、ピクセル距離計算命令を実行し、前記ＣＰＵに配設され
た専用ピクセル距離計算回路を使用して、複数のグラフ
ィックス・データ対の絶対差分を同時に算出してその絶
対差分を累積するステップと、複数のグラフィックス・データ・エッジ処理命令を実行
し、前記ＣＰＵに配設された整数実行ユニット（ＩＥ
Ｕ）を使用して、複数のグラフィックス・データ・アド
レス対用の複数のエッジ・マスクを同時に生成するステ
ップと、複数のグラフィックス・データ三次元（３−Ｄ）アレイ
・アドレス指定命令を実行し、前記ＣＰＵに配設された
整数実行ユニット（ＩＥＵ）を使用して、複数の３−Ｄ
グラフィックス・データ・アレイ固定小数点アドレスを
ブロック化バイト・アドレスに変換するステップを含む
ことを特徴とする方法。
【請求項１３】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、グラフィックス・データに関するスケール・ファクタを
記憶するグラフィックス状態レジスタ（ＧＳＲ）を前記
ＣＰＵに設けるステップと、前記記憶されたスケール・ファクタに応じて、第１の分
割グラフィックス・データ・フォーマットの複数のグラ
フィックス・データを同時に、第２の分割グラフィック
ス・データ・フォーマットとしてパックする、複数のグ
ラフィックス・データ・パッキング命令を実行する専用
グラフィックス・データ変換回路を前記ＣＰＵに設ける
ステップとを含むことを特徴とする方法。
【請求項１４】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、複数のグラフィックス・データ非整列アドレス計算命令
を実行して、整列していないグラフィックス・データ・
ブロックのアドレスとアドレス整列オフセットを算出す
る、専用グラフィックス・データ整列回路を前記ＣＰＵ
に設けるステップと、前記アドレス整列オフセットを記憶するグラフィックス
状態レジスタ（ＧＳＲ）を前記ＣＰＵに設けるステップ
とを含むことを特徴とする方法。
【請求項１５】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、ピクセル距離計算命令を実行して、複数のグラフィック
ス・データ対の絶対差分を同時に算出してその絶対差分
を累積する、専用ピクセル距離計算回路を前記ＣＰＵに
設けるステップを含むことを特徴とする方法。
【請求項１６】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、複数のグラフィックス・データ・エッジ処理命令を実行
して、複数のグラフィックス・データ・アドレス対用の
複数のエッジ・マスクを同時に生成する、整数実行ユニ
ット（ＩＥＵ）への回路を前記ＣＰＵに設けるステップ
を含むことを特徴とする方法。
【請求項１７】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、複数のグ
ラフィックス・データ三次元（３−Ｄ）アレイ・アドレ
ス指定命令を実行して、複数の３−Ｄグラフィックス・
データ・アレイ固定小数点アドレスをブロック化バイト
・アドレスに変換する、整数実行ユニット（ＩＥＵ）へ
の回路を前記ＣＰＵに設けるステップを含むことを特徴
とする方法。
【請求項１８】中央演算処理装置（ＣＰＵ）に固有の
グラフィックス機能を提供する方法において、グラフィックス・データに関するスケール・ファクタを
記憶するグラフィックス状態レジスタ（ＧＳＲ）を前記
ＣＰＵに設けるステップと、前記記憶されたスケール・ファクタに応じて、第１の分
割グラフィックス・データ・フォーマットの複数のグラ
フィックス・データを同時に、第２の分割グラフィック
ス・データ・フォーマットとしてパックする、複数のグ
ラフィックス・データ・パッキング命令を実行する専用
グラフィックス・データ変換回路を前記ＣＰＵに設ける
ステップと、複数のグラフィックス・データ非整列アドレス計算命令
を実行して、整列していないグラフィックス・データ・
ブロックのアドレスと、前記ＧＳＲに記憶されるアドレ
ス整列オフセットとを算出する、専用グラフィックス・
データ整列回路を前記ＣＰＵに設けるステップと、複数のグラフィックス・データ整列命令を実行して、前
記記憶されたアドレス整列オフセットに応じて、整列し
ていないグラフィックス・データ・ブロックを整列させ
る、前記専用グラフィックス・データ整列回路への回路
を設けるステップと、ピクセル距離計算命令を実行して、複数のグラフィック
ス・データ対の絶対差分を同時に算出してその絶対差分
を累積する、前記ＣＰＵに配設された専用ピクセル距離
計算回路を提供するステップと、複数のグラフィックス・データ・エッジ処理命令を実行
して、複数のグラフィックス・データ・アドレス対用の
複数のエッジ・マスクを同時に生成する、整数実行ユニ
ット（ＩＥＵ）への回路を前記ＣＰＵに設けるステップ
と、複数のグラフィックス・データ三次元（３−Ｄ）アレイ
・アドレス指定命令を実行して、複数の３−Ｄグラフィ
ックス・データ・アレイ固定小数点アドレスをブロック
化バイト・アドレスに変換する、整数実行ユニット（Ｉ
ＥＵ）への回路を設けるステップを含むことを特徴とす
る方法。
【請求項１９】非グラフィックス命令および非グラフ
ィックス・データと、グラフィックス命令およびグラフ
ィックス・データとを記憶するメモリ装置を備え、かつ
浮動小数点データおよびグラフィックス・データを記憶
する浮動小数点レジスタ・ファイル（ＦＰＲＦ）と、前
記非グラフィックス命令の浮動小数点演算を実行する浮
動小数点実行ユニット（ＦＰＵ）と、前記ＦＰＲＦおよ
び前記メモリ装置との間でグラフィックス・データのロ
ードおよび記憶を行うロード記憶ユニット（ＬＳＵ）と
を有する、中央演算処理装置（ＣＰＵ）を備えるコンピ
ュータ・システムにおける、整列していないグラフィッ
クス・データ・ブロックを整列させる装置において、ａ）前記ＦＰＲＦおよび前記メモリ装置に複数の分割フ
ォーマットで構成され記憶されているグラフィックス・
データに関するアドレス整列オフセットを記憶するため
に前記ＣＰＵと一体化されたグラフィックス状態レジス
タ（ＧＳＲ）手段と、ｂ）複数のグラフィックス・データ非整列アドレス計算
命令と、前記グラフィックス命令の複数のグラフィック
ス・データ整列命令とを実行するために、前記ＣＰＵに
一体化され、前記ＦＰＲＦおよび前記ＧＳＲ手段に結合
された、グラフィックス・データ整列手段とを備え、各前記グラフィックス・データ非整列アドレス計算命令
が、整列していないグラフィックス・データ・ブロック
のアドレスとアドレス整列オフセットを算出し、前記整
列していないグラフィックス・データ・ブロックが、前
記ＬＳＵを使用して前記ＦＰＲＦから前記メモリ装置に
ロードされ、各前記グラフィックス・データ整列命令が、前記記憶さ
れたアドレス整列オフセットに応じて、前記ＦＰＲＦに
記憶されている整列していないグラフィックス・データ
・ブロックを整列させ、前記整列させたグラフィックス
・データ・ブロックが、前記ＬＳＵを使用して、前記Ｆ
ＰＲＦから前記メモリ装置に記憶され直すことを特徴と
する装置。
【請求項２０】非グラフィックス命令および非グラフ
ィックス・データと、グラフィックス命令およびグラフ
ィックス・データとを記憶するメモリ装置を備え、かつ
浮動小数点データおよびグラフィックス・データを記憶
する浮動小数点レジスタ・ファイル（ＦＰＲＦ）と、前
記非グラフィックス命令の浮動小数点演算を実行する浮
動小数点実行ユニット（ＦＰＵ）と、前記ＦＰＲＦおよ
び前記メモリ装置との間でグラフィックス・データのロ
ードおよび記憶を行うロード記憶ユニット（ＬＳＵ）と
を有する、中央演算処理装置（ＣＰＵ）を備えるコンピ
ュータ・システムにおける、整列していないグラフィッ
クス・データ・ブロックを整列させる方法において、ａ）前記ＬＳＵを使用して、整列していないグラフィッ
クス・データを前記ＦＰＲＦから前記メモリ装置にロー
ドするステップと、ｂ）前記ＣＰＵに一体化されているが前記ＦＰＵとは独
立のグラフィックス・データ整列手段を使用して、前記
整列していないグラフィックス・データ・ブロックの整
列アドレスおよび整列アドレス・オフセットを算出し、
前記ＦＰＲＦとは独立のグラフィックス状態レジスタ
（ＧＳＲ）に前記算出されたアドレス・オフセットを記
憶するステップと、ｃ）前記ＦＰＵとは独立の前記グラフィックス・データ
整列手段を使用して、前記算出された整列アドレスおよ
び前記記憶された整列アドレス・オフセットに応じて、
前記整列していないグラフィックス・データ・ブロック
を整列させるステップと、ｄ）前記ＬＳＵを使用して、前記整列させたグラフィッ
クス・データブロックを前記ＦＰＲＦから前記メモリ装
置に記憶し直すステップとを含むことを特徴とする方
法。