JP2002536763A

JP2002536763A - 命令セット構造の比較拡張を有するプロセッサ

Info

Publication number: JP2002536763A
Application number: JP2000598932A
Authority: JP
Inventors: ラディカザッカス，; ジー．マイケルウラー，; ユン−ワイホー，; シャンドレービー．ハレル，
Original assignee: エムアイピーエステクノロジーズ，インコーポレイテッド
Priority date: 1999-02-12
Filing date: 2000-02-14
Publication date: 2002-10-29
Also published as: EP1163591B1; EP1163591A4; EP1163591A1; WO2000048080A1

Abstract

(57)【要約】高性能浮動小数点操作を組み込む、命令セット構造（３２０）の比較拡張および条件付きブランチ拡張（６３０）プロセッサ。命令セット構造（３２０）は、単精度および倍精度データフォーマット、ならびに一対のオペランドの２つの同時操作を可能にするペアードシングルデータフォーマットを含む、様々なデータフォーマットを組み込む。比較拡張は、対の３２ビット固定点整数と対の一重浮動小数点フォーマットとの間の浮動小数点数および変換の大きさの比較に向けられた命令を含む。条件付きブランチ拡張（６３０）は、例えば、２つの条件コード（６３５）のうちのいずれか１つが偽または真である場合、３つの条件コード（６３０）のうちのいずれかが偽または真である場合、または、４つの条件コード（６３０）のうちのいずれか１つが偽または真である場合、分岐に向けられる命令を含む。

Description

【発明の詳細な説明】

【０００１】（発明の分野）本発明は、コンピュータ処理の分野に関する。さらに詳細には、本発明は、３
次元グラフィックスジオメトリ処理等のデータ処理に集積回路により利用される
命令に関する。

【０００２】（関連技術）コンピュータ生成グラフィックスデザインは、概してコンピュータシステム上
のグラフィックスプログラムを介して実行される命令から成る。命令はコンピュ
ータシステムプロセッサによって認識され、プロセッサに命じて、３次元ディス
プレイを生成するための特定の計算および動作を実行させる。プロセッサによっ
て認識される命令セットは上記プロセッサの命令セットを構成する。

【０００３】コンピュータ生成グラフィックスデザインは、データが流れるパイプラインと
して描かれ得る。上記パイプラインでは、データが生成され、表示される画像を
規定するように使用される。パイプラインに沿う様々な点で、様々な計算および
動作が、グラフィックスデザイナーによって特定され、従ってデータは変更され
る。

【０００４】パイプラインの初期段階において、所望の画像のフレームは、当該分野で「プ
リミティブ」または「グラフィックスプリミティブ」と呼ばれる、線およびポリ
ゴン等のジオメトリックシェイプを用いて、形成される。画像の頂点の導出およ
びアニメーションを提供する頂点の操作には、ディスプレイ画面の２次元ワール
ドの位置に設計される３次元ワールドを投影するために膨大なジオメトリックな
計算を実行することが必要となる。

【０００５】次いで、プリミティブは、「フラグメント」にアセンブリ化され、これらのフ
ラグメントは、色、遠近感、およびテクスチュア等の属性が割り当てられる。画
像の質を向上させるために、ライティング、フォッグ、および陰影等の効果が付
加され、アンチエリアシングおよびブレンディング関数（ｆｕｎｃｔｉｏｎｓ）
が用いられ、画像をより滑らかで、より現実感のあるものにする。最終段階で、
フラグメントおよびそれらに関連する属性は組み合わされ、ピクセルとしてフレ
ームバッファに保存される。ピクセル値は、フレームバッファから読み出され、
コンピュータ画面に画像を描くように用いられる。

【０００６】色、深さ、テクスチュアリング（ｔｅｘｔｕｒｉｎｇ）、ライティング等（例
えば、画像の作成）は、まとめてレンダリングとして公知である。入力ジオメト
リックプリミティブからピクセル値を判定する特定のプロセスは、ラスター化と
して公知である。

【０００７】グラフィックスデザインプロセスは、データが流れるグラフィックパイプライ
ンを逐次的に形成するように接続するジオメトリエンジンおよびラスター化エン
ジンを含むコンピュータシステム構築を利用して、従来技術で実行される。ジオ
メトリエンジンは、上記のグラフィカルデザインプロセスの初期段階を実行する
プロセッサである。ラスター化エンジンは、ラスター化としてまとめて識別され
る、上記のプロセスを実行する個別のプロセッサである。グラフィックスパイプ
ラインでは、ジオメトリエンジンがラスター化エンジンに先行して、実行される
ので、ラスター化エンジンでは、データを処理し得る割合（ｒａｔｅ）は、ジオ
メトリエンジンが計算を実行し、結果をラスター化エンジンに送り得る割合によ
って制限される。従って、ジオメトリエンジンはグラフィックスパイプラインの
ボトルネックにならないようにラスター化エンジンの速度に匹敵する速度で計算
を実行し得るジオメトリエンジンを有することが望ましい。

【０００８】しかし、従来技術の問題は、従来技術のラスター化エンジンは匹敵するジオメ
トリエンジンより速度が速く、ジオメトリエンジンはグラフィックスパイプライ
ンの制限要素になってきたことである。結局、グラフィックスプロセスが実行さ
れ得る速度は、向上したジオメトリエンジンで達成され得る速度より遅く、レン
ダリングされ得る画面の複雑さを制限している。

【０００９】上記の問題の従来の解決策の１つは、コンピュータ生成グラフィックスのジオ
メトリ計算専用の複雑なハードウェア、すなわち専用プロセッサ等の専用ジオメ
トリエンジンハードウェアのデザインおよび実行を必要とする。この従来の解決
策の問題は、そうした専用ハードウェアが、一般に高価であり得ることである。
この解決策の別の問題は、専用ハードウェアは、通常、ハードウェア用に特別に
デザインされる上記のコンピュータシステム上でのみ使用され得ることである。
さらに、専用プロセッサという点で、こうした特別なハードウェアは、コンパイ
ラを利用できない命令セットを、通常、利用する。従って、アセンブリ言語また
はマシーン言語レベルで、プログラミングされなければならない場合がある。こ
うした低級言語はマシーン依存性があり、それゆえ特別なプロセッサの知識が必
要とされる。そのような場合として、専用プロセッサは、向上したジオメトリ処
理等の問題に対するいくらか融通の利かない、厄介な解決策を与える。

【００１０】専用ジオメトリエンジンハードウェアの別の問題は、ハードウェアおよびハー
ドウェアを使用するソフトウェアで実行される明示的な同期機構である。同期は
、専用ハードウェア上で計算を始め、完了するポイントを通信するために必要と
される。

【００１１】別の従来技術による解決策は、（上記の専用プロセッサの代わりに）汎用プロ
セッサの命令セットを用いて、ジオメトリ計算を実行することである。汎用プロ
セッサは、その用語は本明細書中で用いられるように、コンパイラによって、部
分的にまたは全体的にサポートされる命令セットを有し、それゆえ高級言語（す
なわち、ＣおよびＰａｓｃａｌ等のマシーンに依存しない言語）を用いてある程
度までプログラム可能である。そのような言語は、上記の専用プロセッサの低級
言語よりプログラミングが簡単である。汎用性命令セットの一部はコンパイラに
サポートされ得ないが、利点はプログラミングプロセスの間にアセンブリコード
をコンパイラされたコードにリンクされ得る簡易性である。汎用プロセッサは、
様々なアプリケーション用にデザインされているが、実用性の範囲は狭くなり得
る。さらに、ある程度まで、所与のアプリケーションに備わってる汎用プロセッ
サは、ジオメトリ計算に加えて、他のタスクをサポートする。次いで、ジオメト
リ計算と上記の他のタスクの間の同期は、プロセッサプログラミングによって暗
黙の内に解決される。

【００１２】この解決策での問題は、しかし、多くの命令セットは、コンピュータ生成グラ
フィックスに必要な複雑な計算をすばやく実行するには十分に強力でないことで
ある。このように、従来技術は、通常、動作または機能を特定し実行するような
いくつかの命令を有するので、問題がある。一般に、専門的な命令が多ければそ
れだけ、その動作または機能を特定し、実行するには時間がかかる。このうよう
に、ジオメトリ計算は、従来技術に用いられる命令の数によって遅くなる。それ
ゆえ、命令の数を減らすことが望ましく、それによってジオメトリエンジンのジ
オメトリ計算速度が上がる。

【００１３】従って、プロセッサ（好適には、汎用プロセッサ）が、グラフィックスデザイ
ンプロセスに関するジオメトリ計算を実行し得る速度を上げ得るシステムおよび
／または方法は所望される。上記の課題を達成し得、様々なタイプのプロセッサ
およびプロセッサコアを用いてコンピュータシステム内で実行され得るコストパ
フォーマンスの良い解決策もまた提供し得るシステムおよび／または方法はさら
に所望される。本発明は、上記の課題に対して新しい解決を提供する。

【００１４】本発明の上記および他の利点は、様々な図面に図示される次の好適な実施形態
の詳細な説明を読めば、当業者には明らかである。

【００１５】（発明の要旨）本発明に従って、プロセッサがグラフィックスデザインプロセスについてのジ
オメトリ計算を含む様々な動作を実行し得る速度を上げ得る同一のシステムおよ
び方法は、提供される。このシステムおよび方法は、上記の課題を達成し得、様
々なタイプのプロセッサおよびプロセッサコアを用いるコンピュータシステム内
で実行され得るコストパフォーマンスの良い解決策となり得る。このシステムお
よび方法は、所与の動作（例えば、ジオメトリ）を特定し、実行するために必要
な命令の数を減らし得、それによって、プロセッサの動作速度を上げることを容
易にし得る。

【００１６】本発明の好適な実施形態に従って、汎用プロセッサ上で３次元グラフィックス
ジオメトリ処理性能を向上させるようにデザインされる高性能の浮動小数点動作
を組み込む汎用性命令セット構築に対するアプリケーション専用拡張は、提供さ
れる。拡張に含まれる命令は、単精度、倍精度およびペアードシングルデータフ
ォーマット（ｐａｉｒｅｄｓｉｎｇｌｅｄａｔａｆｏｒｍａｔｓ）を含む
多様なデータフォーマットを使用する。ペアードシングルデータフォーマットは
、対のオペランドに関する２つ同時動作を提供する。拡張に含まれる命令はまた
、３次元グラフィックス処理に関連のない状況でも使用され得る。さらに、別の
実施形態において、上記の命令は、命令セット構築についての拡張よりむしろ命
令セット構築自体の一部として定義され得る。上記の命令は、ハードウェア、ソ
フトウェアまたはハードウェアとソフトウェアの組み合せで実行され得る。

【００１７】命令セット構築についての拡張は、ジオメトリ計算を実行するために必要な命
令の数を減らし得る。結果として、プロセッサはラスター化エンジンの速度に近
い速度でジオメトリ計算を実行し得、プロセッサはグラフィックスパイプライン
のボトルネックとなり得ない。

【００１８】１実施形態において、命令セット構築についての拡張は、ＭＩＰＳベースの命
令セット構築に関する機能を実行する浮動小数点命令セットとして実行される。
この実施形態において、浮動小数点ユニットを含むプロセッサは、浮動小数点命
令を実行するジオメトリ計算を実行する。

【００１９】１実施形態において、コンピュータグラフィックス画像の頂点は座標で表示さ
れる。座標は変換される。浮動点の大きさ比較命令は、変換される座標の少なく
とも一部分と特定の表示量（ｖｉｅｗｖｏｌｕｍｅ）（例えば、クリップテス
ト）の複数の端を表示する値との間の大きさの比較を実行するように用いられ、
少なくとも３つの表示量の比較結果が得られる。この実施形態の１つの局面にお
いて、浮動点の大きさ比較命令は、ＣＡＢＳ命令である。

【００２０】１実施形態において、条件コード入力は１つ以上の特定の状態に対して設定さ
れ、大きさ比較の結果を示す。比較条件は、浮動点の大きさ比較命令で特定され
る。その条件コードビットの１つは、関連比較条件が真である場合、真を示し、
関連比較条件が偽である場合、偽を示すセットである。

【００２１】１実施形態において、第１の変換命令は、固定点値を浮動点値に変換するため
に用いられる。この実施形態の１局面において、第１の変換命令は、ＣＶＴ．Ｐ
Ｓ．ＰＷ命令である。

【００２２】１実施形態において、第２の変換命令は、浮動点値を固定点値に変換するため
に用いられる。この実施形態の１局面において、第２の変換命令はＣＶＴ．ＰＷ
．ＰＳ命令である。

【００２３】１実施形態において、汎用プロセッサおよびメモリは、複数の浮動点値を比較
するように用いられる。第１の命令は、メモリに保存される。第１の命令は、複
数のオペランドについて動作するようにフォーマットされる。第１の命令は、汎
用プロセッサにデスパッチされ、実行される。プロセッサは、複数の大きさ比較
動作を実行するように並行に複数のオペランドについて動作する。１実施形態に
おいて、各複数のビットは、複数の大きさ比較動作の結果を示すように特定の状
態に、第１の命令によって設定される。この実施形態において、第１の命令によ
って設定される複数のビットは、プリミティブが少なくとも１つの表示量の１端
に交差するかどうかを示す。

【００２４】１実施形態において、プロセッサは、所与の表示量の少なくとも３つの表示量
端をテストする。単一の命令は、実行ユニットにデスパッチされる。単一命令は
、複数のオペランドについて動作するようにフォーマットされる。複数のオペラ
ンドは実行ユニットに対して提供される。複数のオペランドは、所与の表示量の
、複数の正規に配置される表示量端を表示する。単一命令が実行され、実行ユニ
ットは複数の大きさ比較動作を複数のオペランドと並行に実行する。

【００２５】１実施形態において、コンピュータプログラム製品は、コンピュータ読み出し
可能媒体を含む。コンピュータ読み出し可能媒体はその中に複数の命令を保存す
る。第１の命令によって、汎用プロセッサは、第１の複数のオペランドについて
の複数の大きさ比較動作を並行に実行し得、複数の大きさ比較動作の結果を示す
１つ以上の特定の状態に対する複数のビットを設定し得る。

【００２６】１実施形態において、コンピュータグラフィックス画像の頂点は、座標で表示
される。座標は変換され、変換された座標は、特定の表示量の端を表示する値と
比較される。条件コードビットは、１つ以上の特定の状況に設定され、比較結果
を示し得る。条件分岐命令は、条件コードビットに基づいて実行される。

【００２７】１実施形態において、ブランチターゲットアドレスは計算され、ブランチター
ゲットアドレスにジャンプされる。ブランチターゲットアドレスの命令は、条件
コード状態（すなわち、１つ以上の条件コードビットの状態）に依存して実行さ
れる。

【００２８】１実施形態において、汎用プロセッサによって、汎用プロセッサ内の記憶デバ
イスから複数のビットセットが１つ以上の状態に提供される。複数のビットは処
理され、組み合わせビットを生成する。条件分岐命令は、組み合せビットの状態
に基づいて実行される。

【００２９】１実施形態において、第１の命令および第２の命令は、汎用プロセッサに結合
されるメモリに保存される。第１の命令は汎用プロセッサで処理される。第１の
命令は、複数のオペランドについて動作し、複数の大きさ比較動作を並行に実行
する。複数のビットセットは、大きさ比較動作に応答して１つ以上の特定の状態
に設定される。第２の命令は、そのプロセッサ内で処理される。第２の命令は、
複数のビットに応答し、選択的に分岐動作を始める。

【００３０】１実施形態において、コンピュータプログラム製品は、コンピュータ読み出し
可能媒体を含む。コンピュータ読み出し可能媒体はその中に複数の命令を保存す
る。第１の命令によって、汎用プロセッサは複数の大きさ比較動作を並行に実行
し得、１つ以上の特定の状態に対する複数の結果ビットを設定し得る。第２の命
令によって、汎用プロセッサは、複数の結果ビットに応答してブランチターゲッ
トアドレスにジャンプし得る。

【００３１】本明細書に組み込まれ、その一部である添付された図面は、説明と共に本発明
の実施形態を示し、本発明の原理を説明するのに役に立つ。

【００３２】これから本発明の好適な実施形態について詳細に説明する。実施形態の例につ
いて、添付の図面と共に説明する。本発明を好適な実施形態と共に説明していく
が、これらの実施形態は、本発明をこれらの実施形態に限定するものとして意図
されていないことが理解される。反対に、本発明は、添付の特許請求範囲に規定
されるような本発明の意図および範囲内に含まれ得る変更物、改変物および均等
物を包含するものとして意図される。さらに、以下の本発明の好適な実施形態の
詳細な説明において、本発明を深く理解してもらうために多くの特定の詳細を説
明していくが、本発明はこれらの特定の詳細が無くとも実施可能であることは、
当業者にとって明らかである。他の場合において、周知の方法、プロシージャ、
構成要素および回路については、本発明の局面を不必要に不明瞭なものにしない
ために、詳細には説明していない。

【００３３】以下に述べる詳細な説明の特定の部分について、プロシージャ、ロジックブロ
ック、処理およびコンピュータメモリ内のデータビットに関する他の象徴的動作
の表現の観点から説明している。これらの説明および表現は、データ処理分野の
当業者同士が、自らの仕事の本質を最も効果的に伝えるために用いる手段である
。本出願において、プロシージャ、ロジックブロック、処理またはそのようなも
のは、所望の結果を得るための首尾一貫した一連の工程または命令として考えら
れる。これらの工程は、物理的数量を物理的に操作することを必要とする。これ
らの数量は通常、格納、転送、結合、比較および他の場合にコンピュータシステ
ムにおける操作が可能な電気信号または磁気信号の形態をとる（ただし、必ずし
もそうではない）。便宜上、これらの信号は、主に慣用上の理由のために、トラ
ンザクション、ビット、値、エレメント、記号、文字、フラグメント、ピクセル
またはそのようなものと呼ばれることが知られている。

【００３４】本明細書中において用いられるように、トランザクションは、データまたは他
の類似のメッセージ情報の送信あるいは受信を指す。トランザクションは、特定
のコンピュータシステムオペレーションと関連付けられたデータ（例えば、リク
エストまたはコマンド）の全てからなり得る。トランザクションはまた、特定の
オペレーションと関連付けられたデータブロックからもなり得る；例えば、デー
タの転送は、複数のデータブロックに分割可能であり、各ブロックを逐次的に転
送して、各ブロックでトランザクションを構成する。

【００３５】しかし、上記の用語および他の類似の用語は全て、適切な物理的数量と関連付
けられるべきものであり、便宜上これらの数量に適用される表示に過ぎないこと
を覚えておかれたい。明示的な記載がないかまたは他の場合に以下の記載から明
らかでない限り、本発明におけるいずれの箇所においても、「表現」、「変換」
、「実施」、「設定」、「実行」等の用語またはそのようなものを用いた説明は
、コンピュータシステムまたは類似の電子コンピューティングデバイスのアクシ
ョンおよびプロセスを指すものとして理解される。コンピュータシステムまたは
類似の電子コンピューティングデバイスは、コンピュータシステムメモリ、レジ
スタまたは他の類似の情報格納デバイス、伝送デバイスあるいは表示デバイス内
で物理的（電子的）数量として表されるデータを操作および変換する。本発明は
、他のコンピュータシステムの用途にも良好に適合する。

【００３６】本発明の好適な実施形態によれば、汎用命令セットアーキテクチャのジオメト
リアプリケーションに特有の拡張（ｅｘｔｅｎｓｉｏｎ）が、ハイパフォーマン
スの浮動小数点オペレーションを取り入れて提供される。この命令セットアーキ
テクチャは、多様なデータフォーマット（例えば、（ペアのオペラントで同時オ
ペレーションを可能にする）ペアードシングルデータフォーマット、単精度フォ
ーマット、および倍精度フォーマット）を組み込む。好適な実施形態において、
アプリケーションに特有の拡張は、汎用プロセッサ上でジオメトリオペレーショ
ンを行うために必要な命令の数を低減することができる。この拡張は概して、グ
ラフィックスパイプラインのジオメトリ部分において必要な命令の総数を低減す
ることができ、これにより、コンピュータによって生成されるグラフィックス設
計においてジオメトリ処理を加速することをイネーブルする。この拡張はまた、
ジオメトリオペレーション以外のアプリケーションにおいて必要な命令の総数を
低減するためにも使用可能である。

【００３７】（例示的なコンピュータシステムアーキテクチャ）図１は、本発明の好適な実施形態を実現することが可能なグラフィックスコン
ピュータシステム１００のブロック図である。コンピュータシステム１００は、
複雑な画像または３次元画像を生成するための、コンピュータによって制御され
るグラフィックスシステムを例示したものである。コンピュータシステム１００
は、バスまたは情報をやり取りするための他の通信手段１１０と、バス１１０と
結合された情報を処理するプロセッサ１０２とを含む。バス１１０は、１つ以上
のアドレスおよびデータバスを含み得るシステムバスである。本発明による他の
構成のコンピュータシステムも使用可能であることが理解される。さらに、プロ
セッサ１０２は、いずれの特定のメモリまたは入力／出力技術にも限定されない
ことも理解される。

【００３８】コンピュータシステム１００はさらに、バス１１０に結合されたランダムアク
セスメモリ（ＲＡＭ）または他の動的記憶デバイス１０１（メインメモリ１０１
）も含み、これらは、プロセッサ１０２によって実行される情報および命令を格
納する。メインメモリ１０１は、プロセッサ１０２による命令の実行の間、一時
的変数または他の中間情報を格納するためにも用いられる。データ格納デバイス
１０７は、バス１１０に結合され、情報および命令を格納するために用いられる
。さらに、信号入力／出力（Ｉ／Ｏ）通信デバイス１０８が、コンピュータシス
テム１００を例えばネットワークに結合させるために用いられる。

【００３９】また、コンピュータシステム１００は、バス１１０を介して英数字入力デバイ
ス１２２（例えば、英数字キーおよび他のキー）にも結合され得、この英数字入
力デバイス１２２は、情報選択結果およびコマンド選択結果をプロセッサ１０２
に通信するために用いられる。他の種類のユーザ入力デバイスとして、マウス１
２３（または類似のデバイス（例えば、トラックボールまたはカーソル方向キー
））があり、これらは、方向情報およびコマンド選択結果をプロセッサ１０２に
通信し、表示デバイス１２１上でのカーソルの動きを制御するために用いられる
。この入力デバイスは典型的には、２本の軸（すなわち、第１の軸（例えば、ｘ
軸）および第２の軸（例えば、ｙ軸））において２段階の自由度を有し、これに
より、この入力デバイスが平面における位置を指定することが可能になる。

【００４０】さらに図１を参照して、バス１１０には、グラフィックスサブシステム１１１
も結合される。プロセッサ１０２は、グラフィックスサブシステム１１１に、グ
ラフィックスデータ（例えば、描画コマンド、座標頂点データならびにオブジェ
クトの幾何学的位置、色および表面パラメータに関連する他のデータ）を提供す
る。グラフィックスサブシステム１１１は一般的には、グラフィカルデータを処
理し、そのグラフィカルデータを画面座標システムに変換し、基本形状（例えば
、点、線、多角形およびメッシュ）に基づいてピクセルデータ（例えば、色、陰
影、テクスチャー）を生成し、ブレンド、アンチエイリアース化および他の機能
を行う。コンピュータシステム１００の１つの実施形態において、プロセッサ１
０２においてジオメトリ計算を行い、別の実施形態において、グラフィックスサ
ブシステム１１１においてジオメトリ計算を行う。本発明は、上記の実施形態ま
たは記載されていないコンピュータシステム１００の他の実施形態のいずれにお
いても実施可能であることが理解される。その結果得られたデータを、フレーム
バッファ１３０内に格納する。表示サブシステム（図示せず）は、フレームバッ
ファ１３０を読み出し、表示デバイス１２１上の画像を表示する。

【００４１】（例示的なプロセッサアーキテクチャ）図２Ａは、以下に説明するような適切な改変を行った後に本発明を実施するコ
ンピュータシステム１００（図１）による使用が可能な汎用プロセッサの１つの
実施形態のブロック図である。プロセッサ１０２ａおよびその機能の詳細な例は
、「ＭＩＰＳＭｉｃｒｏｐｒｏｃｅｓｓｏｒＲ４０００Ｕｓｅｒ'ｓＭ
ａｎｕａｌ」（第２版、１９９４、ＭｏｕｎｔａｉｎＶｉｅｗ、ＣＡのＭＩＰＳ
Ｔｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．）に見受けられる。プロセッサ１０２ａ
は、拡張が以下の命令セットアーキテクチャに命令するハードウェア、ソフトウ
ェア、および／またはファームウェア（すなわち、マイクロコード）の改変によ
って、本発明の実施用に適切に作製され得る。このような改変は、以下の説明を
鑑みれば、当業者にとって明らかである。他の市販のプロセッサコンフィギュレ
ーション（ＭＩＰＳを基本とするものおよびＭＩＰＳを基本としないもの両方）
が、本発明に従い、ハードウェア、ソフトウェア、および／またはファームウェ
ア（すなわち、マイクロコード）の改変を伴って使用可能であることが理解され
る。

【００４２】プロセッサ１０２ａは、中央処理装置（ＣＰＵ）２３０ならびにコプロセッサ
ＣＰ０２２０およびＦＰＵ２４０を含む。ＣＰ０２２０は、プロセッサチップに
組み込まれ、バーチャルメモリシステムおよび例外処理をサポートする。ＣＰ０
２２０はまた、キャッシュサブシステムも制御し、診断制御およびエラー回復設
備も提供する。ＣＰ０２２０の他の実施形態は、特定のハードウェアインプリメ
ンテーションに応じて、他の機能を行い得る。

【００４３】ＦＰＵ２４０は、やはりプロセッサチップに組み込まれた浮動小数点コプロセ
ッサである。ＦＰＵ２４０は、ＣＰＵ２３０命令セットを拡張して、算術演算を
浮動小数点値で行う。ＦＰＵ２４０は、２つの別個のレジスタ（すなわち、汎用
レジスタおよび制御レジスタ）を含むＦＰＵレジスタ２４１を含む。

【００４４】これらの汎用レジスタは、浮動小数点レジスタ（ＦＰＲ）と呼ばれ、ＦＰＵ２
４０と残りのプロセッサ１０２ａとの間でバイナリデータを転送するために用い
られる。これらの汎用レジスタはまた、フォーマットされたオペランド値を保持
するためにも用いられる。好適な実施形態において、各汎用レジスタは６４ビッ
ト幅である。

【００４５】これらの制御レジスタは、ＦＰＵ２４０の識別および制御を行うために用いら
れる。制御レジスタは、浮動小数点制御／ステータスレジスタ（ＦＣＳＲ）（図
４を参照）を含む。この実施形態において、各制御レジスタは３２ビット幅であ
る。

【００４６】図２Ｂは、本発明を実施するコンピュータシステム１００（図１）による使用
が可能な汎用プロセッサの別の実施形態を示す。プロセッサ１０２ｂは、例えば
、命令フェッチユニット２６２と、メモリ管理ユニット２６４と、ロード格納ユ
ニット２６６と、コンピュータシステム１００のメモリユニットとの間でバスを
１１０を介して行なわれるトランザクションを処理するバスインターフェースユ
ニット２６０を含む。

【００４７】メモリ管理ユニット２６４は、命令フェッチユニット２６２およびロード格納
ユニット２６６のためのアドレス翻訳を処理する。命令フェッチユニット２６２
の場合、この実施形態において、命令キャッシュがミスした場合のみにアドレス
翻訳が必要となる。この実施形態において、命令キャッシュ（図示せず）は、命
令フェッチユニット２６２内に配置される。メモリ管理ユニット２６４は、命令
フェッチユニット２６２から命令キャッシュミスリクエストを受け取り、アドレ
ス翻訳を終了し、そのミスリクエストを、バスインターフェースユニット２６０
に転送する。メインメモリ１０１（図１）は、このリクエストにサービスするた
めに用いられ得、命令フェッチユニット２６２を介して命令キャッシュを再補充
するために必要な命令をバス１１０を介して提供する。ロード格納ユニット２６
６の場合、この実施形態において、メモリ管理ユニット２６４は、各データキャ
ッシュアクセスのためのアドレス翻訳を終了する。

【００４８】ロード格納ユニット２６６は、メモリトランザクションおよびデータキャッシ
ュ管理に関連する命令を全て処理する。ロード格納ユニット２６６は、命令発送
ユニット２７２からのロード／格納命令と、整数実行ユニット２７４からのロー
ド／格納アドレスと、整数実行ユニット２７４および浮動小数点ユニット２７０
からの格納データと、メモリ管理ユニット２６４からのアドレス翻訳情報と、バ
スインターフェースユニット２６０からのキャッシュ再補充データとを受け取る
。この実施形態において、ロード格納ユニット２６６は、物理的にインデックス
付けされかつ物理的にタグ付けされた内部データキャッシュ（図示せず）を有す
る。

【００４９】命令フェッチユニット２６２は、命令発送ユニット２７２に命令ストリームを
提供する。この実施形態において、命令フェッチユニット２６２は、１サイクル
毎に、バーチャルにアドレシングされ、かつバーチャルにタグ付けされた内部命
令キャッシュ（図示せず）から、４つの命令からなるアドレスがアラインされた
グループをフェッチする。

【００５０】命令発送ユニット２７２は、２つの実行ユニット２７０および２７４とインタ
ーフェースをとる。より詳細には、命令発送ユニット２７２は、２つの整数実行
パイプライン（整数実行ユニット２７４）と、１つの浮動小数点実行パイプライ
ン（浮動小数点ユニット２７０）とを制御する。命令発送ユニット２７２は、命
令フェッチユニット２６２からの命令を復号し、復号化された命令を実行パイプ
ラインに発送し、発送された命令を追跡する。この実施形態において、命令発送
ユニット２７２は、命令フェッチユニット２６２から、４つまでの有効命令から
なるアドレスがアラインされたグループを受け取り、２−エントリバッファ（図
示せず）を通じて、１つのエントリについて４つの命令を実施する。この実施形
態において、命令発送ユニット２７２は、２−エントリバッファからの命令を１
サイクルについて２つまで復号し、次いで、復号した命令を、プログラムの順番
で整数実行ユニット２７４または浮動小数点ユニット２７０に発送する。命令発
送ユニット２７２は、発送された命令を、パイプキュー（図示せず）および未解
決（ｏｕｔｓｔａｎｄｉｎｇ）ロードキュー（図示せず）において追跡し続ける
。このパイプキューは、実行パイプラインに発送された各命令に関するエントリ
を含み、この未解決ロードキューは、ロード格納ユニット２６６中のデータキャ
ッシュにおいて失われたロードトランザクションに関するエントリを含む。

【００５１】この実施形態において、整数実行ユニット２７４は、従来からの整数命令（例
えば、加算／減算命令、シフト命令、ロジック命令、ロード／格納命令、ブラン
チ命令および整数乗算／除算命令）を実行する。整数実行ユニット２７４は、２
つの別個の実行パイプラインを含み、２つまでの命令を同時に実行することがで
きる。

【００５２】浮動小数点ユニット（ＦＰＵ）２７０は、本発明の実施形態に従って、命令セ
ットアーキテクチャに対し、ジオメトリアプリケーションに特有の拡張を実行す
る。この実施形態において、ＦＰＵ２７０は、ＩＥＥＥシングルフォーマットお
よび倍精度フォーマットと、ＩＥＥＥ丸めモードと、ペアードシングルデータフ
ォーマット（図５を参照）と、デノーマライズ化入力およびデノーマライズ化出
力とに、完全なハードウェアサポートを提供する。１つの実施形態において、Ｆ
ＰＵ２７０は、単精度フォーマットおよびペアードシングルフォーマットについ
て最適化される。１つの実施形態において、ＦＰＵ２７０は、１クロックサイク
ルについて、以下の浮動小数点命令のうち任意の命令を実行することができる：
ＡＤＤＲ、ＭＵＬＲ、ＲＥＣＩＰ２、ＲＳＱＲＴ２、ＣＶＴ．ＰＳ．ＰＷ、ＣＶ
Ｔ．ＰＷ．ＰＳおよびＣＡＢＳ。同じ実施形態において、整数実行ユニット２８
４は、１サイクルにつき、ブランチ命令ＢＣｌＡＮＹｘｘ（ｘｘ＝２Ｆ、２Ｔ、
４Ｆまたは４Ｔ）のうち任意の命令を実行することができる。

【００５３】この実施形態において、浮動小数点ユニット（ＦＰＵ）２７０は、プロセッサ
１０２ｂとインターフェースをとりかつプロセッサ１０２ｂ内に配置される独立
型の（ｓｅｌｆ−ｃｏｎｔａｉｎｅｄ）コプロセッサである。ＦＰＵ２７０は、
命令発送およびインターフェースの完全性のために、命令発送ユニット２７２に
結合される。命令発送ユニット２７２は、ＦＰＵ２７０に発送される各命令の状
態を追跡する。ＦＰＵ２７０は、予想される例外および最終的例外を、命令発送
ユニット２７２に報告する。

【００５４】ここで図２Ｃを参照して、ＦＰＵ２７０は、汎用レジスタすなわち浮動小数点
レジスタ（ＦＰＲ）ファイル２８１を含み、この浮動小数点レジスタ（ＦＰＲ）
ファイル２８１は、ＦＰＵ２７０とプロセッサ１０２ｂとの間でバイナリデータ
を転送させる。ＦＰＵ２７０命令は、レジスタトゥレジスタオペレーションであ
り、その命令オペランドは、ＦＰＲ２８１中のデータを指す。ＦＰＵ２７０はま
た、結果がＦＰＲ２８１に書き込まれるまで結果を実施する浮動小数点パイプフ
ァイル（ＰＩＰ）２８２も含む。ＦＰＵ２７０の残りの構成要素について、以下
に説明する。

【００５５】表１は、本発明の実施形態による、命令セットアーキテクチャに対するジオメ
トリアプリケーションに特有の拡張中に含まれる命令をリスト化したものである
。別の実施形態において、これらの命令の一部または全ては、拡張としてではな
く、命令セットアーキテクチャそのものの一部として規定され得る。これらの命
令に関係するさらなる情報を、図６Ａ〜図６Ｍと共に提供する。

【００５６】

【表１】図２Ｃを参照して、ブランチ（すなわち、ＢＣＩＡＮＹｘｘ）以外の表１中の
命令は、浮動小数点乗算器２８３、浮動小数点加算器２８４、浮動小数点除算／
平方根２８５、浮動小数点指数２８６および／または浮動小数点パイプファイル
２８２のうち１つ以上において実行される。後述するように、ブランチ命令は、
浮動小数点ユニット２７０と情報のやり取りを行うが、整数ユニット２７４にお
いて実行される。

【００５７】浮動小数点加算器２８４への入力は、浮動小数点乗算器２８３の出力によって
駆動される。なぜならば、浮動小数点乗算器２８３は、乗算オペレーションをバ
イパスするための効果的な経路を含むため、浮動小数点加算器２８４に向かう命
令は、浮動小数点乗算器２８３の入力に送られるからである。同様に、浮動小数
点除算／平方根２８５に向かう命令は、浮動小数点乗算器２８３を通じて経路が
決められる。

【００５８】浮動小数点乗算器２８３は、浮動小数点仮数乗算器であり、単精度乗算命令、
倍精度乗算命令およびペアードシングル乗算命令（例えば、表１のＭＵＬＲ）と
、乗算加算オペレーションの乗算部分とを実施する。浮動小数点乗算器２８３は
、浮動小数点パイプファイル２８２から２つのオペランド入力を受容する。浮動
小数点乗算器２８３の乗算アレー（５８０、図２Ｄ）は、２つの単精度乗算デー
タ経路として構成される；単精度オペレーションの場合、１つの経路のみが使用
され、ペアードシングルオペレーションの場合、（シングル命令ストリーム−乗
算データストリーム［ＳＩＭＤ］アーキテクチャオペレーションに従って）２つ
の経路両方が独立して使用され、；倍精度オペレーションの場合、これらの２つ
の単精度アレーは、互いにロジック結合（ｇｌｕｅ）され、従来の技術に従って
、アレーはダブルポンプされる（ｄｏｕｂｌｅ−ｐｕｍｐｅｄ）（すなわち、乗
算の前半半分を第１のサイクルにおいて行い、中間結果を別のパス用としてアレ
ーにフィードバックする）。浮動小数点乗算器２８３は、和桁上げ冗長フォーマ
ット（ｓｕｍ−ｃａｒｒｙｒｅｄｕｎｄａｎｔｆｏｒｍ）で正確な応答を生
成する。この和および桁上げは、桁上げ伝搬加算器（ＣＰＡ５８２、図２Ｄ）に
おいて加算され、これにより、正確かつ丸められていない結果が得られる。丸め
情報は、従来の様式で収集され、浮動小数点加算器２８４に転送され、これによ
り、丸め結果が得られる。図６Ｂと共に、さらなる情報を提供する。

【００５９】浮動小数点加算器２８４は、浮動小数点仮数加算器であり、単精度加算命令、
倍精度加算命令およびペアードシングル浮動小数点加算命令（例えば、表１のＡ
ＤＤＲ）ならびに減算命令と、複雑な命令（例えば、ＭＡＤＤ（すなわち、後述
する浮動小数点乗算加算）の加算／減算部分とを実施する。浮動小数点加算器２
８４は、２つのオペランド（すなわち、浮動小数点乗算器２８３からの中間結果
および浮動小数点パイプファイル２８２において実施された仮数）を受容する。
パフォーマンスを向上させるために、浮動小数点大きさを加算／減算するオペレ
ーションは、プリスケール加算器（ＰＳＡ）５８３または大量キャンセル加算器
（ＭＣＡ）５８４（図２Ｄ）のいずれかにより計算される。ＰＳＡ５８３は、大
きさ加算を全て行い、オペランド指数間の差が２よりも大きい場合、大きさ減算
をしばしば行い、これにより、オペレーション後に正規化結果が大きくシフトさ
れる事態を回避する。オペランド指数間の差が２以下である場合、ＭＣＡ５８４
は、大きさ減算をしばしば行い、これにより、オペレーション前にアラインメン
トがシフトされる事態を回避する。従って、最終的な正確な結果は、特にオペラ
ンド間の指数差に基づいて、ＰＳＡ５８３またはＭＣＡ５８４のいずれかから選
択される。次いで、この結果は、浮動小数点パイプファイル２８２に返送される
。ＰＳＡ５８３およびＭＣＡ５８４に関する選択基準については、上述した米国
特許出願第号（弁理士受付番号第１９４２７−９７号）に詳細に記載され
ている。

【００６０】浮動小数点加算器２８４は様々な精度のオペランドを処理しなければならない
ため、このユニットは、２つの並列単精度データ経路として構成される。単精度
オペレーションの場合はこれらの経路のうち１つのみを用い、（ＳＩＭＤアーキ
テクチャオペレーションによる）ペアードシングルオペレーションの場合には、
これらの２つの経路を個別に用い、倍精度オペレーションの場合、これら２つの
ユニットを（従来の様式で）互いにロジック結合（ｇｌｕｅ）して、２つの経路
両方を用いる。図６Ａおよび図８と共に、さらなる情報を提供する。

【００６１】浮動小数点除算／平方根２８５は、桁単位（ｄｉｇｉｔ−ｂｙ−ｄｉｇｉｔ）
技術（例えば、基数−２ＳＲＴまたは基数−４ＳＲＴ）を用いて、除算命令およ
び平方根命令の仮数部分を実施する。浮動小数点指数２８６は、浮動小数点オペ
レーション結果の指数を判定する。浮動小数点指数２８６は、オペランドの指数
に基づいて指数の結果の概要について判定し、仮数計算ユニット（例えば、浮動
小数点加算器２８４および浮動小数点乗算器２８３）と相互作用して、正規化シ
フトおよび丸めオペレーションに基づいて指数値を調整する様式を判定する。指
数ユニット２８６は、２つの独立したデータ経路として構成される。ペアードシ
ングル命令の場合、（ＳＩＭＤの場合のように）相互作用が不要な状態でこれら
のデータ経路の両方を用い、倍精度オペレーションまたは単精度オペレーション
の場合、１つの経路のみを用いる。

【００６２】浮動小数点制御ユニット２８７は、ＦＰＵ２７０を識別し、制御するために用
いられる。この実施形態において、浮動小数点制御ユニット２８７は、浮動小数
点制御／ステータスレジスタ（ＦＣＳＲ）４１０（図４を参照）を含む。浮動小
数点命令は、命令発送ユニット２７２によって浮動小数点制御ユニット２８７に
送られる。浮動小数点制御ユニット２８７は、適切な一連のオペレーションを通
じてデータ経路に指示し、例外を識別および報告し、その結果得られた符号ビッ
トを計算し、ＦＣＳＲの読み出しおよび更新を処理する。

【００６３】さらに図２Ｃを参照して、上記の表１に示すブランチ命令（例えば、ＢＣｌＡ
ＮＹ２Ｆ、ＢＣｌＡＮＹ２Ｔ、ＢＣ１ＡＮＹ４ＦおよびＢＣ１ＡＮＹ４Ｔ）は、
ＦＣＳＲ４１０（図４）中に保持される浮動小数点条件コードをテストし、従来
のブランチを行う（図６Ｊ〜６Ｍを参照して、ブランチ命令に関するさらなる情
報を提供する）。この実施形態において、命令発送ユニット２７２（図２Ｂ）は
、整数実行ユニット２７４にオペレーションコード（例えば、ＣＯＰ１および表
１からの指定命令ニーモニック；図６Ｊ〜６Ｍを参照）を発送して、プロセッサ
に特定のアクションを行うよう命令する。このオペレーションコードは、整数実
行ユニット２７４内の実行パイプラインの１つの中にあるブランチユニット（図
示せず）において復号される。このブランチユニットは、条件コードインデック
スおよびテストが行なわれる旨を示す通知を浮動小数点ユニット２７０に送る。
浮動小数点ユニット２７０は、条件コードをテストし、テスト結果を整数実行ユ
ニット２７４に返送する。整数実行ユニット２７４は、ブランチが取られた／ブ
ランチが取られていない通知を、命令フェッチユニット２６２（図２Ｂ）に送り
、命令フェッチユニット２６２は、そのブランチ通知に従い、適切な命令をフェ
ッチする。

【００６４】図２Ｄは、本発明のこの実施形態による、ＦＰＵ２７０を通過するデータフロ
ーを示すブロック図である。このデータフローは、（システムクロックの第１の
フェーズによってトリガされる）ラッチ５０４と、（システムクロックの第２の
フェーズによってトリガされる）ラッチ５０６とを含む。図２Ｄの各ブロック中
に示す残りの上位構成要素は、当業者に周知の従来のＦＰＵ設計の構成要素を示
す。

【００６５】図２Ｄを参照して、データは、浮動小数点レジスタファイル２８１から開始し
て、レジスタ５０２（４つの読出しポートおよび２つの書込みポートを備える、
３２−エントリ、６４−ビットのレジスタファイル）を通過して、パイプファイ
ル２８２中のロジック５０８をアンパック／バイパスさせる。（ロードバス２９
１およびレジスタファイル５０７からロジック５０８に直接データを流すことも
可能である。）このロジックは、オペランドを、上述した同時係属中の出願第
号（弁理士受付番号第１７７８．００６００００号および第１７７８．００
８００００号）に記載の「内部フォーマット」にアンパックする。このロジック
はまた、算術演算を必要としないオペランドの場合、バイパスオペレーションも
行う（すなわち、オペランドをファイル２８１に戻す）。算術演算が必要な場合
、データは、乗算器２８３および指数２８６に流される。

【００６６】指数２８６において、指数は、マルチプレクサ＆ＣＰＡ回路５１０において算
術結合され、例外予想オペレーション（例えば、アンダーフロー、オーバーフロ
ー）が、例外予想ロジック５１２において実施され、（仮数計算結果に基づいて
）指数調整ロジック５１４において指数が調整される。乗算器２８３において、
乗算アレー５８０において従来の技術（例えば、基数−４ブース修正アルゴリズ
ム）を用いてデータ処理が行なわれ、ＣＰＡ５８２において出力が処理される。
同時に、除算／平方根ブロック２８５の除算／平方根ロジック５１６においても
データ処理が可能である。図２Ｄに示すように、この出力も、ラッチ５０６を通
じてＣＰＡ５８２に送られる。

【００６７】最後に、データは、浮動小数点加算器２８４へと送られ、上述した選択基準に
基づいて指数２８６によって制御されるマルチプレクサ５１８を通過する。デー
タは、周知の技術に従ってプリスケール加算器５８３または大量キャンセル加算
器５８４によって処理され、やはり指数２８６によって制御されるマルチプレク
サ５１９を通じて送られる。加算器５８３または５８４からの出力を用いて、指
数値を調整する。その後、加算器２８４からの仮数値および指数２８６からの指
数値を、パイプファイル２８２に返送し、パックロジック５２２を用いて、この
データを、（以下に規定するＩＥＥＥ７５４に適合する）メモリフォーマットに
パックし、次いでレジスタファイル２８１に返送する。あるいは、データを、ロ
ジック５０８を通じてバイパスし、レジスタファイル５２４および格納バス２９
２に送ることも可能である。

【００６８】ＦＰＵ２７０および別の実施形態に関するさらなる説明について、上述した同
時係属中の出願第号（弁理士受付番号第１９４２７−８９−１号、第１９
４２７−９７号、第１７７８．００６００００号および第１７７８．００８００
００号）に記載がある。

【００６９】（命令セットアーキテクチャに対するアプリケーションに特有の拡張）図３は、本発明による、汎用命令セットアーキテクチャ（ＩＳＡ）３２０の様
々なレベルおよびＩＳＡ３２０とジオメトリアプリケーションに特有の拡張（Ａ
ＳＥ）３５０との間の論理関係を示す。本明細書中に用いる用語ＩＳＡは、命令
セットおよび所与のプロセッサのサポートアーキテクチャの少なくとも一部分を
含む。ＩＳＡ３２０およびジオメトリＡＳＥ３５０は、プロセッサ（例えば、図
２Ｂのプロセッサ１０２ｂ）上でインプリメントされる。好適には、ＩＳＡ３２
０は、汎用ＭＩＰＳＩＳＡによって実現される（すなわち、ＩＳＡＩ〜Ｖは
好適には、ＭｏｕｎｔａｉｎＶｉｅｗ、ＣＡのＭＩＰＳＴｅｃｈｎｏｌｏｇ
ｉｅｓ、Ｉｎｃ．から市販されているＭＩＰＳＩ〜ＭＩＰＳＶに直接対応す
る）。ＭＩＰＳＩ〜ＭＩＰＳＶについて、「ＳｅｅＭＩＰＳＲｕｎ」（
Ｄ．Ｓｗｅｅｔｍａｎ著、ＭｏｒｇａｎＫａｕｆｍａｎＰｕｂｌｉｓｈｅｒ
ｓ，Ｉｎｃ．，ＳａｎＦｒａｎｃｉｓｃｏ（１９９９））に記載がある。ＭＩＰ
ＳＶは、ペアードシングルデータフォーマット（図５を参照）を導入している
。

【００７０】図３を参照して、ＩＳＡ３２０が５つのレベルを有するものとして図示されて
いる；すなわち、初期レベルまたはコアレベルに４つのエンハンスメントが施さ
れている。ＩＳＡＩ３２１は、プロセッサ１０２によりインプリメントされる
コア換算型（ｃｏｒｅｒｅｄｕｃｅｄ）命令セットコンピュータ（ＲＩＳＣ）
アーキテクチャを示す。ＩＳＡＩＩ３２２およびＩＳＡＩＩＩ３２３は、Ｉ
ＳＡＩ３２１に展開（例えば、６４−ビット整数およびアドレスの導入）を施
したものを示す。

【００７１】ＩＳＡＩＶ３２４は、一連のハイパフォーマンス浮動小数点オペレーション
（例えば、乗算／加算（例えば、ＭＡＤＤ）、乗算（例えば、ＭＵＬ）および加
算）を取り入れる。ＭＡＤＤおよびＭＵＬについて、図８および９と共にそれぞ
れ説明する。ＩＳＡＩＶ３２４はまた、浮動小数点条件コードビット（７：０
）も浮動小数点制御／ステータスレジスタ中に取り入れる。ＩＳＡＶ３２５は
、ペアードシングルデータフォーマットを導入する。

【００７２】ジオメトリＡＳＥ３５０は、一連の命令（すなわち、上記の表１の命令）を示
し、ＩＳＡ３２０（特にＩＳＡＩＶ３２４およびＩＳＡＶ３２５）と共に機
能して、コンピュータによって生成されるグラフィックス設計および他のアプリ
ケーションに関するジオメトリ計算の高速化を支援する。浮動小数点条件コード
、ペアードシングルフォーマットおよび命令セットについて以下にさらに詳述す
る。

【００７３】（例示的な浮動小数点制御／ステータスレジスタ）図４を参照して、ＦＰＵ２７０（図２Ｂ）の浮動小数点制御／ステータスレジ
スタ（ＦＣＳＲ）４１０の実施形態が図示されている。しかし、本発明によるレ
ジスタの他の実施形態も利用可能である点が理解される。ＦＣＳＲ４１０は、浮
動小数点制御／ステータスレジスタのＩＳＡＶフォーマットに対応する。ＦＣ
ＳＲ４１０中に示すフィールドを以下に定義する。

【００７４】ＦＣＣ：８つの浮動小数点条件コード、７：０；ＦＳ：（デノーマライゼーションをフラッシュしてゼロにするために主に用い
られる）非ＩＥＥＥ７５４モードをイネーブルする（「ＩＥＥＥ７５４」は、Ａ
ＮＳＩ／ＩＥＥＥ規準７５４−１９８５（「バイナリ浮動小数点算術に関するＩ
ＥＥＥ規準」）の略）理由：浮動小数点エラーの理由を示すイネーブル：浮動小数点エラーイネーブルビットフラグ：浮動小数点エラーフラグビットＲＭ：使用されるべき丸めモードを示す浮動小数点条件コード（ＦＣＣ）は、浮動小数点（ＦＰ）比較の結果（例えば
、後述するＣＡＢＳ命令の結果）を記録する８ビットで構成され、ＦＰ条件ブラ
ンチ（例えば、後述する命令ＢＣ１ＡＮＹ２Ｆ、ＢＣ１ＡＮＹ２Ｔ、ＢＣ１ＡＮ
Ｙ４Ｆ、ＢＣ１ＡＮＹ４Ｔ）についてテストされる。用いられるＦＣＣビット（
単数または複数）は、比較命令またはブランチ命令において指定される。丸めモ
ード（ＲＭ）ビットは、殆どの浮動小数点オペレーション用に用いられる丸めモ
ードを示す（特定の丸めモードを用いるＦＰ命令もある）。これらの丸めモード
は周知であり、以下のように識別される。

【００７５】０：ＲＮ−最近似値まで丸める１：ＲＺ−ゼロに向かって丸める２：ＲＰ−無限からプラス方向に丸める３：ＲＭ−無限からマイナス方向に丸めるＦＣＳＲ４１０の別の実施形態について、上述した同時係属出願第号（
弁理士受付番号第１９４２７−９７号）に記載がある。この実施形態において、
さらなる制御ビット「ＦＯ」（ＭＡＤＤ−フラッシュ−オーバーライドビット）
が、ＦＣＳＲに提供される。ビットＦＳおよびＦＯが組み合わさると、ＦＰＵ（
例えば、ＦＰＵ２７０）が３つまでの異なるモード（すなわち、ＩＥＥＥ適合モ
ード、フラッシュトゥゼロモードおよびＭＡＤＤ−フラッシュ−オーバーライド
モード）において選択的に動作することが可能になる。

【００７６】（ペアードシングルデータフォーマット）図５は、本発明によるペアードシングルデータタイプ５２０を示す。ペアード
シングル値として、６４−ビット浮動小数点レジスタが翻訳（ｉｎｔｅｒｐｒｅ
ｔ）され、これにより、２つの単精度浮動小数点数Ｓのベクトルとなる。このペ
アードシングルフォーマットは本質的には、２つの並列のパイプラインを含むも
のとして見なされる。単精度フォーマットの場合、これらのパイプラインのうち
１つのみが動作する。ペアードシングルフォーマットの場合、これらのパイプラ
インの各々が（ＳＩＭＤアーキテクチャの場合のように）個別のデータ上で並列
に動作する。

【００７７】ペアードシングルデータタイプ５２０は、一対のオペランドが１つのデータロ
ードオペレーションと共に検索されることを可能にする。さらに、ペアードシン
グルデータタイプ５２０は、一対のオペレーションがこれらのオペランド上で１
つの命令と共に行なわれることを可能にする。従って、ペアードシングルデータ
タイプ５２０を用いれば、ジオメトリエンジンのパフォーマンスを倍化すること
が可能となる。

【００７８】ペアードシングルオペレーションは、行儀の良いシングル−精度浮動小数点数
のベクトルを用いるコンピューティングアプリケーションをサポートするように
意図される。このようなアプリケーションの例としては、グラフィックスジオメ
トリアプリケーション、オーディオアプリケーション、ライティング（ｌｉｇｈ
ｔｉｎｇ）アプリケーション、セイスミック（ｓｅｉｓｍｉｃ）アプリケーショ
ンならびに汎用イメージングアプリケーションおよび信号処理等がある。

【００７９】（ジオメトリＡＳＥ−算術命令）ここで図６Ａ、６Ｂ、６Ｃ、６Ｄ、６Ｅおよび６Ｆを参照して、各図は、本発
明の１つの実施形態に従ってジオメトリＡＳＥ３５０によってインプリメントさ
れる６つの算術命令を示す。これらの算術命令はそれぞれ、ＡＤＤＲ６０１、Ｍ
ＵＬＲ６０２、ＲＥＣＩＰ１６０３、ＲＥＣＩＰ２６０４、ＲＳＱＲＴ１
６０５およびＲＳＱＲＴ２６０６として設計される。これらの命令の各々にお
いて、オペレーションコードを用いて（例えば、ＣＯＰ１を指定された命令（例
えば、ＡＤＤＲ．ＰＳ）と共に用いて）プロセッサに特定のアクションを行うよ
う命令する。ＣＯＰ１は、命令が浮動小数点命令であることを示すために用いら
れる。プロセッサ（例えば、図２Ｂのプロセッサ１０２ｂ）は、ＣＯＰ１フィー
ルド（この実施形態の場合、６つの最上位ビット）を読み出し、命令が浮動小数
点命令であることを認識し、その命令をＦＰＵ２７０（図２Ｂ）に方向付ける。
次いで、ＦＰＵ２７０は、その命令を指定するフィールド（この実施形態の場合
は６つの最下位ビット）を読み出す。

【００８０】各命令はまた、（１）フィールド「ｆｓ」および「ｆｔ」における入力データ
（または入力データの位置）と、（２）（フィールド「ｆｄ」における）命令に
よって指定されたオペレーションのアプリケーションから得られたデータの送信
先位置と、（３）フィールド「ｆｍｔ；」中の入力データのフォーマット（例え
ば、ペアードシングル（「ＰＳ」）、単精度（「シングル」または「Ｓ」）およ
び倍精度（「ダブル」または「Ｄ」）とを指定する。本発明に従って他のデータ
フォーマットおよび２つを越える入力位置を用いることが可能であることが理解
される。この実施形態において、各命令は長さが３２ビットである。図６Ａ〜６
Ｆは、様々なデータフォーマット用の例示的な命令フォーマットを示す（各図の
「フォーマット」を参照のこと）。

【００８１】（ＡＤＤＲ）図６Ａを参照して、好適な実施形態において、ＡＤＤＲ６０１は、２つのペア
ードシングル浮動小数点（ＦＰ）値の「リダクション加算」を行う。ＡＤＤＲ６
０１は、命令によって指定された格納部（例えば、プロセッサ上のメモリまたは
レジスタファイル（例えば、図２ＡのＦＰＵレジスタ２４１および図２Ｃの浮動
小数点レジスタファイル２８１））から２つのデータ要素に対するインデックス
を取り、それらのインデックスに対してリダクション加算オペレーションを行う
。次いで、その結果を、命令の送信先インデックス中に指定された格納要素中に
格納する。この命令を、浮動小数点加算器２８４（図２Ｃ）において実行する。

【００８２】ＡＤＤＲ６０１は、レジスタ中のペアードシングル値を加算し得る様式に関し
てさらなる柔軟性を提供する。ＡＤＤＲ６０１は、ＡＤＤＲによって提供される
同じ結果を達成するために今まで必要であったペアードシングル値上で動作する
処理工程を不要にする。ＡＤＤＲ６０１は、加算オペレーション用のフォーマッ
ト変換命令を不要にすることにより、命令数を低減する；例えば、本発明によれ
ば、ペアードシングル値を加算別のペアードシングル値に加算する際、ペアード
シングル値を一対の値に変換する必要はない。また、ＡＤＤＲ６０１は、加算オ
ペレーションを行う前に（例えば、ペアードシングル値を含む）レジスタのコン
テンツを別の１つのレジスタまたは複数のレジスタに移動させる必要もない。

【００８３】この実施形態において、ＡＤＤＲ６０１は、ペアードシングルフォーマットで
機能するように設計され、一対のオペランド上に２つの同時オペレーションを提
供する。ペアードシングルフォーマットの場合、ＡＤＤＲ６０１命令は、以下の
ように表される：ｆｄ．ＰＬ＜−ｆｔ．ＰＵ＋ｆｔ．ＰＬおよびｆｄ．ＰＵ＜−ｆｓ．ＰＵ＋ｆｓ．ＰＬここで、「ｆｄ」は、送信先レジスタを指定するインデックスであり、「ｆｔ
」および「ｆｓ」は、そのコンテンツがオペレーション用の入力データとして用
いられる浮動小数点レジスタセット中の２つのレジスタを指定する２つのインデ
ックスであり、記号「＜−」は、この記号の右側の値がこの記号の左側に示され
る位置に割り当てられることを示すために用いられる。「ＰＬ」は、ペアードシ
ングルデータタイプフォーマットの値の下位値を示し、「ＰＵ」は、ペアードシ
ングルデータタイプフォーマットの値の上位値を示す。図７Ａはこの計算をグラ
フィカルに示したものであり、この図について以下に説明する。ＡＤＤＲ６０１
は以下のフォーマット以外のデータセットフォーマットとも使用可能であること
が理解される；ペアードシングルフォーマット（例えば、クワッド−シングル（
すなわち、４つのシングル−精度浮動小数点数を持つベクトルとして翻訳される
１２８−ビット幅のデータ）、オクタル−シングル（すなわち、８つのシングル
−精度浮動小数点数を持つベクトルとして翻訳される２５６ビット幅のデータ）
、ペアード−ダブル（すなわち、２つのダブル−精度浮動小数点数を持つベクト
ルとして翻訳される１２８−ビット幅のデータ）、クワッド−ダブル（すなわち
、４つのダブル−精度浮動小数点数を持つベクトルとして翻訳される２５６−ビ
ット幅のデータ）等。クワッド−シングルフォーマットについて、図７Ｂと共に
さらに説明する。

【００８４】さらに図６Ａを参照して、ｆｔレジスタ中のペアードシングル値を共に加算し
、その結果を、送信先レジスタｆｄの下位ペアードシングル位置に入れる。同様
に、ｆｓレジスタ中のペアードシングル値を共に加算し、その結果を、送信先レ
ジスタｆｄの上位ペアードシングル位置に入れる。以下は、ＡＤＤＲ６０１命令
を示すオペレーションのシーケンスである。

【００８５】ＲｅａｄＦＰＲ［ｆｔ］ＲｅａｄＦＰＲ［ｆｓ］ＲｅｄｕｃｔｉｏｎＡｄｄＳｔｏｒｅｒｅｓｕｌｔｔｏＦＰＲ［ｆｄ］別の実施形態において、データセットフォーマットは、２つよりも多いシング
ル−精度浮動小数点数を含む；例えば、データセットフォーマットは、２つのレ
ジスタ中に保持される４つの単精度浮動小数点値を含み得る。同様に、別の実施
形態において、２つよりも多いレジスタを命令フォーマットに対する対応する変
更と共に用いて、（各入力レジスタを指定する）ことが可能である。

【００８６】（ＭＵＬＲ）図６Ｂを参照して、好適な実施形態において、ＭＵＬＲ６０２は、２つのペア
ードシングルＦＰ値のオペレーションの「リダクション乗算」を行う。ＭＵＬＲ
６０２は、命令によって指定される格納部（例えば、メモリまたはプロセッサ上
のレジスタファイル（例えば、図２ＡのＦＰＵレジスタ２４１および図２Ｃの浮
動小数点レジスタファイル２８１）から２つのデータエレメントに対するインデ
ックスを取り、これらのインデックスに対してリダクション乗算オペレーション
を行う。この命令は、浮動小数点乗算器２８３（図２Ｃ）において実行される。
次いで、その結果は、当該命令の送信先インデックス中に指定された格納要素中
に格納される。

【００８７】ＭＵＬＲ６０２は、レジスタ中のペアードシングル値を乗算し得る様式に関し
てさらなる柔軟性を提供する。ＭＵＬＲ６０２は、ＭＵＬＲによって提供される
同じ結果を達成するために今まで必要であったペアードシングル値上で動作する
処理工程を不要にする。ＭＵＬＲ６０２は、乗算オペレーション用のフォーマッ
ト変換命令を不要にすることにより、命令数を低減する；例えば、本発明によれ
ば、ペアードシングル値を乗算別のペアードシングル値に乗算する際、ペアード
シングル値を一対の値に変換する必要はない。また、ＭＵＬＲ６０２は、乗算オ
ペレーションを行う前に（例えば、ペアードシングル値を含む）レジスタのコン
テンツを別の１つのレジスタまたは複数のレジスタに移動させる必要もない。

【００８８】この実施形態において、ＭＵＬＲ６０２は、ペアードシングルフォーマットで
機能するよう設計され、一対のオペランド上に２つの同時オペレーションを提供
する；別の実施形態において、単精度フォーマットまたは倍精度浮動小数点フォ
ーマットも利用可能である。この命令は、以下のように表される：ｆｄ．ＰＬ＜−ｆｔ．ＰＵ＊ｆｔ．ＰＬおよびｆｄ．ＰＵ＜−ｆｓ．ＰＵ＊ｆｓ．ＰＬここで、用語の定義は上記の用語と同じである。以下において図７Ａを参照す
る。ＭＵＬＲ６０２は、クワッド−シングル、オクタル−シングル、ペアード−
ダブル、クワッド−ダブル等のペアードシングルフォーマット以外のデータセッ
トフォーマットとでも使用可能であることが理解される。クワッド−シングルフ
ォーマットについて、図７Ｂに関連してさらに説明する。

【００８９】さらに図６Ｂを参照して、ｆｔレジスタ中のペアードシングル値を共に乗算し
、その結果を、送信先レジスタｆｄの下位ペアードシングル位置に入れる。同様
に、ｆｓレジスタ中のペアードシングル値を共に乗算し、その結果を、送信先レ
ジスタｆｄの上位ペアードシングル位置に入れる。以下は、ＭＵＬＲ６０２命令
を示すオペレーションのシーケンスである。

【００９０】ＲｅａｄＦＰＲ［ｆｔ］ＲｅａｄＦＰＲ［ｆｓ］ＲｅｄｕｃｔｉｏｎＭｕｌｔｉｐｌｙＳｔｏｒｅｒｅｓｕｌｔｉｎＦＰＲ［ｆｄ］上記結果を、無限の精度まで計算し、ＦＣＳＲ（例えば、図４のＦＣＳＲ４１
０）中に指定された現在の丸めモード（ＲＭ）に従って丸める。２つの別個の乗
算によって生成された例外条件を、共に「ＯＲ」する。

【００９１】別の実施形態において、データセットフォーマットは、２つよりも多いシング
ル−精度浮動小数点数を含む；例えば、データセットフォーマットは、２つのレ
ジスタ中に保持される４つの単精度浮動小数点値を含み得る。同様に、別の実施
形態において、２つよりも多いレジスタを命令フォーマットに対する対応する変
更と共に用いて、（各入力レジスタを指定する）ことが可能である。

【００９２】図７Ａは、ペアードシングルデータフォーマットを用いたリダクション加算命
令（例えば、図６ＡのＡＤＤＲ６０１）およびリダクション乗算命令（例えば、
図６ＢのＭＵＬＲ６０２）のデータフローを示す。リダクション加算命令の場合
、ｆｔレジスタ７２１中のペアードシングル値ｆｔ．ＰＵおよびｆｔ．ＰＬを共
に加算し、その結果を、送信先レジスタｆｄ７２２の下位ペアードシングル位置
ｆｄ．ＰＬに入れる。同様に、ｆｓレジスタ７２０中のペアードシングル値ｆｓ
．ＰＵおよびｆｓ．ＰＬを共に加算して、その結果を、送信先レジスタｆｄ７２
２の上位ペアードシングル位置ｆｄ．ＰＵに入れる。リダクション乗算命令のデ
ータフローは、リダクション加算命令のものと同じである。

【００９３】図７Ｂは、クワッド−シングルデータフォーマットを用いたリダクション加算
命令（例えば、図６ＡのＡＤＤＲ６０１）およびリダクション乗算命令（例えば
、図６ＢのＭＵＬＲ６０２）のデータフローを示す。このフォーマットは、例え
ば、１２８ビット幅のデータ経路において用いられ得る。リダクション加算命令
の場合、ｆｔレジスタ７３１中のクワッド−シングル値ｆｔ１、ｆｔ２、ｆｔ３
およびｆｔ４（これらの値はそれぞれ、３２ビットであり得る）を共に加算し、
その結果を、送信先レジスタｆｄ７３２のクワッド−シングル位置ｆｄ１に入れ
る。同様に、ｆｓレジスタ７３０中のクワッド−シングル値ｆｓ１、ｆｓ２、ｆ
ｓ３およびｆｓ４を共に加算して、その結果を、送信先レジスタｆｄ７３２のク
ワッド−シングル位置ｆｄ２に入れる。従って、本発明に従ってリダクション加
算オペレーションを２つのクワッド−シングルレジスタについて行う場合、ペア
ードシングル結果が得られる。しかし、２つよりも多いクワッド−シングル入力
レジスタを用いて上述したような様式でリダクション加算オペレーションを行い
、その結果を送信先レジスタｆｄ７３２中の残りの２つの位置中に入れることも
可能である点に留意されたい。リダクション乗算命令のデータフローは、リダク
ション加算命令のものと同じである。

【００９４】リダクション加算およびリダクション乗算について上述したオペレーションは
、リダクション減算命令およびリダクション除算命令用に拡張可能であることが
理解される。これらのリダクション命令は、プロセッサによって実行される場合
、（本明細書中に記載の他の全ての命令と同様に）命令の任意の組み合わせまた
はシーケンスとして使用可能である。重大なことに、本明細書中に記載のリダク
ション計算は、２つのソース位置からのオペランドを組み合わせ、その結果を第
３の位置にロードする（図７Ａおよび７Ｂを参照）。従って、これらのソース位
置（例えば、レジスタ）のコンテンツは、リダクション計算が終了した後でも保
存され、その結果、その後のオペレーションに同じソースのデータを用いること
が可能になるという柔軟性を与えられる（これにより、その後に命令によって同
じソースデータが必要になった場合にメモリからそのソースデータを再ロードす
るという非効率な事態を回避することが可能となる）。

【００９５】当業者にとって明らかであるように、別の実施形態において、クワッド−シン
グルデータフォーマットは、以下に述べる浮動小数点命令（例えば、ＲＥＣＩＰ
１、ＲＥＣＩＰ２、ＲＳＱＲＴ１、ＲＳＱＲＴ２、ＣＡＢＳ、ＣＶＴ．ｘｘ．ｘ
ｘ）のいずれとも使用可能である。このようなデータフォーマットは典型的には
、各々が３２−ビット幅のデータ経路を有する４つの並列型処理パイプラインを
用いるシステムアーキテクチャと共に使用される。これらの命令は、１２８−ビ
ット幅のレジスタ用にフォーマットされ得、その結果、現在の命令フォーマット
中のオペランドフィールド数は同じままとなる（例えば、所与の命令についてｆ
ｓおよびｆｔは同じままである）。あるいは、これらの命令は、さらなる３２−
ビット幅のレジスタ用にフォーマットされ得、その結果、新規オペランドフィー
ルドが、現在の命令フォーマットに加算される。これらの命令用のデータフォー
マットはもちろん、より幅広のフォーマット（例えば、オクタル−シングル、処
理２５６−ビット幅のデータ等）および異なるフォーマットのタイプ（例えば、
ペアード−ダブル、クワッド−ダブル等）用にさらに拡張可能であり、これによ
り、サポーティングハードウェアに適応可能である。

【００９６】（ＲＥＣＩＰ１およびＲＥＣＩＰ２）図６Ｃおよび図６Ｄを参照して、ＲＥＣＩＰ１６０３は、シード命令として
、浮動少数点値のリダクション精度逆数を生成するために使用される。ＲＥＣＩ
Ｐ２６０４はリダクション精度結果に関して繰り返され、全精度逆数値を得る
。いくつかのアプリケーションにおいて、ＲＥＣＩＰ１６０３のリダクション
精度は十分で、ＲＥＣＩＰ２６０４は使用されない。他のアプリケーションに
おいて、例えば、より大きな精度が望まれる場合、ＲＥＣＩＰ２６０４も使用
され得る。

【００９７】図６Ｃを参照して、ＲＥＣＩＰ１６０３は、ＦＰ値のリダクション精度逆数
を生成する。つまり、ＲＥＣＩＰ１６０３は、１つのデータエレメントのイン
デックスを記憶部から取り込み、このデータ値の逆数を見つける。逆数は種々の
方法で得られることが可能で、本実施形態において、逆数はルックアップ表から
得られる。ルックアップ表の使用は、データ値の逆数の計算を高速化し、次いで
、ジオメトリエンジンの全体性能を向上させる。次いで、命令の宛先インデック
スに指定される記憶素子に結果を格納する。逆数は、入力データフォーマットに
関するリダクション精度である。この演算の計算正確度は、実施に依存する。

【００９８】より詳細には、ＲＥＣＩＰ１６０３は、表ルックアップ、オペランド変更、
および乗算を必要とする改良区分線形近似を使用する。この近似は、次の式によ
り、数学的に表現され得る。つまり、

【００９９】

【数１】この式において、Ａ１’は、ルックアップ表（この表は多数の係数を保持する）
から得られる所定の係数であり、Ｂ’、入力オペランドＢの変更バージョンであ
る。好適な実施形態に従って、ＦＰＵ２７０（図２Ｃ）は、１７ビットの係数Ａ１’を生成する６４ワードのルックアップ表を含む。上式に示すように、この
係数は入力オペランドの変更バージョンにより乗算され、この実施形態では、約
１４ビットの正確さでリダクション精度結果である初期近似を生成する。この乗
算は、ＦＰＵ２７０の浮動小数点乗算器２８３および浮動小数点加算器２８４（
図２Ｃ）の多段階のパイプラインで計算される。

【０１００】種々の大きさのルックアップ表が使用され得ることが、当業者に対して明らか
である。例えば、１２８ワードのルックアップ表はＲＥＣＩＰ１に対して使用さ
れ得、約１５ビットの正確さでリダクション精度結果を生成し得る。

【０１０１】本実施形態において、ＲＥＣＩＰ１についてのルックアップ表、および入力オ
ペランドは、Ｍ．Ｉｔｏ，Ｎ．Ｔａｋａｇｉ，およびＳ．Ｙａｊｉｍａ，「Ｅｆ
ｆｉｃｉｅｎｔＩｎｉｔｉａｌＡｐｐｒｏｘｉｍａｔｉｏｎｆｏｒＭｕ
ｌｔｉｐｌｉｃａｔｉｖｅＤｉｖｉｓｉｏｎａｎｄＳｑｕａｒｅＲｏｏ
ｔｂｙａＭｕｌｔｉｐｌｉｃａｔｉｏｎｗｉｔｈＯｐｅｒａｎｄＭ
ｏｄｉｆｉｃａｔｉｏｎ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍ
ｐｕｔｅｒｓ，Ｖｏｌ．４６，Ｎｏ４，ｐｐ．４９５〜４９８，Ａｐｒｉｌ１
９９７に述べられた逆数近似方法を利用する。この参照方法によれば、ルックア
ップ表に含まれる係数（Ａ１’）、および変更入力オペランド（Ｂ’）は、次の
式によりそれぞれ規定される。

【０１０２】

【数２】先に示すように、Ｂ’はそのｎ−ｍ最下位ビットを反転することにより、Ｂか
ら得られる。Ａ１’は、Ｐ＝［１．ｂ₁，ｂ₂，．．．ｂ_m］のように、Ｂの最上
位区分ビット上の表ルックアップにより得られる。Ｂの最下位ビットはテーブル
ルックアップが実行されている間、反転され得る。および、上記のように、１／
Ｂは、Ａ１’をＢ’で乗算することにより、近似される。好適な実施形態におい
て、Ｂは２３ビットの仮数を含む。この仮数の６つの最上位ビット（ＭＳＢ）は
、上述の６４ワードのルックアップ表にアクセスするために使用される。残り１
７ビットを反転し、６つのＭＳＢと連結してＢ’を形成する。Ｂ’は、ルックア
ップ表からアクセスされる係数（Ａ１’）を用いて乗算され、ＲＥＣＩＰ１６
０３に従ってリダクション精度逆数を生成する。

【０１０３】好適な実施形態において、ＲＥＣＩＰ１６０３は、ペアードシングルデータ
フォーマットで、演算するように設計される。しかしながら、他の実施形態にお
いて、単または倍ＦＰフォーマットのような他のフォーマットが使用され得るこ
とが認識される。倍ＦＰフォーマットは、単ＦＰフォーマットとしてビット数を
２倍使用し、従って、データを格納および操作する場合、より多くの精度のビッ
トを得るために使用される。従って、倍ＦＰフォーマットを使用して演算し得る
演算は、データのより高い精度を保存する。

【０１０４】ペアードシングルフォーマットにおいて、第２のルックアップ表が、標準ＳＩ
ＭＤアーキテクチャに従い、（第１のルックアップ表と並列に演算して）好適に
使用される。例えば、図２Ｅを参照して、６４ワードのルックアップ表２９０お
よび２９１が、並列に演算していることが示される。前述の内容に従って、（ペ
アードシングルデータフォーマット中における）６ビットの入力オペランド「ａ
」および「ｂ」を使用して、係数ＣａおよびＣｂをそれぞれ同時に生成するため
に、これらの表にアクセスする。ほぼ同じ時間において、各入力値の２３ビット
仮数が、従来の論理ブロック２９２および２９３に提供され、（Ｂ１’と共に上
記で述べられたように）変更入力オペランドａ’およびｂ’をそれぞれ生成する
。これらの値は、乗算器２９４および２９５において、それぞれ係数Ｃａおよび
Ｃｂと乗算され、見積もり値ＥａおよびＥｂを生成する。

【０１０５】あるいは、ＲＥＣＩＰ１６０３演算は、１つのルックアップ表を使用し、二
度（各ベクトルまたはオペランドに対して一度）実行され、ペアードシングルデ
ータタイプを収容する。このような演算において、ＲＥＣＩＰ１は、ＰＳデータ
タイプ（すなわち、ＲＥＣＩＰ１．ＰＳ）としてまた構成され得る。つまり、デ
ータを変換すること、および単精度への命令フォーマットを変更する必要がない
。この状況において、ルックアップは、上半分および下半分のオペランドについ
て、連続的に実行される。

【０１０６】ペアードシングルフォーマットが、ＲＥＣＩＰ１６０３を用い、単浮動小数
点フォーマットで（例えば、第２のルックアップ表を用いないプロセッサ中で）
演算をを処理される場合、フォーマット変換が、（例えば、以下で記述する命令
ＣＶＴ．ＰＳ．Ｓを使用して）必要である。この演算の例は以下で提供される。
従って、ＲＥＣＩＰ１６０３が、ペアードシングルフォーマット上で実行され
る場合、ペアードシングルの単フォーマットへの変換は回避され得る。

【０１０７】ＲＥＣＩＰ１６０３は、以下のように表現される。

【０１０８】ｆｄ≦１．０／ｆｓ；ここで、用語は以下のように規定する。この命令は、入力データ値を浮動小数
点レジスタｆｓで特定する。このｆｓのコンテンツは読み込まれ、この値のリダ
クション精度逆数が得られる、そしてこの結果は、宛先浮動小数点レジスタｆｄ
に入力される。ＲＥＣＩＰ１６０３命令を記述する演算のシーケンスは、以下
の通りである。

【０１０９】ＲｅａｄＥＲＰ［ｆｓ］ＦｉｎｄＲｅｃｉｐｒｏｃａｌＳｔｏｒｅｒｅｓｕｌｔｉｎＥＰＲ［ｆｄ］図６Ｄを参照して、ＲＥＣＩＰ２６０４は、全精度の逆数ＦＰ値を生成する
ための命令シーケンス中の第２の工程である。この演算および結果は、単、倍、
またはペアードシングルフォーマット中で演算するように設計される。ＲＥＣＩ
Ｐ２６０４はＲＥＣＩＰ１６０３の結果を取得し、全精度逆数ＦＰ値に対し
て（好適に、ニュートンラプソン法を用いて）繰り返される。この演算の数学的
正確度は、実施に依存する。（ニュートンラプソン法は、式の根を見つける暗探
方法である。浮動小数点逆数値および平方根値を計算する際のこの方法の使用は
周知である。

【０１１０】ＲＥＣＩＰ２６０４は以下のように表現される。

【０１１１】ｆｄ≦（ｉｔｅｒａｔｅ）ｆｓａｎｄｆｔ．この命令は、浮動小数点レジスタｆｓおよびｆｔの入力データ値を特定する。
以下に記述するように、ＲＥＣＩＰ２６０４は、ＭＡＤＤ８０１と組み合わ
せて使用され、入力データの全精度逆数を達成するために（ニュートンラプソン
法に従い）繰り返し計算を行う。さらなる詳細を、以下で提供される例示的命令
シーケンスに提供する。

【０１１２】本実施形態において、ＲＥＣＩＰ２６０４は、公知のＮＭＳＵＢ命令の改良
として、インプリメントされる。ＮＭＳＵＢ命令は以下のように表現される。

【０１１３】ｆｄ≦−（（ｆｓ × ｆｔ）−ｆｒ），この式でｆｄは宛先レジスタを指定し、ｆｓ、ｆｔ、およびｆｒは、その内容が
演算に対する入力データとして使用される浮動小数点レジスタのセットのレジス
タを指定する。本発明の本実施形態において、ｆｒオペランドは、一定値１．０
で固定される。従って、ｆｒが１．０で固定される場合、値１．０を（ｆｓ ×
ｆｔ）から引く。従って、本発明によれば、変数およびその関連レジスタ位置
は削除される。従って、以前は、値をｆｒから取り出すことに必要とされていた
処理工程も削除され、これらにより、レジスタを削除するか、または自由にする
。

【０１１４】さらに、以下のように、計算精度はまた、改良され得る。

【０１１５】つまり、「ｂ」を、逆数が近似される値にし、そして「ｘ_i」を、ＲＥＣＩＰ
１６０３を使用して決定されるリダクション精度値にする。その時、ｘ_i+1＝ｘ_i＊（２−ｂ_iｘ_i）（１）（ｂの逆数値を近似するためのニュートンラプソンアルゴリズム）＝ｘ_i＊（１−ｂｘ_i）＋ｘ_i（２）（ＲＥＣＩＰ２およびＭＡＤＤにより為されるニュートンラプソンアルゴリズム）式（１）は、頻繁に１．０に接近する（例えば１．００００．．．ｎｎｎｎ．
．．、ここでｎｎｎｎが修正調整であり、対象の数である）項「（２−ｂｘ_i）
」になる。このフォマットは精度の損失になり得る。対照的に、式（２）におい
て、「項（１−ｂｘ_i）」は、（ＲＥＣＩＰ２６０４）を使用し、はじめに決
定される。ＲＥＣＩＰ２６０４において１．０を減算することで、結果数は、
典型的に非常に小さく、（ｎ．ｎｎｎとして）正規化され得、より大きな精度を
達成する。従って、続く計算はより正確であり、非正規化は回避され得る。この
技術は、同時継続出願に、さらに記載されている。（代理人整理番号．１７７８
．００８００００）。

【０１１６】好適な実施形態において、ＲＥＣＩＰ２６０４は、ペアードシングルフォー
マットについて以下に提供される例示的命令シーケンスを使用することにより、
全精度逆数結果を得る手段を提供する。しかしながら、他の実施形態において、
単または倍浮動小数点フォーマットのような他のデータフォーマットが使用され
得る。

【０１１７】１つまたは２つのニュートンラプソン反復は、シード近似を改良するために使
用され、それぞれ単精度および倍精度の結果を生成する。これらの演算は、ＦＰ
Ｕ２７０の浮動小数点乗算器２８３および浮動小数点加算器２８４のパイプライ
ンにおいて実行される（図２Ｃ）。

【０１１８】ＲＥＣＩＰ１６０３およびＲＥＣＩＰ２６０４は、クアッド（ｑｕａｄ）
のシングルまたはオクト（ｏｃｔ）のシングルのような、ペアードシングルフォ
ーマット以外のデータセットフォーマットを用いて使用され得ることが認識され
る。つまり、このインプリメンテーションにおいて、さらなるルックアップ表が
、ＲＥＣＩＰ１６０３演算に使用され得るか、または、ＲＥＣＩＰ１６０３
が単のルックアップ表を用いて繰り返され得る。例えばクワッド単データフォー
マットで、４つのルックアップ表が使用され得るか、またはＲＥＣＩＰ１６０
３演算が、１つのルックアップ表を使用して４回実行され得る。

【０１１９】以下の記述から理解されるように、本発明に従うＲＥＣＩＰ１６０３および
ＲＥＣＩＰ２６０４のペアードシングルフォーマットの使用は、１以上の変換
命令を除去することにより必要とされる命令数を減少させ、さもなければ、ＲＥ
ＣＩＰ１／ＲＥＣＩＰ２演算の前かまたはその間に要求される命令数を減少させ
る。例えば、グラフィックパイプラインの他の演算は、ペアードシングルフォー
マットを用いて実行され、そして、結果をこれらの演算から変換し、ＲＲＥＣＩ
Ｐ１／ＲＥＣＩＰ２演算についてＲＥＣＩＰ１６０３およびＲＥＣＩＰ２６０
４を使用する必要がなくなる。

【０１２０】以下の例において、３つのフィールド、つまり、実行されるべき演算を表すニ
ーモニック、宛先（または出力）レジスタ、および入力レジスタのセットを使用
して、命令を特定する。例えば、この命令において、ＭＡＤＤｆ３，ｆ２，ｆ１，ｆ０ここでＭＡＤＤはニーモニック、ｆ３は出力レジスタ、およびｆ２、ｆ１、ｆ０
は入力レジスタである。特定される入力レジスタ数が、演算に依存することを留
意するべきである。

【０１２１】図６Ｃおよび６Ｄを参照して、単ｆｄフォーマット（フォーマットＳ）に対す
る例示的命令シーケンスを以下に提供する。この例は単ＦＰバージョンのＲＥＣ
ＩＰ１６０３、ＲＥＣＩＰ２６０４、およびＭＡＤＤ８０１（図８）の使
用を示し、単ＦＰ値の単ＦＰ逆数を生成する。値「ｂ」を、レジスタｆ０中にあ
ると仮定する。ＲＥＣＩＰ１６０３は、１２８ワードのルックアップ表を使用
し、約１５ビットの正確さでリダクション精度結果を生成する。以下に示す例示
的命令シーケンスの終端で、レジスタｆ３は、全精度２４ビット逆数１／ｂを含
む。（以下の命令シーケンスにおいて、ｆ０、ｆ１、ｆ２、およびｆ３は浮動小
数点レジスタＦＲＰと呼ぶ。）ＲＥＣＩＰ１、ＲＥＣＩＰ２、およびＭＡＤＤに
ついての命令フォーマットは、図６Ｃ、６Ｄ、および８中で、それぞれ提供され
る。

【０１２２】ＲＥＣＩＰ１．Ｓｆ１，ｆ０［約１５ビットの１／ｂ］ＲＥＣＩＰ２．Ｓｆ２，ｆ１，ｆ０［−（ｂ＊ｆ１−
１．０）］ＭＡＤＤ．Ｓｆ３，ｆ１，ｆ１，ｆ２［２４ビット１／ｂ］代替の単精度の実施形態において、６４ワードのルックアップ表は、（ＲＥＣ
ＩＰ．Ｓを使用して）約１４ビットの正確さでリダクション精度逆数値を生成す
ることに使用される。値の正確度は、ＲＥＣＩＰ２．ＳおよびＭＡＤＤ．Ｓを実
行後、２４ビットに増加する。

【０１２３】倍ＦＰフォーマット（フォーマットＤ）に対する例示的命令シーケンスを以下
に提供する。この例は倍ＦＰバージョンのＲＥＣＩＰ１６０３、ＲＥＣＩＰ２６０４、およびＭＡＤＤ８０１の使用を示し、倍ＦＰ値の倍ＦＰ逆数を生成す
る。値「ｂ」を、レジスタｆ０中にあると仮定する。ＲＥＣＩＰ６０３は、約
１５ビットの正確さで１２８ワードのルックアップ表を使用する。本実施形態に
おいて、以下の命令シーケンスは、倍ＦＰフォーマットを使用し全精度の５３ビ
ットの結果を生成する。（以下の例示的命令シーケンス、ｆ４およびｆ５をＦＰ
Ｒと呼ぶ。）ＲＥＣＩＰ１．Ｄｆ１，ｆ０［約１５ビットの
１／ｂ］ＲＥＣＩＰ２．Ｄｆ２，ｆ１，ｆ０［−（ｂ＊ｆ１−
１．０）］ＭＡＤＤ．Ｄｆ３，ｆ１，ｆ１，ｆ２［約２９ビットの
１／ｂ］ＲＥＣＩＰ２．Ｄｆ４，ｆ３，ｆ０［−（ｂ＊ｆ３−
１．０）］ＭＡＤＤ．Ｄｆ５，ｆ３，ｆ３，ｆ４［５３ビットの１
／ｂ］代替の倍精度の実施形態において、６４ワードのルックアップ表は、（ＲＥＣ
ＩＰ１．Ｄを使用して）約１４ビットの正確さでリダクション精度逆数値を生成
することに使用される。値の正確度は、ＲＥＣＩＰ２．ＤおよびＭＡＤＤ．Ｄを
実行後、約２７ビットに増加する。最後に、ＲＥＣＩＰ２．ＤおよびＭＡＤＤ．
Ｄの第２パスの後、正確度を全精度５３ビットの結果に増加させる。

【０１２４】ＲＥＣＩＰ１６０３、ＲＥＣＩＰ２６０４、およびＭＡＤＤ８０１に対
するペアードシングルフォーマット（フォーマットＰＳ）を使用する例示的命令
シーケンスを、以下に提供する。この例は、ペアードシングルＦＰバージョンの
ＲＥＣＩＰ１、ＲＥＣＩＰ２、おおびＭＡＤＤの使用を示し、ペアードシングル
ＦＰ値の全精度ペアードシングルＦＰ逆数を生成する。この実施形態において、
基礎をなすハードウェアは、同時に両リダクション精度演算を処理するための従
来のＳＩＭＤアーキテクチャを構成する２つの１２８ワードのルックアップ表（
ＲＥＣＩＰ１．ＰＳについて）を備える。代替の実施形態において、リダクショ
ン精度演算は、１つのルックアップ表を使用して、順次処理され得る。値「ａ」
および値「ｂ」は、レジスタｆ０中のペアードシングルフォーマットの２つの単
ＦＰ値を仮定する。

【０１２５】ＲＥＣＩＰ１．ＰＳｆ１，ｆ０［約１５ビットの
１／ａおよび１／ｂ］ＲＥＣＩＰ２．ＰＳｆ２，ｆ１，ｆ０［−（ａ＊ｆ１−
１．０）および−（ｂ＊ｆ１−１．０）］ＭＡＤＤ．ＰＳｆ３，ｆ１，ｆ１，ｆ２［２４ビットの１
／ａおよび１／ｂ］ＲＥＣＩＰ１６０３に対する単ＦＰフォーマット、およびＲＥＣＩＰ２６
０４ならびにＭＡＤＤ８０１に対するペアードシングルフォーマットを使用す
る例示的命令シーケンスを、以下に提供する。この例は単ＦＰバージョンのＲＥ
ＣＩＰ１ならびにペアードシングルＦＰバージョンのＲＥＣＩＰ２およびＭＡＤ
Ｄの使用を示し、２つの単ＦＰ値のペアードシングルＦＰ逆数を生成する。値「
ａ」および値「ｂ」は、それぞれレジスタｆ０およびｆ１中の２つの単ＦＰ値で
あることを仮定する。（以下の命令シーケンスにおいて、ｆ６およびｆ７をＦＰ
Ｒと呼ぶ。）ＲＥＣＩＰ１．Ｓｆ２，ｆ０［ｆ２はリダクシ
ョン精度１／ａを得る］ＲＥＣＩＰ１．Ｓｆ３，ｆ１［ｆ３はリダクシ
ョン精度１／ｂを得る］ＣＶＴ．ＰＳ．Ｓｆ４，ｆ１，ｆ０［ｆ４はＰＳ値ｂ
｜ａを保持する］ＣＶＴ．ＰＳ．Ｓｆ５，ｆ３，ｆ２［ｆ５はＰＳシー
ド１／ｂ｜１／ａを保持する］ＲＥＣＩＰ２．ＰＳｆ６，ｆ５，ｆ４［ｆ６は中間体１
／ｂ｜１／ａを保持する］ＭＡＳＳ．ＰＳｆ７，ｆ５，ｆ５，ｆ６［ｆ７は全精度Ｐ
Ｓ１／ｂ｜１／ａを保持する］図１０を参照して、本実施形態において、命令ＣＶＴ．ＰＳ．Ｓ１００１は
、２つの単精度値を、ペアードシングル値に変換する。ＣＶＴ．ＰＳ．Ｓ１０
０１は、以下で示される。

【０１２６】

【数３】この式で、各項は上記で規定されている。この命令は、ＦＰＲｆｓおよびｆｔ
の単精度値を、ペアードシングル値としてＦＰＲｆｄ中に書き込む。ＦＰＲ
ｆｓの値は、上半分に書き込まれ、ＦＰＲｆｔの値は下半分に書き込まれる。

【０１２７】（ＲＳＱＲＴ１およびＲＳＱＲＴ２）図６Ｅおよび図６Ｆを参照して、ＲＳＱＲＴ１６０５はシード命令として使
用され、浮動小数点値のリダクション精度逆数平方根を生成する。ＲＳＱＲＴ２
６０６は、リダクション精度結果上でくりかえされ、全精度逆数平方根値を得
る。いくつかのアプリケーションにおいて、ＲＳＱＲＴ１６０５のリダクショ
ン精度は十分であり、ＲＳＱＲＴ２６０６は使用されない。他のアプリケーシ
ョンにおいて、例えば、より大きな精度が望まれる場合、ＲＳＱＲＴ２６０６
も使用され得る。

【０１２８】図６Ｅを参照して、ＲＳＱＲＴ１６０５は、ＦＰ値の平方根のリダクション
精度逆数を生成する。つまり、ＲＳＱＲＴ１６０５は、１つのデータエレメン
トのインデックスを記憶部から取り込み、特定データ値の平方根の逆数を見つけ
る。逆数平方根は、種々の方法で得られ得、本実施形態において逆数平方根は、
ルックアップ表から得られる。ルックアップ表の使用は、データ値の逆数平方根
の計算を加速し、ついで、ジオメトリエンジンの全性能を向上させる。従って、
命令の宛先インデックスで特定される記憶素子中に、結果を格納する。逆数平方
根は、入力データフォーマットに関するリダクション精度である。この演算の数
学的正確度は、実施に依存する。

【０１２９】より詳細には、ＲＳＱＲＴ１６０５（ＲＥＣＩＰ１と同様）は、表ルック
アップ、オペランド変更、および乗算を必要とする改良区分線形近似を使用する
。この近似は以下の式により数学的に表現され得る。

【０１３０】

【数４】この式でＣ１’は、（複数の係数を保持する）ルックアップ表から得られる所定
の係数であり、「Ｂ”」は入力オペランドＢの変更バージョンである。好適な実
施形態に従い、ＦＰＵ２７０（図２Ｃ）は１７ビット係数Ｃ１’を生成する６４
ワードのルックアップ表を備える。上式中で示されるように、この係数は、入力
オペランドの変更されたバージョン（「Ｂ”」）により乗算され、この実施形態
において約１４ビットの正確さでリダクション精度結果である初期近似を生成す
る。この乗算は、ＦＰＵ２７０において計算される（図２Ｃ）。

【０１３１】種々の大きさのルックアップ表が使用され得ることが、当業者に明らかである
。例えば、１２８ワードのルックアップ表はＲＳＱＲＴ１について使用され、約
１５ビットの正確さでリダクション精度結果を生成し得る。

【０１３２】本実施形態において、ＲＳＱＲＴ１についてのルックアップ表、および入力オ
ペランドは、Ｍ．Ｉｔｏ，Ｎ．Ｔａｋａｇｉ，およびＳ．Ｙａｊｉｍａ，「Ｅｆ
ｆｉｃｉｅｎｔＩｎｉｔｉａｌＡｐｐｒｏｘｉｍａｔｉｏｎｆｏｒＭｕ
ｌｔｉｐｌｉｃａｔｉｖｅＤｉｖｉｓｉｏｎａｎｄＳｑｕａｒｅＲｏｏ
ｔｂｙａＭｕｌｔｉｐｌｉｃａｔｉｏｎｗｉｔｈＯｐｅｒａｎｄＭ
ｏｄｉｆｉｃａｔｉｏｎ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍ
ｐｕｔｅｒｓ，Ｖｏｌ．４６，Ｎｏ．４，ｐｐ．４９５〜４９８，Ａｐｒｉｌ
１９９７に述べられた逆数近似方法を利用する。この参照方法によれば、ルック
アップ表に含まれる係数、および変更入力オペランドは、次の式によりそれぞれ
規定される。

【０１３３】

【数５】この式でＵ＝［１，ｂ₁，ｂ₂，．．．ｂ_m-1］である。Ｃ１’は、Ｂのｍ−１最
上位区分ビット上のｍビットの表ルックアップおよび最下位指数ビットｅ₀によ
り得られる。ｅ₀＝１の場合、Ｃ１’は、表の中で丸め込みおよび格納する前に
、（２）^-0.5により乗算されるべきである。Ｂ”は、Ｂのｎ−ｍ最下位ビットを
反転し、およびＢのビットのいくらかを再配列することにより、Ｂから得られる
。好適な実施形態において、Ｂは２３ビットの仮数を含む。この仮数の５つの最
上位ビット（ＭＳＢ）および対応する指数の最下位ビットは、上述の６４ワード
のルックアップ表にアクセスするために使用される。残り１８ビットを反転し、
５つのＭＳＢと連結してＢ”を形成する。Ｂ”は、ルックアップ表からアクセス
される係数（Ｃ１’）と乗算され、ＲＳＱＲＴ１６０５に従ってリダクション
精度逆数平方根を生成する。

【０１３４】好適な実施形態において、ＲＳＱＲＴ１６０５は、ペアードシングルフォー
マットで、演算するように設計される、しかしながら、他の実施形態において、
単または倍ＦＰフォーマットのような他のフォーマットが使用され得ることが認
識される。ペアードシングルフォーマットにおいて、第２のルックアップ表が、
標準ＳＩＭＤアーキテクチャに従い、（第１のルックアップ表と並列に演算して
）好適に使用される。図２Ｅの並列ルックアップ表（および以上で提供される議
論）は、ペアードシングルフォーマットのＲＳＱＲＴ１演算に同様に適用する。
しかしながら、各演算（すなわち、ＲＥＣＩＰ１およびＲＳＱＲＴ１）に関連す
る式によって要求されるように、（表からアクセスされる）係数の実際の値、お
よび（従来の論理ブロックにより生成される）変更されたオペランド値は、各動
作について異なり得る。

【０１３５】あるいは、ＲＳＱＲＴ１６０５演算は、（各ベクトルまたはオペランドにつ
いて一度）１つのルックアップ表を使用して、二度実行され得、ペアードシング
ルデータタイプを収容する。このような演算（ＲＥＣＩＰ１と同様）において、
ＲＳＱＲＴ１は、ＰＳデータタイプ（すなわち、ＲＳＱＲＴ１．ＰＳ）としてま
た構成され得る。つまり、データを変換すること、および単精度への命令フォー
マットを変更する必要がない。この状況において、ルックアップは、上半分およ
び下半分のオペランドについて、連続的に実行される。

【０１３６】ペアードシングルフォーマットが、単浮動小数点フォーマットで（例えば、第
２のルックアップ表を用いないプロセッサで）演算するＲＳＱＲＴ１６０５命
令で、処理される場合、フォーマット変換が、（例えば、以下で記述する命令Ｃ
ＶＴ．ＰＳ．Ｓを使用して）必要である。この演算の例は以下で提供される。従
って、ＲＥＣＩＰ１６０３と同様に、ＲＳＱＲＴ１６０５が、ペアードシン
グルフォーマット上で実行される場合、ペアードシングルの単フォーマットへの
変換は回避される。

【０１３７】ＲＳＱＲＴ１６０５は以下のように表される。

【０１３８】ｆｄ≦１．０／ｓｑｒｔ（ｆｓ）この命令は、浮動小数点レジスタｆｓの入力データ値を特定する。ｆｓのコン
テンツは読み込まれ、この値のリダクション精度逆数平行根が得られ、その結果
が宛先浮動小数点レジスタｆｄに入力される。ＲＳＱＲＴ１６０５命令を記述
する演算のシーケンスは、以下のようになる。

【０１３９】ＲｅａｄＦＰＲ［ｆｓ］ＦｉｎｄＲｅｃｉｐｒｏｃａｌＳｑｕａｒｅＲｏｏｔＳｔｏｒｅｒｅｓｕｌｔｉｎＦＰＲ［ｆｄ］図６Ｆを参照して、ＲＳＱＲＴ２６０６は、全精度逆数平方根ＦＰ値を生成
するための命令シーケンス中の第２の工程である。この演算および結果は、単、
倍、またはペアードシングルフォーマット中で演算するように設計される。ＲＳ
ＱＲＴ２６０６はＲＳＱＲＴ１６０５の結果を取得し、全精度逆数平方根Ｆ
Ｐ値に対して（好適には、ニュートンラプソン法を用いて）繰り返される。さら
なる詳細が、以下に提供される例示的命令シーケンスで提供される。この演算の
数学的正確度は、実施に依存する。

【０１４０】ＲＳＱＲＴ２６０６は、以下のように表される。

【０１４１】ｆｄ≦（ｉｔｅｒａｔｅ）ｆｓａｎｄｆｔこの命令は、浮動小数点レジスタｆｓおよびｆｔの入力データ値を特定する。
以下に記述するように、この命令は、ＭＵＬ９０１およびＭＡＤＤ８０１を
組み合わせて使用され、全精度逆数平方根を達成するために（ニュートンラプソ
ン法に従い）繰り返し計算を行う。さらなる詳細を、以下で提供される例示的命
令シーケンスに提供する。

【０１４２】本実施形態において、ＲＳＱＲＴ２６０６は、公知のＮＭＳＵＢ命令を２で
割る改良として、インプリメントされる。ＮＭＳＵＢ命令は以下のように表現さ
れる。

【０１４３】ｆｄ≦−（（ｆｓ × ｆｔ）−ｆｒ）この式でｆｄは宛先レジスタを指定し、ｆｓ、ｆｔ、およびｆｒは、その内容が
演算についての入力データとして使用される浮動小数点レジスタのセットのレジ
スタを指定する。本発明の本実施形態において、ｆｒオペランドは、一定値１．
０で固定される。従って、ｆｒが１．０として固定される場合、値１．０を（ｆ
ｓ × ｆｔ）から引く。従って、本発明によれば、変数およびその関連レジス
タ位置は削除される。従って、以前は、値をｆｒから取り出すのに必要とされて
いた処理工程も削除され、これらにより、レジスタを削除するか、または自由に
する。さらに、ＲＳＱＲＴ２６０６に従って、その量を２で割る。

【０１４４】本計算の精度が、以下のように改良され得る。

【０１４５】「ｂ」を、逆数平方根が近似される値にし、そして「ｘ_i」を、ＲＳＱＲＴ１６０５を使用して決定されるリダクション精度値にする。その時、ｘ_i-1＝（ｘ_i＊（３−ｂｘ_i ²））／２（３）（ｂの逆数平方根を近似するためのニュートンラプソンアルゴリズム）＝ｘ_i＊（（１−ｂｘ_i＊ｘ_i）／２）＋ｘ_i（４）（ＭＵＬ、ＲＳＱＲＴ２およびＭＡＤＤにより為されるニュートンラプソンアルゴリズム）式（３）は、項ｘ_i ²を有する。ｂが非常に大きな数である場合、ｘ_i ²は、初期
的に、非正規化数を生成する。対照的に、式（４）において、項「（１−ｂｘ_i
＊ｘ_i）／２」は、命令シーケンス中の（以下で述べる）ＲＳＱＲＴ２６０６
を使用して決定される。ここでｂは、まずｘ_iで乗算される。この演算のオーダ
は、量「ｂ＊ｘ_i」を十分標準な領域に引き戻し得、それにより、引き続くｘ_iで
の乗算は、非正規化を生成し得ない。この技術は、同時継続出願に、さらに記載
されている。（代理人整理番号．１７７８．００８００００）。この演算はＦＰ
Ｕ２７０の浮動小数点乗算器２８３および浮動小数点加算器２８４のパイプライ
ンで計算される（図２Ｃ）。

【０１４６】好適な実施形態において、ＲＳＱＲＴ２６０６は、ペアードシングルフォー
マットについて以下に提供される例示的命令シーケンスを使用することにより、
全精度逆数平方根の結果を得る手段を提供する。しかしながら、他の実施形態に
おいて、ＲＳＱＲＴ２６０６は、単ＦＰまたは倍ＦＰフォーマットのような他
のデータフォーマットを用いて使用され得ることが認識される。１つまたは２つ
のニュートンラプソン反復は、それぞれ単精度および倍精度の結果を生成するた
めのシード近似を改良するために使用される。

【０１４７】ＲＳＱＲＴ１６０５およびＲＳＱＲＴ２６０６は、クワッドシングルまた
はオクトのシングルのような、ペアードシングルフォーマット以外のデータセッ
トフォーマットを用いて使用され得る。つまり、このインプリメンテーションに
おいて、さらなるルックアップ表が、ＲＳＱＲＴ１６０５演算に使用され得る
か、またはＲＳＱＲＴ１６０５演算が、単のルックアップ表を用いて繰り返さ
れ得る。例えば、クワッドシングルデータフォーマットで、４つのルックアップ
表が使用され得るか、またはＲＳＱＲＴ１６０５演算が、１つのルックアップ
表を使用して４回実行され得る。

【０１４８】以下の記述から理解できるように、本発明に従うＲＳＱＲＴ１６０５および
ＲＳＱＲＴ２６０６のペアードシングルフォーマットの使用は、１以上の変換
命令を除去することにより必要とされる命令数、もしくはＲＳＱＲＴ１／ＲＳＱ
ＲＴ２演算の前かまたはその間で、要求される命令数を減少させる。例えば、グ
ラフィックパイプラインの他の演算は、ペアードシングルフォーマットを用いて
実行され得、そして、結果をこれらの演算から変換し、ＲＳＱＲＴ１／ＲＳＱＲ
Ｔ２演算についてＲＳＱＲＴ１６０５およびＲＳＱＲＴ２６０６を使用する
必要がなくなる。

【０１４９】図６Ｅおよび図６Ｆを参照して、単ＦＰフォーマット（フォーマットＳ）につ
いての例示的命令シーケンスを、以下に提供する。この例は、単ＦＰバージョン
のＲＳＱＲＴ１６０５、ＲＳＱＲＴ２６０６、ＭＡＤＤ８０１（図８）、
およびＭＵＬ９０１（図９）の使用を示し、単ＦＰ値の単ＦＰ逆数平方根を生
成する。値「ｂ」を、レジスタｆ０中にあると仮定する。ＲＳＱＲＴ１６０５
は、１２８ワードのルックアップ表を用いて、約１５ビットの正確さの減少精度
結果を生成する。以下に示す例示的命令シーケンスの終端で、レジスタｆ４は、
全精度２４ビット逆数１／ｂを含む。

【０１５０】ＲＳＱＲＴ１．Ｓｆ１，ｆ０［約１５ビットの１／ｓｑ
ｒｔ（ｂ）］ＭＵＬ．Ｓｆ２，ｆ１，ｆ０［ｆ１＊ｆ０］ＲＳＱＲＴ２．Ｓｆ３，ｆ２，ｆ１［−（ｆ１＊ｆ２
−１．０）／２］ＭＡＤＤ．Ｓｆ４，ｆ１，ｆ１，ｆ３［２４ビットの１
／ｓｑｒｔ（ｂ）］代替の単精度の実施形態において、６４ワードのルックアップ表は、（ＲＳＱ
ＲＴ１を使用して）約１４ビットの正確さでリダクション精度逆数平方根値を生
成することに使用される。値の正確度は、ＭＵＬ．Ｓ、ＲＳＱＲＴ２．Ｓおよび
ＭＡＤＤ．Ｓを実行後、２４ビットに増加する。

【０１５１】倍ＦＰフォーマット（フォーマットＤ）に対する例示的命令シーケンスを以下
に提供する。この例は倍ＦＰバージョンのＲＳＱＲＴ１６０５、ＲＳＱＲＴ２
６０６、ＭＡＤＤ８０１、およびＭＵＬ９０１の使用を示し、倍ＦＰ値の
倍ＦＰ逆数平方根を生成する。値「ｂ」を、レジスタｆ０中にあると仮定する。
ＲＳＱＲＴ１は、約１５ビットの正確さで１２８ワードのルックアップ表を使用
する。本実施形態において、以下の命令シーケンスは、倍ＦＰフォーマットを使
用し５３ビットの結果を生成する。

【０１５２】ＲＳＱＲＴ１．Ｄｆ１，ｆ０［約１５ビットの
１／ｓｑｒｔ（ｂ）］ＭＵＬ．Ｄｆ２，ｆ１，ｆ０［ｆ１＊ｆ０］ＲＳＱＲＴ２．Ｄｆ３，ｆ２，ｆ１［−（ｆ１＊ｆ２
−１．０）／２］ＭＡＤＤ．Ｄｆ４，ｆ１，ｆ１，ｆ３［約２９ビットの
１／ｓｑｒｔ（ｂ）］ＭＵＬ．Ｄｆ５，ｆ０，ｆ４［ｆ４＊ｆ０］ＲＳＱＲＴ２．Ｄｆ６，ｆ５，ｆ４［−（ｆ４＊ｆ５
−１．０）／２］ＭＡＤＤ．Ｄｆ７，ｆ４，ｆ４，ｆ６［５３ビットの１
／ｓｑｒｔ（ｂ）］代替の倍精度の実施形態において、６４ワードのルックアップ表は、（ＲＳＱ
ＲＴ１．Ｄを使用して）約１４ビットの正確さのリダクション精度逆数値を生成
することに使用される。値の正確度は、ＭＵＬ．Ｄ、ＲＳＱＲＴ２．ＤおよびＭ
ＡＤＤ．Ｄを実行後、約２７ビットに増加する。最後に、ＭＵＬ．Ｄ、ＲＳＱＲ
Ｔ２．ＤおよびＭＡＤＤ．Ｄの第２パスの後、正確度を全精度の５３ビットの結
果に増加させる。

【０１５３】ＲＳＱＲＴ１６０５、ＲＳＱＲＴ２６０６、ＭＡＤＤ８０１、およびＭ
ＵＬ９０１に対するペアードシングルフォーマット（フォーマットＰＳ）を使
用する例示的命令シーケンスを、以下に提供する。この例は、ペアードシングル
ＦＰバージョンのＲＳＱＲＴ１、ＲＳＱＲＴ２、ＭＡＤＤ、およびＭＵＬの使用
を示し、ペアードシングルＦＰ値の全精度ペアードシングルＦＰ逆数を生成する
。この実施形態において、基礎をなすハードウェアは、（ＲＳＱＲＴ１．ＰＳに
ついて）従来のＳＩＭＤアーキテクチャを構成する２つの１２８ワードのルック
アップ表を備え、同時に両リダクション精度演算を処理する。代替の実施形態に
おいて、リダクション精度演算は、１つのルックアップ表を使用して、順次処理
され得る。値「ａ」および値「ｂ」は、レジスタｆ０中のペアードシングルフォ
ーマットの２つの単ＦＰ値を仮定する。

【０１５４】ＲＳＱＲＴ１．ＰＳｆ１，ｆ０［約１５ビットの
１／ｓｑｒｔ（ａ）および１／ｓｑｒｔ（ｂ）］ＭＵＬ．ＰＳｆ２，ｆ１，ｆ０［ｆ０＊
ｆ１］ＲＳＱＲＴ２．ＰＳｆ３，ｆ２，ｆ１［−（ｆ１＊ｆ２
−１．０）／２）］ＭＡＤＤ．ＰＳｆ４，ｆ１，ｆ１，ｆ３［２４ビットの１
／ｓｑｒｔ（ａ）および１／ｓｑｒｔ（ｂ）］ＲＳＱＲＴ１６０５に対する単ＦＰフォーマット、およびＲＳＱＲＴ２６
０６、ＭＡＤＤ８０１、ならびにＭＵＬ９０１に対するペアードシングルフ
ォーマットを使用する例示的命令シーケンスを、以下に提供する。この例は単Ｆ
ＰバージョンのＲＳＱＲＴ１ならびにペアードシングルＦＰバージョンのＲＳＱ
ＲＴ２、ＭＡＤＤ、およびＭＵＬの使用を示し、２つの単ＦＰ値のペアードシン
グルＦＰ逆数を生成する。値「ａ」および値「ｂ」は、それぞれレジスタｆ０お
よびｆ１中の２つの単ＦＰ値であることを仮定する。

【０１５５】ＲＳＱＲＴ１．Ｓｆ２，ｆ０［ｆ２はリダクシ
ョン精度１／ｓｑｒｔ（ａ）を得る］ＲＳＱＲＴ１．Ｓｆ３，ｆ１［ｆ３はリダクシ
ョン精度１／ｓｑｒｔ（ｂ）を得る］ＣＶＴ．ＰＳ．Ｓｆ４，ｆ１，ｆ０［ｆ４はＰＳ値ｂ
｜ａを保持する］ＣＶＴ．ＰＳ．Ｓｆ５，ｆ３，ｆ２［ｆ５はＰＳシー
ド１／ｓｑｒｔ（ｂ）｜１／ｓｑｒｔ（ａ）を保持する］ＭＵＬ．ＰＳｆ６，ｆ５，ｆ４［ｆ６は中間体１
の結果を保持する］ＲＳＱＲＴ２．ＰＳｆ７，ｆ６，ｆ５［ｆ７は中間体２
の結果を保持する］ＭＡＤＤ．ＰＳｆ８，ｆ５，ｆ５，ｆ７［ｆ８は全精度Ｐ
Ｓ１／ｓｑｒｔ（ｂ）｜１／ｓｑｒｔ（ａ）を保持する］本発明の本実施形態に従って、ＡＤＤＲ、ＭＵＬＲ，ＲＥＣＩＰ１、ＲＥＣＩ
Ｐ２、ＲＳＱＲＴ１、およびＲＳＱＲＴ２命令は、ＡＳＥ３５０（図３）に加え
られる。この命令は、効果的に計算を実行する機能性をインプリメントし、この
計算は、ジオメトリ的変換、遠近分割、正規化、再正規化、およびコンピュータ
で生成したグラフィックデザイン中で使用される光計算を含む種々のアプリケー
ションで使用され得る。これらの命令は、汎用プロセッサ上で使用され得る。上
述したように、これらの命令は、ペアードシングルデータフォーマットおよび他
のデータフォーマットを用いて、使用され得る。結果的に、ＡＤＤＲ、ＭＵＬＲ
，ＲＥＣＩＰ１、ＲＥＣＩＰ２、ＲＳＱＲＴ１、およびＲＳＱＲＴ２命令は、１
以上の変換命令に関する処理工程を除去し、さもなければデータをあるフォーマ
ットから別のフォーマットに変換することを要求する。ＡＤＤＲおよびＭＵＬＲ
命令は、ＡＤＤＲおよびＭＵＬＲにより提供される同様の結果を達成するために
、以前必要とされていたペアードシングル値を演算する処理工程も除去する。

【０１５６】（ジオメトリＡＳＥ−比較およびフォーマットの変換命令）ここで図６Ｇ、６Ｈおよび６Ｉを参照する。これらの図はそれぞれ、本発明の
１つの実施形態に従うジオメトリＡＳＥ３５０内に含まれる３つの比較またはフ
ォーマット変換命令のうちの１つを示す。比較命令はＣＡＢＳ６０７として設計
され、フォーマット変換命令はＣＶＴ．ＰＷ．ＰＳ６０８およびＣＶＴ．ＰＳ．
ＰＷ６０９として、それぞれ設計される。これらの命令のそれぞれにおいて、オ
ペレーションコード（例えば、ＣＡＢＳのように指定された命令とともにＣＯＰ
１）は、実行される特定のアクションのプロセッサを命令するために用いられる
。各命令はまた、フィールド「ｆｓ」および「ｆｔ」内の入力データ（または入
力データの位置）、フィールド「ｆｄ」内の命令によって指定されるオペレーシ
ョンのアプリケーションの結果として生じるデータの宛先位置（ｄｅｓｔｉｎａ
ｔｉｏｎｌｏｃａｔｉｏｎ）を指定し、かつフィールド「ｆｍｔ；」フォーマ
ット内の入力データのフォーマットは、ペアードシングル（「ＰＳ」）、単精度
（「シングル」または「Ｓ」）、倍精度（「ダブル」または「Ｄ」）を含む。本
実施形態において、各命令は、３２ビット長である。図６Ｇ〜６Ｉは、種々のデ
ータフォーマットの例示的な命令フォーマットを提供する（各図における「フォ
ーマット」を参照のこと）。

【０１５７】（ＣＡＢＳ）図６Ｇを参照して、ＣＡＢＳ６０７（本明細書中、「比較」、「大きさ（ｍａ
ｇｎｉｔｕｄｅ）比較」または「絶対比較」命令と呼ぶ）は、浮動小数点（ＦＰ
）絶対値を比較するために、およびブール代数値（ｂｏｏｌｅａｎ）を記録する
ために用いられ、その結果、１つ以上の条件コード（ｃｏｎｄｉｔｉｏｎｃｏ
ｄｅ）となる。好適な実施形態において、ＣＡＢＳ６０７は、シングルクロック
サイクルで実行され、ペアードシングルフォーマットで動作するように設計され
る。しかしながら、他の実施形態において、他のデータフォーマット（例えば、
シングルまたはダブルＦＰフォーマット等）が使用され得ることが理解される。
ダブルＦＰフォーマットは、シングルＦＰフォーマットと２倍のビット数を使用
する。そのため、ダブルＦＰフォーマットは、データを格納し、操作する際によ
り多くのビットの精度を得るように使用される。従って、ダブルＦＰフォーマッ
トを使用して動作し得るオペレーションは、データのより高い精度を保つ。ペア
ードシングルフォーマットは、図５とともに上述されている。

【０１５８】図６Ｇを続けて参照すると、ＣＡＢＳ６０７は、命令によって指定された２つ
の入力値をとり、命令で指定された比較条件を用いてそれらの絶対値を比較する
。命令は、浮動小数点レジスタセットにおいて、そのコンテンツが、その動作に
対して入力データとして使用される２つの値、ｆｔとｆｓとを指定する。命令は
また、条件と「ｃｏｎｄ」フィールド６３０内部にある４ビット条件シーケンス
を比較する。本実施形態において、使用される比較条件および関連する条件シー
ケンス（すなわち、０〜１５）が、表２に列挙されている。他の比較条件が本発
明に従って使用され得ることがよく理解される。

【０１５９】

【表２】ＣＡＢＳ６０７は、ｆｓレジスタのデータ値の絶対値をｆｔレジスタのデータ
値の絶対値とどのように比較するのかをチェックする。サインを含む実際の値を
比較することに代わって、絶対値（すなわち、大きさ）を比較することにより、
本発明は、２分の１の比較数を減少し、その結果、処理速度の増加と釣り合う。
例えば、実行の代わりに、次の２つの比較を用いる。

【０１６０】ｘ’≦ｗ’ およびｘ’≧−ｗ’；本発明は、単一の比較；｜ｘ’｜≦｜ｗ’｜のみを実行する必要がある。

【０１６１】本実施形態において、比較の結果得られる条件コードは、命令において「ｃｃ
」フィールド６３５によって指定されるビット位置でＦＣＳＲ４１０（図４）（
または、代替的な実施形態において、専用の浮動小数点条件コードレジスタ、Ｆ
ＰＣＣＲ）に書き込まれる。

【０１６２】１つの実施形態において、シングルおよびダブルＦＰフォーマットは、ブール
代数演算結果の１ビットを生成し、シングル条件コードビットが書き込まれる。
ペアードシングルＦＰフォーマットは、２つの条件位置（ペアの各シングル値に
１つ）を生成し、２つの連続条件コードビットが書き込まれる。その場合におい
て、ｃｃフィールドの値は、２つの値に並べられる。

【０１６３】シングルフォーマット、ダブルフォーマット、ペアードシングルフォーマット
に対して、ＣＡＢＳ６０７は、それぞれ以下のように示される。

【０１６４】ｃｃ＜−｜ｆｓ．Ｓ｜ｃｏｍｐａｒｅ＿ｃｏｎｄ｜ｆｔ．Ｓ｜；ｃｃ＜−｜ｆｓ．Ｄ｜ｃｏｍｐａｒｅ＿ｃｏｎｄ｜ｆｔ．Ｄ｜；ｃｃ_n+1＜−｜ｆｓ．ＰＵ｜ｃｏｍｐａｒｅ＿ｃｏｎｄ｜ｆｔ．ＰＵ｜；
およびｃｃ_n＜−｜ｆｓ．ＰＬ｜ｃｏｍｐａｒｅ＿ｃｏｎｄ｜ｆｔ．ＰＬ｜シンボル「＜−」は、シンボルの右側の値がシンボルの左側に示された位置に
割り当てられることを示すのに使用され、「ＰＬ」は、ペアードシングルデータ
タイプフォーマットでより低位の値を示し、および、「ＰＵ」は、ペアードシン
グルデータタイプフォーマットでより高位の値を示す。「ｃｏｍｐａｒｅ＿ｃｏ
ｎｄ」によって指定される比較がオペランド値に対して真であるなら、その結果
は、真で（ロジック１により示される）あり、「ｃｏｍｐａｒｅ＿ｃｏｎｄ」に
よって指定される比較がオペランド値に対して偽であるなら、その結果は、偽で
（ロジック０により示される）ある。例外がない場合、その結果は、ＦＣＳＲ４
１０の条件コードフィールド（ｆｃｃ）の（命令によって指定された）ビット位
置（単数または複数）に書き込まれる。本実施形態において、偽はロジックゼロ
（０）により指定され、かつ、真はロジック１（１）により指定される。しかし
ながら、他の指定は、本発明による真および偽を指定するために使用され得るこ
とが理解される。

【０１６５】ＣＡＢＳ６０７命令を記述するオペレーションのシーケンスは、次のとおりで
ある。

【０１６６】ＲｅａｄＦＰＲ［ｆｓ］ＲｅａｄＦＰＲ［ｆｔ］ＡｂｓｏｌｕｔｅＣｏｍｐａｒｅ｜ＦＰＲ［ｆｓ］｜ｃｏｎｄ｜ＦＰ
Ｒ［ｆｔ］｜Ｗｒｉｔｅｃｏｎｄｉｔｉｏｎｉｎｄｉｃａｔｏｒ（ｓ）ｔｏＦ
ＣＣ［ｃｃ］ＣＡＢＳ６０７は、ペアードシングルフォーマットよりも他のデータセットフ
ォーマットとして使用され得ることが理解される。命令は、ペアードシングルフ
ォーマット（例えば、クアドシングルフォーマットまたはオクタルシングルフォ
ーマット）よりも他のフォーマットに対して拡張され得ることがさらによく理解
される。別の実施形態において、データセットフォーマットは、２以上の単精度
浮動小数点数を比較し得た。同様に、別の実施形態において、２以上のレジスタ
が使用され得る。例えば、データセットフォーマットは、４つの単精度浮動小数
点値を比較し得る。

【０１６７】ＣＡＢＳ６０７命令は、次の様式のＦＰＵ２７０の加算器（ａｄｄｅｒ）２８
４によって処理される。初めに、各オペランドのサインビットは、強制的に０に
される（例えば、論理的にＡＮＤ演算することにより、各サインビットは０値を
有する）。続いて、その結果として生じるオペランドが差し引かれ、その差が、
従来の比較オペレーションに従って処理される。ペアードシングルデータタイプ
（すなわち、ＣＡＢＳ．ＰＳ）を取り扱う場合、２つのペアードシングルオペラ
ンドは、加算器２８４の２つの単精度データパスを用いて並列に処理される。

【０１６８】（ＣＶＴ．ＰＷ．ＰＳ）ここで図６Ｈを参照して、ＣＶＴ．ＰＷ．ＰＳ６０８は、一組の固定小数点整
数に対するＦＰペアードシングル値を変換するために使用される。本実施形態に
おいて、固定小数点整数は、３２ビット長である。ＣＶＴ．ＰＷ．ＰＳ６０８は
、次のように表される。

【０１６９】ｆｄ．ＰＵ＜−ｃｏｎｖｅｒｔ＿ａｎｄ＿ｒｏｕｎｄ（ｆｓ．ＰＵ）；ｆｄ．ＰＬ＜−ｃｏｎｖｅｒｔ＿ａｎｄ＿ｒｏｕｎｄ（ｆｓ．ＰＬ）ＣＶＴ．ＰＷ．ＰＳ６０８は、一組の３２ビット固定小数点整数値に対するｆ
ｓのペアードシングルフォーマットにおける２つのＦＰ値を変換し、ＦＰレジス
タｆｄの高位３２ビットおよび低位３２ビットに対応する２つのＦＰ値を置く。
丸めは、ＦＣＳＲ（例えば、図４のＦＣＳＲ４１０）で指定される丸めモードに
従う。このような丸めモードは、当業者にとって周知である。

【０１７０】ＣＶＴ．ＰＷ．ＰＳ６０８は、ペアードシングルフォーマット（例えば、クア
ドシングルフォーマットまたはオクタルシングルフォーマット）より他のデータ
セットフォーマットに対して拡張され得ることが理解される。

【０１７１】ソース値が無限大、ＮａＮ（数字がない）、または−２³¹〜２^-31−１の範囲
外の整数に丸められる場合、その結果は、正確に表示され得ず、ＩＥＥＥ無効オ
ペレーションが存在する。その結果は、プロセッサ内のその時点でアクティブな
浮動小数点例外モデル（ｆｌｏａｔｉｎｇｐｏｉｎｔｅｘｃｅｐｔｉｏｎ
ｍｏｄｅｌ）に依存する。

【０１７２】別の実施形態において、データセットフォーマットは、２以上の単精度浮動小
数点数に置換され得た。例えば、データセットフォーマットは、２つのレジスタ
の内部にある４つの単精度浮動小数点値を含み得め。同様に、別の実施形態にお
いて、２以上のレジスタは、（各入力レジスタを指定するための）命令フォーマ
ットに対する変化に対応して使用され得る。

【０１７３】（ＣＶＴ．ＰＳ．ＰＷ）図６Ｉを参照して、ＣＶＴ．ＰＳ．ＰＷ６０９は、ＦＰペアードシングル値に
対する一組の固定小数点整数を変換するために使用される。本実施形態において
、固定小数点整数は、３２ビット長である。ＣＶＴ．ＰＳ．ＰＷ６０９は、次の
ように表される。

【０１７４】ｆｄ＜−ｃｏｎｖｅｒｔ＿ａｎｄ＿ｒｏｕｎｄ（ｆｓ_63..32）‖ｃｏｎｖ
ｅｒｔ＿ａｎｄ＿ｒｏｕｎｄ（ｆｓ_31..0）ここで、シンボル「‖」は、ビットストリング連結を示すために使用される。
ＣＶＴ．ＰＳ．ＰＷ６０９は、ペアードシングルフォーマットに対するｆｓの２
つの３２ビット固定小数点整数値を変換し、ＦＰレジスタｆｄにその結果を置く
。丸めは、ＦＣＳＲ４１０で指定される丸めモードに従う。上述されたように、
このような丸めモードは、当業者にとって周知である。

【０１７５】ＣＶＴ．ＰＳ．ＰＷ６０９は、ペアードシングルフォーマット（例えば、クア
ドシングルフォーマットまたはオクタルシングルフォーマット）より他のデータ
セットフォーマットに対して拡張され得ることが理解される。

【０１７６】別の実施形態において、データセットフォーマットは、２以上の単精度浮動小
数点数に置換され得る。例えば、データセットフォーマットは、２つのレジスタ
の内部にある４つの単精度浮動小数点値を比較し得る。同様に、別の実施形態に
おいて、２以上のレジスタは、（各入力レジスタを指定するための）命令フォー
マットに対する変化に対応して使用され得る。

【０１７７】本発明の本実施形態によれば、ＣＡＢＳ命令、ＣＶＴ．ＰＷ．ＰＳ命令、およ
びＣＶＴ．ＰＳ．ＰＷ命令は、ジオメトリＡＳＥ３５０に加えられる（図３）。
ＣＶＴ．ＰＷ．ＰＳ命令、およびＣＶＴ．ＰＳ．ＰＷ命令は、ペアードシングル
フォーマットで動作するように設計される。これらの命令は、固定少数点整数を
有するペアードシングルフォーマットの使用を可能にし、一組のオペランドに関
する２つの同時オペレーションを可能にし、それにより、ジオメトリエンジンの
性能を改善する。ＣＡＢＳ命令は、単精度データフォーマット、倍精度データフ
ォーマットおよびペアードシングルデータフォーマットを含む種々のデータフォ
ーマットについて使用され得る。この命令は、コンピュータで作成されたグラフ
ィックスデザインを含む種々のアプリケーションにおいて使用され得るオペレー
ションを効果的に実行する機能性をインプリメントする。特に、（３次元ジオメ
トリオペレーションにおいて使用される）クリッピングオペレーションは、ＣＡ
ＢＳ命令で加速され得る。

【０１７８】（ジオメトリＡＳＥ−条件付ブランチ命令）ここで、図６Ｊ、６Ｋ、６Ｌおよび６Ｍを参照する。これらの図はそれぞれ、
本発明の１つの実施形態に従うジオメトリＡＳＥ３５０内に含まれる４つの条件
付ブランチ命令のうちの１つを示す。条件付ブランチ命令は、ＢＣ１ＡＮＹ２Ｆ
６１０、ＢＣ１ＡＮＹ２Ｔ６１１、ＢＣ１ＡＮＹ４Ｆ６１２、およびＢＣ
１ＡＮＹ４Ｔ６１３として、それぞれ設計される。これらの命令のそれぞれに
おいて、オペレーションコード（例えば、ＢＣ１ＡＮＹ４Ｔのように指定された
命令とＣＯＰ１）は、実行される特定のアクションのプロセッサに命令するため
に用いられる。加えて、インジケータビット６２０は、所与のブランチオペレー
ションに対するテストが条件コードビット（以下に説明される）の「真」の状態
または「偽」の状態に基づいているかどうかを指定するために使用される。

【０１７９】以下で議論される実施形態において、偽は０で指定され、真は１で指定される
。しかしながら、他の指定は、本発明による真および偽のために使用され得るこ
とが理解される。

【０１８０】いくつかのコンピュータシステムアーキテクチャは、１つの命令（例えば、ブ
ランチ遅延スロット）によりブランチオペレーションの効果を遅延することが理
解される。

【０１８１】（ＢＣ１ＡＮＹ２Ｆ）図６Ｊを参照して、ＢＣ１ＡＮＹ２Ｆ６１０は、例えば、ＦＣＳＲ４１０（
図４）のｆｃｃフィールド内に配置された２つの指定条件コードビット（例えば
、ＣＣ_nおよびＣＣ_n+1）を調べる。これらの内のいずれかが、あらかじめ決めら
れた状態（例えば、偽）に設定されている場合、ブランチターゲットアドレスが
計算され、その実行は、計算されたブランチターゲットにブランチする。すなわ
ち、ＣＣ_n+1＝＝０またはＣＣ_n＝＝０である場合、ブランチする。１つの実施形
態において、条件コードビットがあらかじめ決められた状態に設定されているか
どうかを判定するために、条件コードビットがインジケータビット（例えば、ｔ
ｆ６２０）と比較される。２つの連続条件コードビットが、本実施形態において
示されているが、条件コードが連続でない他の実施形態が、本発明に従って使用
され得ることが理解される。

【０１８２】本実施形態において、（１６ビットオフセットフィールドが２ビット左へシフ
トした）１８ビット符号付オフセットは、プログラムカウンタ（ＰＣ）に関する
有効ターゲットアドレスを形成するために、ブランチ遅延スロットにおいてブラ
ンチ（ブランチ自身ではない）に続いて命令のアドレスが加えられる。２つの浮
動小数点（ＦＰ）条件コードビット（ＣＣ）の内のどちらかが偽である場合、遅
延スロットにおける命令が実行された後、プログラムが有効ターゲットアドレス
にブランチする。

【０１８３】本実施形態において、指定されたＣＣは２つに配列され、そのため、ビット１
８はゼロに設定される。例えば、４つの値を指定することは、ＣＣ₅またはＣＣ₄ のどちらかが０であり、それに従って、ブランチされるかどうかをチェックする
。

【０１８４】上述されたように、ＦＰ条件コードは、浮動小数点数の大きさを比較するため
に用いられる場合、ＦＰ比較命令（例えば、図６ＧのＣＡＢＳ６０７）により設
定され得る。

【０１８５】（ＢＣ１ＡＮＹ２Ｔ）図６Ｋを参照して、ＢＣ１ＡＮＹ２Ｔ６１１は、例えば、ＦＣＳＲ４１０の
ｆｃｃフィールド内に配置された２つの指定条件コードビット（例えば、ＣＣ_n
およびＣＣ_n+1）を調べる。これらの内のいずれかが真である場合、ブランチタ
ーゲットアドレスが計算され、その実行は、計算されたブランチターゲットにブ
ランチする。すなわち、ＣＣ_n+1＝＝１またはＣＣ_n＝＝１である場合、ブランチ
する。１つの実施形態において、条件コードビットがあらかじめ決められた状態
に設定されているかどうかを判定するために、条件コードビットがインジケータ
ビット（例えば、ｔｆ６２０）と比較される。２つの連続条件コードビットが、
本実施形態において示されているが、条件コードが連続でない他の実施形態が、
本発明に従って使用され得ることがよく理解される。

【０１８６】本実施形態において、（１６ビットオフセットフィールドが２ビット左へシフ
トした）１８ビット符号付オフセットは、ＰＣに関する有効ターゲットアドレス
を形成するために、ブランチ遅延スロットにおいてブランチ（ブランチ自身では
ない）に続いて命令のアドレスが加えられる。２つのＦＰ条件コードビット（Ｃ
Ｃ）の内のどちらかが真（ロジック１）である場合、遅延スロットにおける命令
が実行された後、プログラムが有効ターゲットアドレスにブランチする。

【０１８７】本実施形態において、指定されたＣＣは２つに配列され、そのため、ビット１
８はゼロに設定される。例えば、２つの値を指定することは、ＣＣ₃またはＣＣ₂ のどちらかが１であり、従って、ブランチされるかどうかをチェックする。

【０１８８】（ＢＣ１ＡＮＹ４Ｆ）図６Ｌを参照して、ＢＣ１ＡＮＹ４Ｆ６１２は、例えば、ＦＣＳＲ４１０の
ｆｃｃフィールド内に配置された４つの指定条件コードビット（例えば、ＣＣ_n
、ＣＣ_n+1、ＣＣ_n+2およびＣＣ_n+3）を調べる。これらの内のどれもが偽である
場合、ブランチターゲットアドレスが計算され、その実行は、計算されたブラン
チターゲットにブランチする。すなわち、ＣＣ_n+3＝＝０またはＣＣ_n+2＝＝０ま
たはＣＣ_n+1＝＝０またはＣＣ_n＝＝０である場合、ブランチする。１つの実施形
態において、条件コードビットがあらかじめ決められた状態に設定されているか
どうかを判定するために、条件コードビットがインジケータビット（例えば、ｔ
ｆ６２０）と比較される。４つの連続条件コードビットが、本実施形態において
示されているが、条件コードが連続でない他の実施形態が、本発明に従って使用
され得ることが理解される。

【０１８９】本実施形態において、条件コードビットのいずれか１つが偽である場合にブラ
ンチングに代わって、ブランチングは、条件コードビット値の指定された組合せ
に基づいて生じる。例えば、ブランチングは、ＣＣ_n+3＝＝０およびＣＣ_n+2＝＝
０の場合に生じるように指定され得る。すなわち、本発明によれば、「ａｎｄ’
ｓ」および「ｏｒ’ｓ」の組合わせは、条件コードビットの任意の組合せ（１と
、０との任意の組合せ）の機能としてブランチングを指定するために使用され得
る。このことは、当該分野の公知の様々な方法（例えば、プログラム可能なロジ
ックアレイ）を用いてインプリメントされ得ることがよく理解される。

【０１９０】本実施形態において、（１６ビットオフセットフィールドが２ビット左へシフ
トした）１８ビット符号付オフセットは、ＰＣに関する有効ターゲットアドレス
を形成するために、ブランチ遅延スロットにおいてブランチ（ブランチ自身では
ない）に続いて命令のアドレスが加えられる。４つのＦＰ条件コードビットＣＣ
の内のいずれかどちらかが偽（ロジック０）である場合、遅延スロットにおける
命令が実行された後、プログラムが有効ターゲットアドレスにブランチする。

【０１９１】本実施形態において、ＣＣは４つに並べられ、そのため、ビット１８およびビ
ット１９はゼロに設定される。例えば、ゼロの値を指定することは、ビットＣＣ_3..0 のいずれかがゼロであり、従って、ブランチされるかどうかをチェックする
。

【０１９２】（ＢＣ１ＡＮＹ４Ｔ）図６Ｍを参照すると、ＢＣ１ＡＮＹ４Ｔ６１３は、例えば、ＦＣＳＲ４１
０のｆｃｃフィールド内に配置された、４つの特定された状態コードビット（例
えば、ＣＣ_n，ＣＣ_n+l，ＣＣ_n+2，およびＣＣ_n+3）を調べる。４つの特定された
状態コードビットが真である場合、分枝ターゲットアドレスは計算され、実行は
計算された分枝ターゲットへ分岐する。すなわち、ＣＣ_n+3＝＝１またはＣＣ_n+2 ＝＝１またはＣＣ_n+1＝＝１またはＣＣ_n＝＝１である場合、分枝する。１実施形
態において、状態コードビットは、状態コードビットが、事前に決定された状態
にセットされるかどうかを判定する指示ビット（例えば、ｔｆ６２０）と比較
される。この実施形態において、４つの連続状態コードビットが表されるが、状
態コードが連続でない他の実施形態は、本発明により使用され得ることが認識さ
れる。

【０１９３】他の実施形態において、状態コードビットの任意の１つが真である場合の分枝
の代わりに、分枝が、状態コードビット値の特定される組み合わせに基づいて発
生する。例えば、分枝は、ＣＣ_n+3＝＝１およびＣＣ_n+2＝＝１である場合、生じ
ることが特定され得る。つまり、本発明により、「ａｎｄの」および「ｏｒの」
の組み合わせは、状態コードビットの任意の組み合わせ（すなわち、１のおよび
０の、の任意の組み合わせ）の機能として分枝を特定するのに使用され得る。こ
れは、プログラム可能なロジックアレイのような当該分野で公知の種々の方法を
用いて実行され得ることが認識される。

【０１９４】本発明の実施形態において、１８−ｂｉｔ符号付きのオフセット（左に２ビッ
トシフトされた１６ビットオフセットフィールド）は、ＰＣに比較的（ＰＣ−ｒ
ｅｌａｔｉｖｅ）効果的なターゲットアドレスを形成する分枝ディレイスロット
（ｄｅｌａｙｓｌｏｔ）内の分枝（それ自身は分枝しない）に従う命令のアド
レスに加えられる。任意の４つのＦＰ状態コードビットＣＣが真である場合（ロ
ジック１）、プログラムは、ディレイスロット内の命令が実行された後、効果的
なターゲットアドレスに分枝する。

【０１９５】本実施形態において、ＣＣは４つを一列に並べ（ａｌｉｇｎｓ）、ビット１８
および１９は、ゼロにセットされる。従って、例えば、４つの値を特定すること
で、任意のビットＣＣ_7..4がゼロおよび分枝であるかどうかをチェックする。

【０１９６】本発明の本実施形態により、ＢＣ１ＡＮＹ２Ｆ，ＢＣ１ＡＮＹ２Ｔ，ＢＣ１Ａ
ＮＹ４ＦおよびＢＣ１ＡＮＹ４Ｔ命令は、ＩＳＡ３２０（図３）に追加される
。ＢＣ１ＡＮＹ２ＦおよびＢＣ１ＡＮＹ２Ｔのそれぞれは、２つの特定された状
態コードビットを調べ、ＢＣｌＡＮＹ４ＦおよびＢＣｌＡＮＹ４Ｔのそれぞれは
、４つの特定の状態コードビットを調べる。しかしながら、状態分枝命令の他の
実施形態は、本発明による状態コードビットの異なる数（例えば、３または４以
上）を調べ得る事が認識される。１つ以上の状態コードビットの状態（すなわち
、状態コード状態）に基づき、分枝は本発明により生じ得る。

【０１９７】上記で識別された、各ＢＣ１ＡＮＹｘｘ命令（ｘｘ＝２Ｆ，２Ｔ，４Ｆおよび
４Ｔの場合）に対し、実施形態は、状態コードビットが各命令内の指示ビット（
すなわち、ビット６２０）と比較される場合、記載される。この比較の結果によ
り、状態コードビットが所定の状態にセットされるかどうかが判定される。代わ
りの（および好適な）実施形態において、特定の分枝命令に関連する状態コード
ビット（例えば、ＢＣ１ＡＮＹ４Ｔに関連する４つのビット）は、最初に、回路
（例えば、状態機器、プログラム可能なロジックアレイ、組み合わせロジック等
）によって組み合わされ、単一の組み合わされたビットを生成する。次に、この
ビットは、対象分枝状態が満たされるかどうか（例えば、組み合わされた状態コ
ードの任意の１つが事前に決められた状態にセットされるかどうか）を判定する
対象命令の指示ビットと比較される。例えば、この回路は、複数のビットの任意
の１がそれぞれ、セット（ｌｏｇｉｃａｌ１）されるか、またはリセット（ｌ
ｏｇｉｃａｌ０）されるかどうかを判定する論理ＯＲゲートまたはＡＮＤゲー
トとして機能し得る。代替の実施形態において、そのような回路は、例えば、よ
り複雑なブール式を表し得、分枝を発生させる前に、対象の状態コードビットか
ら論理の１および０の特定の組み合わせを要求する、本発明により、状態分枝命令は、単一の分枝命令を用い、複数の状態コードビ
ットを処理する。従って、連続する分枝は取り除かれ、その結果、命令の数は減
少され得る。従って、条件分枝命令は、コンピュータに作成されたグラフィック
デザインを含む、種々のアプリケーションで使用され得る、操作を効果的に実行
する機能性（ｆｕｎｃｔｉｏｎａｌｉｔｙ）を実行する。特に、クリッピング操
作（３次元ジオメトリ演算において使用される）は、前述の分岐命令を用いて高
速化され得る。これらの命令は、汎用のプロセッサで使用され得る。

【０１９８】（浮動小数点乗算／加算（ＭＡＤＤ））次に、図８を参照し、図８は、浮動小数点乗算／加算命令ＭＡＤＤ８０１を
図示する。ＭＡＤＤ８０１は、結合乗算（ｃｏｍｂｉｎｅｄｍｕｌｔｉｐｌ
ｙ）を実行し、次に、浮動小数点の値に演算を加算する命令は以下のように表さ
れる。

【０１９９】ｆｄ＜−（ｆｓｘｆｔ）＋ｆｒ；「ｆｄ」が目的のレジスタを特定するインデックスであり、「ｆｓ」「ｆｔ」お
よび「ｆｒ」が浮動小数点の３つのレジスタを特定するインデックスである場合
、レジスタセットのコンテンツは、演算のために入力データとして使用されるべ
きである。

【０２００】さらに図８を参照すると、ｆｓの値はｆｔの値で乗算されて、積を生じる。ｆ
ｒの値はこの積に加算される。本実施形態において、得られた合計は、無限大の
精度まで計算され、ＦＣＳＲ（例えば、図４のＦＣＳＲ４１０）内に特定され
る現在の丸めるモードにより丸められ、ｆｄに置き換えられる。ＭＡＤＤ８０
１は、シングル、ダブルおよびペアードシングルフォーマットを支持する。フィ
ールド「ｆｍｔ」はオペランドおよび結果のフォーマットを特定する。

【０２０１】（浮動小数点（ＭＵＬ））次に、図９を参照して、図９は、浮動小数点乗算命令ＭＵＬ９０１を図示す
る。ＭＵＬ９０１は、浮動小数点の値を乗算するために使用される。命令は以
下のように表される。

【０２０２】ｆｄ＜−ｆｓｘｆｔ；「ｆｄ」が目的のレジスタを特定するインデックスであり、「ｆｓ」および「ｆ
ｔ」が浮動小数点の２つのレジスタを特定するインデックスである場合、レジス
タセットのコンテンツは、演算のために入力データとして使用されるべきである
。

【０２０３】さらに図９を参照すると、ｆｓの値はｆｔの値で乗算され、積を生じる。本実
施形態において、この積は、無限大の精度まで計算され、ＦＣＳＲ（例えば、図
４のＦＣＳＲ４１０）内に特定される現在の丸めるモードにより丸められ、ｆ
ｄに置き換えられる。ＭＵＬ９０１は、シングル、ダブルおよびペアードシン
グルフォーマットを支持する。フィールド「ｆｍｔ」はオペランドおよび結果の
フォーマットを特定する。

【０２０４】上述の考察により、上記で特定された命令（例えば、ＡＤＤＲ，ＭＵＬＲ，Ｒ
ＥＣＩＰ１，ＲＥＣＩＰ２，ＲＳＱＲＴ１，ＲＳＱＲＴ２，ＣＶＴ，ＭＵＬおよ
びＭＡＤＤ）により生成される出力は、任意の数の方法で形式化され得、これは
、ペアードシングル、ペアードダブル、クワッドシングル、クワッドダブル等を
含む。代替の実施形態において、これらの命令は、シングルのオペランド（例え
ば、Ｓタイプオペランド）またはベクトルタイプのオペランド（例えば、ＰＳタ
イプのオペランド）を入力するように設定され得、新たに生成されるベクトルオ
ペランド（例えば、ＰＳオペランド）またはより大きなベクトルオペランド（例
えば、クワッドシングルオペランド）をそれぞれ出力するための結果を複製する
。例えば、命令は、Ｓタイプの結果を生じるためのＳタイプの入力を処理するよ
うに設定され得、次に、ＰＳタイプの出力（すなわち、ダブルワードの下半分が
ＰＳタイプのフォーマットを生成するために上半分に複製される）を生じる為の
この結果を複製する。この代替の実施形態は、ＲＥＣＩＰ１およびＲＳＱＲＴ１
命令において特に有用であり得る。

【０２０５】（ワールド座標系（ＷｏｒｌｄＣｏｏｄｉｎａｔｅ）を用いるジオメトリ計
算の例示的なプロセス）次に、図１１Ａを参照し、図１１Ａは、本発明の１実施形態によるワールド座
標系を用いて、ジオメトリ計算のために図３の命令セットアーキテクチャを使用
する工程を示す例示的なプロセス１０００のフローチャートである。プロセス１
０００は、本実施形態による命令セットアーキテクチャを用いて実行され、例え
ば、プロセッサ１０２ｂ（図２ｂ）により実行される。プロセッサ１０００は、
グラフィックパイプラインのジオメトリの一部（ｇｅｏｍｅｔｒｙｐｏｒｔｉ
ｏｎ）に使用される。

【０２０６】図１１Ａの工程１００５において、公知の技術を用いて、グラフィックイメー
ジは、点、線および「プリミティブ（ｐｒｉｍｉｔｉｖｅｓ）」と呼ばれるジオ
メトリ形を用いて、構成され、ワールド座標系［ｘｙｚｗ］は、プリミテ
ィブの頂点として導かれる。ワールド座標系は、好ましくは、ＰＳフォーマット
であるが、シングルまたはダブルフォーマットであってもよい。

【０２０７】本実施形態における、工程１０１０において、ワールド座標系［ｘｙｚ
ｗ］は、ペアードシングル形式の命令ＭＵＬ，ＭＡＤＤ，ＡＤＤＲおよびＬＤ（
ダブルワードをロードする）を用いて、４行４列の浮動小数点の行列により［ｘ
’ｙ’ｚ’ｗ’］に変換される。この変換を実行するために使用される命令配列
の注釈リストは、図１２において提供される。変換は、回転、平行移動（ｔｒａ
ｎｓｌａｔｉｏｎｓ）、座標軸に沿ったスケーリング、遠近変換（ｐｅｒｓｐｅ
ｃｔｉｖｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）およびこれらの組み合わせを含む
。

【０２０８】図１１Ａの工程１０１５において、クリップテストは、どのプリミティブ（も
しくは、プリミティブの一部）が、表示されるグラフィックイメージ内に現れる
（すなわち、それらが、特定の表示量内に当てはまる）かを決定するために実行
される。クリップテストは、ＣＡＢＳ６０７命令（図６Ｇ）を用いて実行され
得る。ＣＡＢＳ６０７命令は，基準の表示平面（例えば±ｗ’の絶対値）の絶
対値に対する各頂点の変換された座標の絶対値（例えば、±ｘ’，±ｙ’，±ｚ
’の絶対値）を比較するために使用される。本実施形態により、ペアードシング
ルフォーマットにおいて、ＣＡＢＳ６０７は、１クロックサイクルで４つまで
の表示量のエッジをテストする能力を提供する。

【０２０９】詳細には、ペアードシングルフォーマットにおいて、ＣＡＢＳ６０７は、例
えば、（ｘ’およびｙ’変換された座標を表す）｜ｘ｜および｜ｙ｜値を保持す
る第１のデータセットと、（表示平面を表しているかまたは、より詳細には、３
次元の量の２つの表示量のエッジを表している）｜ｗ｜および｜ｗ｜値を保持す
る第２のデータセットとを比較し得る。上記に述べられたように、シングルの大
きさ（ｍａｇｎｉｔｕｄｅ）の比較（例えば、｜ｘ｜＜＝｜ｗ｜）は、ｘ＜＝ｗ
およびｘ≧−ｗ（ｘ＜＝ｗおよびｘ≧−ｗは、表示量のエッジをテストするため
に使用され得る）の従来の２ステップの不等式を置換し得る。したがって、ｘの
大きさが、ｗの大きさよりも小さいかまたは等しければ、ｘは対象表示量内に収
まる。同じテストを、ｙに適用する。

【０２１０】表２を参照すると、１４の条件シーケンス（すなわち、「ＬＥ」またはより小
さいまたは等しい）は、所望の条件をもたらすために、ＣＡＢＳ６０７の条件
フィールド６３０（図６Ｇ）内に配置され得る。このテストを上記に記載された
オペランドに適用することにより、４つの表示量のエッジ（すなわち、＋／−ｗ
に対して比較される＋／−ｘおよび＋／−ｙ）は、シングルのＣＡＢＳ．ＰＳ命
令と比較される６つの表示量エッジは、典型的には、プリミティブが３次元表示量（すなわち
、各座標ｘ，ｙおよびｚ内の２つ）内にフィットするかどうかを判定するために
テストされる。従って、第２のＣＡＢＳ６０７命令は、第２のＣＡＢＳ６０
７命令は、本例（すなわち、ｚの大きさがｗ以下であるかどうかを判定すること
）でのｚ座標をテストするために実行され得る。ｘ、ｙおよびｚに対するテスト
が全て真である場合、どんなクリッピングも要求されない。しかしながら、１つ
以上（しかし、すべてない）の座標が表示量から外れている場合、クリッピング
動作は、実行されるべきである。従って、表３の疑似コード（下）において示さ
れるように、対象の状態コードの任意の１つが偽とセットされる（すなわち、「
ＬＥ」条件は、少なくとも一つの座標に対し満たされていない）場合、クリッピ
ング動作へ分岐することは、この例において生じるべきである。

【０２１１】他の実施形態において、シングルまたはダブルのＦＰフォーマットにおいて、
ＣＡＢＳ６０７は、１クロックサイクルで２つの表示量エッジをテストすること
ができる（例えば、座標ｘ，ｙまたはｚの大きさを表すシングルのデータは、エ
ッジｗの大きさを表す他のデータと比較される）。さらに他の実施形態においい
て、クワッドシングルデータフォーマットにおいて、ＣＡＢＳ６０７は、１つ
のクロックサイクルで８つまでの表示量エッジに対しテストする能力を提供し得
る。上記に記載されるように、ＣＡＢＳ６０７は、そのような比較の結果に基
づき条件コードをセットする。

【０２１２】図１１Ａの工程１０２０において、図６Ｌの条件分岐命令ＢＣ１ＡＮＹ４Ｆ
６１２は、好ましくは、工程１０１５からの条件コードに基づく適切な分岐ター
ゲットに分岐するために使用される。特定の表示量内でフィットするプリミティ
ブは受け取られ、それらの座標は、工程１０２５へ進む。特定の表示量でフィッ
トしないそれらのプリミティブは、除去される。部分的に、表示量内のみにある
それらのプリミティブは、表示量から外れている一部を取り除くためにクリップ
される必要がある。

【０２１３】工程１０１５および１０２０の演算を例示する疑似コードは、下記の表３にお
いて提供される（ここで「ＦＰ＃」は浮動小数点レジスタを表す）。ノーオペレ
ーション（Ｎｏｐｓ）は、浮動小数点パイプラインの特定の実施形態に対するパ
イプライン依存性の失速（ｓｔａｌｌ）を防ぐ疑似コードにおいて使用される。

【０２１４】

【表３】表３を参照すると、疑似コードに示されるように、ペアードシングルフォーマ
ットのシングルのＣＡＢＳ命令は、シングル演算において、４つの表示量エッジ
（すなわち、＋／−ｗに対して＋／−ｘ、＋／−ｙ）のテストを提供する。ＣＡ
ＢＳは、シングルクロックサイクルで実行されるので、４つの表示量エッジすべ
ては、このシングルサイクルにおいて比較される。

【０２１５】表３の疑似コードは、座標（例えば、ｘ）が、表示量エッジ（ｗにより規定さ
れる）を上回る場合にのみクリッピングが必要と判断されるクリップテストにつ
いて、例示的な命令シーケンス（ＣＡＢＳ６０７およびＢＣ１ＡＮＹ４Ｆ６１
２命令を含む）を図示する。従って、この実施形態により、エッジの値に等しい
（すなわち、効果的にエッジの頂点上にある）座標は、対象表示量内にあること
が考慮される。当業者に明らかであるように、本明細書において記載される命令
はフレキシブルであり（例えば、表２に列挙される１６のＣＡＢＳ条件シーケン
スを参照）、このクリップテストの変形（例えば、座標がエッジの値以上である
場合のクリッピングを要求すること）を支持し得る。

【０２１６】表３および下記の表４および表５において提供される、ｎｏｐ（すなわち「命
令なし」）命令は、ＦＰＵ２７０（図２Ｃ）の特定の実行およびパイプラインの
詳細に基づく。当業者により理解されているように、これらの命令は、他の実行
について数および配置内で増加し得るかまたは減少し得る。

【０２１７】工程１０２２において、表示量内に部分的に存在するプリミティブはクリップ
され、結果として起こる（ｒｅｓｕｌｔａｎｔ）頂点の値は、公知のクリップル
ーチンを使用して決定される。

【０２１８】工程１０２５において、３次元の値の座標を２次元に表現するために、変換さ
れた座標の遠近除算（ｐｅｒｓｐｅｃｔｉｖｅｄｉｖｉｓｉｏｎ）は、ＲＥＣ
ＩＰ１６０３（図６Ｃ）を使用して、表示量内にあるそれらのプリミティブに
対して実行され、アプリケーション、ＲＥＣＩＰ２６０４（図６Ｄ）次第であ
る。アプリケーションの中には、ＲＥＣＩＰ１６０３の精度落としても十分で
あり、ＲＥＣＩＰ２６０４は使用されないものもある。他のアプリケーション
において、例えば、より精度が要求される場合は、ＲＥＣＩＰ２６０４も使用
され得る。

【０２１９】工程１０２５の演算を例示する疑似コードは、一つの実施形態により下記の表
４において提供される。

【０２２０】

【表４】工程１０３０において、２次元スクリーン空間にグラフィックイメージを表示
するための座標は、グラフィックパイプライン（例えば、レンダリングおよびラ
スタライゼーション（ｒａｓｔｅｒｉｚａｔｉｏｎ）の次の段階で使用するプロ
セス１０００から出力される。

【０２２１】（通常の座標を使用するジオメトリ計算の例示的なプロセス）次に、図１１Ｂを参照すると、図１１Ｂは、本発明の１実施形態による面の通
常の座標を使用して、ジオメトリ計算のために図３の命令セットアーキテクチャ
を使用する工程を示す例示的なプロセス１１００のフローチャートである。プロ
セス１１００は、本実施形態による命令セットアーキテクチャを使用して実行さ
れ、例えば、プロセッサ１０２ｂ（図２Ｂ）により実行される。プロセッサ１１
００は、グラフィックパイプラインのジオメトリ部分に使用される。

【０２２２】図１１Ｂの工程１１０５において、公知の技術を使用し、グラフィックイメー
ジデータは、面の通常の座標［ｎ_x ｎ_y ｎ_z］を含む。

【０２２３】工程１１１０において、本実施形態において、面の通常の座標は、図１２Ａに
示される演算と類似の演算において、ペアードシングルフォーマット命令ＭＵＬ
、ＭＡＤＤおよびＡＤＤＲを使用して、３行３列の浮動小数点の行列により［ｎ_x ’ｎ_y’ｎ_z’］に変換される。変換は、回転、平行移動（ｔｒａｎｓｌａｔｉ
ｏｎｓ）、座標軸に沿ったスケーリング、遠近変換およびこれらの組み合わせを
含む。

【０２２４】図１１Ｂの工程１１１５において、変換された面の通常の座標［ｎ_X’ｎ_y’ｎ_Z ’］は、アプリケーションに依存するＲＳＱＲＴ１６０５命令（図６Ｅ）お
よびＲＳＱＲＴ２６０６命令（図６Ｆ）を使用して、ユニット長ベクトルを表
すために、再正規化される（ｒｅｎｏｒｍａｌｉｚｅｄ）。アプリケーションの
中には、ＲＳＱＲＴ１６０５の精度落としても十分であり、ＲＳＱＲＴ２６
０６は使用されないものもある。他のアプリケーションにおいて、例えば、もっ
と色の要素の精度が必要とされる場合は、ＲＳＱＲＴ２６０６も使用される。

【０２２５】ＲＳＱＲＴ１のレベルにおいて、工程１１１５の演算を例示する疑似コードが
唯一、以下の表５において提供される。

【０２２６】

【表５】図１１Ｂの工程１１２０において、ベクトル「Ｉ」のドット積（これは、光源
への方向を定義する）および再正規化された座標［ｎ_x’’ ｎ_y’’ ｎ_z’’
］は、図６ＡのＡＤＤＲ６０１を使用して決定される。このドット積は、光源計
算の公知の様態において使用される。

【０２２７】工程１１２５において、局所光源が考慮されるべきである場合、プロセス１１
００は、工程１１２７に分岐する。局所光源が考慮されるべきでない場合、プロ
セス１１００は、直接工程１１２９に進み、ドット積計算において既に計算され
た中間のベクトル「Ｈ」（示さず）を使用する。

【０２２８】工程１１２７において、新たな中間ベクトル「Ｈ」が計算される。中間ベクト
ルは、光源計算において公知の方法で使用される。

【０２２９】工程１１２８において、中間ベクトルは、アプリケーションおよび所望の精度
量に依存するＲＳＱＲＴ１６０５の命令（図６Ｅ）およびＲＳＱＲＴ２６０
６命令（図６Ｆ）を使用して単位長さへ再正規化される。

【０２３０】工程１１２９において、新しくまたは以前に計算された中間ベクトルのドット
積および再正規化された座標［ｎ_x’’ ｎ_y’’ ｎ_z’’］は、図６ＡのＡＤ
ＤＲ６０１を使用して決定される。このドット積は、光源計算（例えば、輝度
（ｓｈｉｎｉｎｅｓｓ）について）において公知の方法で使用される。

【０２３１】工程１１３０において、頂点の色度（赤、緑、青）は公知の方法で計算され、
その結果はプロセス１１００から出力され、後の段階のグラフィックパイプライ
ン（例えば、レンダリングおよびラスター化）で使用される。

【０２３２】要するに、本発明の実施形態は、プロセッサにおいて必要とされる合計の命令
の数を減らすことによりコンピュータで作成されるグラフィックデザインにおい
てのジオメトリプロセスのスピードアップが可能となる。この実施形態は、コン
ピュータで作成されるグラフィックおよび他のアプリケーションが要求される複
雑な計算を効果的に実行し得る命令セットを提供する。従って、プロセッサは、
ラスター化のエンジンのスピードに近いスピードで計算を実行することができる
。その結果、プロセッサは、グラフィックパイプラインのボトルネックにほとん
どなり得ない。

【０２３３】本発明の好適な実施形態により、一般的な目的のプロセッサ（例えば、図２Ｂ
のプロセッサ１０２ｂ）により実行される浮動小数点命令を含む命令セットアー
キテクチャに対するジオメトリアプリケーションの特定の拡張が提供され、従っ
て、高価なまたは専用のハードウェア設計のための必要性なしに、上記のことを
達成する。この実施形態は、ペアードシングル浮動小数点データセットフォーマ
ットおよび他の浮動小数点データセットフォーマット（例えば、シングル精度、
ダブル精度、クワッドシングル、および８倍シングル）で動作するように設計さ
れる。好適な実施形態により、一般的な目的のプロセッサ上で使用され得る命令
セットが提供され、これはコンピュータで作成されたグラフィックに要求される
複雑な計算を実行するに十分に有力である。（グラフィックおよびほかのアプリ
ケーションのための）専用プロセッサが、上記に記載されたアプリケーションの
特定の拡張を構築する命令のすべてまたは一部を実行するようにも構成され得る
ことが当業者とによって理解される。

【０２３４】代替の実施形態において、本明細書において記載される命令セットアーキテク
チャに対するアプリケーションの特定の拡張は、コンピュータプログラム製品に
おいて実行され得、コンピュータプログラム製品は、例えばソフトウェアとして
媒体上で保存されるすべてまたは一部の拡張を有するコンピュータ読み出し可能
および／または使用可能な媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ、フロッピー（
登録商標）ディスク、テープ、ＤＲＡＭなど）を含む。このソフトウェアは、任
意の方法で実行され得、これは汎用のプロセッサ、専用プロセッサ、メインフレ
ーム、スーパーコンピュータ等でソフトを実行することを含む。

【０２３５】従って、本発明の好適な実施形態（汎用の命令セットアーキテクチャのアプリ
ケーションの特定の拡張を有する汎用のプロセッサ）が記載される。本発明は、
特定の実施形態において記載されているが、本発明がそのような実施形態により
限られるよう解釈されるべきではないが、上記の特許請求の範囲により、より解
釈されるべきであることが理解されるべきである。

【図面の簡単な説明】

【図１】図１は、本発明に従って、グラフィックスデザインおよび他の計算を実行する
ための例示的なコンピュータシステムのブロックダイアグラムである。

【図２Ａ】図２Ａは、本発明の実施形態に従って、グラフィックスデザインおよび他の計
算を実行するための図１のコンピュータシステムの例示的な汎用プロセッサであ
る。

【図２Ｂ】図２Ｂは、本発明の実施形態に従って、グラフィックスデザインおよび他の計
算を実行するための図１のコンピュータシステムの例示的な汎用プロセッサであ
る。

【図２Ｃ】図２Ｃは、本発明に従う図２Ｂのプロセッサの浮動点ユニットの１実施形態の
ブロックダイアグラムである。

【図２Ｄ】図２Ｄは、本発明の本実施形態に従う図２Ｃの浮動点ユニットを通過するデー
タフローを図示するブロックダイアグラムを提供する。

【図３】図３は、本発明の１実施形態に従って、汎用性命令セット構築のレベルとジオ
メトリアプリケーション専用拡張の間の論理的な関係を図示したものである。

【図４】図４は、本発明に従って、浮動点制御／状態レジスタの１実施形態を図示する
。

【図５】図５は、本発明の１実施形態に従って、利用されるペアードシングルデータタ
イプを図示したものである。

【図６Ａ】図６Ａは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｂ】図６Ｂは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｃ】図６Ｃは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｄ】図６Ｄは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｅ】図６Ｅは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｆ】図６Ｆは、本発明の１実施形態に従って、図３のジオメトリアプリケーション
専用拡張によって実行される演算命令の各々の実施形態を図示する。

【図６Ｇ】図６Ｇは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される比較およびフォーマット変換命令の各々の実施形態を図示する。

【図６Ｈ】図６Ｈは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される比較およびフォーマット変換命令の各々の実施形態を図示する。

【図６Ｉ】図６Ｉは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される命令の各々の実施形態を図示する。

【図６Ｊ】図６Ｊは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される条件ブランチ命令の各々の実施形態を図示する。

【図６Ｋ】図６Ｋは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される条件ブランチ命令の各々の実施形態を図示する。

【図６Ｌ】図６Ｌは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される条件ブランチ命令の各々の実施形態を図示する。

【図６Ｍ】図６Ｍは、本発明に従って、図３のジオメトリアプリケーション専用拡張によ
って実行される条件ブランチ命令の各々の実施形態を図示する。

【図７Ａ】図７Ａは、本発明の１実施形態に従って、ペアードシングルデータフォーマッ
トを用いるリダクション和演算およびリダクション積演算についてのデータフロ
ーダイアグラムである。

【図７Ｂ】図７Ｂは、本発明の１実施形態に従って、クワッドシングル（ｑｕａｄ−ｓｉ
ｎｇｌｅ）フォーマットを用いるリダクション和演算およびリダクション積演算
についてのデータフローダイアグラムである。

【図８】図８は、本発明に従って、図３の命令セット構築によって実行される積／和命
令の１実施形態を図示する。

【図９】図９は、本発明に従って、図３の命令セット構築によって実行される積命令の
１実施形態を図示する。

【図１０】図１０は、本発明に従って、図３の命令セット構築によって実行される浮動点
変換命令を図示する。

【図１１Ａ】図１１Ａは、本発明の１実施形態に従って、ワールド座標を用いるジオメトリ
変換計算用の図３の命令セット構築を使用する工程を示す例示的なプロセスのフ
ローチャートである。

【図１１Ｂ】図１１Ｂは、本発明の１実施形態に従って、表面正規（ｓｕｒｆａｃｅｎｏ
ｒｍａｌ）座標を用いるジオメトリライティング計算用の図３の命令セット構築
を使用する工程を示す例示的なプロセスのフローチャートである。

【図１２】図１２は、本発明の１実施形態に従って、代表的なジオメトリ計算（３次元マ
トリックス変換）を実行するように用いられる命令の注釈つきリスト項目を提供
する。

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号０９／３３６，４１５ (32)優先日平成11年６月17日(1999．6．17) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／３３５，４４４ (32)優先日平成11年６月17日(1999．6．17) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／３６４，７８６ (32)優先日平成11年７月30日(1999．7．30) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／３６４，７８９ (32)優先日平成11年７月30日(1999．7．30) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＪＰ，ＫＲ，ＳＧ (72)発明者ウラー，ジー．マイケルアメリカ合衆国カリフォルニア 94061，レッドウッドシティー，セコイアコート８ (72)発明者ホー，ユン−ワイアメリカ合衆国カリフォルニア 94024，ロスアルトス，アンバーレーン 804 (72)発明者ハレル，シャンドレービー．アメリカ合衆国カリフォルニア 95014，キュパーティノ，モンテベロロード 15986 Ｆターム(参考） 5B050 AA03 BA09 BA18 CA03 EA27 5B057 AA20 CA01 CA13 CA18 CB01 CB13 CB18 CD01 CH05 5B080 CA01 CA04 CA05 CA09 DA06 FA14 GA22

Claims

【特許請求の範囲】

【請求項１】プロセッサにおいて、コンピュータグラフィックス計算を行
う方法であって、複数の座標でコンピュータグラフィックス画像において頂点を表す工程と、該複数の座標を複数の変換された座標に変換する工程と、浮動小数点方式による大きさ比較命令を用いて、該複数の変換された座標の少
なくとも一部と、指定された表示量の複数の端を表す値との間の大きさの比較を
行う工程であって、少なくとも３つの表示量の端についての該比較結果が得られ
る、工程とを包含する方法。
【請求項２】前記複数の変換された座標の前記部分が、平行して処理され
る、請求項１に記載のコンピュータグラフィックス計算を行う方法。
【請求項３】複数の条件コードビットを１つ以上の特定の状態に設定し、
前記大きさの比較の結果を示す工程をさらに包含する、請求項１に記載のコンピュータグラフィックス計算を行う方
法。
【請求項４】コンピュータグラフィックス計算用プロセッサであって、バスと、該バスに接続された命令ディスパッチユニットであって、浮動小数点ユニット
への命令をディスパッチングする命令ディスパッチユニットと、該バスに接続された該浮動小数点ユニットであって、コンピュータグラフィッ
クス計算を行う方法を実現するように、該命令を実行する該浮動小数点ユニット
とを備え、該方法は、複数の座標でコンピュータグラフィックス画像において頂点を表す工程と、該複数の座標を複数の変換された座標に変換する工程と、浮動小数点方式による大きさ比較命令を用いて、該複数の変換された座標の少
なくとも一部と、指定された表示量の複数の端を表す値との間の大きさの比較を
行う工程であって、少なくとも３つの表示量の端についての該比較結果が得られ
る、工程と包含する、コンピュータグラフィックス計算用プロセッサ。
【請求項５】前記コンピュータグラフィックス計算を行う方法が、複数の条件コードビットを１つ以上の特定の状態に設定し、前記大きさの比較
の結果を示す工程をさらに包含する、請求項４に記載のプロセッサ。
【請求項６】前記コンピュータグラフィックス計算を行う方法が、前記大きさの比較の命令において、比較条件を指定する工程をさらに包含する、請求項４に記載のプロセッサ。
【請求項７】汎用プロセッサおよびメモリを含むシステムにおいて、複数
の浮動小数点値を比較する方法が、第１の命令を該メモリに格納する工程であって、該第１の命令が複数のオペラ
ンドで動作するようにフォーマットされる、工程と、該汎用プロセッサへの該第１の命令をディスパッチングする工程と、該第１の命令を該汎用プロセッサにおいて実行する工程であって、該プロセッ
サが該複数のオペランドで平行して操作して、複数の大きさの比較操作を行う、
工程とを包含する、方法。
【請求項８】複数のビットを設定する工程であって、該複数のビットのそ
れぞれが、前記第１の命令によって特定の状態に設定され、前記複数の大きさの
比較操作の結果を示す、工程をさらに包含する、請求項７に記載の方法。
【請求項９】前記第１の命令によって設定された前記複数のビットは、グ
ラフィックスプリミティブが、少なくとも１つの表示量の端を横切るかどうかを
示す、請求項８に記載の方法。
【請求項１０】前記第１の命令によって設定された前記複数のビットが、
グラフィックスプリミティブが、少なくとも３つの表示量の端を横切るかどうか
を示す、請求項８に記載の方法。
【請求項１１】プロセッサにおける方法であって、実行ユニットへの１つの命令をディスパッチングする工程であって、該１つの
命令は、複数のオペランドで動作するようにフォーマットされる、工程と、該複数のオペランドを該実行ユニットに提供する工程であって、該複数のオペ
ランドは、所与の複数の表示量の端を表す、工程と、該複数のオペランドで平行して、該実行ユニットに複数の大きさの比較操作を
行わせる、該１つの命令を実行する工程であって、該操作は、該所与の表示量の
少なくとも３つの表示量の端をテストする、工程とを包含する、方法。
【請求項１２】複数のビットを設定する工程であって、該複数のビットが
、前記少なくとも３つの表示量の視野の端がグラフィックスプリミティブによっ
て横切られているかどうかを示す工程をさらに包含する、請求項１１に記載の方
法。
【請求項１３】汎用プロセッサおよびメモリを含むシステムにおける方法
であって、命令を該メモリに格納する工程と、該汎用プロセッサへの該命令をディスパッチングする工程と、該汎用プロセッサに第１のオペランドと第２のオペランドとの間の第１の大き
さの比較操作を行わせる命令を実行する工程とを包含する、方法。
【請求項１４】前記命令が、複数のオペランドで動作するようにフォーマ
ットされる、請求項１３に記載の方法。
【請求項１５】前記実行する工程が、前記汎用プロセッサに、第３のオペ
ランドと第４のオペランドとの間の第２の大きさの比較操作を行わせる、請求項
１４に記載の方法。
【請求項１６】複数の命令が格納されたコンピュータ読み出し可能媒体を
備えるコンピュータプログラム製品であって、該複数の命令は、汎用プロセッサ
がある特定の操作を行うことを可能にし、該複数の命令は、第１の方法に従って、該汎用プロセッサが第１の複数のオペランドを処理する
ことを可能にする第１の命令を含み、該第１の命令は、該第１の複数のオペランドで平行して複数の大きさの比較の操作を行う工程
と、複数のビットを１つ以上の特定の状態に設定し、該複数の大きさの比較操作
の結果を示す工程とを包含する、コンピュータプログラム製品。
【請求項１７】プロセッサにおいて、コンピュータグラフィックス計算を
行う方法であって、座標でコンピュータグラフィックス画像において頂点を表す工程と、該座標を変換する工程と、該複数の変換された座標と、指定された表示量の複数の端を表す値との比較を
行う工程と、複数の条件コードビットを１つ以上の特定の状態に設定し、前記比較の結果を
示す工程と、該複数の条件コードビットに基づいて、条件付きブランチを行う工程とを包含する、方法。
【請求項１８】ａ）ブランチ目標アドレスを計算する工程と、ｂ）該ブランチ目標アドレスにジャンプする工程と、ｃ）該ブランチ目標アドレスで命令を実行する工程であって、該計算、ジャンプ
および実行は、条件コード状態に依存する、工程とをさらに包含する、請求項１７に記載のコンピュータグラフィックス計算を行う
方法。
【請求項１９】前記複数の条件コードビットのうちの１つを、前記条件付
きブランチ命令におけるインジケータビットと比較して、該１つの条件コードビ
ットが、所定の状態に設定されるかどうかを判定する、工程と、該１つの条件コードビットが該所定の状態に設定される場合、工程ａ）〜工程
ｃ）を行う工程とをさらに包含する、請求項１８に記載のコンピュータグラフィックス計算を行う
方法。
【請求項２０】グラフィックスプリミティブが前記指定された表示量の第
１の端を横切る場合、第１の条件コードビットを所定の状態に設定する工程と、該グラフィックスプリミティブが前記指定された表示量の第２の端を横切る場
合、第２の条件コードビットを所定の状態に設定する工程と、該第１の条件コードビットまたは該第２の条件コードビットのいずれかが該所
定の状態に設定される場合、工程ａ）〜工程ｃ）を行う工程とをさらに包含する、請求項１８に記載のコンピュータグラフィックス計算を行う
方法。
【請求項２１】前記第１の条件コードビットおよび前記第２の条件コード
ビットを、前記条件付きブランチ命令におけるインジケータビットと比較して、
該第１の条件コードビットおよび該第２の条件コードビットが、所定の状態に設
定されるかどうかを判定する、工程をさらに包含する、請求項２０に記載のコンピュータグラフィックス計算を行う
方法。
【請求項２２】コンピュータグラフィックス計算用プロセッサであって、バスと、該バスに接続された命令ディスパッチユニットであって、浮動小数点ユニット
に命令を送る命令ディスパッチユニットと、該バスに接続された浮動小数点ユニットであって、コンピュータグラフィック
ス計算を行う方法を実現するように、該命令を実行する浮動小数点ユニットとを備え、該方法は、座標でコンピュータグラフィックス画像において頂点を表す工程と、該座標を変換する工程と、該複数の変換された座標と、指定された表示量の複数の端を表す値との比較を
行う工程と、複数の条件コードビットを１つ以上の特定の状態に設定し、前記比較の結果を
示す工程と、該複数の条件コードビットに基づいて、条件付きブランチを行う工程と包含する、コンピュータグラフィックス計算用プロセッサ。
【請求項２３】前記コンピュータグラフィックス計算を行う方法が、前記複数の条件コードビットのうちいずれか１つが所定の状態に設定される場
合、ブランチ目標アドレスにジャンプする工程と、をさらに包含する、請求項２２に記載のプロセッサ。
【請求項２４】前記コンピュータグラフィックス計算を行う方法が、記複数の条件コードビットを、前記条件付きブランチ命令におけるインジケー
タビットと比較して、該複数の条件コードビットのうちいずれか１つが、所定の
状態に設定されるかどうかを判定する、工程とをさらに包含する、請求項２３に記載のプロセッサ。
【請求項２５】前記コンピュータグラフィックス計算を行う方法が、ブランチ遅延スロット内の前記条件付きブランチ命令に続く命令のアドレスに
オフセットを加えて、目標アドレスを作成する工程と、該ブランチ遅延スロットにおける命令を実行する工程と、該遅延スロットにおける該命令の実行の後、該目標に分岐する工程とをさらに包含する、請求項２２に記載のプロセッサ。
【請求項２６】汎用プロセッサに接続されたメモリを有するシステムにお
ける方法であって、第１の命令および第２の命令を該メモリに格納する工程であって、該第１の命
令が複数のオペランドで操作するようにフォーマットされる、工程と、該第１の命令を該汎用プロセッサにおいて処理する工程であって、該第１の命
令が、該複数のオペランドで平行して操作して、複数の大きさの比較操作を行う
、工程と、該大きさの比較操作に応答して、複数のビットを、１つ以上の特定の状態に設
定する工程と、該プロセッサにおける該第２の命令を処理する工程であって、該第２の命令は
、該複数のビットに応答して、分岐操作を選択的に開始する工程とを包含する、方法。
【請求項２７】前記処理する工程が、前記複数のビットを結合して、組み合わせされたビットを発生する工程と、該組み合わせされたビットを前記第２の命令におけるインジケータビットと比
較して、該組み合わせされたビットが、所定の状態に設定されているかどうか判
定する工程と、該組み合わせされたビットが、該所定の状態に設定される場合、ブランチ目標
アドレスにジャンプする工程とを包含する、請求項２６に記載の方法。
【請求項２８】汎用プロセッサに接続されたメモリを有するシステムにお
ける方法であって、第１の命令、第２の命令、および第３の命令を該メモリに格納する工程と、該汎用プロセッサにおける該第１の命令を処理する工程であって、該プロセッ
サは、第１のオペランドで操作し、第１の大きさの比較操作を行い、第１の結果
ビットを発生する、工程と、該汎用プロセッサにおける該第２の命令を処理する工程であって、該プロセッ
サは、第２のオペランドで操作し、第２の大きさの比較操作を行い、第２の結果
ビットを発生する、工程と、該汎用プロセッサにおける該第３の命令を処理する工程であって、該第１また
は第２の結果ビットのいずれかか所定の値に設定される場合、ブランチ目標アド
レスにジャンプする、工程と、を包含する、方法。
【請求項２９】複数の命令が格納されたコンピュータ読み出し可能媒体を
備える、コンピュータプログラム製品であって、該複数の命令は、汎用プロセッ
サがある特定の操作を行うことを可能にし、該複数の命令は、該汎用プロセッサが、平行して複数の大きさの比較操作を行い、複数の結果ビ
ットを１つ以上の特定の状態に設定することを可能にする第１の命令と、該汎用プロセッサが、該複数の結果ビットに応答して、ブランチ目標アドレス
にジャンプすることを可能にする第２の命令とを含む、コンピュータプログラム製品。