JP4346906B2

JP4346906B2 - アンチエイリアシング集積化グラフィクス処理ユニット

Info

Publication number: JP4346906B2
Application number: JP2002545450A
Authority: JP
Inventors: エス．モントリム，ジョン; エー．ブーリーズ，ダグラス; イー．モルナー，スティーブン
Original assignee: エヌヴィディアコーポレイション
Priority date: 2000-11-27
Filing date: 2001-11-16
Publication date: 2009-10-21
Anticipated expiration: 2021-11-16
Also published as: WO2002043002A1; US20030103054A1; AU2002225688A1; US6452595B1; US6992669B2; JP2004514994A; EP1346319A1; EP1346319A4; EP1346319B1

Description

【０００１】
〔発明の分野〕
本発明は、一般にアンチエイリアシングに関し、特に、アンチエイリアシング機能のあるグラフィクス・パイプラインシステムに関する。
【０００２】
〔発明の背景〕
グラフィクス・パイプラインシステムを実装した全体システムが、従来技術の図１に示されている。このシステムでは、データソース１０が、プリミティブを規定する展開された頂点のストリームを生成する。これらの頂点は、格納用の頂点メモリ１３を介して、１度に１つずつ、パイプライン化されたグラフィックシステム１２に通される。展開された頂点は、一旦、頂点メモリ１３からパイプライン化されたグラフィックシステム１２へと渡されると、変換モジュール１４及び光源処理モジュール１６により、それぞれ変換及び光源処理され、さらに、ラスタライザ１８によるレンダリング用にクリッピングされてセットアップされることにより、表示装置２０で表示されるレンダリングされたプリミティブが生成される。
【０００３】
処理の際、変換モジュール１４は、３次元の頂点の組をローカル座標系やモデル座標系からレンダリングされたオブジェクトを表示するのに用いられる２次元ウィンドウへと拡大縮小、回転、及び投影するのに用いられてもよい。光源処理モジュール１６は、様々な光源処理方式、光源の位置、環境光のレベル、素材等に基づいて、頂点の色及び外観を設定する。ラスタ化モジュール１８は、事前に変換及び／又は光源処理された頂点を、ラスタ化又はレンダリングする。ラスタ化モジュール１８は、表示装置、又はレンダリングされたデータを次に表示装置へと出力する中間ハードウェア若しくはソフトウェア構成でありうるレンダリング先に向けて、オブジェクトをレンダリングする。
【０００４】
アンチエイリアシングとは、レンダリングの際にギザギザのエッジを除去することにより、現実感を増すための方法のことである。ギザギザのエッジはコンピュータのモニタが離散的な画素を有するために現れるので、画素の解像度よりも精細な画像の特徴を充分に表示することができない。図１Ａ−１に、エイリアシングの影響を受ける画像１０を示す。
【０００５】
図１Ａ−１の画像１０上に格子を置き、完全に円の内部にあるマスのみが色付けされると、エイリアシングが発生する。図１Ａ−２に、エイリアシング１２の影響を受けた図１Ａ−１の画像１０を示す。示された「ブロック状化（blockiness）」は、エイリアシングの結果であり、これはまさに、コンピュータ画面上に円を表示しようとすると発生するものである。
【０００６】
図１Ａ−３に、より精細な格子１４を用いてエイリアシングがいくらか緩和される方式を示す。それでもなお、より精細な格子１４で問題が完全に軽減されたわけではなく、また、より精細な格子１４に対応させてコンピュータ画面の解像度を上げるには、より高価なハードウェアが必要である。
【０００７】
コンピュータのデジタル性により、エイリアシングを完全に排除することは不可能である。しかし、その影響を最小化することはできる。解決策として、各画素を、画面上の単なる点としてではなく有限の矩形領域として扱うということがある。画素内の多くの点での色を算出すること、あるいは、複数のプリミティブにおける画素に重なった部分的な範囲を監視しておくことにより、最終的な画素の色を、関連部分全ての加重平均とすることができる。画素内の多くの点からの情報を取り込むことにより、画素単位のサンプリングで表現されるには精細すぎる細部を、適切に寄与させることになる。
【０００８】
引き続き、図１Ａ−１乃至図１Ａ−３の画像１０を参照する一方で、アンチエイリアシングされた円は、図１Ａ−４で表現されうる。図１Ａ−４に、アンチエイリアシング１６が、ギザギザのエッジを除去するのに役立って、画像がより写実的になっている様子を示す。
【０００９】
図１Ｂ−１に、アンチエイリアシング処理を採用していない非集積型の従来のグラフィクスシステムの実装例を示す。図示の如く、オフチップ処理モジュール２０（すなわちラスタライザ）は、第１の専用メモリ２２を有する。実際には、オフチップ処理モジュール２０は、第２の専用メモリ２６を有する画素断片プロセッサ２４へと、データを供給する。エイリアシング防止策なしで、オフチップ処理モジュール２０及び画素断片プロセッサ２４は、いずれも、並行して同様の速度で、それぞれのメモリに対して、又はからのデータの通信を行う。
【００１０】
図１Ｂ−２に、アンチエイリアシング処理を採用した非集積型の従来のグラフィクスシステムの実装例を示す。処理の際、画素断片プロセッサは、第２の専用メモリ２６内のグラフィクスデータに対して、アンチエイリアシングのサンプリング条件に対応させるため、加速された速度（すなわち×４）でアクセスする必要がある。このボトルネックにより、コンピュータグラフィクス処理が遅くなり、第１の専用メモリ２２は、４クロックサイクル中の３クロックサイクルが無駄になる。
【００１１】
図１Ｂ−３に、アンチエイリアシング処理を採用した非集積型の従来のグラフィクスシステムの実装例を示す。この実装例は集積化されていないため、ラスタライザが画像をレンダリングした後にフィルタ処理後ルーチンを実行するために、追加のフィルタ処理後ロジック３０が、採用される必要がある。そのロジックの多くは、オフチップ処理モジュール２０のロジックと重複するので、これは、コストに悪影響を与える。
【００１２】
このように、非集積型のグラフィクスシステムの実装例に、アンチエイリアシングを組み込むと、メモリの帯域幅を有効利用できず（図１Ｂ−２参照）、高価な追加のロジックが必要になる（図１Ｂ−３参照）。
【００１３】
一般に、単一のチップ上に複数の処理モジュールを実装して製造するコストにより、集積化が制限されることが多い。チップサイズが大きくなるにつれ、集積回路のコストが急激に上昇するため、グラフィクス処理の分野では、高速化のために様々なモジュールを集積するあらゆる試みが、法外なまでに高コストとなりうる。高性能の変換及び光源処理エンジンは、単体としてもかなりの領域を要するものであるため、チップ上に実装するにはコストがかかる。機能を追加するためにオンチップのロジックを追加すると、サイズが大きくなり、チップのコストが法外なレベルに上昇してしまう。
【００１４】
従って、非集積型のプラットフォーム上のアンチエイリアシングに固有の欠点を克服する費用効果の高いコンピュータグラフィクス・パイプラインの集積化に対する需要が存在する。
【００１５】
〔発明の開示〕
グラフィクス処理用のグラフィクス・パイプライン・システムが提供される。このようなシステムには、頂点データを取得するように適合した変換モジュールが、含まれている。この変換モジュールは、頂点データを、第１の空間から第２の空間へと変換する役割を果たす。変換モジュールに対して接続されているのが、光源処理モジュールである。この光源処理モジュールは、変換モジュールから取得したデータに対して光源処理演算を実行するために、単一の半導体プラットフォーム上に配置されている。また、光源処理モジュールに対して接続されたラスタライザが、含まれている。このラスタライザは、光源処理モジュールから取得したデータをレンダリングするために、単一の半導体プラットフォーム上に配置されている。使用中は、グラフィクスのレンダリングの質を向上させるために、アンチエイリアシング機能が実行される。
【００１６】
このような集積化により、アンチエイリアシング機能を組み込んだ非集積型システムに関連した欠点の多くが克服される。そのため、アプリケーションは、単一の半導体プラットフォームに対応づけられたアンチエイリアシング機能を、標準的なインタフェースを介して呼び出すことにより、このように向上した内容を利用することができる。
【００１７】
本発明のこれらの利点及び他の利点は、以下の詳細な説明を読んで種々の図面を検討することにより、明らかになるであろう。
【００１８】
〔好ましい実施形態の説明〕
上述及び他の側面及び利点は、図面を参照した以下の本発明の好適な実施形態の詳細な説明によって、よりよく理解されることになる。
【００１９】
図１乃至図２Ｂ−３に、従来技術を示す。図１Ｃは、本発明の一実施形態の種々のコンポーネントを示すフローチャートである。図示の如く、本発明は、頂点属性バッファ（ＶＡＢ）５０、変換モジュール５２、光源処理モジュール５４、及び、セットアップモジュール５７を有するラスタ化モジュール５６等の複数のモジュールに分割されている。一実施形態では、上記各モジュールは、以下により詳細に説明する方式で、単一の半導体プラットフォーム上に位置している。ここでの説明では、単一の半導体プラットフォームとは、単独で単体の半導体ベース集積回路又はチップのことである。なお、単一の半導体プラットフォームという用語は、オンチップ動作をシミュレートして、通常のＣＰＵ及びバスの実装を利用することよりも実質的に進歩した、接続性の高いマルチチップモジュールのことでもある。
【００２０】
処理の際に、ＶＡＢ５０は、位置、法線(normal)、色、テクスチャ座標等と言った複数の頂点属性の状態を集めて保持するために組み込まれている。完成した頂点は、変換モジュール５２により処理されて、光源処理モジュール５４へと送られる。変換モジュール５２は、光源処理モジュール５４による光源処理のためにベクトルを生成する。光源処理モジュール５４からの出力は、次段にてプリミティブをセットアップするセットアップモジュールに適した画面空間データである。その後、ラスタ化モジュール５６は、プリミティブのラスタ化を実行する。なお、変換及び光源処理モジュール５２，５４は、コマンドが一旦開始したならば常に終了するように、コマンドレベルでのみストールする。上述のコンポーネントに関してのより詳細な情報については、以下で詳細に述べる。
【００２１】
上述の集積化により、性能の向上が達成されるので、非集積型のシステムにおける多くの欠点が克服される。アプリケーションは、本発明の種々のハードウェア機能を、標準的なインタフェースを介してこのような機能を呼び出すことにより利用してもよい。
【００２２】
このようなインタフェースは、開発者に対して、開発者のここに述べるハードウェア機能へのアクセス性を向上させる一組のＡＰＩ（アプリケーション・プログラミング・インタフェース）を提供してもよい。このことは、アプリケーションソフトウェアとここで説明する様々なハードウェア機能との交信にソフトウェアドライバを用いるハードウェア・アブストラクション・レイヤを用いることにより達成されてもよい。結果として、開発者は、本発明の様々なハードウェア機能の詳細を気にせずに、インタフェースが利用された製品のただ１つのバージョンを記述すればよい。
【００２３】
さらに、このインタフェースは、開発者に対して、ここでの説明における様々なハードウェア機能を利用するツールを提供してもよい。それにより、ハードウェアの機能が自動的に決定され、アプリケーションのパラメータが適合するように設定されてもよい。さらに、このインタフェースには、開発者がアプリケーションの基礎となる要素を作成するのに利用可能なコンポーネントのライブラリが含まれていてもよい。このライブラリは、プログラマに対して、該プログラマの製品に用いるのに、事前に存在するインタフェース及び要素の大規模なグループを提供することにより、開発過程を簡略化する。
【００２４】
このように、インタフェースを構成するコンポーネントにより、技術の進歩の大部分が得られるように設計された柔軟なプラットフォームが提供される。このようなコンポーネントの例として、本発明のハードウェアに対応させて作成可能であり、及びここで述べる進歩の大部分が確実に得られるような特別なドライバがある。さらなる例として、アンチエイリアシング機能、又は他の型のグラフィクス処理向上機能が組み込まれたものがある。
【００２５】
このように、標準化されたプログラミング・インタフェースが、ここで説明される様々なハードウェア機能とのインタフェースになるように、アプリケーション開発者に対して提供される。さらに、これにより、ハードウェアの機能を標準化された方法でアプリケーション開発者に公開する方法が提供される。このような標準化されたプログラミング・インタフェースにより、アプリケーションとハードウェアとが相互作用するためのより統一的に容易にサポート可能な方法が提供されてもよい。上述のものと同様の特徴を備えたインタフェースの例としては、マイクロソフト（登録商標）ダイレクトＸ（登録商標）がある。
【００２６】
一実施形態において、本発明には、オープン・グラフィクス・ライブラリ（OpenGL（登録商標））及びＤ３Ｄ（商標）の変換及び光源処理パイプラインを少なくとも部分的に採用したハードウェアの実装が含まれる。OpenGL（登録商標）は、２次元及び３次元グラフィックイメージを規定するためのコンピュータ業界での標準的なアプリケーション・プログラム・インタフェース（ＡＰＩ）である。OpenGL（登録商標）によると、アプリケーションは、OpenGL（登録商標）に準拠したグラフィクスアダプタを用いたあらゆるオペレーティングシステムで、同様の結果を得ることができる。OpenGL（登録商標）は、コマンドの組、又は即時実行関数を指定する。各コマンドは、描画動作を指令するか、あるいは特別な効果をもたらす。
【００２７】
図１Ｃに示したモジュールに関連した種々の機能について説明する。図２は、本発明の一実施形態によるＶＡＢ５０を示す図である。図示の如く、ＶＡＢ５０は、頂点及びモードビット２０２の属性を表すデータビット２０４を格納するとともに、コマンドビット２００を渡す。実際にはＶＡＢ５０は、頂点のデータビット２０４を取得してドレイン（drain）する。
【００２８】
ＶＡＢ５０は、複数の頂点属性状態としてとりうるものを、データビット２０４を通じて取得して格納するようになっている。実際には、このようなデータビット２０４すなわち頂点データがＶＡＢ５０に取得されて格納された後、その頂点データは、ＶＡＢ５０からグラフィクス処理モジュールすなわち変換モジュール５２へと出力される。さらに、コマンドビット２００は、頂点データが他の処理に加えてＶＡＢ５０へと出力される方式を決定するために、ＶＡＢ５０によって渡される。これについては、図２Ａを参照して詳細に述べる。このようなコマンドビット２００は、該コマンドビット２００を生成可能なマイクロコントローラ、ＣＰＵ、データソース、又は他の型の供給源等のコマンドビットソースから取得される。
【００２９】
さらに、複数の処理動作モードの状態を示すモードビット２０２が渡される。このように、モードビット２０２は、頂点データが後続のグラフィック処理モジュールで処理される方式を決定するのに適合している。このようなモードビット２０２は、該モードビット２０２を生成可能なマイクロコントローラ、ＣＰＵ、データソース又は他の型の供給源等のコマンドビットソースから取得される。
【００３０】
なお、ＶＡＢ５０に関連した種々の機能は、専用のハードウェア、ソフトウェア又は他の型のロジックによって管理される。様々な実施形態において、モードビット２０２として６４，１２８，２５６又は他の値が用いられてもよい。
【００３１】
また、ＶＡＢ５０は、１２８ビット形式へと変換する必要のある６４ビットデータ用の集積点としても機能する。ＶＡＢ５０の入力は６４ビット／サイクルであり、出力は１２８ビット／サイクルである。他の実施形態では、ＶＡＢ５０は、１２８ビットデータ用の集積点としても機能し、ＶＡＢ５０の入力は、１２８ビット／サイクル、又は他の組み合わせであってもよい。さらに、ＶＡＢ５０には、複数の頂点属性用に予約済みのスロットがあり、これらは全て、ＩＥＥＥの３２ビット浮動小数である。このようなスロットの数は、ユーザの要望に応じて様々である。テーブル１に、本発明にて採用されている典型的な頂点属性を示す。
【００３２】
【表１】

【００３３】
処理の際、ＶＡＢ５０は、ｘ，ｙの書込時に、ｚ，ｗ対がデフォルトで（０．０，１．０）となるようにできるため、ｘ，ｙデータ対がｚ，ｗデータ対より前に書き込まれるものと仮定して動作してもよい。このことは、OpenGL及びＤ３Ｄにおけるデフォルトのコンポーネントにとって重要となりうる。なお、position，testure0，及びtesture1スロットは、第３及び第４のコンポーネントをデフォルトで（０．０，１．０）にする。さらに、diffuse colorスロットは、第４のコンポーネントをデフォルトで（１．０）とし、textureスロットは第２のコンポーネントをデフォルトで（０．０）とする。
【００３４】
ＶＡＢ５０には、データビット２０４が乱れないように、変換及び光源処理モジュール５２及び５４へ又は通じて、渡されるデータビット２０４を集めるのに用いられる他のスロット２０５が含まれている。スロット２０５におけるデータビット２０４は、浮動小数点又は整数形式であってもよい。上述の如く、各頂点のデータビット２０４には、対応するモードビット２０２の組がある。モードビット２０２は、モードを表し、データビット２０４の処理に影響を与える。これらモードビット２０２は、データビット２０４とともに、以下により詳細に説明する目的で、変換及び光源処理モジュール５２，５４へそれぞれと渡される。
【００３５】
一実施形態では、ＶＡＢ５０により取得される有効なＶＡＢ、変換及び光源処理コマンドが１８個あってもよい。図２Ａは、本発明に係る一実施形態にてＶＡＢ５０により取得されうる種々のコマンドの説明図である。なお、図２Ａに示したロード（load）及び読取（read）のコンテクストのあらゆるコマンド、及び通過（passthrough）コマンドは、１２８ビットまでのデータワード又は他のサイズのデータワードを転送するものである。
【００３６】
図２Ａの各コマンドには、データビット２０４の各組がＶＡＢアドレスの高位のダブルワードに書き込まれるのか又は低位のダブルワードに書き込まれるのかを指示する制御情報が含まれていてもよい。さらに、２ビットの書込マスクが、ワードレベルでの制御を提供するために用いられてもよい。さらに、現行のコマンドを実行するのにデータビット２０４の全てが存在していることをＶＡＢコントローラに伝達する開始ビットがあってもよい。
【００３７】
各コマンドには、当該コマンドがコンテクストメモリから読み取る読取コマンドであるか又はコンテクストメモリに書き込む書込コマンドであるかについての情報を、参照して検出できるようになる対応したストールフィールドがある。現在実行中のコマンドのストールフィールドを用いることにより、新規のコマンドは、競合が生じたときに延期されるか、あるいは続行が許可されてもよい。
【００３８】
処理の際、ＶＡＢ５０は、１サイクル当たり１２８ビットまで（又は他のサイズ）の１つの入力データワード、及び１サイクル当たり１２８ビットまで（又は他のサイズ）の１つの出力データワードを受け入れることができる。ロードコマンドに関して、このことは、ＶＡＢ５０へとデータをロードして１２８ビットのククッドワード（quad word）を作成するのに２サイクルかかり、それを転送するのに１サイクルかかることを意味する。光源処理モジュール５４のスカラーメモリについては、完全なククッドワードを蓄積する必要がなく、１アドレス当たり１サイクルでロード可能である。１つの頂点について、７つのＶＡＢスロットをロードするのに１４サイクルまでものサイクル数を要するが、それをドレインするのには７サイクルかかるだけである。但し、頂点状態を更新するのには、実行中の頂点コマンドが変化することだけが必要とされる。このことは、頂点データをドレイン転送するのに７サイクルかかるのに対して、ある場合には、頂点位置が２サイクルで更新されうることを意味する。なお、ｘ，ｙ位置の場合には、１サイクルが必要となるだけである。
【００３９】
図２Ｂは、グラフィクス処理の際に頂点属性をＶＡＢ５０へとロードすること及びそこからドレインすることの一方法を示すフローチャートである。最初に、処理２１０では、少なくとも１組の頂点属性が、処理されるべくＶＡＢ５０に取得される。上述の如く、頂点属性の各組は、ユニークであって、単一の頂点に対応していてもよい。
【００４０】
処理２１２では、実際には頂点属性は、取得されるとＶＡＢ５０内に格納される。さらに、格納された頂点属性の各組は、変換モジュール５２における複数の入力バッファの対応する１つへと転送される。また、処理２１６に示されるように、取得された頂点属性の組は、取得された頂点属性に対応するものとしてＶＡＢ５０内に現在格納されている別の組の頂点属性があるかどうか決定するために、監視される。
【００４１】
格納された頂点属性が取得された頂点属性に対応していると、判別２１７にて決定されると、格納された頂点属性は、命令外で変換モジュール５２に対応する入力バッファへと出力される。処理２１８を参照されたい。格納された頂点属性が出力されると直ちに、対応して入力される頂点属性が、ＶＡＢ５０においてその位置を占めることになる。一方、対応が検出されなければ、格納された頂点属性の各組は、予め定められた正規の順序で、変換モジュール５２における対応する入力バッファへと転送されることになる。処理２１９を参照されたい。
【００４２】
なお、格納された頂点属性は、対応する開始コマンドがあれば、上述の方式で転送されないこともある。さらに、上述の方法が適切に機能するように、ＶＡＢ５０の出力の帯域幅は、少なくともＶＡＢ５０の入力の帯域幅になっている必要がある。
【００４３】
図２Ｃは、図２Ｂの処理を実装するために用いられた本発明に係る構成を示す図である。図示の如く、ＶＡＢ５０は、データ書込端子ＷＤ、データ読取端子ＲＤ、アドレス書込端子ＷＡ、及びアドレス読取端子ＲＡを有する。データ読取端子は、データビット２０４をＶＡＢ５０から出力するために、第１のクロック制御バッファ２３０に接続している。
【００４４】
また、第１のマルチプレクサ２３２が含まれている。この第１のマルチプレクサ２３２は、ＶＡＢ５０のアドレス読取端子及び第２のクロック制御バッファ２３４に接続した出力を有する。第１のマルチプレクサ２３２の第１の入力は、ＶＡＢ５０のアドレス書込端子に接続しており、第１のマルチプレクサ２３２の第２の入力は、第２のマルチプレクサ２３６の出力に接続している。論理モジュール２３８は、第１及び第２のマルチプレクサ２３２，２３６と、ＶＡＢ５０のアドレス書込端子と、第２のクロック制御バッファ２３４の出力との間に接続されている。
【００４５】
実際には論理モジュール２３８は、入力してくる頂点属性が、ＶＡＢ５０へと転送されるのに待ちになっているかどうか決定する役割を果たす。一実施形態では、頂点属性が待ちになっているかどうかを示すビットレジスタを監視することが、この決定に役立つ。入力してくる頂点属性について、ＶＡＢ５０に現在あるものの中に対応するものがあると決定されると、論理モジュール２３８は、入力してくる頂点属性を直ちにその位置に格納できるように、対応する頂点属性をドレインするために、第１のマルチプレクサ２３２を制御する。一方、入力してくる頂点属性について、現在ＶＡＢ５０中に対応するものがないと決定されると、論理モジュール２３８は、ＶＡＢ５０からのドレインがなされるとともに、入力してくる頂点属性が順次、又は他の所定の順番で、ロードされるように、当該論理モジュール２３８により更新されうる第２のマルチプレクサ２３６の入力に従って、第１のマルチプレクサ２３２を制御する。
【００４６】
このため、ＶＡＢ５０は、新規に入力される頂点属性がロードされる前に、複数の頂点属性をドレインする必要はない。待ちとなった頂点属性は、可能ならば、ＶＡＢにおける対応するものを強制的に出力することにより、続行可能となる。このため、ＶＡＢ５０は、任意の順序でドレインされうる。この機能がなければ、ＶＡＢ５０からの転送に７サイクルかかり、場合によると、ロードするのにさらに１４サイクルかかる。ロードとドレインとを重複させることにより、より高い性能が達成される。なお、これは、入力バッファが空で、ＶＡＢ５０から変換モジュール５２の入力バッファへの転送が可能な場合にのみ可能である。
【００４７】
図３に、本発明に係る一実施形態によるＶＡＢ５０に関連したモードビットを示す。変換／光源処理モード情報は、モードビット２０２を介してレジスタに格納される。モードビット２０２は、以下で明らかになる方式で、変換モジュール５２及び光源処理モジュール５４のシーケンサを駆動するのに用いられる。各頂点には、ユニークでありうる対応したモードビット２０２があるので、特別に調整されたプログラムシーケンスを実行可能である。モードビット２０２は一般的にグラフィクスＡＰＩに直接マップしており、そのうちのいくつかが見出されてもよい。
【００４８】
一実施形態では、図３のアクティブ光ビット（ＬＩＳ）は、連続していてもよい。さらに、パススルービット（ＶＰＡＳ）はオンになった場合にユニークであり、頂点データは拡大縮小及びバイアスを伴って渡され、変換や光源処理は行われない。ＶＰＡＳが真のときに用いられうるモードビット２０２には、テクスチャ分割ビット（ＴＤＶ０，１）及びフォグビット（foggen bits）（Ｄ３Ｄでフォグ値を抽出するのに用いられる）がある。このように、ＶＰＡＳは、事前変換データのために用いられ、ＴＤＶ０，１は、Ｄ３Ｄのコンテクストにおけるシリンドリカルラップ（cylindrical wrap）モードを扱うのに用いられる。
【００４９】
図４に、本発明に係る一実施形態の変換モジュールを示す。図示の如く、変換モジュール５２は、６個の入力バッファ４００を介してＶＡＢ５０に接続している。一実施形態では、各入力バッファ４００は、そのサイズが７＊１２８ｂである。これら６個の入力バッファ４００は、その各々が７ククッドワードを格納可能である。このような入力バッファ４００は、パスデータが位置データと重複していること以外は、ＶＡＢ５０と同様のレイアウトに従っている。
【００５０】
一実施形態では、入力バッファ４００がロードされた、以前のインスタンス以来、データが変更されたかどうかを示すために、各入力バッファ４００の各属性用に１ビットが指定されている。この設計により、各入力バッファ４００は、データが変更されたときにのみロードされることになる。
【００５１】
さらに、変換モジュール５２は、光源処理モジュール５４の６個の出力頂点バッファ４０２に接続している。出力バッファには、第１のバッファ４０４、第２のバッファ４０６、及び第３のバッファ４０８が含まれている。以降明らかになるように、第３のバッファ４０８の内容、すなわち位置、テクスチャ座標データ等は、光源処理モジュール５４では使用されない。一方、第１のバッファ４０４及び第２のバッファ４０６は、いずれも、光源処理及びカラーデータを光源処理モジュール５４に入力するのに用いられる。光源処理モジュールが２つの読取入力を取り扱うようになっているので、２つのバッファが用いられている。なお、データは、読取が競合する問題を防止するように配列されていてもよい。
【００５２】
さらに、変換モジュール５２に接続しているものとして、コンテクストメモリ４１０、及びマイクロコードＲＯＭメモリ４１２がある。変換モジュール５２は、オブジェクト空間の頂点データを画面空間へと変換する役割、及び光源処理モジュール５４で必要とされるあらゆるベクトルを生成する役割を果たす。また、変換モジュール５２は、スキニング及びテクスチャ座標を処理する。一実施形態では、変換モジュール５２は、４つの浮動小数を並列処理する１２８ビット設計であってもよく、４項点乗積（4 term dot products）処理用に最適化されていてもよい。
【００５３】
図４Ａは、本発明の一実施形態により変換モジュール５２にて複数のスレッドを実行する方法を示すフローチャートである。処理の際、変換モジュール５２は、インターリービングにより３つの頂点を並列処理可能である。そうして、コマンド間に、コンテクストメモリ４１０に対しての書込とそれに続く読取といったストール状態がなければ、３つのコマンドが同時に並列的に実行可能である。３つの実行スレッドは、それぞれ独立しており、これらはどのようなコマンドであってもよい。頂点には全て、ユニークに対応するモードビット２０２があるためである。
【００５４】
図４Ａに示すように、複数のスレッドを実行する方法には、処理４２０において、実行されるべき現行のスレッドを決定することが含まれる。この決定は、グラフィクス処理モジュールが処理を完了するために要するサイクル数を識別して監視することによりなされてもよい。サイクルを監視することにより、各スレッドを１サイクルに割当可能となるので、現行のサイクルに基づいて現行のスレッドを決定可能となる。なお、このような決定は、効率的であると思われる所望の方式でなされてもよい。
【００５５】
次に、処理４２２では、現行のサイクルで実行されるスレッドに対応した命令が、対応するプログラムカウンタ番号を用いて取得される。その後、処理４２４にて、グラフィクス処理モジュールで当該命令が実行される。
【００５６】
一利用例では、即時の方法には、第１のプログラムカウンタに従い、最初に第１の命令又はコードセグメントにアクセスすることが含まれている。上述のように、このようなプログラムカウンタは、第１の実行スレッドに対応している。次に、第１のコードセグメントが、グラフィクス処理モジュールで実行される。すぐに明らかになるように、このようなグラフィクス処理モジュールは、加算器、乗算器、若しくは他の機能ユニット、又はその組み合わせという形態をとってもよい。
【００５７】
グラフィクス処理モジュールは、実行を完了するのに２クロックサイクル以上を要するので、第２のコードセグメントは、第２のプログラムカウンタに従って、第１のコードセグメントの実行から１クロックサイクル後に、直ちにアクセスされてもよい。第２のプログラムカウンタは、第２の実行スレッドに対応しており、ここでは、各実行スレッドが、ユニークな頂点を処理する。
【００５８】
そうして、第２のコードセグメントは、グラフィクス処理モジュールでの第１のコードセグメントの実行完了前に、そのグラフィクス処理モジュールにて処理が開始されてもよい。実際のグラフィクス処理モジュールには、各スレッドが出力を発生するのに、いずれも所定数のサイクルを要する。このように、本例の様々なステップが、所定数のサイクル毎に繰り返されてもよい。
【００５９】
この技術により、従来技術に対しての数々の利点が得られる。無論、本発明に係る機能ユニットは、より効率的に利用される。さらに、制御コードは、複数スレッド方式の使用が前提となる場合には、より効率的に記述されてもよい。
【００６０】
例えば、グラフィクス処理モジュールに、回答を出力するのに３クロックサイクルを要するマルチプレクサが含まれる場合、ａ＝ｂ＊ｃ及びｄ＝ｅ＊ａといった後続の命令間に、２つのノーオペレーションコマンドが必要となることがある。これは、３クロックサイクルが経過するまで“ａ”が入手不能なためである。但し、本実施形態では、このようなコードが３クロックサイクル毎に呼び出される３つの実行スレッドのうちの１つとして実行されるものとみなされるので、単純にそのコードはａ＝ｂ＊ｃの直後にｄ＝ｅ＊ａを呼び出す。
【００６１】
図４Ｂは、図４Ａの方法が実行される方式を示すフローチャートである。図示の如く、各実行スレッドには、命令メモリ４５２内の命令又はコードセグメントにアクセスするのに用いられる対応するプログラムカウンタ４５０がある。そして、このような命令は、加算器４５６、乗算器４５４、及び／又は逆論理ユニット（inverse logic unit）若しくはレジスタ４５９等のグラフィクス処理モジュールを実行するのに用いられる。
【００６２】
上記処理モジュールの少なくとも２つがタンデムで用いられる状況に対応するために、グラフィクス処理モジュール間に、少なくとも１つのコードセグメント遅延４５７が用いられる。３スレッド形式が用いられる場合、３クロックサイクルのコードセグメント遅延４５７が用いられる。一実施形態では、乗算命令に加算命令が続くときに、コードセグメント遅延４５７が用いられる。このような場合には、乗算器４５６が出力を発生するのに充分な時間が確実に経過するように、乗算命令実行後に３サイクル経過するまで、加算命令は実行されない。
【００６３】
各命令の実行後、現行の実行スレッドのプログラムカウンタ４５０が更新されて、次の実行スレッドのプログラムカウンタが、対応する命令にアクセスするためにラウンドロビンシーケンス（round robin sequence）で、モジュール４５８により呼び出される。なお、プログラムカウンタは、これらに限定されるものではないが、インクリメント、ジャンプ、コール及びリターン、テーブルジャンプの実行、及び／又はディスパッチング等のどのような方式で用いられてもよい。ディスパッチングとは、取得したパラメータに基づいてコードセグメント実行の開始点を決定することである。さらに、この複数スレッド実行形式は、本発明に係るグラフィクス処理パイプラインの光源処理モジュール５４にも応用されうることを、理解することが重要である。
【００６４】
３スレッド形式が用いられる場合、各スレッドには、１度に、１個の入力バッファ及び１個の出力バッファが割り当てられる。このことにより、３つのコマンドを処理しつつ、データを伴う３つのコマンドをさらにロードすることが可能となる。入力バッファ及び出力バッファは、図２７及び図２８を参照して後述する方式にて、ラウンドロビンシーケンスで割り当てられる。
【００６５】
このように、実行スレッドは、一時的かつ機能的にインターリービングされる。これは、各機能ユニットが、３段階にパイプラインされて、各スレッドが１度に１段階を占めることを意味する。一実施形態では、３スレッドが、同じシーケンス、すなわち０の次に１、次に３で常に実行されるように設定されていてもよい。概念上、スレッドは、ｔ＝クロック・モジュロ３で機能ユニットに入る。一旦、機能ユニットが処理を開始すると、結果が得られるまでに３クロックかかる（６かかるＩＬＵを除く）。この時間で、同スレッドが再びアクティブになる。
【００６６】
図５に、本発明に係る一実施形態による図４の変換モジュール５２の機能ユニットを示す。図示の如く、頂点データを取得するためにＶＡＢ５０に接続するように適合した入力バッファ４００が含まれている。
【００６７】
メモリ論理ユニット（ＭＬＵ）５００には、入力バッファ４００の出力に接続した第１の入力がある。オプションとして、ＭＬＵ５００の出力は、第１の入力に接続したフィードバックループ５０２を有していてもよい。
【００６８】
また、ＭＬＵ５００の出力に接続した第１の入力を有する演算論理ユニット（ＡＬＵ）５０４が設けられている。さらに、ＡＬＵ５０４の出力は、第２の入力に接続したフィードバックループ５０６を有する。このようなフィードバックループ５０２は、そこに接続した遅延５０８をさらに有していてもよい。ＡＬＵ５０４の出力に接続しているのは、レジスタユニット５１０の入力である。なお、レジスタユニット５１０の出力は、ＭＬＵ５００の第１及び第２の入力に接続している。
【００６９】
逆演算又は逆平方根演算を実行するためにＡＬＵ５０４の出力に接続した入力を含んだ逆論理ユニット（ＩＬＵ）５１２が、設けられている。代替的な実施形態では、ＩＬＵ５１２には、レジスタユニット５１０の出力に接続した入力が、含まれていてもよい。
【００７０】
さらに、ＩＬＵ５１２の出力とＭＬＵ５００の第２の入力との間に接続された変換又はスメアリング（smearing）モジュール５１４が含まれている。実際の変換モジュール５１４は、スカラー頂点データをベクトル頂点データに変換する役割を果たす。これは、スカラーデータにベクトルを乗じて、乗算器及び／又は加算器等のベクトル演算子がそれを処理するようにして達成される。例えば、スカラーであるＡが、変換後、ベクトル（Ａ，Ａ，Ａ，Ａ）となりうる。代替的な実施形態では、スメアリングモジュール５１４は、ＭＬＵ５００に関連したマルチプレクサ、又は本発明の他のコンポーネント内に組み込まれてもよい。オプションとして、レジスタ５１６が、ＩＬＵ５１２の出力と変換ユニット５１４の入力との間に接続されてもよい。さらに、このようなレジスタ５１６がスレッド化されていてもよい。
【００７１】
メモリ４１０は、ＭＬＵ５００の第２の入力及びＡＬＵ５０４の出力に接続している。特に、メモリ４１０には、ＭＬＵ５００の第２の入力に接続した読取端子がある。さらに、メモリ４１０には、ＡＬＵ５０４の出力に接続した書込端子がある。
【００７２】
メモリ４１０は、入力バッファ４００、ＭＬＵ５００、ＡＬＵ５０４、レジスタユニット５１０、ＩＬＵ５１２、及び頂点データ処理用の変換モジュール５１４に関連して用いるために、複数の定数及び変数をそこに格納する。このような処理には、オブジェクト空間の頂点データを画面空間の頂点データに変換すること、ベクトルを生成すること等が含まれていてもよい。
【００７３】
最後に、出力コンバータ５１８が、ＡＬＵ５０４の出力に接続されている。出力個バータ５１８は、出力バッファ４０２を介して光源処理モジュール５４に接続して、処理された頂点データをそこへ出力する役割を果たす。ＩＬＵ以外の全てのデータパスは、１２８ビットに設計されていてもよく、他のビット数のデータパスが用いられてもよい。
【００７４】
図６は、本発明に係る一実施形態による図５の変換モジュール５２のＭＬＵ５００を示す図である。図示の如く、変換モジュール５２のＭＬＵ５００には、並列接続された４個のマルチプレクサ６００が含まれている。
【００７５】
変換モジュール５２のＭＬＵ５００は、２つの４要素のベクトルを異なる３通りの方法で乗算すること、又は、１つの４要素のベクトルを渡すことになる。ＭＬＵ５００は、乗算を実行可能である。テーブル２に、変換モジュール５２のＭＬＵ５００に関連したこのような演算を示す。
【００７６】
【表２】

【００７７】
Ａ及びＢの入力としてとりうるものを、表３に示す。
【００７８】
【表３】

【００７９】
表４に、クロス乗積のために用いられるベクトル回転オプションを示す。
【００８０】
【表４】

【００８１】
図７は、本発明に係る一実施形態による図５の変換モジュール５２のＡＬＵ５０４を示す図である。図示の如く、変換モジュール５２のＡＬＵ５０４には、並列／直列接続された３個の加算器７００が含まれている。実際の変換モジュール５２のＡＬＵ５０４は、３要素のベクトル２つを加算すること、４要素のベクトル１つを渡すこと、あるいはベクトル要素を出力に亘ってスメアリングすることができる。テーブル５に、変換モジュール５２のＡＬＵ５０４が演算可能な種々の演算を示す。
【００８２】
【表５】

【００８３】
テーブル６に、変換モジュール５２のＡＬＵ５０４の入力Ａ及びＢを示す。
【００８４】
【表６】

【００８５】
また、不変更（no change）、Ｂの否定、Ａの否定、Ａ，Ｂの絶対値を作用させることにより、入力Ａ及びＢの符号ビットを変更可能である。なお、ＡＬＵ５０４がスカラー頂点データを出力すると、このスカラー頂点データは、各出力がスカラー頂点データを表すという意味で、出力に亘ってスメアリングされる。ＭＬＵ５００及びＡＬＵ５０４の各パス制御信号は、演算の際に特殊な値の取扱を禁止可能である。
【００８６】
図８は、本発明に係る一実施形態による図５の変換モジュールのベクトルレジスタファイル５１０を示す図である。図示の如く、ベクトルレジスタファイル５１０には、４組のレジスタ８００が含まれている。各レジスタ８００は、対応するマルチプレクサ８０２の第１の入力に接続した出力、及び対応するマルチプレクサ８０２の第２の入力に接続した入力を有する。
【００８７】
本発明に係る一実施形態では、ベクトルレジスタファイル５１０は、スレッド化されている。すなわち、ベクトルレジスタファイル５１０の３つのコピーがあって、各スレッドが専用のコピーを有することになる。一実施形態では、各コピーには、８つのレジスタが含まれており、各レジスタは、大きさが１２８ビットで、４つの浮動小数を格納する。ベクトルレジスタファイル５１０は、ＡＬＵ５０４から書き込まれ、出力がＭＬＵ５００へとフィードバックされる。ベクトルレジスタファイル５１０では、１サイクル当たり、１回の書込及び１回の読取がある。
【００８８】
処理の際、各レジスタの内容に対して個別に、書込動作をマスク可能である。ベクトルレジスタファイル５１０は、書込アドレスが読取アドレスと同じであると、入力から出力へのバイパス・パス５１１により、待ち時間が０となる。この場合には、マスクされていない内容が、レジスタから取得されて、マスクされた内容がバイパスされてもよい。このように、ベクトルレジスタファイル５１０は、ベクトルを要素毎に作成すること、あるいは、ＡＬＵのＳＭＲ演算（テーブル５参照）に関連してベクトルの要素の順番を変更することに、非常に有用である。また、一時的な結果が、ベクトルレジスタファイル５１０内に格納されもよい。
【００８９】
図９は、本発明に係る一実施形態による図５の変換モジュールのＩＬＵ５１２を示す図である。図示の如く、変換モジュール５２のＩＬＵ５１２は、浮動小数の逆数（１／Ｄ）及び平方根の逆数（１／Ｄ＾（１／２））を発生可能である。このような演算を実行するために、２つの反復処理のいずれか１つが、仮数に対して実行されてもよい。このような処理は、所望の専用ハードウェアで実行されてもよいものであり、以下に示されている。
【００９０】
逆数（１／Ｄ）平方根の逆数（１／Ｄ＾（１／２））
x_n+1 = x_n (2-x_n*D) x_n+1 = (1/2)*x_n (3-x_n ²*D)
１）x_n(seed)のためテーブル参照 x_n(seed)のためテーブル参照
x_n x_n* x_n
２）第１の反復：乗算・加算第１の反復：乗算・加算
2-x_n*D 3-x_n ²*D
３）第１の反復：乗算第１の反復：乗算
x_n(2-x_n*D) (1/2)* x_n(3-x_n ²*D)
４）第２の反復：ｎｏ−ｏｐ第２の反復：平方
x_n+1を渡す x_n+1 ²
５）第２の反復：乗算・加算第２の反復：乗算・加算
2-x_n+1*D 3-x_n+1 ²*D
６）第２の反復：乗算第２の反復：乗算
x_n+1(2-x_n+1*D) (1/2)x_n+1(3-x_n+1 ²*D)
図示の如く、両処理は類似しており、設計が簡単になっている。なお、閾値となる精度が満たされるまで、反復が繰り返されることになる。
【００９１】
処理の際、ＩＬＵ５１２は、逆演算及び逆平方根演算を含む２つの基本的な演算を実行する。他のユニットとは異なり、出力を発生するのに６サイクルを要する。入力はスカラーであり、出力も同様である。上述のように、ＩＬＵ５１２の出力にてスレッド化保持レジスタ５１６は、次に有効な結果が発生するまで結果をラッチすることになっている。さらに、そのスカラー出力は、ＭＬＵ５００へと送り込まれる前に、ベクトルへとスメアリングされる。逆ユニット５１２は、仮数が約２２ビット以内の精度のＩＥＥＥ（米国電気電子技術者協会）出力を発生するために、参照テーブル及び２段階のニュートン−ラフソン反復を用いる。テーブル７に、変換モジュール５２のＩＬＵ５１２により実行される種々の演算を示す。
【００９２】
【表７】

【００９３】
上記のテーブル７のレンジクランプ逆演算（range clamp inversion operation）は、ラスタ化モジュール５６により取り扱われるクリッピング演算を可能にするために用いられうる。座標は、画面空間へと直接に変換される。このことは、同次クリップ空間ｗが０．０に近いときに問題となりうる。透視除算（perspective divide）にて１．０／０．０の乗算を防ぐために、１／ｗの計算は、最小及び最大の指数へとクランプされる。
【００９４】
図５に示すように、実際のコンテクストメモリ４１０は、ククッドワードを用いてのみ読み書きを行う。このメモリは、各サイクルにてＭＬＵ５００又はＡＬＵ５０４により読取可能であり、ＡＬＵ５０４により書込可能である。メモリ読取は、各サイクル当たり１回のみ可能である。読取が必要であると、命令の最初になされ、その３サイクル後にＡＬＵ５０４へとパイプライン処理される。コンテクストメモリ４１０は、必ずしもスレッド化される必要はない。
【００９５】
図１０は、本発明に係る一実施形態による図５の変換モジュールの出力コンバータ５１８の出力アドレス図である。出力コンバータ５１８は、出力を適切な宛先へ向け、データのビット精度を変更し、性能向上のためにデータをスウィズリング（swizzling）することを担当する。光源処理モジュール５４宛ての全てのデータは、Ｓ１Ｅ８Ｍ１３（１ビットの符号、８ビットの指数、１３ビットの仮数）としてまとめられた２２ビット浮動小数点形式に丸められる。図４に示すように、光源処理モジュール５４における宛先バッファ４０２は、スレッド化されている。
【００９６】
データ・スウィズリングは、ベクトルを生成する場合に有用である。この技術により、ベクトル生成時に代償を伴うことなく、距離ベクトル（１，ｄ，ｄ＊ｄ）を生成可能となる。距離ベクトルは、フォグ、ポイントパラメータ、及び光の減衰のために用いられる。これは、視線ベクトル（eye vector）及び光方向ベクトル（light direction vector）を用いてなされる。テーブル８に、このようなベクトルに関連した種々の演算を示す。なお、以下のテーブルにおいて、ベクトルの平方を、ｄ²＝ｄｏｔ［（ｘ，ｙ，ｚ），（ｘ，ｙ，ｚ）］とし、ｄ²を（ｘ，ｙ，ｚ）の要素ｗに格納する。
【００９７】
【表８】

【００９８】
なお、本発明で実行される数学は、常にＩＥＥＥに準拠しているというわけではない。例えば、“０”に任意の数を乗じたものは、“０”とみなされる。これは、ｄ＝ｄ²＊１／（ｄ²）^1/2，但しｄ＝０、といった式を処理するときに、特に有益である。上述の仮定なしには、このような数式はエラーとなるので、関連の計算を行う際に問題が発生する。
【００９９】
図１１は、本発明に係る一実施形態による図５の変換モジュールのマイクロコード体系の説明図である。変換モジュールのマイクロコードは、１５フィールドに配列され、全体で４４ビットである。フィールドは、ユニットのデータフローに合わせて遅延される。ＭＬＵ５００の演算は遅延０で実行され、ＡＬＵの演算は遅延１で実行され、ＲＬＵ、出力演算は遅延２で実行される。各遅延は、３サイクルに相当する。
【０１００】
図１２は、本発明に係る一実施形態による図５の変換モジュール５２のシーケンサ１２００を示す図である。図１２に示すように、変換モジュール５２のシーケンサ１２００には、演算処理の複数のモードの状態を示すモードビットをＶＡＢ５０から取得するように適合したバッファ１２０２が含まれている。
【０１０１】
また、モードの状態に対応した演算処理を実行するのに適したコードセグメントを格納可能なメモリ４１２が含まれている。シーケンスモジュール１２０６は、メモリ４１２及び制御ベクトルモジュール１２０５間に接続されており、これは次に、モードビットから得られた制御ベクトルに基づいてメモリ４１２内の複数のアドレスを特定するために、バッファ１２０２に接続している。さらに、シーケンスモジュール１２０６は、変換モジュール５２を操作してデータを出力バッファ１２０７へと転送させるのに用いられうるコードセグメントを取得するために、メモリ４１２内のアドレスにアクセスするようになっている。
【０１０２】
図１３は、図１２の変換モジュール５２のシーケンサ１２００の使用に関連した種々の演算を示すフローチャートである。図示の如く、シーケンサ１２００は、変換又は光源処理にてグラフィクス処理をシーケンス処理するようになっている。処理１３２０では、最初に、演算処理の複数のモードの状態を示すモードビット２０２が取得される。一実施形態では、モードビット２０２は、ソフトウェアドライバから取得される。
【０１０３】
次に、処理１３２２では、メモリにおける複数のアドレスが、モードビット２０２に基づいて特定される。次に、このようなアドレスは、モードの状態に対応した演算処理を実行するのに適したコードセグメントを取得するために、メモリ内で処理１３２４にてアクセスされる。次に、コードセグメントが、変換又は光源処理モジュールで頂点データを処理するために実行される。処理１３２６を参照されたい。
【０１０４】
図１４は、図１２の変換モジュール５２のシーケンサ１２００のシーケンスモジュール１２０６の処理を示すフローチャートである。図示の如く、複数のモードレジスタ１４３０の各々には、ユニークなモードビット２０２の組が含まれており、１つの頂点に対応している。なお、モードレジスタ１４３０は、図４Ａ及び図４Ｂを参照して上述した方式で複数の実行スレッドが実行可能となるように、ラウンドロビンシーケンスでポーリングされる。
【０１０５】
一旦、現行の実行スレッドが選択されると、対応するモードビット２０２群が、処理１４３２にて復号される。モードビット２０２が処理１４３２で復号されると、対応する頂点データの処理のために、特定のコードセグメントがＲＯＭ１４０４内でアクセスされるべきかどうかを示すビットを複数含んだ制御ベクトルが得られる。
【０１０６】
コードセグメントがＲＯＭ１４０４内でアクセスされて実行されるべきであるかどうかが決定されると、ポインタ処理１４３６により、現行のスレッドポインタがインクリメントされ、これにより、次の実行スレッドを開始して、第２のモードビット２０２群を取得し、同様の処理を実行する。このことは、各スレッドについて、ラウンドロビンシーケンスで継続されることになる。
【０１０７】
一旦、特定のモードビット２０２群について制御ベクトルが形成されると、プライオリィティ・エンコーダ処理１４３８にて、制御ベクトルにおける次の“１”すなわち有効なビットが決定又は識別される。このようなビットが検出されると、プライオリィティ・エンコーダ処理１４３８にて、有効なビットに対応したＲＯＭ１４０４内のアドレスが、実行のために生成される。
【０１０８】
他のスレッドの処理後、最初のモードビット２０２群に戻り、モードビットが復号されて制御ベクトルが再び得られると、マスク処理１４３４が、識別済の “１”すなわち有効なビットをマスクするために用いられてもよい。これにより、マスク処理１４３４後に残りのビットの全てを解析可能となる。
【０１０９】
上述の処理は、以下の表を用いて説明されうる。テーブル９に、対象となる頂点データについて実行されうる複数の式を示す。
【０１１０】
【表９】

【０１１１】
ここに示すように、逆演算（ａ，ｂ＊ｃ，ｄ＊ｅ，ｆ，及び１／ｘ）の他に、合計されうる結果として、４つの可能性がある。次に、モードフィールドが定義されてもよい。テーブル１０に、モードフィールド対を示す。すなわち、ｍｏｄｅ．ｙ及びｍｏｄｅ．ｚであり、その各々には、テーブル９の演算の所定の組が割り当てられている。
【０１１２】
【表１０】

【０１１３】
その後、各演算は、メモリにおける対応するアドレスに配置されてもよい。テーブル１１に、複数のメモリアドレスを示す。各アドレスには、対応する演算がある。また、制御ベクトルの定義の組が示されている。
【０１１４】
【表１１】

【０１１５】
テーブル１２に、実行例を示す。
【０１１６】
【表１２】

【０１１７】
このように、変換モジュールのシーケンサ１２００は、スレッド化されたモードビット２０２から得られたスレッド化された制御ベクトルを処理してゆき、対応する制御ベクトルのビットが“真（ＴＲＵＥ）”に設定された全てのＲＯＭアドレスを実行する。制御ベクトルは、ＲＯＭと同じサイズである。シーケンサ１２００は、所定数のサイクル毎に“１”すなわち有効なビットを１つという速度で、任意の制御ベクトルを処理してゆくことができる。モードビット２０２を使用しないコマンドは単純であるため、その場でマイクロコードを生成することにより実行されてもよい。
【０１１８】
ユニークなモードビット２０２列でこのような状態を表現することにより、グラフィクス処理ハードウェアにおいて種々の演算の状態を判別するための複数のｉｆ−ｔｈｅｎ節が不要となる。このようにして、性能が向上する。概念上、プログラム言語中のｉｆ節は、あたかもシーケンサ１２００へと移行したようになる。これにより、モードビット２０２に示される“偽（ＦＡＬＡＥ）”状態の命令を即座にスキップすることになる。
【０１１９】
上述のように、モードビットにより識別される演算の種々の状態を取扱可能なコードセグメントが、ＲＯＭ内に格納されている。一実施形態では、モードビットにより示される各演算を取り扱うために、個別のコードセグメントが取得されてもよい。その代わりに、可能となる各演算又は演算の組み合わせを取り扱うために、１つの包括的なコードセグメントが記述されてもよい。但し、このような大きなコードセグメントを演算の各々の組み合わせ用に作成するには、追加のコード空間が必要となるので、共通して使用される演算の組み合わせに対してのみ、コードセグメントをモジュール化するとよい。
【０１２０】
一旦、頂点が実行を開始するとモードビット２０２は変化しないので、制御ベクトルは、シーケンサに入る前に頂点毎に一度のみ生成されればよい。但し、演算が繰り返されうる光源処理等のいくつかの場合で、これに対する例外が生じることがある。最後の頂点の命令が検出されると、シーケンス終端（ＥＯＳ）信号がアクティブになってもよい。これは、入力及び出力バッファの状態を変更するのに用いられてもよく、図２８Ａ及び図２８Ｂを参照して後述する方式で、次のコマンドを開始可能とするために用いられてもよい。なお、ＥＯＳ信号は、命令が取り扱われる方式と同様に宛先バッファを解放するために、パイプライン遅延される。図４Ｂを参照されたい。
【０１２１】
図１４Ａは、グラフィクス処理の際のスカラー及びベクトル頂点データの取扱を統合するために用いられる本発明の種々の機能コンポーネントを示すフローチャートである。図示の如く、機能上の一側面１４４０には、ベクトル頂点データを出力するために、処理モジュール、すなわち、加算器、乗算器等にベクトル頂点データを入力することが含まれる。機能上の他の側面１４４２では、ベクトル頂点データが、再びベクトル頂点データへと変換又はスメアリングされるスカラー頂点データを出力するベクトル処理モジュール、すなわち、加算器、乗算器等により処理される。
【０１２２】
機能上の別の側面１４４４では、ベクトル頂点データはマスクされて、スカラー頂点データへと変換され、その後、ベクトル頂点データ生成のために、メモリ、すなわち、レジスタ論理ユニット内に格納される。機能上のさらに別の側面１４４６では、スカラー頂点データが、ベクトル処理モジュール、すなわち、加算器、乗算器等により抽出されて、その次に、スカラー処理モジュール、すなわち、逆論理ユニットにより処理される。スカラー処理モジュールは、スカラー頂点データをレンダリングする。このスカラー頂点データは、再びベクトル頂点データへと変換される。
【０１２３】
図１４Ｂは、図５の変換モジュール５２に対応した図１４Ａに示す本発明に係る機能コンポーネントとしてとりうる組み合わせ１４５１を示すフローチャートである。なお、機能上の側面１４４４，１４４６は、図４Ｂを参照して上述したものと同様の方式で対応づけられた遅延を有していてもよい。図１４Ｃは、図１４Ａに示した本発明に係る機能コンポーネントとしてとりうる別の組み合わせ１４５３を示すフローチャートである。
【０１２４】
マルチプレクサは、図１４Ａ乃至図１４Ｃの機能モジュールにて、ベクトル頂点データからのスカラー頂点データの抽出を実行してもよい。また、このようなマルチプレクサは、様々な機能モジュールによる処理前に必要とされるあらゆるデータ・スウィズリングを担当してもよい。一実施形態では、マルチプレクサは、ベクトル頂点データを渡すとともに回転させることが可能で、他の処理用のＡＬＵのような他のグラフィクス処理モジュールに依存していてもよい。別の実施形態では、マルチプレクサは、代償なしに、属性を独立して任意に再設定可能であってもよい。
【０１２５】
図１４Ｄに、特定用途向けＩＣ（ＡＳＩＣ）等のハードウェア実装によるグラフィクス・パイプラインでのグラフィクス処理の際に、変換システムがブレンディング（blending）あるいはスキニング（skinning）処理を実行するように適合した方法を示す。パイプライン処理の際、処理１４７０では、複数の行列、複数の重み値（その各々が行列の１つに対応）、及び頂点データが取得される。なお、法線（normal）の頂点データには、追加の行列の組が必要であってもよい。
【０１２６】
次に、処理１４７２では、複数の積の和が算出される。なお、各積は、頂点データ、行列の１つ、及び該行列に対応した重みの乗算により算出される。そして、処理１４７４にて、このような積の和が、さらなる処理のために出力される。
【０１２７】
概略すると、以下の積の和が算出されることになる。
【０１２８】
式＃１
ｖ’＝Σｗ_i＊Ｍ_i＊ｖなお、ｉ＝１…ｘ
ここで、ｖ＝入力された頂点データ
ｗ＝重み値
Ｍ＝行列
ｘ＝行列の個数
ｖ’＝処理モジュールへの出力用の頂点データ
式＃２
ｎ’＝Σｗ_i＊Ｉ_i＊ｎなお、ｉ＝１…ｘ
ここで、ｎ＝入力された頂点データ（法線ベクトル）
ｗ＝重み値
Ｉ＝逆行列（逆転置行列）
ｘ＝逆行列の個数
ｎ’＝処理モジュールへの出力用の頂点データ（法線ベクトル）
式＃３
ｖ_s＝［Ｏ_x，Ｏ_y，Ｏ_z，φ］’＋
１／（ｖ’’_wc）＊［（ｖ’’_x），（ｖ’’_y），（ｖ’’_z），１］’
ここで、ｖ’’＝Ｃ＊ｖ’
ｖ’＝式＃１による積の和
Ｃ＝［Ｓ_x，Ｓ_y，Ｓ_z，１］’＊Ｐ
Ｐ＝投影行列
ｖ_s＝表示用の画面ベクトル
Ｏ＝ビューポート・オフセット
Ｓ＝ビューポート・スケール
なお、上述の重み値ｗ_iを表すには、多くの方法がある。例えば、式＃１及び式＃２にて、ｉ＝１…（ｘ−１）で、ｗ_x（ｗ_iにてｉ＝ｘ）として、式１−Σｗ_iにより算出されてもよい。このように重みｗ_iを表すことにより、重みｗの総和を確実に１にすることができる。
【０１２９】
一実施形態では、行列には、モデルのビュー行列（view matrix）が含まれていてもよく、積の和（ｖ’）が、光源処理によるさらなる処理のために出力されてもよい。式＃１を参照されたい。また、この積の和（ｖ’）は、合成行列（Ｃ）を用いることにより、表示の目的で、他の積の和（ｖ_s）を生成するのに用いられてもよい。式＃３を参照されたい。さらに、行列には、逆行列（Ｉ）が含まれていてもよく、頂点データには、法線ベクトルデータ（ｎ）が含まれていてもよい。このような場合には、追加の処理には、光源処理が含まれていてもよい。式＃２を参照されたい。
【０１３０】
図１５は、本発明の一実施形態による光源処理モジュール５４を示す図である。図示の如く、光源処理モジュール５４には、変換モジュール５２による頂点データの出力先であるバッファ４０２が含まれている。図示の如く、バッファ４０８は、経路１５０１により光源処理モジュール５４をバイパスする。さらに、コンテクストメモリ１５００及びマイクロコードＲＯＭメモリ１５０２が、光源処理モジュール５４に接続している。
【０１３１】
光源処理モジュール５４は、フォグ及びポイントパラメータに加えて、光源処理を取り扱うように適合している。実際の光源処理モジュール５４は、バッファのバイパス経路１５０１を制御し、拡散、点のサイズ、及び鏡面出力色（specular output colors）、並びにフォグ値（fog value）を算出する。なお、光源処理モジュール５４は、変換モジュール５２と同じモードビット２０２を用いている。
【０１３２】
さらに、光源処理モジュール５４は、変換モジュール５２よりも低い精度でよく、トリ・ワード（tri-words）構成の２２ビットの浮動小数点値（１．８．１３形式）を処理する。第３のバッファ４０８のデータが１２８ビットであるため、それには、光源処理モジュール５４を迂回するバイパス経路１５０１が利用される。光源処理モジュール５４はイベント駆動式であり、図４Ａ及び図４Ｂを参照して上述した変換モジュール５２と同様の方式で、３つのスレッドを同時に処理する。なお、光源処理モジュール５４には、外部からのコマンド起動許可が必要であってもよい。
【０１３３】
図１６は、本発明に係る一実施形態による図１５の光源処理モジュール５４の機能ユニットを示す図である。図示の如く、頂点データを取得するために変換システムに接続するように適合した入力バッファ４０２が含まれている。上述のように、入力バッファ４０２には、第１の入力バッファ４０４、第２の入力４０６、及び第３の入力バッファ４０８が含まれている。第１のバッファ４０４、第２の入力バッファ４０６、及び第３の入力バッファ４０８の入力は、変換モジュール５２の出力に接続している。第３のバッファ４０８の出力は、バイパスするために、遅延１６０８を介して光源処理モジュール５４の出力に接続している。
【０１３４】
さらに、第１の入力バッファ４０４の出力に接続した第１の入力と、第２の入力バッファ４０６の出力に接続した第２の入力とを有するＭＬＵ１６１０が含まれている。ＭＬＵ１６１０の出力は、その第２の入力に接続したフィードバックループ１６１２を有する。演算論理ユニット（ＡＬＵ）１６１４は、第２の入力バッファ４０６の出力に接続した第１の入力を有する。さらに、ＡＬＵ１６１４は、ＭＬＵ１６１０の出力に接続した第２の入力を有する。ＡＬＵ１６１４の出力は、光源処理モジュール５４の出力に接続している。なお、ＡＬＵ１６１４の出力及び第３の入力バッファ４０８の出力は、マルチプレクサ１６１６を介して、光源処理モジュール５４の出力に接続している。
【０１３５】
次に、ＡＬＵ１６１４の出力に接続した入力と、ＡＬＵ１６１４の第１の入力に接続した出力とを有する第１のレジスタユニット１６１８が設けられている。第２のレジスタユニット１６２０は、ＡＬＵ１６１４の出力に接続した入力を有する。また、このような第２のレジスタ１６２０は、ＭＬＵ１６１０の第１の入力と第２の入力とに接続した出力を有する。
【０１３６】
また、ＡＬＵ１６１４の出力に接続した第１の入力と、第１の入力バッファ４０４の出力に接続した第２の入力と、ＭＬＵ１６１０の第１の入力に接続した出力とを有する光源処理論理ユニット（ＬＬＵ）１６２２が設けられている。なお、ＬＬＵ１６２２の第２の入力は、第１の入力バッファ４０４の出力に、遅延１６２４を介して接続している。さらに、ＬＬＵ１６２２の出力は、先入れ先出しレジスタユニット１６２６を介して、ＭＬＵ１６１０の第１の入力に接続している。また、図１６に示すように、ＬＬＵ１６２２の出力は、変換モジュール１６２８を介して、ＭＬＵ１６１０の第１の入力にも接続している。処理の際、このような変換モジュール１６２８は、変換モジュール５２と同様の方式で、スカラー頂点データをベクトル頂点データへと変換するようになっている。
【０１３７】
最後に、メモリ１５００は、ＭＬＵ１６１０の複数の入力の少なくとも１つ及び演算論理ユニット１６１４の出力に接続している。特に、メモリ１６１０には、ＭＬＵ１６１０の第１及び第２の入力に接続した読取端子がある。さらに、メモリ１５００には、ＡＬＵ１６１４の出力に接続した書込端子がある。
【０１３８】
このメモリは、入力バッファ４０２、ＭＬＵ１６１０、ＡＬＵ１６１４、第１のレジスタユニット１６１８、第２のレジスタユニット１６２０、及びＬＬＵ１６２２に関連して頂点データ処理用に使用するための複数の定数及び変数を格納している。
【０１３９】
図１７は、本発明に係る一実施形態による図１６の光源処理モジュール５４のＭＬＵ１６１０を示す図である。図示の如く、光源処理モジュール５４のＭＬＵ１６１０には、並列配置の３個のマルチプレクサ１７００が含まれている。処理の際、本ＭＬＵ１６１０は、２つの３要素ベクトルの乗算、又は１つの３要素ベクトルを渡すことに適合している。３要素ベクトルの乗算は、内積又は平行乗算（parallel multiply）によりなされてもよい。テーブル１３に、光源処理モジュール５４のＭＬＵ１６１０が実行可能な処理を示す。
【０１４０】
【表１３】

【０１４１】
テーブル１４に、光源処理モジュール５４のＭＬＵ１６１０の入力Ａ及びＢとして取りうるものを示す。
【０１４２】
【表１４】

【０１４３】
図１８は、本発明に係る一実施形態による図１６の光源処理モジュール５４のＡＬＵ１６１４を示す図である。図示の如く、ＡＬＵ１６１４には、並列／直列配置された３個の加算器１８００が含まれている。実際のＡＬＵ１６１４は、２つの３要素ベクトルを加算可能、又は１つの３要素ベクトルを渡すことができる。テーブル１５に、光源処理モジュールのＡＬＵ１６１４が可能な種々の演算を示す。
【０１４４】
【表１５】

【０１４５】
テーブル１６に、光源処理モジュール５４のＡＬＵ１６１４の入力Ａ及びＢとして取りうるものを示す。
【０１４６】
【表１６】

【０１４７】
図１９は、本発明に係る一実施形態による図１６の光源処理モジュール５４のレジスタユニット１６１８，１６２０を示す図である。図示の如く、各レジスタユニット１６１８，１６２０は、２組のレジスタ１９００を有し、各レジスタ１９００は、対応するマルチプレクサ１９０２の第１の入力に接続した出力、及びマルチプレクサ１９０２の第２の入力に接続した入力とを有する。
【０１４８】
光源処理モジュール５４のレジスタユニット１６１８，１６２０は、ＡＬＵ１６１４用の２つのレジスタ及びＭＬＵ１６１０用の２つのレジスタに分割されている。一実施形態では、レジスタはスレッド化されている。レジスタユニット１６１８，１６２０は、書込アドレスが読取アドレスと同じである場合には、入力から出力へのバイパス経路により、待ち時間が０となる。
【０１４９】
図２０は、本発明に係る一実施形態による図１６の光源処理モジュール５４のＬＬＵ１６２２を示す図である。ＬＬＵ１６２２は、光源処理モジュール５４の光源処理ユニットである。光＋素材の色の乗算に後で用いられる光源処理係数を算出するのは、スカラーブロックである。ＬＬＵ１６２２には、２つのＭＡＣ、１つのインバータ、４つの小メモリ、及び１つのフラグレジスタが含まれている。
【０１５０】
フラグレジスタは、光源処理の式の条件部分を実装するのに用いられる。出力は、環境、拡散、及び鏡面係数である。スカラーメモリには、鏡面近似に用いられる変数、及び定数が含まれている。各メモリの第１の位置には、１．０（ｃｔｘ０及びｃｔｘ２に対して）及び０．０（ｃｔｘ１及びｃｔｘ３に対して）が含まれている。一実施形態では、これらは、ハードワイヤ化されていてロード不要である。
【０１５１】
実際のＬＬＵ１６２２では、式：（ｘ＋Ｌ）／（Ｍ＊ｘ＋Ｎ）が基本的に実装されている。この式は、鏡面光源処理項（specular lighting term）を近似するのに用いられる。ＬＬＵ１６２２への入力は、光源処理モジュール５４のＡＬＵ１６１４からのものであり、光源処理の式で用いられる内積である。上述のように、図１６に関して、ＬＬＵ１６２２及びＭＬＵ１６１０間に、係数をＭＬＵ１６１０が必要とするまで一時的に記憶する出力ＦＩＦＯ１６２６がある。一実施形態では、このようなＦＩＦＯ１６２６は、遅延１６０８，１６２４、及びレジスタ１６１８，１６２０とともにスレッド化されていてもよい。色の素材としてとりうるものの処理により、拡散及び鏡面出力がＭＬＵ１６１０で使用済みとなる時は未知である。
【０１５２】
光源処理モジュール５４はＲ，Ｇ，Ｂ要素のみを処理するので、拡散出力のアルファ要素を処理するために特別に適合したハードウェアが設けられる。このように特別に適合したハードウェアは、２種のアルファ要素、すなわち、ｖｔｘｃｏｌｏｒ０ α［Ｔｂｕｆｆｅｒ］、及び、格納されたｃｔｘ α［Ｃｔｘｓｔｏｒｅ］を出力可能である。上述のα要素の選択は、モードビット２０２により制御される。
【０１５３】
処理の際、ＬＬＵ１６２２は、光源処理の環境（Ｃａ）、拡散（Ｃｄｅ）、及び鏡面（Ｃｓ）係数を算出する。そして、これらの係数は、環境、拡散、及び鏡面色で乗算されて、頂点の色に対する光の寄与分が得られる。テーブル１６Ａには、ＬＬＵ１６２２により取得された入力のリストと、環境（Ｃａ）、拡散（Ｃｄｅ）、及び鏡面（Ｃｓ）の光源処理係数を得るために実行される計算とが含まれている。なお、ＬＬＵ１６２２を実装するのに、所望のハードウェア構成が用いられてもよい。一実施形態では、図２０に示す具体的構成が用いられてもよい。
【０１５４】
【表１７】

【０１５５】
上述のように、頂点データ自体によって、あるいは、頂点データから得られた任意の結果によって、頂点シーケンサを制御するモードビットが必ずしも変更されるわけではない。頂点データが頂点処理を変更できるように、フラグレジスタ１６２３を用いたＬＬＵ１６２２が設けられている。フラグが計算の出力制御で指定されている場合には、このフラグレジスタでビットを真（ＴＲＵＥ）に設定することにより、計算結果の０．０へとクランプ可能となる。その他に、フラグレジスタ１６２３は、レジスタ書込のために書込マスクを設定するのに用いられる。
【０１５６】
フラグレジスタ１６２３は、性能上の代償なく、ｉｆ／ｔｈｅｎ／ｅｌｓｅを実行して光源処理の式で０．０にクランプするために、ＬＬＵ１６２２内に設けられている。種々のオペランドの符号ビットにより、フラグが設定されてもよい。テーブル１６Ｂに、フラグレジスタ１６２３のフラグが設定されてクランプがなされる方式を示す。
【０１５７】
【表１８】

【０１５８】
図２１は、本発明に係る一実施形態による図１６の光源処理モジュール５４に関連したフラグレジスタ１６２３の構成を示す説明図である。フラグレジスタ１６２３には、８つの１ビットフラグが含まれ、ＡＬＵ（ＩＦＬＡＧ）又はＭＡＣ０（ＭＦＬＡＧ）出力の符号ビットにより設定される。
【０１５９】
ＬＬＵ１６２２が、スカラー値をＭＬＵ１６１０へ出力するとき、そこで３ワードへとスメアリングされ、フラグレジスタのためのマスクを指定する。レジスタ＆マスクが真であれば、０．０が出力となる。テーブル１７に、環境、拡散、及び鏡面属性を出力するのに用いられる図２１の種々のフラグを示す。
【０１６０】
【表１９】

【０１６１】
鏡面項に用いられる近似値は負となりうる。そこでは、実際のｃｏｓθ＊＊ｎは、０．０となる。結果として、クランプ処理を実行する必要がある。このために、Ｔ，Ｕフラグが用いられる。テーブル１８に、ＬＬＵ１６２２の機能論理ユニット（ＦＬＵ）１６２１が可能な種々の演算を示す。図２０を参照されたい。
【０１６２】
【表２０】

【０１６３】
図２２は、本発明に係る一実施形態による図１６の光源処理モジュール５４に関連したマイクロコードフィールドの説明図である。図示の如く、光源処理モジュール５４のマイクロコードは、３３フィールドとされ、全体のサイズが８５ビットになっている。フィールドは、ユニットのデータフローと整合するように遅延させられる。ＭＬＵの処理は遅延０でなされ、ＡＬＵの処理は遅延１でなされ、ＲＬＵ、ＬＬＵの出力処理は遅延２でなされる。各遅延は、３サイクルに相当する。
【０１６４】
図２３は、本発明に係る一実施形態による図１６の光源処理モジュール５４に関連したシーケンサ２３００を示す図である。図示の如く、光源処理モジュール５４のシーケンサ２３００には、処理動作の複数のモード状態を示すモードビット２０２を取得するのに適合した入力バッファ２３０２が含まれている。また、それぞれモード状態に対応して処理動作を実行するようになっているコードセグメントを格納可能なメモリ１５０２が含まれている。
【０１６５】
シーケンスモジュール２３０６は、モードビットから得られた制御ベクトル２３０５に基づいて、メモリ１５０２内の複数のアドレスを特定するために、メモリ１５０２及びバッファ２３０２間に接続されている。さらに、シーケンスモジュール２３０６は、光源処理モジュール５４を機能させるのに用いられうるコードセグメントを取得するため、メモリ１５０２内のアドレスにアクセスするように適合している。
【０１６６】
光源処理モジュール５４のシーケンサ２３００は、変換モジュール５２のそれと同様である。処理の際、光源処理モジュール５４のシーケンサ２３００は、スレッド化されたモードビット２０２から得られたスレッド化された制御ベクトルを処理してゆき、対応する制御ベクトルのビットが“１”に設定された全てのＲＯＭアドレスを処理する。制御ベクトルは、ＲＯＭが有するワードと同じビット数になっている。シーケンサ２３００は、全スレッドについて、所定数のサイクル毎に“１”すなわち有効ビットという速度で、任意の制御ベクトルを処理してゆく。モードビット２０２を使用しないコマンドは、実行中のマイクロコード生成により実行される。光源処理モジュール５４のシーケンサ２３００と変換モジュール５２のシーケンサ１２００との主要な相違点は、光源処理モジュール５４のシーケンサ２３００が、ループバックして８回まで光源処理コードを実行可能であるということである。
【０１６７】
光源処理モジュール５４のシーケンサ２３００は、新規の頂点の各々につき０から開始してマイクロコードの最後で１インクリメントされる光カウンタを有する。モードビット２０２のＬＩＳフィールドの照合ビットフィールドが“１”になっている場合、シーケンサ２３００は、元に戻って光源処理マイクロコードブロックを再び最初から開始する。これは、ＬＩＳフィールドが０になるか、又は８つの光が処理されるまで続く。色の蓄積（color accumulation）は、拡散及び鏡面色を格納するＡＬＵレジスタを（光毎に）インクリメントすることによりなされる。自動メモリアドレスのインデックス化（indexing）は、光カウンタを用いて、各光について適切なパラメータを取得することによりなされる。
【０１６８】
図２４は、本発明に係る一実施形態における変換及び光源処理モジュール５２，５４が対応するバッファに関連した入力及び出力を制御可能な方法を示すフローチャートである。図示の如く、処理２４２０では、第１のバッファの組のバッファにて最初に頂点データが取得される。頂点データが取得されるバッファは、ラウンドロビンシーケンスに基づく。
【０１６９】
次に、処理２４２２では、第２のバッファの組の空のバッファが、これもまたラウンドロビンシーケンスに基づいて特定される。変換モジュール５２は、第１のバッファの組と第２のバッファの組との間に接続されている。第２のバッファの組の空のバッファが特定されると、変換モジュールで頂点データが処理され、変換モジュールから、第２の組のバッファのうちの特定された空のバッファへと出力される。処理２４２４及び２４２６を参照されたい。
【０１７０】
同様に、処理２４２８では、第３のバッファの組のうちの空のバッファ、又はメモリ内のスロット若しくは空間が、ラウンドロビンシーケンスに基づいて特定される。光源処理モジュール５４は、第２のバッファの組と第３のバッファの組との間に接続されている。第３のバッファの組の空のバッファが特定されると、処理２４３０で示すように、頂点データが、光源処理モジュールで処理される。そして、頂点データは、光源処理モジュール５２から、第３のバッファの組のうちの識別された空のバッファへと出力される。処理２４３２を参照されたい。なお、バッファ又はメモリ内のスロットの数は自由であり、変更可能である。
【０１７１】
図２５は、図２４の方法に従い、変換及び光源処理モジュール５２，５４が、対応するバッファの入力及び出力を制御可能な方法を示す説明図である。図示の如く、第１のバッファの組、すなわち入力バッファ４００は、変換モジュール５２へと送り、次に該変換モジュール５２は、第２のバッファの組、すなわち中間バッファ４０４，４０６へと送る。第２のバッファの組４０４，４０６は、光源処理モジュール５４へと送る。該光源処理モジュール５４からメモリ２５５０へとドレインされてゆく。
【０１７２】
図２５にて上述した方法を実行するために、頂点データの最初の取得時に、メモリ２５５０のスロット及び第１及び第２の組のバッファの各々に対して、ユニークな識別子が割り当てられる。さらに、各バッファの現在の状態が監視される。このような状態として、割当状態、有効状態、アクティブ状態、又は処理済状態等があってもよい。
【０１７３】
割当状態は、バッファ／スロットが、前段のグラフィクス処理モジュール、すなわち変換モジュール又は光源処理モジュールの出力を取得するように、既に割当がなされていることを示している。書込ポインタがバッファ／スロットをラウンドロビンシーケンスで走査するとき、割当状態におけるバッファ／スロットにより、このような書込ポインタが次のバッファ又はスロットへとインクリメントされる。
【０１７４】
バッファ／スロットは、有効状態であれば、頂点データを取得するのに利用可能である。一方、アクティブ状態は、バッファ／スロットが現在実行状態であること、又は頂点データを取得していることを示す。このアクティブ状態は、読取ポインタがインクリメントされた後、スレッドが処理されるまで維持され、バッファ／スロットが有効状態とされる。なお、第１のバッファ４００の組は、それらを割り当てる前段のグラフィクス処理モジュールがないので、常に有効状態になっている。
【０１７５】
次に、状態シーケンスの例を説明する。第１のバッファ４００の組における頂点データと、新規のコマンドビット２００の組とを取得すると、このようなバッファは有効状態とされ、その後、第２のバッファ４０２，４０４の組の１つが、変換モジュール５２の出力に備えて割当状態になる。
【０１７６】
第２のバッファ４０４，４０６の組が、いずれも割り当てのために利用不能であれば、第１のバッファ４００の組のバッファ内の頂点データは、処理不能である。さらに、実行されるべきコードセグメントが、同時に実行される他のコードセグメントに干渉するかどうかを決定するために、検査が行われてもよい。そうした場合、第１のバッファ４００の組のバッファ内の頂点データは、処理されずに、ストール状態が開始する。
【０１７７】
第２バッファ４０４，４０６の組の１つが割当状態になった後、第１のバッファ４００の組のバッファは、アクティブ状態になる。変換モジュール５２が実行を終了すると、第２のバッファ４０４，４０６の組のバッファが読み取られて、有効状態になる。これらの状態変化は、頂点データが第２の組４０４，４０６とメモリ２５５０のスロットとの間で転送される際に、同時に実行される。
【０１７８】
図２５Ｂに、セットアップモジュール５７及び探査モジュール５８を備えたラスタライザ・モジュール５６を示す。ラスタライザ・モジュール５６は、交互になされるエリアベースのラスタ化を実行するのに適合している。特に、複数のポリゴン定義（polygon-defining）検出点が、プリミティブ上に、あるいはその近傍に位置している。それ以後、直線の式（line equation）がそれらの点にて評価されて、どの画素がプリミティブ内に位置するかが判別される。処理の際、この評価は、効率化のために、点が交互に移るようにして繰り返される。さらに、ラスタライザモジュール５６は、クリッピング手順なしに動作するように適合していてもよい。
【０１７９】
図２６に、ラスタ化モジュール５６のセットアップモジュール５７の図を示す。図示の如く、セットアップモジュール５７には、所望の浮動小数点計算を実行するために、ルーティングデータ及び適切な機能ユニットに対する制御信号を取り扱う制御部６１が含まれている。プリミティブシーケンサ６２は、頂点のシーケンスを三角形、線、又は点へと転換する処理を行う。さらに、浮動小数点データパス部６４には、マルチプレクサと、セットアップユニット内で必要な数値演算を実行する浮動小数点演算ユニットとが含まれている。
【０１８０】
引き続き図２６を参照すると、出力形式調整部６３は、境界の傾き及び境界値の内部浮動小数点形式を、ラスタライザに適した整数形式へと変換する処理を行う。これは、ラスタライザが整数値のみで動作するためである。無論、代替的な実施形態では、ラスタライザが浮動小数点を使用することとして、出力形式調整部６３を不要としてもよい。
【０１８１】
処理の際、出力形式調整部６３は、ブロック浮動小数点変換を実行する。周知の通り、所与の数字すなわち２．３４ｅ¹⁰について、浮動小数形式はその仮数（２．３４）及び指数（１０）を管理する。ブロック浮動小数点変換は、実質的に、指数が同じになるように、入力データの仮数の小数位を操作する。このために、指数がラスタライザ・モジュール５６で処理される必要はない。
【０１８２】
図２６Ａは、図２５Ｂにおけるラスタライザ・モジュール５６のセットアップモジュール５７により算出される種々のパラメータを示す説明図である。このようなパラメータは、ラスタライザ・モジュール５６が関連した機能を実行するのに必要である。プリミティブ２６００を取得すると、セットアップモジュール５７は、プリミティブ２６００の傾き２６０１、開始位置２６０２、及び開始値２６０４の３つの値を算出する。
【０１８３】
傾き２６０１は、ラスタ化の際に用いられるプリミティブ２６００の境界の直線の式のための係数を生成するのに用いられる。例えば、傾き２６０１は、以下の式＃４及び＃５を用いて算出されてもよい。
【０１８４】
式＃４及び＃５
ｓｌｏｐｅ_A＝ｙ₀−ｙ₁
ｓｌｏｐｅ_B＝ｘ₁−ｘ₀
ここで、ｙ₀、ｙ₁、及びｘ₀、ｘ₁は、図２６Ａに示された頂点の座標である。
【０１８５】
なお、傾きは、頂点の座標を用いて回転演算（rotation operation）等で算出されてもよい。
【０１８６】
開始位置２６０２は、以下より詳細に説明するエリアのラスタ化のための開始ポイントを示す。開始値２６０４は、図２６Ａに示された斜線の三角形の面積に等しく、エリアベースのラスタ化の際に用いられる。このような開始値２６０４は、各ステップの傾きを加算しながら画面でのラスタ位置のステップが、ラスタ位置が境界上にある場合、正確にゼロになるように選択される。開始値２６０４の算出は、以下の式＃６を用いてなされてもよい。
【０１８７】
式＃６
starting_value=slope_A*(x_s-x₀)+slope_B*(y_s-y₀)
ここで、ｘ_s，ｙ_s＝開始位置２６０２
slope_A，slope_B＝図２６Ａに示す頂点の座標に基づく境界の１つの傾き
ｘ₀，ｙ₀＝図２６Ａに示す境界の頂点の１つの座標
なお、上記の値は、他の種類のプリミティブについて算出されてもよい。例えば、直線の場合、四辺の閉じた四角形について追加の傾きが算出される必要がある。このような傾きは、閉じた四角形の対向する側の傾きの逆数を用いることにより、容易に算出可能である。なお、追加の傾きの算出に加えて、直線のプリミティブの場合には、他の開始値が算出される必要がある。
【０１８８】
図２７に、ラスタライザ・モジュール５６が複数のプリミティブ（例えば三角形）の１つを処理する方法を示す。特に、最初に、ラスタライザ・モジュール５６のセットアップモジュール５７により、初期動作が実行される。プリミティブが取得されると、処理２７００にて、図２６Ａの傾き２６０１を用いて、当業者に周知の方法で、直線について直線の式の直線式係数が求められる。周知の通り、三角形を定義するには、３つの直線の式が必要である。一方、直線のようなプリミティブは、４つの辺及び４つの直線の式で長方形又は平行四辺形として描画される。
【０１８９】
その後、処理２７０２では、いずれかのプリミティブの頂点が負のＷ−座標を有している場合、直線式係数が変更される。以下、この処理に関する追加の情報について図３２を参照してより詳細に説明する。
【０１９０】
なお、ラスタライザモジュール５６のセットアップモジュール５７も、プリミティブの閉じた四角形を算出する。ほとんどの三角形について、閉じた四角形には、３つの頂点の最小値及び最大値が含まれる。直線については、閉じた四角形における平行四辺形の四隅が算出される。頂点が負のＷ−座標を有している三角形又は直線については、描かれるべき領域が、頂点の凸状の外殻（hull）を越えて延びる。
【０１９１】
OpenGL（登録商標）のコマンドの１つに、切り取り長方形（scissor rectangle）があり、これは、それより外側には描かれないという境界を規定するものである。ラスタライザ・モジュール５６のセットアップモジュール５７は、閉じた四角形とシザー長方形との共通部分を算出する。切り取り長方形は長方形であるので、追加として４つの式が提供される。なお、切り取り長方形に対応した直線の式は、ありふれた形式、すなわち水平又は垂直を有する。
【０１９２】
さらに、３次元空間では、近平面（near plane）と遠平面（far plane）とは平行であり、視線に対して垂直である。プリミティブが三角形の場合、３つの頂点が含まれ、これらがいずれかの配置の平面を定義する。プリミティブの平面並びに近平面及び遠平面の共通部分には、２つの直線が含まれ、これらの直線に対応する２つの直線の式が伴う。
【０１９３】
従って、各プリミティブは、三角形又は直線の形式のいずれかをとるかに応じて、それぞれ９又は１０の直線の式を有する。また、三角形の場合には、このような直線の式には、三角形を定義する３つの直線の式と、閉じた四角形を定義する４つの直線の式と、プリミティブが存在する平面並びに近平面及び遠平面の共通部分を定義する２つの直線の式とが含まれる。
【０１９４】
引き続き図２７を参照すると、処理２７０４にて、プリミティブ上又はその近傍の複数の点を配置することにより処理が進行する。図２６Ａに示すように、開始位置２６０２により、このような配置が指定される。このような点は、閉じた凸領域を規定しており、該凸領域の隅に位置する。図２７Ａに、凸領域２７０７（例えば長方形）を囲むこのような検出点２７０５を示す。一実施形態では、このような長方形は、８×２画素の大きさであってもよい。さらに、それらの点は、プリミティブの上端となる頂点を囲むように最初に配置されてもよい。オプションとして、これは、切り捨てを用いてなされてもよい。
【０１９５】
一旦、プリミティブが配置されると、探査モジュール５８による処理、すなわち以下に述べるようにプリミティブの横列（row）を処理することにより処理２７０６にて開始される処理が継続する。各横列を処理した後、ジャンプ位置が検出されたかどうかが、判別２７０８にて決定される。ジャンプ位置は、次の横列の処理の開始位置であり、これについて以下詳細に述べる。判別２７０８にて、ジャンプ位置が検出されたと決定された場合、処理２７１０にて、凸領域を定義する検出点がそこに移動する。一方、ジャンプ位置が検出されないと決定された場合、処理は終了する。なお、代替的な実施形態では、縦列、対角線、又は他の任意の型の列が、横列の代替として、処理２７０６にて処理されてもよい。
【０１９６】
図２８は、図２７の横列処理２７０６に関連した本発明の処理を示すフローチャート。図示の如く、ポリゴン定義検出点が右へ移動したかどうか判別２８０１にて決定するために、処理２８００にて検出点を算出することにより、処理が開始する。このような判別は、最も右の検出点の位置に基づいてなされる。最も右側の検出点が、プリミティブの１つ又は複数の境界の外側に位置していない場合、右方への移動が許可され、処理２８０２にて、現在位置の右側への位置（Ｘ及びＹ座標）が、スナップ位置として格納される。一方、最も右側の検出点の双方が１つ以上のプリミティブの外側に位置している場合、右方への移動は許可されず、処理２８０２はスキップされる。
【０１９７】
次に、処理２８０４にて、直線の式が凸領域（例えば長方形）で評価される。この評価には、それらの点がプリミティブ内にあるかどうかを決定することが含まれる。プリミティブ内にそれらの点が存在するかどうかに応じたこのような決定には、各直線の式を評価することにより各検出点にて正の値又は負の値となるかどうかを決定することが、含まれていてもよい。
【０１９８】
直線の式は、プリミティブの内部で正になるとともに外部で負となるように、表現可能である。境界の直上に画素が描かれるべき包含的境界（inclusive edges）は、ゼロと評価され、正として取り扱われる。排他的境界（exclusive edges）は、描かれるべきものではなく、開始時の直線の式の値から１の値を最初に減算することにより、負となりうる。このように、排他的境界上の画素は、正の０となる代わりに、負の値（−１）として評価される。これにより、検出点の解釈について、包含／排他の方式を無視し、直線の式の符号を調べればよいことになる。
【０１９９】
それらの点で直線の式が評価された後、判別２８０６にて、検出点の現在位置がジャンプ位置を占めているかどうかが決定される。なお、ジャンプ位置は、下部の２つの検出位置がいずれも境界の外にない場合にのみ、格納される。判別２８０６でジャンプ位置が検出された場合、処理２８０８にて、該ジャンプ位置が算出されて格納される（あるいは、以前に格納されたジャンプ位置があればそれと置き換えられる）。一方、そうでない場合には、処理２８０８はスキップされる。
【０２００】
引き続き図２８を参照すると、次に、判別２８１０では、最も左側の検出位置がいずれもプリミティブの境界の外側にあるかどうかが決定される。また、この処理には、最も左側の検出点での直線の式の評価が、正又は負の値であるかどうかを決定することを伴う。特に、９又は１０の境界の式の係数を関係する検出点で算出すると、９又は１０個の値は、９又は１０個の符号ビットを有することになる。例えば、現在の側が完全に境界の外側にあるかどうかを決定するために、本発明により、２つの検出ポイントからの１０個の符号ビットが、ＡＮＤ演算される。そして、いずれかのビットが残れば、両点はその境界の外側となる。
【０２０１】
最も左側の検出点が双方ともプリミティブの外側にあるわけではないと判別された場合には、左方に、考慮されるべきプリミティブのさらなる点が残っているものと決定され、処理２８１２にて、検出点は左へ移動する。判別２８１０にて、最も左側の検出点が双方とも実際にプリミティブの境界の外側にあると決定された場合、左方には、考慮されるべきプリミティブのさらなる点はもはや存在しないと決定される。次に、判別２８１４では、処理２８０２に由来するスナップ位置があるかどうかが決定される。
【０２０２】
判別２８１４にて、スナップ位置が存在しないと決定された場合、処理が完了する。一方、スナップ位置が存在する場合、処理２８１６にて、検出点は、スナップ位置へと移動する。その後、処理２８０４〜２８１２と同様の処理が実行されて、プリミティブの右側がマッピングされる。これは、直線の式が凸領域における点で評価されることにより、処理２８１８で開始する。
【０２０３】
それらの点にて直線の式が評価された後、判別２８２０にて、検出点の現在位置がジャンプ位置を占めるかどうかが決定される。判別２８０６にて、ジャンプ位置が検出されたと決定された場合、処理２８２２でこのジャンプ位置が算出されて格納される。一方、そうでなければ、処理２８２２はスキップされる。
【０２０４】
引き続き図２８を参照すると、次に判別２８２４にて、最も右側の検出点は、双方ともプリミティブの外側にあるかどうかが決定される。最も右側の検出点の双方ともがプリミティブの外側にあるわけではない場合、右方に、考慮されるべきプリミティブのさらなる点が残っているものと決定され、処理２８２６にて、検出点は右へ移動する。判別２８２４にて、最も右側の検出点が双方ともプリミティブの境界の外側にあると決定された場合、右方には、考慮されるべきプリミティブのさらなる点はもはや存在しないと決定され、即時の処理が完了する。
【０２０５】
図２８Ａ及び図２８Ｂは、プリミティブ２８５０について本発明の検出点が移動しうるシーケンスの説明図である。なお、様々な変更例として、それらの点が左方へ移動可能かどうかを判別２８００にて決定して、最初に右へ進むことが含まれていてもよい。さらに、直線の式は、それらの点がプリミティブの内部又は外部のいずれにあるかを所望の方法で示すために定義されてもよい。
【０２０６】
繰り返しのループに進むことを防ぐために、本発明は、ラスタ化の際に全方向へ移動することとしている。最初の実装は、上から下へと進み、次へと下降する前に横列上の全ての凸領域へ進む。横列を上から下へと処理することで、右から左又は左から右へとステップしないようにすることにより、ループ化が防止される。
【０２０７】
上述の処理の例が、図２７Ａのポリゴン定義点Ｐ１，Ｐ２，Ｐ３，Ｐ４を参照して示されうる。処理の際、近接した検出点の対が調べられて、それらの方向へ進むことに意味があるかどうかが決定されてもよい。例えば、図２７ＡにてＰ３及びＰ４の双方がポリゴンの境界の外側にある一方で、Ｐ１及び／又はＰ２がそうでなければ、明白に描画可能な内部領域は、右にではなく左にある。従って、検出点は右へは移動すべきでない。逆に、Ｐ３及びＰ４の双方が全境界の内側にあれば、描画可能な領域はＰ３及びＰ４を越えて存在し、右方へ移動することは適切である。実際に、Ｐ３及びＰ４が境界の外側になければ、右側へ移動することには意味がある。同じ論理が、Ｐ１及びＰ３により案内される上方への移動に、あるいは、Ｐ１及びＰ２により案内される左方への移動に、あるいは、Ｐ２及びＰ４に基づく下方への移動にも当てはまる。
【０２０８】
このように、上述の処理は、プリミティブ内部周辺における点により定義される凸領域を、検出点に案内されて移動又は移行する。それらの点により定義される凸領域は広くともよいので、多くの画素が同時に調べられる。使用の際、全検出点がプリミティブの全ての境界の内部にあれば、囲まれたがそのすべてが、必ず描画可能となる（凸のプリミティブを想定）。隅を検査することにより、すなわち、プリミティブの任意の領域を検査する能力が、内部か外部にあるか分割されていることにより、著しい利点がもたらされる。後者の場合にのみ、それらの点により定義される凸領域内の個々の画素が調べられる必要がある。このような場合、それらの点により定義される凸領域内の画素は、１つずつ検査されてもよく、該画素がプリミティブ内に存在するかどうか決定するための他の方法により検査されてもよい。さらに、どの境界が領域を分割してどれがそうでないのかを判別するのに必要なさらなる検査の量が検出点によって減少しうる。
【０２０９】
図２９は、図２７の横列処理動作２７０６に関連した本発明の交互になされる犂耕（boustrophedonic）処理を示すフローチャートである。図示の如く、最初に判別２９００にて、以前の移動が第１の方向と第２の方向のいずれであったかが決定される。実際の以前の移動がなかったならば、デフォルトとして、以前の移動が想定されてもよい。判別２９００にて以前の移動が第２の方向であったと決定された場合、直線の式は凸領域の点、例えば、図２８の処理２８０４と同様の方式による処理２９０２における長方形にて評価される。
【０２１０】
引き続き図２９を参照すると、次に、判別２９０４にて、長方形の第１の側の検出点が、双方ともプリミティブの境界の外側にあるかどうかについて決定がなされる。そうでない場合には、検査点は、処理２９０６にて第１の方向へ移動又は進む。長方形の第１の側の検出点が、双方ともプリミティブの境界の外側にあると決定されると、次に、判別２９０５にて、それらの点が下方へ移動可能かどうか、すなわち、現在の位置がジャンプ位置を占めるかどうかが決定される。そうであれば、処理２９０８にて、ジャンプ位置が算出されて格納される。その後、処理は完了する。
【０２１１】
一方、判別２９００にて、以前の処理が第１の方向であったと決定された場合、処理２９０２〜２９０８と同様の処理が実行される。特に、処理２９１０にて、凸領域（例えば長方形）の点での直線の式が評価される。そして、判別２９１２にて、長方形の第２の側の検出点が、双方ともプリミティブの境界の外側にあるかどうかについて決定がなされる。そうでない場合には、検査点は、処理２９１４にて第２の方向へ移動又は移行する。長方形の第２の側の検出点が、双方ともプリミティブの境界の外側にあると決定されると、次に、判別２９１３にて、それらの点が下方へ移動可能かどうか、すなわち、現在の位置がジャンプ位置を占めるかどうかが決定される。そうであれば、処理２９１６にて、ジャンプ位置が算出されて格納される。その後、処理は完了する。
【０２１２】
図２９Ａは、図２９の犂耕処理に関連して本発明の検出点がプリミティブで移動するシーケンスの説明図である。上述の犂耕的ラスタ化には、ハードウェアによりよい性能をもたらす所定の規定に従うシーケンスが含まれている。図示の如く、犂耕的ラスタ化により、往復して折り返される蛇行したパターンがもたらされる。例えば、水平犂耕シーケンスにより、１つの横列上の左から右へのプリミティブの三角形内の全画素が生成され、次の列の横列上の右から左というように生成されてゆく。このような折り返し経路により、確実に、ある生成された画素から直近に生成された画素への平均距離が比較的短くなる。
【０２１３】
直近に生成された画素の近傍の画素を生成することは、直近の画素群及び／又はそれらに対応するテクスチャ値が限られた大きさのメモリ内に保持されている場合に、重要である。犂耕シーケンスにより、このようなメモリに既にロードされている画素又はテクスチャ値がより高頻度で検出されるので、メモリのロードがあまり発生しない。
【０２１４】
オプションとして、ラスタ化に先立ってプリミティブを複数の部分に分割する少なくとも１つの境界が用いられてもよい。処理の際、それらの点は、各部分内で個別に移動してもよい。さらに、それらの点は、複数の部分の第２のものの中で移動する前に、複数の部分の第１のものの全体を移動してもよい。
【０２１５】
図３０は、境界を用いて交互になされる犂耕処理を示すフローチャートである。オプションとして、境界を用いるかどうかの判別は、プリミティブの大きさに基づいてなされてもよい。図３０に示すように、境界を取り扱う犂耕処理は、追加の処理３０００以外は図２７のそれと同様である。この処理３０００では、プリミティブを複数の部分又は帯に分割する少なくとも１つの境界が、定義される。
【０２１６】
引き続き図３０を参照すると、追加の判別３００１は、プリミティブの全部分の完了後になされる。特に、判別３００１では、近接した部分の開始位置が処理３００６で検出されたかどうかが決定される。そうであれば、検出点により定義された凸領域は、処理３００２にて、プリミティブの近接した部分の開始位置へ移動し、プリミティブの新規の部分について、処理３００４〜３０１０が繰り返される。以下、処理３００６での開始位置を決定することに関係するさらなる情報を図３１を参照して詳細に説明する。
【０２１７】
図３１Ａは、図３０における境界に基づく犂耕処理に応じて本発明の凸領域がプリミティブにて移動する処理を示す説明図である。図示の如く、処理される第１の部分は、プリミティブの最上部の頂点を含むものである。処理の際、左隣の部分が処理され、その後、近接した左隣の部分が処理されてゆき、左隣の部分がなくなるまで継続する。次に、第１の部分の右に隣接する部分が処理され、その後、近接した右隣の部分に近接するものが処理されてゆく。これは、右に隣接する部分の全てが処理されるまで継続する。なお、ユーザの要望に応じて、その他の種類の順序付け方式が用いられてもよい。
【０２１８】
図３１は、図３０の横列処理３００６に対応した処理を示すフローチャートである。このような処理は、判別３１１８乃至３１２１以外は、図２９の犂耕処理と同様である。判別３１１８及び３１２０の双方は、検出点のうち、いずれかの境界を通ったものがあるかどうかを決定するものである。検出点がまだ境界内にあると決定された場合にのみ、各ループが継続する。
【０２１９】
処理３１１９及び３１２１では、凸領域の検出点のうち、いずれかの境界を通ったものがあると、判別３１１８及び３１２０でそれぞれ決定された場合に、プリミティブの近接した部分の開始位置が求められて格納される。図３１Ａに示すように、このような開始位置３１２６の各々は、境界を越えて存在するプリミティブの部分における最上部の点となるように定義される。この位置を格納することにより、プリミティブの境界定義部分に近接したものに関して処理が繰り返された場合に、開始位置が得られる。
【０２２０】
なお、処理３１１９及び３１２１は、プリミティブの第１の部分が処理されている際に、双方とも実行される。図３１には特に示されていないが、これらの部分を第１の部分の左へと処理する場合、このような処理の第１のもののみが実行される。一方、これらの部分を第１の部分の右へと処理する場合、このような処理の第２のもののみが実行される。すなわち、第１の部分の左へと処理する場合、開始位置は、現在処理中の部分の最も左の境界を越えた場合にのみ算出される。同様に、第１の部分の右へと処理する場合、開始位置は、現在処理中の部分の最も右の境界を越えた場合にのみ算出される。
【０２２１】
ラスタ化の際に境界を用いることにより、パイプライン処理の際に重要な問題が解決される。プリミティブが非常に幅広いと、１つの横列における画素に関連した記憶域が、限られた大きさのメモリに適合しないことがある。境界を用いたラスタ化により、三角形が、限られた幅の横列（又は縦列）に分割され、次の部分へ移行する前に、このような部分内の全画素を生成する。
【０２２２】
例えば、三角形は幅が１００画素であるのに、限られた画素又はテクスチャメモリは、以前の２０画素の情報を保持するだけであってもよい。画素のシーケンスを、１０画素の垂直部分内に抑えることにより、以前及び現在の横列上の全画素をメモリに適合させることが可能である。このことは、境界定義部分内の犂耕シーケンスが、常に、現在の横列上の以前の画素（もしあれば）をメモリ内に有するとともに、その上の横列の画素（もしあれば）をメモリ内に有することを意味している。
【０２２３】
最も基本的なメモリシステムは、データブロックを、各ブロック当たり所定のオーバーヘッドで転送する。メモリシステムへのアクセスが小規模であると、このオーバーヘッドにより重大な影響を受ける。効率化のために、より大規模なアクセスが用いられ、ブロックの残りが次なる使用に備えて保持される。それ以上に、キャッシュメモリシステムは、これら複数の新しいブロックを保持して、メモリアクセスを回避可能とする確率を高める。
【０２２４】
本発明の犂耕シーケンスは、現在のラインの一端の直下にある画素を反転させたり取り扱ったりする場合に、単一保持ブロック（single-retained-block）コンセプトを利用している。さらに、犂耕シーケンスは、特定の大きさの部分にラスタ化を制限する場合に、キャッシュを利用している。特に、ある部分内の２本の走査線が、キャッシュに適合するはずなので、第１の走査線のキャッシュ記憶により、第２の走査線の全体に亘って利益がもたらされる。
【０２２５】
境界定義部分のシーケンス又は数について、制約は何もない。本説明は、垂直部分及び水平犂耕パターンの例を用いているが、同様の原理が、水平部分、垂直犂耕パターンに拡張されてもよく、斜行部分及びパターンにまで拡張されてもよい。一実施形態では、ストリング（例えば、横列、縦列、斜め等）の長さは、その各々が、当該ストリングが存在しているプリミティブの大きさ未満に制限されていてもよい。
【０２２６】
図３２は、図２７の処理２７０２に対応した処理を示すフローチャートである。この即時の処理は、眼の背後にあるプリミティブを取り扱うために設計されている。これら外にある部分により、次段のラスタ化処理で問題が生じる。このことを達成するために、その即時の処理は、投影用に（すなわち物体を透視図法で見るのに）通例用いられる変数Ｗを使用している。変数Ｗは、近くの物体を大きく、遠くの物体を小さくするように、他の座標Ｘ、Ｙ及びＺが分配された数である。変数Ｗは、投影中心と対応する頂点との距離を表している。
【０２２７】
図３２に示すように、最初に、複数の頂点により定義されたプリミティブが取得される。このような頂点の各々には、Ｗ値が含まれている。プリミティブを取得すると、セットアップモジュールは、頂点に基づいて、プリミティブを特徴づける直線を定義する役割を果たす。処理３２００を参照されたい。
【０２２８】
そして、判別３２０２にてＷ値が分析される。図示の如く、１つのＷ値が負である場合、負の値の頂点とは反対側の直線の式は、処理３２０４にて反転させられる。すなわち、直線の式の係数に−１が乗ぜられる。さらに、２つのＷ値が負である場合、正のＷ値の頂点と、負のＷ値の各頂点とを結ぶ各直線の式は、処理３２０６にて反転させられる。３つのＷ値が負である場合、除外条件３２０７が発生し、ここで、本発明はその三角形を除外する。さらに、どのＷ値も負でない場合、追加の処理は何もなされない。
【０２２９】
図３２Ａ乃至図３２Ｃに、直線の式を反転させることが、画面のどの部分を処理するかに影響する様子を示す。図３２Ａに、どのＷ値も負ではなく、直線の式が変更されないままとなる場合を示す。図示の如く、プリミティブの内部は、このような場合に埋められる。
【０２３０】
図３２Ｂに、１つのＷ値が負であるため、それに応じて直線の式が反転させられる場合を示す。図示の如く、この場合には、その頂点と反対側のプリミティブの部分が埋められる。特に、描画される部分は、三角形における−Ｗの頂点を共有した２つの辺とそれぞれ同一直線上にある２本の直線が境界となり、さらに、三角形における２つの＋Ｗの頂点がある辺が境界となる。
【０２３１】
図３２Ｃに、２つのＷ値が負であるため、それに応じて直線の式が反転させられる場合を示す。図示の如く、それらの頂点の反対側のプリミティブの部分が、図２７乃至図３２を参照して上述した方法及び／又は処理を用いて埋められる。すなわち、描画される部分は、三角形における＋Ｗの頂点を共有する２つの辺と同一直線上にある２本の直線が境界となり、さらに、＋Ｗの頂点に隣接している。
【０２３２】
このように、本発明は、上記３つの場合の全てを、取り扱うことが可能である。三角形の一部が近平面及び／又は遠平面を越えている場合、それら平面内の部分のみが描画される。三角形に負のＺの頂点が１つ又は２つある場合、正しく＋Ｚとなった部分のみが描画される。
【０２３３】
全頂点が画面外であり、三角形が眼の背後から遠平面を越えて延びているとしても、三角形内部にあるとともに画面内にあってＺ値が近境界及び遠境界間となっていれば画素となる。本発明により、不良画素を探すのにほとんど時間を費やさなくなる。このことは、画面の境界又は近平面若しくは遠平面によるあらゆるクリッピングが、常に、容易に探索可能な画面上の凸領域となるために可能となる。
【０２３４】
埋められる領域の内部に開始点がない場合に、問題が生じることがある。最上部の頂点が画面外にあるか、又は、近平面若しくは遠平面によりクリッピングされた場合に、このことが起こりうる。この場合、探査段階は、描画される領域の最上部の点を、上部から開始して、探索する必要がある。これは、三角形の境界の傾き及びＺの傾きの符号に導かれることにより、効率的に実行可能である。三角形の直線の式を調べて、それが描画領域の外側にあることとその理由を見出すことができる。それを外側とするのがどの境界及び／又はＺ境界であるかがわかっている場合、どの方向へ進むとこの境界又はＺ境界に近づけるかがわかる。垂直方向よりも水平方向を優先（選択可能な場合）させて移動すると、描画領域を探索することにより、描画可能な画素の最上部のものがあればそれが検出されることが保証される。また、この問題は、開いた外部（−Ｗ）三角形においても生じる。この場合には、描画領域は、３つの頂点全ての上に延びる。
【０２３５】
本発明の一実施形態では、探査は、三角形の上端から下端へと進む。開始点は、どのＷ値も負ではなく、最上部の頂点が切り取り長方形内にある場合には、三角形の最上部の頂点である。それ以外の場合には、切り取り長方形の最上部の点が選択される。探査は、常に切り取り三角形内で始まり、そこから外れることがないので、その領域が、切り取り三角形を越えて遠くに延びた境界に囲まれていても、三角形における切り取り長方形内の部分のみが、常に描画される。このように、単純な切り取り長方形のクリッピングが行われる。
【０２３６】
図３３に、本発明の一実施形態によりアンチエイリアシング処理を採用した集積化グラフィクス処理実装例を示す。図示の如く、オンチップ処理モジュール３３００は、画素断片プロセッサ３３０２へとデータを送出する。これら両者は、共通で単一の大きなメモリ３３０４を共有している。このメモリ３３０４は、オンチップであってもオフチップであってもよい。一実施形態では、オンチップ処理モジュール３３００には、頂点取得、変位マッピング、変換、光源処理、画素シェーディング（テクスチャマッピングを含む）モジュールが、画素読取／書込モジュールとともに含まれていてもよい。画素断片プロセッサ３３０２には、ダウンフィルタリング（downfiltering）・モジュールが含まれていてもよい。頂点取得、変位マッピング、画素のシェーディングのためのテクスチャマッピング、画素読取／書込、及びダウンフィルタリングには、いずれもメモリ３３０４へのアクセスが必要となる。
【０２３７】
本発明の一実施形態では、フィルタリング処理は、グラフィクス・パイプラインのいくつかの段階で実行されてもよい。変位マップは頂点変位を提供するために、アクセスされてフィルタリングされてもよく、テクスチャは画素のシェーディングのためにフィルタリングされてもよく、アンチエイリアシングサンプルは画素の色を生成するためにフィルタリングされてもよく、画素は映像表示用にフィルタリングされてもよい。このように、図１Ｂ−３における個別のフィルタリングロジック及びメモリアクセスは不要となりうる。なお、映像表示用の画素の拡大縮小、映像の再サンプリング等の他の機能が、グラフィクス・パイプラインのフィルタリング・ハードウェアを再利用してもよい。
【０２３８】
なお、本発明のアンチエイリアシング機能は、様々な形態をとりうるものであり、ユーザの要望に応じて様々となりうる。このような変形例について、以下説明する。なお、このような変形はオプションであり、説明のためのみのものである。このように、以下の例は限定として解釈されるべきではない。
【０２３９】
スーパーサンプリング
アンチエイリアシング技術の一つに、スーパーサンプリングがある。スーパーサンプリングには、表示されるべき画素よりも多くのサンプルを取得することが含まれる。このようなサンプルは、各画素内の複数のサブ画素（subpixel）位置で取得される。各画素に表示される色及び輝度は、複数のサブ画素サンプルの組み合わせによるものである。
【０２４０】
スーパーサンプリングにより得られるアンチエイリアシングの質は、サブ画素サンプルの数及び位置の影響を受ける。一般に、１画素当たりのサブ画素が多くなると、アンチエイリアシング効果が高まる。サンプルは、例えば１画素当たり２×２、４×４、又は８×８のサブ画素サンプルといった規則的なサブ画素格子上に位置する。また、サンプルは、不規則又はジッター・パターンに配置されてもよい。これによると、所与のサブ画素数にて、より満足な画像の結果が生成されることになる。
【０２４１】
このように、スーパーサンプリングは、表示される画像部分に対応した各画素位置上又はその周辺でとられるデータサンプル数を増やすことにより、表示配列の空間量子化を向上させるアンチエイリアシング技術であり、これら複数のデータサンプルの結果としての値を組み合わせて、各画素位置の最終的な表示値を取得する。通例、各スーパーサンプルには、画素内の基準点（スーパーサンプル毎に１つの基準点）に関する色値（カラー又はグレースケールシステム用）と、Ｚ値（画素の深度（depth）を表し、隠れた表面を除去するのに用いられる）とが含まれている。
【０２４２】
既知のスーパーサンプリング技術に従って、画素内の各基準「サンプル」点の色値及びＺ値が、最初にプロセッサへと送られる。このプロセッサは、各サンプルの色値を算出し、対象の各サンプルのＺ値を格納済の値と比較する。それに応じて、新しく対象となった各サンプルの色値が更新される。
【０２４３】
アンチエイリアシングの他の形態に対するスーパーサンプリングの利点は、点、線及びポリゴンを、スーパーサンプルバッファへと任意の順に描画しても、最終的に同一の画像が得られるということである。
【０２４４】
マルチサンプリング
マルチサンプリングは、画素毎に複数の副画素サンプル用に記憶域を提供している点で、スーパーサンプリングと類似している。マルチサンプリングは、オブジェクトがレンダリングされる際に、サンプル毎に個別の色が算出されるのではなく、画素ごとに単一の色が算出されて対象となる全てのサブ画素のサンプルに使用される点で、スーパーサンプリングとは異なっている。
【０２４５】
図３４に、本発明の一実施形態によるマルチサンプリング例３４００を示す。図示の如く、第１の色３４０４の第１のオブジェクトに部分的に覆われているとともに、第２の色３４０２の第２のオブジェクトに部分的に覆われた画素３４０１が含まれている。この例では、マルチサンプリングにより、複数のサンプルが合成された単一の色が割り当てられた画素がもたらされる。これは、１１個及び５個のサンプルとしてそれぞれ表示される第１及び第２の色が混ざったものである。アンチエイリアシングがなされなければ、当該画素は、その全てが第１の色になってしまう。これは、第１の色が画素の中心を覆っているためである。
【０２４６】
マルチサンプリングに関するさらなる情報については、アケリイ（Akeley）、カート（Kurt）、リアリィティエンジン・グラフィクス（RealityEngine Graphics）、「シググラフ（Siggraph）の手順1993」、1993年8月、ページ109-116、及びジョンＳ．モントレイ、ダニエルＲ．ハウム、デビットＬ．ディグナム及びクリストファＪ．ミグダル、インフィニットリアリィティ、「リアルタイム・グラフィック・システム」、コンピュータ・グラフィック＆インタラクティブ技術第２４回年次会議議事録、1997、ページ293-302を、参照されたい。これらは、ここに引用文献として組み込まれる。
【０２４７】
断片ベースのアンチエイリアシング（「Ａ−バッファ・アンチエイリアシング」）
第３のアンチエイリアシング手法では、画素毎に複数の断片が格納される。断片は、画素に対する表面の寄与であり、通例、色、深度値（傾きを含んでもよい）、及び画素のどの部分が覆われるかを示す情報からなる。断片ベースの手法では、各画素において完全又は部分的に可視の表面が監視され、画素の最終的な色がこれら断片の加重平均として算出される。
【０２４８】
断片ベースの手法に固有の問題は、被覆範囲をどのように表すかということである。断片毎に、被覆された部分を監視しておくことは、費用のかからない方法であるが、画素の近傍で隣接した２つの三角形の影響を、画素における同じ副領域を覆う２つの三角形の影響に対して識別することが難しい。例えば、所与の画素について、三角形Ａがその３５％を被覆し、三角形Ｂがその５０％を被覆している場合に、三角形Ｂが三角形Ａと同じ３５％を被覆してさらに１５％を被覆しているのかどうかは不明である。三角形Ｂの５０％の被覆範囲は、三角形Ａの３５％の被覆範囲と完全に異なっている場合もあり、被覆範囲がこれらの場合の中間であるかもしれない。１つの三角形の頂点近傍にある画素の被覆部分を算出することは、多くの場合難しい。このようなところでは、２つの境界の被覆値が干渉し合う。
【０２４９】
被覆範囲を扱うためのより強力であるが高価な方法として、マスクがある。マスクは、特定のサブ画素サンプルの位置又は画素のサブ領域に対応可能ないくつものビットを備えている。
【０２５０】
マスクビットが、サブ領域に対応している場合、マスク中に設定されるビットの数は断片の被覆範囲にほぼ比例している。例えば、断片が画素の５２％を被覆していて、マスクが合計で１６ビット構成である場合、これらのビットの９ビットがセットされて７ビットがクリアされる。断片により被覆された画素の領域に対して、サブ領域が最も密接に対応しているビットが、設定されるべきものとして選択される。
【０２５１】
画素マスクを利用する代表的な方法として、Ａ−バッファ・アルゴリズムがある（「Ａ−バッファ：アンチエイリアシング潜表面（Hidden Surface）法」、ローレン・カーペンタ、シググラフ、1984、ページ103-108を参照されたい。これは、引用文献としてここに組み込まれる）。しかしながら、この方法によると、画素ビットマスクは、必然的に低速となるソフトウェア処理にて生成される。画素マスクを用いた他の方法として、参照テーブルを利用するものがある（「サブ画素マスクを伴った新しい単純で効果的なアンチエイリアシング」、アンドリアス・シーリング、シググラフ、1991、ページ133-141を参照されたい。これは、引用文献としてここに組み込まれる）。このような参照テーブルの方法では、画素マスクの形態としてとりうるもの全ては、三角形の辺の傾き（ｄｅ_x）及び画素の中心からその辺までの距離（ｅ）に応じて生成可能であり、予め参照テーブル内に格納されている。ここで、画素マスクは、参照テーブルを、三角形の探査演算の実行時に算出される上記の２つの情報に対してインデックスすることにより、ジョアン・ピネダ（Juan Pineda）により提案された方法によって（「ポリゴン・ラスタライゼーションのためのパラレル・アルゴリズム」、シググラフ、1988、ページ17-20を参照されたい。これは、引用文献としてここに組み込まれる）、生成される。
【０２５２】
これらのアンチエイリアシング方式は、いずれも、画素に重複する全てのプリミティブに対して、色及びＺ情報を取得しようとするものである。これには、画素のどの部分がそれぞれ被覆されているのかを識別することが含まれる。これらのどの方式にも、画素の最終的な色を決めるのに、フィルタリング演算（すなわち色の寄与度の加重平均）が必要とされる。このフィルタリングは、画素が書き込まれる度に、あるいは、色の読取時に必要とされて、実行されてもよい。
【０２５３】
このようなアルゴリズムについてのさらなる情報として、ステファニー・ウイナー、マイケル・ケリー、ブレント・ピアス、ビル・リバード及びアレックス・イエンによる「修正されたＡ−バッファ・アルゴリズムを用いるアンチエイリアシングのハードワイヤー・アクセレイト・レンダリング」を参照されたい。コンピュータ・グラフィック＆インタラクティブ技術第２４回年次会議議事録、1997、ページ307-316は、ここに引用文献として組み込まれる。
【０２５４】
断片ベースの方法では、断片毎に１つのＺ値が保持されうる。そのＺ値は、画素の中心でサンプリングされた表面のＺ面の値であってもよい。なお、断片の重心で算出されてもよい。Ｚの傾き値をも格納する高度な方法によれば、副画素の形状に、デプスをより正確に寄与させることが可能となる。他の変形例としては、いくつものサンプル位置に、複数のＺ値を格納するというものがある。
【０２５５】
また、スーパーサンプリング、マルチサンプリング、及び断片ベース方式の各側面を組み合わせた複合アンチエイリアシングシステムも可能である。
【０２５６】
さらに、アンチエイリアシングは、ある場面の全オブジェクトに対して適用されてもよく、特定のオブジェクトに対して個別に有効とされてもよい。境界のアンチエイリアシングは、場面全体のアンチエイリアシング、例えば、ポリゴン状オブジェクトのある場面にアンチエイリアシングされた線をレンダリングすることと組み合わされてもよい。
【０２５７】
さらに、アンチエイリアシングアルゴリズムは、サンプルの被覆範囲又は断片のマスク値を操作することにより、動きによるぼけ（motion blur）、フィールドの深度及び部分的な透明性をシミュレートするのに利用可能である。
【０２５８】
以上、様々な実施形態について説明したが、それらは、限定のためではなく、例としてのためのみに示されたものである。このように、好適な実施形態の広がり及び範囲は、上述の例示的な実施形態により限定されるべきではなく、特許請求の範囲及びその均等の範囲によってのみ規定されるべきである。
【図面の簡単な説明】
【図１】コンピュータグラフィクス処理の従来技術による方法を示す説明図である。
【図１Ａ−１】従来技術によりエイリアシングの影響を受ける画像を示す説明図である。
【図１Ａ−２】従来技術によりエイリアシングの影響を受けた図１Ａ−１の画像を示す説明図である。
【図１Ａ−３】従来技術にて、より精細な格子を用いてエイリアシングがいくらか緩和される方式を示す説明図である。
【図１Ａ−４】アンチエイリアシングが、ギザギザのエッジを除去するのに役立って、画像がより写実的になっている様子を示す説明図である。
【図１Ｂ−１】アンチエイリアシング処理を採用していない非集積型の従来のグラフィクスシステムの実装例を示す説明図である。
【図１Ｂ−２】アンチエイリアシング処理を採用した非集積型の従来のグラフィクスシステムの実装例を示す説明図である。
【図１Ｂ−３】アンチエイリアシング処理を採用し、追加のロジックを有するラスタライザを備えた非集積型の従来のグラフィクスシステムの実装例を示す説明図である。
【図１Ｃ】単一の半導体プラットフォーム上に実装された本発明に係る一実施形態の種々のコンポーネントを示すフローチャートである。
【図２】本発明に係る一実施形態における頂点属性バッファ（ＶＡＢ）を示す図である。
【図２Ａ】本発明に係る一実施形態におけるＶＡＢにより受信されうる種々のコマンドの説明図である。
【図２Ｂ】本発明に係る一実施形態により頂点属性をＶＡＢへとロードすること及びそこから転送することの一方法を示すフローチャートである。
【図２Ｃ】図２Ｂの処理を実装するために用いられた本発明の構成を示す図である。
【図３】本発明に係る一実施形態によるＶＡＢに関連したモードビットの説明図である。
【図４】本発明に係る一実施形態の変換モジュールの説明図である。
【図４Ａ】本発明に係る一実施形態により複数の実行スレッドを実行する方法を示すフローチャートである。
【図４Ｂ】本発明に係る一実施形態により図４Ａの方法が実行される方式を示すフローチャートである。
【図５】本発明に係る一実施形態による図４の変換モジュールの機能ユニットを示す説明図である。
【図６】図５の変換モジュールの乗算論理ユニット（ＭＬＵ）を示す図である。
【図７】図５の変換モジュールの演算論理ユニット（ＡＬＵ）を示す図である。
【図８】図５の変換モジュールのレジスタファイルを示す図である。
【図９】図５の変換モジュールの逆論理ユニット（ＩＬＵ）を示す図である。
【図１０】本発明に係る一実施形態における図５の変換モジュールの出力コンバータの出力アドレス図である。
【図１１】本発明に係る一実施形態における図５の変換モジュールのマイクロコード体系の説明図である。
【図１２】本発明に係る一実施形態における図５の変換モジュールのシーケンサを示す図である。
【図１３】図１２の変換モジュールのシーケンサの使用に関連した種々の演算を示すフローチャートである。
【図１４】図１２の変換モジュールのシーケンサのシーケンスコンポーネントの処理を示すフローチャートである。
【図１４Ａ】グラフィクス処理の際のスカラー及びベクトル頂点データの処理のために用いられる本発明に係るコンポーネントを示すフローチャートである。
【図１４Ｂ】図５の変換モジュールに対応した図１４Ａに示す本発明に係る機能コンポーネントとしてとりうる組み合わせ１４５１を示すフローチャートである。
【図１４Ｃ】図１４Ａに示した本発明の機能コンポーネントとしてとりうる別の組み合わせ１４５３を示すフローチャートである。
【図１４Ｄ】本発明に係る一実施形態によるグラフィクス処理の際にブレンディング処理を実行するための図１２の変換モジュールにより実装された方法を示す説明図である。
【図１５】本発明に係る一実施形態による光源処理モジュールに示す図である。
【図１６】本発明に係る一実施形態による図１５の光源処理モジュールの機能ユニットを示す図である。
【図１７】本発明に係る一実施形態による図１６の光源処理モジュールの乗算論理ユニット（ＭＬＵ）を示す図である。
【図１８】本発明に係る一実施形態による図１６の光源処理モジュールの演算処理モジュール（ＡＬＵ）を示す図である。
【図１９】本発明に係る一実施形態による図１６の光源処理モジュールのレジスタユニットを示す図である。
【図２０】本発明に係る一実施形態による図１６の光源処理モジュールの光源処理論理ユニット（ＬＬＵ）を示す図である。
【図２１】本発明に係る一実施形態による図１６の光源処理モジュールに関連したフラグレジスタの構成を示す説明図である。
【図２２】本発明に係る一実施形態による図１６の光源処理モジュールに関連したマイクロコードフィールドの説明図である。
【図２３】本発明に係る一実施形態による図１６の光源処理モジュールに関連したシーケンサを示す図である。
【図２４】本発明に係る一実施形態により変換及び光源処理モジュールのシーケンサがバッファに関連した入力及び出力を制御可能な方法を示すフローチャートである。
【図２５】図２４の方法に従い、変換及び光源処理モジュールのシーケンサが、対応するバッファの入力及び出力を制御可能な方法を示す説明図である。
【図２５Ｂ】図１Ｂのラスタライザの種々のモジュールを示す図である。
【図２６】本発明に係るラスタ化モジュールのセットアップモジュールを示す図である。
【図２６Ａ】図２６のラスタライザのセットアップモジュールにより算出される種々のパラメータを示す説明図である。
【図２７】図２６に示すラスタライザコンポーネントのセットアップ及び探査モジュールに関連した本発明に係る方法を示すフローチャートである。
【図２７Ａ】本発明に係る一実施形態により、プリミティブ内の領域を特定するために移動する凸領域を囲む検出点を示す説明図である。
【図２８】図２７の横列処理動作２７０６に関連した本発明に係る処理を示すフローチャートである。
【図２８Ａ】本発明の凸領域がプリミティブについて移動するシーケンスの説明図である。
【図２８Ｂ】本発明の凸領域がプリミティブについて移動するシーケンスの他の例の説明図である。
【図２９】図２７の横列処理動作２７０６に関連した本発明に係る交互になされる犂耕処理を示すフローチャートである。
【図２９Ａ】図２９の犂耕処理に関連して本発明に係る凸領域がプリミティブで移動するシーケンスの説明図である。
【図３０】境界を用いて交互になされる犂耕処理を示すフローチャートである。
【図３１】図３０の処理３００６に対応した処理を示すフローチャートである。
【図３１Ａ】図３０及び図３１における境界に基づく犂耕処理に応じて本発明に係る凸領域がプリミティブにて移動する処理を示す説明図である。
【図３２】図２７の処理２７０２に対応した処理を示すフローチャートである。
【図３２Ａ】図３２の処理で負のＷ値が算出されない場合に描画される領域を示す説明図である。
【図３２Ｂ】図３２の処理で負のＷ値が１つのみ算出された場合に描画される領域を示す説明図である。
【図３２Ｃ】図３２の処理で負のＷ値が２つのみ算出された場合に描画される領域を示す説明図である。
【図３３】本発明に係る一実施形態によりアンチエイリアシング処理を採用した集積化の実装例を示す説明図である。
【図３４】本発明に係る一実施形態によるマルチサンプリング例を示す図である。

Claims

グラフィクス処理用のグラフィクス・パイプライン・システムにおいて、
（ａ）頂点データを取得するように適合し、その頂点データを第１の空間から第２の空間へと変換するために、単一の集積回路チップ上に配置された変換モジュールと、
（ｂ）前記変換モジュールに対して接続され、前記変換モジュールから取得したデータに対して光源処理演算を実行するために、その変換モジュールと同一の前記単一の集積回路チップ上に配置された光源処理モジュールと、
（ｃ）前記光源処理モジュールに対して接続され、前記光源処理モジュールから取得したデータをレンダリングするために、前記変換モジュール及び光源処理モジュールと同一の前記単一の集積回路チップ上に配置されたラスタライザと、
（ｄ）前記変換モジュール、前記光源処理モジュール及び前記ラスタライザに接続されており、頂点取得、変位マッピング、変換、光源処理、画素のシェーディング、画素読取及び書込、及びダウンフィルタリングを有する演算のための記憶領域の提供に適合した単一の共通メモリと、
を有し、
（ｅ）レンダリングの質を向上させるために、アンチエイリアシングが前記単一の集積回路チップ上に実装されているシステム。
前記単一の共通メモリに関する帯域幅が共用される請求項１に記載のシステム。
前記アンチエイリアシングは、マルチサンプリングを含む請求項１に記載のシステム。
前記アンチエイリアシングは、表面の断片を用いる請求項１に記載のシステム。
前記アンチエイリアシングは、スーパーサンプリングを含む請求項１に記載のシステム。
グラフィクス・パイプライン・システムでのグラフィクス処理方法において、
（ａ）変換モジュールを用いて、頂点データを第１の空間から第２の空間へと変換し、
（ｂ）光源処理モジュールを用いて、前記頂点データを光源処理し、
（ｃ）ラスタライザを用いて、前記頂点データをレンダリングし、
（ｄ）レンダリングの質を向上させるためにアンチエイリアシングを実行し、
（ｅ）頂点取得、変位マッピング、変換、光源処理、画素のシェーディング、画素読取及び書込、及びダウンフィルタリングを有する演算用に単一の共通メモリを使用し、
（ｆ）前記頂点データは、単一の集積回路チップ上で、変換、光源処理及びレンダリングされ、前記アンチエイリアシングが、前記単一の集積回路チップ上で実行される方法。
前記単一の共通メモリに関する帯域幅が共用される請求項６に記載の方法。
前記アンチエイリアシングは、マルチサンプリングを含む請求項６に記載の方法。
前記アンチエイリアシングは、表面の断片を用いる請求項６に記載の方法。
前記アンチエイリアシングは、スーパーサンプリングを含む請求項６に記載の方法。