JP2021501938A - グラフィックスパイプラインにおけるインデックスの圧縮及び復元 - Google Patents

グラフィックスパイプラインにおけるインデックスの圧縮及び復元 Download PDF

Info

Publication number
JP2021501938A
JP2021501938A JP2020524187A JP2020524187A JP2021501938A JP 2021501938 A JP2021501938 A JP 2021501938A JP 2020524187 A JP2020524187 A JP 2020524187A JP 2020524187 A JP2020524187 A JP 2020524187A JP 2021501938 A JP2021501938 A JP 2021501938A
Authority
JP
Japan
Prior art keywords
index
chunk
bit
value
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020524187A
Other languages
English (en)
Other versions
JP7138169B2 (ja
Inventor
セイラン ウザメ
セイラン ウザメ
イン ヨ ヨン
イン ヨ ヨン
マーティン トッド
マーティン トッド
ゴエル ヴィニート
ゴエル ヴィニート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JP2021501938A publication Critical patent/JP2021501938A/ja
Application granted granted Critical
Publication of JP7138169B2 publication Critical patent/JP7138169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/08Bandwidth reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Abstract

計算ユニット(111〜114)は、グラフィックスプリミティブの頂点のインデックスを表すビットのチャンク(310)にアクセスする。計算ユニットは、チャンクが単調であるか通常であるかを示す第1ビット(420)の値と、チャンク内のインデックスの値に基づいて決定されるオフセットを定義する第2ビット(425)の値と、第2ビットによって定義されたオフセットに基づいてチャンク内のインデックスの値を決定する第3ビットのセット(430)の値と、を設定する。計算ユニットは、第1ビットと、第2ビットと、第3ビットのセットと、によって表される圧縮チャンク(315)をメモリ(115)に書き込む。圧縮チャンクは、インデックスの値とインデックスの特性を示すビットフィールドとに基づいて決定されるオフセットを含むメタデータ(605)に基づいて復元され、復元されたインデックスがインデックスバッファ(206)に書き込まれる。【選択図】図3

Description

グラフィックスプロセッサは、プログラマブルシェーダ及び固定機能ハードウェアブロックのシーケンスを含むグラフィックスパイプラインを使用して表示用の画像を生成し、シーンのモデルに基づいて画像をレンダリングする。例えば、フレームに表示されるオブジェクトの3Dモデルは、ユーザに表示するためのピクセル値を生成するために、プリミティブ(例えば、グラフィックスパイプラインで処理される三角形、他のポリゴン又はパッチ等)のセットによって表すことができる。各プリミティブは、プリミティブの頂点において例えば赤緑青(RGB)等の値で表される。例えば、三角形は、三角形の3つの頂点における値のセットで表される。グラフィックスパイプラインは、頂点を識別するインデックスを使用して、三角形の頂点にアクセスする。頂点のインデックスは、通常、16ビット又は32ビットを含む2進数で表される。三角形のセットのインデックスは、例えばチャンク毎に16のインデックス等のように、所定数のインデックスを含む「チャンク」で処理される。チャンクは、グラフィックスパイプラインで使用される前にインデックスバッファに記憶される。
チャンクは、通常チャンク又は単調チャンクである。通常チャンクは、チャンク内の三角形毎に3つの頂点が順番にリストされる。単調チャンクは、隣接する三角形が2つの頂点を共有するという事実を利用する。例えば、三角形のトライアングルストリップメッシュは、互いに隣接する三角形の大部分を含む。単調チャンクは、隣接する三角形によって共有されない頂点のインデックスのみを追加することによって、連続して隣接する三角形を表す。したがって、単調チャンクは、2つの連続する三角形によって共有される頂点のインデックスを繰り返さない。例えば、第1三角形の頂点がインデックス8,9,10を有し、第2三角形の頂点がインデックス9,10,11を有する場合、単調チャンク内の第1三角形及び第2三角形の表現は、インデックス8,9,10,11をリストする。対照的に、通常チャンクは、第1三角形及び第2三角形を8,9,10,9,10,11と表す。連続してディスパッチされた三角形が常に隣接しているとは限らず、単調チャンクは、単調チャンク内の前の三角形と頂点を共有しない三角形の頂点を次のインデックスが識別することを示すリスタートインデックス(restart index)を含む。
添付の図面を参照することによって本開示をより良く理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面で同じ符号を使用している場合、類似又は同一のアイテムを示している。
いくつかの実施形態による、ディスプレイへの出力を意図した視覚イメージを生成するためのグラフィックス処理ユニット(GPU)を含む処理システムのブロック図である。 いくつかの実施形態による、高次ジオメトリプリミティブを処理して三次元(3D)シーンのラスタライズ画像を生成することができるグラフィックスパイプラインを示す図である。 いくつかの実施形態による、処理システムの一部を示すブロック図である。 いくつかの実施形態による、単調チャンク内のインデックスを圧縮する方法を示す図である。 いくつかの実施形態による、通常チャンク内のインデックスを圧縮する方法を示す図である。 いくつかの実施形態による、圧縮チャンクのメタデータを生成する方法を示す図である。 いくつかの実施形態による、インデックスの同時復元をサポートするために、単調チャンク内のインデックスを圧縮する方法を示す図である。 いくつかの実施形態による、圧縮チャンクのメタデータ及び圧縮インデックスを生成する方法を示す図である。
インデックスのセット(本明細書では「チャンク」と呼ばれる)は、チャンクが単調であるか通常であるかを示す第1ビットと、チャンク内のインデックスの値に基づいて決定されるオフセットを定義する第2ビットと、を使用することによって、インデックスバッファに記憶するために圧縮される。圧縮チャンクは、第2ビットによって定義されたオフセットに基づいて、チャンク内の各インデックスの値を決定する第3ビットのセットも含む。圧縮チャンクはメモリに記憶され、メモリに記憶された圧縮チャンクの先頭アドレスを表すメタデータが生成される。圧縮チャンクは、メタデータに基づいてメモリ(又は、関連するキャッシュ)からフェッチされる。例えば、復元ユニットは、メタデータに記憶された先頭アドレスを使用して、圧縮チャンクと重複するキャッシュラインを判別し、重複するキャッシュラインをフェッチする。チャンク内のインデックスの値は、第1ビットと、第2ビットと、第3ビットのセットと、に基づいて決定される。
単調チャンクは、第1ビットを、チャンクが単調チャンクであることを示す値に設定し、第2ビットを、リスタートインデックスではない単調チャンク内の第1インデックスの値に等しいオフセット値に設定することによって圧縮される。第3ビットの第1セットは、単調チャンク内のリスタートインデックスの番号を示す値に設定され、第3ビットの1つ以上の他のセットは、単調チャンク内のリスタートインデックスの位置を示す値に設定される。通常チャンクは、第1ビットを、チャンクが通常チャンクであることを示す値に設定し、第2ビットを、通常チャンク内のインデックスの最小インデックス値に等しいオフセット値に設定することによって圧縮される。第3ビットの第1セットは、インデックスの値と最小インデックス値との間の差を表すのに使用されるビット数を示す値に設定される。第3ビットの第2セットは、対応するインデックスがユニークであることを示し、オフセットに関するユニークインデックスの値を示すために使用される。第3ビットの第3セットは、対応するインデックスがユニークインデックスのリピート値であることを示し、通常チャンク内のユニークインデックスの相対位置を示すために使用される。
いくつかの実施形態では、圧縮チャンクのインデックスは、この情報を圧縮チャンクに記憶する代わりに、ヘッダビットのセットをメタデータに記憶することによって同時に又は並列に復元される。単調チャンクの場合、第1ビット及び第2ビットは、メタデータに記憶されたヘッダビットのセットに含まれる。ヘッダビットは、リスタートインデックスの位置を表すビットフィールドも含む。通常チャンクの場合、第1ビット及び第2ビットは、メタデータに記憶されたヘッダビットのセットに含まれる。また、ヘッダビットは、圧縮チャンク内のユニークインデックスの位置を示すビットの値を有するビットフィールドを含む。通常チャンクのメタデータは、インデックスの値と最小インデックス値との間の差を表すのに使用されるビット数を示す第3ビットの第1セットをさらに含む。圧縮チャンク内のインデックスを復元するために使用されるレーンは、メタデータに記憶されたビットフィールドに基づいて選択的に有効にされ、これにより、チャンク内の復元されたインデックスの順序が保存される。
図1は、いくつかの実施形態による、ディスプレイ110への出力を意図した視覚イメージを生成するためのグラフィックス処理ユニット(GPU)105を含む処理システム100のブロック図である。GPU105は、複数の計算ユニット111,112,113,114を含むマルチスレッドプロセッサであり、本明細書ではこれらをまとめて「計算ユニット111〜114」と呼ぶ。計算ユニット111〜114は、命令を同時又は並列に実行するように構成されている。計算ユニット111〜114のいくつかの実施形態は、ビデオレンダリングに必要とされる基本的な算術演算等の比較的少ない演算セットを実施するように構成されている。図1では、分かり易くするために4つの計算ユニット111〜114を示しているが、GPU105のいくつかの実施形態は、数十、数百又は数千の計算ユニットを含む。計算ユニット111〜114のいくつかの実施形態は、複数のデータセット上で単一のプログラムの複数のインスタンス(又は、ウェーブ)を、例えば、単一の命令、複数のデータ(SIMD)ウェーブとして同時に実行する。例えば、計算ユニット111〜114は、データのアレイ又はストリームに対して同じ動作シーケンスを実行するように構成されている。
処理システム100は、メモリ115を含む。メモリ115のいくつかの実施形態は、ダイナミックランダムアクセスメモリ(DRAM)として実施される。しかし、他の実施形態では、メモリ115は、スタティックランダムアクセスメモリ(SRAM)、不揮発性RAM等を含む他のタイプのメモリを使用して実施されてもよい。図示した実施形態では、GPU105は、バス120を介してメモリ115と通信する。しかし、GPU105のいくつかの実施形態は、直接接続を介して、又は、他のバス、ブリッジ、スイッチ、ルータ等を介して、メモリ115と通信する。GPU105は、メモリ115に記憶された命令を実行することができ、GPU105は、実行された命令の結果等の情報をメモリ115に記憶することができる。例えば、メモリ115は、GPU105の計算ユニット111〜114によって実行されるプログラムコードからの命令のコピー125を記憶することができる。
処理システム100は、命令を実行するための中央処理装置(CPU)130を含む。CPU130のいくつかの実施形態は、シーケンシャルシリアル処理用に最適化された複数のプロセッサコア131,132,133,134(本明細書ではまとめて「プロセッサコア131〜134」と呼ぶ)を含む。プロセッサコア131〜134は、(例えば、計算ユニット111〜114によって実行される小さな命令セットに対して)比較的大きな命令セットと、処理システム100で実行されるアプリケーションによって必要とされる計算の全レパートリをCPU130が実行するのを可能にする大きな特徴セットと、を実装する。CPU130のいくつかの実施形態は、プロセッサコア131〜134を使用して複数のパイプラインを実装することができる。CPU130は、バス120にも接続されており、これにより、バス120を介してGPU105及びメモリ115と通信する。CPU130は、メモリ115に記憶されたプログラムコード135等の命令を実行し、実行された命令の結果等の情報をメモリ115に記憶する。また、CPU130は、ドローコールをGPU105に発行することによって、グラフィックス処理を開始することができる。ドローコールは、フレーム内のオブジェクト(又は、オブジェクトの一部)のレンダリングをGPU105に指示するために、CPU130によって生成され、GPU105に送信されるコマンドである。GPU105は、ドローコールに応じて、オブジェクトをレンダリングして、ディスプレイ110に提示されるピクセル値を生成し、ディスプレイ110は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。
入出力(I/O)エンジン140は、処理システム100の他の要素(例えば、キーボード、マウス、プリンタ、外部ディスク等)と同様に、ディスプレイ110に関連する入出力動作を処理する。I/Oエンジン140は、GPU105、メモリ115又はCPU130と通信できるように、バス120に接続されている。図示した実施形態では、I/Oエンジン140は、外部記憶媒体145(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ネットワークサーバ等)に記憶された情報を読み出すように構成されている。外部記憶媒体145は、ビデオゲーム等のアプリケーションを実行するために使用されるプログラムコードを表す情報を記憶する。外部記憶媒体145のプログラムコードは、GPU105によって実行される命令のコピー125、又は、CPU130によって実行されるプログラムコード135を形成するために、メモリ115に書き込まれる。
マルチスレッドGPU105の計算ユニット111〜114は、GPU105のウェーブの実行をサポートするために使用されるリソースを共有する。GPU105のいくつかの実施形態は、計算ユニット111〜114で実行されるウェーブの状態情報を記憶するベクトル汎用レジスタ(VGPR、明確にするために図1に示されていない)のセットを実装する。VGPRは、計算ユニット111〜114で同時に実行されているウェーブ間で共有される。例えば、各ウェーブにはVGPRのサブセットが割り当てられ、ウェーブの状態情報が記憶される。また、ウェーブは、同時に実行されるウェーブ間で分割されるローカルデータ共有、ローカルキャッシュにアクセスするためにウェーブによって共有されるメモリ帯域幅等を含む、GPU105の他のリソースを共有する。マルチスレッドCPU130のプロセッサコア131〜134もリソースを共有する。
GPU105は、複数のワークロードを同時に又は並列に実行するための複数のパイプラインを実装するように構成されている。計算ユニット111〜114のいくつかの実施形態は、ディスプレイ110に表示されるオブジェクトの画像をレンダリングするためにグラフィックスワークロードを実行するグラフィックスパイプラインを実装するのに使用される。例えば、計算ユニット111〜114は、シーンの3Dモデルの一部を表す三角形等のプリミティブを操作するシェーダの複数のインスタンスを実行することによって、グラフィックス処理を実行する。プリミティブは、頂点のセットで定義される。例えば、三角形は、三角形の3つの頂点の値のセットで表される。計算ユニット111〜114は、頂点を識別するインデックスを使用して三角形の頂点にアクセスすることができる。例えば、計算ユニット111〜114は、計算ユニット111〜114がプリミティブの頂点の処理を開始する準備ができている場合に、インデックスバッファ(明確にするために図1に示されていない)からインデックスにアクセスする。
三角形のセットのインデックスは、本明細書では、例えばチャンク毎の16のインデックス等のように、所定数のインデックスを含む「チャンク」と呼ばれる。チャンクは、処理システム100のリソースを節約するために圧縮される。いくつかの実施形態では、圧縮は、GPU105又は処理システム100の他の処理ユニットによって(例えば、計算ユニット111〜114がインデックスによって示される頂点の処理を開始する準備ができる前に)オフラインで実行され、圧縮されたインデックス(圧縮インデックス)は、メモリ115等のメモリに記憶される。メタデータも生成され、メモリ115に記憶される。図示した実施形態では、圧縮インデックス及びメタデータは、メモリ115のブロック155に記憶される。しかし、他の実施形態では、メタデータ及び圧縮インデックスは、他の場所に記憶され、全ての実施形態で同じ場所に記憶される必要はない。GPU105は、計算ユニット111〜114が頂点の処理を開始する準備ができている場合に、ブロック155からメタデータを取り出す。いくつかの実施形態では、メタデータは、ブロック155から圧縮インデックスを取り出すために使用され、圧縮インデックスは、キャッシュに記憶される。GPU105は、圧縮インデックスをオンザフライ(on the fly)で復元し、復元されたインデックスをインデックスバッファに記憶して、計算ユニット111〜114が利用できるようにする。
図2は、いくつかの実施形態による、高次のジオメトリプリミティブを処理して三次元(3D)シーンのラスタライズ画像を生成することができるグラフィックスパイプライン200を示す図である。グラフィックスパイプライン200は、図1に示すGPU105のいくつかの実施形態において実施される。例えば、いくつかの実施形態では、グラフィックスパイプライン200は、図1に示すGPU105の計算ユニット111〜114を使用して実施されてもよい。図2に示すグラフィックスパイプライン200は、グラフィックスパイプライン200に含まれる全てのシェーダが、共有されたSIMDプロセッサコアにおいて同じ実行プラットフォームを有するように、ユニファイドシェーダモデル(unified shader model)を実装する。したがって、シェーダは、本明細書においてユニファイドシェーダプール201と呼ばれるリソースの共通セットを使用して実装される。ユニファイドシェーダプール201のいくつかの実施形態は、図1に示すGPU105に実装された計算ユニット111〜114を使用して実施される。
ストレージリソース202は、グラフィックスパイプライン200のステージによって共有される。ストレージリソース202は、複数のウェーブのワークグループ内で読み出し/書き込み通信及び同期のために使用されるローカルデータストア(LDS)203を含む。また、ストレージリソース202は、ウェーブによって実行された動作の中間結果等のように、ウェーブの現在の状態を定義する状態情報を記憶するVGPR204を含む。さらに、ストレージリソース202は、圧縮チャンク、メタデータ、頂点データ、テクスチャデータ、及び、グラフィックスパイプライン200の1つ以上のステージによって頻繁に使用される他のデータ等の情報をキャッシュするために使用されるキャッシュ階層205を含む。さらにまた、ストレージリソース202は、グラフィックスパイプライン200内のエンティティによるアクセスのために、頂点の復元されたインデックスを記憶するのに使用されるインデックスバッファ206を含む。いくつかの実施形態では、ストレージリソース202は、他のレジスタ、バッファ、メモリ又はキャッシュも含む。グラフィックスパイプライン200の共有リソースは、グラフィックスパイプライン200のステージとストレージリソース202との間の通信をサポートするために使用されるメモリファブリックの帯域幅も含む。ストレージリソース202の一部は、図1に示すGPU105の一部としてオンチップで実装され、又は、図1に示すメモリ115のいくつかの実施形態を使用してオフチップで実装される。図2には、単一のグラフィックスパイプライン200が示されているが、(ユニファイドシェーダプール201と同様に)ストレージリソース202のいくつかの実施形態は、複数のグラフィックスパイプラインによって共有される。
グラフィックスパイプライン200は、シーンのモデルの一部を表すオブジェクトを定義するのに使用されるストレージリソース202からの情報にアクセスするように構成された入力アセンブラ210を含む。入力アセンブラ210のいくつかの実施形態は、インデックスバッファ206から頂点のインデックスを取り出し、取り出したインデックスを使用して、グラフィックスパイプライン200の下流のエンティティに提供される頂点を識別するように構成されている。
頂点シェーダ211は、例えばソフトウェアにおいて実装され、プリミティブの単一の頂点を入力として論理的に受信し、単一の頂点を出力する。頂点シェーダ211等のシェーダのいくつかの実施形態は、例えば、ユニファイドシェーダプール201を実装するのに使用される計算ユニットによって複数の頂点が同時に処理されるように、単一命令複数データ(SIMD)処理を実施する。
ハルシェーダ212は、入力パッチを定義するのに使用される入力高次パッチ又はコントロールポイントに基づいて動作する。ハルシェーダ212は、テッセレーション係数及び他のパッチデータを出力する。ハルシェーダ212によって生成されたプリミティブは、オプションでテッセレータ213に提供されてもよい。テッセレータ213は、ハルシェーダ212からオブジェクト(パッチ等)を受信し、例えば、ハルシェーダ212によってテッセレータ213に提供されるテッセレーション係数に基づいて入力オブジェクトをテッセレーションすることによって、入力オブジェクトに対応するプリミティブを識別する情報を生成する。テッセレーションは、例えば、テッセレーション処理によって生成されるプリミティブの粒度を指定するテッセレーション係数によって示すように、例えばパッチ等の入力高次プリミティブを、より詳細なレベルを表すより低次出力プリミティブのセットに分割する。したがって、シーンのモデルを、(メモリ又は帯域幅を節約するために)少数の高次プリミティブで表すことができ、高次プリミティブをテッセレーションすることによってさらなる詳細を追加することができる。
ドメインシェーダ214は、ドメイン位置及び(オプションで)他のパッチデータを入力する。ドメインシェーダ214は、提供された情報に基づいて動作し、入力ドメイン位置及び他の情報に基づいて、出力用の単一の頂点を生成する。ジオメトリシェーダ215は、入力プリミティブを受信し、入力プリミティブに基づいて、ジオメトリシェーダ215によって生成される最大4つのプリミティブを出力する。プリミティブの1つのストリームがラスタライザ216に提供され、最大4つのプリミティブのストリームがストレージリソース202のバッファに連結され得る。ラスタライザ216は、シェーディング操作と、他の操作(例えば、クリッピング、パースペクティブ分割、シザリング、ビューポート選択等)と、を実行する。ピクセルシェーダ217は、ピクセルフローを入力し、入力されたピクセルフローに応じて、0又は別のピクセルフローを出力する。出力マージャブロック218は、ピクセルシェーダ217から受信したピクセルに対して、ブレンド、デプス(depth)、ステンシル又は他の操作を実行する。
図3は、いくつかの実施形態による、処理システムの一部300を示すブロック図である。一部300は、図1に示す処理システム100及び図2に示すグラフィックスパイプライン200のいくつかの実施形態で実施される。一部300は、グラフィックスプリミティブの頂点を識別するインデックスのチャンク310を圧縮するように構成されたコンプレッサ305を含む。コンプレッサ305は、圧縮インデックスを表すビットを含む圧縮チャンク315をチャンク310から生成する。また、一部は、圧縮インデックスを表すビットを含む圧縮チャンク315を復元するように構成されたデコンプレッサ320を含む。デコンプレッサ320は、チャンク310内のインデックスを表すビットを生成する。コンプレッサ305及びデコンプレッサ320のいくつかの実施形態は、図1に示す計算ユニット111〜114等の計算ユニットを使用して実施される。コンプレッサ305及びデコンプレッサ320の他の実施形態は、図1に示すGPU105等の処理ユニット内の別個のハードウェアブロックとして実施される。
図4は、いくつかの実施形態による、単調チャンク内のインデックスを圧縮する方法400を示す図である。方法400は、図1に示された処理システム100、図2に示されたグラフィックスパイプライン200、及び図3に示された処理システムの一部300のいくつかの実施形態において実施される。
方法400は、16のインデックス410(明確にするために、1つのみが符号で示されている)を表すビットを含む単調チャンク405に対して動作する。本明細書で使用される「単調チャンク」という用語は、隣接する三角形によって共有されない頂点のインデックスのみを追加することによって、連続して隣接する三角形を表すチャンクを指す。したがって、単調チャンク405は、2つの連続する三角形によって共有される頂点のインデックスを繰り返さない。例えば、第1三角形の頂点は、インデックス8,9,10を有し、第2三角形の頂点は、インデックス9,10,11を有する。したがって、単調チャンク405は、第1三角形及び第2三角形を、インデックス8,9,10,11のリストとして表す。
インデックス410は、本明細書でリスタートインデックス(R)と呼ばれる特別なインデックスを含む。リスタートインデックスは、次のインデックス410が、前の三角形と頂点を共有しない新たな三角形の第1頂点のインデックスであることを示す。図示した実施形態では、インデックス11とインデックス12との間のリスタートインデックスは、次の三角形が、インデックス12,13,14によって識別された頂点を含むことを示す。また、リスタートインデックスは、次の三角形が、インデックス9,10,11によって識別された前の三角形の頂点を共有していないことを示す。チャンク405内のビット又はインデックスの特定の数は、設計上の選択事項である。インデックス410は、図4において、ローマ数字(又は、文字R)で示されている。しかし、実際には、インデックス410は、対応するインデックス410の値を示すビットのセットによって表される。図示した実施形態では、各インデックス410を表すために使用されるビットの数は、16ビットである。他の実施形態では、インデックス410を表すために、他の数のビット(例えば、32ビット)が使用される。リスタートインデックスは、インデックス410を表すために使用されるビットの予約値によって示される。
図3に示すコンプレッサ305等のコンプレッサは、チャンク405内のインデックス410の値を使用して圧縮チャンク415を生成する。コンプレッサは、第1ビット420の値を例えば0に設定することによって、圧縮チャンク415が圧縮された単調チャンクを表していることを示す値に設定する。コンプレッサは、ビット425の値を、チャンク405内の第1インデックスの値に等しいオフセットを表す値に設定する。図示した実施形態では、ビット425の値は、8のオフセット値を示す「…001000」に設定される。また、コンプレッサは、単調チャンク405内で検出されたリスタートインデックスの数を示すビット430の値を生成する。ビット430の数は、チャンク405内のインデックス410の数に依存する。図示した実施形態では、チャンク405内のインデックス410の数が16に等しい場合に5ビットが必要になるが、これは、16のリスタートインデックスが単調チャンク405内で検出される可能性があるためである。例えば、ビット430は、単調チャンク405内に2つのリスタートインデックスが存在することを示すために、「00010」の値に設定される。単調チャンク405内のリスタートインデックスの位置は、ビット435,440によって示されている。図示した実施形態では、インデックス410は、0〜15に番号付けされている。例えば、ビット435は、第1リスタートインデックスが単調チャンク405の5番目のインデックスで検出されたことを示すために、「0100」の値に設定される。別の例では、ビット440は、第2リスタートインデックスが単調チャンク405の9番目のインデックスで検出されたことを示すために、「1000」の値に設定される。
圧縮チャンク410は、単調チャンク405よりも少ないビットを含み、単調チャンク405内のインデックス410を再構成するのに必要な全ての情報を含む。したがって、図3に示すデコンプレッサ320等のデコンプレッサは、復元されたインデックス410を取り戻すように方法400を反転することによって、圧縮チャンク410を復元することができる。最良の場合のシナリオでは、圧縮チャンク410は、単調チャンク405内のビット数の4%のみを含む。最悪の場合のシナリオでは、実際には発生しないが全てのインデックス410がリスタートインデックスである場合、方法400は、17%の圧縮を生じさせる。実際のグラフィックス処理ワークロードでテストした結果、圧縮率は、大抵、最悪の場合のシナリオの17%の圧縮率よりも、最良の場合のシナリオの4%の圧縮率に近いことがわかった。
図5は、いくつかの実施形態による、通常チャンク内のインデックスを圧縮する方法500を示す図である。方法500は、図1に示す処理システム100、図2に示すグラフィックスパイプライン200、及び、図3に示す処理システムの一部300のいくつかの実施形態で実施される。
方法500は、8のインデックス510(明確にするために、1つのみが符号で示されている)を表すビットを含む通常チャンク505に対して動作する。本明細書で使用される「通常チャンク」という用語は、チャンク内の三角形毎に3つの頂点を連続的にリストするチャンクを指す。例えば、通常チャンク505は、第1三角形の頂点を識別するインデックス8,9,10をリストし、第2三角形の頂点を識別するインデックス10,9,11を続けてリストする。通常チャンク505は、各三角形の頂点に関する全てのインデックスを必ずしもリストするわけではない。例えば、通常チャンク505は、第3三角形の2つの頂点を識別するインデックス18,6をリストするが、第3三角形の第3頂点のインデックスを含まない。
図3に示すコンプレッサ305等のコンプレッサは、チャンク505内のインデックス510の値を使用して、圧縮チャンク515を生成する。コンプレッサは、ビット520の値を、例えば1に設定することによって、圧縮チャンク515が圧縮された通常チャンクを表していることを示す値に設定する。コンプレッサは、ビット525を、インデックス510の最小値に等しいオフセットに設定する。図示した実施形態では、インデックス510の最小値は6に等しいので、オフセットは、「…00110」に設定されたビット525によって表される。コンプレッサは、ビット530を、インデックス510の値とオフセット値との間の差を表すのに必要なビット数を表す値に設定する。したがって、ビット530によって表される値は、インデックス510の最大値と最小値との間の差によって決定される。
Figure 2021501938
図示した実施形態では、最大値が18であり、最小値が6である。したがって、これらの値の間の差は、4ビットで表される。ビット530の値は、ビット数が3+1=4であることを示すために、「0011」に設定される。
インデックス510の値を表すのに使用されるビットは、インデックス510の値が、現在のインデックスの値がチャンク505内の前のインデックスの値と等しくないことを示す「ユニーク」であるかどうか、又は、現在のインデックス510の値が前のインデックスの値を有することを示す「リピート」であるかどうかに基づいて決定される。ビット535は、対応するインデックスがユニークインデックスであることを示す値(例えば、0の値)に設定された1ビットと、インデックスの値とオフセット525によって示された最小値との間の差を示す4ビットと、を含む。例えば、ビット535は、インデックスの値が6+2=8であるように、インデックスの値がオフセット525から2だけ異なることを示すために、「0010」の値に設定された4ビットを含む。ビット540は、対応するインデックスがリピートインデックスであることを示す値(例えば、1の値)に設定された1ビットと、現在のインデックスに対するリピートインデックスの位置を識別する3ビットと、を含む。例えば、ビット540は、現在のインデックスが前のインデックスの値と同じ10の値を有するように、現在のインデックスが前のインデックスのリピートであることを示すために、「000」の値に設定された3ビットを含む。
図6は、いくつかの実施形態による、圧縮チャンクのメタデータ605を生成する方法600を示す図である。方法600は、図1に示す処理システム100、図2に示すグラフィックスパイプライン200、及び、図3に示す処理システムの一部300のいくつかの実施形態で実施される。
メタデータ605は、本明細書でまとめて「チャンク610〜613」と呼ばれる一連の非圧縮チャンク610,611,612,613内の情報に基づいて生成される。チャンク610は、ビット0,…,31を含み、チャンク611は、ビット32,…,63を含み、チャンク612は、ビット64,…,95を含み、チャンク612は、ビット96,…,127を含む。図示した実施形態では、チャンク610〜613は、本明細書でまとめて「圧縮チャンク615〜618」と呼ばれる圧縮チャンク615,616,617,618を形成するように圧縮される。圧縮チャンク615〜618は、単調チャンクを圧縮するための図4に示す方法400、及び、通常チャンクを圧縮するための図5に示す方法500のいくつかの実施形態に従って形成される。圧縮チャンク615〜618の各々におけるビット数は、圧縮方法及びチャンク610〜613内のインデックスの値に依存する。したがって、メタデータ605は、圧縮チャンク615〜618の先頭アドレス(0,33,70,115)を示す値と、圧縮チャンク618の最終アドレス(200)を示す値と、を含む。したがって、メタデータ605は、例えば、異なる圧縮チャンク615〜618へのランダムアクセスをサポートするために、圧縮チャンク615〜618内のビットを識別するのに使用される。
いくつかの実施形態では、圧縮チャンク615〜618うち1つ以上が、キャッシュに又はキャッシュからフェッチされる。キャッシュは、通常、キャッシュラインに編成され、データは、キャッシュラインのサイズと等しいビットブロックでキャッシュに又はキャッシュからフェッチされる。図示した実施形態では、キャッシュラインは、32バイトに等しい長さを有する。チャンク610〜613内の非圧縮インデックスは、2バイトで表され、チャンク610〜613の各々は、32のインデックスを含む。よって、チャンク610〜613の各々は、キャッシュライン境界620(明確にするために、1つのみが符号で示されている)によって示されるように、2つのキャッシュラインに記憶される。対照的に、圧縮チャンク615〜618の各々に対応するキャッシュラインの数は、圧縮チャンク615〜618の圧縮サイズ及び圧縮チャンク615〜618の順序に依存する。
メタデータ605は、圧縮チャンク615〜618に対してフェッチされるキャッシュラインを決定するために使用される。例えば、メタデータ605は、圧縮チャンク615の一部が第1キャッシュライン及び第2キャッシュラインに記憶されることを示す。したがって、圧縮チャンク615をフェッチするために、2つのキャッシュラインがフェッチされる。別の例では、メタデータ605は、圧縮チャンク618の一部が3つの異なるキャッシュラインに記憶されるので、圧縮チャンク618をフェッチするために、3つのキャッシュラインがフェッチされる。いくつかの実施形態では、圧縮チャンク615〜618は、圧縮チャンク615〜618をフェッチするためにフェッチされるキャッシュラインの数を減少させるために、バイトアライメントされる。圧縮チャンク615〜618をキャッシュライン境界620とアライメントすることは、本明細書で開示される圧縮アルゴリズムの性能に対して小さな又は無視できる影響しか与えない。
図7は、いくつかの実施形態による、インデックスの同時復元をサポートするために、単調チャンク内のインデックスを圧縮する方法700を示す図である。方法700は、図1に示す処理システム100、図2に示すグラフィックスパイプライン200、及び、図3に示す処理システムの一部300のいくつかの実施形態で実施される。図示した実施形態では、方法700は、本明細書で説明するように、三角形の頂点のインデックス710とリスタートインデックスとを含む単調チャンク705に対して動作する。
メタデータ715は、インデックス710の値に基づいて生成される。メタデータ715は、単調チャンク705が単調であることを示す値(例えば、0の値)に設定されたビット720を含む。ビット725の値は、チャンク705内の第1インデックスの値に等しいオフセットを表す値に設定される。図示した実施形態では、ビット725の値は、8のオフセット値を示すために、「…001000」に設定される。また、メタデータ715は、リスタートインデックスの位置を示すビットフィールド730を含む。図示した実施形態では、ビットフィールド730内のいくつかのエントリは、頂点を示すインデックス710を示す1の値を有し、ビットフィールド730内のいくつかのエントリは、リスタートインデックスであるインデックス710を示す0の値を有する。メタデータ715は、図1に示すメモリ115等のメモリに記憶される。次に、メタデータ715が取り出され、非圧縮インデックス710を再構成するために使用される。
メタデータ715を使用した復元は、ビットカウント演算をビットフィールド730に適用して、頂点を識別するインデックス710と、リスタートインデックスの位置に対応する非アクティブレーンの指標と、のプレフィックス合計を表すフィールド735を生成することによって実行される。フィールド735内の各々のエントリは、対応するインデックス710の復元を同時に実行するために使用されるレーンに対応する。例えば、フィールド735の第1エントリは、図2に示すグラフィックスパイプライン200等のグラフィックスパイプラインの第1レーンに対応し、フィールド735の第2エントリは、グラフィックスパイプラインの第2レーンに対応する、等である。図示した実施形態では、フィールド735のエントリ内の「X」は、リスタートインデックスに対応するレーンを示す。
オフセット725の値は、フィールド735のエントリ内のプレフィックス合計の各々に加算され、フィールド740の対応するエントリが生成される。加算演算は、グラフィックスパイプラインの対応するレーンで実行され、レーンがインデックスの復元を同時に又は並列に実行するのを可能にする。例えば、第1レーンは、8+0=8の値を有するフィールド740内の第1エントリを生成し、第2レーンは、8+1=9の値を有するフィールド740内の第2エントリを生成する、等である。フィールド740のエントリ内の「X」は、リスタートインデックスに対応するレーンを示す。いくつかの実施形態では、リスタートインデックスに関連するレーンは、他のレーンがインデックス710の非圧縮値を生成している間、無効にされる。次に、リスタートインデックスに関連するレーンが有効になり、以前有効になっていたレーンが無効になる。リスタートインデックスに関連するグラフィックスパイプラインのレーンは、非圧縮リスタートインデックスを示す値と等しい値を出力し、これにより、非圧縮チャンク705を生成する。
図8は、いくつかの実施形態による、圧縮チャンクのメタデータ805及び圧縮インデックス810,815を生成する方法800を示す図である。方法800は、図1に示す処理システム100、図2に示すグラフィックスパイプライン200、及び、図3に示す処理システムの一部300のいくつかの実施形態で実施される。方法800は、8つのインデックス825(明確にするために、1つのみが符号で示されている)を表すビットを含む通常チャンク820に対して動作する。
メタデータ805は、例えば値を1に設定することによって、圧縮チャンクが圧縮された通常チャンクを表していることを示す値に設定されたビット830を含む。また、メタデータは、インデックス825の最小値に等しいオフセットを表す値に設定されたビット835を含む。図示した実施形態では、インデックス825の最小値が6に等しいので、オフセットは、「…00110」に設定されたビット835によって表される。また、メタデータ805は、インデックス825の値とオフセット値835との間の差を表すのに必要なビット数を示す値に設定されたビット840を含む。したがって、ビット840によって表される値は、インデックス825の最大値と最小値との間の差によって決定される。
Figure 2021501938
図示した実施形態では、最大値が18であり、最小値が6である。したがって、これらの値の間の差が4ビットで表される。ビット840の値は、ビット数が3+1=4であることを示す「0011」に設定される。
また、メタデータ805は、チャンク820内のユニークインデックス及びリピートインデックスの位置を示すビットの値を含むビットフィールド845を含む。例えば、ビットフィールド805のエントリにおける1の値は、ユニークな対応するインデックス825を示し、ビットフィールド805のエントリにおける0の値は、チャンク820内の前のインデックスのリピートである、対応するインデックス825を示す。
圧縮インデックス810,815は、メタデータ805とチャンク820内のインデックス825の値と、に基づいて生成される。圧縮インデックス810は、圧縮インデックス810に対応する復元されたインデックス825との間の差を表す値を含む。例えば、第1圧縮インデックス810は、第1復元インデックス825の値(8)とオフセット835の値(6)との間の差に等しい値2を有する。圧縮インデックス810は、チャンク820内のユニークなインデックスの値を含む。圧縮インデックス815は、チャンク820内のリピートインデックスに関連付けられる。図示した実施形態では、圧縮インデックス815は、対応するリピートインデックス815において繰り返されるユニークインデックスの位置を示す。例えば、第1圧縮インデックス815は、チャンク820内の対応するユニークインデックスの位置を示す値2を有する。チャンク820内のインデックス825の位置は、図示した実施形態では、0,…,7で番号付けされている。
したがって、圧縮チャンクは、メタデータ805及び圧縮インデックス810,815によって表される。いくつかの実施形態では、圧縮チャンクは、対応するインデックスを並列に復元するグラフィックスパイプラインの複数のレーンを使用して復元される。図示した実施形態では、ビットフィールド845に対してビットカウント演算が実行され、フィールド850内のエントリに値が割り当てられる。フィールド850内の各エントリは、グラフィックプロセッサ内のレーンに対応する。ユニークインデックスに対応するエントリは、(0,1,2,3,4,5)の値を有し、リピートインデックスに対応するエントリは、「X」の値に設定される。したがって、フィールド815内のエントリの値は、対応する圧縮インデックス810をマッピングする。したがって、グラフィックプロセッサの対応するレーンは、オフセット835を圧縮インデックス810の対応する値に加算することによって、ユニークインデックスの復元された値を生成することができる。レーンは、これらの演算を同時に又は並列に実行することができる。ユニークなエントリの数855も、ビットフィールド845に基づいて決定される。図示した実施形態では、ユニークなエントリの数は、6である。
リピートインデックスを復元するために、ビットフィールド845を反転させて、反転ビットフィールド860を形成する。図示した実施形態では、反転ビットフィールド860に対してビットカウント演算が実行され、フィールド865内のエントリに値が割り当てられる。リピートインデックスに対応するエントリは、(0,1)の値を有し、ユニークインデックスに対応するエントリの値は、「X」に設定される。リピートインデックスに対応するエントリの値は、当該値を数855に加算する加算器870に与えられ、フィールド875内のエントリが形成される。例えば、フィールド865内の値0は、フィールド875の対応するエントリ内の値6を形成するように、値6だけインクリメントされる。フィールド875内のエントリは、対応する圧縮インデックス815を示し、復元インデックス825を生成するために使用される。ユニークインデックスが既に復元されているので、リピートインデックスを復元するためにこれらを利用可能である。例えば、第1圧縮インデックスは、チャンク820内の対応するユニークインデックスの位置を示す値2を含む。値2で示された位置におけるユニークインデックスは、復元されたリピートインデックスに割り当てられる値10を有する。
いくつかの態様によれば、装置は、グラフィックスパイプラインによって処理されるプリミティブの複数の頂点のインデックスを表すビットのチャンクにアクセスし、チャンクが単調であるか通常であるかを示す第1ビットの値を設定し、チャンク内のインデックスの値に基づいて決定されるオフセットを定義する第2ビットの値を設定し、第2ビットによって定義されたオフセットに基づいて、チャンク内のインデックスの値を決定する第3ビットのセットの値を設定し、第1ビットと、第2ビットと、第3ビットのセットと、によって表される圧縮チャンクをメモリに書き込む、ように構成された計算ユニットを含む。計算ユニットは、インデックスバッファに記憶された圧縮チャンクの先頭アドレスを表すメタデータを生成し、メタデータをメモリに書き込む、ように構成されている。いくつかの実施形態では、チャンクは、隣接する三角形によって共有されない頂点のインデックスをチャンクのビットに追加することによって、連続して隣接するプリミティブを表す単調チャンクであり、計算ユニットは、第1ビットの値を、チャンクが単調であることを示す第1値に設定するように構成されている。いくつかの実施形態では、計算ユニットは、第2ビットの値を、次のプリミティブがリスタートインデックスの前のインデックスによって表される前のプリミティブに隣接していないことを示すリスタートインデックスではない、チャンク内の第1インデックスの値に等しいオフセット値に設定するように構成されている。さらに、計算ユニットは、チャンク内のリスタートインデックスの数を示す第3ビットの第1セットの値を設定し、チャンク内の少なくとも1つのリスタートインデックスの少なくとも1つの位置を示す第3ビットの少なくとも1つの他のセットを設定する、ように構成されてもよい。また、計算ユニットは、チャンク内のリスタートインデックスの位置を示すビットフィールドを含むメタデータを生成するように構成されてもよく、計算ユニットは、第1ビットと、第2ビットと、ビットフィールドと、を含むメタデータをメモリに書き込むように構成されている。他の実施形態では、チャンクは、プリミティブの全ての頂点のインデックスを使用してプリミティブを表す通常チャンクであり、計算ユニットは、チャンクが通常であることを示すために、第1ビットの値を第2値に設定するように構成されている。このような場合、計算ユニットは、第2ビットの値を、チャンク内のインデックスの最小値に等しいオフセット値に設定するように構成されている。さらに、計算ユニットは、インデックスの値とオフセット値との間の差を表すのに使用されるビットの数を示す第3ビットの第1セットの値を設定し、何れかのインデックスがユニークであることと、ユニークインデックスとオフセット値との間の差と、を示す第3ビットの少なくとも1つの第2セットの値を設定し、少なくとも1つのインデックスがユニークインデックスのリピート値であることと、チャンク内のユニークインデックスの相対位置と、を示す第3ビットの少なくとも1つの第3セットの値を設定する、ように構成されてもよい。別の実施形態では、計算ユニットは、圧縮チャンク内のインデックスを復元するのに使用されるレーンを示すビットフィールドを含むメタデータを生成するように構成されており、計算ユニットは、第1ビットと、第2ビットと、インデックスの値とオフセット値との間の差を表すのに使用されるビットの数を示す第3ビットの第1セットと、ビットフィールドと、を含むメタデータをメモリに書き込むように構成されている。
別の態様によれば、装置は、グラフィックスパイプラインによって処理されるプリミティブの頂点のインデックスを記憶するように構成されたインデックスバッファと、計算ユニットと、を備え、計算ユニットは、第1圧縮チャンクが単調であるか通常であるかを示す第1圧縮されたチャンク内の第1ビットと、第1圧縮チャンク内のインデックスの値に基づいて決定されるオフセットを定義する第1圧縮チャンク内の第2ビットと、第2ビットによって定義されたオフセットに基づいて第1圧縮チャンク内のインデックスの値を決定する第1圧縮チャンク内の第3ビットのセットと、に基づいて、インデックスを表すビットの第1圧縮チャンク内のインデックスを復元し、第1圧縮チャンク内の復元されたインデックスをインデックスバッファに書き込む、ように構成されている。計算ユニットは、第1圧縮チャンクの第1先頭アドレス及び第2圧縮チャンクの第2先頭アドレスを含むメタデータに基づいて、メタデータから、第1圧縮チャンクの第1ビットと、第2ビットと、第3ビットのセットと、を識別するように構成されている。さらに、計算ユニットは、隣接する三角形によって共有されない頂点のインデックスを第1圧縮チャンクのビットに追加することによって、第1圧縮チャンクが、連続して隣接するプリミティブを表す単調チャンクであると、第1ビットに基づいて決定するように構成されており、第2ビットの値は、次のプリミティブがリスタートインデックスの前のインデックスによって表される前のプリミティブに隣接していないことを示すリスタートインデックスではない、第1圧縮チャンク内の第1インデックスの値に等しいオフセット値に設定される。一実施形態では、第3ビットの第1セットの値は、第1圧縮チャンク内のリスタートインデックスの数を示し、第3ビットの少なくとも1つの他のセットは、第1圧縮チャンク内の少なくとも1つのリスタートインデックスの少なくとも1つの位置を示す。いくつかの実施形態では、計算ユニットは、第1圧縮チャンクが、プリミティブの全ての頂点のインデックスを使用してプリミティブを表す通常チャンクであると、第1ビットに基づいて決定するように構成されており、第2ビットは、第1圧縮チャンク内のインデックスの最小値に等しいオフセット値を示し、第3ビットの第1セットは、インデックスの値とオフセット値との間の差を表すのに使用されるビットの数を示し、第3ビットの少なくとも1つの第2セットは、少なくとも1つのインデックスがユニークであることと、ユニークインデックスとオフセット値との間の差と、を示し、第3ビットの少なくとも1つの第3セットは、少なくとも1つのインデックスがユニークインデックスのリピート値であることと、チャンク内のユニークインデックスの相対位置と、を示す。
さらに別の態様によれば、装置は、グラフィックスパイプラインによって処理されるプリミティブの頂点のインデックスを記憶するように構成されたインデックスバッファと、複数の計算ユニットと、を備え、複数の計算ユニットは、圧縮チャンクのメタデータにアクセスすることであって、メタデータは、圧縮チャンクが単調であるか通常であるかを示す第1ビットと、インデックスの値に基づいて決定されるオフセットを定義する第2ビットと、インデックスの特性を示すビットフィールドと、を含む、ことと、メタデータに基づいて圧縮チャンクを復元することと、復元されたインデックスをインデックスバッファに書き込むことと、を同時に行うように構成されている。いくつかの実施形態では、第1ビットは、圧縮チャンクが単調圧縮チャンクであることを示し、ビットフィールドは、圧縮チャンク内のリスタートインデックスの位置を示す。他の実施形態では、第1ビットは、圧縮チャンクが通常圧縮チャンクであることを示し、ビットフィールドは、複数の計算ユニットのうち何れが圧縮チャンク内のインデックスを復元するのに使用されるかを示し、メタデータは、圧縮チャンクのインデックスの値とオフセットとの間の差を表すのに使用されるビットの数を示すフィールドを含む。このような実施形態では、計算ユニットは、メタデータに記憶された圧縮チャンクの先頭アドレスに基づいて、圧縮チャンク内の圧縮インデックスにアクセスするように構成されており、計算ユニットは、圧縮インデックスと、オフセットと、ビットフィールドと、に基づいて、圧縮チャンクを復元するように構成されている。
いくつかの実施形態では、上記の装置及び技術は、図1〜図8を参照して上述した処理システム等の1つ以上の集積回路(IC)デバイス(集積回路パッケージ又はマイクロチップとも呼ばれる)を備えるシステムに実装される。これらのICデバイスの設計及び製造には、電子設計自動化(EDA)及びコンピュータ支援設計(CAD)ソフトウェアツールが使用される。これらの設計ツールは、通常、1つ以上のソフトウェアプログラムとして表される。1つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計又は適合するための処理の少なくとも一部を実行するように1つ以上のICデバイスの回路を表すコードで動作するようにコンピュータシステムを操作する、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含むことができる。設計ツール又は製造ツールを表すソフトウェア命令は、通常、コンピューティングシステムがアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ICデバイスの設計又は製造の1つ以上のフェーズを表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶されてもよいし、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体からアクセスされてもよい。
コンピュータ可読記憶媒体は、命令及び/又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。かかる記憶媒体には、限定されないが、光媒体(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク)、磁気媒体(例えば、フロッピー(登録商標)ディスク、磁気テープ、磁気ハードドライブ)、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM)、キャッシュ)、不揮発性メモリ(例えば、読み出し専用メモリ(ROM)、フラッシュメモリ)、又は、微小電気機械システム(MEMS)ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体は、コンピュータシステムに内蔵されてもよいし(例えば、システムRAM又はROM)、コンピュータシステムに固定的に取り付けられてもよいし(例えば、磁気ハードドライブ)、コンピュータシステムに着脱可能に取り付けられてもよいし(例えば、光学ディスク又はユニバーサルシリアルバス(USB)ベースのフラッシュメモリ)、有線又は無線のネットワークを介してコンピュータシステムに接続されてもよい(例えば、ネットワークアクセス可能なストレージ(NAS))。
いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行する処理システムの1つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の1つ以上のセットを含む。ソフトウェアは、1つ以上のプロセッサによって実行されると、上記の技術の1つ以上の態様を実行するように1つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ(RAM)、又は、他の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、1つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。
上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、1つ以上のさらなるアクティビティが実行される場合があり、1つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。
利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims (20)

  1. グラフィックスパイプラインによって処理されるプリミティブの複数の頂点のインデックスを表すビットのチャンクにアクセスすることと、
    前記チャンクが単調であるか通常であるかを示す第1ビットの値を設定することと、
    前記チャンク内のインデックスの値に基づいて決定されるオフセットを定義する第2ビットの値を設定することと、
    前記第2ビットによって定義された前記オフセットに基づいて、前記チャンク内の前記インデックスの値を決定する第3ビットのセットの値を設定することと、
    前記第1ビットと、前記第2ビットと、前記第3ビットのセットと、によって表される圧縮チャンクをメモリに書き込むことと、
    を行うように構成された計算ユニットを備える、
    装置。
  2. 前記計算ユニットは、
    インデックスバッファに記憶された前記圧縮チャンクの先頭アドレスを表すメタデータを生成することと、
    前記メタデータを前記メモリに書き込むことと、
    を行うように構成されている、
    請求項1の装置。
  3. 前記チャンクは、隣接する三角形によって共有されない頂点のインデックスを前記チャンクの前記ビットに追加することによって、連続して隣接するプリミティブを表す単調チャンクであり、前記計算ユニットは、前記第1ビットの値を、前記チャンクが単調であることを示す第1値に設定することを行うように構成されている、
    請求項2の装置。
  4. 前記計算ユニットは、前記第2ビットの値を、次のプリミティブがリスタートインデックスの前のインデックスによって表される前のプリミティブに隣接していないことを示す前記リスタートインデックスではない、前記チャンク内の第1インデックスの値に等しいオフセット値に設定することを行うように構成されている、
    請求項3の装置。
  5. 前記計算ユニットは、前記チャンク内のリスタートインデックスの数を示す前記第3ビットの第1セットの値を設定することと、前記チャンク内の少なくとも1つのリスタートインデックスの少なくとも1つの位置を示す第3ビットの少なくとも1つの他のセットを設定することと、を行うように構成されている、
    請求項4の装置。
  6. 前記計算ユニットは、前記チャンク内のリスタートインデックスの位置を示すビットフィールドを含むメタデータを生成することと、前記第1ビットと、前記第2ビットと、前記ビットフィールドと、を含む前記メタデータを前記メモリに書き込むことと、を行うように構成されている、
    請求項4の装置。
  7. 前記チャンクは、前記プリミティブの全ての頂点のインデックスを使用してプリミティブを表す通常チャンクであり、前記計算ユニットは、前記チャンクが通常であることを示すために、前記第1ビットの値を第2値に設定することを行うように構成されている、
    請求項2の装置。
  8. 前記計算ユニットは、前記第2ビットの値を、前記チャンク内の前記インデックスの最小値に等しいオフセット値に設定することを行うように構成されている、
    請求項7の装置。
  9. 前記計算ユニットは、
    前記インデックスの値と前記オフセット値との間の差を表すのに使用されるビットの数を示す第3ビットの第1セットの値を設定することと、
    何れかのインデックスがユニークであることと、ユニークインデックスと前記オフセット値との間の差と、を示す第3ビットの少なくとも1つの第2セットの値を設定することと、
    少なくとも1つのインデックスがユニークインデックスのリピート値であることと、前記チャンク内の前記ユニークインデックスの相対位置と、を示す第3ビットの少なくとも1つの第3セットの値を設定することと、
    を行うように構成されている、
    請求項8の装置。
  10. 前記計算ユニットは、前記圧縮チャンク内のインデックスを復元するのに使用されるレーンを示すビットフィールドを含むメタデータを生成することを行うように構成されており、前記計算ユニットは、前記第1ビットと、前記第2ビットと、前記インデックスの値と前記オフセット値との間の差を表すのに使用されるビットの数を示す第3ビットの第1セットと、前記ビットフィールドと、を含む前記メタデータを前記メモリに書き込むことを行うように構成されている、
    請求項8の装置。
  11. グラフィックスパイプラインによって処理されるプリミティブの頂点のインデックスを記憶するように構成されたインデックスバッファと、
    計算ユニットと、を備え、
    前記計算ユニットは、
    第1圧縮チャンクが単調であるか通常であるかを示す前記第1圧縮チャンク内の第1ビットと、前記第1圧縮チャンク内の前記インデックスの値に基づいて決定されるオフセットを定義する前記第1圧縮チャンク内の第2ビットと、前記第2ビットによって定義された前記オフセットに基づいて前記第1圧縮チャンク内の前記インデックスの値を決定する前記第1圧縮チャンク内の第3ビットのセットと、に基づいて、前記インデックスを表すビットの前記第1圧縮チャンク内のインデックスを復元することと、
    前記第1圧縮チャンク内の復元されたインデックスを前記インデックスバッファに書き込むことと、
    を行うように構成されている、
    装置。
  12. 前記計算ユニットは、前記第1圧縮チャンクの第1先頭アドレス及び第2圧縮チャンクの第2先頭アドレスを含むメタデータに基づいて、メタデータから、前記第1圧縮チャンクの前記第1ビットと、前記第2ビットと、前記第3ビットのセットと、を識別するように構成されている、
    請求項11の装置。
  13. 前記計算ユニットは、隣接する三角形によって共有されない頂点のインデックスを前記第1圧縮チャンクのビットに追加することによって、前記第1圧縮チャンクが、連続して隣接するプリミティブを表す単調チャンクであると、前記第1ビットに基づいて決定するように構成されており、前記第2ビットの値は、次のプリミティブがリスタートインデックスの前のインデックスによって表される前のプリミティブに隣接していないことを示す前記リスタートインデックスではない、前記第1圧縮チャンク内の第1インデックスの値に等しいオフセット値に設定される、
    請求項11の装置。
  14. 前記第3ビットの第1セットの値は、前記第1圧縮チャンク内のリスタートインデックスの数を示し、前記第3ビットの少なくとも1つの他のセットは、前記第1圧縮チャンク内の少なくとも1つのリスタートインデックスの少なくとも1つの位置を示す、
    請求項13の装置。
  15. 前記計算ユニットは、前記第1圧縮チャンクが、前記プリミティブの全ての頂点のインデックスを使用してプリミティブを表す通常チャンクであると、前記第1ビットに基づいて決定するように構成されており、前記第2ビットは、前記第1圧縮チャンク内の前記インデックスの最小値に等しいオフセット値を示し、前記第3ビットの第1セットは、前記インデックスの値と前記オフセット値との間の差を表すのに使用されるビットの数を示し、前記第3ビットの少なくとも1つの第2セットは、少なくとも1つのインデックスがユニークであることと、ユニークインデックスと前記オフセット値との間の差と、を示し、前記第3ビットの少なくとも1つの第3セットは、少なくとも1つのインデックスがユニークインデックスのリピート値であることと、前記チャンク内のユニークインデックスの相対位置と、を示す、
    請求項11の装置。
  16. グラフィックスパイプラインによって処理されるプリミティブの頂点のインデックスを記憶するように構成されたインデックスバッファと、
    複数の計算ユニットと、を備え、
    前記複数の計算ユニットは、
    圧縮チャンクのメタデータにアクセスすることであって、前記メタデータは、前記圧縮チャンクが単調であるか通常であるかを示す第1ビットと、前記インデックスの値に基づいて決定されるオフセットを定義する第2ビットと、前記インデックスの特性を示すビットフィールドと、を含む、ことと、
    前記メタデータに基づいて前記圧縮チャンクを復元することと、
    復元されたインデックスを前記インデックスバッファに書き込むことと、
    を同時に行うように構成されている、
    装置。
  17. 前記第1ビットは、前記圧縮チャンクが単調圧縮チャンクであることを示し、前記ビットフィールドは、前記圧縮チャンク内のリスタートインデックスの位置を示す、
    請求項16の装置。
  18. 前記第1ビットは、前記圧縮チャンクが通常圧縮チャンクであることを示し、前記ビットフィールドは、前記複数の計算ユニットのうち何れが前記圧縮チャンク内のインデックスを復元するのに使用されるかを示す、
    請求項16の装置。
  19. 前記メタデータは、前記圧縮チャンクの前記インデックスの前記値と前記オフセットとの間の差を表すのに使用されるビットの数を示すフィールドを含む、
    請求項18の装置。
  20. 前記計算ユニットは、メタデータに記憶された前記圧縮チャンクの先頭アドレスに基づいて、前記圧縮チャンク内の圧縮インデックスにアクセスするように構成されており、前記計算ユニットは、前記圧縮インデックスと、前記オフセットと、前記ビットフィールドと、に基づいて、前記圧縮チャンクを復元するように構成されている、
    請求項19の装置。
JP2020524187A 2017-11-02 2018-09-26 グラフィックスパイプラインにおけるインデックスの圧縮及び復元 Active JP7138169B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762580795P 2017-11-02 2017-11-02
US62/580,795 2017-11-02
US15/832,131 US10600142B2 (en) 2017-11-02 2017-12-05 Compression and decompression of indices in a graphics pipeline
US15/832,131 2017-12-05
PCT/US2018/052836 WO2019089160A1 (en) 2017-11-02 2018-09-26 Compression and decompression of indices in a graphics pipeline

Publications (2)

Publication Number Publication Date
JP2021501938A true JP2021501938A (ja) 2021-01-21
JP7138169B2 JP7138169B2 (ja) 2022-09-15

Family

ID=66332245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524187A Active JP7138169B2 (ja) 2017-11-02 2018-09-26 グラフィックスパイプラインにおけるインデックスの圧縮及び復元

Country Status (6)

Country Link
US (1) US10600142B2 (ja)
EP (1) EP3704665A4 (ja)
JP (1) JP7138169B2 (ja)
KR (1) KR102646818B1 (ja)
CN (1) CN111279384B (ja)
WO (1) WO2019089160A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11073828B2 (en) * 2017-12-08 2021-07-27 Samsung Electronics Co., Ltd. Compression of semantic information for task and motion planning
US11004263B1 (en) * 2019-05-22 2021-05-11 Parallels International Gmbh System and method for reading arrays of data by rebuilding an index buffer while preserving order
US11030792B1 (en) * 2019-05-22 2021-06-08 Parallel International GmbH System and method for packing sparse arrays of data while preserving order
GB2593518B (en) * 2020-03-26 2023-01-04 Sony Interactive Entertainment Inc Image coding system and method
US20220414011A1 (en) * 2021-06-23 2022-12-29 Intel Corporation Opportunistic late depth testing to prevent stalling for overlapping cache lines

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296747A (ja) * 2002-03-26 2003-10-17 Imagination Technologies Ltd 3−dコンピュータ・グラフィックス・レンダリングシステム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771264B1 (en) * 1998-08-20 2004-08-03 Apple Computer, Inc. Method and apparatus for performing tangent space lighting and bump mapping in a deferred shading graphics processor
US7671862B1 (en) * 2004-05-03 2010-03-02 Microsoft Corporation Systems and methods for providing an enhanced graphics pipeline
US8068569B2 (en) 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
US7813380B2 (en) * 2005-10-05 2010-10-12 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
US8493381B1 (en) * 2008-04-14 2013-07-23 Google Inc. Methods and systems for geometry compression
US8760455B2 (en) 2009-10-05 2014-06-24 Nvidia Corporation Restart index that sets a topology
US9058685B2 (en) 2010-03-11 2015-06-16 Broadcom Corporation Method and system for controlling a 3D processor using a control list in memory
GB201103698D0 (en) * 2011-03-03 2011-04-20 Advanced Risc Mach Ltd Graphics processing
GB201104066D0 (en) * 2011-03-09 2011-04-20 Imagination Tech Ltd Compression of a tessellated primitive index list in a tile rendering system
US9412197B2 (en) * 2012-04-04 2016-08-09 Qualcomm Incorporated Patched shading in graphics processing
GB201313292D0 (en) * 2013-07-25 2013-09-11 Bifold Fluidpower Ltd Graphical data representation
US9536278B2 (en) * 2013-11-27 2017-01-03 Intel Corporation Graphics processing of a vertex buffer using a relative index buffer
US9417911B2 (en) * 2014-03-12 2016-08-16 Live Planet Llc Systems and methods for scalable asynchronous computing framework
US10235338B2 (en) * 2014-09-04 2019-03-19 Nvidia Corporation Short stack traversal of tree data structures
GB2548120B (en) 2016-03-08 2020-09-16 Advanced Risc Mach Ltd Graphics processing systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296747A (ja) * 2002-03-26 2003-10-17 Imagination Technologies Ltd 3−dコンピュータ・グラフィックス・レンダリングシステム

Also Published As

Publication number Publication date
US10600142B2 (en) 2020-03-24
KR20200067222A (ko) 2020-06-11
CN111279384A (zh) 2020-06-12
JP7138169B2 (ja) 2022-09-15
EP3704665A4 (en) 2021-08-25
WO2019089160A1 (en) 2019-05-09
US20190172173A1 (en) 2019-06-06
KR102646818B1 (ko) 2024-03-13
CN111279384B (zh) 2023-01-13
EP3704665A1 (en) 2020-09-09

Similar Documents

Publication Publication Date Title
JP7138169B2 (ja) グラフィックスパイプラインにおけるインデックスの圧縮及び復元
KR101091374B1 (ko) 테셀레이션을 단일 패스로 수행하기 위한 방법 및 시스템
US9293109B2 (en) Technique for storing shared vertices
US9418616B2 (en) Technique for storing shared vertices
US11532066B2 (en) Reduced bandwidth tessellation factors
US11948251B2 (en) Throttling hull shaders based on tessellation factors in a graphics pipeline
US11694367B2 (en) Compressing texture data on a per-channel basis
US11609791B2 (en) Precise suspend and resume of workloads in a processing unit
JP7121019B2 (ja) アウトオブオーダのピクセルシェーダのエクスポート
US11004251B2 (en) Automatic configuration of knobs to optimize performance of a graphics pipeline
US11620788B2 (en) Graphics texture footprint discovery

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200701

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R150 Certificate of patent or registration of utility model

Ref document number: 7138169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150