JP7335454B2

JP7335454B2 - レンダリング中の領域テストによってジオメトリの効率的なマルチｇｐｕレンダリングを行うためのシステム及び方法

Info

Publication number: JP7335454B2
Application number: JP2022546702A
Authority: JP
Inventors: イー．サーニーマーク; ストラウスフロリアン; バーグオフトビアス
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-02-03
Filing date: 2021-01-29
Publication date: 2023-08-29
Anticipated expiration: 2041-01-29
Also published as: JP2023159266A; WO2021158449A1; CN117618883A; JP2023505606A; CN115210748B; EP4100138A1; CN115210748A

Description

本開示は、グラフィックス処理に関し、より具体的には、アプリケーションに対する画像をレンダリングするときのマルチＧＰＵ連携に関する。

近年、クラウドゲーミングサーバと、ネットワークを通して接続されたクライアントとの間で、ストリーミングフォーマットでオンラインまたはクラウドゲーミングを行うことを可能にするオンラインサービスに対する継続的な取り組みがある。ストリーミングフォーマットはますます人気が出ている。なぜならば、オンデマンドでゲームタイトルが利用できること、より複雑なゲームが実行できること、マルチプレイヤーゲーミングの場合にプレーヤ間でネットワーク接続できること、プレーヤ間で資産を共有できること、プレーヤ及び／または観戦者の間で瞬時の経験を共有できること、友人がビデオゲームをプレイする様子を友人が観戦できること、友人の進行中のゲームプレイに友人が参加できることなどがあるからである。

クラウドゲーミングサーバは、１つ以上のクライアント及び／またはアプリケーションにリソースを提供するように構成される場合がある。すなわち、クラウドゲーミングサーバは、高スループットが可能なリソースとともに構成される場合がある。たとえば、個々のグラフィックス処理ユニット（ＧＰＵ）が達成できる性能には限界がある。さらに複雑なシーンをレンダリングするために、またはシーンを生成するときにさらに複雑なアルゴリズム（たとえば、材料、照明など）を用いるために、複数のＧＰＵを用いて単一画像をレンダリングすることが望ましい場合がある。しかし、これらのグラフィックス処理ユニットを均等に用いることは、実現が難しい。さらに、従来の技術を用いてアプリケーションに対する画像を処理するために複数のＧＰＵがある場合でも、スクリーンピクセル数及びジオメトリ密度の両方での対応する増加をサポートすることはできない（たとえば、４つのＧＰＵが、画像に対して４倍のピクセルを書き込むこと及び／または４倍の頂点またはプリミティブを処理することはできない）。

本開示の実施形態は、このような背景の下になされたものである。

本開示の実施形態は、複数のＧＰＵを連携して用いて単一画像をレンダリングすること、たとえば、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことに関する。

本開示の実施形態は、グラフィックス処理を行うための方法に開示する。本方法は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングする。本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを、複数のスクリーン領域に基づいて複数のＧＰＵ間で分割し、各ＧＰＵは、複数のＧＰＵに知られた、レスポンシビリティの対応するディビジョンあるいは分割を有する。本方法は、第２のＧＰＵにおいて画像についてジオメトリのピースあるいは断片あるいは一部をレンダリングする間に、第１のＧＰＵがレスポンシビリティの第１のディビジョンを有する第１のスクリーン領域について、ジオメトリのピースに関する情報を生成する。本方法は、情報を用いて第１のＧＰＵにおいてジオメトリのピースをレンダリングする。

本開示の他の実施形態は、方法を実行するための非一時的コンピュータ可読媒体を開示する。コンピュータ可読媒体は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングするためのプログラム命令を含む。コンピュータ可読媒体は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを複数のスクリーン領域に基づいて複数のＧＰＵ間で分割するためのプログラム命令を有し、各ＧＰＵは、複数のＧＰＵに知られた、レスポンシビリティの対応するディビジョンを有するものである。コンピュータ可読媒体は、第２のＧＰＵにおいて画像についてジオメトリのピースあるいは一部をレンダリングする間に、第１のＧＰＵがレスポンシビリティの第１ディビジョンを有する第１のスクリーン領域について、ジオメトリのピースに関する情報を生成するためのプログラム命令を含む。コンピュータ可読媒体は、情報を用いて第１のＧＰＵにおいてジオメトリのピースをレンダリングするためのプログラム命令を含む。

本開示のさらに他の実施形態は、コンピュータシステムであって、プロセッサと、プロセッサに結合され、命令が記憶されたメモリとを有し、この命令は、コンピュータシステムによって実行されると、コンピュータシステムに方法を実行させるものであるコンピュータシステムを開示する。本方法は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングする。本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを複数のスクリーン領域に基づいて複数のＧＰＵ間で分割し、各ＧＰＵは、複数のＧＰＵに知られた、レスポンシビリティの対応するディビジョン有するものである。本方法は、画像に対する第２のＧＰＵにおいてジオメトリのピースをレンダリングする間に、第１のＧＰＵがレスポンシビリティの第１ディビジョンを有する第１のスクリーン領域について、ジオメトリのピースに関する情報を生成する。本方法は、情報を用いて第１のＧＰＵにおいてジオメトリのピースをレンダリングする。

本開示の実施形態は、グラフィックス処理を行うための方法に開示する。本方法は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングする。本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティをスクリーン領域に基づいてＧＰＵ間で分割し、各ＧＰＵは、ＧＰＵに知られた、レスポンシビリティの対応するディビジョンを有する。本方法は、画像に対する第１のＧＰＵにおけるレンダリングのプリパスフェーズ中にジオメトリのピースに対するＺ値を決定し、ジオメトリのピースは、第１のＧＰＵがレスポンシビリティのディビジョンを有する第１のスクリーン領域とオーバーラップする、決定することを含む。本方法は、Ｚ値をジオメトリのピースに対するＺバッファ値と比較することを含む。本方法は、レンダリングのフルレンダリングフェーズ中にジオメトリのピースをレンダリングするときにＧＰＵが用いるように、Ｚ値をＺバッファ値と比較する結果を含む情報を生成することを含む。

本開示の他の実施形態は、方法を行うための非一時的コンピュータ可読媒体を開示する。コンピュータ可読媒体は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングするためのプログラム命令を含む。コンピュータ可読媒体は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティをスクリーン領域上に基づいてＧＰＵ間で分割し、各ＧＰＵは、ＧＰＵに知られた、レスポンシビリティの対応するディビジョンを有する、分割するためのプログラム命令を含む。コンピュータ可読媒体は、画像に対する第１のＧＰＵにおけるレンダリングのプリパスフェーズ中にジオメトリのピースに対するＺ値を決定し、ジオメトリのピースは、第１のＧＰＵがレスポンシビリティのディビジョンを有する第１のスクリーン領域とオーバーラップする、決定するためのプログラム命令を含む。コンピュータ可読媒体は、Ｚ値をジオメトリのピースに対するＺバッファ値と比較するためのプログラム命令を含む。コンピュータ可読媒体は、レンダリングのフルレンダリングフェーズ中にジオメトリのピースをレンダリングするときにＧＰＵが用いるように、Ｚ値をＺバッファ値と比較する結果を含む情報を生成するためのプログラム命令を含む。

本開示のさらに他の実施形態は、コンピュータシステムであって、プロセッサと、プロセッサに結合され、命令が記憶されたメモリであって、コンピュータシステムによって実行されると、コンピュータシステムに方法を実行させるメモリと、を含むコンピュータシステムを開示する。本方法は、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングすることを含む。本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティをスクリーン領域上に基づいてＧＰＵ間で分割し、各ＧＰＵは、ＧＰＵに知られた、レスポンシビリティの対応するディビジョンを有する、分割することを含む。本方法は、画像に対する第１のＧＰＵにおけるレンダリングのプリパスフェーズ中にジオメトリのピースに対するＺ値を決定し、ジオメトリのピースは、第１のＧＰＵがレスポンシビリティのディビジョンを有する第１のスクリーン領域とオーバーラップする、決定することを含む。本方法は、Ｚ値をジオメトリのピースに対するＺバッファ値と比較することを含む。本方法は、レンダリングのフルレンダリングフェーズ中にジオメトリのピースをレンダリングするときに、ＧＰＵが用いるようにＺ値をＺバッファ値と比較する結果を含む情報を生成することを含む。

本開示の他の態様は、以下の詳細な説明と併せて、一例として本開示の原理を例示する添付図面から明らかになる。

本開示は、以下の説明と併せて添付図面を参照することにより最良に理解され得る。

本開示の一実施形態により、複数のＧＰＵ（グラフィックス処理ユニット）を連携で実施あるいはインプリメントして単一画像をレンダリングするように構成された１つ以上のクラウドゲーミングサーバ間でネットワークを介してゲーミングを提供するためのシステムの図であり、レンダリング中の領域テストによってアプリケーションに対するジオメトリのレンダリングを行うマルチＧＰＵを含む図である。本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするマルチＧＰＵアーキテクチャの図である。本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うように構成された複数のグラフィックス処理ユニットリソースの図である。本開示の一実施形態により、マルチＧＰＵ処理を行って複数のＧＰＵが連携して単一画像をレンダリングするように構成されたグラフィックスパイプラインをインプリメントするレンダリングアーキテクチャの図である。本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことを含むグラフィックス処理を行うための方法を例示するフロー図である。本開示の一実施形態により、マルチＧＰＵレンダリングを行うときに四分円に細分割されるスクリーンの図である。本開示の一実施形態により、マルチＧＰＵレンダリングを行うときに複数のインターリーブ領域に細分割されるスクリーンの図である。本開示の一実施形態により、連携して単一画像をレンダリングする複数のＧＰＵによって共有されるレンダリングコマンドバッファの図である。本開示の一実施形態により、複数のＧＰＵによってレンダリングされる４つのオブジェクトを含む画像を例示する図であり、画像のオブジェクトをレンダリングするときの各ＧＰＵに対するスクリーン領域レスポンシビリティを示す図である。本開示の一実施形態により、図７Ｂ－１の４つのオブジェクトをレンダリングするときに各ＧＰＵが行うレンダリングを例示する表である。本開示の一実施形態により、複数のＧＰＵの連携を通して画像フレーム（たとえば、図７Ｂ－１の画像）をレンダリングするときに各ＧＰＵが行う各オブジェクトのレンダリングを例示する図である。本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときのスクリーン領域に対するオブジェクトテストを例示する図である。本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときのスクリーン領域に対するオブジェクトの一部のテストを例示する図である。Ａ～Ｃは、本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときにスクリーン領域を対応するＧＰＵに割り当てるための種々の方策を例示する図である。本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うときのマルチパスレンダリングを例示する図である。本開示の一実施形態により、レンダリングするときに同じＧＰＵが後で用いるようにレンダリングのＺのみプリパスフェーズを行うことを含むグラフィックス処理を行うための方法を例示するフロー図である。本開示の種々の実施形態の態様を実行するために用いることができる例示的なデバイスのコンポーネントを例示する図である。

以下の詳細な説明には、説明の目的上、多くの特定の詳細が含まれているが、当業者であれば分かるように、以下の詳細に対する多くの変形及び修正も本開示の範囲内である。したがって、以下に説明する本開示の態様は、この説明に続く特許請求の範囲に対する一般性を何ら失うことなく、また特許請求の範囲に限定を課すことなく、述べられている。

一般的に言って、個々のＧＰＵが達成できる性能には限界があり、これは、たとえばＧＰＵをどのくらい大きくできるかに対する限界から導かれる。本開示の実施形態では、さらに複雑なシーンをレンダリングするために、またはさらに複雑なアルゴリズム（たとえば、材料、照明など）を用いるために、複数のＧＰＵを用いて単一画像をレンダリングすることが望ましい。詳細には、本開示の種々の実施形態では、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うように構成された方法及びシステムを説明する。具体的には、複数のＧＰＵが連携して、アプリケーションの画像を生成する。アプリケーションのグラフィックスのレンダリングについてのレスポンシビリティ（responsibility）、または義務、あるいはレンダリングへの対応を、対応するスクリーン領域に基づいて複数のＧＰＵ間で分割する。画像に対するジオメトリをレンダリングする間、複数のＧＰＵはそれぞれ、ジオメトリと、他のＧＰＵがレスポンシビリティを負い得るスクリーン領域に対するその関係とに関する情報を生成する。この情報によって、他のＧＰＵは、ジオメトリをより効率的にレンダリングすることまたはそのレンダリングを完全に回避することができる。利点として、たとえば、これによって、複数のＧＰＵがより複雑なシーン及び／または画像を同じ時間でレンダリングすることができる。

種々の実施形態の前述した全般的な理解に基づき、次に実施形態の詳細例について、種々の図面を参照して説明する。

明細書の全体にわたって、「アプリケーション」または「ゲーム」または「ビデオゲーム」または「ゲーミングアプリケーション」に言及した場合、入力コマンドの実行を通して指示される任意のタイプの対話型アプリケーションを表すことが意図されている。例示のみを目的として、対話型アプリケーションには、ゲーミング、文書処理、ビデオ処理、ビデオゲーム処理などに対するアプリケーションが含まれる。さらに、前述で導入した用語は交換可能である。

明細書の全体にわたって、本開示の種々の実施形態は、４つのＧＰＵを有する典型的なアーキテクチャを用いてアプリケーションに対するジオメトリのマルチＧＰＵ処理またはレンダリングを行うことについて説明される。しかし、当然のことながら、アプリケーションに対するジオメトリをレンダリングするときに任意の数のＧＰＵ（たとえば、２つ以上のＧＰＵ）が連携してもよい。

図１は、本開示の一実施形態により、アプリケーションに対する画像をレンダリングするときにマルチＧＰＵ処理を行うためのシステムの図である。本開示の実施形態により、システムは、１つ以上のクラウドゲーミングサーバ間でネットワークを介してゲーミングを提供するように構成されており、より具体的には、複数のＧＰＵを連携してアプリケーションの単一画像をレンダリングするように構成されている。クラウドゲーミングには、サーバにおいてビデオゲームを実行して、ゲームレンダリングされたビデオフレームを生成することが含まれる。これは次に、クライアントに送られて表示される。詳細には、システム１００は、レンダリング中の領域テストによりアプリケーションに対するジオメトリの効率的なマルチＧＰＵレンダリングを行うように構成されている。

図１では、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ間でのジオメトリのマルチＧＰＵレンダリングの実施態様を例示しているが、本開示の他の実施形態では、スタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むもの）内でレンダリング中に領域テストを行うことによってアプリケーションに対するジオメトリの効率的なマルチＧＰＵレンダリングを行うことが提供される。

また当然のことながら、ジオメトリのマルチＧＰＵレンダリングを、物理ＧＰＵ、または仮想ＧＰＵ、または両方の組み合わせを種々の実施形態で（たとえば、クラウドゲーミング環境においてまたはスタンドアロンシステム内で）用いて、行ってもよい。たとえば、仮想マシン（たとえば、インスタンス）を、ハードウェア層の１つ以上のコンポーネント（たとえば、複数のＣＰＵ、メモリモジュール、ＧＰＵ、ネットワークインターフェース、通信コンポーネントなど）を用いるホストハードウェア（たとえば、データセンタに配置される）のハイパーバイザを用いて、形成してもよい。これらの物理リソースを、ラック（たとえば、ＣＰＵのラック、ＧＰＵのラック、メモリのラックなど）内に配列してもよい。ラック内の物理リソースにはトップオブラックスイッチを用いてアクセスしてもよく、これにより、インスタンスに対して用いるコンポーネントの組み立て及びアクセスを行うための構造を容易にする（たとえば、インスタンスの仮想化コンポーネントを構築するときに）。一般的に、ハイパーバイザは、仮想リソースを用いて構成される複数のインスタンスの複数のゲストオペレーティングシステムを示すことができる。すなわち、オペレーティングシステムはそれぞれ、１つ以上のハードウェアリソース（たとえば、対応するデータセンタに配置される）によってサポートされる対応する組の仮想化リソースを用いて構成してもよい。たとえば、各オペレーティングシステムを、仮想ＣＰＵ、複数の仮想ＧＰＵ、仮想メモリ、仮想化通信コンポーネントなどによってサポートしてもよい。加えて、あるデータセンタから別のデータセンタへ移される得るインスタンスの構成によって待ち時間を減らす。ユーザのゲーミングセッションを節約するときに、ユーザまたはゲームに対して規定されるＧＰＵ稼働率を用いることができる。ＧＰＵ稼働率には、ゲーミングセッションに対するビデオフレームの高速レンダリングを最適化するための本明細書で説明する任意の数の構成を含むことができる。一実施形態では、ゲームまたはユーザに対して規定されるＧＰＵ稼働率を、構成可能な設定としてデータセンタ間で移すことができる。異なるジオロケーションからゲームをプレイするためにユーザが接続する場合には、ＧＰＵ稼働率設定を移せることで、データセンタからデータセンタへゲームプレイを効率的に移行することができる。

本開示の一実施形態により、システム１００は、クラウドゲームネットワーク１９０を介してゲーミングを提供する。ゲームは、ゲームをプレイしている対応するユーザのクライアントデバイス１１０（たとえば、シンクライアント）から遠隔で実行されている。システム１００は、シングルプレイヤーモードまたはマルチプレイヤーモードのいずれかでネットワーク１５０を介してクラウドゲームネットワーク１９０を通して１つ以上のゲームをプレイしている１人以上のユーザに対するゲーミングコントロールを提供してもよい。いくつかの実施形態では、クラウドゲームネットワーク１９０は、ホストマシンのハイパーバイザ上で実行される複数の仮想マシン（ＶＭ）を含んでいてもよい。１つ以上の仮想マシンが、ホストのハイパーバイザにとって利用可能なハードウェアリソースを用いるゲームプロセッサモジュールを実行するように構成されている。ネットワーク１５０は１つ以上の通信技術を含んでいてもよい。いくつかの実施形態では、ネットワーク１５０は、高度な無線通信システムを有する第５世代（５Ｇ）ネットワーク技術を含んでいてもよい。

いくつかの実施形態では、無線技術を用いて通信を促進してもよい。このような技術には、たとえば、５Ｇ無線通信技術が含まれていてもよい。５Ｇは第５世代のセルラーネットワーク技術である。５Ｇネットワークはデジタルセルラーネットワークであり、ここでは、プロバイダがカバーするサービスエリアが、セルと言われる小さい地理的領域に分割される。音及び画像を表すアナログ信号は、電話機内でデジタル化され、アナログデジタル変換器によって変換されて、ビットのストリームとして送信される。セル内のすべての５Ｇ無線デバイスは、セル内のローカルアンテナアレイ及び低パワー自動化送受信装置（送信部及び受信部）を用いて電波によって通信し、この通信は、他のセル内で再使用される周波数のプールから送受信装置によって割り当てられた周波数チャネル上で行われる。ローカルアンテナは、高帯域幅光ファイバまたは無線バックホール接続によって電話ネットワーク及びインターネットと接続される。他のセルネットワークの場合と同様に、モバイルデバイスがあるセルから別のセルへ横断すると、新しいセルに自動的に移される。当然のことながら、５Ｇネットワークは単に通信ネットワークのタイプ例であり、本開示の実施形態では、前の世代の無線または有線通信、ならびに５Ｇの後に来る後の世代の有線または無線技術を用いてもよい。

図示したように、クラウドゲームネットワーク１９０には、複数のビデオゲームにアクセスするゲームサーバ１６０が含まれる。ゲームサーバ１６０は、クラウド内で利用できる任意のタイプのサーバコンピューティングデバイスであってもよく、１つ以上のホスト上で実行される１つ以上の仮想マシンとして構成してもよい。たとえば、ゲームサーバ１６０は、ユーザに対するゲームのインスタンスをインスタンス化するゲームプロセッサをサポートする仮想マシンを管理してもよい。したがって、複数の仮想マシンに対応付けられるゲームサーバ１６０の複数のゲームプロセッサは、複数のユーザのゲームプレイに対応付けられる１つ以上のゲームの複数のインスタンスを実行するように構成されている。このように、バックエンドサーバサポートは、複数のゲーミングアプリケーションのゲームプレイの媒体（たとえば、ビデオ、オーディオなど）のストリーミングを、複数の対応するユーザに提供する。すなわち、ゲームサーバ１６０は、データ（たとえば、対応するゲームプレイのレンダリング画像及び／またはフレーム）を、対応するクライアントデバイス１１０にネットワーク１５０を通してストリーミングによって戻すように構成されている。このように、コンピュータ的に複雑なゲーミングアプリケーションを、クライアントデバイス１１０が受け取って転送するコントローラ入力に応じて、バックエンドサーバで実行してもよい。各サーバは画像及び／またはフレームをレンダリングすることができ、これらは次に、エンコード（たとえば圧縮）され、対応するクライアントデバイスにストリーミングされて表示される。

たとえば、複数のユーザは、ストリーミングメディアを受け取るように構成された対応するクライアントデバイス１１０を用いて、通信ネットワーク１５０を介してクラウドゲームネットワーク１９０にアクセスしてもよい。一実施形態では、クライアントデバイス１１０をシンクライアントとして構成して、計算機能（たとえば、ゲームタイトル処理エンジン１１１を含む）を提供するように構成されたバックエンドサーバ（たとえば、クラウドゲームネットワーク１９０）との相互連絡を提供してもよい。別の実施形態では、クライアントデバイス１１０を、ビデオゲームの少なくとも何らかのローカル処理を行うためのゲームタイトル処理エンジン及びゲームロジックを用いて構成してもよく、さらに、バックエンドサーバで実行されるビデオゲームが生成するストリーミングコンテンツを受け取るために、またはバックエンドサーバサポートが提供する他のコンテンツに対して用いてもよい。ローカル処理に対しては、ゲームタイトル処理エンジンには、ビデオゲームに対応付けられるビデオゲーム及びサービスを実行するための基本プロセッサベースの機能が含まれる。その場合、ゲームロジックを、ローカルクライアントデバイス１１０に記憶して、ビデオゲームを実行するために用いてもよい。

クライアントデバイス１１０はそれぞれ、クラウドゲームネットワークから異なるゲームへのアクセスをリクエストしていてもよい。たとえば、クラウドゲームネットワーク１９０は、ゲームサーバ１６０のＣＰＵリソース１６３及びＧＰＵリソース３６５を用いて実行されるように、ゲームタイトル処理エンジン１１１上に構築される１つ以上のゲームロジックを実行していてもよい。たとえば、ゲームロジック１１５ａはゲームタイトル処理エンジン１１１と連携して、１つのクライアントに対してゲームサーバ１６０上で実行していてもよく、ゲームロジック１１５ｂはゲームタイトル処理エンジン１１１と連携して、２番目のクライアントに対してゲームサーバ１６０上で実行していてもよく、・・・またゲームロジック１１５ｎはゲームタイトル処理エンジン１１１と連携して、ｎ番目のクライアントに対してゲームサーバ１６０上で実行していてもよい。

詳細には、対応するユーザ（図示せず）のクライアントデバイス１１０は、通信ネットワーク１５０（たとえば、インターネット）を介してゲームへのアクセスをリクエストするように、またゲームサーバ１６０が実行するビデオゲームによって生成される表示画像をレンダリングするように、構成されている。エンコード画像は、クライアントデバイス１１０に送出されて、対応するユーザに関連して表示される。たとえば、ユーザは、ゲームサーバ１６０のゲームプロセッサ上で実行されているビデオゲームのインスタンスと、クライアントデバイス１１０を通してやり取りしていてもよい。より詳細には、ビデオゲームのインスタンスはゲームタイトル処理エンジン１１１によって実行される。ビデオゲームを実施する対応するゲームロジック（たとえば、実行可能コード）１１５は、データストア（図示せず）を通して記憶されてアクセス可能であり、ビデオゲームを実行するために用いられる。ゲームタイトル処理エンジン１１１は、複数のゲームロジック（たとえば、ゲーミングアプリケーション）（それぞれ、ユーザによって選択可能である）を用いて、複数のビデオゲームをサポートすることができる。

たとえば、クライアントデバイス１１０は、対応するユーザのゲームプレイに関連するゲームタイトル処理エンジン１１１と、たとえば、ゲームプレイを駆動するために用いる入力コマンドを通して、相互に作用するように構成されている。詳細には、クライアントデバイス１１０は、種々のタイプの入力デバイス、たとえば、ゲームコントローラ、タブレットコンピュータ、キーボード、ビデオカメラによって取り込まれたジェスチャ、マウス、タッチパッドなどから入力を受け取ってもよい。クライアントデバイス１１０は、ネットワーク１５０を介してゲームサーバ１６０に接続することができるメモリ及びプロセッサモジュールを少なくとも有する任意のタイプのコンピューティングデバイスとすることができる。バックエンドのゲームタイトル処理エンジン１１１は、レンダリング画像を生成するように構成されている。レンダリング画像は、ネットワーク１５０を介して送出されて、クライアントデバイス１１０に関連する対応するディスプレイにおいて表示される。たとえば、クラウドベースのサービスを通して、ゲームレンダリング画像を、ゲームサーバ１６０のゲーム実行エンジン１１１上で実行されている対応するゲーム（たとえば、ゲームロジック）のインスタンスが送出してもよい。すなわち、クライアントデバイス１１０は、エンコード画像（たとえば、ビデオゲームの実行を通して生成されるゲームレンダリング画像からエンコードされる）を受け取るように、またレンダリングされる画像をディスプレイ１１に表示するように構成されている。一実施形態では、ディスプレイ１１は、ＨＭＤ（たとえば、ＶＲコンテンツを表示する）を含む。いくつかの実施形態では、レンダリング画像を、スマートフォンまたはタブレットに、無線または有線で、クラウドベースのサービスから直接にまたはクライアントデバイス１１０（たとえば、プレイステーション（登録商標）リモートプレイ）を介して、ストリーミングしてもよい。

一実施形態では、ゲームサーバ１６０及び／またはゲームタイトル処理エンジン１１１には、ゲーミングアプリケーションに対応付けられるゲーム及びサービスを実行するための基本プロセッサベースの機能が含まれる。たとえば、ゲームサーバ１６０には、プロセッサベースの機能（たとえば、２Ｄまたは３Ｄレンダリング、物理シミュレーション、スクリプティング、オーディオ、アニメーション、グラフィックス処理、照明、シェーディング、ラスタライゼーション、レイトレーシング、シャドーイング、選抜除去、変換、人工知能など）を行うように構成された中央処理ユニット（ＣＰＵ）リソース１６３及びグラフィックス処理ユニット（ＧＰＵ）リソース３６５が含まれる。加えて、ＣＰＵ及びＧＰＵグループは、ゲーミングアプリケーションに対するサービス（メモリ管理、マルチスレッド管理、サービスの質（ＱｏＳ）、バンド幅テスト、ソーシャルネットワーキング、ソーシャルフレンズの管理、フレンズのソーシャルネットワークとの通信、通信チャネル、テキスティング、インスタントメッセージ、チャットサポートなどを部分的に含む）を実施してもよい。一実施形態では、１つ以上のアプリケーションは特定のＧＰＵリソースを共有する。一実施形態では、複数のＧＰＵデバイスを結合して、対応するＣＰＵ上で実行されている単一アプリケーションに対するグラフィックス処理を実行してもよい。

一実施形態では、クラウドゲームネットワーク１９０は分散ゲームサーバシステム及び／またはアーキテクチャである。詳細には、ゲームロジックを実行する分散ゲームエンジンは、対応するゲームの対応するインスタンスとして構成される。一般的に、分散ゲームエンジンは、ゲームエンジンの機能のそれぞれを取って、それらの機能を多数の処理エンティティが実行するように分配する。個々の機能をさらに、１つ以上の処理エンティティにわたって分配することができる。処理エンティティを異なる構成（たとえば、物理ハードウェア）で、及び／または仮想コンポーネントまたは仮想マシンとして、及び／または仮想コンテナとして構成してもよい。コンテナは、仮想化オペレーティングシステム上で実行されるゲーミングアプリケーションのインスタンスを仮想化するため、仮想マシンとは異なる。処理エンティティは、クラウドゲームネットワーク１９０のサーバ及びその基礎をなすハードウェア（１つ以上のサーバ（計算ノード）上にある）を使用し及び／またはそれらに依拠してもよい。サーバは１つ以上のラック上に配置してもよい。種々の処理エンティティに対するこれらの機能の実行の調整、割り当て、及び管理は、分散同期層が行う。このように、これらの機能の実行を分散同期層が制御して、プレーヤによるコントローラ入力に応じたゲーミングアプリケーションに対する媒体（たとえばビデオフレーム、オーディオなど）の生成を可能にする。分散同期層は、これらの機能を、分散させた処理エンティティにわたって効率的に実行して（たとえば、ロードバランシングを通して）、重要なゲームエンジンコンポーネント／機能を分散させて再組み立てして、より効率的な処理が行われるようにすることができる。

図２は、本開示の一実施形態により、複数のＧＰＵが連携して対応するアプリケーションの単一画像をレンダリングする典型的なマルチＧＰＵアーキテクチャ２００の図である。当然のことながら、本開示の種々の実施形態において、複数のＧＰＵが連携して単一画像をレンダリングする多くのアーキテクチャが可能であるが、明示的に説明することも図示することもしない。たとえば、レンダリング中に領域テストを行うことによるアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ間で実施してもよいし、またはスタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むものなど）内で実施してもよい。

マルチＧＰＵアーキテクチャ２００には、アプリケーションに対する単一画像及び／またはアプリケーションに対する画像列内の各画像のマルチＧＰＵレンダリングを行うように構成されたＣＰＵ１６３及び複数のＧＰＵが含まれている。詳細には、ＣＰＵ１６３及びＧＰＵリソース３６５は、プロセッサベースの機能（たとえば、前述したように、２Ｄまたは３Ｄレンダリング、物理シミュレーション、スクリプティング、オーディオ、アニメーション、グラフィックス処理、照明、シェーディング、ラスタライゼーション、レイトレーシング、シャドーイング、選抜除去、変換、人工知能など）を行うように構成されている。

たとえば、マルチＧＰＵアーキテクチャ２００のＧＰＵリソース３６５には４つのＧＰＵが示されているが、アプリケーションに対する画像をレンダリングするときには任意の数のＧＰＵを用いてもよい。各ＧＰＵは、対応する専用メモリ（たとえば、ランダムアクセスメモリ（ＲＡＭ））に高速バス２２０を介して接続されている。詳細には、ＧＰＵ－Ａはメモリ２１０Ａ（たとえば、ＲＡＭ）にバス２２０を介して接続され、ＧＰＵ－Ｂはメモリ２１０Ｂ（たとえば、ＲＡＭ）にバス２２０を介して接続され、ＧＰＵ－Ｃはメモリ２１０Ｃ（たとえば、ＲＡＭ）にバス２２０を介して接続され、ＧＰＵ－Ｄはメモリ２１０Ｄ（たとえば、ＲＡＭ）にバス２２０を介して接続されている。

さらに、各ＧＰＵは、バス２４０を介して互いに接続されている。バス２４０は、アーキテクチャに応じて、対応するＧＰＵとその対応するメモリとの間の通信に対して用いるバス２２０と速度がほぼ等しいかまたはそれよりも遅い場合がある。たとえば、ＧＰＵ－Ａは、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄのそれぞれと、バス２４０を介して接続されている。また、ＧＰＵ－Ｂは、ＧＰＵ－Ａ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄのそれぞれと、バス２４０を介して接続されている。加えて、ＧＰＵ－Ｃは、ＧＰＵ－Ａ、ＧＰＵ－Ｂ、及びＧＰＵ－Ｄのそれぞれと、バス２４０を介して接続されている。さらに、ＧＰＵ－Ｄは、ＧＰＵ－Ａ、ＧＰＵ－Ｂ、及びＧＰＵ－Ｃのそれぞれと、バス２４０を介して接続されている。

ＣＰＵ１６３は、ＧＰＵのそれぞれと、より低速度のバス２３０を介して接続されている（たとえば、バス２３０は、対応するＧＰＵとその対応するメモリとの間の通信に対して用いるバス２２０よりも遅い）。詳細には、ＣＰＵ１６３は、ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄのそれぞれと接続されている。

いくつかの実施形態では、４つのＧＰＵは別個のＧＰＵであり、それぞれ独自のシリコンダイ上にある。他の実施形態では、４つのＧＰＵは、ダイ上の高速の相互配線及び他のユニットを利用するためにダイを共有してもよい。さらに他の実施形態では、単一のより強力なＧＰＵとしてかまたは４つのそれほど強力でない「仮想」ＧＰＵ（ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）として用いるように構成することができる１つの物理ＧＰＵ２５０がある。言い換えれば、グラフィックスパイプラインを（図４に示すように）動作させるＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄそれぞれに対する十分な機能があり、チップは、全体として、グラフィックスパイプラインを（図４に示すように）動作させることができ、構成は、２つの構成の間で（たとえば、レンダリングパス間で）フレキシブルに切り替えることができる。

図３は、本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対する単一画像をレンダリングするときに、ジオメトリのマルチＧＰＵレンダリングを行うように構成されたグラフィックス処理ユニットリソース３６５の図である。たとえば、ゲームサーバ１６０を、図１のクラウドゲームネットワーク１９０内のＧＰＵリソース３６５を含むように構成してもよい。図示するように、ＧＰＵリソース３６５は、複数のＧＰＵ（たとえば、ＧＰＵ３６５ａ、ＧＰＵ３６５ｂ・・・ＧＰＵ３６５ｎ）を含んでいる。前述したように、種々のアーキテクチャに、レンダリング中の領域テストを通してアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことによって、複数のＧＰＵが連携して単一画像をレンダリングすることが含まれていてもよい。たとえば、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ間でジオメトリのマルチＧＰＵレンダリングを実施すること、またはスタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むものなど）内でジオメトリのマルチＧＰＵレンダリングを実施することである。

詳細には、一実施形態では、ゲームサーバ１６０は、アプリケーションの単一画像をレンダリングするときにマルチＧＰＵ処理を実行するように構成されていて、複数のＧＰＵが連携して単一画像をレンダリングし、及び／またはアプリケーションを実行するときに画像列の１つ以上の各画像をレンダリングする。たとえば、一実施形態では、ゲームサーバ１６０は、アプリケーションの画像列内の１つ以上の各画像のマルチＧＰＵレンダリングを実行するように構成されたＣＰＵ及びＧＰＵグループを含んでいてもよい。ここで、１つのＣＰＵ及びＧＰＵグループが、グラフィックスを実施していることができ、及び／またはアプリケーションに対するパイプラインをレンダリングしていることができる。ＣＰＵ及びＧＰＵグループを、１つ以上の処理デバイスとして構成することができる。前述したように、ＧＰＵ及びＧＰＵグループは、ＣＰＵ１６３及びＧＰＵリソース３６５を含んでいてもよい。ＣＰＵ１６３及びＧＰＵリソース３６５は、プロセッサベースの機能（たとえば、２Ｄまたは３Ｄレンダリング、物理シミュレーション、スクリプティング、オーディオ、アニメーション、グラフィックス処理、照明、シェーディング、ラスタライゼーション、レイトレーシング、シャドーイング、選抜除去、変換、人工知能など）を行うように構成されている。

ＧＰＵリソース３６５は、オブジェクトのレンダリング（たとえば、オブジェクトのピクセルに対する色または法線ベクトル値を複数のレンダリングターゲット－ＭＲＴに書き込むこと）及び同期型計算カーネルの実行（たとえば、結果として生じるＭＲＴに対するフルスクリーン効果）にレスポンシビリティを有しており及び／またはこれらを行うように構成されている。実行すべき同期型計算及びレンダリングすべきオブジェクトは、ＧＰＵが実行する複数のレンダリングコマンドバッファ３２５に含まれるコマンドによって指定される。詳細には、ＧＰＵリソース３６５は、レンダリングコマンドバッファ３２５からのコマンドを実行するときに、オブジェクトをレンダリングして、（たとえば、同期型計算カーネルを実行する間に）同期型計算を行なうように構成され、コマンド及び／または動作は、それらが順次行われるように、他の動作に依存し得る。

たとえば、ＧＰＵリソース３６５は、同期型計算を行うように、及び／または１つ以上のレンダリングコマンドバッファ３２５（たとえば、レンダリングコマンドバッファ３２５ａ、レンダリングバッファ３２５ｂ・・・レンダリングコマンドバッファ３２５ｎ）を用いてオブジェクトのレンダリングを行うように、構成されている。一実施形態では、ＧＰＵリソース３６５における各ＧＰＵはその独自のコマンドバッファを有していてもよい。他の形態として、実質的に同じ組のオブジェクトが各ＧＰＵによってレンダリングされているとき（たとえば、領域のサイズが小さいことに起因する）、ＧＰＵリソース３６５におけるＧＰＵは、同じコマンドバッファまたは同じ組のコマンドバッファを用いてもよい。さらに、ＧＰＵリソース３６５におけるＧＰＵのそれぞれが、コマンドをある１つのＧＰＵによって実行するアビリティをサポートできるが、他のＧＰＵでは実行できないようにしてもよい。たとえば、レンダリングコマンドバッファ内の描画コマンドまたは叙述上にフラッグがあると、対応するコマンドバッファ内の１つ以上のコマンドを単一のＧＰＵが実行可能であるが、他のＧＰＵはコマンドを無視する。たとえば、レンダリングコマンドバッファ３２５ａはフラッグ３３０ａをサポートしてもよく、レンダリングコマンドバッファ３２５ｂはフラッグ３３０ｂをサポートしてもよく・・・レンダリングコマンドバッファ３２５ｎはフラッグ３３０ｎをサポートしてもよい。

同期型計算を行うこと（たとえば、同期型計算カーネルの実行）及びオブジェクトのレンダリングは、レンダリング全体の一部分である。たとえば、ビデオゲームが６０Ｈｚ（たとえば、６０フレーム／秒）で実行されている場合、画像フレームに対するすべてのオブジェクトレンダリング及び同期型計算カーネルの実行は通常、ほぼ１６．６７ｍｓ（たとえば、６０Ｈｚで１フレーム）内で完了しなければならない。前述したように、オブジェクトをレンダリングし及び／または同期型計算カーネルを実行するときに行う動作は順序付けされており、動作は他の動作に依存し得る（たとえば、レンダリングコマンドバッファ内のコマンドは、そのレンダリングコマンドバッファ内の他のコマンドが実行できる前に、実行を完了する必要があり得る）。

詳細には、レンダリングコマンドバッファ３２５はそれぞれ、種々のタイプのコマンドを含んでいる（たとえば、対応するＧＰＵ構成に影響するコマンド（たとえば、レンダリングターゲットの場所及びフォーマットを指定するコマンド）、ならびにオブジェクトをレンダリングし及び／または同期型計算カーネルを実行するコマンド）。説明の目的上、同期型計算カーネルを実行するときに行う同期型計算には、オブジェクトがすべて１つ以上の対応する複数のレンダリングターゲット（ＭＲＴ：multiple render targets）にレンダリングされたときにフルスクリーン効果を行うことが含まれていてもよい。

加えて、ＧＰＵリソース３６５が画像フレームに対するオブジェクトをレンダリングするとき、及び／または画像フレームを生成するときに同期型計算カーネルを実行するときに、ＧＰＵリソース３６５は各ＧＰＵ３６５ａ、３６５ｂ・・・３６５ｎのレジスタを介して構成される。たとえば、ＧＰＵ３６５ａは、そのレジスタ３４０（たとえばレジスタ３４０ａ、レジスタ３４０ｂ・・・レジスタ３４０ｎ）を介して、そのレンダリングを行うかまたは特定の方法でカーネル実行を計算するように構成される。すなわち、レジスタ３４０に記憶される値は、画像フレームに対するオブジェクトをレンダリングし及び／または同期型計算カーネルを実行するために用いるレンダリングコマンドバッファ３２５内のコマンドを実行するときに、ＧＰＵ３６５ａに対するハードウェアコンテキスト（たとえば、ＧＰＵ構成またはＧＰＵ状態）を規定する。ＧＰＵリソース３６５におけるＧＰＵのそれぞれを同様に構成して、ＧＰＵ３６５ｂが、そのレジスタ３５０（たとえば、レジスタ３５０ａ、レジスタ３５０ｂ・・・レジスタ３５０ｎ）を介して、そのレンダリングを実行するかまたは特定の方法でカーネル実行を計算するように構成され、・・・ＧＰＵ３６５ｎが、そのレジスタ３７０（たとえば、レジスタ３７０ａ、レジスタ３７０ｂ・・・レジスタ３７０ｎ）を介して、そのレンダリングを実行するかまたは特定の方法でカーネル実行を計算するように構成されるようにしてもよい。

ＧＰＵ構成のいくつかの例としては、レンダリングターゲット（たとえば、ＭＲＴ）の場所及びフォーマットが挙げられる。また、ＧＰＵ構成の他の例としては、操作手順が挙げられる。たとえば、オブジェクトをレンダリングするとき、オブジェクトの各ピクセルのＺ値を、Ｚバッファと種々の方法で比較することができる。たとえば、オブジェクトピクセルを書き込むのは、オブジェクトＺ値がＺバッファ内の値とマッチする（オブジェクトピクセルが隠れていないことを示す）場合のみである。あるいは、オブジェクトピクセルを書き込むことができるのは、オブジェクトＺ値がＺバッファ内の値と同じかまたはそれを下回る（オブジェクトピクセルが隠れていないことを示す）場合のみである。行うテストのタイプはＧＰＵ構成内で規定される。

図４は、本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするようにマルチＧＰＵ処理用に構成されたグラフィックスパイプライン４００をインプリメントあるいは実施するレンダリングアーキテクチャの略図である。グラフィックスパイプライン４００は、３Ｄ（３次元）ポリゴンレンダリングプロセスを用いて画像をレンダリングするための一般的なプロセスを例示する。レンダリング画像に対するグラフィックスパイプライン４００は、ディスプレイ内の各ピクセルに対する対応する色情報を出力する。色情報は、テクスチャ及びシェーディング（たとえば、色、シャドーイングなど）を表し得る。グラフィックスパイプライン４００は、図１及び３のクライアントデバイス１１０、ゲームサーバ１６０、ゲームタイトル処理エンジン１１１、及び／またはＧＰＵリソース３６５内でインプリメント可能であり得る。すなわち、種々のアーキテクチャは、レンダリング中の領域テストを通してアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことによって、複数のＧＰＵが連携して単一画像をレンダリングすることを含んでいてもよい。たとえば、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ間でジオメトリのマルチＧＰＵレンダリングをインプリメントあるいは実行すること、またはスタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むものなど）内でジオメトリのマルチＧＰＵレンダリングを実施することである。

図示したように、グラフィックスパイプラインは入力ジオメトリ４０５を受け取る。たとえば、ジオメトリ処理ステージ４１０が入力ジオメトリ４０５を受け取る。たとえば、入力ジオメトリ４０５としては、３Ｄゲーミング世界内の頂点及び各頂点に対応する情報を挙げてもよい。ゲーミング世界内の所与のオブジェクトを、頂点によって規定されるポリゴン（たとえば、三角形）を用いて表すことができる。次に、グラフィックスパイプライン４００を通じて対応するポリゴンの表面を処理し、最終的な効果（たとえば、色、テクスチャなど）を実現する。頂点属性としては、法線（たとえば、どの方向がジオメトリのその場所に垂直であるか）、色（たとえば、ＲＧＢ－赤色、緑色、及び青色の三色など）、及びテクスチャ座標／マッピング情報を挙げてもよい。

ジオメトリ処理ステージ４１０は、頂点処理（たとえば、頂点シェーダーを介して）及びプリミティブ処理の両方にレスポンシビリティを有する（またこれらを行うことができる）。詳細には、ジオメトリ処理ステージ４１０は、プリミティブを規定してそれをグラフィックスパイプライン４００の次のステージに送出する頂点の組、ならびにそれらの頂点に対する位置（正確には、同次座標）及び他の種々のパラメータを出力してもよい。位置は、後のシェーダーステージによるアクセスに備えて、位置キャッシュ４５０に配置される。他のパラメータは、やはり後のシェーダーステージによるアクセスに備えて、パラメータキャッシュ４６０に配置される。

種々の動作をジオメトリ処理ステージ４１０によって行ってもよい。たとえば、プリミティブ及び／またはポリゴンに対する照明及びシャドーイング計算を行うことである。一実施形態では、ジオメトリステージは、プリミティブを処理することができるため、バックフェース選抜除去及び／またはクリッピング（たとえば、視錐台に対するテスト）を実行することができ、その結果、下流ステージ（たとえば、ラスタライゼーションステージ４２０など）に対する負荷が減る。別の実施形態では、ジオメトリステージは、プリミティブを生成してもよい（たとえば、従来のジオメトリシェーダーと同等の機能により）。

ジオメトリ処理ステージ４１０によって出力されたプリミティブを、ラスタライゼーションステージ４２０内に供給し、そこでプリミティブを、ピクセルからなるラスター画像に変換する。詳細には、ラスタライゼーションステージ４２０は、シーン内のオブジェクトを、３Ｄゲーミング世界内の視認場所（たとえば、カメラ場所、ユーザ眼場所など）によって規定される２次元（２Ｄ）像平面に投影するように構成されている。単純化したレベルでは、ラスタライゼーションステージ４２０は、各プリミティブを見て、どのピクセルが対応するプリミティブの影響を受けるかを判定する。詳細には、ラスタライザ４２０はプリミティブをピクセルサイズのフラグメントに分割する。各フラグメントはディスプレイ内のピクセルに対応する。画像を表示するときに、１つ以上のフラグメントが、対応するピクセルの色に寄与し得ることに留意することは重要である。

前述したように、ラスタライゼーションステージ４２０によってさらなる動作を行ってもよい。たとえば、視認場所に対するクリッピング（視錐台の外側のフラグメントを特定して無視する）及び選抜除去（より近いオブジェクトによって隠されるフラグメントを無視する）である。クリッピングに関連して、ジオメトリ処理ステージ４１０及び／またはラスタライゼーションステージ４２０を、ゲーミング世界内の視認場所によって規定される視錐台の外側にあるプリミティブを特定して無視するように構成してもよい。

ピクセル処理ステージ４３０は、ジオメトリ処理ステージによって形成されるパラメータ（ならびに他のデータ）を用いて、ピクセルの結果として生じる色などの値を生成してもよい。詳細には、ピクセル処理ステージ４３０は根本的に、フラグメントに対してシェーディング動作を実行して、プリミティブの色及び輝度が、利用可能な照明によってどのように異なるかを決定する。たとえば、ピクセル処理ステージ４３０は、各フラグメントに対する深さ、色、法線、及びテクスチャ座標（たとえば、テクスチャ詳細）を決定してもよく、さらに、フラグメントに対する光、暗さ、及び色の適切なレベルを決定してもよい。詳細には、ピクセル処理ステージ４３０は各フラグメントの特徴を計算する。たとえば、色及び他の属性（たとえば、視認場所からの距離に対するｚ深度、及び透明性に対するアルファ値）である。加えて、ピクセル処理ステージ４３０は、対応するフラグメントに影響する利用可能な照明に基づいてフラグメントに照明効果を適用する。さらに、ピクセル処理ステージ４３０は、各フラグメントに対してシャドーイング効果を適用してもよい。

ピクセル処理ステージ４３０の出力は、処理されたフラグメント（たとえば、テクスチャ及びシェーディング情報）を含み、グラフィックスパイプライン４００の次のステージにある４４０出力マージャーステージに送出される。出力マージャーステージ４４０は、ピクセル処理ステージ４３０の出力、ならびに他のデータ（たとえば、すでにメモリ内にある値）を用いて、ピクセルに対する最終色を生成する。たとえば、出力マージャーステージ４４０は、ピクセル処理ステージ４３０から決定されたフラグメント及び／またはピクセルと、そのピクセルに対してＭＲＴにすでに書き込まれた値との間の値の任意的なブレンディングを実行してもよい。

ディスプレイ内の各ピクセルに対する色値を、フレームバッファ（図示せず）に記憶してもよい。これらの値を、対応するピクセルにスキャンすることを、シーンの対応する画像を表示するときに行う。詳細には、ディスプレイは、各ピクセルに対するフレームバッファから色値を、行ごとに、左から右へまたは右から左へ、上から下へまたは下から上へ、または任意の他のパターンで読み出し、画像を表示するときにこれらのピクセル値を用いるピクセルを照明する。

図１～３のクラウドゲームネットワーク１９０（たとえば、ゲームサーバ１６０内の）及びＧＰＵリソース３６５の詳細な説明により、図５のフロー図５００は、本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを実施するときにグラフィックス処理を行うための方法を例示する。このように、複数のＧＰＵリソースを用いて、アプリケーションを実行するときにオブジェクトのレンダリング及び／または同期型計算操作を実行する。前述したように、種々のアーキテクチャには、レンダリング中の領域テストを通してアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことによって、複数のＧＰＵが連携して単一画像をレンダリングすることが含まれていてもよい。たとえば、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ内において、またはスタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むものなど）内においてである。

５１０において、本方法は、画像を生成するために連携する複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングすることを含む。詳細には、マルチＧＰＵ処理は、単一画像及び／またはリアルタイムアプリケーションに対する画像列の１つ以上の各画像をレンダリングするときに行う。

５２０において、本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを複数のスクリーン領域に基づいて複数のＧＰＵ間で分割することを含む。すなわち、各ＧＰＵは、すべてのＧＰＵに知られた、レスポンシビリティの対応するディビジョン（たとえば、対応するスクリーン領域）を有する。

ＧＰＵは、対応する画像を同時にレンダリングする。ジオメトリをレンダリングする間、ＧＰＵは、ジオメトリと他のＧＰＵがレスポンシビリティを有するスクリーン領域に対するその関係とに関する情報を生成する。これによって、他のＧＰＵは、ジオメトリをより効率的にレンダリングし、及び／またはそのジオメトリのレンダリングを完全に回避することができる。言い換えれば、レンダリングにおいて他よりも「先行している」ＧＰＵは、他のＧＰＵに、それらの処理を加速する情報を与えることができる。詳細には、５３０において、本方法は、第１のＧＰＵがレスポンシビリティの第１のディビジョン（division）を有する第１のスクリーン領域に対するジオメトリのピースあるいは断片（piece）あるいは一部に関する情報を生成し、一方で、画像に対して第２のＧＰＵにおいてジオメトリのピースをレンダリングすることを含む。より具体的には、ＧＰＵはそれぞれ、複数のスクリーン領域のうちの対応する組のスクリーン領域においてジオメトリをレンダリングすることにレスポンシビリティを有し、対応する組のスクリーン領域には１つ以上のスクリーン領域が含まれる。たとえば、第１のＧＰＵは、第１の組のスクリーン領域（たとえば、第１のスクリーン領域を含む）においてオブジェクトをレンダリングするためのレスポンシビリティの第１のディビジョンを有する。また、第２のＧＰＵは、第２の組のスクリーン領域においてオブジェクトをレンダリングするためのレスポンシビリティの第２のディビジョンを有する。したがって、各ＧＰＵは、オブジェクトのレンダリングを同時に開始し、オブジェクトのレンダリングにおいて先行しているあるＧＰＵは、ジオメトリのそのピースのレンダリングにレスポンシビリティを有していてもよいしそうでなくてもよい別のＧＰＵにとって有用なジオメトリのピースについてのヒントを生成し得る。

たとえば、ジオメトリのピースをレンダリングする間に、ＧＰＵは、他のＧＰＵがレスポンシビリティを有するスクリーン領域に関してジオメトリをテストする。テスト結果（たとえば、情報）はこれらの他のＧＰＵに送られる。詳細には、レンダリングする間に、第２のＧＰＵが画像のジオメトリをテストする。第２のＧＰＵは、第１のＧＰＵにレスポンシビリティが割り当てられたスクリーン領域または領域（複数）に関するジオメトリについての、第１のＧＰＵに対する情報を生成する。テストには、たとえば、ジオメトリのピースが、第１のＧＰＵにレスポンシビリティが割り当てられたスクリーン領域または領域（複数）とオーバーラップするか否かが含まれていてもよい。

５４０において、本方法は、情報を用いて第１のＧＰＵにおいてジオメトリのピースをレンダリングすることを含む。具体的には、いくつかのアーキテクチャにおいて、対応するレンダリングＧＰＵが、対応する情報をそれを用いるのに間に合って受け取った場合、ＧＰＵはその情報を、対応する画像内でどのジオメトリをレンダリングすべきかを決定するときに用いる。すなわち、情報はヒントとして取られ得る。そうでない場合には、レンダリングＧＰＵはジオメトリのピースを、通常行うように処理する。ジオメトリが、第１のＧＰＵ（たとえばレンダリングＧＰＵ）に割り当てられたスクリーン領域または領域（複数）とオーバーラップする否かを情報が示し得る例を用いて、ジオメトリのオーバーラップはないと情報が示す場合、第１のＧＰＵはジオメトリのレンダリングを完全にスキップしてもよい。また、ジオメトリのピースのみがオーバーラップしないと情報が示す場合、第１のＧＰＵは、第１のＧＰＵにレスポンシビリティが割り当てられたスクリーン領域（複数可）とオーバーラップしないジオメトリのピースをスキップしてもよい。他方では、ジオメトリに対するオーバーラップがあると情報は示すことがあり、この場合、第１のＧＰＵはジオメトリをレンダリングする。また、ジオメトリの特定のピースが、第１のＧＰＵにレスポンシビリティが割り当てられたスクリーン領域または領域（複数）とオーバーラップすると情報は示す場合がある。その場合、第１のＧＰＵは、オーバーラップするジオメトリのピースのみをレンダリングする。さらなる他の実施形態では、情報がない場合、または情報の生成もしくは受け取りが間に合わない場合、第１のＧＰＵはレンダリングを通常通りに実行する（たとえば、ジオメトリをレンダリングする）。したがって、ヒントとして提供された情報は、間に合って受け取られた場合には、グラフィックス処理システムの全体的効率を増加させ得る。一実施形態では、情報が間に合って受け取られなかった場合、グラフィックス処理システムは、このような情報がない状態でもやはり適切に動作する。

図６Ａ－６Ｂに、純粋に説明を目的として、領域に細分割されたスクリーンに対するレンダリングを示す。当然のことながら、細分割する領域の数は、画像及び／または画像列の１つ以上の各画像の効率的なマルチＧＰＵ処理に対して選択可能である。すなわち、細分割する領域の数には２つ以上の領域が含まれていてもよい。本開示の一実施形態では、図６Ａに示すように、スクリーンを４つの四分円に細分割する。本開示の別の実施形態では、図６Ｂに示すように、スクリーンをより大きい数のインターリーブ領域、あるいはインターリーブ領域に細分割する。以下の図６Ａ－６Ｂの説明は、複数のＧＰＵに割り当てられた複数のスクリーン領域にマルチＧＰＵレンダリングを行うときに生じる非効率性を例示することを意図している。図７Ａ－７Ｃ及び図８Ａ－８Ｂは、本発明のいくつかの実施形態による、より効率的なレンダリングを示している。

詳細には、図６Ａは、マルチＧＰＵレンダリングを行うときに四分円（たとえば、４つの領域）に細分割されるスクリーン６１０Ａの図である。図示したように、スクリーン６１０Ａは４つの四分円に細分割される（たとえば、Ｂ、Ｃ、及びＤ）。各四分円は、４つのＧＰＵ［ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ］のうちの１つに、１対１の関係で割り当てられる。たとえば、ＧＰＵ－Ａは四分円Ａに割り当てられ、ＧＰＵ－Ｂは四分円Ｂに割り当てられ、ＧＰＵ－Ｃは四分円Ｃに割り当てられ、ＧＰＵ－Ｄは四分円Ｄに割り当てられる。

ジオメトリを選抜除去することができる。たとえば、ＣＰＵ１６３は、各四分円の錐台に対して境界ボックスをチェックすることができ、各ＧＰＵに、その対応する錐台とオーバーラップするオブジェクトのみをレンダリングするようにリクエストすることができる。その結果、各ＧＰＵは、ジオメトリの一部のみをレンダリングすることにレスポンシビリティを有する。説明の目的上、スクリーン６１０はジオメトリのピースを示し、各ピースは対応するオブジェクトであり、スクリーン６１０はオブジェクト６１１～６１７（たとえば、ジオメトリのピース）を示している。四分円Ａとオーバーラップするオブジェクトはないため、ＧＰＵ－Ａはオブジェクトをレンダリングしない。ＧＰＵ－Ｂは、オブジェクト６１５及び６１６をレンダリングする（オブジェクト６１５の一部は四分円Ｂ内に存在するため、ＣＰＵの選抜除去テストは、ＧＰＵ－Ｂはそれをレンダリングしなければならないと正しく結論する）。ＧＰＵ－Ｃは、オブジェクト６１１及び６１２をレンダリングする。ＧＰＵ－Ｄは、オブジェクト６１２、６１３、６１４、６１５、及び６１７をレンダリングする。

図６Ａにおいて、スクリーン６１０Ａが四分円Ａ～Ｄに分割されると、各ＧＰＵが実行しなければならない作業量は非常に異なるものとなり得る。なぜならば、場合によっては、不均一な数量のジオメトリが１つの四分円の中にあり得るからである。たとえば、四分円Ａには何らジオメトリのピースはないが、四分円Ｄにはジオメトリの５つのピースまたはジオメトリの少なくとも５つのピースの少なくとも一部がある。したがって、四分円Ａに割り当てられたＧＰＵ－Ａは使われないが、四分円Ｄに割り当てられたＧＰＵ－Ｄは、対応する画像内でオブジェクトをレンダリングするときに不釣り合いに、あるいは突出してビジーとなる。

図６Ｂに、スクリーンを領域に細分割するときの別の手法を例示する。詳細には、単一画像または画像列内の１つ以上の各画像のマルチＧＰＵレンダリングを行うときに、四分円に細分割するのではなくて、スクリーン６１０Ｂを複数のインターリーブ領域に細分割する。その場合、スクリーン６１０Ｂを、より大きい数のインターリーブ領域に細分割し（たとえば、４つの四分円よりも多い）、一方で、同じ数量のＧＰＵをレンダリング用に用いる（たとえば、４つ）。スクリーン６１０Ａに示したオブジェクト（６１１～６１７）を、スクリーン６１０Ｂの同じ対応する場所にも示す。

詳細には、４つのＧＰＵ［ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ］を用いて、対応するアプリケーションに対する画像をレンダリングする。ＧＰＵはそれぞれ、対応する領域とオーバーラップするジオメトリをレンダリングすることにレスポンシビリティを有する。すなわち、各ＧＰＵは対応する組の領域に割り当てられる。たとえば、ＧＰＵ－Ａは、対応する組においてＡとラベル付けされた領域のそれぞれにレスポンシビリティを有し、ＧＰＵ－Ｂは、対応する組においてＢとラベル付けされた領域のそれぞれにレスポンシビリティを有し、ＧＰＵ－Ｃは、対応する組においてＣとラベル付けされた領域のそれぞれにレスポンシビリティを有し、ＧＰＵ－Ｄは、対応する組においてＤとラベル付けされた領域のそれぞれにレスポンシビリティを有している。

さらに、領域は特定のパターンでインターリーブ、あるいは交互配置されている。領域をインターリーブする（かつ領域数をより多く）ことで、各ＧＰＵが実行しなければならない作業量は、はるかにバランスされ得る。たとえば、スクリーン６１０Ｂをインターリーブするパターンには、交互に変わる行（たとえば、領域Ａ－Ｂ－Ａ－Ｂなど、及び領域Ｃ－Ｄ－Ｃ－Ｄなど）が含まれる。本開示の実施形態では、領域をインターリーブする他のパターンもサポートされる。たとえば、パターンには、反復配列の領域、均一に分布する領域、不均一に分布する領域、反復行の配列の領域、ランダム配列の領域、ランダム行の配列の領域などが含まれていてもよい。

領域の数を選ぶことは重要である。たとえば、領域の分配が細かすぎる（たとえば、領域の数が多すぎて最適ではない）場合、各ＧＰＵはやはりジオメトリの大部分または全部を処理しなければならない。たとえば、ＧＰＵがレスポンシビリティを有するすべての領域に対してオブジェクトの境界ボックスをチェックすることは難しい場合がある。また、境界ボックスを適時にチェックできるとしても、領域サイズが小さいために、結果として、各ＧＰＵはほとんどのジオメトリを処理しなければならない可能性がある。なぜならば、画像内のすべてのオブジェクトが、各ＧＰＵの少なくとも１つの領域とオーバーラップするからである（たとえば、ＧＰＵは、オブジェクトの一部のみが、そのＧＰＵに割り当てられた領域の組内の少なくとも１つの領域とオーバーラップしたとしても、オブジェクト全体を処理する）。

その結果、領域の数を選ぶことや、インターリーブのパターンなどが重要である。インターリーブ少なすぎるかもしくは多すぎる領域を選ぶ、またはインターリーブに対して少なすぎる領域もしくは多すぎる領域を選ぶ、またはインターリーブに対して非効率なパターン選ぶと、ＧＰＵ処理を行うときの非効率につながり得る（たとえば、各ＧＰＵがジオメトリの大部分または全部を処理する）。このような場合、画像のレンダリング用に複数のＧＰＵがある場合でも、ＧＰＵの非効率のために、スクリーンピクセル数及びジオメトリ密度の両方における対応する増加をサポートすることはできない（すなわち、４つのＧＰＵが、４倍のピクセルを書き込むこと及び４倍の頂点またはプリミティブを処理することはできない）。以下の実施形態では、とりわけ、選抜除去方策（図７Ａ－７Ｃ）及び選抜除去の粒度（図８Ａ－８Ｂ）における改善を対象にする。

図７Ａ－７Ｃは、本開示の実施形態において、複数のＧＰＵを用いて、単一画像及び／または画像列内の少なくとも１つ以上の各画像をレンダリングすることを例示する図である。４つのＧＰＵの選択は単に、アプリケーションを実行しながら画像をレンダリングするときのマルチＧＰＵレンダリングを簡単に例示するために行っており、当然のことながら、種々の実施形態におけるマルチＧＰＵレンダリングに対して任意の数のＧＰＵを用いてもよい。

詳細には、図７Ａは、本開示の一実施形態により、連携して単一画像をレンダリングする複数のＧＰＵによって共有されるレンダリングコマンドバッファ７００Ａの図である。すなわち、本実施例では、複数のＧＰＵはそれぞれ、同じレンダリングコマンドバッファ（たとえば、バッファ７００Ａ）を使用し、ＧＰＵはそれぞれ、レンダリングコマンドバッファ内ですべてのコマンドを実行する。複数のコマンド（完全セット）が、レンダリングコマンドバッファ７００Ａ内にロードされて、対応する画像をレンダリングするために用いられる。当然のことながら、対応する画像を生成するために１つ以上のレンダリングコマンドバッファを用いてもよい。一例では、ＣＰＵは、画像フレームに対して１つ以上のドローコールを生成する。ドローコールには、対応する画像のマルチＧＰＵレンダリングを行うときに図３のＧＰＵリソース３６５のうちの１つ以上のＧＰＵによって実行されるように１つ以上のレンダリングコマンドバッファ内に配置されるコマンドが含まれる。いくつかの実施態様では、ＣＰＵ１６３は１つ以上のＧＰＵに、対応する画像をレンダリングするために用いるドローコールの全部または一部を生成するように要求してもよい。さらに、コマンドの全セットを図７Ａに示している場合があり、すべてレンダリングコマンドバッファ７００Ａ内に含まれているか、または図７Ａは、レンダリングコマンドバッファ７００Ａ内に含まれるコマンドの全セットの一部を示している場合がある。

画像または画像列内の１つ以上の各画像のマルチＧＰＵレンダリングを行うときに、ＧＰＵは同時にレンダリングする。画像のレンダリングは複数のフェーズに分解することができる。フェーズのそれぞれにおいて、ＧＰＵは同期させる必要があり、より速いＧＰＵが、より遅いＧＰＵの完了まで待機しなければならない。レンダリングコマンドバッファ７００Ａに対して図７Ａに示すコマンドは１つのフェーズを示している。レンダリングコマンドバッファ７００Ａは、画像をレンダリングするときの１つ以上のフェーズに対するコマンドを含んでいてもよい。１つのフェーズを例示する図７Ａに示すレンダリングコマンドバッファ７００Ａのピースにおいて、レンダリングすべき４つのオブジェクトがある（たとえば、オブジェクト０、オブジェクト１、オブジェクト２、及びオブジェクト３）。これを図７Ｂ－１に示す。

図示したように、図７Ａに示すレンダリングコマンドバッファ７００Ａのピースには、オブジェクトをレンダリングするためのコマンドと、レンダリングコマンドバッファ７００Ａからのコマンドを実行するための１つ以上のレンダリングＧＰＵの状態を構成するためのコマンドとが含まれる。コマンドはさらに、コマンドのセクションに分離され得る、各セクションには１つ以上のコマンドが含まれる。オブジェクトレンダリング及び／または同期型計算に対するコマンドは、対応する画像（たとえば、画像フレーム）のレンダリングの一部分として行われる。いくつかの実施態様では、その画像に対するオブジェクトのレンダリング及び／または同期型計算カーネルの実行は、フレーム周期内で行わなければならない。単に説明の目的上、図７Ａに示すレンダリングコマンドバッファ７００Ａのピースには、対応するアプリケーションに対する対応する画像をレンダリングするときにオブジェクトをレンダリングし及び／または同期型計算カーネルを実行するために使用するコマンドの８つのセクション（７１０～７１７）が含まれる。

たとえば、図７Ａに示すレンダリングコマンドバッファ７００Ａのピースには、コマンドの４つのセクション７１０、７１２、７１４、及び７１６が含まれる。それぞれ、レンダリングコマンドバッファ７００Ａ内のコマンドを実行している１つ以上のレンダリングＧＰＵの状態を構成するために用いられる。前述したように、レジスタに記憶される値は、対応する画像に対してオブジェクトをレンダリングし及び／または同期型計算カーネルを実行するために使用するレンダリングコマンドバッファ７００Ａ内のコマンドを実行するときの対応するＧＰＵに対するハードウェアコンテキスト（たとえばＧＰＵ構成）を規定する。図示したように、ＧＰＵ状態は、レンダリングコマンドバッファ７００Ａ内のコマンドの処理の全体にわたって変更してもよい。コマンドの以後の各セクションを、ＧＰＵ状態を構成するために用いてもよい。

また、図７Ａに示すレンダリングコマンドバッファ７００Ａのピースには、対応するオブジェクトをレンダリングするために用いるコマンド７１１、７１３、７１５、及び７１７のセクションが含まれる。たとえば、セクション７１１における１つ以上のコマンドはオブジェクト０を描画及び／またはレンダリングするために用いられ、セクション７１３における１つ以上のコマンドはオブジェクト１を描画及び／またはレンダリングするために用いられ、セクション７１５における１つ以上のコマンドはオブジェクト２を描画及び／またはレンダリングするために用いられ、セクション７１７における１つ以上のコマンドはオブジェクト３を描画及び／またはレンダリングするために用いられる。図７Ａには、ＧＰＵ状態を構成するために用いるセクションが、オブジェクトレンダリングのために用いるコマンドのセクションのそれぞれに先行すると示しているが、当然のことながら、ＧＰＵ状態を１つ以上のオブジェクトをレンダリングするように構成してもよい。

複数のＧＰＵが情報（たとえば「ヒント」）を共有して、どのオブジェクトを対応するＧＰＵによってレンダリングする必要があるかを判定するのに役立たせている。各ＧＰＵは、スクリーンの特定の領域（たとえば、オブジェクトレンダリングするために対応するＧＰＵに割り当てられた領域の組）内でレンダリングすることにレスポンシビリティを有し得る。対応するＧＰＵは、その領域または領域の組と完全に及び／または部分的にオーバーラップするオブジェクトをレンダリングする。レンダリング中に、第２のＧＰＵは、オブジェクト及びスクリーン内でのその場所に関するヒントを生成し得る。図示したように、ヒント７２１は、オブジェクト０に対するレンダリング動作を行う間に第２のＧＰＵによって生成され得て、他のＧＰＵのそれぞれに提供され得る。同様に、ヒント７２３は、オブジェクト１に対するレンダリング動作を行う間に第２のＧＰＵによって生成され得て、他のＧＰＵのそれぞれに提供され得る。さらに、ヒント７２５はオブジェクト２に対するレンダリング動作を行う間に第２のＧＰＵによって生成され得る。また、ヒント７２７はオブジェクト３に対するレンダリング動作を行う間に第２のＧＰＵによって生成され得る。

詳細には、レンダリング中に、第２のＧＰＵは、他のＧＰＵがレンダリングレスポンシビリティを有するスクリーン領域に関連する画像内のオブジェクトのうちの少なくとも１つ（たとえば、ジオメトリ）をテストし得る。テスト結果を含む情報をそれら他のＧＰＵに送って、それら他のＧＰＵが、オブジェクトのその独自のテストを軽減し及び／またはそれらのオブジェクトを効率的にレンダリングする目的でその情報を適時に受け取った場合に用い得るようにしてもよい。たとえば、情報は、第１のＧＰＵがジオメトリのピースのレンダリングを完全にスキップすべきであると示してもよい（たとえば、ジオメトリのピースが、第１のＧＰＵにオブジェクトレンダリングのレスポンシビリティが割り当てられたスクリーン領域とオーバーラップしない）。別の例では、情報が第１のＧＰＵにヒントとして提供されて、情報が、第１のＧＰＵにおいてジオメトリのその第１のピースに対するレンダリングが始まる前に受け取られた場合に、第１のＧＰＵによって考えられるようにする。一実施形態では、情報が間に合って受け取られなかった場合には、ジオメトリの第１のピースを第１のＧＰＵによって完全にレンダリングする。

単に説明の目的上、４つのＧＰＵが、対応するスクリーンをそれらの間の領域に分割する。矢印が、領域テストの他のＧＰＵの通知を示している。たとえば、レンダリング中にヒントを生成する第２のＧＰＵが、そのヒント（たとえば、情報）を他のＧＰＵ（たとえば、第１のＧＰＵ）に提供する。前述したように、対応する組の領域内でオブジェクトをレンダリングすることに各ＧＰＵがレスポンシビリティを有する。対応する組には１つ以上の領域が含まれる。

一実施形態では、レンダリングコマンドバッファ７００Ａは、連携して単一画像をレンダリングする複数のＧＰＵによって共有される。すなわち、単一画像または画像列内の１つ以上の各画像のマルチＧＰＵレンダリングに対して用いるＧＰＵが、共通のコマンドバッファを共有する。このように、オブジェクトに対するヒントを、同じオブジェクトをレンダリングしてもよいしそうでなくてもよい別のＧＰＵ（たとえば、第１のＧＰＵ）に提供する第２のＧＰＵがそれぞれ、同じコマンドバッファを共有する。別の実施形態では、各ＧＰＵはそれ自身のコマンドバッファを有していてもよい。

他の形態として、さらなる他の実施形態では、ＧＰＵはそれぞれ、ある程度異なるオブジェクト組をレンダリングしていてもよい。特定のＧＰＵが特定のオブジェクトをレンダリングする必要がなく、なぜならば、それが、対応する組においてその対応するスクリーン領域とオーバーラップしないからであると判定できるときには、これは成り立ち得る。前述したように、コマンドをあるＧＰＵによって実行できるが、別のコマンドでは実行できないことをコマンドバッファがサポートする限り、複数のＧＰＵはやはり同じコマンドバッファを用いる（たとえば、１つのコマンドバッファを共有する）ことができる。たとえば、共有のレンダリングコマンドバッファ７００Ａ内のコマンドの実行を、レンダリングＧＰＵの１つに限定してもよい。これは種々の方法で達成することができる。別の例では、フラッグを対応するコマンド上で用いて、どのＧＰＵがそれを実行するべきかを示してもよい。また、どのＧＰＵがどの条件下で何をするかを示すビットを用いて、レンダリングコマンドバッファ内で叙述を実施してもよい。叙述の例としては、「これがＧＰＵ－Ａならば、次のＸコマンドをスキップする」が挙げられる。

さらなる他の実施形態では、実質的に同じ組のオブジェクトが各ＧＰＵによってレンダリングされているので、複数のＧＰＵはやはり同じコマンドバッファを用い得る。たとえば、前述したように、領域が比較的小さいときには、各ＧＰＵはオブジェクトをすべてレンダリングしてもよい。

図７Ｂ－１にスクリーン７００Ｂを例示する。スクリーン７００Ｂは、本開示の一実施形態により、図７Ａのレンダリングコマンドバッファ７００Ａを用いて複数のＧＰＵによってレンダリングされる４つのオブジェクトを含む画像を示す。ジオメトリのマルチＧＰＵレンダリングは、対応する画像内のジオメトリのレンダリング中に領域テストを行うことによってアプリケーションに対して行われる。

詳細には、ジオメトリのレンダリングに対するレスポンシビリティは、複数のＧＰＵ間のスクリーン領域によって分割される。複数のスクリーン領域は、複数のＧＰＵ間のレンダリング時間のアンバランスを減らすように構成されている。たとえば、スクリーン７００Ｂに、画像のオブジェクトをレンダリングするときの各ＧＰＵに対するスクリーン領域レスポンシビリティを示す。４つのＧＰＵ（ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）を、スクリーン７００Ｂに示す画像内のオブジェクトをレンダリングするために用いる。ＧＰＵ間でのピクセル及び頂点ロードのバランスを取るために、スクリーン７００Ｂを図６Ａに示す四分円よりも細かく分割する。加えて、スクリーン７００Ｂを、インターリーブされる領域に分割する。たとえば、インターリーブには複数行の領域が含まれる。行７３１及び７３３はそれぞれ、領域Ａが領域Ｂと交互に現れている。行７３２及び７３４はそれぞれ、領域Ｃが領域Ｄと交互に現れている。より詳細には、パターン内で、領域ＡとＢを含む行は、領域ＣとＤを含む行と交互に現れている。

前述したように、ＧＰＵ処理効率を達成するために、スクリーンを領域に分割するときに種々の技術を用いてもよい。たとえば、領域の数を増加または減少させる（たとえば、正確な領域量を選ぶために）、領域をインターリーブする、領域をインターリーブするときに特定のパターンをインターリーブして選択するために領域の数を増加または減少させる等である。一実施形態では、複数のスクリーン領域はそれぞれ、均一サイズである。一実施形態では、複数のスクリーン領域はそれぞれ、サイズが均一でない。さらなる他の実施形態では、複数のスクリーン領域の数及びサイジングは動的に変化する。

ＧＰＵはそれぞれ、対応する組の領域内のオブジェクトのレンダリングにレスポンシビリティを有する。各組には１つ以上の領域が含まれていてもよい。したがって、ＧＰＵ－Ａは、対応する組における各Ａ領域内のオブジェクトのレンダリングにレスポンシビリティを有し、ＧＰＵ－Ｂは、対応する組における各Ｂ領域内のオブジェクトのレンダリングにレスポンシビリティを有し、ＧＰＵ－Ｃは、対応する組における各Ｃ領域内のオブジェクトのレンダリングにレスポンシビリティを有し、ＧＰＵ－Ｄは、対応する組における各Ｄ領域内のオブジェクトのレンダリングにレスポンシビリティを有する。他のレスポンシビリティを有するＧＰＵがあってもよく、それらはレンダリングを行わないでもよい（たとえば、複数のフレーム周期にわたって実行される非同期型計算カーネルを行う、レンダリングＧＰＵに対する選抜除去を行う等）。

行うべきレンダリングの量はＧＰＵごとに異なる。図７Ｂ－２に、本開示の一実施形態により、図７Ｂ－１の４つのオブジェクトをレンダリングするときに各ＧＰＵが行うレンダリングを示す表を例示する。表に示すように、ＧＰＵＡはオブジェクト２をレンダリングし、ＧＰＵＢはオブジェクト０、２、及び３をレンダリングし、ＧＰＵＣはオブジェクト１及び３をレンダリングし、ＧＰＵＤはオブジェクト１、２、及び３をレンダリングする。ＧＰＵＡは、オブジェクト２のみをレンダリングする必要があり、ＧＰＵＤは、オブジェクト１、２、及び３をレンダリングする必要があるため、さらにいくつかのアンバランスなレンダリングが存在し得る。しかし、全体として、スクリーン領域のインターリーブにより、画像内のオブジェクトのレンダリングは、画像のマルチＧＰＵレンダリングまたは画像列内の１つ以上の各画像のレンダリングに対して用いる複数のＧＰＵ間で合理的にバランスされる。

図７Ｃは、本開示の一実施形態により、複数のＧＰＵが連携して図７Ｂ－１に示す単一画像をレンダリングするときに、各ＧＰＵが行う各オブジェクトのレンダリングを例示する図である。詳細には、図７Ｃに、図７Ａの共有のレンダリングコマンドバッファ７００Ａを用いて４つのＧＰＵそれぞれ（たとえば、ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）が行うオブジェクト０～３のレンダリングプロセスを示す。

詳細には、２つのレンダリングタイミング図を時間軸７４０に対して示す。レンダリングタイミング図７００Ｃ－１は、レンダリングの１つのフェーズにおける対応する画像のオブジェクト０～３のマルチＧＰＵレンダリングを示す。ＧＰＵはそれぞれ、オブジェクト０～３とスクリーン領域との間のオーバーラップに関する何らのヒントもない場合には、レンダリングを行う。レンダリングタイミング図７００Ｃ－２は、レンダリングの同じフェーズにおける対応する画像のオブジェクト０～３のマルチＧＰＵレンダリングを示す。オブジェクト０～３とスクリーン領域との間のオーバーラップに関するヒントが、各ＧＰＵへのレンダリング中に共有される。レンダリングタイミング図７００Ｃ－１及び７００Ｃ－２はそれぞれ、ジオメトリの各ピースを処理するために各ＧＰＵが取る時間を示す。一実施形態では、ジオメトリのピースはオブジェクト全体である。別の実施形態では、ジオメトリのピースはオブジェクトの一部であってもよい。説明の目的上、図７Ｃの例はジオメトリのピースのレンダリングを示す。ジオメトリの各ピースはオブジェクトに対応する（たとえば、その全体において）。レンダリングタイミング図７００Ｃ－１及び７００Ｃ－２のそれぞれにおいて、対応するＧＰＵの少なくとも１つのスクリーン領域（たとえば、対応する組の領域内で）とオーバーラップするジオメトリ（たとえば、オブジェクトのプリミティブ）がないオブジェクト（たとえば、ジオメトリのピース）を、破線で描いたボックスで表している。他方で、対応するＧＰＵの少なくとも１つのスクリーン領域（たとえば、対応する組の領域内で）とオーバーラップするジオメトリを有するオブジェクトを、実線で描いたボックスで表している。

レンダリングタイミング図７００Ｃ－１は、４つのＧＰＵ（たとえばＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）を用いたオブジェクト０～３のレンダリングを示す。レンダリングタイミング図７００Ｃ－１において、垂直線７５５ａはオブジェクトに対するレンダリングのフェーズの開始を示し、垂直線７５５ｂはオブジェクトに対するレンダリングのフェーズの終了を示している。図示したレンダリングのフェーズに対する時間軸７４０に沿った開始点と終了点は、同期点を表している。４つのＧＰＵはそれぞれ、対応するＧＰＵパイプラインを実行するときに同期されている。たとえば、レンダリングのフェーズの終了を示す垂直線７５５ｂにおいて、すべてのＧＰＵは、レンダリングの次のフェーズに移動する前に、最も遅いＧＰＵ（たとえば、ＧＰＵ－Ｂ）が、対応するグラフィックスパイプラインを通してオブジェクト０～３のレンダリングを終えるのを待たなければならない。

レンダリングタイミング図７００Ｃ－１に示すオブジェクトをレンダリングする間、ヒンティングは提供されない。したがって、各ＧＰＵは、対応するグラフィックスパイプラインを通して各オブジェクトを処理しなければならない。オブジェクトレンダリングに対して対応するＧＰＵに割り当てられた領域（たとえば、対応する組の領域内で）においてオブジェクトに対して描くべきピクセルがない場合、ＧＰＵはグラフィックスパイプラインを通してオブジェクトを完全にはレンダリングしない場合がある。たとえば、オブジェクトがオーバーラップしないとき、グラフィックスパイプラインのジオメトリ処理ステージのみが実行される。しかし、ヒンティングがないと、これはやはり処理に多少の時間がかかる。

詳細には、ＧＰＵ－Ａはオブジェクト０、１、及び３を完全にはレンダリングしない。なぜならば、それらが、オブジェクトレンダリングに対してＧＰＵ－Ａに割り当てられたスクリーン領域のいずれともオーバーラップしないからである。これら３つのオブジェクトのレンダリングを、破線を伴うボックス内に示す。これは、少なくともジオメトリ処理ステージは行われているが、グラフィックスパイプラインは完全には行われていないことを示している。ＧＰＵ－Ａはオブジェクト２を完全にレンダリングする。なぜならば、そのオブジェクトは、レンダリングに対してＧＰＵ－Ａに割り当てられた少なくとも１つのスクリーン領域（たとえば、対応する組における）とオーバーラップするからである。オブジェクト２のレンダリングを、実線を伴うボックス内に示す。これは、対応するグラフィックスパイプラインのすべてのステージが行われることを示している。同様に、ＧＰＵ－Ｂはオブジェクト１（破線を伴うボックスで示す）を完全にはレンダリングしない（すなわち、少なくともジオメトリ処理ステージを行う）が、オブジェクト０、２、及び３（実線を伴うボックスで示す）を完全にレンダリングする。なぜならば、これらのオブジェクトは、レンダリングに対してＧＰＵ－Ｂに割り当てられた少なくとも１つのスクリーン領域（たとえば、対応する組における）とオーバーラップするからである。また、ＧＰＵ－Ｃはオブジェクト０及び２（破線を伴うボックスで示す）を完全にはレンダリングしない（すなわち、少なくともジオメトリ処理ステージを行う）が、オブジェクト（実線を伴うボックスで示す）を完全にレンダリングする。なぜならば、これらのオブジェクトは、レンダリングに対してＧＰＵ－Ｃに割り当てられた少なくとも１つのスクリーン領域（たとえば、対応する組における）とオーバーラップするからである。さらに、ＧＰＵ－Ｄはオブジェクト０（破線を伴うボックスで示す）を完全にはレンダリングしない（すなわち、少なくともジオメトリ処理ステージを行う）が、オブジェクト１、２、及び３（実線を伴うボックスで示す）を完全にレンダリングする。なぜならば、これらのオブジェクトは、レンダリングに対してＧＰＵ－Ｄに割り当てられた少なくとも１つのスクリーン領域（たとえば、対応する組における）とオーバーラップするからである。

レンダリングタイミング図７００Ｃ－２は、ヒントの共有を伴ってマルチＧＰＵレンダリングを行うときのオブジェクト０～３のレンダリングを示す。具体的には、ヒントは、各ＧＰＵ（たとえば、ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）の間で共有されて、対応するＧＰＵパイプラインを通してオブジェクト０～３をレンダリングするときに考慮される。レンダリングタイミング図７００Ｃ－２において、垂直線７５０ａはオブジェクトに対するレンダリングのフェーズの開始を示し、垂直線７５０ｂはオブジェクトに対するレンダリングのフェーズの終了を示す。タイミング図７００Ｃ－２に図示したレンダリングのフェーズに対する時間軸７４０に沿った開始点と終了点は、同期点を表している。前述したように、４つのＧＰＵはそれぞれ、対応するＧＰＵパイプラインを実行するときに同期される。たとえば、レンダリングのフェーズの終了を示す垂直線７５０ｂにおいて、すべてのＧＰＵは、レンダリングの次のフェーズに移動する前に、最も遅いＧＰＵ（たとえば、ＧＰＵ－Ｂ）が、対応するグラフィックスパイプラインを通してオブジェクト０～３のレンダリングを終えるのを待たなければならない。

垂直線７５０ａは垂直線７５５ａと位置合わせされていて、レンダリングタイミング図７００Ｃ－１及び７００Ｃ－２がそれぞれ同時に始まって、オブジェクト０～１をレンダリングするようになっている。しかし、レンダリングタイミング図７００Ｃ－２に示すオブジェクト０～３のレンダリングは、レンダリングタイミング図７００Ｃ－１に示すレンダリングよりも短い時間で行われる。すなわち、下部のタイミング図７００Ｃ－２に対するレンダリングのフェーズの終了を示す垂直線７５０ｂは、垂直線７５５ｂによって示される上部のタイミング図７００Ｃ－１に対するレンダリングのフェーズの終了よりも早く現れる。具体的には、領域テストを行ってこれらのテストの結果をヒントによって提供するときに、アプリケーションに対する画像のジオメトリのマルチＧＰＵレンダリングを行うときに、オブジェクト０～３をレンダリングするときの速度増加７４５が実現される。図示したように、速度増加７４５は、タイミング図７００Ｃ－２の垂直線７５０ｂとタイミング図７００Ｃ－１の垂直線７５５ｂとの間の時間差である。

速度増加はヒントの生成及び共有を通して実現される。詳細には、ＧＰＵがグラフィックスパイプラインを通してオブジェクトを処理するときに、各ＧＰＵは、オブジェクトをチェックして、オブジェクトがこれらのＧＰＵのスクリーンレスポンシビリティをどのように関係付けるかについての情報をヒントとして他のＧＰＵに送る。たとえば、レンダリングタイミング図７００Ｃ－２では３つのヒント７６１～７６３が提供される。これによって、オブジェクト０～３をレンダリングするために用いる全体時間が減る。ヒントを矢印として表す場合がある。対応する矢印は、１つのＧＰＵが第２のＧＰＵに、それがオブジェクトをスキップし得ると通知し、第２のＧＰＵはそのオブジェクトのスキップに成功する様子を示している。ヒントはレンダリングの間（たとえば、ジオメトリ処理ステージの間）の任意の点で生成され得るため、ＧＰＵがオブジェクトを完全にレンダリングする（すなわち、グラフィックスパイプラインのすべてのステージを通る）ことをしない場合であっても、ＧＰＵはやはりそのオブジェクトについてのヒントを生成して、レンダリングに対する他のＧＰＵに提供し得る。

たとえば、ＧＰＵ－Ａは、オブジェクト１に対するジオメトリ処理を行って、オブジェクト１はＧＰＵ－Ｂによってスキップできると判定する。なぜならば、オブジェクト１は、オブジェクトレンダリングに対してＧＰＵ－Ｂに割り当てられたどんな領域（たとえば、対応する組における）ともオーバーラップしないからである。加えて、オブジェクト１はＧＰＵ－Ａによって完全にはレンダリングされていない。なぜならば、オブジェクト１は、オブジェクトレンダリングに対してＧＰＵ－Ａに割り当てられたどんな領域（たとえば、対応する組における）ともオーバーラップしないからである。ＧＰＵ－Ｂに割り当てられた領域によるオブジェクト１とのオーバーラップはないという判定は、ＧＰＵ－Ｂがオブジェクト１に対するジオメトリ処理を始める前になされるため、ＧＰＵ－Ｂはオブジェクト１のレンダリングをスキップする。詳細には、ＧＰＵ－Ａが、オブジェクト１のレンダリングを始めて（たとえば、ジオメトリ処理ステージにおいて）、オブジェクト１が、オブジェクトレンダリングに対してＧＰＵ－Ｂに割り当てられたどんな領域ともオーバーラップしないことを知る。したがって、ＧＰＵ－Ａは、ＧＰＵ－Ｂがオブジェクト１をレンダリングする必要はないことを示す情報を伴うヒント７６１を生成して送出してもよい。ヒント７６１は適時に（すなわち、オブジェクト１のレンダリングがＧＰＵ－Ｂによって始まる前に）送出される。参考までに、ヒント７６１は、上部のタイミング図７００Ｃ－１においてオブジェクト１のレンダリングがＧＰＵ－Ｂによって行われる前（すなわち、ＧＰＵ－Ｂは現在オブジェクト０をレンダリングしているとき）であっても提供される。その場合、ＧＰＵ－Ｂはオブジェクト１に対するレンダリングプロセスを完全にスキップしてもよく、そのオブジェクトに対して、対応するグラフィックスパイプラインのステージのどれも行われない（たとえば、第１のステージとしてのジオメトリ処理ステージは行われない）。

レンダリングタイミング図７００Ｃ－２の例を続けると、ＧＰＵ－Ｂはオブジェクト２を完全にレンダリングする。オブジェクト２のレンダリングの間に、ＧＰＵ－Ｂは、オブジェクト２（たとえば、ジオメトリ処理ステージ中）が、オブジェクトレンダリングに対するＧＰＵ－Ｃに割り当てられた任意の領域（たとえば、対応する組における）とオーバーラップしないと判定する。この判定は、ＧＰＵ－Ｃがオブジェクト２に対するジオメトリ処理を始める前になされるため、ＧＰＵ－Ｃはオブジェクト２のレンダリングをスキップすることができる。たとえば、ＧＰＵ－Ｂは、ＧＰＵ－Ｃがオブジェクト２をレンダリングする必要はないことを示す情報を伴うヒント７６２を生成して送出してもよい。ヒント７６２は適時に、すなわちオブジェクト２のレンダリングがＧＰＵ－Ｃによって始まる前（たとえば、ＧＰＵ－Ｃは現在オブジェクト１をレンダリングしているとき）に、送出される。参考までに、ヒント７６２は、上部のタイミング図７００Ｃ－１においてオブジェクト２のレンダリングがＧＰＵ－Ｃによって行われる前であっても提供される。その場合、ＧＰＵ－Ｃはオブジェクト２に対するレンダリングプロセスを完全にスキップしてもよく、そのオブジェクトに対して、対応するグラフィックスパイプラインのステージのどれも行われない（たとえば、第１のステージとしてのジオメトリ処理ステージは行われない）。

またＧＰＵ－Ｂはオブジェクト３を完全にレンダリングする。レンダリングの間に、ＧＰＵ－Ｂは、オブジェクト３（たとえば、ジオメトリ処理ステージ中）が、オブジェクトレンダリングに対するＧＰＵ－Ａに割り当てられた任意の領域（たとえば、対応する組における）とオーバーラップしないと判定する。この判定は、ＧＰＵ－Ａがオブジェクト３に対するジオメトリ処理を始める前になされるため、ＧＰＵ－Ａはオブジェクト３のレンダリングをスキップすることができる。たとえば、ＧＰＵ－Ｂは、ＧＰＵ－Ａがオブジェクト３をレンダリングする必要はないことを示す情報を伴うヒント７６３を生成して送出してもよい。ヒント７６３は適時に、すなわちオブジェクト３のレンダリングがＧＰＵ－Ａによって始まる前（たとえば、ＧＰＵ－Ａは現在オブジェクト２をレンダリングしているとき）に、送出される。その場合、ＧＰＵ－Ａは、オブジェクト３に対するレンダリングプロセスを完全にスキップしてもよく、そのオブジェクトに対して、対応するグラフィックスパイプラインのステージのどれも行われない（たとえば、第１のステージとしてのジオメトリ処理ステージは行われない）。

図８Ａ～８Ｂに、スクリーン領域８２０Ａ及び８２０Ｂに対するオブジェクトテストを示す。スクリーン領域はインターリーブ領域であってもよい（たとえば、スクリーン領域８２０Ａ及び８２０Ｂはディスプレイの一部を示す）。詳細には、オブジェクトのマルチＧＰＵレンダリングは、スクリーン内のオブジェクトをレンダリングする間の領域テストによって、単一画像または画像列内の１つ以上の各画像に対して行われる。ＧＰＵ－Ａには、スクリーン領域８２０Ａ内のオブジェクトをレンダリングするレスポンシビリティが割り当てられる。ＧＰＵ－Ｂには、スクリーン領域８２０Ｂ内のオブジェクトをレンダリングするレスポンシビリティが割り当てられる。「ジオメトリのピース」に対する情報が生成される。ジオメトリのピースは、オブジェクト全体またはオブジェクトの一部とすることができる。たとえば、ジオメトリのピースは、オブジェクト８１０またはオブジェクト８１０の一部とすることができる。

図８Ａは、本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときのスクリーン領域に対するオブジェクトテストを例示する図である。前述したように、ジオメトリのピースはオブジェクトとすることができ、ピースは、対応するドローコールが使用または生成するジオメトリに対応する。テストの間に、オブジェクト８１０は領域８２０Ａとオーバーラップすると判定され得る。すなわち、オブジェクト８１０の部分８１０Ａは領域８２０Ａとオーバーラップする。その場合、ＧＰＵ－Ａにはオブジェクト８１０をレンダリングすることが課される。また、テストの間に、オブジェクト８１０は領域８２０Ｂとオーバーラップすると判定され得る。すなわち、オブジェクト８１０の部分８１０Ｂは領域８２０Ｂとオーバーラップする。その場合、ＧＰＵ－Ｂにもオブジェクト８１０をレンダリングすることが課される。

図８Ｂは、本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときのスクリーン領域に対するオブジェクトの一部のテストを例示する図である。すなわち、ジオメトリのピースをオブジェクトの一部とすることができる。たとえば、オブジェクト８１０をピースに分割してもよく、ドローコールが使用または生成するジオメトリはジオメトリのより小さいピースに細分割される。一実施形態では、ジオメトリのピースはそれぞれ大まかに、位置キャッシュ及び／またはパラメータキャッシュが割り当てられるサイズである。その場合、ジオメトリのそれらのより小さいピースに対して、情報（たとえば、ヒントまたはヒント（複数））が生成される。前述したように、情報はレンダリングＧＰＵによって用いられる。

たとえば、オブジェクト８１０はオブジェクトに分割される。領域テスト及びヒンティングに対して用いるジオメトリのピースは、これらのより小さいオブジェクトに対応する。図示したように、オブジェクト８１０は、ジオメトリのピース「ａ」、「ｂ」、「ｃ」、「ｄ」、「ｅ」、及び「ｆ」に分割される。領域テストの後に、ＧＰＵ－Ａは、ジオメトリのピース「ａ」、「ｂ」、「ｃ」、「ｄ」、及び「ｅ」のみをレンダリングする。すなわち、ＧＰＵ－Ａは、ジオメトリのピース「ｆ」のレンダリングをスキップすることができる。また、領域テストの後に、ＧＰＵ－Ｂは、ジオメトリのピース「ｄ」、「ｅ」、及び「ｆ」のみをレンダリングする。すなわち、ＧＰＵ－Ｂは、ジオメトリのピース「ａ」、「ｂ」、及び「ｃ」のレンダリングをスキップすることができる。

一実施形態では、ジオメトリ処理ステージは頂点処理及びプリミティブ処理の両方を行うように構成されているため、ジオメトリ処理ステージにおいて用いるシェーダーにおいてジオメトリのピースのテストを行うことができる。たとえば、ジオメトリ処理ステージは、ＧＰＵスクリーン領域に対してジオメトリに対する境界錐台をテストすること（ソフトウェアシェーダー動作によって行われ得る）などによって、情報（たとえば、ヒント）を生成する。一実施形態では、このテストは、ハードウェアを通して実施される専用命令または命令（複数）を用いることを通して加速され、その結果、ソフトウェア／ハードウェア解決策が実施される。すなわち、専用命令または命令（複数）を用いて、ジオメトリのピースとスクリーン領域に対するその関係とに関する情報の生成を加速する。たとえば、ジオメトリのピースのプリミティブの頂点の同次座標が、ジオメトリ処理ステージにおける領域テストに対する命令への入力として提供される。テストによって、各ＧＰＵに対して、プリミティブがそのＧＰＵに対して割り当てられた任意のスクリーン領域（たとえば、対応する組における）とオーバーラップするか否かを示すブール戻り値を、生成してもよい。したがって、対応するジオメトリピースとスクリーン領域に対するその関係とに関する情報（たとえば、ヒント）が、ジオメトリ処理ステージにおけるシェーダーによって生成される。

別の実施形態では、ジオメトリのピースのテストを、ハードウェアラスタライゼーションステージにおいて行うことができる。たとえば、ハードウェアスキャンコンバータをマルチＧＰＵ領域テストを行うように構成してもよい。詳細には、ＧＰＵはその独自のスクリーン領域に対してジオメトリをテストしなければならないため、他のＧＰＵのスクリーン領域に対する情報をスキャンコンバータが生成するようにハードウェアを変更してもよい。したがって、ハードウェアスキャンコンバータを、対応するジオメトリピースとレンダリングＧＰＵ（たとえば、別のＧＰＵ）がレスポンシビリティを有するスクリーン領域に対するその関係とに関するラスタライゼーションステージにおいて、情報を生成するように構成してもよい。

さらなる他の実施形態では、ジオメトリのピースはプリミティブとすることができる。すなわち、領域テストに対して用いるオブジェクトの一部はプリミティブであってもよい。したがって、１つのＧＰＵがヒントとして生成する情報は、個々の三角形（たとえば、プリミティブを表す）を別のレンダリングＧＰＵがレンダリングする必要があるか否かを示す。

一実施形態では、ヒントとして提供される情報には、オブジェクトレンダリングに対して対応するＧＰＵに割り当てられたスクリーン領域（たとえば、対応する組における）とオーバーラップするプリミティブの数（たとえば、残存しているプリミティブ数）が含まれる。また情報には、これらのプリミティブを構築または規定するために用いられる頂点の数が含まれていてもよい。すなわち、情報には残存している頂点数が含まれる。したがって、レンダリングするとき、対応するレンダリングＧＰＵは、供給された頂点数を用いて位置キャッシュ及びパラメータキャッシュにスペースを割り当ててもよい。たとえば、一実施形態では、必要でない頂点に割り当てられるスペースはないため、レンダリングの効率が増加し得る。

他の実施形態では、ヒントとして提供される情報には、オブジェクトレンダリングに対して対応するＧＰＵに割り当てられたスクリーン領域（たとえば、対応する組における）とオーバーラップする特定のプリミティブ（たとえば、完全一致として残存しているプリミティブ）が含まれる。すなわち、レンダリングＧＰＵに対して生成される情報には、レンダリング用の特定の組のプリミティブが含まれる。また情報には、これらのプリミティブを構築または規定するために用いられる特定の頂点が含まれていてもよい。すなわち、レンダリングＧＰＵに対して生成される情報には、レンダリング用の特定の組の頂点が含まれる。この情報によって、たとえば、ジオメトリのピースをレンダリングするときのそのジオメトリ処理ステージ中に他のレンダリングＧＰＵ時間が節約され得る。

さらに他の実施形態では、情報の生成に対応付けられる処理オーバヘッド（ソフトウェアまたはハードウェアのいずれか）があり得る。その場合、ジオメトリの特定のピースに対してはヒントとして情報を生成することをスキップすることが有用であり得る。すなわち、ヒントとして提供される情報は、特定のオブジェクトに対しは生成されるが、他に対しては生成されない。たとえば、スカイボックスまたは大きな地形ピースを表すジオメトリのピース（たとえば、オブジェクトまたはオブジェクトのピース）には、大きな三角形が含まれていてもよい。その場合、画像または画像列内の１つ以上の各画像のマルチＧＰＵレンダリングに対して用いる各ＧＰＵが、ジオメトリのこれらのピースをレンダリングする必要があるという可能性がある。すなわち、対応するジオメトリピースの特性に応じて、情報を生成してもよいし生成しなくてもよい。

図９Ａ～９Ｃに、本開示の一実施形態により、複数のＧＰＵが連携して単一画像をレンダリングするときにスクリーン領域を対応するＧＰＵに割り当てるための種々の方策を例示する。ＧＰＵ処理効率を達成するために、スクリーンを領域に分割するときに種々の技術を用いてもよい。たとえば、領域の数を増加または減少させる（たとえば、正確な領域量を選択するために）、領域をインターリーブする、領域をインターリーブするときに特定のパターンをインターリーブして選択するために領域の数を増加または減少させる等である。たとえば、複数のＧＰＵは、対応する画像内のオブジェクトをレンダリングする間の領域テストによって、アプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うように構成されている。図９Ａ～９Ｃのスクリーン領域の構成は、複数のＧＰＵ間のレンダリング時間のわずかなアンバランスも減らすようにデザインされている。テストの複雑さ（たとえば、対応するスクリーン領域にオーバーラップする）は、スクリーン領域がＧＰＵにどのように割り当てられたかに応じて変化する。図９Ａ～９Ｃに示す図に示すように、太字のボックス９１０は、画像をレンダリングするときに用いる対応するスクリーンまたはディスプレイのアウトラインである。

一実施形態では、複数のスクリーン領域または複数の領域はそれぞれ、均一サイズである。一実施形態では、複数のスクリーン領域はそれぞれ、サイズが均一でない。さらなる他の実施形態では、複数のスクリーン領域の数及びサイジングは動的に変化する。

詳細には、図９Ａに、スクリーン９１０に対する簡単なパターン９００Ａを例示する。スクリーン領域はそれぞれ、均一サイズである。たとえば、各領域のサイズは、２ピクセルの累乗である寸法の矩形であってもよい。たとえば、各領域はサイズが２５６×２５６ピクセルであってもよい。図示するように、領域割り当てはチェックボードパターンであり、Ａ及びＢ領域のある行がＢ及びＣ領域の別の行と交互になっている。パターン９００Ａは容易にテストされ得る。しかし、いくつかのレンダリング非効率さが存在し得る。たとえば、各ＧＰＵに割り当てられたスクリーン面積は実質的に異なっている（すなわち、スクリーン９１０内でスクリーン領域Ｃ及び領域Ｄに対するカバレージの方が小さい）。そのため、各ＧＰＵに対するレンダリング時間のアンバランスにつながり得る。

図９Ｂに、スクリーン９１０に対するスクリーン領域のパターン９００Ｂを例示する。スクリーンまたはサブ領域はそれぞれ、均一サイズである。スクリーン領域は、ＧＰＵ間のレンダリング時間のアンバランスを減らすように割り当てられて分配されている。たとえば、パターン９００ＢでＧＰＵをスクリーン領域に割り当てると、スクリーン９１０にわたって各ＧＰＵに割り当てられるスクリーンピクセルの数量がほぼ等しくなる。すなわち、スクリーン９１０内のスクリーン面積またはカバレージが等しくなるように、スクリーン領域はＧＰＵに割り当てられている。たとえば、各領域が２５６×２５６ピクセルのサイズである場合、スクリーン９１０内での各領域のカバレージはほぼ同じである。詳細には、スクリーン領域Ａの組は、６×２５６×２５６ピクセルのサイズの面積をカバーし、スクリーン領域Ｂの組は、５．７５×２５６×２５６ピクセルのサイズの面積をカバーし、スクリーン領域Ｃの組は、５．５×２５６×２５６ピクセルのサイズの面積をカバーし、スクリーン領域Ｄの組は、５．５×２５６×２５６ピクセルのサイズの面積をカバーする。

図９Ｃに、スクリーン９１０に対するスクリーン領域のパターン９００Ｃを例示する。スクリーン領域はそれぞれ、サイズが均一でない。すなわち、ＧＰＵにオブジェクトをレンダリングするレスポンシビリティが割り当てられたスクリーン領域は、サイズが均一でない場合がある。詳細には、各ＧＰＵが同一数のピクセルに割り当てられるようにスクリーン９１０は分割されている。たとえば、４Ｋディスプレイ（３８４０×２１６０）を垂直方向に４つの領域に等しく分割した場合、各領域は高さが５２０ピクセルになる。しかし、通常、ＧＰＵは３２×３２ブロックのピクセルにおいて多くの動作を行い、５２０ピクセルは３２ピクセルの倍数ではない。したがって、一実施形態では、パターン９００Ｃには、高さが５１２ピクセル（３２の倍数）のブロックと、高さが５４４ピクセル（やはり３２の倍数）の他のブロックとが含まれていてもよい。他の実施形態では、異なるサイズのブロックを用いてもよい。パターン９００Ｃは、不均一のスクリーン領域を用いることによって等しい数量のスクリーンピクセルが各ＧＰＵに割り当てられている様子を示している。

さらなる他の実施形態では、画像のレンダリングを行うときのアプリケーションのニーズが時間とともに変化し、スクリーン領域が動的に選択される。たとえば、レンダリング時間のほとんどがスクリーンの下半分上で費やされることが分かっている場合、ディスプレイの下半分におけるほぼ等しい数量のスクリーンピクセルが、対応する画像をレンダリングするために用いる各ＧＰＵに割り当てられるように、領域を割り当てることが好都合である。すなわち、対応する画像をレンダリングするために用いる各ＧＰＵに割り当てる領域を動的に変えてもよい。たとえば、ゲームモード、異なるゲーム、スクリーンのサイズ、領域に対して選択されるパターンなどに基づいて、変更を適用してもよい。

図１０Ａは、本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うときのマルチパスレンダリングを例示する図である。各ＧＰＵ（ＧＰＵ－Ａ、ＧＰＵ－Ｂ、ＧＰＵ－Ｃ、及びＧＰＵ－Ｄ）が行う第１のパスは、Ｚのみプリパス１０００Ａであり、図７Ｃのレンダリングタイミング図７００Ｃ－２と同様である。第１のパスは、レンダリングの第１のフェーズと考えてもよい。各ＧＰＵが行う第２のパスはレンダリングパス１０００Ｂである。ＧＰＵは、対応する各ＧＰＵが生成及び使用する内部ヒントを考慮して、オブジェクトを完全にレンダリングする。第２のパスは、レンダリングの第２のフェーズと考えてもよい。

詳細には、レンダリングのあるフェーズ（たとえば第１のパス）において生成されたジオメトリのピースに対する情報が、レンダリングの別のフェーズ（たとえば、第２のパス）において用いられる。すなわち、ＧＰＵによるレンダリングの１つのフェーズに対して生成された内部ヒントが、同じＧＰＵによるレンダリングの別のフェーズにおいて用いられる。したがって、ジオメトリの同じピースが２回処理される。すなわち、Ｚのみプリパスフェーズ１０００Ａにおいて一度、そしてフルレンダリングフェーズ１０００Ｂにおいて一度である。具体的には、プリパスフェーズ１０００Ａはジオメトリのすべてのピースに対してＺ値のみを書き込む。そして、前述したように、フルレンダリングフェーズ１０００Ｂの間に、ピクセルＺ値を以前に記憶したＺバッファ内の値と比較する。一実施態様では、完全一致がある場合には、そのピクセルに対してピクセルシェーダー（たとえば、ピクセル処理ステージ）を実行する。

ＧＰＵが他のＧＰＵに対して情報を生成する図７Ｃとは異なり、この場合は、ＧＰＵが、次のパスで用いるためにそれ自身に対する情報を生成している場合もあり得る。すなわち、ＧＰＵが、次のパスにおいて用いるべきそれ自身に対するヒントを提供するように、ＧＰＵはその独自の情報を用いる。ジオメトリのピースがそれがレスポンシビリティを有する少なくとも１つの対応するスクリーン領域とオーバーラップするか否かを知ることは有用であるが（図７Ｃで前述したように）、いくつかの実施形態では、ＧＰＵは、後のレンダリングフェーズにおいて単独で使用できるより広範囲な情報を生成することができる。

一実施形態では、Ｚのみプリパス１０００Ａの間に、対応するＧＰＵが、ジオメトリ処理フェーズが出力するプリミティブをラスタライズして、深さテストを行う。深さテストでは、ＧＰＵはそれらのピクセルのＺ値を対応するＺバッファと比較する。ＧＰＵは、第１のフェーズ中にジオメトリのピース内の任意のピクセルが深さテストに耐えたか否かに関する情報を生成する（そして後にそれ自身が利用できるようにする）。第１のフェーズにおいてテストに耐えたピクセルがない場合、第２のフェーズにおいてジオメトリのピースのレンダリングをすべてスキップすることができる。

別の実施形態では、Ｚのみプリパスフェーズ１０００Ａの間に、ピクセルシェーダーを実行する。たとえば、テクスチャのアルファ値をチェックした後に、アルファ値が低くすぎるピクセルを削除する。詳細には、ＧＰＵは、ジオメトリのピース内の任意のピクセルが第１のフェーズ中に書き込まれた否かに関する情報を生成し（そして後にそれ自身が利用できるようにして）、これらのピクセルが深さテスト及びピクセル削除テストの両方に耐えるようにする。第１のフェーズ１０００Ａにおいて書き込まれたピクセルがない場合、第２のフェーズ１０００Ｂにおいてジオメトリのピースのレンダリングをすべてスキップすることができる。たとえば、矢印１０２０は、ＧＰＵ－Ｃがオブジェクト３に関する情報をそれ自身に送る様子を示している。情報は、フルレンダリングフェーズ１０００ＢにおいてＧＰＵ－Ｃがオブジェクト３のレンダリングをスキップできることを示している。加えて、矢印１０３０は、ＧＰＵ－Ｄがオブジェクト１に関する情報をそれ自身に送る様子を示している。情報は、フルレンダリングフェーズ１０００ＢにおいてＧＰＵ－Ｄがオブジェクト１のレンダリングをスキップできることを示している。なお、この例では、ＧＰＵが、あるフェーズ（たとえば、Ｚのみプリパスフェーズ１０００Ａ）において生成された情報をそれ自身に送って、以後のフェーズ（たとえばフルレンダリングフェーズ１０００Ｂ）において使用するようにすることにフォーカスしている。他の実施形態では、ＧＰＵが、あるフェーズ（たとえば、Ｚのみプリパスフェーズ１０００Ａ）において生成された情報を他のＧＰＵにも送って、それらが以後のフェーズ（たとえばフルレンダリングフェーズ１０００Ｂ）において使用し得るようにしてもよい。

図１～３のクラウドゲームネットワーク１９０（たとえば、ゲームサーバ１６０内の）及びＧＰＵリソース３６５の詳細な説明、ならびに図４～９に付随する補足説明により、図１０Ｂのフロー図１０５０は、本開示の一実施形態により、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを実施するときのマルチパスレンダリングを含むグラフィックス処理のための方法を例示する。フロー図１０５０は、一実施形態における、図１０Ａに示すマルチパスレンダリングを実施するための方法である。加えて、フロー図１０５０には、図５のフロー図５００の動作のうちの１つ以上が組み込まれ得る。前述したように、種々のアーキテクチャには、レンダリング中の領域テストを通してアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことによって複数のＧＰＵが連携して単一画像をレンダリングすることが含まれていてもよい。たとえば、クラウドゲーミングシステムの１つ以上のクラウドゲーミングサーバ内において、またはスタンドアロンシステム（たとえば、パーソナルコンピュータまたはゲーミングコンソールであって、複数のＧＰＵを有するハイエンドグラフィックスカードを含むものなど）内においてである。

１０６０において、本方法は、連携して画像を生成する複数のＧＰＵを用いてアプリケーションに対するグラフィックスをレンダリングすることを含む。具体的には、マルチＧＰＵ処理は、単一画像及び／またはリアルタイムアプリケーションに対する画像列の１つ以上の各画像をレンダリングするときに行う。

１０６５において、本方法は、グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを複数のスクリーン領域に基づいて複数のＧＰＵ間で分割することを含む。すなわち、各ＧＰＵは、すべてのＧＰＵに知られた、レスポンシビリティの対応するディビジョン（たとえば、対応するスクリーン領域）を有する。

ＧＰＵはそれぞれ、画像のジオメトリのマルチパスレンダリングを実行する。これには、レンダリングのＺのみプリパスフェーズである第１のパスと、レンダリングのフルレンダリングフェーズである第２のパスとが含まれる。ＧＰＵによって第１のパスにおいて生成されたジオメトリのピースに対する情報を、同じＧＰＵがジオメトリのピースをレンダリングするときに第２のパスにおいて用いてもよい。

より具体的には、１０７０において、本方法は、画像に対するＧＰＵにおけるジオメトリのピースに対するレンダリングのプリパスフェーズ中にジオメトリのピースに対するＺ値を決定することを含む。ジオメトリのピースが、ＧＰＵがオブジェクトをレンダリングするレスポンシビリティのディビジョンを有するスクリーン領域とオーバーラップすると判定してもよい。

１０７５において、本方法は、Ｚ値をジオメトリのピースに対するＺバッファ値と比較することを含む。前述したように、ＧＰＵは、ジオメトリのピースに対するプリミティブをラスタライズしてもよい（たとえば、プリミティブをピクセルからなるラスター画像に変換してもよい）。深さテストを行い、ジオメトリのピースのピクセルのＺ値を、対応するＺバッファ値（たとえば、そこに記憶された値）と比較する。たとえば、それを比較するときに、ジオメトリのピースのＺ値がＺバッファ値以下であると判定してもよい。これは、ジオメトリのピースが隠れていないことを示す。その場合、以下で生成される任意の情報が、ジオメトリのピースが隠れていないことを示し得る。

１０８０において、本方法は、レンダリングのフルレンダリングフェーズ中にジオメトリのピースをレンダリングするときに、ＧＰＵが用いるようにＺ値をＺバッファ値と比較する結果を含む情報を生成することを含む。具体的には、情報は、ジオメトリのピース内の任意のピクセルが深さテストに耐えたか否かを示してもよい。深さテストに耐えたピクセルがない場合、第２のパス（たとえば、レンダリングフェーズ）においてジオメトリのピースをスキップすることができる。たとえば、本方法は、プリパスフェーズ中にジオメトリのピースの１つ以上のプリミティブを複数のピクセルにラスタライズすることを含んでいてもよい。深さテストは、複数のピクセルに対する複数のＺ値を１つ以上の対応するＺバッファ値と比較することによって行う。深さテストの結果が情報に含まれる。情報に基づいて深さテストに耐えない複数のピクセル中のピクセルは、レンダリングしない。一実施態様では、複数のピクセルのうち深さテストに耐えるものがないときには、ジオメトリのピースのレンダリングをスキップしてもよい。他方で、ジオメトリのピース内の任意のピクセルが深さテストに耐えた場合には、第２のパスにおいてジオメトリのピースをＧＰＵがレンダリングする（たとえば、深さテストに耐えるピクセルをレンダリングする）。

さらなる他の実施形態では、本方法は、プリパスフェーズ中にジオメトリのピースの１つ以上のプリミティブを複数のピクセルにラスタライズすることを含んでいてもよい。複数のピクセルに対するテクスチャのアルファ値をチェックする。複数のピクセル内でアルファ値が閾値を下回るピクセルを削除して、チェックした結果が情報に含まれるようにする。一実施態様では、複数のピクセルのうちどれも、対応するアルファ値が閾値でもなく閾値を上回ってもいないときに、ジオメトリのピースのレンダリングをスキップしてもよい。

いくつかの実施形態では、ＧＰＵはまた、ジオメトリのピースと他のＧＰＵがレスポンシビリティを有するスクリーン領域に対するその関係とに関する情報を生成し、この情報を、以後のフェーズ（たとえば、レンダリングのフルレンダリングフェーズ）において用いる。さらに他の実施形態では、Ｚ値をＺバッファと比較することによって生成される情報がなく、その代わりに、ＧＰＵは、ジオメトリのピースとすべてのＧＰＵ（それ自身を含む）がレスポンシビリティを有するスクリーン領域に対するその関係とに関する情報のみを生成しており、この情報は、以後のフェーズ（たとえば、レンダリングのフルレンダリングフェーズ）において用いる。

図１１に、本開示の種々の実施形態の態様を実行するために使用できるデバイス例１１００のコンポーネントを例示する。たとえば、図１１では、本開示の実施形態により、画像に対するオブジェクトのレンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うのに適した典型的なハードウェアシステムを例示する。このブロック図で例示するデバイス１１００は、パーソナルコンピュータ、サーバコンピュータ、ゲーミングコンソール、モバイルデバイス、または他のデジタルデバイス（それぞれ、本発明の実施形態を実行するのに適している）を組み込むことができるかまたはそれらであることができる。デバイス１１００は、ソフトウェアアプリケーション及び随意的にオペレーティングシステムを実行するための中央処理ユニット（ＣＰＵ）１１０２を含んでいる。ＣＰＵ１１０２は、１つ以上の同種または異種の処理コアから構成され得る。

種々の実施形態により、ＣＰＵ１１０２は１つ以上の処理コアを有する１つ以上の汎用マイクロプロセッサである。さらなる実施形態を、ゲームの実行中にグラフィックス処理を行うように構成されたアプリケーションの高並列で計算集約型のアプリケーション（たとえば、媒体及びインタラクティブエンターテインメントアプリケーション）に具体的に適応されたマイクロプロセッサアーキテクチャを伴う１つ以上のＣＰＵを用いて実施することができる。

メモリ１１０４は、ＣＰＵ１１０２及びＧＰＵ１１１６が用いるアプリケーション及びデータを記憶する。記憶装置１１０６は、アプリケーション及びデータ用の不揮発性記憶装置及び他のコンピュータ可読媒体であり、固定ディスクドライブ、リムーバブルディスクドライブ、フラッシュメモリ装置、及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ブルーレイ（登録商標）、ＨＤ－ＤＶＤ、または他の光学記憶装置、ならびに信号伝送及び記憶媒体を含んでいてもよい。ユーザ入力デバイス１１０８は、１人以上のユーザからのユーザ入力をデバイス１１００に伝達する。その例としては、キーボード、マウス、ジョイスティック、タッチパッド、タッチスクリーン、スチールまたはビデオレコーダ／カメラ、及び／またはマイクロフォンを挙げてもよい。ネットワークインターフェース１１０９によって、デバイス１１００は、電子通信ネットワークを介して他のコンピュータシステムと通信することができる。ネットワークインターフェース１１０９としては、ローカルエリアネットワーク及びワイドエリアネットワーク（たとえば、インターネット）を介した有線または無線通信を挙げてもよい。オーディオプロセッサ１１１２は、ＣＰＵ１１０２、メモリ１１０４、及び／または記憶装置１１０６が提供する命令及び／またはデータからアナログまたはデジタルオーディオ出力を生成するように適応されている。デバイス１１００のコンポーネント（たとえば、ＣＰＵ１１０２、グラフィックスサブシステム、たとえば、ＧＰＵ１１１６、メモリ１１０４、データ記憶装置１１０６、ユーザ入力デバイス１１０８、ネットワークインターフェース１１０９、及びオーディオプロセッサ１１１２）は、１つ以上のデータバス１１２２を介して接続されている。

グラフィックスサブシステム１１１４がさらに、データバス１１２２及びデバイス１１００のコンポーネントと接続されている。グラフィックスサブシステム１１１４は、少なくとも１つのグラフィックス処理ユニット（ＧＰＵ）１１１６及びグラフィックスメモリ１１１８を含んでいる。グラフィックスメモリ１１１８は、出力画像の各ピクセルに対するピクセルデータを記憶するために用いるディスプレイメモリ（たとえば、フレームバッファ）を含んでいる。グラフィックスメモリ１１１８は、ＧＰＵ１１１６と同じデバイスに統合すること、個別のデバイスとしてＧＰＵ１１１６と接続すること、及び／またはメモリ１１０４内に実装することができる。ピクセルデータをＣＰＵ１１０２から直接グラフィックスメモリ１１１８に提供することができる。他の形態として、ＣＰＵ１１０２は、ＧＰＵ１１１６に、所望の出力画像を規定するデータ及び／または命令を提供する。所望の出力画像から、ＧＰＵ１１１６が１つ以上の出力画像のピクセルデータを生成する。所望の出力画像を規定するデータ及び／または命令を、メモリ１１０４及び／またはグラフィックスメモリ１１１８に記憶することができる。一実施形態では、ＧＰＵ１１１６は、シーンに対するジオメトリ、照明、シェーディング、模様付け、動き、及び／またはカメラパラメータを規定する命令及びデータから、出力画像用のピクセルデータを生成するための３Ｄレンダリング能力を含む。ＧＰＵ１１１６はさらに、シェーダープログラムを実行することができる１つ以上のプログラマブル実行ユニットを含むことができる。

グラフィックスサブシステム１１１４は、グラフィックスメモリ１１１８から、ディスプレイデバイス１１１０に表示すべき、または投影システム（図示せず）によって投影すべき画像用のピクセルデータを定期的に出力する。ディスプレイデバイス１１１０は、デバイス１１００からの信号に応じて視覚情報を表示することができる任意のデバイスとすることができる。たとえば、ＣＲＴ、ＬＣＤ、プラズマ、及びＯＬＥＤディスプレイである。デバイス１１００は、ディスプレイデバイス１１１０に、たとえば、アナログまたはデジタル信号を提供することができる。

グラフィックスサブシステム１１１４を最適化するための他の実施形態には、画像に対するオブジェクトのレンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことを含むことができる。グラフィックスサブシステム１１１４を、１つ以上の処理デバイスとして構成することができる。

たとえば、一実施形態では、グラフィックスサブシステム１１１４を、レンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うように構成してもよい。複数のグラフィックスサブシステムが、グラフィックスを実施していることができ、及び／または単一アプリケーションに対するパイプラインをレンダリングしていることができる。すなわち、グラフィックスサブシステム１１１４は、アプリケーションを実行するときに画像または画像列の１つ以上の各画像をレンダリングするために用いる複数のＧＰＵを含んでいる。

他の実施形態では、グラフィックスサブシステム１１１４は複数のＧＰＵデバイスを含んでいる。これらは、対応するＣＰＵ上で実行されている単一アプリケーションに対するグラフィックス処理を実行するために結合される。たとえば、複数のＧＰＵは、画像に対するオブジェクトのレンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うことができる。他の例では、複数のＧＰＵは交互形式のフレームレンダリングを実行することができる。ここでは、ＧＰＵ１が第１のフレームをレンダリングし、ＧＰＵ２が第２のフレームをレンダリングして、これを連続的なフレーム周期で行うことなどを、最後のＧＰＵに達するまで続ける。その上で、最初のＧＰＵが次のビデオフレームをレンダリングする（たとえば、２つのＧＰＵのみが存在する場合には、ＧＰＵ１が第３のフレームをレンダリングする）。すなわち、フレームをレンダリングするときにＧＰＵが回転する。レンダリング動作はオーバーラップすることができる。ＧＰＵ１が第１のフレームのレンダリングを終了する前に、ＧＰＵ２が第２のフレームのレンダリングを開始してもよい。別の実施態様では、複数のＧＰＵデバイスに、レンダリング及び／またはグラフィックスパイプラインにおいて異なるシェーダー動作を割り当てることができる。マスタＧＰＵが主なレンダリング及び合成を行っている。たとえば、３つのＧＰＵを含むグループでは、マスタＧＰＵ１が、スレーブＧＰＵ２及びスレーブＧＰＵ３からの出力の主なレンダリング（たとえば、第１のシェーダー動作）及び合成を実行することができる。スレーブＧＰＵ２は、第２のシェーダー（たとえば、河などの流体効果）動作を実行することができ、スレーブＧＰＵ３は、第３のシェーダー（たとえば、粒子煙）動作を実行することができる。マスタＧＰＵ１は、ＧＰＵ１、ＧＰＵ２、及びＧＰＵ３のそれぞれからの結果を合成する。このように、異なるシェーダー動作（たとえば、旗を振ること、風、発煙、火災など）を実行するために異なるＧＰＵを割り当てて、ビデオフレームをレンダリングすることができる。さらなる他の実施形態では、３つのＧＰＵをそれぞれ、ビデオフレームに対応するシーンの異なるオブジェクト及び／または部分に割り当てることができる。前述の実施形態及び実施態様では、これらの動作を同じフレーム周期（同時に並列）でまたは異なるフレーム周期（順次に並列）で行うことができる。

したがって、本開示では、アプリケーションを実行するときの画像または画像列内の１つ以上の各画像に対するオブジェクトのレンダリング中の領域テストによってアプリケーションに対するジオメトリのマルチＧＰＵレンダリングを行うように構成された方法及びシステムを説明している。

当然のことながら、本明細書で規定した種々の実施形態を、本明細書で開示した種々の特徴を用いて具体的な実施に結合するかまたは組み立ててもよい。したがって、提供した例は単にいくつかの可能な例であり、種々の要素を結合してさらに多くの実施態様を規定することによって可能な種々の実施態様に限定されない。いくつかの例では、開示した実施態様または同等な実施態様の趣旨から逸脱することなく、いくつかの実施態様にはさらに少ない要素が含まれていてもよい。

本開示の実施形態は、種々のコンピュータシステム構成（たとえば、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラマブル民生用エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなど）によって実施してもよい。また本開示の実施形態は、分散コンピューティング環境において実行することもできる。ここでは、タスクが、有線ベースまたは無線ネットワークを通してリンクされたリモート処理デバイスによって行われる。

前述の実施形態を念頭において、当然のことながら、本開示の実施形態は、コンピュータシステムに記憶されたデータを伴う種々のコンピュータ実装動作を用いることができる。これらの動作は、物理量の物理的な操作を必要とするものである。本開示の実施形態の一部分を構成する本明細書で説明した動作のいずれも、有用なマシン動作である。また本開示の実施形態は、これらの動作を行うためのデバイスまたは装置に関する。装置は必要な目的に対して特別に構成することもできるし、または装置を、コンピュータに記憶されたコンピュータプログラムによって選択的に作動または構成される汎用コンピュータとすることもできる。詳細には、種々の汎用マシンを本明細書の教示により書き込まれたコンピュータプログラムによって用いることもできるし、または必要な動作を実行するために、さらに特化された装置を構成することがより好都合であり得る。

また本開示を、コンピュータ可読媒体上のコンピュータ可読コードとして具体化することができる。コンピュータ可読媒体は、データを記憶することができる任意のデータ記憶装置とすることができる。データはその後にコンピュータシステムによって読み出すことができる。コンピュータ可読媒体の例としては、ハードドライブ、ネットワーク接続ストレージ（ＮＡＳ）、読み出し専用メモリ、ランダムアクセスメモリ、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、ならびに他の光学及び非光学データ記憶装置が挙げられる。コンピュータ可読媒体としては、コンピュータ可読コードが分散的に記憶及び実行されるようにネットワーク結合コンピュータシステム上に分散されたコンピュータ可読有形的表現媒体を挙げることができる。

本方法の動作を特定の順序で説明したが、当然のことながら、動作の合間に他のハウスキーピング動作を行ってもよいし、または動作を調整してわずかに異なる時間に行われるようにしてもよいし、またはオーバーレイ動作の処理が所望の方法で行われる限り、処理動作を処理に対応付けられる種々の間隔で可能にするシステムにおいて分散させるようにしてもよい。

前述の開示内容は、理解を明瞭にするために少し詳しく説明しているが、添付の特許請求の範囲内で特定の変形及び変更を実施できることが明らかである。したがって、本実施形態は例示的であって限定的ではないと考えるべきであり、本開示の実施形態は、本明細書で示した詳細に限定してはならないが、添付の特許請求の範囲及び均等物内で変更してもよい。

Claims

グラフィックス処理を行うための方法であって、
ディスプレイに表示するために、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングし、
前記グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを、前記ディスプレイに対応する複数のスクリーン領域に基づいて前記複数のＧＰＵ間で分割し、前記複数のＧＰＵにおける各ＧＰＵは、前記複数のＧＰＵに知られた前記レスポンシビリティの対応するディビジョンを有するものであり、
画像フレームに対して生成された画像に対して第２のＧＰＵにおいてジオメトリのピースをレンダリングする間に、第１のＧＰＵが前記レスポンシビリティの第１のディビジョンを有する第１のスクリーン領域に対するジオメトリの前記ピースに関する情報を生成し、かつ、
前記複数のＧＰＵにおける前記各ＧＰＵに対する前記レスポンシビリティの前記対応するディビジョンを維持しながら、前記第１のＧＰＵで、前記情報を用いて前記第１のＧＰＵにおいて前記画像フレームに対して生成された前記画像に対するジオメトリの前記ピースをレンダリングする、方法。
前記情報は、前記第１のＧＰＵがジオメトリの前記ピースの前記レンダリングを完全にスキップすべきであることを示す、請求項１に記載の方法。
前記情報は前記第１のＧＰＵに対するヒントであり、前記情報は、ジオメトリの前記ピースの前記レンダリングが前記第１のＧＰＵにおいて始まる前に受け取られた場合に考慮され、
前記情報がジオメトリの前記ピースの前記レンダリングが始まった後に受け取られたときに、ジオメトリの前記ピースは前記第１のＧＰＵにおいて完全にレンダリングされる、請求項１に記載の方法。
前記複数のスクリーン領域は、前記複数のＧＰＵ間のレンダリング時間のアンバランスを減らすように構成されている、請求項１に記載の方法。
前記複数のスクリーン領域のそれぞれは、サイズが一様ではない、請求項１に記載の方法。
前記複数のスクリーン領域は動的に変化する、請求項１に記載の方法。
ジオメトリの前記ピースは、ドローコールが使用または生成するジオメトリに対応する、請求項１に記載の方法。
ドローコールが用いるかまたは生成するジオメトリをジオメトリの複数のピースに細分割し、
対応する情報を、前記第２のＧＰＵにおいて、前記複数のスクリーン領域に対して前記ジオメトリの複数のピースのうちの少なくとも１つに関して生成する、請求項１に記載の方法。
ジオメトリの前記ピースに関する前記情報を、前記第２のＧＰＵにおいて、個々のプリミティブに対して生成する、請求項１に記載の方法。
ジオメトリの前記ピースに関する前記情報は、頂点数またはプリミティブ数を含む、請求項１に記載の方法。
ジオメトリの前記ピースに関する前記情報は、レンダリング用の特定の組のプリミティブまたはレンダリング用の特定の組の頂点を含む、請求項１に記載の方法。
前記第１のＧＰＵ及び前記第２のＧＰＵに対して共通のレンダリングコマンドバッファを用い、
前記共通のレンダリングコマンドバッファにおけるコマンドの実行を、前記第１のＧＰＵ及び前記第２のＧＰＵのうちの一方に限定する、請求項１に記載の方法。
前記第１のスクリーン領域は、前記第１のＧＰＵが前記レスポンシビリティの前記第１のディビジョンを有する第１の組のスクリーン領域の一部分であり、
前記第２のＧＰＵは、第２のスクリーン領域を含む第２の組のスクリーン領域に対する前記レスポンシビリティの第２のディビジョンを有する、請求項１に記載の方法。
前記複数のＧＰＵにおける前記各ＧＰＵはそれぞれ、１つ以上のスクリーン領域におけるジオメトリのレンダリングに対するレスポンシビリティを有する、請求項１に記載の方法。
前記第１のＧＰＵ及び前記第２のＧＰＵは、前記複数のＧＰＵを含むように構成されているより大きいＧＰＵの一部である、請求項１に記載の方法。
前記複数のＧＰＵのうちの１つ以上は、複数の仮想ＧＰＵとして構成されるより大きいＧＰＵの一部である、請求項１に記載の方法。
ジオメトリの前記ピースの特性に応じて、前記情報が生成されるか、または前記情報が生成されないものである、請求項１に記載の方法。
前記情報を生成するためにラスタライゼーションステージにおいてスキャンコンバータを用いることをさらに含む、請求項１に記載の方法。
前記情報を生成するためにジオメトリ処理ステージにおいて少なくとも１つのシェーダーを用いることをさらに含む、請求項１に記載の方法。
前記少なくとも１つのシェーダーは、前記情報の前記生成を加速するために少なくとも１つの専用命令を用いる、請求項１９に記載の方法。
レンダリングの第１のフェーズで生成した前記情報をレンダリングの第２のフェーズで用いることをさらに含む、請求項１に記載の方法。
コンピュータシステムであって、
プロセッサと、前記プロセッサに結合され、命令が記憶されたメモリと、を有し、前記命令は、前記コンピュータシステムによって実行されると、前記コンピュータシステムにグラフィックスパイプラインをインプリメントするための方法を実行させるものであり、
前記方法は、
ディスプレイに表示するために、複数のグラフィックス処理ユニット（ＧＰＵ）を用いてアプリケーションに対するグラフィックスをレンダリングし、
前記グラフィックスのジオメトリのレンダリングについてのレスポンシビリティを、前記ディスプレイに対応する複数のスクリーン領域に基づいて前記複数のＧＰＵ間で分割し、前記複数のＧＰＵにおける各ＧＰＵは、前記複数のＧＰＵに知られた前記レスポンシビリティの対応するディビジョンを有するものであり、
画像フレームに対して生成された画像に対して第２のＧＰＵにおいてジオメトリのピースをレンダリングする間に、第１のＧＰＵが前記レスポンシビリティの第１のディビジョンを有する第１のスクリーン領域に対するジオメトリの前記ピースに関する情報を生成し、かつ、
前記複数のＧＰＵにおける前記各ＧＰＵに対する前記レスポンシビリティの前記対応するディビジョンを維持しながら、前記第１のＧＰＵで、前記情報を用いて前記第１のＧＰＵにおいて前記画像フレームに対して生成された前記画像に対するジオメトリの前記ピースをレンダリングする、コンピュータシステム。
前記方法において、前記第１のスクリーン領域は、前記第１のＧＰＵが前記レスポンシビリティの前記第１のディビジョンを有する第１の組のスクリーン領域の一部分であり、
前記方法において、前記第２のＧＰＵは、第２のスクリーン領域を含む第２の組のスクリーン領域に対する前記レスポンシビリティの第２のディビジョンを有する、請求項２２に記載のコンピュータシステム。
前記方法において、前記複数のＧＰＵにおける前記各ＧＰＵはそれぞれ、対応する組のスクリーン領域においてジオメトリをレンダリングすることにレスポンシビリティを有し、
前記方法において、前記対応する組のスクリーン領域は１つ以上のスクリーン領域を含む、請求項２２に記載のコンピュータシステム。
前記方法において、前記情報は、前記第１のＧＰＵがジオメトリの前記ピースの前記レンダリングを完全にスキップすべきであることを示す、請求項２２に記載のコンピュータシステム。
前記方法において、前記情報は前記第１のＧＰＵに対するヒントであり、前記情報は、ジオメトリの前記ピースの前記レンダリングが前記第１のＧＰＵにおいて始まる前に受け取られた場合に考慮され、
前記方法において、前記情報がジオメトリの前記ピースの前記レンダリングが始まった後に受け取られたときに、ジオメトリの前記ピースは前記第１のＧＰＵにおいて完全にレンダリングされる、請求項２２に記載のコンピュータシステム。