JP2021082262A

JP2021082262A - ベクトル正規化のための単一の命令セットアーキテクチャ（ｉｓａ）命令の使用

Info

Publication number: JP2021082262A
Application number: JP2020159659A
Authority: JP
Inventors: リシーケサンアビシェク; Rhisheekesan Abhishek; パルスプラティム; Pal Supratim; ラクシュミナラヤナシャシャンク; Lakshminarayana Shashank; マイユランスブラマニアム; Maiyuran Subramaniam
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-11-15
Filing date: 2020-09-24
Publication date: 2021-05-27
Also published as: US20220147316A1; CN112907711A; DE102020129756A1; US20210149635A1; US11157238B2; US11593069B2

Abstract

【課題】本明細書で説明する実施形態は、概して、改良されたベクトル正規化命令を対象とする。【解決手段】方法の一実施形態は、Ｖ個のベクトルに対して行うべきベクトル正規化処理を指定する単一の命令のＧＰＵによる受け取りに応答して、第１の処理装置によって、Ｖ個の２乗長さ値を生成することであり、Ｎ個のベクトルの複数の成分ベクトルをそれぞれ表すＮセットの入力毎に、Ｎセットの入力に対してＮ個の並列ドット積演算を行うことにより、Ｎ個の２乗長さ値を一度に生成するステップを含む。方法は、Ｖ個のベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成することであり、Ｖ個の２乗長さ値のＮ個の２乗長さ値毎に、Ｎ個の２乗長さに対してＮ個の並列演算を行うことにより、Ｎセットの出力を一度に生成するステップを含み、Ｎ個の並列演算のそれぞれは、逆平方根関数とベクトルスケーリング関数との組合せを実行する。【選択図】図１９

Description

本明細書で説明する実施形態は、概して、グラフィック処理装置（ＧＰＵ）及びグラフィック命令セットアーキテクチャ（ＩＳＡ）の分野に関し、より具体的には、ベクトル正規化の実行のためのクロックサイクル数を削減する改良したベクトル正規化命令に関する。

グラフィック処理装置（ＧＰＵ）は、シェーダーコードを処理するために複数のタイプの命令を使用する。ベクトルの正規化の必要性は、方向ベクトルの計算、表面の法線の計算、物理／衝突、影の深度及び周囲の深度の計算、幾何学的変換、照明、反射、法線マッピング、バンプマッピング等を含むシナリオを処理するための３次元（３Ｄ）ゲーム及び他の３Ｄグラフィックアプリケーションの文脈で頻繁に発生する。グラフィックアプリケーションプログラミングインターフェイス（ＡＰＩ）に応じて、ベクトルの正規化は、３つの演算（つまり、ＭｉｃｒｏｓｏｆｔＤｉｒｅｃｔＸＡＰＩでのドット積、逆平方根、ベクトルスケーリング）、又は単一の演算（つまり、ＯｐｅｎＧＬＡＰＩでの正規化処理）によって表され得る。ＩＳＡレベルでは、ベクトルの正規化は７つの命令で表すことができる。
・ドット積（ＳＩＭＤ８）：ＭＵＬ、ＭＡＤ、ＭＡＤ；
・逆平方根（ＳＩＭＤ８）：数学；
・ベクトルスケーリング（ＳＩＭＤ８）：ＭＵＬ、ＭＵＬ、ＭＵＬ。

業界標準での上位３つのピクセルシェーダーの（グラフィックハードウェアの消費時間の観点からの）静的解析と、ＫｉｓｈｏｎｔｉＩｎｆｏｒｍａｔｉｃｓのＧＦＸＢｅｎｃｈのＭａｎｈａｔｔａｎや、ＵＬの３ＤＭａｒｋ１１のような卓越したベンチマークとが、ベクトルの正規化処理に関連して、ＭａｎｈａｔｔａｎのＯｐｅｎＧＬＡＰＩ命令の２１％、及び３ＤＭａｒｋ１１の４つのサブテストにおけるＭｉｃｒｏｓｏｆｔＤｉｒｅｃｔＸＡＰＩ命令の８％、８％、１１％、及び６％を示している。そのため、ベクトル正規化処理を実行するためのクロックサイクル数の削減は、ピクセルシェーダーのパフォーマンスだけでなく、頂点シェーダー、計算シェーダー、場合によっては幾何学シェーダー、ハルシェーダー、ドメインシェーダーにも大きなプラスの影響を与えるだろう。

本明細書で説明する実施形態は、添付図面の図において、限定としてではなく、例として示され、添付図面では、同様の参照符号が同様の要素を指す。
一実施形態による、処理システムのブロック図である。いくつかの実施形態による、コンピュータシステム及びグラフィックプロセッサを示す図である。いくつかの実施形態による、コンピュータシステム及びグラフィックプロセッサを示す図である。いくつかの実施形態による、コンピュータシステム及びグラフィックプロセッサを示す図である。いくつかの実施形態による、コンピュータシステム及びグラフィックプロセッサを示す図である。いくつかの実施形態による、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。いくつかの実施形態による、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。いくつかの実施形態による、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。いくつかの実施形態による、グラフィックプロセッサのグラフィック処理エンジンのブロック図である。いくつかの実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示す図である。いくつかの実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示す図である。一実施形態による、追加の実行ユニットを示す図である。いくつかの実施形態による、グラフィックプロセッサの命令フォーマットを示すブロック図である。グラフィックプロセッサの別の実施形態のブロック図である。いくつかの実施形態による、グラフィックプロセッサのコマンドフォーマットを示すブロック図である。一実施形態による、グラフィックプロセッサのコマンドシーケンスを示すブロック図である。いくつかの実施形態による、データ処理システムのための例示的なグラフィックソフトウェアアーキテクチャを示す図である。一実施形態による、動作を実行するための集積回路を製造するために使用され得るＩＰコア開発システムを示すブロック図である。いくつかの実施形態による、集積回路パッケージアセンブリの側断面図である。一実施形態による、基板に接続されたハードウェア論理チップレットの複数のユニットを含むパッケージアセンブリを示す図である。一実施形態による、交換可能なチップレットを含むパッケージアセンブリを示す図である。一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るチップ集積回路上の例示的なシステムを示すブロック図である。いくつかの実施形態による、ＳｏＣ内で使用するための例示的なグラフィックプロセッサを示すブロック図である。いくつかの実施形態による、ＳｏＣ内で使用するための例示的なグラフィックプロセッサを示すブロック図である。ベクトル正規化処理の実行に含まれる３つのステップを概念的に示す図である。一実施形態による、ＧＰＵのシェーダーユニットの高レベルの簡略化されたビューを示すブロック図である。ＭＵＬ、ＭＡＤ、及びＲＳＱ命令を用いたベクトル正規化処理のスループットを示す図である。一実施形態による、ＳＩＭＤ８ＤＰ３演算を行うために、ＳＩＭＤ２ＤＰ３演算のための２セットの入力及び２つの出力を４個のレジスタに格納するためのレジスタレイアウトを示す図である。一実施形態による、ＳＩＭＤ８ＲＳＱＶＳ演算を行うために、ＳＩＭＤ２ＲＳＱＶＳ演算のための２セットの出力を４個のレジスタに格納するためのレジスタレイアウトを示す図である。一実施形態によるベクトル正規化処理を示すフロー図である。一実施形態による、ＤＰ３及びＲＳＱＶＳ命令を用いるベクトル正規化処理のスループットを示す図である。一実施形態による、チップ集積回路上のシステムの追加の例示的なグラフィックプロセッサを示すブロック図である。一実施形態による、チップ集積回路上のシステムの追加の例示的なグラフィックプロセッサを示すブロック図である。コンピュータ装置の一実施形態を示す図である。単精度浮動小数点フォーマットの一実施形態を示す図である。浮動小数点拡張数学演算を行うためのプロセスの一実施形態を示すフロー図である。仮数に対して浮動小数点拡張数学演算を行うためのプロセスの一実施形態を示すフロー図である。平方根の初期推定値のグラフである。最上位ビット平方根と初期推定値との間の差のグラフである。図２７のグラフからの拡大された線形セグメントを示す図である。ルックアップテーブルエントリへのインデックスのグラフである。区分的線形近似のグラフである。

本明細書で説明する実施形態は、概して、ベクトル正規化の実行のためのクロックサイクル数を削減する改良したベクトル正規化命令を対象とする。

図１４〜図３０を参照して以下でさらに詳細に説明する一実施形態によれば、Ｖ個のベクトルに対して行うべきベクトル正規化処理を指定する命令（例えば、ＶＮＭ）を、ＩＳＡを介して公開することができる。グラフィック処理装置（ＧＰＵ）によるＶＮＭ命令の受け取りに応答して、ＧＰＵの第１の処理装置によって、Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さをそれぞれ表すＶ個の２乗長さ値を生成することであり、Ｖ個のベクトルのセットのうちのＮ個のベクトルに対する複数の成分ベクトルをそれぞれ表し、且つＶ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、Ｎセットの入力に対してＮ個の並列ドット積演算を行うことにより、Ｎ個の２乗長さ値を一度に生成される。ＧＰＵの第２の処理装置によって、Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成することであり、Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、Ｎ個の２乗長さ値に対してＮ個の並列演算を行うことにより、Ｎセットの出力を一度に生成され、Ｎ個の並列演算のそれぞれが、逆平方根関数とベクトルスケーリング関数との組合せを実行する。

システムの概要

図１は、一実施形態による、処理システム１００のブロック図である。システム１００は、シングルプロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、或いは多数のプロセッサ１０２又はプロセッサコア１０７を有するサーバシステムで使用することができる。一実施形態では、システム１００は、ローカル又はワイドエリアネットワークへの有線又は無線接続を伴うモノのインターネット（ＩｏＴ）装置内等のモバイル、ハンドヘルド、又は埋込み型装置で使用するために、システムオンチップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

一実施形態では、システム１００は、サーバベースのゲームプラットフォーム、ゲームを含むゲームコンソール及びメディアコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソール、又はオンラインゲームコンソールを含むか、それに結合するか、又はその中に統合することができる。いくつかの実施形態では、システム１００は、携帯電話、スマートフォン、タブレットコンピュータ装置、又は内部記憶容量が少ないラップトップ等のモバイルインターネット接続装置の一部である。処理システム１００はまた、スマートウォッチウェアラブル装置等のウェアラブル装置；現実世界の視覚、音声、又は触覚体験を補完するために視覚、音声、又は触覚出力を提供し、或いは他にテキスト、音声、グラフィック、ビデオ、ホログラフィック画像又はビデオ、又は触覚フィードバックを提供する拡張現実（ＡＲ）又は仮想現実（ＶＲ）機能で強化されたスマートアイウェア又は衣服；他の拡張現実（ＡＲ）装置；又は他の仮想現実（ＶＲ）装置を含むか、それと結合するか、又はその中に統合することができる。いくつかの実施形態では、処理システム１００は、テレビ又はセットトップボックス装置を含むか、又はその一部である。一実施形態では、システム１００は、バス、トラクタトレーラー、自動車、モータサイクル又は電力サイクル、飛行機又はグライダー（又は、これらの任意の組合せ）等の自動運転車両を含むか、それに結合するか、又はその中に統合することができる。自動運転車両は、システム１００を使用して、車両の周囲で感知された環境を処理することができる。

いくつかの実施形態では、１つ又は複数のプロセッサ１０２はそれぞれ、実行時にシステム又はユーザソフトウェアの動作を行う命令を処理するための１つ又は複数のプロセッサコア１０７を含む。いくつかの実施形態では、１つ又は複数のプロセッサコア１０７のうちの少なくとも１つが、特定の命令セット１０９を処理するように構成される。いくつかの実施形態では、命令セット１０９は、複合命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介した計算を容易にし得る。１つ又は複数のプロセッサコア１０７は、他の命令セットのエミュレーションを容易にするための命令を含み得る、異なる命令セット１０９を処理し得る。プロセッサコア１０７は、デジタル信号プロセッサ（ＤＳＰ）等の他の処理装置も含み得る。

いくつかの実施形態では、プロセッサ１０２は、キャッシュメモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。いくつかの実施形態では、キャッシュメモリは、プロセッサ１０２の様々なコンポーネントの間で共有される。いくつかの実施形態では、プロセッサ１０２は、外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））（図示せず）も使用し、このキャッシュは、既知のキャッシュコヒーレンシ技術を用いてプロセッサコア１０７の間で共有することができる。レジスタファイル１０６は、プロセッサ１０２にさらに含まれ得、且つ異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタレジスタ）を含み得る。いくつかのレジスタは、汎用レジスタであり得るが、他のレジスタは、プロセッサ１０２の設計に固有であり得る。

いくつかの実施形態では、１つ又は複数のプロセッサ１０２は、１つ又は複数のインターフェイスバス１１０に結合され、プロセッサ１０２とシステム１００内の他のコンポーネントとの間でアドレス、データ、又は制御信号等の通信信号を送信する。一実施形態では、インターフェイスバス１１０は、ダイレクトメディアインターフェイス（ＤＭＩ）バスのバージョン等のプロセッサーバスとすることができる。ただし、プロセッサーバスは、ＤＭＩバスに限定されず、１つ又は複数の周辺コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）、メモリバス、又は他のタイプのインターフェイスバスを含み得る。一実施形態では、プロセッサ１０２は、集積メモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含む。メモリコントローラ１１６は、メモリ装置とシステム１００の他のコンポーネントとの間の通信を容易にする一方、プラットフォームコントローラハブ（ＰＣＨ）１３０は、ローカルＩ／Ｏバスを介したＩ／Ｏ装置への接続を提供する。

メモリ装置１２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）装置、スタティックランダムアクセスメモリ（ＳＲＡＭ）装置、フラッシュメモリ装置、相変化メモリ装置、又はプロセスメモリとして機能するための適切な性能を有する他の何らかのメモリ装置であり得る。一実施形態では、メモリ装置１２０は、システム１００のシステムメモリとして動作して、１つ又は複数のプロセッサ１０２がアプリケーション又はプロセスを実行するときに使用するデータ１２２及び命令１２１を格納することができる。メモリコントローラ１１６は、プロセッサ１０２内の１つ又は複数のグラフィックプロセッサ１０８と通信して、グラフィック及びメディア処理を行い得るオプションの外部グラフィックプロセッサ１１８とも結合する。いくつかの実施形態では、グラフィック、メディア、又は計算処理は、グラフィック、メディア、又は計算処理の特殊なセットを実行するように構成できるコプロセッサであるアクセラレータ１１２によって支援され得る。例えば、一実施形態では、アクセラレータ１１２は、機械学習又は計算処理を最適化するために使用される行列乗算アクセラレータである。一実施形態では、アクセラレータ１１２は、グラフィックプロセッサ１０８と連携して光線追跡処理（ray-tracing operations）を行うために使用できる光線追跡アクセラレータである。一実施形態では、外部アクセラレータ１１９は、アクセラレータ１１２の代わりに、又はアクセラレータ１１２と連携して使用され得る。

いくつかの実施形態では、表示装置１１１は、プロセッサ１０２に接続することができる。表示装置１１１は、モバイル電子装置又はラップトップ装置又は表示インターフェイス（例えば、ＤｉｓｐｌａｙＰｏｒｔ等）を介して取り付けられる外部表示装置のように、１つ又は複数の内部表示装置であってもよい。一実施形態では、表示装置１１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体表示装置等のヘッドマウントディスプレイ（ＨＭＤ）とすることができる。

いくつかの実施形態では、プラットフォームコントローラハブ１３０によって、高速Ｉ／Ｏバスを介して周辺機器をメモリ装置１２０及びプロセッサ１０２に接続することが可能になる。Ｉ／Ｏ周辺機器には、音声コントローラ１４６、ネットワークコントローラ１３４、ファームウェアインターフェイス１２８、ワイヤレストランシーバ１２６、タッチセンサ１２５、データ記憶装置１２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ等）が含まれるが、これらに限定されるものではない。データ記憶装置１２４は、ストレージインターフェイス（例えば、ＳＡＴＡ）を介して、又は周辺コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）等の周辺バスを介して接続することができる。タッチセンサ１２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含むことができる。ワイヤレストランシーバ１２６は、Ｗｉ−Ｆｉ（登録商標）トランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、或いは３Ｇ、４Ｇ、５Ｇ、又はＬＴＥ（Long-Term Evolution）トランシーバ等のモバイルネットワークトランシーバとすることができる。ファームウェアインターフェイス１２８は、システムファームウェアとの通信を可能にし、例えば、ＵＥＦＩ（unified extensible firmware interface）であり得る。ネットワークコントローラ１３４は、有線ネットワークへのネットワーク接続を可能にし得る。いくつかの実施形態では、高性能ネットワークコントローラ（図示せず）は、インターフェイスバス１１０と結合する。一実施形態では、音声コントローラ１４６は、マルチチャネル高品位音声コントローラである。一実施形態では、システム１００は、レガシー（例えば、パーソナルシステム２（ＰＳ／２））装置をシステムに結合するためのオプションのレガシーＩ／Ｏコントローラ１４０を含む。プラットフォームコントローラハブ１３０は、１つ又は複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４２に接続して、キーボード及びマウス１４３の組合せ、カメラ１４４、又は他のＵＳＢ入力装置等の入力装置を接続することもできる。

示されているシステム１００は、例示的であり、異なるように構成された他のタイプのデータ処理システムも使用できるので、限定ではないことを理解されたい。例えば、メモリコントローラ１１６及びプラットフォームコントローラハブ１３０のインスタンスは、外部グラフィックプロセッサ１１８等の別個の外部グラフィックプロセッサに統合され得る。一実施形態では、プラットフォームコントローラハブ１３０及び／又はメモリコントローラ１１６は、１つ又は複数のプロセッサ１０２の外部にあってもよい。例えば、システム１００は、外部メモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含むことができ、これらは、プロセッサ１０２と通信するシステムチップセット内のメモリコントローラハブ及び周辺コントローラハブとして構成してもよい。

例えば、回路基板（スレッド）を使用することができ、その上に、ＣＰＵ、メモリ、及び他のコンポーネント等のコンポーネントが配置され、熱性能を高めるように設計されている。いくつかの例では、プロセッサ等の処理コンポーネントはスレッドの上面に配置される一方、ＤＩＭＭ等のニアメモリ（near memory）はスレッドの下面に配置される。この設計によって強化されたエアフローの結果として、コンポーネントは、典型的なシステムよりも高い周波数及び電力レベルで動作し、それによりパフォーマンスを向上させることができる。さらに、スレッドは、ラック内の電源ケーブル及びデータ通信ケーブルと盲目的に嵌合するように構成され、それにより迅速に取り外し、アップグレード、再インストール、及び／又は交換する能力が高まる。同様に、スレッドに配置されたプロセッサ、アクセラレータ、メモリ、データストレージドライブ等の個々のコンポーネントは、互いの間隔が広がるため、容易にアップグレードできるように構成される。例示的な実施形態では、コンポーネントは、それらの真正性を証明するためにハードウェア認証機能をさらに含む。

データセンターは、イーサネット及びオムニパスを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（ファブリック）を利用することができる。スレッドは、典型的なツイストペアケーブル（例えば、カテゴリ５、カテゴリ５Ｅ、カテゴリ６等）よりも高い帯域幅及び低レイテンシを提供する光ファイバーを介してスイッチに接続できる。高帯域幅、低レイテンシの相互接続、及びネットワークアーキテクチャにより、データセンターは、使用中に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク、及び／又は人工知能アクセラレータ等）、及び物理的に集約解除されたデータストレージドライブ等のリソースをプールし、必要に応じてこれらをコンピュータリソース（プロセッサ等）に提供し、コンピュータリソースが、ローカルであるかのようにプールされたリソースにアクセスできるようにする。

電源又は電力源は、電圧及び／又は電流を、システム１００又は本明細書で説明する任意のコンポーネント又はシステムに供給することができる。一例では、電源は、壁のコンセントに差し込むためのＡＣからＤＣ（交流から直流）へのアダプタを含む。そのようなＡＣ電力は、再生可能エネルギー（例えば、太陽光発電）電源であり得る。一例では、電源は、外部ＡＣ−ＤＣコンバータ等のＤＣ電源を含む。一例では、電源又は電力源は、充電場への近接によって充電するワイヤレス充電ハードウェアを含む。一例では、電源は、内部バッテリ、交流電源、運動ベースの電源、太陽光電源、又は燃料電池電源を含むことができる。

図２Ａ〜図２Ｄは、本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図２Ａ〜図２Ｄの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。

図２Ａは、１つ又は複数のプロセッサコア２０２Ａ〜２０２Ｎ、集積メモリコントローラ２１４、及び集積グラフィックプロセッサ２０８を有するプロセッサ２００の実施形態のブロック図である。プロセッサ２００は、破線のボックスで表される追加のコア２０２Ｎまでの追加のコアを含むことができる。プロセッサコア２０２Ａ〜２０２Ｎのそれぞれは、１つ又は複数の内部キャッシュユニット２０４Ａ〜２０４Ｎを含む。いくつかの実施形態では、各プロセッサコアは、１つ又は複数の共有キャッシュユニット２０６にもアクセスする。内部キャッシュユニット２０４Ａ〜２０４Ｎ及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリ階層を表す。キャッシュメモリ階層は、各プロセッサコア内の命令及びデータキャッシュの少なくとも１つのレベルと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又はキャッシュの他のレベル等の、共有中間レベルキャッシュの１つ又は複数のレベルとを含むことができ、外部メモリの前の最高レベルのキャッシュがＬＬＣとして分類される。いくつかの実施形態では、キャッシュコヒーレンシロジックは、様々なキャッシュユニット２０６と２０４Ａ〜２０４Ｎとの間のコヒーレンシを維持する。

いくつかの実施形態では、プロセッサ２００はまた、１つ又は複数のバスコントローラユニット２１６及びシステムエージェントコア２１０のセットを含み得る。１つ又は複数のバスコントローラユニット２１６は、１つ又は複数のＰＣＩ又はＰＣＩエクスプレスバス等の周辺バスのセットを管理する。システムエージェントコア２１０は、様々なプロセッサコンポーネントに管理機能を提供する。いくつかの実施形態では、システムエージェントコア２１０は、様々な外部メモリ装置（図示せず）へのアクセスを管理するための１つ又は複数の集積メモリコントローラ２１４を含む。

いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数は、同時マルチスレッディングのサポートを含む。そのような実施形態では、システムエージェントコア２１０は、マルチスレッド処理中にコア２０２Ａ〜２０２Ｎを調整及び操作するためのコンポーネントを含む。システムエージェントコア２１０は、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィックプロセッサ２０８の電力状態を調整するためのロジック及びコンポーネントを含む電力制御ユニット（ＰＣＵ）をさらに含み得る。

いくつかの実施形態では、プロセッサ２００は、グラフィック処理操作を行うためのグラフィックプロセッサ２０８をさらに含む。いくつかの実施形態では、グラフィックプロセッサ２０８は、共有キャッシュユニット２０６のセットと、１つ又は複数の集積メモリコントローラ２１４を含むシステムエージェントコア２１０と結合する。いくつかの実施形態では、システムエージェントコア２１０は、グラフィックプロセッサの出力を１つ又は複数の結合されたディスプレイに駆動する表示コントローラ２１１も含む。いくつかの実施形態では、表示コントローラ２１１はまた、少なくとも１つの相互接続を介してグラフィックプロセッサと結合された別個のモジュールであってもよく、又はグラフィックプロセッサ２０８内に統合してもよい。

いくつかの実施形態では、リングベースの相互接続ユニット２１２は、プロセッサ２００の内部コンポーネントを結合するために使用される。しかしながら、ポイントツーポイント相互接続、スイッチ相互接続、又は当技術分野で周知の技術を含む他の技術等の代替の相互接続ユニットを使用してもよい。いくつかの実施形態では、グラフィックプロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリング相互接続２１２と結合する。

例示的なＩ／Ｏリンク２１３は、様々なプロセッサコンポーネントとｅＤＲＡＭモジュール等の高性能埋込み型メモリモジュール２１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続を含む、Ｉ／Ｏ相互接続の複数の種類のうちの少なくとも１つを表す。いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィックプロセッサ２０８のそれぞれは、埋込み型メモリモジュール２１８を共有ラストレベルキャッシュとして使用することができる。

いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、同じ命令セットアーキテクチャを実行する同種（homogeneous）のコアである。別の実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種（heterogeneous）であり、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数が第１の命令セットを実行する一方、他のコアのうちの少なくとも１つが、第１の命令セット又は別の命令セットのサブセットを実行する。一実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、マイクロアーキテクチャに関して異種であり、電力消費が比較的高い１つ又は複数のコアが、電力消費が低い１つ又は複数の電力コアと結合する。一実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、計算能力に関して異種である。さらに、プロセッサ２００は、１つ又は複数のチップ上で、又は他のコンポーネントに加えて、例示されたコンポーネントを有するＳｏＣ集積回路として実装することができる。

図２Ｂは、本明細書で説明するいくつかの実施形態による、グラフィックプロセッサコア２１９のハードウェアロジックのブロック図である。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図２Ｂの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。コアスライスと呼ばれることもあるグラフィックプロセッサコア２１９は、モジュール式グラフィックプロセッサ内の１つ又は複数のグラフィックコアとすることができる。グラフィックプロセッサコア２１９は、１つのグラフィックコアスライスの例であり、本明細書で説明するグラフィックプロセッサは、目標電力及び性能エンベロープに基づいた複数のグラフィックコアスライスを含み得る。各グラフィックプロセッサコア２１９は、汎用及び固定機能（function：関数）ロジックのモジュール式ブロックを含む、サブスライスとも呼ばれる複数のサブコア２２１Ａ〜２２１Ｆと結合された固定機能ブロック２３０を含むことができる。

いくつかの実施形態では、固定機能ブロック２３０は、例えば、より低い性能及び／又はより低い電力のグラフィックプロセッサ実装において、グラフィックプロセッサコア２１９の全てのサブコアによって共有され得る幾何学／固定機能パイプライン２３１を含む。様々な実施形態において、幾何学／固定機能パイプライン２３１は、３Ｄ固定機能パイプライン（例えば、以下で説明する図３及び図４における３Ｄパイプライン３１２）、ビデオフロントエンドユニット、スレッド生成器（spawner）及びスレッドディスパッチャ、統合リターン（unified return）バッファマネージャ（例えば、以下で説明するように、図４の統合リターンバッファ４１８）を管理する統合リターンバッファマネージャを含む。

一実施形態では、固定機能ブロック２３０は、グラフィックＳｏＣインターフェイス２３２、グラフィックマイクロコントローラ２３３、及びメディアパイプライン２３４も含む。グラフィックＳｏＣインターフェイス２３２は、グラフィックプロセッサコア２１９と、システムオンチップ集積回路内の他のプロセッサコアとの間のインターフェイスを提供する。グラフィックマイクロコントローラ２３３は、スレッドディスパッチ、スケジューリング、及びプリエンプション（pre-emption）を含むグラフィックプロセッサコア２１９の様々な機能を管理するように構成可能なプログラム可能なサブプロセッサである。メディアパイプライン２３４（例えば、図３及び図４のメディアパイプライン３１６）は、画像及びビデオデータを含むマルチメディアデータのデコード、エンコード、前処理、及び／又は後処理を容易にするロジックを含む。メディアパイプライン２３４は、サブコア２２１〜２１２Ｆ内の計算又はサンプリングロジックへの要求を介してメディア処理を実施する。

一実施形態では、ＳｏＣインターフェイス２３２によって、グラフィックプロセッサコア２１９が、共有ラストレベルキャッシュメモリ、システムＲＡＭ、埋込み型のオンチップ又はオンパッケージＤＲＡＭ等のメモリ階層要素を含む、汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）及び／又はＳｏＣ内の他のコンポーネントと通信することが可能になる。また、ＳｏＣインターフェイス２３２によって、カメラ撮像パイプライン等のＳｏＣ内の固定機能装置との通信が可能になり、グラフィックプロセッサコア２１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミック（atomic）の使用及び／又は実装が可能になる。ＳｏＣインターフェイス２３２はまた、グラフィックプロセッサコア２１９のための電力管理制御を実施し、グラフィックコア２１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインターフェイスを可能にする。一実施形態では、ＳｏＣインターフェイス２３２は、グラフィックプロセッサ内の１つ又は複数のグラフィックコアのそれぞれにコマンド及び命令を与えるように構成されたコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受領を可能にする。コマンド及び命令は、メディア処理が実行される場合はメディアパイプライン２３４にディスパッチでき、グラフィック処理操作が実行される場合は幾何学及び固定機能パイプライン（例えば、幾何学及び固定機能パイプライン２３１、幾何学及び固定機能パイプライン２３７）にディスパッチできる。

グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９の様々なスケジューリング及び管理タスクを実行するように構成することができる。一実施形態では、グラフィックマイクロコントローラ２３３は、サブコア２２１Ａ〜２２１Ｆ内で実行ユニット（ＥＵ）アレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ内の様々なグラフィック並列エンジンに対してグラフィック及び／又は計算ワークロードスケジューリングを実行することができる。このスケジューリングモデルでは、グラフィックプロセッサコア２１９を含むＳｏＣのＣＰＵコアで実行されるホストソフトウェアが、適切なグラフィックエンジンにスケジューリング操作を呼び出す、複数のグラフィックプロセッサドアベルのうちの１つにワークロードを送信できる。スケジュール操作には、次にどのワークロードを実行するかの決定、コマンドストリーマへのワークロードの送信、エンジンで実行されている既存のワークロードの横取り（pre-empting）、ワークロードの進行状況の監視、ワークロードの完了時のホストソフトウェアへの通知が含まれる。一実施形態では、グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９の低電力又はアイドル状態を促進することもでき、グラフィックプロセッサコア２１９に、オペレーティングシステム及び／又はシステム上のグラフィックドライバソフトウェアから独立して、低電力状態遷移でグラフィックプロセッサコア２１９内のレジスタを保存及び復元する能力を提供する。

グラフィックプロセッサコア２１９は、図示されたサブコア２２１Ａ〜２２１Ｆよりも多いか又は少ない、最大Ｎ個のモジュール式サブコアを有することができる。Ｎ個のサブコアの各セットについて、グラフィックプロセッサコア２１９は、共有機能（function：関数）ロジック２３５、共有及び／又はキャッシュメモリ２３６、幾何学／固定機能パイプライン２３７だけでなく、様々なグラフィック及び計算処理の動作を加速させる追加の固定機能ロジック２３８も含むことができる。共有機能ロジック２３５は、図４の共有機能ロジック４２０（例えば、サンプラー、数学、及び／又はスレッド間通信ロジック）に関連付けられた、グラフィックプロセッサコア２１９内のＮ個の各サブコアによって共有できる論理ユニットを含むことができる。共有及び／又はキャッシュメモリ２３６は、グラフィックプロセッサコア２１９内のＮ個のサブコア２２１Ａ〜２２１Ｆのセットのラストレベルキャッシュとすることができ、且つ複数のサブコアによってアクセス可能な共有メモリとしても機能することができる。幾何学／固定機能パイプライン２３７は、固定機能ブロック２３０内の幾何学／固定機能パイプライン２３１の代わりに含めることができ、同じ又は類似の論理ユニットを含むことができる。

一実施形態では、グラフィックプロセッサコア２１９は、グラフィックプロセッサコア２１９が使用する様々な固定機能加速化ロジックを含むことができる追加の固定機能ロジック２３８を含む。一実施形態では、追加の固定機能ロジック２３８は、位置のみのシェーディング（shading）で使用する追加の幾何学パイプラインを含む。位置のみのシェーディングでは、２つの幾何学パイプライン、幾何学／固定機能パイプライン２３８、２３１内のフル幾何学パイプラインと、追加の固定機能ロジック２３８に含めることができる追加の幾何学パイプラインであるカル（cull）パイプラインとが存在する。一実施形態では、カルパイプラインは、フル幾何学パイプラインの細分化したバージョンである。フルパイプライン及びカルパイプラインは、同じアプリケーションの異なるインスタンスを実行でき、各インスタンスには個別のコンテキストがある。位置のみのシェーディングでは、破棄された三角形の長いカルラン（cull runs）を非表示にできるため、場合によってはシェーディングをより早く完了できる。例えば、一実施形態では、追加の固定機能ロジック２３８内のカルパイプラインロジックは、メインアプリケーションと並行して位置シェーダー（shader）を実行でき、ピクセルのフレームバッファへのラスタライズ（rasterization）及びレンダリングを実行せずに、カルパイプラインが頂点の位置属性のみをフェッチ及びシェーディングするので、一般にフルパイプラインよりも高速に重要な結果を生成することができる。カルパイプラインは、生成された重要な結果を使用して、それら三角形が間引きされている（culled）かどうかに関係なく、全ての三角形の可視性情報を計算できる。完全なパイプライン（この例では再生パイプラインと呼ばれ得る）は、可視情報を消費して、間引きされた三角形をスキップして、最終的にラスタライズフェーズに渡される可視の三角形のみをシェーディングできる。

一実施形態では、追加の固定機能ロジック２３８は、機械学習訓練又は推論のための最適化を含む実装のために、固定関数行列乗算ロジック等の機械学習加速化ロジックも含むことができる。

各グラフィックサブコア２２１Ａ〜２２１Ｆ内には、グラフィックパイプライン、メディアパイプライン、又はシェーダープログラムによる要求に応答して、グラフィック、メディア、及び計算処理を行うために使用できる１組の実行リソースが含まれる。グラフィックサブコア２２１Ａ〜２２１Ｆには、複数のＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ、スレッドディスパッチ及びスレッド間通信（ＴＤ／ＩＣ）ロジック２２３Ａ〜２２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラー２２５Ａ〜２２５Ｆ、メディアサンプラー２０６Ａ〜２０６Ｆ、シェーダープロセッサ２２７Ａ〜２２７Ｆ、及び共有ローカルメモリ（ＳＬＭ）２２８Ａ〜２２８Ｆが含まれる。ＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆにはそれぞれ、グラフィック、メディア、又は計算シェーダープログラムを含むグラフィック、メディア、又は計算処理のサービスで、浮動小数点及び整数／固定小数点の論理演算を行うことができる汎用グラフィック処理ユニットである複数の実行ユニットが含まれる。ＴＤ／ＩＣロジック２２３Ａ〜２２３Ｆは、サブコア内の実行ユニットに対してローカルスレッドディスパッチ及びスレッド制御動作を実行し、サブコアの実行ユニット上で実行されているスレッド同士の間の通信を容易にする。３Ｄサンプラー２２５Ａ〜２２５Ｆは、テクスチャ又は他の３Ｄグラフィック関連データをメモリに読み込むことができる。３Ｄサンプラーは、設定されたサンプル状態及び所与のテクスチャに関連付けられたテクスチャフォーマットに基づいて、テクスチャデータを異なる方法で読み取ることができる。メディアサンプラー２０６Ａ〜２０６Ｆは、メディアデータに関連するタイプ及びフォーマットに基づいて、同様の読取り動作を行うことができる。一実施形態では、各グラフィックサブコア２２１Ａ〜２２１Ｆは、統合された３Ｄ及びメディアサンプラーを二者択一的に含むことができる。各サブコア２２１Ａ〜２２１Ｆ内の実行ユニットで実行されるスレッドは、各サブコア内の共有ローカルメモリ２２８Ａ〜２２８Ｆを利用して、スレッドグループ内で実行されるスレッドがオンチップメモリの共通プールを用いて実行できるようにする。

図２Ｃは、マルチコアグループ２４０Ａ〜２４０Ｎに配置されたグラフィック処理リソースの専用セットを含むグラフィック処理ユニット（ＧＰＵ）２３９を示す。単一のマルチコアグループ２４０Ａのみの詳細が提示されているが、他のマルチコアグループ２４０Ｂ〜２４０Ｎは、グラフィック処理リソースの同じ又は同様のセットを装備できることが理解されよう。

図示されるように、マルチコアグループ２４０Ａは、グラフィックコア２４３のセット、テンソルコア２４４のセット、及び光線追跡コア２４５のセットを含み得る。スケジューラ／ディスパッチャ２４１は、様々なコア２４３、２４４、２４５に対する実行のためにグラフィックスレッドをスケジュールし、ディスパッチする。レジスタファイル２４２のセットは、グラフィックスレッドを実行するときにコア２４３、２４４、２４５によって使用されるオペランド値を格納する。これらには、例えば、整数値を格納するための整数レジスタ、浮動小数点値を格納するための浮動小数点レジスタ、パックされたデータ要素（整数及び／又は浮動小数点データ要素）を格納するためのベクトルレジスタ、及びテンソル／マトリックス値を格納するためのタイルレジスタが含まれる。一実施形態では、タイルレジスタは、ベクトルレジスタの組合せセットとして実装される。

１つ又は複数の組合せレベル１（Ｌ１）キャッシュ及び共有メモリユニット２４７は、テクスチャデータ、頂点データ、ピクセルデータ、光線（ray）データ、境界ボリュームデータ等のグラフィックデータを各マルチコアグループ２４０Ａ内にローカルに格納する。１つ又は複数のテクスチャユニット２４７を使用して、テクスチャマッピング及びサンプリング等のテクスチャリング操作を行うこともできる。マルチコアグループ２４０Ａ〜２４０Ｎの全て又はサブセットによって共有されるレベル２（Ｌ２）キャッシュ２５３は、グラフィックデータ及び／又は複数の同時グラフィックスレッドのための命令を格納する。図示されるように、Ｌ２キャッシュ２５３は、複数のマルチコアグループ２４０Ａ〜２４０Ｎに亘って共有され得る。１つ又は複数のメモリコントローラ２４８は、ＧＰＵ２３９を、システムメモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックメモリ（例えば、ＧＤＤＲ６メモリ）であり得るメモリ２４９に結合する。

入力／出力（Ｉ／Ｏ）回路２５０は、ＧＰＵ２３９を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力装置等の１つ又は複数のＩ／Ｏ装置２５２に結合する。オンチップ相互接続を使用して、Ｉ／Ｏ装置２５２をＧＰＵ２３９及びメモリ２４９に結合することができる。Ｉ／Ｏ回路２５０の１つ又は複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）２５１が、Ｉ／Ｏ装置２５２をシステムメモリ２４９に直接結合する。一実施形態では、ＩＯＭＭＵ２５１は、ページテーブルの複数のセットを管理して、仮想アドレスをシステムメモリ２４９内の物理アドレスにマッピングする。この実施形態では、Ｉ／Ｏ装置２５２、ＣＰＵ２４６、及びＧＰＵ（複数可）２３９は、同じ仮想アドレス空間を共有することができる。

一実施態様では、ＩＯＭＭＵ２５１は仮想化をサポートする。この場合に、そのＩＯＭＭＵ２５１は、ゲスト／グラフィックの仮想アドレスをゲスト／グラフィックの物理アドレスにマッピングするためのページテーブルの第１のセットと、ゲスト／グラフィックの物理アドレスを（例えば、システムメモリ２４９内の）システム／ホストの物理アドレスにマッピングするためのページテーブルの第２のセットとを管理する。ページテーブルの第１及び第２のセットのそれぞれのベースアドレスは、制御レジスタに格納され、コンテキストスイッチでスワップアウトされる（例えば、それによって、新しいコンテキストに、関連するページテーブルのセットへのアクセスが提供される）。図２Ｃには示されていないが、コア２４３、２４４、２４５及び／又はマルチコアグループ２４０Ａ〜２４０Ｎのそれぞれは、仮想的なゲスト変換から物理的なゲスト変換、物理的なゲスト変換から物理的なホスト変換、及び仮想的なゲスト変換から物理的なホスト変換をキャッシュするための変換ルックアサイド（lookaside）バッファ（ＴＬＢ）を含み得る。

一実施形態では、ＣＰＵ２４６、ＧＰＵ２３９、及びＩ／Ｏ装置２５２は、単一の半導体チップ及び／又はチップパッケージに統合される。図示されたメモリ２４９は、同じチップ上に統合してもよく、又はオフチップインターフェイスを介してメモリコントローラ２４８に結合してもよい。一実施態様では、メモリ２４９は、他の物理的なシステムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基本的な原理は、この特定の実施態様に限定されるものではない。

一実施形態では、テンソルコア２４４は、ディープラーニング操作を行うために使用される基本的な計算処理である行列演算を行うように特に設計された複数の実行ユニットを含む。例えば、同時行列乗算演算は、ニューラルネットワークの訓練及び推論に使用できる。テンソルコア２４４は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、及びハーフバイト（４ビット）を含む様々なオペランド精度を用いて行列処理を行うことができる。一実施形態では、ニューラルネットワーク実施態様は、レンダリングされた各シーンの特徴を抽出し、複数のフレームからの詳細を潜在的に組み合わせて、高品質の最終画像を構築する。

ディープラーニングの実施態様において、並列行列乗算作業は、テンソルコア２４４での実行のためにスケジュールされ得る。特に、ニューラルネットワークの訓練は、かなりの数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積定式化を処理するために、テンソルコア２４４は、少なくともＮ個のドット積処理要素を含み得る。行列の乗算が始まる前に、１つの行列全体がタイルレジスタに読み込まれ、第２の行列の少なくとも１つの列がＮサイクルの各サイクルに読み込まれる。各サイクルで、Ｎ個のドット積が処理される。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）、及び４ビットハーフバイト（例えば、ＩＮＴ４）を含む、特定の実施態様に応じて異なる精度で格納され得る。テンソルコア２４４に異なる精度モードを指定して、様々なワークロード（例えば、バイト及びハーフバイトへの量子化を許容できるワークロードの推論等）で最も効率的な精度が使用されるのを保証する。

一実施形態では、光線追跡コア２４５は、リアルタイム光線追跡及び非リアルタイム光線追跡実装の両方のための光線追跡処理を加速させる。特に、光線追跡コア２４５は、境界ボリューム階層（ＢＶＨ）を用いて光線横断（ray traversal）を実行し、光線とＢＶＨボリューム内に囲まれたプリミティブとの間の交差を識別するための光線横断／交差回路を含む。光線追跡コア２４５は、（例えば、Ｚバッファ又は同様の構成を用いて）深度テスト及びカリング（culling）を行うための回路も含み得る。一実施態様では、光線追跡コア２４５は、本明細書に記載の画像ノイズ除去技術と協調して横断及び交差処理を行い、その少なくとも一部はテンソルコア２４４上で実行され得る。例えば、一実施形態では、テンソルコア２４４は、ディープラーニングニューラルネットワークを実装して、光線追跡コア２４５によって生成されたフレームのノイズ除去を行う。ただし、ＣＰＵ２４６、グラフィックコア２４３、及び／又は光線追跡コア２４５は、ノイズ除去及び／又はディープラーニングアルゴリズムの全て又は一部を実装することもできる。

さらに、上述したように、ノイズ除去に対して分散型アプローチを使用することができ、そのアプローチで、ＧＰＵ２３９は、ネットワーク又は高速相互接続を介して他のコンピュータ装置に結合されたコンピュータ装置内にある。この実施形態では、相互接続されたコンピュータ装置は、ニューラルネットワーク学習／訓練データを共有して、システム全体が異なるタイプの画像フレーム及び／又は異なるグラフィックアプリケーションのノイズ除去を行うために学習する速度を向上させる。

一実施形態では、光線追跡コア２４５は、全てのＢＶＨ横断及び光線（ray）プリミティブ交差を処理し、グラフィックコア２４３が光線当たり数千の命令で過負荷状態になるのを防ぐ。一実施形態では、各光線追跡コア２４５は、境界ボックステスト（例えば、横断操作）を実行するための専用回路の第１のセットと、光線三角形交差テスト（例えば、交差する光線がトラバースされる）を実行するための専用回路の第２のセットとを含む。こうして、一実施形態では、マルチコアグループ２４０Ａは、光線プローブを単に起動するだけで済み、光線追跡コア２４５は、独立して光線横断及び交差を実行し、ヒットデータ（例えば、ヒット、ヒットなし、複数ヒット等）をスレッドコンテキストに返す。他のコア２４３、２４４は、光線追跡コア２４５が横断及び交差処理を行う間に、他のグラフィック又は計算作業を行うために解放される。

一実施形態では、各光線追跡コア２４５は、ＢＶＨテスト演算を行う横断ユニットと、光線−プリミティブ交差テストを行う交差ユニットとを含む。交差ユニットは、「ヒット」、「ヒットなし」、又は「複数ヒット」応答を生成し、その応答を適切なスレッドに提供する。横断及び交差処理中に、他のコア（例えば、グラフィックコア２４３及びテンソルコア２４４）の実行リソースは、他の形式のグラフィック作業を行うために解放される。

以下に説明する特定の一実施形態では、作業がグラフィックコア２４３と光線追跡コア２４５との間で分散されるハイブリッドラスタライズ／光線追跡アプローチが使用される。

一実施形態では、光線追跡コア２４５（及び／又は他のコア２４３、２４４）は、マイクロソフト（登録商標）のＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）等の光線追跡命令セットに対するハードウェアサポートを含み、ＤＸＲは、ディスパッチレイコマンドだけでなく、及び光線生成、最近接ヒット、任意のヒット、ミスシェーダー（各オブジェクトに固有のシェーダー及びテクスチャのセットを割り当てることができる）を含む。光線追跡コア２４５、グラフィックコア２４３、テンソルコア２４４によってサポートされ得る別の光線追跡プラットフォームは、Ｖｕｌｋａｎ１．１．８５である。ただし、本発明の基本的な原理は、特定の光線追跡ＩＳＡに限定されないことに注意されたい。

一般に、様々なコア２４５、２４４、２４３は、光線生成、最近接ヒット、任意のヒット、光線−プリミティブ交差、プリミティブ毎及び階層境界ボックス構築、ミス、訪問、及び例外のための命令／機能を含む光線追跡命令セットをサポートすることができる。より具体的には、一実施形態は、以下の機能を実行するための光線追跡命令を含む。

光線生成光線生成命令は、各ピクセル、サンプル、又は他のユーザ規定の作業割当てに対して実行され得る。

最近接ヒット最近接ヒット命令は、光線とシーン内のプリミティブとの最も近い交点を見つけるために実行され得る。

任意のヒット（any hit）任意のヒット命令は、光線とシーン内のプリミティブとの間の複数の交差を識別し、潜在的に新しい最も近い交差ポイントを識別する。

交差交差命令は、光線−プリミティブ交差テストを行い、結果を出力する。

プリミティブ毎の境界ボックス構築この命令は、（例えば、新しいＢＶＨ又は他の加速度データ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループの周りに境界ボックスを構築する。

ミス光線がシーン内の全ての幾何学、又はシーンの指定された領域に当たらないことを示す。

訪問（visit）光線が横断する小さな（children）ボリュームを示す。

例外（例えば、様々なエラー条件に対して呼び出される）様々なタイプの例外ハンドラを含む。

図２Ｄは、本明細書で説明する実施形態による、グラフィックプロセッサ及び／又は計算アクセラレータとして構成され得る汎用グラフィック処理ユニット（ＧＰＧＰＵ）２７０のブロック図である。ＧＰＧＰＵ２７０は、１つ又は複数のシステム及び／又はメモリバスを介してホストプロセッサ（例えば、１つ又は複数のＣＰＵ２４６）及びメモリ２７１、２７２と相互接続することができる。一実施形態では、メモリ２７１は、１つ又は複数のＣＰＵ２４６と共有され得るシステムメモリであり、メモリ２７２は、ＧＰＧＰＵ２７０専用のデバイスメモリである。一実施形態では、ＧＰＧＰＵ２７０内のコンポーネント及びデバイスメモリ２７２は、１つ又は複数のＣＰＵ２４６がアクセス可能なメモリアドレスにマッピングされ得る。メモリ２７１及び２７２へのアクセスは、メモリコントローラ２６８を介して促進され得る。一実施形態では、メモリコントローラ２６８は、内部直接メモリアクセス（ＤＭＡ）コントローラ２６９を含む、又は他にＤＭＡコントローラによって実行される演算を行うためのロジックを含むことができる。

ＧＰＧＰＵ２７０は、Ｌ２キャッシュ２５３、Ｌ１キャッシュ２５４、命令キャッシュ２５５、及び共有メモリ２５６を含む複数のキャッシュメモリを含み、それらの少なくとも一部は、キャッシュメモリとしてパーティション化することもできる。ＧＰＧＰＵ２７０は、複数の計算ユニット２６０Ａ〜２６０Ｎも含む。各計算ユニット２６０Ａ〜２６０Ｎは、ベクトルレジスタ２６１、スカラーレジスタ２６２、ベクトル論理ユニット２６３、及びスカラー論理ユニット２６４のセットを含む。計算ユニット２６０Ａ〜２６０Ｎは、ローカル共有メモリ２６５及びプログラムカウンタ２６６も含むことができる。計算ユニット２６０Ａ〜２６０Ｎは、定数キャッシュ２６７と結合することができ、これは、ＧＰＧＰＵ２７０上で実行されるカーネル又はシェーダープログラムの実行中に変化しないデータである定数データを格納するために使用することができる。一実施形態では、常数キャッシュ２６７はスカラーデータキャッシュであり、キャッシュされたデータはスカラーレジスタ２６２に直接フェッチすることができる。

動作中に、１つ又は複数のＣＰＵ２４６は、アクセス可能なアドレス空間にマッピングされたＧＰＧＰＵ２７０内のレジスタ又はメモリにコマンドを書き込むことができる。コマンドプロセッサ２５７は、レジスタ又はメモリからコマンドを読み取り、それらのコマンドがＧＰＧＰＵ２７０内でどのように処理されるかを決定することができる。次に、スレッドディスパッチャ２５８を使用して、これらのコマンドを実行するために計算ユニット２６０Ａ〜２６０Ｎにスレッドをディスパッチすることができる。各計算ユニット２６０Ａ〜２６０Ｎは、他の計算ユニットから独立してスレッドを実行することができる。さらに、各計算ユニット２６０Ａ〜２６０Ｎは、条件付き計算のために独立して構成することができ、計算の結果をメモリに条件付きで出力することができる。コマンドプロセッサ２５７は、提出されたコマンドが完了すると、１つ又は複数のＣＰＵ２４６に割り込むことができる。

図３Ａ〜図３Ｃは、本明細書で説明する実施形態によって提供される追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図を示す。本明細書の任意の他の図の要素と同じ参照符号（又は名前）を有する図３Ａ〜図３Ｃの要素は、本明細書の他の場所で説明しているのと同様の任意の方法で動作又は機能できるが、それに限定されるものではない。

図３Ａは、グラフィックプロセッサ３００のブロック図であり、このプロセッサ３００は、別個のグラフィック処理ユニットであり得るか、或いは複数の処理コア又は限定されないが、メモリ装置又はネットワークインターフェイス等の他の半導体デバイスと統合されたグラフィックプロセッサであり得る。いくつかの実施形態では、グラフィックプロセッサは、メモリマップされたＩ／Ｏインターフェイスを介して、グラフィックプロセッサ上のレジスタと通信し、プロセッサメモリに配置されたコマンドと通信する。いくつかの実施形態では、グラフィックプロセッサ３００は、メモリにアクセスするためのメモリインターフェイス３１４を含む。メモリインターフェイス３１４は、ローカルメモリ、１つ又は複数の内部キャッシュ、１つ又は複数の共有外部キャッシュ、及び／又はシステムメモリへのインターフェイスであり得る。

いくつかの実施形態では、グラフィックプロセッサ３００は、ディスプレイ出力データを表示装置３１８に駆動する表示コントローラ３０２も含む。表示コントローラ３０２は、ビデオ又はユーザインターフェイス要素の複数の層の表示及び構成のための１つ又は複数のオーバーレイ平面のためのハードウェアを含む。表示装置３１８は、内部又は外部の表示装置であり得る。一実施形態では、表示装置３１８は、仮想現実（ＶＲ）表示装置又は拡張現実（ＡＲ）表示装置等のヘッドマウント型表示装置である。いくつかの実施形態では、グラフィックプロセッサ３００は、ＭＰＥＧ−２等の動画エキスパートグループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ等のＡＶＣ（Advanced Video Coding）フォーマット、ＡＯＭｅｄｉａ（Alliance for Open Media）ＶＰ８、ＶＰ９だけでなく、ＳＭＰＴＥ（Society of Motion Picture＆Television Engineers）４２１Ｍ／ＶＣ−１、及びＪＰＥＧ等のＪＰＥＧ（Joint Photographic Experts Group）、及びＭＪＰＥＧ（Motion JPEG）フォーマットを含むがこれらに限定されない１つ又は複数のメディアエンコーディングフォーマットに、それらから、又はそれらの間でメディアをエンコード、デコード、又はトランスコードするビデオコーデックエンジン３０６を含む。

いくつかの実施形態では、グラフィックプロセッサ３００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ処理を行うためのブロック画像転送（ＢＬＩＴ）エンジン３０４を含む。しかしながら、一実施形態では、２Ｄグラフィック処理は、グラフィック処理エンジン（ＧＰＥ）３１０の１つ又は複数のコンポーネントを用いて実行される。いくつかの実施形態では、ＧＰＥ３１０は、３次元（３Ｄ）グラフィック処理及びメディア処理を含むグラフィック処理を行うための計算エンジンである。

いくつかの実施形態では、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、長方形、三角形等）に作用する処理機能を用いて３次元画像及びシーンをレンダリングする等の３Ｄ処理を行うための３Ｄパイプライン３１２を含む。３Ｄパイプライン３１２は、要素内で様々なタスクを実行する及び／又は実行スレッドを３Ｄ／メディアサブシステム３１５に生成する（spawn）プログラム可能な固定機能要素を含む。３Ｄパイプライン３１２を使用してメディア処理を行うことができるが、ＧＰＥ３１０の実施形態は、ビデオ後処理及び画像強調等のメディア処理を行うために特に使用されるメディアパイプライン３１６も含む。

いくつかの実施形態では、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに、又はそれに代わって、ビデオデコード加速、ビデオインターレース解除、及びビデオエンコード加速等の１つ又は複数の特殊メディア処理を行う固定機能又はプログラム可能な論理ユニットを含む。いくつかの実施形態では、メディアパイプライン３１６は、３Ｄ／メディアサブシステム３１５で実行するためにスレッドを生成するスレッド生成（spawning）ユニットをさらに含む。生成されたスレッドは、３Ｄ／メディアサブシステム３１５に含まれる１つ又は複数のグラフィック実行ユニットでメディア処理の計算を行う。

いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、３Ｄパイプライン３１２及びメディアパイプライン３１６によって生成されたスレッドを実行するためのロジックを含む。一実施形態では、パイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム３１５に送信し、このサブシステム３１５は、利用可能なスレッド実行リソースへの様々なリクエストを調停及びディスパッチするためのスレッドディスパッチロジックを含む。実行リソースには、３Ｄ及びメディアスレッドを処理するグラフィック実行ユニットのアレイが含まれる。いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、スレッド命令及びデータのための１つ又は複数の内部キャッシュを含む。いくつかの実施形態では、サブシステムは、スレッド同士の間でデータを共有し、出力データを格納するために、レジスタ及びアドレス指定可能なメモリを含む共有メモリも含む。

図３Ｂは、本明細書で説明する実施形態による、タイル型アーキテクチャを有するグラフィックプロセッサ３２０を示す。一実施形態では、グラフィックプロセッサ３２０は、グラフィックエンジンタイル３１０Ａ〜３１０Ｄ内に図３Ａのグラフィック処理エンジン３１０の複数のインスタンスを有するグラフィック処理エンジンクラスタ３２２を含む。各グラフィックエンジンタイル３１０Ａ〜３１０Ｄは、１組のタイル相互接続３２３Ａ〜３２３Ｆを介して相互接続することができる。各グラフィックエンジンタイル３１０Ａ〜３１０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介してメモリモジュール又はメモリ装置３２６Ａ〜３２６Ｄに接続することもできる。メモリ装置３２６Ａ〜３２６Ｄは、任意のグラフィックメモリ技術を使用することができる。例えば、メモリ装置３２６Ａ〜３２６Ｄは、グラフィックダブルデータレート（ＧＤＤＲ）メモリであり得る。一実施形態では、メモリ装置３２６Ａ〜３２６Ｄは、それぞれのグラフィックエンジンタイル３１０Ａ〜３１０Ｄを含むオンダイであり得る高帯域幅メモリ（ＨＢＭ）モジュールである。一実施形態では、メモリ装置３２６Ａ〜３２６Ｄは、それぞれのグラフィックエンジンタイル３１０Ａ〜３１０Ｄの上に積み重ねることができるスタックメモリ装置である。一実施形態では、各グラフィックエンジンタイル３１０Ａ〜３１０Ｄ及び関連するメモリ３２６Ａ〜３２６Ｄは、図１１Ｂ〜図１１Ｄでさらに詳細に説明するように、ベースダイ又はベース基板に結合された別個のチップレット上に存在する。

グラフィック処理エンジンクラスタ３２２は、オンチップ又はオンパッケージのファブリック相互接続３２４と接続することができる。ファブリック相互接続３２４によって、グラフィックエンジンタイル３１０Ａ〜３１０Ｄと、ビデオコーデック３０６及び１つ又は複数のコピーエンジン３０４等のコンポーネントとの間の通信が可能になる。コピーエンジン３０４は、メモリ装置３２６Ａ〜３２６Ｄとグラフィックプロセッサ３２０の外部にあるメモリ（例えば、システムメモリ）との間でデータを移動するために使用することができる。ファブリック相互接続３２４を使用して、グラフィックエンジンタイル３１０Ａ〜３１０Ｄを相互接続することもできる。グラフィックプロセッサ３２０は、オプションとして、外部表示装置３１８との接続を可能にする表示コントローラ３０２を含む。グラフィックプロセッサは、グラフィック又は計算アクセラレータとして構成することもできる。アクセラレータ構成では、表示コントローラ３０２及び表示装置３１８を省略してもよい。

グラフィックプロセッサ３２０は、ホストインターフェイス３２８を介してホストシステムに接続することができる。ホストインターフェイス３２８は、グラフィックプロセッサ３２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にする。ホストインターフェイス３２８は、例えば、ＰＣＩエクスプレスバス又は別のタイプのホストシステムインターフェイスであってもよい。

図３Ｃは、本明細書で説明する実施形態による計算アクセラレータ３３０を示す。計算アクセラレータ３３０は、図３Ｂのグラフィックプロセッサ３２０とのアーキテクチャ上の類似点を含み得、計算の加速化のために最適化される。計算エンジンクラスタ３３２は、並列又はベクトルベースの汎用計算処理のために最適化された実行ロジックを含む１組の計算エンジンタイル３４０Ａ〜３４０Ｄを含むことができる。いくつかの実施形態では、計算エンジンタイル３４０Ａ〜３４０Ｄは、固定機能グラフィック処理ロジックを含まないが、一実施形態では、計算エンジンタイル３４０Ａ〜３４０Ｄのうちの１つ又は複数は、メディアの加速化を実行するロジックを含むことができる。計算エンジンタイル３４０Ａ〜３４０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介してメモリ３２６Ａ〜３２６Ｄに接続することができる。メモリ３２６Ａ〜３２６Ｄ及びメモリ相互接続３２５Ａ〜３２５Ｄは、グラフィックプロセッサ３２０と同様の技術であっても、又は異なっていてもよい。グラフィック計算エンジンタイル３４０Ａ〜３４０Ｄは、１組のタイル相互接続３２３Ａ〜３２３Ｆを介して相互接続することもでき、ファブリック相互接続３２４と接続する、及び／又はファブリック相互接続３２４によって相互接続することができる。一実施形態では、計算アクセラレータ３３０は、デバイス全体のキャッシュとして構成できる大容量Ｌ３キャッシュ３３６を含む。計算アクセラレータ３３０は、図３Ｂのグラフィックプロセッサ３２０と同様の方法で、ホストインターフェイス３２８を介してホストプロセッサ及びメモリに接続することもできる。

グラフィック処理エンジン

図４は、いくつかの実施形態によるグラフィックプロセッサのグラフィック処理エンジン４１０のブロック図である。一実施形態では、グラフィック処理エンジン（ＧＰＥ）４１０は、図３Ａに示されるＧＰＥ３１０のバージョンであり、図３Ｂのグラフィックエンジンタイル３１０Ａ〜３１０Ｄを表すこともできる。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図４の要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。例えば、図３Ａの３Ｄパイプライン３１２及びメディアパイプライン３１６が示されている。メディアパイプライン３１６は、ＧＰＥ４１０のいくつかの実施形態ではオプションであり、ＧＰＥ４１０内に明示的に含んでいなくてもよい。例えば、少なくとも１つの実施形態では、別個のメディア及び／又は画像プロセッサがＧＰＥ４１０に結合される。

いくつかの実施形態では、ＧＰＥ４１０は、コマンドストリームを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に提供するコマンドストリーマ４０３と結合するか、又はこれを含む。いくつかの実施形態では、コマンドストリーマ４０３は、システムメモリ、又は内部キャッシュメモリ及び共有キャッシュメモリの１つ又は複数であり得るメモリに結合される。いくつかの実施形態では、コマンドストリーマ４０３は、メモリからコマンドを受信し、そのコマンドを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に送信する。コマンドは、３Ｄパイプライン３１２及びメディアパイプライン３１６に対するコマンドを格納するリングバッファからフェッチされる命令である。一実施形態では、リングバッファは、複数のコマンドのバッチを格納するバッチコマンドバッファをさらに含むことができる。３Ｄパイプライン３１２のコマンドには、限定されないが、３Ｄパイプライン３１２の頂点及び幾何学データ、及び／又はメディアパイプライン３１６の画像データ及びメモリオブジェクト等、メモリに格納されたデータへの参照も含まれ得る。３Ｄパイプライン３１２及びメディアパイプライン３１６は、それぞれのパイプライン内のロジックを介して演算を行うか、或いは１つ又は複数の実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、コマンド及びデータを処理する。一実施形態では、グラフィックコアアレイ４１４は、グラフィックコア（例えば、グラフィックコア（複数可）４１５Ａ、グラフィックコア（複数可）４１５Ｂ）の１つ又は複数のブロックを含み、各ブロックは１つ又は複数のグラフィックコアを含む。各グラフィックコアには、グラフィック及び計算処理を行うための汎用及びグラフィック固有の実行ロジックだけでなく、固定機能のテクスチャ処理及び／又は機械学習、及び人工知能加速化ロジック等の、１組のグラフィック実行リソースが含まれる。

様々な実施形態では、３Ｄパイプライン３１２は、命令を処理し且つ実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、頂点シェーダー、幾何学シェーダー、ピクセルシェーダー、フラグメントシェーダー、計算シェーダー、又は他のシェーダープログラム等の１つ又は複数のシェーダープログラムを処理する固定機能及びプログラム可能なロジックを含み得る。グラフィックコアアレイ４１４は、これらのシェーダープログラムの処理に使用する実行リソースの統合ブロックを提供する。グラフィックコアアレイ４１４のグラフィックコア４１５Ａ〜４１４Ｂ内の多目的の実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダー言語のサポートを含み、複数のシェーダーに関連する複数の同時実行スレッドを実行することができる。

いくつかの実施形態では、グラフィックコアアレイ４１４は、ビデオ及び／又は画像処理等のメディア機能を実行する実行ロジックを含む。一実施形態では、実行ユニットは、グラフィック処理操作に加えて、並列の汎用計算処理を行うようにプログラム可能な汎用ロジックを含む。汎用ロジックは、図１のプロセッサコア１０７又は図２Ａのコア２０２Ａ〜２０２Ｎ内の汎用ロジックと並行して、又はその汎用ロジックと協同して、処理動作を行うことができる。

グラフィックコアアレイ４１４上で実行されるスレッドによって生成される出力データは、統合リターンバッファ（ＵＲＢ）４１８内のメモリにデータを出力することができる。ＵＲＢ４１８は、複数のスレッドのデータを格納することができる。いくつかの実施形態では、ＵＲＢ４１８を使用して、グラフィックコアアレイ４１４上で実行される異なるスレッドの間でデータを送信することができる。いくつかの実施形態では、ＵＲＢ４１８は、グラフィックコアアレイ上のスレッドと共有機能ロジック４２０内の固定機能ロジックとの間の同期のためにさらに使用することができる。

いくつかの実施形態では、グラフィックコアアレイ４１４は、アレイが可変数のグラフィックコアを含み、各グラフィックコアがＧＰＥ４１０の目標電力及び性能レベルに基づいて可変数の実行ユニットを有するように、スケーラブルである。一実施形態では、実行リソースは動的にスケーラブルであり、それによって必要に応じて実行リソースを有効又は無効にできる。

グラフィックコアアレイ４１４は、グラフィックコアアレイ内のグラフィックコア同士の間で共有される複数のリソースを含む共有機能ロジック４２０と結合する。共有機能ロジック４２０内の共有機能は、グラフィックコアアレイ４１４に特殊な補助機能を提供するハードウェア論理ユニットである。様々な実施形態では、共有機能ロジック４２０は、サンプラー４２１、数学４２２、及びスレッド間通信（ＩＴＣ）４２３ロジックを含むが、これらに限定されるものではない。さらに、いくつかの実施形態は、共有機能ロジック４２０内に１つ又は複数のキャッシュ４２５を実装する。

共有機能は、少なくとも、所与の特殊化機能に対する要求がグラフィックコアアレイ４１４内に含めるには不十分な場合に実装される。代わりに、その特殊化機能の単一のインスタンス化が、共有機能ロジック４２０内のスタンドアロンエンティティとして実装され、グラフィックコアアレイ４１４内の実行リソースの中で共有される。グラフィックコアアレイ４１４の間で共有され、且つグラフィックコアアレイ４１４内に含まれる機能の正確なセットは、実施形態によって異なる。いくつかの実施形態では、グラフィックコアアレイ４１４によって広範囲に使用される、共有機能ロジック４２０内の特定の共有機能は、グラフィックコアアレイ４１４内の共有機能ロジック４１６内に含まれ得る。様々な実施形態では、グラフィックコアアレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部又は全てのロジックを含むことができる。一実施形態では、共有機能ロジック４２０内の全ての論理要素は、グラフィックコアアレイ４１４の共有機能ロジック４１６内で複製してもよい。一実施形態では、共有機能ロジック４２０は、グラフィックコアアレイ４１４内の共有機能ロジック４１６の利益となるように除外される。

実行ユニット

図５Ａ〜図５Ｂは、本明細書で説明する実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジック５００を示す。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図５Ａ〜図５Ｂの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。図５Ａ〜図５Ｂは、図２Ｂの各サブコア２２１Ａ〜２２１Ｆで示されるハードウェアロジックを表すことができるスレッド実行ロジック５００の概要を示す。図５Ａは、汎用グラフィックプロセッサ内の実行ユニットを表しており、図５Ｂは、計算アクセラレータ内で使用され得る実行ユニットを表している。

図５Ａに示されるように、いくつかの実施形態では、スレッド実行ロジック５００は、シェーダープロセッサ５０２、スレッドディスパッチャ５０４、命令キャッシュ５０６、複数の実行ユニット５０８Ａ〜５０８Ｎを含むスケーラブル実行ユニットアレイ、サンプラー５１０、共有ローカルメモリ５１１、データキャッシュ５１２、及びデータポート５１４を含む。一実施形態では、スケーラブル実行ユニットアレイは、ワークロードの計算要件に基づいて、１つ又は複数の実行ユニット（例えば、実行ユニット５０８Ａ、５０８Ｂ、５０８Ｃ、５０８Ｄから５０８Ｎ−１、及び５０８Ｎのいずれか）を有効又は無効にすることによって動的にスケーラブルできる。一実施形態では、含まれるコンポーネントは、各コンポーネントにリンクする相互接続ファブリックを介して相互接続される。いくつかの実施形態では、スレッド実行ロジック５００は、命令キャッシュ５０６、データポート５１４、サンプラー５１０、及び実行ユニット５０８Ａ〜５０８Ｎの１つ又は複数を介した、システムメモリ又はキャッシュメモリ等のメモリへの１つ又は複数の接続を含む。いくつかの実施形態では、各実行ユニット（例えば、５０８Ａ）は、各スレッドに関して複数のデータ要素を並列に処理しながら、複数の同時ハードウェアスレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットである。様々な実施形態では、実行ユニット５０８Ａ〜５０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、主にシェーダープログラムを実行するために使用される。シェーダープロセッサ５０２は、様々なシェーダープログラムを処理し、スレッドディスパッチャ５０４を介してシェーダープログラムに関連する実行スレッドをディスパッチすることができる。一実施形態では、スレッドディスパッチャは、グラフィック及びメディアパイプラインからのスレッド開始要求を調停（arbitrate）し、且つ実行ユニット５０８Ａ〜５０８Ｎ内の１つ又は複数の実行ユニットで要求されたスレッドをインスタンス化するロジックを含む。例えば、幾何学パイプラインは、頂点、テッセレーション（tessellation）、又は幾何学シェーダーをスレッド実行ロジックにディスパッチして処理することができる。いくつかの実施形態では、スレッドディスパッチャ５０４は、実行中のシェーダープログラムからのランタイムスレッド生成要求を処理することもできる。

いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、多くの標準３Ｄグラフィックシェーダー命令のネイティブ（native）サポートを含む命令セットをサポートし、それによってグラフィックライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダープログラムが最小限の変換で実行される。実行ユニットは、頂点及び幾何学処理（例えば、頂点プログラム、幾何学プログラム、頂点シェーダー）、ピクセル操作（例えば、ピクセルシェーダー、フラグメントシェーダー）、及び汎用操作（例えば、計算シェーダー及びメディアシェーダー）をサポートする。実行ユニット５０８Ａ〜５０８Ｎのそれぞれは、マルチ発出の（multi-issue）単一命令複数データ（ＳＩＭＤ）の実行が可能であり、マルチスレッド操作によって、より長いレイテンシのメモリアクセスに直面した際に効率的な実行環境が可能になる。各実行ユニット内の各ハードウェアスレッドには、専用の高帯域幅レジスタファイル及び関連する独立したスレッド状態がある。実行は、整数、単精度及び倍精度の浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、超越演算、及び他の様々な演算が可能なパイプラインへのクロック毎のマルチ発出である。メモリ又は共有機能のうちの１つからのデータを待機している間に、実行ユニット５０８Ａ〜５０８Ｎ内の依存関係ロジックは、要求したデータが返されるまで待機スレッドをスリープ状態にさせる。待機スレッドがスリープ状態である間に、ハードウェアリソースは、他のスレッドの処理に費やされる場合がある。例えば、頂点シェーダー処理に関連する遅延中に、実行ユニットは、ピクセルシェーダー、フラグメントシェーダー、又は異なる頂点シェーダーを含む別のタイプのシェーダープログラムの処理を行うことができる。様々な実施形態は、ＳＩＭＤの使用の代替として、又はＳＩＭＤの使用に加えて、単一命令マルチスレッド（ＳＩＭＴ）の使用による実行使用に適用することができる。ＳＩＭＤコア又は処理への言及は、ＳＩＭＴにも適用でき、又はＳＩＭＴと組み合わせたＳＩＭＤにも適用できる。

実行ユニット５０８Ａ〜５０８Ｎの各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」、つまり命令のチャネルの数である。実行チャネルは、データ要素へのアクセス、マスキング、及び命令内のフロー制御のための実行の論理ユニットである。チャネルの数は、特定のグラフィックプロセッサの物理算術論理ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数に依存しない場合がある。いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、整数及び浮動小数点データ型をサポートする。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、パックされたデータ型としてレジスタに格納でき、実行ユニットは、要素のデータサイズに基づいて様々な要素を処理する。例えば、２５６ビット幅のベクトルを操作する場合に、ベクトルの２５６ビットはレジスタに格納され、実行ユニットは、ベクトルを、４個の個別の５４ビットパックデータ要素（クワッドワード（ＱＷ）サイズのデータ要素）、８個の個別の３２ビットパックデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の個別の１６ビットパックデータ要素（ワード（Ｗ）サイズのデータ要素）、又は３２個の個別の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）として操作する。ただし、異なるベクトル幅及びレジスタサイズが可能である。

一実施形態では、１つ又は複数の実行ユニットを、融合ＥＵに共通のスレッド制御ロジック（５０７Ａ〜５０７Ｎ）を有する融合実行ユニット５０９Ａ〜５０９Ｎに組み合わせることができる。複数のＥＵを１つのＥＵグループに融合できる。融合ＥＵグループ内の各ＥＵは、個別のＳＩＭＤハードウェアスレッドを実行するように構成できる。融合されたＥＵグループ内のＥＵの数は、実施形態によって異なり得る。さらに、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含むがこれらに限定されない、様々なＳＩＭＤ幅をＥＵ毎に実行できる。各融合グラフィック実行ユニット５０９Ａ〜５０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット５０９Ａは、第１のＥＵ５０８Ａ、第２のＥＵ５０８Ｂ、並びに第１のＥＵ５０８Ａ及び第２のＥＵ５０８Ｂに共通のスレッド制御ロジック５０７Ａを含む。スレッド制御ロジック５０７Ａは、融合グラフィック実行ユニット５０９Ａで実行されるスレッドを制御し、融合実行ユニット５０９Ａ〜５０９Ｎ内の各ＥＵが共通の命令ポインタレジスタを用いて実行できるようにする。

１つ又は複数の内部命令キャッシュ（例えば、５０６）が、実行ユニットのスレッド命令をキャッシュするために、スレッド実行ロジック５００に含まれる。いくつかの実施形態では、１つ又は複数のデータキャッシュ（例えば、５１２）が、スレッド実行中にスレッドデータをキャッシュするために含まれる。実行ロジック５００上で実行するスレッドは、明示的に管理されたデータを共有ローカルメモリ５１１に格納することもできる。いくつかの実施形態では、サンプラー５１０は、３Ｄ処理のテクスチャサンプリング及びメディア処理のメディアサンプリングを提供するために含まれる。いくつかの実施形態では、サンプラー５１０は、サンプリングされたデータを実行ユニットに提供する前に、サンプリングプロセス中にテクスチャ又はメディアデータを処理するための特殊なテクスチャ又はメディアサンプリング機能を含む。

実行中に、グラフィック及びメディアパイプラインは、スレッド生成及びディスパッチロジックを介してスレッド開始要求をスレッド実行ロジック５００に送信する。幾何学的オブジェクトのグループが処理され、ピクセルデータにラスタライズされると、シェーダープロセッサ５０２内のピクセルプロセッサロジック（ピクセルシェーダーロジック、フラグメントシェーダーロジック等）が呼び出され、出力情報がさらに計算され、結果が出力サーフェス（surface）（カラーバッファ、深度（depth）バッファ、ステンシルバッファ等）に書き込まれる。いくつかの実施形態では、ピクセルシェーダー又はフラグメントシェーダーが、ラスタライズされたオブジェクトに亘って補間される様々な頂点属性の値を計算する。いくつかの実施形態では、次に、シェーダープロセッサ５０２内のピクセルプロセッサロジックは、アプリケーションプログラミングインターフェイス（ＡＰＩ）が提供するピクセル又はフラグメントシェーダープログラムを実行する。シェーダープログラムを実行するために、シェーダープロセッサ５０２は、スレッドディスパッチャ５０４を介してスレッドを実行ユニット（例えば、５０８Ａ）にディスパッチする。いくつかの実施形態では、シェーダープロセッサ５０２は、サンプラー５１０のテクスチャサンプリングロジックを使用して、メモリに格納されたテクスチャマップのテクスチャデータにアクセスする。テクスチャデータ及び入力幾何学データに対する算術演算は、各幾何学フラグメントのピクセルカラーデータを計算するか、或いは１つ又は複数のピクセルを更なる処理から破棄する。

いくつかの実施形態では、データポート５１４は、スレッド実行ロジック５００が処理済みデータをメモリに出力してグラフィックプロセッサ出力パイプラインでさらに処理するためのメモリアクセス機構を提供する。いくつかの実施形態では、データポート５１４は、データポートを介したメモリアクセスのためにデータをキャッシュするために、１つ又は複数のキャッシュメモリ（例えば、データキャッシュ５１２）を含むか、又はそれに結合する。

一実施形態では、実行ロジック５００は、光線追跡加速機能を提供できる光線トレーサ５０５を含むこともできる。光線トレーサ５０５は、光線生成のための命令／機能を含む光線追跡命令セットをサポートすることができる。光線追跡命令セットは、図２Ｃの光線追跡コア２４５によりサポートされる光線追跡命令セットと同様であっても、異なっていてもよい。

図５Ｂは、実施形態による、実行ユニット５０８の例示的な内部の詳細を示す。グラフィック実行ユニット５０８は、命令フェッチユニット５３７、汎用レジスタファイルアレイ（ＧＲＦ）５２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）５２６、スレッドアービタ（arbiter）５２２、送信ユニット５３０、分岐ユニット５３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４のセット、及び一実施形態では、専用の整数ＳＩＭＤＡＬＵ５３５のセットを含むことができる。ＧＲＦ５２４及びＡＲＦ５２６は、グラフィック実行ユニット５０８でアクティブであり得る各同時ハードウェアスレッドに関連する汎用レジスタファイル及びアーキテクチャレジスタファイルのセットを含む。一実施形態では、スレッド毎のアーキテクチャ状態がＡＲＦ５２６に維持される一方、スレッド実行中に使用されるデータはＧＲＦ５２４に格納される。各スレッドの命令ポインタを含む各スレッドの実行状態は、ＡＲＦ５２６のスレッド固有のレジスタに保持できる。

一実施形態では、グラフィック実行ユニット５０８は、同時マルチスレッディング（ＳＭＴ）と細粒度インターリーブマルチスレッディング（ＩＭＴ）との組合せであるアーキテクチャを有する。アーキテクチャは、同時実行スレッドのターゲット数及び実行ユニット当たりのレジスタ数に基づいて設計時に微調整できるモジュール構成を有しており、実行ユニットのリソースは、複数の同時スレッドの実行に使用されるロジック全体に分割される。グラフィック実行ユニット５０８によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。

一実施形態では、グラフィック実行ユニット５０８は、それぞれが異なる命令であり得る複数の命令を同時に発することができる。グラフィック実行ユニットスレッド５０８のスレッドアービタ５２２は、実行のために、送信ユニット５３０、分岐ユニット５３２、又はＳＩＭＤＦＰＵ５３４のうちの１つに命令をディスパッチすることができる。各実行スレッドは、ＧＲＦ５２４内の１２８個の汎用レジスタにアクセスすることができ、各レジスタは、３２バイトを格納でき、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセスできる。一実施形態では、各実行ユニットスレッドは、ＧＲＦ５２４内の４Ｋバイトへのアクセスを有するが、実施形態はそのように限定されず、他の実施形態では、より多い又はより少ないレジスタリソースが提供され得る。一実施形態では、グラフィック実行ユニット５０８は、計算処理を独立して実行できる７つのハードウェアスレッドに分割されるが、実行ユニット当たりのスレッドの数も実施形態によって変化し得る。例えば、一実施形態では、最大１６個のハードウェアスレッドがサポートされる。７個のスレッドが４Ｋバイトにアクセスできる実施形態では、ＧＲＦ５２４は、合計２８Ｋバイトを格納することができる。１６個のスレッドが４Ｋバイトにアクセスできる場合に、ＧＲＦ５２４は合計６４Ｋバイトを格納することができる。柔軟なアドレス指定モードでは、レジスタを一緒にアドレス指定して、より広いレジスタを効果的に構築する、又はストライドされた長方形のブロックデータ構造を表すことができる。

一実施形態では、メモリ操作、サンプラー操作、及び他のより長いレイテンシのシステム通信は、メッセージ通過送信ユニット５３０によって実行される「送信」命令を介してディスパッチされる。一実施形態では、分岐命令は専用分岐ユニット５３２にディスパッチされ、ＳＩＭＤ発散及び最終的な収束を容易にする。

一実施形態では、グラフィック実行ユニット５０８は、浮動小数点演算を行うために１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４を含む。一実施形態では、ＦＰＵ５３４は、整数計算もサポートする。一実施形態では、ＦＰＵ５３４は、最大Ｍ個の３２ビット浮動小数点（又は整数）演算をＳＩＭＤ実行することができ、又は最大２Ｍ個の１６ビット整数又は１６ビット浮動小数点演算をＳＩＭＤ実行することができる。一実施形態では、ＦＰＵの少なくとも１つは、高スループット超越数学関数及び倍精度５４ビット浮動小数点をサポートする拡張数学（extended math：発展数学）能力を提供する。いくつかの実施形態では、８ビット整数のＳＩＭＤＡＬＵ５３５のセットも存在し、これは、機械学習計算に関連する演算を行うように特に最適化することができる。

一実施形態では、グラフィック実行ユニット５０８の複数のインスタンスのアレイは、グラフィックサブコアグループ（例えば、サブスライス）にインスタンス化することができる。スケーラビリティのために、乗算アーキテクトはサブコアグループ毎に実行ユニットの正確な数を選択できる。一実施形態では、実行ユニット５０８は、複数の実行チャネルに亘って命令を実行することができる。更なる実施形態では、グラフィック実行ユニット５０８で実行される各スレッドは、異なるチャネルで実行される。

図６は、一実施形態による追加の実行ユニット６００を示す。実行ユニット６００は、例えば、図３Ｃのような計算エンジンタイル３４０Ａ〜３４０Ｄで使用するための計算最適化実行ユニットであってよいが、それに限定されるものではない。実行ユニット６００の変形を、図３Ｂのようにグラフィックエンジンタイル３１０Ａ〜３１０Ｄで使用してもよい。一実施形態では、実行ユニット６００は、スレッド制御ユニット６０１、スレッド状態ユニット６０２、命令フェッチ／プリフェッチユニット６０３、及び命令デコードユニット６０４を含む。実行ユニット６００は、実行ユニット内のハードウェアスレッドに割り当てることができるレジスタを格納するレジスタファイル６０６をさらに含む。実行ユニット６００は、送信ユニット６０７及び分岐ユニット６０８をさらに含む。一実施形態では、送信ユニット６０７及び分岐ユニット６０８は、図５Ｂのグラフィック実行ユニット５０８の送信ユニット５３０及び分岐ユニット５３２と同様に動作することができる。

実行ユニット６００は、複数の異なるタイプの機能ユニットを含む計算ユニット６１０も含む。一実施形態では、計算ユニット６１０は、算術論理ユニットのアレイを含むＡＬＵユニット６１１を含む。ＡＬＵユニット６１１は、６４ビット、３２ビット、及び１６ビットの整数及び浮動小数点演算を行うように構成することができる。整数演算及び浮動小数点演算は同時に実行され得る。計算ユニット６１０は、シストリック（systolic）アレイ６１２及び数学ユニット６１３も含むことができる。シストリックアレイ６１２は、ベクトル又は他のデータ並列処理をシストリック方式で行うために使用できるデータ処理ユニットのＷワイド及びＤディープネットワークを含む。一実施形態では、シストリックアレイ６１２は、行列ドット積演算等の行列演算を行うように構成することができる。一実施形態では、シストリックアレイ６１２は、１６ビット浮動小数点演算だけでなく、８ビット及び４ビット整数演算をサポートする。一実施形態では、シストリックアレイ６１２は、機械学習動作を加速させるように構成することができる。そのような実施形態では、シストリックアレイ６１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットをサポートするように構成することができる。一実施形態では、数学ユニット６１３は、ＡＬＵユニット６１１よりも効率的且つ低電力の方法で数学演算の特定のサブセットを実行するために含まれ得る。数学ユニット６１３は、他の実施形態によって提供されるグラフィック処理エンジンの共有機能ロジックで見出され得る数学ロジック（例えば、図４の共有機能ロジック４２０の数学ロジック４２２）の変形を含み得る。一実施形態では、数学ユニット６１３は、３２ビット及び６４ビットの浮動小数点演算を行うように構成することができる。

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始、停止、及び先取り（横取り）するスレッド調停ロジックを含むことができる。スレッド状態ユニット６０２は、実行ユニット６００で実行するように割り当てられたスレッドのスレッド状態を格納するために使用できる。スレッド状態を実行ユニット６００内に格納することによって、それらのスレッドがブロック又はアイドル状態になったときに、スレッドの迅速な先取り（横取り）を可能にする。命令フェッチ／プリフェッチユニット６０３は、より高いレベルの実行ロジックの命令キャッシュ（例えば、図５Ａのような命令キャッシュ５０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチユニット６０３は、現在実行中のスレッドの解析に基づいて、命令キャッシュにロードされる命令のプリフェッチ要求を発することもできる。命令デコードユニット６０４は、計算ユニットにより実行される命令をデコードするために使用することができる。一実施形態では、命令デコードユニット６０４は、複雑な命令を構成要素のマイクロオペレーションにデコードするための二次デコーダとして使用することができる。

実行ユニット６００は、実行ユニット６００上で実行されるハードウェアスレッドによって使用できるレジスタファイル６０６をさらに含む。レジスタファイル６０６内のレジスタは、実行ユニット６００の計算ユニット６１０内の複数の同時スレッドを実行するために使用されるロジック全体に分割できる。グラフィック実行ユニット６００によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。レジスタファイル６０６のサイズは、サポートされているハードウェアスレッドの数に基づいて、実施形態によって異なり得る。一実施形態では、レジスタの名前変更を使用して、レジスタをハードウェアスレッドに動的に割り当てることができる。

図７は、いくつかの実施形態によるグラフィックプロセッサ命令フォーマット７００を示すブロック図である。１つ又は複数の実施形態では、グラフィックプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線のボックスは、実行ユニットの命令に一般的に含まれるコンポーネントを示しているが、破線はオプションのコンポーネント、又は命令のサブセットにのみ含まれるコンポーネントを示している。いくつかの実施形態では、説明及び図示する命令フォーマット７００は、命令が処理されると命令デコードから生じるマイクロオペレーションとは対照的に、実行ユニットに供給される命令であるという点でマクロ命令である。

いくつかの実施形態では、グラフィックプロセッサ実行ユニットは、１２８ビット命令フォーマット７１０の命令をネイティブにサポートする。６４ビット圧縮（compacted）命令フォーマット７３０が、選択された命令、命令オプション、及びオペランドの数に基づいていくつかの命令で利用可能である。ネイティブの１２８ビット命令フォーマット７１０は、全ての命令オプションへのアクセスを提供するが、いくつかのオプション及び操作は６４ビットフォーマット７３０に制限される。６４ビットフォーマット７３０で使用可能なネイティブ命令は、実施形態によって異なる。いくつかの実施形態では、命令は、インデックスフィールド７１３内のインデックス値のセットを用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、且つ圧縮テーブルの出力を使用して、ネイティブ命令を１２８ビット命令フォーマット７１０に再構築する。命令の他のサイズ及びフォーマットを使用できる。

各フォーマットについて、命令オペコード７１２は、実行ユニットが実行することになる動作を規定する。実行ユニットは、各オペランドの複数のデータ要素に亘って各命令を並列に実行する。例えば、追加命令に応答して、実行ユニットは、テクスチャ要素又は画像要素を表す各カラーチャネルに亘って同時に追加操作を行う。デフォルトでは、実行ユニットは、オペランドの全てのデータチャネルに亘って各命令を実行する。いくつかの実施形態では、命令制御フィールド７１４によって、チャネル選択（例えば、予測）及びデータチャネル順序（例えば、スウィズル（swizzle））等の特定の実行オプションに対する制御が可能になる。１２８ビット命令フォーマット７１０の命令の場合に、実行サイズフィールド７１６は、並列に実行されるデータチャネルの数を制限する。いくつかの実施形態では、実行サイズフィールド７１６は、６４ビット圧縮命令フォーマット７３０での使用に利用できない。

いくつかの実行ユニット命令は、２つのソース（source）オペランド、ｓｒｃ０７２０、ｓｒｃ１７２２、及び１つのデスティネーション（destination）７１８を含む最大３つのオペランドを有する。いくつかの実施形態では、実行ユニットは、デスティネーションの１つが暗示されるデュアルデスティネーション命令をサポートする。データ操作命令は、第３のソースオペランド（例えば、ＳＲＣ２７２４）を有することができ、命令オペコード７１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令と共に渡される即値（ハードコード等）にすることができる。

いくつかの実施形態では、１２８ビット命令フォーマット７１０は、例えば、直接レジスタアドレス指定モード又は間接レジスタアドレス指定モードのどちらが使用されるかを指定するアクセス／アドレスモードフィールド７２６を含む。直接レジスタアドレス指定モードを使用する場合に、１つ又は複数のオペランドのレジスタアドレスは、命令のビットによって直接提供される。

いくつかの実施形態では、１２８ビット命令フォーマット７１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド７２６を含む。一実施形態では、アクセスモードは、命令のデータアクセスアラインメントを規定するために使用される。いくつかの実施形態は、１６バイト整列アクセスモード及び１バイト整列アクセスモードを含むアクセスモードをサポートし、アクセスモードのバイト配置（アライメント）は、命令オペランドのアクセス配置（アライメント）を決定する。例えば、第１のモードでは、命令はソースオペランド及びデスティネーションオペランドにバイト配置のアドレス指定を使用でき、第２のモードでは、命令は全てのソースオペランド及びデスティネーションオペランドに１６バイト配置のアドレス指定を使用できる。

一実施形態では、アクセス／アドレスモードフィールド７２６のアドレスモード部分は、命令が直接又は間接アドレス指定のどちらを使用するかを決定する。直接レジスタアドレス指定モードを使用する場合に、命令のビットは、１つ又は複数のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレス指定モードを使用する場合に、１つ又は複数のオペランドのレジスタアドレスは、命令のアドレスレジスタ値及びアドレス即時フィールドに基づいて計算できる。

いくつかの実施形態では、命令は、オペコード７１２のビットフィールドに基づいてグループ化されて、オペコードデコード７４０を簡素化する。８ビットオペコードの場合に、ビット４、５、及び６により、実行ユニットがオペコードのタイプを決定することができる。示されている正確なオペコードのグループ化は単なる例である。いくつかの実施形態では、移動及び論理オペコードグループ７４２は、データ移動及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。いくつかの実施形態では、移動及び論理グループ７４２は５つの最上位ビット（ＭＳＢ）を共有し、移動（ｍｏｖ）命令は００００ｘｘｘｂの形式であり、論理命令は０００１ｘｘｘｂの形式である。フロー制御命令グループ７４４（例えば、呼び出し、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。他の命令グループ７４６は、００１１ｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む命令の混合を含む。並列数学命令グループ７４８は、コンポーネントに関する算術命令（例えば、加算、乗算（ｍｕｌ））を０１００ｘｘｘｂ（例えば、０ｘ４０）の形式で含む。並列数学グループ７４８は、データチャネルに亘って算術演算を並列に行う。ベクトル数学グループ７５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドに対してドット積計算等の算術を行う。図示のオペコード復号７４０は、一実施形態では、実行ユニットのどの部分を使用して復号された命令を実行するかを決定するために使用することができる。例えば、いくつかの命令は、シストリックアレイによって実行されるシストリック命令として指定される場合がある。光線追跡命令（図示せず）等の他の命令は、実行ロジックのスライス又はパーティション内の光線追跡コア又は光線追跡ロジックにルーティングできる。

グラフィックパイプライン

図８は、グラフィックプロセッサ８００の別の実施形態のブロック図である。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図８の要素は、本明細書の他の場所で説明しているもの同様に動作又は機能することができるが、それに限定されるものではない。

いくつかの実施形態では、グラフィックプロセッサ８００は、幾何学パイプライン８２０、メディアパイプライン８３０、表示エンジン８４０、スレッド実行ロジック８５０、及びレンダリング出力パイプライン８７０を含む。いくつかの実施形態では、グラフィックプロセッサ８００は、１つ又は複数の汎用処理コアを含むマルチコア処理システム内のグラフィックプロセッサである。グラフィックプロセッサは、１つ又は複数の制御レジスタ（図示せず）へのレジスタ書き込みによって、又はリング相互接続８０２を介してグラフィックプロセッサ８００に発せられたコマンドを介して制御される。いくつかの実施形態では、リング相互接続８０２は、グラフィックプロセッサ８００を、他のグラフィックプロセッサ又は汎用プロセッサ等の他の処理コンポーネントに結合する。リング相互接続８０２からのコマンドは、コマンドストリーマ８０３によって解釈され、コマンドストリーマ８０３は、幾何学ストリーマパイプライン８２０又はメディアパイプライン８３０の個々のコンポーネントに命令を供給する。

いくつかの実施形態では、コマンドストリーマ８０３は、メモリから頂点データを読み取り、コマンドストリーマ８０３によって提供される頂点処理コマンドを実行する頂点フェッチャ８０５の動作を指示する。いくつかの実施形態では、頂点フェッチャ８０５は、頂点データを頂点シェーダー８０７に提供し、頂点シェーダー８０７は、座標空間変換及び照明操作を各頂点に対して行う。いくつかの実施形態では、頂点フェッチャ８０５及び頂点シェーダー８０７は、スレッドディスパッチャ８３１を介して実行スレッドを実行ユニット８５２Ａ〜８５２Ｂにディスパッチすることにより、頂点処理命令を実行する。

いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂは、グラフィック及びメディア処理を行うための命令セットを有するベクトルプロセッサのアレイである。いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂは、各アレイに固有であるか、又はアレイ同士の間で共有される、付属のＬ１キャッシュ８５１を有する。キャッシュは、データ及び命令を異なるパーティションに含むようにパーティション化されたデータキャッシュ、命令キャッシュ、又は単一のキャッシュとして構成できる。

いくつかの実施形態では、幾何学パイプライン８２０は、３Ｄオブジェクトのハードウェア加速化テッセレーションを実行するテッセレーションコンポーネントを含む。いくつかの実施形態では、プログラム可能なハル（hull）シェーダー８１１が、テッセレーション操作を構成する。プログラム可能なドメインシェーダー８１７が、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３は、ハルシェーダー８１１の指示で動作し、幾何学パイプライン８２０への入力として提供される粗い幾何学的モデルに基づいて、詳細な幾何学的オブジェクトのセットを生成する特別な目的のロジックを含む。いくつかの実施形態では、テッセレーションが使用されない場合に、テッセレーションコンポーネント（例えば、ハルシェーダー８１１、テッセレータ８１３、ドメインシェーダー８１７）をバイパスできる。

いくつかの実施形態では、完全な幾何学的オブジェクトは、実行ユニット８５２Ａ〜８５２Ｂにディスパッチされた１つ又は複数のスレッドを介して幾何学シェーダー８１９によって処理することができ、又はクリッパー８２９に直接進むことができる。いくつかの実施形態では、幾何学シェーダーは、グラフィックパイプラインの前の段階のような頂点又は頂点のパッチではなく、幾何学的オブジェクト全体で動作する。テッセレーションが無効になっている場合に、幾何学シェーダー８１９は頂点シェーダー８０７から入力を受け取る。いくつかの実施形態では、幾何学シェーダー８１９は、テッセレーションユニットが無効になっている場合に、幾何学テッセレーションを実行するように幾何学シェーダーのプログラムによってプログラム可能である。

ラスタライズの前に、クリッパー８２９は頂点データを処理する。クリッパー８２９は、固定機能クリッパー、又はクリッピング及び幾何学シェーダー機能を有するプログラム可能なクリッパーであり得る。いくつかの実施形態では、レンダリング出力パイプライン８７０のラスタライザ（rasterizer）及び深度テストコンポーネント８７３は、ピクセルシェーダーをディスパッチして、幾何学的オブジェクトをピクセル毎の表現に変換する。いくつかの実施形態では、ピクセルシェーダーロジックはスレッド実行ロジック８５０に含まれる。いくつかの実施形態では、アプリケーションが、ラスタライザ及び深度テストコンポーネント８７３をバイパスし、ストリームアウトユニット８２３を介して非ラスタ化頂点データにアクセスすることができる。

グラフィックプロセッサ８００は、相互接続バス、相互接続ファブリック、又はプロセッサの主要なコンポーネント同士の間でのデータ及びメッセージの受け渡しを可能にするいくつかの他の相互接続機構を有する。いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ８５１、サンプラー８５４、テクスチャキャッシュ８５８等）は、データポート８５６を介して相互接続して、メモリアクセスを実行し、且つプロセッサのレンダリング出力パイプラインコンポーネントと通信する。いくつかの実施形態では、サンプラー８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ〜８５２Ｂはそれぞれ、別個のメモリアクセス経路を有する。一実施形態では、テクスチャキャッシュ８５８は、サンプラーキャッシュとして構成することもできる。

いくつかの実施形態では、レンダリング出力パイプライン８７０は、頂点ベースのオブジェクトを関連するピクセルベースの表現に変換するラスタライザ及び深度テストコンポーネント８７３を含む。いくつかの実施形態では、ラスタライザロジックは、固定機能の三角形及び線のラスタライズを実行するためのウィンドウ処理（windower）／マスク処理（masker）ユニットを含む。いくつかの実施形態では、関連するレンダリングキャッシュ８７８及び深度キャッシュ８７９も利用可能である。ピクセル操作コンポーネント８７７が、ピクセルベースの操作をデータに対して行うが、場合によっては、２Ｄ処理に関連付けられたピクセル操作（例えば、ブレンディングを含むビットブロック画像転送）が、２Ｄエンジン８４１によって実行されるか、又はオーバーレイ表示面を用いてコントローラ８４３によって表示時に置き換えられる。いくつかの実施形態では、共有Ｌ３キャッシュ８７５が、全てのグラフィックコンポーネントに利用可能であり、メインシステムのメモリを使用せずにデータを共有できるようにする。

いくつかの実施形態では、グラフィックプロセッサメディアパイプライン８３０は、メディアエンジン８３７及びビデオフロントエンド８３４を含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受け取る。いくつかの実施形態では、メディアパイプライン８３０は、別個のコマンドストリーマを含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドをメディアエンジン８３７に送信する前にメディアコマンドを処理する。いくつかの実施形態では、メディアエンジン８３７は、スレッドディスパッチャ８３１を介してスレッド実行ロジック８５０にディスパッチするためにスレッドを生成するスレッド生成機能を含む。

いくつかの実施形態では、グラフィックプロセッサ８００は、表示エンジン８４０を含む。いくつかの実施形態では、表示エンジン８４０は、プロセッサ８００の外部にあり、且つリング相互接続８０２或いは他の何らかの相互接続バス又はファブリックを介してグラフィックプロセッサと結合する。いくつかの実施形態では、表示エンジン８４０は、２Ｄエンジン８４１及び表示コントローラ８４３を含む。いくつかの実施形態では、表示エンジン８４０は、３Ｄパイプラインから独立して動作することができる専用ロジックを含む。いくつかの実施形態では、表示コントローラ８４３は、ラップトップコンピュータのようなシステム統合型表示装置、又は表示装置コネクタを介して取り付けられた外部表示装置であり得る表示装置（図示せず）と結合する。

いくつかの実施形態では、幾何学パイプライン８２０及びメディアパイプライン８３０は、複数のグラフィック及びメディアプログラミングインターフェイスに基づいて操作を行うように構成可能であり、且ついずれか１つのアプリケーションプログラミングインターフェイス（ＡＰＩ）に固有ではない。いくつかの実施形態では、グラフィックプロセッサのドライバソフトウェアは、特定のグラフィック又はメディアライブラリに固有のＡＰＩ呼出しを、グラフィックプロセッサが処理できるコマンドに変換する。いくつかの実施形態では、全てがクロノス（Khronos）グループからのオープングラフィックライブラリ（ＯｐｅｎＧＬ）、オープンコンピュータ言語（ＯｐｅｎＣＬ）、及び／又はＶｕｌｋａｎグラフィック及び計算ＡＰＩのサポートが提供される。いくつかの実施形態では、マイクロソフト社のＤｉｒｅｃｔ３Ｄライブラリに対するサポートも提供され得る。いくつかの実施形態では、これらのライブラリの組合せがサポートされ得る。オープンソースのコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）のサポートも提供される。将来のＡＰＩのパイプラインからグラフィックプロセッサのパイプラインへのマッピングを作成できる場合に、互換性のある３Ｄパイプラインを含む将来のＡＰＩもサポートされる。

グラフィックパイプラインプログラミング

図９Ａは、いくつかの実施形態によるグラフィックプロセッサコマンドフォーマット９００を示すブロック図である。図９Ｂは、一実施形態によるグラフィックプロセッサコマンドシーケンス９１０を示すブロック図である。図９Ａの実線のボックスは、グラフィックコマンドに一般的に含まれるコンポーネントを示す一方、破線は、オプションであるコンポーネントを含むか、又はグラフィックコマンドのサブセットにのみ含まれるコンポーネントを含む。図９Ａの例示的なグラフィックプロセッサコマンドフォーマット９００は、クライアント９０２を識別するためのデータフィールド、コマンドオペレーションコード（オペコード）９０４、及びコマンドのデータ９０６を含む。サブオペコード９０５及びコマンドサイズ９０８もいくつかのコマンドに含まれる。

いくつかの実施形態では、クライアント９０２は、コマンドデータを処理するグラフィック装置のクライアントユニットを指定する。いくつかの実施形態では、グラフィックプロセッサのコマンドパーサー（parser）は、各コマンドのクライアントフィールドを調べて、コマンドの更なる処理を条件付けし、コマンドデータを適切なクライアントユニットにルーティングする。いくつかの実施形態では、グラフィックプロセッサクライアントユニットは、メモリインターフェイスユニット、レンダリングユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含む。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有する。クライアントユニットがコマンドを受信すると、クライアントユニットは、オペコード９０４を読み取り、存在する場合にサブオペコード９０５を読み取って、実行すべき操作を決定する。クライアントユニットは、データフィールド９０６の情報を用いてコマンドを実行する。いくつかのコマンドについては、明示的なコマンドサイズ９０８がコマンドのサイズを指定すると予想される。いくつかの実施形態では、コマンドパーサーは、コマンドオペコードに基づいてコマンドの少なくともいくつかのサイズを自動的に決定する。いくつかの実施形態では、コマンドは倍長語（ダブルワード）の倍数を介して整列される。他のコマンド形式を使用できる。

図９Ｂのフロー図は、例示的なグラフィックプロセッサのコマンドシーケンス９１０を示す。いくつかの実施形態では、グラフィックプロセッサの実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィック処理のセットをセットアップ、実行、終了するために、示されるコマンドシーケンスのバージョンを使用する。実施形態がこれらの特定のコマンド又はこのコマンドシーケンスに限定されないので、サンプルコマンドシーケンスが、例示の目的でのみ示され、説明される。さらに、コマンドは、コマンドシーケンスのコマンドのバッチとして発せられ得、それによってグラフィックプロセッサは、コマンドのシーケンスを少なくとも部分的に同時に処理する。

いくつかの実施形態では、グラフィックプロセッサのコマンドシーケンス９１０は、パイプラインフラッシュコマンド９１２で開始し、アクティブなグラフィックパイプラインに、パイプラインの現在保留中のコマンドを完了させることができる。いくつかの実施形態では、３Ｄパイプライン９２２及びメディアパイプライン９２４は、同時に動作しない。パイプラインフラッシュが実行され、アクティブなグラフィックパイプラインに、任意の保留中のコマンドを完了させる。パイプラインフラッシュに応答して、グラフィックプロセッサのコマンドパーサーは、アクティブな描画エンジンが保留中の操作を完了し、関連する読み取りキャッシュが無効になるまで、コマンド処理を一時停止する。オプションで、「ダーティ（dirty）」とマークされているレンダリングキャッシュ内のデータをメモリにフラッシュすることができる。いくつかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン同期のために、又はグラフィックプロセッサを低電力状態にする前に使用することができる。

いくつかの実施形態では、コマンドシーケンスがグラフィックプロセッサにパイプラインを明示的に切り替えることを要求するときに、パイプライン選択コマンド９１３が使用される。いくつかの実施形態では、実行コンテキストが両方のパイプラインに対してコマンドを発するものでない限り、パイプラインコマンドを発する前に、実行コンテキスト内でパイプライン選択コマンド９１３が１回だけ必要である。いくつかの実施形態では、パイプライン選択コマンド９１３を介してパイプラインが切り替わる直前に、パイプラインフラッシュコマンド９１２が必要である。

いくつかの実施形態では、パイプライン制御コマンド９１４は、動作のためにグラフィックパイプラインを構成し、３Ｄパイプライン９２２及びメディアパイプライン９２４をプログラムするために使用される。いくつかの実施形態では、パイプライン制御コマンド９１４は、アクティブなパイプラインのパイプライン状態を構成する。一実施形態では、パイプライン制御コマンド９１４は、パイプライン同期のために、及びコマンドのバッチを処理する前にアクティブなパイプライン内の１つ又は複数のキャッシュメモリからデータをクリアするために使用される。

いくつかの実施形態では、リターンバッファ状態コマンド９１６が、それぞれのパイプラインがデータを書き込むためのリターンバッファのセットを構成するために使用される。いくつかのパイプライン操作では、その中で操作が処理中に中間データを書き込む１つ又は複数のリターンバッファの割り当て、選択、又は構成が必要である。いくつかの実施形態では、グラフィックプロセッサはまた、出力データを格納し、スレッド間通信を行うために、１つ又は複数のリターンバッファを使用する。いくつかの実施形態では、リターンバッファ状態９１６は、パイプライン操作のセットに使用するリターンバッファのサイズ及び数を選択することを含む。

コマンドシーケンスにおける残りのコマンドは、操作のためのアクティブなパイプラインに基づいて異なる。パイプライン決定９２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態９３０で開始する３Ｄパイプライン９２２、又はメディアパイプライン状態９４０で開始するメディアパイプライン９２４に合わせて調整される。

３Ｄパイプライン状態９３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、一定色状態、深度バッファ状態、及び３Ｄプリミティブコマンドを処理する前に構成される他の状態変数のための３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。いくつかの実施形態では、３Ｄパイプライン状態９３０コマンドはまた、それら特定のパイプライン要素が使用されない場合に、特定のパイプライン要素を選択的に無効化又はバイパスすることができる。

いくつかの実施形態では、３Ｄプリミティブ９３２コマンドは、３Ｄパイプラインによって処理すべき３Ｄプリミティブを送信するために使用される。３Ｄプリミティブ９３２コマンドを介してグラフィックプロセッサに渡されるコマンド及び関連パラメータは、グラフィックパイプラインの頂点フェッチ機能に転送される。頂点フェッチ機能は、３Ｄプリミティブ９３２コマンドデータを使用して、頂点データ構造を生成する。頂点データ構造は、１つ又は複数のリターンバッファに格納される。いくつかの実施形態では、３Ｄプリミティブ９３２コマンドを使用して、頂点シェーダーを介して３Ｄプリミティブに対して頂点操作を行う。頂点シェーダーを処理するために、３Ｄパイプライン９２２は、シェーダー実行スレッドをグラフィックプロセッサ実行ユニットにディスパッチする。

いくつかの実施形態では、３Ｄパイプライン９２２は、実行９３４コマンド又はイベントを介してトリガーされる。いくつかの実施形態では、レジスタ書込みがコマンド実行をトリガーする。いくつかの実施形態では、実行は、コマンドシーケンスの「ｇｏ」又は「ｋｉｃｋ」コマンドを介してトリガーされる。一実施形態では、コマンド実行は、グラフィックパイプラインを介してコマンドシーケンスをフラッシュするためにパイプライン同期コマンドを用いてトリガーされる。３Ｄパイプラインは、３Ｄプリミティブの幾何学処理を行う。処理が完了すると、得られた幾何学的オブジェクトがラスタライズされ、ピクセルエンジンが得られたピクセルに色を付ける。ピクセルシェーディング及びピクセルバックエンド処理を制御する追加のコマンドも、これらの処理に含めることができる。

いくつかの実施形態では、グラフィックプロセッサコマンドシーケンス９１０は、メディア処理を行うとき、メディアパイプライン９２４の経路を辿る。一般に、メディアパイプライン９２４のプログラミングの特定の使用及び方法は、実行されるメディア又は計算処理に依存する。特定のメディアデコード処理は、メディアデコード中にメディアパイプラインにオフロードされる場合がある。いくつかの実施形態では、メディアパイプラインをバイパスすることもでき、メディアデコードは、１つ又は複数の汎用処理コアによって提供されるリソースを用いて全体的又は部分的に実行することができる。一実施形態では、メディアパイプラインは、汎用グラフィックプロセッサユニット（ＧＰＧＰＵ）演算のための要素も含み、グラフィックプロセッサは、グラフィックプリミティブのレンダリングに明示的に関連しない計算シェーダープログラムを用いてＳＩＭＤベクトル演算を行うために使用される。

いくつかの実施形態では、メディアパイプライン９２４は、３Ｄパイプライン９２２と同様の方法で構成される。メディアパイプライン状態９４０を構成するコマンドのセットが、メディアオブジェクトコマンド９４２の前にコマンドキューにディスパッチ又は配置される。いくつかの実施形態では、メディアパイプライン状態９４０のためのコマンドが、メディアオブジェクトを処理するために使用されることになるメディアパイプライン要素を構成するためのデータを含む。これには、エンコード又はデコードフォーマット等、メディアパイプライン内のビデオデコード及びビデオエンコードロジックを構成するためのデータが含まれる。いくつかの実施形態では、メディアパイプライン状態９４０のためのコマンドが、状態設定のバッチを含む「間接的な」状態要素への１つ又は複数のポインタの使用もサポートする。

いくつかの実施形態では、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理のためにポインタをメディアオブジェクトに供給する。メディアオブジェクトには、処理すべきビデオデータを含むメモリバッファが含まれる。いくつかの実施形態では、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発する前に有効でなければならない。パイプライン状態が構成され、且つメディアオブジェクトコマンド９４２がキューに入れられると、メディアパイプライン９２４は、実行コマンド９４４又は同等の実行イベント（例えば、レジスタ書込み）を介してトリガーされる。次に、メディアパイプライン９２４からの出力は、３Ｄパイプライン９２２又はメディアパイプライン９２４によって提供される操作によって後処理され得る。いくつかの実施形態では、ＧＰＧＰＵ演算は、メディア処理と同様の方法で構成及び実行される。

グラフィックソフトウェアアーキテクチャ

図１０は、いくつかの実施形態による、データ処理システム１０００の例示的なグラフィックソフトウェアアーキテクチャを示す。いくつかの実施形態では、ソフトウェアアーキテクチャは、３Ｄグラフィックアプリケーション１０１０、オペレーティングシステム１０２０、及び少なくとも１つのプロセッサ１０３０を含む。いくつかの実施形態では、プロセッサ１０３０は、グラフィックプロセッサ１０３２及び１つ又は複数の汎用プロセッサコア１０３４を含む。グラフィックアプリケーション１０１０及びオペレーティングシステム１０２０はそれぞれ、データ処理システムのシステムメモリ１０５０で実行される。

いくつかの実施形態では、３Ｄグラフィックアプリケーション１０１０は、シェーダー命令１０１２を含む１つ又は複数のシェーダープログラムを含む。シェーダー言語命令は、Ｄｉｒｅｃｔ３Ｄの高レベルシェーダー言語（ＨＬＳＬ）、ＯｐｅｎＧＬシェーダー言語（ＧＬＳＬ）等の高レベルシェーダー言語であってもよい。アプリケーションは、汎用プロセッサコア１０３４による実行に適した機械語での実行可能命令１０１４も含む。アプリケーションは、頂点データによって規定されるグラフィックオブジェクト１０１６も含む。

いくつかの実施形態では、オペレーティングシステム１０２０は、マイクロソフト社のマイクロソフト（登録商標）ウィンドウズ（登録商標）オペレーティングシステム、独自のＵＮＩＸ（登録商標）様オペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を用いるオープンソースのＵＮＩＸ（登録商標）様オペレーティングシステムである。オペレーティングシステム１０２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩ等のグラフィックＡＰＩ１０２２をサポートできる。Ｄｉｒｅｃｔ３ＤＡＰＩが使用される場合に、オペレーティングシステム１０２０は、フロントエンドシェーダーコンパイラ１０２４を使用して、ＨＬＳＬの任意のシェーダー命令１０１２を下位レベルのシェーダー言語にコンパイルする。コンパイルはジャストインタイム（ＪＩＴ）コンパイルであるか、又はアプリケーションがシェーダーのプリコンパイルを実行できる。いくつかの実施形態では、高レベルのシェーダーは、３Ｄグラフィックアプリケーション１０１０のコンパイル中に低レベルのシェーダーにコンパイルされる。いくつかの実施形態では、シェーダー命令１０１２は、ＶｕｌｋａｎＡＰＩによって使用される標準のポータブル中間表現（ＳＰＩＲ）のバージョン等の中間形式で提供される。

いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、シェーダー命令１０１２をハードウェア固有の表現に変換するためのバックエンドシェーダーコンパイラ１０２７を含む。ＯｐｅｎＧＬＡＰＩが使用される場合に、ＧＬＳＬ高レベル言語のシェーダー命令１０１２が、コンパイルのためにユーザモードグラフィックドライバ１０２６に渡される。いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、オペレーティングシステムカーネルモード機能１０２８を使用して、カーネルモードグラフィックドライバ１０２９と通信する。いくつかの実施形態では、カーネルモードグラフィックドライバ１０２９は、グラフィックプロセッサ１０３２と通信して、コマンド及び命令をディスパッチする。

ＩＰコアの実装

少なくとも１つの実施形態の１つ又は複数の態様は、プロセッサ等の集積回路内の論理を表す及び／又は規定する、機械可読媒体に格納された代表的なコードによって実装され得る。例えば、機械可読媒体は、プロセッサ内の様々な論理を表す命令を含み得る。機械によって読み取られるとき、命令は、機械に、本明細書で説明している技術を実行するためのロジックを作成させることができる。「ＩＰコア」として知られるそのような表現は、集積回路の構造を記述するハードウェアモデルとして有形の機械可読媒体に格納され得る、集積回路の再利用可能な論理ユニットである。ハードウェアモデルは、様々な顧客又は製造施設に供給され、顧客又は製造施設によって、集積回路を製造する製造機械にハードウェアモデルがロードされる。集積回路は、回路が、本明細書で説明する実施形態のいずれかに関連して説明している処理を行うように製造することができる。

図１１Ａは、一実施形態による、処理を行うための集積回路を製造するために使用され得るＩＰコア開発システム１１００を示すブロック図である。ＩＰコア開発システム１１００を使用して、より大きな設計に組み込むことができる、又は集積回路全体（例えば、ＳＯＣ集積回路）を構築するのに使用できるモジュール式の再利用可能な設計を生成することができる。設計設備１１３０は、高レベルプログラミング言語（例えば、Ｃ／Ｃ＋＋）でＩＰコア設計のソフトウェアシミュレーション１１１０を生成することができる。ソフトウェアシミュレーション１１１０は、シミュレーションモデル１１１２を用いて、ＩＰコアの動作を設計、テスト、及び検証するために使用することができる。シミュレーションモデル１１１２は、機能、動作、及び／又はタイミングシミュレーションを含み得る。次に、レジスタ転送レベル（ＲＴＬ）設計１１１５をシミュレーションモデル１１１２から作成又は合成することができる。ＲＴＬ設計１１１５は、モデル化されたデジタル信号を用いて実行される関連するロジックを含む、ハードウェアレジスタ同士の間のデジタル信号の流れをモデル化する集積回路の動作を抽象化したものである。ＲＴＬ設計１１１５に加えて、論理レベル又はトランジスタレベルでのより低いレベルの設計も、作成、設計、又は合成され得る。こうして、初期設計及びシミュレーションの特定の詳細は異なる場合がある。

ＲＴＬ設計１１１５又は同等物は、設計設備によって、ハードウェア記述言語（ＨＤＬ）又は物理的設計データの他の何らかの表現であり得るハードウェアモデル１１２０にさらに合成され得る。ＨＤＬをさらにシミュレーション又はテストして、ＩＰコアの設計を検証できる。ＩＰコア設計は、不揮発性メモリ１１４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて、サードパーティの製造施設１１６５への配信のために格納することができる。あるいはまた、ＩＰコア設計は、有線接続１１５０又は無線接続１１６０を介して（例えば、インターネットを介して）送信してもよい。次に、製造施設１１６５は、ＩＰコア設計に少なくとも部分的に基づく集積回路を製造し得る。製造された集積回路は、本明細書で説明する少なくとも１つの実施形態に従って処理を行うように構成され得る。

図１１Ｂは、本明細書で説明するいくつかの実施形態による集積回路パッケージアセンブリ１１７０の側断面図を示す。集積回路パッケージアセンブリ１１７０は、本明細書で説明するような１つ又は複数のプロセッサ又はアクセラレータ装置の実装を示す。パッケージアセンブリ１１７０は、基板１１８０に接続されたハードウェアロジック１１７２、１１７４の複数のユニットを含む。ロジック１１７２、１１７４は、構成可能なロジック又は固定機能ロジックハードウェアで少なくとも部分的に実装され得、且つ本明細書で説明するプロセッサコア、グラフィックプロセッサ、又は他のアクセラレータ装置のいずれかの１つ又は複数の部分を含み得る。ロジック１１７２、１１７４の各ユニットは、半導体ダイ内に実装され、相互接続構造１１７３を介して基板１１８０と結合することができる。相互接続構造１１７３は、ロジック１１７２、１１７４と基板１１８０との間で電気信号をルーティングするように構成され得、限定されないが、バンプ又はピラー等の相互接続を含むことができる。いくつかの実施形態では、相互接続構造１１７３は、例えば、ロジック１１７２、１１７４の処理に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力又は接地信号等の電気信号をルーティングするように構成され得る。いくつかの実施形態では、基板１１８０は、エポキシベースの積層基板である。他の実施形態では、基板１１８０は、他の適切なタイプの基板を含み得る。パッケージアセンブリ１１７０は、パッケージ相互接続１１８３を介して他の電気装置に接続することができる。パッケージ相互接続１１８３を基板１１８０の表面に結合して、マザーボード、他のチップセット、又はマルチチップモジュール等の他の電気装置に電気信号をルーティングすることができる。

いくつかの実施形態では、ロジック１１７２、１１７４のユニットは、ロジック１１７２、１１７４の間で電気信号をルーティングするように構成されたブリッジ１１８２と電気的に結合される。ブリッジ１１８２は、電気信号の経路を提供する高密度相互接続構造であり得る。ブリッジ１１８２は、ガラス又は適切な半導体材料から構成されるブリッジ基板を含み得る。電気ルーティング機能をブリッジ基板上に形成して、ロジック１１７２、１１７４の間のチップ間接続を提供できる。

ロジック１１７２、１１７４の２つのユニット及びブリッジ１１８２が示されているが、本明細書で説明する実施形態は、１つ又は複数のダイ上により多い又はより少ない論理ユニットを含むことができる。ロジックが単一のダイに含まれる場合に、ブリッジ１１８２は除外され得るため、１つ又は複数のダイは、ゼロ又はそれ以上のブリッジによって接続され得る。あるいはまた、複数のダイ又はロジックのユニットを１つ又は複数のブリッジによって接続できる。さらに、複数の論理ユニット、ダイ、及びブリッジを、３次元構成を含む他の可能な構成で一緒に接続できる。

図１１Ｃは、基板１１８０（例えば、ベースダイ）に接続されたハードウェア論理チップレットの複数のユニットを含むパッケージアセンブリ１１９０を示す。本明細書で説明するようなグラフィック処理ユニット、並列プロセッサ、及び／又は計算アクセラレータは、別々に製造される多様なシリコンチップレットから構成することができる。この文脈では、チップレットは、他のチップレットと共に大きなパッケージに組み立てることができるロジックの個別のユニットを含む、少なくとも部分的にパッケージ化された集積回路である。異なるＩＰコアロジックを含むチップレットの多様なセットを単一のデバイスに組み立てることができる。さらに、アクティブなインターポーザー技術を用いて、チップレットをベースダイ又はベースチップレットに統合できる。本明細書で説明する概念によって、ＧＰＵ内の様々なＩＰの形式の間の相互接続及び通信が可能になる。ＩＰコアは、様々なプロセス技術を用いて製造し、製造中に構成できるため、複数のＩＰを、特に複数のフレーバー（flavors）ＩＰを含む大規模なＳｏＣで同じ製造プロセスに集約する複雑さを回避できる。複数のプロセス技術を使用できるようにすることで、製品化までの時間が短縮され、複数の製品ＳＫＵを形成する費用効果の高い方法が提供される。さらに、集約解除された（disaggregated）ＩＰは独立してパワーゲーティング（power gated）され易くなり、所与のワークロードで使用されていないコンポーネントの電源をオフにできるため、全体的な電力消費を削減できる。

ハードウェア論理チップレットは、専用ハードウェア論理チップレット１１７２、論理又はＩ／Ｏチップレット１１７４、及び／又はメモリチップレット１１７５を含み得る。ハードウェア論理チップレット１１７２及び論理又はＩ／Ｏチップレット１１７４は、少なくとも部分的に構成可能なロジック又は固定機能ロジックハードウェアで実装され得、且つ本明細書で説明するプロセッサコア、グラフィックプロセッサ、並列プロセッサ、又は他のアクセラレータ装置のいずれかの１つ又は複数の部分を含むことができる。メモリチップレット１１７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリとすることができる。

各チップレットは、別個の半導体ダイとして製造され、且つ相互接続構造１１７３を介して基板１１８０と結合され得る。相互接続構造１１７３は、基板１１８０内の様々なチップレットとロジックとの間で電気信号をルーティングするように構成され得る。相互接続構造１１７３は、バンプ又はピラー等であるがこれらに限定されない相互接続を含むことができる。いくつかの実施形態では、相互接続構造１１７３は、例えば、論理、Ｉ／Ｏ及びメモリチップレットの処理に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力又は接地信号等の電気信号をルーティングするように構成され得る。

いくつかの実施形態では、基板１１８０は、エポキシベースの積層基板である。他の実施形態では、基板１１８０は、他の適切なタイプの基板を含み得る。パッケージアセンブリ１１９０は、パッケージ相互接続１１８３を介して他の電気装置に接続することができる。パッケージ相互接続１１８３を基板１１８０の表面に結合して、マザーボード、他のチップセット、又はマルチチップモジュール等の他の電気装置に電気信号をルーティングすることができる。

いくつかの実施形態では、論理又はＩ／Ｏチップレット１１７４及びメモリチップレット１１７５は、論理又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間で電気信号をルーティングするように構成されるブリッジ１１８７を介して電気的に結合され得る。ブリッジ１１８７は、電気信号の経路を提供する高密度相互接続構造であり得る。ブリッジ１１８７は、ガラス又は適切な半導体材料から構成されるブリッジ基板を含み得る。電気ルーティング機能をブリッジ基板上に形成して、論理又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間にチップ間接続を提供できる。ブリッジ１１８７は、シリコンブリッジ又は相互接続ブリッジとも呼ばれ得る。例えば、いくつかの実施形態では、ブリッジ１１８７は、埋込み型マルチダイ相互接続ブリッジ（ＥＭＩＢ）である。いくつかの実施形態では、ブリッジ１１８７は、単にあるチップレットから別のチップレットへの直接接続であり得る。

基板１１８０は、Ｉ／Ｏ１１９１、キャッシュメモリ１１９２、及び他のハードウェアロジック１１９３のためのハードウェアコンポーネントを含むことができる。ファブリック１１８５を基板１１８０に埋め込んで、様々な論理チップレットと基板１１８０内のロジック１１９１、１１９３との間の通信を可能にする。一実施形態では、Ｉ／Ｏ１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェアロジック１１９３は、基板１１８０の上に積層されたベースダイに統合することができる。

様々な実施形態において、パッケージアセンブリ１１９０は、ファブリック１１８５或いは１つ又は複数のブリッジ１１８７によって相互接続されるより少ない又はより多い数のコンポーネント及びチップレットを含むことができる。パッケージアセンブリ１１９０内のチップレットは、３Ｄ又は２．５Ｄ構成で配置され得る。一般に、ブリッジ構造１１８７を使用して、例えば、論理又はＩ／Ｏチップレットとメモリチップレットとの間のポイント間相互接続を容易にすることができる。ファブリック１１８５を使用して、様々な論理及び／又はＩ／Ｏチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を他の論理及び／又はＩ／Ｏチップレットと相互接続することができる。一実施形態では、基板内のキャッシュメモリ１１９２は、パッケージアセンブリ１１９０のグローバルキャッシュ、分散型グローバルキャッシュの一部、又はファブリック１１８５の専用キャッシュとして機能することができる。

図１１Ｄは、一実施形態による、交換可能なチップレット１１９５を含むパッケージアセンブリ１１９４を示す。交換可能なチップレット１１９５は、１つ又は複数のベースチップレット１１９６、１１９８の標準化されたスロット内に組み付けることができる。ベースチップレット１１９６、１１９８は、本明細書で説明する他のブリッジ相互接続に類似し得る又は例えばＥＭＩＢであり得るブリッジ相互接続１１９７を介して結合できる。メモリチップレットは、ブリッジ相互接続を介して論理又はＩ／Ｏチップレットに接続することもできる。Ｉ／Ｏ及び論理チップレットは、相互接続ファブリックを介して通信できる。ベースチップレットはそれぞれ、ロジック又はＩ／Ｏ又はメモリ／キャッシュのいずれかに対して、標準化されたフォーマットで１つ又は複数のスロットをサポートできる。

一実施形態では、ＳＲＡＭ及び電力供給回路を、１つ又は複数のベースチップレット１１９６、１１９８に製造することができ、これは、ベースチップレットの上に積み重ねられる交換可能なチップレット１１９５とは異なるプロセス技術を用いて製造することができる。例えば、ベースチップレット１１９６、１１９８は、より大きなプロセス技術を用いて製造することができる一方、交換可能なチップレットは、より小さなプロセス技術を用いて製造することができる。交換可能なチップレット１１９５のうちの１つ又は複数は、メモリ（例えば、ＤＲＡＭ）チップレットであり得る。電力及び／又はパッケージアセンブリ１１９４を使用する製品を対象とする性能に基づいて、パッケージアセンブリ１１９４に異なるメモリ密度を選択できる。さらに、様々なタイプ数の機能ユニットを含む論理チップレットを、製品の対象となる電力及び／又は能力に基づいて組立時に選択することができる。さらに、異なるタイプのＩＰ論理コアを含むチップレットを交換可能なチップレットのスロットに挿入できるため、異なる技術のＩＰブロックを組み合わせて使用できるハイブリッドプロセッサ設計が可能になる。

チップ集積回路の例示的なシステム

図１２〜図１３は、本明細書で説明する様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連するグラフィックプロセッサを示す。図示されているものに加えて、追加のグラフィックプロセッサ／コア、周辺機器インターフェイスコントローラ、又は汎用プロセッサコアを含む他のロジック及び回路が含まれ得る。

図１２は、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るチップ集積回路１２００上の例示的なシステムを示すブロック図である。例示的な集積回路１２００は、１つ又は複数のアプリケーションプロセッサ１２０５（例えば、ＣＰＵ）、少なくとも１つのグラフィックプロセッサ１２１０を含み、さらに、画像プロセッサ１２１５及び／又はビデオプロセッサ１２２０を含むことができ、それらのいずれも同じ又は複数の異なる設計施設のモジュール式ＩＰコアとすることができる。集積回路１２００は、ＵＳＢコントローラ１２２５、ＵＡＲＴコントローラ１２３０、ＳＰＩ／ＳＤＩＯコントローラ１２３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１２４０を含む周辺機器又はバスロジックを含む。さらに、集積回路は、高解像度マルチメディアインターフェイス（ＨＤＭＩ（登録商標））コントローラ１２５０及びモバイル産業プロセッサインターフェイス（ＭＩＰＩ）表示インターフェイス１２５５のうちの１つ又は複数に結合された表示装置１２４５を含み得る。ストレージは、フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム１２６０によって提供してもよい。メモリインターフェイスは、メモリコントローラ１２６５を介してＳＤＲＡＭ又はＳＲＡＭメモリ装置にアクセスするために提供され得る。いくつかの集積回路は、埋込み型セキュリティエンジン１２７０をさらに含む。

図１３Ａ〜図１３Ｂは、本明細書で説明する実施形態による、ＳｏＣ内で使用するための例示的なグラフィックプロセッサを示すブロック図である。図１３Ａは、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るシステムオンチップ集積回路の例示的なグラフィックプロセッサ１３１０を示す。図１３Ｂは、一実施形態による、１つ又は複数のＩＰコアを用いて製造することができるシステムオンチップ集積回路の追加の例示的なグラフィックプロセッサ１３４０を示す。図１３Ａのグラフィックプロセッサ１３１０は、低電力グラフィックプロセッサコアの例である。図１３Ｂのグラフィックプロセッサ１３４０は、高性能グラフィックプロセッサコアの例である。グラフィックプロセッサ１３１０、１３４０のそれぞれは、図１２のグラフィックプロセッサ１２１０の変形であり得る。

図１３Ａに示されるように、グラフィックプロセッサ１３１０は、頂点プロセッサ１３０５及び１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎ（例えば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄから１３１５Ｎ−１、及び１３１５Ｎ）を含む。グラフィックプロセッサ１３１０は、個別のロジックを介して異なるシェーダープログラムを実行できるため、頂点プロセッサ１３０５は頂点シェーダープログラムの動作を行うように最適化される一方、１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎはフラグメント又はピクセルシェーダープログラムのフラグメント（例えば、ピクセル）シェーディング処理を行う。頂点プロセッサ１３０５は、３Ｄグラフィックパイプラインの頂点処理段階を実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、頂点プロセッサ１３０５によって生成されたプリミティブ及び頂点データを使用して、表示装置に表示されるフレームバッファを生成する。一実施形態では、フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、ＯｐｅｎＧＬＡＰＩで提供されるようなフラグメントシェーダープログラムを実行するように最適化され、これは、Ｄｉｒｅｃｔ３ＤＡＰＩで提供されるようなピクセルシェーダープログラムと同様の処理を行うために使用され得る。

グラフィックプロセッサ１３１０は、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路相互接続１３３０Ａ〜１３３０Ｂをさらに含む。１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、１つ又は複数のキャッシュ１３２５Ａ〜１３２５Ｂに格納された頂点又は画像／テクスチャデータに加えて、メモリに格納された頂点又は画像／テクスチャデータを参照することができる頂点プロセッサ１３０５及び／又はフラグメントプロセッサ１３１５Ａ〜１３１５Ｎを含む、グラフィックプロセッサ１３１０の仮想アドレスから物理アドレスへのマッピングを提供する。一実施形態では、１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、図１２の１つ又は複数のアプリケーションプロセッサ１２０５、画像プロセッサ１２１５、及び／又はビデオプロセッサ１２２０に関連する１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期することができ、それによって各プロセッサ１２０５〜１２２０は共有又は統合された仮想メモリシステムに参加できる。実施形態によれば、１つ又は複数の回路相互接続１３３０Ａ〜１３３０Ｂによって、グラフィックプロセッサ１３１０が、ＳｏＣの内部バスを介して又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェイス接続することが可能になる。

図１３Ｂに示されるように、グラフィックプロセッサ１３４０は、図１３Ａのグラフィックプロセッサ１３１０の１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路相互接続１３３０Ａ〜１３３０Ｂを含む。グラフィックプロセッサ１３４０は、１つ又は複数のシェーダーコア１３５５Ａ〜１３５５Ｎ（例えば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆから１３５５Ｎ−１、１３５５Ｎ）を含み、これは統合されたシェーダーコアアーキテクチャを提供し、このアーキテクチャでは、単一のコア又はタイプ又はコアが、頂点シェーダー、フラグメントシェーダー、及び／又は計算シェーダーを実装するシェーダープログラムコードを含む、全てのタイプのプログラム可能なシェーダーコードを実行できる。存在するシェーダーコアの正確な数は、実施形態及び実施態様によって異なり得る。さらに、グラフィックプロセッサ１３４０はコア間タスクマネージャー１３４５を含み、このマネージャー１３４５は１つ又は複数のシェーダーコア１３５５Ａ〜１３５５Ｎ及びタイリングユニット１３５８に実行スレッドをディスパッチするスレッドディスパッチャとして機能し、タイルベースのレンダリングのタイリング処理を加速させ、シーンのレンダリング処理は、例えば、シーン内のローカル空間コヒーレンスを活用する、又は内部キャッシュの使用を最適化するために、イメージ空間で細分化される。

ベクトル正規化処理を行うための命令

本明細書で説明する実施形態では、ベクトル正規化処理を行うために複数のタイプのＩＳＡ命令を必要とするのではなく、新しいベクトル正規化命令が、新しいＩＳＡ命令（例えば、ＶＮＭ＜First Input Register＞＜First Output Register＞）として導入されることが提案される。このようにして、ＶＮＭ命令がグラフィックハードウェアによって内部で分解又は他に表される様々な操作及びその実行は、以下でさらに説明するように最適化することができる。

図１４は、ベクトル正規化処理１４００を行う際に含まれる３つのステップを概念的に示す。ベクトルＶ^→の正規化ベクトルＮ^→は、同じ方向のベクトルであるが、ノルム（長さ）が１である。Ｖ^→が成分ベクトルＡ^→、Ｂ^→及びＣ^→を有する３成分ベクトルであると仮定すると、ここで、Ａ^→、Ｂ^→、及びＣ^→は、ｘ、ｙ、及びｚ方向の直交成分ベクトルであり、Ｖ^→＝Ａ^→＋Ｂ^→＋Ｃ^→であり、Ｎ^→は次のように表すことができる。

図１４に示されるように、ベクトル正規化処理を行うための３つのステップには、（ｉ）成分ベクトルのドット積（１４１０）を実行すること、（ｉｉ）成分ベクトルのドット積の和の逆平方根（reciprocal square root）（１４２０）を実行すること、及び（ｉｉｉ）ベクトルスケーリング（１４３０）−成分ベクトルとステップ（ｉｉ）で計算された逆平方根との乗算が含まれる。

図１６を参照して以下でさらに説明するように、Ｓ（つまり、ベクトル長さの２乗）を計算するための現在のハードウェア実装の１つは、８ワイド単一命令複数データ（ＳＩＭＤ）乗算命令（例えば、ＳＩＭＤ８ＭＵＬ）を用いて、Ｄ＝Ａ^２を計算し、そして２つのＳＩＭＤ８乗算加算（multiply add）命令（つまり、ＳＩＭＤ８ＭＡＤ）を用いてＥ＝Ｄ＋Ｂ^２を計算し、次にＳ＝Ｅ＋Ｃ^２を計算する。

シェーダーユニット

図１５は、一実施形態による、ＧＰＵ１５００のシェーダーユニット１５１０の高レベルの簡略化されたビューを示すブロック図である。本明細書で説明する様々な例の文脈では、ＧＰＵ１５００内のシェーダーユニット１５１０等のシェーダーユニット（本明細書では実行ユニット又はＥＵとも呼ばれる）は、マルチスレッドＳＩＭＤプロセッサユニットとして実装される。典型的に、各シェーダーユニットには、数あるシェーダーユニット機能の中でも、拡張数学演算（例えば、サイン、コサイン、平方根、逆平方根、逆元（inverse）／逆数（reciprocal）、２を底とする対数、基数２の指数、べき乗等の超越演算等）を実行する少なくとも２つの処理ユニット（例えば、浮動小数点ユニット（ＦＰＵ）１５１１、算術論理演算ユニット（ＡＬＵ）、及びコプロセッサ１５１２）、スレッドアービタユニット（図示せず）、及びスレッド毎の汎用レジスタファイル（ＧＲＦ）１５１３が含まれる。一実施形態によれば、ＦＰＵ１５１１は、ＳＩＭＤ８ＦＰＵであり、コプロセッサ１５１２は、ＳＩＭＤ２実行ユニットである。

図１６は、ＭＵＬ、ＭＡＤ、及びＲＳＱ命令を用いたベクトル正規化処理のスループットを示している。既存のＧＰＵは、複数の命令を使用してシェーダーコードを処理する。例えば、上記のように、様々なシナリオの多くの３Ｄゲーム及びグラフィックアプリケーションで頻繁に使用されるベクトル正規化は、１つ又は複数の演算によってグラフィックＡＰＩで表されるが、コンパイラーによって、基礎となるコンピューターアーキテクチャの抽象的なモデルを表す、ＩＳＡによってサポートされる一連の命令に変換される。ここでは、新しく提案する単一のＩＳＡベクトル正規化命令のパフォーマンス向上を評価する目的で、クロックあたりの命令（ＩＰＣ）に関するスループットを、（ベクトル正規化が次の７つの命令で表される）ＩＳＡと比較する。
・ドット積（ＳＩＭＤ８）：ＭＵＬ、ＭＡＤ、ＭＡＤ
・逆平方根（ＳＩＭＤ８）：数学（ＭＡＴＨ）、
・ベクトルスケーリング（ＳＩＭＤ８）：ＭＵＬ、ＭＵＬ、ＭＵＬ。

この例の文脈では、ＳＩＭＤ８ＦＰＵ１６１０及びＳＩＭＤ２コプロセッサ１６２０は、（各ブロックが１つのクロックサイクルを表す）８個のベクトルに対してベクトル正規化処理を行うために、上記の７つの命令を並列に実行して示されている。この例では、灰色のブロックが１つのスレッドに関連付けられ、塗りつぶされていないブロックが別のスレッドに関連付けられる。第１のスレッドの３成分ＳＩＭＤ８ドット積演算１６１１は、ＦＰＵ１６１０で実行されるＳＩＭＤ８ＭＵＬ、ＳＩＭＤ８ＭＡＤ、及びＳＩＭＤ８ＭＡＤによって表される。ドット積演算１６１１の結果（８乗のベクトル長さ）が利用可能になると、４つの連続的な（back-to-back：引き続いて行われる）ＳＩＭＤ２ＲＳＱ演算によって表され３成分ＳＩＭＤ８逆平方根ＭＡＴＨ／ＲＳＱＲＴ（又はＲＳＱ）演算１６２１が、コプロセッサ１６２０上で実行されて、ＳＩＭＤ８スループットを得る。ＭＡＴＨ／ＲＳＱＲＴ演算１６２１の結果が利用可能になると、それら結果は、３つのＳＩＭＤ８ＭＵＬ演算を行うことによって、ＦＰＵ１６１０上で行われるベクトルスケーリング演算１６１３によって使用される。ＭＡＴＨ／ＲＳＱＲＴ演算１６２１がコプロセッサ１６２０によって実行されている間に、別のスレッドが正規化すべき次の８個のベクトルの２乗ベクトル長さを計算するための３成分ＳＩＭＤ８ドット積演算１６１２は、ＦＰＵ１６１０で並列に起動できる。同様に、ベクトルスケーリング演算１６１３がＦＰＵ１６１０で実行されている間に、（他のスレッドからの）別のＲＳＱ命令のセットをコプロセッサ１６２０上で並列に起動して、対応するドット積演算１６１２からの結果に対してＭＡＴＨ／ＲＳＱＲＴ演算１６２２を行うことができる。

前述したことに基づいて、ＳＩＭＤ８ベクトル正規化処理を計算するために、ＦＰＵ１６１０は６クロックを使用し、コプロセッサ１６２０は４クロックを使用する。そうして、スループットの観点から見ると、ＦＰＵ１６１０は、より多くのクロックを必要とするため、リミッターになる。従って、上記のベクトル正規化処理の実行のスループット（つまり、ＩＰＣ）は、６クロックでの１つのＳＩＭＤ８ベクトル正規化命令、つまり０．１６７のＩＰＣである。

Ｓ＝Ａ^２＋Ｂ^２＋Ｃ^２の最適化計算

一実施形態によれば、Ｓ（ベクトル長さの２乗）の計算は、新しいベクトル正規化命令の一部として、３成分ドット積Ｓを実行することによって改善される。この文脈では、ベクトル正規化が単一の命令と見なされているため、３つの乗算器を並列に使用でき、３つの入力の加算器を使用して３つの乗算の結果を合計できる。図１９及び図２０を参照して以下でさらに説明するように、面積及び電力の検討事項を考慮して、一実施形態では、この３成分のドット積演算（ＤＰ３）は、ＧＰＵハードウェアの実行パイプラインでＳＩＭＤ２演算として実行され、４回繰り返してＳＩＭＤ８結果を得るが、これは１つのＳＩＭＤ８ＭＵＬ及び２つのＳＩＭＤ８ＭＡＤ演算を用いた上記の実行とは対照的である。一実施形態では、ＳＩＭＤ２ＤＰ３演算は、並列処理すべき２個のベクトルの２セットの入力成分ベクトルがそこから読み取られ、且つ２つの出力（それぞれの２乗ベクトル長さ）が図１７を参照して以下でさらに説明するように出力される特定のレジスタレイアウトを使用して実行される。

特定の実施態様に応じて、乗算が２乗演算に制限されるため、乗算器の更なる最適化を実現できる。例えば、Michael J. Schulteらによる“High-Speed Inverse Square Roots（in ARITH ’99 Proceedings of the 14th IEEE Symposium on Computer Arithmetic）”のセクション２．２で説明されている特殊な平方単位を参照されたい。

レジスタレイアウト

図１７は、一実施形態による、ＳＩＭＤ８ＤＰ３演算を行うために、ＳＩＭＤ２ＤＰ３演算の２セットの入力１７５５及び１７６５及び２つの出力１７５０及び１７６０を４個のレジスタ１７１０、１７２０、１７３０及び１７４０に格納するためのレジスタレイアウト１７００を示す。この例の文脈において、少なくとも１つの新規の特徴は、レジスタ１７１０、１７２０、１７３０、及び１７４０を使用して、それぞれのＳＩＭＤ２ＤＰ３演算の入力を格納するとともに、それぞれのＳＩＭＤ２ＤＰ３演算の出力結果を格納することである。

一実施形態によれば、Ｓ（２乗ベクトル長さ）は、図２０を参照して以下でさらに説明するように、レジスタレイアウト１７００を用いて演算を４回繰り返すことにより、ＳＩＭＤ８ＦＰＵユニットに対する３成分ドット積ＳＩＭＤ２命令として計算できる。この例の文脈では、各レジスタ１７１０、１７２０、１７３０及び１７４０は、２つの異なるベクトルのそれぞれの成分ベクトル１７７０ａ〜ｃ及び１７８０ａ〜ｃを表す２セットの入力（すなわち、第１の入力セット１７５５及び第２の入力セット１７６５）を含み、３成分のドット積（ＤＰ３）、Ｓ＝Ａ^２＋Ｂ^２＋Ｃ^２を計算することができる。例えば、２セットの２５６ビットのレジスタには、３２ビットの浮動小数点Ａ、Ｂ、Ｃ成分ベクトル値（ＳＩＭＤ２）を含めることができ、これは、２５６ビットレジスタのうちの１９２ビットを占める。残りの６４ビットは、ＤＰ３演算を用いてＳを計算するための入力を取得する間に、最初は利用されないが、ＤＰ３演算の出力（つまり、第１の出力１７５０及び第２の出力１７６０）を格納するために使用できる。

この例の文脈では、そのような４個の２５６ビットレジスタ（例えば、レジスタ１７１０、１７２０、１７３０、及び１７４０）を、４つのＳＩＭＤ２ＤＰ３命令の入力として使用することができる。演算Ｓの結果は、ＳＩＭＤ２値として同じ２５６ビットレジスタの６４ビット部分（例えば、第１の出力１７５０及び第２の出力１７６０を表す２セットの３２ビット浮動小数点値）（この部分は、ＤＰ３演算への入力を受けている間には使用されなかった）に書き込むことができる。そうして、４個の２５６ビットレジスタの６４ビット部分（例えば、第１の出力１７５０及び第２の出力１７６０）を使用して、（ＳＩＭＤ８Ｓの計算に使用される）４つのＳＩＭＤ２ＤＰ３演算の出力を格納できる。

この例の文脈では、一度に８個のベクトルのベクトル正規化をサポートする特定の実施態様の具体例を与えるために、特定のレジスタサイズと入力及び出力サイズとが指定されているが、当業者は、追加のより多い又は少ないベクトル及び／又は精度の低い要件に対応するためにサイズを増減できることを理解するだろう。同様に、より多い又は少ないセットの入力、出力、及びレジスタセットを使用してもよく、レジスタ内のデータの順序付け及び位置付けは、図示されたもの以外であってもよい。例えば、ＳＩＭＤ１６ベクトル正規化処理は、８個のレジスタを用いて８つの連続的なＳＩＭＤ２ＤＰ３命令を実行することで、４個のレジスタ（４セットの成分ベクトル入力を含む）を用いて４つの連続的なＳＩＭＤ４ＤＰ３を実行することで、又は２つのレジスタ（８セットの成分ベクトル入力を含む）を用いて２つの連続したＳＩＭＤ８ＤＰ３命令を実行することでサポートできる。

図１８は、一実施形態による、ＳＩＭＤ８ＲＳＱＶＳ演算を行うために、ＳＩＭＤ２ＲＳＱＶＳ演算の２セットの出力１８５０及び１８６０を４個のレジスタ１８１０、１８２０、１８３０及び１８４０に格納するためのレジスタレイアウト１８００を示す。以下でさらに説明するように、一実施形態では、逆平方根関数及びベクトルスケーリング関数を単一のＳＩＭＤ２逆平方根及びベクトルスケーリング（ＲＳＱＶＳ）命令に組み合わせることができる。さらに、従来の逆平方根の実装を使用してもよく、又は図２１Ａ〜図３０を参照して説明するように、最適化された逆平方根計算を使用してもよい。

以下でさらに詳細に説明するように、一実施形態では、ＲＳＱＶＳ演算（本明細書ではＲＮ_Ａ ^→Ｎ_Ｂ ^→Ｎ_Ｃ ^→とも呼ばれる）は、入力成分ベクトルＡ，Ｂ，Ｃ及び出力２乗ベクトル長さＳの特定のデータ編成規則を用いて演算を４回繰り返することにより、ＳＩＭＤ２処理ユニット（例えば、ＳＩＭＤ２コプロセッサ）での逆平方根関数とベクトルスケーリング関数との組合せを表す、最適化された組合せＳＩＭＤ２命令として計算することができる。例えば、入力成分ベクトルＡ、Ｂ、及びＣと、出力２乗ベクトル長さＳとは、図１７を参照して上述したレジスタレイアウト１７００に従って編成され得る。

この例の文脈では、入力成分ベクトルＡ，Ｂ，Ｃと、出力２乗ベクトル長さＳとが、４つのＳＩＭＤ２ＲＮ_Ａ ^→Ｎ_Ｂ ^→Ｎ_Ｃ ^→（ＲＳＱＶＳ）演算への入力として８個のベクトルのそれぞれで利用可能であり、ＳＩＭＤ８ＲＮ_Ａ ^→Ｎ_Ｂ ^→Ｎ_Ｃ ^→（ＲＳＱＶＳ）演算を形成すると想定している。データ編成は、図１７に関して説明したとおり又は別のデータ編成であってよい。

この例の文脈では、４つのＳＩＭＤ２ＲＳＱＶＳ演算から得られる第１の出力セット１８５０及び第２の出力セット１８６０（それぞれが正規化成分ベクトルＮ_Ａ ^→、Ｎ_Ｂ ^→、Ｎ_Ｃ ^→の１セットの３２ビット浮動小数点値を含む）は、ＳＩＭＤ２Ｎ_Ａ ^→Ｎ_Ｂ ^→Ｎ_Ｃ ^→として４個のそれぞれの出力レジスタ１８１０、１８２０、１８３０、及び１８４０に書き込むことができる。このようにして、レジスタ１８１０は、８個のベクトルのうちの２個について、成分ベクトルの第１の成分ベクトルセット（例えば、図１７の第１の入力セット１７５５）及び第２の正規化成分ベクトルセット（例えば、図１７の第２の入力セット１７６５）を含み、レジスタ１８２０、１８３０、及び１８４０は、他の６つのベクトルの正規化成分ベクトルを含む。一実施形態では、レジスタ１８１０、１８２０、１８３０、及び１８４０は、２５６ビットレジスタであり、そのうちの９６ビットが、第１の出力セット１８５０を格納するために使用され、９６ビットが第２の出力セット１８６０を格納するために使用され、残りの６４ビットが未使用である。

図１９は、一実施形態によるベクトル正規化処理を示すフロー図である。この例の文脈では、ベクトル正規化命令が問題のＩＳＡで使用できると想定される。ブロック１９１０において、ベクトル正規化処理を指定する単一のベクトル正規化命令がＧＰＵによって受け取られる。一実施形態によれば、ＧＰＵ内の実行ユニット（例えば、図６の実行ユニット（ＥＵ）６００）は、複数のスレッドのコンテキストを維持する。各スレッドは、命令フェッチユニットからの命令を要求し、それら命令を受け取る。ＥＵ内のスレッドコントローラ（例えば、スレッド制御６０１）は、選択された優先順位ポリシーに基づいてスレッド間でスケジューリングする。スケジューラによってスレッドが選択されると、そのスレッドからの命令が、ＦＰＵ及びコプロセッサに送信されて実行される。

一実施形態では、ベクトル正規化処理は、８個のベクトルに対してベクトル正規化を行うＳＩＭＤ８ベクトル正規化処理であり、その成分ベクトルは、汎用レジスタファイル（例えば、汎用レジスタファイル１５３）の１つ又は複数のレジスタに格納され得る。例えば、ベクトルがそれぞれ３つの成分を有していると仮定すると、ベクトルの正規化処理を開始する前に、８個のベクトルのうちの２個のそれぞれのベクトルについての２セットの成分ベクトルＡ，Ｂ，Ｃを、図１７を参照して上述したように４個のレジスタのそれぞれに格納できる。

この例の文脈では、単一のベクトル正規化命令の受け取りに応答して、ＧＰＵハードウェアは、４つの３成分ＳＩＭＤ２ドット積（ＤＰ３）命令をＧＰＵの第１の処理装置（例えば、ＳＩＭＤ８ＦＰＵ）に発し、そして、４つのＲＳＱＶＳ命令（逆数平方根関数とベクトルスケーリング関数との組合せを表す）をＧＰＵの第２の処理装置（例えば、ＳＩＭＤ２コプロセッサ）に発する。

ブロック１９１５において、第１の入力レジスタに格納されたそれぞれの成分ベクトルに対してＳＩＭＤ２ＤＰ３命令を実行することにより、８個のベクトルのうちの第１及び第２のベクトルの２乗長さ（Ｓ_１及びＳ_２）が生成される。一実施形態では、単一のベクトル正規化命令は、複数（例えば、４個）の入力レジスタ（例えば、Ｒ_１、Ｒ_２、Ｒ_３、及びＲ_４）のうちの第１のレジスタ（例えば、Ｒ_１）、及び複数（例えば、４個）の出力レジスタ（Ｒ_５、Ｒ_６、Ｒ_７、及びＲ_８）のうちの第１のレジスタ（例えば、Ｒ_５）を指定し得、これらの指定されたレジスタはベクトル正規化命令で使用される。ハードウェアは、それぞれのＤＰ３命令が完了すると入力レジスタを自動的にインクリメントし、それぞれのＲＳＱＶＳ命令が完了すると出力レジスタを自動的にインクリメントする。

一実施形態によれば、ブロック１９１５における第１のＳＩＭＤ２ＤＰ３命令の実行は、（ｉ）第１の入力レジスタ（例えば、レジスタ１７１０）から８個のベクトルのうちの第１のベクトルの成分ベクトル（例えば、成分ベクトル１７７０ａ〜ｃ）を読み取り、第１のベクトルの長さの２乗（Ｓ_１＝Ａ_１ ^２＋Ｂ_１ ^２＋Ｃ_１ ^２）を計算し、その結果（Ｓ_１）を第１の出力（例えば、第１の出力１７５０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７１０）に格納すること、及び（ｉｉ）第１の入力レジスタ（例えば、レジスタ１７１０）から８個のベクトルのうちの第２のベクトルの成分ベクトル（例えば、成分ベクトル１７８０ａ〜ｃ）を読み取り、第２のベクトルの長さの２乗（Ｓ_２＝Ａ_２ ^２＋Ｂ_２ ^２＋Ｃ_２ ^２）を計算し、その結果（Ｓ_２）を第２の出力（例えば、第２の出力１７６０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７１０）に格納すること、を含む。

ブロック１９２０において、ブロック１９１５で生成された２乗長さ（Ｓ_１及びＳ_２）と第１の入力レジスタ内の２セットの成分ベクトルとに基づいて、正規化成分ベクトルＮ_Ａ＿１ ^→、Ｎ_Ｂ＿１ ^→、Ｎ_Ｃ＿１ ^→及びＮ_Ａ＿２ ^→、Ｎ_Ｂ＿２ ^→、Ｎ_Ｃ＿２ ^→の形式の２セットの出力（例えば、第１の出力セット１８５０及び第２の出力セット１８６０）が、逆平方根関数とベクトルベクトルスケーリング関数との組合せを実行するＳＩＭＤ２組合せ逆平方根及びスケーリング（ＲＳＱＶＳ）命令を実行することによって生成され、第１の出力レジスタ（例えば、レジスタ１８１０）に格納される。一実施形態によれば、逆平方根関数は、図２１Ａ〜図３０を参照して以下で説明するように最適化される。あるいはまた、従来の相互平方根の実装を使用することもできる。

ブロック１９２５において、第２の入力レジスタに格納されたそれぞれの成分ベクトルに対してＳＩＭＤ２ＤＰ３命令を実行することにより、８個のベクトルのうちの第３及び第４のベクトルの２乗長さ（Ｓ_３及びＳ_４）が生成される。一実施形態によれば、ブロック１９２５におけるこの第２のＳＩＭＤ２ＤＰ３命令の実行は、（ｉ）第２の入力レジスタ（例えば、レジスタ１７２０）から８個のベクトルのうちの第３のベクトルの成分ベクトル（例えば、成分ベクトル１７７０ａ〜ｃ）を読み取り、第３のベクトルの長さの２乗（Ｓ_３＝Ａ_３ ^２＋Ｂ_３ ^２＋Ｃ_３ ^２）を計算し、その結果（Ｓ_３）を第１の出力（例えば、第１の出力１７５０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７２０）に格納すること、及び（ｉｉ）第２の入力レジスタ（例えば、レジスタ１７２０）から８個のベクトルのうちの第４のベクトルの成分ベクトル（例えば、成分ベクトル１７８０ａ〜ｃ）を読み取り、第４のベクトルの長さの２乗（Ｓ_４＝Ａ_４ ^２＋Ｂ_４ ^２＋Ｃ_４ ^２）を計算し、その結果（Ｓ_４）を第２の出力（例えば、第２の出力１７６０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７２０）に格納すること、を含む。

ブロック１９３０において、ブロック１９２５で生成された２乗長さ（Ｓ_３及びＳ_４）と第２の入力レジスタ内の２セットの成分ベクトルとに基づいて、正規化成分ベクトルＮ_Ａ＿３ ^→、Ｎ_Ｂ＿３ ^→、Ｎ_Ｃ＿３ ^→及びＮ_Ａ＿４ ^→、Ｎ_Ｂ＿４ ^→、Ｎ_Ｃ＿４ ^→の形式の２セットの出力（例えば、第１の出力セット１８５０及び第２の出力セット１８６０）が、第２のＳＩＭＤ２ＲＳＱＶＳ命令を実行することによって生成され、第２の出力レジスタ（例えば、レジスタ１８２０）に格納される。

ブロック１９３５において、第３の入力レジスタに格納されたそれぞれの成分ベクトルに対してＳＩＭＤ２ＤＰ３命令を実行することにより、８個のベクトルのうちの第５及び第６のベクトルの２乗長さ（Ｓ_５及びＳ_６）が生成される。一実施形態によれば、ブロック１９３５におけるこの第３のＳＩＭＤ２ＤＰ３命令の実行は、（ｉ）第３の入力レジスタ（例えば、レジスタ１７３０）から８個のベクトルのうちの第５のベクトルの成分ベクトル（例えば、成分ベクトル１７７０ａ〜ｃ）を読み取り、第５のベクトルの長さの２乗（Ｓ_５＝Ａ_５ ^２＋Ｂ_５ ^２＋Ｃ_５ ^２）を計算し、その結果（Ｓ_５）を第１の出力（例えば、第１の出力１７５０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７３０）に格納すること、及び（ｉｉ）第３の入力レジスタ（例えば、レジスタ１７３０）から８個のベクトルのうちの第６のベクトルの成分ベクトル（例えば、成分ベクトル１７８０ａ〜ｃ）を読み取り、第６のベクトルの長さの２乗（Ｓ_６＝Ａ_６ ^２＋Ｂ_６ ^２＋Ｃ_６ ^２）を計算し、その結果（Ｓ_６）を第２の出力（例えば、第２の出力１７６０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７３０）に格納すること、を含む。

ブロック１９４０において、ブロック１９３５で生成された２乗長さ（Ｓ_５及びＳ_６）と第３の入力レジスタ内の２セットの成分ベクトルとに基づいて、正規化成分ベクトルＮ_Ａ＿５ ^→、Ｎ_Ｂ＿５ ^→、Ｎ_Ｃ＿５ ^→及びＮ_Ａ＿６ ^→、Ｎ_Ｂ＿６ ^→、Ｎ_Ｃ＿６ ^→の形式の２セットの出力（例えば、第１の出力セット１８５０及び第２の出力セット１８６０）が、第３のＳＩＭＤ２ＲＳＱＶＳ命令を実行することによって生成され、第３の出力レジスタ（例えば、レジスタ１８３０）に格納される。

ブロック１９４５において、第４の入力レジスタに対してＳＩＭＤ２ＤＰ３命令を実行することにより、８個のベクトルのうちの第７及び第８のベクトルの２乗長さ（Ｓ_７及びＳ_８）が生成される。一実施形態によれば、ブロック１９３５におけるこの第４のＳＩＭＤ２ＤＰ３命令の実行は、（ｉ）第４の入力レジスタ（例えば、レジスタ１７４０）から８個のベクトルのうちの第７のベクトルの成分ベクトル（例えば、成分ベクトル１７７０ａ〜ｃ）を読み取り、第７のベクトルの長さの２乗（Ｓ_７＝Ａ_７ ^２＋Ｂ_７ ^２＋Ｃ_７ ^２）を計算し、その結果（Ｓ_７）を第１の出力（例えば、第１の出力１７５０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７４０）に格納すること、及び（ｉｉ）第４の入力レジスタ（例えば、レジスタ１７４０）から８個のベクトルのうちの第８のベクトルの成分ベクトル（例えば、成分ベクトル１７８０ａ〜ｃ）を読み取り、第８のベクトルの長さの２乗（Ｓ_８＝Ａ_８ ^２＋Ｂ_８ ^２＋Ｃ_８ ^２）を計算し、その結果（Ｓ_８）を第２の出力（例えば、第２の出力１７６０）として（成分ベクトルが読み取られたのと）同じレジスタ（例えば、レジスタ１７４０）に格納すること、を含む。

ブロック１９５０において、ブロック１９４５で生成された２乗長さ（Ｓ_７及びＳ_８）と第４の入力レジスタ内の２セットの成分ベクトルとに基づいて、正規化成分ベクトルＮ_Ａ＿７ ^→、Ｎ_Ｂ＿７ ^→、Ｎ_Ｃ＿７ ^→及びＮ_Ａ＿８ ^→、Ｎ_Ｂ＿８ ^→、Ｎ_Ｃ＿８ ^→の形式の２セットの出力（例えば、第１の出力セット１８５０及び第２の出力セット１８６０）が、第４のＳＩＭＤ２ＲＳＱＶＳ命令を実行することによって生成され、第４の出力レジスタ（例えば、レジスタ１８４０）に格納される。この時点で処理が完了し、２４個の正規化成分ベクトル全てが４つの出力レジスタで使用可能になる。

この例の文脈では、ベクトル正規化命令は、８個のベクトル対して選ばれた２個のベクトルを一度に演算し、４つの入力レジスタ及び４つの出力レジスタを使用すると想定されるが、代替実施形態では、ベクトル正規化処理を演算するベクトルＶの数、並列に処理されるＶベクトルの数Ｎ、並びに入力及び出力レジスタの数Ｖ／Ｎは、他の数にすることができる。例えば、レジスタサイズ及び成分ベクトルサイズを一定に保ち、８個の入力レジスタ及び８個の出力レジスタを用いて、８つのＳＩＭＤ２ＤＰ３命令及び８つのＳＩＭＤ２ＲＳＱＶＳ命令を実行することにより、１６個のベクトルを一度に２個処理できる。同様に、本明細書で説明する様々な例の文脈では、２５６ビットのレジスタサイズと３２ビットの成分ベクトルサイズとが想定されるが、代替実施形態では、これらのサイズの一方又は両方がより大きく又は小さくてもよい。例えば、５１２ビットのレジスタサイズを想定すると、２個の入力レジスタ及び２個の出力レジスタを用いて、２つのＳＩＭＤ４ＤＰ３命令及び２つのＳＩＭＤ４ＲＳＱＶＳ命令を実行することにより、３２ビットでそれぞれ表される８個の３成分ベクトルを一度に４個処理できる。

図２０は、一実施形態による、ＤＰ３及びＲＳＱＶＳ命令を用いるベクトル正規化処理のスループットを示す。この例の文脈では、ＳＩＭＤ２ＦＰＵ２０１０及びＳＩＭＤ２コプロセッサ２０２０が、２つの命令を並列に実行して、（各ブロックが１クロックサイクルを表す）８個のベクトルに対してベクトル正規化処理を行うように示されている。

ＦＰＵ２０１０に対して４つの３成分ＳＩＭＤ２ドット積演算（ＤＰ３）が実行されて、８個のベクトルのそれぞれの２乗された長さが生成される。それぞれの４つのＳＩＭＤ２ＲＳＱＶＳ命令が依存する２乗長さを利用できるため、それら演算は、コプロセッサ２０２０で実行できる。

前述したことに基づいて、ＦＰＵ２０１０は、ＳＩＭＤ８ＤＰ３演算を効果的に計算するために４クロックを使用し、コプロセッサ２０２０は、ＳＩＭＤ８ＲＳＱＶＳ演算を計算するために４クロックを使用する。そのため、スループットの観点から見ると、ＦＰＵ２０２０とコプロセッサとの両方が、両方とも等しい数のクロックを使用するので、等しいリミッターである。従って、提案する新しいＶＮＭ（Vector Normalization）命令の実装のスループット（つまり、ＩＰＣ）は、１つのＳＩＭＤ８ＶＮＭ命令／４クロック、つまり０．２５のＩＰＣである。そのため、上記の既存のベクトル正規化の実装に対する新しい単一のＶＮＭ命令のＩＰＣの改善は５０％である。実行クロックの削減に関して、新しいＶＮＭ命令は、クロック数を６クロックから４クロックに２つ削減し、これは、上述したベクトル正規化の７つの命令の実装と比較して、３３．３３％（２／６＊１００＝３３．３３％）の実行クロックの削減を表す。

新しいＶＮＭ命令のレジスタファイル帯域幅は、上述した７つの命令実行の文脈で３回の読取り操作及び２回のレジスタ再利用と比較して、レジスタファイルからのレジスタの８回の読取り操作を含む。そのため、全体として、２つの実行の間でレジスタファイルの帯域幅に変化はない。

逆平方根の最適化された計算

図２１Ａ〜図２１Ｂは、本明細書で説明する実施形態による、追加の例示的なグラフィックプロセッサロジックを示す。図２１Ａは、図１２のグラフィックプロセッサ１２１０内に含まれ得るグラフィックコア２１００を示し、図１３Ｂのように、統合されたシェーダーコア１３５５Ａ〜１３５５Ｎであってもよい。図２１Ｂは、マルチチップモジュールへの配置に適した高度に並列な汎用グラフィック処理装置２１３０を示す。

図２１Ａに示されるように、グラフィックコア２１００は、グラフィックコア２１００内の実行リソースに共通の共有命令キャッシュ２１０２、テクスチャユニット２１１８、及びキャッシュ／共有メモリ２１２０を含む。グラフィックコア２１００は複数のスライス２１０１Ａ〜１４０１Ｎ又は各コアのパーティションを含むことができ、グラフィックプロセッサはグラフィックコア２１００の複数のインスタンスを含むことができる。スライス２１０１Ａ〜１４０１Ｎは、ローカル命令キャッシュ２１０４Ａ〜２１０４Ｎ、スレッドスケジューラ２１０６Ａ〜２１０６Ｎ、スレッドディスパッチャ２１０８Ａ〜２１０８Ｎ、及び１組のレジスタ２１１０Ａを含むサポートロジックを含むことができる。論理演算を行うために、スライス２１０１Ａ〜２１０１Ｎは、追加の関数ユニット（ＡＦＵ２１１２Ａ〜２１１２Ｎ）、浮動小数点ユニット（ＦＰＵ２１１４Ａ〜２１１４Ｎ）、整数演算論理ユニット（ＡＬＵ２１１６Ａ〜２１１６Ｎ）、アドレス計算ユニット（ＡＣＵ２１１３Ａ〜２１１３Ｎ）、倍精度浮動小数点ユニット（ＤＰＦＰＵ２１１５Ａ〜２１１５Ｎ）、及び行列処理ユニット（ＭＰＵ２１１７Ａ〜２１１７Ｎ）のセットを含むことができる。

計算ユニットのいくつかは、特定の精度で動作する。例えば、ＦＰＵ２１１４Ａ〜２１１４Ｎは単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を行うことができ、ＤＰＦＰＵ２１１５Ａ〜２１１５Ｎは倍精度（６４ビット）の浮動小数点演算を行うことができる。ＡＬＵ２１１６Ａ〜２１１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度整数演算を行うことができ、混合精度演算のために構成できる。ＭＰＵ２１１７Ａ〜２１１７Ｎは、半精度浮動小数点演算及び８ビット整数演算を含む混合精度行列演算のために構成することもできる。ＭＰＵ２１１７Ａ〜２１１７Ｎは、様々な行列演算を行って、機械学習アプリケーションフレームワークを高速化でき、これには、加速化され一般化された行列間乗算（ＧＥＭＭ）のサポートの有効化が含まれる。ＡＦＵ２１１２Ａ〜２１１２Ｎは、三角演算（例えば、正弦、余弦等）を含む、浮動小数点又は整数ユニットではサポートされていない追加の論理演算を行うことができる。

図２１Ｂに示されるように、汎用処理装置（ＧＰＧＰＵ）２１３０は、グラフィック処理装置のアレイによって実行される高並列計算演算を可能にするように構成され得る。さらに、ＧＰＧＰＵ２１３０をＧＰＧＰＵの他のインスタンスに直接リンクして、マルチＧＰＵクラスタを作成し、特に深層ニューラルネットワークの訓練速度を向上させることができる。ＧＰＧＰＵ２１３０は、ホストプロセッサとの接続を可能にするためのホストインターフェイス２１３２を含む。一実施形態では、ホストインターフェイス２１３２は、ＰＣＩエクスプレスインターフェイスである。ただし、ホストインターフェイスは、ベンダー固有の通信インターフェイス又は通信ファブリックにすることもできる。ＧＰＧＰＵ２１３０は、ホストプロセッサからコマンドを受け取り、グローバルスケジューラ２１３４を使用して、それらのコマンドに関連する実行スレッドを１組の計算クラスタ２１３６Ａ〜２１３６Ｈに分配する。計算クラスタ２１３６Ａ〜２１３６Ｈは、キャッシュメモリ２１３８を共有する。キャッシュメモリ２１３８は、計算クラスタ２１３６Ａ〜２１３６Ｈ内のキャッシュメモリのためのより高いレベルのキャッシュとして機能することができる。

ＧＰＧＰＵ２１３０は、１組のメモリコントローラ２１４２Ａ〜２１４２Ｂを介して計算クラスタ２１３６Ａ〜２１３６Ｈと結合されるメモリ２１３４Ａ〜２１３４Ｂを含む。様々な実施形態において、メモリ２１３４Ａ〜２１３４Ｂは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、又はグラフィックダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）等のグラフィックランダムアクセスメモリを含む様々なタイプのメモリ装置を含むことができる。

一実施形態では、計算クラスタ２１３６Ａ〜２１３６Ｈはそれぞれ、図２１のグラフィックコア２１００等の１組のグラフィックコアを含み、これは、機械学習計算に適した精度範囲で計算演算を行うことができる複数のタイプの整数及び浮動小数点論理ユニットを含むことができる。例えば、一実施形態では、計算クラスタ２１３６Ａ〜２１３６Ｈのそれぞれにおける浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビット浮動小数点演算を行うように構成することができる一方、浮動小数点ユニットの異なるサブセットは、６４ビット浮動小数点演算を行うように構成することができる。

ＧＰＧＰＵ２１３０の複数のインスタンスは、計算クラスタとして動作するように構成することができる。同期及びデータ交換のために計算クラスタによって使用される通信メカニズムは、実施形態によって異なる。一実施形態では、ＧＰＧＰＵ２１３０の複数のインスタンスは、ホストインターフェイス２１３２を介して通信する。一実施形態では、ＧＰＧＰＵ２１３０は、ＧＰＧＰＵ２１３０をＧＰＵリンク２１４０と結合するＩ／Ｏハブ２１３９を含み、ＧＰＵリンク２１４０はＧＰＧＰＵの他のインスタンスへの直接接続を可能にする。一実施形態では、ＧＰＵリンク２１４０は、ＧＰＧＰＵ２１３０の複数のインスタンスの間の通信及び同期を可能にする専用のＧＰＵ間（GPU-to-GPU）ブリッジに結合される。一実施形態では、ＧＰＵリンク２１４０は、高速相互接続と結合して、データを他のＧＰＧＰＵ又は並列プロセッサに送受信する。一実施形態では、ＧＰＧＰＵ２１３０の複数のインスタンスは、別個のデータ処理システムに配置され、ホストインターフェイス２１３２を介してアクセス可能なネットワーク装置を介して通信する。一実施形態では、ＧＰＵリンク２１４０は、ホストインターフェイス２１３２に加えて、又はその代わりとして、ホストプロセッサへの接続を可能にするように構成できる。

ＧＰＧＰＵ２１３０の図示の構成は、ニューラルネットワークを訓練するように構成することができるが、一実施形態は、高性能又は低電力の推論プラットフォーム内での展開のために構成できるＧＰＧＰＵ２１３０の代替構成を提供する。推論構成では、ＧＰＧＰＵ２１３０に含まれる計算クラスタ２１３６Ａ〜２１３６Ｈは、訓練構成に比べて少なくなる。さらに、メモリ２１３４Ａ〜２１３４Ｂに関連するメモリ技術は、推論構成と訓練構成との間で異なる場合があり、より高い帯域幅のメモリ技術が訓練構成に専念する。一実施形態では、ＧＰＧＰＵ２１３０の推論構成は、推論する特定の命令をサポートすることができる。例えば、推論構成は、展開されたニューラルネットワークの推論操作中に一般的に使用される、１つ又は複数の８ビット整数ドット積命令のサポートを提供できる。

図２２は、浮動小数点拡張数学演算を行うために実行ユニット２２１０を使用するコンピュータ装置２２００を示す。コンピュータ装置２２００（例えば、スマートウェアラブル装置、仮想現実（ＶＲ）装置、ヘッドマウントディスプレイ（ＨＭＤ）、モバイルコンピュータ、モノのインターネット（ＩｏＴ）装置、ラップトップコンピュータ、デスクトップコンピュータ、サーバコンピュータ等）は、図１の処理システム１００と同じであり得、従って、簡潔性、明確性、及び理解を容易にするために、図１〜図１３Ｂを参照して上で述べた詳細の多くは、以下でさらに議論せず、繰り返さない。図示のように、一実施形態では、コンピュータ装置２２００は、ホスティング実行ユニット２２１０として示される。

図示されるように、一実施形態では、実行ユニット２２１０は、グラフィック処理装置（「ＧＰＵ」又は「グラフィックプロセッサ」）２２１４によってホストされる。さらに他の実施形態では、実行ユニット２２１０は、中央処理装置（「ＣＰＵ」又は「アプリケーションプロセッサ」）２２１２のファームウェア又はその一部によってホストされ得る。簡潔性、明確性、及び理解を容易にするために、この文書の残り全体を通して、実行ユニット２２１０を、ＧＰＵ２２１４の一部として議論し得るが、実施形態はそのように限定されない。

コンピュータ装置２２００は、サーバコンピュータ、デスクトップコンピュータ等の大規模コンピュータシステム等、任意の数及びタイプの通信装置を含むことができ、さらにセットトップボックス（例えば、インターネットベースのケーブルテレビセットトップボックス等）、全地球測位システム（ＧＰＳ）ベースの装置等を含むことができる。コンピュータ装置２２００は、スマートフォン、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、電子書籍リーダー、スマートテレビ、テレビプラットフォーム、ウェアラブル装置（例えば、眼鏡、時計、ブレスレット、スマートカード、ジュエリー、衣料品等）、メディアプレーヤ等を含む携帯電話等の通信装置として機能するモバイルコンピュータ装置を含むことができる。例えば、一実施形態では、コンピュータ装置２２００は、システムオンチップ（「ＳｏＣ」又は「ＳＯＣ」）等の集積回路（「ＩＣ」）をホストし、コンピュータ装置２２００の様々なハードウェア及び／又はソフトウェアコンポーネントをシングルチップに統合するコンピュータプラットフォームを使用するモバイルコンピュータ装置を含むことができる。

図示されるように、一実施形態では、コンピュータ装置２２００は、（限定なしに）ＧＰＵ２２１４、グラフィックドライバ（「ＧＰＵドライバ」、「グラフィックドライバロジック」、「ドライバロジック」、ユーザモードドライバ（ＵＭＤ）、ＵＭＤ、ユーザモードドライバフレームワーク（ＵＭＤＦ）、ＵＭＤＦ、又は単に「ドライバ」とも呼ばれる）２２１６、ＣＰＵ２２１２、メモリ２２０８、ネットワーク装置、ドライバ等だけでなく、タッチスクリーン、タッチパネル、タッチパッド、仮想又は通常のキーボード、仮想又は通常のマウス、ポート、コネクタ等の入出力（Ｉ／Ｏ）ソース２２０４等の任意の数及びタイプのハードウェア及び／又はソフトウェアコンポーネントを含むことができる。

コンピュータ装置２２００は、コンピュータ装置２２００のハードウェア及び／又は物理リソースとユーザとの間のインターフェイスとして機能するオペレーティングシステム（ＯＳ）２２０６を含み得る。ＣＰＵ２２１２は１つ又は複数のプロセッサを含むことができ、ＧＰＵ２２１４は１つ又は複数のグラフィックプロセッサを含むことができると企図される。

「ノード」、「コンピューティングノード」、「サーバ」、「サーバ装置」、「クラウドコンピュータ」、「クラウドサーバ」、「クラウドサーバコンピュータ」、「マシン」、「ホストマシン」、「装置」、「コンピュータ装置」、「コンピュータ」、「コンピュータシステム」等の用語は、この文書全体を通して交換可能に使用され得ることに留意されたい。さらに、「アプリケーション」、「ソフトウェアアプリケーション」、「プログラム」、「ソフトウェアプログラム」、「パッケージ」、「ソフトウェアパッケージ」等の用語は、この文書全体を通して交換可能に使用され得ることに留意されたい。また、「ジョブ」、「入力」、「要求」、「メッセージ」等の用語は、この文書全体を通して交換可能に使用され得る。

グラフィックパイプラインは、グラフィックコプロセッサ設計で実装でき、ＣＰＵ２２１２は、ＣＰＵ２２１２に含まれるか、又はＣＰＵ２２１２と同じ場所に配置され得るＧＰＵ２２１４と連携するように設計される。一実施形態では、ＧＰＵ２２１４は、グラフィックレンダリングに関連する従来の機能を実行するための任意の数及びタイプの従来のソフトウェア及びハードウェアロジックだけでなく、任意の数及びタイプの命令を実行するための新しいソフトウェア及びハードウェアロジックを使用できる。

前述したように、メモリ２２０８は、オブジェクト情報を有するアプリケーションデータベースを含むランダムアクセスメモリ（ＲＡＭ）を含み得る。メモリコントローラハブは、ＲＡＭ内のデータにアクセスし、グラフィックパイプライン処理のためにそのデータをＧＰＵ２２１４に転送することができる。ＲＡＭは、ダブルデータレートＲＡＭ（ＤＤＲＲＡＭ）、拡張データ出力ＲＡＭ（ＥＤＯＲＡＭ）等を含み得る。ＣＰＵ２２１２は、ハードウェアグラフィックパイプラインと相互作用して、グラフィックパイプライン機能を共有する。

処理したデータは、ハードウェアグラフィックパイプラインのバッファに格納され、状態情報はメモリ２２０８に格納される。結果として得られる画像は、画像を表示するための表示コンポーネント等のＩ／Ｏソース２２０４に転送される。表示装置は、情報をユーザに表示するための陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）アレイ等のような様々なタイプのものであり得ると企図される。

メモリ２２０８は、バッファ（例えば、フレームバッファ）の予め割り当てられた領域を含み得るが、当業者であれば、実施形態はそのように限定されず、より低いグラフィックパイプラインにアクセス可能な任意のメモリを使用してもよいことを理解するはずである。コンピュータ装置２２００は、図１で参照されるように、１つ又は複数のＩ／Ｏソース２２０４等のプラットフォームコントローラハブ（ＰＣＨ）１３０をさらに含み得る。

ＣＰＵ２２１２は、コンピュータシステムが実施するソフトウェアルーチンを何でも実行するために、命令を実行するための１つ又は複数のプロセッサを含み得る。命令には、データに対して実行される何らかの操作（演算）が含まれることがよくある。データと命令との両方がシステムメモリ２２０８及び関連するキャッシュに格納され得る。キャッシュは、典型的に、システムメモリ２２０８よりも待ち時間が短くなるように設計される。例えば、システムメモリ２２０８が低速のダイナミックＲＡＭ（ＤＲＡＭ）セルで構築され得るのに対し、キャッシュは、プロセッサと同じシリコンチップに統合され、及び／又は高速のスタティックＲＡＭ（ＳＲＡＭ）セルで構築され得る。システムメモリ２２０８ではなく、より頻繁に使用される命令及びデータをキャッシュに格納する傾向があることにより、コンピュータ装置２２００の全体的なパフォーマンス効率が向上する。いくつかの実施形態では、ＧＰＵ２２１４は、ＣＰＵ２２１２の一部（物理ＣＰＵパッケージの一部等）として存在し得ると企図され、その場合に、メモリ２２０８は、ＣＰＵ２２１２及びＧＰＵ２２１４によって共有されるか、又は分離されたままであり得る。

システムメモリ２２０８は、コンピュータ装置２２００内の他のコンポーネントが利用できるようにすることができる。例えば、様々なインターフェイス（例えば、キーボード及びマウス、プリンタポート、ローカルエリアネットワーク（ＬＡＮ）ポート、モデムポート等）からコンピュータ装置２２００に受信された、又はコンピュータ装置２２００（例えば、ハードディスクドライブ）の内部ストレージ要素から取得された任意のデータ（例えば、入力グラフィックデータ）は、大抵の場合、ソフトウェアプログラムの実装の際に１つ又は複数のプロセッサによって操作される前にシステムメモリ２２０８に一時的にキューイングされる。同様に、ソフトウェアプログラムがコンピュータ装置２２００からコンピュータシステムインターフェイスの１つを介して外部エンティティに送信するか、又は内部ストレージ要素に格納する必要があると判断したデータは、大抵の場合、送信又は格納前にシステムメモリ２２０８に一時的にキューイングされる。

さらに、例えば、ＰＣＨは、そのようなデータがシステムメモリ２２０８とその適切な対応するコンピュータシステムインターフェイス（及び、コンピュータシステムがそのように設計されている場合に内部記憶装置）との間で適切に渡されることを保証するために使用され得、且つそれ自体と確認されたＩ／Ｏソース／装置２２０４との間の双方向ポイントツーポイントリンクを有し得る。同様に、ＭＣＨは、システムメモリ２２０８が、（互いに時間的に近接して発生し得る）ＣＰＵ２２１２及びＧＰＵ２２１４、インターフェイス及び内部ストレージ要素の間でアクセスする様々な競合要求を管理するために使用できる。

Ｉ／Ｏソース２２０４は、コンピュータ装置２２００との間でデータを転送するために実装される（例えば、ネットワーキングアダプタ）、又はコンピュータ装置２２００内の大規模な不揮発性ストレージ（例えば、ハードディスクドライブ）のための１つ又は複数のＩ／Ｏ装置を含むことができる。英数字及び他のキーを含むユーザ入力装置を使用して、情報及びコマンド選択をＧＰＵ２２１４に通信できる。別のタイプのユーザ入力装置は、方向情報及びコマンド選択をＧＰＵ２２１４に伝達し、且つ表示装置上のカーソルの動きを制御するマウス、トラックボール、タッチスクリーン、タッチパッド、又はカーソル方向キー等のカーソルコントロールである。コンピュータ装置２２００のカメラ及びマイクアレイを使用して、ジェスチャを観察し、音声及びビデオを記録し、視覚及び音声コマンドを送受信することができる。

コンピュータ装置２２００は、ＬＡＮ、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、クラウドネットワーク、モバイルネットワーク（例えば、第３世代（３Ｇ）、第４世代（４Ｇ）等）、イントラネット、インターネット等の、ネットワークへのアクセスを提供するネットワークインターフェイスをさらに含み得る。ネットワークインターフェイスには、例えば、１つ又は複数のアンテナを表し得るアンテナを有するワイヤレスネットワークインターフェイスが含まれ得る。ネットワークインターフェイスには、例えば、イーサネットケーブル、同軸ケーブル、光ファイバーケーブル、シリアルケーブル、パラレルケーブル等であり得るネットワークケーブルを介してリモート装置と通信する有線ネットワークインターフェイスも含まれる。

ネットワークインターフェイスは、例えば、ＩＥＥＥ８０２．１１ｂ及び／又はＩＥＥＥ８０２．１１ｇ規格に準拠することにより、ＬＡＮへのアクセスを提供することができ、及び／又は無線ネットワークインターフェイスは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格に準拠することにより、パーソナルエリアネットワークへのアクセスを提供することができる。規格の以前の及び後続のバージョンを含む他の無線ネットワークインターフェイス及び／又はプロトコルもサポートされ得る。無線ＬＡＮ規格を介した通信に加えて、又はその代わりに、ネットワークインターフェイスは、例えば、時分割、多重アクセス（ＴＤＭＡ）プロトコル、ＧＳＭ（Global Systems for Mobile Communications）プロトコル、符号分割、多重アクセス（ＣＤＭＡ）プロトコル、及び／又は他のタイプのワイヤレス通信プロトコル等を用いてワイヤレス通信を提供する。

ネットワークインターフェイスは、モデム、ネットワークインターフェイスカード等の１つ又は複数の通信インターフェイス、又はイーサネット、トークンリングへの結合に使用されるもの等の他のよく知られたインターフェイス装置、又は、例えば、ＬＡＮ又はＷＡＮをサポートするための通信リンクを提供する目的の他のタイプの物理的な有線又は無線のアタッチメントを含むことができる。このようにして、コンピュータシステムは、例えば、イントラネット又はインターネットを含む従来のネットワークインフラストラクチャを介して、いくつかの周辺装置、クライアント、コントロールサーフェス、コンソール、又はサーバに結合することもできる。

上述した例よりも少ないか又は多い設備を備えたシステムは、特定の実施態様にとって好ましい場合があることを理解されたい。従って、コンピュータ装置２２００の構成は、価格の制約、性能要件、技術的改善、又は他の状況等の多数の要因に応じて、実施態様毎に異なり得る。電子装置又はコンピュータシステム２２００の例には、（限定なしに）モバイル装置、携帯情報端末、モバイルコンピュータ装置、スマートフォン、携帯電話、ハンドセット、一方向ポケットベル、双方向ポケットベル、メッセージング装置、コンピュータ、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ハンドヘルドコンピュータ、タブレットコンピュータ、サーバ、サーバアレイ又はサーバファーム、Ｗｅｂサーバ、ネットワークサーバ、インターネットサーバ、ワークステーション、ミニコンピュータ、メインフレームコンピュータ、スーパーコンピュータ、ネットワーク機器、Ｗｅｂ機器、分散型コンピュータシステム、マルチプロセッサシステム、プロセッサベースのシステム、家電製品、プログラム可能な家電製品、テレビ、デジタルテレビ、セットトップボックス、ワイヤレスアクセスポイント、基地局、加入者局、モバイル加入者センター、無線ネットワークコントローラ、ルーター、ハブ、ゲートウェイ、ブリッジ、スイッチ、マシン、又はこれらの組合せが含まれ得る。

実施形態は、ペアレントボード（parent-board）、ハードワイヤードロジック、メモリ装置によって格納され且つマイクロプロセッサによって実行されるソフトウェア、ファームウェア、特定用途向け集積回路（ＡＳＩＣ）、及び／又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を用いて相互接続される１つ又は複数のマイクロチップ又は集積回路のうちの任意の１つ又は組合せとして実装され得る。「ロジック（論理）」という用語は、例として、ソフトウェア又はハードウェア、及び／又はソフトウェアとハードウェアとの組合せを含み得る。

実施形態は、例えば、機械実行可能命令を格納した１つ又は複数の機械可読媒体を含み得るコンピュータプログラム製品として提供され得、命令がコンピュータ、コンピュータのネットワーク、又は他の電子装置等の１つ又は複数の機械によって実行されたときに、本明細書で説明する実施形態による動作を行う１つ又は複数の機械をもたらし得る。機械可読媒体には、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ（コンパクトディスク読み取り専用メモリ）、及び光磁気ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ（消去可能なプログラム可能な読み取り専用メモリ）、ＥＥＰＲＯＭ（電気的消去可能、プログラム可能な読み取り専用メモリ）、磁気カード又は光学式カード、フラッシュメモリ、又は機械実行可能な命令を格納するのに適した他のタイプの非一時的な機械可読媒体が含まれ得るが、これらに限定されるものではない。

さらに、実施形態は、コンピュータプログラム製品としてダウンロードすることができ、プログラムは、通信リンク（例えば、モデム及び／又はネットワーク接続）を介して、搬送波又は他の伝播媒体によって具体化及び／又は変調される１つ又は複数のデータ信号によって、リモートコンピュータ（例えば、サーバ）から要求側コンピュータ（例えば、クライアント）に転送することができる。

一実施形態によれば、実行ユニット２２１０は、単一点浮動小数点拡張数学演算を行うための１つ又は複数のＦＰＵを含む。殆どの単一点浮動小数点数学演算では、指数に対する演算の実行は比較的簡単である。ただし、仮数に対して演算を行うのは比較的困難である。

図２３は、単精度浮動小数点フォーマットの一実施形態を示す。図２３に示されるように、単精度（ＳＰ）浮動小数点（ＦＰ）は３２ビットを含み、ビット３１は符号成分２３０５を表し、ビット３０〜２３は、指数成分２３１０を表し、そして、ビット２２〜０は、仮数成分２３２０を表す。一実施形態では、このフォーマットによって表される実数値は、以下のように与えることができる。

ここで、ｂ_ｎは、ＳＰＦＰフォーマットのｎ番目のビット位置のビットを表す。

例えば、図２３に示されるＳＰＦＰ数の実数値は、

である。一実施形態によれば、ＦＰ数学演算の最適化が実施される。そのような実施形態では、最適化が仮数成分２３２０に対して実行され、これ以降、Ｙ＝ｆ（Ｘ）によって参照され、ここで、Ｘは入力仮数であり、Ｙは出力仮数である。

図２４は、浮動小数点拡張数学演算を行うためのプロセス２４００の一実施形態を示すフロー図である。プロセス２４００は、ハードウェア（例えば、回路、専用ロジック、プログラム可能ロジック等）、ソフトウェア（処理装置上で実行される命令等）、又はそれらの組合せを含み得る処理ロジックによって実行され得る。一実施形態では、プロセス２４００は、ＦＰＵ２２１１で実行される１つ又は複数の命令によって行うことができる。プロセス２４００は、提示を簡潔且つ明確にするために線形シーケンスで示されているが、それらのいくつでも、並行して、非同期で、又は異なる順序で実行することができると企図される。簡潔性、明確性、及び理解を容易にするために、図１〜図２３を参照して議論した詳細の多くは、ここでは議論又は繰り返さない。

説明を簡単にするために、プロセス２４００は、平方根演算の実行を参照して説明する。ただし、残りの演算（逆平方根、除算、逆数、正弦／余弦、指数、対数等）については、平方根の実装に基づいて以下で説明する。プロセス２４００は、オペランドに対してＦＰ演算を行うために１つ又は複数の命令を受け取る処理ブロック２４１０で開始する。処理ブロック２４２０において、ＦＰ演算は、オペランドの指数成分２３１０に対して実行される。例えば、指数の平方根は次のように表すことができる。
ｅ_ｓｑ＝（ｅ−１２７）／２
ここで、ｅは入力ＳＰＦＰ数（以下、Ｘと呼ぶ）の８ビットの指数（ビット３０〜２３）である。

（ｅ−１２７）が偶数であると判定すると、ｅ_ｓｑ計算は、ｅ_ｓｑ＝（ｅ−１２７）／２を含む。ただし、（ｅ−１２７）が奇数であると判定すると、ｅ_ｓｑ＝（ｅ−１２８）／２となり、入力仮数が２倍にされる。入力ＳＰＦＰ数（Ｘ）表現が、Ｘ＝（−１）^ｓ×２^{（ｅ−１２７）}×１．ｍとして提供されると、平方根演算の結果（以下、Ｙと呼ぶ）は次のように与えられる（例えば、Ｘが正のＳＰＦＰ数であると仮定）。
Ｙ＝√Ｘ＝（−１）^Ｓ×２^{（ｅ−１２７）／２}×√（１．ｍ）
＝（−１）^Ｓ×２^{（ｅ−１２８）／２}×√（２×１．ｍ）、（ｅ−１２７）が奇数の場合。

こうして、仮数の平方根は、以下のように表すことができる。
１．ｍ_ｓｑ＝√（１．ｍ）
ここで、ｍ_ｓｑは結果として得られる平方根ＳＰＦＰ数（Ｙ）の２３ビットの仮数部（ビット２２〜０）であり、ｍは入力ＳＰＦＰ数（Ｘ）の２３ビットの仮数部（ビット２２〜０）である。
その結果、ｍ_ｓｑの計算には、（ｅ−１２７）が偶数の場合に、１．ｍ_ｓｑ＝√（１．ｍ）が含まれ、（ｅ−１２７）が奇数の場合に、１．ｍ_ｓｑ＝√（２×１．ｍ）が含まれる（例えば、入力の仮数に２を掛けて、結果の指数（ｅ_ｓｑ）を非小数の２進数にするためである。）。

処理ブロック２４３０において、ＦＰ演算は、オペランドの仮数成分２３２０に対して行われる。入力ＳＰＦＰ数の仮数のＳＰＦＰ平方根を得るために、入力仮数は、１．ｍ（２４ビットの小数の２進数）としての仮数の１０進表現の代わりに、範囲が［２^２３，２^２４−１]の２４ビット（Ｘ）の符号なし整数と見なされる。

図２５は、仮数成分に対して浮動小数点拡張数学演算を行うためのプロセス２５００の一実施形態を示すフロー図である。プロセス２５００は、ハードウェア（例えば、回路、専用ロジック、プログラム可能ロジック等）、ソフトウェア（処理装置上で実行される命令等）、又はそれらの組合せを含み得る処理ロジックによって実行され得る。一実施形態では、プロセス２５００は、ＦＰＵ２２１１で実行される１つ又は複数の命令によって行うことができる。プロセス２５００は、提示を簡潔且つ明瞭にするために線形シーケンスで示されているが、それらのいくつでも、並行して、非同期で、又は異なる順序で実行することができると企図される。簡潔性、明確性、及び理解を容易にするために、図１〜図１７を参照して議論した詳細の多くは、ここでは議論又は繰り返さない。

プロセス２５００は、仮数成分２３２０が２つのサブ成分に分割される処理ブロック２５１０で開始する。一実施形態では、ＦＰ数学演算の期待される出力結果のＳＰＦＰ仮数の２４ビットは、２つの成分、Ｎビットを含む第１の成分（例えば、最上位の１２ビット（ＭＳＢ））（Ｙ_ｈとして参照される）と、Ｍビットを含む第２の成分（例えば、最下位の１２ビット（ＬＳＢ））（Ｙ_ｌとして参照される）に分割され、ここで、Ｎ＋Ｍ＝２４である。処理ブロック２５２０において、平方根演算の結果がＹ_ｈについて計算される。一実施形態によれば、Ｙ_ｈは、計算を２つの部分に分割することによって計算され、その計算には、Ｙ_ｈ（又は、Ｙ_ｈｉ）の初期推定値を決定すること、及び実際のＹ_ｈと推定されたＹ_ｈｉと間の差（つまり、Ｙ_ｈｅ＝Ｙ_ｈ−Ｙ_ｈｉ）を決定することが含まれる。

一実施形態によれば、図２６の線２６１０によって示されるように、Ｙ_ｈｉは、線形補間（ＬＥＲＰ）（例えば、（Ｘ_０、Ｙ_０）と（Ｘ_１、Ｙ_ｌ）との間の直線、ここで、Ｘ_０＝２^２３、Ｘ_１＝２^２４、Ｙ_０＝√Ｘ_０、Ｙ_１＝√Ｘ_１）を実行することによって決定される。区間（Ｘ_０、Ｘ_１）の値Ｘについて、直線に沿った値Ｙ_ｈｉは傾きの方程式から与えられる。
（Ｙ_ｈｉ−Ｙ_０）／（Ｘ−Ｘ_０）＝（Ｙ_１−Ｙ_０）／（Ｘ_１-Ｘ_０）、
次のようになる：
Ｙ_ｈｉ＝Ｙ_０＋（Ｘ−Ｘ_０）×（Ｙ_１−Ｙ_０）／（Ｘ_１−Ｘ_０）＝√２^２４＋（Ｘ−２^２４）×（√２^２４−√２^２３）／（２^２４−２^２３）
＝２^１２＋（Ｘ−２^２４）×（２^１２−２^１１×√２）／２^２３
＝（２^３５＋（Ｘ−２^２４）×（２^１２−２^１１×√２））／２^２３

一実施形態では、この結果は、１つの減算演算、１つの乗算演算、１つのシフト演算、及び１つの加算演算を介して計算することができる。別の実施形態では、結果は、１つの減算演算、１つの乗算及び累算（ＭＡＤ）演算、及び１つのシフト演算を介して計算することもできる。いくつかの実施形態では、中間のＦＰ乗算／減算／加算／シフト演算は、結果として得られる１２ビットＭＳＢ平方根Ｙ_ｈにおけるゼロ単位の最小精度（ＵＬＰ）誤差を確実にするために、ＳＰよりも仮数においてより高い精度を必要とし得る。

実際のＹ_ｈと推定されたＹ_ｈｉとの差が図２７に示される。図２７に示されるように、この差Ｙ_ｈｅのプロットは、図２６の線２６２０と線２６１０との間の値の差として表すことができる（詳細な説明のために図２７にも示されている）。一実施形態によれば、差分値Ｙ_ｈｅは、図２７に示される曲線２７１０の区分的線形近似（piecewise linear approximation：ＰＬＡ）を用いて推定され得る。図２８は、Ｙ_ｈｅ曲線２７１０のＰＬＡの要素である線形セグメントの詳細を提供するために、図２７に示される線形セグメントのうちの１つの拡大バージョンを示す。

一実施形態によれば、Ｙ_ｈｅのＰＬＡは、結果として得られる平方根（Ｙ_ｈ）の１２ビットＭＳＢ成分における０ビットＵＬＰ相対誤差を計算するために６１個の線分を実装する。そのような実施形態では、線分のそれぞれの傾き及びｙ切片は、入力のＭＳＢビットを用いてインデックス付けされるルックアップテーブル（ＬＵＴ）（例えば、図２２のＬＵＴ２２１３）に格納される。図２８は、傾き（ｍ_ｉ）及びｙ切片（ｃ_ｉ）がインデックスｉでＬＵＴに格納されるそのような線分（ＬＳ_ｉ）の一実施形態を示す。入力仮数（Ｘ）、傾き（ｍ_ｉ）、及びｙ切片（ｃ_ｉ）を用いて、Ｙ_ｈｅは、ＭＡＤ演算を用いて次のように計算できる。
Ｙ_ｈｅ＝ｍ_ｉＸ＋ｃ_ｉ

傾き（ｍ_ｉ）の実数値が非常に小さい１０進数であるため、ＭＡＤ演算での乗算で使用される傾きがＳＰＦＰ値であると決定すると、得れた結果はシフトを実装し得る。一実施形態では、中間のＦＰＭＡＤ／シフト演算は、結果として得られる１２ビットのＭＳＢ平方根Ｙ_ｈにおいて０ＵＬＰ誤差を確実にするために、ＳＰよりも仮数においてより高い精度を実装し得る。更なる実施形態では、ＰＬＡで使用されるいくつかの線分はより長くてもよく（例えば、より大きな入力仮数範囲をカバーする）、他のものはより短くてもよい（例えば、より短い入力仮数レンジをカバーする）。

そのような実施形態では、インデックス付けロジックは、可変サイズの線分のインデックス付けが複雑であるために、（例えば、ＬＵＴ内の傾き及びｙ切片の対応する位置を用いて）１２８の等距離入力仮数範囲を取ることによって簡素化される。さらに、ＰＬＡの各線形セグメントが等しい入力仮数範囲を表すようにするために、隣接するＬＵＴ位置に傾き及びｙ切片の重複する値を設定して、長い入力セグメントを表すことができ、これにより、７ＭＳＢビットの入力仮数（Ｘ）を用いてＬＵＴインデックス付けロジックが簡素化される。

結果として得られる平方根Ｙの１２ビットＭＳＢ部分（Ｙ_ｈ）は、次のように計算され得る。
Ｙ_ｈ＝Ｙ_ｈｉ＋Ｙ_ｈｅ
一実施形態では、中間結果Ｙ_ｈｉ及びＹ_ｈｅが最大２５ビットの仮数を有することができるため、結果として得られるＹ_ｈは１２ビットに丸められ、０ＵＬＰ相対誤差で１２ビットＭＳＢの結果平方根（Ｙ_ｈ）を計算する。

図２５に戻ると、平方根演算の結果は、処理ブロック２５３０において、第２の成分（例えば、結果として得られる平方根ＳＰＦＰ数Ｙ（Ｙ_ｌ）の１２ビットＬＳＢ部分）について計算される。一実施形態では、Ｙ_ｈ及びＹ_ｌに対する演算は、並行して行われ得る。

平方根の実施形態の場合に、Ｙ、Ｘ、Ｙ_ｈ、及びＹ_ｌを結び付ける方程式は、次のように拡張される。
Ｙ＝Ｙ_ｈ＋Ｙ_ｌ＝√Ｘ
両辺を２乗にすることで、
Ｙ^２＝（Ｙ_ｈ＋Ｙ_ｌ）^２＝Ｘ
Ｙ_ｈ ^２＋Ｙ_ｌ ^２＋２Ｙ_ｈＹ_ｌ＝Ｘ
Ｚ＝Ｘ−Ｙ_ｈ ^２＝Ｙ_ｌ ^２＋２Ｙ_ｈＹ_ｌとする。
ここで、Ｙ_ｌ＜＜Ｙ_ｈ、つまり２Ｙ_ｈＹ_ｌ＞＞Ｙ_ｌ ^２の場合に、Ｙ_ｌ ^２を無視できる。
従って、Ｚ≒２Ｙ_ｈＹ_ｌとなる。

Ｙ_ｌが結果として得られる平方根Ｙの１２ＬＳＢビットであり、Ｙ_ｈがＹの１２ＭＳＢビットであるので、Ｙ_ｈのＭＳＢ（１２番目のＭＳＢビット）は常に１である（ＳＰＦＰ仮数フォーマットによると）：
Ｙ_ｌ＜Ｙ_ｈ／２^１２
Ｙ_ｈ＞２^１２Ｙ_ｌ
２Ｙ_ｈＹ_ｌ＞２^１３Ｙ_ｌ ^２
Ｙ_ｌ ^２＜２Ｙ_ｈＹ_ｌ／２^１３
その結果、Ｙ_ｈのＭＳＢ（１２番目のＭＳＢビット）が常に１であるので（ＳＰＦＰ仮数フォーマットによると）、Ｙ_ｌ ^２のＭＳＢビット位置は２Ｙ_ｈＹ_ｌのＭＳＢビット位置より少なくとも１３ビット低くなる。
だから、２Ｙ_ｈＹ_ｌ＞＞Ｙ_ｌ ^２
そのため、Ｙ_ｌ＜＜Ｙ_ｈ
従って、Ｚ≒２Ｙ_ｈＹ_ｌとなる。

近似Ｚ≒２Ｙ_ｈＹ_ｌに基づいて、
Ｙ_ｌ＝Ｚ／（２Ｙ_ｈ）＝（Ｘ−Ｙ_ｈ ^２）／（２Ｙ_ｈ）
従って、Ｙ_ｌの計算は、Ｙ_ｈ ^２を見つけること、入力仮数ＸからＹ_ｈ ^２の減算、Ｘ−Ｙ_ｈ ^２の２×４０９６による除算、それに４０９６／Ｙ_ｈの乗算に分けられる。一実施形態では、４０９６／Ｙ_ｈは、４０９６／Ｙ_ｈのＰＬＡを介して計算される。この実施形態は、２Ｙ_ｈによる除算を回避し、２の累乗である２×４０９６で除算することにより除算をシフト演算に変換する。

一実施形態では、２^２３から２^２４の間に１２００個の完全な２乗（perfect squares：完全平方）があるため（例えば、［２^２３、２^２４］は、Ｙ^２＝Ｘによって表される範囲である）、Ｙ_ｈ ^２の１２００個の可能な値がある。Ｙ_ｈ ^２を計算するには、１２００個の完全な２乗の範囲を１０の間隔に分割し、各間隔には１２８個の完全な２乗がある。ただし、第１の範囲には、１２８×１０＝１２８０のように８０個の完全な２乗が追加される。その結果、入力仮数の範囲も１０個の間隔に分割される。

更なる実施形態では、Ｘが位置する入力仮数間隔は、１２８個の完全な２乗の各間隔において最大の完全な２乗を含むように格納された第１レベルのＬＵＴを用いて識別され得る。そのような実施形態では、Ｘは、この１０エントリＬＵＴテーブルの各エントリと比較されて、Ｘ≦ＬＵＴ内のエントリであるかどうかを判定する。比較により、Ｘは完全な２乗より大きく、ＬＵＴの直ぐ次のエントリ以下であることが分かり、ＬＵＴの次のエントリのインデックス（Ｅｎｔｒｙ_ｉ）は、Ｘが入る間隔を表す。Ｅｎｔｒｙ_ｉは、Ｅｎｔｒｙ_ｉ−１＜Ｘ＜Ｅｎｔｒｙ_ｉである、第１レベルのＬＵＴの完全な２乗のエントリの間にある１２８個の完全な２乗の次のレベルのＬＵＴを識別するためのインデックスとして使用できる。一実施形態では、合計１０個のそのような第２のＬＵＴがあり、１２８個の完全な２乗の間隔毎に１つずつある。代替実施形態では、１２９個の完全な２乗のエントリが、各第２レベルのＬＵＴに実装され、これには、Ｅｎｔｒｙ_ｉ−１及びＥｎｔｒｙ_ｉが含まれる。表１は、ＬＵＴの一実施形態を示す。

表１は、ＬＵＴインデックス及びＬＵＴエントリ（例えば、Ｙ_ｈ ^２を表す１２８０個の完全な２乗の全範囲内の１２８個の完全な２乗のあらゆる間隔における最大の完全な２乗）を示す。表１に示されるように、入力仮数Ｘ＝１２３４５６７８のサンプル値を用いると、表１に示されるように、比較チェックＸ≦１１９４３９３６（ＬＵＴの４番目のインデックスエントリ）は失敗するが、比較チェックＸ≦１２８４５０５６（ＬＵＴの５番目のインデックスエントリ）は成功する。示されているように、比較はインデックス５（Ｅｎｔｒｙ_ｉ）を返し、これは、１１９４３９３６〜１２８４５０５６の範囲の１２９個の完全な２乗を含む第５番目の第２レベルのＬＵＴを指す。

入力仮数Ｘに最も近い完全な２乗Ｙ_ｈ ^２を識別するために、最も小さい完全な２乗（Ｙ_ｈａ ^２）が、１２９個の完全な２乗の各間隔に格納される。Ｘ−Ｙ_ｈａ ^２の差（Ｚ_ｈａ）は、Ｘに対応して識別された第２レベルのＬＵＴのＹ_ｈａ ^２を用いて決定される。その後、Ｚ_ｈａはシフト演算を用いて２×２０４８と２×４０９６とで除算され、ｉｄｘ_ｈａｌとｉｄｘ_ｈａｈとになる。これは、隣接する完全な２乗ｎ^２と（ｎ＋１）^２との間に２ｎの整数があるという特性に基づいている。こうして、Ｙ_ｈの範囲は２８９６から４０９５に及び、２８９６に近い２の最も近い累乗は２０４８であり、４０９５に近い２の最も近い累乗は４０９６である。ｉｄｘ_ｈａｅ＝（ｉｄｘ_ｈａｌ＋ｉｄｘ_ｈａｈ）／２の平均が次に計算され、これは第２レベルのＬＵＴのＹ_ｈ ^２のエントリの推定インデックスである。図２９は、ｉｄｘ_ｈａｅ対（第２レベルのＬＵＴにおけるＹ_ｈ ^２のエントリに対する実際のインデックスである）ｉｄｘのグラフの一実施形態を示す。

図２９に示されるように、両方の線が互いにスケーリングされたバージョンである。ｙ_２＝ｍ_２ｘ＋ｃ_２としてのｉｄｘ_ｈａｅ及びｙ_１＝ｍ_１ｘ＋ｃ_１としてのｉｄｘの線形方程式に基づいて、ｙ_２＝ｙ_１＋（ｍ_２−ｍ_１）ｘ＋（ｃ_２−ｃ_１）となる。方程式ｙ_２＝ｍ_２ｘ＋ｃ_２及びｙ_１＝ｍ_１ｘ＋ｃ_１の両方が、それらのそれぞれの傾き及びｙ切片値とともに図２９に示される。ｙ_２は、第２レベルのＬＵＴのＹ_ｈ ^２のエントリに対する実際のインデックス（ｉｄｘ）を表し、ｉｄｘ_ｈａｅの式（ｙ_１で表される）のスケーリングに基づいて取得されている。従って、Ｙ_ｈ ^２が計算された。一実施形態では、この計算は、１つのＭＡＤ演算及び１つの加算演算を用いて行われる。

Ｙ_ｈ ^２が計算されると、Ｘ−Ｙ_ｈ ^２は、１つの減算演算を介して計算され、１つのシフト演算により２×４０９６で除算されて、中間結果が生成され得る。その後、中間結果に４０９６／Ｙ_ｈが乗算される。一実施形態では、図３０に示されるように、４０９６／Ｙ_ｈは、１６個の線形セグメントを含む区分的線形近似を介して計算される。図３０は、入力仮数Ｘによって表されるｘ軸をさらに示す。４０９６／Ｙ_ｈのＰＬＡは、１つのＭＡＤ演算を用いて計算され得る。上記のように、中間結果（Ｘ−Ｙ_ｈ ^２）／（２×４０９６）に４０９６／Ｙ_ｈを乗算して、結果として得られる平方根Ｙの１２ビットＬＳＢ部分を次のように取得する。
Ｙ_ｌ＝（Ｘ−Ｙ_ｈ ^２）／（２Ｙ_ｈ）

図２４に戻ると、Ｙ_ｈ及びＹ_ｌに対して行われた浮動小数点演算の結果は、浮動小数点演算の結果（又は出力）として指数成分の結果と結合され、ブロック２４４０を処理する。上述のプロセスの実行レイテンシは、平方根（Ｙ）の仮数の計算に依存する。指数（ｅ_ｓｑ）の計算では、入力指数（ｅ）のＬＳＢビットが偶数又は奇数かを確認し、それに応じて１２８又は１２７を減算し（てバイアスにより指数をシフトし）、１ビットシフト演算で２で除算し、さらに１２７を加算し（てバイアスにより指数をシフトし）、その結果をＳＰＦＰ指数フォーマットに戻す。Ｙ（平方根の仮数）の計算に含まれる乗算、加算、減算、及びシフトの演算には、平方根の指数ｅ_ｓｑよりも多くの実行サイクルが必要である。

一実施形態では、平方根Ｙの仮数の計算には４つの計算が含まれ、各演算が入力仮数Ｘに基づいているため（例えば、それらは互いに依存しないため）、並列に実行することができる。そのような実施形態では、結果として得られる平方根Ｙの１２ビットＭＳＢ部分の初期推定値（Ｙ_ｈｉ）を計算し、実際のＹ_ｈと推定されたＹ_ｈｉの差をＹ_ｈｅ＝Ｙ_ｈ−Ｙ_ｈｉとして計算し、Ｙ_ｈ ^２を計算Ｙ_ｌの一部として計算し、４０９６／Ｙ_ｈを計算Ｙ_ｌの一部として計算する。

一実施形態では、Ｙ_ｈｉの計算は、１つの減算演算、１つのＭＡＤ演算、及び１つのシフト演算を含む。実際のＹ_ｈと推定されたＹ_ｈｉの差をＹ_ｈｅ＝Ｙ_ｈ−Ｙ_ｈｉとして計算するには、傾き及びｙ切片を取得するために１つのＬＵＴルックアップが実装され、ＰＬＡの一部として１つのＭＡＤ演算及び１つの丸め演算が実行され、これには、ＬＳＢビットが１の場合に、ＬＳＢビットのチェック、残りのビットへの１の加算が含まれる。

Ｙ_ｌ（結果として得られる平方根Ｙの１２ビットＬＳＢ部分）を計算する構成要素としてＹ_ｈ ^２を計算することには、２つのＬＵＴルックアップ、１０個の並列比較演算、３個の並列シフト演算（例えば、Ｘ−Ｙ_ｈａ ^２を２×２０４８で除算してｉｄｘ_ｈａｌを取得し、Ｘ−Ｙ_ｈａ ^２を２×４０９６で除算してｉｄｘ_ｈａｈを取得し、及びインデックスｉｄｘ_ｈａｌ及びｉｄｘ_ｈａｈの平均化の際に２で除算してｉｄｘ_ｈａｅを取得する）、１つの加算演算（例えば、ｉｄｘ_ｈａｌ及びｉｄｘ_ｈａｈの平均化でｉｄｘ_ｈａｅを取得する）、１つの減算（Ｘ−Ｙ_ｈａ ^２）、１つのＭＡＤ演算及び１つの加算演算（例えば、ｉｄｘ_ｈａｅの式を再スケーリングすることにより、ｉｄｘ_ｈａｅから、第２レベルのＬＵＴへのエントリの実際のインデックスｉｄｘを計算する）ことが含まれる。

Ｘ−Ｙ_ｈ ^２は、２×４０９６で除算するために、１つの減算及び１つのシフト演算によって計算することができる。中間結果（Ｘ−Ｙ_ｈ ^２）／（２×４０９６）に４０９６／Ｙ_ｈを乗算してＹ_ｌを得るには、１つの乗算演算が必要である。一実施形態では、４０９６／Ｙ_ｈを計算するには、傾き及びｙ切片を取得するための１つのＬＵＴルックアップと、ＰＬＡの一部としての１つのＭＡＤ演算とが含まれる。中間結果（Ｘ−Ｙ_ｈ ^２）／（２×４０９６）に４０９６／Ｙ_ｈを乗算してＹ_ｌを得るには、１つの乗算演算が必要である。

逆平方根（ＲＳＱ）

指数のＲＳＱは、次のように表すことができる。
ｅ_ｒｓｑ＝−（ｅ−１２７）／２
ここで、ｅは、入力ＳＰＦＰ数Ｘの８ビットの指数（ビット３０〜２３）である。

（ｅ−１２７）が偶数であると判定すると、ｅ_ｒｓｑ計算は、ｅ_ｒｓｑ＝−（ｅ−１２７）／２のみを含み、判定（ｅ−１２７）が奇数の場合に、結果はｅ_ｒｓｑ＝−（ｅ−１２８）／２になり、入力仮数は２倍にされる。Ｘが、Ｘ＝（−１）^ｓ×２^{（ｅ−１２７）}×１．ｍとして表されるとすると、ＲＳＱ（Ｙ）の結果は次のように与えられる（Ｘが正のＳＰＦＰ数であると仮定）。
Ｙ＝１／√Ｘ＝（−１）^ｓ×２^{−（ｅ−１２７）／２}×（１／√（１．ｍ））
＝（−１）^ｓ×２^{−（ｅ−１２８）／２}×（１／√（２×１．ｍ））、（ｅ−１２７）が奇数の場合。

仮数のＲＳＱの計算は、結果として得られるＲＳＱＹの１２ＭＳＢビット（Ｙ_ｈ）と１２ＬＳＢビット（Ｙ_ｌ）とに分割される。こうして、入力Ｘに対して、ＲＳＱ（Ｘ）＝Ｙとする。
Ｙ＝１／√Ｘ＝Ｙ_ｈ＋Ｙ_ｌ
１／Ｘ＝（Ｙ_ｈ＋Ｙ_ｌ）^２＝Ｙ_ｈ ^２＋Ｙ_ｌ ^２＋２Ｙ_ｈＹ_ｌ
上記のように、Ｙ_ｌ＜＜Ｙ_ｈなので、Ｙ_ｌ ^２を無視できるため、次のようになる。
Ｘ＝１／（Ｙ_ｈ＋Ｙ_ｌ）^２＝１／（Ｙ_ｈ ^２＊（１＋Ｙ_ｌ／Ｙ_ｈ）^２）
≒１／Ｙ_ｈ ^２＊（１−２Ｙ_ｌ／Ｙ_ｈ）
Ｙ_ｌ／Ｙ_ｈ＜＜１であり、（１＋Ｙ_ｌ／Ｙ_ｈ）^２に対して二項級数の近似を適用することにより、
Ｘ＊Ｙ_ｈ ^２＝１−２Ｙ_ｌ／Ｙ_ｈ
２Ｙ_ｌ／Ｙ_ｈ＝１−Ｘ＊Ｙ_ｈ ^２
Ｙ_ｌ＝（Ｙ_ｈ−Ｘ＊Ｙ_ｈ ^３）／２

ＳＰＦＰ平方根を参照して上で議論したように、Ｙ_ｈ及びＹ_ｈ ^３は、提案で与えられる説明と同様に、ＬＥＲＰ及びＰＬＡによって得ることができる。Ｙ_ｈ ^３にＸを乗算し、上式からＹ_ｈからの減算及びシフトによる２の除算によってＹ_ｌを取得する。

逆元（Inverse）／逆数（Reciprocal）（ＩＮＶ）

指数のＩＮＶは、次のように表すことができる。
ｅ_ｉｎｖ＝−（ｅ−１２７）
ここで、ｅは、入力ＳＰＦＰ数Ｘの８ビットの指数（ビット３０〜２３）である。

ＩＮＶの計算は、仮数を結果として得られるＩＮＶＹの１２ＭＳＢビット（Ｙ_ｈ）及び１２ＬＳＢビット（Ｙ_ｌ）に分割することから再び開始する。こうして、入力Ｘに対して、ＩＮＶ（Ｘ）＝Ｙとする。
Ｙ＝１／Ｘ＝Ｙ_ｈ＋Ｙ_ｌ
Ｙ_ｌ＝１／Ｘ−Ｙ_ｈ
＝１／Ｘ＊（１−Ｘ＊Ｙ_ｈ）
＝Ｙ_ｈ＊（１−Ｘ＊Ｙ_ｈ）、近似１／Ｘ≒Ｙ_ｈによって
＝Ｙ_ｈ−Ｘ＊Ｙ_ｈ ^２

Ｙ_ｈ及びＹ_ｈ ^２は、上記のＳＰＦＰ平方根についての提案の説明と同様に、ＬＥＲＰ及びＰＬＡによって得ることができる。上記の式から、Ｙ_ｈ ^２はＸで乗算され、Ｙ_ｌはＹ_ｈからの減算によって計算される。

サイン／コサイン（ＳＩＮ／ＣＯＳ）

ＳＰＦＰ入力のＳＩＮは、ＳＩＮが周期関数であるため、範囲縮小法によって計算される。こうして、入力のＳＩＮは−π／２からπ／２の範囲（例えば、入力範囲[−π／２：π／２]の場合に得られる結果は−１から１の範囲である）で計算され、範囲外になり、関数は周期的なままである。入力範囲を縮小したＳＩＮ出力が−１から１まで変化する可能性があるため、出力の再正規化後にＳＩＮの指数成分を計算できる。
ＳＩＮ（２^{（ｅ−１２７）}×１．ｍ）＝ＳＩＮ（ＲＲ（２^{（ｅ−１２７）}×１．ｍ））
ここで、ＲＲ（Ｘ）は入力値Ｘに範囲縮小を適用し、その結果を０からπ／２以内に縮小する。

ＲＲ（Ｘ）＝ｉｎｔＲＲ＋ｆｒｃＲＲの出力が与えられ、ここで、ｉｎｔＲＲ及びｆｒｃＲＲは、範囲縮小時の結果の整数及び少数（fractional）成分である。
ｉｎｔＲＲ＝ｉｎｔ（（２^{（ｅ−１２７）}×１．ｍ）／（π／２））
＝ｉｎｔ（２^{（ｅ−１２７）}×１．ｍ×２／π）
ｆｒｃＲＲ＝（２^{（ｅ−１２７）}×１．ｍ）−（ｉｎｔＲＲ×π／２）
ＳＩＮ（２^{（ｅ−１２７）}×１．ｍ）＝ＳＩＮ（ｆｒｃＲＲ）

一実施形態では、２／π及びπ／２による乗算は、πの近似及び丸め込みによって達成することができる。ｉｎｔＲＲの異なる値に基づいて、ＳＩＮ計算の結果のｆｒｃＲＲ_ｉを次の表２から取得できる。

入力の範囲縮小後に、ＳＩＮ（ｆｒｃＲＲ_ｉ）は、１レベルのＰＬＡを用いて計算することができる。一実施形態では、ＰＬＡは、可変サイズ入力範囲の１６個の線形セグメント又は２６個の等しいサイズの線形セグメントを実装し、対応する値の傾き及びｙ切片がＬＵＴに格納される。ＣＯＳの計算は、表２の符号及びｆｒｃＲＲ_ｉ列の異なる行エントリの順序を除いて、ＳＩＮ計算と似ている。

２を底とする対数（ＬＯＧ）

ＳＰＦＰ数Ｘの２を底とするＬＯＧ（Ｙ）は、次のように表すことができる（ＬＯＧは正のＳＰＦＰ数に対してのみ適用可能である）。
Ｙ＝ＬＯＧ（Ｘ）＝ＬＯＧ（２^{ｅ−１２７}×１．ｍ）＝ｅ−１２７＋ＬＯＧ（１．ｍ）
ここで、ｅは入力ＳＰＦＰ数の８ビットの指数（ビット３０〜２３）であり、ｍは仮数ビット２２〜０である。ｅ−１２７はＬＯＧ（１．ｍ）の結果に追加される（ｅ−１２７として追加されるのは整数で、ＬＯＧ（１．ｍ）は少数である）。結果の値は再正規化され（ＳＰＦＰフォーマットに合わせるために結果をシフトする）、結果のＬＯＧの指数（ｅ_ｌｏｇ）を取得する。

一実施形態によれば、ＬＯＧ（Ｘ）＝Ｙ（ここで、Ｘ＝１．ｍ）のＳＰＦＰ仮数を計算する際に３つの演算が実行される。そのような実施形態では、初期推定値が、ＬＥＲＰ及び２レベルのＰＬＡを介して計算され、初期推定値とＹとの間の差を推定する。最初に、ＬＥＲＰは、入力仮数Ｘ及び出力仮数範囲Ｙの全範囲に対して実行され（演算１）、Ｙ_ｉｎｉを取得する。ＬＥＲＰのエラーがＹ_ｅｒｒ＝Ｙ−Ｙ_ｉｎｉとすると、Ｙ_ｅｒｒを計算するために２レベルのＰＬＡが実装される。

レベル１のＰＬＡは、上記の演算１でＬＥＲＰから発生するＹ_ｅｒｒを概算する。一実施形態では、入力／出力仮数範囲全体が、レベル１のＰＬＡの一部として６４個の線形セグメントに分割される。こうして、線形セグメントの線形方程式には、傾き及びｙ切片のための６４×２エントリＬＵＴが実装される。レベル１のＰＬＡの結果はＹ_{ｅｒｒ＿ｌ１}として参照され得る。レベル２のＰＬＡは、上記のレベル１のＰＬＡから発生するＹ_{ｅｒｒ＿ｌ１ｅｒｒ}を概算する。６４個のレベル１のＰＬＡ範囲のそれぞれは、レベル２のＰＬＡにおいて３２個の線形セグメントに分割される。レベル１のＰＬＡの６４個の範囲のそれぞれにＹ_{ｅｒｒ＿ｌ１ｅｒｒ}の類似性があるため、レベル２のＰＬＡにおいて、レベル１のＰＬＡの６４個の範囲のそれぞれに同じ３２個の線形方程式を適用できる。これにより、ＬＵＴサイズが３２×６４×２から３２×２に縮小される。

指数−基数２（ＥＸＰ）

ＳＰＦＰ数Ｘの基数２のＥＸＰ（Ｙ）は、次のように表すことができる。
Ｙ＝ＥＸＰ（Ｘ）＝２^{（（−１）＾ｓ×２＾（ｅ−１２７）×１．ｍ）}＝２^{ｉｎｔ（（−１）＾ｓ×２＾（ｅ−１２７）×１．ｍ）＋ｆｒｃ（（−１）＾ｓ×２＾（ｅ−１２７）×１．ｍ）}
ここで、ｅは入力ＳＰＦＰ数の８ビットの指数（ビット３０〜２３）であり、ｍは仮数ビット２２〜０である。ｉｎｔ（Ｘ）はｘの整数部分を表し、ｆｒｃ（Ｘ）はｘの小数部分を表す。

入力ＳＰＦＰ数が正であると判定すると、
Ｙ＝２^{ｉｎｔ（２＾（ｅ−１２７）×１．ｍ）＋ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}
ここで、ｉｎｔ（２^{（ｅ−１２７）}×１．ｍ）は結果として得られるＥＸＰＹの指数であり、２^{ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}は結果として得られるＥＸＰＹの仮数である。

入力ＳＰＦＰ数が負であると判定すると、
Ｙ＝２^{−ｉｎｔ（２＾（ｅ−１２７）×１．ｍ）−ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}
＝２^{−ｉｎｔ（２＾（ｅ−１２７）×１．ｍ）}×２^{−ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}
＝２^{−ｉｎｔ（２＾（ｅ−１２７）×１．ｍ）−１}×２^{１−ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}
ここで、−ｉｎｔ（２^{（ｅ−１２７）}×１．ｍ）−１は結果として得られるＥＸＰＹの指数であり、２^{ｆｒｃ（２＾（ｅ−１２７）×１．ｍ）}は結果として得られるＥＸＰＹの仮数である。

一実施形態では、ＥＸＰは容易にオーバーフロー又はアンダーフローする可能性があり、入力の有効範囲は［−１２８、＋１２７］である。こうして、入力Ｘ＝１．ｍ＊２^{ｅ−１２７}であり、ここで、１．ｍは[１、２）の範囲なので、ｅ−１２７は０から６までしか変化しない。ｅ−１２７＞０の場合に、ｆｒｃ計算は、１．ｍのｅ−１２７ＭＳＢビットを２^{ｉｎｔ（２＾（ｅ−１２７）×１．ｍ）}に入れる（左シフトする）。事実上、ｅ−１２７＝０を想定して計算する必要があるのは２^．ｍだけである。ｅ−１２７の他の場合（ｅ−１２７が１〜６の範囲で変化する）に、２^．ｍ内のｍビット数は２３よりも少ないため、こうして、結果として得られる計算に必要な精度は低くなる。

一実施形態では、入力Ｘの仮数は、２^．ｍを計算するために、８ＭＳＢビット（Ｘ_ｈ）及び１５ＬＳＢビット（Ｘ_ｌ）に分割される。そのような実施形態では、最終的に得られるＥＸＰは、２^Ｘｈ及び２^Ｘｌを乗算することによって計算することができる。２^Ｘｌを計算するには、入力Ｘの仮数の全範囲に亘ってＬＥＲＰを実行し、相対誤差は＜２^−２１である。こうして、ＬＥＲＰの１つのレベルは精度要件を満たし、ＬＥＲＰの結果はＹ_ｌｅｒｐになる。２^Ｘｈを計算するために、ＰＬＡは、入力Ｘの仮数の全範囲を８個の線形セグメントに分割することによって実装される。

ＰＬＡの結果がＹ_{ｉｎｉ＿Ｘｈ}であるとすると、実際の２^ＸｈとＹ_{ｉｎｉ＿Ｘｈ}との間の差は、Ｙ_{ｉｎｉ＿Ｘｈ}を最も近い１０進の２進小数点に丸めることによって計算され得、丸め込みの結果はＹ_{ｉｎｉ＿Ｘｈ＿ｒｎｄ}になる。上記のように、結果として得られるＥＸＰは次のように計算できる。
２^．ｍ＝２^Ｘｈ×２^Ｘｌ＝Ｙ_{ｉｎｉ＿Ｘｈ＿ｒｎｄ}×Ｙ_ｌｅｒｐ

浮動小数点除算（ＦＰＤＩＶ）

ＦＰＤＩＶの結果は、次のように表すことができる。
Ｚ＝Ｙ／Ｘ
ここで、Ｙは被除数であり、Ｘは除数である。

一実施形態では、得られた結果は、ＩＮＶ演算（１／Ｘ）及びＭＵＬ演算（Ｙ×１／Ｘ）によって計算することができる。そのような実施形態では、ＦＰＤＩＶ演算は、ＩＮＶ演算に統合されており、ＩＮＶと同じ数のサイクルで完了するように最適化されているので、実行レイテンシは、ＩＮＶ演算と同じである。一実施形態によれば、ＦＰＤＩＶ演算は、ＩＮＶ演算に統合されているので、ＩＮＶと同じ数のサイクルで完了するように最適化される。例えば、ＦＰＤＩＶ演算の指数部分は単純な減算演算であることが容易に分かる。被除数Ｙの指数がｅ_ｙであり、除数Ｘの指数がｅ_ｘの場合に、結果として得られる指数ｅ_{ｆｐｄｉｖ}＝ｅ_ｙ−ｅ_ｘであり、得られる結果は、結果のＦＰＤＩＶの仮数部を計算した後で再正規化される。ＩＮＶの結果、次のようになる。
Ｗ＝１／Ｘ＝Ｗ_ｈ＋Ｗ_ｌ、及びＷ_ｌ＝Ｗ_ｈ−Ｘ×Ｗ_ｈ ^２
（例えば、上記のＩＮＶ演算の結果の方程式による）;これは次を意味する。
Ｚ＝Ｙ／Ｘ＝Ｙ×（Ｗ_ｈ−Ｘ×Ｗ_ｈ ^２）＝Ｙ×Ｗ_ｈ−Ｙ×Ｘ×Ｗ_ｈ ^２

Ｗ_ｈを推定している間に、Ｖ＝Ｙ×Ｘを並行して計算できる。Ｖ×Ｘ_ｈ ^２＝Ｙ×Ｘ×Ｗ_ｈ ^２を計算している間に、Ｙ×Ｗ_ｈを並行して計算できる。こうして、ＦＰＤＩＶはＩＮＶと同じサイクル数で計算できる。その結果、開示されるＦＰＤＩＶ計算は、現在のソリューションで必要とされるようなパイプラインを介した複数のパス（少なくとも２つ）を必要とせず、既存のソリューションと比較して、開示されるＦＰＤＩＶの実行レイテンシを大幅に少なくする。

逆平方根とベクトルスケーリングとの組合せ

上記の逆平方根Ｒの計算に加えて、Ｎ_Ａ ^→、Ｎ_Ｂ ^→、Ｎ_Ｃ ^→の計算は、ＲのＹ_ｈ、Ｙ_ｌの計算中に、Ａ^→、Ｂ^→、Ｃ^→とのＲの計算及びＲの乗算を組み合わせることでさらに最適化できる。これにより、バンチ演算（bunched operation）全体は、逆平方根Ｒの計算と比較して、追加のサイクルを必要としない。

一実施形態によれば、Ｒの計算の第１段階は、線形補間（ＬＥＲＰ）及び区分的線形近似（ＰＬＡ）を用いるＹ_ｈ及びＹ_ｈ ^３の計算を含み、Ｎ_Ａ ^→＝Ａ^→×Ｒの計算の第２段階は、Ｎ_Ａ ^→＝Ａ^→×（Ｙ_ｈ＋Ｙ_ｌ）を含む。
Ｎ_Ａ ^→＝Ａ^→×（Ｙ_ｈ＋Ｙ_ｌ）
＝Ａ^→×Ｙ_ｈ＋Ａ^→×Ｙ_ｌ
＝Ａ^→×Ｙ_ｈ＋Ａ^→×（（Ｙ_ｈ−Ｘ×Ｙ_ｈ ^３））／２
＝Ａ^→×Ｙ_ｈ＋（（Ａ^→×Ｙ_ｈ−Ａ^→×Ｘ×Ｙ_ｈ ^３））／２

Ｐ_Ａ＝Ａ^→×Ｙ_ｈは、第２段階で計算できる。

Ｑ_Ａ＝Ａ^→×Ｘは、Ｙ_ｈ及びＹ_ｈ ^３の計算と並行して、第１段階で計算できる。

Ｔ_Ａ＝Ｑ_Ａ×Ｙ_ｈ ^３は、Ｐ_Ａの計算と並行して、第２段階で計算できる。

最後にＮ_Ａ ^→＝Ａ^→×Ｙ_ｈ＋（（Ａ^→×Ｙ_ｈ−Ａ^→×Ｘ×Ｙ_ｈ ^３））／２＝Ｐ_Ａ＋（（Ｐ_Ａ−Ｔ_Ａ））／２は、第３段階で、１つの減算、１つの右シフト演算、及び１つの加算で取得できる。Ｐ_Ａ、Ｑ_Ａ、Ｔ_Ａ、及びＮ_Ａ ^→の計算中に、Ｐ_Ｂ、Ｑ_Ｂ、Ｔ_Ｂ、Ｎ_Ｂ ^→、Ｐ_Ｃ、Ｑ_Ｃ、Ｔ_Ｃ、Ｎ_Ｃ ^→を並行して計算できる。このＲとＮ_Ａ ^→、Ｎ_Ｂ ^→、Ｎ_Ｃ ^→との最適化された組合せ計算は、上記ではＲＮ_Ａ ^→Ｎ_Ｂ ^→Ｎ_Ｃ ^→、又はＲＳＱＶＳと呼ばれる。

本明細書で説明する様々な実施形態は、命令（例えば、ＶＮＭ）を公開することを企図しているが、Ｖ個のベクトルに対して実行すべきベクトル正規化処理を指定する。追加又は代替として、（ｉ）３成分ドット積演算（例えば、ＳＩＭＤ８ＤＰ３）、（ｉｉ）３成分逆平方根演算（例えば、ＳＩＭＤ８ＲＳＱ）、及び逆平方根関数とベクトルスケーリング関数との両方を組み合わせる３成分演算（例えば、ＳＩＭＤ８ＲＳＱＶＳ）の１つ又は複数に対して、個々のＩＳＡ命令を公開できる。

方法の多くはそれらの最も基本的な形式で説明しているが、プロセスを方法のいずれかに追加又は削除でき、情報は、本発明の実施形態の基本的な範囲から逸脱することなく、説明したメッセージのいずれかに追加又は削除できる。多くの更なる修正及び適合がなされ得ることは、当業者には明らかであろう。特定の実施形態は、概念を限定するためではなく、その概念を例示するために提供される。実施形態の範囲は、上記で提供された特定の例によってではなく、以下の特許請求の範囲によってのみ決定すべきである。

要素「Ａ」が要素「Ｂ」に、又は要素「Ｂ」と共に結合されると言われる場合に、要素Ａは、要素Ｂに直接結合され得るか、又は例えば要素Ｃを介して間接的に結合され得る。構成要素、機能、構造、プロセス、又は特性Ａが構成要素、機能、構造、プロセス、又は特性Ｂを「生じさせる」と明細書及び特許請求の範囲が述べる場合に、これは、「Ａ」が「Ｂ」の少なくとも部分的な原因であることを意味するが、「Ｂ」を生じさせるのに役立つ少なくとも１つの他の構成要素、機能、構造、プロセス、又は特性も存在し得る。明細書に、構成要素、機能、構造、プロセス、又は特性が「含まれる可能性がある」、「含むことができる」、「含まれ得る」と記載されている場合に、その特定の構成要素、機能、構造、プロセス、又は特性を含める必要はない。明細書又は特許請求の範囲が「１つの（a, an）」要素に言及している場合に、これは、説明している要素の１つだけがあることを意味するものではない。

実施形態は、実施態様又は例である。本明細書における「実施形態」又は「一実施形態」、「いくつかの実施形態」、又は「他の実施形態」への言及は、実施形態に関連して説明する特定の特徴、構造、又は特性が、少なくともいくつかの実施形態に含まれ得るが、必ずしも全ての実施形態に含まれないことを意味する。「実施形態」、「一実施形態」、又は「いくつかの実施形態」の様々な出現は、必ずしも全てが同じ実施形態を参照するわけではない。例示的な実施形態の前述の説明では、開示を簡素化し、様々な新規の態様の１つ又は複数の理解を助ける目的で、様々な特徴が、単一の実施形態、図、又はその説明に一緒にグループ化される場合があることを理解されたい。しかしながら、この開示の方法は、特許請求の範囲に記載される実施形態が、各請求項で明示的に列挙されるよりも多くの特徴を必要とするという意図を反映するものとして解釈すべきではない。むしろ、以下の特許請求の範囲が反映するように、新規の態様は、前述の単一の開示された実施形態の全ての特徴より少ないところにある。こうして、特許請求の範囲は、これにより、この詳細な説明に明確に組み込まれ、各請求項は、それ自体で別個の実施形態として成立する。

以下の節及び／又は例は、更なる実施形態又は例に関する。例の詳細は、１つ又は複数の実施形態のいずれにも使用することができる。異なる実施形態又は例の様々な特徴は、様々な異なる用途に適合するように含まれるいくつかの特徴及び除外される他の特徴と様々に組み合わせることができる。例は、機械によって実行されると、機械に、本明細書で説明する実施形態及び例によるハイブリッド通信を容易にするための方法の動作又は装置又はシステムの動作を実行させる命令を含む、方法、方法の動作を実行するための手段、少なくとも１つの機械可読媒体等の主題を含み得る。

いくつかの実施形態は、方法を含む例１に関係する。この方法は、Ｖ個のベクトルのセットの各ベクトルに対して行うべきベクトル正規化処理を指定する単一の命令のグラフィック処理装置（ＧＰＵ）による受信に応答して：ＧＰＵの第１の処理装置によって、Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さをそれぞれ表すＶ個の２乗長さ値を生成することであり、Ｖ個のベクトルのセットのうちのＮ個のベクトルの複数の成分ベクトルをそれぞれ表し、且つＶ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、Ｎセットの入力に対してＮ個の並列ドット積演算を行うことにより、Ｎ個の２乗長さ値を一度に生成するステップと；ＧＰＵの第２の処理装置によって、Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成することであり、Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、Ｎ個の２乗長さ値に対してＮ個の並列演算を行うことにより、Ｎセットの出力を一度に生成するステップと、を含み、Ｎ個の並列演算のそれぞれが、逆平方根関数とベクトルスケーリング関数との組合せを実行する。

例２は、例１の主題を含み、ＧＰＵの第２の処理装置によって、Ｖセットの出力を生成することは、Ｖ／Ｎ個のレジスタの第２セットのそれぞれのレジスタに、一度にＮセットの出力ずつＶセットの出力を格納する。

例３は、実施例１〜２の主題を含み、Ｖは８であり、Ｎは２である。

例４は、例１〜３の主題を含み、Ｖ／Ｎ個のレジスタの第１のセットは４個の２５６ビットレジスタを含み、複数の成分ベクトルは３つの３２ビット成分ベクトルを含む。

例５は、例１〜４の主題を含み、Ｖ／Ｎ個のレジスタの第２セットは４個の２５６ビットレジスタを含み、複数の正規化成分ベクトルは３つの３２ビット正規化成分ベクトルを含む。

例６は、例１〜５の主題を含み、第１の処理装置は浮動小数点ユニット（ＦＰＵ）を含み、第２の処理装置はコプロセッサを含む。

例７は、例１〜６の主題を含み、Ｎ個の並列ドット積演算は、２ワイド単一命令複数データ（ＳＩＭＤ）ドット積命令により生じる。

例８は、例１〜７の主題を含み、Ｎ個の並列処理は、２ワイド単一命令複数データ（ＳＩＭＤ）命令により生じる。

例９は、例１〜８の主題を含み、逆平方根関数は、オペランドに対して単精度逆平方根演算を行うことを含み、この演算には、
オペランドの指数成分に対して逆平方根演算を行うこと、
オペランドの仮数成分に対して逆平方根演算を行うことであって、この演算には、
仮数成分を第１のサブ成分と第２のサブ成分とに分割すること、
第１のサブ成分の逆平方根演算の結果を決定すること、及び
第２のサブ成分の逆平方根演算の結果を決定することが含まれる、逆平方根演算を行うこと、及び
逆平方根演算の結果を返すことが含まれる。

いくつかの実施形態は、グラフィック処理装置（ＧＰＵ）を含む例１０に関係する。このＧＰＵは、Ｖ／Ｎ個のレジスタの第１のセットと；Ｖ／Ｎ個のレジスタの第１のセットに結合された第１の処理装置と；Ｖ／Ｎ個のレジスタの第１のセットに結合された第２の処理装置と；Ｖ個のベクトルのセットの各ベクトルに対して行うべきベクトル正規化処理を指定する単一の命令の受け取りに応答して、（ｉ）第１の処理装置によって行うべきＶ／Ｎ回のＮワイド単一命令複数データ（ＳＩＭＤ）ドット積を発し、及び（ｉｉ）第２の処理装置によって行うべき逆平方根関数とベクトルスケーリング関数との組合せを実行するＶ／Ｎ回のＮワイド単一命令複数データ（ＳＩＭＤ）演算を発するように動作可能な実行ユニットと；を含み、
第１の処理装置は、Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さをそれぞれ表すＶ個の２乗長さ値を生成するように動作可能であり、Ｖ個のベクトルのセットのうちのＮ個のベクトルの複数の成分ベクトルをそれぞれ表し、且つＶ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、前記Ｖ／Ｎ回のＮワイドＳＩＭＤドット積演算の１つを実行することにより、Ｎ個の２乗長さ値を一度に生成するように動作可能であり、
第２の処理装置は、Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成するように動作可能であり、Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、Ｖ／Ｎ回のＮワイドＳＩＭＤ演算の１つを行うことにより、Ｎセットの出力を一度に生成するように動作可能である。

例１１は、例１０の主題を含み、ＧＰＵは、Ｖ／Ｎ個のレジスタの第１のセットをさらに含み、Ｖセットの出力は、Ｖ／Ｎ個のレジスタの第２セットのそれぞれのレジスタに、一度にＮセットの出力ずつ格納される。

例１２は、例１０〜１１の主題を含み、Ｖは８であり、Ｎは２である。

例１３は、例１０〜１２の主題を含み、Ｖ／Ｎ個のレジスタの第１のセットは４個の２５６ビットレジスタを含み、複数の成分ベクトルは３つの３２ビット成分ベクトルを含む。

例１４は、例１０〜１３の主題を含み、Ｖ／Ｎ個のレジスタの第２セットは４個の２５６ビットレジスタを含み、複数の正規化成分ベクトルは３つの３２ビット正規化成分ベクトルを含む。

例１５は、例１０〜１４の主題を含み、第１の処理装置は浮動小数点ユニット（ＦＰＵ）を含み、第２の処理装置はコプロセッサを含む。

例１６は、例１０〜１５の主題を含み、逆平方根関数は、オペランドに対して単精度逆平方根演算を行うことを含み、この演算には、
オペランドの指数成分に対して逆平方根演算を行うこと、
オペランドの仮数成分に対して逆平方根演算を行うことであって、この演算には、
仮数成分を第１のサブ成分と第２のサブ成分とに分割すること、
第１のサブ成分の逆平方根演算の結果を決定すること、及び
第２のサブ成分の逆平方根演算の結果を決定することが含まれる、逆平方根演算を行うこと、及び
逆平方根演算の結果を返すことが含まれる。

例１７は、例１０〜１６の主題を含み、第１のサブ成分の値を決定することは、第１のサブ成分の初期推定値を決定すること、及び第１のサブ成分の実際の値と第１のサブ成分の初期推定値との間の差を決定することを含む。

例１８は、例１０〜１７の主題を含み、初期推定を決定することは、線形補間を行うことを含む。

例１９は、例１０〜１８の主題を含み、第１のサブ成分の実際の値と第１のサブ成分の初期推定値との間の差は、区分的線形近似によって決定される。

実施例２０は、例１０〜１９の主題を含み、第１及び第２のサブ成分についての逆平方根演算の結果を決定することは、並行して実行される。

いくつかの実施形態は、システムを含む例２１に関係する。このシステムは、Ｖ個のベクトルのセットの各ベクトルに対して行うべきベクトル正規化処理を指定する単一の命令の受け取りに応答して、Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さ値をそれぞれ表すＶ個の２乗長さ値を生成することであり、Ｖ個のベクトルのセットのうちのＮ個のベクトルの複数の成分ベクトルをそれぞれ表し、且つＶ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、Ｎセットの入力に対してＮ個の並列ドット積演算を行うことにより、Ｎ個の２乗長さ値を一度に生成するための手段と、
Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成することであり、Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、Ｎ個の２乗長さ値に対してＮ個の並列演算を行うことにより、Ｎセットの出力を一度に生成するための手段と、を含み、
Ｎ個の並列演算のそれぞれが、逆平方根関数とベクトルスケーリング関数との組合せを実行する。

いくつかの実施形態は、例１〜１０のいずれかの方法を実施又は実行する機器を含む例２２に関する。

例２３は、コンピュータ装置上で実行されたときに、前述の例に記載された方法を実施又は実行する、又は機器を実現するための複数の命令を含む少なくとも１つの機械可読媒体を含む。

図面及び前述の説明は、実施形態の例を与える。当業者は、説明した要素の１つ又は複数が単一の機能要素に結合され得ることを理解するであろう。あるいはまた、特定の要素を複数の機能要素に分割することもできる。一実施形態の要素を別の実施形態に追加することができる。例えば、本明細書で説明するプロセスの順序は、変更してもよく、本明細書で説明する方法に限定されない。さらに、フロー図の動作は、示される順序で実施する必要はなく、必ずしも全ての動作を実行する必要もない。また、他の動作に依存しないそれらの動作は、他の動作と並行して実行してもよい。実施形態の範囲は、これらの特定の例によって決して制限されない。構造、寸法、材料の使用法等、明細書で明示的に指定されているかどうかにかかわらず、様々なバリエーションが可能である。実施形態の範囲は、少なくとも以下の特許請求の範囲によって与えられるのと同じくらい広い。

Claims

方法であって、当該方法は、
Ｖ個のベクトルのセットの各ベクトルに対して行うべきベクトル正規化処理を指定する単一の命令のグラフィック処理装置（ＧＰＵ）による受け取りに応答して、
前記ＧＰＵの第１の処理装置によって、Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さをそれぞれ表すＶ個の２乗長さ値を生成することであり、前記Ｖ個のベクトルのセットのうちのＮ個のベクトルの複数の成分ベクトルをそれぞれ表し、且つＶ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、前記Ｎセットの入力に対してＮ個の並列ドット積演算を行うことにより、Ｎ個の２乗長さ値を一度に生成するステップと、
前記ＧＰＵの第２の処理装置によって、前記Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成することであり、前記Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、前記Ｎ個の２乗長さ値に対してＮ個の並列演算を行うことにより、Ｎセットの出力を一度に生成するステップと、を含み、
前記Ｎ個の並列演算のそれぞれが、逆平方根関数とベクトルスケーリング関数との組合せを実行する、
方法。
前記ＧＰＵの第２の処理装置によって、前記Ｖセットの出力を生成することは、Ｖ／Ｎ個のレジスタの第２セットのそれぞれのレジスタに、一度にＮセットの出力ずつ前記Ｖセットの出力を格納する、請求項１に記載の方法。
Ｖは８であり、Ｎは２である、請求項１又は２に記載の方法。
前記Ｖ／Ｎ個のレジスタの第１のセットは４個の２５６ビットレジスタを含み、前記複数の成分ベクトルは３つの３２ビット成分ベクトルを含む、請求項１乃至３のいずれか一項に記載の方法。
前記Ｖ／Ｎ個のレジスタの第２セットは４個の２５６ビットレジスタを含み、前記複数の正規化成分ベクトルは３つの３２ビット正規化成分ベクトルを含む、請求項１乃至４のいずれか一項に記載の方法。
前記第１の処理装置は浮動小数点ユニット（ＦＰＵ）を含み、前記第２の処理装置はコプロセッサを含む、請求項１乃至３のいずれか一項に記載の方法。
前記Ｎ個の並列ドット積演算は、２ワイド単一命令複数データ（ＳＩＭＤ）ドット積命令により生じる、請求項１乃至３のいずれか一項に記載の方法。
前記Ｎ個の並列演算は、２ワイド単一命令複数データ（ＳＩＭＤ）命令により生じる、請求項１乃至３のいずれか一項に記載の方法。
前記逆平方根関数は、オペランドに対して単精度逆平方根演算を行うことを含み、該演算には、
前記オペランドの指数成分に対して逆平方根演算を行うこと、
前記オペランドの仮数成分に対して逆平方根演算を行うことであって、該演算には、
前記仮数成分を第１のサブ成分と第２のサブ成分とに分割すること、
前記第１のサブ成分の前記逆平方根演算の結果を決定すること、及び
前記第２のサブ成分の前記逆平方根演算の結果を決定することが含まれる、前記前記オペランドの仮数成分に対して逆平方根演算を行うこと、及び
前記逆平方根演算の結果を返すことが含まれる、請求項１乃至３のいずれか一項に記載の方法。
グラフィック処理装置（ＧＰＵ）であって、該ＧＰＵは、
Ｖ／Ｎ個のレジスタの第１のセットと、
該Ｖ／Ｎ個のレジスタの第１のセットに結合された第１の処理装置と、
前記Ｖ／Ｎ個のレジスタの第１のセットに結合された第２の処理装置と、
Ｖ個のベクトルのセットの各ベクトルに対して行うべきベクトル正規化処理を指定する単一の命令の受け取りに応答して、（ｉ）前記第１の処理装置によって行うべきＶ／Ｎ回のＮワイド単一命令複数データ（ＳＩＭＤ）ドット積演算を発し、及び（ｉｉ）前記第２の処理装置によって行うべき逆平方根関数とベクトルスケーリング関数との組合せを実行するＶ／Ｎ回のＮワイド単一命令複数データ（ＳＩＭＤ）演算を発するように動作可能な実行ユニットと、を含み、
前記第１の処理装置は、前記Ｖ個のベクトルのセットのうちの１つのベクトルの２乗長さをそれぞれ表すＶ個の２乗長さ値を生成するように動作可能であり、前記Ｖ個のベクトルのセットのうちのＮ個のベクトルの複数の成分ベクトルをそれぞれ表し、且つ前記Ｖ／Ｎ個のレジスタの第１のセットのそれぞれのレジスタに格納されるＮセットの入力毎に、前記Ｖ／Ｎ回のＮワイドＳＩＭＤドット積演算の１つを行うことにより、Ｎ個の２乗長さ値を一度に生成するように動作可能であり、
前記第２の処理装置は、前記Ｖ個のベクトルのセットのうちの１つのベクトルの複数の正規化成分ベクトルをそれぞれ表すＶセットの出力を生成するように動作可能であり、前記Ｖ個の２乗長さ値のうちのＮ個の２乗長さ値毎に、前記Ｖ／Ｎ回のＮワイドＳＩＭＤ演算の１つを行うことにより、Ｎセットの出力を一度に生成するように動作可能である、
ＧＰＵ。
Ｖ／Ｎ個のレジスタの第１のセットをさらに含み、前記Ｖセットの出力は、前記Ｖ／Ｎ個のレジスタの第２セットのそれぞれのレジスタに、一度にＮセットの出力ずつ格納される、請求項１０に記載のＧＰＵ。
Ｖは８であり、Ｎは２である、請求項１０又は１１に記載のＧＰＵ。
前記Ｖ／Ｎ個のレジスタの第１のセットは４個の２５６ビットレジスタを含み、前記複数の成分ベクトルは３つの３２ビット成分ベクトルを含む、請求項１０乃至１２のいずれか一項に記載のＧＰＵ。
前記Ｖ／Ｎ個のレジスタの第２セットは４個の２５６ビットレジスタを含み、前記複数の正規化成分ベクトルは３つの３２ビット正規化成分ベクトルを含む、請求項１０乃至１３のいずれか一項に記載のＧＰＵ。
前記第１の処理装置は浮動小数点ユニット（ＦＰＵ）を含み、前記第２の処理装置はコプロセッサを含む、請求項１０乃至１２のいずれか一項に記載のＧＰＵ。
前記逆平方根関数は、オペランドに対して単精度逆平方根演算を行うことを含み、該演算には、
前記オペランドの指数成分に対して逆平方根演算を行うこと、
前記オペランドの仮数成分に対して逆平方根演算を行うことであって、該演算には、
前記仮数成分を第１のサブ成分と第２のサブ成分とに分割すること、
前記第１のサブ成分の前記逆平方根演算の結果を決定すること、及び
前記第２のサブ成分の前記逆平方根演算の結果を決定することが含まれる、前記オペランドの仮数成分に対して逆平方根演算を行うこと、及び
前記逆平方根演算の結果を返すことが含まれる、請求項１０乃至１２のいずれか一項に記載のＧＰＵ。
前記第１のサブ成分の値を決定することは、前記第１のサブ成分の初期推定値を決定すること、及び前記第１のサブ成分の実際の値と前記第１のサブ成分の前記初期推定値との間の差を決定することを含む、請求項１６に記載のＧＰＵ。
前記初期推定値を決定することは、線形補間を行うことを含む、請求項１７に記載のＧＰＵ。
前記第１のサブ成分の前記実際の値と前記第１のサブ成分の前記初期推定値との間の前記差は、区分的線形近似を介して決定される、請求項１７又は１８に記載のＧＰＵ。
前記第１及び第２のサブ成分についての前記逆平方根演算の結果を決定することは、並行して実行される、請求項１６乃至１９のいずれか一項に記載のＧＰＵ。