JP2021099783A

JP2021099783A - ゼロスキップを伴うベクトル乗算加算の命令及びロジック

Info

Publication number: JP2021099783A
Application number: JP2020154476A
Authority: JP
Inventors: パルスプラティム; Pal Supratim; アヴァンチャサシカント; Avancha Sasikanth; バーティイシュワール; Bhati Ishwar; チェンウェイ−ユー; Wei-Yu Chen; ダスディパンカール; Das Dipankar; ガルグアシュトシュ; Garg Ashutosh; エス．グラムチャンドラ; S Gurram Chandra; グージュンジエ; Junjie Gu; ルエーグエイ−ユアン; Guei-Yuan Lueh; マイユランスブラマニアム; Maiyuran Subramaniam
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-12-23
Filing date: 2020-09-15
Publication date: 2021-07-01
Also published as: KR20210081228A; US20210191724A1; US11669329B2; US11314515B2; DE102020130865A1; US20220326953A1; CN113094096A

Abstract

【課題】本明細書で説明する実施形態は、スパース入力に対する自動ゼロスキップを伴うベクトル乗算加算命令を可能にする命令及び関連ロジックを提供する。【解決手段】一実施形態は、述語マスク、繰返し回数、及び初期オペランドのセットを有するハードウェアマクロ命令をフェッチする動作を行うロジックを含む汎用グラフィックプロセッサを提供し、初期オペランドはデスティネーションオペランド及び複数のソースオペランドを含む。ハードウェアマクロ命令は、行列のセットに関連付けられた入力データに対して１回以上の乗算／加算演算を行うように構成される。【選択図】図２０

Description

本願は、ゼロスキップを伴うベクトル乗算加算（multiply add：積和演算）の命令及びロジックに関する。

行列乗算は、高性能コンピューティング（ＨＰＣ）及び機械学習（ＭＬ）ワークロードで実行される最も一般的な演算の１つである。行列乗算演算は、大抵の場合、融合乗算−加算命令の変形を用いて、プロセッサ機能ユニットで実行される。これらのワークロードで使用される行列は大抵の場合スパースであるため、命令に提供される乗数又は被乗数がゼロである可能性が高く、結果としてゼロ値が累積される。従って、そのような演算は、最終結果に影響を与えることなくバイパスすることができる。

本実施形態の上記の特徴を詳しく理解することができるように、上で簡単に要約された実施形態のより具体的な説明が、実施形態を参照することによって行われ得、その実施形態のいくつかは、添付図面に示される。ただし、添付の図面は典型的な実施形態のみを示しており、従って、その範囲を限定するものと見なすべきではないことに留意されたい。
一実施形態による処理システムのブロック図である。本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す図である。本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す図である。本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す図である。本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す図である。本明細書で説明する実施形態によって提供される追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。本明細書で説明する実施形態によって提供される追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。本明細書で説明する実施形態によって提供される追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図である。いくつかの実施形態による、グラフィックプロセッサのグラフィック処理エンジン４１０のブロック図である。本明細書で説明する実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示す図である。本明細書で説明する実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示す図である。一実施形態による、追加の実行ユニットを示す図である。いくつかの実施形態によるグラフィックプロセッサ命令フォーマットを示すブロック図である。別の実施形態によるグラフィックプロセッサのブロック図である。いくつかの実施形態による、グラフィックプロセッサのコマンドフォーマット及びコマンドシーケンスを示す図である。いくつかの実施形態による、グラフィックプロセッサのコマンドフォーマット及びコマンドシーケンスを示す図である。いくつかの実施形態によるデータ処理システムのための例示的なグラフィックソフトウェアアーキテクチャを示す図である。一実施形態によるＩＰコア開発システムを示すブロック図である。本明細書で説明するいくつかの実施形態による集積回路パッケージアセンブリの側断面図である。基板に接続されたハードウェア論理チップレットの複数のユニットを含むパッケージアセンブリを示す図である。一実施形態による、交換可能なチップレットを含むパッケージアセンブリを示す図である。本明細書で説明する様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連するグラフィックプロセッサを示す図である。本明細書で説明する様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連するグラフィックプロセッサを示す図である。本明細書で説明する様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連するグラフィックプロセッサを示す図である。一実施形態による機械学習ソフトウェアスタックを示す図である。例示的な深層ニューラルネットワークの層を示す図である。例示的な深層ニューラルネットワークの層を示す図である。例示的な再帰型ニューラルネットワークを示す図である。深層ニューラルネットワークの訓練及び展開を示す図である。分散型学習を示すブロック図である。一実施形態によるデータ処理システムのブロック図である。ソース行列及びデスティネーション行列に対する一般的な行列乗算演算を示す図である。スパース入力に対してゼロスキップを伴う乗算加算ベクトル演算を可能にするための命令及び関連するハードウェアロジックを示す図である。スパース入力に対してゼロスキップを伴う乗算加算ベクトル演算を可能にするための命令及び関連するハードウェアロジックを示す図である。スパース入力に対してゼロスキップを伴う乗算加算ベクトル演算を可能にするための命令及び関連するハードウェアロジックを示す図である。一実施形態による、スパース入力の命令展開及びスキップを示す図である。一実施形態による、乗算／加算／ベクトル命令の実行を容易にする方法を示す図である。一実施形態による、グラフィックプロセッサを含むコンピュータ装置のブロック図である。

本明細書で説明する実施形態は、一般的に、一般行列乗算（ＧＥＭＭ）カーネルにある複数の乗算−加算命令を圧縮する新しい命令（ｍａｄｖ）を提供する。命令を実行すると、グラフィックプロセッサの機能ユニットは、ブロードキャストソースのゼロ値を比較して、述語（predicate）としてｍａｄｖ命令に送られるｓｋｉｐＭａｓｋビットマップを作成できる。述語は、ｍａｄｖ命令の展開中に個々の乗算−加算命令をスキップするために使用される。命令インスタンスのスキップは、スパース行列の乗算に特に役立つ。展開中にスキップできる命令反復の回数は、入力のスパース性に関連している。ＨＰＣ／ＭＬ計算ドメインでは、行列のスパース性が５０％を超える可能性があり、動的な乗算−加算命令の半分以上をバイパスできるため、そのようなワークロードで２倍以上の高速化が実現する。さらに、そのようなワークロードによって消費される命令フェッチ及びデコードの帯域幅は、グラフィックプロセッサによって消費される動作電力の量とともに減少する。一般に、ｍａｄｖ命令によって提供される利点と所与の入力行列内のゼロの数との間には、直接的な相関関係が確認され得る。

説明の目的で、以下で説明する様々な実施形態の完全な理解を与えるために、多くの特定の詳細について述べる。しかしながら、当業者には、これらの特定の詳細のいくつかがなくても実施形態を実施できることは、明らかであろう。他の例では、基礎となる原理を不明瞭にしないようにし、実施形態のより完全な理解を与えるために、よく知られた構造及び装置がブロック図の形式で示される。以下の実施形態のいくつかについてグラフィックプロセッサを参照して説明するが、本明細書で説明する技術及び教示は、汎用処理装置又はグラフィック処理装置を含む様々なタイプの回路又は半導体デバイスに適用され得る。本明細書における「一実施形態」又は「実施形態」への言及は、実施形態に関して、又は実施形態に関連して説明する特定の特徴、構造、又は特性が、そのような実施形態のうちの少なくとも１つに含まれ得ることを示す。しかしながら、明細書中の様々な場所での「一実施形態では」という句の出現は、必ずしも全てが同じ実施形態を指すとは限らない。

以下の説明及び特許請求の範囲では、「結合された」及び「接続された」という用語が、それらの派生語とともに使用され得る。これらの用語は互いに同義語として意図していないことを理解されたい。「結合された」は、互いに直接物理的又は電気的に接触しても、しなくてもよい２つ以上の要素が、互いに協働又は相互作用することを示すために使用される。「接続された」は、互いに結合された２つ以上の要素の間の通信の確立を示すために使用される。

以下の説明では、図１〜図１３は、様々な実施形態を組み込むか、又は様々な実施形態に関連する例示的なデータ処理システム及びグラフィックプロセッサロジックの概要を提示する。図１４〜図１９は、機械学習の概要と、グラフィックプロセッサ及び並列プロセッサの機械学習への適用性と提示する。図２０〜図２４は、様々な実施形態の特定の詳細を提示する。以下の実施形態のいくつかの態様は、グラフィックプロセッサに関して説明し、他の態様は、中央処理装置（ＣＰＵ）等の汎用プロセッサに関して説明する。同様の技術及び教示は、多くの集積コアプロセッサ、ＧＰＵクラスタ、又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）の１つ又は複数のインスタンスを含むがこれらに限定されない、他のタイプの回路又は半導体デバイスに適用できる。一般に、この教示は、画像（例えば、サンプル、ピクセル）、頂点データ、又は幾何学データを操作又は処理する、又は機械学習及び高性能コンピュータアプリケーションの並列処理操作を行う任意のプロセッサ又はマシンに適用できる。

システムの概要

図１は、一実施形態による処理システム１００のブロック図である。システム１００は、シングルプロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、或いは多数のプロセッサ１０２又はプロセッサコア１０７を有するサーバシステムで使用することができる。一実施形態では、システム１００は、ローカル又はワイドエリアネットワークへの有線又は無線接続を伴うモノのインターネット（ＩｏＴ）装置内等のモバイル、ハンドヘルド、又は埋込み型装置で使用するために、システムオンチップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

一実施形態では、システム１００は、サーバベースのゲームプラットフォーム、ゲームを含むゲームコンソール及びメディアコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソール、又はオンラインゲームコンソールを含むか、それに結合するか、又はその中に統合することができる。いくつかの実施形態では、システム１００は、携帯電話、スマートフォン、タブレットコンピュータ装置、又は内部記憶容量が少ないラップトップ等のモバイルインターネット接続装置の一部である。処理システム１００はまた、スマートウォッチウェアラブル装置等のウェアラブル装置；現実世界の視覚、音声、又は触覚体験を補完するために視覚、音声、又は触覚出力を提供し、或いは他にテキスト、音声、グラフィック、ビデオ、ホログラフィック画像又はビデオ、又は触覚フィードバックを提供する拡張現実（ＡＲ）又は仮想現実（ＶＲ）機能で強化されたスマートアイウェア又は衣服；他の拡張現実（ＡＲ）装置；又は他の仮想現実（ＶＲ）装置を含むか、それと結合するか、又はその中に統合することができる。いくつかの実施形態では、処理システム１００は、テレビ又はセットトップボックス装置を含むか、又はその一部である。一実施形態では、システム１００は、バス、トラクタトレーラー、自動車、モータサイクル又は電力サイクル、飛行機又はグライダー（又は、これらの任意の組合せ）等の自動運転車両を含むか、それに結合するか、又はその中に統合することができる。自動運転車両は、システム１００を使用して、車両の周囲で感知された環境を処理することができる。

いくつかの実施形態では、１つ又は複数のプロセッサ１０２はそれぞれ、実行時にシステム又はユーザソフトウェアの動作を行う命令を処理するための１つ又は複数のプロセッサコア１０７を含む。いくつかの実施形態では、１つ又は複数のプロセッサコア１０７のうちの少なくとも１つが、特定の命令セット１０９を処理するように構成される。いくつかの実施形態では、命令セット１０９は、複合命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介した計算を容易にし得る。１つ又は複数のプロセッサコア１０７は、他の命令セットのエミュレーションを容易にするための命令を含み得る、異なる命令セット１０９を処理し得る。プロセッサコア１０７は、デジタル信号プロセッサ（ＤＳＰ）等の他の処理装置も含み得る。

いくつかの実施形態では、プロセッサ１０２は、キャッシュメモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。いくつかの実施形態では、キャッシュメモリは、プロセッサ１０２の様々なコンポーネントの間で共有される。いくつかの実施形態では、プロセッサ１０２は、外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））（図示せず）も使用し、このキャッシュは、既知のキャッシュコヒーレンシ技術を用いてプロセッサコア１０７の間で共有することができる。レジスタファイル１０６は、プロセッサ１０２にさらに含まれ得、且つ異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタレジスタ）を含み得る。いくつかのレジスタは、汎用レジスタであり得るが、他のレジスタは、プロセッサ１０２の設計に固有であり得る。

いくつかの実施形態では、１つ又は複数のプロセッサ１０２は、１つ又は複数のインターフェイスバス１１０に結合され、プロセッサ１０２とシステム１００内の他のコンポーネントとの間でアドレス、データ、又は制御信号等の通信信号を送信する。一実施形態では、インターフェイスバス１１０は、ダイレクトメディアインターフェイス（ＤＭＩ）バスのバージョン等のプロセッサーバスとすることができる。ただし、プロセッサーバスは、ＤＭＩバスに限定されず、１つ又は複数の周辺コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）、メモリバス、又は他のタイプのインターフェイスバスを含み得る。一実施形態では、プロセッサ１０２は、集積メモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含む。メモリコントローラ１１６は、メモリ装置とシステム１００の他のコンポーネントとの間の通信を容易にする一方、プラットフォームコントローラハブ（ＰＣＨ）１３０は、ローカルＩ／Ｏバスを介したＩ／Ｏ装置への接続を提供する。

メモリ装置１２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）装置、スタティックランダムアクセスメモリ（ＳＲＡＭ）装置、フラッシュメモリ装置、相変化メモリ装置、又はプロセスメモリとして機能するための適切な性能を有する他の何らかのメモリ装置であり得る。一実施形態では、メモリ装置１２０は、システム１００のシステムメモリとして動作して、１つ又は複数のプロセッサ１０２がアプリケーション又はプロセスを実行するときに使用するデータ１２２及び命令１２１を格納することができる。メモリコントローラ１１６は、プロセッサ１０２内の１つ又は複数のグラフィックプロセッサ１０８と通信して、グラフィック及びメディア処理を行い得るオプションの外部グラフィックプロセッサ１１８とも結合する。いくつかの実施形態では、グラフィック、メディア、又は計算処理は、グラフィック、メディア、又は計算処理の特殊なセットを実行するように構成できるコプロセッサであるアクセラレータ１１２によって支援され得る。例えば、一実施形態では、アクセラレータ１１２は、機械学習又は計算処理を最適化するために使用される行列乗算アクセラレータである。一実施形態では、アクセラレータ１１２は、グラフィックプロセッサ１０８と連携して光線追跡処理（ray-tracing operations）を行うために使用できる光線追跡アクセラレータである。一実施形態では、外部アクセラレータ１１９は、アクセラレータ１１２の代わりに、又はアクセラレータ１１２と連携して使用され得る。

いくつかの実施形態では、表示装置１１１は、プロセッサ１０２に接続することができる。表示装置１１１は、モバイル電子装置又はラップトップ装置又は表示インターフェイス（例えば、ＤｉｓｐｌａｙＰｏｒｔ等）を介して取り付けられる外部表示装置のように、１つ又は複数の内部表示装置であってもよい。一実施形態では、表示装置１１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体表示装置等のヘッドマウントディスプレイ（ＨＭＤ）とすることができる。

いくつかの実施形態では、プラットフォームコントローラハブ１３０によって、高速Ｉ／Ｏバスを介して周辺機器をメモリ装置１２０及びプロセッサ１０２に接続することが可能になる。Ｉ／Ｏ周辺機器には、音声コントローラ１４６、ネットワークコントローラ１３４、ファームウェアインターフェイス１２８、ワイヤレストランシーバ１２６、タッチセンサ１２５、データ記憶装置１２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ等）が含まれるが、これらに限定されるものではない。データ記憶装置１２４は、ストレージインターフェイス（例えば、ＳＡＴＡ）を介して、又は周辺コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）等の周辺バスを介して接続することができる。タッチセンサ１２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含むことができる。ワイヤレストランシーバ１２６は、Ｗｉ−Ｆｉ（登録商標）トランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、或いは３Ｇ、４Ｇ、５Ｇ、又はＬＴＥ（Long-Term Evolution）トランシーバ等のモバイルネットワークトランシーバとすることができる。ファームウェアインターフェイス１２８は、システムファームウェアとの通信を可能にし、例えば、ＵＥＦＩ（unified extensible firmware interface）であり得る。ネットワークコントローラ１３４は、有線ネットワークへのネットワーク接続を可能にし得る。いくつかの実施形態では、高性能ネットワークコントローラ（図示せず）は、インターフェイスバス１１０と結合する。一実施形態では、音声コントローラ１４６は、マルチチャネル高品位音声コントローラである。一実施形態では、システム１００は、レガシー（例えば、パーソナルシステム２（ＰＳ／２））装置をシステムに結合するためのオプションのレガシーＩ／Ｏコントローラ１４０を含む。プラットフォームコントローラハブ１３０は、１つ又は複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４２に接続して、キーボード及びマウス１４３の組合せ、カメラ１４４、又は他のＵＳＢ入力装置等の入力装置を接続することもできる。

示されているシステム１００は、例示的であり、異なるように構成された他のタイプのデータ処理システムも使用できるので、限定ではないことを理解されたい。例えば、メモリコントローラ１１６及びプラットフォームコントローラハブ１３０のインスタンスは、外部グラフィックプロセッサ１１８等の別個の外部グラフィックプロセッサに統合され得る。一実施形態では、プラットフォームコントローラハブ１３０及び／又はメモリコントローラ１１６は、１つ又は複数のプロセッサ１０２の外部にあってもよい。例えば、システム１００は、外部メモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含むことができ、これらは、プロセッサ１０２と通信するシステムチップセット内のメモリコントローラハブ及び周辺コントローラハブとして構成してもよい。

例えば、回路基板（スレッド）を使用することができ、その上に、ＣＰＵ、メモリ、及び他のコンポーネント等のコンポーネントが配置され、熱性能を高めるように設計されている。いくつかの例では、プロセッサ等の処理コンポーネントはスレッドの上面に配置される一方、ＤＩＭＭ等のニアメモリ（near memory）はスレッドの下面に配置される。この設計によって強化されたエアフローの結果として、コンポーネントは、典型的なシステムよりも高い周波数及び電力レベルで動作し、それによりパフォーマンスを向上させることができる。さらに、スレッドは、ラック内の電源ケーブル及びデータ通信ケーブルと盲目的に嵌合するように構成され、それにより迅速に取り外し、アップグレード、再インストール、及び／又は交換する能力が高まる。同様に、スレッドに配置されたプロセッサ、アクセラレータ、メモリ、データストレージドライブ等の個々のコンポーネントは、互いの間隔が広がるため、容易にアップグレードできるように構成される。例示的な実施形態では、コンポーネントは、それらの真正性を証明するためにハードウェア認証機能をさらに含む。

データセンターは、イーサネット及びオムニパスを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（ファブリック）を利用することができる。スレッドは、典型的なツイストペアケーブル（例えば、カテゴリ５、カテゴリ５Ｅ、カテゴリ６等）よりも高い帯域幅及び低レイテンシを提供する光ファイバーを介してスイッチに接続できる。高帯域幅、低レイテンシの相互接続、及びネットワークアーキテクチャにより、データセンターは、使用中に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク、及び／又は人工知能アクセラレータ等）、及び物理的に集約解除されたデータストレージドライブ等のリソースをプールし、必要に応じてこれらをコンピュータリソース（プロセッサ等）に提供し、コンピュータリソースが、ローカルであるかのようにプールされたリソースにアクセスできるようにする。

電源又は電力源は、電圧及び／又は電流を、システム１００又は本明細書で説明する任意のコンポーネント又はシステムに供給することができる。一例では、電源は、壁のコンセントに差し込むためのＡＣからＤＣ（交流から直流）へのアダプタを含む。そのようなＡＣ電力は、再生可能エネルギー（例えば、太陽光発電）電源であり得る。一例では、電源は、外部ＡＣ−ＤＣコンバータ等のＤＣ電源を含む。一例では、電源又は電力源は、充電場への近接によって充電するワイヤレス充電ハードウェアを含む。一例では、電源は、内部バッテリ、交流電源、運動ベースの電源、太陽光電源、又は燃料電池電源を含むことができる。

図２Ａ〜図２Ｄは、本明細書で説明する実施形態によって提供されるコンピュータシステム及びグラフィックプロセッサを示す。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図２Ａ〜図２Ｄの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。

図２Ａは、１つ又は複数のプロセッサコア２０２Ａ〜２０２Ｎ、集積メモリコントローラ２１４、及び集積グラフィックプロセッサ２０８を有するプロセッサ２００の実施形態のブロック図である。プロセッサ２００は、破線のボックスで表される追加のコア２０２Ｎまでの追加のコアを含むことができる。プロセッサコア２０２Ａ〜２０２Ｎのそれぞれは、１つ又は複数の内部キャッシュユニット２０４Ａ〜２０４Ｎを含む。いくつかの実施形態では、各プロセッサコアは、１つ又は複数の共有キャッシュユニット２０６にもアクセスする。内部キャッシュユニット２０４Ａ〜２０４Ｎ及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリ階層を表す。キャッシュメモリ階層は、各プロセッサコア内の命令及びデータキャッシュの少なくとも１つのレベルと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又はキャッシュの他のレベル等の、共有中間レベルキャッシュの１つ又は複数のレベルとを含むことができ、外部メモリの前の最高レベルのキャッシュがＬＬＣとして分類される。いくつかの実施形態では、キャッシュコヒーレンシロジックは、様々なキャッシュユニット２０６と２０４Ａ〜２０４Ｎとの間のコヒーレンシを維持する。

いくつかの実施形態では、プロセッサ２００はまた、１つ又は複数のバスコントローラユニット２１６及びシステムエージェントコア２１０のセットを含み得る。１つ又は複数のバスコントローラユニット２１６は、１つ又は複数のＰＣＩ又はＰＣＩエクスプレスバス等の周辺バスのセットを管理する。システムエージェントコア２１０は、様々なプロセッサコンポーネントに管理機能を提供する。いくつかの実施形態では、システムエージェントコア２１０は、様々な外部メモリ装置（図示せず）へのアクセスを管理するための１つ又は複数の集積メモリコントローラ２１４を含む。

いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数は、同時マルチスレッディングのサポートを含む。そのような実施形態では、システムエージェントコア２１０は、マルチスレッド処理中にコア２０２Ａ〜２０２Ｎを調整及び操作するためのコンポーネントを含む。システムエージェントコア２１０は、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィックプロセッサ２０８の電力状態を調整するためのロジック及びコンポーネントを含む電力制御ユニット（ＰＣＵ）をさらに含み得る。

いくつかの実施形態では、プロセッサ２００は、グラフィック処理操作を行うためのグラフィックプロセッサ２０８をさらに含む。いくつかの実施形態では、グラフィックプロセッサ２０８は、共有キャッシュユニット２０６のセットと、１つ又は複数の集積メモリコントローラ２１４を含むシステムエージェントコア２１０と結合する。いくつかの実施形態では、システムエージェントコア２１０は、グラフィックプロセッサの出力を１つ又は複数の結合されたディスプレイに駆動する表示コントローラ２１１も含む。いくつかの実施形態では、表示コントローラ２１１はまた、少なくとも１つの相互接続を介してグラフィックプロセッサと結合された別個のモジュールであってもよく、又はグラフィックプロセッサ２０８内に統合してもよい。

いくつかの実施形態では、リングベースの相互接続ユニット２１２は、プロセッサ２００の内部コンポーネントを結合するために使用される。しかしながら、ポイントツーポイント相互接続、スイッチ相互接続、又は当技術分野で周知の技術を含む他の技術等の代替の相互接続ユニットを使用してもよい。いくつかの実施形態では、グラフィックプロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリング相互接続２１２と結合する。

例示的なＩ／Ｏリンク２１３は、様々なプロセッサコンポーネントとｅＤＲＡＭモジュール等の高性能埋込み型メモリモジュール２１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続を含む、Ｉ／Ｏ相互接続の複数の種類のうちの少なくとも１つを表す。いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィックプロセッサ２０８のそれぞれは、埋込み型メモリモジュール２１８を共有ラストレベルキャッシュとして使用することができる。

いくつかの実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、同じ命令セットアーキテクチャを実行する同種（homogeneous）のコアである。別の実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種（heterogeneous）であり、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数が第１の命令セットを実行する一方、他のコアのうちの少なくとも１つが、第１の命令セット又は別の命令セットのサブセットを実行する。一実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、マイクロアーキテクチャに関して異種であり、電力消費が比較的高い１つ又は複数のコアが、電力消費が低い１つ又は複数の電力コアと結合する。一実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、計算能力に関して異種である。さらに、プロセッサ２００は、１つ又は複数のチップ上で、又は他のコンポーネントに加えて、例示されたコンポーネントを有するＳｏＣ集積回路として実装することができる。

図２Ｂは、本明細書で説明するいくつかの実施形態による、グラフィックプロセッサコア２１９のハードウェアロジックのブロック図である。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図２Ｂの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。コアスライスと呼ばれることもあるグラフィックプロセッサコア２１９は、モジュール式グラフィックプロセッサ内の１つ又は複数のグラフィックコアとすることができる。グラフィックプロセッサコア２１９は、１つのグラフィックコアスライスの例であり、本明細書で説明するグラフィックプロセッサは、目標電力及び性能エンベロープに基づいた複数のグラフィックコアスライスを含み得る。各グラフィックプロセッサコア２１９は、汎用及び固定機能（function：関数）ロジックのモジュール式ブロックを含む、サブスライスとも呼ばれる複数のサブコア２２１Ａ〜２２１Ｆと結合された固定機能ブロック２３０を含むことができる。

いくつかの実施形態では、固定機能ブロック２３０は、例えば、より低い性能及び／又はより低い電力のグラフィックプロセッサ実装において、グラフィックプロセッサコア２１９の全てのサブコアによって共有され得る幾何学／固定機能パイプライン２３１を含む。様々な実施形態において、幾何学／固定機能パイプライン２３１は、３Ｄ固定機能パイプライン（例えば、以下で説明する図３及び図４における３Ｄパイプライン３１２）、ビデオフロントエンドユニット、スレッド生成器（spawner）及びスレッドディスパッチャ、統合リターン（unified return）バッファマネージャ（例えば、以下で説明するように、図４の統合リターンバッファ４１８）を管理する統合リターンバッファマネージャを含む。

一実施形態では、固定機能ブロック２３０は、グラフィックＳｏＣインターフェイス２３２、グラフィックマイクロコントローラ２３３、及びメディアパイプライン２３４も含む。グラフィックＳｏＣインターフェイス２３２は、グラフィックプロセッサコア２１９と、システムオンチップ集積回路内の他のプロセッサコアとの間のインターフェイスを提供する。グラフィックマイクロコントローラ２３３は、スレッドディスパッチ、スケジューリング、及びプリエンプション（pre-emption）を含むグラフィックプロセッサコア２１９の様々な機能を管理するように構成可能なプログラム可能なサブプロセッサである。メディアパイプライン２３４（例えば、図３及び図４のメディアパイプライン３１６）は、画像及びビデオデータを含むマルチメディアデータのデコード、エンコード、前処理、及び／又は後処理を容易にするロジックを含む。メディアパイプライン２３４は、サブコア２２１〜２１２Ｆ内の計算又はサンプリングロジックへの要求を介してメディア処理を実施する。

一実施形態では、ＳｏＣインターフェイス２３２によって、グラフィックプロセッサコア２１９が、共有ラストレベルキャッシュメモリ、システムＲＡＭ、埋込み型のオンチップ又はオンパッケージＤＲＡＭ等のメモリ階層要素を含む、汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）及び／又はＳｏＣ内の他のコンポーネントと通信することが可能になる。また、ＳｏＣインターフェイス２３２によって、カメラ撮像パイプライン等のＳｏＣ内の固定機能装置との通信が可能になり、グラフィックプロセッサコア２１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミック（atomic）の使用及び／又は実装が可能になる。ＳｏＣインターフェイス２３２はまた、グラフィックプロセッサコア２１９のための電力管理制御を実施し、グラフィックコア２１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインターフェイスを可能にする。一実施形態では、ＳｏＣインターフェイス２３２は、グラフィックプロセッサ内の１つ又は複数のグラフィックコアのそれぞれにコマンド及び命令を与えるように構成されたコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受領を可能にする。コマンド及び命令は、メディア処理が実行される場合はメディアパイプライン２３４にディスパッチでき、グラフィック処理操作が実行される場合は幾何学及び固定機能パイプライン（例えば、幾何学及び固定機能パイプライン２３１、幾何学及び固定機能パイプライン２３７）にディスパッチできる。

グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９の様々なスケジューリング及び管理タスクを実行するように構成することができる。一実施形態では、グラフィックマイクロコントローラ２３３は、サブコア２２１Ａ〜２２１Ｆ内で実行ユニット（ＥＵ）アレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ内の様々なグラフィック並列エンジンに対してグラフィック及び／又は計算ワークロードスケジューリングを実行することができる。このスケジューリングモデルでは、グラフィックプロセッサコア２１９を含むＳｏＣのＣＰＵコアで実行されるホストソフトウェアが、適切なグラフィックエンジンにスケジューリング操作を呼び出す、複数のグラフィックプロセッサドアベルのうちの１つにワークロードを送信できる。スケジュール操作には、次にどのワークロードを実行するかの決定、コマンドストリーマへのワークロードの送信、エンジンで実行されている既存のワークロードの横取り（pre-empting）、ワークロードの進行状況の監視、ワークロードの完了時のホストソフトウェアへの通知が含まれる。一実施形態では、グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９の低電力又はアイドル状態を促進することもでき、グラフィックプロセッサコア２１９に、オペレーティングシステム及び／又はシステム上のグラフィックドライバソフトウェアから独立して、低電力状態遷移でグラフィックプロセッサコア２１９内のレジスタを保存及び復元する能力を提供する。

グラフィックプロセッサコア２１９は、図示されたサブコア２２１Ａ〜２２１Ｆよりも多いか又は少ない、最大Ｎ個のモジュール式サブコアを有することができる。Ｎ個のサブコアの各セットについて、グラフィックプロセッサコア２１９は、共有機能（function：関数）ロジック２３５、共有及び／又はキャッシュメモリ２３６、幾何学／固定機能パイプライン２３７だけでなく、様々なグラフィック及び計算処理の動作を加速させる追加の固定機能ロジック２３８も含むことができる。共有機能ロジック２３５は、図４の共有機能ロジック４２０（例えば、サンプラー、数学、及び／又はスレッド間通信ロジック）に関連付けられた、グラフィックプロセッサコア２１９内のＮ個の各サブコアによって共有できる論理ユニットを含むことができる。共有及び／又はキャッシュメモリ２３６は、グラフィックプロセッサコア２１９内のＮ個のサブコア２２１Ａ〜２２１Ｆのセットのラストレベルキャッシュとすることができ、且つ複数のサブコアによってアクセス可能な共有メモリとしても機能することができる。幾何学／固定機能パイプライン２３７は、固定機能ブロック２３０内の幾何学／固定機能パイプライン２３１の代わりに含めることができ、同じ又は類似の論理ユニットを含むことができる。

一実施形態では、グラフィックプロセッサコア２１９は、グラフィックプロセッサコア２１９が使用する様々な固定機能加速化ロジックを含むことができる追加の固定機能ロジック２３８を含む。一実施形態では、追加の固定機能ロジック２３８は、位置のみのシェーディング（shading）で使用する追加の幾何学パイプラインを含む。位置のみのシェーディングでは、２つの幾何学パイプライン、幾何学／固定機能パイプライン２３８、２３１内のフル幾何学パイプラインと、追加の固定機能ロジック２３８に含めることができる追加の幾何学パイプラインであるカル（cull）パイプラインとが存在する。一実施形態では、カルパイプラインは、フル幾何学パイプラインの細分化したバージョンである。フルパイプライン及びカルパイプラインは、同じアプリケーションの異なるインスタンスを実行でき、各インスタンスには個別のコンテキストがある。位置のみのシェーディングでは、破棄された三角形の長いカルラン（cull runs）を非表示にできるため、場合によってはシェーディングをより早く完了できる。例えば、一実施形態では、追加の固定機能ロジック２３８内のカルパイプラインロジックは、メインアプリケーションと並行して位置シェーダー（shader）を実行でき、ピクセルのフレームバッファへのラスタライズ（rasterization）及びレンダリングを実行せずに、カルパイプラインが頂点の位置属性のみをフェッチ及びシェーディングするので、一般にフルパイプラインよりも高速に重要な結果を生成することができる。カルパイプラインは、生成された重要な結果を使用して、それら三角形が間引きされている（culled）かどうかに関係なく、全ての三角形の可視性情報を計算できる。完全なパイプライン（この例では再生パイプラインと呼ばれ得る）は、可視情報を消費して、間引きされた三角形をスキップして、最終的にラスタライズフェーズに渡される可視の三角形のみをシェーディングできる。

一実施形態では、追加の固定機能ロジック２３８は、機械学習訓練又は推論のための最適化を含む実装のために、固定関数行列乗算ロジック等の機械学習加速化ロジックも含むことができる。

各グラフィックサブコア２２１Ａ〜２２１Ｆ内には、グラフィックパイプライン、メディアパイプライン、又はシェーダープログラムによる要求に応答して、グラフィック、メディア、及び計算処理を行うために使用できる一組の実行リソースが含まれる。グラフィックサブコア２２１Ａ〜２２１Ｆには、複数のＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ、スレッドディスパッチ及びスレッド間通信（ＴＤ／ＩＣ）ロジック２２３Ａ〜２２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラー２２５Ａ〜２２５Ｆ、メディアサンプラー２０６Ａ〜２０６Ｆ、シェーダープロセッサ２２７Ａ〜２２７Ｆ、及び共有ローカルメモリ（ＳＬＭ）２２８Ａ〜２２８Ｆが含まれる。ＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆにはそれぞれ、グラフィック、メディア、又は計算シェーダープログラムを含むグラフィック、メディア、又は計算処理のサービスで、浮動小数点及び整数／固定小数点の論理演算を行うことができる汎用グラフィック処理ユニットである複数の実行ユニットが含まれる。ＴＤ／ＩＣロジック２２３Ａ〜２２３Ｆは、サブコア内の実行ユニットに対してローカルスレッドディスパッチ及びスレッド制御動作を実行し、サブコアの実行ユニット上で実行されているスレッド同士の間の通信を容易にする。３Ｄサンプラー２２５Ａ〜２２５Ｆは、テクスチャ又は他の３Ｄグラフィック関連データをメモリに読み込むことができる。３Ｄサンプラーは、設定されたサンプル状態及び所与のテクスチャに関連付けられたテクスチャフォーマットに基づいて、テクスチャデータを異なる方法で読み取ることができる。メディアサンプラー２０６Ａ〜２０６Ｆは、メディアデータに関連するタイプ及びフォーマットに基づいて、同様の読取り動作を行うことができる。一実施形態では、各グラフィックサブコア２２１Ａ〜２２１Ｆは、統合された３Ｄ及びメディアサンプラーを二者択一的に含むことができる。各サブコア２２１Ａ〜２２１Ｆ内の実行ユニットで実行されるスレッドは、各サブコア内の共有ローカルメモリ２２８Ａ〜２２８Ｆを利用して、スレッドグループ内で実行されるスレッドがオンチップメモリの共通プールを用いて実行できるようにする。

図２Ｃは、マルチコアグループ２４０Ａ〜２４０Ｎに配置されたグラフィック処理リソースの専用セットを含むグラフィック処理ユニット（ＧＰＵ）２３９を示す。単一のマルチコアグループ２４０Ａのみの詳細が提示されているが、他のマルチコアグループ２４０Ｂ〜２４０Ｎは、グラフィック処理リソースの同じ又は同様のセットを装備できることが理解されよう。

図示されるように、マルチコアグループ２４０Ａは、グラフィックコア２４３のセット、テンソルコア２４４のセット、及び光線追跡コア２４５のセットを含み得る。スケジューラ／ディスパッチャ２４１は、様々なコア２４３、２４４、２４５に対する実行のためにグラフィックスレッドをスケジュールし、ディスパッチする。レジスタファイル２４２のセットは、グラフィックスレッドを実行するときにコア２４３、２４４、２４５によって使用されるオペランド値を格納する。これらには、例えば、整数値を格納するための整数レジスタ、浮動小数点値を格納するための浮動小数点レジスタ、パックされたデータ要素（整数及び／又は浮動小数点データ要素）を格納するためのベクトルレジスタ、及びテンソル／マトリックス値を格納するためのタイルレジスタが含まれる。一実施形態では、タイルレジスタは、ベクトルレジスタの組合せセットとして実装される。

１つ又は複数の組合せレベル１（Ｌ１）キャッシュ及び共有メモリユニット２４７は、テクスチャデータ、頂点データ、ピクセルデータ、光線（ray）データ、境界ボリュームデータ等のグラフィックデータを各マルチコアグループ２４０Ａ内にローカルに格納する。１つ又は複数のテクスチャユニット２４７を使用して、テクスチャマッピング及びサンプリング等のテクスチャリング操作を行うこともできる。マルチコアグループ２４０Ａ〜２４０Ｎの全て又はサブセットによって共有されるレベル２（Ｌ２）キャッシュ２５３は、グラフィックデータ及び／又は複数の同時グラフィックスレッドのための命令を格納する。図示されるように、Ｌ２キャッシュ２５３は、複数のマルチコアグループ２４０Ａ〜２４０Ｎに亘って共有され得る。１つ又は複数のメモリコントローラ２４８は、ＧＰＵ２３９を、システムメモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックメモリ（例えば、ＧＤＤＲ６メモリ）であり得るメモリ２４９に結合する。

入力／出力（Ｉ／Ｏ）回路２５０は、ＧＰＵ２３９を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力装置等の１つ又は複数のＩ／Ｏ装置２５２に結合する。オンチップ相互接続を使用して、Ｉ／Ｏ装置２５２をＧＰＵ２３９及びメモリ２４９に結合することができる。Ｉ／Ｏ回路２５０の１つ又は複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）２５１が、Ｉ／Ｏ装置２５２をシステムメモリ２４９に直接結合する。一実施形態では、ＩＯＭＭＵ２５１は、ページテーブルの複数のセットを管理して、仮想アドレスをシステムメモリ２４９内の物理アドレスにマッピングする。この実施形態では、Ｉ／Ｏ装置２５２、ＣＰＵ２４６、及びＧＰＵ（複数可）２３９は、同じ仮想アドレス空間を共有することができる。

一実施態様では、ＩＯＭＭＵ２５１は仮想化をサポートする。この場合に、そのＩＯＭＭＵ２５１は、ゲスト／グラフィックの仮想アドレスをゲスト／グラフィックの物理アドレスにマッピングするためのページテーブルの第１のセットと、ゲスト／グラフィックの物理アドレスを（例えば、システムメモリ２４９内の）システム／ホストの物理アドレスにマッピングするためのページテーブルの第２のセットとを管理する。ページテーブルの第１及び第２のセットのそれぞれのベースアドレスは、制御レジスタに格納され、コンテキストスイッチでスワップアウトされる（例えば、それによって、新しいコンテキストに、関連するページテーブルのセットへのアクセスが提供される）。図２Ｃには示されていないが、コア２４３、２４４、２４５及び／又はマルチコアグループ２４０Ａ〜２４０Ｎのそれぞれは、仮想的なゲスト変換から物理的なゲスト変換、物理的なゲスト変換から物理的なホスト変換、及び仮想的なゲスト変換から物理的なホスト変換をキャッシュするための変換ルックアサイド（lookaside）バッファ（ＴＬＢ）を含み得る。

一実施形態では、ＣＰＵ２４６、ＧＰＵ２３９、及びＩ／Ｏ装置２５２は、単一の半導体チップ及び／又はチップパッケージに統合される。図示されたメモリ２４９は、同じチップ上に統合してもよく、又はオフチップインターフェイスを介してメモリコントローラ２４８に結合してもよい。一実施態様では、メモリ２４９は、他の物理的なシステムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基本的な原理は、この特定の実施態様に限定されるものではない。

一実施形態では、テンソルコア２４４は、ディープラーニング操作を行うために使用される基本的な計算処理である行列演算を行うように特に設計された複数の実行ユニットを含む。例えば、同時行列乗算演算は、ニューラルネットワークの訓練及び推論に使用できる。テンソルコア２４４は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、及びハーフバイト（４ビット）を含む様々なオペランド精度を用いて行列処理を行うことができる。一実施形態では、ニューラルネットワーク実施態様は、レンダリングされた各シーンの特徴を抽出し、複数のフレームからの詳細を潜在的に組み合わせて、高品質の最終画像を構築する。

ディープラーニングの実施態様において、並列行列乗算作業は、テンソルコア２４４での実行のためにスケジュールされ得る。特に、ニューラルネットワークの訓練は、かなりの数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積定式化を処理するために、テンソルコア２４４は、少なくともＮ個のドット積処理要素を含み得る。行列の乗算が始まる前に、１つの行列全体がタイルレジスタに読み込まれ、第２の行列の少なくとも１つの列がＮサイクルの各サイクルに読み込まれる。各サイクルで、Ｎ個のドット積が処理される。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）、及び４ビットハーフバイト（例えば、ＩＮＴ４）を含む、特定の実施態様に応じて異なる精度で格納され得る。テンソルコア２４４に異なる精度モードを指定して、様々なワークロード（例えば、バイト及びハーフバイトへの量子化を許容できるワークロードの推論等）で最も効率的な精度が使用されるのを保証する。

一実施形態では、光線追跡コア２４５は、リアルタイム光線追跡及び非リアルタイム光線追跡実装の両方のための光線追跡処理を加速させる。特に、光線追跡コア２４５は、境界ボリューム階層（ＢＶＨ）を用いて光線横断（ray traversal）を実行し、光線とＢＶＨボリューム内に囲まれたプリミティブとの間の交差を識別するための光線横断／交差回路を含む。光線追跡コア２４５は、（例えば、Ｚバッファ又は同様の構成を用いて）深度テスト及びカリング（culling）を行うための回路も含み得る。一実施態様では、光線追跡コア２４５は、本明細書に記載の画像ノイズ除去技術と協調して横断及び交差処理を行い、その少なくとも一部はテンソルコア２４４上で実行され得る。例えば、一実施形態では、テンソルコア２４４は、ディープラーニングニューラルネットワークを実装して、光線追跡コア２４５によって生成されたフレームのノイズ除去を行う。ただし、ＣＰＵ２４６、グラフィックコア２４３、及び／又は光線追跡コア２４５は、ノイズ除去及び／又はディープラーニングアルゴリズムの全て又は一部を実装することもできる。

さらに、上述したように、ノイズ除去に対して分散型アプローチを使用することができ、そのアプローチで、ＧＰＵ２３９は、ネットワーク又は高速相互接続を介して他のコンピュータ装置に結合されたコンピュータ装置内にある。この実施形態では、相互接続されたコンピュータ装置は、ニューラルネットワーク学習／訓練データを共有して、システム全体が異なるタイプの画像フレーム及び／又は異なるグラフィックアプリケーションのノイズ除去を行うために学習する速度を向上させる。

一実施形態では、光線追跡コア２４５は、全てのＢＶＨ横断及び光線（ray）プリミティブ交差を処理し、グラフィックコア２４３が光線当たり数千の命令で過負荷状態になるのを防ぐ。一実施形態では、各光線追跡コア２４５は、境界ボックステスト（例えば、横断操作）を実行するための専用回路の第１のセットと、光線三角形交差テスト（例えば、交差する光線がトラバースされる）を実行するための専用回路の第２のセットとを含む。こうして、一実施形態では、マルチコアグループ２４０Ａは、光線プローブを単に起動するだけで済み、光線追跡コア２４５は、独立して光線横断及び交差を実行し、ヒットデータ（例えば、ヒット、ヒットなし、複数ヒット等）をスレッドコンテキストに返す。他のコア２４３、２４４は、光線追跡コア２４５が横断及び交差処理を行う間に、他のグラフィック又は計算作業を行うために解放される。

一実施形態では、各光線追跡コア２４５は、ＢＶＨテスト演算を行う横断ユニットと、光線−プリミティブ交差テストを行う交差ユニットとを含む。交差ユニットは、「ヒット」、「ヒットなし」、又は「複数ヒット」応答を生成し、その応答を適切なスレッドに提供する。横断及び交差処理中に、他のコア（例えば、グラフィックコア２４３及びテンソルコア２４４）の実行リソースは、他の形式のグラフィック作業を行うために解放される。

以下に説明する特定の一実施形態では、作業がグラフィックコア２４３と光線追跡コア２４５との間で分散されるハイブリッドラスタライズ／光線追跡アプローチが使用される。

一実施形態では、光線追跡コア２４５（及び／又は他のコア２４３、２４４）は、マイクロソフト（登録商標）のＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）等の光線追跡命令セットに対するハードウェアサポートを含み、ＤＸＲは、ディスパッチレイコマンドだけでなく、及び光線生成、最近接ヒット、任意のヒット、ミスシェーダー（各オブジェクトに固有のシェーダー及びテクスチャのセットを割り当てることができる）を含む。光線追跡コア２４５、グラフィックコア２４３、テンソルコア２４４によってサポートされ得る別の光線追跡プラットフォームは、Ｖｕｌｋａｎ１．１．８５である。ただし、本発明の基本的な原理は、特定の光線追跡ＩＳＡに限定されないことに注意されたい。

一般に、様々なコア２４５、２４４、２４３は、光線生成、最近接ヒット、任意のヒット、光線−プリミティブ交差、プリミティブ毎及び階層境界ボックス構築、ミス、訪問、及び例外のための命令／機能を含む光線追跡命令セットをサポートすることができる。より具体的には、一実施形態は、以下の機能を実行するための光線追跡命令を含む。

光線生成光線生成命令は、各ピクセル、サンプル、又は他のユーザ規定の作業割当てに対して実行され得る。

最近接ヒット最近接ヒット命令は、光線とシーン内のプリミティブとの最も近い交点を見つけるために実行され得る。

任意のヒット（any hit）任意のヒット命令は、光線とシーン内のプリミティブとの間の複数の交差を識別し、潜在的に新しい最も近い交差ポイントを識別する。

交差交差命令は、光線−プリミティブ交差テストを行い、結果を出力する。

プリミティブ毎の境界ボックス構築この命令は、（例えば、新しいＢＶＨ又は他の加速度データ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループの周りに境界ボックスを構築する。

ミス光線がシーン内の全ての幾何学、又はシーンの指定された領域に当たらないことを示す。

訪問（visit）光線が横断する小さな（children）ボリュームを示す。

例外（例えば、様々なエラー条件に対して呼び出される）様々なタイプの例外ハンドラを含む。

図２Ｄは、本明細書で説明する実施形態による、グラフィックプロセッサ及び／又は計算アクセラレータとして構成され得る汎用グラフィック処理ユニット（ＧＰＧＰＵ）２７０のブロック図である。ＧＰＧＰＵ２７０は、１つ又は複数のシステム及び／又はメモリバスを介してホストプロセッサ（例えば、１つ又は複数のＣＰＵ２４６）及びメモリ２７１、２７２と相互接続することができる。一実施形態では、メモリ２７１は、１つ又は複数のＣＰＵ２４６と共有され得るシステムメモリであり、メモリ２７２は、ＧＰＧＰＵ２７０専用のデバイスメモリである。一実施形態では、ＧＰＧＰＵ２７０内のコンポーネント及びデバイスメモリ２７２は、１つ又は複数のＣＰＵ２４６がアクセス可能なメモリアドレスにマッピングされ得る。メモリ２７１及び２７２へのアクセスは、メモリコントローラ２６８を介して促進され得る。一実施形態では、メモリコントローラ２６８は、内部直接メモリアクセス（ＤＭＡ）コントローラ２６９を含む、又は他にＤＭＡコントローラによって実行される演算を行うためのロジックを含むことができる。

ＧＰＧＰＵ２７０は、Ｌ２キャッシュ２５３、Ｌ１キャッシュ２５４、命令キャッシュ２５５、及び共有メモリ２５６を含む複数のキャッシュメモリを含み、それらの少なくとも一部は、キャッシュメモリとしてパーティション化することもできる。ＧＰＧＰＵ２７０は、複数の計算ユニット２６０Ａ〜２６０Ｎも含む。各計算ユニット２６０Ａ〜２６０Ｎは、ベクトルレジスタ２６１、スカラーレジスタ２６２、ベクトル論理ユニット２６３、及びスカラー論理ユニット２６４のセットを含む。計算ユニット２６０Ａ〜２６０Ｎは、ローカル共有メモリ２６５及びプログラムカウンタ２６６も含むことができる。計算ユニット２６０Ａ〜２６０Ｎは、定数キャッシュ２６７と結合することができ、これは、ＧＰＧＰＵ２７０上で実行されるカーネル又はシェーダープログラムの実行中に変化しないデータである定数データを格納するために使用することができる。一実施形態では、常数キャッシュ２６７はスカラーデータキャッシュであり、キャッシュされたデータはスカラーレジスタ２６２に直接フェッチすることができる。

動作中に、１つ又は複数のＣＰＵ２４６は、アクセス可能なアドレス空間にマッピングされたＧＰＧＰＵ２７０内のレジスタ又はメモリにコマンドを書き込むことができる。コマンドプロセッサ２５７は、レジスタ又はメモリからコマンドを読み取り、それらのコマンドがＧＰＧＰＵ２７０内でどのように処理されるかを決定することができる。次に、スレッドディスパッチャ２５８を使用して、これらのコマンドを実行するために計算ユニット２６０Ａ〜２６０Ｎにスレッドをディスパッチすることができる。各計算ユニット２６０Ａ〜２６０Ｎは、他の計算ユニットから独立してスレッドを実行することができる。さらに、各計算ユニット２６０Ａ〜２６０Ｎは、条件付き計算のために独立して構成することができ、計算の結果をメモリに条件付きで出力することができる。コマンドプロセッサ２５７は、提出されたコマンドが完了すると、１つ又は複数のＣＰＵ２４６に割り込むことができる。

図３Ａ〜図３Ｃは、本明細書で説明する実施形態によって提供される追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図を示す。本明細書の任意の他の図の要素と同じ参照符号（又は名前）を有する図３Ａ〜図３Ｃの要素は、本明細書の他の場所で説明しているのと同様の任意の方法で動作又は機能できるが、それに限定されるものではない。

図３Ａは、グラフィックプロセッサ３００のブロック図であり、このプロセッサ３００は、別個のグラフィック処理ユニットであり得るか、或いは複数の処理コア又は限定されないが、メモリ装置又はネットワークインターフェイス等の他の半導体デバイスと統合されたグラフィックプロセッサであり得る。いくつかの実施形態では、グラフィックプロセッサは、メモリマップされたＩ／Ｏインターフェイスを介して、グラフィックプロセッサ上のレジスタと通信し、プロセッサメモリに配置されたコマンドと通信する。いくつかの実施形態では、グラフィックプロセッサ３００は、メモリにアクセスするためのメモリインターフェイス３１４を含む。メモリインターフェイス３１４は、ローカルメモリ、１つ又は複数の内部キャッシュ、１つ又は複数の共有外部キャッシュ、及び／又はシステムメモリへのインターフェイスであり得る。

いくつかの実施形態では、グラフィックプロセッサ３００は、ディスプレイ出力データを表示装置３１８に駆動する表示コントローラ３０２も含む。表示コントローラ３０２は、ビデオ又はユーザインターフェイス要素の複数の層の表示及び構成のための１つ又は複数のオーバーレイ平面のためのハードウェアを含む。表示装置３１８は、内部又は外部の表示装置であり得る。一実施形態では、表示装置３１８は、仮想現実（ＶＲ）表示装置又は拡張現実（ＡＲ）表示装置等のヘッドマウント型表示装置である。いくつかの実施形態では、グラフィックプロセッサ３００は、ＭＰＥＧ−２等の動画エキスパートグループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ等のＡＶＣ（Advanced Video Coding）フォーマット、ＡＯＭｅｄｉａ（Alliance for Open Media）ＶＰ８、ＶＰ９だけでなく、ＳＭＰＴＥ（Society of Motion Picture＆Television Engineers）４２１Ｍ／ＶＣ−１、及びＪＰＥＧ等のＪＰＥＧ（Joint Photographic Experts Group）、及びＭＪＰＥＧ（Motion JPEG）フォーマットを含むがこれらに限定されない１つ又は複数のメディアエンコーディングフォーマットに、それらから、又はそれらの間でメディアをエンコード、デコード、又はトランスコードするビデオコーデックエンジン３０６を含む。

いくつかの実施形態では、グラフィックプロセッサ３００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ処理を行うためのブロック画像転送（ＢＬＩＴ）エンジン３０４を含む。しかしながら、一実施形態では、２Ｄグラフィック処理は、グラフィック処理エンジン（ＧＰＥ）３１０の１つ又は複数のコンポーネントを用いて実行される。いくつかの実施形態では、ＧＰＥ３１０は、３次元（３Ｄ）グラフィック処理及びメディア処理を含むグラフィック処理を行うための計算エンジンである。

いくつかの実施形態では、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、長方形、三角形等）に作用する処理機能を用いて３次元画像及びシーンをレンダリングする等の３Ｄ処理を行うための３Ｄパイプライン３１２を含む。３Ｄパイプライン３１２は、要素内で様々なタスクを実行する及び／又は実行スレッドを３Ｄ／メディアサブシステム３１５に生成する（spawn）プログラム可能な固定機能要素を含む。３Ｄパイプライン３１２を使用してメディア処理を行うことができるが、ＧＰＥ３１０の実施形態は、ビデオ後処理及び画像強調等のメディア処理を行うために特に使用されるメディアパイプライン３１６も含む。

いくつかの実施形態では、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに、又はそれに代わって、ビデオデコード加速、ビデオインターレース解除、及びビデオエンコード加速等の１つ又は複数の特殊メディア処理を行う固定機能又はプログラム可能な論理ユニットを含む。いくつかの実施形態では、メディアパイプライン３１６は、３Ｄ／メディアサブシステム３１５で実行するためにスレッドを生成するスレッド生成（spawning）ユニットをさらに含む。生成されたスレッドは、３Ｄ／メディアサブシステム３１５に含まれる１つ又は複数のグラフィック実行ユニットでメディア処理の計算を行う。

いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、３Ｄパイプライン３１２及びメディアパイプライン３１６によって生成されたスレッドを実行するためのロジックを含む。一実施形態では、パイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム３１５に送信し、このサブシステム３１５は、利用可能なスレッド実行リソースへの様々なリクエストを調停及びディスパッチするためのスレッドディスパッチロジックを含む。実行リソースには、３Ｄ及びメディアスレッドを処理するグラフィック実行ユニットのアレイが含まれる。いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、スレッド命令及びデータのための１つ又は複数の内部キャッシュを含む。いくつかの実施形態では、サブシステムは、スレッド同士の間でデータを共有し、出力データを格納するために、レジスタ及びアドレス指定可能なメモリを含む共有メモリも含む。

図３Ｂは、本明細書で説明する実施形態による、タイル型アーキテクチャを有するグラフィックプロセッサ３２０を示す。一実施形態では、グラフィックプロセッサ３２０は、グラフィックエンジンタイル３１０Ａ〜３１０Ｄ内に図３Ａのグラフィック処理エンジン３１０の複数のインスタンスを有するグラフィック処理エンジンクラスタ３２２を含む。各グラフィックエンジンタイル３１０Ａ〜３１０Ｄは、一組のタイル相互接続３２３Ａ〜３２３Ｆを介して相互接続することができる。各グラフィックエンジンタイル３１０Ａ〜３１０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介してメモリモジュール又はメモリ装置３２６Ａ〜３２６Ｄに接続することもできる。メモリ装置３２６Ａ〜３２６Ｄは、任意のグラフィックメモリ技術を使用することができる。例えば、メモリ装置３２６Ａ〜３２６Ｄは、グラフィックダブルデータレート（ＧＤＤＲ）メモリであり得る。一実施形態では、メモリ装置３２６Ａ〜３２６Ｄは、それぞれのグラフィックエンジンタイル３１０Ａ〜３１０Ｄを含むオンダイであり得る高帯域幅メモリ（ＨＢＭ）モジュールである。一実施形態では、メモリ装置３２６Ａ〜３２６Ｄは、それぞれのグラフィックエンジンタイル３１０Ａ〜３１０Ｄの上に積み重ねることができるスタックメモリ装置である。一実施形態では、各グラフィックエンジンタイル３１０Ａ〜３１０Ｄ及び関連するメモリ３２６Ａ〜３２６Ｄは、図１１Ｂ〜図１１Ｄでさらに詳細に説明するように、ベースダイ又はベース基板に結合された別個のチップレット上に存在する。

グラフィック処理エンジンクラスタ３２２は、オンチップ又はオンパッケージのファブリック相互接続３２４と接続することができる。ファブリック相互接続３２４によって、グラフィックエンジンタイル３１０Ａ〜３１０Ｄと、ビデオコーデック３０６及び１つ又は複数のコピーエンジン３０４等のコンポーネントとの間の通信が可能になる。コピーエンジン３０４は、メモリ装置３２６Ａ〜３２６Ｄとグラフィックプロセッサ３２０の外部にあるメモリ（例えば、システムメモリ）との間でデータを移動するために使用することができる。ファブリック相互接続３２４を使用して、グラフィックエンジンタイル３１０Ａ〜３１０Ｄを相互接続することもできる。グラフィックプロセッサ３２０は、オプションとして、外部表示装置３１８との接続を可能にする表示コントローラ３０２を含む。グラフィックプロセッサは、グラフィック又は計算アクセラレータとして構成することもできる。アクセラレータ構成では、表示コントローラ３０２及び表示装置３１８を省略してもよい。

グラフィックプロセッサ３２０は、ホストインターフェイス３２８を介してホストシステムに接続することができる。ホストインターフェイス３２８は、グラフィックプロセッサ３２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にする。ホストインターフェイス３２８は、例えば、ＰＣＩエクスプレスバス又は別のタイプのホストシステムインターフェイスであってもよい。

図３Ｃは、本明細書で説明する実施形態による計算アクセラレータ３３０を示す。計算アクセラレータ３３０は、図３Ｂのグラフィックプロセッサ３２０とのアーキテクチャ上の類似点を含み得、計算の加速化のために最適化される。計算エンジンクラスタ３３２は、並列又はベクトルベースの汎用計算処理のために最適化された実行ロジックを含む１組の計算エンジンタイル３４０Ａ〜３４０Ｄを含むことができる。いくつかの実施形態では、計算エンジンタイル３４０Ａ〜３４０Ｄは、固定機能グラフィック処理ロジックを含まないが、一実施形態では、計算エンジンタイル３４０Ａ〜３４０Ｄのうちの１つ又は複数は、メディアの加速化を実行するロジックを含むことができる。計算エンジンタイル３４０Ａ〜３４０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介してメモリ３２６Ａ〜３２６Ｄに接続することができる。メモリ３２６Ａ〜３２６Ｄ及びメモリ相互接続３２５Ａ〜３２５Ｄは、グラフィックプロセッサ３２０と同様の技術であっても、又は異なっていてもよい。グラフィック計算エンジンタイル３４０Ａ〜３４０Ｄは、１組のタイル相互接続３２３Ａ〜３２３Ｆを介して相互接続することもでき、ファブリック相互接続３２４と接続する、及び／又はファブリック相互接続３２４によって相互接続することができる。一実施形態では、計算アクセラレータ３３０は、デバイス全体のキャッシュとして構成できる大容量Ｌ３キャッシュ３３６を含む。計算アクセラレータ３３０は、図３Ｂのグラフィックプロセッサ３２０と同様の方法で、ホストインターフェイス３２８を介してホストプロセッサ及びメモリに接続することもできる。

グラフィック処理エンジン

図４は、いくつかの実施形態によるグラフィックプロセッサのグラフィック処理エンジン４１０のブロック図である。一実施形態では、グラフィック処理エンジン（ＧＰＥ）４１０は、図３Ａに示されるＧＰＥ３１０のバージョンであり、図３Ｂのグラフィックエンジンタイル３１０Ａ〜３１０Ｄを表すこともできる。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図４の要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。例えば、図３Ａの３Ｄパイプライン３１２及びメディアパイプライン３１６が示されている。メディアパイプライン３１６は、ＧＰＥ４１０のいくつかの実施形態ではオプションであり、ＧＰＥ４１０内に明示的に含んでいなくてもよい。例えば、少なくとも１つの実施形態では、別個のメディア及び／又は画像プロセッサがＧＰＥ４１０に結合される。

いくつかの実施形態では、ＧＰＥ４１０は、コマンドストリームを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に提供するコマンドストリーマ４０３と結合するか、又はこれを含む。いくつかの実施形態では、コマンドストリーマ４０３は、システムメモリ、又は内部キャッシュメモリ及び共有キャッシュメモリの１つ又は複数であり得るメモリに結合される。いくつかの実施形態では、コマンドストリーマ４０３は、メモリからコマンドを受信し、そのコマンドを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に送信する。コマンドは、３Ｄパイプライン３１２及びメディアパイプライン３１６に対するコマンドを格納するリングバッファからフェッチされる命令である。一実施形態では、リングバッファは、複数のコマンドのバッチを格納するバッチコマンドバッファをさらに含むことができる。３Ｄパイプライン３１２のコマンドには、限定されないが、３Ｄパイプライン３１２の頂点及び幾何学データ、及び／又はメディアパイプライン３１６の画像データ及びメモリオブジェクト等、メモリに格納されたデータへの参照も含まれ得る。３Ｄパイプライン３１２及びメディアパイプライン３１６は、それぞれのパイプライン内のロジックを介して演算を行うか、或いは１つ又は複数の実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、コマンド及びデータを処理する。一実施形態では、グラフィックコアアレイ４１４は、グラフィックコア（例えば、グラフィックコア（複数可）４１５Ａ、グラフィックコア（複数可）４１５Ｂ）の１つ又は複数のブロックを含み、各ブロックは１つ又は複数のグラフィックコアを含む。各グラフィックコアには、グラフィック及び計算処理を行うための汎用及びグラフィック固有の実行ロジックだけでなく、固定機能のテクスチャ処理及び／又は機械学習、及び人工知能加速化ロジック等の、１組のグラフィック実行リソースが含まれる。

様々な実施形態では、３Ｄパイプライン３１２は、命令を処理し且つ実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、頂点シェーダー、幾何学シェーダー、ピクセルシェーダー、フラグメントシェーダー、計算シェーダー、又は他のシェーダープログラム等の１つ又は複数のシェーダープログラムを処理する固定機能及びプログラム可能なロジックを含み得る。グラフィックコアアレイ４１４は、これらのシェーダープログラムの処理に使用する実行リソースの統合ブロックを提供する。グラフィックコアアレイ４１４のグラフィックコア４１５Ａ〜４１４Ｂ内の多目的の実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダー言語のサポートを含み、複数のシェーダーに関連する複数の同時実行スレッドを実行することができる。

いくつかの実施形態では、グラフィックコアアレイ４１４は、ビデオ及び／又は画像処理等のメディア機能を実行する実行ロジックを含む。一実施形態では、実行ユニットは、グラフィック処理操作に加えて、並列の汎用計算処理を行うようにプログラム可能な汎用ロジックを含む。汎用ロジックは、図１のプロセッサコア１０７又は図２Ａのコア２０２Ａ〜２０２Ｎ内の汎用ロジックと並行して、又はその汎用ロジックと協同して、処理動作を行うことができる。

グラフィックコアアレイ４１４上で実行されるスレッドによって生成される出力データは、統合リターンバッファ（ＵＲＢ）４１８内のメモリにデータを出力することができる。ＵＲＢ４１８は、複数のスレッドのデータを格納することができる。いくつかの実施形態では、ＵＲＢ４１８を使用して、グラフィックコアアレイ４１４上で実行される異なるスレッドの間でデータを送信することができる。いくつかの実施形態では、ＵＲＢ４１８は、グラフィックコアアレイ上のスレッドと共有機能ロジック４２０内の固定機能ロジックとの間の同期のためにさらに使用することができる。

いくつかの実施形態では、グラフィックコアアレイ４１４は、アレイが可変数のグラフィックコアを含み、各グラフィックコアがＧＰＥ４１０の目標電力及び性能レベルに基づいて可変数の実行ユニットを有するように、スケーラブルである。一実施形態では、実行リソースは動的にスケーラブルであり、それによって必要に応じて実行リソースを有効又は無効にできる。

グラフィックコアアレイ４１４は、グラフィックコアアレイ内のグラフィックコア同士の間で共有される複数のリソースを含む共有機能ロジック４２０と結合する。共有機能ロジック４２０内の共有機能は、グラフィックコアアレイ４１４に特殊な補助機能を提供するハードウェア論理ユニットである。様々な実施形態では、共有機能ロジック４２０は、サンプラー４２１、数学４２２、及びスレッド間通信（ＩＴＣ）４２３ロジックを含むが、これらに限定されるものではない。さらに、いくつかの実施形態は、共有機能ロジック４２０内に１つ又は複数のキャッシュ４２５を実装する。

共有機能は、少なくとも、所与の特殊化機能に対する要求がグラフィックコアアレイ４１４内に含めるには不十分な場合に実装される。代わりに、その特殊化機能の単一のインスタンス化が、共有機能ロジック４２０内のスタンドアロンエンティティとして実装され、グラフィックコアアレイ４１４内の実行リソースの中で共有される。グラフィックコアアレイ４１４の間で共有され、且つグラフィックコアアレイ４１４内に含まれる機能の正確なセットは、実施形態によって異なる。いくつかの実施形態では、グラフィックコアアレイ４１４によって広範囲に使用される、共有機能ロジック４２０内の特定の共有機能は、グラフィックコアアレイ４１４内の共有機能ロジック４１６内に含まれ得る。様々な実施形態では、グラフィックコアアレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部又は全てのロジックを含むことができる。一実施形態では、共有機能ロジック４２０内の全ての論理要素は、グラフィックコアアレイ４１４の共有機能ロジック４１６内で複製してもよい。一実施形態では、共有機能ロジック４２０は、グラフィックコアアレイ４１４内の共有機能ロジック４１６の利益となるように除外される。

実行ユニット

図５Ａ〜図５Ｂは、本明細書で説明する実施形態による、グラフィックプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジック５００を示す。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図５Ａ〜図５Ｂの要素は、本明細書の他の場所で説明しているのと同様の方法で動作又は機能できるが、それに限定されるものではない。図５Ａ〜図５Ｂは、図２Ｂの各サブコア２２１Ａ〜２２１Ｆで示されるハードウェアロジックを表すことができるスレッド実行ロジック５００の概要を示す。図５Ａは、汎用グラフィックプロセッサ内の実行ユニットを表しており、図５Ｂは、計算アクセラレータ内で使用され得る実行ユニットを表している。

図５Ａに示されるように、いくつかの実施形態では、スレッド実行ロジック５００は、シェーダープロセッサ５０２、スレッドディスパッチャ５０４、命令キャッシュ５０６、複数の実行ユニット５０８Ａ〜５０８Ｎを含むスケーラブル実行ユニットアレイ、サンプラー５１０、共有ローカルメモリ５１１、データキャッシュ５１２、及びデータポート５１４を含む。一実施形態では、スケーラブル実行ユニットアレイは、ワークロードの計算要件に基づいて、１つ又は複数の実行ユニット（例えば、実行ユニット５０８Ａ、５０８Ｂ、５０８Ｃ、５０８Ｄから５０８Ｎ−１、及び５０８Ｎのいずれか）を有効又は無効にすることによって動的にスケーラブルできる。一実施形態では、含まれるコンポーネントは、各コンポーネントにリンクする相互接続ファブリックを介して相互接続される。いくつかの実施形態では、スレッド実行ロジック５００は、命令キャッシュ５０６、データポート５１４、サンプラー５１０、及び実行ユニット５０８Ａ〜５０８Ｎの１つ又は複数を介した、システムメモリ又はキャッシュメモリ等のメモリへの１つ又は複数の接続を含む。いくつかの実施形態では、各実行ユニット（例えば、５０８Ａ）は、各スレッドに関して複数のデータ要素を並列に処理しながら、複数の同時ハードウェアスレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットである。様々な実施形態では、実行ユニット５０８Ａ〜５０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、主にシェーダープログラムを実行するために使用される。シェーダープロセッサ５０２は、様々なシェーダープログラムを処理し、スレッドディスパッチャ５０４を介してシェーダープログラムに関連する実行スレッドをディスパッチすることができる。一実施形態では、スレッドディスパッチャは、グラフィック及びメディアパイプラインからのスレッド開始要求を調停（arbitrate）し、且つ実行ユニット５０８Ａ〜５０８Ｎ内の１つ又は複数の実行ユニットで要求されたスレッドをインスタンス化するロジックを含む。例えば、幾何学パイプラインは、頂点、テッセレーション（tessellation）、又は幾何学シェーダーをスレッド実行ロジックにディスパッチして処理することができる。いくつかの実施形態では、スレッドディスパッチャ５０４は、実行中のシェーダープログラムからのランタイムスレッド生成要求を処理することもできる。

いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、多くの標準３Ｄグラフィックシェーダー命令のネイティブ（native）サポートを含む命令セットをサポートし、それによってグラフィックライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダープログラムが最小限の変換で実行される。実行ユニットは、頂点及び幾何学処理（例えば、頂点プログラム、幾何学プログラム、頂点シェーダー）、ピクセル操作（例えば、ピクセルシェーダー、フラグメントシェーダー）、及び汎用操作（例えば、計算シェーダー及びメディアシェーダー）をサポートする。実行ユニット５０８Ａ〜５０８Ｎのそれぞれは、マルチ発出の（multi-issue）単一命令複数データ（ＳＩＭＤ）の実行が可能であり、マルチスレッド操作によって、より長いレイテンシのメモリアクセスに直面した際に効率的な実行環境が可能になる。各実行ユニット内の各ハードウェアスレッドには、専用の高帯域幅レジスタファイル及び関連する独立したスレッド状態がある。実行は、整数、単精度及び倍精度の浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、超越演算、及び他の様々な演算が可能なパイプラインへのクロック毎のマルチ発出である。メモリ又は共有機能のうちの１つからのデータを待機している間に、実行ユニット５０８Ａ〜５０８Ｎ内の依存関係ロジックは、要求したデータが返されるまで待機スレッドをスリープ状態にさせる。待機スレッドがスリープ状態である間に、ハードウェアリソースは、他のスレッドの処理に費やされる場合がある。例えば、頂点シェーダー処理に関連する遅延中に、実行ユニットは、ピクセルシェーダー、フラグメントシェーダー、又は異なる頂点シェーダーを含む別のタイプのシェーダープログラムの処理を行うことができる。様々な実施形態は、ＳＩＭＤの使用の代替として、又はＳＩＭＤの使用に加えて、単一命令マルチスレッド（ＳＩＭＴ）の使用による実行使用に適用することができる。ＳＩＭＤコア又は処理への言及は、ＳＩＭＴにも適用でき、又はＳＩＭＴと組み合わせたＳＩＭＤにも適用できる。

実行ユニット５０８Ａ〜５０８Ｎの各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」、つまり命令のチャネルの数である。実行チャネルは、データ要素へのアクセス、マスキング、及び命令内のフロー制御のための実行の論理ユニットである。チャネルの数は、特定のグラフィックプロセッサの物理算術論理ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数に依存しない場合がある。いくつかの実施形態では、実行ユニット５０８Ａ〜５０８Ｎは、整数及び浮動小数点データ型をサポートする。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、パックされたデータ型としてレジスタに格納でき、実行ユニットは、要素のデータサイズに基づいて様々な要素を処理する。例えば、２５６ビット幅のベクトルを操作する場合に、ベクトルの２５６ビットはレジスタに格納され、実行ユニットは、ベクトルを、４個の個別の５４ビットパックデータ要素（クワッドワード（ＱＷ）サイズのデータ要素）、８個の個別の３２ビットパックデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の個別の１６ビットパックデータ要素（ワード（Ｗ）サイズのデータ要素）、又は３２個の個別の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）として操作する。ただし、異なるベクトル幅及びレジスタサイズが可能である。

一実施形態では、１つ又は複数の実行ユニットを、融合ＥＵに共通のスレッド制御ロジック（５０７Ａ〜５０７Ｎ）を有する融合実行ユニット５０９Ａ〜５０９Ｎに組み合わせることができる。複数のＥＵを１つのＥＵグループに融合できる。融合ＥＵグループ内の各ＥＵは、個別のＳＩＭＤハードウェアスレッドを実行するように構成できる。融合されたＥＵグループ内のＥＵの数は、実施形態によって異なり得る。さらに、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含むがこれらに限定されない、様々なＳＩＭＤ幅をＥＵ毎に実行できる。各融合グラフィック実行ユニット５０９Ａ〜５０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット５０９Ａは、第１のＥＵ５０８Ａ、第２のＥＵ５０８Ｂ、並びに第１のＥＵ５０８Ａ及び第２のＥＵ５０８Ｂに共通のスレッド制御ロジック５０７Ａを含む。スレッド制御ロジック５０７Ａは、融合グラフィック実行ユニット５０９Ａで実行されるスレッドを制御し、融合実行ユニット５０９Ａ〜５０９Ｎ内の各ＥＵが共通の命令ポインタレジスタを用いて実行できるようにする。

１つ又は複数の内部命令キャッシュ（例えば、５０６）が、実行ユニットのスレッド命令をキャッシュするために、スレッド実行ロジック５００に含まれる。いくつかの実施形態では、１つ又は複数のデータキャッシュ（例えば、５１２）が、スレッド実行中にスレッドデータをキャッシュするために含まれる。実行ロジック５００上で実行するスレッドは、明示的に管理されたデータを共有ローカルメモリ５１１に格納することもできる。いくつかの実施形態では、サンプラー５１０は、３Ｄ処理のテクスチャサンプリング及びメディア処理のメディアサンプリングを提供するために含まれる。いくつかの実施形態では、サンプラー５１０は、サンプリングされたデータを実行ユニットに提供する前に、サンプリングプロセス中にテクスチャ又はメディアデータを処理するための特殊なテクスチャ又はメディアサンプリング機能を含む。

実行中に、グラフィック及びメディアパイプラインは、スレッド生成及びディスパッチロジックを介してスレッド開始要求をスレッド実行ロジック５００に送信する。幾何学的オブジェクトのグループが処理され、ピクセルデータにラスタライズされると、シェーダープロセッサ５０２内のピクセルプロセッサロジック（ピクセルシェーダーロジック、フラグメントシェーダーロジック等）が呼び出され、出力情報がさらに計算され、結果が出力サーフェス（surface）（カラーバッファ、深度（depth）バッファ、ステンシルバッファ等）に書き込まれる。いくつかの実施形態では、ピクセルシェーダー又はフラグメントシェーダーが、ラスタライズされたオブジェクトに亘って補間される様々な頂点属性の値を計算する。いくつかの実施形態では、次に、シェーダープロセッサ５０２内のピクセルプロセッサロジックは、アプリケーションプログラミングインターフェイス（ＡＰＩ）が提供するピクセル又はフラグメントシェーダープログラムを実行する。シェーダープログラムを実行するために、シェーダープロセッサ５０２は、スレッドディスパッチャ５０４を介してスレッドを実行ユニット（例えば、５０８Ａ）にディスパッチする。いくつかの実施形態では、シェーダープロセッサ５０２は、サンプラー５１０のテクスチャサンプリングロジックを使用して、メモリに格納されたテクスチャマップのテクスチャデータにアクセスする。テクスチャデータ及び入力幾何学データに対する算術演算は、各幾何学フラグメントのピクセルカラーデータを計算するか、或いは１つ又は複数のピクセルを更なる処理から破棄する。

いくつかの実施形態では、データポート５１４は、スレッド実行ロジック５００が処理済みデータをメモリに出力してグラフィックプロセッサ出力パイプラインでさらに処理するためのメモリアクセス機構を提供する。いくつかの実施形態では、データポート５１４は、データポートを介したメモリアクセスのためにデータをキャッシュするために、１つ又は複数のキャッシュメモリ（例えば、データキャッシュ５１２）を含むか、又はそれに結合する。

一実施形態では、実行ロジック５００は、光線追跡加速機能を提供できる光線トレーサ５０５を含むこともできる。光線トレーサ５０５は、光線生成のための命令／機能を含む光線追跡命令セットをサポートすることができる。光線追跡命令セットは、図２Ｃの光線追跡コア２４５によりサポートされる光線追跡命令セットと同様であっても、異なっていてもよい。

図５Ｂは、実施形態による、実行ユニット５０８の例示的な内部の詳細を示す。グラフィック実行ユニット５０８は、命令フェッチユニット５３７、汎用レジスタファイルアレイ（ＧＲＦ）５２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）５２６、スレッドアービタ（arbiter）５２２、送信ユニット５３０、分岐ユニット５３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４のセット、及び一実施形態では、専用の整数ＳＩＭＤＡＬＵ５３５のセットを含むことができる。ＧＲＦ５２４及びＡＲＦ５２６は、グラフィック実行ユニット５０８でアクティブであり得る各同時ハードウェアスレッドに関連する汎用レジスタファイル及びアーキテクチャレジスタファイルのセットを含む。一実施形態では、スレッド毎のアーキテクチャ状態がＡＲＦ５２６に維持される一方、スレッド実行中に使用されるデータはＧＲＦ５２４に格納される。各スレッドの命令ポインタを含む各スレッドの実行状態は、ＡＲＦ５２６のスレッド固有のレジスタに保持できる。

一実施形態では、グラフィック実行ユニット５０８は、同時マルチスレッディング（ＳＭＴ）と細粒度インターリーブマルチスレッディング（ＩＭＴ）との組合せであるアーキテクチャを有する。アーキテクチャは、同時実行スレッドのターゲット数及び実行ユニット当たりのレジスタ数に基づいて設計時に微調整できるモジュール構成を有しており、実行ユニットのリソースは、複数の同時スレッドの実行に使用されるロジック全体に分割される。グラフィック実行ユニット５０８によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。

一実施形態では、グラフィック実行ユニット５０８は、それぞれが異なる命令であり得る複数の命令を同時に発することができる。グラフィック実行ユニットスレッド５０８のスレッドアービタ５２２は、実行のために、送信ユニット５３０、分岐ユニット５３２、又はＳＩＭＤＦＰＵ５３４のうちの１つに命令をディスパッチすることができる。各実行スレッドは、ＧＲＦ５２４内の１２８個の汎用レジスタにアクセスすることができ、各レジスタは、３２バイトを格納でき、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセスできる。一実施形態では、各実行ユニットスレッドは、ＧＲＦ５２４内の４Ｋバイトへのアクセスを有するが、実施形態はそのように限定されず、他の実施形態では、より多い又はより少ないレジスタリソースが提供され得る。一実施形態では、グラフィック実行ユニット５０８は、計算処理を独立して実行できる７つのハードウェアスレッドに分割されるが、実行ユニット当たりのスレッドの数も実施形態によって変化し得る。例えば、一実施形態では、最大１６個のハードウェアスレッドがサポートされる。７個のスレッドが４Ｋバイトにアクセスできる実施形態では、ＧＲＦ５２４は、合計２８Ｋバイトを格納することができる。１６個のスレッドが４Ｋバイトにアクセスできる場合に、ＧＲＦ５２４は合計６４Ｋバイトを格納することができる。柔軟なアドレス指定モードでは、レジスタを一緒にアドレス指定して、より広いレジスタを効果的に構築する、又はストライドされた長方形のブロックデータ構造を表すことができる。

一実施形態では、メモリ操作、サンプラー操作、及び他のより長いレイテンシのシステム通信は、メッセージ通過送信ユニット５３０によって実行される「送信」命令を介してディスパッチされる。一実施形態では、分岐命令は専用分岐ユニット５３２にディスパッチされ、ＳＩＭＤ発散及び最終的な収束を容易にする。

一実施形態では、グラフィック実行ユニット５０８は、浮動小数点演算を行うために１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４を含む。一実施形態では、ＦＰＵ５３４は、整数計算もサポートする。一実施形態では、ＦＰＵ５３４は、最大Ｍ個の３２ビット浮動小数点（又は整数）演算をＳＩＭＤ実行することができ、又は最大２Ｍ個の１６ビット整数又は１６ビット浮動小数点演算をＳＩＭＤ実行することができる。一実施形態では、ＦＰＵの少なくとも１つは、高スループット超越数学関数及び倍精度５４ビット浮動小数点をサポートする拡張数学能力を提供する。いくつかの実施形態では、８ビット整数のＳＩＭＤＡＬＵ５３５のセットも存在し、これは、機械学習計算に関連する演算を行うように特に最適化することができる。

一実施形態では、グラフィック実行ユニット５０８の複数のインスタンスのアレイは、グラフィックサブコアグループ（例えば、サブスライス）にインスタンス化することができる。スケーラビリティのために、乗算アーキテクトはサブコアグループ毎に実行ユニットの正確な数を選択できる。一実施形態では、実行ユニット５０８は、複数の実行チャネルに亘って命令を実行することができる。更なる実施形態では、グラフィック実行ユニット５０８で実行される各スレッドは、異なるチャネルで実行される。

図６は、一実施形態による追加の実行ユニット６００を示す。実行ユニット６００は、例えば、図３Ｃのような計算エンジンタイル３４０Ａ〜３４０Ｄで使用するための計算最適化実行ユニットであってよいが、それに限定されるものではない。実行ユニット６００の変形を、図３Ｂのようにグラフィックエンジンタイル３１０Ａ〜３１０Ｄで使用してもよい。一実施形態では、実行ユニット６００は、スレッド制御ユニット６０１、スレッド状態ユニット６０２、命令フェッチ／プリフェッチユニット６０３、及び命令デコードユニット６０４を含む。実行ユニット６００は、実行ユニット内のハードウェアスレッドに割り当てることができるレジスタを格納するレジスタファイル６０６をさらに含む。実行ユニット６００は、送信ユニット６０７及び分岐ユニット６０８をさらに含む。一実施形態では、送信ユニット６０７及び分岐ユニット６０８は、図５Ｂのグラフィック実行ユニット５０８の送信ユニット５３０及び分岐ユニット５３２と同様に動作することができる。

実行ユニット６００は、複数の異なるタイプの機能ユニットを含む計算ユニット６１０も含む。一実施形態では、計算ユニット６１０は、算術論理ユニットのアレイを含むＡＬＵユニット６１１を含む。ＡＬＵユニット６１１は、６４ビット、３２ビット、及び１６ビットの整数及び浮動小数点演算を行うように構成することができる。整数演算及び浮動小数点演算は同時に実行され得る。計算ユニット６１０は、シストリック（systolic）アレイ６１２及び数学ユニット６１３も含むことができる。シストリックアレイ６１２は、ベクトル又は他のデータ並列処理をシストリック方式で行うために使用できるデータ処理ユニットのＷワイド及びＤディープネットワークを含む。一実施形態では、シストリックアレイ６１２は、行列ドット積演算等の行列演算を行うように構成することができる。一実施形態では、シストリックアレイ６１２は、１６ビット浮動小数点演算だけでなく、８ビット及び４ビット整数演算をサポートする。一実施形態では、シストリックアレイ６１２は、機械学習動作を加速させるように構成することができる。そのような実施形態では、シストリックアレイ６１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットをサポートするように構成することができる。一実施形態では、数学ユニット６１３は、ＡＬＵユニット６１１よりも効率的且つ低電力の方法で数学演算の特定のサブセットを実行するために含まれ得る。数学ユニット６１３は、他の実施形態によって提供されるグラフィック処理エンジンの共有機能ロジックで見出され得る数学ロジック（例えば、図４の共有機能ロジック４２０の数学ロジック４２２）の変形を含み得る。一実施形態では、数学ユニット６１３は、３２ビット及び６４ビットの浮動小数点演算を行うように構成することができる。

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始、停止、及び先取り（横取り）するスレッド調停ロジックを含むことができる。スレッド状態ユニット６０２は、実行ユニット６００で実行するように割り当てられたスレッドのスレッド状態を格納するために使用できる。スレッド状態を実行ユニット６００内に格納することによって、それらのスレッドがブロック又はアイドル状態になったときに、スレッドの迅速な先取り（横取り）を可能にする。命令フェッチ／プリフェッチユニット６０３は、より高いレベルの実行ロジックの命令キャッシュ（例えば、図５Ａのような命令キャッシュ５０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチユニット６０３は、現在実行中のスレッドの解析に基づいて、命令キャッシュにロードされる命令のプリフェッチ要求を発することもできる。命令デコードユニット６０４は、計算ユニットにより実行される命令をデコードするために使用することができる。一実施形態では、命令デコードユニット６０４は、複雑な命令を構成要素のマイクロオペレーションにデコードするための二次デコーダとして使用することができる。

実行ユニット６００は、実行ユニット６００上で実行されるハードウェアスレッドによって使用できるレジスタファイル６０６をさらに含む。レジスタファイル６０６内のレジスタは、実行ユニット６００の計算ユニット６１０内の複数の同時スレッドを実行するために使用されるロジック全体に分割できる。グラフィック実行ユニット６００によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。レジスタファイル６０６のサイズは、サポートされているハードウェアスレッドの数に基づいて、実施形態によって異なり得る。一実施形態では、レジスタの名前変更を使用して、レジスタをハードウェアスレッドに動的に割り当てることができる。

図７は、いくつかの実施形態によるグラフィックプロセッサ命令フォーマット７００を示すブロック図である。１つ又は複数の実施形態では、グラフィックプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線のボックスは、実行ユニットの命令に一般的に含まれるコンポーネントを示しているが、破線はオプションのコンポーネント、又は命令のサブセットにのみ含まれるコンポーネントを示している。いくつかの実施形態では、説明及び図示する命令フォーマット７００は、命令が処理されると命令デコードから生じるマイクロオペレーションとは対照的に、実行ユニットに供給される命令であるという点でマクロ命令である。

いくつかの実施形態では、グラフィックプロセッサ実行ユニットは、１２８ビット命令フォーマット７１０の命令をネイティブにサポートする。６４ビット圧縮（compacted）命令フォーマット７３０が、選択された命令、命令オプション、及びオペランドの数に基づいていくつかの命令で利用可能である。ネイティブの１２８ビット命令フォーマット７１０は、全ての命令オプションへのアクセスを提供するが、いくつかのオプション及び操作は６４ビットフォーマット７３０に制限される。６４ビットフォーマット７３０で使用可能なネイティブ命令は、実施形態によって異なる。いくつかの実施形態では、命令は、インデックスフィールド７１３内のインデックス値のセットを用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、且つ圧縮テーブルの出力を使用して、ネイティブ命令を１２８ビット命令フォーマット７１０に再構築する。命令の他のサイズ及びフォーマットを使用できる。

各フォーマットについて、命令オペコード７１２は、実行ユニットが実行することになる動作を規定する。実行ユニットは、各オペランドの複数のデータ要素に亘って各命令を並列に実行する。例えば、追加命令に応答して、実行ユニットは、テクスチャ要素又は画像要素を表す各カラーチャネルに亘って同時に追加操作を行う。デフォルトでは、実行ユニットは、オペランドの全てのデータチャネルに亘って各命令を実行する。いくつかの実施形態では、命令制御フィールド７１４によって、チャネル選択（例えば、予測）及びデータチャネル順序（例えば、スウィズル（swizzle））等の特定の実行オプションに対する制御が可能になる。１２８ビット命令フォーマット７１０の命令の場合に、実行サイズフィールド７１６は、並列に実行されるデータチャネルの数を制限する。いくつかの実施形態では、実行サイズフィールド７１６は、６４ビット圧縮命令フォーマット７３０での使用に利用できない。

いくつかの実行ユニット命令は、２つのソース（source）オペランド、ｓｒｃ０７２０、ｓｒｃ１７２２、及び１つのデスティネーション（destination）７１８を含む最大３つのオペランドを有する。いくつかの実施形態では、実行ユニットは、デスティネーションの１つが暗示されるデュアルデスティネーション命令をサポートする。データ操作命令は、第３のソースオペランド（例えば、ＳＲＣ２７２４）を有することができ、命令オペコード７１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令と共に渡される即値（ハードコード等）にすることができる。

いくつかの実施形態では、１２８ビット命令フォーマット７１０は、例えば、直接レジスタアドレス指定モード又は間接レジスタアドレス指定モードのどちらが使用されるかを指定するアクセス／アドレスモードフィールド７２６を含む。直接レジスタアドレス指定モードを使用する場合に、１つ又は複数のオペランドのレジスタアドレスは、命令のビットによって直接提供される。

いくつかの実施形態では、１２８ビット命令フォーマット７１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド７２６を含む。一実施形態では、アクセスモードは、命令のデータアクセスアラインメントを規定するために使用される。いくつかの実施形態は、１６バイト整列アクセスモード及び１バイト整列アクセスモードを含むアクセスモードをサポートし、アクセスモードのバイト配置（アライメント）は、命令オペランドのアクセス配置（アライメント）を決定する。例えば、第１のモードでは、命令はソースオペランド及びデスティネーションオペランドにバイト配置のアドレス指定を使用でき、第２のモードでは、命令は全てのソースオペランド及びデスティネーションオペランドに１６バイト配置のアドレス指定を使用できる。

一実施形態では、アクセス／アドレスモードフィールド７２６のアドレスモード部分は、命令が直接又は間接アドレス指定のどちらを使用するかを決定する。直接レジスタアドレス指定モードを使用する場合に、命令のビットは、１つ又は複数のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレス指定モードを使用する場合に、１つ又は複数のオペランドのレジスタアドレスは、命令のアドレスレジスタ値及びアドレス即時フィールドに基づいて計算できる。

いくつかの実施形態では、命令は、オペコード７１２のビットフィールドに基づいてグループ化されて、オペコードデコード７４０を簡素化する。８ビットオペコードの場合に、ビット４、５、及び６により、実行ユニットがオペコードのタイプを決定することができる。示されている正確なオペコードのグループ化は単なる例である。いくつかの実施形態では、移動及び論理オペコードグループ７４２は、データ移動及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。いくつかの実施形態では、移動及び論理グループ７４２は５つの最上位ビット（ＭＳＢ）を共有し、移動（ｍｏｖ）命令は００００ｘｘｘｂの形式であり、論理命令は０００１ｘｘｘｂの形式である。フロー制御命令グループ７４４（例えば、呼び出し、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。他の命令グループ７４６は、００１１ｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む命令の混合を含む。並列数学命令グループ７４８は、コンポーネントに関する算術命令（例えば、加算、乗算（ｍｕｌ））を０１００ｘｘｘｂ（例えば、０ｘ４０）の形式で含む。並列数学グループ７４８は、データチャネルに亘って算術演算を並列に行う。ベクトル数学グループ７５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドに対してドット積計算等の算術を行う。図示のオペコード復号７４０は、一実施形態では、実行ユニットのどの部分を使用して復号された命令を実行するかを決定するために使用することができる。例えば、いくつかの命令は、シストリックアレイによって実行されるシストリック命令として指定される場合がある。光線追跡命令（図示せず）等の他の命令は、実行ロジックのスライス又はパーティション内の光線追跡コア又は光線追跡ロジックにルーティングできる。

グラフィックパイプライン

図８は、グラフィックプロセッサ８００の別の実施形態のブロック図である。本明細書の他の図の要素と同じ参照符号（又は名前）を有する図８の要素は、本明細書の他の場所で説明しているもの同様に動作又は機能することができるが、それに限定されるものではない。

いくつかの実施形態では、グラフィックプロセッサ８００は、幾何学パイプライン８２０、メディアパイプライン８３０、表示エンジン８４０、スレッド実行ロジック８５０、及びレンダリング出力パイプライン８７０を含む。いくつかの実施形態では、グラフィックプロセッサ８００は、１つ又は複数の汎用処理コアを含むマルチコア処理システム内のグラフィックプロセッサである。グラフィックプロセッサは、１つ又は複数の制御レジスタ（図示せず）へのレジスタ書き込みによって、又はリング相互接続８０２を介してグラフィックプロセッサ８００に発せられたコマンドを介して制御される。いくつかの実施形態では、リング相互接続８０２は、グラフィックプロセッサ８００を、他のグラフィックプロセッサ又は汎用プロセッサ等の他の処理コンポーネントに結合する。リング相互接続８０２からのコマンドは、コマンドストリーマ８０３によって解釈され、コマンドストリーマ８０３は、幾何学ストリーマパイプライン８２０又はメディアパイプライン８３０の個々のコンポーネントに命令を供給する。

いくつかの実施形態では、コマンドストリーマ８０３は、メモリから頂点データを読み取り、コマンドストリーマ８０３によって提供される頂点処理コマンドを実行する頂点フェッチャ８０５の動作を指示する。いくつかの実施形態では、頂点フェッチャ８０５は、頂点データを頂点シェーダー８０７に提供し、頂点シェーダー８０７は、座標空間変換及び照明操作を各頂点に対して行う。いくつかの実施形態では、頂点フェッチャ８０５及び頂点シェーダー８０７は、スレッドディスパッチャ８３１を介して実行スレッドを実行ユニット８５２Ａ〜８５２Ｂにディスパッチすることにより、頂点処理命令を実行する。

いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂは、グラフィック及びメディア処理を行うための命令セットを有するベクトルプロセッサのアレイである。いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂは、各アレイに固有であるか、又はアレイ同士の間で共有される、付属のＬ１キャッシュ８５１を有する。キャッシュは、データ及び命令を異なるパーティションに含むようにパーティション化されたデータキャッシュ、命令キャッシュ、又は単一のキャッシュとして構成できる。

いくつかの実施形態では、幾何学パイプライン８２０は、３Ｄオブジェクトのハードウェア加速化テッセレーションを実行するテッセレーションコンポーネントを含む。いくつかの実施形態では、プログラム可能なハル（hull）シェーダー８１１が、テッセレーション操作を構成する。プログラム可能なドメインシェーダー８１７が、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３は、ハルシェーダー８１１の指示で動作し、幾何学パイプライン８２０への入力として提供される粗い幾何学的モデルに基づいて、詳細な幾何学的オブジェクトのセットを生成する特別な目的のロジックを含む。いくつかの実施形態では、テッセレーションが使用されない場合に、テッセレーションコンポーネント（例えば、ハルシェーダー８１１、テッセレータ８１３、ドメインシェーダー８１７）をバイパスできる。

いくつかの実施形態では、完全な幾何学的オブジェクトは、実行ユニット８５２Ａ〜８５２Ｂにディスパッチされた１つ又は複数のスレッドを介して幾何学シェーダー８１９によって処理することができ、又はクリッパー８２９に直接進むことができる。いくつかの実施形態では、幾何学シェーダーは、グラフィックパイプラインの前の段階のような頂点又は頂点のパッチではなく、幾何学的オブジェクト全体で動作する。テッセレーションが無効になっている場合に、幾何学シェーダー８１９は頂点シェーダー８０７から入力を受け取る。いくつかの実施形態では、幾何学シェーダー８１９は、テッセレーションユニットが無効になっている場合に、幾何学テッセレーションを実行するように幾何学シェーダーのプログラムによってプログラム可能である。

ラスタライズの前に、クリッパー８２９は頂点データを処理する。クリッパー８２９は、固定機能クリッパー、又はクリッピング及び幾何学シェーダー機能を有するプログラム可能なクリッパーであり得る。いくつかの実施形態では、レンダリング出力パイプライン８７０のラスタライザ（rasterizer）及び深度テストコンポーネント８７３は、ピクセルシェーダーをディスパッチして、幾何学的オブジェクトをピクセル毎の表現に変換する。いくつかの実施形態では、ピクセルシェーダーロジックはスレッド実行ロジック８５０に含まれる。いくつかの実施形態では、アプリケーションが、ラスタライザ及び深度テストコンポーネント８７３をバイパスし、ストリームアウトユニット８２３を介して非ラスタ化頂点データにアクセスすることができる。

グラフィックプロセッサ８００は、相互接続バス、相互接続ファブリック、又はプロセッサの主要なコンポーネント同士の間でのデータ及びメッセージの受け渡しを可能にするいくつかの他の相互接続機構を有する。いくつかの実施形態では、実行ユニット８５２Ａ〜８５２Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ８５１、サンプラー８５４、テクスチャキャッシュ８５８等）は、データポート８５６を介して相互接続して、メモリアクセスを実行し、且つプロセッサのレンダリング出力パイプラインコンポーネントと通信する。いくつかの実施形態では、サンプラー８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ〜８５２Ｂはそれぞれ、別個のメモリアクセス経路を有する。一実施形態では、テクスチャキャッシュ８５８は、サンプラーキャッシュとして構成することもできる。

いくつかの実施形態では、レンダリング出力パイプライン８７０は、頂点ベースのオブジェクトを関連するピクセルベースの表現に変換するラスタライザ及び深度テストコンポーネント８７３を含む。いくつかの実施形態では、ラスタライザロジックは、固定機能の三角形及び線のラスタライズを実行するためのウィンドウ処理（windower）／マスク処理（masker）ユニットを含む。いくつかの実施形態では、関連するレンダリングキャッシュ８７８及び深度キャッシュ８７９も利用可能である。ピクセル操作コンポーネント８７７が、ピクセルベースの操作をデータに対して行うが、場合によっては、２Ｄ処理に関連付けられたピクセル操作（例えば、ブレンディングを含むビットブロック画像転送）が、２Ｄエンジン８４１によって実行されるか、又はオーバーレイ表示面を用いてコントローラ８４３によって表示時に置き換えられる。いくつかの実施形態では、共有Ｌ３キャッシュ８７５が、全てのグラフィックコンポーネントに利用可能であり、メインシステムのメモリを使用せずにデータを共有できるようにする。

いくつかの実施形態では、グラフィックプロセッサメディアパイプライン８３０は、メディアエンジン８３７及びビデオフロントエンド８３４を含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受け取る。いくつかの実施形態では、メディアパイプライン８３０は、別個のコマンドストリーマを含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドをメディアエンジン８３７に送信する前にメディアコマンドを処理する。いくつかの実施形態では、メディアエンジン８３７は、スレッドディスパッチャ８３１を介してスレッド実行ロジック８５０にディスパッチするためにスレッドを生成するスレッド生成機能を含む。

いくつかの実施形態では、グラフィックプロセッサ８００は、表示エンジン８４０を含む。いくつかの実施形態では、表示エンジン８４０は、プロセッサ８００の外部にあり、且つリング相互接続８０２或いは他の何らかの相互接続バス又はファブリックを介してグラフィックプロセッサと結合する。いくつかの実施形態では、表示エンジン８４０は、２Ｄエンジン８４１及び表示コントローラ８４３を含む。いくつかの実施形態では、表示エンジン８４０は、３Ｄパイプラインから独立して動作することができる専用ロジックを含む。いくつかの実施形態では、表示コントローラ８４３は、ラップトップコンピュータのようなシステム統合型表示装置、又は表示装置コネクタを介して取り付けられた外部表示装置であり得る表示装置（図示せず）と結合する。

いくつかの実施形態では、幾何学パイプライン８２０及びメディアパイプライン８３０は、複数のグラフィック及びメディアプログラミングインターフェイスに基づいて操作を行うように構成可能であり、且ついずれか１つのアプリケーションプログラミングインターフェイス（ＡＰＩ）に固有ではない。いくつかの実施形態では、グラフィックプロセッサのドライバソフトウェアは、特定のグラフィック又はメディアライブラリに固有のＡＰＩ呼出しを、グラフィックプロセッサが処理できるコマンドに変換する。いくつかの実施形態では、全てがクロノス（Khronos）グループからのオープングラフィックライブラリ（ＯｐｅｎＧＬ）、オープンコンピュータ言語（ＯｐｅｎＣＬ）、及び／又はＶｕｌｋａｎグラフィック及び計算ＡＰＩのサポートが提供される。いくつかの実施形態では、マイクロソフト社のＤｉｒｅｃｔ３Ｄライブラリに対するサポートも提供され得る。いくつかの実施形態では、これらのライブラリの組合せがサポートされ得る。オープンソースのコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）のサポートも提供される。将来のＡＰＩのパイプラインからグラフィックプロセッサのパイプラインへのマッピングを作成できる場合に、互換性のある３Ｄパイプラインを含む将来のＡＰＩもサポートされる。

グラフィックパイプラインプログラミング

図９Ａは、いくつかの実施形態によるグラフィックプロセッサコマンドフォーマット９００を示すブロック図である。図９Ｂは、一実施形態によるグラフィックプロセッサコマンドシーケンス９１０を示すブロック図である。図９Ａの実線のボックスは、グラフィックコマンドに一般的に含まれるコンポーネントを示す一方、破線は、オプションであるコンポーネントを含むか、又はグラフィックコマンドのサブセットにのみ含まれるコンポーネントを含む。図９Ａの例示的なグラフィックプロセッサコマンドフォーマット９００は、クライアント９０２を識別するためのデータフィールド、コマンドオペレーションコード（オペコード）９０４、及びコマンドのデータ９０６を含む。サブオペコード９０５及びコマンドサイズ９０８もいくつかのコマンドに含まれる。

いくつかの実施形態では、クライアント９０２は、コマンドデータを処理するグラフィック装置のクライアントユニットを指定する。いくつかの実施形態では、グラフィックプロセッサのコマンドパーサー（parser）は、各コマンドのクライアントフィールドを調べて、コマンドの更なる処理を条件付けし、コマンドデータを適切なクライアントユニットにルーティングする。いくつかの実施形態では、グラフィックプロセッサクライアントユニットは、メモリインターフェイスユニット、レンダリングユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含む。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有する。クライアントユニットがコマンドを受信すると、クライアントユニットは、オペコード９０４を読み取り、存在する場合にサブオペコード９０５を読み取って、実行すべき操作を決定する。クライアントユニットは、データフィールド９０６の情報を用いてコマンドを実行する。いくつかのコマンドについては、明示的なコマンドサイズ９０８がコマンドのサイズを指定すると予想される。いくつかの実施形態では、コマンドパーサーは、コマンドオペコードに基づいてコマンドの少なくともいくつかのサイズを自動的に決定する。いくつかの実施形態では、コマンドは倍長語（ダブルワード）の倍数を介して整列される。他のコマンド形式を使用できる。

図９Ｂのフロー図は、例示的なグラフィックプロセッサのコマンドシーケンス９１０を示す。いくつかの実施形態では、グラフィックプロセッサの実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィック処理のセットをセットアップ、実行、終了するために、示されるコマンドシーケンスのバージョンを使用する。実施形態がこれらの特定のコマンド又はこのコマンドシーケンスに限定されないので、サンプルコマンドシーケンスが、例示の目的でのみ示され、説明される。さらに、コマンドは、コマンドシーケンスのコマンドのバッチとして発せられ得、それによってグラフィックプロセッサは、コマンドのシーケンスを少なくとも部分的に同時に処理する。

いくつかの実施形態では、グラフィックプロセッサのコマンドシーケンス９１０は、パイプラインフラッシュコマンド９１２で開始し、アクティブなグラフィックパイプラインに、パイプラインの現在保留中のコマンドを完了させることができる。いくつかの実施形態では、３Ｄパイプライン９２２及びメディアパイプライン９２４は、同時に動作しない。パイプラインフラッシュが実行され、アクティブなグラフィックパイプラインに、任意の保留中のコマンドを完了させる。パイプラインフラッシュに応答して、グラフィックプロセッサのコマンドパーサーは、アクティブな描画エンジンが保留中の操作を完了し、関連する読み取りキャッシュが無効になるまで、コマンド処理を一時停止する。オプションで、「ダーティ（dirty）」とマークされているレンダリングキャッシュ内のデータをメモリにフラッシュすることができる。いくつかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン同期のために、又はグラフィックプロセッサを低電力状態にする前に使用することができる。

いくつかの実施形態では、コマンドシーケンスがグラフィックプロセッサにパイプラインを明示的に切り替えることを要求するときに、パイプライン選択コマンド９１３が使用される。いくつかの実施形態では、実行コンテキストが両方のパイプラインに対してコマンドを発するものでない限り、パイプラインコマンドを発する前に、実行コンテキスト内でパイプライン選択コマンド９１３が１回だけ必要である。いくつかの実施形態では、パイプライン選択コマンド９１３を介してパイプラインが切り替わる直前に、パイプラインフラッシュコマンド９１２が必要である。

いくつかの実施形態では、パイプライン制御コマンド９１４は、動作のためにグラフィックパイプラインを構成し、３Ｄパイプライン９２２及びメディアパイプライン９２４をプログラムするために使用される。いくつかの実施形態では、パイプライン制御コマンド９１４は、アクティブなパイプラインのパイプライン状態を構成する。一実施形態では、パイプライン制御コマンド９１４は、パイプライン同期のために、及びコマンドのバッチを処理する前にアクティブなパイプライン内の１つ又は複数のキャッシュメモリからデータをクリアするために使用される。

いくつかの実施形態では、リターンバッファ状態コマンド９１６が、それぞれのパイプラインがデータを書き込むためのリターンバッファのセットを構成するために使用される。いくつかのパイプライン操作では、その中で操作が処理中に中間データを書き込む１つ又は複数のリターンバッファの割り当て、選択、又は構成が必要である。いくつかの実施形態では、グラフィックプロセッサはまた、出力データを格納し、スレッド間通信を行うために、１つ又は複数のリターンバッファを使用する。いくつかの実施形態では、リターンバッファ状態９１６は、パイプライン操作のセットに使用するリターンバッファのサイズ及び数を選択することを含む。

コマンドシーケンスにおける残りのコマンドは、操作のためのアクティブなパイプラインに基づいて異なる。パイプライン決定９２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態９３０で開始する３Ｄパイプライン９２２、又はメディアパイプライン状態９４０で開始するメディアパイプライン９２４に合わせて調整される。

３Ｄパイプライン状態９３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、一定色状態、深度バッファ状態、及び３Ｄプリミティブコマンドを処理する前に構成される他の状態変数のための３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。いくつかの実施形態では、３Ｄパイプライン状態９３０コマンドはまた、それら特定のパイプライン要素が使用されない場合に、特定のパイプライン要素を選択的に無効化又はバイパスすることができる。

いくつかの実施形態では、３Ｄプリミティブ９３２コマンドは、３Ｄパイプラインによって処理すべき３Ｄプリミティブを送信するために使用される。３Ｄプリミティブ９３２コマンドを介してグラフィックプロセッサに渡されるコマンド及び関連パラメータは、グラフィックパイプラインの頂点フェッチ機能に転送される。頂点フェッチ機能は、３Ｄプリミティブ９３２コマンドデータを使用して、頂点データ構造を生成する。頂点データ構造は、１つ又は複数のリターンバッファに格納される。いくつかの実施形態では、３Ｄプリミティブ９３２コマンドを使用して、頂点シェーダーを介して３Ｄプリミティブに対して頂点操作を行う。頂点シェーダーを処理するために、３Ｄパイプライン９２２は、シェーダー実行スレッドをグラフィックプロセッサ実行ユニットにディスパッチする。

いくつかの実施形態では、３Ｄパイプライン９２２は、実行９３４コマンド又はイベントを介してトリガーされる。いくつかの実施形態では、レジスタ書込みがコマンド実行をトリガーする。いくつかの実施形態では、実行は、コマンドシーケンスの「ｇｏ」又は「ｋｉｃｋ」コマンドを介してトリガーされる。一実施形態では、コマンド実行は、グラフィックパイプラインを介してコマンドシーケンスをフラッシュするためにパイプライン同期コマンドを用いてトリガーされる。３Ｄパイプラインは、３Ｄプリミティブの幾何学処理を行う。処理が完了すると、得られた幾何学的オブジェクトがラスタライズされ、ピクセルエンジンが得られたピクセルに色を付ける。ピクセルシェーディング及びピクセルバックエンド処理を制御する追加のコマンドも、これらの処理に含めることができる。

いくつかの実施形態では、グラフィックプロセッサコマンドシーケンス９１０は、メディア処理を行うとき、メディアパイプライン９２４の経路を辿る。一般に、メディアパイプライン９２４のプログラミングの特定の使用及び方法は、実行されるメディア又は計算処理に依存する。特定のメディアデコード処理は、メディアデコード中にメディアパイプラインにオフロードされる場合がある。いくつかの実施形態では、メディアパイプラインをバイパスすることもでき、メディアデコードは、１つ又は複数の汎用処理コアによって提供されるリソースを用いて全体的又は部分的に実行することができる。一実施形態では、メディアパイプラインは、汎用グラフィックプロセッサユニット（ＧＰＧＰＵ）演算のための要素も含み、グラフィックプロセッサは、グラフィックプリミティブのレンダリングに明示的に関連しない計算シェーダープログラムを用いてＳＩＭＤベクトル演算を行うために使用される。

いくつかの実施形態では、メディアパイプライン９２４は、３Ｄパイプライン９２２と同様の方法で構成される。メディアパイプライン状態９４０を構成するコマンドのセットが、メディアオブジェクトコマンド９４２の前にコマンドキューにディスパッチ又は配置される。いくつかの実施形態では、メディアパイプライン状態９４０のためのコマンドが、メディアオブジェクトを処理するために使用されることになるメディアパイプライン要素を構成するためのデータを含む。これには、エンコード又はデコードフォーマット等、メディアパイプライン内のビデオデコード及びビデオエンコードロジックを構成するためのデータが含まれる。いくつかの実施形態では、メディアパイプライン状態９４０のためのコマンドが、状態設定のバッチを含む「間接的な」状態要素への１つ又は複数のポインタの使用もサポートする。

いくつかの実施形態では、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理のためにポインタをメディアオブジェクトに供給する。メディアオブジェクトには、処理すべきビデオデータを含むメモリバッファが含まれる。いくつかの実施形態では、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発する前に有効でなければならない。パイプライン状態が構成され、且つメディアオブジェクトコマンド９４２がキューに入れられると、メディアパイプライン９２４は、実行コマンド９４４又は同等の実行イベント（例えば、レジスタ書込み）を介してトリガーされる。次に、メディアパイプライン９２４からの出力は、３Ｄパイプライン９２２又はメディアパイプライン９２４によって提供される操作によって後処理され得る。いくつかの実施形態では、ＧＰＧＰＵ演算は、メディア処理と同様の方法で構成及び実行される。

グラフィックソフトウェアアーキテクチャ

図１０は、いくつかの実施形態による、データ処理システム１０００の例示的なグラフィックソフトウェアアーキテクチャを示す。いくつかの実施形態では、ソフトウェアアーキテクチャは、３Ｄグラフィックアプリケーション１０１０、オペレーティングシステム１０２０、及び少なくとも１つのプロセッサ１０３０を含む。いくつかの実施形態では、プロセッサ１０３０は、グラフィックプロセッサ１０３２及び１つ又は複数の汎用プロセッサコア１０３４を含む。グラフィックアプリケーション１０１０及びオペレーティングシステム１０２０はそれぞれ、データ処理システムのシステムメモリ１０５０で実行される。

いくつかの実施形態では、３Ｄグラフィックアプリケーション１０１０は、シェーダー命令１０１２を含む１つ又は複数のシェーダープログラムを含む。シェーダー言語命令は、Ｄｉｒｅｃｔ３Ｄの高レベルシェーダー言語（ＨＬＳＬ）、ＯｐｅｎＧＬシェーダー言語（ＧＬＳＬ）等の高レベルシェーダー言語であってもよい。アプリケーションは、汎用プロセッサコア１０３４による実行に適した機械語での実行可能命令１０１４も含む。アプリケーションは、頂点データによって規定されるグラフィックオブジェクト１０１６も含む。

いくつかの実施形態では、オペレーティングシステム１０２０は、マイクロソフト社のマイクロソフト（登録商標）ウィンドウズ（登録商標）オペレーティングシステム、独自のＵＮＩＸ（登録商標）様オペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を用いるオープンソースのＵＮＩＸ（登録商標）様オペレーティングシステムである。オペレーティングシステム１０２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩ等のグラフィックＡＰＩ１０２２をサポートできる。Ｄｉｒｅｃｔ３ＤＡＰＩが使用される場合に、オペレーティングシステム１０２０は、フロントエンドシェーダーコンパイラ１０２４を使用して、ＨＬＳＬの任意のシェーダー命令１０１２を下位レベルのシェーダー言語にコンパイルする。コンパイルはジャストインタイム（ＪＩＴ）コンパイルであるか、又はアプリケーションがシェーダーのプリコンパイルを実行できる。いくつかの実施形態では、高レベルのシェーダーは、３Ｄグラフィックアプリケーション１０１０のコンパイル中に低レベルのシェーダーにコンパイルされる。いくつかの実施形態では、シェーダー命令１０１２は、ＶｕｌｋａｎＡＰＩによって使用される標準のポータブル中間表現（ＳＰＩＲ）のバージョン等の中間形式で提供される。

いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、シェーダー命令１０１２をハードウェア固有の表現に変換するためのバックエンドシェーダーコンパイラ１０２７を含む。ＯｐｅｎＧＬＡＰＩが使用される場合に、ＧＬＳＬ高レベル言語のシェーダー命令１０１２が、コンパイルのためにユーザモードグラフィックドライバ１０２６に渡される。いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、オペレーティングシステムカーネルモード機能１０２８を使用して、カーネルモードグラフィックドライバ１０２９と通信する。いくつかの実施形態では、カーネルモードグラフィックドライバ１０２９は、グラフィックプロセッサ１０３２と通信して、コマンド及び命令をディスパッチする。

ＩＰコアの実装

少なくとも１つの実施形態の１つ又は複数の態様は、プロセッサ等の集積回路内の論理を表す及び／又は規定する、機械可読媒体に格納された代表的なコードによって実装され得る。例えば、機械可読媒体は、プロセッサ内の様々な論理を表す命令を含み得る。機械によって読み取られるとき、命令は、機械に、本明細書で説明している技術を実行するためのロジックを作成させることができる。「ＩＰコア」として知られるそのような表現は、集積回路の構造を記述するハードウェアモデルとして有形の機械可読媒体に格納され得る、集積回路の再利用可能な論理ユニットである。ハードウェアモデルは、様々な顧客又は製造施設に供給され、顧客又は製造施設によって、集積回路を製造する製造機械にハードウェアモデルがロードされる。集積回路は、回路が、本明細書で説明する実施形態のいずれかに関連して説明している処理を行うように製造することができる。

図１１Ａは、一実施形態による、処理を行うための集積回路を製造するために使用され得るＩＰコア開発システム１１００を示すブロック図である。ＩＰコア開発システム１１００を使用して、より大きな設計に組み込むことができる、又は集積回路全体（例えば、ＳＯＣ集積回路）を構築するのに使用できるモジュール式の再利用可能な設計を生成することができる。設計設備１１３０は、高レベルプログラミング言語（例えば、Ｃ／Ｃ＋＋）でＩＰコア設計のソフトウェアシミュレーション１１１０を生成することができる。ソフトウェアシミュレーション１１１０は、シミュレーションモデル１１１２を用いて、ＩＰコアの動作を設計、テスト、及び検証するために使用することができる。シミュレーションモデル１１１２は、機能、動作、及び／又はタイミングシミュレーションを含み得る。次に、レジスタ転送レベル（ＲＴＬ）設計１１１５をシミュレーションモデル１１１２から作成又は合成することができる。ＲＴＬ設計１１１５は、モデル化されたデジタル信号を用いて実行される関連するロジックを含む、ハードウェアレジスタ同士の間のデジタル信号の流れをモデル化する集積回路の動作を抽象化したものである。ＲＴＬ設計１１１５に加えて、論理レベル又はトランジスタレベルでのより低いレベルの設計も、作成、設計、又は合成され得る。こうして、初期設計及びシミュレーションの特定の詳細は異なる場合がある。

ＲＴＬ設計１１１５又は同等物は、設計設備によって、ハードウェア記述言語（ＨＤＬ）又は物理的設計データの他の何らかの表現であり得るハードウェアモデル１１２０にさらに合成され得る。ＨＤＬをさらにシミュレーション又はテストして、ＩＰコアの設計を検証できる。ＩＰコア設計は、不揮発性メモリ１１４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて、サードパーティの製造施設１１６５への配信のために格納することができる。あるいはまた、ＩＰコア設計は、有線接続１１５０又は無線接続１１６０を介して（例えば、インターネットを介して）送信してもよい。次に、製造施設１１６５は、ＩＰコア設計に少なくとも部分的に基づく集積回路を製造し得る。製造された集積回路は、本明細書で説明する少なくとも１つの実施形態に従って処理を行うように構成され得る。

図１１Ｂは、本明細書で説明するいくつかの実施形態による集積回路パッケージアセンブリ１１７０の側断面図を示す。集積回路パッケージアセンブリ１１７０は、本明細書で説明するような１つ又は複数のプロセッサ又はアクセラレータ装置の実装を示す。パッケージアセンブリ１１７０は、基板１１８０に接続されたハードウェアロジック１１７２、１１７４の複数のユニットを含む。ロジック１１７２、１１７４は、構成可能なロジック又は固定機能ロジックハードウェアで少なくとも部分的に実装され得、且つ本明細書で説明するプロセッサコア、グラフィックプロセッサ、又は他のアクセラレータ装置のいずれかの１つ又は複数の部分を含み得る。ロジック１１７２、１１７４の各ユニットは、半導体ダイ内に実装され、相互接続構造１１７３を介して基板１１８０と結合することができる。相互接続構造１１７３は、ロジック１１７２、１１７４と基板１１８０との間で電気信号をルーティングするように構成され得、限定されないが、バンプ又はピラー等の相互接続を含むことができる。いくつかの実施形態では、相互接続構造１１７３は、例えば、ロジック１１７２、１１７４の処理に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力又は接地信号等の電気信号をルーティングするように構成され得る。いくつかの実施形態では、基板１１８０は、エポキシベースの積層基板である。他の実施形態では、基板１１８０は、他の適切なタイプの基板を含み得る。パッケージアセンブリ１１７０は、パッケージ相互接続１１８３を介して他の電気装置に接続することができる。パッケージ相互接続１１８３を基板１１８０の表面に結合して、マザーボード、他のチップセット、又はマルチチップモジュール等の他の電気装置に電気信号をルーティングすることができる。

いくつかの実施形態では、ロジック１１７２、１１７４のユニットは、ロジック１１７２、１１７４の間で電気信号をルーティングするように構成されたブリッジ１１８２と電気的に結合される。ブリッジ１１８２は、電気信号の経路を提供する高密度相互接続構造であり得る。ブリッジ１１８２は、ガラス又は適切な半導体材料から構成されるブリッジ基板を含み得る。電気ルーティング機能をブリッジ基板上に形成して、ロジック１１７２、１１７４の間のチップ間接続を提供できる。

ロジック１１７２、１１７４の２つのユニット及びブリッジ１１８２が示されているが、本明細書で説明する実施形態は、１つ又は複数のダイ上により多い又はより少ない論理ユニットを含むことができる。ロジックが単一のダイに含まれる場合に、ブリッジ１１８２は除外され得るため、１つ又は複数のダイは、ゼロ又はそれ以上のブリッジによって接続され得る。あるいはまた、複数のダイ又はロジックのユニットを１つ又は複数のブリッジによって接続できる。さらに、複数の論理ユニット、ダイ、及びブリッジを、３次元構成を含む他の可能な構成で一緒に接続できる。

図１１Ｃは、基板１１８０（例えば、ベースダイ）に接続されたハードウェア論理チップレットの複数のユニットを含むパッケージアセンブリ１１９０を示す。本明細書で説明するようなグラフィック処理ユニット、並列プロセッサ、及び／又は計算アクセラレータは、別々に製造される多様なシリコンチップレットから構成することができる。この文脈では、チップレットは、他のチップレットと共に大きなパッケージに組み立てることができるロジックの個別のユニットを含む、少なくとも部分的にパッケージ化された集積回路である。異なるＩＰコアロジックを含むチップレットの多様なセットを単一のデバイスに組み立てることができる。さらに、アクティブなインターポーザー技術を用いて、チップレットをベースダイ又はベースチップレットに統合できる。本明細書で説明する概念によって、ＧＰＵ内の様々なＩＰの形式の間の相互接続及び通信が可能になる。ＩＰコアは、様々なプロセス技術を用いて製造し、製造中に構成できるため、複数のＩＰを、特に複数のフレーバー（flavors）ＩＰを含む大規模なＳｏＣで同じ製造プロセスに集約する複雑さを回避できる。複数のプロセス技術を使用できるようにすることで、製品化までの時間が短縮され、複数の製品ＳＫＵを形成する費用効果の高い方法が提供される。さらに、集約解除された（disaggregated）ＩＰは独立してパワーゲーティング（power gated）され易くなり、所与のワークロードで使用されていないコンポーネントの電源をオフにできるため、全体的な電力消費を削減できる。

ハードウェア論理チップレットは、専用ハードウェア論理チップレット１１７２、論理又はＩ／Ｏチップレット１１７４、及び／又はメモリチップレット１１７５を含み得る。ハードウェア論理チップレット１１７２及び論理又はＩ／Ｏチップレット１１７４は、少なくとも部分的に構成可能なロジック又は固定機能ロジックハードウェアで実装され得、且つ本明細書で説明するプロセッサコア、グラフィックプロセッサ、並列プロセッサ、又は他のアクセラレータ装置のいずれかの１つ又は複数の部分を含むことができる。メモリチップレット１１７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリとすることができる。

各チップレットは、別個の半導体ダイとして製造され、且つ相互接続構造１１７３を介して基板１１８０と結合され得る。相互接続構造１１７３は、基板１１８０内の様々なチップレットとロジックとの間で電気信号をルーティングするように構成され得る。相互接続構造１１７３は、バンプ又はピラー等であるがこれらに限定されない相互接続を含むことができる。いくつかの実施形態では、相互接続構造１１７３は、例えば、論理、Ｉ／Ｏ及びメモリチップレットの処理に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力又は接地信号等の電気信号をルーティングするように構成され得る。

いくつかの実施形態では、基板１１８０は、エポキシベースの積層基板である。他の実施形態では、基板１１８０は、他の適切なタイプの基板を含み得る。パッケージアセンブリ１１９０は、パッケージ相互接続１１８３を介して他の電気装置に接続することができる。パッケージ相互接続１１８３を基板１１８０の表面に結合して、マザーボード、他のチップセット、又はマルチチップモジュール等の他の電気装置に電気信号をルーティングすることができる。

いくつかの実施形態では、論理又はＩ／Ｏチップレット１１７４及びメモリチップレット１１７５は、論理又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間で電気信号をルーティングするように構成されるブリッジ１１８７を介して電気的に結合され得る。ブリッジ１１８７は、電気信号の経路を提供する高密度相互接続構造であり得る。ブリッジ１１８７は、ガラス又は適切な半導体材料から構成されるブリッジ基板を含み得る。電気ルーティング機能をブリッジ基板上に形成して、論理又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間にチップ間接続を提供できる。ブリッジ１１８７は、シリコンブリッジ又は相互接続ブリッジとも呼ばれ得る。例えば、いくつかの実施形態では、ブリッジ１１８７は、埋込み型マルチダイ相互接続ブリッジ（ＥＭＩＢ）である。いくつかの実施形態では、ブリッジ１１８７は、単にあるチップレットから別のチップレットへの直接接続であり得る。

基板１１８０は、Ｉ／Ｏ１１９１、キャッシュメモリ１１９２、及び他のハードウェアロジック１１９３のためのハードウェアコンポーネントを含むことができる。ファブリック１１８５を基板１１８０に埋め込んで、様々な論理チップレットと基板１１８０内のロジック１１９１、１１９３との間の通信を可能にする。一実施形態では、Ｉ／Ｏ１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェアロジック１１９３は、基板１１８０の上に積層されたベースダイに統合することができる。

様々な実施形態において、パッケージアセンブリ１１９０は、ファブリック１１８５或いは１つ又は複数のブリッジ１１８７によって相互接続されるより少ない又はより多い数のコンポーネント及びチップレットを含むことができる。パッケージアセンブリ１１９０内のチップレットは、３Ｄ又は２．５Ｄ構成で配置され得る。一般に、ブリッジ構造１１８７を使用して、例えば、論理又はＩ／Ｏチップレットとメモリチップレットとの間のポイント間相互接続を容易にすることができる。ファブリック１１８５を使用して、様々な論理及び／又はＩ／Ｏチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を他の論理及び／又はＩ／Ｏチップレットと相互接続することができる。一実施形態では、基板内のキャッシュメモリ１１９２は、パッケージアセンブリ１１９０のグローバルキャッシュ、分散型グローバルキャッシュの一部、又はファブリック１１８５の専用キャッシュとして機能することができる。

図１１Ｄは、一実施形態による、交換可能なチップレット１１９５を含むパッケージアセンブリ１１９４を示す。交換可能なチップレット１１９５は、１つ又は複数のベースチップレット１１９６、１１９８の標準化されたスロット内に組み付けることができる。ベースチップレット１１９６、１１９８は、本明細書で説明する他のブリッジ相互接続に類似し得る又は例えばＥＭＩＢであり得るブリッジ相互接続１１９７を介して結合できる。メモリチップレットは、ブリッジ相互接続を介して論理又はＩ／Ｏチップレットに接続することもできる。Ｉ／Ｏ及び論理チップレットは、相互接続ファブリックを介して通信できる。ベースチップレットはそれぞれ、ロジック又はＩ／Ｏ又はメモリ／キャッシュのいずれかに対して、標準化されたフォーマットで１つ又は複数のスロットをサポートできる。

一実施形態では、ＳＲＡＭ及び電力供給回路を、１つ又は複数のベースチップレット１１９６、１１９８に製造することができ、これは、ベースチップレットの上に積み重ねられる交換可能なチップレット１１９５とは異なるプロセス技術を用いて製造することができる。例えば、ベースチップレット１１９６、１１９８は、より大きなプロセス技術を用いて製造することができる一方、交換可能なチップレットは、より小さなプロセス技術を用いて製造することができる。交換可能なチップレット１１９５のうちの１つ又は複数は、メモリ（例えば、ＤＲＡＭ）チップレットであり得る。電力及び／又はパッケージアセンブリ１１９４を使用する製品を対象とする性能に基づいて、パッケージアセンブリ１１９４に異なるメモリ密度を選択できる。さらに、様々なタイプ数の機能ユニットを含む論理チップレットを、製品の対象となる電力及び／又は能力に基づいて組立時に選択することができる。さらに、異なるタイプのＩＰ論理コアを含むチップレットを交換可能なチップレットのスロットに挿入できるため、異なる技術のＩＰブロックを組み合わせて使用できるハイブリッドプロセッサ設計が可能になる。

チップ集積回路の例示的なシステム

図１２〜図１３は、本明細書で説明する様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連するグラフィックプロセッサを示す。図示されているものに加えて、追加のグラフィックプロセッサ／コア、周辺機器インターフェイスコントローラ、又は汎用プロセッサコアを含む他のロジック及び回路が含まれ得る。

図１２は、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るチップ集積回路１２００上の例示的なシステムを示すブロック図である。例示的な集積回路１２００は、１つ又は複数のアプリケーションプロセッサ１２０５（例えば、ＣＰＵ）、少なくとも１つのグラフィックプロセッサ１２１０を含み、さらに、画像プロセッサ１２１５及び／又はビデオプロセッサ１２２０を含むことができ、それらのいずれも同じ又は複数の異なる設計施設のモジュール式ＩＰコアとすることができる。集積回路１２００は、ＵＳＢコントローラ１２２５、ＵＡＲＴコントローラ１２３０、ＳＰＩ／ＳＤＩＯコントローラ１２３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１２４０を含む周辺機器又はバスロジックを含む。さらに、集積回路は、高解像度マルチメディアインターフェイス（ＨＤＭＩ（登録商標））コントローラ１２５０及びモバイル産業プロセッサインターフェイス（ＭＩＰＩ）表示インターフェイス１２５５のうちの１つ又は複数に結合された表示装置１２４５を含み得る。ストレージは、フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム１２６０によって提供してもよい。メモリインターフェイスは、メモリコントローラ１２６５を介してＳＤＲＡＭ又はＳＲＡＭメモリ装置にアクセスするために提供され得る。いくつかの集積回路は、埋込み型セキュリティエンジン１２７０をさらに含む。

図１３Ａ〜図１３Ｂは、本明細書で説明する実施形態による、ＳｏＣ内で使用するための例示的なグラフィックプロセッサを示すブロック図である。図１３Ａは、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るシステムオンチップ集積回路の例示的なグラフィックプロセッサ１３１０を示す。図１３Ｂは、一実施形態による、１つ又は複数のＩＰコアを用いて製造することができるシステムオンチップ集積回路の追加の例示的なグラフィックプロセッサ１３４０を示す。図１３Ａのグラフィックプロセッサ１３１０は、低電力グラフィックプロセッサコアの例である。図１３Ｂのグラフィックプロセッサ１３４０は、高性能グラフィックプロセッサコアの例である。グラフィックプロセッサ１３１０、１３４０のそれぞれは、図１２のグラフィックプロセッサ１２１０の変形であり得る。

図１３Ａに示されるように、グラフィックプロセッサ１３１０は、頂点プロセッサ１３０５及び１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎ（例えば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄから１３１５Ｎ−１、及び１３１５Ｎ）を含む。グラフィックプロセッサ１３１０は、個別のロジックを介して異なるシェーダープログラムを実行できるため、頂点プロセッサ１３０５は頂点シェーダープログラムの動作を行うように最適化される一方、１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎはフラグメント又はピクセルシェーダープログラムのフラグメント（例えば、ピクセル）シェーディング処理を行う。頂点プロセッサ１３０５は、３Ｄグラフィックパイプラインの頂点処理段階を実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、頂点プロセッサ１３０５によって生成されたプリミティブ及び頂点データを使用して、表示装置に表示されるフレームバッファを生成する。一実施形態では、フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、ＯｐｅｎＧＬＡＰＩで提供されるようなフラグメントシェーダープログラムを実行するように最適化され、これは、Ｄｉｒｅｃｔ３ＤＡＰＩで提供されるようなピクセルシェーダープログラムと同様の処理を行うために使用され得る。

グラフィックプロセッサ１３１０は、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路相互接続１３３０Ａ〜１３３０Ｂをさらに含む。１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、１つ又は複数のキャッシュ１３２５Ａ〜１３２５Ｂに格納された頂点又は画像／テクスチャデータに加えて、メモリに格納された頂点又は画像／テクスチャデータを参照することができる頂点プロセッサ１３０５及び／又はフラグメントプロセッサ１３１５Ａ〜１３１５Ｎを含む、グラフィックプロセッサ１３１０の仮想アドレスから物理アドレスへのマッピングを提供する。一実施形態では、１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、図１２の１つ又は複数のアプリケーションプロセッサ１２０５、画像プロセッサ１２１５、及び／又はビデオプロセッサ１２２０に関連する１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期することができ、それによって各プロセッサ１２０５〜１２２０は共有又は統合された仮想メモリシステムに参加できる。実施形態によれば、１つ又は複数の回路相互接続１３３０Ａ〜１３３０Ｂによって、グラフィックプロセッサ１３１０が、ＳｏＣの内部バスを介して又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェイス接続することが可能になる。

図１３Ｂに示されるように、グラフィックプロセッサ１３４０は、図１３Ａのグラフィックプロセッサ１３１０の１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路相互接続１３３０Ａ〜１３３０Ｂを含む。グラフィックプロセッサ１３４０は、１つ又は複数のシェーダーコア１３５５Ａ〜１３５５Ｎ（例えば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆから１３５５Ｎ−１、１３５５Ｎ）を含み、これは統合されたシェーダーコアアーキテクチャを提供し、このアーキテクチャでは、単一のコア又はタイプ又はコアが、頂点シェーダー、フラグメントシェーダー、及び／又は計算シェーダーを実装するシェーダープログラムコードを含む、全てのタイプのプログラム可能なシェーダーコードを実行できる。存在するシェーダーコアの正確な数は、実施形態及び実施態様によって異なり得る。さらに、グラフィックプロセッサ１３４０はコア間タスクマネージャー１３４５を含み、このマネージャー１３４５は１つ又は複数のシェーダーコア１３５５Ａ〜１３５５Ｎ及びタイリングユニット１３５８に実行スレッドをディスパッチするスレッドディスパッチャとして機能し、タイルベースのレンダリングのタイリング処理を加速させ、シーンのレンダリング処理は、例えば、シーン内のローカル空間コヒーレンスを活用する、又は内部キャッシュの使用を最適化するために、イメージ空間で細分化される。

機械学習の概要

機械学習アルゴリズムは、データのセットに基づいて学習することができるアルゴリズムである。機械学習アルゴリズムの実施形態は、データセット内の高レベルの抽象化をモデル化するように設計できる。例えば、画像認識アルゴリズムを使用して、いくつかのカテゴリのうちのどれに所与の入力が属するかを決定できる。回帰アルゴリズムは、入力が与えられた数値を出力できる。パターン認識アルゴリズムを使用して、変換されたテキストを生成する、又はテキストを音声に変換し及び／又は音声認識を実行することができる。

例示的なタイプの機械学習アルゴリズムは、ニューラルネットワークである。ニューラルネットワークには多くの種類があり、単純なタイプのニューラルネットワークはフィードフォワードネットワークである。フィードフォワードネットワークは、ノードが層に配置された非循環グラフとして実装できる。典型的に、フィードフォワードネットワークトポロジには、少なくとも１つの隠れ層によって分離された入力層及び出力層が含まれる。隠れ層は、入力層が受け取った入力を、出力層での出力を生成するのに役立つ表現に変換する。ネットワークノードは、エッジを介して隣接する層のノードに完全に接続されるが、各層内のノード同士の間にエッジはない。フィードフォワードネットワークの入力層のノードで受け取ったデータは、層を接続する各エッジにそれぞれ関連付けられた係数（重み）に基づいてネットワーク内の各連続層のノードの状態を計算する活性化関数を介して、出力層のノードに伝播（つまり、「フィードフォワード」）される。実行中のアルゴリズムによって表される特定のモデルに応じて、ニューラルネットワークアルゴリズムからの出力は様々な形式をとることができる。

機械学習アルゴリズムを使用して特定の問題をモデル化する前に、アルゴリズムは、訓練データセットを用いて訓練される。ニューラルネットワークの訓練には、ネットワークトポロジの選択、ネットワークによってモデル化されている問題を表す訓練データのセットの使用、及びネットワークモデルが訓練データセットの全てのインスタンスについて最小のエラーで実行されるまで重みを調整することが含まれる。例えば、ニューラルネットワークの教師ありの学習訓練プロセス中に、訓練データセット内のインスタンスを表す入力に応答してネットワークによって生成された出力は、そのインスタンスの「正しい」ラベル付き出力と比較され、出力とラベル付き出力との間の差を表すエラー信号が計算され、接続に関連付けられた重みが調整されて、エラー信号がネットワークの層を介して後方に伝播されるときにそのエラーを最小限に抑える。訓練データセットのインスタンスから生成された各出力のエラーが最小化されると、ネットワークは「訓練済み」と見なされる。

機械学習アルゴリズムの精度は、アルゴリズムを訓練するために使用されるデータセットの品質によって著しく影響を受ける可能性がある。訓練プロセスは大量の計算が必要になる場合があり、従来の汎用プロセッサではかなりの時間がかかる場合がある。従って、並列処理ハードウェアが、多くのタイプの機械学習アルゴリズムを訓練するために使用される。これは、ニューラルネットワークの係数を調整する際に実行される計算自体が自然に並列実装に役立つため、ニューラルネットワークの訓練を最適化するのに特に役立つ。具体的には、多くの機械学習アルゴリズム及びソフトウェアアプリケーションが、汎用グラフィック処理装置内の並列処理ハードウェアを利用するように適合されている。

図１４は、機械学習ソフトウェアスタック１４００の一般化された図である。機械学習アプリケーション１４０２は、訓練データセットを用いてニューラルネットワークを訓練するか、又は訓練済み深層ニューラルネットワークを使用して機械知能を実装するように構成され得る。機械学習アプリケーション１４０２は、ニューラルネットワーク及び／又は展開前にニューラルネットワークを訓練するために使用できる特殊なソフトウェアのための訓練及び推論機能を含むことができる。機械学習アプリケーション１４０２は、画像認識、マッピング及び位置特定、自律ナビゲーション、音声合成、医用画像処理、又は言語翻訳を含むがこれらに限定されない任意のタイプの機械知能を実装することができる。

機械学習アプリケーション１４０２のハードウェア加速化は、機械学習フレームワーク１４０４を介して有効にすることができる。機械学習フレームワーク１４０４は、機械学習プリミティブのライブラリを提供することができる。機械学習プリミティブは、機械学習アルゴリズムによって一般的に実行される基本的な演算である。機械学習フレームワーク１４０４がない場合に、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連付けられたメインの計算ロジックを作成して最適化し、次に、新しい並列プロセッサが開発された際に計算ロジックを再最適化する必要がある。代わりに、機械学習アプリケーションは、機械学習フレームワーク１４０４によって提供されるプリミティブを用いて必要な計算を行うように構成できる。例示的なプリミティブには、畳み込みニューラルネットワーク（ＣＮＮ）の訓練中に実行される計算処理であるテンソル畳み込み、活性化関数、及びプーリングが含まれる。機械学習フレームワーク１４０４は、行列及びベクトル演算等の多くの機械学習アルゴリズムによって実行される基本的な線形代数サブプログラムを実装するためのプリミティブを提供することもできる。

機械学習フレームワーク１４０４は、機械学習アプリケーション１４０２から受け取った入力データを処理し、計算フレームワーク１４０６への適切な入力を生成することができる。計算フレームワーク１４０６は、ＧＰＧＰＵドライバ１４０８に提供される基礎となる命令を抽象化して、機械学習フレームワーク１４０４がＧＰＧＰＵハードウェア１４１０のアーキテクチャを熟知している必要なしに、機械学習フレームワーク１４０４が、ＧＰＧＰＵハードウェア１４１０を介してハードウェア加速化を利用するのを可能にする。さらに、計算フレームワーク１４０６は、様々なタイプ及び世代のＧＰＧＰＵハードウェア１４１０に亘る機械学習フレームワーク１４０４のハードウェア加速化を有効にすることができる。

機械学習ニューラルネットワークの実装

本明細書で説明する実施形態によって提供されるコンピューティングアーキテクチャは、機械学習のためのニューラルネットワークの訓練及び展開に特に適したタイプの並列処理を行うように構成することができる。ニューラルネットワークは、グラフ関係を有する関数のネットワークとして一般化できる。当技術分野で知られているように、機械学習で使用される様々なタイプのニューラルネットワーク実装がある。ニューラルネットワークの１つの例示的なタイプは、前述したようなフィードフォワードネットワークである。

ニューラルネットワークの第２の例示的なタイプは、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、画像データ等、既知のグリッド状のトポロジを有するデータを処理するための特殊なフィードフォワードニューラルネットワークである。従って、ＣＮＮは、一般に視覚計算及び画像認識アプリケーションに使用されるが、音声及び言語処理等の他のタイプのパターン認識にも使用できる。ＣＮＮ入力層のノードは、「フィルター」のセット（網膜にある受容野から発想を得た特徴検出器）に編成され、フィルターの各セットの出力はネットワークの連続層のノードに伝播される。ＣＮＮの計算には、畳み込み数学演算を各フィルターに適用して、そのフィルターの出力を生成することが含まれる。畳み込みは、２つの関数によって実行される特殊な数学演算であり、２つの元の関数のうちの１つの修正バージョンである第３の関数を生成する。畳み込みネットワークの用語では、畳み込みの第１の関数は入力と呼ばれる一方、第２の関数は畳み込みカーネルと呼ばれる。出力は、特徴マップと呼ばれる場合がある。例えば、畳み込み層への入力は、入力画像の様々な色成分を規定するデータの多次元アレイにすることができる。畳み込みカーネルは、パラメータの多次元アレイにすることができ、パラメータは、ニューラルネットワークの訓練プロセスによって適応される。

再帰型ニューラルネットワーク（ＲＮＮ）は、層同士の間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリーである。ＲＮＮは、ニューラルネットワークの様々な部分に亘ってパラメータデータを共有することにより、シーケンシャルデータのモデリングを可能にする。ＲＮＮのアーキテクチャにはサイクルが含まれる。サイクルは、ＲＮＮからの出力データの少なくとも一部がシーケンス内の後続の入力を処理するためのフィードバックとして使用されるため、将来の時点での変数の現在値がそれ自体の値に及ぼす影響を表す。この特徴により、言語データを構成できる変数の性質により、ＲＮＮは言語処理に特に役立つ。

以下に説明する図は、例示的なフィードフォワード、ＣＮＮ、及びＲＮＮネットワークを提示するとともに、それらのタイプの各ネットワークをそれぞれ訓練及び展開するための一般的なプロセスを説明している。これらの説明は、本明細書で説明する特定の実施形態に関して例示的且つ非限定的であり、例示される概念は、深層ニューラルネットワーク及び機械学習技術に一般的に適用できることが理解されよう。

上記の例示的なニューラルネットワークを使用して、ディープラーニングを実行することができる。ディープラーニングは、深層ニューラルネットワークを用いた機械学習である。ディープラーニングで使用される深層ニューラルネットワークは、単一の隠れ層のみを含む浅いニューラルネットワークとは対照的に、複数の隠れ層で構成される人工ニューラルネットワークである。より深い（深層）ニューラルネットワークは、一般に、訓練するのにより多くの計算負荷がかかる。ただし、ネットワークの追加の隠れ層により、浅い機械学習手法に比べて出力エラーが減少する多段階パターン認識が可能になる。

ディープラーニングで使用される深層ニューラルネットワークは、典型的に、モデルに提供される特徴表現に基づいて、演算（例えば、オブジェクト分類、音声認識等）を行うことができる数学モデルを表すバックエンドネットワークに結合された特徴認識を実行するフロントエンドネットワークを含む。ディープラーニングにより、モデルに対して手動で作成された特徴エンジニアリングを実行する必要なく、機械学習を実行できる。代わりに、深層ニューラルネットワークは、入力データ内の統計構造又は相関に基づいて特徴を学習できる。学習した特徴は、検出した特徴を出力にマッピングできる数学モデルに提供できる。ネットワークで使用される数学的モデルは、通常、実行される特定のタスクに特化しており、様々なタスクを実行するために様々なモデルが使用される。

ニューラルネットワークが構築されると、学習モデルをネットワークに適用して、特定のタスクを実行するようにネットワークを訓練することができる。学習モデルは、ネットワークの出力エラーを減らすためにモデル内の重みをどの様に調整するかを記述する。エラーの逆伝播は、ニューラルネットワークの訓練に使用される一般的な方法である。入力ベクトルが、処理のためにネットワークに提示される。ネットワークの出力は、損失関数を用いて目的の出力と比較され、エラー値が出力層のニューロン毎に計算される。次に、エラー値は、各ニューロンが元の出力への寄与を大まかに表す関連エラー値を有するまで、逆方向に伝播される。次に、ネットワークは、確率的勾配降下アルゴリズム等のアルゴリズムを用いてこれらのエラーから学習し、ニューラルネットワークの重みを更新できる。

図１５Ａ〜図１５Ｂは、例示的な畳み込みニューラルネットワークを示す。図１５Ａは、ＣＮＮ内の様々な層を示す。図１５Ａに示されるように、画像処理をモデル化するために使用される例示的なＣＮＮは、入力画像の赤、緑、及び青（ＲＧＢ）成分を表す入力１５０２を受け取ることができる。入力１５０２は、複数の畳み込み層（例えば、第１の畳み込み層１５０４、第２の畳み込み層１５０６）によって処理することができる。複数の畳み込み層からの出力は、オプションで、完全に接続された層のセット１５０８によって処理される。完全に接続された層のニューロンは、フィードフォワードネットワークに関して前述したように、前の層の全てのアクティブ化に完全に接続する。完全に接続された層１５０８からの出力を使用して、ネットワークから出力結果を生成することができる。完全に接続された層１５０８内のアクティブ化は、畳み込みの代わりに行列乗算を用いて計算することができる。全てのＣＮＮ実装が完全に接続された層１５０８を利用するわけではない。例えば、いくつかの実施態様では、第２の畳み込み層１５０６はＣＮＮの出力を生成できる。

畳み込み層はまばらに接続されており、これは、完全に接続された層１５０８に見られる従来のニューラルネットワーク構成とは異なる。従来のニューラルネットワーク層は完全に接続されており、それによって全ての出力ユニットが全ての入力ユニットと相互作用する。ただし、図示のように、フィールドの畳み込みの出力が（フィールド内の各ノードの各状態値ではなく）後続の層のノードに入力されるため、畳み込み層はまばらに接続される。畳み込み層に関連付けられたカーネルは、畳み込み演算を行い、その出力は次の層に送られる。畳み込み層内で実行される次元削減は、ＣＮＮが大きな画像を処理するようにスケーリングできるようにする１つの態様である。

図１５Ｂは、ＣＮＮの畳み込み層内の例示的な計算段階を示す。ＣＮＮの畳み込み層１５１２への入力は、畳み込み層１５１４の３つの段階で処理することができる。３つの段階には、畳み込み段階１５１６、検出器段階１５１８、及びプーリング段階１５２０が含まれ得る。次に、畳み込み層１５１４は、連続する畳み込み層にデータを出力することができる。ネットワークの最後の畳み込み層は、出力特徴マップデータを生成するか、又は完全に接続された層に入力を提供して、例えばＣＮＮへの入力の分類値を生成できる。

畳み込み段階１５１６では、いくつかの畳み込みを並行して実行して、線形活性化のセットが生成される。畳み込み段階１５１６は、線形変換プラス並進として指定できる任意の変換であるアフィン変換を含むことができる。アフィン変換には、回転、並進、スケーリング、及びこれらの変換の組合せが含まれる。畳み込み段階は、入力の特定の領域に接続されている関数（ニューロン等）の出力を計算し、その領域は、ニューロンに関連付けられたローカル領域として決定できる。ニューロンは、ニューロンの重みと、ニューロンが接続されているローカル入力の領域との間のドット積を計算する。畳み込み段階１５１６からの出力は、畳み込み層１５１４の連続する段階によって処理される線形活性化のセットを規定する。

線形活性化は、検出器段階１５１８によって処理することができる。検出器段階１５１８では、各線形活性化は、非線形活性化関数によって処理される。非線形活性化関数は、畳み込み層の受容野に影響を与えることなく、ネットワーク全体の非線形特性を向上させる。いくつかのタイプの非線形活性化関数を使用できる。１つの特定のタイプは正規化線形ユニット（ＲｅＬＵ）であり、これはｆ（ｘ）＝ｍａｘ（０，ｘ）として規定された活性化関数を使用して、活性化のしきい値がゼロになる。

プーリング段階１５２０は、第２の畳み込み層１５０６の出力を近くの出力の要約統計量で置き換えるプーリング関数を使用する。プーリング関数を使用して、並進不変性をニューラルネットワークに導入することができ、それによって入力への小さな並進は、プーリングされた出力を変更しない。ローカル並進への不変性は、入力データ内の特徴の存在が特徴の正確な位置よりも重要であるシナリオで役立ち得る。プーリング段階１５２０中に、最大プーリング、平均プーリング、ｌ２ノルムプーリング等、様々なタイプのプーリング関数を使用できる。さらに、いくつかのＣＮＮ実装にはプーリング段階が含まれていない。代わりに、そのような実装は、以前の畳み込み段階と比較してストライドが増大した、追加の畳み込み段階に置き換えられる。

次に、畳み込み層１５１４からの出力は、次の層１５２２によって処理され得る。次の層１５２２は、追加の畳み込み層又は完全に接続された層１５０８のうちの１つであり得る。例えば、図１５Ａの第１の畳み込み層１５０４は、第２の畳み込み層に出力することができる一方、第２の畳み込み層は、完全に接続された層１５０８のうちの第１の層に出力することができる。

図１６は、例示的な再帰型ニューラルネットワークを示す。再帰型ニューラルネットワーク（ＲＮＮ）では、ネットワークの以前の状態が、ネットワークの現在の状態の出力に影響を与える。ＲＮＮは、様々な関数を用いて様々な方法で構築できる。ＲＮＮの使用は、通常、数学モデルを使用して、以前の入力シーケンスに基づいて将来を予測することを中心に展開する。例えば、ＲＮＮを使用して統計的言語モデリングを実行し、以前の一連の単語が与えられた場合、次の単語を予測できる。図示されたＲＮＮ１６００は、入力ベクトルを受け取る入力層１６０２、再帰関数を実装するための隠れ層１６０４、前の状態の「メモリ」を可能にするためのフィードバック機構１６０５、及び結果を出力するための出力層１６０６を有するものとして説明することができる。ＲＮＮ１６００は時間ステップに基づいて動作する。所与の時間ステップでのＲＮＮの状態は、フィードバック機構１６０５を介して以前の時間ステップに基づいて影響を受ける。所与の時間ステップでは、隠れ層１６０４の状態は、以前の状態と現在の時間ステップの入力とによって規定される。第１の時間ステップにおける初期入力（ｘ_１）は、隠れ層１６０４によって処理できる。第２の入力（ｘ_２）は、初期入力（ｘ_１）の処理中に決定された状態情報を用いて、隠れ層１６０４によって処理できる。所与の状態は、ｓ_ｔ＝ｆ（Ｕｘ_ｔ＋Ｗｓ_ｔ−１）として計算でき、ここで、Ｕ及びＷはパラメータ行列である。関数ｆは一般に、双曲線正接関数（Ｔａｎｈ）又は正規化線形関数ｆ（ｘ）＝ｍａｘ（０，ｘ）の変形等の非線形性である。ただし、隠れ層１６０４で使用される特定の数学関数は、ＲＮＮ１６００の特定の実装の詳細に応じて異なり得る。

説明した基本的なＣＮＮ及びＲＮＮネットワークに加えて、これらのネットワークのバリエーションを有効にすることができる。ＲＮＮの変形の１つの例は、長・短期記憶（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、より長い言語シーケンスを処理するために必要となり得る長期依存関係を学習できる。ＣＮＮの変形は、ＣＮＮに似た構造を有しており、且つ深層信念ネットワークと同様の方法で訓練される畳み込み深層信念ネットワークである。深層信念ネットワーク（ＤＢＮ）は、確率（ランダム）変数の複数の層で構成される生成ニューラルネットワークである。ＤＢＮは、貪欲な（greedy）教師なし学習を用いて、層毎に訓練できる。次に、ＤＢＮの学習した重みを使用して、ニューラルネットワークの重みの最適な初期セットを決定することにより、訓練前のニューラルネットワークを提供できる。

図１７は、深層ニューラルネットワークの訓練及び展開を示す。所与のネットワークがタスクのために構築されると、ニューラルネットワークは訓練データセット１７０２を用いて訓練される。訓練プロセスのハードウェア加速化を可能にするために、様々な訓練フレームワークが開発されている。例えば、図１４の機械学習フレームワーク１４０４は、訓練フレームワーク１７０４として構成され得る。訓練フレームワーク１７０４は、未訓練状態のニューラルネットワーク１７０６に接続し（hook into）、本明細書で説明する並列処理リソースを用いて未訓練状態のニューラルネットを訓練して、訓練済みニューラルネットワーク１７０８を生成するのを可能にし得る。訓練プロセスを開始するために、初期重みは、ランダムに、又は深層信念ネットワークを用いて事前訓練することによって選択され得る。次に、訓練サイクルは、教師あり又は教師なしの方法のいずれかで実行される。

教師あり学習は、訓練データセット１７０２が入力に対する所望の出力と対になっている入力を含む場合、又は訓練データセットが既知の出力を有する入力を含み且つニューラルネットワークの出力が手動で等級付けされる場合等に、訓練が媒介（mediated）操作として実行される学習方法である。ネットワークは入力を処理し、得られた出力を一組の予期される出力又は望ましい出力と比較する。次に、エラーはシステムを通じて逆伝播される。訓練フレームワーク１７０４は、未訓練状態のニューラルネットワーク１７０６を制御する重みを調節するように調整することができる。訓練フレームワーク１７０４は、未訓練状態のニューラルネットワーク１７０６が既知の入力データに基づいて正解を生成するのに適したモデルに向けてどれだけ十分に収束しているかを監視するツールを提供することができる。ニューラルネットワークによって生成された出力を微調整するためにネットワークの重みが調整されると、訓練プロセスが繰り返し発生する。ニューラルネットワークが、訓練済みニューラルネットワーク１７０８に関連する統計的に望ましい精度に達するまで、訓練プロセスを続けることができる。次に、訓練済みニューラルネットワーク１７０８を展開して、任意の数の機械学習動作を実施し、新しいデータ１７１２の入力に基づいて推論結果１７１４を生成できる。

教師なし学習は、ネットワークがラベル付けされていないデータを用いてそれ自体を訓練しようと試みる学習方法である。こうして、教師なし学習の場合に、訓練データセット１７０２には、関連する出力データのない入力データが含まれる。未訓練状態のニューラルネットワーク１７０６は、ラベル付けされていない入力内のグループを学習し、個々の入力がデータセット全体にどのように関連付けられているかを判断できる。教師なし訓練を使用して、自己組織化マップを生成でき、自己組織化マップは、データの次元数を減らすのに役立つ処理を行うことができる一種の訓練済みニューラルネットワーク１７０８である。教師なし訓練を使用して異常検出を行うこともでき、これにより、データの通常のパターンから逸脱した入力データセット内のデータポイントを特定できる。

教師あり及び教師なし訓練のバリエーションも使用され得る。半教師あり学習は、訓練データセット１７０２に、同じ分布のラベル付きデータとラベルなしデータの混合が含まれる手法である。インクリメンタル式（incremental）学習は、入力データを継続的に使用して、モデルをさらに訓練する教師あり学習の変形である。インクリメンタル式学習によって、訓練済みニューラルネットワーク１７０８が、初期訓練中にネットワーク内に注ぎ込まれた知識を忘れることなく、新しいデータ１７１２に適応することが可能になる。

教師ありか教師なしかにかかわらず、特に深層ニューラルネットワークの訓練プロセスは、単一の計算ノードにとって過度の計算負荷かかる可能性がある。単一の計算ノードを用いる代わりに、計算ノードの分散ネットワークを使用して、訓練プロセスを加速できる。

図１８は、分散学習を示すブロック図である。分散学習は、複数の分散計算ノードを使用して、ニューラルネットワークの教師あり又は教師なし訓練を行う訓練モデルである。分散計算ノードはそれぞれ、１つ又は複数のホストプロセッサと１つ又は複数の汎用処理ノードとを含むことができる。図示のように、分散学習は、モデルの並列処理１８０２、データの並列処理１８０４、並びにモデル及びデータの並列処理１８０６の組合せを行うことができる。

モデルの並列処理１８０２では、分散システム内の異なる計算ノードが、単一のネットワークの異なる部分に対して訓練計算を行うことができる。例えば、ニューラルネットワークの各層は、分散システムの異なる処理ノードによって訓練できる。モデルの並列処理の利点は、特に大きなモデルに拡張できることである。ニューラルネットワークの異なる層に関連付けられている計算を分割することにより、全ての層の重みが単一の計算ノードのメモリに収まらない非常に大規模なニューラルネットワークの訓練が可能になる。場合によっては、モデルの並列処理は、大規模なニューラルネットワークの教師なし訓練を行う際に特に役立ち得る。

データの並列処理１８０４では、分散ネットワークの異なるノードにはモデルの完全なインスタンスがあり、各ノードはデータの異なる部分を受け取る。次に、異なるノードからの結果が結合される。データの並列処理には様々なアプローチが可能であるが、データの並列訓練アプローチでは全て、結果を組み合わせて、各ノードの間でモデルパラメータを同期させる手法が必要である。結合（組み合わされた）データへの例示的なアプローチには、パラメータの平均化と更新ベースのデータの並列処理とが含まれる。パラメータの平均化は、訓練データのサブセットで各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードからのパラメータの平均に設定する。パラメータの平均化では、パラメータデータを維持する中央パラメータサーバを使用する。更新ベースのデータの並列処理は、ノードからパラメータサーバにパラメータを転送する代わりに、モデルへの更新が転送されることを除いて、パラメータの平均化と似ている。さらに、更新ベースのデータの並列処理は、更新がノード同士の間で圧縮及び転送される非中央化方式で実行できる。

組み合わされたモデル及びデータの並列処理１８０６は、例えば、各計算ノードが複数のＧＰＵを含む分散システムで実装することができる。各ノードにはモデルの完全なインスタンスがあり得、各ノード内の個別のＧＰＵはモデルの異なる部分を訓練するために使用される。

分散訓練は、単一のマシンでの訓練と比較してオーバーヘッドが増大する。ただし、本明細書で説明する並列プロセッサ及びＧＰＧＰＵはそれぞれ、高帯域幅のＧＰＵからＧＰＵへのデータ転送及び高速リモートデータ同期を可能にする手法を含む、分散訓練のオーバーヘッドを減らす様々な手法を実装できる。

例示的な機械学習アプリケーション

機械学習は、コンピュータビジョン、自動運転及びナビゲーション、音声認識、及び言語処理を含むがこれらに限定されない様々な技術的問題を解決するために適用することができる。コンピュータビジョンは、従来、機械学習アプリケーションの最も活発な研究分野のうちの１つであった。コンピュータビジョンの用途は、顔の認識等の人間の視覚能力の再現から、視覚能力の新しいカテゴリの作成まで多岐にわたる。例えば、コンピュータビジョンの用途は、ビデオに表示されているオブジェクトに発生する振動からの音波を認識するように構成できる。並列プロセッサの加速化機械学習により、以前に可能であったよりも著しく大規模の訓練データセットを用いてコンピュータビジョンのアプリケーションを訓練でき、低電力並列プロセッサを用いて推論システムを展開できる。

並列プロセッサの加速化機械学習には、車線及び道路標識認識、障害物回避、ナビゲーション、及び運転制御を含む自律運転アプリケーションがある。加速化機械学習手法を使用して、特定の訓練入力に対する適切な応答を規定するデータセットに基づいて運転モデルを訓練できる。本明細書で説明する並列プロセッサにより、自律運転ソリューションに使用される益々複雑になるニューラルネットワークの迅速な訓練が可能になり、自律型車両への統合に適したモバイルプラットフォームでの低電力推論プロセッサの展開が可能になる。

並列プロセッサ加速化深層ニューラルネットワークは、自動音声認識（ＡＳＲ）への機械学習アプローチを可能にした。ＡＳＲには、入力音響シーケンスが与えられたときに最も可能性の高い言語シーケンスを計算する関数の作成が含まれる。深層ニューラルネットワークを用いた加速化機械学習により、以前はＡＳＲに使用していた隠れマルコフモデル（ＨＭＭ）及びガウス混合モデル（ＧＭＭ）の置き換えが可能になった。

並列プロセッサ加速化機械学習を使用して、自然言語処理を加速させることもできる。自動学習手順では、統計的推論アルゴリズムを利用して、誤った入力又は見慣れない入力に対してロバストなモデルを生成できる。例示的な自然言語プロセッサプリケーションには、人間の言語同士の間の自動機械翻訳が含まれる。

機械学習に使用される並列処理プラットフォームは、訓練プラットフォームと展開プラットフォームとに分けることができる。訓練プラットフォームは、一般的に高度に並列化されており、マルチＧＰＵシングルノード訓練とマルチノード、マルチＧＰＵ訓練とを加速させるための最適化が含まれるが、展開された機械学習（推論等）プラットフォームには、一般に、カメラ、自律ロボット、及び自律車両等の製品で使用するのに適した低電力並列プロセッサが含まれる。

マトリックスアクセラレーションロジックを含むＧＰＧＰＵ

図１９は、一実施形態によるデータ処理システム１９００のブロック図である。データ処理システム１９００は、プロセッサ１９０２、統合メモリ１９１０、及び機械学習加速論理を含むＧＰＧＰＵ１９２０を有する異種処理システムである。プロセッサ１９０２及びＧＰＧＰＵ１９２０は、本明細書で説明するようなプロセッサ及びＧＰＧＰＵ／並列プロセッサのいずれであってもよい。プロセッサ１９０２は、システムメモリ１９１２に格納されたコンパイラ１９１５のための命令を実行することができる。コンパイラ１９１５は、プロセッサ１９０２上で実行され、ソースコード１９１４Ａをコンパイル済みコード１９１４Ｂにコンパイルする。コンパイル済みコード１９１４Ｂは、プロセッサ１９０２によって実行され得る命令及び／又はＧＰＧＰＵ１９２０によって実行され得る命令を含むことができる。コンパイル中に、コンパイラ１９１５は、コンパイル済みコード１９１４Ｂに存在するデータの並列処理のレベルに関するヒント及び／又はコンパイル済みコード１９１４Ｂに基づいてディスパッチされるスレッドに関連するデータの局所性に関するヒントを含むメタデータを挿入するための処理を行い得る。コンパイラ１９１５は、そのような処理を行うために必要な情報を含むことができ、又は処理は、ランタイムライブラリ１９１６の助けを借りて行うことができる。ランタイムライブラリ１９１６は、ソースコード１９１４Ａのコンパイルでコンパイラ１９１５も支援し、ＧＰＧＰＵ１９２０でコンパイル済み命令の実行を容易にするために、コンパイル済みコード１９１４Ｂと実行時にリンクされる命令を含むこともできる。

統合メモリ１９１０は、プロセッサ１９０２及びＧＰＧＰＵ１９２０によってアクセスされ得る統合アドレス空間を表す。統合メモリは、システムメモリ１９１２だけでなくＧＰＧＰＵメモリ１９１８を含み得る。ＧＰＧＰＵメモリ１９１８は、ＧＰＧＰＵ１９２０のアドレス空間内のメモリであり、システムメモリ１９１２の一部又は全てを含むことができる。一実施形態では、ＧＰＧＰＵメモリ１９１８は、ＧＰＧＰＵ１９２０によって独占的に使用するために専用化された任意のメモリの少なくとも一部を含むこともできる。一実施形態では、システムメモリ１９１２に格納されたコンパイル済みコード１９１４Ｂは、ＧＰＧＰＵ１９２０によるアクセスのためにＧＰＧＰＵメモリ１９１８にマッピングすることができる。

ＧＰＧＰＵ１９２０は、複数の計算ブロック１９２４Ａ〜１９２４Ｎを含み、これらは、本明細書で説明する様々な計算ユニット又は実行要素のうちの１つ又は複数を含むことができる。一実施形態では、ＧＰＧＰＵ１９２０は、行列演算（例えば、ドット積、乗算／加算等）のサブセットを加速させるように設計された１つ又は複数の特殊関数計算ユニットを含むことができる行列アクセラレータ１９２３をさらに含む。ＧＰＧＰＵ１９２０は、レジスタのセット１９２５、電力及び性能モジュール１９２６、及びキャッシュ１９２７を含むがこれらに限定されない、計算ブロック１９２４Ａ〜１９２４Ｎ及び行列アクセラレータ１９２３によって共有され得るリソースのセットも含み得る。一実施形態では、レジスタ１９２５は、直接的及び間接的にアクセス可能なレジスタを含み、間接的にアクセス可能なレジスタは、行列アクセラレータ１９２３による使用のために最適化される。電力及び性能モジュール１９２６は、計算ブロック１９２４Ａ〜１９２４Ｎが、計算ブロック１９２４Ａ〜１９２４Ｎ内のゲートアイドル状態のコンポーネントに電力を供給するための電力供給及びクロック周波数を調整するように構成され得る。様々な実施形態では、キャッシュ１９２７は、命令キャッシュ及び／又はより低いレベルのデータキャッシュを含むことができる。

ＧＰＧＰＵ１９２０は、Ｌ３データキャッシュ１９３０をさらに含むことができ、Ｌ３データキャッシュ１９３０を使用して、行列アクセラレータ１９２３及び／又は計算ブロック１９２４Ａ〜１９２４Ｎ内の計算要素によって統合メモリ１９１０からアクセスされるデータをキャッシュすることができる。一実施形態では、Ｌ３データキャッシュ１９３０は、計算ブロック１９２４Ａ〜１９２４Ｎ及び行列アクセラレータ１９２３内の計算要素によって共有できる共有ローカルメモリ１９３２を含む。

一実施形態では、ＧＰＧＰＵ１９２０は、フェッチ及びデコードユニット１９２１並びにスケジューラコントローラ１９２２等の命令処理ロジックを含む。フェッチ及びデコードユニット１９２１は、計算ブロック１９２４Ａ〜１９２４Ｎ又は行列アクセラレータ１９２３の１つ又は複数により実行される命令をフェッチ及びデコードするフェッチユニット及びデコードユニットを含む。命令は、スケジューラコントローラ１９２２を介して、計算ブロック１９２４Ａ〜１９２４Ｎ又は行列アクセラレータ内の適切な機能ユニットにスケジュールすることができる。一実施形態では、スケジューラコントローラ１９２２は、高度なスケジューリング処理を行うように構成可能なＡＳＩＣである。一実施形態では、スケジューラコントローラ１９２２は、ファームウェアモジュールからロードされたスケジューラ命令を実行することができるマイクロコントローラ又は命令当たりの低エネルギー処理コアである。

一実施形態では、計算ブロック１９２４Ａ〜１９２４Ｎによって実行されるいくつかの関数は、行列アクセラレータ１９２３に直接スケジュールされるか、又はオフロードすることができる。様々な実施形態では、行列アクセラレータ１９２３は、３Ｄグラフィック又は計算シェーダープログラムで使用される乗算及び加算演算やドット積演算等の、行列計算処理を効率的に行うように構成された処理要素ロジックを含む。一実施形態では、行列アクセラレータ１９２３は、機械学習フレームワークによって使用される処理を加速させるように構成することができる。一実施形態では、行列アクセラレータ１９２３は、特定のセットの並列行列乗算及び／又は加算演算を行うように明示的に構成された特定用途向け集積回路である。一実施形態では、行列アクセラレータ１９２３は、ワークロード同士の間で更新できる固定機能ロジックを提供するフィールドプログラマブルゲートアレイ（ＦＰＧＡ）である。行列アクセラレータ１９２３によって実行することができる行列演算のセットは、計算ブロック１９２４Ａ〜１９２４Ｎによって実行することができる演算に対して制限されることがある。しかしながら、行列アクセラレータ１９２３は、計算ブロック１９２４Ａ〜１９２４Ｎと比較して著しく高いスループットでこれらの演算を行うことができ得る。

ＧＥＭＭの演算例

グラフィック、ベクトル、及び並列プロセッサは、一般的に、一般行列乗算（ＧＥＭＭ）演算を加速させる１つ又は複数の命令を含む。Ｍ×Ｋ行列及びＫ×Ｎ行列で行列乗算を行って、Ｍ×Ｎ行列を生成できる。大きな行列の乗算は、大きな行列をブロックに分割することで行うことができ、ブロックは、大きな行列の長方形の部分である。次に、ブロックを処理リソースにフェッチして処理できる。一実施形態では、本明細書で説明するような実行ユニット、グラフィックコア、又は計算ユニット等のマルチスレッド処理リソースは、ハードウェアスレッドにタスクを割り当てて、ブロックの各セットを処理し、出力行列に格納すべき出力を生成することができる。各スレッドは、Ｋ次元に沿って行列をトラバースし、積の出力を累積できる。処理リソース内のレジスタの可用性に基づいて、単一のスレッド内で複数のブロックを処理できる。

図２０は、ソース（source）行列及びデスティネーション（destination）行列に対する一般行列乗算演算を示す。Ｍ×Ｋ行列（Ａ行列２００２）にＫ×Ｎ行列（Ｂ行列２００４）を乗算して、Ｍ×Ｎ出力行列（Ｃ行列２００６）が生成される単精度ＧＥＭＭ演算（例えば、ＳＧＥＭＭ）が示されている。図示された行列は、より大きな行列のブロックであり得る。ブロックのサイズは、機械のＳＩＭＤ幅（例えば、ｓｉｍｄ幅×ｓｉｍｄ幅）によって異なり得る。例えば、ＳＩＭＤ８処理要素では、Ａ、Ｂ、Ｃは、行列要素の８×８ブロックとすることができる。一実施形態では、Ａ行列２００２は処理要素の共有ローカルメモリに格納される一方、Ｂ行列２００４はＬ３キャッシュに格納され、Ｃ行列２００６は処理リソースの汎用レジスタファイル内のレジスタに格納されるが、他の実施形態は異なる構成にしてもよい。行列の要素のための例示的なレジスタ（例えば、ｒｘｘ）及びチャネル（例えば、０〜７）が示されている。演算中に、行列要素は、示されたソースからフェッチされ、行列の要素の図示されたレジスタ及びチャネルに格納され得る。一実施形態では、ｍａｄｖ命令は、＜ｓｒｃ１＞データ（Ｂ行列）に存在するいかなるスパース性を利用することなく、＜ｓｒｃ２＞データ（Ａ行列）上のスパース性を処理する。そのような実施形態では、＜ｓｒｃ２＞（例えば、行列）がまばら（疎）な入力に使用される。

一実施形態では、ＳＧＥＭＭ演算は、表１に示されるフォーマットを有する命令を介して実装することができる。
表１グラフィックプロセッサの命令フォーマット

表１の命令フォーマットは、図７に示される命令フォーマット７１０、７３０のバージョンである。表１の命令フォーマットの場合に、＜ｏｐｃｏｄｅ＞は実行する演算を規定し、＜ｄｓｔ＞は演算によって生成された結果を格納するオペランドであり、＜ｓｒｃ０＞、＜ｓｒｃ１＞、及び＜ｓｒｃ２＞は３つのソースオペランドである。オプションで２つの修飾子（＜ｐｒｅｄ＞、＜ｃｍｏｄ＞）を使用できる。＜ｐｒｅｄ＞は、フラグレジスタ（ｆ０．０）をビットマスクとして使用して特定のチャネルをマスクオフ（off）する述語であり、書き込み＜ｄｓｔ＞及び＜ｃｍｏｄ＞は、ｃｍｐ（比較）命令で一般的に使用され、ソースオペランドから生成された比較結果に基づいてフラグレジスタにビットマスクを生成する。例えば、＜ｓｒｃ０＞及び＜ｓｒｃ１＞の各チャネルが等しくない場合に、命令ｃｍｐ（ｎｅ）ｆ０．０は、フラグレジスタ（ｆ０．０）にビットを設定する。

ＳＧＥＭＭ演算の一部の命令シーケンスを表２に示す。
表２ｋ＝０の場合のＳＧＥＭＭ演算シーケンス

表２は、図２０の行列に対して演算を行うための例示的な命令シーケンスを示し、ここで、ｋ＝０である。同様のシーケンスがｋ＝１〜７まで繰り返される。より高いループが、Ａ行列及びＢ行列から次の要素のセットをロードし、さらに汎用レジスタファイルに格納されている同じＣ行列に累積させる。示されるｍａｄｏｐｃｏｄｅは、演算＜ｄｓｔ＞＝＜ｓｒｃ０＞＋＜ｓｒｃ１＞＊＜ｓｒｃ２＞を実行する。各オペランドは、レジスタアドレス、領域指定オプション、及びデータ型で構成される。第１の命令（ｌｉｎｅ００）は、ＳＩＭＤワイドレジスタｒ１０と、レジスタｒ７６．０のブロードキャストされたＳＩＭＤチャネルとの乗算を行う。結果はＳＩＭＤワイドレジスタｒ３４に追加される。＜ｄｓｔ＞の場合、例えばｒ３４．０＜１＞：ｆの場合に、ｒ３４はレジスタアドレス（ｒｅｇｎｕｍ）であり、．０はデータ型の単位でのレジスタ内のオフセット（ｓｕｂｒｅｇｎｕｍ）であり、＜１＞は書き込みのパックストライド（packed stride）を示す領域指定オプションであり、及び：fはｆｌｏａｔデータ型を示す。＜ｓｒｃ０＞又は＜ｓｒｃ１＞の場合、例えば、ｒ１０．０＜１，０＞：ｆの場合に、ｒ１０はレジスタアドレス（ｒｅｇｎｕｍ）であり、．０はデータ型の単位でのレジスタ内のオフセット（ｓｕｂｒｅｇｎｕｍ）であり、＜１，０＞は読み取りのパックストライドを示す領域指定オプションであり、及び：ｆはデータ型を示す。＜ｓｒｃ２＞の場合、例えばｒ７６．０＜０＞：ｆの場合に、ｒ７６はレジスタアドレス（ｒｅｇｎｕｍ）であり、．０はデータ型の単位でのレジスタ内のオフセット（ｓｕｂｒｅｇｎｕｍ）であり、＜０＞は読み取りの単一のＳＩＭＤチャネルのブロードキャストを示す領域指定オプションであり、及び：ｆはｆｌｏａｔデータ型を示す。ｌｉｎｅ０１〜０７の命令は同様の演算を行い、ｒ７６の異なるＳＩＭＤチャネルに亘って進行し、結果を連続したレジスタ（例えば、ｒ７７、ｒ７８）に累積する。

乗算加算ベクトル命令

表２の命令シーケンスの解析は、ＳＧＥＭＭ演算に使用される８個のｍａｄ命令に亘って、＜ｓｒｃ１＞及び＜ｓｒｃ２＞オペランドレジスタアドレスは同じであるが、＜ｓｒｃ０＞及び＜ｄｓｔ＞オペランドは順次インクリメントすることを示す。また、＜ｓｒｃ０＞及び＜ｄｓｔ＞は特定のｍａｄ命令で同じなので、同じレジスタで累積が行われる。この解析の結果を利用して、フォーマット：＜ｐｒｅｄ＞ｍａｄｖ．ｒｃｏｕｎｔ＜ｄｓｔ＞＜ｓｒｃ０＞＜ｓｒｃ１＞＜ｓｒｃ２＞を有するハードウェア実装の乗算加算ベクトル（ｍａｄｖ）命令をサポートするグラフィック処理リソースを有効にすることができる。

図２１Ａ〜図２１Ｃは、スパース入力に対してゼロスキップを伴う乗算加算ベクトル演算を可能にするための命令及び関連するハードウェアロジックを示す。図２１Ａは、乗算加算ベクトル命令２１００のフォーマットを示す。図２１Ｂは、算加算ベクトル命令２１００のデコードを可能にするハードウェアロジック２１１０を示す。図２１Ｃは、本明細書で説明する乗算／加算／ベクトル命令２１００のデコード及び実行を可能にするように構成される実行ロジック２１２０を示す。

図２１Ａに示されるように、一実施形態は、乗算加算ベクトル命令（ｍａｄｖ命令２１００）が１つ又は複数の入力ベクトルに対して自動ゼロスキップを伴う一連の乗算加算命令を実行するハードウェアサポートを提供する。ｍａｄｖ命令２１００のフォーマットには、述語（ｐｒｅｄ２１０２）、繰返し回数２１０４（ｍａｄｖ．ｒｃｏｕｎｔ）が追加された命令オペコード、デスティネーションオペランド（ｄｓｔ２１０６）、及び複数のソースオペランド（ｓｒｃ０２１０７，ｓｒｃ１２１０８，ｓｒｃ２２１０９）が含まれる。一実施形態では、述語値はフラグレジスタに基づいて決定され、述語マスクのビットは、チャネルのアレイではなく、個々のｍａｄ命令のアレイに対して述語を適用する。従って、述語マスクを使用して、ｍａｄｖ命令２１００によって表される命令のセット内の特定の命令の生成を有効又は無効にすることができる。

一実施形態では、ｍａｄｖ命令２１００は、デコード中に複数の追加の命令に展開されるハードウェアマクロ命令として実装される。そのような実施形態では、繰返し回数２１０４の値は、実行リソース内で一度に展開される命令の数を示す。例えば、以下の表３に示すｍａｄｖ．８命令は、実行リソース内で表２に示されるＳＧＥＭＭ命令シーケンスに展開できる。
表３乗算加算ベクトル命令の例

上記の表３の命令の場合に、繰返し回数２１０４は８回である。供給されたオペランドは、展開命令のセットの第１の命令の初期オペランドを表す。後続の命令のオペランドは、展開中に生成される。オペランド展開では、＜ｄｓｔ＞２１０６及び＜ｓｒｃ０＞２１０７の連続するレジスタと、＜ｓｒｃ２＞２１０９の連続するサブレジスタとのブロックを、繰返し回数２１０４の値に基づいて決定される連続するレジスタ／サブレジスタの数と共に使用する。フラグレジスタの値に基づいて、例えば、スパース入力に対してゼロスキップが実行される場合等に、命令セット内の特定の命令の展開をバイパスできる。

図２１Ｂに示されるように、一実施形態では、ｍａｄｖ命令のデコード中に命令展開が実行されるが、他の実装手法が、命令実行パイプラインの実行段階による命令の直接実行等によって、他の実施形態で使用され得る。一実施形態では、処理リソース内の命令デコードロジック２１１０は、従来の命令デコードロジックに加えて、カウンタ／状態機械２１１１、優先順位エンコーダ２１１２、命令生成器２１１３、及びオペランド生成器２１１４を含むことができる。カウンタ／状態機械２１１１は、ｍａｄｖ命令の展開中に使用するためのカウンタ値及びデコード状態を格納する。優先順位エンコード２１１２は、述語をスキャンして、生成すべき第１のｍａｄ命令を示す第１のアクティブ化されたビットを決定するために使用される。

提案するｍａｄｖ命令は、ＡＬＵパイプのデコード段階にカウンタ／状態機械を追加し、ｍａｄ命令のシーケンスを生成することにより、実行ユニットに実装することができる。優先順位エンコーダ２１１２は、述語マスクをスキャンして、最初に設定されたビットを見つける。Ｍａｄ命令は、その命令の対応するビットが述語ビットフィールドに設定されている場合に、命令生成器２１１３によって生成される。次に、オペランド生成器２１１４は、初期オペランドレジスタ及びサブレジスタ値、並びに述語マスク内に設定されたビット位置に基づいて、対応するオペランド値を生成する。ｍａｄｖ命令の実行は、以下の表４の疑似コード（pseudocode）に示すように実行できる。

オペランド生成器２１１４は、表４の擬似コードに示されるのと同様の方法で、オペランドのｒｅｇｎｕｍ及びｓｕｂｒｅｇｎｕｍ値を生成することができる。

図２１Ｃに示されるように、マルチスレッド処理リソース内の実行ロジック２１２０は、本明細書で説明するように、ｍａｄｖ命令を展開して実行するように構成され得る。実行ロジック２１２０は、本明細書で説明するような実行ユニット、計算ユニット、又はストリーミングマルチプロセッサ等のマルチスレッド処理リソース内で見出すことができる。一実施形態では、１組の命令キュー２１２２Ａ〜２１２２Ｎは、実行ロジック２１２０のＮ個のスレッドによる実行を保留しているＮ組の命令を格納することができる。各スレッドは、現在の命令の依存関係がクリアにされるまでスレッドの実行を停止させる関連するプリデコード段階２１２４Ａ〜２１２４Ｎを有する。現在の命令の依存関係が残っていない場合に、スレッドは準備完了としてマークされる。クリアにされると、スレッドは、ＡＬＵのうちの１つの実行パイプラインにディスパッチするスレッドを選択する調停プロセスに参加できる。

各ＡＬＵのそれぞれのアービタ（arbiter）２１２６Ａ〜２１２６Ｍは、ＡＬＵ内の実行リソースの可用性に基づいて、１つ又は複数の準備完了スレッドを選択することができる。次に、選択したスレッドの命令が、選択したＡＬＵの実行パイプラインにディスパッチされる。図示したＡＬＵの実行パイプライン段階には、デコード段階２１２８Ａ〜２１２８Ｍ、レジスタ読み取り段階２１３０Ａ〜２１３０Ｍ、実行段階２１３２Ａ〜２１３２Ｍ、及び書き戻し（ＷＢ）段階２１３４Ａ〜２１３４Ｍが含まれる。一実施形態では、単一のｍａｄｖ命令は、命令を受け取るＡＬＵのデコード段階２１２８Ａ〜２１２８Ｍ内で複数のｍａｄ命令に展開することができる。

一実施形態では、実行ロジック２１２０内のＡＬＵの数は、実行ロジック２１２０によって実行され得るスレッドの数より少ない。一実施形態では、複数の命令が単一のＡＬＵに発せられ得る。一実施形態では、利用可能なＡＬＵのサブセットのみがｍａｄｖ命令展開のために構成され得、そのような命令はそれらの特定のＡＬＵによって実行される。実行ロジック２１２０がｍａｄｖ命令を実行するために消費するクロックの総数は、ｍａｄ命令当たりのクロック数、繰返し回数、及びスキップした命令の数に依存する。一実施形態では、実行ロジックのＡＬＵは、クロック毎に１つのｍａｄ命令を実行することができる。そのような実施形態では、ｍａｄｖ．８命令は、実行するために８クロックかかり、スパース入力値を処理するとき、スキップされた命令毎に１クロックを引いたものになる。

図２２は、一実施形態による、スパース入力の命令展開及びスキップを示す。一実施形態では、比較命令２２０１を使用して、＜ｓｒｃ２＞入力として使用されるレジスタデータをゼロと比較し、ｍａｄｖ命令２２０２に使用される予測マスクを生成する。一実施形態では、ｍａｄｖ命令の展開が＜ｓｒｃ０＞及び＜ｄｓｔ＞オペランドに連続したレジスタを使用することに留意されたい。ｍａｄｖ命令を使用するシェーダープログラムのコンパイル中に、十分な連続レジスタが利用できない場合に、シェーダーコンパイラは、分割した繰返し回数の複数の命令２２０３を出力できる。例えば、＜ｓｒｃ０＞及び＜ｄｓｔ＞オペランドに異なるレジスタ開始点を用いて、繰返し回数が８の１つの命令ではなく、繰返し回数が４の２つの命令を出力する。複数の命令を使用することになる場合に、その命令を、＜ｓｒｃ１＞及び＜ｓｒｃ２＞レジスタの再利用を可能にするアトミック操作として実行することができる。例示的な＜ｓｒｃ２＞２１０９、命令２２０２、又は命令２２０３が与えられると、１組のｍａｄ命令２２０４を生成することができる。＜ｓｒｃ２＞２１０９内のスパース要素の命令生成をバイパスでき、それによってスパース＜ｓｒｃ２＞要素を含むｍａｄ命令の実行がバイパスされるだけでなく、対応する命令の生成もバイパスされ、スパース行列ワークロードによって消費される命令フェッチ及びデコード帯域幅が削減される。

場合によっては、ｍａｄｖ命令のＳＩＭＤサイズは、結果が複数のレジスタに書き込まれるように、レジスタサイズよりも大きくなる可能性がある。そのような場合に、ｍａｄｖマクロ命令を展開すると、個々のｍａｄ命令の＜ｄｓｔ＞及び＜ｓｒｃ０＞が複数のレジスタによってインクリメントされる。例えば、ＳＩＭＤ命令＝３２、データ型＝４バイト、レジスタ幅＝６４バイトの場合に、＜ｄｓｔ＞及び＜ｓｒｃ０＞は（ＳＩＭＤ＊データ型／レジスタ幅）＝２レジスタだけインクリメントされる。本明細書では、動作は一般にＳＩＭＤ動作として説明しているが、本明細書で説明する技法は、ＳＩＭＴベースのアーキテクチャ等の他の並列処理アーキテクチャにも適合させることもできる。

専用のアキュムレータレジスタ（ａｃｃＸレジスタ）を含むグラフィックプロセッサアーキテクチャの場合に、本明細書で説明するようなｍａｄｖ命令は、＜ｓｒｃ０＞及び＜ｄｓｔ＞オペランドにアキュムレータレジスタを明示的又は暗黙的に使用できることに留意されたい。アキュムレータレジスタは、複数の浮動小数点演算を累積するために使用される、より大きな及び／又はより高精度のレジスタであり得る。アキュムレータレジスタを使用すると、入力又は出力のデータ型の精度に応じて、より精度の高い結果が生成され得る。アーキテクチャのアキュムレータの数が制限されている場合に、１つ又は複数のｍａｄｖ命令の結果をアキュムレータに格納できるが、他は汎用レジスタに格納され得る。

図２３は、一実施形態による、乗算／加算／ベクトル命令の実行を容易にする方法２３００を示す。方法２３００は、本明細書で説明するグラフィックプロセッサ又は並列プロセッサの計算又はグラフィックプロセッサパイプラインのロジックによって実行することができる。例えば、方法２３００は、図２１Ｂのハードウェアロジック２１１０を用いて、図２１Ｃの実行ロジック２１２０によって実行することができる。方法２３００は、図２１Ａのｍａｄｖ命令２１００等のハードウェアマクロ命令の実行を容易にするために、及び／又は本明細書で説明するように使用することができる。

一実施形態では、方法２３００は、グラフィック又は並列プロセッサのハードウェアロジックを介して、ハードウェアマクロ命令をフェッチする動作を行うことを含む（ブロック２３０１）。ハードウェアマクロ命令には、述語マスク、繰返し回数、及び初期オペランドのセット（＜ｄｓｔ＞、＜ｓｒｃ０＞、＜ｓｒｃ１＞、＜ｓｒｃ２＞）がある。ハードウェアマクロ命令は、行列のセットに関連付けられた入力データに対して１回以上の乗算／加算演算を行うように構成される。方法２３００は、ハードウェアマクロ命令をデコードするための動作を行うことをさらに含む（ブロック２３０２）。一実施形態では、フェッチされたハードウェアマクロ命令は、命令実行パイプラインのプリデコード段階（例えば、プリデコード段階２１２４Ａ〜２１２４Ｎ）のロジックが、関連するロード又は比較命令等の依存関係が満されていると判定するまで、命令キューに格納され得る。依存関係が満たされると、命令は、本明細書で説明する処理リソースのデコードロジックによって、デコードのために自動的に送信され得る。

デコード処理は、実行のために生成するハードウェア命令のセットを決定することを少なくとも部分的に含むか、又は実行することができる。例えば、述語マスクのアクティブ化されたビット毎にｍａｄ命令を生成できる。述語マスクは、図２２に示されるように、＜ｓｒｃ２＞オペランドのサブレジスタに格納された入力に基づいて生成できる。例えば、比較命令を使用して、＜ｓｒｃ２＞入力として使用されるデータをゼロと比較することにより、フラグレジスタ内のビットを設定できる。次に、フラグレジスタを述語マスクとして使用できる。次に、述語マスク及び繰返し回数を使用して、実行のためのハードウェア命令のセットを生成できる（ブロック２３０３）。命令は、図２１Ｂのように、命令生成器２１１３によって生成することができる。生成すべき命令の最大数は、繰返し回数に基づいて決定できる。特定のハードウェア命令の生成は、述語マスク内の関連するビットによって無効にされた場合にバイパスされる。

命令のセット内の生成された命令によって使用される特定のオペランドは、述語マスク及び初期オペランドのセットに基づいて決定することができる（ブロック２３０４）。命令のオペランドは、図２１Ｂのように、オペランド生成器２１１４によって生成することができる。＜ｄｓｔ＞及び＜ｓｒｃ０＞オペランドには連続した連続レジスタが使用され、＜ｓｒｃ２＞オペランドには連続したサブレジスタが使用される。バイパスされる命令にはオペランドは生成されない。次に、グラフィック又は並列プロセッサの命令実行パイプラインは、ハードウェア命令のセットをアトミックに（atomically）実行できる（ブロック２３０５）。アトミック実行は、命令のセットの実行中に行われる１つ又は複数の操作がアトミックに実行されることを示し、それによって、命令のセット内の命令は単一の命令と見なされる。ハードウェアマクロ命令の実行によって消費される特定のクロックサイクル数は、単一の乗算−加算演算を行うためのサイクル数、命令に関連付けられた繰返し回数、及びスパース入力データによりバイパスされる命令又は操作の数に基づいて異なる。次に、グラフィック又は並列プロセッサの命令実行パイプラインは、ハードウェア命令のセット内の各命令が完了すると、ハードウェアマクロ命令をリタイアさせることができる（ブロック２３０６）。

ｍａｄｖ命令への入力のスパース性に応じて、実行サイクルの数が変化し得ることに留意されたい。こうして、命令のレイテンシは、次の依存性命令のスケジューリングを可能にするようにコンパイル時に決定できない場合がある。従って、ｍａｄｖ命令によって実行される複数の命令又は操作は、コンパイラ及びスケジューリングハードウェアによって単一のアトミック命令であると見なされる。こうして、連続する依存性ｍａｄｖ命令のセットの場合に、第１のｍａｄｖ命令が、後続の依存性命令が実行パイプラインに入る前に完了するように、命令は順番に実行される。

追加の例示的なコンピュータ装置

図２４は、一実施形態による、グラフィックプロセッサ２４０４を含むコンピュータ装置２４００のブロック図である。コンピュータ装置２４００は、図１のようなデータ処理システム１００等のコンピュータ装置とすることができ、図１４に示されるコンポーネントを含むことができる。コンピュータ装置２４００はまた、セットトップボックス（例えば、インターネットベースのケーブルテレビセットトップボックス等）、全地球測位システム（ＧＰＳ）ベースの装置等の通信装置であり得るか、又はその中に含まれ得る。コンピュータ装置２４００はまた、携帯電話等のモバイルコンピュータ装置、スマートフォン、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、電子書籍リーダー、スマートテレビ、テレビプラットフォーム、ウェアラブル装置（メガネ、時計、ブレスレット、スマートカード、ジュエリー、衣料品等）、メディアプレイヤであり得るか、又はその中に含まれ得る。例えば、一実施形態では、コンピュータ装置２４００は、システムオンチップ（ＳｏＣ又はＳＯＣ）等の集積回路（ＩＣ）を使用するモバイルコンピュータ装置を含み、コンピュータ装置２４００の様々なハードウェア及び／又はソフトウェアコンポーネントを単一のチップに集積する。

コンピュータ装置２４００は、グラフィックプロセッサ２４０４を含む。グラフィックプロセッサ２４０４は、本明細書で説明する任意のグラフィックプロセッサを表す。グラフィックプロセッサは、１つ又は複数のグラフィックエンジン、グラフィックプロセッサコア、及び本明細書で説明する他のグラフィック実行リソースを含む。このようなグラフィック実行リソースは、実行ユニット、シェーダーエンジン、フラグメントプロセッサ、頂点プロセッサ、ストリーミングマルチプロセッサ、グラフィックプロセッサクラスタ、或いはグラフィックリソース又は画像リソースの処理、又は異種プロセッサで汎用計算処理を行うのに適したコンピュータリソースの任意のコレクションを含むがこれらに限定されない形式で提示できる。

一実施形態では、グラフィックプロセッサ２４０４は、キャッシュ２４１４を含み、このキャッシュ２４１４は、単一のキャッシュ、又は任意の数のＬ１、Ｌ２、Ｌ３、又はＬ４キャッシュ、レンダリングキャッシュ、深度キャッシュ、サンプラーキャッシュ、及び／又はシェーダーユニットキャッシュを含むがこれらに限定されないキャッシュメモリの複数のセグメントに分割することができる。いくつかの実施形態では、グラフィックプロセッサ２４０４は、共有ローカルメモリ（ＳＬＭ２４３４）を含むＧＰＧＰＵエンジン２４４４だけでなく、ＧＰＧＰＵエンジン２４４４によって使用されるレジスタを含むレジスタファイル２４２４も含む。レジスタファイル２４２４は、汎用レジスタ、アーキテクチャレジスタ、構成レジスタ、及び他のタイプのレジスタを含むことができる。汎用レジスタファイル（ＧＲＦ）及び／又はアーキテクチャレジスタファイル（ＡＲＦ）は、ＧＰＧＰＵエンジン２４４４内の計算ユニット（例えば、計算２４５０、計算２４５５）の１つ又は複数のブロック内の処理リソース内に常駐することもできる。本明細書に記載される乗算／加算／ベクトル（ｍａｄｖ）命令のデコード及び実行を可能にすることを含む、例示のコンポーネントが、本明細書に記載される様々な実施形態の技術を提供するために使用され得る。一実施形態では、ｍａｄｖ命令の実行は、ｍａｄｖ命令を複数の乗算／加算（ｍａｄ）命令に展開するハードウェアベースのデコード／展開ロジック２４４２を介して容易にされるが、他の実施形態では、異なる実装手法を使用してもよい。

図示のように、一実施形態では、グラフィックプロセッサ２４０４に加えて、コンピュータ装置２４００は、アプリケーションプロセッサ２４０６、メモリ２４０８、及び入力／出力（Ｉ／Ｏ）ソース２４１０を含むがこれらに限定されない、任意の数及びタイプのハードウェアコンポーネント及び／又はソフトウェアコンポーネントをさらに含み得る。アプリケーションプロセッサ２４０６は、図３を参照して示されるように、ハードウェアグラフィックパイプラインと相互作用して、グラフィックパイプライン機能を共有することができる。処理データは、ハードウェアグラフィックパイプラインのバッファに格納され、状態情報はメモリ２４０８に格納される。結果のデータは、図３Ａの表示装置３１８等の表示装置を介して出力するために表示コントローラに転送できる。表示装置は、陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）アレイ等の様々なタイプであってもよく、グラフィカルユーザインターフェイスを介してユーザに情報を表示すように構成され得る。

アプリケーションプロセッサ２４０６は、図１のプロセッサ１０２等の１つ又は複数のプロセッサを含むことができ、コンピュータ装置２４００のオペレーティングシステム（ＯＳ）２４０２を実行するために少なくとも部分的に使用される中央処理装置（ＣＰＵ）であってよい。ＯＳ２４０２は、コンピュータ装置２４００のハードウェア及び／又は物理リソースと１人又は複数のユーザとの間のインターフェイスとして機能することができる。ＯＳ２４０２は、図１０のユーザモードグラフィックドライバ１０２６及び／又はカーネルモードグラフィックドライバ１０２９等のグラフィックドライバロジック２４２２を含む、コンピュータ装置２４００内の様々なハードウェア装置のためのドライバロジックを含むことができる。

いくつかの実施形態では、グラフィックプロセッサ２４０４は、アプリケーションプロセッサ２４０６の一部（物理ＣＰＵパッケージの一部等）として存在することがあり得、その場合に、メモリ２４０８の少なくとも一部は、アプリケーションプロセッサ２４０６及びグラフィックプロセッサ２４０４によって共有され得るが、メモリ２４０８の少なくとも一部は、グラフィックプロセッサ２４０４専用であってもよく、又はグラフィックプロセッサ２４０４は、別個のメモリストアを有してもよい。メモリ２４０８は、バッファ（例えば、フレームバッファ）の事前に割り当てられた領域を含み得る。しかしながら、当業者は、実施形態がそのように限定されず、より下位のグラフィックパイプラインにアクセス可能な任意のメモリを使用してもよいことを理解すべきである。メモリ２４０８は、グラフィックプロセッサ２４０４を利用してデスクトップ又は３Ｄグラフィックシーンをレンダリングするアプリケーションを含む様々な形態のランダムアクセスメモリ（ＲＡＭ）（例えば、ＳＤＲＡＭ、ＳＲＡＭ等）を含み得る。図１のメモリコントローラ１１６等のメモリコントローラハブは、メモリ２４０８内のデータにアクセスし、そのデータをグラフィックパイプライン処理のためにグラフィックプロセッサ２４０４に転送することができる。メモリ２４０８は、コンピュータ装置２４００内の他のコンポーネントが利用できるようにされ得る。例えば、コンピュータ装置２４００の様々なＩ／Ｏソース２４１０から受信した任意のデータ（例えば、入力グラフィックデータ）は、ソフトウェアプログラム又はアプリケーションの実装において１つ又は複数のプロセッサ（例えば、アプリケーションプロセッサ２４０６）によって処理される前に、メモリ２４０８に一時的にキューイングすることができる。同様に、ソフトウェアプログラムが、コンピュータシステムインターフェイスのうちの１つを介してコンピュータ装置２４００から外部エンティティに送信するか、内部ストレージ要素に保存する必要があると判断したデータは、大抵の場合、送信又は保存される前に、メモリ２４０８に一時的にキューイングされる。

Ｉ／Ｏソースは、タッチスクリーン、タッチパネル、タッチパッド、仮想又は通常のキーボード、仮想又は通常のマウス、ポート、コネクタ、ネットワーク装置等の装置を含むことができ、図１を参照してプラットフォームコントローラハブを介して取り付けることができる。さらに、Ｉ／Ｏソース２４１０は、コンピュータ装置２４００との間でデータを転送するために実装される（例えば、ネットワーキングアダプタ）、又はコンピュータ装置２４００内の大規模な不揮発性ストレージに実装される（例えば、ハードディスクドライブ）ような１つ又は複数のＩ／Ｏ装置を含むことができる。英数字及び他のキーを含むユーザ入力装置を使用して、情報及びコマンド選択をグラフィックプロセッサ２４０４に通信できる。別のタイプのユーザ入力装置は、方向情報及びコマンド選択をＧＰＵに伝達し、表示装置上のカーソルの動きを制御するマウス、トラックボール、タッチスクリーン、タッチパッド、カーソル方向キー等のカーソルコントロールである。コンピュータ装置２４００のカメラ及びマイクロフォンアレイを使用して、ジェスチャを観察し、音声及びビデオを記録し、視覚及び音声コマンドを送受信することができる。

ネットワークインターフェイスとして構成されたＩ／Ｏソース２４１０は、ＬＡＮ、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、クラウドネットワーク、セルラー又はモバイルネットワーク（例えば、第３世代（３Ｇ）、第４世代（４Ｇ）等）、イントラネット、インターネット等のネットワークへのアクセスを提供することができる。ネットワークインターフェイスは、例えば、１つ又は複数のアンテナを含むワイヤレスネットワークインターフェイスを含むことができる。ネットワークインターフェイスには、例えば、イーサネットケーブル、同軸ケーブル、光ファイバーケーブル、シリアルケーブル、又はパラレルケーブルであり得るネットワークケーブルを介してリモート装置と通信する有線ネットワークインターフェイスも含まれ得る。

ネットワークインターフェイスは、例えば、ＩＥＥＥ８０２．１１規格に準拠することにより、ＬＡＮへのアクセスを提供し得、及び／又は、無線ネットワークインターフェイスは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格に準拠することにより、パーソナルエリアネットワークへのアクセスを提供し得る。以前の規格バージョンと後続の規格バージョンとを含む他のワイヤレスネットワークインターフェイス及び／又はプロトコルもサポートされる。ワイヤレスＬＡＮ規格を介した通信に加えて、又はその代わりに、ネットワークインターフェイスは、例えば、時分割多元アクセス（ＴＤＭＡ）プロトコル、ＧＳＭ（Global Systems for Mobile Communications）プロトコル、コード分割、多元接続（ＣＤＭＡ）プロトコル、及び／又は他のタイプのワイヤレス通信プロトコル等を用いてワイヤレス通信を提供し得る。

上述の例よりも少なく又は多く装備したシステムは、特定の実施態様にとって好ましい場合があることを理解されたい。従って、コンピュータ装置２４００の構成は、価格の制約、性能要件、技術的改善、又は他の状況等の多数の要因に応じて、実装毎に異なり得る。例には、（限定ではなく）モバイル装置、携帯情報端末、モバイルコンピュータ装置、スマートフォン、携帯電話、ハンドセット、一方向ポケットベル、双方向ポケットベル、メッセージング装置、コンピュータ、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ハンドヘルドコンピュータ、タブレットコンピュータ、サーバ、サーバアレイ又はサーバファーム、Ｗｅｂサーバ、ネットワークサーバ、インターネットサーバ、ワークステーション、ミニコンピュータ、メインフレームコンピュータ、スーパーコンピュータ、ネットワーク機器、Ｗｅｂ機器、分散型コンピュータシステム、マルチプロセッサシステム、プロセッサベースのシステム、家電製品、プログラム可能な家電製品、テレビ、デジタルテレビ、セットトップボックス、ワイヤレスアクセスポイント、基地局、加入者局、モバイル加入者センター、無線ネットワークコントローラ、ルーター、ハブ、ゲートウェイ、ブリッジ、スイッチ、マシン、又はこれらの組合せが含まれる。

実施形態は、ペアレントボード（parent-board）、ハードワイヤードロジック、メモリ装置によって格納され且つマイクロプロセッサによって実行されるソフトウェア、ファームウェア、特定用途向け集積回路（ＡＳＩＣ）、及び／又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を用いて相互接続される１つ又は複数のマイクロチップ又は集積回路のうちの任意の１つ又は組合せとして実装され得る。「ロジック（論理）」という用語は、例として、ソフトウェア又はハードウェア、及び／又はソフトウェアとハードウェアとの組合せを含み得る。

実施形態は、例えば、機械実行可能命令を格納した１つ又は複数の機械可読媒体を含み得るコンピュータプログラム製品として提供され得、命令がコンピュータ、ネットワークのコンピュータ、又は他の電子装置等の１つ又は複数の機械によって実行されたときに、本明細書で説明する実施形態による動作を行う１つ又は複数の機械をもたらし得る。機械可読媒体には、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ（コンパクトディスク読み取り専用メモリ）、及び光磁気ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ（消去可能なプログラム可能な読み取り専用メモリ）、ＥＥＰＲＯＭ（電気的消去可能、プログラム可能な読み取り専用メモリ）、磁気カード又は光学式カード、フラッシュメモリ、又は機械実行可能な命令を格納するのに適した他のタイプの非一時的な機械可読媒体が含まれるが、これらに限定されるものではない。

さらに、実施形態は、コンピュータプログラム製品としてダウンロードすることができ、プログラムは、通信リンク（例えば、モデム及び／又はネットワーク接続）を介して、搬送波又は他の伝播媒体によって具体化及び／又は変調される１つ又は複数のデータ信号によって、リモートコンピュータ（例えば、サーバ）から要求側コンピュータ（例えば、クライアント）に転送することができる。

本明細書における「一実施形態」又は「実施形態」への言及は、実施形態に関連して説明する特定の特徴、構造、又は特性が、本発明の少なくとも１つの実施形態に含まれ得ることを意味する。本明細書の様々な場所での「一実施形態では」という句の出現は、必ずしも全てが同じ実施形態を指すとは限らない。以下の図に示されているプロセスは、ハードウェア（例えば、回路、専用ロジック等）、ソフトウェア（非一時的な機械可読記憶媒体の命令として）、又はハードウェアとソフトウェアとの両方の組合せを含む処理ロジックによって実行できる。様々な実施形態を詳細に参照し、それらの例は添付の図面に示される。以下の詳細な説明では、本発明の完全な理解を与えるために、多くの特定の詳細が示されている。しかし、当業者には、本発明がこれらの特定の詳細なしに実施できることが明らかであろう。他の例では、実施形態の態様を不必要に不明瞭にしないように、周知の方法、手順、コンポーネント、回路、及びネットワークは詳細には説明していない。

様々な要素を説明するために第１、第２等の用語が本明細書で使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことも理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本発明の範囲から逸脱することなく、第１の接点を第２の接点と呼ぶことができ、同様に、第２の接点を第１の接点と呼ぶことができる。第１の接点と第２の接点とは両方とも接点であるが、同じ接点ではない。

本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、全ての実施形態に関して限定することを意図するものではない。本発明の説明及び添付の特許請求の範囲で使用される場合に、単数形「１つの（a, an）」、及び「その（the）」は、文脈が他に明確に示さない限り、複数形も含むことを意図する。本明細書で使用される「及び／又は」という用語は、関連する列挙された項目の１つ又は複数のありとあらゆる可能な組合せを指し、包含することも理解されよう。本明細書で使用される場合に、「備える、有する、含む（comprises, comprising）という用語は、述べた特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらのグループの存在又は追加を排除しないことがさらに理解されよう。

本明細書で使用される場合に、「もし〜ならば、の場合に（if）」という用語は、状況に応じて、「とき、場合（when）」又は「〜すると（upon）」又は「決定に応答して（in response to determining）」又は「検出に応答して（in response to detecting）」を意味すると解釈され得る。同様に、「〜と決定（判定）されたとき（場合）」又は「（指定された条件又はイベント）が検出されたとき（場合）」という句は、状況に応じて、「決定（判定）すると」又は「決定（判定）に応答して」又は「（指定された条件又はイベント）を検出すると」又は「（指定された条件又はイベント）を検出することに応答して」を意味すると解釈され得る。

本明細書で説明する実施形態は、スパース入力のための自動ゼロスキップを伴うベクトル乗算加算命令を可能にするための命令及び関連するロジックを提供する。以下の節及び／又は例は、その特定の実施形態又は例に関する。実施例の詳細は、１つ又は複数の実施形態のどこでも使用することができる。異なる実施形態又は例の様々な特徴は、様々な異なる用途に適合するように含まれるいくつかの特徴及び除外される他の特徴と様々に組み合わせることができる。例は、方法、方法の動作を行うための手段、機械によって実行されると機械に本明細書で説明する実施形態及び例による方法又は装置又はシステムの動作を実行させる命令を含む少なくとも１つの機械可読媒体等の主題を含み得る。様々な構成要素は、説明した動作又は機能を実行するための手段であり得る。

一実施形態は、述語マスク、繰返し回数、及び初期オペランドのセットを有するハードウェアマクロ命令をフェッチするステップを含む方法を実行するロジックを含む汎用グラフィックプロセッサを提供し、初期オペランドはデスティネーションオペランド及び複数のソースオペランド（例えば、＜ｓｒｃ０＞、＜ｓｒｃ１＞、＜ｓｒｃ２＞）を含む。繰返し回数は、ハードウェア命令のセットに対して生成するハードウェア命令の最大数を示す。述語マスクは、命令セット内のどの命令を生成又はバイパスするかを示す。述語マスクは、ゼロとソース入力オペランド（例えば、＜ｓｒｃ２＞）に関連付けられた各要素との間の比較によって生成できる。ハードウェアマクロ命令は、行列のセットに関連付けられた入力データに対して１回以上の乗算及び加算演算を行うように構成される。

この方法はさらに、命令デコードロジックを介してハードウェアマクロ命令をデコードするステップを含む。ハードウェアマクロ命令をデコードするステップは、実行のために生成するハードウェア命令のセットを決定するステップと、命令のセット内の命令を生成するステップとを含む。生成する命令の数及び特定の命令は、繰返し回数及び述語マスクに基づいて決定できる。特定の命令反復の生成をスキップする必要があることを述語マスクが示していない限り、ハードウェア命令は、繰返し回数の指定された反復毎に生成される。この方法はさらに、生成された命令によって使用されるオペランドを生成することを含む。生成されたオペランドは、レジスタ又はサブレジスタのブロック内の単に連続する（successive）及び規則的に連続する（consecutive）レジスタ又はサブレジスタを指定でき、レジスタ及びサブレジスタのストライドは、命令のＳＩＭＤサイズ及びレジスタのサイズに基づいて決定される。この方法は、命令のセット内の各命令の実行が完了したときに、命令のセットをアトミックに実行し、ハードウェアマクロ命令をリタイアさせることをさらに含む。一実施形態では、ハードウェア命令のセットは、１つ又は複数のハードウェア命令を含み、１つ又は複数のハードウェア命令のそれぞれは、処理リソースに、乗算及び加算演算を単一のサイクルで実行させる。１つ又は複数のハードウェア命令のそれぞれが、単一のサイクルで複数のデータ要素に対して乗算及び加算演算を行う。

追加の実施形態は、上記の方法を実行するためのグラフィック処理ロジックを提供する。追加の実施形態は、上記のグラフィック処理ロジックを含むデータ処理システムも含む。上記の技法は、本明細書で説明しているグラフィック又は並列プロセッサアーキテクチャのいずれかに統合又は適合させることができる。当業者は、前述の説明から、実施形態の幅広い技術が様々な形態で実施され得ることを理解するであろう。従って、実施形態についてその特定の例に関連して説明したが、実施形態の真の範囲は、他の修正が、図面、明細書、及び以下の特許請求の範囲を検討すると当業者に明らかになるため、そのように限定すべきではない。

Claims

グラフィックプロセッサであって、当該グラフィックプロセッサは、
述語マスク、繰返し回数、及び初期オペランドのセットを有するハードウェアマクロ命令をフェッチする命令フェッチャであって、前記ハードウェアマクロ命令は、行列のセットに関連付けられた入力に対して１回以上の乗算及び加算演算を行うための命令である、命令フェッチャと、
前記ハードウェアマクロ命令をデコードし、１回以上の乗算及び加算演算を行うハードウェア命令のセットを生成する命令デコーダであって、前記ハードウェア命令のセットは、前記述語マスク及び前記繰返し回数に基づいて生成される、命令デコーダと、
前記ハードウェア命令のセットを実行する処理リソースであって、前記ハードウェアマクロ命令は、前記ハードウェア命令のセットが完了するとリタイアされる、処理リソースと、を含む、
グラフィックプロセッサ。
前記初期オペランドのセットは、デスティネーションオペランド及び複数のソースオペランドを含む、請求項１に記載のグラフィックプロセッサ。
前記ハードウェア命令のセットは、１つ又は複数のハードウェア命令を含み、該１つ又は複数のハードウェア命令のそれぞれが、前記処理リソースに、単一のサイクルで乗算及び加算演算を行わせるための命令である、請求項２に記載のグラフィックプロセッサ。
前記１つ又は複数のハードウェア命令のそれぞれが、前記単一のサイクルで複数のデータ要素に対して前記乗算及び加算演算を行うための命令である、請求項３に記載のグラフィックプロセッサ。
前記繰返し回数は、前記ハードウェア命令のセットに対して生成するハードウェア命令の最大数を示す、請求項４に記載のグラフィックプロセッサ。
前記ハードウェア命令のセットを生成するために、前記命令デコーダは、
前記述語マスク内のアクティブビットに対する第１のハードウェア命令を生成し、
前記述語マスク内の非アクティブビットに対する第２のハードウェア命令の生成をバイパスする、請求項５に記載のグラフィックプロセッサ。
前記ハードウェア命令のセットを生成するために、前記命令デコーダは、さらに、
前記第１のハードウェア命令に対する第１のオペランドセットを生成し、該第１のオペランドセットは、前記第１のハードウェア命令で使用されるデスティネーションレジスタ及び複数のソースレジスタを示し、前記第１のオペランドセットは、前記初期オペランドのセット及びオペランドオフセットに基づいて生成される、請求項６に記載のグラフィックプロセッサ。
前記述語マスクは、ソースオペランドに関連する各非ゼロ要素についてアクティブビットを含む、請求項１乃至７のいずれか一項に記載のグラフィックプロセッサ。
グラフィックプロセッサで命令を実行する方法であって、当該方法は、
述語マスク、繰返し回数、及び初期オペランドのセットを有するハードウェアマクロ命令をフェッチするステップであって、該ハードウェアマクロ命令は、行列のセットに関連付けられた入力に対して１回以上の乗算及び加算演算を行うための命令である、フェッチするステップと、
前記ハードウェアマクロ命令をデコードされたハードウェアマクロ命令にデコードするステップと、
前記デコードされたハードウェアマクロ命令に基づいて、１回以上の乗算及び加算演算を行うハードウェア命令のセットを生成するステップであって、該ハードウェア命令のセットは、前記述語マスク及び前記繰返し回数に基づいて生成される、生成するステップと、
グラフィックプロセッサの処理リソースを介して前記ハードウェア命令のセットを実行するステップと、
前記ハードウェア命令のセットが完了すると、前記ハードウェアマクロ命令をリタイアさせるステップと、を含む、
方法。
前記初期オペランドのセットは、デスティネーションオペランド及び複数のソースオペランドを含む、請求項９に記載の方法。
前記ハードウェア命令のセットは１つ又は複数のハードウェア命令を含み、該１つ又は複数のハードウェア命令のそれぞれが、前記処理リソースに、単一のサイクルで乗算及び加算演算を行わせる、請求項１０に記載の方法。
前記１つ又は複数のハードウェア命令のそれぞれが、前記単一のサイクルで複数のデータ要素に対して前記乗算及び加算演算を行う、請求項１１に記載の方法。
前記繰返し回数は、前記ハードウェア命令のセットに対して生成するハードウェア命令の最大数を示す、請求項１２に記載の方法。
前記ハードウェア命令のセットを生成するステップは、
前記述語マスク内のアクティブビットに対する第１のハードウェア命令を生成するステップと、
前記述語マスク内の非アクティブビットに対する第２のハードウェア命令の生成をバイパスするステップと、を含む、請求項１３に記載の方法。
前記ハードウェア命令のセットを生成するステップは、さらに、
前記第１のハードウェア命令に対する第１のオペランドセットを生成するステップを含み、該第１のオペランドセットは、前記第１のハードウェア命令で使用されるデスティネーションレジスタ及び複数のソースレジスタを示し、前記第１のオペランドセットは、前記初期オペランドのセット及びオペランドオフセットに基づいて生成される、請求項１４に記載の方法。
前記述語マスクは、ソースオペランドに関連する各非ゼロ要素についてアクティブビットを含む、請求項９乃至１５のいずれか一項に記載の方法。
データ処理システムであって、当該データ処理システムは、
バスに結合されたメモリと、
前記バスに接続されたグラフィックプロセッサと、を含み、
該グラフィックプロセッサは、
述語マスク、繰返し回数、及びデスティネーションオペランドと複数のソースオペランドとを含む初期オペランドのセットを有するハードウェアマクロ命令をフェッチする命令フェッチャであって、前記ハードウェアマクロ命令は、行列のセットに関連付けられた入力に対して１回以上の乗算及び加算演算を行うための命令である、命令フェッチャと、
前記ハードウェアマクロ命令をデコードし、１回以上の乗算及び加算演算を行うハードウェア命令のセットを生成する命令デコーダであって、前記ハードウェア命令のセットは、前記述語マスク及び前記繰返し回数に基づいて生成される、命令デコーダと、
前記ハードウェア命令のセットを実行する処理リソースであって、前記ハードウェアマクロ命令は、前記ハードウェア命令のセットが完了するとリタイアされる、処理リソースと、を含む、
データ処理システム。
前記ハードウェア命令のセットは、１つ又は複数のハードウェア命令を含み、該１つ又は複数のハードウェア命令のそれぞれが、前記処理リソースに、単一のサイクルで乗算及び加算演算を行わせるための命令である、請求項１７に記載のデータ処理システム。
前記１つ又は複数のハードウェア命令のそれぞれが、前記単一のサイクルで複数のデータ要素に対して前記乗算及び加算演算を行うための命令である、請求項１８に記載のデータ処理システム。
前記繰返し回数は、前記ハードウェア命令のセットに対して生成するハードウェア命令の最大数を示す、請求項１９に記載のデータ処理システム。
前記ハードウェア命令のセットを生成するために、前記命令デコーダは、
前記述語マスク内のアクティブビットに対する第１のハードウェア命令を生成し、
前記述語マスク内の非アクティブビットに対する第２のハードウェア命令の生成をバイパスする、請求項２０に記載のデータ処理システム。
前記ハードウェア命令のセットを生成するために、前記命令デコーダは、さらに、
前記第１のハードウェア命令に対する第１のオペランドセットを生成し、前記第１のオペランドセットは、前記第１のハードウェア命令で使用されるデスティネーションレジスタ及び複数のソースレジスタを示し、前記第１のオペランドセットは、前記初期オペランドのセット及びオペランドオフセットに基づいて生成される、請求項２１に記載のデータ処理システム。
前記述語マスクは、ソースオペランドに関連する各非ゼロ要素についてアクティブビットを含む、請求項１７乃至２２のいずれか一項に記載のデータ処理システム。