JP2021177366A

JP2021177366A - フィードバック入力を有するシストリック・アレイを利用するスケーラブルなスパース行列乗算加速

Info

Publication number: JP2021177366A
Application number: JP2020202444A
Authority: JP
Inventors: マイユランスブラマニアム; Maiyuran Subramaniam; パーラホルヘ; Parra Jorge; パルスプラティム; Pal Supratim; ガルグアシュトーシュ; Garg Ashutosh; マルワハシュブラ; Marwaha Shubra; グラムチャンドラ; Gurram Chandra; スターキーダリン; Starkey Darin; ボルカールドゥルゲシュ; Borkar Durgesh; ジョージヴァーギーズ; George Varghese
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-05-05
Filing date: 2020-12-07
Publication date: 2021-11-11
Also published as: TW202143031A; DE102020131666A1; BR102021001391A2; US20230281272A1; US20220156343A1; CN113610697A; US11636174B2

Abstract

【課題】スケーラブルなスパース行列乗算を可能にするデバイス、システム及び方法を提供する。【解決手段】ラフィックス・プロセッサ３２０において、計算アクセラレータ３３０は、ホスト・インターフェース３２８と、ホスト・インターフェースに結合された相互接続構造３２４と、相互接続構造に結合された１つ以上の計算エンジン・タイルと、を含む。１つ以上の計算エンジン・タイルは、フィードバック入力を伴うシストリック・アレイを含むスパース行列乗算加速ハードウェアを含む。【選択図】図３Ｃ

Description

関連出願
本願は２０２０年５月５日付で出願された印国仮特許出願第２０２０４１０１９０５９号に対する優先権を主張するものであり、この仮特許出願は参照により本願に組み込まれる。

背景技術
機械学習ワークロードで使用されるシストリック行列乗算（Ｓｙｓｔｏｌｉｃｍａｔｒｉｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ）は、かなりの割合のゼロを有する（スパース・データ・ワークロードである）。これらのゼロの乗算はスキップされることが可能であり、従って全体的なパフォーマンスが改善される。現在のシストリック・アーキテクチャは、ワークロード内でスパース性のサポートを提供する可能性があるが、そのようなアーキテクチャは適切にスケーリングされない可能性がある。

本実施形態の上記の特徴を詳細に理解することができるように、ここで簡単に要約される実施形態のより詳細な説明は、実施形態を参照することによってもたらされ、そのうちの一部は添付図面に示されている。しかしながら、添付図面は、典型的な実施形態を示すだけであり、従ってその範囲を限定するように解釈されるべきでないことに留意されたい。

一実施形態による処理システムのブロック図である。

本願で説明される実施形態によって提供されるコンピューティング・システム及びグラフィックス・プロセッサを示す。本願で説明される実施形態によって提供されるコンピューティング・システム及びグラフィックス・プロセッサを示す。本願で説明される実施形態によって提供されるコンピューティング・システム及びグラフィックス・プロセッサを示す。本願で説明される実施形態によって提供されるコンピューティング・システム及びグラフィックス・プロセッサを示す。

本願で説明される実施形態によって提供される追加的なグラフィックス・プロセッサ及び計算アクセラレータ・アーキテクチャのブロック図を示す。本願で説明される実施形態によって提供される追加的なグラフィックス・プロセッサ及び計算アクセラレータ・アーキテクチャのブロック図を示す。本願で説明される実施形態によって提供される追加的なグラフィックス・プロセッサ及び計算アクセラレータ・アーキテクチャのブロック図を示す。

幾つかの実施形態によるグラフィックス・プロセッサのグラフィックス処理エンジン４１０のブロック図である。

本願で説明される実施形態によるグラフィックス・プロセッサ・コアで使用される処理要素のアレイを含むスレッド実行ロジックを示す。本願で説明される実施形態によるグラフィックス・プロセッサ・コアで使用される処理要素のアレイを含むスレッド実行ロジックを示す。

一実施形態による追加的な実行ユニットを示す。

幾つかの実施形態によるグラフィックス・プロセッサ命令フォーマットを示すブロック図である。

他の実施形態によるグラフィックス・プロセッサのブロック図である。

幾つかの実施形態によるグラフィックス・プロセッサのコマンド・フォーマット及びコマンド・シーケンスを示す。幾つかの実施形態によるグラフィックス・プロセッサのコマンド・フォーマット及びコマンド・シーケンスを示す。

幾つかの実施形態によるデータ処理システムのための例示的なグラフィックス・ソフトウェア・アーキテクチャを示す。

実施形態によるＩＰコア開発システムを示すブロック図である。

本願で説明される幾つかの実施形態による集積回路パッケージ・アセンブリの側断面図を示す。

基板に接続されたハードウェア論理チップレットの複数のユニットを含むパッケージ・アセンブリを示す。

実施形態による交換可能なチップレットを含むパッケージ・アセンブリを示す。

実施形態により１つ以上のＩＰコアを使用して製造されることが可能なチップ集積回路における例示的なシステムを示すブロック図である。

本願で説明される実施形態によるＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。本願で説明される実施形態によるＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。

実施形態によるデータ処理システムのブロック図である。

実施形態による命令パイプラインによって実行される行列演算を示す。

パイプライン方式で組織化された乗算器／加算器回路のシストリック・アレイを示す。

８つのシストリック・ステージの等価アレイを計算するために４深層シストリック・アレイを使用することを示す。８つのシストリック・ステージの等価アレイを計算するために４深層シストリック・アレイを使用することを示す。

シストリック・アーキテクチャの時間ダイアグラムを示す。シストリック・アーキテクチャの時間ダイアグラムを示す。

各経路が４ステージの深さを有する２経路行列乗算アクセラレータを示す。各経路が２ステージの深さを有する４経路行列乗算アクセラレータを示す。フィードバック入力を有するシストリック・アレイを利用するスケーラブル・スパース行列乗算アクセラレータを示す。スパース・データを含むＳｒｃ２入力を示す。各ステージでフィードバック入力及び出力を有するシストリック・アレイを使用するスケーラブル・スパース行列乗算アクセラレータを示す。本願で説明されるスケーラブル・スパース行列乗算アクセラレータで動作を実行する方法を示す。スパースＳｒｃ２入力行列を用いて行列乗算演算を実行する方法を示す。実施形態によるグラフィックス・プロセッサを含むコンピューティング・デバイスのブロック図である。

本願で説明されるものは、フィードバック入力を有するシストリック・アレイを利用するスケーラブルなスパース行列乗算加速を可能にするデバイス、システム、及び方法である。

説明の目的のために、多数の具体的な詳細が、以下に記載される様々な実施形態の完全に理解をもたらすように述べられる。しかしながら、これらの具体的な詳細のうちの一部によらず実施形態が実施されてもよいことは当業者にとって明らかであろう。他の例では、周知の構造及びデバイスは、基本原理を不明瞭にすることを避けるために、及び実施形態のより完全な理解を提供するために、ブロック図形式で示される。以下の実施形態の幾つかは、グラフィックス・プロセッサを参照して説明されるが、本願で説明される技術及び教示は、汎用処理デバイス又はグラフィックス処理デバイスを含む、種々のタイプの回路又は半導体装デバイスに適用されることが可能である。本明細書において、「一実施形態」又は「実施形態」に対する言及は、当該実施形態に関連して又は関連付けられて説明される特定の特長、構造又は特徴が、当該実施形態の少なくとも１つに含まれ得ることを示す。しかしながら、明細書中の様々な箇所における「一実施形態において」という語句の出現は、必ずしも全てが同一の実施形態を指していない。

以下の明細書及び特許請求の範囲において、「結合された」及び「接続された」という用語がそれらの派生語とともに使用される可能性がある。これらの用語は互いに同義語として意図されていないことが理解されるべきである。「結合された」は、互いに直接的に物理的又は電気的に接触していてもいなくてもよい２つ以上の要素が、互いに協働又は相互作用することを示すために使用される。「接続された」は、互いに結合される２つ以上の要素の間での通信の確立を示すために使用される。

以下の説明において、図１ないし１３Ａ−１３Ｂは、様々な実施形態を組み込む又は関連する例示的なデータ処理システム及びグラフィックス・プロセッサ・ロジックの概要を提供する。図１４−２６は様々な実施形態の特定の詳細を提供する。以下の実施形態の幾つかの態様はグラフィックス・プロセッサに関連して説明され、他の態様は中央処理装置（ＣＰＵ）などの汎用プロセッサに関連して説明される。類似の技術及び教示は他のタイプの回路又は半導体デバイスに適用されることが可能であり、他のタイプのものは、多数・集積コア・プロセッサ、ＧＰＵクラスタ、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）の１つ以上のインスタンスを含むが、これらに限定されない。一般に、教示は、画像（例えば、サンプル、ピクセル）、頂点データ、又は幾何学データを操作又は処理する、或いは機械学習及びハイ・パフォーマンス計算アプリケーションのための並列処理演算を実行する、任意のプロセッサ又はマシンに適用可能である。

システム概要
図１は、実施形態による処理システム１００のブロック図である。システム１００は、シングル・プロセッサ・デスクトップ・システム、マルチプロセッサ・ワークステーション・システム、又は、多数のプロセッサ１０２又はプロセッサ・コア１０７を有するサーバー・システムで使用されてもよい。一実施形態では、システム１００は、ローカル又はワイド・エリア・ネットワークへの有線又は無線の接続性を有するモノのインターネット（ＩｏＴ）のデバイス内のようなモバイルの、ハンドヘルドの、又は埋め込み式のデバイスで使用するための、システム・オン・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

一実施形態では、システム１００は、サーバー・ベースのゲーム・プラットフォーム；ゲーム及びメディア・コンソールを含むゲーム・コンソール；モバイル・ゲーム・コンソール、ハンドヘルド・ゲーム・コンソール、又はオンライン・ゲーム・コンソールを含むこと、それらと結合すること、又はそれらの中に統合されることが可能である。幾つかの実施形態では、システム１００は、移動電話、スマート・フォン、タブレット・コンピューティング・デバイス、又は、小さな内部記憶容量しか有しないラップトップのようなモバイル・インターネット接続デバイスの一部である。また、処理システム１００は、スマート・ウォッチ・ウェアラブル・デバイスのようなウェアラブル・デバイス；現実世界の視覚、聴覚、又は触覚の体験を補うための、或いはその他の文字、音声、図形、ビデオ、ホログラフィック画像又はビデオ、又は触覚的なフィードバックを提供するための、視覚、聴覚、触覚の出力を提供するための拡張現実（ＡＲ）又は仮想現実（ＶＲ）機能で強化されたスマート・アイウェア又は衣類；その他の拡張現実（ＡＲ）デバイス；又はその他の仮想現実（ＶＲ）デバイスを含むこと、それらに結合すること、又はそれらに統合されることが可能である。幾つかの実施形態では、処理システム１００は、テレビジョン又はセット・トップ・ボックス・デバイスを含むか、又はその一部である。一実施形態では、システム１００は、バス、トラクター・トレーラー、自動車、モーター又は電動自転車、飛行機又はグライダ（又はそれらの任意の組み合わせ）などの自動運転車両を含むこと、それらに結合すること、又はそれらに統合されることが可能である。自動運転車両は、車両の周囲で感知された環境を処理するためにシステム１００を使用することが可能である。

一部の実施形態では、１つ以上のプロセッサ１０２はそれぞれ、実行されるとシステムに対する動作又はユーザー・ソフトウェアに対して実行する命令を処理するために１つ以上のプロセッサ・コア１０７を含む。幾つかの実施形態では、１つ以上のプロセッサ・コア１０７のうちの少なくとも１つは、特定の命令セット１０９を処理するように構成される。幾つかの実施形態において、命令セット１０９は、複合命令セット計算（ＣＩＳＣ）、縮小命令セット計算（ＲＩＳＣ）、又は超長命令ワード（ＶＬＩＷ）による計算を促進することができる。１つ以上のプロセッサ・コア１０７は、他の命令セットのエミュレーションを促進にするための命令を含むことが可能な異なる命令セット１０９を処理することができる。プロセッサ・コア１０７はまた、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含んでもよい。

一部の実施形態では、プロセッサ１０２はキャッシュ・メモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有することが可能である。幾つかの実施形態では、キャッシュ・メモリは、プロセッサ１０２の様々なコンポーネント間で共有される。幾つかの実施形態では、プロセッサ１０２はまた、外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュ又は最終レベル・キャッシュ（ＬＬＣ））（図示せず）を使用し、これは既知のキャッシュ・コヒーレンシ技術を使用してプロセッサ・コア１０７内で共有されることが可能である。レジスタ・ファイル１０６は、プロセッサ１０２に追加的に含まれることが可能であり、異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタ）を含むことができる。幾つかのレジスタは汎用レジスタであってもよく、他のレジスタはプロセッサ１０２の設計に特有であってもよい。

一部の実施形態では、１つ以上のプロセッサ１０２は１つ以上のインターフェース・バス１１０に結合されて、アドレス、データ、又は制御信号などの通信信号を、プロセッサ１０２とシステム１００内の他のコンポーネントとの間で伝送する。インターフェース・バス１１０は、一実施形態では、ダイレクト・メディア・インターフェース（ＤＭＩ）バスのバージョンのようなプロセッサ・バスであるとすることが可能である。しかしながら、プロセッサ・バスは、ＤＭＩバスに限定されず、１つ以上のペリフェラル・コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）、メモリ・バス、又は他のタイプのインターフェース・バスを含んでもよい。一実施形態では、プロセッサ１０２は、集積メモリ・コントローラ１１６及びプラットフォーム・コントローラ・ハブ１３０を含む。メモリ・コントローラ１１６は、メモリ・デバイスとシステム１００の他のコンポーネントとの間の通信を容易にし、プラットフォーム・コントローラ・ハブ（ＰＣＨ）１３０は、ローカルＩ／ＯバスによりＩ／Ｏデバイスへの接続を提供する。

メモリ・デバイス１２０は、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又は、プロセス・メモリとして機能するのに適したパフォーマンスを有する何らかの他のメモリ・デバイスであるとすることが可能である。一実施形態では、メモリ・デバイス１２０は、１つ以上のプロセッサ１０２がアプリケーション又はプロセスを実行する場合に使用するために、データ１２２及び命令１２１を格納するように、システム１００のシステム・メモリとして動作することができる。メモリ・コントローラ１１６はまた、プロセッサ１０２内の１つ以上のグラフィックス・プロセッサ１０８と通信して、グラフィックス及びメディア操作を実行することが可能なオプションの外部グラフィックス・プロセッサ１１８と結合する。幾つかの実施形態では、グラフィックス、メディア、及び／又は計算動作は、グラフィックス、メディア、又は計算動作の特化されたセットを実行するように構成されることが可能なコプロセッサであるアクセラレータ１１２によって支援されてもよい。例えば、一実施形態では、アクセラレータ１１２は、機械学習又は計算演算を最適化するために使用される行列乗算アクセラレータである。一実施形態では、アクセラレータ１１２は、グラフィックス・プロセッサ１０８と協調してレイ・トレーシング処理を実行するために使用されることが可能なレイ・トレーシング・アクセラレータである。一実施形態では、外部アクセラレータ１１９は、アクセラレータ１１２の代わりに、又はアクセラレータ１１２と協調して使用されることが可能である。

一部の実施形態では、ディスプレイ・デバイス１１１はプロセッサ１０２に接続されることが可能である。ディスプレイ・デバイス１１１は、モバイル電子デバイス、ラップトップ・デバイス、又はディスプレイ・インターフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外部ディスプレイ・デバイスのように、１つ以上の内部ディスプレイ・デバイスであるとすることが可能である。一実施形態では、ディスプレイ・デバイス１１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体ディスプレイ・デバイスのようなヘッド・マウント・ディスプレイ（ＨＭＤ）であるとすることが可能である。

一部の実施形態では、プラットフォーム・コントローラ・ハブ１３０は、周辺機器が、高速Ｉ／Ｏバスを介してメモリ装置１２０及びプロセッサ１０２に接続することを可能にする。Ｉ／Ｏ周辺装置は、オーディオ・コントローラ１４６、ネットワーク・コントローラ１３４、ファームウェア・インターフェース１２８、無線トランシーバ１２６、タッチ・センサ１２５、データ記憶装置１２４（例えば、不揮発性メモリ、揮発性メモリ、ハード・ディスク・ドライブ、フラッシュ・メモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔなど）を含むが、これらに限定されない。データ記憶装置１２４は、記憶インターフェース（例えば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクト・バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）などの周辺バスを介して接続することができる。タッチ・センサ１２５は、タッチ・スクリーン・センサー、圧力センサー、又は指紋センサーを含むことができる。無線トランシーバ１２６は、Ｗｉ−Ｆｉトランシーバ、ブルートゥース（登録商標）・トランシーバ、又は、３Ｇ、４Ｇ、５Ｇ、ロング・ターム・エボリューション（ＬＴＥ）トランシーバのような移動ネットワーク・トランシーバであるとすることができる。ファームウェア・インターフェース１２８は、システム・ファームウェアとの通信を可能にし、例えば、統一された拡張可能なファームウェア・インターフェース（ＵＥＦＩ）であるとすることが可能である。ネットワーク・コントローラ１３４は、有線ネットワークへのネットワーク接続を可能にすることができる。幾つかの実施形態では、ハイ・パフォーマンス・ネットワーク・コントローラ（図示せず）がインターフェース・バス１１０に結合する。オーディオ・コントローラ１４６は、一実施形態では、マルチ・チャネル・ハイ・デフィニジョン・オーディオ・コントローラである。一実施形態では、システム１００は、レガシー（例えば、パーソナル・システム２（ＰＳ／２））装置をシステムに結合するためのオプションのレガシーＩ／Ｏコントローラ１４０を含む。プラットフォーム・コントローラ・ハブ１３０はまた、１つ以上のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ１４２に接続することができ、キーボード及びマウス１４３の組み合わせ、カメラ１４４、又は他のＵＳＢ入力装置などの入力装置を接続することができる。

別様に構成された他のタイプのデータ処理システムが使用されてもよいので、図示されているシステム１００は、例示的であり、限定的ではないことが理解されるであろう。例えば、プラットフォーム・コントローラ・ハブ１３０及びメモリ・コントローラ１１６のインスタンスは、外部グラフィックス・プロセッサ１１８のような個別の外部グラフィックス・プロセッサに統合されてもよい。一実施形態では、プラットフォーム・コントローラ・ハブ１３０及び／又はメモリ・コントローラ１１６は、１つ以上のプロセッサ１０２の外部にあってもよい。例えば、システム１００は、外部メモリ・コントローラ１１６及びプラットフォーム・コントローラ・ハブ１３０を含むことが可能であり、これらは、プロセッサ１０２と通信するシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺機器コントローラ・ハブとして構成することができる。

例えば、ＣＰＵ、メモリ、及びその他のコンポーネント等のコンポーネントが配置される回路基板（スレッド）は、上昇する熱特性に対して設計される。幾つかの例では、プロセッサなどの処理コンポーネントは、スレッドのトップ側に配置されるが、ＤＩＭＭなどのメモリ近辺は、スレッドのボトム側に配置される。この設計によって提供される空気流の増大の結果として、コンポーネントは、典型的なシステムにおける場合よりも高い周波数及び電力レベルで動作することが可能であり、それによってパフォーマンスを向上させることができる。更に、スレッドは、ラック内の電力及びデータ通信ケーブルと手放しに嵌合するように構成され、それによって、スレッドを迅速に取り外し、アップグレードし、再設置し、及び／又は交換する能力を高める。同様に、プロセッサ、アクセラレータ、メモリ、及びデータ記憶ドライブのような、スレッド上に配置される個々のコンポーネントは、互いの間隔が増加することに起因して、容易にアップグレードされるように構成される。例示的な実施形態では、コンポーネントは、更に、それらの真正性を証明するためのハードウェア認証機能を含む。

データ・センターは、イーサネット及びオムニ・パス（Ｏｍｎｉ−Ｐａｔｈ）を含む複数の他のネットワーク・アーキテクチャをサポートする単一のネットワーク・アーキテクチャ（「ファブリック」）を利用することができる。スレッドは、典型的なツイスト・ペア・ケーブル（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６など）よりも高い帯域幅及び短い待ち時間を提供する光ファイバを介してスイッチに結合されることが可能である。高帯域幅、低遅延の相互接続及びネットワーク・アーキテクチャに起因して、データ・センターは、使用時に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックス・アクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラル・ネットワーク、及び／又は人工知能アクセラレータ等）、及び、物理的に分解されたデータ記憶ドライブのようなリソースをプールし、必要に応じて計算リソース（例えば、プロセッサ）にそれらを提供し、その計算リソースが、あたかもローカルであるかのように、プールされたリソースにアクセスすることを可能にする。

電源供給又は電源は、電圧及び／又は電流を、システム１００又は本願で説明される任意のコンポーネント又はシステムに提供することができる。一例では、電源は、壁コンセントに差し込むためのＡＣ−ＤＣ（交流−直流）アダプタを含む。このようなＡＣ電力は、再生可能エネルギ（例えば、ソーラー・パワー）電力源であるとすることが可能である。一例では、電源は、外部ＡＣ−ＤＣコンバータのようなＤＣ電源を含む。一例では、電力源又は電源供給は、充電フィールドの近傍により充電するための無線充電ハードウェアを含む。一例では、電源は、内部バッテリ、交流電源、運動に基づく電源、ソーラー・パワー電源、又は燃料電池電源を含むことが可能である。

図２Ａ−２Ｄは、本願で説明する実施形態によって提供されるコンピューティング・システム及びグラフィックス・プロセッサを示す。本願の何らかの他の図中の要素と同じ参照番号（又は名称）を有する図２Ａ−２Ｄの要素は、本願の他の箇所で説明されているものと同様の方法な何らかの方法で動作又は機能することが可能であるが、そのようには限定されない。

図２Ａは、１つ又は複数のプロセッサ・コア２０２Ａ−２０２Ｎ、統合メモリ・コントローラ２１４、及び統合グラフィックス・プロセッサ２０８を有するプロセッサ２００の実施形態のブロック図である。プロセッサ２００は、破線ボックスによって表現される追加のコア２０２Ｎまでの追加のコアを含み、それを含むことが可能である。プロセッサ・コア２０２Ａ−２０２Ｎの各々は、１つ以上の内部キャッシュ・ユニット２０４Ａ−２０４Ｎを含む。幾つかの実施形態では、各プロセッサ・コアはまた、１つ以上の共用キャッシュ・ユニット２０６へのアクセスを有する。内部キャッシュ・ユニット２０４Ａ−２０４Ｎ及び共用キャッシュ・ユニット２０６は、プロセッサ２００内のキャッシュ・メモリ階層を表現する。キャッシュ・メモリ階層は、各プロセッサ・コア内の命令及びデータ・キャッシュの少なくとも１つのレベルと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの共有される中間レベルのキャッシュの１つ以上のレベルと、他のキャッシュ・レベルとを含んでもよく、ここで、外部メモリより前のキャッシュの最高レベルはＬＬＣとして分類される。幾つかの実施形態では、キャッシュ・コヒーレンス・ロジックは、種々のキャッシュ・ユニット２０６と２０４Ａ−２０４Ｎとの間のコヒーレンス性を維持する。

一部の実施形態では、プロセッサ２００は、１つ以上のバス・コントローラ・ユニット２１６、及びシステム・エージェント・コア２１０のセットを含んでもよい。１つ又は複数のバス・コントローラ・ユニット２１６は、１つ又は複数のＰＣＩ又はＰＣＩエクスプレス・バスのような一組のペリフェラル・バスを管理する。システム・エージェント・コア２１０は、様々なプロセッサ・コンポーネントの管理機能を提供する。幾つかの実施形態では、システム・エージェント・コア２１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するために、１つ以上の集積メモリ・コントローラ２１４を含む。

幾つかの実施形態では、１つ以上のプロセッサ・コア２０２Ａ−２０２Ｎは、同時マルチ・スレッディングのためのサポートを含む。このような実施形態では、システム・エージェント・コア２１０は、マルチ・スレッド処理中にコア２０２Ａ−２０２Ｎを調整及び動作させるためのコンポーネントを含む。システム・エージェント・コア２１０は、更に、プロセッサ・コア２０２Ａ−２０２Ｎ及びグラフィックス・プロセッサ２０８の電力状態を調整するためのロジック及びコンポーネントを含む電力制御ユニット（ＰＣＵ）を含んでもよい。

一部の実施形態では、プロセッサ２００は、グラフィックス処理動作を実行するために、グラフィックス・プロセッサ２０８を更に含む。幾つかの実施形態では、グラフィックス・プロセッサ２０８は、１つ以上の集積メモリ・コントローラ２１４を含む、一組の共有キャッシュ・ユニット２０６及びシステム・エージェント・コア２１０と結合する。幾つかの実施形態では、システム・エージェント・コア２１０はまた、グラフィックス・プロセッサ出力を、１つ以上の結合されたディスプレイに対して駆動するディスプレイ・コントローラ２１１を含む。幾つかの実施形態において、ディスプレイ・コントローラ２１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサに結合された別個のモジュールであってもよく、又はグラフィックス・プロセッサ２０８内に統合されてもよい。

幾つかの実施形態では、リング・ベースの相互接続ユニット２１２が、プロセッサ２００の内部コンポーネントを結合するために使用される。しかしながら、別の相互接続ユニット、例えばポイント・ツー・ポイント相互接続、スイッチド相互接続、又は当技術分野で周知の技術を含む他の技術が使用されてもよい。幾つかの実施形態では、グラフィックス・プロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリング相互接続２１２と結合する。

例示的なＩ／Ｏリンク２１３は、種々のプロセッサ・コンポーネントとｅＤＲＡＭモジュールなどの高性能埋め込みメモリ・モジュール２１８との間の通信を促進するオンパッケージＩ／Ｏ相互接続を含む、複数の種類のＩ／Ｏ相互接続のうちの少なくとも１つを表現する。幾つかの実施形態では、プロセッサ・コア２０２Ａ−２０２Ｎ及びグラフィックス・プロセッサ２０８のそれぞれは、共有される最終レベル・キャッシュとして埋め込みメモリ・モジュール２１８を使用することができる。

幾つかの実施形態では、プロセッサ・コア２０２Ａ−２０２Ｎは、同一の命令セット・アーキテクチャを実行するホモジーニアス・コアである。別の実施形態では、プロセッサ・コア２０２Ａ−２０２Ｎは、命令セット・アーキテクチャ（ＩＳＡ）に関してヘテロジニアスであり、プロセッサ・コア２０２Ａ−２０２Ｎのうちの１つ以上は、第１命令セットを実行し、他のコアのうちの少なくとも１つは、第１命令セットのサブセット又は異なる命令セットを実行する。一実施形態では、プロセッサ・コア２０２Ａ−２０２Ｎは、マイクロアーキテクチャに関してヘテロジニアスであり、比較的高い電力消費を有する１つ以上のコアは、より低い電力消費を有する１つ以上の電力コアと結合する。一実施形態では、プロセッサ・コア２０２Ａ−２０２Ｎは、計算能力に関してヘテロジニアスである。更に、プロセッサ２００は、他のコンポーネントに加えて、図示のコンポーネントを有する１つ以上のチップ又はＳｏＣ集積回路として実装することができる。

図２Ｂは、本願で説明される幾つかの実施形態によるグラフィックス・プロセッサ・コア２１９のハードウェア・ロジックのブロック図である。本願の任意の他の図面の要素と同じ参照番号（又は名称）を有する図２Ｂの要素は、本願の他の箇所に記載されるものと同様の何らかの方法で動作又は機能することが可能であるが、それに限定されない。グラフィックス・プロセッサ・コア２１９は、しばしばコア・スライスと呼ばれることもあり、モジュラ・グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアであるとすることが可能である。グラフィックス・プロセッサ・コア２１９は、１つのグラフィックス・コア・スライスの例であり、本願で説明するようなグラフィックス・プロセッサは、ターゲット・パワー及びパフォーマンス・エンベロープに基づく複数のグラフィックス・コア・スライスを含んでもよい。各グラフィックス・プロセッサ・コア２１９は、サブ・スライスとも呼ばれる複数のサブ・コア２２１Ａ−２２１Ｆと結合された固定機能ブロック２３０を含むことが可能であり、固定機能ブロックは、汎用及び固定機能ロジックのモジュラ・ブロックを含む。

幾つかの実施形態では、固定機能ブロック２３０は、グラフィックス・プロセッサ・コア２１９内の全てのサブ・コアによって、例えば、低パフォーマンス及び／又は低電力グラフィックス・プロセッサの実装において共有されることが可能なジオメトリ／固定機能パイプライン２３１を含む。様々な実施形態では、ジオメトリ／固定機能パイプライン２３１は、ビデオ・フロント・エンド・ユニット、スレッド・スパウナ（ｓｐａｗｎｅｒ）及びスレッド・ディスパッチャ、及び統一リターン・バッファを管理する統一リターンバッファマネージャ（例えば、後述するような図４の統一リターン・バッファ４１８）を含む、３Ｄ固定機能パイプライン（例えば、図３Ａ及び図４のような３Ｄパイプライン３１２）を含む。

一実施形態では、固定機能ブロック２３０は、グラフィックスＳｏＣインターフェース２３２、グラフィックス・マイクロコントローラ２３３、及びメディア・パイプライン２３４も含む。グラフィックスＳｏＣインターフェース２３２は、チップ集積回路上のシステム内のグラフィックス・プロセッサ・コア２１９と他のプロセッサ・コアとの間のインターフェースを提供する。グラフィックス・マイクロコントローラ２３３は、スレッド・ディスパッチ、スケジューリング、及びプリエンプションを含むグラフィックス・プロセッサ・コア２１９の様々な機能を管理するように構成することが可能なプログラマブル・サブ・プロセッサである。メディア・パイプライン２３４（例えば、図３Ａ及び図４のメディア・パイプライン３１６）は、画像及びビデオ・データを含むマルチ・メディア・データの復号化、符号化、前処理、及び／又は後処理を促進するロジックを含む。メディア・パイプライン２３４は、サブ・コア２２１−２２１Ｆ内の計算又はサンプリング・ロジックのための要求を介してメディア処理を実行する。

一実施形態では、ＳｏＣインターフェース２３２は、グラフィックス・プロセッサ・コア２１９が、共有最終レベル・キャッシュ・メモリ、システムＲＡＭ、及び／又は埋込みオンチップ又はオンパッケージＤＲＡＭなどのメモリ階層要素を含む、ＳｏＣ内の汎用アプリケーション・プロセッサ・コア及び／又はその他のコンポーネントと通信することを可能にする。また、ＳｏＣインターフェース２３２は、カメラ撮像パイプラインのようなＳｏＣ内の固定機能デバイスとの通信を可能にし、ＳｏＣ内のＣＰＵとグラフィックス・プロセッサ・コア２１９との間で共有されることが可能なグローバル・メモリ・アトミクスの使用を可能にし、及び／又は実施する。また、ＳｏＣインターフェース２３２は、グラフィックス・プロセッサ・コア２１９のための電力管理制御を実装し、グラフィック・コア２１９のクロック・ドメインとＳｏＣ内の他のクロック・ドメインとの間のインターフェースを可能にすることができる。一実施形態では、ＳｏＣインターフェース２３２は、グラフィックス・プロセッサ内の１つ以上のグラフィックス・コアの各々にコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャからのコマンド・バッファの受信を可能にする。コマンド及び命令は、メディア操作が実行される場合にはメディア・パイプライン２３４へ、グラフィックス処理操作が実行される場合にはジオメトリ及び固定機能パイプラインへ（例えば、ジオメトリ及び固定機能パイプライン２３１、ジオメトリ及び固定機能パイプライン２３７へ）ディスパッチされることができる。

グラフィックス・マイクロコントローラ２３３は、グラフィックス・プロセッサ・コア２１９に対する様々なスケジューリング及び管理タスクを実行するように構成されることができる。一実施形態では、グラフィックス・マイクロコントローラ２３３は、サブ・コア２２１Ａ−２２１Ｆ内の実行ユニット（ＥＵ）アレイ２２２Ａ−２２２Ｆ、２２４Ａ−２２４Ｆ内の種々のグラフィックス並列エンジンにおけるグラフィックス及び／又は計算ワークロード・スケジューリングを実行することができる。このスケジューリング・モデルでは、グラフィックス・プロセッサ・コア２１９を含むＳｏＣのＣＰＵコア上で実行されるホスト・ソフトウェアは、適切なグラフィックス・エンジンでスケジューリング動作を起動する複数のグラフィックス・プロセッサ・ドアのうちの１つのワークロードをサブミットすることができる。スケジューリング動作は、次に動作させるワークロードを決定すること、コマンド・ストリーマにワークロードをサブミットすること、エンジンにおいて実行している既存のワークロードをプリエンプトすること、ワークロードの進行をモニタリングすること、及び、ワークロードが完了したときにホスト・ソフトウェアに通知すること、を含む。一実施形態では、グラフィックス・マイクロコントローラ２３３はまた、グラフィックス・プロセッサ・コア２１９の低電力又はアイドル状態を促進することができ、システムのオペレーティング・システム及び／又はグラフィックス・ドライバ・ソフトウェアから独立して、低電力状態遷移にわたってグラフィックス・プロセッサ・コア２１９内のレジスタを保存及び復元する能力を、グラフィックス・プロセッサ・コア２１９に提供することができる。

グラフィックス・プロセッサ・コア２１９は、図示のサブ・コア２２１Ａ−２２１Ｆより多くても少なくてもよく、高々Ｎ個のモジュール式サブ・コアを有する可能性がある。Ｎ個のサブ・コアの各セットについて、グラフィックス・プロセッサ・コア２１９はまた、共有機能ロジック２３５、共有及び／又はキャッシュ・メモリ２３６、ジオメトリ／固定機能パイプライン２３７、並びに、種々のグラフィックスを加速し及び処理動作を計算するための追加的な固定機能ロジック２３８も含むことができる。共有機能ロジック２３５は、グラフィックス・プロセッサ・コア２１９内のＮ個のサブ・コア各々によって共有されることが可能な図４の共有機能ロジック４２０に関連する論理ユニット（例えば、サンプラ、数学、及び／又はスレッド間通信ロジック）を含むことができる。共有及び／又はキャッシュ・メモリ２３６は、グラフィックス・プロセッサ・コア２１９内のＮ個のサブ・コア２２１Ａ−２２１Ｆのセットのための最終レベルのキャッシュであるとすることができ、複数のサブ・コアによってアクセス可能な共有メモリとして機能することもできる。ジオメトリ／固定機能パイプライン２３７は、固定機能ブロック２３０内のジオメトリ／固定機能パイプライン２３１の代わりに包含されることが可能であり、同一又は類似の論理ユニットを含むことができる。

一実施形態では、グラフィックス・プロセッサ・コア２１９は、グラフィックス・プロセッサ・コア２１９によって使用される種々の固定機能加速ロジックを含むことが可能な追加の固定機能ロジック２３８を含む。一実施形態では、追加の固定機能ロジック２３８は、ポジション・オンリー・シェーディングで使用するための追加の幾何学的パイプラインを含む。ポジション・オンリー・シェーディングでは、２つのジオメトリ・パイプラインが存在し、ジオメトリ／固定機能パイプライン２３８、２３１内のフル（ｆｕｌｌ）ジオメトリ・パイプラインと、追加の固定機能ロジック２３８内に含まれ得る追加のジオメトリ・パイプラインであるカル（ｃｕｌｌ）パイプラインとである。一実施形態では、カル・パイプラインは、フル・ジオメトリ・パイプラインのトリミング・ダウンされたバージョンである。フル・パイプライン及びカル・パイプラインは、同一アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別々のコンテキストを有する。ポジション・オンリー・シェーディングは、廃棄された三角形の長期のカル処分（ｌｏｎｇｃｕｌｌｒｕｎｓ）を隠すことができ、場合によっては、シェーディングがより早期に完了することを可能にする。例えば一実施形態では、追加の固定機能ロジック２３８内のカル・パイプライン・ロジックは、メイン・アプリケーションと並列的にポジション・シェーダーを実行することができ、一般に、カル・パイプラインは、ピクセルのフレーム・バッファへのラスタライゼーション及びレンダリングを行うことなく、頂点の位置属性のみをフェッチし及びシェーディングするので、フル・パイプラインよりも速く、クリティカルな結果を生成する。カル・パイプラインは、生成されたクリティカルな結果を使用して、それらの三角形が選別されるかどうかによらず、全ての三角形に対する視認情報を計算することができる。フル・パイプライン（この例では、再生パイプラインと言及されてもよい）は、最終的にラスタライゼーション・フェーズに渡される可視三角形のみを遮蔽するために、選別された三角形をスキップするように、視認情報を使うことができる。

一実施形態では、追加の固定機能ロジック２３８は、機械学習トレーニング又は推論のための最適化を含む実装のために、固定機能行列乗算ロジックのような機械学習加速ロジックを含むこともできる。

各グラフィックス・サブ・コア２２１Ａ−２２１Ｆ内には一組の実行リソースが含まれ、それは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダー・プログラムによる要求に応じて、グラフィックス、メディア、及び計算の演算を実行するために使用されることが可能である。グラフィックス・サブ・コア２２１Ａ−２２１Ｆは、複数のＥＵアレイ２２２Ａ−２２２Ｆ、２２４Ａ−２２４Ｆ、スレッド・ディスパッチ及びスレッド間通信（ＴＤ／ＩＣ）ロジック２２３Ａ−２２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ２２５Ａ−２２５Ｆ、メディア・サンプラ２０６Ａ−２０６Ｆ、シェーダー・プロセッサ２２７Ａ−２２７Ｆ、及び共有ローカル・メモリ（ＳＬＭ）２２８Ａ−２２８Ｆを含む。ＥＵアレイ２２２Ａ−２２２Ｆ、２２４Ａ−２２４Ｆは、各々、複数の実行ユニットを含み、これらは、グラフィックス、メディア、又は計算の演算のサービスにおいて、グラフィックス、メディア、又は計算のシェーダー・プログラムを含む浮動小数点及び整数／固定小数点論理演算を実行することが可能な汎用のグラフィックス処理ユニットである。ＴＤ／ＩＣロジック２２３Ａ−２２３Ｆは、サブ・コア内の実行ユニットに対するローカル・スレッド・ディスパッチ及びスレッド制御動作を実行し、サブ・コアの実行ユニットで実行されるスレッド間の通信を促進する。３Ｄサンプラ２２５Ａ−２２５Ｆは、テクスチャ又はその他の３Ｄグラフィックス関連データをメモリに読み込むことができる。３Ｄサンプラは、設定されたサンプル状態と、所与のテクスチャに関連するテクスチャ・フォーマットとに基づいて、テクスチャ・データを別様に読み込むことができる。メディア・サンプラ２０６Ａ−２０６Ｆは、メディア・データに関連するタイプ及びフォーマットに基づいて、同様な読み込み動作を実行することができる。一実施形態では、各グラフィックス・サブ・コア２２１Ａ−２２１Ｆは、代替的に、統一された３Ｄ及びメディア・サンプラを含むことができる。各サブ・コア２２１Ａ−２２１Ｆ内の実行ユニットで実行されるスレッドは、各サブ・コア内の共有ローカル・メモリ２２８Ａ−２２８Ｆを使用して、スレッド・グループ内で実行されるスレッドが、オンチップ・メモリの共通プールを使用して実行できるようにすることができる。

図２Ｃは、マルチ・コア・グループ２４０Ａ−２４０Ｎに配置されたグラフィックス処理リソースの専用セットを含むグラフィックス処理ユニット（ＧＰＵ）２３９を示す。単一のマルチ・コア・グループ２４０Ａのみの詳細が提供されているが、他のマルチ・コア・グループ２４０Ｂ−２４０Ｎは、同じ又は類似のグラフィックス処理リソースのセットを備える可能性があることを理解されたい。

図示のように、マルチ・コア・グループ２４０Ａは、一組のグラフィックス・コア２４３、一組のテンソル・コア２４４、及び一組のレイ・トレーシング・コア２４５を含み得る。スケジューラ／ディスパッチャ２４１は、種々のコア２４３、２４４、２４５上で実行するためにグラフィックス・スレッドをスケジューリングし、ディスパッチする。一組のレジスタ・ファイル２４２は、グラフィックス・スレッドを実行する場合に、コア２４３、２４４、２４５によって使用されるオペランド値を記憶する。これらは、例えば、整数値を記憶するための整数レジスタ、浮動小数点値を記憶するための浮動小数点レジスタ、パックされたデータ要素（整数及び／又は浮動小数点データ要素）を記憶するためのベクトル・レジスタ、及び、テンソル／行列値を記憶するためのタイル・レジスタを含んでもよい。一実施形態では、タイル・レジスタは、ベクトル・レジスタの組み合わせられたセットとして実装される。

１つ以上の結合レベル１（Ｌ１）キャッシュ及び共有メモリ・ユニット２４７は、テクスチャ・データ、頂点データ、ピクセル・データ、光線データ、境界ボリューム・データなどのグラフィックス・データを、各マルチ・コア・グループ２４０Ａ内にローカルに記憶する。１つ以上のテクスチャ・ユニット２４７を使用して、テクスチャ・マッピング及びサンプリングなどのテクスチャリング操作を実行することもできる。マルチ・コア・グループ２４０Ａ−２４０Ｎの全て又はサブセットによって共有されるレベル２（Ｌ２）キャッシュ２５３は、複数の同時グラフィックス・スレッドのためのグラフィックス・データ及び／又は命令を格納する。図示のように、Ｌ２キャッシュ２５３は、複数のマルチ・コア・グループ２４０Ａ−２４０Ｎにわたって共有されてもよい。１つ以上のメモリ・コントローラ２４８は、ＧＰＵ２３９を、システム・メモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックス・メモリ（例えば、ＧＤＤＲ６メモリ）である可能性があるメモリ２４９に結合する。

入出力（Ｉ／Ｏ）回路２５０は、ＧＰＵ２３９を、デジタル信号プロセッサ（ＤＳＰ）、ネットワーク・コントローラ、又はユーザー入力装置などの１つ以上の入出力装置２５２に結合する。オンチップ相互接続を使用して、Ｉ／Ｏデバイス２５２をＧＰＵ２３９及びメモリ２４９に結合することができる。Ｉ／Ｏ回路２５０の１つ以上のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）２５１は、Ｉ／Ｏ装置２５２を、システム・メモリ２４９に直接的に結合する。一実施形態では、ＩＯＭＭＵ２５１は、仮想アドレスをシステム・メモリ２４９内の物理アドレスにマッピングするために、ページ・テーブルの複数のセットを管理する。この実施形態では、Ｉ／Ｏ装置２５２、ＣＰＵ２４６、及びＧＰＵ２３９は、同じ仮想アドレス空間を共有してもよい。

ある実装では、ＩＯＭＭＵ２５１は仮想化をサポートしている。この場合、ゲスト／グラフィックスの仮想アドレスを、ゲスト／グラフィックスの物理アドレスにマッピングするためのページ・テーブルの第１セットと、ゲスト／グラフィックスの物理アドレスを、システム／ホストの物理アドレスに（例えば、システム・メモリ２４９内に）マッピングするためのページ・テーブルの第２セットとを管理することができる。ページ・テーブルの第１及び第２セット各々のベース・アドレスは、制御レジスタに記憶され、コンテキスト・スイッチで交換されることが可能である（例えば、その結果、新しいコンテキストがページ・テーブルの関連するセットへのアクセスに提供される）。図２Ｃには示されていないが、コア２４３、２４４、２４５、及び／又はマルチ・コア・グループ２４０Ａ−２４０Ｎの各々は、ゲスト仮想からゲスト物理への変換、ゲスト物理からゲスト仮想への変換、及びゲスト仮想からホスト物理への変換をキャッシュするための変換ルックアサイド・バッファ（ＴＬＢ）を含むことが可能である。

一実施形態では、ＣＰＵ２４６、ＧＰＵ２３９、及びＩ／Ｏデバイス２５２は、単一の半導体チップ及び／又はチップ・パッケージに集積される。図示されたメモリ２４９は、同じチップ上に集積されてもよいし、或いはオフチップ・インターフェースを介してメモリ・コントローラ２４８に結合されてもよい。１つの実装では、メモリ２４９は、他の物理システム・レベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基礎となる原理は、この特定の実装に限定されない。

一実施形態では、テンソル・コア２４４は、ディープ・ラーニング演算を実行するために使用される基本的な計算演算である行列演算を実行するように、特に設計された複数の実行ユニットを含む。例えば、同時行列乗算演算は、ニューラル・ネットワーク・トレーニング及び推論のために使用されることが可能である。テンソル・コア２４４は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、及び半バイト（４ビット）を含む種々のオペランド精度を使用して行列処理を実行することができる。一実施形態では、ニューラル・ネットワークの実装は、複数のフレームからの詳細を潜在的に組み合わせて、レンダリングされた各シーンの特徴を抽出し、高品質の最終画像を構築する。

ディープ・ラーニングの実装では、並列行列乗算作業はテンソル・コア２４４での実行のためにスケジューリングされてもよい。ニューラル・ネットワークのトレーニングは、特に、かなりの数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積公式を処理するために、テンソル・コア２４４は、少なくともＮ個のドット積処理要素を含む可能性がある。行列乗算が始まる前に、１つの行列全体がタイル・レジスタにロードされ、第２行列の少なくとも１つの列が、Ｎサイクルの各サイクルでロードされる。サイクル毎に、処理されたＮ個のドット積が存在する。

行列要素は、１６ビット・ワード、８ビット・バイト（例えばＩＮＴ８）、４ビット半バイト（例えばＩＮＴ４）を含む、特定の実装に応じて異なる精度で格納されることが可能である。様々なワークロード（例えば、バイト及び半バイトへの量子化に耐えることが可能な推論ワークロードなど）に対して最も効率的な精度が使用されることを保証するために、異なる精度のモードがテンソル・コア２４４に指定されてもよい。

一実施形態では、レイ・トレーシング・コア２４５は、リアルタイム・レイ・トレーシング及び非リアルタイム・レイ・トレーシング実装の両方のためのレイ・トレーシング動作を加速する。特に、レイ・トレーシング・コア２４５は、境界ボリューム階層（ＢＶＨ）を使用してレイ・トラバースを実行し、ＢＶＨボリュームで囲まれた光線とプリミティブとの間の交わりを識別するためのレイ・トラバース／交わり回路を含む。レイ・トレーシング・コア２４５はまた、深度テスト及び選別を（例えば、Ｚバッファ又は同様の構成を使用して）実行するための回路を含んでもよい。一実施形態では、レイ・トレーシング・コア２４５は、本願で説明される画像ノイズ除去技術と協調して横断及び交差動作を行い、そのうちの少なくとも一部はテンソル・コア２４４で実行されてもよい。例えば、一実施形態では、テンソル・コア２４４は、レイ・トレーシング・コア２４５によって生成されたフレームのノイズ除去を実行するために、深層学習ニューラル・ネットワークを実装する。しかしながら、ＣＰＵ２４６、グラフィックス・コア２４３、及び／又はレイ・トレーシング・コア２４５は、ノイズ除去及び／又はディープ・ラーニング・アルゴリズムの全部又は一部を実装することもできる。

更に、上述のように、ＧＰＵ２３９がネットワーク又は高速相互接続を介して他のコンピューティング・デバイスに結合されたコンピューティング・デバイス内にある場合には、ノイズ除去の分散アプローチが使用されてもよい。この実施形態では、相互接続されたコンピューティング・デバイスは、ニューラル・ネットワーク学習／トレーニング・データを共有して、異なるタイプの画像フレーム及び／又は異なるグラフィックス・アプリケーションに対してノイズ除去を実行するためにシステム全体が学習する速度を改善する。

一実施形態では、レイ・トレーシング・コア２４５は、全てのＢＶＨトラバース及び光線−プリミティブ交差を処理し、グラフィックス・コア２４３が、光線当たり数千の命令で過負荷になるのを防ぐ。一実施形態では、各々のレイ・トレーシング・コア２４５は、境界ボックス・テスト（例えば、横断動作）を実施するための特殊回路の第１セットと、光線−三角形交差テスト（例えば、横切った交差光）を実行するための特殊回路の第２セットとを含む。従って、一実施形態では、マルチ・コア・グループ２４０Ａは、単に光線プローブを開始することができ、レイ・トレーシング・コア２４５は、独立して光線の横断及び交差を実行し、ヒット・データ（例えば、ヒット、ノー・ヒット、マルチ・ヒットなど）をスレッド・コンテキストに返す。他のコア２４３、２４４は、レイ・トレーシング・コア２４５が横断及び交差動作を実行する場合、他のグラフィックスを実行するか、又は他の作業を計算するために解放される。

一実施形態では、各々のレイ・トレーシング・コア２４５は、ＢＶＨテスト動作を実行するための横断ユニットと、光線−プリミティブ交差テストを実行する交差ユニットとを含む。交差ユニットは「ヒット」、「ノー・ヒット」、又は「マルチ・ヒット」の応答を生成し、それを適切なスレッドに提供する。横断及び交差動作の間に、他のコア（例えば、グラフィックス・コア２４３及びテンソル・コア２４４）の実行リソースは、他の形態のグラフィックス作業を実行するために解放される。

以下に説明される特定の一実施形態では、作業がグラフィックス・コア２４３とレイ・トレーシング・コア２４５との間で分配されるハイブリッド・ラスタライゼーション／レイ・トレーシング・アプローチが使用される。

一実施形態では、レイ・トレーシング・コア２４５（及び／又は他のコア２４３、２４４）は、ＤｉｓｐａｔｃｈＲａｙｓコマンドを含むマイクロソフトのＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）、及び、光線生成、最近接ヒット、任意ヒット、及びミス・シェーダーのようなレイ・トレーシング命令セットのためのハードウェア・サポートを含み、それは各オブジェクトに対するシェーダー及びテクスチャの固有のセットの割り当てを可能にする。レイ・トレーシング・コア２４５、グラフィックス・コア２４３、及びテンソル・コア２４４によってサポートされ得る別のレイ・トレーシング・プラットフォームは、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本発明の基本原理は、特定のレイ・トレーシングＩＳＡに限定されない。

一般に、種々のコア２４５、２４４、２４３は、光線生成、最近接ヒット、任意ヒット、光線−プリミティブ交差、プリミティブ及び階層関連の境界ボックス構成、ミス、ビジット、及び例外、に関する命令／機能を含むレイ・トレーシング命令セットをサポートすることができる。より具体的には、一実施形態は以下の機能を実行するためのレイ・トレーシング命令を含む：

光線生成 − 光線生成命令は、各ピクセル、サンプル、又は他のユーザー定義の作業割り当てに対して実行されることが可能である。

最近接ヒット − 最近接ヒット命令は、シーン内のプリミティブを有する光線の最も近い交点を発見するために実行されることが可能である。

任意ヒット − 任意ヒット命令は、シーン内の光線とプリミティブとの間の複数の交点を識別し、潜在的に新しい最も近い交点を識別する。

交差 − 交差命令は、光線−プリミティブ交差テストを行い、結果を出力する。

プリミティブ関連境界ボックス構成 − この命令は、（例えば、新しいＢＶＨ又は他の加速データ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループ周囲に境界ボックスを構築する。

ミス − 光線がシーン内の全てのジオメトリ、又はシーンの特定の領域にミスヒットであることを示す。

ビジット − 光線が横切ることになる子ボリュームを示す。

例外 − 様々なタイプの例外処理を含む（様々なエラー条件に対して呼び出される）。

図２Ｄは、本願で説明される実施形態に従って、グラフィックス・プロセッサ及び／又はコンピュータ・アクセラレータとして構成することが可能な汎用グラフィックス処理ユニット（ＧＰＧＰＵ）２７０のブロック図である。ＧＰＧＰＵ２７０は、１つ以上のシステム及び／又はメモリ・バスを介して、ホスト・プロセッサ（例えば、１つ以上のＣＰＵ２４６）及びメモリ２７１、２７２と相互接続することができる。一実施形態では、メモリ２７１は、１つ又は複数のＣＰＵ２４６と共有される可能性があるシステム・メモリであり、メモリ２７２は、ＧＰＧＰＵ２７０専用のデバイス・メモリである。一実施形態では、ＧＰＧＰＵ２７０及びデバイス・メモリ２７２内のコンポーネントは、１つ又は複数のＣＰＵ２４６にアクセスすることが可能なメモリ・アドレスにマッピングされてもよい。メモリ２７１及び２７２へのアクセスは、メモリ・コントローラ２６８により促進されることが可能である。一実施形態では、メモリ・コントローラ２６８は、内部直接メモリ・アクセス（ＤＭＡ）コントローラ２６９を含むか、或いは動作を実行するためのロジックを含むことが可能であり、そうでなければその動作はＤＭＡコントローラによって実行されるであろう。

ＧＰＧＰＵ２７０は、Ｌ２キャッシュ２５３、Ｌ１キャッシュ２５４、命令キャッシュ２５５、及び共有メモリ２５６を含む複数のキャッシュ・メモリを含み、そのうちの少なくとも一部がキャッシュ・メモリとして区分けされてもよい。ＧＰＧＰＵ２７０はまた、複数の計算ユニット２６０Ａ−２６０Ｎを含む。各コンピュータ・ユニット２６０Ａ−２６０Ｎは、ベクトル・レジスタ２６１、スカラ・レジスタ２６２、ベクトル論理ユニット２６３、及びスカラ論理ユニット２６４のセットを含む。計算ユニット２６０Ａ−２６０Ｎはまた、ローカル共用メモリ２６５及びプログラム・カウンタ２６６を含むことも可能である。計算ユニット２６０Ａ−２６０Ｎは、コンスタント・キャッシュ２６７と結合することが可能であり、コンスタント・キャッシュ２６７は、ＧＰＧＰＵ２７０上で実行されるカーネル又はシェーダー・プログラムの実行中に変化しないデータである定数データを格納するために使用されることが可能である。一実施形態では、コンスタント・キャッシュ２６７は、スカラ・データ・キャッシュであり、キャッシュされたデータは、スカラ・レジスタ２６２に直接的にフェッチされることが可能である。

動作中、１つ以上のＣＰＵ（複数可）２４６は、アクセス可能なアドレス空間にマップされるＧＰＧＰＵ２７０内のレジスタ又はメモリに、コマンドを書き込むことができる。コマンド・プロセッサ２５７は、レジスタ又はメモリからコマンドを読み込み、これらのコマンドがＧＰＧＰＵ２７０内でどのように処理されるかを決定することができる。次いで、スレッド・ディスパッチャ２５８は、スレッドを計算ユニット２６０Ａ−２６０Ｎにディスパッチして、これらのコマンドを実行することができる。各計算ユニット２６０Ａ−２６０Ｎは、他の計算ユニットとは独立してスレッドを実行することができる。更に、各々の計算ユニット２６０Ａ−２６０Ｎは、条件付きの計算のために独立して構成されることが可能であり、計算結果をメモリに条件付きで出力することができる。コマンド・プロセッサ２５７は、サブミットされたコマンドが完了した場合に、１つ以上のＣＰＵ２４６を中断することができる。

図３Ａ−３Ｃは、本願で説明する実施形態によって提供される追加のグラフィックス・プロセッサ及び計算アクセラレータ・アーキテクチャのブロック図を示す。本願の他の図の要素と同じ参照番号（又は名称）を有する図３Ａ−３Ｃの要素は、本願中の他の箇所に記載されているものと同様の方法で動作又は機能することが可能であるが、そのようには限定されない。

図３Ａは、グラフィックス・プロセッサ３００のブロック図であり、これは、別個のグラフィックス処理ユニットであってもよいし、又は、複数の処理コアと或いはメモリ・デバイス又はネットワーク・インターフェースなどの他の半導体デバイスと一体化されたグラフィックス・プロセッサであってもよいが、これらに限定されない。幾つかの実施形態では、グラフィックス・プロセッサは、グラフィックス・プロセッサ上のレジスタに対するメモリ・マップＩ／Ｏインターフェースを介して、及びプロセッサ・メモリ内に配置されたコマンドにより通信する。幾つかの実施形態では、グラフィックス・プロセッサ３００は、メモリにアクセスするためのメモリ・インターフェース３１４を含む。メモリ・インターフェース３１４は、ローカル・メモリ、１つ以上の内部キャッシュ、１つ以上の共有外部キャッシュ、及び／又はシステム・メモリへのインターフェースであるとすることができる。

一部の実施形態では、グラフィックス・プロセッサ３００は、ディスプレイ・デバイス３１８に対して表示出力データを駆動するディスプレイ・コントローラ３０２も含む。ディスプレイ・コントローラ３０２は、ビデオ又はユーザー・インターフェース要素の複数層の表示及び構成のための１つ以上のオーバーレイ・プレーンのためのハードウェアを含む。ディスプレイ・デバイス３１８は、内部又は外部ディスプレイ・デバイスであるとすることが可能である。一実施形態では、ディスプレイ・デバイス３１８は、仮想現実（ＶＲ）ディスプレイ・デバイス又は拡張現実（ＡＲ）ディスプレイ・デバイスのようなヘッド・マウント・ディスプレイ・デバイスである。幾つかの実施形態において、グラフィックス・プロセッサ３００は、１つ以上のメディア・エンコーディング・フォーマットへ、から、又は間で、メディアをエンコード、デコード、又はトランスコードするビデオ・コーデック・エンジン３０６を含み、フォーマットは、ＭＰＥＧ−２のようなＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣのようなＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）フォーマット、Ｈ．２６５／ＨＥＶＣ、ＡＯＭｅｄｉａ（ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ）ＶＰ８，ＶＰ９，並びに、ＳＭＰＴＥ（ｔｈｅＳｏｃｉｅｔｙｏｆＭｏｔｉｏｎＰｉｃｔｕｒｅ＆ＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ）４２１Ｍ／ＶＣ−１、そして、ＪＰＥＧ及びＭＪＰＥＧ（ＭｏｔｉｏｎＪＰＥＧ）のようなＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ（ＪＰＥＧ））フォーマットを含むがこれらに限定されない。

一部の実施形態では、グラフィックス・プロセッサ３００は、例えばビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ演算を実行するためにブロック画像転送（ＢＬＩＴ）エンジン３０４を含む。しかしながら、一実施形態では、２Ｄグラフィックス演算は、グラフィックス処理エンジン（ＧＰＥ）３１０の１つ以上のコンポーネントを使用して実行される。幾つかの実施態様において、ＧＰＥ３１０は、３次元（３Ｄ）グラフィックス演算及びメディア演算を含むグラフィックス演算を実行するための計算エンジンである。

一部の実施形態では、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、長方形、三角形など）に作用する処理機能を用いて３次元画像及びシーンを描画するなどの３Ｄ処理を実行するための３Ｄパイプライン３１２を含む。３Ｄパイプライン３１２は、要素内の様々なタスクを実行し、及び／又は３Ｄ／メディア・サブシステム３１５に実行スレッドを生成する、プログラマブル及び固定の機能要素を含む。３Ｄパイプライン３１２はメディア処理を実行するために使用されることが可能であるが、ＧＰＥ３１０の実施形態は、ビデオ後処理及び画像強調などのメディア処理を実行するために特に使用されるメディア・パイプライン３１６も含む。

一部の実施形態では、メディア・パイプライン３１６は、ビデオ・コーデック・エンジン３０６に代わって又はその代わりに、ビデオ・デコード加速、ビデオ・デインターレース、及びビデオ・エンコード加速などの、１つ以上の特殊なメディア処理を実行するための固定機能又はプログラマブル論理ユニットを含む。幾つかの実施形態では、メディア・パイプライン３１６は、更に、３Ｄ／メディア・サブシステム３１５での実行のためにスレッドを生成するスレッド生成ユニットを追加的に含む。生成されたスレッドは、３Ｄ／メディア・サブシステム３１５に含まれる１つ以上のグラフィックス実行ユニット上でメディア処理のための計算を実行する。

幾つかの実施態様において、３Ｄ／メディア・サブシステム３１５は、３Ｄパイプライン３１２及びメディア・パイプライン３１６によって生成されるスレッドを実行するためのロジックを含む。一実施形態では、パイプラインは、３Ｄ／メディア・サブシステム３１５にスレッド実行リクエストを送信し、これは、様々なリクエストを仲裁し、利用可能なスレッド実行リソースにディスパッチするためのスレッド・ディスパッチ・ロジックを含む。実行リソースは、３Ｄ及びメディア・スレッドを処理するためのグラフィックス実行ユニットのアレイを含む。幾つかの実施形態では、３Ｄ／メディア・サブシステム３１５は、スレッド命令及びデータのための１つ以上の内部キャッシュを含む。幾つかの実施形態では、サブシステムはまた、スレッド間でデータを共有し、出力データを記憶するために、レジスタ及びアドレス指定可能メモリを含む共有メモリを含む。

図３Ｂは、本願で説明される実施形態による、タイル状アーキテクチャを有するグラフィックス・プロセッサ３２０を示す。一実施形態では、グラフィックス・プロセッサ３２０は、グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄ内に図３Ａのグラフィックス・プロセッシング・エンジン３１０の複数のインスタンスを有するグラフィックス処理エンジン・クラスタ３２２を含む。各グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄは、タイル相互接続３２３Ａ−３２３Ｆのセットを介して相互接続されることが可能である。各グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄはまた、メモリ相互接続３２５Ａ−３２５Ｄを介してメモリ・モジュール又はメモリ・デバイス３２６Ａ−３２６Ｄに接続することもできる。メモリ・デバイス３２６Ａ−３２６Ｄは、任意のグラフィックス・メモリ技術を使用することができる。例えば、メモリ・デバイス３２６Ａ−３２６Ｄは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ）メモリであってもよい。メモリ・デバイス３２６Ａ−３２６Ｄは、一実施形態では、それら各自のグラフィックス・エンジン・タイル３１０Ａ−３１０Ｄとともにダイ上にある可能性がある高帯域幅メモリ（ＨＢＭ）モジュールである。一実施形態では、メモリ・デバイス３２６Ａ−３２６Ｄは、それら各自のグラフィックス・エンジン・タイル３１０Ａ−３１０Ｄの上に積み重ねられることが可能なスタック・メモリ・デバイスである。一実施形態では、各グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄ及び関連メモリ３２６Ａ−３２６Ｄは、図１１Ｂ−１１Ｄで更に詳細に説明されるように、ベース・ダイ又はベース基板に接合された別個のチプレット上に存在する。

グラフィックス・プロセッサ３２０は、メモリ・デバイス３２６Ａ−３２６Ｄが、関連するグラフィックス・エンジン・タイル３１０Ａ−３１０Ｄと結合される不均一メモリ・アクセス（ＮＵＭＡ）システムにより構成されることが可能である。所与のメモリ・デバイスは、それが直接的に接続されるタイル以外のグラフィックス・エンジン・タイルによってアクセスされてもよい。しかしながら、メモリ・デバイス３２６Ａ−３２６Ｄに対するアクセス待ち時間は、ローカル・タイルにアクセスする場合に最も小さいであろう。一実施形態では、キャッシュ・コヒーレントＮＵＭＡ（ｃｃＮＵＭＡ）システムは、タイル相互接続３２３Ａ−３２３Ｆを使用して、グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄ内のキャッシュ・コントローラ間の通信が、複数のキャッシュが同じメモリ位置を格納する場合に一貫したメモリ・イメージを維持することができるようにする。

グラフィックス処理エンジン・クラスタ３２２は、オンチップ又はオンパッケージ・ファブリック相互接続３２４と接続することができる。ファブリック相互接続３２４は、グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄと、ビデオ・コーデック３０６及び１つ以上のコピー・エンジン３０４などのコンポーネントと、の間の通信を可能にすることができる。コピー・エンジン３０４は、メモリ・デバイス３２６Ａ−３２６Ｄ及びグラフィックス・プロセッサ３２０の外部にあるメモリ（例えば、システム・メモリ）から、内へ、及び間で、データを移動させるために使用することができる。ファブリック相互接続３２４はまた、グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄを相互接続するために使用することも可能である。グラフィックス・プロセッサ３２０は、オプションとして、外部ディスプレイ・デバイス３１８との接続を可能にするためのディスプレイ・コントローラ３０２を含んでもよい。グラフィックス・プロセッサはまた、グラフィックス又は計算アクセラレータとして構成されることも可能である。アクセラレータ構成では、ディスプレイ・コントローラ３０２及びディスプレイ・デバイス３１８は省略されてもよい。

グラフィックス・プロセッサ３２０は、ホスト・インターフェース３２８を介してホスト・システムに接続することが可能である。ホスト・インターフェース３２８は、グラフィックス・プロセッサ３２０、システム・メモリ、及び／又は他のシステム・コンポーネント間の通信を可能にすることができる。ホスト・インターフェース３２８は、例えば、ＰＣＩエクスプレス・バス又は他のタイプのホスト・システム・インターフェースであるとすることが可能である。

図３Ｃは、本願で説明される実施形態による計算アクセラレータ３３０を示す。計算アクセラレータ３３０は、図３Ｂのグラフィックス・プロセッサ３２０に類似するアーキテクチャを含むことが可能であり、計算加速のために最適化される。計算エンジン・クラスタ３３２は、並列又はベクトル・ベースの汎用計算処理のために最適化された実行ロジックを含む一組の計算エンジン・タイル３４０Ａ−３４０Ｄを含むことができる。幾つかの実施形態では、計算エンジン・タイル３４０Ａ−３４０Ｄは、固定機能グラフィックス処理ロジックを含まないが、一実施形態では、計算エンジン・タイル３４０Ａ−３４０Ｄのうちの１つ以上は、メディア加速を実行するためのロジックを含むことができる。計算エンジン・タイル３４０Ａ−３４０Ｄは、メモリ相互接続３２５Ａ−３２５Ｄを介してメモリ３２６Ａ−３２６Ｄに接続することができる。メモリ３２６Ａ−３２６Ｄ及びメモリ相互接続３２５Ａ−３２５Ｄは、グラフィックス・プロセッサ３２０と同様な技術であってもよいし、或いは異なるものであるとすることも可能である。グラフィックス計算エンジン・タイル３４０Ａ−３４０Ｄはまた、タイル相互接続３２３Ａ−３２３Ｆのセットを介して相互接続されることが可能であり、ファブリック相互接続３２４と接続されること及び／又はファブリック相互接続３２４によって相互接続されることが可能である。一実施形態では、計算アクセラレータ３３０は、デバイス・ワイド・キャッシュとして構成されることが可能な大きなＬ３キャッシュ３３６を含む。計算アクセラレータ３３０はまた、図３Ｂのグラフィックス・プロセッサ３２０と同様な方法で、ホスト・インターフェース３２８を介してホスト・プロセッサ及びメモリに接続することができる。

グラフィックス処理エンジン
図４は、幾つかの実施形態によるグラフィックス・プロセッサのグラフィックス処理エンジン４１０のブロック図である。一実施形態では、グラフィックス処理エンジン（ＧＰＥ）４１０は、図３Ａに示されるＧＰＥ３１０のバージョンであり、図３Ｂのグラフィックス・エンジン・タイル３１０Ａ−３１０Ｄを表現してもよい。本願の任意の他の図の要素と同じ参照番号（又は名称）を有する図４の要素は、本願の他の箇所に記載されたものと同様の方法で動作又は機能することが可能であるが、そのようには限定されない。例えば、図３Ａの３Ｄパイプライン３１２及びメディア・パイプライン３１６が示されている。メディア・パイプライン３１６は、ＧＰＥ４１０の幾つかの実施形態ではオプションであり、ＧＰＥ４１０内に明示的に含まれなくてもよい。例えば少なくとも１つの実施形態において、別個のメディア及び／又は画像プロセッサはＧＰＥ４１０に結合される。

幾つかの実施態様において、ＧＰＥ４１０は、３Ｄパイプライン３１２及び／又はメディア・パイプライン３１６にコマンド・ストリームを提供するコマンド・ストリーマ４０３と結合する又はそれを含む。幾つかの実施形態では、コマンド・ストリーマ４０３は、システム・メモリ、又は内部キャッシュ・メモリ及び共有キャッシュ・メモリのうちの１つ以上であるとすることが可能なメモリに結合される。幾つかの実施態様において、コマンド・ストリーマ４０３は、メモリからコマンドを受信し、コマンドを３Ｄパイプライン３１２及び／又はメディア・パイプライン３１６に送信する。コマンドは、３Ｄパイプライン３１２及びメディア・パイプライン３１６のためのコマンドを格納するリング・バッファからフェッチされるディレクティブである。一実施形態では、リング・バッファは、複数のコマンドのバッチを格納するバッチ・コマンド・バッファを追加的に含むことができる。また、３Ｄパイプライン３１２のためのコマンドは、３Ｄパイプライン３１２のための頂点及び幾何学的データ、及び／又はメディア・パイプライン３１６のための画像データ及びメモリ・オブジェクトなど、メモリに格納されたデータへの参照を含むことも可能であるが、これらに限定されない。３Ｄパイプライン３１２及びメディア・パイプライン３１６は、それぞれのパイプライン内のロジックにより動作を実行することによって、又は１つ以上の実行スレッドをグラフィックス・コア・アレイ４１４にディスパッチすることによって、コマンド及びデータを処理する。一実施形態では、グラフィックス・コア・アレイ４１４は、グラフィックス・コアの１つ以上のブロック（例えば、グラフィックス・コア４１５Ａ、グラフィックス・コア４１５Ｂ）を含み、各ブロックは１つ以上のグラフィックス・コアを含む。各グラフィックス・コアは、グラフィックス及び計算の処理を実行するための汎用及びグラフィックス特有の実行ロジック、並びに固定機能テクスチャ処理及び／又は機械学習及び人工知能加速ロジック、を含むグラフィックス実行リソースのセットを含む。

様々な実施形態では、３Ｄパイプライン３１２は、命令を処理し、実行スレッドをグラフィックス・コア・アレイ４１４にディスパッチことによって、頂点シェーダー、ジオメトリ・シェーダー、ピクセル・シェーダー、フラグメント・シェーダー、計算シェーダー、又はその他のシェーダー・プログラムなどの１つ以上のシェーダー・プログラムを処理するために、固定機能及びプログラマブル・ロジックを含むことが可能である。グラフィックス・コア・アレイ４１４は、これらのシェーダー・プログラムを処理する際に使用する実行リソースの統一ブロックを提供する。グラフィックス・コア・アレイ４１４のグラフィックス・コア４１５Ａ−４１４Ｂ内の多目的実行ロジック（例えば実行ユニット）は、様々な３ＤＡＰＩシェーダー言語のサポートを含み、複数のシェーダーに関連する複数の同時実行スレッドを実行することが可能である。

一部の実施形態では、グラフィックス・コア・アレイ４１４は、ビデオ及び／又は画像処理などのメディア機能を実行するための実行ロジックを含む。一実施形態では、実行ユニットは、グラフィックス処理動作に加えて、並列汎用計算動作を実行するようにプログラム可能な汎用ロジックを含む。汎用ロジックは、図１のプロセッサ・コア１０７又は図２Ａにおけるもののようなコア２０２Ａ−２０２Ｎ内の汎用ロジックと並列的に又は関連して処理動作を実行することができる。

グラフィックス・コア・アレイ４１４上で実行するスレッドによって生成される出力データは、統一リターン・バッファ（ＵＲＢ）４１８内のメモリへデータを出力することができる。ＵＲＢ４１８は、複数のスレッドのデータを格納することができる。幾つかの実施形態において、ＵＲＢ４１８は、グラフィックス・コア・アレイ４１４上で実行される異なるスレッド間でデータを送信するために使用されてもよい。幾つかの実施形態において、ＵＲＢ４１８は、グラフィックス・コア・アレイ上のスレッドと、共有機能ロジック４２０内の固定機能ロジックとの間の同期のために追加的に使用されてもよい。

幾つかの実施態様において、グラフィックス・コア・アレイ４１４は、アレイが可変数のグラフィックス・コアを含むようにスケーラブルであり、その結果、各々がＧＰＥ４１０の目標パワー及びパフォーマンス・レベルに基づいて可変数の実行ユニットを有する。一実施形態では、実行リソースは動的にスケーラブルであり、その結果、実行リソースは必要に応じてイネーブル又はディセーブルにされてもよい。

グラフィックス・コア・アレイ４１４は、グラフィックス・コア・アレイ内のグラフィックス・コア間で共有される複数のリソースを含む共有機能ロジック４２０と結合する。共有機能ロジック４２０内の共有機能は、グラフィックス・コア・アレイ４１４に特殊補足機能を提供するハードウェア論理ユニットである。様々な実施形態において、共有機能ロジック４２０は、サンプラ４２１、マス（ｍａｔｈ）４２２、及びスレッド間通信（ＩＴＣ）４２３ロジックを含むが、これらに限定されない。更に、幾つかの実施形態は、共有機能ロジック４２０内に１つ以上のキャッシュ４２５を実装する。

共有機能は、所与の特殊な機能に対する需要がグラフィックス・コア・アレイ４１４内に含めるには不十分である場合に少なくとも実装される。その代わりに、その特殊機能の単一インスタンスは、共有機能ロジック４２０内のスタンド・アロン・エンティティとして実装され、グラフィックス・コア・アレイ４１４内の実行リソース間で共有される。グラフィックス・コア・アレイ４１４間で共有され、グラフィックス・コア・アレイ４１４内に含まれる機能の正確なセットは、実施形態によって異なる。幾つかの実施形態では、グラフィックス・コア・アレイ４１４によって広く使用される共有機能ロジック４２０内の特定の共有機能は、グラフィックス・コア・アレイ４１４内の共有機能ロジック４１６内に含まれてもよい。様々な実施形態では、グラフィックス・コア・アレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部又は全部のロジックを含むことができる。一実施形態では、共有機能ロジック４２０内の全てのロジック要素は、グラフィックス・コア・アレイ４１４の共有機能ロジック４１６内で重複している可能性がある。一実施形態では、共有機能ロジック４２０は、グラフィックス・コア・アレイ４１４内の共有機能ロジック４１６のために除外される。

実行ユニット
図５Ａ−５Ｂは、本願で説明される実施形態による、グラフィックス・プロセッサ・コアに使用される処理要素のアレイを含むスレッド実行ロジック５００を示す。本願の他の図の要素と同じ参照番号（又は名称）を有する図５Ａ−図５Ｂの要素は、本願の他の箇所に記載されているものと同様の方法で動作又は機能することができるが、そのようには限定されない。図５Ａ−５Ｂは、図２Ｂの各サブ・コア２２１Ａ−２２１Ｆで示されるハードウェア・ロジックを表すことが可能なスレッド実行ロジック５００の概要を示す。図５Ａは汎用グラフィックス・プロセッサ内の実行ユニットを表現し、図５Ｂはコンピュータ・アクセラレータ内で使用されてもよい実行ユニットを表現する。

図５Ａに示すように、幾つかの実施形態では、スレッド実行ロジック５００は、シェーダー・プロセッサ５０２、スレッド・ディスパッチャ５０４、命令キャッシュ５０６、複数の実行ユニット５０８Ａ−５０８Ｎを含むスケーラブル実行ユニット、サンプラ５１０、共有ローカル・メモリ５１１、データ・キャッシュ５１２、及びデータ・ポート５１４を含む。一実施形態では、スケーラブル実行ユニット・アレイは、ワークロードの計算要件に基づいて、１つ又は複数の実行ユニット（例えば、実行ユニット５０８Ａ、５０８Ｂ、５０８Ｃ、５０８Ｄ、ないし５０８Ｎ−１及び５０８Ｎのいずれか）をイネーブル又はディセーブルにすることによって、動的にスケーリングすることが可能である。一実施形態では、包含されるコンポーネントは、コンポーネントの各々にリンクする相互接続構造を介して相互接続される。幾つかの実施形態では、スレッド実行ロジック５００は、命令キャッシュ５０６、データ・ポート５１４、サンプラ５１０、及び実行ユニット５０８Ａ−５０８Ｎのうちの１つ以上を介して、システム・メモリ又はキャッシュ・メモリなどのメモリに対する１つ以上の接続を含む。幾つかの実施形態では、各実行ユニット（例えば、５０８Ａ）は、複数の同時ハードウェア／スレッドを実行する一方、各スレッドに対して複数のデータ要素を並列に処理することが可能なスタンドアロンのプログラマブル汎用計算ユニットである。様々な実施形態では、実行ユニット５０８Ａ−５０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

一部の実施形態では、実行ユニット５０８Ａ−５０８Ｎは主にシェーダー・プログラムを実行するために使用される。シェーダー・プロセッサ５０２は、様々なシェーダー・プログラムを処理し、スレッド・ディスパッチャ５０４を介してシェーダー・プログラムに関連付けられた実行スレッドをディスパッチすることができる。一実施形態では、スレッド・ディスパッチャは、グラフィックス及びメディア・パイプラインからのスレッド開始要求を調停し、実行ユニット５０８Ａ−５０８Ｎ内の１つ以上の実行ユニットにおける要求されたスレッドをインスタンス化するロジックを含む。例えば、ジオメトリ・パイプラインは、頂点、テセレーション、又はジオメトリ・シェーダーを、処理のためにスレッド実行ロジックにディスパッチすることができる。幾つかの実施形態では、スレッド・ディスパッチャ５０４は、実行中のシェーダー・プログラムからのランタイム・スレッド生成要求を処理することもできる。

一部の実施形態では、実行ユニット５０８Ａ−５０８Ｎは、多くの標準３Ｄグラフィックス・シェーダー命令に対するネイティブ・サポートを含む命令セットをサポートし、その結果、グラフィックス・ライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダー・プログラムが最小限の変換で実行される。実行ユニットは、頂点と幾何学的処理（例えば、頂点プログラム、幾何学プログラム、頂点シェーダー）、ピクセル処理（例えば、ピクセル・シェーダー、フラグメント・シェーダー）、及び汎用処理（例えば、計算及びメディア・シェーダー）をサポートする。実行ユニット５０８Ａ−５０８Ｎの各々は、マルチ・イシュー・シングル命令複数データ（ＳＩＭＤ）の実行が可能であり、マルチ・スレッド動作は、より高いレイテンシ・メモリ・アクセスに直面する場合に効率的な実行環境を可能にする。各実行ユニット内の各ハードウェア・スレッドは、専用の高帯域幅レジスタ・ファイル及び関連する独立したスレッド・ステートを有する。実行は、整数、単精度及び倍精度の浮動小数点演算、ＳＩＭＤ分岐能力、論理演算、超越演算、及びその他の演算を行うことが可能なパイプラインに対するクロック毎のマルチ・イシューである。メモリ又は共有機能の１つからのデータを待機する間、実行ユニット５０８Ａ−５０８Ｎ内の依存性ロジックは、要求されたデータが返されるまで、待機しているスレッドをスリープさせる。待機スレッドがスリープしている間、ハードウェア・リソースは、他のスレッドの処理に割り当てられてもよい。例えば、頂点シェーダー動作に関連する遅延の間、実行ユニットは、ピクセル・シェーダー、フラグメント・シェーダー、又は別のタイプのシェーダー・プログラム（頂点シェーダーを含む）の動作を実行することが可能である。種々実施形態は、ＳＩＭＤを使用する代替として、又はＳＩＭＤの使用に加えて、単一命令複数スレッド（ＳＩＭＴ）の使用による実行の使用に適用されることが可能である。ＳＩＭＤコア又は動作に対する参照は、ＳＩＭＴに適用することも可能であり、或いはＳＩＭＴとの組み合わせでＳＩＭＤにも適用することも可能である。

実行ユニット５０８Ａ−５０８Ｎの各実行ユニットは、データ要素のアレイに関して動作する。データ要素の数は「実行サイズ」、即ち命令のチャネル数である。実行チャネルは、命令内のデータ要素アクセス、マスキング、及びフロー制御のための実行の論理的な単位である。チャネル数は、特定のグラフィックス・プロセッサのための物理的な算術論理ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数とは独立していてもよい。幾つかの実施形態では、実行ユニット５０８Ａ−５０８Ｎは、整数及び浮動小数点データ・タイプをサポートする。

実行ユニット命令セットはＳＩＭＤ命令を含む。種々のデータ要素は、パックされたデータ・タイプとしてレジスタに記憶することが可能であり、実行ユニットは、要素のデータ・サイズに基づいて種々の要素を処理する。例えば、２５６ビット幅のベクトルに関して動作する場合、ベクトルの２５６ビットはレジスタに格納され、実行ユニットは、４つの別々の５４ビット・パック・データ要素（Ｑｕａｄ−Ｗｏｒｄ（ＱＷ）サイズ・データ要素）、８つの別々の３２ビット・パック・データ要素（ＤｏｕｂｌｅＷｏｒｄ（ＤＷ）サイズ・データ要素）、１６個の別々の１６ビットパック・データ要素（Ｗｏｒｄ（Ｗ）サイズ・データ要素）、又は３２個の別々の８ビット・データ要素（バイト（Ｂ）サイズ・データ要素）としてベクトルに関して動作する。しかしながら、異なるベクトル幅及びレジスタ・サイズが可能である。

一実施形態では、１つ以上の実行ユニットは、融合したＥＵに共通するスレッド制御ロジック（５０７Ａ−５０７Ｎ）を有する融合実行ユニット５０９Ａ−５０９Ｎに組み合わせられることが可能である。複数のＥＵはＥＵグループに融合させることが可能である。融合ＥＵグループ内の各ＥＵは、別々のＳＩＭＤハードウェア・スレッドを実行するように構成することが可能である。融合ＥＵグループ内のＥＵの数は、実施形態に応じて変えることが可能である。更に、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含む様々なＳＩＭＤ幅は、ＥＵごとに実行されることが可能であるが、これらに限定されない。各々の融合グラフィックス実行ユニット５０９Ａ−５０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット５０９Ａは、第１ＥＵ５０８Ａと、第２ＥＵ５０８Ｂと、第１ＥＵ５０８Ａ及び第２ＥＵ５０８Ｂに共通するスレッド制御ロジック５０７Ａとを含む。スレッド制御ロジック５０７Ａは、融合グラフィックス実行ユニット５０９Ａ上で実行されるスレッドを制御し、融合実行ユニット５０９Ａ−５０９Ｎ内の各ＥＵが、共通の命令ポインタ・レジスタを使用して実行することを可能にする。

実行ユニットに対するスレッド命令をキャッシュするために、１つ以上の内部命令キャッシュ（例えば５０６）は、スレッド実行ロジック５００に含まれる。幾つかの実施形態では、１つ以上のデータ・キャッシュ（例えば５１２）は、スレッド実行中にスレッド・データをキャッシュするために含まれる。実行ロジック５００上で実行されるスレッドはまた、明示的に管理されたデータを、共有ローカル・メモリ５１１に記憶することも可能である。幾つかの実施態様において、サンプラ５１０は、３Ｄ処理のためのテクスチャ・サンプリング及びメディア処理のためのメディア・サンプリングを提供するために含まれる。幾つかの実施形態では、サンプラ５１０は、サンプリングされたデータを実行ユニットに提供する前に、サンプリング・プロセス中にテクスチャ又はメディア・データを処理するための特殊なテクスチャ又はメディア・サンプリング機能を含む。

実行中に、グラフィックス及びメディア・パイプラインは、スレッド開始要求をスレッド実行ロジック５００へ、スレッド生成及びディスパッチ・ロジックを介して送信する。一旦、ジオメトリック・オブジェクトのグループが処理され、ピクセル・データにラスタライズされると、シェーダー・プロセッサ５０２内のピクセル・プロセッサ・ロジック（例えば、ピクセル・シェーダー・ロジック、フラグメント・シェーダー・ロジックなど）が、出力情報を更に計算し、結果が出力表面（例えば、カラー・バッファ、デプス・バッファ、ステンシル・バッファなど）に書き込まれるように呼び出される。幾つかの実施形態では、ピクセル・シェーダー又はフラグメント・シェーダーは、ラスタライズされたオブジェクトにわたって補間されるべき様々な頂点属性の値を計算する。幾つかの実施形態では、シェーダー・プロセッサ５０２内のピクセル・プロセッサ・ロジックは、次いで、アプリケーション・プログラミング・インターフェース（ＡＰＩ）供給ピクセル又はフラグメント・シェーダー・プログラムを実行する。シェーダー・プログラムを実行するために、シェーダー・プロセッサ５０２は、スレッド・ディスパッチャ５０４を介して実行ユニット（例えば、５０８Ａ）にスレッドをディスパッチする。幾つかの実施形態では、シェーダー・プロセッサ５０２は、メモリに記憶されたテクスチャ・マップ内のテクスチャ・データにアクセスするために、サンプラ５１０内のテクスチャ・サンプリング・ロジックを使用する。テクスチャ・データ及び入力ジオメトリ・データに対する算術演算は、各々の幾何学的断片についてピクセル・カラー・データを計算するか、又は１つ以上のピクセルを更なる処理から排除する。

一部の実施形態では、データ・ポート５１４は、スレッド実行ロジック５００にメモリ・アクセス機構を提供し、処理されたデータをメモリに出力し、グラフィックス・プロセッサ出力パイプラインにおける更なる処理に備える。幾つかの実施形態では、データ・ポート５１４は、データ・ポートを介してメモリ・アクセスのためのデータをキャッシュするために、１つ以上のキャッシュ・メモリ（例えば、データ・キャッシュ５１２）を含むか、又はそれに結合する。

一実施形態では、実行ロジック５００はまた、レイ・トレーシング加速機能を提供することが可能なレイ・トレーサ５０５を含むことも可能である。レイ・トレーサ５０５は、光線発生のための命令／機能を含むレイ・トレーシング命令セットをサポートすることができる。レイ・トレーシング命令セットは、図２Ｃのレイ・トレーシング・コア２４５によってサポートされるレイ・トレーシング命令セットと類似していること、又は相違していることが可能である。

図５Ｂは、実施形態による実行ユニット５０８の例示的な内部詳細を示す。グラフィックス実行ユニット５０８は、命令フェッチ・ユニット５３７、汎用レジスタ・ファイル・アレイ（ＧＲＦ）５２４、アーキテクチャ・レジスタ・ファイル・アレイ（ＡＲＦ）５２６、スレッド・アービタ５２２、送信ユニット５３０、分岐ユニット５３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４のセット、及び一実施形態では専用整数ＳＩＭＤＡＬＵ５３５のセットを含むことができる。ＧＲＦ５２４及びＡＲＦ５２６は、グラフィックス実行ユニット５０８においてアクティブである可能性がある、同時ハードウェア・スレッド各々に関連する汎用レジスタ・ファイル及びアーキテクチャ・レジスタ・ファイルのセットを含む。一実施形態では、スレッド毎のアーキテクチャ状態はＡＲＦ５２６内に維持され、スレッド実行中に使用されるデータはＧＲＦ５２４内に記憶される。各スレッドに対する命令ポインタを含む各スレッドの実行状態は、ＡＲＦ５２６内のスレッド特有のレジスタに保持することができる。

一実施形態では、グラフィックス実行ユニット５０８は、同時マルチ・スレッディング（ＳＭＴ）と微細インターリーブ・マルチ・スレッディング（ＩＭＴ）との組み合わせであるアーキテクチャを有する。アーキテクチャは、同時スレッドの目標数及び実行ユニット当たりのレジスタ数に基づいて、設計時に微調整可能なモジュール構成を有し、ここで、実行ユニット・リソースは複数の同時スレッドを実行するために使用されるロジックにわたって分割される。グラフィックス実行ユニット５０８によって実行されることが可能な論理スレッドの数は、ハードウェア・スレッドの数に限定されず、複数の論理スレッドは各ハードウェア・スレッドに割り当てられることが可能である。

一実施形態では、グラフィックス実行ユニット５０８は、それぞれ異なる命令であってもよい複数の命令を共に発行することができる。グラフィックス実行ユニット・スレッド５０８のスレッド・アービタ５２２は、実行のために、送信ユニット５３０、分岐ユニット５３２、又はＳＩＭＤＦＰＵのうちの１つに命令をディスパッチすることができる。各々の実行スレッドは、ＧＲＦ５２４内の１２８個の汎用レジスタにアクセスすることが可能であり、各レジスタは３２バイトを記憶することができ、３２ビット・データ要素のＳＩＭＤ８要素ベクトルとしてアクセス可能である。一実施形態では、各々の実行ユニット・スレッドは、ＧＲＦ５２４内の４Ｋバイトに対するアクセスを有するが、実施形態はそれに限定されず、他の実施形態では、より大きな又はより少ないレジスタ・リソースが提供される可能性がある。一実施形態では、グラフィックス実行ユニット５０８は、計算演算を独立して実行することが可能な７つのハードウェア・スレッドに分けられるが、実行ユニット当たりのスレッドの数も実施形態に従って変わることが可能である。例えば、一実施形態では、最大１６個のハードウェア・スレッドがサポートされる。７つのスレッドが４Ｋバイトにアクセスする可能性がある実施形態では、ＧＲＦ５２４は合計２８Ｋバイトを記憶することができる。１６スレッドが４Ｋバイトにアクセスできる場合、ＧＲＦ５２４は合計６４Ｋバイトを格納することができる。フレキシブル・アドレッシング・モードは、レジスタが一緒にアドレス指定され、より広いレジスタを効果的に構築したり、ストライドした長方形ブロック・データ構造を表現したりすることを許容することができる。

一実施形態では、メモリ動作、サンプラ動作、及び他のより長い待ち時間のシステム通信は、メッセージ通過送信ユニット５３０によって実行される「送信」命令によりディスパッチされる。一実施形態では、分岐命令は、ＳＩＭＤ多様性及び最終的な収束を促進するために、専用分岐ユニット５３２にディスパッチされる。

一実施形態では、グラフィックス実行ユニット５０８は、浮動小数点演算を実行するために１つ以上のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４を含む。一実施形態では、ＦＰＵ（複数可）５３４も整数計算をサポートする。一実施形態では、ＦＰＵ５３４は、Ｍ個の３２ビット浮動小数点（又は整数）演算までのＳＩＭＤを実行することができ、又は、２Ｍ個の１６ビット整数又は１６ビット浮動小数点演算までＳＩＭＤを実行することができる。一実施形態では、ＦＰＵのうちの少なくとも１つは、高スループット超越数学関数及び倍精度５４ビット浮動小数点をサポートする拡張数学機能を提供する。幾つかの実施形態において、８ビット整数ＳＩＭＤＡＬＵ５３５のセットも存在し、機械学習計算に関連する動作を実行するために特別に最適化されてもよい。

一実施形態では、グラフィックス実行ユニット５０８の複数インスタンスのアレイは、グラフィックス・サブ・コア・グループ化（例えば、サブ・スライス）でインスタンス化されることが可能である。スケーラビリティのために、製品アーキテクトはサブ・コア・グループごとに正確な数の実行ユニットを選択することができる。一実施形態では、実行ユニット５０８は、複数の実行チャネルにわたって命令を実行することができる。更なる実施形態では、グラフィックス実行ユニット５０８上で実行される各スレッドは、異なるチャネルで実行される。

図６は、一実施形態による追加的な実行ユニット６００を示す。実行ユニット６００は、例えば図３Ｃにおけるもののようなコンピュータ・エンジン・タイル３４０Ａ−３４０Ｄで使用するための計算に最適化された実行ユニットであってもよいが、そのようには限定されない。また、図３Ｂに示すように、グラフィックス・エンジン・タイル３１０Ａ−３１０Ｄにおいて、実行ユニット６００の変形例が使用されてもよい。一実施形態では、実行ユニット６００は、スレッド制御ユニット６０１、スレッド状態ユニット６０２、命令フェッチ／プリフェッチ・ユニット６０３、及び命令デコード・ユニット６０４を含む。実行ユニット６００は、更に、実行ユニット内でハードウェア・スレッドに割り当てることが可能なレジスタを記憶するレジスタ・ファイル６０６を含む。実行ユニット６００は送信ユニット６０７及び分岐ユニット６０８を追加的に含む。一実施形態では、送信ユニット６０７及び分岐ユニット６０８は、図５Ｂのグラフィックス実行ユニット５０８の送信ユニット５３０及び分岐ユニット５３２と同様に動作することが可能である。

実行ユニット６００は、複数の異なるタイプの機能ユニットを含む計算ユニット６１０も含む。一実施形態では、計算ユニット６１０は、算術論理ユニットのアレイを含むＡＬＵユニット６１１を含む。ＡＬＵユニット６１１は、６４ビット、３２ビット、及び１６ビットの整数及び浮動小数点の演算を実行するように構成することができる。整数及び浮動小数点の演算は同時に実行されてもよい。計算ユニット６１０はまた、シストリック・アレイ６１２、及び数学ユニット６１３を含むことも可能である。シストリック・アレイ６１２は、シストリック方式でベクトル又は他のデータ並列演算を実行するために使用されることが可能なデータ処理ユニットのＷ幅及びＤ深度のネットワークを含む。一実施形態では、シストリック・アレイ６１２は、行列ドット積演算などの行列演算を実行するように構成されることが可能である。一実施形態では、シストリック・アレイ６１２は、１６ビット浮動小数点演算、そして８ビット及び４ビット整数演算をサポートする。一実施形態では、シストリック・アレイ６１２は、機械学習演算を加速するように構成されることが可能である。そのような実施形態では、シストリック・アレイ６１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットをサポートするように構成されることが可能である。一実施形態では、数学ユニット６１３は、ＡＬＵユニット６１１よりも効率的で低電力な方法で数学的演算の特定のサブセットを実行するために含まれることが可能である。数学ユニット６１３は、他の実施形態によって提供されるグラフィックス処理エンジンの共有機能ロジックに見受けられる数学ロジックの変形（例えば、図４の共有機能ロジック４２０の数学ロジック４２２）を含むことができる。一実施形態では、数学ユニット６１３は、３２ビット及び６４ビットの浮動小数点演算を行うように構成されることが可能である。

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始、停止、及びプリエンプトするスレッド調停ロジックを含むことができる。スレッド状態ユニット６０２は、実行ユニット６００上で実行するために割り当てられたスレッドに対するスレッド状態を記憶するために使用されることが可能である。実行ユニット６００内にスレッド状態を格納することは、これらのスレッドがブロックされ又はアイドルになった場合に、スレッドの迅速なプリエンプションを可能にする。命令フェッチ／プリフェッチ・ユニット６０３は、より高いレベルの実行ロジックの命令キャッシュ（例えば、図５Ａにおけるもののような命令キャッシュ５０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチ・ユニット６０３はまた、現在実行中のスレッドの分析に基づいて、命令キャッシュにロードされる命令に対するプリフェッチ要求を発行することができる。命令デコード・ユニット６０４は、計算ユニットによって実行される命令をデコードするために使用されることが可能である。一実施形態では、命令デコード・ユニット６０４は、複雑な命令を、マイクロ・オペレーション成分にデコードするための２次デコーダとして使用されることが可能である。

実行部６００は、実行ユニット６００上で実行するハードウェア・スレッドによって使用されることが可能なレジスタ・ファイル６０６を追加的に含む。レジスタ・ファイル６０６内のレジスタは、実行ユニット６００の計算ユニット６１０内で複数の同時スレッドを実行するために使用されるロジックにわたって分割されることが可能である。グラフィックス実行ユニット６００によって実行される可能性がある論理スレッドの数は、ハードウェア・スレッドの数に限定されず、複数の論理スレッドが各ハードウェア・スレッドに割り当てられることが可能である。レジスタ・ファイル６０６のサイズは、サポートされるハードウェア・スレッドの数に基づいて、実施形態に応じて変わることが可能である。一実施形態では、レジスタのリネームは、ハードウェア・スレッドにレジスタを動的に割り当てるために使用されることが可能である。

図７は、幾つかの実施形態によるグラフィックス・プロセッサ命令フォーマット７００を示すブロック図である。１つ以上の実施形態において、グラフィックス・プロセッサ実行ユニットは、複数フォーマットにおいて命令を有する命令セットをサポートする。実線のボックスは、実行ユニット命令に一般的に含まれる成分を示す一方、破線は、オプション的である成分、又は命令のサブセットに含まれるだけの成分を含む。幾つかの実施形態では、説明され図示されたる命令フォーマット７００は、命令が処理されると命令デコードから生じるマイクロ・オペレーションとは対照的に、それらは実行ユニットに供給される命令であるという点で、マクロ命令である。

幾つかの実施形態では、グラフィックス・プロセッサ実行ユニットは、１２８ビット命令フォーマット７１０において命令をネイティブにサポートする。６４ビット・コンパクト命令フォーマット７３０は、選択された命令、命令オプション、及びオペランド数に基づいて幾つかの命令に対して利用可能である。ネイティブ１２８ビット命令フォーマット７１０は、全ての命令オプションに対してアクセスを提供するが、６４ビット・フォーマット７３０では、幾つかのオプション及び処理は制限される。６４ビット・フォーマット７３０で利用可能なネイティブ命令は、実施形態によって異なる。幾つかの実施形態では、命令は、インデックス・フィールド７１３内のインデックス値のセットを部分的に使用してコンパクト化される。実行ユニット・ハードウェアは、インデックス値に基づいて一組の圧縮テーブルを参照し、圧縮テーブル出力を使用して、１２８ビット命令フォーマット７１０内のネイティブ命令を再構成する。命令の他のサイズ及びフォーマットを使用することが可能である。

各フォーマットに対して、命令オペコード７１２は実行ユニットが実行する動作を定義する。実行ユニットは、各オペランドの複数のデータ要素にわたって、各命令を並列に実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャ要素又はピクチャ要素を表す各カラー・チャネルにわたって同時加算演算を実行する。デフォルトでは、実行ユニットはオペランドの全てのデータ・チャネルにわたって各命令を実行する。幾つかの実施形態では、命令制御フィールド７１４は、チャネル選択（例えば、予測）及びデータ・チャネル順序（例えば、スウィズル（ｓｗｉｚｚｌｅ））などの特定の実行オプションの制御を可能にする。１２８ビット命令フォーマット７１０における命令については、ｅｘｅｃ−ｓｉｚｅフィールド７１６は、並列に実行されるデータ・チャネルの数を制限する。幾つかの実施形態では、ｅｘｅｃ−ｓｉｚｅフィールド７１６は、６４ビットのコンパクトな命令フォーマット７３０での使用には利用可能でない。

一部の実行ユニット命令は、２つのソース・オペランド、ｓｒｃ０７２０、ｓｒｃ１７２２、及び１つの宛先７１８を含む最大３つのオペランドを有する。幾つかの実施形態では、実行ユニットは、宛先の１つが暗示されるデュアル宛先命令をサポートする。データ操作命令は、第３ソース・オペランド（例えば、ＳＲＣ２７２４）を有することが可能であり、命令オペコード７１２はソース・オペランドの数を決定する。命令の最後のソース・オペランドは、命令により渡される直接的な（例えば、ハード符号化された）値であるとすることが可能である。

幾つかの実施形態では、１２８ビット命令フォーマット７１０は、例えば、直接レジスタ・アドレッシング・モード又は間接レジスタ・アドレッシング・モードが使用されるかどうかを指定するアクセス／アドレス・モード・フィールド７２６を含む。直接レジスタ・アドレッシング指定モードが使用される場合、１つ以上のオペランドのレジスタ・アドレスは、命令中のビットによって直接的に提供される。

幾つかの実施形態では、１２８ビット命令フォーマット７１０は、命令のアクセス・モード及び／又はアドレス・モードを指定するアクセス／アドレス・モード・フィールド７２６を含む。一実施形態では、アクセス・モードは、命令のためのデータ・アクセス・アライメントを定義するために使用される。幾つかの実施形態は、１６バイト整列アクセス・モード及び１バイト整列アクセス・モードを含むアクセス・モードをサポートし、ここで、アクセス・モードのバイト・アライメントは命令オペランドのアクセス・アライメントを決定する。例えば、第１モードにある場合、命令は、送信元オペランドと送信先オペランドのためにバイト整列アドレッシングを使用することができ、第２モードにある場合、命令は、全ての送信元オペランドと送信先オペランドのために１６バイト整列アドレスを使用することができる。

一実施形態では、アクセス／アドレス・モード・フィールド７２６のアドレス・モード部分は、命令が直接又は間接アドレッシングを使用するかどうかを決定する。直接レジスタ・アドレッシング・モードが使用される場合、命令内のビットは１つ以上のオペランドのレジスタ・アドレスを直接的に提供する。間接レジスタ・アドレッシング・モードが使用される場合、１つ以上のオペランドのレジスタ・アドレスは、命令内のアドレス即時フィールド及びアドレス・レジスタ値に基づいて計算されてもよい。

一部の実施形態では、命令は、オペコード・デコード７４０を単純化するために、オペコード７１２ビット・フィールドに基づいてグループ化される。８ビットのオペコードでは、ビット４、５、及び６は、実行ユニットがオペコードのタイプを決定することを可能にする。図示されている明確なオペコード・グループ化は、単なる具体例である。幾つかの実施形態において、移動及び論理オペコード・グループ７４２は、データ移動及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。幾つかの実施形態では、移動及び論理グループ７４２は、５つの最上位ビット（ＭＳＢ）を共有し、ここで、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形式であり、論理命令は０００１ｘｘｘｂの形式である。フロー制御命令グループ７４４（例えば、呼び出し（ｃａｌｌ）、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。他の命令グループ７４６は、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機（ｗａｉｔ）、送信（ｓｅｎｄ））を含む命令の混合を含む。並列数学命令グループ７４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形式で、成分ごとの算術命令（例えば、加算（ａｄｄ）、乗算（ｍｕｌ））を含む。並列数学グループ７４８は、データ・チャネルにわたって並列的に算術演算を実行する。ベクトル数学グループ７５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトル・オペランドのドット積計算などの演算を実行する。図示されるオペコード・デコード７４０は、一実施形態では、実行ユニットのどの部分が、デコードされた命令を実行するために使用されるか、を決定するために使用されることが可能である。例えば、幾つかの命令は、シストリック・アレイによって実行されるシストリック命令として指定されてもよい。レイ・トレーシング命令（図示せず）のような他の命令は、実行ロジックのスライス又はパーティション内のレイ・トレーシング・コア又はレイ・トレーシング・ロジックにルーティングされることが可能である。

グラフィックス・パイプライン
図８は、グラフィックス・プロセッサ８００の別の実施形態のブロック図である。本願における任意の他の図の要素と同じ参照番号（又は名称）を有する図８の要素は、本願の他の箇所に記載されているものと同様の方法で動作又は機能することが可能であるが、そのようには限定されない。

一部の実施形態では、グラフィックス・プロセッサ８００は、幾何学パイプライン８２０、メディア・パイプライン８３０、ディスプレイ・エンジン８４０、スレッド実行ロジック８５０、及びレンダリング出力パイプライン８７０を含む。幾つかの実施形態では、グラフィックス・プロセッサ８００は、１つ以上の汎用処理コアを含むマルチ・コア処理システム内のグラフィックス・プロセッサである。グラフィックス・プロセッサは、１つ以上の制御レジスタ（図示せず）へのレジスタ書き込みにより、又はリング相互接続８０２を介するグラフィックス・プロセッサ８００へ発行されるコマンドにより制御される。幾つかの実施形態では、リング相互接続８０２は、グラフィックス・プロセッサ８００を、他のグラフィックス・プロセッサ又は汎用プロセッサなどの他の処理コンポーネントに結合する。リング相互接続８０２からのコマンドは、幾何学パイプライン８２０又はメディア・パイプライン８３０の個々のコンポーネントに命令を供給するコマンド・ストリーマ８０３によって解釈される。

一部の実施形態では、コマンド・ストリーマ８０３は、メモリから頂点データを読み込み、コマンド・ストリーマ８０３によって提供される頂点処理コマンドを実行する頂点フェッチャ８０５の動作を指示する。幾つかの実施形態では、頂点フェッチャ８０５は頂点データを頂点シェーダー８０７に提供し、各頂点に対する座標空間変換及びライティング動作を実行する。幾つかの実施形態では、頂点フェッチャ８０５及び頂点シェーダー８０７は、スレッド・ディスパッチャ８３１により、実行スレッドを実行ユニット８５２Ａ−８５２Ｂへディスパッチすることによって頂点処理命令を実行する。

幾つかの実施形態では、実行ユニット８５２Ａ−８５２Ｂは、グラフィックス及びメディア動作を実行するための命令セットを有するベクトル・プロセッサのアレイである。幾つかの実施形態では、実行ユニット８５２Ａ−８５２Ｂは、各アレイに固有の、又はアレイ間で共有されるアタッチされたＬ１キャッシュ８５１を有する。キャッシュは、データ・キャッシュ、命令キャッシュ、又は異なるパーティションにデータ及び命令を含むように区分けされた単一のキャッシュとして構成されることが可能である。

幾つかの実施形態では、幾何学パイプライン８２０は、３Ｄオブジェクトのハードウェア加速テセレーションを実行するためのテセレーション・コンポーネントを含む。幾つかの実施形態では、プログラマブル・ハル・シェーダー８１１がテセレーション動作を設定する。プログラマブル・ドメイン・シェーダー８１７は、テセレーション出力のバックエンド評価を提供する。テセレータ８１３は、ハル・シェーダー８１１の方向で動作し、幾何学パイプライン８２０への入力として提供される粗い幾何学モデルに基づいて、一組の詳細な幾何学的オブジェクトを生成するための特殊目的論理を含む。幾つかの実施形態では、テセレーションが使用されない場合に、テセレーション・コンポーネント（例えば、ハル・シェーダー８１１、テセレータ８１３、及びドメイン・シェーダー８１７）をバイパスすることができる。

幾つかの実施形態では、完全な幾何学オブジェクトは、実行ユニット８５２Ａ−８５２Ｂにディスパッチされる１つ以上のスレッドにより、幾何学シェーダー８１９によって処理されるか、又はクリップ処理部（クリッパ）８２９へ直接進むことができる。幾つかの実施形態では、幾何学シェーダーは、グラフィックス・パイプラインの前のステージのように頂点や頂点のパッチではなく、幾何学オブジェクト全体に関して動作する。テセレーションがディセーブルにされると、幾何学シェーダー８１９は頂点シェーダー８０７から入力を受け取る。幾つかの実施形態では、幾何学シェーダー８１９は、テセレーション・ユニットがディセーブルにされている場合に幾何学テセレーションを実行するように、幾何学シェーダー・プログラムによってプログラム可能である。

ラスタ化の前に、クリッパ８２９は頂点データを処理する。クリッパ８２９は、クリッピング及び幾何学シェーダー機能を有する固定機能クリッパ又はプログラマブル・クリッパであってもよい。幾つかの実施態様において、レンダリング出力パイプライン８７０内のラスタライザ及び深度テスト・コンポーネント８７３は、幾何学オブジェクトを、ピクセル単位の表現に変換するためにピクセル・シェーダーをディスパッチする。幾つかの実施形態では、ピクセル・シェーダー・ロジックは、スレッド実行ロジック８５０に含まれる。幾つかの実施形態では、アプリケーションは、ラスタライザ及び深度テスト・コンポーネント８７３をバイパスし、ストリーム出力ユニット８２３を介してラスタライズされていない頂点データにアクセスすることができる。

グラフィックス・プロセッサ８００は、相互接続バス、相互接続ファブリック、又は、プロセッサの主要コンポーネント間でデータ及びメッセージの伝送を可能にする何らかの他の相互接続機構を有する。幾つかの実施形態では、実行ユニット８５２Ａ−８５２Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ８５１、サンプラ８５４、テクスチャ・キャッシュ８５８など）は、データ・ポート８５６を介して相互接続し、メモリ・アクセスを実行し、プロセッサのレンダリング出力パイプライン・コンポーネントにより通信する。幾つかの実施形態では、サンプラ８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ−８５２Ｂの各々は別個のメモリ・アクセス経路を有する。一実施形態では、テクスチャ・キャッシュ８５８は、サンプラ・キャッシュとして構成されること可能である。

幾つかの実施態様において、レンダリング出力パイプライン８７０は、頂点ベースのオブジェクトを、関連するピクセルに基づく表現に変換するラスタライザ及び深度テスト・コンポーネント８７３を含む。幾つかの実施形態では、ラスタライザ・ロジックは、固定機能三角形及びライン・ラスタライゼーションを実行するためのウィンドウ／マスク部を含む。関連するレンダリング・キャッシュ８７８及び深度キャッシュ８７９もまた、幾つかの実施形態では利用可能である。ピクセル動作コンポーネント８７７は、データに対してピクセル・ベースの動作を実行するが、幾つかの例では、２Ｄ動作に関連するピクセル動作（例えば、ブレンドを伴うビット・ブロック画像転送）は、２Ｄエンジン８４１によって実行されるか、又は表示時間においてオーバレイ表示プレーンを使用して表示コントローラ８４３によって置換される。幾つかの実施形態では、共有Ｌ３キャッシュ８７５は、全てのグラフィックス・コンポーネントに利用可能であり、メイン・システム・メモリを使用せずにデータの共有を可能にする。

幾つかの実施形態では、グラフィックス・プロセッサ・メディア・パイプライン８３０は、メディア・エンジン８３７及びビデオ・フロント・エンド８３４を含む。幾つかの実施形態では、ビデオ・フロント・エンド８３４は、コマンド・ストリーマ８０３からパイプライン・コマンドを受信する。幾つかの実施形態では、メディア・パイプライン８３０は、個々のコマンド・ストリーマを含む。幾つかの実施形態では、ビデオ・フロント・エンド８３４は、メディア・エンジン８３７にコマンドを送信する前にメディア・コマンドを処理する。幾つかの実施形態では、メディア・エンジン８３７は、スレッド・ディスパッチャ８３１によるスレッド実行ロジック８５０へのディスパッチのためにスレッドを生成するスレッド生成機能を含む。

一部の実施形態では、グラフィックス・プロセッサ８００は、ディスプレイ・エンジン８４０を含む。幾つかの実施形態では、ディスプレイ・エンジン８４０は、プロセッサ８００の外部にあり、リング相互接続８０２、又は他の幾つかの相互接続バス若しくはファブリックを介してグラフィックス・プロセッサと結合する。幾つかの実施形態では、ディスプレイ・エンジン８４０は、２Ｄエンジン８４１及びディスプレイ・コントローラ８４３を含む。幾つかの実施形態では、ディスプレイ・エンジン８４０は、３Ｄパイプラインから独立して動作することが可能な専用ロジックを含む。幾つかの実施形態では、ディスプレイ・コントローラ８４３は、ラップトップ・コンピュータにおけるようなシステム統合ディスプレイ・デバイス、又はディスプレイ・デバイス・コネクタを介して取り付けられる外部ディスプレイ・デバイスであってもよいディスプレイ・デバイス（図示せず）と結合する。

幾つかの実施形態では、幾何学パイプライン８２０及びメディア・パイプライン８３０は、複数のグラフィックス及びメディア・プログラミング・インターフェースに基づく動作を実行するように設定することが可能であり、何らかの１つのアプリケーション・プログラミング・インターフェース（ＡＰＩ）に特有ではない。幾つかの実施形態では、グラフィックス・プロセッサ用のドライバ・ソフトウェアは、特定のグラフィックス又はメディア・ライブラリに特有のＡＰＩ呼び出しを、グラフィックス・プロセッサにより処理されることが可能なコマンドに変換する。幾つかの実施形態では、ＯｐｅｎＧＬ（ＯｐｅｎＧｒａｐｈｉｃｓＬｉｂｒａｒｙ）、ＯｐｅｎＣＬ（ＯｐｅｎＣｏｍｐｕｔｉｎｇＬａｎｇｕａｇｅ）、及び／又はヴァルカン（Ｖｕｌｋａｎ）グラフィックス及び計算ＡＰＩに対するサポートは、全てクロノス・グループ（ＫｈｒｏｎｏｓＧｒｏｕｐ）から提供される。幾つかの実施形態において、マイクロソフト・コーポレーション社からのＤｉｒｅｃｔ３Ｄライブラリに対するサポートが提供されてもよい。幾つかの実施形態において、これらのライブラリの組み合せがサポートされる可能性がある。ＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ）に対するサポートが提供されてもよい。将来のＡＰＩのパイプラインからグラフィックス・プロセッサのパイプラインへのマッピングが可能であるならば、互換性のある３Ｄパイプラインを有する将来のＡＰＩもサポートされるであろう。

グラフィックス・パイプライン・プログラミング
図９Ａは、幾つかの実施形態によるグラフィックス・プロセッサ・コマンド・フォーマット９００を示すブロック図である。図９Ｂは、実施形態によるグラフィックス・プロセッサ・コマンド・シーケンス９１０を示すブロック図である。図９Ａの実線のボックスは、グラフィックス・コマンドに一般的に含まれるコンポーネントを示し、破線は、オプションであるコンポーネント、又はグラフィックス・コマンドのサブセットに含まれるだけのコンポーネントを示す。図９Ａの例示的なグラフィックス・プロセッサ・コマンド・フォーマット９００は、クライアント９０２を識別するためのデータ・フィールド、コマンド動作コード（ｏｐｃｏｄｅ）９０４、及びコマンドのためのデータ９０６を含む。サブ・オペコード９０５及びコマンド・サイズ９０８もまた、幾つかのコマンドに含まれる。

幾つかの実施形態では、クライアント９０２は、コマンド・データを処理するグラフィックス・デバイスのクライアント・ユニットを指定する。幾つかの実施形態では、グラフィックス・プロセッサ・コマンド・パーサーは、コマンドの更なる処理を条件付けし、コマンド・データを適切なクライアント・ユニットへルーティングするために、各コマンドのクライアント・フィールドを検査する。幾つかの実施形態では、グラフィックス・プロセッサ・クライアント・ユニットは、メモリ・インターフェース・ユニット、レンダリング・ユニット、２Ｄユニット、３Ｄユニット、及びメディア・ユニットを含む。各クライアント・ユニットは、コマンドを処理する対応する処理パイプラインを有する。コマンドがクライアント・ユニットによって受信されると、クライアント・ユニットはオペコード９０４を読み込み、もしあればサブ・オペコード９０５を読み込み、実行する動作を決定する。クライアント・ユニットは、データ・フィールド９０６の情報を使用してコマンドを実行する。幾つかのコマンドでは、明示的なコマンド・サイズ９０８が、コマンドのサイズを指定するために期待される。幾つかの実施形態では、コマンド・パーサーは、コマンド・オペコードに基づいて、少なくとも幾つかのコマンドのサイズを自動的に決定する。幾つかの実施形態において、コマンドは、ダブル・ワードの倍数で整合させられる。他のコマンド・フォーマットを使用することも可能である。

図９Ｂのフロー図は、例示的なグラフィックス・プロセッサ・コマンド・シーケンス９１０を示す。幾つかの実施形態では、グラフィックス・プロセッサの実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、一組のグラフィックス動作をセットアップし、実行し、終了するように示されるコマンド・シーケンスのバージョンを使用する。サンプル・コマンド・シーケンスは、これらの特定のコマンド又はこのコマンド・シーケンスに限定されない実施形態のみとして、例示例の目的のために図示及び説明されている。更に、コマンドは、グラフィックス・プロセッサが少なくとも部分的に同時にコマンドのシーケンスを処理するように、コマンド・シーケンス内のコマンドのバッチとして発行されてもよい。

幾つかの実施形態では、グラフィックス・プロセッサ・コマンド・シーケンス９１０は、パイプライン・フラッシュ・コマンド９１２で始まり、任意のアクティブなグラフィックス・パイプラインが、パイプラインに対して現時点で未完了のコマンドを完了させる。幾つかの実施態様において、３Ｄパイプライン９２２及びメディア・パイプライン９２４は、同時に動作しない。パイプライン・フラッシュは、アクティブなグラフィックス・パイプラインが何らかの未完了のコマンドを完了することを行わせるように実行されます。パイプライン・フラッシュに応答して、グラフィックス・プロセッサのコマンド・パーサーは、アクティブな描画エンジンが未完了の動作を完了し、関連する読み込みキャッシュがディセーブルにされるまで、コマンド処理を一時停止する。オプションとして「ダーティ（ｄｉｒｔｙ）」とマークされるレンダリング・キャッシュ内の任意のデータがメモリに対してフラッシュされることが可能である。幾つかの実施形態において、パイプライン・フラッシュ・コマンド９１２は、パイプライン同期のために、又はグラフィックス・プロセッサを低電力状態にする前に使用されることが可能である。

幾つかの実施形態では、コマンド・シーケンスが、パイプライン間を明示的にスイッチングすることをグラフィックス・プロセッサに要求する場合に、パイプライン選択コマンド９１３が使用される。幾つかの実施形態において、パイプライン選択コマンド９１３は、コンテキストが両方のパイプラインに対してコマンドを発行するものでない限り、パイプライン・コマンドを発行する前に実行コンテキスト内で一度だけ必要とされる。幾つかの実施形態では、パイプライン・フラッシュ・コマンド９１２は、パイプライン選択コマンド９１３を介してパイプライン・スイッチングの直前に必要とされる。

幾つかの実施形態では、パイプライン制御コマンド９１４は、動作のためにグラフィックス・パイプラインを構成し、３Ｄパイプライン９２２及びメディア・パイプライン９２４をプログラムするために使用される。幾つかの実施形態では、パイプライン制御コマンド９１４は、アクティブ・パイプラインに対するパイプライン状態を設定する。一実施形態では、パイプライン制御コマンド９１４は、コマンドのバッチを処理する前に、アクティブ・パイプライン内の１つ以上のキャッシュ・メモリからデータをクリアするため、及びパイプライン同期のために使用される。

幾つかの実施形態では、リターン・バッファ状態コマンド９１６は、各パイプラインがデータを書き込むためのリターン・バッファのセットを構成するために使用される。一部のパイプライン動作は、処理中に動作が中間データを書き込む１つ以上のリターン・バッファの割り当て、選択、又は設定を必要とする。幾つかの実施形態では、グラフィックス・プロセッサはまた、出力データを格納し、クロス・スレッド通信を行うために１つ以上のリターン・バッファを使用する。幾つかの実施形態では、リターン・バッファ状態９１６は、パイプライン動作のセットに使用するリターン・バッファのサイズ及び数を選択することを含む。

コマンド・シーケンス内の残りのコマンドは、動作のためのアクティブ・パイプラインに基づいて異なる。パイプライン決定９２０に基づいて、コマンド・シーケンスは、３Ｄパイプライン状態９３０で始まる３Ｄパイプライン９２２、又はメディア・パイプライン状態９４０で始まるメディア・パイプライン９２４に合わせられる。

３Ｄパイプライン状態９３０を設定するためのコマンドは、頂点バッファ状態、頂点要素状態、定色状態、深度バッファ状態、及びその他の状態変数（３Ｄプリミティブ・コマンドが処理される前に設定されるべきもの）に対する３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。幾つかの実施形態では、３Ｄパイプライン状態９３０コマンドは、それらの要素が使用されない場合に、特定のパイプライン要素を選択的にディセーブル又はバイパスすることも可能である。

一部の実施形態では、３Ｄプリミティブ９３２コマンドは、３Ｄパイプラインによって処理される３Ｄプリミティブをサブミットするために使用される。３Ｄプリミティブ９３２コマンドを介してグラフィックス・プロセッサに渡されるコマンド及び関連パラメータは、グラフィックス・パイプラインにおける頂点フェッチ関数に転送される。頂点フェッチ関数は、頂点データ構造を生成するために３Ｄプリミティブ９３２コマンド・データを使用する。頂点データ構造は１つ以上のリターン・バッファに格納される。幾つかの実施形態では、３Ｄプリミティブ９３２コマンドは、頂点シェーダーにより３Ｄプリミティブに関して頂点演算を実行するために使用される。頂点シェーダーを処理するために、３Ｄパイプライン９２２は、グラフィックス・プロセッサ実行ユニットにシェーダー実行スレッドをディスパッチする。

幾つかの実施形態では、３Ｄパイプライン９２２は、実行９３４コマンド又はイベントによりトリガされる。幾つかの実施形態において、レジスタ書き込みは、コマンド実行をトリガする。幾つかの実施形態では、実行は、コマンド・シーケンス内の「ｇｏ」又は「ｋｉｃｋ」コマンドによりトリガされる。一実施形態では、コマンド実行は、パイプライン同期コマンドを使用してトリガされ、グラフィックス・パイプラインによりコマンド・シーケンスをフラッシュする。３Ｄパイプラインは、３Ｄプリミティブに対して幾何学的処理を実行する。動作が完了すると、結果として生じる幾何学オブジェクトはラスタライズされ、ピクセル・エンジンは、結果として生じるピクセルを着色する。ピクセル・シェーディング及びピクセル・バックエンド動作を制御するための追加コマンドが、これらの動作のために含まれてもよい。

一部の実施形態では、グラフィックス・プロセッサのコマンド・シーケンス９１０は、メディア動画を実行する際に、メディア・パイプライン９２４の経路に従う。一般に、メディア・パイプライン９２４のプログラミングの特定の用途及び方法は、メディア及び実行される計算動作に依存する。特定のメディア・デコード動作は、メディア・デコード中にメディア・パイプラインにオフロードされる可能性がある。幾つかの実施形態では、媒体パイプラインはバイパスされることも可能であり、メディア・デコードは、１つ以上の汎用処理コアによって提供されるリソースを使用して全体的又は部分的に実行されることが可能である。一実施形態では、メディア・パイプラインは、汎用グラフィックス・プロセッサ・ユニット（ＧＰＧＰＵ）動作のための要素も含み、グラフィックス・プロセッサは、グラフィックス・プリミティブのレンダリングに明示的には関連しない計算シェーダー・プログラムを使用してＳＩＭＤベクトル演算を実行するために使用される。

幾つかの実施態様において、メディア・パイプライン９２４は、３Ｄパイプライン９２２と同様に構成される。メディア・パイプライン状態９４０を設定するためのコマンドのセットは、メディア・オブジェクト・コマンド９４２の前にコマンド・キューにディスパッチされる又は配置される。幾つかの実施形態では、メディア・パイプライン状態９４０のためのコマンドは、メディア・オブジェクトを処理するために使用されるメディア・パイプライン要素を構成するためのデータを含む。これは、エンコード又はデコード・フォーマットのような、メディア・パイプライン内のビデオ・デコード及びビデオ・エンコード・ロジックを構成するためのデータを含む。幾つかの実施形態では、メディア・パイプライン状態９４０のためのコマンドはまた、状態設定のバッチを含む「間接的な」状態要素に対する１つ以上のポインタの使用をサポートする。

一部の実施形態では、メディア・オブジェクト・コマンド９４２は、メディア・パイプラインによる処理のために、ポインタをメディア・オブジェクトに供給する。メディア・オブジェクトは、処理されるビデオ・データを含むメモリ・バッファを含む。幾つかの実施形態では、全てのメディア・パイプライン状態は、メディア・オブジェクト・コマンド９４２を発行する前に「有効」でなければならない。一旦、パイプライン状態が設定され、メディア・オブジェクト・コマンド９４２がキューイングされると、メディア・パイプライン９２４は、実行コマンド９４４又は同等な実行イベント（例えば、レジスタ書き込み）によりトリガされる。次いで、メディア・パイプライン９２４からの出力は、３Ｄパイプライン９２２又はメディア・パイプライン９２４によって提供される動作によって後処理されることが可能である。幾つかの実施形態では、ＧＰＧＰＵ演算は、メディア演算と同様の方法で構成され、実行される。

グラフィックス・ソフトウェア・アーキテクチャ
図１０は、幾つかの実施形態によるデータ処理システム１０００のための例示的なグラフィックス・ソフトウェア・アーキテクチャを示す。幾つかの実施形態では、ソフトウェア・アーキテクチャは、３Ｄグラフィックス・アプリケーション１０１０、オペレーティング・システム１０２０、及び少なくとも１つのプロセッサ１０３０を含む。幾つかの実施形態では、プロセッサ１０３０は、グラフィックス・プロセッサ１０３２及び１つ以上の汎用プロセッサ・コア１０３４を含む。グラフィックス・アプリケーション１０１０及びオペレーティング・システム１０２０はそれぞれ、データ処理システムのシステム・メモリ１０５０内で実行される。

一部の実施形態では、３Ｄグラフィックス・アプリケーション１０１０は、シェーダー命令１０１２を含む１つ以上のシェーダー・プログラムを含む。シェーダー言語命令は、Ｄｉｒｅｃｔ３ＤのＨＬＳＬ（Ｈｉｇｈ−ｌｅｖｅｌＳｈａｄｅｒＬａｎｇｕａｇｅ）、ＧＬＳＬ（ＯｐｅｎＧＬＳｈａｄｅｒＬａｎｇｕａｇｅ）などのようなハイレベル・シェーダー言語におけるものであってもよい。アプリケーションはまた、汎用プロセッサ・コア１０３４による実行に適したマシン言語における実行可能命令１０１４を含む。アプリケーションは、頂点データによって定義されるグラフィックス・オブジェクト１０１６も含む。

幾つかの実施形態では、オペレーティング・システム１０２０は、マイクロソフト・コーポレーション社からのＭｉｃｒｏｓｏｆｔ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）オペレーティング・システム、プロプライエタリＵＮＩＸ（登録商標）のようなオペレーティング・システム、又はＬｉｎｕｘ（登録商標）カーネルの変形を使用するオープン・ソースＵＮＩＸ（登録商標）のようなオペレーティング・システムである。オペレーティング・システム１０２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩなどのグラフィックスＡＰＩ１０２２をサポートすることができる。Ｄｉｒｅｃｔ３ＤＡＰＩが使用される場合、オペレーティング・システム１０２０はフロント・エンド・シェーダー・コンパイラ１０２４を使用して、ＨＬＳＬのシェーダー命令１０１２を、より低いレベルのシェーダー言語にコンパイルする。コンパイルはジャスト・イン・タイム（ＪＩＴ）コンパイルであってもよいし、或いはアプリケーションはシェーダー事前コンパイルを実行することが可能である。幾つかの実施形態では、ハイレベル・シェーダーは、３Ｄグラフィックス・アプリケーション１０１０のコンパイル中に、低レベル・シェーダーにコンパイルされる。幾つかの実施形態では、シェーダー命令１０１２は、ＶｕｌｋａｎＡＰＩによって使用される標準ポータブル中間表現（ＳＰＩＲ）のバージョンのような中間形式で提供される。

幾つかの実施形態では、ユーザー・モード・グラフィックス・ドライバ１０２６は、シェーダー命令１０１２をハードウェア固有の表現に変換するためのバック・エンド・シェーダー・コンパイラ１０２７を含む。ＯｐｅｎＧＬＡＰＩが使用される場合、ＧＬＳＬハイ・レベル言語のシェーダー命令１０１２は、コンパイルのためにユーザー・モード・グラフィックス・ドライバ１０２６に渡される。幾つかの実施形態では、ユーザー・モード・グラフィックス・ドライバ１０２６は、オペレーティング・システム・カーネル・モード機能１０２８を使用して、カーネル・モード・グラフィックス・ドライバ１０２９と通信する。幾つかの実施形態では、カーネル・モード・グラフィックス・ドライバ１０２９は、コマンド及び命令をディスパッチするためにグラフィックス・プロセッサ１０３２と通信する。

ＩＰコア実装
少なくとも１つの実施形態の１つ以上の態様は、プロセッサのような集積回路内のロジックを表現及び／又は定義する機械読み込み可能な媒体に格納される典型的なコードによって実装されることが可能である。例えば、機械読み取り可能な媒体は、プロセッサ内の種々のロジックを表現する命令を含んでもよい。機械（又はマシン）によって読み込まれる場合に、命令は、本願で説明される技術を実行するために論理を形成することをマシンに行わせる。このような表現は、「ＩＰコア」として知られており、集積回路の構造を記述するハードウェア・モデルとして、有形の機械読み取り可能な媒体に記憶されることが可能な集積回路用の再利用可能な論理ユニットである。ハードウェア・モデルは、集積回路を製造する製造マシンにハードウェア・モデルをロードする、種々のカスタマ又は製造施設に供給されることが可能である。集積回路は、本願で説明される実施形態のいずれかに関連して記載される動作を回路が実行するように製造されることが可能である。

図１１Ａは、実施形態による動作を実行するために集積回路を製造するために使用されることが可能なＩＰコア開発システム１１００を示すブロック図である。ＩＰコア開発システム１１００は、より大きな設計に組み込まれることが可能な、又は集積回路（例えば、ＳＯＣ集積回路）全体を構築するために使用されることが可能な、モジュール式の再利用可能な設計を生じるために使用されてもよい。設計施設１１３０は、ハイ・レベル・プログラミング言語（例えば、Ｃ／Ｃ＋＋）でＩＰコア設計のソフトウェア・シミュレーション１１１０を生成することができる。ソフトウェア・シミュレーション１１１０は、シミュレーション・モデル１１１２を使用して、ＩＰコアの挙動を設計、テスト、及び検証するために使用されることが可能である。シミュレーション・モデル１１１２は、機能シミュレーション、行動シミュレーション、及び／又はタイミング・シミュレーションを含んでもよい。次いで、レジスタ転送レベル（ＲＴＬ）設計１１１５が、シミュレーション・モデル１１１２から作成又は合成されることが可能である。ＲＴＬ設計１１１５は、モデル化されたデジタル信号を用いて実行される関連論理を含む、ハードウェア・レジスタ間のデジタル信号の流れをモデル化する集積回路の挙動の抽象化である。ＲＴＬ設計１１１５に加えて、論理レベル又はトランジスタ・レベルでのより低いレベルの設計が、生成、設計、又は合成されてもよい。従って、初期設計及びシミュレーションの特定の詳細は、変わる可能性がある。

ＲＴＬ設計１１１５又は同等物は、更に、設計施設によって、ハードウェア記述言語（ＨＤＬ）におけるものである可能性があるハードウェア・モデル１１２０、又は物理設計データの何らかの他の表現に、更に合成されてもよい。ＨＤＬは、ＩＰコア設計を検証するために更にシミュレーション又はテストされることが可能である。ＩＰコア設計は、不揮発性メモリ１１４０（例えば、ハード・ディスク、フラッシュ・メモリ、又は任意の不揮発性記憶媒体）を使用して、第三者製造施設１１６５に届けるために格納されることが可能である。代替的に、ＩＰコア設計は、有線接続１１５０又は無線接続１１６０を介して（例えば、インターネットを介して）伝送されてもよい。次に、製造設備１１６５は、ＩＰコア設計に少なくとも部分的に基づいて集積回路を製造することができる。製造される集積回路は、本願で説明される少なくとも１つの実施形態に従って動作を実行するように構成されることが可能である。

図１１Ｂは、本願で説明される幾つかの実施形態による集積回路パッケージ・アセンブリ１１７０の側断面図を示す。集積回路パッケージ・アセンブリ１１７０は、本願で説明される１つ以上のプロセッサ又はアクセラレータ・デバイスの実装を示す。パッケージ・アセンブリ１１７０は、基板１１８０に接続されたハードウェア・ロジック１１７２、１１７４の複数ユニットを含む。ロジック１１７２、１１７４は、少なくとも部分的に、設定可能なロジック又は固定機能ロジックのハードウェアに実装されてもよく、本願で説明されるプロセッサ・コア、グラフィックス・プロセッサ、又は他のアクセラレータ・デバイスのうちの任意の１つ以上の部分を含むことが可能である。ロジック１１７２、１１７４の各ユニットは、半導体ダイ内に実装され、相互接続構造１１７３を介して基板１１８０と結合されることが可能である。相互接続構造１１７３は、ロジック１１７２、１１７４と基板１１８０との間で電気信号をルーティングするように構成されることが可能であり、バンプ又はピラーなどの相互接続を含むことが可能であるが、これらに限定されない。幾つかの実施形態では、相互接続構造１１７３は、例えばロジック１１７２、１１７４の動作に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力若しくはグランド信号などの電気信号をルーティングするように構成されてもよい。幾つかの実施態様において、基板１１８０は、エポキシ・ベースの積層基板である。基板１１８０は、他の実施形態では、他の適切なタイプの基板を含んでもよい。パッケージ・アセンブリ１１７０は、パッケージ相互接続１１８３を介して他の電気デバイスに接続することができる。パッケージ相互接続１１８３は、マザーボード、他のチップセット、又はマルチ・チップ・モジュールのような他の電気デバイスに電気信号をルーティングするために、基板１１８０の表面に結合されてもよい。

幾つかの実施形態では、ロジック１１７２、１１７４のユニットは、ロジック１１７２、１１７４の間で電気信号をルーティングするように構成されたブリッジ１１８２に電気的に結合される。ブリッジ１１８２は、電気信号に経路を提供する高密度相互接続構造であってもよい。ブリッジ１１８２は、ガラス又は適切な半導体材料から構成されるブリッジ基板を含んでもよい。ロジック１１７２、１１７４の間にチップ対チップ接続を提供するために、電気ルーティング機能部がブリッジ基板に形成されることが可能である。

ロジック１１７２、１１７４の２つのユニット及びブリッジ１１８２が示されているが、本願で説明される実施形態は、１つ以上のダイ上に、より多い又はより少ないロジック・ユニットを含んでもよい。ロジックが単一のダイに含まれる場合、ブリッジ１１８２は除外されてもよいので、１つ以上のダイは、ゼロ個以上のブリッジによって接続されることが可能である。代替的に、複数のダイ又はロジック・ユニットは、１つ以上のブリッジによって接続されることが可能である。更に、複数のロジック・ユニット、ダイ、及びブリッジは、三次元構成を含む他の可能な構成で互いに接続されることが可能である。

図１１Ｃは、基板１１８０（例えば、ベース・ダイ）に接続された複数ユニットのハードウェア・ロジック・チップレットを含むパッケージ・アセンブリ１１９０を示す。本願で説明されるようなグラフィックス処理ユニット、並列プロセッサ、及び／又は計算アクセラレータは、別々に製造される多様なシリコン・チップレットから構成されることが可能である。この文脈において、チップレットは、他のチプレットと共により大きなパッケージに組み立てられことが可能な個々のロジック・ユニットを含む、少なくとも部分的にパッケージされた集積回路である。異なるＩＰコア・ロジックを有するチップレットの多様なセットは、単一のデバイスに組み立てられることが可能である。更に、チップレットは、アクティブ・インターポーザ技術を用いてベース・ダイ又はベース・チップレットに一体化されることが可能である。本願で説明される概念は、ＧＰＵ内の様々な形態のＩＰ間で相互接続及び通信を可能にする。ＩＰコアは、様々なプロセス技術を用いて製造され、製造中に構成することが可能であり、これにより、複数のＩＰ、特に複数のフレーバーＩＰを備えた大きなＳｏＣ上で、同一の製造プロセスに集中する複雑さを回避することができる。複数のプロセス技術を使用できるようにすることは、販売までの時間を改善し、複数の製品ＳＫＵを作成するためのコスト効果的な方法を提供する。加えて、非集約化されたＩＰは、独立してパワーゲート制御され、所与のワークロードで使用されないコンポーネントは、電源オフにされることが可能であり、全体的な電力消費を低減する。

ハードウェア・ロジック・チップレットは、特殊目的のハードウェア・ロジック・チップレット１１７２、ロジック又はＩ／Ｏチップレット１１７４、及び／又はメモリ・チップレット１１７５を含むことが可能である。ハードウェア・ロジック・チップレット１１７２及びロジック又はＩ／Ｏチップレット１１７４は、少なくとも部分的に、設定可能なロジック又は固定された機能ロジック・ハードウェアに実装されることが可能であり、本願で説明されるプロセッサ・コア、グラフィック・プロセッサ、パラレル・プロセッサ、又は他のアクセラレータ・デバイスのうちの任意の１つ以上の部分を含むことが可能である。メモリ・チップレット１１７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリであるとすることが可能である。

各チップレットは、別々の導体ダイとして製造され、相互接続構造１１７３を介して基板１１８０と結合されることが可能である。相互接続構造１１７３は、基板１１８０内の様々なチップレットとロジックとの間で電気信号をルーティングするように構成されてもよい。相互接続構造１１７３は、バンプ又はピラーなどの相互接続を含むことが可能であるが、これらに限定されない。幾つかの実施形態では、相互接続構造１１７３は、例えば、ロジック、Ｉ／Ｏ及びメモリ・チップレットの動作に関連する入力／出力（Ｉ／Ｏ）信号及び／又は電力若しくはグランド信号などの電気信号をルーティングするように構成されてもよい。

幾つかの実施態様において、基板１１８０は、エポキシ・ベースの積層基板である。基板１１８０は、他の実施形態では、他の適切なタイプの基板を含んでもよい。パッケージ・アセンブリ１１９０は、パッケージ相互接続１１８３を介して他の電気デバイスに接続することができる。パッケージ相互接続１１８３は、マザーボード、他のチップセット、又はマルチ・チップ・モジュールのような他の電気デバイスに電気信号をルーティングするために、基板１１８０の表面に結合されてもよい。

一部の実施形態では、ロジック又はＩ／Ｏチップレット１１７４及びメモリ・チップレット１１７５は、ロジック又はＩ／Ｏチップレット１１７４及びメモリ・チップレット１１７５の間で電気信号をルーティングするように構成されたブリッジ１１８７を介して電気的に結合されることが可能である。ブリッジ１１８７は、電気信号のルートを提供する高密度相互接続構造であってもよい。ブリッジ１１８７は、ガラス又は適切な半導体材料により構成されるブリッジ基板を含んでもよい。ロジック又はＩ／Ｏチップレット１１７４及びメモリ・チップレット１１７５の間にチップ対チップ接続を提供するために、電気的ルーティング機能部が、ブリッジ基板上に形成されことが可能である。ブリッジ１１８７は、シリコン・ブリッジ又は相互接続ブリッジとも呼ばれてもよい。例えば、ブリッジ１１８７は、幾つかの実施形態では、埋め込みマルチダイ相互接続ブリッジ（ＥＭＩＢ）である。幾つかの実施形態において、ブリッジ１１８７は、単に、１つのチップレットから別のチップレットへの直接接続であってもよい。

基板１１８０は、Ｉ／Ｏ１１９１、キャッシュ・メモリ１１９２、及び他のハードウェア・ロジック１１９３のためのハードウェア・コンポーネントを含むことができる。様々なロジック・チップレットと基板１１８０内のロジック１１９１、１１９３との間の通信を可能にするために、ファブリック１１８５は基板１１８０内に埋め込まれることが可能である。一実施形態では、Ｉ／Ｏ１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェア・ロジック１１９３は、基板１１８０のトップに積層されるベース・ダイに統合されることが可能である。ファブリック１１８５は、チップ相互接続上のネットワーク、又はパッケージ・アセンブリのコンポーネント間でデータ・パケットを切り替える別の形態のパケット交換ファブリックであってもよい。

様々な実施形態では、パッケージ・アセンブリ１１９０は、ファブリック１１８５又は１つ以上のブリッジ１１８７によって相互接続されたより少ない又はより多い数のコンポーネント及びチップレットを含むことが可能である。パッケージ・アセンブリ１１９０内のチップレットは、３Ｄ又は２．５Ｄ形式で配置されてもよい。一般に、ブリッジ構造１１８７は、例えばロジック又はＩ／Ｏチップレット及びメモリ・チップレットの間の点対点の相互接続を促進にするために使用されてもよい。ファブリック１１８５は、種々のロジック及び／又はＩ／Ｏチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を、他のロジック及び／又はＩ／Ｏチップレットと相互接続するために使用されることが可能である。一実施形態では、基板内のキャッシュ・メモリ１１９２は、パッケージ・アセンブリ１１９０のためのグローバル・キャッシュ、分散されたグローバル・キャッシュの一部、又はファブリック１１８５のための専用キャッシュとして機能することが可能である。

図１１Ｄは、一実施形態による、交換可能なチップレット１１９５を含むパッケージ・アセンブリ１１９４を示す。交換可能なチップレット１１９５は、１つ以上のベース・チップレット１１９６、１１９８上の標準化スロットに組み立てられることが可能である。ベース・チップレット１１９６、１１９８は、ブリッジ相互接続１１９７を介して結合されてもよく、ブリッジ相互接続１１９７は、本願で説明される他のブリッジ相互接続と同様であるとすることが可能であり、例えばＥＭＩＢであってもよい。メモリ・チップレットは、ブリッジ相互接続を介してロジック又はＩ／Ｏチップレットに接続すされることも可能である。Ｉ／Ｏ及びロジック・チップレットは、相互接続ファブリックを介して通信することが可能である。ベース・チップレットの各々は、ロジック又はＩ／Ｏ又はメモリ／キャッシュのうちの１つに対して標準化されたフォーマットで１つ以上のスロットをサポートすることができる。

一実施形態では、ＳＲＡＭ及び電力分配回路は、ベース・チップレット１１９６、１１９８のうちの１つ以上内に製造されることが可能であり、これらは、ベース・チップレットの上に積み重ねられる交換可能なチップレット１１９５に対して異なるプロセス技術を用いて製造されることが可能である。例えば、ベース・チップレット１１９６、１１９８は、より大規模なプロセス技術を用いて製造することが可能であり、交換可能なチップレットは、より小規模なプロセス技術を用いて製造されることが可能である。１つ以上の交換可能なチップレット１１９５は、メモリ（例えば、ＤＲＡＭ）チップレットであってもよい。パッケージ・アセンブリ１１９４を使用する製品に対してターゲットとする電力及び／又はパフォーマンスに基づいて、様々なメモリ密度が、パッケージ・アセンブリ１１９４に対して選択されることが可能である。更に、多種多様な機能ユニットを有するロジック・チップレットは、製品のターゲットとされる電力及び／又はパフォーマンスに基づいて組み立て時に選択されることが可能である。更に、異なるタイプのＩＰロジック・コアを含むチップレットが、交換可能なチップレット・スロットに挿入されることが可能であり、異なる技術ＩＰブロックを混合して適合させることが可能なハイブリッド・プロセッサ設計を可能にする。

チップ集積回路におけるシステム例
図１２−１３Ｂは、本願で説明される様々な実施形態による１つ以上のＩＰコアを使用して製造されることが可能な例示的な集積回路及び関連するグラフィックス・プロセッサを示す。図示されているものに加えて、追加のグラフィックス・プロセッサ／コア、周辺インターフェース・コントローラ、又は汎用プロセッサ・コアを含む、他のロジック及び回路が包含されてもよい。

図１２は、一実施形態による１つ以上のＩＰコアを使用して製造されることが可能なチップ集積回路１２００上の例示的なシステムを示すブロック図である。例示的な集積回路１２００は、１つ以上のアプリケーション・プロセッサ１２０５（例えば、ＣＰＵ）と、少なくとも１つのグラフィックス・プロセッサ１２１０とを含み、更に、画像プロセッサ１２１５及び／又はビデオ・プロセッサ１２２０を含んでもよく、何れも同一又は複数の異なる設計施設からのモジュラＩＰコアであってもよい。集積回路１２００は、ＵＳＢコントローラ１２２５、ＵＡＲＴコントローラ１２３０、ＳＰＩ／ＳＤＩＯコントローラ１２３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１２４０を含む周辺又はバス・ロジックを含む。更に、集積回路は、高解像度マルチメディア・インターフェース（ＨＤＭＩ（登録商標））コントローラ１２５０及びモバイル産業用プロセッサ・インターフェース（ＭＩＰＩ）ディスプレイ・インターフェース１２５５のうちの１つ以上に結合されたディスプレイ・デバイス１２４５を含むことが可能である。ストレージは、フラッシュ・メモリ及びフラッシュ・メモリ・コントローラを含むフラッシュ・メモリ・サブシステム１２６０によって提供されてもよい。メモリ・インターフェースは、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスへのアクセスのために、メモリ・コントローラ１２６５を介して提供されてもよい。幾つかの集積回路は、埋め込みセキュリティ・エンジン１２７０を更に含む。

図１３Ａ−１３Ｂは、本願で説明される実施形態に従った、ＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。図１３Ａは、実施形態による、１つ以上のＩＰコアを使用して製造されることが可能なチップ集積回路上のシステムの例示的なグラフィックス・プロセッサ１３１０を示す。図１３Ｂは、実施形態による、１つ以上のＩＰコアを使用して製造されることが可能なチップ集積回路上のシステムの追加の例示的なグラフィックス・プロセッサ１３４０を示す。図１３Ａのグラフィックス・プロセッサ１３１０は、低電力グラフィックス・プロセッサ・コアの例である。図１３Ｂのグラフィックス・プロセッサ１３４０は、高性能グラフィックス・プロセッサ・コアの一例である。グラフィックス・プロセッサ１３１０、１３４０の各々は、図１２のグラフィックス・プロセッサ１２１０の変形であるとすることが可能である。

図１３Ａに示されるように、グラフィックス・プロセッサ１３１０は、頂点プロセッサ１３０５及び１つ以上のフラグメント・プロセッサ（例えば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄ、１３１５Ｎ−１及び１３１５Ｎ）を含む。グラフィックス・プロセッサ１３１０は、頂点プロセッサ１３０５が頂点シェーダー・プログラムに対して演算を実行するように最適化される一方、１つ以上のフラグメント・プロセッサ（複数可）１３１５Ａ−１３１５Ｎが、フラグメント又はピクセル・シェーダー・プログラムに対してフラグメント（例えば、ピクセル）シェーダー演算を実行するように、別々のロジックにより異なるシェーダー・プログラムを実行することが可能である。頂点プロセッサ１３０５は、３Ｄグラフィックス・パイプラインの頂点処理ステージを実行し、プリミティブ及び頂点データを生成する。フラグメント・プロセッサ（複数可）１３１５Ａ−１３１５Ｎは、頂点プロセッサ１３０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイスに表示されるフレーム・バッファを生成する。一実施形態では、フラグメント・プロセッサ（複数可）１３１５Ａ−１３１５Ｎは、ＯｐｅｎＧＬＡＰＩで提供されているように、フラグメント・シェーダー・プログラムを実行するように最適化されており、このプログラムは、Ｄｉｒｅｃｔ３ＤＡＰＩで提供されるような、ピクセル・シェーダー・プログラムと同様な動作を実行するために使用されることが可能である。

グラフィックス・プロセッサ１３１０は、１つ以上のメモリ管理ユニット（ＭＭＵ）１３２０Ａ−１３２０Ｂ、キャッシュ１３２５Ａ−１３２５Ｂ、及び回路相互接続１３３０Ａ−１３３０Ｂを更に含む。１つ又は複数のＭＭＵ（複数可）１３２０Ａ−１３２０Ｂは、頂点プロセッサ１３０５及び／又はフラグメント・プロセッサ（複数可）１３１５Ａ−１３１５Ｎを含むグラフィックス・プロセッサ１３１０のための仮想_対物理アドレス・マッピングを提供し、これは、１つ又は複数のキャッシュ１３２５Ａ−１３２５Ｂに記憶された頂点又は画像／テクスチャ・データに加えて、メモリに記憶された頂点又は画像／テクスチャ・データを参照することができる。一実施形態では、１つ又は複数のＭＭＵ（複数可）１３２０Ａ−１３２０Ｂは、各プロセッサ１２０５−１２２０が共有又は統一仮想メモリ・システムに参加できるように、図１２の１つ又は複数のアプリケーション・プロセッサ１２０５、画像プロセッサ１２１５、及び／又はビデオ・プロセッサ１２２０に関連付けられた１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期することが可能である。１つ以上の回路相互接続（複数可）１３３０Ａ−１３３０Ｂは、実施形態によるグラフィックス・プロセッサ１３１０が、ＳｏＣの内部バスを介して又は直接接続を介して、ＳｏＣ内の他のＩＰコアとのインターフェースとなることを可能にする。

図１３Ｂに示すように、グラフィックス・プロセッサ１３４０は、図１３Ａのグラフィックス・プロセッサ１３１０の１つ以上のＭＭＵ１３２０Ａ−１３２０Ｂ、キャッシュ１３２５Ａ−１３２５Ｂ、及び回路相互接続１３３０Ａ−１３３０Ｂを含む。グラフィックス・プロセッサ１３４０は、１つ以上のシェーダー・コア１３５５Ａ−１３５５Ｎ（例えば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆ、ないし１３５５Ｎ−１、及び１３５５Ｎ）を含み、単一のコア又はタイプ又はコアが、頂点シェーダー、フラグメント・シェーダー、及び／又は計算シェーダーを実装するシェーダー・プログラム・コードを含む、全てのタイプのプログラマブル・シェーダー・コードを実行することが可能な統一されたシェーダー・コア・アーキテクチャを提供する。提示されているシェーダー・コアの正確な数は、実施形態及び実装に応じて変わる可能性がある。更に、グラフィックス・プロセッサ１３４０は、１つ以上のシェーダー・コア１３５５Ａ−１３５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして機能するコア間タスク・マネージャ１３４５と、タイル・ベースのレンダリングのためのタイル処理を加速するタイル・ユニット１３５８とを含み、シーンのレンダリング動作は、例えばシーン内の局所空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、画像空間内で細分化される。

機械学習ワークロードのためのテンソル加速ロジック
図１４は、実施形態によるデータ処理システム１４００のブロック図である。データ処理システム１４００は、プロセッサ１４０２と、統一メモリ１４１０と、機械学習加速ロジックを含むＧＰＧＰＵ１４２０とを有するヘテロジニアス処理システムである。プロセッサ１４０２及びＧＰＧＰＵ１４２０は、本願で説明されるような任意のプロセッサ及びＧＰＧＰＵ／並列プロセッサであるとすることが可能である。プロセッサ１４０２は、システム・メモリ１４１２に記憶されたコンパイラ１４１５のための命令を実行することができる。コンパイラ１４１５は、ソース・コード１４１４Ａを、コンパイルされたコード１４１４Ｂにコンパイルするために、プロセッサ１４０２上で実行する。コンパイルされたコード１４１４Ｂは、プロセッサ１４０２によって実行される可能性のある命令、及び／又はＧＰＧＰＵ１４２０によって実行される可能性のある命令を含むことが可能である。コンパイルの間に、コンパイラ１４１５はメタデータを挿入する動作を実行することが可能であり、メタデータは、コンパイルされたコード１４Ｂに存在するデータ並列性のレベルに関するヒント、及び／又はコンパイルされたコード１４Ｂに基づいてディスパッチされるべきスレッドに関連するデータ局所性に関するヒントを含む。コンパイラ１４１５は、そのような動作を実行するために必要な情報を含むことが可能であり、或いはその動作はランタイム・ライブラリ１４１６の支援とともに実行されることが可能である。ランタイム・ライブラリ１４１６はまた、ソース・コード１４１４Ａのコンパイルにおいてコンパイラ１４１５を支援することも可能であり、また、ＧＰＧＰＵ１４２０上でのコンパイルされた命令の実行を促進にするために、コンパイルされたコード１４Ｂとランタイムでリンクされる命令を含むことも可能である。

統一メモリ１４１０は、プロセッサ１４０２及びＧＰＧＰＵ１４２０によってアクセスされることが可能な統一されたアドレス空間を表現する。統一メモリは、システム・メモリ１４１２及びＧＰＧＰＵメモリ１４１８を含むことが可能である。ＧＰＧＰＵメモリ１４１８は、ＧＰＧＰＵ１４２０のアドレス空間内のメモリであり、システム・メモリ１４１２の一部又は全部を含むことが可能である。一実施形態では、ＧＰＧＰＵメモリ１４１８はまた、ＧＰＧＰＵ１４２０により排他的に専有される任意のメモリの少なくとも一部を含むことも可能である。一実施形態では、システム・メモリ１４１２に格納されたコンパイルされたコード１４１４Ｂは、ＧＰＧＰＵ１４２０によるアクセスのためにＧＰＧＰＵメモリ１４１８にマッピングされることが可能である。

ＧＰＧＰＵ１４２０は、複数の計算ブロック１４２４Ａ−１４２４Ｎを含み、これは、本願で説明される種々の１つ以上の処理リソースを含むことが可能である。処理リソースは、例えば、実行ユニット、計算ユニット、ストリーミング・マルチプロセッサ、グラフィックス・マルチプロセッサ、又はマルチ・コア・グループのような多種多様な計算リソースであってもよいし、或いはそれらを含むことも可能である。一実施形態では、ＧＰＧＰＵ１４２０は、テンソル（例えば、行列）アクセラレータ１４２３を追加的に含み、このテンソル・アクセラレータは、行列演算のサブセット（例えば、ドット積など）を加速するように設計された１つ以上の特殊関数計算ユニットを含むことが可能である。テンソル・アクセラレータ１４２３は、テンソル・アクセラレータ又はテンソル・コアと言及されてもよい。一実施形態では、テンソル・アクセラレータ１４２３内の論理コンポーネントは、複数の計算ブロック１４２４Ａ−１４２４Ｎの処理リソースにわたって分散されてもよい。

ＧＰＧＰＵ１４２０はまた、計算ブロック１４２４Ａ−１４２４Ｎ及びテンソル・アクセラレータ１４２３によって共有されることが可能なリソースのセットを含むことも可能であり、リソースのセットは、レジスタ１４２５のセット、電力＆パフォーマンス・モジュール１４２６、及びキャッシュ１４２７を含むがこれらに限定されない。一実施形態では、レジスタ１４２５は直接的及び間接的にアクセス可能なレジスタを含み、ここで、間接的にアクセス可能なレジスタは、テンソル・アクセラレータ１４２３による使用のために最適化される。電力＆パフォーマンス・モジュール１４２６は、計算ブロック１４２４Ａ−１４２４Ｎに対する電力配分及びクロック周波数を調整し、計算ブロック１４２４Ａ−１４２４Ｎ内のアイドル・コンポーネントの電力ゲートを制御するように構成されることが可能である。様々な実施形態において、キャッシュ１４２７は、命令キャッシュ及び／又は下位レベルのデータ・キャッシュを含むことが可能である。

ＧＰＧＰＵ１４２０は追加的にＬ３データ・キャッシュ１４３０を含むことが可能であり、Ｌ３データ・キャッシュ１４３０は、計算ブロック１４２４Ａ−１４２４Ｎ内の計算要素及び／又はテンソル・アクセラレータ１４２３によって統一メモリ１４１０の中からアクセスされたデータをキャッシュするために使用されることが可能である。一実施形態では、Ｌ３データ・キャッシュ１４３０は、テンソル・アクセラレータ１４２３及びコンピュータ・ブロック１４２４Ａ−１４２４Ｎ内の計算要素によって共有されることが可能な共有ローカル・メモリ１４３２を含む。

一実施形態では、ＧＰＧＰＵ１４２０は、フェッチ＆デコード・ユニット１４２１及びスケジューラ・コントローラ１４２２などの命令ハンドリング・ロジックを含む。フェッチ＆デコード・ユニット１４２１は、計算ブロック１４２４Ａ−１４２４Ｎ又はテンソル・アクセラレータ１４２３のうちの１つ以上による実行のための命令を、フェッチ及びデコードするフェッチ・ユニット及びデコード・ユニットを含む。命令は、スケジューラ・コントローラ１４２２により、テンソル・アクセラレータ又は計算ブロック１４２４Ａ−１４２４Ｎ内の適切な機能ユニットに対してスケジューリングされることが可能である。一実施形態では、スケジューラ・コントローラ１４２２は、高度なスケジューリング動作を実行するように構成することが可能なＡＳＩＣである。一実施形態では、スケジューラ・コントローラ１４２２は、ファームウェア・モジュールからロードされたスケジューラ命令を実行することが可能な、命令当たりエネルギが低い処理コア又はマイクロ・コントローラである。

一実施形態では、計算ブロック１４２４Ａ−１４２４Ｎによって実行される幾つかの機能は、テンソル・アクセラレータ１４２３に対して直接的にスケジューリングされるか、又はオフロードされることが可能である。様々な実施形態では、テンソル・アクセラレータ１４２３は、３Ｄグラフィックス又は計算シェーダー・プログラムによって使用される乗算及び加算演算、及びドット積演算などの行列計算オペレーションを効率的に実行するように構成された処理要素ロジックを含む。一実施形態では、テンソル・アクセラレータ１４２３は、機械学習フレームワークによって使用される演算を加速するように構成されることが可能である。一実施形態では、テンソル・アクセラレータ１４２３は、並列的な行列乗算及び／又は加算演算の特定のセットを実行するように明示的に構成された特定用途向け集積回路である。一実施形態では、テンソル・アクセラレータ１４２３は、ワークロード間で更新されることが可能な固定機能ロジックを提供するフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）である。テンソル・アクセラレータ１４２３によって実行されることが可能な一組の行列演算は、計算ブロック１４２４Ａ−１４２４Ｎによって実行されることが可能な演算に関連して制限される可能性がある。しかしながら、テンソル・アクセラレータ１４２３は、計算ブロック１４２４Ａ−１４２４Ｎと比較してかなり高いスループットでこれらの動作を実行することが可能である。

図１５は、実施形態による命令パイプライン１５００によって実行される行列演算１５０５を示す。命令パイプライン１５００は、ドット積演算のような行列演算１５０５を実行するように構成されることが可能であるが、ドット積演算に限定されない。２つのベクトルのドット積は、ベクトルの対応する成分の積和に等しいスカラ値である。ドット積は、次式（１）に示されるように計算されることが可能である。

ドット積は、畳み込みニューラル・ネットワーク（ＣＮＮ）の畳み込み演算で使用されることが可能である。図１５は、ドット積演算を含む行列演算１５０５を使用する２次元（２Ｄ）畳み込みを示す。２Ｄ畳み込みが示されているが、Ｎ次元畳み込みが、Ｎ次元フィルタを用いてＮ次元ボリューム上で実行されることが可能である。受容野タイル１５０２は、入力ボリューム・バッファ１５０４における入力ボリュームの一部を強調する。入力ボリューム・バッファは、メモリ１５３０に記憶されることが可能である。ドット積行列演算１５０５が、受容野タイル１５０２内のデータと畳み込みフィルタとの間で実行され、出力バッファ１５０６におけるデータ点を生成し、これもメモリ１５３０に格納されることが可能である。メモリ１５３０は本願で説明される任意のメモリであるとすることが可能であり、図１４のように、システム・メモリ１４１２、ＧＰＧＰＵメモリ１４１８、又は１つ以上のキャッシュ・メモリ１４２７、１４３０を含む。

出力バッファ１５０６内のデータ点の組み合わせは、畳み込み演算によって生成される活性化マップを表現する。活性化マップ内の各点は、入力ボリューム・バッファ１５０４にわたって受容野タイルをスライドさせることによって生成される。活性化マップ・データは、出力活性化値を決定するために活性化関数に入力されることが可能である。一実施形態では、入力ボリューム・バッファ１５０４の畳み込みは、ハイ・レベル行列演算１５０５としてフレームワーク内で定義されることが可能である。ハイ・レベル行列演算は、基本線形代数サブプログラム（ＢＬＡＳ）演算のようなプリミティブ演算によって実行されることが可能である。プリミティブ演算は、命令パイプライン１５００によって実行されるハードウェア命令によって加速されることが可能である。

ハードウェア命令を加速するために使用される命令パイプライン１５００は、ハードウェア命令をフェッチ及びデコードすることが可能な命令フェッチ＆デコード・ユニット１４２１と、デコードされた命令を、テンソル・アクセラレータ１４２３及び／又は計算ブロック１４２４Ａ−１４２４Ｎ内の１つ以上の処理リソースに対してスケジューリングすることが可能なスケジューラ・コントローラ１４２２とを含むことが可能である。一実施形態では、ハードウェア命令は、計算ブロック１４２４Ａ−１４２４Ｎに対してはスケジューリングされ、テンソル・アクセラレータ１４２３に対してはオフロードされることが可能である。行列演算１５０５を実行するための１つ以上のハードウェア命令及び関連データは、メモリ１５３０に記憶されることが可能である。ハードウェア命令の出力は、メモリ１５３０に記憶されることも可能である。

一実施形態では、テンソル・アクセラレータ１４２３は、統合されたシストリック・アレイ１５０８（ＤＰロジック）を使用して行列演算１５０５を実行するために、１つ以上のハードウェア命令を実行することができる。シストリック・アレイ１５０８は、ドット積演算を実行するように構成することが可能なプログラマブル及び固定機能ハードウェアの組み合わせを含むことが可能である。計算ブロック１４２４Ａ−１４２４Ｎ内の機能ユニットは、ドット積演算を実行するように構成されることも可能であるが、シストリック・アレイ１５０８は、計算ブロック１４２４Ａ−１４２４Ｎと比較してかなり高いスループットで、ドット積演算の限られたサブセットを実行するように構成されることが可能である。

フィードバック入力を有するシストリック・アレイを用いたスケーラブルなスパース行列乗算加速
本願で説明されるものは、フィードバック入力を有するシストリック・アレイを利用してスケーラブルなスパース行列乗算加速を可能にするアーキテクチャである。アーキテクチャは、ワークロードのデータが多数のゼロを示すワークロードにおいてシストリック行列乗算を加速する。このアーキテクチャは、容易にスケーラブルであり、ワークロードのデータに見受けられるスパース性を活用して導入される最適化によって与えられる利得を維持し、命令スループットを増加させることを可能にする。利点は、他のシストリック・アレイと比較した場合のパフォーマンスの向上、電力消費の減少、面積の減少を含む。このアーキテクチャは、非常にスパースなデータ負荷における計算数を減らすことにより、シストリック・ドット積累積演算のパフォーマンスを改善する。計算の削減は、従来のアーキテクチャと比較した場合に、電力消費の低減をもたらす。このアーキテクチャはまた、シストリック・アレイの設計を単純化することにより、既存のシストリック・アレイよりも良好にスケーリングできる。単純化された設計は、アーキテクチャがアクセラレータ設計に幅広く組み込まれ、それらのアクセラレータの行列処理スループットを増加させることを可能にする。

機械学習アルゴリズムの計算に使用されるデータは、入力要素として非常に多数のゼロを示す。ニューラル・ネットワーク・アプリケーションでは、これは、実装されたネットワークのトポロジー及びモデル化されたニューロンの特性によって自然に引き起こされる。一例として、完全に相互接続されたニューラル・ネットワークにおいて、ニューロンの列又は層の出力は、次の層の各ニューロンの入力に接続される。ネットワークは多数の層により構成されており、各層は多数のニューロンで特徴付けられる可能性がある。ニューロンの出力の計算における最終ステージは、活性化関数を実施することである。この関数は、通常、ニューロンの入力の計算が正である場合は正の関数の評価を出力し、それが負である場合はゼロを出力する。これに起因して、ニューロンの多数の出力結果は、ゼロである可能性があり、ニューラル・ネットワークの計算における次のステップにおいて、次のネットワーク層に供給される。

多数の層とニューロンを特徴付けるニューラル・ネットワークの実施において、各層は、ニューロンの入力ウェイトの値の行列と、ニューロンへの入力の値の行列とによって表現される。ニューロンへの全ての入力は、その重みで乗算され、ニューロンへの他の入力の結果に加算される。その後、活性化関数が適用され、次のネットワーク層に供給するニューロンの出力を取得する。ニューロンの入力及び重みの乗算及び加算を高速に計算するために、幾つもの技術がハードウェアにおいて使用されてきた。本発明に関連するものは、乗算及び累積演算のためのシストリック・アレイの使用である。

図１６は、パイプライン方式で組織された乗算器及び加算器回路を含むシストリック・アレイ１６００を示す。第１入力行列に対する入力１６１２Ａ−１６１２Ｈは、Ｓｒｃ１及びＳｒｃ１＋１ないしＳｒｃ１＋７のラベルが付された入力に含まれるデータ要素によって表現される。入力１６１０Ａ−１６１０Ｂは、第２入力行列に対応し、Ｓｒｃ２としてラベル付けされる。初期アキュムレータ値を含む可能性がある入力１６０２は、Ｓｒｃ０として提供されることが可能である。シストリック・アレイ１６００の処理要素１６１１Ａ−１６１１Ｈは、パイプライン構造として動作し、各ステージは、クロック・サイクルで実行される。全てのサイクルにおいて、全てのステージは新しいＳｒｃ２入力を受け取ることが可能であり、新しいＳｒｃ２入力は、新しいＳｒｃ１入力又は古い入力とともに計算されることが可能である。Ｓｒｃ２入力は、８つのＳｒｃ１入力（例えば、ステージ当たり１つのＳｒｃ１入力）とともに作用する。Ｓｒｃ２入力のチャネルのデータ要素は、処理要素１６１１Ａ−１６１１Ｈの全チャネルにわたってブロードキャストされる。次に、処理要素は、Ｓｒｃ１入力の全てのチャネルとともにＳｒｃ２チャネルを作用させる。第１クロック・サイクルでは、Ｓｒｃ１入力は、Ｓｒｃ２の第１チャネルのデータ要素とともに作用させられる。次のサイクルでは、第２Ｓｒｃ１（Ｓｒｃ１＋１としてラベル付けされている）がＳｒｃ２の第２チャネルのデータ要素とともに作用する。このシーケンスは、パイプラインの８ステージで繰り返される。各ステージは、その作用を前のステージの出力に追加する。パイプライン・ステージを通じて、複数のＳｒｃ２入力がパイプライン方式で処理される。第１Ｓｒｃ２入力の連続したチャネルが、パイプライン・ステージを通過してプッシュされるので、新しいＳｒｃ２入力が第１ステージで提供されることが可能である。

最終ステージからの出力１６２２はＤｓｔとしてラベル付けされる。ここで、ｄ＝シストリック深度であり、ｅ＝チャネル当たりのデータ要素数であり、チャネルの出力は以下の式（２）によって記述される：

式（２）に示すように、各チャネルは、演算が並列に実行される複数のデータ要素を含むことが可能である。一実施形態では、各チャネルは４要素のデータ・ベクトルを表現するが、各チャネルに対して異なる数の要素が設定されることが可能である。一実施形態では、チャネル内のデータ要素の数は、各データ要素のサイズに基づいて変化し得る。ドット積は、例えば、要素当たり８ビット・データ・タイプの４要素ベクトル、１６ビット・データ・タイプの２要素ベクトル、４ビット・データ・タイプの８要素ベクトル（例えば、ＩＮＴ４）、あるいは２ビット・データ・タイプの１６要素ベクトル（例えば、ＩＮＴ２）を使用して実行されることが可能である。チャネル数は、Ｓｒｃ１及びＳｒｃ２のデータ・タイプに応じて自動的に調整されることが可能である。命令はまた、命令に使用されるのに必要なシストリック深度を指定することも可能である。

一実施形態では、処理要素１６１１Ａ−１６１１Ｈは、入力１６１０Ａ−１６１０Ｈ、１６１２Ａ−１６１２Ｈを、汎用レジスタ・ファイルから直接的に読み込む可能性がある。一実施形態では、シストリック・アレイ１６００は、入力１６１０Ａ−１６１０Ｈ、１６１２Ａ−１６１２Ｈを汎用レジスタ・ファイルから読み込み、シストリック・アレイの内部にあるレジスタ、バッファ、又はメモリに入力データを格納するロジックを含む。次いで、内部ロジックは、処理のために、入力データ要素を処理要素１６１１Ａ−１６１１Ｈに与えることが可能である。出力１６２２は、シストリック・アレイ１６００の内部レジスタ又はメモリに書き込まれること、及び／又は汎用レジスタ・ファイルに直接的に書き込まれることが可能である。

一実施形態では、ステージ内の乗算器／加算器に入力される要素はゼロであると判断された場合、乗算／加算は迂回（バイパス）されることが可能であり、前の入力が伝搬されるだけである。入力行列がスパースである（例えば、多数のゼロを含む）場合、実行されるべき演算の数は削減される。幾つかの実装形態は、乗算／加算演算を行う消費電力を回避するために、乗算／累積ステージをバイパスすることが可能である。しかしながら、演算を単にバイパスすることは、シストリック・チェーンにおけるアイドル・ステージという結果を招く。例えば、Ｓｒｃ２入力の要素が全てゼロである場合、その要素に関連付けられたステージをバイパスすることは、電力を節約することになるであろう。しかしながら、そのサイクルで演算は行われない。従って、演算のスループットは改善されないままである。他の実装は、アレイのセクション全体がバイパスされ得るような方法で、入力を再配置することが可能である。入力を配置し直すことは、入力を再配置するための余分なハードウェアの追加に起因して、スケール・アップ・コストを増やす。アーキテクチャは、スパース性を有しない入力のケースを考慮しなければならず、これは、パイプラインの全深度を使用する必要がある。従って、アーキテクチャは、全てのステージが常に利用可能であるように設計されるべきである。

本願で説明されるものは、種々の実施形態において、上記の問題を回避しつつ、ある意味でスパース入力を処理する最適化を伴うアーキテクチャである。実施形態は、様々な製品のニーズを充足するように容易にスケーラブルにすることができ、追加のハードウェア又はアイドル・クロック・サイクル無しに、非ゼロ要素のみの計算を可能にするモジュール式シストリック・アレイを提供する。これらの概念は、本明細書の次のセクションで徐々に説明される。

フィードバック入力を有する行列乗算アクセラレータ
シストリック・アレイ１６００は、蓄積による８深層乗算／加算アレイであり、ドット積累積シストリック（ＤｏｔＰｒｏｄｕｃｔＡｃｃｕｍｕｌａｔｅＳｙｓｔｏｌｉｃ，ＤＰＡＳ）アレイと呼ばれてもよい。このようなアーキテクチャの深さは、何らかの製品、プロジェクト、及び／又はユース・ケースに有益である。他の製品、プロジェクト、及び／又はユース・ケースは、そのような深さのアレイを必要とせず、スループットはより低いが、より小さな面積、及び／又はより低い消費電力による恩恵があるであろう。或いは、他の製品、プロジェクト、及び／又はユース・ケースは、より大きなパイプライン深度を使用することによって達成可能なより高いＤＰＡＳスループットから恩恵があるであろう。より深いアレイに使用される同じプログラミング・モデルを保ちながら、シストリック・アレイで使用されるハードウェアの量を減らすために、フィードバック入力は、図１６に示されるシストリック・アレイの縮小深度バージョンに追加される。

図１７Ａ−１７Ｂは、８つのシストリック・ステージの等価アレイを計算するための４深層シストリック・アレイ１７００の使用例を示す。図１７Ａは、外部ソースからＳｒｃ０入力を受け取り、Ｓｒｃ１及びＳｒｃ２入力により最初の４つのステージを処理するアレイを示す。このアレイの出力は、図１７Ｂに示される第２ステップにフィードバックされる。図１７Ｂは、次の４つのステージが、既に処理された値とＳｒｃ１及びＳｒｃ２入力とを含むフィードバック・データを使用して計算されることを示す。

図１７Ａに示すように、シストリック・アレイ１７００は、データ・セレクタ１７０４により読み込まれる入力１６０２を、Ｓｒｃ０入力として受け入れることができる（１７０２）。データ・セレクタ１７０４は、入力１６０２とフィードバック入力１７０６との間で選択を行う。処理要素１６１１Ａ−１６１１Ｄは、シストリック・アレイ１６００と同様の方法で、入力１６１０Ａ−１６１０Ｄ及び１６１２Ａ−１６１２Ｄを処理することが可能である。４つのステージが演算を完了するのに十分である場合、処理要素１６１１Ｄは、データ・セレクタ１７２４により、指定されたＤｓｔレジスタ又はメモリに出力１６２２を書き込むことができる（１７２２）。更なるステージが必要とされる場合、データ・セレクタ１７２４は、処理要素１６１１Ａへのフィードバック入力１７０６として提供されるフィードバック出力１７２６を書き込むことができる。

図１７Ｂに示すように、一実施形態では、フィードバック入力１７０６は、処理要素１６１１Ａ−１６１１Ｄによって更に処理されることが可能である。フィードバック入力１７０６は、既に処理された値を含む。一実施形態では、フィードバック入力１７０６はまた、入力１６１０Ｅ−１６１０Ｈ、入力１６１２Ｅ−１６１２Ｈを含むことが可能であり、これらは、最初の４つのステージを処理する間に予めフェッチされることが可能である。データ・セレクタ１７０４は、処理要素１６１１Ａによる入力のためにフィードバック入力１７０６を選択する。次いで、処理要素１６１１Ａ−１６１１Ｄは、入力１６１０Ｅ−１６１０Ｈ及び１６１２Ｅ−１６１２Ｈを処理することができる。その後、データ・セレクタ１７２４は、第８ステージの結果を出力１６２２として、指定されたＤｓｔレジスタに書き込むことができる。

図１６及び図１７Ａ−１７Ｂのアレイの時間ダイアグラムが、図１８Ａ−１８Ｂに示されている。

図１８Ａ−１８Ｂは、２つのタイミング図１８００、１８５０を示す。図１８Ａは、図１６に示される８深層シストリック・アレイ１６００に対応するタイミング図１８００を示す。図１８Ｂは、図１７Ａ−１７Ｂに示されるフィードバック入力を有するシストリック・アレイに対応するタイミング図１８５０を示す。複数のクロック周期が示されている。

図１８Ａに示されるように、タイミング図１８００は読み込みサイクル１８０２を示し、読み込みサイクル１８０２は、アレイに供給される入力を読み込むシストリック・アレイ１６００の読み込みロジックに対応する。シストリック・サイクル１８０４は、アレイの各ステージにおいて、これらの入力が処理される方法に対応する。書き込みサイクル１８０６は、指定された宛先位置に出力を書き込む出力ロジックに対応する。読み込みサイクル１８０２のサイクル０で読み込まれる入力は、シストリック・サイクル１８０４のサイクル０−７でシストリック・アレイによって処理される。読み込みサイクル１８０２のサイクル１で読み込まれた入力は、シストリック・サイクル１８０４のサイクル１−８で処理される。シストリック・サイクル１８０４のサイクル０で始まる処理は、書き込みサイクル１８０６のサイクル「Ｎ」で出力される。一実施形態では、Ｎの値は、シストリック・アレイの深さに関連付けられてもよい。シストリック・サイクル１８０４のサイクル１で始まる処理は、サイクル１−８で処理され、書き込みサイクル１８０６のサイクルＮ＋１で出力される。アレイのパイプライン化された性質に起因して、サイクルＮ及びＮ＋１で出力をもたらす計算は、シストリック・アレイの種々のパイプライン化されたステージ（ステージ１−ステージ８）によって並行的に実行される。

読み込みサイクル１８０２のサイクルは、１つ以上のサイクルだけシストリック・サイクル１８０４に先行する。例えば、読み込みサイクル１８０２のサイクル０は、シストリック・サイクル１８０４のサイクル０の前に生じることが可能である。一実施形態では、読み込みサイクル１８０２のサイクル１は、シストリック・サイクル１８０４のサイクル０と同時に起こることが可能である。シストリック・サイクル１８０４のサイクル０の間に、シストリック・アレイのステージ１は、読み込みサイクルのサイクル０で読み込んだ入力に基づいて、Ｓｒｃ０＋Ｓｒｃ１×Ｓｒｃ２．０を計算する。Ｓｒｃ１の要素０−７の各々は、Ｓｒｃ２の要素０と並列的に乗算され、Ｓｒｃ０の対応する要素０−７に加算される。ステージ１からの結果はステージ２に渡される。シストリック・サイクル１８０４のサイクル１において、ステージ２は、サイクル０でステージ１によって計算された結果を、［Ｓｒｃ１＋１］×Ｓｒｃ２．１の結果とともに累積し、ここで、Ｓｒｃ２の要素１は「Ｓｒｃ１＋１」の各要素により乗算される。Ｓｒｃ１はステージ１に残り、サイクル１において、ステージ１は、次のＳｒｃ０及びＳｒｃ２入力とともに、［Ｓｒｃ０＋１］＋Ｓｒｃ１＊［Ｓｒｃ２＋１．０］を計算する。第１ステージにおいて、Ｓｒｃ１の要素０−７の各々は、［Ｓｒｃ２＋１］の要素０と並列的に乗算され、［Ｓｒｃ０＋１］の対応する要素に加算される。処理は、各ステージ及び各サイクルに対するこのパターンで続き、結果は、書き込みサイクル１８０６のサイクルＮで始まるステージ８から出力される。

図１８Ｂに示されるように、タイミング図１８５０は、図１６のシストリック・アレイ１６００の８深層パイプラインの最初の４つのステージと同様に、図１７Ａ−１７Ｂのシストリック・アレイ１７００が、シストリック・サイクル１８５４のサイクル０から始まって、読み込みサイクル１８５２のサイクル０で読み込まれた入力の第１グループを処理することを示す。図１８Ｂでは、読み込みサイクル１８５２は、必ずしもシストリック・サイクル１８５４の対応するサイクルと整列しているとは限らないことが、理解されるであろう。シストリック・アレイ１７００の読み込みロジックは、シストリック・アレイ１６００と同じ方法で入力の第１グループを読み込むことが可能である。読み込みサイクル１８５２のサイクル０ないし３で読み込まれる最初の４つの入力は、シストリック・アレイ１７００によってパイプライン方式で処理されることが可能である。出力は、書き込みサイクル１８５６において「Ｎ」としてラベル付けされたサイクルで生成される。従って、シストリック・アレイ１７００のサイクルＮにおける最初の出力までの待ち時間は、シストリック・アレイ１７００による待ち時間と同じである。しかしながら、シストリック・アレイ１７００のスループットは、Ｄｓｔ３とＤｓｔ４の出力の間に遅延が存在するので減少し、フィードバックに起因して書き込みサイクルのサイクルＮ＋８ないしＮ＋１１で書き込まれる。

シストリック・アレイ１７００の場合、フィードバックはシストリック・サイクル１８５４のサイクル４で始まる。フィードバックはサイクル７まで生じる。一旦、フィードバックがシストリック・サイクル１８５４のサイクル４で始まると、破線入力によって表現されるように、Ｓｒｃ１入力のみが、処理エレメントによって、シストリック・サイクル１８５４のサイクル４、５、６、及び７に読み込まれる。Ｓｒｃ０及びＳｒｃ２入力の次のグループは、シストリック・サイクル１８５４のサイクル８において始まる処理要素によって読み込まれる。読み込みロジックは、これらの入力が必要とされるまで、Ｓｒｃ０及びＳｒｃ２入力の読み込みを遅延させることができ、又は図示のように、これらの入力をＳｒｃ１入力に関連して読み込むことができる。一旦、入力が読み込まれると、これらの入力は、シストリック・アレイによってバッファリングされ、再使用されることが可能である。

シストリック・アレイ１６００に対するフィードバックを有する行列乗算アクセラレータ（シストリック・アレイ１７００）の利点は、次のように要約される：シストリック・アレイ１７００は、より少ないハードウェアを用いてシストリック・アレイ１６００と同様のパイプライン深度を計算することができる。シストリック・アレイ１７００は、シストリック・アレイ１６００と同じ命令の使用を可能にし、シストリック・アレイ１６００のために開発されたワークロードが、シストリック・アレイ１７００と共に再利用されることを可能にする。シストリック・アレイ１７００は、より少ないパイプライン・ステージを利用することによって、より少ない電力しか消費しない。シストリック・アレイ１７００は、シストリック・アレイ１６００に対する読み込み及び書き込みのために、削減された帯域幅で動作することが可能である。シストリック・アレイ１７００は、任意の数のステージで実装されることが可能であるが、以下に示される実施形態の特徴を可能にするために、２の倍数を使用することが最良であるかもしれない。シストリック・アレイ１７００のアーキテクチャは、スループットを減らしているが、シストリック・アレイ１６００と同じスループットは、シストリック・アレイ１７００の複数のインスタンスを並列的に実装することによって可能にすることができる。

フィードバック入力を有するスケーラブルな行列乗算アクセラレータ
第２実施形態は、並列ユニットを用いた同時命令実行の使用により、スループットの向上を可能にする。乗算アクセラレータの幾つかのインスタンス又は経路は、並列に実行される。これらのインスタンスは、Ｓｒｃ１を共有することが可能であり、或いは独立したＳｒｃ１入力を有することも可能である。各経路は、各自自身のＳｒｃ２及びＳｒｃ０入力を有する。これらのインスタンスは、各自自身のＳｒｃ２及びＳｒｃ０入力を有する。４ステージである深度を有する２つの経路を示すバージョンが図１９に示されている。代替的に、２ステージの深度の４経路を使用するバージョンが、図２０に示されている。

図１９は、各経路が４ステージの深さを有する２経路行列乗算アクセラレータ１９００を示す。２経路行列乗算アクセラレータ１９００は、Ｓｒｃ０入力のための入力ロジック１９０２Ａ−１９０２Ｂと、入力ロジック１９１０Ａ−１９１０Ｂから受信したデータ要素を格納するための入力バッファ１９１１Ａ−１９１１Ｂと、Ｓｒｃ１のための共用入力ロジック１９１２から受信したデータ要素を格納するための入力バッファ１９１３Ａ−１９１３Ｂとを含む。各ステージは、並列に動作することが可能な処理要素のペアを含む。ステージ１は処理要素１９３１Ａ−１９３１Ｂを含み、ステージ２は処理要素１９３２Ａ−１９３２Ｂを含み、ステージ３は処理要素１９３３Ａ−１９３３Ｂを含み、ステージ４は処理要素１９３４Ａ−１９３４Ｂを含む。処理要素１９３１Ａ−１９３１Ｂ、１９３２Ａ−１９３２Ｂ、１９３３Ａ−１９３３Ｂ、１９３４Ａ−１９３４Ｂのそれぞれのハードウェア・ロジックは、シストリック・アレイ１６００又はシストリック・アレイ１７００の処理要素（例えば、処理要素１６１１Ａ−１６１１Ｄ）のハードウェア・ロジックと同一又は類似であるとすることが可能であり、同じプロセス技術又はより進歩したプロセス技術により製造されることが可能である。また、２経路行列乗算アクセラレータ１９００の処理要素は、シストリック・アレイ１６００の実装に比べて、より高い周波数で動作してもよい。処理要素は、より進歩したプロセス技術を用いて製造されてもよい。

フィードバックは、データ・セレクタ１７０４，１７２４と同一又は類似のデータ・セレクタを用いて実装されてもよい。読み込みロジックの構成に応じて、入力データは、事前に入力バッファにプリフェッチされることが可能であり、或いは処理要素１９３１Ａ−１９３１Ｂに入力される１サイクル以上前に、２経路行列乗算アクセラレータ１９００内のレジスタ又はキャッシュから読み込まれることが可能である。ステージ４の処理要素１９３４Ａ−１９３４Ｂは、ステージ１の対応する処理要素１９３１Ａ−１９３１Ｂにフィードバックされることが可能である。動的なロジック深度は、４の倍数でイネーブルにされてもよい。設定された数の論理ステージの後、結果は、出力ロジック１９２２Ａ−１９２２Ｂにより、指定された宛先に書き込まれることが可能である。

図２０は、各経路が２ステージの深さを有する４経路行列乗算アクセラレータ２０００を示す。４経路行列乗算アクセラレータ２０００は、２経路行列乗算アクセラレータ１９００と同数の処理要素を含み、処理要素は２倍多い経路で構成されるが、各経路は半分の深さである。４経路行列乗算アクセラレータ２０００は、Ｓｒｃ０のための入力ロジック２００２Ａ−２００２Ｄと、Ｓｒｃ２のための入力ロジック２０１０Ａ−２０１０Ｄによって読み込まれた入力要素を格納するための入力バッファ２０１１Ａ−２１１Ｄと、Ｓｒｃ１のための共用入力ロジック２０１２によって読み込まれた入力要素を格納するための入力バッファ２０１３Ａ−２０１３Ｄとを含む。処理要素２０３１Ａ−２０３１Ｂは、ステージ１の並列処理を可能にする。処理要素２０３２Ａ−２０３２Ｂは、ステージ２の並列処理を可能にする。各経路のステージ２は、ステージ１にフィードバックされるか、又は出力ロジック２０２２Ａ−２０２２Ｄにより、指定された宛先に結果を書き込むことが可能である。処理要素２０３１Ａ−２０３１Ｂ、２０３２Ａ−２０３２Ｂは、処理要素１９３１Ａ−１９３１Ｂ、１９３２Ａ−１９３２Ｂ、１９３３Ａ−１９３３Ｂ、１９３４Ａ−１９３４Ｂのものと同様なハードウェア・ロジックを含む可能性があり、同様なハードウェア・ロジックを使用してループバック機能を実装することが可能である。

２経路行列乗算アクセラレータ１９００又は４経路行列乗算アクセラレータ２０００の利点は、スケーラビリティ、ソフトウェア互換性、及びスループットを含む。これらのアクセラレータのモジュール式アーキテクチャは、８深層シストリック・アレイと比較して、より効率的なスケーリングを可能にする。行列乗算アクセラレータの異なる構成は、再設計することなく、異なる製品ニーズ又はユース・ケースに合わせて仕立てることが可能である。更に、同じソフトウェア・モデルが使用され、それはハードウェア実装とは独立している。８ステージのシストリック・パイプラインによって実行されるように意図される命令のために設計されるアルゴリズムは、４ステージの行列乗算アクセラレータを使用する実装において使用されることが可能である。ハードウェアは、ソフトウェアに対して透明な方法で８ステージのパイプラインをシミュレートするために、フィードバックを使用するであろう。高いＤＰＡＳ命令スループットを必要とする設計では、複数の経路を使用することが可能である。より多数の経路を伴う実装は、より高い帯域幅の入力ロジック及び出力ロジックと組み合わせられることが可能である。一実施形態では、２経路行列乗算アクセラレータ１９００及び４経路行列乗算アクセラレータ２０００は、８深層シストリック・アレイで可能なものよりも高い効率及び／又はより細かい粒度（単位）で、ブロック・スパース性を有する入力をバイパスするように構成される。

スケーラブル行列乗算アクセラレータにおけるスパース乗算
第３実施形態は、不規則なスパース性を有するデータを処理する際に、命令スループットの向上を促進する。Ｓｒｃ１及びＳｒｃ２入力の要素は、入力マルチプレクサ・ロジックにより個々に選択されることが可能であり、処理は非ゼロ値のみを使用して実行されることが可能である。

図２１は、フィードバック入力を伴うシストリック・アレイを使用するスケーラブルなスパース行列乗算アクセラレータ２１００を示す。スケーラブルなスパース行列乗算アクセラレータ２１００は、４経路行列乗算アクセラレータ２０００におけるもの又は本願で説明される任意の他の処理要素と同様な処理要素２０３１Ａ−２０３１Ｄを含むことが可能である。各経路の始まりにおける処理要素２０３１Ａ−２０２１Ｂは、Ｓｒｃ０のための入力ロジックを含む。スケーラブル・スパース行列乗算アクセラレータ２１００の各経路の各ステージは、入力セレクタ２１１２Ａ−２１１２Ｄにより、独立又は共用のＳｒｃ１の任意の要素を受け取ることが可能である。各経路の各ステージは、Ｓｒｃ２の任意の要素を受け取ることが可能である。独立したＳｒｃ２入力は、別個の入力要素セレクタにより提供される（例えば、入力セレクタ２１１０Ａ及び入力セレクタ２１１１ＡによるＳｒｃ２Ａ、入力セレクタ２１１０Ｂ及び入力セレクタ２１１１ＢによるＳｒｃ２Ｂである）。別々のＳｒｃ２入力は、個々の経路が、異なる命令を計算することを可能にする。異なる命令に対する出力を可能にするために、各経路に対して個々の出力ロジック２１２２Ａ−２１２２Ｂが存在する。

図２２は、スパース・データを含むＳｒｃ２入力２２００を示す。図示の例では、スパースＳｒｃ２入力２２００Ａ−２２００Ｂ（Ｓｒｃ２Ａ入力２２００Ａ［Ａ０，Ａ１，０，Ａ３，Ａ４，Ａ５，Ａ６，０］，Ｓｒｃ２Ｂ入力２２００Ｂ［Ｂ０，０，Ｂ２，Ｂ３，０，０，０，０］）は、共通のＳｒｃ１入力を使用して、スケーラブル・スパース行列乗算アクセラレータ２１００である変形例の各経路で処理されることが可能である。スケーラブル・スパース行列乗算アクセラレータ２１００の各経路は、別個の独自のＳｒｃ０入力を受信することが可能である。

計算プロセスの第１ステップは、第１Ｓｒｃ２要素を読み込み、要素をＮ要素のグループにそれぞれ再配置することであり、ここで、Ｎは要素が処理される経路の深度である。異なる数の経路を有する他の実装は、異なるグループ・サイズを有することが可能である。例えば、４経路行列乗算アクセラレータ２０００に基づくアクセラレータは、４つのデータ要素のグループを使用するであろう。可能であれば、非０データ要素のみが選択される。例えば、Ｓｒｃ２Ａ２２００Ａの非ゼロ値は、［Ａ０，Ａ１］、［Ａ３，Ａ４］、［Ａ５，Ａ６］の３つのグループに再配置される。Ｓｒｃ２Ｂ２２００Ｂの非ゼロ値は、［Ｂ０，Ｂ２］、［Ｂ３，０］の２つのグループとして再配置され、第２グループを完成させるために、ゼロのパディングが使用される。この再配置は、各グループの第１要素が、経路の第１ステージに、各グループの第２要素が、経路の第２ステージに供給されることを可能にするために使用される。スケーラブル・スパース行列乗算アクセラレータ２１００は、要素をグループ化することを必須としないが、要素をグループ化することは、ステージに供給されなければならない可能性がある要素の数を減らす。

計算プロセスの第２ステージにおいて、グループは経路に与えられる。８である深さを有する命令を計算するために４回のパス（ｐａｓｓ）を実行する代わりに（例えば、８回のフィードバックのパス、各々が２つのステージを有する）、２つの要素はゼロであり、処理を必要としないので、３回のフィードバックのパスのみが必要とされる。フィードバックの性質は、そのパスが迂回されることを可能にし、アキュムレータ値は、計算ステージを消費することなく、出力へ直接的に送られる。正しい関数計算を保つために、正しいＳｒｃ１要素が、計算される所与のＳｒｃ２要素に関してステージに入力される。従って、第２グループ（［Ａ３，Ａ４］）を処理する場合に、第１ステージはＳｒｃ１−３を読み込み、第２ステージはＳｒｃ１−４を読み込む。Ｓｒｃ２Ｂ２２００Ｂを処理する場合、２つのグループ（［Ｂ０，Ｂ２］，［Ｂ３，０］）のみが計算される。２つのグループは、４ではなく２つのフィードバックのパスを用いて計算されることが可能である。第１のパスでは、Ｓｒｃ１−０とＳｒｃ１−２とが第１及び第２ステージに入力される。第２のパスでは、Ｓｒｃ１−３と任意のＳｒｃ１要素とがそれぞれ第１及び第２ステージに入力される。

第３実施形態では、経路の深さは、削減されることが可能なゼロの数を制約する。８要素の入力に対して経路に２ステージを有する行列乗算アクセラレータ（スケーラブル・スパース行列乗算アクセラレータ２１００）では、８、６、４、及び２個のゼロの削減のみを実行することができる。経路に４ステージを有する行列乗算アクセラレータでは、８個及び４個のゼロの削減しか実行できない。スパース低減のより高い分解能を可能にするために、第４実施形態は、図２３に示すように、経路の各ステージで出力を追加し、各ステージがＳｒｃ０入力を受け取ることを可能にする。

図２３は、各ステージでフィードバック入力及び出力を有するシストリック・アレイを使用するスケーラブル・スパース行列乗算アクセラレータ２３００を示す。スケーラブル・スパース行列乗算アクセラレータ２３００は、Ｓｒｃ０要素が、各経路の各ステージに提供されること、及び各経路の各ステージに別個の出力を提供すること、を可能にする追加的な入力及び出力ロジックとともに、スケーラブル・スパース行列乗算アクセラレータ２１００と同様なハードウェア・ロジックを含む。
第１経路に関してＳｒｃ２Ａ要素を選択する入力セレクタ２１１０Ａ及び２１１１Ａ、
第２経路に関してＳｒｃ２Ｂ入力を選択する入力セレクタ２１１０Ｂ及び２１１１Ｂに加えて、Ｓｒｃ０入力の各経路に関して入力スプリッタ２３０３Ａ−２３０３Ｂが追加される。各入力スプリッタ２３０２Ａ−２３０２Ｂは、デマルチプレクサ又は類似のハードウェア・ロジックを含み、入力ロジック２３０２Ａ−２３０２Ｂによって読み込まれるＳｒｃ０入力要素が、各ステージへ送られることを可能にする。また、入力セレクタ２１１２Ａ−２１１２Ｄは、Ｓｒｃ１入力が、各経路の各ステージによって選択されることを可能にするために含まれる。各経路の第２ステージ（処理要素２３３１Ｃ−２３３１Ｄ）からの出力ロジック２１２２Ａ−２１２２Ｂに加えて、各経路の第１ステージ（２３３１Ａ−２３３１Ｂ）からの出力を可能にするために、追加の出ロジック２３２２Ａ−２３２２Ｂが提供される。処理要素２３３１Ａ−２３３１Ｃは、本願で説明される他の処理要素と同様であってもよい。

動作中、スケーラブル・スパース行列乗算アクセラレータ２３００は、１つの要素のみのグループを受け入れるように構成することが可能である。２つのグループ（［Ｂ０，Ｂ２］，［Ｂ３，０］）は、第３実施形態（例えば、スケーラブル・スパース行列乗算アクセラレータ２１００）のＳｒｃ２の非ゼロ要素に関して作成され、第２グループは、ゼロ・パディングを含む。図２３に示す最適化は、グループが、［Ｂ０，Ｂ２］，［Ｂ３］として形成されることを可能にする。Ｂ０及びＢ２は、経路の第１及び第２ステージ（例えば、処理要素２３３１Ａ及び処理要素２３３１Ｃを含む第１セット、又は処理要素２３３１Ｂ及び処理要素２３３１Ｄを含む第２セットのうちの何れか）に割り当てられるであろう。フィードバック後、Ｂ３は、その経路の第１ステージに割り当てられる。経路の第１ステージは、（例えば、出力論理２３２２Ａ又は２３２２Ｂのうちの何れかにより）出力を提供することができるので、経路の第２ステージ（処理要素２３３１Ｃ又は処理要素２３３１Ｄのうちの何れか）を消費する必要はない。更に、その経路に対して受け入れられた次のＳｒｃ２入力は、第２ステージから開始することができるので、２要素のグループは、第２及び第１ステージにそれぞれに割り当てられる。新しいＳｒｃ２入力を処理するためのＳｒｃ０は、（例えば、出力ロジック２３２２Ａ又は２３２２Ｂのうちの何れかにより）経路の第２ステージに割り当てられることが可能である。

図２１に示されるスケーラブル・スパース行列乗算アクセラレータ２１００及び図２３に示されるスケーラブル・スパース行列乗算アクセラレータ２３００のハードウェア・ロジックに加えて、幾つかの実施形態は、入力及び出力ハードウェア・メモリ・バッファを追加的に含む。入力メモリ・バッファは、Ｓｒｃ０及びＳｒｃ２入力のグループを格納し、準備するために使用されることが可能であり、これは高い帯域幅の入力ロジックの必要性を削減する。出力バッファは、同じサイクルで生成されたＤｓｔ出力が、より遅いレートでメモリに安定的に書き込まれることを可能にし、高い帯域幅出力ロジックの必要性を低減する。

更に、幾つかの実施形態は、全ての要素がゼロである入力に対するバイパスを含む。バイパスは、シストリック・アレイを通過することなく、出力ロジックによるＳｒｃ０の直接的な書き込みを可能にする。このバイパスは、データの完全性を損なう可能性がある命令中のリード・アフター・ライト（ＲＡＷ）のリスクを防止するために、データ依存対策と協調して使用される。

図２４は、機能ユニットにおけるハードウェア・ロジックが累積によりシストリック・ドット積を実行する命令を実行することが可能な実施形態による方法２４００を示す。方法２４００は、本願で説明されるように、スケーラブル・スパース行列乗算アクセラレータのハードウェア及び／又はファームウェア・ロジックにより実行されることが可能である。ハードウェア及び／又はファームウェア・ロジックは、ＧＰＧＰＵの行列演算アクセラレータによって実行される命令に対する非ゼロ・ソース値及び計算深度を受け取ることが可能である（２４０２）。非ゼロ・ソース値は、スケーラブル・スパース行列乗算アクセラレータの経路に対するパイプライン深度に従ってグループ化される非ゼロ値であるとすることが可能である。計算深度は、命令に対するドット積を計算するために使用するシストリック層の数を指定することが可能である。また、ロジックは、アキュムレータ値を受信し、初期値をアキュムレータに格納する（２４０４）。アキュムレータ値は、ゼロ値、初期アキュムレータ値、又は以前のパイプライン・ステージからの結果であってもよい。計算の指定された層に対して、ロジックは、イネーブルにされた並列処理チャネルのセットを決定するために、書き込みイネーブル・マスクを評価することが可能である（２４０６）。書き込みイネーブル・マスクは、特定のチャネルの計算をディセーブルにするために使用されることが可能である。書き込みイネーブル・マスクは、実行される命令と共に提供される決定マスクに基づいて構成されることが可能である。

イネーブルにされた並列処理チャネル各々に対して、ロジックは、ソース入力要素の要素ごとの乗算に基づいて、一組の積を生成することができる（２４０８）。例えば、４要素ドット積の場合、２つのソースの４要素が乗算され、一組の積を生成する。シストリック・パイプラインの各層では、同じＳｒｃ２要素値に、複数の異なるＳｒｃ１値が乗算される。次いで、ロジックは、積の組の合計を計算し、その合計をアキュムレータの中の値に加算することができる（２４１０）。

方法２４００が最後の計算層における処理要素で実行される場合（２４１１）、処理要素は、計算された合計を、指定された出力レジスタに出力することができる（２４１４）。そうではない場合、処理要素は、そのアキュムレータ値を次の層に出力することができる（２４１２）。次の層は、次の物理レイヤ又は次の仮想レイヤであってもよい。次の仮想レイヤへの出力は、処理パイプラインの第１ステージにおける処理要素へフィードバック値を提供することを含む。

一実施形態では、図２４の方法２４００は、以下に示される擬似コードに基づいて構築されたハードウェア・ロジックによって実行されることが可能である。
累積による４要素シストリック・ドット積

上記の擬似コードにおいて、Ｓｒｃ０、Ｓｒｃ１、Ｓｒｃ２は、オペランド・データを格納するレジスタである。シストリック深度は、ｓｄｅｐｔｈにより指定される。実行サイズはｅｘｅｃ＿ｓｉｚｅに対応し、並列処理チャネル数を指定する。宛先はＤｓｔレジスタにより指定される。疑似コードでは、識別されるレジスタは、ｒｅｇｎｕｍ及びｓｕｂｒｅｇｎｕｍフィールドを参照する。ｒｅｇｎｕｍフィールドは、オペランドのレジスタ番号を提供する。ｓｕｂｒｅｇｎｕｍフィールドは、オペランドのサブレジスタ番号を提供する。ｓｕｂｒｅｇｎｕｍフィールドは、対応するＲｅｇＮｕｍフィールドと共に、レジスタ領域の原点に対するバイト整列アドレスを提供する。一部の命令に関し、このフィールドはバイト・アドレスのビット［４：０］を提供するが、ＲｅｇＮｕｍフィールドはビット［１２：５］を提供する。

図２５は、スパースＳｒｃ２入力行列を使用して行列乗算演算を実行する方法２５００を示す。方法２５００は、本願で説明されるように、スケーラブル・スパース行列乗算アクセラレータのハードウェア及び／又はファームウェア・ロジックにより実行されることが可能である。方法２５００は、図２２のスパースＳｒｃ２入力２２００Ａ−２２００Ｂのような、スパース・データを使用する動作を明示する。方法２５００は、図２１のスケーラブル・スパース行列乗算アクセラレータ２１００及び／又は図２３のスケーラブル・スパース行列乗算アクセラレータ２３００を使用して実現されることが可能である。

方法２５００は、第１行列及び第２行列の複数のデータ要素を、行列乗算アクセラレータのメモリに読み込むためのハードウェア及び／又はファームウェア・ロジックを含む（２５０２）。次いで、ロジックは、第２行列の複数のデータ要素内の非ゼロ値を検出することが可能である（２５０４）。検出は、行列乗算アクセラレータ内のベクトル比較ロジックを利用して実行されることが可能である。次いで、ロジックは、第２行列の複数のデータ要素内で検出された非ゼロ値を、１つ以上のデータ要素を含むグループにグループ化することが可能である（２５０６）。次いで、ロジックは、グループのデータ要素を、行列乗算アクセラレータの処理パイプラインの対応する段階に提供することが可能である（２５０８）。２ステージ・パイプラインを有する経路の場合、グループは２つのＳｒｃ２要素を含むであろう。グループの第１要素は第１ステージに提供されるであろうし、グループの第２要素は第２ステージに提供されるであろう。スケーラブル・スパース行列乗算アクセラレータ２１００に関し、必要に応じて、グループを水増しするためにゼロ・パディングが使用される。スケーラブル・スパース行列乗算アクセラレータ２３００では、ゼロ・パディングは必要とされない。

ロジックは、次いで、第１行列の複数のデータ要素を、処理パイプラインの対応するステージに提供する（２５１０）。提供される複数のデータ要素は、パイプライン・ステージに対して計算されるアクティブ・チャネルに対応するＳｒｃ１要素である。要素がＳｒｃ２ゼロ・パディング値を使用して演算される場合には、何らかのＳｒｃ１要素が提供される可能性がある。処理パイプラインの各アクティブ・ステージにおける処理要素は、乗算及び累積演算を実行する（２５１２）。一部の状況では、例えば、スケーラブル・スパース行列乗算アクセラレータ２３００が単一要素グループを処理している場合、パイプラインの全てのステージが命令に対してアクティブであるわけではない。ステージが命令に対してアクティブではない場合、ステージは、更に、異なる命令に対する演算を実行するために使用されることが可能である。次いで、ロジックは、処理パイプラインの各アクティブ・ステージから累積値を出力又はフィードバックすることができる（２５１４）。出力は、命令に対する処理の最終ステージが完了した場合に、出力レジスタ又はメモリ・ロケーションに書き込まれることが可能である。代替的に、累積値は次のパイプライン・ステージに送付されることが可能である。次のパイプライン・ステージへ出力することは、フィードバック出力を、処理パイプラインの第１物理ステージへ書き込むことを含む可能性がある。

追加的なコンピューティング・デバイス例
図２６は、一実施形態によるグラフィックス・プロセッサ２６０４を含むコンピューティング・デバイス２６００のブロック図である。コンピューティング・デバイス２６００の変型例は、セット・トップ・ボックス（例えば、インターネットに基づくケーブル・テレビジョンのセット・トップ・ボックスなど）、グローバル・ポジショニング・システム（ＧＰＳ）に基づく装置などの通信デバイスであってもよいし、又はその中に含まれてもよい。コンピューティング・デバイス２６００は、セルラ電話、スマート・フォン、パーソナル・デジタル・アシスタント（ＰＤＡ）、タブレット・コンピュータ、ラップトップ・コンピュータ、ｅ−リーダー、スマート・テレビジョン、テレビジョン・プラットフォーム、ウェアラブル・デバイス（例えば、眼鏡、時計、ブレスレット、スマートカード、宝飾品、衣類など）、メディア・プレーヤーなどのモバイル・コンピューティング・デバイスであってもよいし、又はその中に含まれてもよい。例えば、一実施形態では、コンピューティング・デバイス２６００は、例えば、システム・オン・チップ（「ＳｏＣ」又は「ＳＯＣ」）のような集積回路（「ＩＣ」）を含み、コンピューティング・デバイス２６００の種々のハードウェア及び／又はソフトウェア・コンポーネントを単一チップ上に統合する。コンピューティング・デバイス２６００は、図１におけるもののようなデータ処理システム１００のようなコンピューティング・デバイスであってもよい。

コンピューティング・デバイス２６００はグラフィックス・プロセッサ２６０４を含む。グラフィックス・プロセッサ２６０４は本願で説明される任意のグラフィックス・プロセッサを表す。一実施形態では、グラフィックス・プロセッサ２６０４はキャッシュ２６１４を含み、キャッシュ２６１４は、単一のキャッシュであってもよいし、或いは、任意の数のＬ１、Ｌ２、Ｌ３、又はＬ４キャッシュ、レンダリング・キャッシュ、深度キャッシュ、サンプラ・キャッシュ、及び／又はシェーダー・ユニット・キャッシュを含むキャッシュ・メモリの複数のセグメントに分割されることが可能であるが、これらに限定されない。一実施形態では、キャッシュ２６１４は、アプリケーション・プロセッサ２６０６と共有される最終レベル・キャッシュであってもよい。

一実施形態では、グラフィックス・プロセッサ２６０４は、グラフィックス・プロセッサのための制御及びスケジューリング・ロジックを実装するグラフィックス・マイクロコントローラを含む。制御及びスケジューリング・ロジックは、グラフィックス・マイクロコントローラ２６１５によって実行されるファームウェアであるとすることが可能である。ファームウェアは、グラフィックス・ドライバ・ロジック２６２２によって起動時にロードされてもよい。ファームウェアはまた、電子的に消去可能なプログラマブル・リード・オンリ・メモリにプログラムされてもよいし、又はグラフィックス・マイクロコントローラ２６１５内のフラッシュ・メモリ・デバイスからロードされてもよい。ファームウェアは、デバイス管理／ドライバ・ロジック２６１７、２６１８、及びスケジューラ２６１９を含むＧＰＵＯＳ２６１６をイネーブルにすることが可能である。ＧＰＵＯＳ２６１６はまた、グラフィックス・ドライバ・ロジック２６２２内のグラフィックス・メモリ・マネージャ２６２１を補足又は置換することが可能なグラフィックス・メモリ・マネージャ２６２０を含んでもよい。

グラフィックス・プロセッサ２６０４はまた、１つ以上のグラフィックス・エンジン、グラフィックス・プロセッサ・コア、及び本願で説明される他のグラフィックス実行リソースを含むＧＰＧＰＵエンジン２６４４を含む。このようなグラフィックス実行リソースは、実行ユニット、シェーダー・エンジン、フラグメント・プロセッサ、頂点プロセッサ、ストリーミング・マルチプロセッサ、グラフィックス・プロセッサ・クラスタ、或いは、グラフィックス・リソース又は画像リソースを処理すること、又はヘテロジニアス・プロセッサ内で汎用計算処理を実行すること、に適した任意の計算リソースのコレクションを含む形態で提示されることが可能であるが、これらに限定されない。ＧＰＧＰＵエンジン２６４４の処理リソースは、図１１Ｂ−１１Ｄに示すように、基板に接続されたハードウェア・ロジックの複数のタイル内に含まれることが可能である。ＧＰＧＰＵエンジン２６４４は、グラフィックス処理及び実行リソース、キャッシュ、サンプラなどを含むＧＰＵタイル２６４５を含むことができる。ＧＰＵタイル２６４５はまた、ローカル揮発性メモリを含んでもよく、又は、例えば図３Ｂ−３Ｃに示されるように１つ以上のメモリ・タイルに結合されることが可能である。

ＧＰＧＰＵエンジン２６４４は、例えば不揮発性メモリ・タイル２６５６、ネットワーク・プロセッサ・タイル２６５７、及び／又は汎用計算タイル２６５８を含む１つ以上の特殊タイル２６４６も含むことが可能である。ＧＰＧＰＵエンジン２６４４はまた、行列乗算アクセラレータ２６６０を含む。汎用計算タイル２６５８はまた、行列乗算演算を加速するためのロジックを含んでもよい。不揮発性メモリ・タイル２６５６は、不揮発性メモリ・セル及びコントローラ・ロジックを含むことが可能である。不揮発性メモリ・タイル２６５６のコントローラ・ロジックは、デバイス管理／ドライバ・ロジック２６１７、２６１８のうちの１つによって管理されてもよい。ネットワーク・プロセッサ・タイル２６５７は、コンピューティング・デバイス２６００の入力／出力（Ｉ／Ｏ）ソース２６１０内の物理インターフェースに結合されるネットワーク処理リソースを含むことができる。ネットワーク・プロセッサ・タイル２６５７は、デバイス管理／ドライバ・ロジック２６１７、２６１８のうちの１つ以上によって管理されてもよい。

行列乗算アクセラレータ２６６０は、本願で説明されるように、モジュール式スケーラブル・スパース行列乗算アクセラレータである。行列乗算アクセラレータ２６６０は、複数の処理経路を含むことが可能であり、各々の処理経路は複数のパイプライン・ステージを含む。各々の処理経路は、個々の命令を実行することができる。様々な実施形態では、行列乗算アクセラレータ２６６０は、本願で説明される行列乗算アクセラレータのうちの任意の１つ以上のアーキテクチャの特徴を有することが可能である。例えば、一実施形態では、行列乗算アクセラレータ２６６０は、４の倍数の論理ステージ（例えば、４、８、１２、１６など）で動作するように構成することが可能なフィードバック・ループを有する４深層シストリック・アレイ１７００である。一実施形態では、行列乗算アクセラレータ２６６０は、４ステージ・パイプラインを有する２経路行列乗算アクセラレータ１９００、又は２ステージ・パイプラインを有する４経路行列乗算アクセラレータ２０００のうちの１つ以上のインスタンスを含む。一実施形態では、行列乗算アクセラレータ２６６０は、スケーラブル・スパース行列乗算アクセラレータ２１００、又はスケーラブル・スパース行列乗算アクセラレータ２３００として構成される処理要素を含む。行列乗算アクセラレータ２６６０は、少なくともＳｒｃ２入力の非ゼロ値に対してのみ動作するように構成されることが可能であり、且つＳｒｃ１入力にゼロ値が存在する場合の演算をバイパスすることも可能である。ブロック・スパース性が存在する場合には、サブ行列全体の演算が迂回されることが可能である。行列乗算アクセラレータ２６６０はまた、これらの実施形態の任意の組み合わせに基づく任意のロジックを含むことができる。

図示のように、一実施形態では、グラフィックス・プロセッサ２６０４に加えて、コンピューティング・デバイス２６００は、アプリケーション・プロセッサ２６０６、メモリ２６０８、及び入出力（Ｉ／Ｏ）ソース２６１０を含む、任意の数の及びタイプのハードウェア・コンポーネント及び／又はソフトウェア・コンポーネントを更に含むことが可能であるが、これらに限定されない。アプリケーション・プロセッサ２６０６は、グラフィックス・パイプライン機能を共有するために、図３Ａに関連して示されるように、ハードウェア・グラフィックス・パイプラインと相互作用することが可能である。処理されたデータは、ハードウェア・グラフィックス・パイプライン内のバッファに格納され、状態情報は、メモリ２６０８に格納される。結果的に生じたデータは、図３Ａのディスプレイ・デバイス３１８などのディスプレイ・デバイスによる出力のために、ディスプレイ・コントローラに転送されることが可能である。ディスプレイ・デバイスは、陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）アレイ等の種々のタイプのものであってもよく、グラフィカル・ユーザー・インターフェースを介してユーザーに情報を表示するように構成されてもよい。

アプリケーション・プロセッサ２６０６は、図１のプロセッサ１０２などの１つ又は複数のプロセッサを含んでもよく、コンピューティング・デバイス２６００のオペレーティング・システム２６０２を実行するために少なくとも部分的に使用される中央処理装置（ＣＰＵ）であってもよい。ＯＳ２６０２は、コンピューティング・デバイス２６００のハードウェア及び／又は物理リソースと１つ以上のユーザーとの間のインターフェースとして機能することができる。ＯＳ２６０２は、コンピューティング・デバイス２６００内の種々のハードウェア・デバイスのためのドライバ・ロジックを含むことが可能である。ドライバ・ロジックは、図１０のユーザー・モード・グラフィックス・ドライバ１０２６及び／又はカーネル・モード・グラフィックス・ドライバ１０２９を含むことが可能なグラフィックス・ドライバ・ロジック２６２２を含むことが可能である。グラフィックス・ドライバ・ロジックは、グラフィックス・プロセッサ２６０４の仮想メモリ・アドレス空間を管理するために、グラフィックス・メモリ・マネージャ２６２１を含むことが可能である。

幾つかの実施形態では、グラフィックス・プロセッサ２６０４は、アプリケーション・プロセッサ２６０６の一部（物理的ＣＰＵパッケージの一部など）として存在してもよく、その場合、メモリ２６０８の少なくとも一部は、アプリケーション・プロセッサ２６０６及びグラフィックス・プロセッサ２６０４によって共有されることが可能であるが、メモリ２６０８の少なくとも一部は、グラフィックス・プロセッサ２６０４に対して排他的であってもよく、又はグラフィックス・プロセッサ２６０４は、別個の記憶メモリを有してもよい。メモリ２６０８は、バッファ（例えば、フレームバッファ）の予め割り当てられた領域を含むことが可能である；しかしながら、実施形態がそのようには限定されないこと、及び下位のグラフィックス・パイプラインにアクセス可能な任意のメモリが使用されてもよいことは、当業者により理解されるはずである。メモリ２６０８は、デスクトップ又は３Ｄグラフィックス・シーンをレンダリングするためにグラフィックス・プロセッサ２６０４を利用するアプリケーションを含む様々な形態のランダム・アクセス・メモリ（ＲＡＭ）（例えば、ＳＤＲＡＭ、ＳＲＡＭなど）を含んでもよい。図１のメモリ・コントローラ１１６のようなメモリ・コントローラ・ハブは、メモリ２６０８内のデータにアクセスし、それを、グラフィックス・パイプライン処理のためにグラフィックス・プロセッサ２６０４に転送してもよい。メモリ２６０８は、コンピューティング・デバイス２６００内の他のコンポーネントに利用可能にされてもよい。例えば、コンピューティング・デバイス２６００の種々のＩ／Ｏソース２６１０から受信される任意のデータ（例えば、入力グラフィックス・データ）は、ソフトウェア・プログラム又はアプリケーションの実装において１つ以上のプロセッサ（例えば、アプリケーション・プロセッサ２６０６）によってそれらが演算される前に、メモリ２６０８内に一時的にキューイングされることが可能である。同様に、コンピューティング・デバイス２６００からコンピューティング・システム・インターフェースのうちの１つを介して外部エンティティに送信されるべきである、或いは内部記憶素子に記憶されるべきである、とソフトウェア・プログラムが判断したデータは、しばしば、それが送信又は記憶される前に、メモリ２６０８に一時的にキューイングされる。

Ｉ／Ｏソースは、タッチスクリーン、タッチ・パネル、タッチパッド、バーチャル又はレギュラー・キーボード、バーチャル又はレギュラー・マウス、ポート、コネクタ、ネットワーク・デバイスなどのデバイスを含むことが可能であり、図１において参照されるようにプラットフォーム・コントローラ・ハブ１３０を介して取り付けられことが可能である。更に、Ｉ／Ｏソース２６１０は、コンピューティング・デバイス２６００（例えば、ネットワーク・アダプタ）に対して及び／又はそこからデータを転送するために；又はコンピューティング・デバイス２６００内の大規模不揮発性記憶装置（例えば、ＳＳＤ／ＨＤＤ）のために、実装される１つ又は複数のＩ／Ｏデバイスを含んでもよい。英数字及び他のキーを含むユーザー入力デバイスは、情報及びコマンド選択をグラフィックス・プロセッサ２６０４に伝達するために使用されてもよい。別のタイプのユーザー入力デバイスは、マウス、トラックボール、タッチスクリーン、タッチパッド、又はカーソル方向キーのようなカーソル制御装置であり、方向情報及びコマンド選択をＧＰＵに伝達し、ディスプレイ・デバイスでのカーソルの動きを制御する。コンピューティング・デバイス２６００のカメラ及びマイクロフォン・アレイは、ジェスチャを観察し、オーディオ及びビデオを記録し、ビジュアル及びオーディオ・コマンドを送受信するために使用されてもよい。

Ｉ／Ｏソース２６１０は、１つ以上のネットワーク・インターフェースを含むことが可能である。ネットワーク・インターフェースは、関連するネットワーク処理ロジックを含んでもよく、及び／又はネットワーク・プロセッサ・タイル２６５７と結合されてもよい。１つ以上のネットワーク・インターフェースは、ＬＡＮ、ワイド・エリア・ネットワーク（ＷＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、パーソナル・エリア・ネットワーク（ＰＡＮ）、ブルートゥース（登録商標）、クラウド・ネットワーク、セルラ又はモバイル・ネットワーク（例えば、第３世代（３Ｇ）、第４世代（４Ｇ）、第５世代（５Ｇ）など）、イントラネット、インターネットなどへのアクセスを提供することができる。ネットワーク・インターフェースは、例えば１つ以上のアンテナを有する無線ネットワーク・インターフェースを含んでもよい。また、ネットワーク・インターフェースは、例えばネットワーク・ケーブルを介してリモート・デバイスと通信するための有線ネットワーク・インターフェースを含んでもよく、例えばイーサネット・ケーブル、同軸ケーブル、光ファイバ・ケーブル、シリアル・ケーブル、又はパラレル・ケーブルであってもよい。

ネットワーク・インターフェースは、例えばＩＥＥＥ８０２．１１規格に準拠することによってＬＡＮへのアクセスを提供することが可能であり、及び／又は無線ネットワーク・インターフェースは、例えばブルートゥース（登録商標）規格に準拠することによってパーソナル・エリア・ネットワークへのアクセスを提供することが可能である。規格の前のバージョン及び後のバージョンを含む他の無線ネットワーク・インターフェース及び／又はプロトコルがサポートされてもよい。無線ＬＡＮ規格による通信に加えて、又はその代わりに、ネットワーク・インターフェースは、例えば時分割多元接続（ＴＤＭ）プロトコル、移動通信用グローバル・システム（ＧＳＭ）プロトコル、符号分割多元接続（ＣＤＭＡ）プロトコル、及び／又は他の任意のタイプの無線通信プロトコルを使用して無線通信を提供することができる。

上述した例より少なく又はより多く装備されたシステムが、特定の実装に好ましい可能性があることが理解されるべきである。従って、コンピューティング・デバイス１９００の構成は、価格的な制約、パフォーマンス条件、技術的改良、又はその他の状況のような多くの要因に依存して、実装ごとに相違する可能性がある。具体例は（限定ではないが）移動装置、パーソナル・デジタル・アシスタント、モバイル・コンピューティング・デバイス、スマート・フォン、セルラ電話、ハンドセット、ワンウェイ・ページャ、双方向ページャ、メッセージング・デバイス、コンピュータ、パーソナル・コンピュータ（ＰＣ）、デスクトップ・コンピュータ、ラップトップ・コンピュータ、ノートブック・コンピュータ、ハンドヘルド・コンピュータ、タブレット・コンピュータ、サーバー、サーバー・アレイ又はサーバー・ファーム、ウェブ・サーバー、ネットワーク・サーバー、インターネット・サーバー、ワーク・ステーション、ミニ・コンピュータ、メイン・フレーム・コンピュータ、スーパーコンピュータ、ネットワーク・アプライアンス、ウェブ・アプライアンス、分散コンピューティング・システム、マルチプロセッサ・システム、プロセッサ・ベース・システム、家電製品、プログラマブル・コンシューマブル電子機器、テレビジョン、デジタル・テレビジョン、セット・ボックス、ワイヤレス・アクセス・ポイント、基地局、加入者局、移動加入者センター、無線ネットワーク・コントローラ、ルーター、ハブ、ゲートウェイ、ブリッジ、スイッチ、マシン、又はそれらの組み合わせを含む。

本願で説明されるものは、ホスト・インターフェース、ホスト・インターフェースに結合されたファブリック相互接続、及びファブリック相互接続に結合された１つ以上のハードウェア・タイルを含むアクセラレータ・デバイスであり、１つ以上のハードウェア・タイルは、フィードバック入力を伴うシストリック・アレイを含むスパース行列乗算加速ハードウェアを含む。

一実施形態は、命令を、復号化された命令に復号化するためのデコード・ユニットであって、デコードされた命令は並列ドット積演算を実行するための命令である、デコード・ユニットと、パイプライン・シストリック・ドット積ユニットとを備える並列プロセッサを提供する。パイプライン・シストリック・ドット積ユニットは、シストリック処理パイプラインの複数のパイプライン・ステージを介して、デコードされた命令を実行するように構成される。デコードされた命令の実行中に、第１パイプライン・ステージで計算されたドット積は、出力メモリ及び第２パイプライン・ステージのうちの１つから選択されたロケーションに、出力ハードウェアを介して選択的に書き込まれるように構成され、第３パイプライン・ステージで計算されたドット積は、出力メモリ及び第１パイプライン・ステージのうちの１つから選択されたロケーションに、出力ハードウェアを介して選択的に書き込まれるように構成される。更なる実施形態では、デコードされた命令は、第１ソース・オペランド及び第２ソース・オペランドに関連付けられ、第１ソース・オペランドは、第１行列の複数のデータ要素を格納するメモリへの参照であり、第２ソース・オペランドは、第２行列の複数のデータ要素を格納するメモリへの参照である。

一実施形態は、ホスト・インターフェースと、ホスト・インターフェースに結合されたファブリック相互接続と、ファブリック相互接続に結合された１つ以上のハードウェア・タイルとを備えるアクセラレータ・デバイスを提供する。１つ以上のハードウェア・タイルは、フィードバック入力を有するモジュール式シストリック処理アレイを含むスパース行列乗算加速ハードウェアを含む。モジュール式シストリック処理アレイは、第１数のパイプライン経路を有する１つ以上の処理アレイ・モジュールを含み、第１数のパイプライン経路は第２数のパイプライン・ステージを有する。第１パイプライン・ステージは、最終パイプライン・ステージからフィードバック出力を受け取るように構成されることが可能である。

一実施形態は、マルチ・ステージ処理パイプラインを有するハードウェア行列乗算アクセラレータにより、一組の入力行列に対してドット積演算を実行する方法を提供する。方法は、第１ソース・オペランドにより、第１行列の複数のデータ要素を、ハードウェア行列乗算アクセラレータのメモリに読み込むステップ；第２ソース・オペランドにより、第２行列の複数のデータ要素を、ハードウェア行列乗算アクセラレータのメモリに読み込むステップ；第２行列の複数のデータ要素内で非ゼロ値を検出するステップ；第２行列の複数のデータ要素内の非ゼロ値を、１つ以上のデータ要素を含むグループにグループ化するステップであって、グループのデータ要素の数は、ハードウェア行列乗算アクセラレータのマルチ・ステージ処理パイプラインにおけるステージの数に対応する、ステップ；データ要素を、対応するステージの処理要素の複数のチャネルにブロードキャストすることにより、グループのデータ要素を、処理パイプラインの対応するステージに提供するステップ；提供されたグループのデータ要素と、第１行列の複数のデータ要素とを乗算し、一組の積を生成するステップ；一組の積を合計し、一組の積の合計をアキュムレータ値に累積するステップ；及びアキュムレータ値を、処理パイプラインの次のステージに書き込むステップを含む。更なる実施形態において、アキュムレータ値を、処理パイプラインの次のステージに書き込むステップは、パイプライン・フィードバック値を、処理パイプラインの第１ステージに書き込むステップを含む。更に、第２行列の複数のデータ要素内で非ゼロ値を検出するステップは、ハードウェア行列乗算アクセラレータのメモリ内で非ゼロ値を検出するステップを含むことが可能である。

当業者は、前述の説明から、実施形態の広範な技術は種々の形態で実装され得ることを認めるであろう。従って、実施形態はその特定の実施例に関連して説明されてきたが、図面、明細書、及び以下の請求の範囲の検討により、他の修正が当業者に明らかになるので、実施形態の真の範囲はそれらに限定されるはずはない。

Claims

並列プロセッサであって：
命令をデコードされた命令にデコードするためのデコード・ユニットであって、前記デコードされた命令は並列ドット積演算を実行するための命令である、デコード・ユニット；及び
シストリック処理パイプラインの複数のパイプライン・ステージにより、前記デコードされた命令を実行するためのパイプライン化シストリック・ドット積ユニットであって、前記デコードされた命令の実行中に、第１パイプライン・ステージで計算されるドット積は、出力メモリ及び第２パイプライン・ステージのうちの一方から選択される位置に、出力ハードウェアにより選択的に書き込まれるように形成され、第３パイプライン・ステージで計算されるドット積は、前記出力メモリ及び前記第１パイプライン・ステージのうちの一方から選択される位置に、出力ハードウェアにより選択的に書き込まれるように形成される、パイプライン化シストリック・ドット積ユニット；
を備える並列プロセッサ。
前記デコードされた命令は、第１ソース・オペランドと第２ソース・オペランドとに関連付けられ、前記第１ソース・オペランドは、第１行列の複数のデータ要素を格納するメモリに対するリファレンスであり、前記第２ソース・オペランドは、第２行列の複数のデータ要素を格納するメモリに対するリファレンスである、請求項１に記載の並列プロセッサ。
前記第１ソース・オペランドに基づいて、前記第１行列の前記複数のデータ要素を、前記シストリック・ドット積ユニットのメモリに読み込み；及び
前記第２ソース・オペランドに基づいて、前記第２行列の前記複数のデータ要素を、前記シストリック・ドット積ユニットのメモリに読み込む；
ためのハードウェア回路を更に備える請求項２に記載の並列プロセッサ。
前記第２行列の前記複数のデータ要素内で非ゼロ値を検出し、前記第２行列の前記複数のデータ要素内で検出された非ゼロ値を、１つ以上のデータ要素を含むグループにグループ化する；
ためのハードウェア回路を更に備える請求項３に記載の並列プロセッサ。
前記グループは、前記シストリック処理パイプラインのパイプライン・ステージの数に対応する数のデータ要素を含む、請求項４に記載の並列プロセッサ。
前記グループの第１データ要素を前記第１パイプライン・ステージに提供し；及び
前記グループの第２データ要素を前記第２パイプライン・ステージに提供する；
ためのハードウェア回路を更に備える請求項５に記載の並列プロセッサ。
前記第３パイプライン・ステージは前記第２パイプライン・ステージであり、前記シストリック処理パイプラインは２つのパイプライン・ステージを含む、請求項６に記載の並列プロセッサ。
前記第２パイプライン・ステージと前記第３パイプライン・ステージとの間の第４パイプライン・ステージであって、前記シストリック処理パイプラインは４つのパイプライン・ステージを含む、第４パイプライン・ステージ；
を更に備える請求項６に記載の並列プロセッサ。
前記第１行列の複数のデータ要素の第１セットを、前記第１パイプライン・ステージに提供し；及び
前記第２行列の複数のデータ要素の第２セットを、前記第２パイプライン・ステージに提供する；
ためのハードウェア回路を更に備える請求項６に記載の並列プロセッサ。
前記シストリック処理パイプラインは第１シストリック処理パイプラインであり、前記パイプライン化シストリック・ドット積ユニットは第２シストリック処理パイプラインを含む、請求項１−９のうちの何れか１項に記載の並列プロセッサ。
前記第１シストリック処理パイプライン及び前記第２シストリック処理パイプラインの各パイプライン・ステージは１つ以上の処理要素を含み、各々の処理要素は複数の並列プロセッサ・チャネルを含み、各々の並列プロセッサ・チャネルは複数のデータ要素のベクトルに関する演算を実行するように形成することが可能である、請求項１０に記載の並列プロセッサ。
ホスト・インターフェース；
前記ホスト・インターフェースに結合される相互接続構造；及び
前記相互接続構造に結合される１つ以上のハードウェア・タイル；
を備えるアクセラレータ・デバイスであって、前記１つ以上のハードウェア・タイルは、フィードバック入力を有するモジュール式シストリック処理アレイを含むスパース行列乗算加速ハードウェアを含み、前記モジュール式シストリック処理アレイは第１数のパイプライン経路を有する１つ以上の処理アレイ・モジュールを含み、前記第１数のパイプライン経路は第２数のパイプライン・ステージを有し、前記第１パイプライン・ステージはフィードバック出力を最終パイプライン・ステージから受信するように形成することが可能である、アクセラレータ・デバイス。
前記モジュール式シストリック処理アレイは複数のアレイ・モジュールを含む、請求項１２に記載のアクセラレータ・デバイス。
前記１つ以上の処理アレイ・モジュールは、第１ソース入力に関連するデータ要素を読み込むための共用ハードウェア回路と、第２ソース入力に関連するデータ要素を読み込むための個別ハードウェア回路と、を備えるように形成されたパイプライン経路を含む、請求項１２に記載のアクセラレータ・デバイス。
前記１つ以上の処理アレイ・モジュールは、第１ソース入力に関連するデータ要素を読み込むための個別ハードウェア回路と、第２ソース入力に関連するデータ要素を読み込むための個別ハードウェア回路と、を備えるように形成されたパイプライン経路を含む、請求項１２に記載のアクセラレータ・デバイス。
前記１つ以上の処理アレイ・モジュールは、前記第２ソース入力で非ゼロ・データ要素を検出し、前記第２ソース入力の前記非ゼロ・データ要素と、前記第２ソース入力の前記非ゼロ・データ要素に対応する前記第１ソース入力のデータ要素とに基づいて、ドット積演算を選択的に実行するように形成されたハードウェア回路を含む、請求項１５に記載のアクセラレータ・デバイス。
前記１つ以上の処理アレイ・モジュールは、各々のパイプライン・ステージに対する個別の出力ハードウェアを含むパイプライン経路を含む、請求項１６に記載のアクセラレータ・デバイス。
前記１つ以上の処理アレイ・モジュールは、第１セットの入力を有する第１ドット積命令を実行するように形成することが可能な第１パイプライン経路と、第２セットの入力を有する第２ドット積命令を実行するように形成することが可能な第２パイプライン経路とを含む、請求項１７に記載のアクセラレータ・デバイス。
マルチ・ステージ処理パイプラインを有するハードウェア行列乗算アクセラレータにより、入力行列のセットに関するドット積演算を実行する方法であって：
第１ソース・オペランドにより、第１行列の複数のデータ要素を、前記ハードウェア行列乗算アクセラレータのメモリに読み込むステップ；
第２ソース・オペランドにより、第２行列の複数のデータ要素を、前記ハードウェア行列乗算アクセラレータの前記メモリに読み込むステップ；
前記第２行列の前記複数のデータ要素内で非ゼロ値を検出するステップ；
前記第２行列の前記複数のデータ要素内の前記非ゼロ値を、１つ以上のデータ要素を含むグループにグループ化するステップであって、前記グループのデータ要素の数は、前記ハードウェア行列乗算アクセラレータの前記マルチ・ステージ処理パイプラインにおけるステージの数に対応する、ステップ；
前記グループのデータ要素を、前記処理パイプラインの対応するステージに提供するステップ；
提供された前記グループのデータ要素と、前記第１行列の複数のデータ要素とを乗算し、一組の積を生成するステップ；
前記一組の積を合計し、前記一組の積の合計をアキュムレータ値に累積するステップ；及び
前記アキュムレータ値を、前記処理パイプラインの次のステージに書き込むステップ；
を含む方法。
前記アキュムレータ値を、前記処理パイプラインの前記次のステージに書き込むステップは、パイプライン・フィードバック値を、前記処理パイプラインの第１ステージに書き込むステップ；
を含む、請求項１９に記載の方法。
前記グループのデータ要素を、前記処理パイプラインの対応するステージに提供するステップは、前記対応するステージの処理要素の複数のチャネルに、前記データ要素をブロードキャストするステップ；
を含む、請求項１９に記載の方法。
前記第２行列の前記複数のデータ要素内で前記非ゼロ値を検出するステップは、前記ハードウェア行列乗算アクセラレータの前記メモリ内で前記非ゼロ値を検出するステップ；
を含む、請求項１９に記載の方法。
請求項１９−２２のうちの何れか１項に記載の方法を実行する手段を備えるシステム。