JP2022547517A

JP2022547517A - １つ又は複数のニューラル・ネットワークを使用するビデオ・アップサンプリング

Info

Publication number: JP2022547517A
Application number: JP2022515469A
Authority: JP
Inventors: リュー、シーグイ; レ、マチュー; タオ、アンドリュー
Original assignee: エヌビディアコーポレーション
Priority date: 2019-09-09
Filing date: 2020-08-26
Publication date: 2022-11-14
Also published as: AU2020346707B2; AU2020346707A1; JP2024001329A; KR102661953B1; KR20240063176A; KR20220062575A; KR20240060719A; CN115481286A; AU2023251547A1; CN115495614A; GB202201094D0; GB2623893A; AU2023251540A1; GB2623615A; CN114365123A; JP2024010158A; JP2024001330A; GB2600346B; GB2621492A; GB202311266D0

Abstract

ビデオを改良するための装置、システム、及び技術が開示されている。少なくとも一実施例では、１つ又は複数のニューラル・ネットワークは、より低い解像度ビデオからアップサンプリングされたフレームを使用してより高い解像度ビデオを生成するために使用される。

Description

本出願は、PＣＴ出願であり、２０１９年９月９日出願の米国特許出願第１６／５６５，０８８号、発明の名称「ＶＩＤＥＯＵＰＳＡＭＰＬＩＮＧＵＳＩＮＧＯＮＥＯＲＭＯＲＥＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」の優先権を主張し、その全開示内容を、あらゆる目的のために参照により本明細書に組み込む。

少なくとも一実施例は、人工知能を実行し容易にするために使用される処理リソースに関する。たとえば、少なくとも一実施例は、本明細書に記載の様々な新規の技法によりニューラル・ネットワークを訓練するために使用されるプロセッサ又はコンピューティング・システムに関する。

ビデオ・コンテンツは、様々なデバイス上で、様々なリソースから、増え続ける様々な方法で消費されているので、ビデオ・コンテンツの品質がそのコンテンツを表示するために使用されるタイプのデバイスに適切なものより小さい状況がある。コンテンツ品質を改善するための解決法はしばしば、アーティファクトを経験し、又は所望のものより品質が低く、ライブ・ビデオを得るのが難しい可能性がある。

本開示による様々な実施例を、図面を参照して記載する。

少なくとも一実施例による、処理又は生成することができる画像データを示す図である。少なくとも一実施例による、処理又は生成することができる画像データを示す図である。少なくとも一実施例による、ビデオ・コンテンツをアップサンプリングするための解決法を示す図である。少なくとも一実施例による、ビデオ・コンテンツをアップサンプリングするための解決法を示す図である。少なくとも一実施例による、ビデオ・コンテンツの一時アンチエイリアス・アップスケーリング用システムのコンポーネントを示す図である。少なくとも一実施例による、ビデオ・コンテンツをアップサンプリングするためのプロセスを示す図である。少なくとも一実施例による、アップサンプリングされたビデオ・フレームを推論するプロセスの一部を示す図である。少なくとも一実施例による、１つ又は複数のニューラル・ネットワークを使用した訓練及び推論のためのシステムを示す図である。少なくとも一実施例による、１つ又は複数のニューラル・ネットワークを訓練するためのシステムを示す図である。少なくとも一実施例による、ニューラル・ネットワークの構造を示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、例示的データ・センタ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、例示的な集積回路及び関連するグラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、並列プロセッサを示す図である。少なくとも一実施例による、パーティション・ユニットを示す図である。少なくとも一実施例による、処理クラスタを示す図である。少なくとも一実施例による、グラフィックス・マルチプロセッサを示す図である。少なくとも一実施例による、マルチ・グラフィックス・プロセッシング・ユニット（ＧＰＵ）システムを示す図である。少なくとも一実施例による、グラフィックス・プロセッサを示す図である。少なくとも一実施例による、プロセッサのマイクロ・アーキテクチャを示す図である。少なくとも一実施例による、深層学習アプリケーション・プロセッサを示す図である。少なくとも一実施例による、例示的ニューロモーフィック・プロセッサを示す図である。少なくとも一実施例による、グラフィックス・プロセッサの少なくとも一部を示す図である。少なくとも一実施例による、グラフィックス・プロセッサの少なくとも一部を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも一部を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも一部を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも一部を示す図である。少なくとも一実施例による、並列処理ユニット（ＰＰＵ）を示す図である。少なくとも一実施例による、汎用処理クラスタ（「ＧＰＣ」）を示す図である。少なくとも一実施例による、並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニットを示す図である。少なくとも一実施例による、ストリーミング・マルチプロセッサを示す図である。

少なくとも一実施例では、ビデオ・フレームのシーケンス１００は、図１Ａに示すように、ビデオ・ストリーム上で受信することができる。少なくとも一実施例では、このシーケンスからのビデオ・フレームは、少なくとも１つのプレーヤ用の現在のゲーム・セッション内でゲームプレイを代表するビデオ・フレームを示すゲーム・エンジン１０２によって生成される。少なくとも一実施例では、ビデオ・フレームは、ビデオ・ホスティング・サイトなどの別のソースから受信することができ、そのビデオ・ホスティング・サイトによってそのビデオ・コンテンツのホスティング後のあらゆるときに受信することができる。少なくとも一実施例では、連続したビデオ・フレームは、ゲームプレイの状態の変化による前のビデオ・フレームからの変更を含むことができる。少なくとも一実施例では、ゲーム・エンジン１０２によって生成されるシーケンス１００は、デフォルト又は特定の解像度又は表示サイズを有することができる。少なくとも一実施例では、シーケンス１００のビデオ・フレームの解像度は、好ましくは可能な限りより、又はゲーム・エンジン１０２によって示されるゲームプレイ・ビデオを表示するために使用されるモニタ、タッチ・スクリーン、又はテレビなどのシーケンス１００を見るためのディスプレイ１０４の現在の解像度設定より小さい可能性がある。

少なくとも一実施例では、アップサンプリング・システム１５２（又は、サービス、モジュール、若しくはデバイス）を使用して、図１Ｂの図１５０に示すように、シーケンス１００の個別のフレームをアップスケーリングすることができる。少なくとも一実施例では、ゲーム・エンジン１０２からのフレームは、ディスプレイ１０４上により高い解像度で表示することができるより高い解像度シーケンスを生成するため、個別のフレームの解像度を増加させるために、アップサンプリング・システム１５２に供給することができる。少なくとも一実施例では、行われるアップサンプリングの量は、１０８０ｐから４ｋの解像度までのシーケンス１００の初期解像度及びディスプレイ１０４のターゲット解像度に左右される可能性がある。少なくとも一実施例では、追加の処理は、アンチエイリアス及び一時平滑化を含むことができるように、アップサンプリング・プロセスの一部として行うことができる。少なくとも一実施例では、ガウス・フィルタを利用するものなどの、あらゆる適当なアップサンプリング・アルゴリズムを利用することができる。少なくとも一実施例では、アップサンプリング・プロセスは、フレームごとベースで適用することができるジッタを考慮する。

少なくとも一実施例では、ディープ・ラーニングを使用して、シーケンスのアップサンプリングしたビデオ・フレームを推論することができる。少なくとも一実施例では、機械学習を利用しないスーパー・サンプリング・アルゴリズムは、ビデオ・シーケンスの現在の入力フレームをアップサンプリングに使用することができる。少なくとも一実施例では、組み合わせた方法で、初期アンチエイリアス及びアップサンプリングを提供する一時アンチエイリアス・アップサンプリング（ＴＡＡＵ）アルゴリズムを使用することができる。少なくとも一実施例では、対応するシーケンスのビデオ・フレームからの情報を使用して、より高い品質のアップサンプリングされた画像を推論することができる。少なくとも一実施例では、データからの学習を必要としないレンダリング・パイプラインの前の知識に基づく１つ又は複数のヒューリスティックを使用することができる。少なくとも一実施例では、これは、アップサンプリングされた解像度でサンプルをジッタ・アウェア・アップサンプリング及び蓄積することを含むことができる。少なくとも一実施例では、図２Ａの図２００に示すように、アップサンプリング・アルゴリズムのみで生成されるより高い品質のアップサンプリングされた出力画像２０４を推論するために、少なくとも１つのニューラル・ネットワークを含むアップサンプラ・システム２１０への入力として、現在の入力ビデオ・フレーム２０２及び前の推論されたフレーム２０６とともに、この前のプロセス・データ２０８を提供することができる。

少なくとも一実施例では、アップサンプリング・システム２１０は、一時超サンプリング用の深層学習を提供し、画像又はビデオ・フレームのストリーム（又は、他のシーケンス又はファイル）上にアンチエイリアス及び超解像度を提供することができる。少なくとも一実施例では、ベーシック・アップサンプリング・アプローチを図２Ｂの図２５０で示すように使用することができる。少なくとも一実施例では、低解像度ピクセル２５２は、多数のより高い解像度（又はより小さい）ピクセル２５４にセグメント化することができる。少なくとも一実施例では、アップサンプリングは図２Ｂに示すように４ｘアップサンプリングであることができ、入力画像の各ピクセルは４つのより高い解像度ピクセルにセグメント化される。少なくとも一実施例では、低解像度ピクセル２５２でのサンプル２５６の位置を使用して、１つ又は複数の対応する高解像度ピクセルに対するアップサンプリング・カーネルを算出することができる。少なくとも一実施例では、このカーネルは、ぼやけ、エンボス加工、鮮明化、又はエッジ検出の少なくとも１つを提供する。

少なくとも一実施例では、システム３００は、図３に示すように、画像フレームのシーケンスのアップサンプリングを行うことができる。少なくとも一実施例では、シーケンス又はストリームのビデオ・フレームに対応する入力画像３０２が受信される。少なくとも一実施例では、入力画像３０２は、より低解像度の濃い画像である。少なくとも一実施例では、アップサンプリング・モジュール３０４（又は、システム、コンポーネント、デバイス、又はサービス）は、上で論じ、図２Ｂを参照して図示するようなアップサンプリング・アルゴリズムを適用することができ、サブピクセル・オフセット・アウェア・アップサンプリングを提供することができる。少なくとも一実施例では、このアップサンプリングされた画像は、訓練されたニューラル・ネットワーク３２０に供給することができる。少なくとも一実施例では、訓練されたネットワーク３２０は、より高品質のアップサンプリングされた画像又はビデオ・フレームを推論しようと試みるために、追加入力を受け入れることができる。少なくとも一実施例では、訓練されたネットワーク３２０はまた、入力ビデオ・フレームとして前の推論されたフレームからのデータを受け入れる。少なくとも一実施例では、シーケンス内の前のフレームに対して推論された濃く、大きな履歴画像３２８を利用して、訓練したネットワーク３２０に履歴入力データを提供することができる。少なくとも一実施例では、モーション・ワープ・モジュール３３０又はプロセスを適用して、バイキュービック・ワープ履歴画像３０８を生成することができる。少なくとも一実施例では、モーション・ワーピングを使用して、データに小さなオフセットを適用し、１つ又は複数の制約を満たすことができる。少なくとも一実施例では、オフセットは、画像の一部に対する決定された又は予測されたモーションに少なくとも部分的によるものである。少なくとも一実施例では、履歴画像３０８は、色空間トランスレーション・モジュール３１０を使用して処理して、たとえば、ルマ値及び２つのクロマ値を含むＹＣｏＣｇ色空間などの、特定の色空間内にバイキュービック・ワーピング画像３１２を生成することができる。少なくとも一実施例では、バイキュービック・ワーピング画像３１２をルマ決定モジュール３１８に供給して、訓練されたネットワーク３２０への入力としてルマ特定画像データを提供することができる。少なくとも一実施例では、ルマ決定モジュール３１８はまた、一時アンチエイリアス・モジュール３１４によって生成されたアンチエイリアス画像３１６を受け入れて、処理された画像上のアップサンプリングの結果を円滑化するためにアンチエイリアスされたルマ値を提供することができる。少なくとも一実施例では、ニューラル・ネットワーク３２０への入力として提供される履歴画像は、優れた鮮明な高解像度画像への一時収束を助けることができる、適用された決定ジッタ・オフセットに部分的に基づいて、現在のフレーム３０６とある程度、既に一体化させることができる。

少なくとも一実施例では、訓練したニューラル・ネットワーク３２０は、推論された出力画像３２６を作り出すために、入力画像３０２及び履歴画像３２８を共に一体化するように使用することができる、一体化ファクタ及び多数のカーネルを生成する。少なくとも一実施例では、出力画像３２６は、アップスケーリングされた画像３０６と同じ解像度を有する。少なくとも一実施例では、カラーライザ・モジュール３２４を使用して、たとえＹＣｏＣｇ色空間内の画像データ上で操作される訓練されたネットワーク３２０であっても、出力画像３２６をＲＧＢ色空間内にさせることなど、別の色空間変換を行うことができる。少なくとも一実施例では、訓練されたモデル３２０によって推論されたカーネルは、対応するシーケンスの次の入力ビデオ・フレームに対する履歴画像３２８としても働く、出力画像３２６の認知品質を改善するのを助けることができる。少なくとも一実施例では、訓練されたネットワーク３２０から出力されたカーネル・ファクタを適用して、ゴースティング又は処理アーティファクトの鮮明度及び減少を含むことができるような、様々な品質の推論されたアップサンプリング画像３２６を改善することができる。少なくとも一実施例では、このカーネル・データの少なくともいくつかは、シーケンスの１つ又は複数のその後に処理されたフレーム上の品質を改善しようと試みるために、その後の画像又はビデオ・フレームに対する訓練されたネットワーク３２０に追加の入力３２２として提供することができる。

少なくとも一実施例では、ニューラル・ネットワーク３２０は、注釈付き画像又はビデオ・フレームを含むデータ・セットを使用して訓練される。少なくとも一実施例では、アップサンプリングされる画像、及び対応するアンチエイリアス及びアップサンプリングされたより高解像度の画像を含む、画像の対が訓練に使用される。少なくとも一実施例では、ニューラル・ネットワーク３２０は、これらの対の画像間の適当なマッピングを学習するために訓練することができる。少なくとも一実施例では、ニューラル・ネットワーク３２０はまた、適用される適当な一体化ファクタ及び１つ又は複数のカーネル・ファクタを決定するために訓練することができる。少なくとも一実施例では、対応する損失値を最小限に抑えるようにネットワーク・パラメータを最適化することなどによって、訓練中にニューラル・ネットワーク３２０を最適化するために、マルチファクタ損失関数を利用することができる。少なくとも一実施例では、画像の品質の人間感知をモデリングすることは数学的に捕捉するのが複雑である可能性があるので、マルチファクタ損失関数が利用される。少なくとも一実施例では、ニューラル・ネットワーク３２０などのネットワークを訓練するために使用される損失関数は、スタイル・コンポーネント及び一時コンポーネントの両方と、エラーを最小限に抑えるためのＬ２損失などの他の損失を利用することができる。少なくとも一実施例では、空間的コンポーネントは、ゴースティング又はアーティファクトなどのその他の発生を最小限に抑えるのを助け、一時コンポーネントは出力シーケンスのフレーム間の円滑なモーションを助ける。少なくとも一実施例では、これらのフレーム対のシーケンスは、一時的円滑化を改善するために、訓練に使用される。

少なくとも一実施例では、ニューラル・ネットワーク３２０は、各ピクセルに対する様々なファクタを予測する。少なくとも一実施例では、ネットワーク３２０は、対応する画像入力に適用される一体化ファクタ及びカーネルの９つの要素を含む、１０のファクタを予測又は推論する。少なくとも一実施例では、予測を生成する場合、これらの９つのファクタを現在のアップサンプリングされたフレーム・データに適用することができる。少なくとも一実施例では、決定した一体化ファクタを使用して、このような処理及びアップサンプリングしたフレームを前に推論したフレームからのデータと一体化することができる。少なくとも一実施例では、１つのルマ・チャネルだけをこの処理及び一定化に使用し、全色画像を使用するが、はるかに少ないデータ管理及び処理しか必要としない同様の結果を提供することができる。

少なくとも一実施例では、損失はピクセルごとの重み付けファクタで重み付けすることができる。少なくとも一実施例では、ピクセルごとの重み付けは、１つ又は複数のオブジェクトがシーケンスのビデオ・フレーム内に突然見えるようになる又は提示されるように、ディスオクルージョンがある可能性があるエリア、又は前にあったがもう閉塞されていない領域により注意を向けることができる。少なくとも一実施例では、上手なディスオクルージョン管理はゴースティング・アーティファクトの存在を減少させるのを助けることができる。少なくとも一実施例では、この重みファクタは、前のワーピングされた基準フレームと現在の基準フレームを比較することによって算出される。少なくとも一実施例では、この前にワーピングされた基準フレームのピクセルが対応する現在の基準フレームの色分布の境界ボックス内にある場合、この位置にはディスオクルージョンがない可能性が高いという想定を行うことができる。少なくとも一実施例では、前にワーピングされた基準フレームと現在の基準フレームの間の色にかなりの差があることが決定された場合、高い重み付けをこの空間的損失に加えることができる。少なくとも一実施例では、空間的損失のこのように高い重み付けは、空間的損失に現在と前の基準フレームの間の色の大きな差があるエリアによってより影響を与えさせることができる。

少なくとも一実施例では、最後にワーピングされたフレーム予測だけが、前の予測のセットの代わりに、現在のフレームを入力として備えている。少なくとも一実施例では、この最後の予測は、過去のフレームからの情報に基づいており、アーティファクトを最小限に抑え、推論された画像に優れた鮮明度を提供するために、より最近の情報を含む。少なくとも一実施例では、訓練中の予測の際のエラーは、損失関数の使用により暗黙的に管理される。というのは、悪いフレーム又はアーティファクトを有するフレームは、評価の際に高い損失値を有し、予測を破棄させることになるからである。少なくとも一実施例では、シーン変更又はカメラ・パンによる急激な変更はまた、最後の予測を破棄させ、アップサンプリングに使用させないことになる可能性がある。というのは、現在のフレームに対して、無関係である、又は少なくとも実質的に異なる可能性が高い色値又は位置の大きな変更があるからである。

図６を参照して記載したような、少なくとも一実施例では、コンテンツ・プロバイダによって、又はクラウド・リソース・プロバイダによって、クライアント・デバイス上などの様々な位置でスーパーサンプリングを行うことができる。少なくとも一実施例では、少なくとも１つのグラフィックス・プロセッサを備えたクライアント・デバイスは、より低い解像度のデータを受信又は取得し、その後、アップサンプリングされたデータを表示又は提示する前にこのデータをアップサンプリングする。少なくとも一実施例では、より低い解像度のデータは、ストリーム上で受信され、ゲーム又はレンダリング・エンジンによって生成され、カメラ又はセンサによって作り出され、又はファイル内に含まれるビデオ・データを含むことができる。少なくとも一実施例では、アップサンプリングは、ほぼリアルタイムで起こる、又はその後の閲覧若しくは提示のためにオフラインで起こることが可能である。少なくとも一実施例では、ゲーミングなどのアプリケーションは、ゲーミング経験を楽しみ、かなりのラグによる不利益がないようにするために、プレーヤが、知覚可能なラグなくほぼリアルタイムでアップスケールされたコンテンツを見ることを可能にするために、クイック・アップサンプリングを必要とする可能性がある。

少なくとも一実施例では、１つ又は複数の他の入力３２２は、現在のフレームと前の予測されたフレームの間で決定された異なる情報を含むことができる。少なくとも一実施例では、これらの入力は、ピクセル、又はピクセル値に大きな差があるピクセルの領域を識別するのを助けることができる。少なくとも一実施例では、この情報は、画像の異なる領域で特定のピクセル値をどれくらい重み付けするかを判断するために、訓練又は推論時間に有利に使用することができる。少なくとも一実施例では、隠された履歴データはまた、ネットワーク３２０から生成し、その後のフレームに対する入力として使用することができ、これにより、ネットワーク３２０が、その後のフレームに有用である、又はその後のフレームを分析又は推論するための開始点として働くことができる情報を課すことが可能になる。

少なくとも一実施例では、ビデオ・フレームのアップサンプリングは、図４に示したプロセス４００を使用して行うことができる。少なくとも一実施例では、より低い解像度ビデオのストリームが受信される（４０２）、或いは得られる。少なくとも一実施例では、このストリームの個別のフレームは、より高い解像度バージョンのディスプレイ用のこのようなストリームを提供するために、受信されると分析することができる。少なくとも一実施例では、このストリームの現在のビデオ・フレームは、アップサンプリング・アルゴリズムを使用してアップサンプリングすることができる（４０４）。少なくとも一実施例では、前のワーピングされたビデオ・フレーム予測が得られ（４０６）、アップサンプリングにより得られるのと同じ解像度である。少なくとも一実施例では、これらのフレームは、ターゲット色空間、及び処理されるこれらのフレームの表現のために使用されるそのターゲット空間のシングル・チャネルに適当に変換される（４０８）。少なくとも一実施例では、これらのフレームは、一体化ファクタ及び１つ又は複数のカーネル・ファクタを決定するために、訓練されたニューラル・ネットワークへの入力として、適用可能な場合には少なくともいくつかの追加の情報を備えている（４１０）。少なくとも一実施例では、これらの推論されたファクタ及び入力フレームを使用して、高い画像品質及びターゲット・アップサンプリング解像度を備えた対応する現在の入力ビデオ・フレームの出力バージョンを生成する（４１２）。少なくとも一実施例では、この出力ビデオ・フレームは、ビデオ・ストリームの一部として表示するために提供することができ（４１４）、それによって、第１のより低い解像度で受信されたビデオ・ストリームは、アップサンプリングから優れた画像品質及び少ないアーティファクトを備えた第２のより高い解像度で表示させることができる。

少なくとも一実施例では、ビデオ・フレームのアップサンプリングは、図４に示すプロセス４００を使用して行うことができる。少なくとも一実施例では、ビデオ・データの現在のフレームが受信される（５０２）。少なくとも一実施例では、ビデオ・データのこの現在のビデオ・フレームは、アップスケーリング・プロセスを使用して、ターゲットのより高い解像度にアップサンプリングされる（５０４）。少なくとも一実施例では、このようなアップサンプリングされた現在のフレームは、訓練されたニューラル・ネットワークへの入力として、このターゲットのより高い解像度で前に推論されたフレームを備えている（５０６）。少なくとも一実施例では、この現在のビデオ・フレームの出力バージョンは、このアップサンプリングされた現在のフレーム及び前の推論されたフレームからのピクセル値の一体化に少なくとも部分的に基づいて推論される（５０８）。少なくとも一実施例では、この出力バージョンは、より低い解像度で受信したその後のビデオ・フレームの表示と、処理のために提供することができる（５１０）。

ニューラル・ネットワーク訓練及び開発
増加する様々な産業及び応用例は、機械学習を利用している。少なくとも一実施例では、プロセッサ上で開発された深層ニューラル・ネットワーク（ＤＮＮ）が、自動運転車からより速い薬物開発、セキュリティ・システム用の自動画像分析からビデオ・チャット・アプリケーション内のスマート・リアルタイム言語トランスレーションなどの別の使用ケースで使用されてきた。少なくとも一実施例では、深層学習は、人間の脳のニューラル学習プロセスをモデリングする技術であり、連続して学習し、連続してよりスマートになり、時間の経過とともにより迅速により適当な結果を運ぶ。子供は最初、大人によって様々な形状を正確に識別及び分類するように教示され、次第に、あらゆるコーチングなしで形状を識別することが可能になる。同様に、少なくとも一実施例では、同様のタスクを達成するように設計された深層学習又はニューラル学習システムは、オブジェクトに内容を割り当てながら、基本的オブジェクト、閉塞されたオブジェクトなどを識別するのがよりスマート及び効率的にするように訓練される必要がある。

少なくとも一実施例では、人間の脳内のニューロンは受信された様々な入力を見て、重要なレベルがこれらの入力それぞれに割り当てられ、出力は作用する他のニューロン上に通過される。人工ニューロン又は知覚は、ニューラル・ネットワークの最も基本的モデルである。少なくとも一実施例では、知覚は、知覚が認識及び分類するように訓練されているオブジェクトの様々な特性を示す１つ又は複数の入力を受信することができ、これらの特性それぞれは、オブジェクトの形状を画定する際にその特性の重要性に基づいて特定の重みが割り当てられる。

深層ニューラル・ネットワーク（ＤＮＮ）は、高い精度で複雑な問題を迅速に解決するために、多量の入力データで訓練することができる多くの接続された知覚（たとえば、ノード）の多数の層を含む。一実例では、ＤＮＮモデルの第１の層は、自動車の入力画像を様々なセクションに分解し、線及び角度などの基本的パターンを見る。第２の層は、ホイール、フロントガラス、及びミラーなどのより高レベル・パターンを見るために線を組み立てる。次の層は車両のタイプを識別し、最後の数層は、入力画像用のラベルを生成して、特定の自動車ブランドのモデルを識別する。ＤＮＮが訓練されると、このＤＮＮは、推論として知られているプロセス内でオブジェクト又はパターンを識別及び分類するために開発及び使用することができる。推論の実例（これによりＤＮＮが所与の入力から有用な情報を抽出するプロセス）としては、ＡＴＭマシン内に預けられた小切手の手書きの数字を識別すること、写真内の友人の画像を識別すること、映画のおすすめを運搬すること、無人自動車内で異なるタイプの自動車、歩行者、及び道路障害物を識別及び分類すること、又はほぼリアルタイムで人間の会話をトランスレーションすることが挙げられる。

訓練中、データは、入力に対応するラベルを示す予測が生成されるまで、フォワード伝搬フェーズでＤＮＮを通して流れる。ニューラル・ネットワークが入力を正確にラベリングしない場合、正しいラベルと予測されたラベルの間のエラーが分析され、重みは、ＤＮＮが訓練データ・セット中で入力及び他の入力を正確にラベリングするまで、バックワード伝搬フェーズ中に各特性に対して調節される。複雑なニューラル・ネットワークを訓練するには、サポートされる浮動小数点乗法及び加算を含む、膨大な量の並列演算パフォーマンスを必要とする。推論は、訓練ほど数値計算的ではなく、訓練されたニューラル・ネットワークが、画像を分類し、会話をトランスレーションし、新しい情報を推論する前には見られなかった新しい入力に加えられるレイテンシ・センシティブ・プロセスである。

ニューラル・ネットワークは、行列演算操作に大きくよるものであり、複雑なマルチ層ネットワークは、効率及び速度の両方に対して膨大な量の浮動小数点パフォーマンス及び帯域幅を必要とする。行列演算操作に最適化され、数十から数百のＴＦＬＯＰＳのパフォーマンスを運ぶ数千の処理コアでは、算出プラットフォームは、深層ニューラル・ネットワーク・ベースの人工知能及び機械学習アプリケーションに必要なパフォーマンスを運ぶことができる。

図６は、少なくとも一実施例では、機械学習を訓練及び利用するために使用することができるシステム６００のコンポーネントを示している。論じるように、様々なコンポーネントは、単一のエンティティ又は多数のエンティティの制御下にある可能性がある、コンピューティング・デバイス及びリソースの様々な組合せ、又は単一のコンピューティング・システムによって提供することができる。さらに、態様は異なるエンティティによってトリガ、初期化、又はリクエストすることができる。少なくとも一実施例では、ニューラル・ネットワークの訓練はプロバイダ環境６０６に関連付けられたプロバイダによって命令することができ、少なくとも一実施例では、訓練は、クライアント・デバイス６０２又は他のこのようなリソースを通してプロバイダ環境へのアクセスを有する顧客又は他のユーザによってリクエストすることができる。少なくとも一実施例では、訓練データ（又は、訓練されたニューラル・ネットワークによって分析されるデータ）は、プロバイダ、ユーザ、又は第三者コンテンツ・プロバイダ６２４によって提供することができる。少なくとも一実施例では、クライアント・デバイス６０２は、たとえば、デバイスのナビゲーションを助けるリクエストを発する、及び／又は命令を受信することができる、ユーザの代わりにナビゲーションされる車両又はオブジェクトである可能性がある。

少なくとも一実施例では、リクエストは、プロバイダ環境６０６に受信される少なくとも１つのネットワーク６０４にわたって発することが可能である。少なくとも一実施例では、クライアント・デバイスは、デスクトップ・コンピュータ、ノートブック・コンピュータ、コンピュータ・サーバ、スマートフォン、タブレット・コンピュータ、ゲーミング・コンソール（ポータブル又はその他）、コンピュータ・プロセッサ、コンピューティング論理、及びセット・トップ・ボックスを含むような、このようなリクエストをユーザが生成及び送信することを可能にするあらゆる適当な電子及び／又はコンピューティング・デバイスであってもよい。（１つ又は複数の）ネットワーク６０４は、インターネット、イントラネット、イーサネット（登録商標）、携帯ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ）、ピア間の直接無線接続のネットワークなどを含むような、リクエスト又は他のこのようなデータを伝達するためのあらゆる適当なネットワークを含むことができる。

少なくとも一実施例では、本実例では、訓練及び推論マネージャ６１０にデータを転送することができる、インターフェース層６０８にリクエストを受信することができる。このマネージャは、データ又はコンテンツに対応するリクエスト及びサービスを管理するためのハードウェア及びソフトウェアを含むシステム又はサービスであってもよい。少なくとも一実施例では、このマネージャはニューラル・ネットワークを訓練するためのリクエストを受信することができ、訓練マネージャ６１２にリクエスト用のデータを提供することができる。少なくとも一実施例では、訓練マネージャ６１２は、リクエストによって特定されていない場合、使用される適当なモデル又はネットワークを選択することができ、関連する訓練データを使用してモデルを訓練することができる。少なくとも一実施例では、訓練データは、クライアント・デバイス６０２から受信された、又は第三者プロバイダ６２４から得られた、訓練データ・リポジトリ６１４に記憶されたデータのバッチであってもよい。少なくとも一実施例では、訓練マネージャ６１２は、本明細書で論じるように、ＬＡＲＣベース・アプローチを使用することなどによって、データを訓練することに責任がある可能性がある。ネットワークは、再帰ニューラル・ネットワーク（ＲＮＮ）又は畳み込みニューラル・ネットワーク（ＣＮＮ）などのあらゆる適当なネットワークであってもよい。ネットワークが訓練され上手く評価されると、訓練されたネットワークは、たとえば、ユーザ、アプリケーション、又はサービスなどに対して異なるモデル又はネットワークを記憶することができる、モデル・レポジトリ６１６に記憶することができる。少なくとも一実施例では、多数の異なるファクタに基づいて利用することができるような、単一アプリケーション又はエンティティに対する多数のモデルがあってもよい。

少なくとも一実施例では、その後の時点では、訓練されたニューラル・ネットワークによって少なくとも部分的に決定又は加えられたコンテンツ（たとえば、パス決定）又はデータに対するクライアント・デバイス６０２（又は別のこのようなデバイス）から受信することができる。このリクエストは、たとえば、１つ又は複数の推論又は他の出力値、分類、又は予測を得るためにニューラル・ネットワークを使用して処理される入力データを含むことができる。少なくとも一実施例では、入力データはインターフェース層６０８に受信し、推論モジュール６１８に案内することができるが、異なるシステム又はサービスも使用することができる。少なくとも一実施例では、推論モジュール６１８は、推論モジュール６１８にローカルに既に記憶されていない場合、モデル・リポジトリ６１６から、本明細書で論じるように訓練された深層ニューラル・ネットワーク（ＤＮＮ）などの適当な訓練されたネットワークを得ることができる。推論モジュール６１８は、訓練されたネットワークへ入力としてデータを提供し、その後、出力として１つ又は複数の推論を生成することができる。これは、たとえば、入力データのインスタンスの分類を含むことができる。少なくとも一実施例では、推論はその後、ユーザへのディスプレイ又は他の通信のためにクライアント・デバイス６０２に伝達することができる。少なくとも一実施例では、ユーザ用のコンテキスト・データはまた、推論を生成する、又はインスタンスを得た後にユーザに戻るデータを決定する際に、ネットワークへの入力として有用である可能性があるユーザに関するデータを含むことができる、ユーザ・コンテキスト・データ・リポジトリ６２２に記憶させることができる。少なくとも一実施例では、入力又は推論データの少なくともいくつかを含むことができる関連データはまた、さらなるリクエストを処理するためにローカル・データベース６２０に記憶することができる。少なくとも一実施例では、ユーザは、プロバイダ環境のリソース又は機能にアクセスするためにアカウント又は他の情報を使用することができる。少なくとも一実施例では、許可され利用可能である場合、さらなるリクエストに対するより正確な推論を提供するために、ユーザ・データを収集し、モデルをさらに訓練するために使用することができる。少なくとも一実施例では、リクエストは、クライアント・デバイス６０２上で実行する機械学習アプリケーション６２６へのユーザ・インターフェースを通して受信し、結果は同じインターフェースを通して表示することができる。クライアント・デバイスは、リクエストを生成し、結果又は反応を処理するためのプロセッサ６２８及びメモリ６３０などのリソースと、機械学習アプリケーション６２６用データを記憶するための少なくとも１つのデータ記憶要素６３２を含むことができる。

少なくとも一実施例では、プロセッサ６２８（又は、訓練マネージャ６１２又は推論モジュール６１８のプロセッサ）は、中央処理ユニット（ＣＰＵ）である。しかし、記載したように、このような環境においてリソースは、ＧＰＵを利用して、少なくとも特定のタイプのリクエストに対するデータを処理することができる。数千のコアで、ＧＰＵは実質的に並列作業負荷を処理するように設計され、したがって、ニューラル・ネットワークを訓練し、予測を生成するための深層学習において人気となった。オフライン・ビルドに対するＧＰＵの使用はより大きく複雑なモデルのより迅速な訓練を可能にしたが、オフラインで予測を生成することは、リクエスト時間入力特性を使用することができず、予測は特性のすべての順列のために生成し、リアルタイム・リクエストを行うためにルックアップ・テーブルに記憶しなければならないことを暗示している。深層学習フレームワークがＣＰＵモードをサポートし、モデルは合理的なレイテンシでＣＰＵ上のフィード・フォワードを行うのに十分小さく単純である場合、ＣＰＵインスタンス上のサービスはモデルをホスティングすることができる。この場合、訓練はＧＰＵ上でオフラインで行い、推論はＣＰＵ上でリアルタイムで行うことができる。ＣＰＵアプローチが実現可能でない場合、サービスはＧＰＵインスタンス上で実行することができる。ＧＰＵはＣＰＵとは異なるパフォーマンス及びコスト特徴を有するが、ＧＰＵにランタイム・アルゴリズムをオフロードするサービスを実行することは、ＣＰＵベース・サービスとは異なるように設計する必要がある可能性がある。

少なくとも一実施例では、ビデオ・データは、プロバイダ環境６０６内での向上のため、クライアント・デバイス６０２から提供することができる。少なくとも一実施例では、ビデオ・データは、クライアント・デバイス６０２上の向上のために処理することができる。少なくとも一実施例では、ビデオ・データは、第三者コンテンツ・プロバイダ６２４からストリーミングし、第三者プロバイダ６２４、プロバイダ環境６０６、又はクライアント・デバイス６０２によって向上することができる。

図７は、少なくとも一実施例では、データを分類する、又は推論を生成するために使用することができるシステム７００を示している。少なくとも一実施例では、監視された及び監視されていない訓練は両方とも、本明細書で論じる少なくとも一実施例で使用することができる。少なくとも一実施例では、訓練データ７０２（たとえば、分類又はラベリングされたデータ）のセットは、訓練データとして働くように入力として提供される。少なくとも一実施例では、訓練データは、ニューラル・ネットワークが訓練される少なくとも１つのタイプのオブジェクトのインスタンスと、そのタイプのオブジェクトを識別する情報を含むことができる。少なくとも一実施例では、訓練データは、各画像がラベル、メタデータ、分類、又はそれぞれの画像内で提示されるオブジェクトのタイプを識別する他の情報を含む、又はこれに関連付けられた、オブジェクトのタイプの表示をそれぞれ含む画像のセットを含むことができる。様々な他のタイプのデータは、テキスト・データ、音声データ、ビデオ・データなどを含むことができるように、訓練データとしても使用することができる。少なくとも一実施例では、訓練データ７０２は、訓練マネージャ７０４に訓練入力として提供される。少なくとも一実施例では、訓練マネージャ７０４は、ニューラル・ネットワーク（又は、他のモデル又はアルゴリズムなど）を訓練するために、訓練アプリケーションを実行する１つ又は複数のコンピューティング・デバイスなどのハードウェア及びソフトウェアを含むシステム又はサービスである可能性がある。少なくとも一実施例では、訓練マネージャ７０４は、訓練のために使用されるモデルのタイプを示す命令又はリクエストを受信する。少なくとも一実施例では、モデルは、人工ニューラル・ネットワーク、深層学習アルゴリズム、学習分類子、ベイジアン・ネットワークなどを含むことができるように、このような目的に有用なあらゆる適当な統計モデル、ネットワーク、又はアルゴリズムである可能性がある。少なくとも一実施例では、訓練マネージャ７０４は、適当なリポジトリ７０６から初期モデル又は他の訓練されていないモデルを選択し、訓練データ７０２を利用してモデルを訓練し、同様のタイプのデータを分類する、又は他のこのような推論を生成するために使用することができる訓練されたモデル７０８（たとえば、訓練された深層ニューラル・ネットワーク）を生成することができる。訓練データが使用されない少なくとも一実施例では、適当な初期モデルはさらに、訓練マネージャ７０４ごとに入力データ上での訓練のために選択することができる。

少なくとも一実施例では、モデルは、選択したモデルのタイプに部分的によるように、多数の異なる方法で訓練することができる。少なくとも一実施例では、機械学習アルゴリズムは訓練データのセットを備えることができ、モデルは訓練プロセスによって作り出されたモデル・アーティファクトである。少なくとも一実施例では、訓練データの各インスタンスは、ターゲット又はターゲット属性と呼ぶことができる、正しい答え（たとえば、分類）を含む。少なくとも一実施例では、学習アルゴリズムは、ターゲットに入力データ属性をマッピングするデータを訓練する際のパターンを発見し、回答を予測し、これらのパターンを捕捉する機械学習モデルが出力される。少なくとも一実施例では、機械学習モデルはその後、ターゲットが特定されない新しいデータ上で予測を得るために使用することができる。

少なくとも一実施例では、訓練マネージャ７０４は、バイナリ分類、マルチクラス分類、及び回帰モデルを含む機械学習モデルのセットから選択することができる。少なくとも一実施例では、使用されるモデルのタイプは、予測されるターゲットのタイプに少なくとも部分的による可能性がある。少なくとも一実施例では、バイナリ分類問題に対する機械学習モデルは、２つの可能なクラスの一方などのバイナリ結果を予測する。少なくとも一実施例では、ロジスティック回帰などの学習アルゴリズムを使用して、バイナリ分類モデルを訓練することができる。少なくとも一実施例では、マルチクラス分類問題に対する機械学習モデルは、３つ以上の結果の１つを予測するためなどの、多数のクラスに対して予測を生成することを可能にする。多項式ロジスティック回帰は、マルチクラス・モデルを訓練するのに有用である可能性がある。回帰問題に対する機械学習モデルは、数値を予測する。線形回帰は、回帰モデルを訓練するのに有用である可能性がある。

少なくとも一実施例では、一実施例による機械学習モデルを訓練するために、訓練マネージャは、入力訓練データ・ソースと、予測されるターゲットを含むデータ属性の名前、所要のデータ変換命令、及び学習アルゴリズムを制御するための訓練パラメータなどの他の情報を決定しなければならない。少なくとも一実施例では、訓練プロセス中、訓練マネージャ７０４は、訓練データ・ソース内で特定されるターゲットのタイプに基づいて、適当な学習アルゴリズムを自動的に選択することができる。少なくとも一実施例では、機械学習アルゴリズムは、訓練プロセス及び得られる機械学習モデルの特定の性状を制御するために使用されるパラメータを受け入れることができる。これらは、本明細書では、訓練パラメータと呼ばれる。少なくとも一実施例では、訓練パラメータが特定されない場合、訓練マネージャは、機械学習タスクの大きな範囲で十分働くように知られているデフォルト値を利用することができる。値を特定することができる訓練パラメータの実例は、最大モデル・サイズ、訓練データ上のパスの最大数、シャッフル・タイプ、正則化タイプ、学習レート、及び正則化量を含む。デフォルト・セッティングは、微調整パフォーマンスに値を調節するオプションで特定することができる。

少なくとも一実施例では、最大モデル・サイズは、モデルの訓練中に作り出されるパターンのバイトの単位での合計サイズである。少なくとも一実施例では、モデルは、１００ＭＢのモデルなどの、デフォルトによって特定されたサイズで作り出すことができる。訓練マネージャがモデル・サイズを満たすのに十分なパターンを決定することができない場合、より小さいモデルを作り出すことができる。訓練マネージャが特定のサイズに適合するより多くのパターンを見つけた場合、最大カットオフは、学習されたモデルの品質に少なくとも影響を与えるパターンをトリミングすることによって行うことができる。モデル・サイズを選択することにより、モデルの予測品質と使用の費用の間のトレードオフの制御を行う。少なくとも一実施例では、より小さいモデルは、予測の品質に影響を与える最大サイズ限界内に適合するように多くのパターンを訓練マネージャに取り除かせることができる。少なくとも一実施例では、より大きいモデルは、リアルタイム予測へのクエリーを行うためにより費用がかかる可能性がある。少なくとも一実施例では、モデルが入力データではなくパターンを記憶するので、より大きな入力データ・セットは必ずしもより大きなモデルにつながらない。少なくとも一実施例では、パターンはより少なく単純である場合、得られたモデルは小さい。多数の生属性（入力カラム）又は誘導特性（データ変換の出力）を有する入力データは、訓練プロセス中に発見及び記憶されたより多くのパターンを有する可能性が高い。

少なくとも一実施例では、訓練マネージャ７０４は、パターンを発見することを試みるために、訓練データ上で多数のパス又は反復を行うことができる。少なくとも一実施例では、１０回のパスなどのデフォルト数のパスがあり、少なくとも一実施例では、最大１００回のパスなどの最大数までのパスを設定することができる。少なくとも一実施例では、最大セットがない、又は収束基準、又は訓練プロセスの終了をトリガする他のファクタ・セットがある可能性がある。少なくとも一実施例では、訓練マネージャ７０４は、訓練中に（モデル収束のためなどの）パターンの品質を監視することができ、発見するためのデータ点又はパターンがそれ以上ない場合に訓練を自動的に停止することができる。少なくとも一実施例では、いくつかだけの観察結果を有するデータ・セットは、十分高いモデル品質を得るために、データ上でより多くのパスを必要とする可能性がある。より大きなデータ・セットは、多数のパスに対する需要を減らすことができる、多くの同様のデータ・ポイントを含むことができる。データ上でより多くのデータ・パスを選択する可能性のある影響は、モデル訓練がリソース及びシステム利用に関してより長くなり、より費用もかかることである。

少なくとも一実施例では、訓練データは、訓練前に、又は訓練のパス間にシャッフルされる。少なくとも一実施例では、シャッフルは、本当にランダムな順序を生成するようにランダム又は疑ランダム・シャッフルであるが、特定のタイプのデータのグルーピングがないことを保証する代わりにいくつかの制約がある可能性がある、又はシャッフルされたデータをこのようなグルーピングが存在する場合などに再シャッフルすることがある。少なくとも一実施例では、シャッフルは、訓練アルゴリズムが同様のタイプのデータのグルーピング、又は連続してあまりに多くの観察結果に対する単一のタイプのデータに直面しないように、データが訓練のために利用される順序又は配置を変更する。少なくとも一実施例では、モデルはオブジェクトを予測するように訓練される可能性がある。少なくとも一実施例では、データはアップロードの前にオブジェクト・タイプによって分類されることがある。少なくとも一実施例では、アルゴリズムはその後、オブジェクト・タイプによってアルファベット順にデータを処理して、最初に特定のオブジェクト・タイプに対するデータのみに直面することができる。少なくとも一実施例では、モデルはオブジェクトのそのタイプに対するパターンを学習し始める。少なくとも一実施例では、モデルはその後、第２のオブジェクト・タイプに対するデータのみに直面し、そのオブジェクト・タイプに適合するようにモデルを調節しようとし、第１のオブジェクト・タイプに適合するパターンを劣化させる可能性がある。オブジェクト・タイプ間からのこのような急激な切替は、どのようにしてオブジェクト・タイプを正確に予測するかを学習しないモデルを作り出すことができる。少なくとも一実施例では、データ・タイプの比較的均一な分布が両方のステージで利用されるように、訓練データ・セットが訓練及び評価サブセットに分割される前に、少なくとも一実施例ではシャッフルを行うことができる。少なくとも一実施例では、訓練マネージャ７０４は、たとえば、疑ランダム・シャッフル技術を使用して、データをシャッフルすることができる。

少なくとも一実施例では、機械学習モデルを少なくとも一実施例で作り出す場合に、訓練マネージャ７０４は、ユーザがセッティングを特定する、又はカスタム・オプションを適用することを可能にすることができる。少なくとも一実施例では、ユーザは、機械学習モデルの予測品質を評価するために予約される入力データの一部分を示す、１つ又は複数の評価セッティングを特定することができる。少なくとも一実施例では、ユーザは、どの属性及び属性変換がモデル訓練のために利用可能であるかを示すポリシーを特定することができる。少なくとも一実施例では、ユーザはまた、訓練プロセス及び得られたモデルの特定の性状を制御する様々な訓練パラメータを特定することができる。

少なくとも一実施例では、訓練マネージャが、本明細書で論じる少なくとも１つの終了基準を使用することなどによって、モデルの訓練が完了したと決定すると、訓練されたモデル７０８は、有効性データ７１２を分類（或いは、これに対する推論を生成する）際に、分類子７１４による使用のために提供することができる。少なくとも一実施例では、これは、モデルに対する訓練モードとモデルに対する推論モードの間の論理移行を必要とする。しかし、少なくとも一実施例では、訓練されたモデル７０８は、訓練されたモデルの品質（又は別のこのような態様）を評価するために少なくとも１つのコンピューティング・リソース（たとえば、少なくとも１つのサーバのＣＰＵ又はＧＰＵ）上で実行するアプリケーション、プロセス、又はサービスを含むことができるエバリュエータ７１０まで最初に通過される。少なくとも一実施例では、モデルは、このモデルが新しい及びさらなるデータ上でターゲットを予測する際のパフォーマンスの少なくとも最小許容又は閾値レベルを提供するかどうかを決定するように評価される。そうではない場合、訓練マネージャ７０４は、このモデルを訓練し続ける可能性がある。少なくとも一実施例では、将来のデータ・インスタンスはしばしばターゲット値を知っていないので、ターゲット回答が知られているデータ上での機械学習の正確な測定基準をチェックし、将来のデータ上の予測精度のためのプロキシとしてこの判断を使用することが望ましい可能性がある。

少なくとも一実施例では、訓練のために提供された訓練データ７０２のサブセットを使用してモデルが評価される。このサブセットは、上に論じたように、シャッフル及び分割アプローチを使用して決定することができる。少なくとも一実施例では、この評価データ・サブセットは、ターゲットでラベリングされ、したがって、評価のためのグランド・トゥルースのソースとして働くことができる。それから正則化する代わりに、訓練データを覚えているモデルに対してポジティブ評価が生成される可能性があるので、訓練に使用されたのと同じデータで機械学習モデルの予測精度を評価することは有用ではない。少なくとも一実施例では、訓練が完了すると、評価データ・サブセットは、訓練されたモデル７０８を使用して処理され、エバリュエータ７１０は、このモデルの対応する出力（又は、予測／観察結果）に対してグラント・トゥルース・データを比較することによって、このモデルの精度を決定することができる。少なくとも一実施例では、エバリュエータ７１０は少なくとも一実施例では、どれくらい予測及び真の値が一致するかを示す要約又はパフォーマンス測定基準を提供することができる。少なくとも一実施例では、訓練されたモデルが、少なくとも最小パフォーマンス基準、又は他のこのような精度閾値を満たさない場合、訓練マネージャ７０４は、さらなる訓練を行うように命令される、又はいくつかの例では、新しい又は異なるモデルを訓練しようと試みる可能性がある。少なくとも一実施例では、訓練されたモデル７０８が関連する基準を満たす場合、訓練されたモデルは分類子７１４による使用のために提供することができる。

少なくとも一実施例では、機械学習モデルを生成及び訓練する場合、少なくとも一実施例では、正確な予測を行うことが可能なモデルにつながるモデル・セッティング又は訓練パラメータを特定することが望ましい可能性がある。少なくとも一実施例では、パラメータは、（フォワード及び／又はバックワードで）行われるパスの数、正則化又は改良、モデル・サイズ、及びシャッフル・タイプを含む。少なくとも一実施例では、評価データ上に最良の予測パフォーマンスを作り出すモデル・パラメータ・セッティングを選択することは、モデルのオーバーフィッティングにつながることがある。少なくとも一実施例では、モデルが、訓練及び評価データ・ソース内に生じるが、データ内のパターンを一般化できなかったパターンを記憶した場合にオーバーフィッティングが起こる。オーバーフィッティングはしばしば、訓練データが評価で使用されるすべてのデータを含む場合に起こる。少なくとも一実施例では、オーバーフィッティングされたモデルは、評価中に上手くいくが、新しい或いは有効性データ上で正確な予測を行うことができないことがある。少なくとも一実施例では、最良のモデルとしてオーバーフィッティングされたモデルを選択することを避けるために、訓練マネージャは、モデルのパフォーマンスを有効化するために追加のデータを予約することができる。たとえば、訓練データ・セットは、訓練に対して６０％、及び２つ以上の段階に分割することができる評価又は有効化に対して４０％に分割することができる。少なくとも一実施例では、この有効性データの半分などの有効性データのサブセット上の収束につながる評価データのために上手くいくモデル・パラメータを選択した後に、第２の有効化は、このモデルのパフォーマンスを保証するためにこの有効性データの残りで実行することができる。このモデルが有効性データ上の期待を満たす場合、このモデルはオーバーフィッティング・データではない。少なくとも一実施例では、テスト・セット又はヘルドアウト・セットは、パラメータをテストするために使用することができる。少なくとも一実施例では、第２の有効性又はテスト・ステップを使用することは、オーバーフィッティングを防ぐために適当なモデル・パラメータを選択するのを助ける。しかし、有効化のために訓練プロセスからより多くのデータを提供することにより、訓練に利用可能なデータがより少なくなる。訓練に利用可能な十分なデータがない可能性があるので、これは、より小さいデータ・セットで問題である。少なくとも一実施例では、このような状況でのアプローチは、本明細書のどこかで論じるように、相互有効化を行うことである。

少なくとも一実施例では、所与のモデルの予測精度を検討及び評価するために使用することができる多くの測定基準又は洞察がある。少なくとも一実施例では、評価結果は、モデルの全体の成功に関して報告するための予測精度測定基準と、予測精度測定基準を超えてモデルの精度を利用するのを助けるための可視化を含む。結果はまた、バイナリ分類などのために、スコア閾値を設定する影響を検討する能力を提供することができ、評価の有効性をチェックするための測定基準に関するアラートを生成することができる。測定基準及び可視化の選択は、評価されているモデルのタイプに少なくとも部分的による可能性がある。

少なくとも一実施例では、満足なように訓練及び評価されると、訓練された機械学習モデルを使用して、機械学習アプリケーションを構築又はサポートすることができる。一実施例では、機械学習アプリケーションを構築することは、ステップのシーケンスを必要とする反復プロセスである。少なくとも一実施例では、（１つ又は複数の）コア機械学習問題は、何が観察されるか及びどの回答をモデルが予測するかに関して組み立てることができる。少なくとも一実施例では、データはその後、機械学習モデル訓練アルゴリズムによる消費に適したデータを作るために収集、削除、及び準備することができる。このデータは、データの品質を有効化し、データを理解するためにサニティ・チェックを実行するために可視化及び分析することができる。生データ（たとえば、入力変数）及び回答データ（たとえば、ターゲット）は、高度予測モデルを訓練するために使用することができる方法で示されていないことがある。したがって、生変数からより多くの予測入力表示又は特性を構築することが望ましいことがある。得られた特性は、モデルを構築し、モデル構築から提供されたデータ上でモデルの品質を評価するために学習アルゴリズムに供給することができる。その後、モデルを使用して、新しいデータ・インスタンスに対するターゲット回答の予測を生成することができる。

少なくとも一実施例では、図７のシステム７００では、訓練されたモデル７１０は評価後、有効性データを処理するために訓練されたモデルを使用することが可能である分類子７１４に提供される、又は利用可能にされる。少なくとも一実施例では、これは、たとえば、これらの画像内で例示されたものに関する情報を探しているクエリー画像などの、分類されていないユーザ又は第三者から受信されたデータを含むことができる。少なくとも一実施例では、有効化データは、訓練されたモデルを使用して分類子によって処理することができ、生成される結果７１６（分類又は予測など）は、それぞれのソースに再び送信する、或いは処理又は記憶することができる。少なくとも一実施例では、このような使用が許可される場合、これらの今分類されたデータ・インスタンスは、訓練マネージャによって訓練されたモデル７０８のさらなる訓練のために使用することができる訓練データ・リポジトリに記憶することができる。少なくとも一実施例では、モデルは新しいデータが利用可能であるので連続して訓練されるが、少なくとも一実施例では、これらのモデルは、データ・セットのサイズ又はモデルの複雑性などのファクタによって、１日又は１週間に１回などの定期的に再訓練される。

少なくとも一実施例では、分類子７１４は、訓練されたモデルを使用して、有効化データ７１２を処理するための適当なハードウェア及びソフトウェアを含むことができる。少なくとも一実施例では、分類子は、データを処理することが可能な１つ又は複数のグラフィックス処理ユニット（ＧＰＵ）をそれぞれ有する１つ又は複数のコンピュータ・サーバを含む。少なくとも一実施例では、ＧＰＵの構成及び設計は、ＣＰＵ又は他のこのようなコンポーネントより、機械学習データを処理する際に使用することを望ましくすることができる。少なくとも一実施例では、訓練されたモデルは少なくとも一実施例では、ＧＰＵメモリ、及び処理のためにＧＰＵに提供された受信したデータ・インスタンス内にロードすることができる。ＧＰＵはＣＰＵよりはるかに多い数のコアを有し、ＧＰＵコアはまた、はるかにより複雑でない可能性がある。少なくとも一実施例では、所与のＧＰＵは、異なるハードウェア・スレッドを介して同時に数千のデータ・インスタンスを処理することが可能であることがある。少なくとも一実施例では、ＧＰＵはまた、大きいデータ・セットに対してかなりの追加の処理利点を提供することができる、浮動小数点スループットを最大限にするように構成することができる。

少なくとも一実施例では、ＧＰＵ、アクセラレータ、及びモデルの訓練又はこのようなモデルを使用したデータの分類などのタスクを加速させるための他のこのようなハードウェアを使用する場合でさえ、このようなタスクはまだ、かなりの時間、リソース割り当て、及び費用を必要とする。少なくとも一実施例では、機械学習モデルが７００回のパスを使用して訓練され、データ・セットが訓練のために使用される１，０００，０００のデータ・インスタンスを含む場合、百万のインスタンスはすべて各パスに対して処理される必要がある。アーキテクチャの異なる部分はまた、異なるタイプのデバイスによってサポートすることができる。少なくとも一実施例では、訓練は、サービスとして提供することができるように、論理集中位置でサーバのセットを使用して行うことができ、生データの分類は、このようなサービスによって、又はクライアント・デバイス上で行うことができる。これらのデバイスはまた、同じエンティティ又は多数のエンティティによって所有、操作、又は制御することができる。

少なくとも一実施例では、図８に示した例示的ニューラル・ネットワーク８００は、訓練する、或いは少なくとも一実施例では利用することができる。少なくとも一実施例では、統計モデルは、入力層８０２、出力層８０６、及び内部層及びノードは典型的にはニューラル・ネットワーク内では見えない又はアクセス可能ではないので「隠された」層としばしば呼ばれる中間ノードの多数の層８０４を含むノードの多数の層を含む人工ニューラル・ネットワーク（ＡＮＮ）である。少なくとも一実施例では、いくつかの中間層だけが説明する目的で示されているが、利用することができる中間層の数への限定はなく、層へのあらゆる限定もモデルを使用して処理するのに必要なリソース及び時間のファクタであることを理解されたい。少なくとも一実施例では、ノード及び層の他の数又は選択を含むように、追加のタイプのモデル、ネットワーク、アルゴリズム、又は使用されるプロセスがある可能性がある。少なくとも一実施例では、有効化データは、その後、損失関数８０８に供給することができる、推論のセット、又は推論スコアを生成するためにネットワークの層によって処理することができる。

少なくとも一実施例では、所与の層のすべてのノードは、隣接する層のすべてのノードに相互接続される。少なくとも一実施例では、中間層のノードはその後、それぞれ、２つの隣接する層のノードに接続される。少なくとも一実施例では、ノードはまた、いくつかのモデル内でニューロン又は接続ユニットとも呼ばれ、ノード間の接続はエッジと呼ばれる。各ノードは、特定の関数を使用することなどによって、受信した入力に対する関数を実行することができる。少なくとも一実施例では、ノード及びエッジは訓練中に異なる重みを得ることができ、ノードの個別の層は受信した入力上で特定のタイプの変換を行うことができ、これらの変換はまた、訓練中に学習又は調節することができる。少なくとも一実施例では、訓練データ・セット内に含まれる情報のタイプに少なくとも部分的によるように、学習は監視された又は監視されていない学習である可能性がある。少なくとも一実施例では、いくつかの畳み込み層及びプーリング層のセットを含む畳み込みニューラル・ネットワーク（ＣＮＮ）を含むように、様々なタイプのニューラル・ネットワークを利用することができ、画像認識などのアプリケーションで有益であることが証明された。ＣＮＮはまた、決定される比較的少ない数のパラメータにより、他のネットワークより容易に訓練することができる。

少なくとも一実施例では、このような複雑な機械学習モデルは、様々な同調パラメータを使用して訓練することができる。パラメータを選択し、モデルを適合し、モデルを評価することは、しばしばハイパーパラメータ最適化と呼ばれるモデル同調プロセスの一部である。このような同調は、少なくとも一実施例では、下層のモデル又はデータをイントロスペクトすることが必要である可能性がある。訓練又は生成セッティングでは、安定したワークフローは、本明細書のどこかで論じたように、ハイパーパラメータのオーバーフィッティングを避けるために重要である可能性がある。交差有効化及び訓練データ・セットにガウス・ノイズを追加することは、いずれか１つのデータ・セットへのオーバーフィッティングを避けるために有用である可能性がある技術である。ハイパーパラメータ最適化では、訓練及び有効化セットを固定することが望ましいことがある。少なくとも一実施例では、ハイパーパラメータは、データ・プレ処理（ワードをベクトルにトランスレーションすることなど）、ＣＮＮアーキテクチャ定義（たとえば、フィルタ・サイズ、フィルタの数）、確率的勾配下降法（ＳＧＤ）パラメータ（たとえば、学習レート）、及び正則化又は改良（たとえば、ドロップアウト確率）を含むように、特定のカテゴリで同調させることができる。

少なくとも一実施例では、データ・セットのインスタンスは、プレ処理中に特定のサイズのより低い寸法空間内に埋め込むことができる。少なくとも一実施例では、この空間のサイズは、同調されるパラメータである。少なくとも一実施例では、ＣＮＮのアーキテクチャは多くの同調可能パラメータを含む。フィルタ・サイズに対するパラメータは、分析されるインスタンスのサイズに対応する情報の解釈を示すことができる。数理言語学では、これはｎグラム・サイズとして知られている。例示的ＣＮＮは、潜在的に異なるｎグラム・サイズを示す、３つの異なるフィルタ・サイズを使用する。フィルタ・サイズごとのフィルタの数は、フィルタの深さに対応する可能性がある。各フィルタは、テキスト・データ用のセンテンス構造などの、インスタンスの構造から異なる何かを学習しようと試みる。畳み込み層では、アクティブ化関数は、修正した線形ユニット及びマックス・プーリングとしてのプーリング・タイプ・セットである可能性がある。結果はその後、単一の寸法ベクトル内に連結させることができ、最後の層は２次元出力上で完全に接続される。これは、最適化関数を適用することができるバイナリ分類に対応する。１つのこのような関数は、勾配降下の二乗平均平方根（ＲＭＳ）伝搬方法の実施であり、例示的ハイパーパラメータは学習レート、バッチ・サイズ、最大勾配法線、及びエポックを含むことができる。ニューラル・ネットワークでは、正則化は極めて重要な検討事項である可能性がある。少なくとも一実施例では、入力データは比較的乏しいことがある。主なハイパーパラメータはこのような状況では、各訓練サイクルで「発火」しないノードの割合を示す、最後から２番目の層でのドロップアウトである可能性がある。例示的訓練プロセスは、前の構成のパフォーマンスに対するフィードバックに基づいて、異なるハイパーパラメータ構成を提案することができる。このモデルは、指定された有効化セット及びパフォーマンス報告上で評価される、提案された構成で訓練することができる。このプロセスは、たとえば、調査（異なる構成に関してより学習すること）及び利用（より良い結果を達成するために前の知識を活用すること）をトレードオフするために繰り返すことができる。

訓練ＣＮＮを並列化し、ＧＰＵイネーブル・コンピューティング・リソースを利用することができるので、多数の最適化ストラテジーは異なるシナリオに対して試みることができる。複雑なシナリオは、同調モデル・アーキテクチャ、並びにプレ処理及び確率的勾配降下パラメータを可能にする。これは、モデル構成空間を拡張する。基本的シナリオでは、プレ処理及び確率的勾配降下パラメータだけが同調される。基本的シナリオより、複雑なシナリオでより多数の構成パラメータがある可能性がある。ジョイント空間内の同調は、線形又は指数関数的数のステップ、モデルの最適化ループによる繰り返しを使用して行うことができる。このような同調プロセスの費用は、かなりのパフォーマンス損失なしで、ランダム・サーチ及びグリッド・サーチなどの同調プロセスよりかなり少ない可能性がある。

少なくとも一実施例では、逆伝搬を利用して、ニューラル・ネットワークに対する重みを決定するために使用される勾配を算出することができる。逆伝搬は微分法の一形態であり、上に論じたように、様々なノード又はニューロンに加えられた重みを調節するために勾配降下最適化アルゴリズムによって使用することができる。重みは、関連する損失関数の勾配を使用して決定することができる。逆伝搬は、統計モデルによって生成される出力に対する損失関数の導関数を利用することができる。記載したように、様々なノードは、それぞれのノードの出力を規定する関連付けられたアクティブ化関数を有することができる。様々なアクティブ化関数は、データの変換のために様々なサポート・ベクトル・マシン（ＳＶＭ）によって利用することができる、放射基底関数（ＲＢＦ）及びシグモイドを含むように、適当に使用することができる。ノードの中間層のアクティブ化関数は、本明細書では内側製品カーネルとも呼ばれる。これらの関数は、たとえば、識別関数、ステップ関数、シグモイド関数、ランプ関数などを含むことができる。アクティブ化関数はまた、線形又は非線形であってもよい。

少なくとも一実施例では、訓練されていないニューラル・ネットワークは、訓練データ・セットを使用して訓練される。少なくとも一実施例では、訓練フレームワークは、ＰｙＴｏｒｃｈフレームワーク、Ｔｅｎｓｏｒｆｌｏｗ、Ｂｏｏｓｔ、Ｃａｆｆｅ、ＭｉｃｒｏｓｏｆｔＣｏｇｎｉｔｉｖｅＴｏｏｌｋｉｔ／ＣＮＴＫ、ＭＸＮｅｔ、Ｃｈａｉｎｅｒ、Ｋｅｒａｓ、Ｄｅｅｐｌｅａｒｎｉｎｇ４ｊ、又は他の訓練フレームワークである。少なくとも一実施例では、訓練フレームワークは、未訓練ニューラル・ネットワークを訓練し、本明細書に記載の処理リソースを使用してそれが訓練されるのを可能にして、訓練済みニューラル・ネットワークを生成する。少なくとも一実施例では、重みは、ランダムに選択されてもよく、又はディープ・ビリーフ・ネットワークを使用した事前訓練によって選択されてもよい。少なくとも一実施例では、訓練は、教師あり、一部教師あり、又は教師なしのいずれかのやり方で実行されてもよい。

少なくとも一実施例では、未訓練ニューラル・ネットワークは教師あり学習を使用して訓練され、ここで訓練データ・セットは、入力に対する所望の出力と対になった入力を含み、又は訓練データ・セットは、既知の出力を有する入力を含み、ニューラル・ネットワークの出力が手動で採点される。少なくとも一実施例では、未訓練ニューラル・ネットワークは教師ありのやり方で訓練され、訓練データ・セットからの入力を処理し、結果として得られた出力を、予想の又は所望の出力のセットと比較する。少なくとも一実施例では、次いで、誤差が、未訓練ニューラル・ネットワークを通って逆伝播される。少なくとも一実施例では、訓練フレームワークは、未訓練ニューラル・ネットワークを制御する重みを調節する。少なくとも一実施例では、訓練フレームワークは、未訓練ニューラル・ネットワークが、新規データなどの既知の入力データに基づき、結果などにおいて正しい答えを生成するのに好適な訓練済みニューラル・ネットワークなどのモデルに向かって、どれだけ良好に収束しているかを監視するツールを含む。少なくとも一実施例では、訓練フレームワークは、未訓練ニューラル・ネットワークを繰り返し訓練する一方、損失関数、及び確率的勾配降下法などの調整アルゴリズムを使用して、未訓練ニューラル・ネットワークの出力を精緻化するように重みを調整する。少なくとも一実施例では、訓練フレームワークは、未訓練ニューラル・ネットワークが所望の精度に到達するまで未訓練ニューラル・ネットワークを訓練する。少なくとも一実施例では、次いで訓練済みニューラル・ネットワークを、任意の数の機械学習動作を実装するように導入することができる。

少なくとも一実施例では、未訓練ニューラル・ネットワークは、教師なし学習を使用して訓練され、ここで未訓練ニューラル・ネットワークは、ラベルなしデータを使用して自らを訓練しようとする。少なくとも一実施例では、教師なし学習の訓練データ・セットは、いかなる関連出力データ又は「グラウンド・トゥルース」データもない入力データを含む。少なくとも一実施例では、未訓練ニューラル・ネットワークは、訓練データ・セット内でグループ化を学習することができ、個々の入力が、未訓練データ・セットにどのように関係しているかを判定することができる。少なくとも一実施例では、教師なし訓練を使用して、自己組織化マップを生成することができ、自己組織化マップは、新規データの次元を低減するのに有用な動作を実行することができるタイプの訓練済みニューラル・ネットワークである。少なくとも一実施例では、教師なし訓練を使用して異常検出を実行することもでき、異常検出は、新規データ・セットの通常のパターンから逸脱した、新規データ・セット内のデータ点を識別できるようにする。

少なくとも一実施例では、半教師あり学習が使用されてもよく、それは、ラベル付きデータとラベルなしデータが訓練データ・セットに混在している技法である。少なくとも一実施例では、訓練フレームワークを使用して、伝達学習技法などによる漸次的学習が実行されてもよい。少なくとも一実施例では、漸次的学習により、訓練済みニューラル・ネットワークは、初期訓練中にネットワーク内に教え込まれた知識を忘れることなく、新規データに適合できるようになる。

推論及び訓練の論理
図９Ａは、１つ又は複数の実施例に関連付けられた推論及び／又は訓練の動作を行うために使用される推論及び／又は訓練論理９１５を示している。推論及び／又は訓練論理９１５に関する詳細は、図９Ａ及び／又は９Ｂと合わせて以下に提供される。

少なくとも一実施例では、推論及び／又は訓練論理９１５は、これに限らないが、フォワード及び／又は出力重み、並びに／或いは入力／出力データ、並びに／或いは１つ又は複数の実施例の態様での推論のために訓練及び／又は使用されるニューロン又はニューラル・ネットワークの層を構成するための他のパラメータを記憶するためのコード及び／又はデータ・ストレージ９０１を含むことができる。少なくとも一実施例では、訓練論理９１５は、タイミング並びに／或いは、重み及び／又は他のパラメータ情報が整数及び／又は浮動小数点ユニット（集合的に、整数算術論理演算ユニット（ＡＬＵ））を含む論理を構成するためにロードされる順序を制御するためにグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ９０１を含む、又はこれに結合することができる。少なくとも一実施例では、グラフ・コードなどのコードは、このコードが対応するニューラル・ネットワークのアーキテクチャに基づいて、プロセッサＡＬＵ内に重み又は他のパラメータ情報をロードする。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１は、１つ又は複数の実施例の態様を使用した訓練及び／又は推論中に入力／出力データ及び／又は重みパラメータのフォワード伝搬中に１つ又は複数の実施例と合わせて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ並びに／或いは入力／出力データを記憶する。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１のあらゆる部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ或いはシステム・メモリを含む、オン・チップ又はオフ・チップ・データ・ストレージで含めることができる。

少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１のあらゆる部分は、１つ又は複数のプロセッサ或いは他のハードウェア論理デバイス又は回路に対して内部又は外部にあってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１は、キャッシュ・メモリ、ダイナミック・ランダム・アドレス可能メモリ（ＤＲＡＭ）、スタティック・ランダム・アドレス可能メモリ（ＳＲＡＭ）、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１がプロセッサに対して内部又は外部であるか、たとえば、ＤＲＡＭ、ＳＲＡＭ、フラッシュ又はいくつかの他のストレージ・タイプからなるかどうかの選択は、利用可能なストレージ・オン・チップ対オフ・チップ、行われている訓練及び／又は推論のレイテンシ要件、ニューラル・ネットワークの推論機能及び／又は訓練に使用されるデータのバッチ・サイズ、或いはこれらのファクタのいくつかの組合せによることがある。

少なくとも一実施例では、推論及び／又は訓練論理９１５は、これに限らないが、１つ又は複数の実施例の態様での推論のために訓練及び／又は使用されるニューラル・ネットワークのニューロン又は層に対応するバックワード及び／又は出力重み、並びに／或いは入力／出力データを記憶するためのコード及び／又はデータ・ストレージ９０５を含むことができる。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０５は、１つ又は複数の実施例の態様を使用した訓練及び／又は推論中に入力／出力データ及び／又は重みパラメータのバックワード伝搬中に１つ又は複数の実施例と合わせて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ並びに／或いは入力／出力データを記憶する。少なくとも一実施例では、訓練論理９１５は、タイミング並びに／或いは、重み及び／又は他のパラメータ情報が整数及び／又は浮動小数点ユニット（集合的に、整数算術論理演算ユニット（ＡＬＵ））を含む論理を構成するためにロードされる順序を制御するためにグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ９０５を含む、又はこれに結合することができる。少なくとも一実施例では、グラフ・コードなどのコードは、このコードが対応するニューラル・ネットワークのアーキテクチャに基づいて、プロセッサＡＬＵ内に重み又は他のパラメータ情報をロードする。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０５のあらゆる部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ或いはシステム・メモリを含む、オン・チップ又はオフ・チップ・データ・ストレージで含めることができる。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０５のあらゆる部分は、１つ又は複数のプロセッサ或いは他のハードウェア論理デバイス又は回路に対して内部又は外部にあってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０５は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０５がプロセッサに対して内部又は外部であるか、たとえば、ＤＲＡＭ、ＳＲＡＭ、フラッシュ又は他のストレージ・タイプからなるかどうかの選択は、利用可能なストレージ・オン・チップ対オフ・チップ、行われている訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練に使用されるバッチ・サイズ、或いはこれらのファクタのいくつかの組合せによることがある。

少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５は、別のストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５は、同じストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５は、部分的に同じストレージ構造及び部分的に別のストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５のあらゆる部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ或いはシステム・メモリを含む、オン・チップ又はオフ・チップ・データ・ストレージで含めることができる。

少なくとも一実施例では、推論及び／又は訓練論理９１５は、これに限らないが、その結果が、コード及び／又はデータ・ストレージ９０１及び／又はコード及び／又はデータ・ストレージ９０５内に記憶された入力／出力データ並びに／或いは重みパラメータ・データの関数であるアクティブ化ストレージ９２０内に記憶されたアクティブ化（たとえば、ニューラル・ネットワーク内で層又はニューロンからの出力値）を生成することができる、訓練及び／又は推論コード（たとえば、グラフ・コード）に少なくとも部分的に基づいて、或いはこれによって示される論理及び／又は数学的動作を行うために、整数及び／又は浮動小数点ユニットを含む、１つ又は複数の算術論理演算ユニット（ＡＬＵ）９１０を含むことができる。少なくとも一実施例では、アクティブ化ストレージ９２０に記憶されたアクティブ化は、命令又は他のコードを行うことに応じて、（１つ又は複数の）ＡＬＵ９１０によって行われる線形代数及び／又は行列ベース算術により生成され、コード及び／又はデータ・ストレージ９０５並びに／或いはコード及び／又はデータ・ストレージ９０１に記憶された重み値は、バイアス値、勾配情報、モーメント値、或いは他のパラメータ又はハイパーパラメータなどの他の値とともにオペランドとして使用され、これらのいずれか又はすべては、コード及び／又はデータ・ストレージ９０５又はコード及び／又はデータ・ストレージ９０１、或いは別のストレージにオン・チップ又はオフ・チップで記憶することができる。

少なくとも一実施例では、（１つ又は複数の）ＡＬＵ９１０は、１つ又は複数のプロセッサ或いは他のハードウェア論理デバイス又は回路内に含まれ、別の実施例では、（１つ又は複数の）ＡＬＵ９１０は、プロセッサ、或いはこれらを使用する他のハードウェア論理デバイス又は回路（たとえば、コプロセッサ）に対して外部にあってもよい。少なくとも一実施例では、ＡＬＵ９１０は、プロセッサの実行ユニット内に、或いは同じプロセッサ内にある、或いは異なるタイプの異なるプロセッサ（たとえば、中央処理ユニット、グラフィックス処理ユニット、固定関数ユニットなど）の間で分配されたプロセッサの実行ユニットによってアクセス可能なＡＬＵのバンク内に含めることができる。少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１、コード及び／又はデータ・ストレージ９０５、及びアクティブ化ストレージ９２０は、同じプロセッサ又は他のハードウェア論理デバイス又は回路であってもよく、別の実施例では、これらは異なるプロセッサ或いは他のハードウェア論理デバイス又は回路、或いは同じ及び異なるプロセッサ或いは他のハードウェア論理デバイス又は回路のいくつかの組合せ内にあってもよい。少なくとも一実施例では、アクティブ化ストレージ９２０のあらゆる部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ或いはシステム・メモリを含む、オン・チップ又はオフ・チップ・データ・ストレージで含めることができる。さらに、推論及び／又は訓練コードは、プロセッサ或いは他のハードウェア論理又は回路にアクセス可能な他のコードで記憶し、プロセッサのフェッチ、デコード、スケジューリング、実行、リタイヤ、及び／又は他の論理回路を使用して、フェッチ及び／又は処理することができる。

少なくとも一実施例では、アクティブ化ストレージ９２０は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、アクティブ化ストレージ９２０は完全に又は部分的に、１つ又は複数のプロセッサ又は他の論理回路内にある又は外部にあってもよい。少なくとも一実施例では、アクティブ化ストレージ９２０がプロセッサに対して内部又は外部であるか、たとえば、ＤＲＡＭ、ＳＲＡＭ、フラッシュ又はいくつかの他のストレージ・タイプからなるかどうかの選択は、利用可能なストレージ・オン・チップ対オフ・チップ、行われている訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練に使用されるデータのバッチ・サイズ、或いはこれらのファクタのいくつかの組合せによることがある。少なくとも一実施例では、図９Ａに示す推論及び／又は訓練論理９１５は、ＧｏｏｇｌｅによるＴｅｎｓｏｒｆｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）による推論処理ユニット（ＩＰＵ）、又はインテル社によるＮｅｒｖａｎａ（登録商標）（たとえば、「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（「ＡＳＩＣ」）と合わせて使用することができる。少なくとも一実施例では、図９Ａに示す推論及び／又は訓練論理９１５は、中央処理ユニット（「ＣＰＵ」）ハードウェア、グラフィックス処理ユニット（「ＧＰＵ」）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（「ＦＰＧＡ」）などの他のハードウェアと合わせて使用することができる。

図９Ｂは、少なくとも１つ又は複数の実施例による、推論及び／又は訓練論理９１５を示している。少なくとも一実施例では、推論及び／又は訓練論理９１５は、これに限らないが、計算リソースが専用である、或いは重み値又はニューラル・ネットワーク内のニューロンの１つ又は複数の層に対応する他の情報と合わせて排他的に使用される、ハードウェア論理を含むことができる。少なくとも一実施例では、図９Ｂに示す推論及び／又は訓練論理９１５は、ＧｏｏｇｌｅによるＴｅｎｓｏｒｆｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）による推論処理ユニット（ＩＰＵ）、又はインテル社によるＮｅｒｖａｎａ（登録商標）（たとえば、「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（ＡＳＩＣ）と合わせて使用することができる。少なくとも一実施例では、図９Ｂに示す推論及び／又は訓練論理９１５は、中央処理ユニット（ＣＰＵ）ハードウェア、グラフィックス処理ユニット（ＧＰＵ）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などの他のハードウェアと合わせて使用することができる。少なくとも一実施例では、推論及び／又は訓練論理９１５は、これに限らないが、コード（たとえば、グラフ・コード）、重み値、並びに／或いは、バイアス値、勾配情報、モーメント値、並びに／或いは他のパラメータ又はハイパーパラメータ情報を含む他の情報を記憶するために使用することができる、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５を含む。図９Ｂに示す少なくとも一実施例では、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５はそれぞれ、計算ハードウェア９０２及び計算ハードウェア９０６などの専用計算リソースに関連付けられている。少なくとも一実施例では、計算ハードウェア９０２及び計算ハードウェア９０６はそれぞれ、その結果がアクティブ化ストレージ９２０内に記憶される、コード及び／又はデータ・ストレージ９０１並びにコード及び／又はデータ・ストレージ９０５内に記憶された情報上のみで、線形代数関数などの算術関数を行う１つ又は複数のＡＬＵを備えている。

少なくとも一実施例では、各コード及び／又はデータ・ストレージ９０１、９０５並びに対応する計算ハードウェア９０２、９０６はそれぞれ、ニューラル・ネットワークの異なる層に対応し、それにより、ニューラル・ネットワークのミラー概念組織化のために、コード及び／又はデータ・ストレージ９０１及び計算ハードウェア９０２の１つの「ストレージ／計算対９０１／９０２」から得られたアクティブ化は、コード及び／又はデータ・ストレージ９０５及び計算ハードウェア９０６の１つの「ストレージ／計算対９０５／９０６」に入力として提供される。少なくとも一実施例では、ストレージ／計算対９０１／９０２及び９０５／９０６のそれぞれは、２つ以上のニューラル・ネットワーク層に対応することができる。少なくとも一実施例では、ストレージ計算対９０１／９０２及び９０５／９０６の後の又は並列した追加のストレージ／計算対（図示せず）は、推論及び／又は訓練論理９１５に含めることができる。

データ・センタ
図１０は、少なくとも一実施例が使用されてもよい例示的なデータ・センタ１０００を示す。少なくとも一実施例では、データ・センタ１０００は、データ・センタ・インフラストラクチャ層１０１０、フレームワーク層１０２０、ソフトウェア層１０３０、及びアプリケーション層１０４０を含む。

少なくとも一実施例では、図１０に示すように、データ・センタ・インフラストラクチャ層１０１０は、リソース・オーケストレータ１０１２、グループ化済みコンピューティング・リソース１０１４、及びノード・コンピューティング・リソース（「ノードＣ．Ｒ．」：ｎｏｄｅｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅ）１０１６（１）～１０１６（Ｎ）を含んでもよく、ここで「Ｎ」は、任意の正の整数を表す。少なくとも一実施例では、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）は、任意の数の中央処理装置（「ＣＰＵ」）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・デバイス（たとえば、ダイナミック読取り専用メモリ）、ストレージ・デバイス（たとえば、半導体ドライブ又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）、電源モジュール、及び冷却モジュールを含んでもよいが、これらに限定されない。少なくとも一実施例では、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）のうち１つ又は複数のノードＣ．Ｒ．は、上述したコンピューティング・リソースのうちの１つ又は複数を有するサーバであってもよい。

少なくとも一実施例では、グループ化済みコンピューティング・リソース１０１４は、１つ若しくは複数のラック（図示せず）内に収容されたノードＣ．Ｒ．の別々のグループ、又は様々なグラフィカル・ロケーション（同じく図示せず）においてデータ・センタに収容された多数のラックを含んでもよい。グループ化済みコンピューティング・リソース１０１４内のノードＣ．Ｒ．の別々のグループは、１つ若しくは複数のワークロードをサポートするように構成又は配分されてもよいグループ化済みのコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含んでもよい。少なくとも一実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のラック内でグループ化されて、１つ又は複数のワークロードをサポートするためのコンピュート・リソースが提供されてもよい。少なくとも一実施例では、１つ又は複数のラックはまた、任意の数の電源モジュール、冷却モジュール、及びネットワーク・スイッチを任意の組合せで含んでもよい。

少なくとも一実施例では、リソース・オーケストレータ１０１２は、１つ又は複数のノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）及び／若しくはグループ化済みコンピューティング・リソース１０１４を構成してもよく、又は他のやり方で制御してもよい。少なくとも一実施例では、リソース・オーケストレータ１０１２は、データ・センタ１０００用のソフトウェア設計インフラストラクチャ（「ＳＤＩ」：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含んでもよい。少なくとも一実施例では、リソース・オーケストレータは、ハードウェア、ソフトウェア、又はこれらの何らかの組合せを含んでもよい。

図１０に示す少なくとも一実施例では、フレームワーク層１０２０は、ジョブ・スケジューラ１０２２、構成マネージャ１０２４、リソース・マネージャ１０２６、及び分配ファイル・システム１０２８を含む。少なくとも一実施例では、フレームワーク層１０２０は、ソフトウェア層１０３０のソフトウェア１０３２、及び／又はアプリケーション層１０４０の１つ若しくは複数のアプリケーション１０４２をサポートするためのフレームワークを含んでもよい。少なくとも一実施例では、ソフトウェア１０３２又はアプリケーション１０４２はそれぞれ、アマゾン・ウェブ・サービス、グーグル・クラウド、及びマイクロソフト・アジュールによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでもよい。少なくとも一実施例では、フレームワーク層１０２０は、大規模なデータ処理（たとえば「ビック・データ」）のために分配ファイル・システム１０２８を使用することができるＡｐａｃｈｅＳｐａｒｋ（登録商標）（以下「Ｓｐａｒｋ」）など、無料でオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一種であってもよいが、これに限定されない。少なくとも一実施例では、ジョブ・スケジューラ１０２２は、データ・センタ１０００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含んでもよい。少なくとも一実施例では、構成マネージャ１０２４は、ソフトウェア層１０３０、並びに大規模なデータ処理をサポートするためのＳｐａｒｋ及び分配ファイル・システム１０２８を含むフレームワーク層１０２０などの異なる層を構成することが可能であってもよい。少なくとも一実施例では、リソース・マネージャ１０２６は、分配ファイル・システム１０２８及びジョブ・スケジューラ１０２２をサポートするようにマッピング若しくは配分されたクラスタ化済み又はグループ化済みのコンピューティング・リソースを管理することが可能であってもよい。少なくとも一実施例では、クラスタ化済み又はグループ化済みのコンピューティング・リソースは、データ・センタ・インフラストラクチャ層１０１０にあるグループ化済みコンピューティング・リソース１０１４を含んでもよい。少なくとも一実施例では、リソース・マネージャ１０２６は、リソース・オーケストレータ１０１２と連携して、これらのマッピング又は配分されたコンピューティング・リソースを管理してもよい。

少なくとも一実施例では、ソフトウェア層１０３０に含まれるソフトウェア１０３２は、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）、グループ化済みコンピューティング・リソース１０１４、及び／又はフレームワーク層１０２０の分配ファイル・システム１０２８のうちの少なくとも一部分によって使用されるソフトウェアを含んでもよい。１つ又は複数のタイプのソフトウェアは、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアを含んでもよいが、これらに限定されない。

少なくとも一実施例では、アプリケーション層１０４０に含まれるアプリケーション１０４２は、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）、グループ化済みコンピューティング・リソース１０１４、及び／又はフレームワーク層１０２０の分配ファイル・システム１０２８のうちの少なくとも一部分によって使用される１つ若しくは複数のタイプのアプリケーションを含んでもよい。１つ若しくは複数のタイプのアプリケーションは、任意の数のゲノム学アプリケーション、認識コンピュート、並びに訓練若しくは推論のソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、Ｔｅｎｓｏｒｆｌｏｗ、Ｃａｆｆｅなど）を含む機械学習アプリケーション、又は１つ若しくは複数の実施例と併せて使用される他の機械学習アプリケーションを含んでもよいが、これらに限定されない。

少なくとも一実施例では、構成マネージャ１０２４、リソース・マネージャ１０２６、及びリソース・オーケストレータ１０１２のうちのいずれかは、任意の技術的に実行可能なやり方で取得された任意の量及びタイプのデータに基づき、任意の数及びタイプの自己修正措置を実装してもよい。少なくとも一実施例では、自己修正措置は、データ・センタ１０００のデータ・センタ演算子が、不良の恐れのある構成を決定しないようにし、十分に利用されていない且つ／又は性能の低いデータ・センタの部分をなくせるようにしてもよい。

少なくとも一実施例では、データ・センタ１０００は、１つ若しくは複数の機械学習モデルを訓練し、又は本明細書に記載の１つ若しくは複数の実施例による１つ若しくは複数の機械学習モデルを使用して情報を予測若しくは推論するためのツール、サービス、ソフトウェア、又は他のリソースを含んでもよい。たとえば、少なくとも一実施例では、機械学習モデルは、データ・センタ１０００に関して上述したソフトウェア及びコンピューティング・リソースを使用して、ニューラル・ネットワーク・アーキテクチャに従って重みパラメータを計算することによって、訓練されてもよい。少なくとも一実施例では、１つ又は複数のニューラル・ネットワークに対応する訓練済み機械学習モデルは、本明細書に記載の１つ又は複数の技法によって計算された重みパラメータを使用することにより、データ・センタ１０００に関して上述したリソースを使用して、情報を推論又は予測するために使用されてもよい。

少なくとも一実施例では、データ・センタは、上述したリソースを使用して訓練及び／又は推論を実行するために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、又は他のハードウェアを使用してもよい。さらに、上述した１つ又は複数のソフトウェア及び／又はハードウェアのリソースは、画像認識、音声認識、又は他の人工知能サービスなどの情報の訓練又は推論の実行を、ユーザが行えるようにするためのサービスとして構成されてもよい。

推論及び／又は訓練論理９１５を使用して、１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作が実行される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１０のシステムにおいて使用されてもよい。

少なくとも一実施例では、このようなコンポーネントは、より低いフレーム・レート・ビデオのフレームからより高いフレーム・レート・ビデオを生成するなどのために、１つ又は複数のニューラル・ネットワークを使用して向上したビデオを生成するために利用することができる。

コンピュータ・システム
図１１Ａは、例示的なコンピュータ・システムを示すブロック図であり、このコンピュータ・システムは、少なくとも一実施例による、命令を実行するための実行ユニットを含んでもよいプロセッサとともに形成された、相互接続されたデバイス及び構成要素、システム・オン・チップ（ＳｏＣ）、又はこれらの何らかの組合せ１１００を有するシステムであってもよい。少なくとも一実施例では、コンピュータ・システム１１００は、本明細書に記載の実施例などにおいて本開示に従ってデータを処理するためのアルゴリズムを実行する論理を含む実行ユニットを使用するための、プロセッサ１１０２などの構成要素を、限定することなく含んでもよい。少なくとも一実施例では、コンピュータ・システム１１００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、ＸｅｏｎＴＭ、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅＴＭ及び／又はＳｔｒｏｎｇＡＲＭＴＭ、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含んでもよいが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含め）他のシステムが使用されてもよい。少なくとも一実施例では、コンピュータ・システム１１００は、ワシントン州、レドモンドのマイクロソフトコーポレーションから入手可能なＷＩＮＤＯＷＳ（登録商標）のオペレーティング・システムのあるバージョンを実行してもよいが、他のオペレーティング・システム（たとえば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ）、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースが使用されてもよい。

実施例は、携帯型デバイス及び組み込みアプリケーションなど、他のデバイスで使用されてもよい。携帯型デバイスのいくつかの例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、及び携帯型ＰＣを含む。少なくとも一実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（「ＤＳＰ」：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、システム・オン・チップ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：ｎｅｔｗｏｒｋｃｏｍｐｕｔｅｒｓ）、セット・トップ・ボックス、ネットワーク・ハブ、広域ネットワーク（「ＷＡＮ」：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）スイッチ、又は少なくとも一実施例による１つ又は複数の命令を実行することができる任意の他のシステムを含んでもよい。

少なくとも一実施例では、コンピュータ・システム１１００は、限定することなくプロセッサ１１０２を含んでもよく、このプロセッサ１１０２は限定することなく、本明細書に記載の技法による機械学習モデルの訓練及び／又は推論を実行するための１つ又は複数の実行ユニット１１０８を含んでもよい。少なくとも一実施例では、コンピュータ・システム１１００は、シングル・プロセッサのデスクトップ又はサーバ・システムであるが、別の実施例では、コンピュータ・システム１１００はマルチプロセッサ・システムであってもよい。少なくとも一実施例では、プロセッサ１１０２は、限定することなく、複合命令セット・コンピュータ（「ＣＩＳＣ」：complex instruction set computer）マイクロプロセッサ、縮小命令セット・コンピューティング（「ＲＩＳＣ」）マイクロプロセッサ、超長命令語（「ＶＬＩＷ」）マイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は任意の他のプロセッサ・デバイス、たとえばデジタル信号プロセッサなどを含んでもよい。少なくとも一実施例では、プロセッサ１１０２は、プロセッサ・バス１１１０に結合されてもよく、このプロセッサ・バスは、プロセッサ１１０２とコンピュータ・システム１１００内の他の構成要素との間でデジタル信号を送信してもよい。

少なくとも一実施例では、プロセッサ１１０２は、限定することなく、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）１１０４を含んでもよい。少なくとも一実施例では、プロセッサ１１０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ１１０２の外部にあってもよい。他の実施例は、特定の実装形態及び必要性に応じて、内部キャッシュと外部キャッシュの両方の組合せも含んでよい。少なくとも一実施例では、レジスタ・ファイル１１０６は、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタを限定することなく含む様々レジスタに、異なるタイプのデータを記憶してもよい。

少なくとも一実施例では、整数及び浮動小数点の演算を実行するための論理を限定することなく含む実行ユニット１１０８も、プロセッサ１１０２にある。少なくとも一実施例では、プロセッサ１１０２は、ある一定のマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）も含んでよい。少なくとも一実施例では、実行ユニット１１０８は、パック命令セット１１０９に対処する論理を含んでもよい。少なくとも一実施例では、パック命令セット１１０９を、命令を実行する関連回路とともに汎用プロセッサ１１０２の命令セットに含めることにより、多くのマルチメディア・アプリケーションによって使用される演算を、汎用プロセッサ１１０２のパック・データを使用して実行することができる。１つ又は複数の実施例では、プロセッサのデータ・バスの全幅を使用してパック・データの演算を実行することによって、多くのマルチメディア・アプリケーションを加速し、より効率的に実行することができ、これにより、１度に１つのデータ要素に対して１つ又は複数の演算を実行するためにプロセッサのデータ・バス間でより小さい単位のデータを転送する必要をなくすことができる。

少なくとも一実施例では、実行ユニット１１０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用されてもよい。少なくとも一実施例では、コンピュータ・システム１１００は、限定することなくメモリ１１２０を含んでもよい。少なくとも一実施例では、メモリ１１２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」）デバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装されてもよい。少なくとも一実施例では、メモリ１１２０は、プロセッサ１１０２によって実行されてもよいデータ信号によって表される命令１１１９、及び／又はデータ１１２１を記憶してもよい。

少なくとも一実施例では、システム論理チップが、プロセッサ・バス１１１０及びメモリ１１２０に結合されてもよい。少なくとも一実施例では、システム論理チップは、限定することなく、メモリ・コントローラ・ハブ（「ＭＣＨ」：ｍｅｍｏｒｙｃｏｎｔｒｏｌｌｅｒｈｕｂ）１１１６を含んでもよく、プロセッサ１１０２は、プロセッサ・バス１１１０を介してＭＣＨ１１１６と通信してもよい。少なくとも一実施例では、ＭＣＨ１１１６は、命令及びデータを記憶するため、及びグラフィックス・コマンド、データ、及びテクスチャを記憶するために、高帯域幅メモリ経路１１１８をメモリ１１２０に提供してもよい。少なくとも一実施例では、ＭＣＨ１１１６は、プロセッサ１１０２と、メモリ１１２０と、コンピュータ・システム１１００の他の構成要素との間でデータ信号を導き、プロセッサ・バス１１１０と、メモリ１１２０と、システムＩ／Ｏ１１２２との間でデータ信号をブリッジしてもよい。少なくとも一実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供してもよい。少なくとも一実施例では、ＭＣＨ１１１６は、高帯域幅メモリ経路１１１８を介してメモリ１１２０に結合されてもよく、グラフィックス／ビデオカード１１１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）相互接続１１１４を介してＭＣＨ１１１６に結合されてもよい。

少なくとも一実施例では、コンピュータ・システム１１００は、ＭＣＨ１１１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）１１３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスであるシステムＩ／Ｏ１１２２を使用してもよい。少なくとも一実施例では、ＩＣＨ１１３０は、ローカルのＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供してもよい。少なくとも一実施例では、ローカルＩ／Ｏバスは、周辺装置をメモリ１１２０、チップセット、及びプロセッサ１１０２に接続するための高速Ｉ／Ｏバスを、限定することなく含んでもよい。例としては、オーディオ・コントローラ１１２９、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）１１２８、ワイヤレス・トランシーバ１１２６、データ・ストレージ１１２４、ユーザ入力及びキーボードのインターフェース１１２５を含むレガシーＩ／Ｏコントローラ１１２３、ユニバーサル・シリアル・バス（「ＵＳＢ」：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのシリアル拡張ポート１１２７、及びネットワーク・コントローラ１１３４が、限定することなく含まれてもよい。データ・ストレージ１１２４は、ハード・ディスク・ドライブ、フロッピー（登録商標）・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備えてもよい。

少なくとも一実施例では、図１１Ａは、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図１１Ａは例示的なシステム・オン・チップ（「ＳｏＣ」）を示してもよい。少なくとも一実施例では、デバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、コンピュータ・システム１１００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ：ｃｏｍｐｕｔｅｅｘｐｒｅｓｓｌｉｎｋ）相互接続を使用して相互接続されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ａのシステムにおいて使用されてもよい。

図１２は、少なくとも一実施例による、プロセッサ１２１０を利用するための電子デバイス１２００を示すブロック図である。少なくとも一実施例では、電子デバイス１２００は、たとえば限定することなく、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、又は任意の他の好適な電子デバイスであってもよい。

少なくとも一実施例では、システム１２００は、任意の好適な数又は種類の構成要素、周辺装置、モジュール、若しくはデバイスに通信可能に結合されたプロセッサ１２１０を、限定することなく含んでもよい。少なくとも一実施例では、Ｉ°Ｃバス、システム・マネージメント・バス（「ＳＭＢｕｓ」：ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、ロー・ピン・カウント（ＬＰＣ：ＬｏｗＰｉｎＣｏｕｎｔ）バス、シリアル・ペリフェラル・インターフェース（「ＳＰＩ」：ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）、ハイ・デフィニション・オーディオ（「ＨＤＡ」：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＡｕｄｉｏ）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：ＳｅｒｉａｌＡｄｖａｎｃｅＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）バス、ユニバーサル・シリアル・バス（「ＵＳＢ」）（バージョン１、２、３）、又はユニバーサル非同期レシーバ／トランスミッタ（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなどのバス若しくはインターフェースを使用して結合されるプロセッサ１２１０。少なくとも一実施例では、図１２は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図１２は例示的なシステム・オン・チップ（「ＳｏＣ」）を示してもよい。少なくとも一実施例では、図１２に示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、図１２の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ）相互接続を使用して相互接続されてもよい。

少なくとも一実施例では、図１２は、ディスプレイ１２２４、タッチ画面１２２５、タッチ・パッド１２３０、近距離無線通信ユニット（「ＮＦＣ」：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓｕｎｉｔ）１２４５、センサ・ハブ１２４０、熱センサ１２４６、エクスプレス・チップセット（「ＥＣ」：ＥｘｐｒｅｓｓＣｈｉｐｓｅｔ）１２３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：ＴｒｕｓｔｅｄＰｌａｔｆｏｒｍＭｏｄｕｌｅ）１２３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）１２２２、ＤＳＰ１２６０、ソリッド・ステート・ディスク（「ＳＳＤ」：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）若しくはハード・ディスク・ドライブ（「ＨＤＤ」：ＨａｒｄＤｉｓｋＤｒｉｖｅ）などのドライブ１２２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋｕｎｉｔ）１２５０、Ｂｌｕｅｔｏｏｔｈユニット１２５２、ワイヤレス広域ネットワーク・ユニット（「ＷＷＡＮ」：ＷｉｒｅｌｅｓｓＷｉｄｅＡｒｅａＮｅｔｗｏｒｋｕｎｉｔ）１２５６、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）１２５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）１２５４、及び／又は、たとえばＬＰＤＤＲ３規格に実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：ＬｏｗＰｏｗｅｒＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリ・ユニット（「ＬＰＤＤＲ３」）１２１５を含んでもよい。これらの構成要素は、それぞれ任意の好適なやり方で実装されてもよい。

少なくとも一実施例では、上述した構成要素を介して、他の構成要素がプロセッサ１２１０に通信可能に結合されてもよい。少なくとも一実施例では、加速度計１２４１、周囲光センサ（「ＡＬＳ」：ＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒ）１２４２、コンパス１２４３、及びジャイロスコープ１２４４が、センサ・ハブ１２４０に通信可能に結合されてもよい。少なくとも一実施例では、熱センサ１２３９、ファン１２３７、キーボード１２４６、及びタッチ・パッド１２３０が、ＥＣ１２３５に通信可能に結合されてもよい。少なくとも一実施例では、スピーカ１２６３、ヘッドフォン１２６４、及びマイクロフォン（「ｍｉｃ」）１２６５が、オーディオ・ユニット（オーディオ・コーデック及びクラスｄアンプ）１２６２に通信可能に結合されてもよく、このオーディオ・ユニットが、ＤＳＰ１２６０に通信可能に結合されてもよい。少なくとも一実施例では、オーディオ・ユニット１２６４は、たとえば限定することなく、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤアンプリファイアを含んでもよい。少なくとも一実施例では、ＳＩＭカード（「ＳＩＭ」）１２５７は、ＷＷＡＮユニット１２５６に通信可能に結合されてもよい。少なくとも一実施例では、ＷＬＡＮユニット１２５０及びＢｌｕｅｔｏｏｔｈユニット１２５２などの構成要素、並びにＷＷＡＮ１２５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＦｏｒｍＦａｃｔｏｒ）に実装されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１２のシステムにおいて使用されてもよい。

図１３は、少なくとも一実施例による、コンピュータ・システム１３００を示す。少なくとも一実施例では、コンピュータ・システム１３００は、本開示全体を通して説明する様々なプロセス及び方法を実装するように構成される。

少なくとも一実施例では、コンピュータ・システム１３００は、限定することなく、少なくとも１つの中央処理装置（「ＣＰＵ」）１３０２を含み、この処理装置は、ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（「ペリフェラル・コンポーネント・インターコネクト」）、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩ－Ｅｘｐｒｅｓｓ」：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）、ＡＧＰ：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ（「アクセラレーテッド・グラフィックス・ポート」）、ハイパートランスポート、又は任意の他のバス若しくはポイントツーポイントの通信プロトコルなど、任意の好適なプロトコルを使用して実装された通信バス１３１０に接続される。少なくとも一実施例では、コンピュータ・システム１３００は、メイン・メモリ１３０４、及び（たとえば、ハードウェア、ソフトウェア、又はこれらの組合せとして実装される）制御論理を限定することなく含み、データは、ランダム・アクセス・メモリ（「ＲＡＭ」：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）の形をとってもよいメイン・メモリ１３０４に記憶される。少なくとも一実施例では、ネットワーク・インターフェース・サブシステム（「ネットワーク・インターフェース」）１３２２は、他のシステムからデータを受信し、コンピュータ・システム１３００から他のシステムにデータを送信するための他のコンピューティング・デバイス及びネットワークとのインターフェースを提供する。

少なくとも一実施例では、コンピュータ・システム１３００は、少なくとも一実施例では、限定することなく、入力デバイス１３０８、パラレル処理システム１３１２、及びディスプレイ・デバイス１３０６を含み、このディスプレイ・デバイスは、従来の陰極線管（「ＣＲＴ」：ｃａｔｈｏｄｅｒａｙｔｕｂｅ）、液晶ディスプレイ（「ＬＣＤ」：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、発光ダイオード（「ＬＥＤ」：ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）、プラズマ・ディスプレイ、又は他の好適なディスプレイ技術を使用して実装することができる。少なくとも一実施例では、ユーザ入力は、キーボード、マウス、タッチ・パッド、マイクロフォンなどの入力デバイス１３０８から受け取る。少なくとも一実施例では、上記モジュールのそれぞれを単一の半導体プラットフォームに置いて、処理システムを形成することができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１３のシステムにおいて使用されてもよい。

図１４は、少なくとも一実施例によるコンピュータ・システム１４００を示す。少なくとも一実施例では、コンピュータ・システム１４００は、限定することなく、コンピュータ１４１０及びＵＳＢスティック１４２０を含んでもよい。少なくとも一実施例では、コンピュータ・システム１４１０は、限定することなく、任意の数及びタイプのプロセッサ（図示せず）、並びにメモリを含んでもよい。少なくとも一実施例では、コンピュータ１４１０は、限定することなく、サーバ、クラウド・インスタンス、ラップトップ、及びデスクトップ・コンピュータを含む。

少なくとも一実施例では、ＵＳＢスティック１４２０は、限定することなく、処理ユニット１４３０、ＵＳＢインターフェース１４４０、及びＵＳＢインターフェース論理１４５０を含む。少なくとも一実施例では、処理ユニット１４３０は、命令を実行することができる任意の命令実行システム、装置、又はデバイスであってもよい。少なくとも一実施例では、処理ユニット１４３０は、限定することなく、任意の数及びタイプの処理コア（図示せず）を含んでもよい。少なくとも一実施例では、処理コア１４３０は、機械学習に関連する任意の量及びタイプの演算を実行するように最適化された特定用途向け集積回路（「ＡＳＩＣ」）を備える。たとえば、少なくとも一実施例では、処理コア１４３０は、機械学習の推論演算を実行するように最適化されたテンソル処理ユニット（「ＴＰＣ」：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）である。少なくとも一実施例では、処理コア１４３０は、機械視覚及び機械学習の推論演算を実行するように最適化された視覚処理ユニット（「ＶＰＵ」）である。

少なくとも一実施例では、ＵＳＢインターフェース１４４０は、任意のタイプのＵＳＢコネクタ又はＵＳＢソケットであってもよい。たとえば、少なくとも一実施例では、ＵＳＢインターフェース１４４０は、データ及び電源用のＵＳＢ３．０Ｔｙｐｅ－Ｃのソケットである。少なくとも一実施例では、ＵＳＢインターフェース１４４０は、ＵＳＢ３．０Ｔｙｐｅ－Ａのコネクタである。少なくとも一実施例では、ＵＳＢインターフェース論理１４５０は、処理ユニット１４３０がＵＳＢコネクタ１４４０を介してデバイス（たとえばコンピュータ１４１０）と又はインターフェースをとることを可能にする任意の量及びタイプの論理を含んでもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１４のシステムにおいて使用されてもよい。

図１５Ａは、複数のＧＰＵ１５１０～１５１３が、高速リンク１５４０～１５４３（たとえば、バス、ポイントツーポイント相互接続など）を介して複数のマルチ・コア・プロセッサ１５０５～１５０６に通信可能に結合されている例示的なアーキテクチャを示す。一実施例では、高速リンク１５４０～１５４３は、４ＧＢ／秒、３０ＧＢ／秒、８０ＧＢ／秒、又はそれ以上の通信スループットをサポートする。ＰＣＩｅ４．０又は５．０、及びＮＶＬｉｎｋ２．０を含むがこれらに限定されない様々な相互接続プロトコルが使用されてもよい。

さらに、一実施例では、ＧＰＵ１５１０～１５１３のうちの２つ以上は高速リンク１５２９～１５３０を介して相互接続され、これらは、高速リンク１５４０～１５４３に使用されたものと同じ又は異なるプロトコル／リンクを使用して実装されてもよい。同様に、マルチ・コア・プロセッサ１５０５～１５０６のうちの２つ以上は、高速リンク１５２８を介して接続されてもよく、この高速リンク１５２８は、２０ＧＢ／秒、３０ＧＢ／秒、１２０ＧＢ／秒、又はそれ以上で動作する対称型マルチプロセッサ（ＳＭＰ）バスとすることができる。或いは、図１５Ａに示す様々なシステム構成要素間のすべての通信は、同じプロトコル／リンクを使用して（たとえば、共通の相互接続ファブリックを介して）実現されてもよい。

一実施例では、各マルチ・コア・プロセッサ１５０５～１５０６は、それぞれメモリ相互接続１５２６～１５２７を介してプロセッサ・メモリ１５０１～１５０２に通信可能に結合され、各ＧＰＵ１５１０～１５１３は、それぞれＧＰＵメモリ・相互接続１５５０～１５５３を介してＧＰＵメモリ１５２０～１５２３に通信可能に結合される。メモリ相互接続１５２６～１５２７及び１５５０～１５５３は、同じ又は異なるメモリ・アクセス技術を利用してもよい。例として、限定ではなく、プロセッサ・メモリ１５０１～１５０２及びＧＰＵメモリ１５２０～１５２３は、（積層ＤＲＡＭを含む）ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又は高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。一実施例では、（たとえば、２レベルのメモリ（２ＬＭ）階層を使用して）、プロセッサ・メモリ１５０１～１５０２のいくつかの部分は揮発性メモリであってもよく、別の部分は不揮発性メモリであってもよい。

以下に記載するように、様々なプロセッサ１５０５～１５０６及びＧＰＵ１５１０～１５１３は、それぞれ特定のメモリ１５０１～１５０２、１５２０～１５２３に物理的に結合されてもよいが、同じ仮想システムのアドレス空間（「実効アドレス」空間とも呼ぶ）が様々な物理メモリ間に分配されている統合されたメモリ・アーキテクチャが実装されてもよい。たとえば、プロセッサ・メモリ１５０１～１５０２はそれぞれ、６４ＧＢのシステム・メモリ・アドレス空間を備えてもよく、ＧＰＵメモリ１５２０～１５２３はそれぞれ、３２ＧＢのシステム・メモリ・アドレス空間を備えてもよい（この例では結果的に、合計２５６ＧＢのアドレス指定可能メモリが得られる）。

図１５Ｂは、１つの例示的な実施例によるマルチ・コア・プロセッサ１５０７とグラフィックス加速モジュール１５４６との相互接続のさらなる詳細事項を示す。グラフィックス加速モジュール１５４６は、高速リンク１５４０を介してプロセッサ１５０７に結合されるライン・カードに集積された１つ又は複数のＧＰＵチップを含んでもよい。或いは、グラフィックス加速モジュール１５４６は、プロセッサ１５０７と同じパッケージ又はチップに集積されてもよい。

少なくとも一実施例では、図示しているプロセッサ１５０７は、複数のコア１５６０Ａ～１５６０Ｄを含み、それぞれのコアが、トランスレーション・ルックアサイド・バッファ１５６１Ａ～１５６１Ｄと、１つ又は複数のキャッシュ１５６２Ａ～１５６２Ｄとを有する。少なくとも一実施例では、コア１５６０Ａ～１５６０Ｄは、命令を実行しデータを処理するための、図示していない様々な他の構成要素を含んでもよい。キャッシュ１５６２Ａ～１５６２Ｄは、レベル１（Ｌ１）及びレベル２（Ｌ２）のキャッシュを備えてもよい。さらに、１つ又は複数の共有キャッシュ１５５６が、キャッシュ１５６２Ａ～１５６２Ｄに含まれ、コア１５６０Ａ～１５６０Ｄのセットによって共有されてもよい。たとえば、プロセッサ１５０７の一実施例は、２４個のコアを含み、各コアが、独自のＬ１キャッシュ、１２個の共有Ｌ２キャッシュ、及び１２個の共有Ｌ３キャッシュを有する。この実施例では、１つ又は複数のＬ２及びＬ３のキャッシュが、２つの隣接するコアによって共有される。プロセッサ１５０７及びグラフィックス加速モジュール１５４６は、システム・メモリ１５１４に接続されており、このシステム・メモリは、図１５Ａのプロセッサ・メモリ１５０１～１５０２を含んでもよい。

様々なキャッシュ１５６２Ａ～１５６２Ｄ、１５５６、及びシステム・メモリ１５１４に記憶されたデータ及び命令については、コヒーレンス・バス１５６４を介したコア間通信によって、コヒーレンスが維持される。たとえば、各キャッシュは、特定のキャッシュ・ラインに対する読取り又は書込みを検出したことに応答して、コヒーレンス・バス１５６４を介して通信するために、それに関連するキャッシュ・コヒーレンス論理／回路を有してもよい。一実装形態では、キャッシュ・アクセスを監視するために、コヒーレンス・バス１５６４を介してキャッシュ・スヌーピング・プロトコルが実装される。

一実施例では、プロキシ回路１５２５が、グラフィックス加速モジュール１５４６をコヒーレンス・バス１５６４に通信可能に結合して、グラフィックス加速モジュール１５４６がコア１５６０Ａ～１５６０Ｄのピアとしてキャッシュ・コヒーレンス・プロトコルに参加できるようにする。特に、インターフェース１５３５は、高速リンク１５４０（たとえば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）を介してプロキシ回路１５２５への接続を提供し、インターフェース１５３７は、グラフィックス加速モジュール１５４６をリンク１５４０に接続する。

一実装形態では、アクセラレータ統合回路１５３６は、グラフィックス加速モジュール１５４６の複数のグラフィックス処理エンジン１５３１、１５３２、Ｎの代わりに、キャッシュ管理、メモリ・アクセス、コンテンツ管理、及び割込み管理のサービスを提供する。グラフィックス処理エンジン１５３１、１５３２、Ｎはそれぞれ、別個のグラフィックス・プロセッシング・ユニット（ＧＰＵ）を備えてもよい。或いは、グラフィックス処理エンジン１５３１、１５３２、Ｎは、ＧＰＵの中に、グラフィックス実行ユニット、メディア処理エンジン（たとえば、ビデオ・エンコーダ／デコーダ）、サンプラ、及びブリット・エンジンなど、異なるタイプのグラフィックス処理エンジンを備えてもよい。少なくとも一実施例では、グラフィックス加速モジュール１５４６は、複数のグラフィックス処理エンジン１５３１～１５３２、Ｎを有するＧＰＵであってもよく、又はグラフィックス処理エンジン１５３１～１５３２、Ｎは、共通のパッケージ、ライン・カード、若しくはチップに集積された個々のＧＰＵであってもよい。

一実施例では、アクセラレータ統合回路１５３６は、仮想から物理のメモリ・トランスレーション（実効から実（ｅｆｆｅｃｔｉｖｅ－ｔｏ－ｒｅａｌ）のメモリ・トランスレーションとも呼ばれる）など、様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）１５３９、及びシステム・メモリ１５１４にアクセスするためのメモリ・アクセス・プロトコルを含む。ＭＭＵ１５３９は、仮想／実効から物理／実へのアドレス・トランスレーションをキャッシュするためのトランスレーション・ルックアサイド・バッファ（ＴＬＢ）（図示せず）も含むことができる。一実装形態では、キャッシュ１５３８は、グラフィックス処理エンジン１５３１～１５３２、Ｎから効率的にアクセスできるように、コマンド及びデータを記憶する。一実施例では、キャッシュ１５３８及びグラフィックス・メモリ１５３３～１５３４、Ｍに記憶されたデータは、コア・キャッシュ１５６２Ａ～１５６２Ｄ、１５５６、及びシステム・メモリ１５１４とコヒーレントに保たれる。上に述べたように、これは、キャッシュ１５３８及びメモリ１５３３～１５３４、Ｍの代わりにプロキシ回路１５２５を介して（たとえば、プロセッサ・キャッシュ１５６２Ａ～１５６２Ｄ、１５５６におけるキャッシュ・ラインの修正／アクセスに関するアップデートをキャッシュ１５３８に送り、キャッシュ１５３８からのアップデートを受け取って）実現されてもよい。

レジスタ１５４５のセットが、グラフィックス処理エンジン１５３１～１５３２、Ｎによって実行されるスレッドのためのコンテキスト・データを記憶し、コンテキスト管理回路１５４８が、スレッド・コンテキストを管理する。たとえば、コンテキスト管理回路１５４８は、コンテキスト・スイッチ中に様々なスレッドのコンテキストを保存及び復元するために、保存及び復元の動作を実行してもよい（たとえば、ここで、第２のスレッドをグラフィックス処理エンジンによって実行できるように、第１のスレッドが保存され、第２のスレッドが記憶される）。たとえば、コンテキスト・スイッチ時に、コンテキスト管理回路１５４８は、現在のレジスタ値を（たとえば、コンテキスト・ポインタによって識別された）メモリの指定領域に記憶してもよい。次いで、コンテキストに戻るときに、コンテキスト管理回路１５４８がレジスタ値を復元してもよい。一実施例では、割込み管理回路１５４７は、システム・デバイスから受け取った割込みを受け取り、処理する。

一実装形態では、グラフィックス処理エンジン１５３１からの仮想／実効アドレスは、ＭＭＵ１５３９によってシステム・メモリ１５１４の実／物理アドレスにトランスレートされる。アクセラレータ統合回路１５３６の一実施例は、複数（たとえば、４個、８個、１６個）のグラフィックス・アクセラレータ・モジュール１５４６、及び／又は他のアクセラレータ・デバイスをサポートする。グラフィックス・アクセラレータ・モジュール１５４６は、プロセッサ１５０７上で実行される単一のアプリケーション専用のものであってもよく、又は複数のアプリケーション間で共有されてもよい。一実施例では、グラフィックス処理エンジン１５３１～１５３２、Ｎのリソースが複数のアプリケーション又は仮想機械（ＶＭ）と共有される仮想化グラフィックス実行環境が存在する。少なくとも一実施例では、リソースは、「スライス」に細分化されてもよく、このスライスが、処理要件、並びにＶＭ及び／又はアプリケーションに関連付けられた優先度に基づき、異なるＶＭ及び／又はアプリケーションに割り振られる。

少なくとも一実施例では、アクセラレータ統合回路１５３６は、グラフィックス加速モジュール１５４６のためのシステムへのブリッジとして機能し、アドレス・トランスレーション及びシステム・メモリのキャッシュ・サービスを提供する。さらに、アクセラレータ統合回路１５３６は、グラフィックス処理エンジン１５３１～１５３２、Ｎの仮想化、割込み、及びメモリ管理をホスト・プロセッサが管理するための仮想化設備を提供してもよい。

グラフィックス処理エンジン１５３１～１５３２、Ｎのハードウェア・リソースは、ホスト・プロセッサ１５０７が見る実アドレス空間に明示的にマッピングされるので、いかなるホスト・プロセッサも、実効アドレス値を使用して、これらのリソースに直接アドレス指定することができる。一実施例では、アクセラレータ統合回路１５３６の１つの機能は、グラフィックス処理エンジン１５３１～１５３２、Ｎを、システムにとって独立したユニットに見えるように物理的に分離することである。

少なくとも一実施例では、１つ又は複数のグラフィックス・メモリ１５３３～１５３４、Ｍはそれぞれ、グラフィックス処理エンジン１５３１～１５３２、Ｎのそれぞれに結合される。グラフィックス・メモリ１５３３～１５３４、Ｍは、それぞれのグラフィックス処理エンジン１５３１～１５３２、Ｎによって処理される命令及びデータを記憶する。グラフィックス・メモリ１５３３～１５３４、Ｍは、（積層ＤＲＡＭを含む）ＤＲＡＭ、ＧＤＤＲメモリ、（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又はＨＢＭなどの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

一実施例では、リンク１５４０を介したデータ・トラフィックを低減するために、グラフィックス・メモリ１５３３～１５３４、Ｍに記憶されるデータが、グラフィックス処理エンジン１５３１～１５３２、Ｎによって最も頻繁に使用されることになるデータであるようにし、好ましくはコア１５６０Ａ～１５６０Ｄによっては使用されない（少なくとも頻繁には使用されない）データであるようにするためのバイアス技法が使用される。同様に、バイアス機構は、コアが必要とする（したがって、好ましくはグラフィックス処理エンジン１５３１～１５３２、Ｎは必要としない）データを、コアのキャッシュ１５６２Ａ～１５６２Ｄ、１５５６、及びシステム・メモリ１５１４の中に保つよう試みる。

図１５Ｃは、アクセラレータ統合回路１５３６がプロセッサ１５０７内に一体化されている別の例示的な実施例を示す。少なくともこの実施例では、グラフィックス処理エンジン１５３１～１５３２、Ｎは、インターフェース１５３７及びインターフェース１５３５により、高速リンク１５４０を介して直接アクセラレータ統合回路１５３６と通信する（この場合も任意の形のバス又はインターフェース・プロトコルを利用することができる）。アクセラレータ統合回路１５３６は、図１５Ｂに関して説明したのと同じ動作を実行してもよいが、コヒーレンス・バス１５６４及びキャッシュ１５６２Ａ～１５６２Ｄ、１５５６に近接していることを考えると、潜在的には、より高いスループットで動作してもよい。少なくとも一実施例は、（グラフィックス加速モジュールの仮想化のない）専用のプロセス・プログラミング・モデルと、（仮想化のある）共有プログラミング・モデルとを含む異なるプログラミング・モデルをサポートし、これらは、アクセラレータ統合回路１５３６によって制御されるプログラミング・モデルと、グラフィックス加速モジュール１５４６によって制御されるプログラミング・モデルとを含んでもよい。

少なくとも一実施例では、グラフィックス処理エンジン１５３１～１５３２、Ｎは、単一のオペレーティング・システムの下で単一のアプリケーション又はプロセスに専用のものである。少なくとも一実施例では、単一のアプリケーションは、他のアプリケーション要求をグラフィックス処理エンジン１５３１～１５３２、Ｎに集中させて、ＶＭ／パーティション内で仮想化を実現することができる。

少なくとも一実施例では、グラフィックス処理エンジン１５３１～１５３２、Ｎは、複数のＶＭ／アプリケーション・パーティションによって共有されてもよい。少なくとも一実施例では、共有モデルはシステム・ハイパーバイザを使用して、グラフィックス処理エンジン１５３１～１５３２、Ｎを仮想化して、各オペレーティング・システムによるアクセスを可能にしてもよい。ハイパーバイザのない単一パーティションのシステムでは、グラフィックス処理エンジン１５３１～１５３２、Ｎは、オペレーティング・システムによって所有される。少なくとも一実施例では、オペレーティング・システムは、グラフィックス処理エンジン１５３１～１５３２、Ｎを仮想化して、各プロセス又はアプリケーションへのアクセスを提供することができる。

少なくとも一実施例では、グラフィックス加速モジュール１５４６又は個々のグラフィックス処理エンジン１５３１～１５３２、Ｎは、プロセス・ハンドルを使用して、プロセス要素を選択する。少なくとも一実施例では、プロセス要素は、システム・メモリ１５１４に記憶されており、本明細書に記載の実効アドレスから実アドレスへのトランスレーション技法を使用してアドレス指定可能である。少なくとも一実施例では、プロセス・ハンドルは、ホスト・プロセスのコンテキストをグラフィックス処理エンジン１５３１～１５３２、Ｎに登録する（すなわち、プロセス要素リンク・リストにプロセス要素を追加するためのシステム・ソフトウェアをコールする）ときに、ホスト・プロセスに提供される実装固有の値であってもよい。少なくとも一実施例では、プロセス・ハンドルの下位１６ビットは、プロセス要素リンク・リスト内のプロセス要素のオフセットであってもよい。

図１５Ｄは、例示的なアクセラレータ統合スライス１５９０を示す。本明細書で使用するとき、「スライス」は、アクセラレータ統合回路１５３６の処理リソースの指定部分を備える。システム・メモリ１５１４内のアプリケーション実効アドレス空間１５８２は、プロセス要素１５８３を記憶する。一実施例では、プロセス要素１５８３は、プロセッサ１５０７上で実行されているアプリケーション１５８０からのＧＰＵ呼出し１５８１に応答して、記憶される。プロセス要素１５８３は、対応するアプリケーション１５８０のプロセス状態を収容する。プロセス要素１５８３に収容されたワーク記述子（ＷＤ）１５８４は、アプリケーションによって要求される単一のジョブとすることができ、又はジョブのキューに対するポインタを収容してもよい。少なくとも一実施例では、ＷＤ１５８４は、アプリケーションのアドレス空間１５８２におけるジョブ要求キューに対するポインタである。

グラフィックス加速モジュール１５４６及び／又は個々のグラフィックス処理エンジン１５３１～１５３２、Ｎは、システム内のプロセスのすべて又はサブセットによって共有されることが可能である。少なくとも一実施例では、プロセス状態を設定し、ＷＤ１５８４をグラフィックス加速モジュール１５４６に送信して、仮想化環境においてジョブを開始するためのインフラストラクチャが、含められてもよい。

少なくとも一実施例では、専用のプロセス・プログラミング・モデルは、実装固有である。このモデルでは、単一のプロセスが、グラフィックス加速モジュール１５４６又は個々のグラフィックス処理エンジン１５３１を所有する。グラフィックス加速モジュール１５４６が単一のプロセスによって所有されることから、グラフィックス加速モジュール１５４６が割り当てられたときに、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路１５３６を初期化し、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路１５３６を初期化する。

動作時、アクセラレータ統合スライス１５９０内のＷＤフェッチ・ユニット１５９１は、グラフィックス加速モジュール１５４６の１つ又は複数のグラフィックス処理エンジンによって行われることになるワークの表示を含む次のＷＤ１５８４をフェッチする。図示してあるように、ＷＤ１５８４からのデータは、レジスタ１５４５に記憶され、ＭＭＵ１５３９、割込み管理回路１５４７、及び／又はコンテキスト管理回路１５４８によって使用されてもよい。たとえば、ＭＭＵ１５３９の一実施例は、ＯＳ仮想アドレス空間１５８５内のセグメント／ページ・テーブル１５８６にアクセスするためのセグメント／ページ・ウォーク回路を含む。割込み管理回路１５４７は、グラフィックス加速モジュール１５４６から受け取った割込みイベント１５９２を処理してもよい。グラフィックス動作を実行するとき、グラフィックス処理エンジン１５３１～１５３２、Ｎによって生成された実効アドレス１５９３は、ＭＭＵ１５３９によって実アドレスにトランスレートされる。

一実施例では、レジスタ１５４５の同じセットが、各グラフィックス処理エンジン１５３１～１５３２、Ｎ、及び／又はグラフィックス加速モジュール１５４６について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化されてもよい。これらの複製されたレジスタのそれぞれは、アクセラレータ統合スライス１５９０に含まれてもよい。ハイパーバイザによって初期化されてもよい例示的なレジスタを、表１に示す。

オペレーティング・システムによって初期化されてもよい例示的なレジスタを、表２に示す。

一実施例では、各ＷＤ１５８４は、特定のグラフィックス加速モジュール１５４６及び／又はグラフィックス処理エンジン１５３１～１５３２、Ｎに固有のものである。ＷＤ１５８４は、グラフィックス処理エンジン１５３１～１５３２、Ｎがワークを行うために必要とするすべての情報を収容し、又は完了すべきワークのコマンド・キューをアプリケーションがセットアップした場所であるメモリ・ロケーションを指すポインタとすることができる。

図１５Ｅは、共有モデルの例示的な一実施例のさらなる詳細事項を示す。この実施例は、プロセス要素リスト１５９９が記憶されているハイパーバイザ実アドレス空間１５９８を含む。ハイパーバイザ実アドレス空間１５９８は、オペレーティング・システム１５９５のグラフィックス加速モジュール・エンジンを仮想化するハイパーバイザ１５９６を介してアクセス可能である。

少なくとも一実施例では、共有プログラミング・モデルは、システム内のすべて又はサブセットのパーティションからのすべて又はサブセットのプロセスが、グラフィックス加速モジュール１５４６を使用できるようにする。グラフィックス加速モジュール１５４６が複数のプロセス及びパーティションによって共有されるプログラミング・モデルが、２つ存在する：時間スライス共有及びグラフィックス指定共有（ｇｒａｐｈｉｃｓ－ｄｉｒｅｃｔｅｄｓｈａｒｅｄ）である。

このモデルでは、システム・ハイパーバイザ１５９６がグラフィックス加速モジュール１５４６を所有しており、その機能をすべてのオペレーティング・システム１５９５にとって利用可能にする。システム・ハイパーバイザ１５９６による仮想化をグラフィックス加速モジュール１５４６がサポートするために、グラフィックス加速モジュール１５４６は、以下のことに準拠してもよい：１）アプリケーションのジョブ要求は自律でなくてはならず（すなわち、ジョブ間で状態を維持する必要はなく）、又はグラフィックス加速モジュール１５４６が、コンテキストの保存及び復元の機構を提供しなくてはならない。２）アプリケーションのジョブ要求は、あらゆるトランスレーション誤りも含めて指定された時間量で完了するようグラフィックス加速モジュール１５４６によって保証され、又はグラフィックス加速モジュール１５４６が、ジョブの処理をプリエンプションする機能を提供する。３）グラフィックス加速モジュール１５４６は、指定の共有プログラミング・モデルで動作しているとき、プロセス間で公平性が保証されなくてはならない。

少なくとも一実施例では、アプリケーション１５８０は、グラフィックス加速モジュール１５４６のタイプ、ワーク記述子（ＷＤ）、権限マスク・レジスタ（ＡＭＲ）値、及びコンテキスト保存／復元エリア・ポインタ（ＣＳＲＰ）を伴って、オペレーティング・システム１５９５のシステム・コールを行う必要がある。少なくとも一実施例では、グラフィックス加速モジュール１５４６のタイプは、システム・コールで目的とする加速機能を記述している。少なくとも一実施例では、グラフィックス加速モジュール１５４６のタイプは、システム固有値であってもよい。少なくとも一実施例では、ＷＤは、グラフィックス加速モジュール１５４６のために特にフォーマット化されており、グラフィックス加速モジュール１５４６のコマンド、ユーザ定義の構造を指す実効アドレス・ポインタ、コマンドのキューを指す実効アドレス・ポインタ、又はグラフィックス加速モジュール１５４６によって行われるワークを記述するための任意の他のデータ構造の形とすることができる。一実施例では、ＡＭＲ値は、現在のプロセスに使用するためのＡＭＲ状態である。少なくとも一実施例では、オペレーティング・システムに渡される値は、ＡＭＲをセッティングするアプリケーションと同様である。アクセラレータ統合回路１５３６及びグラフィックス加速モジュール１５４６の実装形態が、ユーザ権限マスク・オーバーライド・レジスタ（ＵＡＭＯＲ）をサポートしていない場合、オペレーティング・システムは、ＡＭＲ値に現在のＵＡＭＯＲ値を適用してから、ハイパーバイザ・コールにＡＭＲを渡してもよい。ハイパーバイザ１５９６は、任意選択で、現在の権限マスク・オーバーライド・レジスタ（ＡＭＯＲ）値を適用してから、ＡＭＲをプロセス要素１５８３に入れてもよい。少なくとも一実施例では、ＣＳＲＰは、グラフィックス加速モジュール１５４６がコンテキスト状態を保存及び復元するためのアプリケーションの実効アドレス空間１５８２内のエリアの実効アドレスを収容するレジスタ１５４５のうちの１つである。ジョブ間で、又はジョブがプリエンプションされるときに、いかなる状態も保存する必要のない場合は、このポインタは任意選択である。少なくとも一実施例では、コンテキスト保存／復元エリアは、ピン留めされたシステム・メモリであってもよい。

システム・コールを受け取ると、オペレーティング・システム１５９５は、アプリケーション１５８０が登録済みであり、グラフィックス加速モジュール１５４６を使用する権限が与えられていることを検証してもよい。次いで、オペレーティング・システム１５９５は、表３に示す情報を伴ってハイパーバイザ１５９６にコールする。

ハイパーバイザ・コールを受け取ると、ハイパーバイザ１５９６は、オペレーティング・システム１５９５が登録済みであり、グラフィックス加速モジュール１５４６を使用する権限が与えられていることを検証する。次いでハイパーバイザ１５９６は、プロセス要素１５８３を、対応するグラフィックス加速モジュール１５４６のタイプのプロセス要素リンク・リストに入れる。プロセス要素は、表４に示す情報を含んでもよい。

少なくとも一実施例では、ハイパーバイザは、複数のアクセラレータ統合スライス１５９０のレジスタ１５４５を初期化する。

図１５Ｆに示すように、少なくとも一実施例では、物理プロセッサ・メモリ１５０１～１５０２及びＧＰＵメモリ１５２０～１５２３にアクセスするために使用される共通の仮想メモリ・アドレス空間を介してアドレス指定可能である統合メモリが使用される。この実装形態では、ＧＰＵ１５１０～１５１３で実行される動作は、プロセッサ・メモリ１５０１～１５０２にアクセスするのと同じ仮想／実効メモリ・アドレス空間を利用し、且つその逆も同様であり、それによりプログラマビリティが簡単になる。一実施例では、仮想／実効アドレス空間の第１の部分はプロセッサ・メモリ１５０１に割り振られ、第２の部分は第２のプロセッサ・メモリ１５０２に割り振られ、第３の部分はＧＰＵメモリ１５２０に割り振られるというように続く。少なくとも一実施例では、仮想／実効メモリ空間全体（実効アドレス空間と呼ばれることもある）は、これによりプロセッサ・メモリ１５０１～１５０２及びＧＰＵメモリ１５２０～１５２３のそれぞれにわたって分配されて、仮想アドレスが物理メモリにマッピングされた状態で、いずれかのプロセッサ又はＧＰＵが、いずれかの物理メモリにアクセスできるようになる。

一実施例では、ＭＭＵ１５３９Ａ～１５３９Ｅのうちの１つ又は複数の中のバイアス／コヒーレンス管理回路１５９４Ａ～１５９４Ｅは、１つ又は複数のホスト・プロセッサ（たとえば、１５０５）のキャッシュとＧＰＵ１５１０～１５１３のキャッシュとの間でキャッシュ・コヒーレンスを確保し、バイアス技法を実装して、ある特定のタイプのデータが記憶されるべき物理メモリを示す。バイアス／コヒーレンス管理回路１５９４Ａ～１５９４Ｅの複数のインスタンスが図１５Ｆに示されるが、バイアス／コヒーレンス回路は、１つ又は複数のホスト・プロセッサ１５０５のＭＭＵ内に実装されてもよく、且つ／又はアクセラレータ統合回路１５３６内に実装されてもよい。

一実施例は、ＧＰＵ付きメモリ１５２０～１５２３をシステム・メモリの一部としてマッピングできるようにし、共有仮想メモリ（ＳＶＭ）技法を使用してアクセス可能にすることができるが、完全なシステム・キャッシュ・コヒーレンスに関連する性能の低下が生じることはない。少なくとも一実施例では、ＧＰＵ付きメモリ１５２０～１５２３が、面倒なキャッシュ・コヒーレンス・オーバーヘッドなく、システム・メモリとしてアクセス可能であることにより、ＧＰＵオフロードのための有益な動作環境が提供される。この構成によって、従来のＩ／ＯＤＭＡデータ・コピーのオーバーヘッドがなくても、ホスト・プロセッサ１５０５ソフトウェアがオペランドを設定し、計算結果にアクセスすることが可能になる。こうした従来のコピーは、ドライバ・コール、割込み、及びメモリ・マップドＩ／Ｏ（ＭＭＩＯ）アクセスを必要とし、これらはすべて、単純なメモリ・アクセスより非効率的である。少なくとも一実施例では、キャッシュ・コヒーレンス・オーバーヘッドなしでＧＰＵ付きメモリ１５２０～１５２３にアクセスできることが、オフロードされた計算の実行時間に不可欠であり得る。たとえば、かなりのストリーミング書込みメモリ・トラフィックがある場合には、キャッシュ・コヒーレンス・オーバーヘッドは、ＧＰＵ１５１０～１５１３が見る有効な書込み帯域幅を大幅に低減することある。少なくとも一実施例では、オペランド設定の効率、結果へのアクセスの効率、及びＧＰＵ計算の効率は、ＧＰＵオフロードの有効性を判定する際に役立つことがある。

少なくとも一実施例では、ＧＰＵバイアス及びホスト・プロセッサ・バイアスの選択は、バイアス・トラッカー・データ構造によって決められる。たとえばバイアス・テーブルが使用されてもよく、このテーブルは、ＧＰＵ付きメモリ・ページ当たり１ビット又は２ビットを含むページ粒度構造であってもよい（すなわち、メモリ・ページの粒度で制御されてもよい）。少なくとも一実施例では、バイアス・テーブルは、（たとえば、バイアス・テーブルの頻繁に使用された／最近使用されたエントリをキャッシュするための）バイアス・キャッシュがＧＰＵ１５１０～１５１３にある状態又はない状態で、１つ又は複数のＧＰＵ付きメモリ１５２０～１５２３の奪われたメモリ範囲（ｓｔｏｌｅｎｍｅｍｏｒｙｒａｎｇｅ）において実装されてもよい。或いは、バイアス・テーブル全体が、ＧＰＵ内に維持されてもよい。

少なくとも一実施例では、ＧＰＵ付きメモリ１５２０～１５２３への各アクセスに関連付けられたバイアス・テーブルのエントリが、ＧＰＵメモリへの実際のアクセスより先にアクセスされて、以下の動作を生じさせる。第１に、ＧＰＵバイアス内での自らのページを見いだすＧＰＵ１５１０～１５１３からのローカル要求が、対応するＧＰＵメモリ１５２０～１５２３に直接転送される。ホスト・バイアスにおいて自らのページを見いだすＧＰＵからのローカル要求は、（たとえば、上述した高速リンクを介して）プロセッサ１５０５に転送される。一実施例では、要求されたページをホスト・プロセッサ・バイアスにおいて見いだすプロセッサ１５０５からの要求は、通常のメモリ読取りと同様に要求を完了させる。或いは、ＧＰＵバイアス化ページに向けられた要求は、ＧＰＵ１５１０～１５１３に転送されてもよい。少なくとも一実施例では、次いでＧＰＵは、現在ページを使用していない場合、ホスト・プロセッサ・バイアスにページを移行してもよい。少なくとも一実施例では、ページのバイアス状態は、ソフトウェア・ベースの機構、ハードウェア支援型ソフトウェア・ベースの機構のいずれかによって、又は限られた事例のセットについては、単にハードウェア・ベースの機構によって、変更することができる。

バイアス状態を変更するための１つの機構は、ＡＰＩコール（たとえば、ＯｐｅｎＣＬ）を利用し、このＡＰＩコールが、ＧＰＵのデバイス・ドライバをコールし、このデバイス・ドライバが、ＧＰＵにメッセージを送って（又はコマンド記述子をキューに加えて）、バイアス状態を変更し、一部の移行については、ホストにおいてキャッシュ・フラッシング動作を実行するよう、ＧＰＵを導く。少なくとも一実施例では、キャッシュ・フラッシング動作は、ホスト・プロセッサ１５０５のバイアスからＧＰＵバイアスへの移行のために使用されるが、反対向きの移行には使用されない。

一実施例では、キャッシュ・コヒーレンスは、ホスト・プロセッサ１５０５によってキャッシュできないＧＰＵバイアス化ページを一時的にレンダリングすることによって、維持される。これらのページにアクセスするために、プロセッサ１５０５は、ＧＰＵ１５１０からのアクセスを要求してもよく、ＧＰＵ１５１０は、すぐにアクセスを許可してもよく、又は許可しなくてもよい。したがって、プロセッサ１５０５とＧＰＵ１５１０との間の通信を低減するために、ＧＰＵバイアス化ページが、ＧＰＵによって要求されるが、ホスト・プロセッサ１５０５によっては要求されないようにすること、又はその逆にすることが有益である。

推論及び／又は訓練論理９１５は、１つ又は複数の実施例を行うために使用される。推論及び／又は訓練論理９１５に関する詳細は、図９Ａ及び／又は９Ｂと合わせて以下に提供される。

図１６は、本明細書に記載した様々な実施例による、１つ又は複数のＩＰコアを使用して製造することができる例示的一体型回路及び関連するグラフィックス・プロセッサを示している。図示したものに加えて、他の論理及び回路を、追加のグラフィックス・プロセッサ／コア、周辺インターフェース・コントローラ、又は汎用プロセッサ・コアを含む、少なくとも一実施例に含めることができる。

図１６は、少なくとも一実施例による、１つ又は複数のＩＰコアを使用して製造することができるチップ一体型回路１６００上の例示的システムを示すブロック図である。少なくとも一実施例では、一体型回路１６００は、１つ又は複数のアプリケーション・プロセッサ１６０５（たとえば、ＣＰＵ）、少なくとも１つのグラフィックス・プロセッサ１６１０を含み、加えて、いずれかがモジュールＩＰコアである、画像プロセッサ１６１５及び／又はビデオ・プロセッサ１６２０を備えることができる。少なくとも一実施例では、一体型回路１６００は、ＵＳＢコントローラ１６２５、ＵＡＲＴコントローラ１６３０、ＳＰＩ／ＳＤＩＯコントローラ１６３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１６４０を含む周辺又はバス論理を含む。少なくとも一実施例では、一体型回路１６００は、ハイ・デフィニション・マルチメディア・インターフェース（ＨＤＭＩ）コントローラ１６５０及びモバイル・インダストリ・プロセッサ・インターフェース（ＭＩＰＩ）ディスプレイ・インターフェース１６５５の１つ又は複数に結合されたディスプレイ・デバイス１６４５を含むことができる。少なくとも一実施例では、ストレージは、フラッシュ・メモリ及びフラッシュ・メモリ・コントローラを含むフラッシュ・メモリ・サブシステム１６６０によって提供することができる。少なくとも一実施例では、メモリ・インターフェースは、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスへのアクセスのためにメモリ・コントローラ１６６５を介して提供することができる。少なくとも一実施例では、いくつかの一体型回路は加えて、埋め込み式セキュリティ・エンジン１６７０を含む。

推論及び／又は訓練論理９１５は、１つ又は複数の実施例に関連付けられた推論及び／又は訓練動作を行うために使用される。推論及び／又は訓練論理９１５に関する詳細は、図９Ａ及び／又は９Ｂと合わせて以下に提供する。少なくとも一実施例では、推論及び／又は訓練論理９１５は、ニューラル・ネットワーク訓練動作、ニューラル・ネットワーク関数、及び／又はアーキテクチャ、或いは本明細書に記載したニューラル・ネットワーク使用ケースを使用して算出された重みパラメータに少なくとも部分的に基づいて、動作を推論又は予測するための一体型回路１６００内で使用することができる。

図１７Ａ～１７Ｂは、本明細書に記載した様々な実施例による、１つ又は複数のＩＰコアを使用して製造することができる例示的一体型回路及び関連するグラフィックス・プロセッサを示している。図示してあるものに加えて、少なくとも一実施例では、追加のグラフィックス・プロセッサ／コア、周辺装置インターフェース・コントローラ、若しくは汎用プロセッサ・コアを含む他の論理及び回路が含まれてもよい。

図１７Ａ～図１７Ｂは、本明細書に記載の実施例によるＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。図１７Ａは、少なくとも一実施例による１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路の例示的なグラフィックス・プロセッサ１７１０を示す。図１７Ｂは、少なくとも一実施例による１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路のさらなる例示的なグラフィックス・プロセッサ１７４０を示す。少なくとも一実施例では、図１７Ａのグラフィックス・プロセッサ１７１０は、低電力グラフィックス・プロセッサ・コアである。少なくとも一実施例では、図１７Ｂのグラフィックス・プロセッサ１７４０は、高性能グラフィックス・プロセッサ・コアである。少なくとも一実施例では、グラフィックス・プロセッサ１７１０、１７４０のそれぞれは、図１６のグラフィックス・プロセッサ１６１０の変形形態とすることができる。

少なくとも一実施例では、グラフィックス・プロセッサ１７１０は、頂点プロセッサ１７０５と、１つ又は複数のフラグメント・プロセッサ１７１５Ａ～１７１５Ｎ（たとえば、１７１５Ａ、１７１５Ｂ、１７１５Ｃ、１７１５Ｄ～１７１５Ｎ－１、及び１７１５Ｎ）とを含む。少なくとも一実施例では、グラフィックス・プロセッサ１７１０は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ１７０５は、頂点シェーダ・プログラムのための動作を実行するように最適化され、一方、１つ又は複数のフラグメント・プロセッサ１７１５Ａ～１７１５Ｎは、フラグメント又はピクセルのシェーダ・プログラムのためのフラグメント（たとえば、ピクセル）シェーディング動作を実行する。少なくとも一実施例では、頂点プロセッサ１７０５は、３Ｄグラフィックス・パイプラインの頂点処理ステージを実行し、プリミティブ及び頂点データを生成する。少なくとも一実施例では、フラグメント・プロセッサ１７１５Ａ～１７１５Ｎは、頂点プロセッサ１７０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイスに表示されるフレーム・バッファを生成する。少なくとも一実施例では、フラグメント・プロセッサ１７１５Ａ～１７１５Ｎは、ＯｐｅｎＧＬのＡＰＩにおいて提供されるフラグメント・シェーダ・プログラムを実行するように最適化され、ＯｐｅｎＧＬのＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩにおいて提供されるピクセル・シェーダ・プログラムと同様の動作を実行するために使用されてもよい。

少なくとも一実施例では、グラフィックス・プロセッサ１７１０はさらに、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１７２０Ａ～１７２０Ｂ、キャッシュ１７２５Ａ～１７２５Ｂ、及び回路相互接続１７３０Ａ～１７３０Ｂを含む。少なくとも一実施例では、１つ又は複数のＭＭＵ１７２０Ａ～１７２０Ｂは、頂点プロセッサ１７０５及び／又はフラグメント・プロセッサ１７１５Ａ～１７１５Ｎを含め、グラフィックス・プロセッサ１７１０のための仮想から物理のアドレス・マッピングを提供し、それらは、１つ又は複数のキャッシュ１７２５Ａ～１７２５Ｂに記憶された頂点又は画像／テクスチャのデータに加えて、メモリに記憶された頂点又は画像／テキストのデータを参照してもよい。少なくとも一実施例では、１つ又は複数のＭＭＵ１７２０Ａ～１７２０Ｂは、図１６の１つ若しくは複数のアプリケーション・プロセッサ１６０５、画像プロセッサ１６１５、及び／又はビデオ・プロセッサ１６２０に関連付けられた１つ若しくは複数のＭＭＵを含む、システム内の他のＭＭＵと同期されてもよく、それにより各プロセッサ１６０５～１６２０は、共有の又は統合された仮想メモリ・システムに参加することができる。少なくとも一実施例では、１つ又は複数の回路相互接続１７３０Ａ～１７３０Ｂは、グラフィックス・プロセッサ１７１０が、ＳｏＣの内部バスを介して、又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェースをとることができるようにする。

少なくとも一実施例では、グラフィックス・プロセッサ１７４０は、図１７Ａのグラフィックス・プロセッサ１７１０の１つ又は複数のＭＭＵ１７２０Ａ～１７２０Ｂ、キャッシュ１７２５Ａ～１７２５Ｂ、及び回路相互接続１７３０Ａ～１７３０Ｂを含む。少なくとも一実施例では、グラフィックス・プロセッサ１７４０は、１つ又は複数のシェーダ・コア１７５５Ａ～１７５５Ｎ（たとえば、１７５５Ａ、１７５５Ｂ、１７５５Ｃ、１７５５Ｄ、１７５５Ｅ、１７５５Ｆ～１７５５Ｎ－１、及び１７５５Ｎ）を含み、このシェーダ・コアは、単一のコア、又はタイプ、又はコアが、頂点シェーダ、フラグメント・シェーダ、及び／又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含むすべてのタイプのプログラム可能なシェーダ・コードを実行することができる統合されたシェーダ・コア・アーキテクチャを提供する。少なくとも一実施例では、シェーダ・コアの数は変えることができる。少なくとも一実施例では、グラフィックス・プロセッサ１７４０は、１つ又は複数のシェーダ・コア１７５５Ａ～１７５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ１７４５と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンのレンダリング動作が画像空間において細分化される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット１７５８とを含む。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１７Ａ及び／又は１７Ｂにおいて使用されてもよい。

図１８Ａ～図１８Ｂは、本明細書に記載の実施例による、さらなる例示的なグラフィックス・プロセッサ論理を示す。図１８Ａは、グラフィックス・コア１８００を示し、このグラフィックス・コア１８００は、少なくとも一実施例では図１６のグラフィックス・プロセッサ１６１０に含められてもよく、少なくとも一実施例では図１７Ｂのように、統合されたシェーダ・コア１７５５Ａ～１７５５Ｎであってもよい。図１８Ｂは、少なくとも一実施例におけるマルチ・チップ・モジュールに導入するのに適した高並列の汎用グラフィックス・プロセッシング・ユニット１８３０を示す。

少なくとも一実施例では、グラフィックス・コア１８００は、共有命令キャッシュ１８０２、テクスチャ・ユニット１８１８、及びキャッシュ／共有メモリ１８２０を含み、これらは、グラフィックス・コア１８００内の実行リソースに共通である。少なくとも一実施例では、グラフィックス・コア１８００は、複数のスライス１８０１Ａ～１８０１Ｎ、又はコアごとのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア１８００の複数のインスタンスを含むことができる。スライス１８０１Ａ～１８０１Ｎは、ローカル命令キャッシュ１８０４Ａ～１８０４Ｎ、スレッド・スケジューラ１８０６Ａ～１８０６Ｎ、スレッド・ディスパッチャ１８０８Ａ～１８０８Ｎ、及びレジスタのセット１８１０Ａ～１８１０Ｎを含むサポート論理を含むことができる。少なくとも一実施例では、スライス１８０１Ａ～１８０１Ｎは、追加機能ユニット（ＡＦＵ１８１２Ａ～１８１２Ｎ）、浮動小数点ユニット（ＦＰＵ１８１４Ａ～１８１４Ｎ）、整数算術論理演算ユニット（ＡＬＵ１８１６～１８１６Ｎ）、アドレス計算ユニット（ＡＣＵ１８１３Ａ～１８１３Ｎ）、倍精度浮動小数点ユニット（ＤＰＦＰＵ１８１５Ａ～１８１５Ｎ）、及び行列処理ユニット（ＭＰＵ１８１７Ａ～１８１７Ｎ）のセットを含むことができる。

少なくとも一実施例では、ＦＰＵ１８１４Ａ～１８１４Ｎは、単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を実行することができ、ＤＰＦＰＵ１８１５Ａ～１８１５Ｎは、倍精度（６４ビット）の浮動小数点演算を実行する。少なくとも一実施例では、ＡＬＵ１８１６Ａ～１８１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度の整数演算を実行することができ、混合精度の演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１８１７Ａ～１８１７Ｎも、半精度浮動小数点及び８ビット整数演算を含む混合精度の行列演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１８１７Ａ～１８１７Ｎは、汎用行列－行列乗算（ＧＥＭＭ）の加速をサポートできるようにすることを含め、機械学習アプリケーション・フレームワークを加速するための様々な行列演算を実行することができる。少なくとも一実施例では、ＡＦＵ１８１２Ａ～１８１２Ｎは、三角関数演算（たとえば、サイン、コサインなど）を含む、浮動小数点ユニット又は整数ユニットにサポートされていない追加の論理演算を実行することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・コア１８００において使用されてもよい。

図１８Ｂは、汎用処理ユニット（ＧＰＧＰＵ）１８３０を示し、この処理ユニットは、少なくとも一実施例において、グラフィックス・プロセッシング・ユニットのアレイによる高並列の計算動作を実行可能にするように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１８３０は、ＧＰＧＰＵ１８３０の他のインスタンスに直接リンクされて、ディープ・ニューラル・ネットワークの訓練スピードを向上させるために複数のＧＰＵクラスタを生成することができる。少なくとも一実施例では、ＧＰＧＰＵ１８３０は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース１８３２を含む。少なくとも一実施例では、ホスト・インターフェース１８３２は、ＰＣＩエクスプレス・インターフェースである。少なくとも一実施例では、ホスト・インターフェース１８３２は、ベンダー固有の通信インターフェース又は通信ファブリックとすることができる。少なくとも一実施例では、ＧＰＧＰＵ１８３０は、ホスト・プロセッサからコマンドを受け取り、グローバル・スケジューラ１８３４を使用して、これらのコマンドに関連付けられた実行スレッドを、コンピュート・クラスタ１８３６Ａ～１８３６Ｈのセットに分配する。少なくとも一実施例では、コンピュート・クラスタ１８３６Ａ～１８３６Ｈは、キャッシュ・メモリ１８３８を共有する。少なくとも一実施例では、キャッシュ・メモリ１８３８は、コンピュート・クラスタ１８３６Ａ～１８３６Ｈ内のキャッシュ・メモリ用の高レベル・キャッシュとして作用することができる。

少なくとも一実施例では、ＧＰＧＰＵ１８３０は、メモリ・コントローラ１８４２Ａ～１８４２Ｂのセットを介して、コンピュート・クラスタ１８３６Ａ～１８３６Ｈに結合されたメモリ１８４４Ａ～１８４４Ｂを含む。少なくとも一実施例では、メモリ１８４４Ａ～１８４４Ｂは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ：ｇｒａｐｈｉｃｓｄｏｕｂｌｅｄａｔａｒａｔｅ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。

少なくとも一実施例では、コンピュート・クラスタ１８３６Ａ～１８３６Ｈはそれぞれ、図１８Ａのグラフィックス・コア１８００などのグラフィックス・コアのセットを含み、このグラフィックス・コアのセットは、機械学習計算に適したものを含め、様々な精度で計算動作を実行することができる複数のタイプの整数及び浮動小数点の論理ユニットを含むことができる。たとえば、少なくとも一実施例では、コンピュート・クラスタ１８３６Ａ～１８３６Ｈのそれぞれにおける浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実行するように構成されることが可能であり、一方、浮動小数点ユニットの別のサブセットは、６４ビットの浮動小数点演算を実行するように構成されることが可能である。

少なくとも一実施例では、ＧＰＧＰＵ１８３０の複数のインスタンスは、コンピュート・クラスタとして動作するように構成されることが可能である。少なくとも一実施例では、コンピュート・クラスタ１８３６Ａ～１８３６Ｈにより同期及びデータ交換のために使用される通信は、実施例にわたって異なる。少なくとも一実施例では、ＧＰＧＰＵ１８３０の複数のインスタンスは、ホスト・インターフェース１８３２を介して通信する。少なくとも一実施例では、ＧＰＧＰＵ１８３０は、Ｉ／Ｏハブ１８３９を含み、このハブは、ＧＰＧＰＵ１８３０の他のインスタンスへの直接接続を可能にするＧＰＵリンク１８４０に、ＧＰＧＰＵ１８３０を結合する。少なくとも一実施例では、ＧＰＵリンク１８４０は、ＧＰＧＰＵ１８３０の複数のインスタンス間での通信及び同期を可能にするＧＰＵからＧＰＵへの専用のブリッジに結合される。少なくとも一実施例では、ＧＰＵリンク１８４０は、他のＧＰＧＰＵ又は並列プロセッサにデータを送受信するための高速相互接続に結合される。少なくとも一実施例では、ＧＰＧＰＵ１８３０の複数のインスタンスは、別々のデータ処理システムに位置付けられ、ホスト・インターフェース１８３２を介してアクセス可能なネットワーク・デバイスを介して通信する。少なくとも一実施例では、ＧＰＵリンク１８４０は、ホスト・インターフェース１８３２に加えて、又はその代わりに、ホスト・プロセッサへの接続を可能にするように構成することができる。

少なくとも一実施例では、ＧＰＧＰＵ１８３０は、ニューラル・ネットワークを訓練するように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１８３０は、推論プラットフォーム内で使用することができる。ＧＰＧＰＵ１８３０が推論のために使用される少なくとも一実施例では、ＧＰＧＰＵは、ＧＰＧＰＵがニューラル・ネットワークの訓練に使用されるときよりも少数のコンピュート・クラスタ１８３６Ａ～１８３６Ｈを含んでもよい。少なくとも一実施例では、メモリ１８４４Ａ～１８４４Ｂに関連するメモリ技術は、推論の構成と訓練の構成とで異なってもよく、高帯域幅のメモリ技術が、訓練構成に当てられる。少なくとも一実施例では、ＧＰＧＰＵ１８３０の推論構成は、推論固有の命令をサポートすることができる。たとえば、少なくとも一実施例では、推論構成は、１つ又は複数の８ビットの整数のドット積命令をサポートすることができ、これは、導入済みニューラル・ネットワークの推論動作中に使用されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにＧＰＧＰＵ１８３０において使用されてもよい。

図１９は、少なくとも一実施例によるコンピューティング・システム１９００を示すブロック図である。少なくとも一実施例では、コンピューティング・システム１９００は、メモリ・ハブ１９０５を含んでもよい相互接続経路を介して通信する１つ又は複数のプロセッサ１９０２とシステム・メモリ１９０４とを有する処理サブシステム１９０１を含む。少なくとも一実施例では、メモリ・ハブ１９０５は、チップセット構成要素内の別個の構成要素であってもよく、又は１つ若しくは複数のプロセッサ１９０２内に一体化されていてもよい。少なくとも一実施例では、メモリ・ハブ１９０５は、通信リンク１９０６を介してＩ／Ｏサブシステム１９１１に結合される。少なくとも一実施例では、Ｉ／Ｏサブシステム１９１１は、コンピューティング・システム１９００が１つ又は複数の入力デバイス１９０８からの入力を受け取れるようにすることができるＩ／Ｏハブ１９０７を含む。少なくとも一実施例では、Ｉ／Ｏハブ１９０７は、ディスプレイ・コントローラを有効にすることができ、このディスプレイ・コントローラは、１つ又は複数のプロセッサ１９０２に含まれて、１つ又は複数のディスプレイ・デバイス１９１０Ａに出力を提供してもよい。少なくとも一実施例では、Ｉ／Ｏハブ１９０７に結合された１つ又は複数のディスプレイ・デバイス１９１０Ａは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。

少なくとも一実施例では、処理サブシステム１９０１は、バス又は他の通信リンク１９１３を介してメモリ・ハブ１９０５に結合された１つ又は複数の並列プロセッサ１９１２を含む。少なくとも一実施例では、通信リンク１９１３は、ＰＣＩエクスプレスなどであるがこれに限定されない任意の数の規格に基づく通信リンク技術若しくはプロトコルのうちの１つであってもよく、又はベンダー固有の通信インターフェース若しくは通信ファブリックであってもよい。少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２は、メニー・インテグレーテッド・コア（ＭＩＣ：ｍａｎｙｉｎｔｅｇｒａｔｅｄｃｏｒｅ）プロセッサなど、多数の処理コア及び／又は処理クラスタを含むことのできる、計算に集中した並列又はベクトルの処理システムを形成する。少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２は、グラフィックス処理サブシステムを形成し、このサブシステムは、Ｉ／Ｏハブ１９０７を介して結合された１つ又は複数のディスプレイ・デバイス１９１０Ａのうちの１つに、ピクセルを出力することができる。少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２はまた、１つ又は複数のディスプレイ・デバイス１９１０Ｂへの直接接続を可能にするディスプレイ・コントローラ及びディスプレイ・インターフェース（図示せず）を含むことができる。

少なくとも一実施例では、システム・ストレージ・ユニット１９１４は、Ｉ／Ｏハブ１９０７に接続されて、コンピューティング・システム１９００のためのストレージ機構を提供することができる。少なくとも一実施例では、Ｉ／Ｏスイッチ１９１６を使用して、Ｉ／Ｏハブ１９０７と、プラットフォームに一体化されてもよいネットワーク・アダプタ１９１８及び／又はワイヤレス・ネットワーク・アダプタ１９１９などの他の構成要素、並びに１つ又は複数のアドイン・デバイス１９２０を介して加えることができる様々な他のデバイスとの通信を可能にするためのインターフェース機構を提供することができる。少なくとも一実施例では、ネットワーク・アダプタ１９１８は、イーサネット（登録商標）・アダプタ、又は別の有線ネットワーク・アダプタとすることができる。少なくとも一実施例では、ワイヤレス・ネットワーク・アダプタ１９１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、近距離無線通信（ＮＦＣ）、又は１つ若しくは複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの１つ又は複数を含むことができる。

少なくとも一実施例では、コンピューティング・システム１９００は、ＵＳＢ又は他のポート接続、光学ストレージ・ドライブ、ビデオ捕捉デバイスなどを含む明示されていない他の構成要素を含むことができ、これらもＩ／Ｏハブ１９０７に接続されてもよい。少なくとも一実施例では、図１９の様々な構成要素を相互接続する通信経路が、ＰＣＩ（ペリフェラル・コンポーネント・インターコネクト）ベースのプロトコル（たとえば、ＰＣＩ－エクスプレス）などの任意の好適なプロトコル、又はＮＶ－Ｌｉｎｋ高速相互接続などの他のバス若しくはポイントツーポイント通信インターフェース、又は他の相互接続プロトコルを使用して、実装されてもよい。

少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２は、たとえばビデオ出力回路を含むグラフィックス及びビデオの処理に最適化された回路を組み込んでおり、グラフィックス・プロセッシング・ユニット（ＧＰＵ）を構成する。少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２は、汎用処理に最適化された回路を組み込んでいる。少なくとも一実施例では、コンピューティング・システム１９００の構成要素は、単一の集積回路上の１つ又は複数の他のシステム要素と一体化されてもよい。たとえば、少なくとも一実施例では、１つ又は複数の並列プロセッサ１９１２、メモリ・ハブ１９０５、プロセッサ１９０２、及びＩ／Ｏハブ１９０７を、システム・オン・チップ（ＳｏＣ）集積回路に一体化することができる。少なくとも一実施例では、コンピューティング・システム１９００の構成要素は、単一のパッケージに一体化されて、システム・イン・パッケージ（ＳＩＰ：ｓｙｓｔｅｍｉｎｐａｃｋａｇｅ）構成を形成することができる。少なくとも一実施例では、コンピューティング・システム１９００の構成要素の少なくとも一部分を、マルチ・チップ・モジュール（ＭＣＭ：ｍｕｌｔｉ－ｃｈｉｐｍｏｄｕｌｅ）に一体化することができ、このモジュールを、他のマルチ・チップ・モジュールと相互接続して、モジュール式コンピューティング・システムにすることができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１９００のシステムにおいて使用されてもよい。

プロセッサ
図２０Ａは、少なくとも一実施例による並列プロセッサ２０００を示す。少なくとも一実施例では、並列プロセッサ２０００の様々な構成要素は、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などの１つ又は複数の集積回路デバイスを使用して実装されてもよい。少なくとも一実施例では、図示してある並列プロセッサ２０００は、例示的な実施例による図１９に示す１つ又は複数の並列プロセッサ１９１２の変形形態である。

少なくとも一実施例では、並列プロセッサ２０００は並列処理ユニット２００２を含む。少なくとも一実施例では、並列処理ユニット２００２は、並列処理ユニット２００２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２００４を含む。少なくとも一実施例では、Ｉ／Ｏユニット２００４は、他のデバイスに直接接続されてもよい。少なくとも一実施例では、Ｉ／Ｏユニット２００４は、メモリ・ハブ１９０５などのハブ又はスイッチ・インターフェースの使用を介して、他のデバイスと接続される。少なくとも一実施例では、メモリ・ハブ１９０５とＩ／Ｏユニット２００４との間の接続は、通信リンク１９１３を形成する。少なくとも一実施例では、Ｉ／Ｏユニット２００４は、ホスト・インターフェース２００６及びメモリ・クロスバー２０１６に接続され、ここでホスト・インターフェース２００６は、処理動作の実行を対象とするコマンドを受け取り、メモリ・クロスバー２０１６は、メモリ動作の実行を対象とするコマンドを受け取る。

少なくとも一実施例では、ホスト・インターフェース２００６が、Ｉ／Ｏユニット２００４を介してコマンド・バッファを受け取るとき、ホスト・インターフェース２００６は、これらのコマンドを実行するためのワーク動作をフロント・エンド２００８に向けることができる。少なくとも一実施例では、フロント・エンド２００８はスケジューラ２０１０に結合され、このスケジューラは、コマンド又は他のワーク・アイテムを処理クラスタ・アレイ２０１２に分配するように構成される。少なくとも一実施例では、スケジューラ２０１０は、処理クラスタ・アレイ２０１２にタスクが分配される前に、処理クラスタ・アレイ２０１２が適切に構成され、有効な状態にあることを確実にする。少なくとも一実施例では、スケジューラ２０１０は、マイクロコントローラで実行しているファームウェア論理を介して実装される。少なくとも一実施例では、マイクロコントローラ実装スケジューラ２０１０は、複雑なスケジューリング及びワーク分配動作を、粗い粒度と細かい粒度で実行するように構成可能であり、処理アレイ２０１２で実行しているスレッドの迅速なプリエンプション及びコンテキストのスイッチングを可能にする。少なくとも一実施例では、ホスト・ソフトウェアは、処理アレイ２０１２でのスケジューリングのワークロードを、複数のグラフィックス処理のドアベルのうちの１つを介して証明することができる。少なくとも一実施例では、次いで、スケジューラ２０１０を含むマイクロコントローラ内のスケジューラ２０１０論理によって、ワークロードを自動的に処理アレイ２０１２全体に分配することができる。

少なくとも一実施例では、処理クラスタ・アレイ２０１２は、最大「Ｎ個」の処理クラスタ（たとえば、クラスタ２０１４Ａ、クラスタ２０１４Ｂ～クラスタ２０１４Ｎ）を含むことができる。少なくとも一実施例では、処理クラスタ・アレイ２０１２の各クラスタ２０１４Ａ～２０１４Ｎは、大量の同時スレッドを実行することができる。少なくとも一実施例では、スケジューラ２０１０は、様々なスケジューリング及び／又はワーク分配のアルゴリズムを使用して、処理クラスタ・アレイ２０１２のクラスタ２０１４Ａ～２０１４Ｎにワークを配分することができ、これらのアルゴリズムは、プログラム又は計算のタイプごとに生じるワークロードに応じて、異なってもよい。少なくとも一実施例では、スケジューリングは、スケジューラ２０１０によって動的に対処されてもよく、又は処理クラスタ・アレイ２０１２によって実行されるように構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援されてもよい。少なくとも一実施例では、処理クラスタ・アレイ２０１２の異なるクラスタ２０１４Ａ～２０１４Ｎは、異なるタイプのプログラムを処理するように、又は異なるタイプの計算を実行するように配分されることが可能である。

少なくとも一実施例では、処理クラスタ・アレイ２０１２は、様々なタイプの並列処理動作を実行するように構成されることが可能である。少なくとも一実施例では、処理クラスタ・アレイ２０１２は、汎用の並列コンピュート動作を実行するように構成される。たとえば、少なくとも一実施例では、処理クラスタ・アレイ２０１２は、ビデオ及び／又はオーディオ・データのフィルタリング、物理動作を含むモデリング動作の実行、及びデータ変換の実行を含む処理タスクを実行するための論理を含むことができる。

少なくとも一実施例では、処理クラスタ・アレイ２０１２は、並列グラフィックス処理動作を実行するように構成される。少なくとも一実施例では、処理クラスタ・アレイ２０１２は、テクスチャ動作を実行するためのテクスチャ・サンプリング論理、並びにモザイク論理、及び他の頂点処理論理を含むがこれらに限定されないこうしたグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも一実施例では、処理クラスタ・アレイ２０１２は、頂点シェーダ、モザイク・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなどであるが、これらに限定されないグラフィックス処理関連のシェーダ・プログラムを実行するように構成されることが可能である。少なくとも一実施例では、並列処理ユニット２００２は、処理できるようにデータをシステム・メモリからＩ／Ｏユニット２００４を介して転送することができる。少なくとも一実施例では、処理中、転送されたデータを、処理中にオン・チップ・メモリ（たとえば、並列プロセッサ・メモリ２０２２）に記憶し、次いでシステム・メモリに書き戻すことができる。

少なくとも一実施例では、並列処理ユニット２００２を使用してグラフィックス処理が実行される場合には、処理クラスタ・アレイ２０１２の複数のクラスタ２０１４Ａ～２０１４Ｎにグラフィックス処理動作をよりうまく分配できるようにするため、処理ワークロードをおおよそ等しい大きさのタスクに分割するようにスケジューラ２０１０を構成することができる。少なくとも一実施例では、処理クラスタ・アレイ２０１２の一部分は、異なるタイプの処理を実行するように構成されることが可能である。たとえば、少なくとも一実施例では、レンダリング画像を生成して表示するために、第１の部分は、頂点シェーディング及びトポロジ生成を実行するように構成されてもよく、第２の部分は、モザイク及びジオメトリのシェーディングを実行するように構成されてもよく、第３の部分は、ピクセル・シェーディング又は他の画面空間動作を実行するように構成されてもよい。少なくとも一実施例では、クラスタ２０１４Ａ～２０１４Ｎのうちの１つ又は複数によって生成される中間データをバッファに記憶して、さらなる処理ができるようにクラスタ２０１４Ａ～２０１４Ｎの間で中間データを送信できるようにしてもよい。

少なくとも一実施例では、処理クラスタ・アレイ２０１２は、実行される処理タスクをスケジューラ２０１０を介して受け取ることができ、スケジューラ２０１０は、処理タスクを定義するコマンドをフロント・エンド２００８から受け取る。少なくとも一実施例では、処理タスクは、処理されるデータのインデックス、たとえば、表面（パッチ）データ、プリミティブ・データ、頂点データ、及び／又はピクセル・データ、並びに状態パラメータ、及びデータをどのように処理すべきかを定義するコマンド（たとえば、どのプログラムを実行すべきか）を含むことができる。少なくとも一実施例では、スケジューラ２０１０は、タスクに対応するインデックスをフェッチするように構成されてもよく、又はフロント・エンド２００８からインデックスを受け取ってもよい。少なくとも一実施例では、フロント・エンド２００８は、入ってくるコマンド・バッファ（たとえば、バッチ・バッファ、プッシュ・バッファなど）によって指定されるワークロードが開始される前に、処理クラスタ・アレイ２０１２が有効な状態に構成されていることを保証するように構成されることが可能である。

少なくとも一実施例では、並列処理ユニット２００２の１つ又は複数のインスタンスのそれぞれは、並列プロセッサ・メモリ２０２２と結合することができる。少なくとも一実施例では、並列プロセッサ・メモリ２０２２には、メモリ・クロスバー２０１６を介してアクセスすることができ、メモリ・クロスバー２０１６は、処理クラスタ・アレイ２０１２並びにＩ／Ｏユニット２００４からメモリ要求を受け取ることができる。少なくとも一実施例では、メモリ・クロスバー２０１６は、メモリ・インターフェース２０１８を介して並列プロセッサ・メモリ２０２２にアクセスすることができる。少なくとも一実施例では、メモリ・インターフェース２０１８は、複数のパーティション・ユニット（たとえば、パーティション・ユニット２０２０Ａ、パーティション・ユニット２０２０Ｂ～パーティション・ユニット２０２０Ｎ）を含むことができ、これらのユニットはそれぞれ、並列プロセッサ・メモリ２０２２の一部分（たとえば、メモリ・ユニット）に結合することができる。少なくとも一実施例では、パーティション・ユニット２０２０Ａ～２０２０Ｎの数は、メモリ・ユニットの数と等しくなるように構成され、それにより、第１のパーティション・ユニット２０２０Ａは、対応する第１のメモリ・ユニット２０２４Ａを有し、第２のパーティション・ユニット２０２０Ｂは、対応するメモリ・ユニット２０２４Ｂを有し、Ｎ番目のパーティション・ユニット２０２０Ｎは、対応するＮ番目のメモリ・ユニット２０２４Ｎを有する。少なくとも一実施例では、パーティション・ユニット２０２０Ａ～２０２０Ｎの数は、メモリ・デバイスの数に等しくなくてもよい。

少なくとも一実施例では、メモリ・ユニット２０２４Ａ～２０２４Ｎは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも一実施例では、またメモリ・ユニット２０２４Ａ～２０２４Ｎはまた、高帯域幅メモリ（ＨＢＭ）を含むがこれに限定されない３Ｄ積層メモリを含んでもよい。少なくとも一実施例では、並列プロセッサ・メモリ２０２２の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット２０２４Ａ～２０２４Ｎにわたって記憶されて、パーティション・ユニット２０２０Ａ～２０２０Ｎが、各レンダー・ターゲットの部分を並列に書き込みできるようにしてもよい。少なくとも一実施例では、システム・メモリとローカル・キャッシュ・メモリを併用する統合メモリ設計に有利なように、並列プロセッサ・メモリ２０２２のローカル・インスタンスは除外されてもよい。

少なくとも一実施例では、処理クラスタ・アレイ２０１２のクラスタ２０１４Ａ～２０１４Ｎのうちのいずれか１つは、並列プロセッサ・メモリ２０２２内のメモリ・ユニット２０２４Ａ～２０２４Ｎのいずれかに書き込まれることになるデータを処理することができる。少なくとも一実施例では、メモリ・クロスバー２０１６は、各クラスタ２０１４Ａ～２０１４Ｎの出力を、出力に対してさらなる処理動作を実行することができる任意のパーティション・ユニット２０２０Ａ～２０２０Ｎ、又は別のクラスタ２０１４Ａ～２０１４Ｎに転送するように構成されることが可能である。少なくとも一実施例では、各クラスタ２０１４Ａ～２０１４Ｎは、メモリ・クロスバー２０１６を通ってメモリ・インターフェース２０１８と通信して、様々な外部メモリ・デバイスからの読取り、又はそれへの書込みを行うことができる。少なくとも一実施例では、メモリ・クロスバー２０１６は、Ｉ／Ｏユニット２００４と通信するためのメモリ・インターフェース２０１８への接続部、並びに並列プロセッサ・メモリ２０２２のローカル・インスタンスへの接続部を有して、異なる処理クラスタ２０１４Ａ～２０１４Ｎ内の処理ユニットが、システム・メモリ、又は並列処理ユニット２００２のローカルにない他のメモリと通信できるようにする。少なくとも一実施例では、メモリ・クロスバー２０１６は、仮想チャネルを使用して、クラスタ２０１４Ａ～２０１４Ｎと、パーティション・ユニット２０２０Ａ～２０２０Ｎとの間でトラフィック・ストリームを分離することができる。

少なくとも一実施例では、並列処理ユニット２００２の複数のインスタンスは、単一のアドイン・カードに提供されてもよく、又は複数のアドイン・カードが相互接続されてもよい。少なくとも一実施例では、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び／又は他の異なる構成を有する場合でも、並列処理ユニット２００２の異なるインスタンスは相互動作するように構成されることが可能である。たとえば、少なくとも一実施例では、並列処理ユニット２００２のいくつかインスタンスは、他のインスタンスに比べて高い精度の浮動小数点ユニットを含むことができる。少なくとも一実施例では、並列処理ユニット２００２又は並列プロセッサ２０００のうちの１つ又は複数のインスタンスを組み込んだシステムは、デスクトップ、ラップトップ、若しくは携帯型のパーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び／又は組み込みシステムを含むが、これらに限定されない様々な構成及びフォーム・ファクタで実装することができる。

図２０Ｂは、少なくとも一実施例によるパーティション・ユニット２０２０のブロック図である。少なくとも一実施例では、パーティション・ユニット２０２０は、図２０Ａのパーティション・ユニット２０２０Ａ～２０２０Ｎのうちの１つのパーティション・ユニットのインスタンスである。少なくとも一実施例では、パーティション・ユニット２０２０は、Ｌ２キャッシュ２０２１、フレーム・バッファ・インターフェース２０２５、及びラスタ演算ユニット（「ＲＯＰ」：ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ）２０２６を含む。Ｌ２キャッシュ２０２１は、メモリ・クロスバー２０１６及びＲＯＰ２０２６から受け取ったロード及びストアの動作を実行するように構成された読取り／書込みキャッシュである。少なくとも一実施例では、読取りミス及び至急の書戻し要求が、処理されるようにＬ２キャッシュ２０２１によってフレーム・バッファ・インターフェース２０２５に出力される。少なくとも一実施例では、更新も、処理されるようにフレーム・バッファ・インターフェース２０２５を介してフレームに送られる。少なくとも一実施例では、フレーム・バッファ・インターフェース２０２５は、図２０の（たとえば並列プロセッサ・メモリ２０２２内の）メモリ・ユニット２０２４Ａ～２０２４Ｎなど、並列プロセッサ・メモリのメモリ・ユニットのうちの１つとインターフェースをとる。

少なくとも一実施例では、ＲＯＰ２０２６は、ステンシル、ｚテスト、ブレンディングなどのラスタ演算を実行する処理ユニットである。少なくとも一実施例では、次いでＲＯＰ２０２６は、グラフィックス・メモリに記憶された処理済みグラフィックス・データを出力する。少なくとも一実施例では、ＲＯＰ２０２６は、メモリに書き込まれる深度又は色データを圧縮し、メモリから読み取られた深度又は色データを解凍するための圧縮論理を含む。少なくとも一実施例では、圧縮論理は、複数の圧縮アルゴリズムのうちの１つ又は複数を利用するロスレス圧縮論理とすることができる。ＲＯＰ２０２６によって実行される圧縮論理は、圧縮されるデータの統計的特徴に基づき変更することができる。たとえば、少なくとも一実施例では、深度及び色データに対してはタイルごとにデルタ色圧縮が実行される。

少なくとも一実施例では、ＲＯＰ２０２６は、パーティション・ユニット２０２０内ではなく、各処理クラスタ内（たとえば、図２０のクラスタ２０１４Ａ～２０１４Ｎ）に含まれる。少なくとも一実施例では、ピクセル・フラグメント・データではなく、ピクセル・データの読取り及び書込み要求が、メモリ・クロスバー２０１６を介して送信される。少なくとも一実施例では、処理済みグラフィックス・データは、図１９の１つ又は複数のディスプレイ・デバイス１９１０のうちの１つなどのディスプレイ・デバイスに表示されてもよく、プロセッサ１９０２によってさらに処理できるようにルーティングされてもよく、又は図２０Ａの並列プロセッサ２０００内の処理エンティティのうちの１つによってさらに処理できるようにルーティングされてもよい。

図２０Ｃは、少なくとも一実施例による並列処理ユニット内の処理クラスタ２０１４のブロック図である。少なくとも一実施例では、処理クラスタは、図２０Ａの処理クラスタ２０１４Ａ～２０１４Ｎのうちの１つの処理クラスタのインスタンスである。少なくとも一実施例では、処理クラスタ２０１４のうちの１つ又は複数は、多数のスレッドを並列で実行するように構成されてもよく、ここで「スレッド」とは、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも一実施例では、複数の独立した命令ユニットを提供することなく、多数のスレッドの並列実行をサポートするために、単一命令複数データ（ＳＩＭＤ）の命令発行技法が使用される。少なくとも一実施例では、それぞれの処理クラスタ内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド（ＳＩＭＴ：ｓｉｎｇｌｅ－ｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅ－ｔｈｒｅａｄ）の技法が使用される。

少なくとも一実施例では、処理クラスタ２０１４の動作は、ＳＩＭＴ並列プロセッサに処理タスクを分配するパイプライン・マネージャ２０３２を介して制御することができる。少なくとも一実施例では、パイプライン・マネージャ２０３２は、図２０Ａのスケジューラ２０１０から命令を受け取り、グラフィックス・マルチプロセッサ２０３４及び／又はテクスチャ・ユニット２０３６を介してこれらの命令の実行を管理する。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかし、少なくとも一実施例では、アーキテクチャの異なる様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ２０１４内に含まれてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４の１つ又は複数のインスタンスは、処理クラスタ２０１４内に含めることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４はデータを処理することができ、処理済みデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの１つに分配するためにデータ・クロスバー２０４０が使用されてもよい。少なくとも一実施例では、パイプライン・マネージャ２０３２は、データ・クロスバー２０４０を通して分配されることになる処理済みデータの宛先を指定することによって、処理済みデータの分配を容易にすることができる。

少なくとも一実施例では、処理クラスタ２０１４内の各グラフィックス・マルチプロセッサ２０３４は、関数実行論理（たとえば、算術論理演算ユニット、ロード・ストア・ユニットなど）の同一のセットを含むことができる。少なくとも一実施例では、関数実行論理は、前の命令が完了する前に新規の命令を発行することができるパイプライン式に構成されることが可能である。少なくとも一実施例では、関数実行論理は、整数及び浮動小数点の算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の計算を含む様々な演算をサポートする。少なくとも一実施例では、同じ関数ユニットのハードウェアを活用して、異なる演算を実行することができ、関数ユニットの任意の組合せが存在してもよい。

少なくとも一実施例では、処理クラスタ２０１４に送信される命令がスレッドを構成する。少なくとも一実施例では、並列処理エンジンのセットにわたって実行されているスレッドのセットが、スレッド・グループである。少なくとも一実施例では、スレッド・グループは、異なる入力データに対してプログラムを実行する。少なくとも一実施例では、スレッド・グループ内の各スレッドを、グラフィックス・マルチプロセッサ２０３４内の異なる処理エンジンに割り当てることができる。少なくとも一実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ２０３４内の処理エンジンの数よりも少ないスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含む場合、１つ又は複数の処理エンジンは、そのスレッド・グループが処理されているサイクル中にはアイドルであってもよい。少なくとも一実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ２０３４内の処理エンジンの数よりも多いスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループがグラフィックス・マルチプロセッサ２０３４内の処理エンジンより多くのスレッドを含む場合には、連続したクロック・サイクルにわたって処理を実行することができる。少なくとも一実施例では、複数のスレッド・グループを、グラフィックス・マルチプロセッサ２０３４上で同時に実行することができる。

少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、ロード及びストアの動作を実行するための内部キャッシュ・メモリを含む。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、内部キャッシュをやめて、処理クラスタ２０１４内のキャッシュ・メモリ（たとえば、Ｌ１キャッシュ２０４８）を使用することができる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ２０３４は、パーティション・ユニット（たとえば、図２０Ａのパーティション・ユニット２０２０Ａ～２０２０Ｎ）内のＬ２キャッシュにもアクセスすることができ、これらのキャッシュが、すべての処理クラスタ２０１４間で共有され、スレッド間でデータを転送するために使用されてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、オフ・チップのグローバル・メモリにもアクセスすることができ、このメモリは、ローカル並列プロセッサ・メモリ及び／又はシステム・メモリのうちの１つ又は複数を含むことができる。少なくとも一実施例では、並列処理ユニット２００２の外部にある任意のメモリが、グローバル・メモリとして使用されてもよい。少なくとも一実施例では、処理クラスタ２０１４は、共通の命令及びデータを共有することができるグラフィックス・マルチプロセッサ２０３４の複数のインスタンスを含み、これらはＬ１キャッシュ２０４８に記憶されてもよい。

少なくとも一実施例では、各処理クラスタ２０１４は、仮想アドレスを物理アドレスにマッピングするように構成されたメモリ管理ユニット（「ＭＭＵ」）２０４５を含んでもよい。少なくとも一実施例では、ＭＭＵ２０４５の１つ又は複数のインスタンスは、図２０Ａのメモリ・インターフェース２０１８内にあってもよい。少なくとも一実施例では、ＭＭＵ２０４５は、仮想アドレスを、タイル及び任意選択でキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ（ＰＴＥ）のセットを含む。少なくとも一実施例では、ＭＭＵ２０４５は、アドレスのトランスレーション・ルックアサイド・バッファ（ＴＬＢ：ｔｒａｎｓｌａｔｉｏｎｌｏｏｋａｓｉｄｅｂｕｆｆｅｒ）又はキャッシュを含んでもよく、これらは、グラフィックス・マルチプロセッサ２０３４若しくはＬ１キャッシュ、又は処理クラスタ２０１４内にあってもよい。少なくとも一実施例では、表面データ・アクセスをローカルに分散するように物理アドレスを処理して、パーティション・ユニット間で要求の効率的なインターリーブが可能になる。少なくとも一実施例では、キャッシュ・ライン・インデックスを使用して、キャッシュ・ラインの要求がヒットかミスかが判定されてもよい。

少なくとも一実施例では、各グラフィックス・マルチプロセッサ２０３４がテクスチャ・ユニット２０３６に結合されて、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置の判定、テクスチャ・データの読取り、及びテクスチャ・データのフィルタリングが実行されるように、処理クラスタ２０１４が構成されてもよい。少なくとも一実施例では、テクスチャ・データは、内部テクスチャＬ１キャッシュ（図示せず）から、又はグラフィックス・マルチプロセッサ２０３４内のＬ１キャッシュから読み取られ、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ２０３４は、処理済みタスクをデータ・クロスバー２０４０に出力して、さらなる処理ができるように別の処理クラスタ２０１４に処理済みタスクを提供し、又はメモリ・クロスバー２０１６を介して、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに処理済みタスクを記憶する。少なくとも一実施例では、プレＲＯＰ２０４２（プレ・ラスタ演算ユニット）は、グラフィックス・マルチプロセッサ２０３４からデータを受け取り、ＲＯＰユニットにデータを仕向けるように構成されており、ＲＯＰユニットは、本明細書に記載のするように、パーティション・ユニット（たとえば、図２０Ａのパーティション・ユニット２０２０Ａ～２０２０Ｎ）内に位置付けられてもよい。少なくとも一実施例では、プレＲＯＰ２０４２ユニットは、色ブレンディングの最適化を実行し、ピクセル色データを組織化し、アドレス・トランスレーションを実行することができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス処理クラスタ２０１４において使用されてもよい。

図２０Ｄは、少なくとも一実施例によるグラフィックス・マルチプロセッサ２０３４を示す。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、処理クラスタ２０１４のパイプライン・マネージャ２０３２と結合する。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４は、命令キャッシュ２０５２、命令ユニット２０５４、アドレス・マッピング・ユニット２０５６、レジスタ・ファイル２０５８、１つ又は複数の汎用グラフィックス・プロセッシング・ユニット（ＧＰＧＰＵ）コア２０６２、及び１つ又は複数のロード／ストア・ユニット２０６６を含むがこれらに限定されない実行パイプラインを有する。ＧＰＧＰＵコア２０６２、及びロード／ストア・ユニット２０６６は、メモリ及びキャッシュ相互接続２０６８を介して、キャッシュ・メモリ２０７２及び共有メモリ２０７０に結合される。

少なくとも一実施例では、命令キャッシュ２０５２は、実行すべき命令のストリームをパイプライン・マネージャ２０３２から受け取る。少なくとも一実施例では、命令は、命令キャッシュ２０５２にキャッシュされ、命令ユニット２０５４により実行されるようにディスパッチされる。少なくとも一実施例では、命令ユニット２０５４は、命令をスレッド・グループ（たとえば、ワープ）としてディスパッチすることができ、各スレッド・グループは、ＧＰＧＰＵコア２０６２内の異なる実行ユニットに割り当てられる。少なくとも一実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも一実施例では、アドレス・マッピング・ユニット２０５６を使用して、統一アドレス空間のアドレスを、ロード／ストア・ユニット２０６６がアクセスできる個別メモリ・アドレスにトランスレーションすることができる。

少なくとも一実施例では、レジスタ・ファイル２０５８は、グラフィックス・マルチプロセッサ２０３４の機能ユニットにレジスタのセットを提供する。少なくとも一実施例では、レジスタ・ファイル２０５８は、グラフィックス・マルチプロセッサ２０３４の機能ユニット（たとえばＧＰＧＰＵコア２０６２、ロード／ストア・ユニット２０６６）のデータ経路に接続された、オペランドのための一時的なストレージを提供する。少なくとも一実施例では、レジスタ・ファイル２０５８は、レジスタ・ファイル２０５８の専用部分に各機能ユニットが配分されるように、それぞれの機能ユニット間で分割される。一実施例では、レジスタ・ファイル２０５８は、グラフィックス・マルチプロセッサ２０３４によって実行されている異なるワープ間で分割される。

少なくとも一実施例では、ＧＰＧＰＵコア２０６２はそれぞれ、グラフィックス・マルチプロセッサ２０３４の命令を実行するために使用される浮動小数点ユニット（ＦＰＵ）及び／又は整数算術論理演算ユニット（ＡＬＵ）を含むことができる。ＧＰＧＰＵコア２０６２同士は、同様のアーキテクチャであってもよく、又は異なるアーキテクチャであってもよい。少なくとも一実施例では、ＧＰＧＰＵコア２０６２の第１の部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコアの第２の部分は、倍精度ＦＰＵを含む。少なくとも一実施例では、ＦＰＵは、浮動小数点演算のためにＩＥＥＥ７５４－２００８規格を実装することができ、又は、可変精度の浮動小数点演算を有効にすることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ２０３４はさらに、矩形コピー又はピクセル・ブレンディングの動作などの特定の機能を実行するための、１つ若しくは複数の固定機能ユニット又は特別機能ユニットをさらに含むことができる。少なくとも一実施例では、ＧＰＧＰＵコアの１つ又は複数は、固定の又は特別な機能論理も含むことができる。

少なくとも一実施例では、ＧＰＧＰＵコア２０６２は、複数のデータ・セットに対して単一の命令を実行することができるＳＩＭＤ論理を含む。少なくとも一実施例では、ＧＰＧＰＵコア２０６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６の命令を物理的に実行することができ、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２の命令を論理的に実行することができる。少なくとも一実施例では、ＧＰＧＰＵコアのためのＳＩＭＤ命令は、シェーダ・コンパイラによるコンパイル時に生成されてもよく、又は単一プログラム複数データ（ＳＰＭＤ：ｓｉｎｇｌｅｐｒｏｇｒａｍｍｕｌｔｉｐｌｅｄａｔａ）又はＳＩＭＴのアーキテクチャ向けに書かれコンパイルされたプログラムを実行しているときに、自動的に生成されてもよい。少なくとも一実施例では、ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行することができる。たとえば、少なくとも一実施例では、同じ又は同様の動作を実行する８個のＳＩＭＴスレッドを、単一のＳＩＭＤ８の論理ユニットを介して並列に実行することができる。

少なくとも一実施例では、メモリ及びキャッシュ相互接続２０６８は、グラフィックス・マルチプロセッサ２０３４の各機能ユニットをレジスタ・ファイル２０５８及び共有メモリ２０７０に接続する相互接続ネットワークである。少なくとも一実施例では、メモリ及びキャッシュ相互接続２０６８は、ロード／ストア・ユニット２０６６が、共有メモリ２０７０とレジスタ・ファイル２０５８の間でロード及びストアの動作を実装できるようにするクロスバー相互接続である。少なくとも一実施例では、レジスタ・ファイル２０５８は、ＧＰＧＰＵコア２０６２と同じ周波数で動作することができ、したがって、ＧＰＧＰＵコア２０６２とレジスタ・ファイル２０５８の間のデータ転送は非常に低レイテンシである。少なくとも一実施例では、共有メモリ２０７０を使用して、グラフィックス・マルチプロセッサ２０３４内の機能ユニットで実行されるスレッド間の通信を可能にすることができる。少なくとも一実施例では、キャッシュ・メモリ２０７２を、たとえばデータ・キャッシュとして使用して、機能ユニットとテクスチャ・ユニット２０３６の間で通信されるテクスチャ・データをキャッシュすることができる。少なくとも一実施例では、共有メモリ２０７０は、プログラム管理キャッシュとしても使用することができる。少なくとも一実施例では、ＧＰＧＰＵコア２０６２で実行されているスレッドは、キャッシュ・メモリ２０７２内に記憶される自動キャッシュ・データに加えて、共有メモリ内にプログラム的にデータを記憶することができる。

少なくとも一実施例では、本明細書に記載の並列プロセッサ又はＧＰＧＰＵは、ホスト／プロセッサ・コアに通信可能に結合されて、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速する。少なくとも一実施例では、ＧＰＵは、バス又は他の相互接続（たとえば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）を介してホスト・プロセッサ／コアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵは、コアと同じパッケージ又はチップに一体化されてもよく、内部（すなわち、パッケージ又はチップの内部の）プロセッサ・バス／相互接続を介してコアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵの接続方法に関わらず、プロセッサ・コアは、ワーク記述子に含まれたコマンド／命令のシーケンスの形でワークをＧＰＵに配分してもよい。少なくとも一実施例では、次いでＧＰＵは、これらのコマンド／命令を効率的に処理するために専用の回路／論理を使用する。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・マルチプロセッサ２０３４において使用されてもよい。

図２１は、少なくとも一実施例による、マルチＧＰＵコンピューティング・システム１１１００を示す。少なくとも一実施例では、マルチＧＰＵコンピューティング・システム１１１００は、ホスト・インターフェース・スイッチ１１１０４を介して複数の汎用グラフィックス・プロセッシング・ユニット（ＧＰＧＰＵ）１１１０６Ａ～Ｄに結合されたプロセッサ１１１０２を含むことができる。少なくとも一実施例では、ホスト・インターフェース・スイッチ１１１０４は、プロセッサ１１１０２をＰＣＩエクスプレス・バスに結合するＰＣＩエクスプレス・スイッチ・デバイスであり、このＰＣＩエクスプレス・バスを介して、プロセッサ１１１０２は、ＧＰＧＰＵ１１１０６Ａ～Ｄと通信することができる。ＧＰＧＰＵ１１１０６Ａ～Ｄは、高速ポイントツーポイントＧＰＵツーＧＰＵリンク１１１１６のセットを介して相互接続することができる。少なくとも一実施例では、ＧＰＵツーＧＰＵリンク１１１１６は、専用ＧＰＵリンクを介して、ＧＰＧＰＵ１１１０６Ａ～Ｄのそれぞれに接続される。少なくとも一実施例では、Ｐ２ＰのＧＰＵリンク１１１１６は、プロセッサ１１１０２が接続されているホスト・インターフェース・バス１１１０４を介した通信を必要とせずに、ＧＰＧＰＵ１１１０６Ａ～Ｄのそれぞれの間で直接通信を可能にする。少なくとも一実施例では、Ｐ２ＰのＧＰＵリンク１１１１６に仕向けられたＧＰＵツーＧＰＵトラフィックがあると、ホスト・インターフェース・バス１１１０４は、システム・メモリへのアクセスができるように、又はたとえば１つ又は複数のネットワーク・デバイスを介して、マルチＧＰＵコンピューティング・システム１１１００の他のインスタンスと通信するために、利用可能な状態に保たれる。少なくとも一実施例では、ＧＰＧＰＵ１１１０６Ａ～Ｄは、ホスト・インターフェース・スイッチ１１１０４を介してプロセッサ１１１０２に接続され、少なくとも一実施例では、プロセッサ１１１０２は、Ｐ２ＰのＧＰＵリンク１１１１６のための直接サポートを含み、ＧＰＧＰＵ１１１０６Ａ～Ｄに直接接続することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにマルチＧＰＵコンピューティング・システム１１１００において使用されてもよい。

図２２は、少なくとも一実施例によるグラフィックス・プロセッサ２２００のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、リング相互接続２２０２、パイプライン・フロント・エンド２２０４、メディア・エンジン２２３７、及びグラフィックス・コア２２８０Ａ～２２８０Ｎを含む。少なくとも一実施例では、リング相互接続２２０２は、グラフィックス・プロセッサ２２００を、他のグラフィックス・プロセッサ又は１つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、マルチ・コア処理システム内に一体化された多数のプロセッサのうちの１つである。

少なくとも一実施例では、グラフィックス・プロセッサ２２００は、リング相互接続２２０２を介してコマンドのバッチを受け取る。少なくとも一実施例では、入ってくるコマンドは、パイプライン・フロント・エンド２２０４のコマンド・ストリーマ２２０３によって解釈される。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、グラフィックス・コア２２８０Ａ～２２８０Ｎを介して３Ｄジオメトリ処理及びメディア処理を実行するためのスケーラブルな実行論理を含む。少なくとも一実施例では、３Ｄジオメトリ処理コマンドについては、コマンド・ストリーマ２２０３はコマンドをジオメトリ・パイプライン２２３６に供給する。少なくとも一実施例では、少なくとも一部のメディア処理コマンドについては、コマンド・ストリーマ２２０３はコマンドをビデオ・フロント・エンド２２３４に供給し、ビデオ・フロント・エンド２２３４はメディア・エンジン２２３７に結合される。少なくとも一実施例では、メディア・エンジン２２３７は、ビデオ及び画像の後処理のためのＶｉｄｅｏＱｕａｌｉｔｙＥｎｇｉｎｅ（ＶＱＥ）２２３０と、ハードウェア加速されたメディア・データのエンコード及びデコードを提供するマルチ・フォーマット・エンコード／デコード（ＭＦＸ）２２３３エンジンとを含む。少なくとも一実施例では、ジオメトリ・パイプライン２２３６及びメディア・エンジン２２３７はそれぞれ、少なくとも１つのグラフィックス・コア２２８０Ａによって提供されるスレッド実行リソースのための実行スレッドを生成する。

少なくとも一実施例では、グラフィックス・プロセッサ２２００は、モジュール式コア２２８０Ａ～２２８０Ｎ（コア・スライスと呼ばれることもある）を特徴とするスケーラブルなスレッド実行リソースを含み、それぞれのモジュール式コアは、複数のサブ・コア２２５０Ａ～２２５０Ｎ、２２６０Ａ～２２６０Ｎ（コア・サブ・スライスと呼ばれることもある）を有する。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、任意の数のグラフィックス・コア２２８０Ａ～２２８０Ｎを有することができる。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、少なくとも第１のサブ・コア２２５０Ａ及び第２のサブ・コア２２６０Ａを有するグラフィックス・コア２２８０Ａを含む。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、単一のサブ・コア（たとえば、２２５０Ａ）を有する低電力プロセッサである。少なくとも一実施例では、グラフィックス・プロセッサ２２００は、複数のグラフィックス・コア２２８０Ａ～２２８０Ｎを含み、このそれぞれが、第１のサブ・コア２２５０Ａ～２２５０Ｎのセット、及び第２のサブ・コア２２６０Ａ～２２６０Ｎのセットを含む。少なくとも一実施例では、第１のサブ・コア２２５０Ａ～２２５０Ｎの各サブ・コアは、少なくとも、実行ユニット２２５２Ａ～２２５２Ｎとメディア／テクスチャ・サンプラ２２５４Ａ～２２５４Ｎの第１のセットを含む。少なくとも一実施例では、第２のサブ・コア２２６０Ａ～２２６０Ｎの各サブ・コアは、少なくとも、実行ユニット２２６２Ａ～２２６２Ｎとサンプラ２２６４Ａ～２２６４Ｎの第２のセットを含む。少なくとも一実施例では、各サブ・コア２２５０Ａ～２２５０Ｎ、２２６０Ａ～２２６０Ｎは、共有リソース２２７０Ａ～２２７０Ｎのセットを共有する。少なくとも一実施例では、共有リソースは、共有キャッシュ・メモリ及びピクセル動作論理を含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・プロセッサ２２００において使用されてもよい。

図２３は、少なくとも一実施例による、命令を実行するための論理回路を含んでもよいプロセッサ２３００のマイクロ・アーキテクチャを示すブロック図である。少なくとも一実施例では、プロセッサ２３００は、ｘ８６命令、ＡＭＲ命令、特定用途向け集積回路（ＡＳＩＣ）用の特別命令などを含む命令を実行してもよい。少なくとも一実施例では、プロセッサ２３００は、カリフォルニア州サンタクララのインテルコーポレーションによる、ＭＭＸ技術で有効化されたマイクロプロセッサ内の６４ビット幅ＭＭＸＴＭレジスタなど、パック・データを記憶するためのレジスタを含んでもよい。少なくとも一実施例では、整数形式と浮動小数点形式の両方で利用可能なＭＭＸレジスタは、単一命令複数データ（「ＳＩＭＤ」）及びストリーミングＳＩＭＤ拡張（「ＳＳＥ」：ｓｔｒｅａｍｉｎｇＳＩＭＤｅｘｔｅｎｓｉｏｎｓ）命令を伴うパック・データ要素で動作してもよい。少なくとも一実施例では、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、ＡＶＸ、又はそれ以上（総称して「ＳＳＥｘ」と呼ばれる）の技術に関する１２８ビット幅のＸＭＭレジスタは、こうしたパック・データのオペランドを保持してもよい。少なくとも一実施例では、プロセッサ２３００は、機械学習若しくは深層学習のアルゴリズム、訓練、又は推論を加速するために命令を実行してもよい。

少なくとも一実施例では、プロセッサ２３００は、実行すべき命令をフェッチし、プロセッサ・パイプラインで後に使用すべき命令を準備するイン・オーダー・フロント・エンド（「フロント・エンド」）２３０１を含む。少なくとも一実施例では、フロント・エンド２３０１は、いくつかのユニットを含んでもよい。少なくとも一実施例では、命令プリフェッチャ２３２６が、メモリから命令をフェッチし、命令デコーダ２３２８に命令を供給し、命令デコーダが、命令をデコード又は解釈する。たとえば、少なくとも一実施例では、命令デコーダ２３２８は、受け取った命令を、機械が実行することのできる「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる（「マイクロ・オプス」又は「ｕｏｐｓ」とも呼ばれる）１つ又は複数のオペレーションにデコードする。少なくとも一実施例では、命令デコーダ２３２８は、命令を、オプコード及び対応するデータ、並びに制御フィールドに構文解析して、これらがマイクロ・アーキテクチャによって使用されて、少なくとも一実施例による動作が実行されてもよい。少なくとも一実施例では、トレース・キャッシュ２３３０は、デコードされたｕｏｐｓを、実行できるようにｕｏｐキュー２３３４においてプログラム順のシーケンス又はトレースにアセンブルしてもよい。少なくとも一実施例では、トレース・キャッシュ２３３０が複雑な命令に遭遇すると、マイクロコードＲＯＭ２３３２が、動作の完了に必要なｕｏｐｓを提供する。

少なくとも一実施例では、単一のマイクロ・オプスに変換できる命令もあれば、全動作を完了するためにいくつかのマイクロ・オプスを必要とする命令もある。少なくとも一実施例では、命令を完了するために５つ以上のマイクロ・オプスが要な場合、命令デコーダ２３２８は、マイクロコードＲＯＭ２３３２にアクセスして、命令を実行してもよい。少なくとも一実施例では、命令は、命令デコーダ２３２８において処理できるように、少数のマイクロ・オプスにデコードされてもよい。少なくとも一実施例では、動作を完了するのに多数のマイクロ・オプスが必要な場合には、命令は、マイクロコードＲＯＭ２３３２に記憶されてもよい。少なくとも一実施例では、トレース・キャッシュ２３３０は、少なくとも一実施例によるマイクロコードＲＯＭ２３３２からの１つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ（「ＰＬＡ」：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを判定する。少なくとも一実施例では、マイクロコードＲＯＭ２３３２が命令のためのマイクロ・オプスのシーケンシングを終了した後、機械のフロント・エンド２３０１は、トレース・キャッシュ２３３０からマイクロ・オプスのフェッチを再開してもよい。

少なくとも一実施例では、アウト・オブ・オーダー実行エンジン（「アウト・オブ・オーダー・エンジン」）２３０３は、実行できるように命令を準備してもよい。少なくとも一実施例では、アウト・オブ・オーダー実行論理は、命令のフローをなめらかにし、その順序を変更するために多数バッファを有し、命令がパイプラインを下り、実行されるようにスケジューリングされるときの性能を最適化する。少なくとも一実施例では、アウト・オブ・オーダー実行エンジン２３０３は、限定することなく、アロケータ／レジスタ・リネーマ２３４０、メモリｕｏｐキュー２３４２、整数／浮動小数点ｕｏｐキュー２３４４、メモリ・スケジューラ２３４６、高速スケジューラ２３０２、低速／汎用浮動小数点スケジューラ（「低速／汎用ＦＰ：ｆｌｏａｔｉｎｇｐｏｉｎｔスケジューラ」）２３０４、及び単純浮動小数点スケジューラ（「単純ＦＰスケジューラ」）２３０６を含む。少なくとも一実施例では、高速スケジューラ２３０２、低速／汎用浮動小数点スケジューラ２３０４、及び単純浮動小数点スケジューラ２３０６は、本明細書において集合的に「ｕｏｐスケジューラ２３０２、２３０４、２３０６」とも呼ばれる。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２３４０は、実行するために各ｕｏｐが必要とする機械バッファ及びリソースを配分する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２３４０は、レジスタ・ファイルへのエントリ時に論理レジスタの名前を変更する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２３４０はまた、メモリ・スケジューラ２３４６及びｕｏｐスケジューラ２３０２、２３０４、２３０６の前の、２つのｕｏｐキュー、すなわちメモリ動作のためのメモリｕｏｐキュー２３４２と非メモリ動作のための整数／浮動小数点ｕｏｐキュー２３４４のうちの１つに、各ｕｏｐのエントリを配分する。少なくとも一実施例では、ｕｏｐスケジューラ２３０２、２３０４、２３０６は、ｕｏｐｓがいつ実行準備されるかを、それらの従属入力レジスタ・オペランドのソースが準備されていること、及びそれらの動作を完了するためにｕｏｐが必要とする実行リソースが利用可能であることに基づき、判定する。少なくとも一実施例では、少なくとも一実施例の高速スケジューラ２３０２は、メイン・クロック・サイクルの半分ごとにスケジューリングしてもよく、低速／汎用浮動小数点スケジューラ２３０４及び単純浮動小数点スケジューラ２３０６は、メイン・プロセッサのクロック・サイクル当たりに１回スケジューリングしてもよい。少なくとも一実施例では、ｕｏｐスケジューラ２３０２、２３０４、２３０６は、実行できるようにｕｏｐｓをスケジューリングするためにディスパッチ・ポートを調停する。

少なくとも一実施例では、実行ブロック２３１１は、限定することなく、整数レジスタ・ファイル／バイパス・ネットワーク２３０８、浮動小数点レジスタ・ファイル／バイパス・ネットワーク（「ＦＰレジスタ・ファイル／バイパス・ネットワーク」）２３１０、アドレス生成ユニット（「ＡＧＵ」：ａｄｄｒｅｓｓｇｅｎｅｒａｔｉｏｎｕｎｉｔｓ）２３１２及び２３１４、高速算術論理演算ユニット（ＡＬＵ）（「高速ＡＬＵ」）２３１６及び２３１８、低速算術論理演算ユニット（「低速ＡＬＵ」）２３２０、浮動小数点ＡＬＵ（「ＦＰ」）２３２２、並びに浮動小数点移動ユニット（「ＦＰ移動」）２３２４を含む。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２３０８及び浮動小数点レジスタ・ファイル／バイパス・ネットワーク２３１０は、本明細書において「レジスタ・ファイル２３０８、２３１０」とも呼ばれる。少なくとも一実施例では、ＡＧＵ２３１２及び２３１４、高速ＡＬＵ２３１６及び２３１８、低速ＡＬＵ２３２０、浮動小数点ＡＬＵ２３２２、及び浮動小数点移動ユニット２３２４は、本明細書において「実行ユニット２３１２、２３１４、２３１６、２３１８、２３２０、２３２２、及び２３２４」とも呼ばれる。少なくとも一実施例では、実行ブロックｂ１１は、限定することなく、（ゼロを含む）任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含んでもよい。

少なくとも一実施例では、レジスタ・ファイル２３０８、２３１０は、ｕｏｐスケジューラ２３０２、２３０４、２３０６と、実行ユニット２３１２、２３１４、２３１６、２３１８、２３２０、２３２２、及び２３２４との間に配置されてもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２３０８は、整数演算を実行する。少なくとも一実施例では、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２３１０は、浮動小数点演算を実行する。少なくとも一実施例では、レジスタ・ファイル２３０８、２３１０のそれぞれは、限定することなく、バイパス・ネットワークを含んでもよく、このバイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属ｕｏｐｓにバイパス又は転送してもよい。少なくとも一実施例では、レジスタ・ファイル２３０８、２３１０は、互いにデータを通信してもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２３０８は、限定することなく、２つの別々のレジスタ・ファイル、すなわち低次３２ビットのデータ用の１つのレジスタ・ファイル、及び高次３２ビットのデータ用の第２のレジスタ・ファイルを含んでもよい。少なくとも一実施例では、浮動小数点命令は、通常、６４～１２８ビット幅のオペランドを有することから、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２３１０は、限定することなく、１２８ビット幅のエントリを含んでもよい。

少なくとも一実施例では、実行ユニット２３１２、２３１４、２３１６、２３１８、２３２０、２３２２、２３２４は、命令を実行してもよい。少なくとも一実施例では、レジスタ・ファイル２３０８、２３１０は、マイクロ命令が実行する必要のある整数及び浮動小数点のデータのオペランド値を記憶する。少なくとも一実施例では、プロセッサ２３００は、限定することなく、任意の数及び組合せの実行ユニット２３１２、２３１４、２３１６、２３１８、２３２０、２３２２、２３２４を含んでよい。少なくとも一実施例では、浮動小数点ＡＬＵ２３２２及び浮動小数点移動ユニット２３２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、ＡＶＸ、及びＳＥＥ、又は特別な機械学習命令を含む他の演算を実行してもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２３２２は、限定することなく、６４ビットずつの浮動小数点デバイダを含み、除算、平方根、及び残りのマイクロ・オプスを実行してもよい。少なくとも一実施例では、浮動小数点値を含む命令は、浮動小数点ハードウェアによって対処されてもよい。少なくとも一実施例では、ＡＬＵ演算は、高速ＡＬＵ２３１６、２３１８に渡されてもよい。少なくとも一実施例では、高速ＡＬＵ２３１６、２３１８は、クロック・サイクルの半分の実効レイテンシで高速演算を実行してもよい。少なくとも一実施例では、低速ＡＬＵ２３２０は、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを、限定することなく含んでもよいことから、ほとんどの複雑な整数演算は低速ＡＬＵ２３２０に進む。少なくとも一実施例では、メモリのロード／ストア動作は、ＡＧＵＳ２３１２、２３１４によって実行されてもよい。少なくとも一実施例では、高速ＡＬＵ２３１６、高速ＡＬＵ２３１８、及び低速ＡＬＵ２３２０は、６４ビットのデータ・オペランドで整数演算を実行してもよい。少なくとも一実施例では、高速ＡＬＵ２３１６、高速ＡＬＵ２３１８、及び低速ＡＬＵ２３２０は、１６、３２、１２８、２５６などを含む様々なデータ・ビット・サイズをサポートするように実装されてもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２３２２及び浮動小数点移動ユニット２３２４は、様々なビット幅を有する幅広いオペランドをサポートするように実装されてもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２３２２及び浮動小数点移動ユニット２３２４は、ＳＩＭＤ及びマルチメディア命令と併せて１２８ビット幅のパック・データ・オペランドで動作してもよい。

少なくとも一実施例では、ｕｏｐスケジューラ２３０２、２３０４、２３０６は、親ロードが実行を終了する前に、従属演算をディスパッチする。少なくとも一実施例では、ｕｏｐｓは、プロセッサ２３００において投機的にスケジューリング及び実行されてもよいので、プロセッサ２３００は、メモリ・ミスに対処するための論理も含んでよい。少なくとも一実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータを有するスケジューラを通り過ぎたパイプラインに、進行中の従属演算が存在してもよい。少なくとも一実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも一実施例では、従属演算は、リプレイされる必要があってもよく、独立した演算は、完了が許容されてもよい。少なくとも一実施例では、プロセッサの少なくとも一実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計されてもよい。

少なくとも一実施例では、用語「レジスタ」は、オペランドを識別するための命令の一部として使用することができるオンボード・プロセッサのストレージ・ロケーションを指してもよい。少なくとも一実施例では、レジスタは、（プログラマの視点から見て）プロセッサの外部から使用可能であり得るものであってもよい。少なくとも一実施例では、レジスタは、特定のタイプの回路に限定されなくてもよい。むしろ、少なくとも一実施例では、レジスタは、データを記憶し、データを提供し、本明細書に記載の機能を実行してもよい。少なくとも一実施例では、本明細書に記載のレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に配分される物理レジスタ、専用物理レジスタと動的に配分される物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路によって実装されてもよい。少なくとも一実施例では、整数レジスタは、３２ビットの整数データを記憶する。少なくとも一実施例のレジスタ・ファイルは、パック・データのための８つのマルチメディアＳＩＭＤレジスタも含む。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５の一部又はすべてが、実行ブロック２３１１、及び図示してある若しくは図示していない他のメモリ又はレジスタに組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、実行ブロック２３１１に示すＡＬＵのうちの１つ又は複数を使用してもよい。さらに、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行ブロック２３１１のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２４は、少なくとも一実施例による深層学習アプリケーション・プロセッサ２４００を示す。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、深層学習アプリケーション・プロセッサ２４００によって実行される場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、深層学習アプリケーション・プロセッサ２４００に実行させる命令を使用する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、特定用途向け集積回路（ＡＳＩＣ）である。少なくとも一実施例では、アプリケーション・プロセッサ２４００は、１つ若しくは複数の命令又は両方を実行した結果としていずれもハードウェアに「ハード・ワイヤード」された行列乗算演算を実行する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、限定することなく、処理クラスタ２４１０（１）～２４１０（１２）、チップ間リンク（「ＩＣＬ」）２４２０（１）～２４２０（１２）、チップ間コントローラ（「ＩＣＣ」）２４３０（１）～２４３０（２）、メモリ・コントローラ（「ＭｅｍＣｔｒｌｒｓ」）２４４２（１）～２４４２（４）、高帯域幅メモリ物理層（「ＨＢＭＰＨＹ」）２４４４（１）～２４４４（４）、管理－コントローラ中央処理装置（「管理－コントローラＣＰＵ」）２４５０、シリアル・ペリフェラル・インターフェース、集積回路間、及び汎用入力／出力ブロック（「ＳＰＩ、Ｉ２Ｃ、ＧＰＩＯ」）、周辺構成要素相互接続エクスプレス・コントローラ及びダイレクト・メモリ・アクセス・ブロック（「ＰＣＩｅコントローラ及びＤＭＡ」）２４７０、並びに１６レーン周辺構成要素相互接続エクスプレス・ポート（「ＰＣＩＥｘｐｒｅｓｓｘ１６」）２４８０を含む。

少なくとも一実施例では、処理クラスタ２４１０は、本明細書に記載の技法を含む１つ又は複数の訓練技法を使用して計算された重みパラメータに基づき、推論又は予測の演算を含む深層学習演算を実行してもよい。少なくとも一実施例では、各処理クラスタ２４１０は、限定することなく、任意の数及びタイプのプロセッサを含んでもよい。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、任意の数及びタイプの処理クラスタ２４００を含んでもよい。少なくとも一実施例では、チップ間リンク２４２０は、双方向性である。少なくとも一実施例では、チップ間リンク２４２０及びチップ間コントローラ２４３０は、１つ又は複数のニューラル・ネットワークに具体化された１つ又は複数の機械学習アルゴリズムを実行した結果得られるアクティブ化情報を含む情報を、複数の深層学習アプリケーション・プロセッサ２４００が交換できるようにする。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、（ゼロを含む）任意の数及びタイプのＩＣＬ２４２０及びＩＣＣ２４３０を含んでもよい。

少なくとも一実施例では、ＨＢＭ２２４４０は、合計３２ギガバイト（ＧＢ：Ｇｉｇａｂｙｔｅ）のメモリを提供する。ＨＢＭ２２４４０（ｉ）は、メモリ・コントローラ２４４２（ｉ）とＨＢＭＰＨＹ２４４４（ｉ）の両方に関連付けられる。少なくとも一実施例では、任意の数のＨＢＭ２２４４０が、任意のタイプ及び合計量の高帯域幅メモリを提供してもよく、（ゼロを含む）任意の数及びタイプのメモリ・コントローラ２４４２及びＨＢＭＰＨＹ２４４４に関連付けられてもよい。少なくとも一実施例では、ＳＰＩ、Ｉ２Ｃ、ＧＰＩＯ２４６０、ＰＣＩｅコントローラ及びＤＭＡ２４７０、並びに／又はＰＣＩｅ２４８０は、任意の技術的に実行可能なやり方で任意の数及びタイプの通信規格を有効にする任意の数及びタイプのブロックに置き換えられてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、深層学習アプリケーション・プロセッサ２４００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２４００は、別のプロセッサ若しくはシステムによって、又は深層学習アプリケーション・プロセッサ２４００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、プロセッサ２４００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図２５は、少なくとも一実施例による、ニューロモーフィック・プロセッサ２５００のブロック図である。少なくとも一実施例では、ニューロモーフィック・プロセッサ２５００は、ニューロモーフィック・プロセッサ２５００の外部のソースから１つ又は複数の入力を受信する。少なくとも一実施例では、これらの入力は、ニューロモーフィック・プロセッサ２５００内の１つ又は複数のニューロン２５０２に送信されてもよい。少なくとも一実施例では、ニューロン２５０２及びその構成要素は、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２５００は、限定することなく、ニューロン２５０２の数千又は数百万のインスタンスを含んでもよいが、任意の好適な数のニューロン２５０２が使用されてもよい。少なくとも一実施例では、ニューロン２５０２の各インスタンスは、ニューロン入力２５０４及びニューロン出力２５０６を含んでもよい。少なくとも一実施例では、ニューロン２５０２は出力を生成してもよく、この出力は、ニューロン２５０２の他のインスタンスの入力に送信されてもよい。たとえば、少なくとも一実施例では、ニューロン入力２５０４及びニューロン出力２５０６は、シナプス２５０８を介して相互接続されてもよい。

少なくとも一実施例では、ニューロン２５０２とシナプス２５０８は、ニューロモーフィック・プロセッサ２５００が受信した情報をニューロモーフィック・プロセッサ２５００が動作して処理又は分析するように、相互接続されてもよい。少なくとも一実施例では、ニューロン２５０２は、ニューロン入力２５０４を介して受信した入力が、閾値を超えているとき、出力パルス（又は「発火」若しくは「スパイク」）を送信してもよい。少なくとも一実施例では、ニューロン２５０２は、ニューロン入力２５０４において受信した信号を合計又は積分してもよい。たとえば、少なくとも一実施例では、ニューロン２５０２は、漏れ積分発火ニューロン（ｌｅａｋｙｉｎｔｅｇｒａｔｅ－ａｎｄ－ｆｉｒｅｎｅｕｒｏｎ）として実装されてもよく、ここで、合計（「膜電位」と呼ばれる）が閾値を超える場合には、ニューロン２５０２は、シグモイド関数又は閾値関数などの伝達関数を使用して、出力（又は「発火」）を生成してもよい。少なくとも一実施例では、漏れ積分発火ニューロンは、ニューロン入力２５０４で受信した信号を合計して膜電位にしてもよく、また、崩壊因子（又は漏れ）を適用して膜電位を低減してもよい。少なくとも一実施例では、複数の入力信号が、閾値を超えるほど十分に素早く（すなわち、膜電位の崩壊が少なすぎて発火できなくなる前に）ニューロン入力２５０４において受信された場合には、漏れ積分発火ニューロンが発火してもよい。少なくとも一実施例では、ニューロン２５０２は、入力を受信し、入力を積分して膜電位にし、膜電位を崩壊させる回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、入力は平均化されてもよく、又は任意の他の好適な伝達関数が使用されてもよい。さらに、少なくとも一実施例では、ニューロン２５０２は、ニューロン２５０４に伝達関数を適用した結果が閾値を超えるとき、ニューロン２５０６において出力スパイクを生成するコンパレータ回路又は論理を、限定することなく含んでもよい。少なくとも一実施例では、ニューロン２５０２は発火すると、前に受信した入力情報を、たとえば膜電位を０又は他の好適なデフォルト値に再設定することによって、無視してもよい。少なくとも一実施例では、膜電位が０にリセットされると、ニューロン２５０２は、好適な期間（又は不応期）の後に通常の動作を再開してもよい。

少なくとも一実施例では、ニューロン２５０２は、シナプス２５０８を通して相互接続されてもよい。少なくとも一実施例では、シナプス２５０８は、第１のニューロン２５０２の出力から第２のニューロン２５０２の入力に信号を送信するように動作してもよい。少なくとも一実施例では、ニューロン２５０２は、シナプス２５０８の２つ以上のインスタンスを介して情報を送信してもよい。少なくとも一実施例では、ニューロン出力２５０６の１つ又は複数のインスタンスは、シナプス２５０８のインスタンスを介して、同じニューロン２５０２のニューロン入力２５０４のインスタンスに接続されてもよい。少なくとも一実施例では、シナプス２５０８のインスタンスを介して送信されることになる出力を生成するニューロン２５０２のインスタンスは、シナプス２５０８のそのインスタンスに対して「シナプス前ニューロン」と呼ばれてもよい。少なくとも一実施例では、シナプス２５０８のインスタンスを介して送信されることになる入力を受信するニューロン２５０２のインスタンスは、シナプス２５０８のそのインスタンスに対して「シナプス後ニューロン」と呼ばれてもよい。少なくとも一実施例では、ニューロン２５０２のインスタンスは、シナプス２５０８の１つ又は複数のインスタンスから入力を受信してもよく、また、シナプス２５０８の１つ又は複数のインスタンスを介して出力を送信してもよいので、ニューロン２５０２の単一のインスタンスは、したがって、シナプス２５０８の様々なインスタンスに対して「シナプス前ニューロン」と「シナプス後ニューロン」の両方であってもよい。

少なくとも一実施例では、ニューロン２５０２は、１つ又は複数の層に組織化されてもよい。ニューロン２５０２の各インスタンスは、１つ又は複数のシナプス２５０８を通って１つ又は複数のニューロン入力２５０４にファン・アウトすることができる１つのニューロン出力２５０６を有してもよい。少なくとも一実施例では、第１の層２５１０のニューロン２５０２のニューロン出力２５０６は、第２の層２５１２のニューロン２５０２のニューロン入力２５０４に接続されてもよい。少なくとも一実施例では、層２５１０は、「フィード・フォワード」層と呼ばれてもよい。少なくとも一実施例では、第１の層２５１０のインスタンスにおけるニューロン２５０２の各インスタンスは、第２の層２５１２におけるニューロン２５０２の各インスタンスにファン・アウトしてもよい。少なくとも一実施例では、第１の層２５１０は、「完全に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２５１２のインスタンスにおけるニューロン２５０２の各インスタンスは、第３の層２５１４におけるニューロン２５０２の全インスタンスより少ないインスタンスにファン・アウトしてもよい。少なくとも一実施例では、第２の層２５１２は、「疎に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２５１２のニューロン２５０２は、（同じ）第２の層２５１２におけるニューロン２５０２を含め、複数の他の層のニューロン２５０２にファン・アウトしてもよい。少なくとも一実施例では、第２の層２５１２は、「回帰層」と呼ばれてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２５００は、疎に接続されたフィード・フォワード層と完全に接続されたフィード・フォワード層の両方を限定することなく含む、回帰層とフィード・フォワード層の任意の好適な組合せを限定することなく含んでもよい。

少なくとも一実施例では、ニューロモーフィック・プロセッサ２５００は、シナプス２５０８をニューロン２５０２に接続するための再構成可能相互接続アーキテクチャ、又は専用ハード・ワイヤード相互接続を、限定することなく含んでもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２５００は、ニューラル・ネットワーク・トポロジ、及びニューロンのファン・イン／ファン・アウトに基づき、必要に応じてシナプスを異なるニューロン２５０２に配分できるようにする回路又は論理を、限定することなく含んでもよい。たとえば、少なくとも一実施例では、シナプス２５０８は、ネットワーク・オン・チップなどの相互接続ファブリックを使用して、又は専用の接続を用いて、ニューロン２５０２に接続されてもよい。少なくとも一実施例では、シナプス相互接続及びその構成要素は、回路又は論理を使用して実装されてもよい。

図２６は、少なくとも一実施例による処理システムのブロック図である。少なくとも一実施例では、システム２６００は、１つ又は複数のプロセッサ２６０２、及び１つ又は複数のグラフィックス・プロセッサ２６０８を含み、単一プロセッサのデスクトップ・システム、マルチプロセッサのワークステーション・システム、又は多数のプロセッサ２６０２若しくはプロセッサ・コア２６０７を有するサーバ・システムであってもよい。少なくとも一実施例では、システム２６００は、モバイル・デバイス、携帯型デバイス、又は組み込みデバイスで使用するためのシステム・オン・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

少なくとも一実施例では、システム２６００は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム及びメディアのコンソールを含むゲーム・コンソール、モバイル・ゲーミング・コンソール、携帯型ゲーム・コンソール、若しくはオンライン・ゲーム・コンソールを含んでもよく、又はそれらに組み込まれてもよい。少なくとも一実施例では、システム２６００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス、又はモバイル・インターネット・デバイスである。少なくとも一実施例では、処理システム２６００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、若しくは仮想現実デバイスなどのウェアラブル・デバイスを含んでもよく、それらに結合されてもよく、又はそれらの中に一体化されてもよい。少なくとも一実施例では、処理システム２６００は、１つ又は複数のプロセッサ２６０２と、１つ又は複数のグラフィックス・プロセッサ２６０８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

少なくとも一実施例では、１つ又は複数のプロセッサ２６０２はそれぞれ、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実行する命令を処理するための１つ又は複数のプロセッサ・コア２６０７を含む。少なくとも一実施例では、１つ又は複数のプロセッサ・コア２６０７のそれぞれは、特定の命令セット２６０９を処理するように構成される。少なくとも一実施例では、命令セット２６０９は、複合命令セット・コンピューティング（ＣＩＳＣ）、縮小命令セット・コンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介したコンピューティングを容易にしてもよい。少なくとも一実施例では、プロセッサ・コア２６０７はそれぞれ、異なる命令セット２６０９を処理してもよく、この命令セットは、他の命令セットのエミュレーションを容易にする命令を含んでもよい。少なくとも一実施例では、プロセッサ・コア２６０７また、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含んでもよい。

少なくとも一実施例では、プロセッサ２６０２はキャッシュ・メモリ２６０４を含む。少なくとも一実施例では、プロセッサ２６０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ２６０２の様々な構成要素間で共有される。少なくとも一実施例では、プロセッサ２６０２はまた、外部キャッシュ（たとえば、レベル３（Ｌ３）キャッシュ又はラスト・レベル・キャッシュ（ＬＬＣ））（図示せず）を使用し、このキャッシュは、知られているキャッシュ・コヒーレンス技法を使用して、プロセッサ・コア２６０７間で共有されてもよい。少なくとも一実施例では、さらにレジスタ・ファイル２６０６がプロセッサ２６０２に含まれ、このレジスタ・ファイルは、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタ）を含んでもよい。少なくとも一実施例では、レジスタ・ファイル２６０６は、汎用レジスタ又は他のレジスタを含んでもよい。

少なくとも一実施例では、１つ又は複数のプロセッサ２６０２は、１つ又は複数のインターフェース・バス２６１０に結合されて、アドレス、データ、又は制御信号などの通信信号を、プロセッサ２６０２とシステム２６００内の他の構成要素との間で送信する。少なくとも一実施例では、インターフェース・バス２６１０は、一実施例では、ダイレクト・メディア・インターフェース（ＤＭＩ）バスのバージョンなどのプロセッサ・バスとすることができる。少なくとも一実施例では、インターフェース２６１０は、ＤＭＩバスに限定されず、１つ又は複数のペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）、メモリ・バス、又は他のタイプのインターフェース・バスを含んでもよい。少なくとも一実施例では、プロセッサ２６０２は、統合メモリ・コントローラ２６１６、及びプラットフォーム・コントローラ・ハブ２６３０を含む。少なくとも一実施例では、メモリ・コントローラ２６１６は、メモリ・デバイスとシステム２６００の他の構成要素との間の通信を容易にし、一方でプラットフォーム・コントローラ・ハブ（ＰＣＨ）２６３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

少なくとも一実施例では、メモリ・デバイス２６２０は、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセス・メモリとしての役割を果たすのに好適な性能を有する何らかの他のメモリ・デバイスとすることができる。少なくとも一実施例では、メモリ・デバイス２６２０は、システム２６００のためのシステム・メモリとして動作して、１つ又は複数のプロセッサ２６０２がアプリケーション若しくはプロセスを実行するときに使用するためのデータ２６２２及び命令２６２１を記憶することができる。少なくとも一実施例では、メモリ・コントローラ２６１６はまた、任意選択の外部グラフィックス・プロセッサ２６１２と結合しており、このグラフィックス・プロセッサは、プロセッサ２６０２内の１つ又は複数のグラフィックス・プロセッサ２６０８と通信して、グラフィックス及びメディアの動作を実行してもよい。少なくとも一実施例では、ディスプレイ・デバイス２６１１は、プロセッサ２６０２に接続することができる。少なくとも一実施例では、ディスプレイ・デバイス２６１１は、モバイル電子デバイス又はラップトップ・デバイスのような内部ディスプレイ・デバイス、又はディスプレイ・インターフェース（たとえば、ディスプレイ・ポートなど）を介して取り付けられる外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも一実施例では、ディスプレイ・デバイス２６１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（ＨＭＤ）を含むことができる。

少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２６３０は、周辺装置が高速Ｉ／Ｏバスを介してメモリ・デバイス２６２０及びプロセッサ２６０２に接続できるようにする。少なくとも一実施例では、Ｉ／Ｏ周辺装置は、オーディオ・コントローラ２６４６、ネットワーク・コントローラ２６３４、ファームウェア・インターフェース２６２８、ワイヤレス・トランシーバ２６２６、タッチ・センサ２６２５、データ・ストレージ・デバイス２６２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）を含むが、これらに限定されない。少なくとも一実施例では、データ・ストレージ・デバイス２６２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）などのペリフェラル・バスを介して、接続することができる。少なくとも一実施例では、タッチ・センサ２６２５は、タッチ画面センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも一実施例では、ワイヤレス・トランシーバ２６２６は、ＷｉＦｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、又は３Ｇ、４Ｇ、若しくはＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）トランシーバなどのモバイル・ネットワーク・トランシーバとすることができる。少なくとも一実施例では、ファームウェア・インターフェース２６２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（ＵＥＦＩ）とすることができる。少なくとも一実施例では、ネットワーク・コントローラ２６３４は、有線ネットワークへのネットワーク接続を可能にすることができる。少なくとも一実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス２６１０と結合する。少なくとも一実施例では、オーディオ・コントローラ２６４６は、多チャネル・ハイ・デフィニション・オーディオ・コントローラである。少なくとも一実施例では、システム２６００は、レガシー（たとえば、パーソナル・システム２（ＰＳ／２））デバイスをシステムに結合するための任意選択のレガシーＩ／Ｏコントローラ２６４０を含む。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２６３０は、キーボードとマウス２６４３の組合せ、カメラ２６４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ２６４２の接続入力デバイスにも接続することができる。

少なくとも一実施例では、メモリ・コントローラ２６１６及びプラットフォーム・コントローラ・ハブ２６３０のインスタンスは、外部グラフィックス・プロセッサ２６１２などの個別の外部グラフィックス・プロセッサに一体化されてもよい。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２６３０及び／又はメモリ・コントローラ２６１６は、１つ又は複数のプロセッサ２６０２の外部にあってもよい。たとえば、少なくとも一実施例では、システム２６００は、外部のメモリ・コントローラ２６１６及びプラットフォーム・コントローラ・ハブ２６３０を含むことができ、これらは、プロセッサ２６０２と通信するシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺装置コントローラ・ハブとして構成されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５の一部又はすべてが、グラフィックス・プロセッサ２６００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２６１２に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図９Ａ又は図９Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２６００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２７は、少なくとも一実施例による、１つ又は複数のプロセッサ・コア２７０２Ａ～２７０２Ｎ、統合メモリ・コントローラ２７１４、及び統合グラフィックス・プロセッサ２７０８を有するプロセッサ２７００のブロック図である。少なくとも一実施例では、プロセッサ２７００は、破線の四角によって表される追加コア２７０２Ｎを含むそれ以下の数の追加コアを含むことができる。少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎのそれぞれは、１つ又は複数の内部キャッシュ・ユニット２７０４Ａ～２７０４Ｎを含む。少なくとも一実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット２７０６にアクセスできる。

少なくとも一実施例では、内部キャッシュ・ユニット２７０４Ａ～２７０４Ｎ、及び共有キャッシュ・ユニット２７０６は、プロセッサ２７００内のキャッシュ・メモリ階層を表す。少なくとも一実施例では、キャッシュ・メモリ・ユニット２７０４Ａ～２７０４Ｎは、各プロセッサ・コア内の命令及びデータのキャッシュの少なくとも１つのレベル、並びにレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含んでもよく、ここで外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも一実施例では、キャッシュ・コヒーレンス論理は、様々なキャッシュ・ユニット２７０６及び２７０４Ａ～２７０４Ｎ間でコヒーレンスを維持する。

少なくとも一実施例では、プロセッサ２７００はまた、１つ又は複数のバス・コントローラ・ユニット２７１６とシステム・エージェント・コア２７１０のセットを含んでもよい。少なくとも一実施例では、１つ又は複数のバス・コントローラ・ユニット２７１６は、１つ又は複数のＰＣＩ若しくはＰＣＩエクスプレス・バスなどのペリフェラル・バスのセットを管理する。少なくとも一実施例では、システム・エージェント・コア２７１０は、様々なプロセッサ構成要素のための管理機能を提供する。少なくとも一実施例では、システム・エージェント・コア２７１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合メモリ・コントローラ２７１４を含む。

少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも一実施例では、システム・エージェント・コア２７１０は、マルチスレッドの処理中にコア２７０２Ａ～２７０２Ｎを調整し動作させるための構成要素を含む。少なくとも一実施例では、システム・エージェント・コア２７１０はさらに、電力制御ユニット（ＰＣＵ）を含んでもよく、このユニットは、プロセッサ・コア２７０２Ａ～２７０２Ｎ及びグラフィックス・プロセッサ２７０８の１つ又は複数の電力状態を調整するための論理及び構成要素を含む。

少なくとも一実施例では、プロセッサ２７００はさらに、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ２７０８を含む。少なくとも一実施例では、グラフィックス・プロセッサ２７０８は、共有キャッシュ・ユニット２７０６と、１つ又は複数の統合メモリ・コントローラ２７１４を含むシステム・エージェント・コア２７１０とに結合する。少なくとも一実施例では、システム・エージェント・コア２７１０はまた、１つ又は複数の結合されたディスプレイに対してグラフィックス・プロセッサの出力を行わせるためのディスプレイ・コントローラ２７１１を含む。少なくとも一実施例では、ディスプレイ・コントローラ２７１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ２７０８に結合された別個のモジュールであってもよく、又はグラフィックス・プロセッサ２７０８内に一体化されていてもよい。

少なくとも一実施例では、プロセッサ２７００の内部構成要素を結合するために、リング・ベースの相互接続ユニット２７１２が使用される。少なくとも一実施例では、ポイントツーポイント相互接続、スイッチ相互接続、又は他の技法などの代替的な相互接続ユニットが使用されてもよい。少なくとも一実施例では、グラフィックス・プロセッサ２７０８は、Ｉ／Ｏリンク２７１３を介してリング相互接続２７１２と結合する。

少なくとも一実施例では、Ｉ／Ｏリンク２７１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール２７１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む多様なＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎのそれぞれ及びグラフィックス・プロセッサ２７０８は、共有ラスト・レベル・キャッシュとして組み込みメモリ・モジュール２７１８を使用する。

少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎは、命令セット・アーキテクチャ（ＩＳＡ）の観点から見れば異種であり、ここでプロセッサ・コア２７０２Ａ～２７０２Ｎのうちの１つ又は複数は、共通の命令セットを実行するが、プロセッサ・コア２７０２Ａ～２７－０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも一実施例では、プロセッサ・コア２７０２Ａ～２７０２Ｎは、マイクロ・アーキテクチャの観点から見れば異種であり、ここで電力消費量が相対的に高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のコアと結合する。少なくとも一実施例では、プロセッサ２７００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５の一部又はすべてが、プロセッサ２７００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２６１２、グラフィックス・コア２７０２Ａ～２７０２Ｎ、又は図２７の他の構成要素に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図９Ａ又は図９Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２７００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２８は、本明細書に記載した少なくとも一実施例による、グラフィクス・プロセッサ・コア２８００のハードウェア論理のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ・コア２８００は、グラフィックス・コア・アレイ内に含まれる。少なくとも一実施例では、コア・スライスと呼ばれることもあるグラフィックス・プロセッサ・コア２８００は、モジュール式グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアとすることができる。少なくとも一実施例では、グラフィックス・プロセッサ・コア２８００は、１つのグラフィックス・コア・スライスの例示であり、本明細書に記載のグラフィックス・プロセッサは、目的の電力及び性能のエンベロープに基づき、複数のグラフィックス・コア・スライスを含んでもよい。少なくとも一実施例では、各グラフィックス・コア２８００は、汎用及び固定の機能論理のモジュール式ブロックを含むサブ・スライスとも呼ばれる複数のサブ・コア２８０１Ａ～２８０１Ｆに結合された固定機能ブロック２８３０を含むことができる。

少なくとも一実施例では、固定機能ブロック２８３０は、たとえば低性能及び／又は低電力のグラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ２８００内のすべてのサブ・コアが共有できるジオメトリ／固定機能パイプライン２８３６を含む。少なくとも一実施例では、ジオメトリ／固定機能パイプライン２８３６は、３Ｄ固定機能パイプライン、ビデオ・フロント・エンド・ユニット、スレッド・スポーナ（ｓｐａｗｎｅｒ）及びスレッド・ディスパッチャ、並びに統合リターン・バッファを管理する統合リターン・バッファ・マネージャを含む。

少なくとも一実施例では、固定機能ブロック２８３０はまた、グラフィックスＳｏＣインターフェース２８３７、グラフィックス・マイクロコントローラ２８３８、及びメディア・パイプライン２８３９を含む。少なくとも一実施例では、固定のグラフィックスＳｏＣインターフェース２８３７は、グラフィックス・コア２８００と、システム・オン・チップ集積回路内の他のプロセッサ・コアとのインターフェースを提供する。少なくとも一実施例では、グラフィックス・マイクロコントローラ２８３８は、スレッド・ディスパッチ、スケジューリング、及びプリエンプションを含め、グラフィックス・プロセッサ２８００の様々な機能を管理するように構成可能なプログラム可能サブ・プロセッサである。少なくとも一実施例では、メディア・パイプライン２８３９は、画像及びビデオのデータを含むマルチメディア・データのデコーディング、エンコーディング、前処理、及び／又は後処理を容易にする論理を含む。少なくとも一実施例では、メディア・パイプライン２８３９は、サブ・コア２８０１～２８０１Ｆ内のコンピュート論理又はサンプリング論理への要求を介して、メディア動作を実装する。

少なくとも一実施例では、ＳｏＣインターフェース２８３７は、汎用アプリケーション・プロセッサ・コア（たとえば、ＣＰＵ）、及び／又はＳｏＣ内の他の構成要素と、グラフィックス・コア２８００が通信できるようにし、ＳｏＣ内の他の構成要素には、共有ラスト・レベル・キャッシュ・メモリ、システムＲＡＭ、及び／又は組み込みオン・チップ若しくはオン・パッケージのＤＲＡＭなどのメモリ階層要素が含まれる。少なくとも一実施例では、ＳｏＣインターフェース２８３７はまた、カメラ・イメージング・パイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にし、グラフィックス・コア２８００とＳｏＣ内のＣＰＵとの間で共有することができるグローバル・メモリ・アトミックの使用を可能にし、且つ／又はそれを実装する。少なくとも一実施例では、ＳｏＣインターフェース２８３７はまた、グラフィックス・コア２８００の電力管理制御を実装することができ、グラフィックス・コア２８００のクロック・ドメインと、ＳｏＣ内の他のクロック・ドメインとの間でインターフェースをとれるようにする。少なくとも一実施例では、ＳｏＣインターフェース２８３７は、グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアのそれぞれにコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャから、コマンド・バッファを受信できるようにする。少なくとも一実施例では、コマンド及び命令は、メディア動作が実行されるときにはメディア・パイプライン２８３９にディスパッチされることが可能であり、又はグラフィックス処理動作が実行されるときには、ジオメトリ及び固定機能パイプライン（たとえば、ジオメトリ及び固定機能パイプライン２８３６、ジオメトリ及び固定機能パイプライン２８１４）にディスパッチされることが可能である。

少なくとも一実施例では、グラフィックス・マイクロコントローラ２８３８は、グラフィックス・コア２８００のための様々なスケジューリング及び管理タスクを実行するように構成されることが可能である。少なくとも一実施例では、グラフィックス・マイクロコントローラ２８３８は、サブ・コア２８０１Ａ～２８０１Ｆ内の実行ユニット（ＥＵ：ｅｘｅｃｕｔｉｏｎｕｎｉｔ）アレイ２８０２Ａ～２８０２Ｆ、２８０４Ａ～２８０４Ｆ内の様々なグラフィックス並列エンジンで、グラフィックスを実行し、且つ／又はワークロードのスケジューリングをコンピュートすることができる。少なくとも一実施例では、グラフィックス・コア２８００を含むＳｏＣのＣＰＵコア上で実行されているホスト・ソフトウェアは、複数のグラフィックス・プロセッサ・ドアベルのうちの１つにワークロードを送出することができ、このドアベルが、適切なグラフィックス・エンジンに対するスケジューリング動作を呼び出す。少なくとも一実施例では、スケジューリング動作は、どのワークロードを次に実行すべきかを判定すること、コマンド・ストリーマにワークロードを送出すること、エンジン上で実行されている既存のワークロードをプリエンプションすること、ワークロードの進行を管理すること、及びワークロードが完了したときにホスト・ソフトウェアに通知することを含む。少なくとも一実施例では、グラフィックス・マイクロコントローラ２８３８はまた、グラフィックス・コア２８００の低電力又はアイドル状態を促進して、オペレーティング・システム及び／又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態の移行全体にわたってグラフィックス・コア２８００内のレジスタを保存及び復元する機能をグラフィックス・コア２８００に提供することができる。

少なくとも一実施例では、グラフィックス・コア２８００は、図示してあるサブ・コア２８０１Ａ～２８０１Ｆより多くの、又はそれより少ない、Ｎ個までのモジュール式サブ・コアを有してもよい。Ｎ個のサブ・コアのセットごとに、少なくとも一実施例では、グラフィックス・コア２８００はまた、共有機能論理２８１０、共有及び／又はキャッシュ・メモリ２８１２、ジオメトリ／固定機能パイプライン２８１４、並びに様々なグラフィックスを加速し、処理動作をコンピュートするための追加の固定機能論理２８１６を含むことができる。少なくとも一実施例では、共有機能論理２８１０は、グラフィックス・コア２８００内の各Ｎ個のサブ・コアが共有できる論理ユニット（たとえば、サンプラ、数理、及び／又はスレッド間通信の論理）を含むことができる。少なくとも一実施例では、固定の共有の、及び／又はキャッシュのメモリ２８１２は、グラフィックス・コア２８００内のＮ個のサブ・コア２８０１Ａ～２８０１Ｆのためのラスト・レベル・キャッシュとすることができ、また、複数のサブ・コアがアクセスできる共有メモリとしての役割も果たすことができる。少なくとも一実施例では、ジオメトリ／固定機能パイプライン２８１４は、固定機能ブロック２８３０内のジオメトリ／固定機能パイプライン２８３６の代わりに含まれてもよく、同じ又は同様の論理ユニットを含むことができる。

少なくとも一実施例では、グラフィックス・コア２８００は、グラフィックス・コア２８００が使用するための様々な固定機能加速論理を含むことができる追加の固定機能論理２８１６を含む。少なくとも一実施例では、追加の固定機能論理２８１６は、位置限定シェーディング（ｐｏｓｉｔｉｏｎｏｎｌｙｓｈａｄｉｎｇ）に使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、少なくとも２つのジオメトリ・パイプラインが存在しているが、ジオメトリ／固定機能パイプライン２８１６、２８３６内の完全ジオメトリ・パイプラインと選別パイプライン（ｃｕｌｌｐｉｐｅｌｉｎｅ）においてであり、この選別パイプラインは、追加の固定機能論理２８１６内に含まれてもよい追加のジオメトリ・パイプラインである。少なくとも一実施例では、選別パイプラインは、完全ジオメトリ・パイプラインの縮小版である。少なくとも一実施例では、完全パイプライン及び選別パイプラインは、アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。少なくとも一実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、いくつかのインスタンスにおいてシェーディングを早く完了させることができる。たとえば、少なくとも一実施例では、選別パイプラインは、ピクセルをフレーム・バッファにラスタ化及びレンダリングすることなく、頂点の位置属性をフェッチしシェーディングするので、追加の固定機能論理２８１６内の選別パイプライン論理は、メイン・アプリケーションと並列で位置シェーダを実行することができ、完全パイプラインよりも全体的に早く臨界結果（ｃｒｉｔｉｃａｌｒｅｓｕｌｔ）を生成する。少なくとも一実施例では、選別パイプラインは、生成された臨界結果を使用して、すべての三角形について、これらの三角形が選別されているかどうかに関わらず、可視性情報をコンピュートすることができる。少なくとも一実施例では、（このインスタンスではリプレイ・パイプラインと呼ばれてもよい）完全パイプラインは、可視性情報を消費して、選別された三角形を飛ばして可視三角形だけをシェーディングすることができ、この可視性三角形が、最終的にラスタ化フェーズに渡される。

少なくとも一実施例では、追加の固定機能論理２８１６はまた、機械学習の訓練又は推論の最適化を含む実装形態のために、固定機能の行列乗算論理など、機械学習の加速論理を含むことができる。

少なくとも一実施例では、各グラフィックス・サブ・コア２８０１Ａ～２８０１Ｆ内において、実行リソースのセットを含み、このセットは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムからの要求に応答して、グラフィックス動作、メディア動作、及びコンピュート動作を実行するために使用されてもよい。少なくとも一実施例では、グラフィックス・サブ・コア２８０１Ａ～２８０１Ｆは、複数のＥＵアレイ２８０２Ａ～２８０２Ｆ、２８０４Ａ～２８０４Ｆ、スレッド・ディスパッチ及びスレッド間通信（ＴＤ／ＩＣ：ｔｈｒｅａｄｄｉｓｐａｔｃｈａｎｄｉｎｔｅｒ－ｔｈｒｅａｄｃｏｍｍｕｎｉｃａｔｉｏｎ）論理２８０３Ａ～２８０３Ｆ、３Ｄ（たとえば、テクスチャ）サンプラ２８０５Ａ～２８０５Ｆ、メディア・サンプラ２８０６Ａ～２８０６Ｆ、シェーダ・プロセッサ２８０７Ａ～２８０７Ｆ、及び共有ローカル・メモリ（ＳＬＭ：ｓｈａｒｅｄｌｏｃａｌｍｅｍｏｒｙ）２８０８Ａ～２８０８Ｆを含む。ＥＵアレイ２８０２Ａ～２８０２Ｆ、２８０４Ａ～２８０４Ｆはそれぞれ、複数の実行ユニットを含み、これらは、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含むグラフィックス動作、メディア動作、又はコンピュート動作のサービスにおいて浮動小数点及び整数／固定小数点の論理演算を実行することができる汎用グラフィックス・プロセッシング・ユニットである。少なくとも一実施例では、ＴＤ／ＩＣ論理２８０３Ａ～２８０３Ｆは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実行し、サブ・コアの実行ユニット上で実行されているスレッド間の通信を容易にする。少なくとも一実施例では、３Ｄサンプラ２８０５Ａ～２８０５Ｆは、テクスチャ又は他の３Ｄグラフィックス関連のデータをメモリに読み取ることができる。少なくとも一実施例では、３Ｄサンプラは、所与のテクスチャに関連付けられた構成済みサンプル状態及びテクスチャ・フォーマットに基づき、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも一実施例では、メディア・サンプラ２８０６Ａ～２８０６Ｆは、メディア・データに関連付けられたタイプ及びフォーマットに基づき、同様の読取り動作を実行することができる。少なくとも一実施例では、各グラフィックス・サブ・コア２８０１Ａ～２８０１Ｆは、代替的に３Ｄとメディアの統合サンプラを含むことができる。少なくとも一実施例では、各サブ・コア２８０１Ａ～２８０１Ｆ内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドが、オン・チップ・メモリの共通プールを使用して実行できるようにするために、各サブ・コア内の共有ローカル・メモリ２８０８Ａ～２８０８Ｆを利用することができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５の一部又はすべてが、グラフィックス・プロセッサ２８１０に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２６１２、グラフィックス・マイクロコントローラ２８３８、ジオメトリ及び固定機能パイプライン２８１４及び２８３６、又は図２７の他の論理に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図９Ａ又は図９Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２８００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２９Ａ～図２９Ｂは、少なくとも一実施例による、グラフィックス・プロセッサ・コアの処理要素のアレイを含むスレッド実行論理２９００を示す。図２９Ａは、スレッド実行論理２９００が使用される少なくとも一実施例を示す。図２９Ｂは、少なくとも一実施例による、実行ユニットの例示的な内部詳細事項を示す図である。

図２９Ａに示すように、少なくとも一実施例では、スレッド実行論理２９００は、シェーダ・プロセッサ２９０２、スレッド・ディスパッチャ２９０４、命令キャッシュ２９０６、複数の実行ユニット２９０８Ａ～２９０８Ｎを含むスケーラブル実行ユニット・アレイ、サンプラ２９１０、データ・キャッシュ２９１２、及びデータ・ポート２９１４を含む。少なくとも一実施例では、スケーラブル実行ユニット・アレイは、１つ又は複数の実行ユニット（たとえば、実行ユニット２９０８Ａ、２９０８Ｂ、２９０８Ｃ、２９０８Ｄ～２９０８Ｎ－１、及び２９０８Ｎのうちのいずれか）を、たとえばワークロードの計算要件に基づき有効又は無効にすることによって、動的に拡大縮小することができる。少なくとも一実施例では、スケーラブル実行ユニットは、実行ユニットのそれぞれにリンクされる相互接続ファブリックを介して相互接続される。少なくとも一実施例では、スレッド実行論理２９００は、命令キャッシュ２９０６、データ・ポート２９１４、サンプラ２９１０、及び実行ユニット２９０８Ａ～２９０８Ｎのうちの１つ又は複数を介した、システム・メモリ又はキャッシュ・メモリなどのメモリへの１つ又は複数の接続を含む。少なくとも一実施例では、各実行ユニット（たとえば、２９０８Ａ）は、スレッドごとに複数のデータ要素を並列で処理しながら、複数の同時のハードウェア・スレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットである。少なくとも一実施例では、実行ユニット２９０８Ａ～２９０８Ｎのアレイは、任意の数の個々の実行ユニットを含むように拡大縮小可能である。

少なくとも一実施例では、実行ユニット２９０８Ａ～２９０８Ｎは、シェーダ・プログラムを実行するために主に使用される。少なくとも一実施例では、シェーダ・プロセッサ２９０２は、様々なシェーダ・プログラムを処理し、シェーダ・プログラムに関連付けられた実行スレッドを、スレッド・ディスパッチャ２９０４を介してディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ２９０４は、グラフィックス及びメディア・パイプラインからのスレッド開始要求を調停し、要求されたスレッドを、実行ユニット２９０８Ａ～２９０８Ｎの１つ又は複数の実行ユニット上でインスタンス化するための論理を含む。たとえば、少なくとも一実施例では、ジオメトリ・パイプラインは、頂点シェーダ、モザイク・シェーダ、又はジオメトリ・シェーダを、処理できるようにスレッド実行論理にディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ２９０４はまた、実行しているシェーダ・プログラムからのラン・タイム・スレッド・スポーニング要求（ｓｐａｗｎｉｎｇｒｅｑｕｅｓｔ）を処理することができる。

少なくとも一実施例では、実行ユニット２９０８Ａ～２９０８Ｎは、多くの標準的な３Ｄグラフィックス・シェーダ命令のネイティブ・サポートを含む命令セットをサポートし、それにより、グラフィックス・ライブラリ（たとえば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダ・プログラムが、最小のトランスレーションで実行される。少なくとも一実施例では、実行ユニットは、頂点及びジオメトリの処理（たとえば、頂点プログラム、ジオメトリ・プログラム、頂点シェーダ）、ピクセル処理（たとえば、ピクセル・シェーダ、フラグメント・シェーダ）、及び汎用処理（たとえば、コンピュート及びメディアのシェーダ）をサポートする。少なくとも一実施例では、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む各実行ユニット２９０８Ａ～２９０８Ｎのそれぞれは、単一命令複数データ（ＳＩＭＤ）の実行を複数発行することができ、マルチスレッド化された動作によって、メモリ・アクセスのレイテンシが高いにもかかわらず、効率的な実行環境が可能になる。少なくとも一実施例では、各実行ユニット内の各ハードウェア・スレッドは、専用の高帯域幅レジスタ・ファイル及び関連する独立したスレッド状態を有する。少なくとも一実施例では、実行は、整数演算、単精度及び倍精度の浮動小数点演算、ＳＩＭＤブランチ性能、論理演算、超越演算、及び他の種々の演算を行うことができるパイプラインに対して、クロック当たり複数発行される。少なくとも一実施例では、メモリ、又は共有機能のうちの１つからのデータを待機している間に、実行ユニット２９０８Ａ～２９０８Ｎ内の従属論理は、要求したデータが戻されるまで、待機スレッドをスリープ状態にする。少なくとも一実施例では、待機スレッドがスリープ状態の間に、ハードウェア・リソースは他のスレッドの処理に専念してもよい。たとえば、少なくとも一実施例では、頂点シェーダ動作に関連する遅延中に、実行ユニットは、ピクセル・シェーダ、フラグメント・シェーダ、又は異なる頂点シェーダを含む別のタイプのシェーダ・プログラムを実行することができる。

少なくとも一実施例では、実行ユニット２９０８Ａ～２９０８Ｎの各実行ユニットは、データ要素のアレイに対して動作する。少なくとも一実施例では、データ要素の数は「実行サイズ」であり、又は命令に対するチャネルの数である。少なくとも一実施例では、実行チャネルは、データ要素のアクセス、マスキング、及び命令内のフロー制御に関する実行の論理ユニットである。少なくとも一実施例では、チャネルの数は、特定のグラフィックス・プロセッサのための物理的な算術論理演算ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数とは無関係であってもよい。少なくとも一実施例では、実行ユニット２９０８Ａ～２９０８Ｎは、整数及び浮動小数点のデータ・タイプをサポートしてもよい。

少なくとも一実施例では、実行ユニット命令セットは、ＳＩＭＤ命令を含む。少なくとも一実施例では、様々なデータ要素が、パック・データ・タイプとしてレジスタに記憶されてもよく、実行ユニットは、要素のデータ・サイズに基づき様々な要素を処理する。たとえば、少なくとも一実施例では、２５６ビット幅ベクトルで動作しているとき、ベクトルの２５６ビットがレジスタに記憶され、実行ユニットは、４個の別々の６４ビット・パック・データ要素（クワッド・ワード（ＱＷ：Ｑｕａｄ－Ｗｏｒｄ）サイズのデータ要素）、８個の別々の３２ビット・パック・データ要素（ダブル・ワード（ＤＷ：ＤｏｕｂｌｅＷｏｒｄ）サイズのデータ要素）、１６個の別々の１６ビット・パック・データ要素（ワード（Ｗ：Ｗｏｒｄ）サイズのデータ要素）、又は３２個の別々の８ビット・データ要素（バイト（Ｂ：ｂｙｔｅ）サイズのデータ要素）としてベクトル上で動作する。しかし少なくとも一実施例では、異なるベクトル幅及びレジスタサイズが考えられる。

少なくとも一実施例では、１つ又は複数の実行ユニットを組み合わせて、融合ＥＵに共通したスレッド制御論理（２９０７Ａ～２９０７Ｎ）を有する融合実行ユニット（ｆｕｓｅｄｅｘｅｃｕｔｉｏｎｕｎｉｔ）２９０９Ａ～２９０９Ｎにすることができる。少なくとも一実施例では、複数のＥＵを融合して、ＥＵグループにすることができる。少なくとも一実施例では、融合ＥＵグループの各ＥＵは、別々のＳＩＭＤハードウェア・スレッドを実行するように構成されることが可能である。融合ＥＵグループのＥＵの数は、様々な実施例に応じて異なってもよい。少なくとも一実施例では、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含むがこれに限定されない様々なＳＩＭＤ幅を、ＥＵごとに実行することができる。少なくとも一実施例では、各融合グラフィックス実行ユニット２９０９Ａ～２９０９Ｎは、少なくとも２つの実行ユニットを含む。たとえば、少なくとも一実施例では、融合実行ユニット２９０９Ａは、第１のＥＵ２９０８Ａ、第２のＥＵ２９０８Ｂ、及び第１のＥＵ２９０８Ａと第２のＥＵ２９０８Ｂに共通のスレッド制御論理２９０７Ａを含む。少なくとも一実施例では、スレッド制御論理２９０７Ａは、融合グラフィックス実行ユニット２９０９Ａで実行されているスレッドを制御して、融合実行ユニット２９０９Ａ～２９０９Ｎ内の各ＥＵを、共通の命令ポインタ・レジスタを使用して実行できるようにする。

少なくとも一実施例では、１つ又は複数の内部命令キャッシュ（たとえば、２９０６）は、実行ユニットに対するスレッド命令をキャッシュするためにスレッド実行論理２９００に含まれる。少なくとも一実施例では、１つ又は複数のデータ・キャッシュ（たとえば、２９１２）は、スレッド実行中にスレッド・データをキャッシュするために含まれる。少なくとも一実施例では、サンプラ２９１０は、３Ｄ動作のためのテクスチャ・サンプリング、及びメディア動作のためのメディア・サンプリングを実行するために含まれる。少なくとも一実施例では、サンプラ２９１０は、特別なテクスチャ又はメディア・サンプリング機能を含み、サンプリングされたデータを実行ユニットに提供する前に、サンプリング処理中にテクスチャ又はメディアのデータを処理する。

実行中、少なくとも一実施例では、グラフィックス及びメディア・パイプラインは、スレッド開始要求を、スレッド・スポーニング及びディスパッチ論理を介してスレッド実行論理２９００に送る。少なくとも一実施例では、幾何学的物体のグループが処理され、ピクセル・データにラスタ化されたら、シェーダ・プロセッサ２９０２内のピクセル・プロセッサ論理（たとえば、ピクセル・シェーダ論理、フラグメント・シェーダ論理など）が呼び出されて、出力情報をさらにコンピュートし、結果を出力面（たとえば、色バッファ、深度バッファ、ステンシル・バッファなど）に書き込ませる。少なくとも一実施例では、ピクセル・シェーダ又はフラグメント・シェーダは、ラスタ化された物体間で補間されることになる様々な頂点属性の値を計算する。少なくとも一実施例では、次いで、シェーダ・プロセッサ２９０２内のピクセル・プロセッサ論理が、アプリケーション・プログラミング・インターフェース（ＡＰＩ）付きのピクセル・シェーダ・プログラム又はフラグメント・シェーダ・プログラムを実行する。少なくとも一実施例では、シェーダ・プログラムを実行するために、シェーダ・プロセッサ２９０２は、スレッド・ディスパッチャ２９０４を介してスレッドを実行ユニット（たとえば、２９０８Ａ）にディスパッチする。少なくとも一実施例では、シェーダ・プロセッサ２９０２は、サンプラ２９１０のテクスチャ・サンプリング論理を使用して、メモリに記憶されたテクスチャ・マップのテクスチャ・データにアクセスする。少なくとも一実施例では、テクスチャ・データ及び入力ジオメトリ・データに対する算術演算によって、各ジオメトリ・フラグメントのピクセル色データがコンピュートされ、又はさらに処理されないように１つ又は複数のピクセルが切り捨てられる。

少なくとも一実施例では、データ・ポート２９１４は、スレッド実行論理２９００のためのメモリ・アクセス機構を提供して、処理済みデータを、グラフィックス・プロセッサ出力パイプラインでさらに処理できるようにメモリに出力する。少なくとも一実施例では、データ・ポート２９１４は、１つ又は複数のキャッシュ・メモリ（たとえば、データ・キャッシュ２９１２）を含み、又はそれに結合されて、データ・ポートを介したメモリ・アクセスのためのデータをキャッシュする。

図２９Ｂに示してあるように、少なくとも一実施例では、グラフィック実行ユニット２９０８は、命令フェッチ・ユニット２９３７、汎用レジスタ・ファイル・アレイ（ＧＲＦ：ｇｅｎｅｒａｌｒｅｇｉｓｔｅｒｆｉｌｅａｒｒａｙ）２９２４、アーキテクチャ・レジスタ・ファイル・アレイ（ＡＲＦ）２９２６、スレッド調停装置（ａｒｂｉｔｅｒ）２９２２、送信ユニット２９３０、ブランチ・ユニット２９３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）２９３４のセット、及び少なくとも一実施例では、専用整数ＳＩＭＤＡＬＵ２９３５のセットを含むことができる。少なくとも一実施例では、ＧＲＦ２９２４及びＡＲＦ２９２６は、各同時ハードウェア・スレッドに関連付けられた汎用レジスタ・ファイルとアーキテクチャ・レジスタ・ファイルのセットを含み、このハードウェア・スレッドは、グラフィックス実行ユニット２９０８においてアクティブであってもよい。少なくとも一実施例では、スレッドごとのアーキテクチャ状態が、ＡＲＦ２９２６において維持され、スレッド実行中に使用されるデータが、ＧＲＦ２９２４に記憶される。少なくとも一実施例では、各スレッドに対する命令ポインタを含む各スレッドの実行状態は、ＡＲＦ２９２６のスレッド専用レジスタに保持することが可能である。

少なくとも一実施例では、グラフィックス実行ユニット２９０８は、同時マルチスレッディング（ＳＭＴ：ＳｉｍｕｌｔａｎｅｏｕｓＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）と微細化インターリーブ・マルチスレッディング（ＩＭＴ：ＩｎｔｅｒｌｅａｖｅｄＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）の組合せであるアーキテクチャを有する。少なくとも一実施例では、アーキテクチャは、実行ユニット当たりの同時スレッドのターゲット数及びレジスタ数に基づき設計時に微調整することができるモジュール式構成を有し、ここで実行ユニットのリソースは、複数の同時スレッドを実行するために使用される論理にわたって分割される。

少なくとも一実施例では、グラフィックス実行ユニット２９０８は複数の命令を共同発行することができ、この命令は、それぞれ異なる命令であってもよい。少なくとも一実施例では、グラフィックス実行ユニット・スレッド２９０８のスレッド調停装置２９２２は、送信ユニット２９３０、ブランチ・ユニット２９４２、又はＳＩＭＤＦＰＵ２９３４のうちの１つに命令をディスパッチして実行できるようにすることができる。少なくとも一実施例では、各実行スレッドは、ＧＲＦ２９２４内の１２８個の汎用レジスタにアクセスすることができ、ここで各レジスタは、３２ビットのデータ要素のＳＩＭＤ８要素のベクトルとしてアクセス可能な３２バイトを記憶することができる。少なくとも一実施例では、各実行ユニット・スレッドは、ＧＲＦ２９２４内の４Ｋバイトにアクセスすることができるが、実施例はこのように限定されず、他の実施例ではより多くの、又はより少ないリソースが提供されてもよい。少なくとも一実施例では、最大７個のスレッドを同時に実行できるが、実行ユニット当たりのスレッド数も、実施例に応じて変えることができる。７個のスレッドが４Ｋバイトにアクセスできる少なくとも一実施例では、ＧＲＦ２９２４は、合計２８Ｋバイトを記憶することができる。少なくとも一実施例では、フレキシブルなアドレッシング・モードにより、複数のレジスタがともにアドレスされてより幅広いレジスタを構築したり、ストライド設定された矩形ブロック・データ構造を表したりできるようにすることができる。

少なくとも一実施例では、メモリ動作、サンプラ動作、及び他のレイテンシの長いシステム通信は、メッセージ引渡し送信ユニット２９３０によって実行される「送信」命令を介してディスパッチされる。少なくとも一実施例では、ブランチ命令は、ＳＩＭＤの発散及び最終的な収束を容易にするために、専用のブランチ・ユニット２９３２にディスパッチされる。

少なくとも一実施例では、グラフィックス実行ユニット２９０８は、浮動小数点演算を実行するための１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）２９３４を含む。少なくとも一実施例では、ＦＰＵ２９３４は、整数計算もサポートする。少なくとも一実施例ではＦＰＵ２９３４は、最大Ｍ個の３２ビット浮動小数点（若しくは整数）演算をＳＩＭＤで実行し、又は最大で２Ｍ個の１６ビット整数演算、若しくは１６ビット浮動小数点演算をＳＩＭＤで実行することができる。少なくとも一実施例では、ＦＰＵのうちの少なくとも１つは、拡張数理機能を提供して、高スループットの超越数理関数、及び倍精度の６４ビット浮動小数点をサポートする。少なくとも一実施例では、８ビットの整数ＳＩＭＤＡＬＵ２９３５のセットも存在し、機械学習計算に関連する動作を実行するように特に最適化されてもよい。

少なくとも一実施例では、グラフィックス実行ユニット２９０８の複数のインスタンスのアレイが、グラフィックス・サブ・コア・グループ（たとえば、サブ・スライス）においてインスタンス化されてもよい。少なくとも一実施例では、実行ユニット２９０８は、複数の実行チャネルにわたって命令を実行することができる。少なくとも一実施例では、グラフィックス実行ユニット２９０８で実行される各スレッドは、異なるチャネルで実行される。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理９１５の一部又はすべてが、実行論理２９００に組み込まれてもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図９Ａ又は図９Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行論理２９００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図３０は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）３０００を示す。少なくとも一実施例では、ＰＰＵ３０００は、ＰＰＵ３０００によって実行された場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、ＰＰＵ３０００に実行させる機械可読コードで構成される。少なくとも一実施例では、ＰＰＵ３０００はマルチスレッド・プロセッサであり、このプロセッサは、１つ又は複数の集積回路デバイスに実装され、コンピュータ可読命令（機械可読命令若しくは単に命令とも呼ばれる）を、複数のスレッドで並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも一実施例では、スレッドとは、実行スレッドを指し、ＰＰＵ３０００によって実行されるように構成された命令のセットをインスタンス化したものである。少なくとも一実施例では、ＰＰＵ３０００は、液晶ディスプレイ（「ＬＣＤ」）デバイスなどのディスプレイ・デバイスに表示できるように２次元（「２Ｄ」）画像データを生成するために、３次元（「３Ｄ」）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）である。少なくとも一実施例では、ＰＰＵ３０００を利用して、線形代数演算及び機械学習演算などの計算が実行される。図３０は、単に例示を目的とした例示的な並列プロセッサを示しており、本開示の範囲内で企図されるプロセッサ・アーキテクチャの非限定的な例として解釈されるべきであり、同プロセッサに追加するため、且つ／又はそれを置き換えるために、任意の好適なプロセッサが利用されてもよいことが解釈されるべきである。

少なくとも一実施例では、１つ又は複数のＰＰＵ３０００は、高性能コンピューティング（「ＨＰＣ」：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）、データ・センタ、及び機械学習のアプリケーションを加速するように構成される。少なくとも一実施例では、ＰＰＵ３０００は、以下の非限定的な例を含む深層学習システム及びアプリケーションを加速するように構成される：自律車両プラットフォーム、深層学習、高精度音声、画像、テキスト認識システム、インテリジェント・ビデオ分析、分子シミュレーション、創薬、病気診断、天気予報、ビッグ・データ分析、天文学、分子動態シミュレーション、金融モデリング、ロボット工学、工場自動化、リアル・タイム言語翻訳、オンライン検索最適化、及び個別化ユーザ推奨など。

少なくとも一実施例では、ＰＰＵ３０００は、限定することなく、入力／出力（「Ｉ／Ｏ」）ユニット３００６、フロント・エンド・ユニット３０１０、スケジューラ・ユニット３０１２、ワーク分配ユニット３０１４、ハブ３０１６、クロスバー（「Ｘｂａｒ」：ｃｒｏｓｓｂａｒ）３０２０、１つ又は複数の汎用処理クラスタ（「ＧＰＣ」：ｇｅｎｅｒａｌｐｒｏｃｅｓｓｉｎｇｃｌｕｓｔｅｒ）３０１８、及び１つ又は複数のパーティション・ユニット（「メモリ・パーティション・ユニット」）３０２２を含む。少なくとも一実施例では、ＰＰＵ３０００は、１つ又は複数の高速ＧＰＵ相互接続（「ＧＰＵ相互接続」）３００８を介してホスト・プロセッサ又は他のＰＰＵ３０００に接続される。少なくとも一実施例では、ＰＰＵ３０００は、相互接続３００２を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、ＰＰＵ３０００は、１つ又は複数のメモリ・デバイス（「メモリ」）３００４を備えるローカル・メモリに接続される。少なくとも一実施例では、メモリ・デバイス３００４は、限定することなく、１つ又は複数のダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイスを含む。少なくとも一実施例では、１つ又は複数のＤＲＡＭデバイスは、複数のＤＲＡＭダイが各デバイス内で積層された高帯域幅メモリ（「ＨＢＭ」）サブシステムとして構成されても、且つ／又は構成可能であってもよい。

少なくとも一実施例では、高速ＧＰＵ相互接続３００８は、有線ベースのマルチ・レーン通信リンクを指してもよく、このリンクは、拡張縮小するためにシステムによって使用され、１つ又は複数の中央処理装置（「ＣＰＵ」）と組み合わされた１つ又は複数のＰＰＵ３０００を含み、ＰＰＵ３０００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。少なくとも一実施例では、データ及び／又はコマンドは、高速ＧＰＵ相互接続３００８により、ハブ３０１６を介して、１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図３０に明示されていないこともある他の構成要素などのＰＰＵ３０００の別のユニットに／から送信される。

少なくとも一実施例では、Ｉ／Ｏユニット３００６は、システム・バス３００２を介してホスト・プロセッサ（図３０には示さず）から通信（たとえば、コマンド、データ）を送受信するように構成される。少なくとも一実施例では、Ｉ／Ｏユニット３００６は、システム・バス３００２を介して直接、又は１つ若しくは複数の、メモリ・ブリッジなどの中間デバイスを介して、ホスト・プロセッサと通信する。少なくとも一実施例では、Ｉ／Ｏユニット３００６は、システム・バス３００２を介してＰＰＵ３０００のうちの１つ又は複数などの１つ又は複数の他のプロセッサと通信してもよい。少なくとも一実施例では、Ｉ／Ｏユニット３００６は、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩｅ」）インターフェースを実装して、ＰＣＩｅバスを介して通信できるようにする。少なくとも一実施例では、Ｉ／Ｏユニット３００６は、外部デバイスと通信するためのインターフェースを実装する。

少なくとも一実施例では、Ｉ／Ｏユニット３００６は、システム・バス３００２を介して受信したパケットをデコードする。少なくとも一実施例では、少なくともいくつかのパケットは、ＰＰＵ３０００に様々な動作を実行させるように構成されたコマンドを表す。少なくとも一実施例では、Ｉ／Ｏユニット３００６は、デコードされたコマンドを、コマンドによって指定されるＰＰＵ３０００の様々な他のユニットに送信する。少なくとも一実施例では、コマンドは、フロント・エンド・ユニット３０１０に送信され、且つ／又はハブ３０１６、若しくは（図３０には明示していない）１つ若しくは複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなどのＰＰＵ３０００の他のユニットに送信される。少なくとも一実施例では、Ｉ／Ｏユニット３００６はＰＰＵ３０００の様々な論理ユニット間で、通信をルーティングするように構成される。

少なくとも一実施例では、ホスト・プロセッサによって実行されるプログラムは、ワークロードをＰＰＵ３０００に提供して処理できるようにするバッファにおいて、コマンド・ストリームをエンコードする。少なくとも一実施例では、ワークロードは、命令と、これらの命令によって処理されることになるデータとを含む。少なくとも一実施例では、バッファは、ホスト・プロセッサとＰＰＵ３０００の両方がアクセス（たとえば、書込み／読取り）可能なメモリ内の領域であり、ホスト・インターフェース・ユニットは、Ｉ／Ｏユニット３００６によってシステム・バス３００２を介して送信されるメモリ要求を介して、システム・バス３００２に接続されたシステム・メモリ内のバッファにアクセスするように構成されてもよい。少なくとも一実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始点を指すポインタをＰＰＵ３０００に送信し、それによりフロント・エンド・ユニット３０１０は、１つ又は複数のコマンド・ストリームを指すポインタを受信し、１つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをＰＰＵ３０００の様々なユニットに転送する。

少なくとも一実施例では、フロント・エンド・ユニット３０１０は、１つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なＧＰＣ３０１８を構成するスケジューラ・ユニット３０１２に結合される。少なくとも一実施例では、スケジューラ・ユニット３０１２は、スケジューラ・ユニット３０１２によって管理される様々タスクに関連する状態情報を追跡するように構成され、ここで状態情報は、どのＧＰＣ３０１８にタスクが割り当てられるか、タスクがアクティブか非アクティブか、タスクに関連付けられた優先レベルなどを示してもよい。少なくとも一実施例では、スケジューラ・ユニット３０１２は、ＧＰＣ３０１８のうちの１つ又は複数において、複数のタスクの実行を管理する。

少なくとも一実施例では、スケジューラ・ユニット３０１２は、ＧＰＣ３０１８で実行するためのタスクをディスパッチするように構成されたワーク分配ユニット３０１４に結合される。少なくとも一実施例では、ワーク分配ユニット３０１４は、スケジューラ・ユニット３０１２から受信したスケジュール済みタスクの数を追跡し、ワーク分配ユニット３０１４は、ＧＰＣ３０１８のそれぞれについて、ペンディング・タスク・プール、及びアクティブ・タスク・プールを管理する。少なくとも一実施例では、ペンディング・タスク・プールは、特定のＧＰＣ３０１８によって処理されるように割り当てられたタスクを含むいくつかのスロット（たとえば、３２スロット）を備え、アクティブ・タスク・プールは、ＧＰＣ３０１８によりアクティブに処理されているタスクのためのいくつかのスロット（たとえば、４スロット）を備え、それにより、ＧＰＣ３０１８のうちの１つがタスクの実行を完了すると、ＧＰＣ３０１８のアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクのうちの１つが選択され、ＧＰＣ３０１８で実行されるようにスケジューリングされる。少なくとも一実施例では、データ依存性が解決されるのを待機している間など、アクティブ・タスクがＧＰＣ３０１８上でアイドルである場合には、アクティブ・タスクがＧＰＣ３０１８から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プールの別のタスクが選択され、ＧＰＣ３０１８で実行されるようにスケジューリングされる。

少なくとも一実施例では、ワーク分配ユニット３０１４は、Ｘバー３０２０を介して１つ又は複数のＧＰＣ３０１８と通信する。少なくとも一実施例では、Ｘバー３０２０は、ＰＰＵ３０００のユニットのうちの多くを、ＰＰＵ３０００の別のユニットに結合する相互接続ネットワークであり、ワーク分配ユニット３０１４を特定のＧＰＣ３０１８に結合するように構成されることが可能である。少なくとも一実施例では、ＰＰＵ３０００の１つ又は複数の他のユニットも、ハブ３０１６を介してＸバー３０２０に接続されてもよい。

少なくとも一実施例では、タスクはスケジューラ・ユニット３０１２によって管理され、ワーク分配ユニット３０１４によってＧＰＣ３０１８のうちの１つにディスパッチされる。ＧＰＣ３０１８は、タスクを処理し、結果を生成するように構成される。少なくとも一実施例では、結果は、ＧＰＣ３０１８内の他のタスクによって消費されてもよく、Ｘバー３０２０を介して異なるＧＰＣ３０１８にルーティングされてもよく、又はメモリ３００４に記憶されてもよい。少なくとも一実施例では、結果を、パーティション・ユニット３０２２を介してメモリ３００４に書き込むことができ、パーティション・ユニット３０２２は、メモリ３００４への／からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも一実施例では、結果を、高速ＧＰＵ相互接続３００８を介して別のＰＰＵ３００４又はＣＰＵに送信することができる。少なくとも一実施例では、ＰＰＵ３０００は、ＰＰＵ３０００に結合された別々の個別メモリ・デバイス３００４の数に等しいＵ個のパーティション・ユニット３０２２を、限定することなく含む。少なくとも一実施例では、パーティション・ユニット３０２２は、図３２と併せて以下でさらに詳細に説明される。

少なくとも一実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、このカーネルは、ホスト・プロセッサで実行されている１つ又は複数のアプリケーションがＰＰＵ３０００で実行するための動作をスケジューリングできるようにするアプリケーション・プログラミング・インターフェース（ＡＰＩ）を実装している。少なくとも一実施例では、複数のコンピュート・アプリケーションが、ＰＰＵ３０００によって同時に実行され、ＰＰＵ３０００は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質（「ＱｏＳ」：ｑｕａｌｉｔｙｏｆｓｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。少なくとも一実施例では、アプリケーションは、ＰＰＵ３０００によって実行するための１つ又は複数のタスクをドライバ・カーネルに生成させる（たとえば、ＡＰＩコールの形の）命令を生成し、ドライバ・カーネルは、ＰＰＵ３０００によって処理されている１つ又は複数のストリームにタスクを出力する。少なくとも一実施例では、各タスクは、ワープと呼ばれてもよい関連スレッドの１つ又は複数のグループを備える。少なくとも一実施例では、ワープは、並列に実行することができる複数の関連スレッド（たとえば、３２個のスレッド）を備える。少なくとも一実施例では、連動スレッドとは、タスクを実行するための命令を含み、共有メモリを介してデータを交換する複数のスレッドを指してもよい。少なくとも一実施例では、スレッド及び連動スレッドは、図３２と併せて少なくとも一実施例によりさらに詳細に説明される。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＰＰＵ３０００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＰＰＵ３０００は、別のプロセッサ若しくはシステムによって、又はＰＰＵ３０００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＰＰＵ３０００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図３１は、少なくとも一実施例による汎用処理クラスタ（「ＧＰＣ」）３１００を示す。少なくとも一実施例では、ＧＰＣ３１００は、図３０のＧＰＣ３０１８である。少なくとも一実施例では、各ＧＰＣ３１００は、限定することなく、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各ＧＰＣ３１００は、限定することなく、パイプライン・マネージャ３１０２、プレ・ラスタ演算ユニット（「ＰＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ）３１０４、ラスタ・エンジン３１０８、ワーク分配クロスバー（「ＷＤＸ」：ｗｏｒｋｄｉｓｔｒｉｂｕｔｉｏｎｃｒｏｓｓｂａｒ）３１１６、メモリ管理ユニット（「ＭＭＵ」）３１１８、１つ又は複数のデータ処理クラスタ（「ＤＰＣ」：ＤａｔａＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒｓ）３１０６、及びパーツの任意の好適な組合せを含む。

少なくとも一実施例では、ＧＰＣ３１００の動作は、パイプライン・マネージャ３１０２によって制御される。少なくとも一実施例では、パイプライン・マネージャ３１０２は、ＧＰＣ３１００に配分されたタスクを処理するために１つ又は複数のＤＰＣ３１０６の構成を管理する。少なくとも一実施例では、パイプライン・マネージャ３１０２は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、１つ又は複数のＤＰＣ３１０６のうちの少なくとも１つを構成する。少なくとも一実施例では、ＤＰＣ３１０６は、プログラム可能なストリーミング・マルチプロセッサ（「ＳＭ」：ｓｔｒｅａｍｉｎｇｍｕｌｔｉ－ｐｒｏｃｅｓｓｏｒ）３１１４で頂点シェーダ・プログラムを実行するように構成される。少なくとも一実施例では、パイプライン・マネージャ３１０２は、少なくとも一実施例では、ワーク分配ユニットから受信したパケットを、ＧＰＣ３１００内の適切な論理ユニットにルーティングするように構成され、いくつかのパケットは、ＰＲＯＰ３１０４の固定機能ハードウェア・ユニット及び／又はラスタ・エンジン３１０８にルーティングされてもよく、他のパケットは、プリミティブ・エンジン３１１２又はＳＭ３１１４によって処理されるようにＤＰＣ３１０６にルーティングされてもよい。少なくとも一実施例では、パイプライン・マネージャ３１０２は、ニューラル・ネットワーク・モデル及び／又はコンピューティング・パイプラインを実装するように、ＤＰＣ３１０６のうちの少なくとも１つを構成する。

少なくとも一実施例では、ＰＲＯＰユニット３１０４は、少なくとも一実施例では、ラスタ・エンジン３１０８及びＤＰＣ３１０６によって生成されたデータを、図３０と併せて上でより詳細に説明したパーティション・ユニット３０２２のラスタ動作（ＲＯＰ）ユニットにルーティングするように構成される。少なくとも一実施例では、ＰＲＯＰユニット３１０４は、色ブレンディングの最適化を実行し、ピクセル・データを組織化し、アドレス・トランスレーションを実行し、その他の動作を行うように構成される。少なくとも一実施例では、ラスタ・エンジン３１０８は、少なくとも一実施例では様々なラスタ動作を実行するように構成されたいくつかの固定機能ハードウェア・ユニットを、限定することなく含み、ラスタ・エンジン３１０８は、限定することなく、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何プリミティブに関連付けられた平面方程式を生成し、平面方程式が、粗いラスタ・エンジンに送信されて、プリミティブに対するカバレッジ情報（たとえば、タイルのｘ、ｙカバレッジ・マスク）が生成され、粗いラスタ・エンジンの出力が、選別エンジンに送信され、ここでｚテストに落ちたプリミティブに関連付けられたフラグメントが選別され、クリッピング・エンジンに送信され、ここで視錐台の外側にあるフラグメントがクリップされる。少なくとも一実施例では、クリッピング及び選別を通過したフラグメントは、細かいラスタ・エンジンに渡されて、セットアップ・エンジンによって生成された平面方程式に基づき、ピクセル・フラグメントに対する属性が生成される。少なくとも一実施例では、ラスタ・エンジン３１０８の出力は、ＤＰＣ３１０６内に実装されたフラグメント・シェーダによってなど任意の好適なエンティティによって処理されることになるフラグメントを含む。

少なくとも一実施例では、ＧＰＣ３１００に含まれる各ＤＰＣ３１０６は、限定することなく、Ｍパイプ・コントローラ（「ＭＰＣ」：Ｍ－ＰｉｐｅＣｏｎｔｒｏｌｌｅｒ）３１１０、プリミティブ・エンジン３１１２、１つ又は複数のＳＭ３１１４、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、ＭＰＣ３１１０は、ＤＰＣ３１０６の動作を制御して、パイプライン・マネージャ３１０２から受信したパケットを、ＤＰＣ３１０６内の適切なユニットにルーティングする。少なくとも一実施例では、頂点に関連付けられたパケットは、頂点に関連付けられた頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン３１１２にルーティングされ、対照的に、シェーダ・プログラムに関連付けられたパケットは、ＳＭ３１１４に送信されてもよい。

少なくとも一実施例では、ＳＭ３１１４は、いくつかのスレッドにより表されたタスクを処理するように構成されたプログラム可能なストリーミング・プロセッサを、限定することなく含む。少なくとも一実施例では、ＳＭ３１１４はマルチスレッド化されており、スレッドの特定のグループからの複数のスレッド（たとえば、３２個のスレッド）を同時に実行するように構成され、単一命令複数データ（ＳＩＭＤ）アーキテクチャを実装し、ここでスレッドのグループ（ワープ）内の各スレッドは、同じ命令セットに基づき、異なるデータ・セットを処理するように構成される。少なくとも一実施例では、スレッド・グループ内のすべてのスレッドが同じ命令を実行する。少なくとも一実施例では、ＳＭ３１１４は、単一命令複数スレッド（ＳＩＭＴ）アーキテクチャを実装し、ここで、スレッド・グループの各スレッドは、同じ命令セットに基づき、異なるデータ・セットを処理するように構成されるが、スレッド・グループ内の個々のスレッドは、実行中に発散することが許容される。少なくとも一実施例では、プログラム・カウンタ、コール・スタック、及び実行状態がワープごとに維持されて、ワープ内のスレッドが発散するときに、ワープ間の同時処理、及びワープ内での直列実行が可能になる。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が個々のスレッドごとに維持されて、すべてのスレッド間、ワープ内、及びワープ間で等しい同時処理が可能になる。少なくとも一実施例では、実行状態が個々のスレッドごとに維持され、同じ命令を実行しているスレッドが、より効率的になるように収束され並列に実行されてもよい。ＳＭ３１１４の少なくとも一実施例は、以下でさらに詳細に説明される。

少なくとも一実施例では、ＭＭＵ３１１８は、ＧＰＣ３１００とメモリ・パーティション・ユニット（たとえば、図３０のパーティション・ユニット３０２２）との間でインターフェースを提供し、ＭＭＵ３１１８は、仮想アドレスから物理アドレスへのトランスレーション、メモリ保護、及びメモリ要求の調停を提供する。少なくとも一実施例では、ＭＭＵ３１１８は、仮想アドレスからメモリの物理アドレスへのトランスレーションを実行するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（「ＴＬＢ」）を提供する。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＧＰＣ３１００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＧＰＣ３１００は、別のプロセッサ若しくはシステムによって、又はＧＰＣ３１００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＧＰＣ３１００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図３２は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニット３２００を示す。少なくとも一実施例では、パーティション・ユニット３２００は、限定することなく、ラスタ演算（「ＲＯＰ」）ユニット３２０２、レベル２（「Ｌ２」）キャッシュ３２０４、メモリ・インターフェース３２０６、及びそれらの任意の好適な組合せを含む。少なくとも一実施例では、メモリ・インタフェース３２０６はメモリに結合されている。少なくとも一実施例では、メモリ・インタフェース３２０６は、高速データ転送のために、３２、６４、１２８、１０２４ビット・データ・バス、又は同様の実施を行うことができる。少なくとも一実施例では、ＰＰＵは、パーティション・ユニット３２００の対当たりにメモリ・インターフェース３２０６を１つの、Ｕ個のメモリ・インターフェース３２０６を組み込んでおり、ここでパーティション・ユニット３２００の各対は、対応するメモリ・デバイスに接続される。たとえば、少なくとも一実施例では、ＰＰＵは、高帯域幅メモリ・スタック、又はグラフィックス・ダブル・データ・レート、バージョン５、同期ダイナミック・ランダム・アクセス・メモリ（「ＧＤＤＲ５ＳＤＲＡＭ」）など、最大Ｙ個のメモリ・デバイスに接続されてもよい。

少なくとも一実施例では、メモリ・インターフェース３２０６は、高帯域幅メモリの第２世代（「ＨＢＭ２」：ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙｓｅｃｏｎｄｇｅｎｅｒａｔｉｏｎ）メモリ・インターフェースを実装し、ＹはＵの半分に等しい。少なくとも一実施例では、ＨＢＭ２メモリ・スタックは、ＰＰＵと同じ物理パッケージに位置付けられて、従来のＧＤＤＲ５ＳＤＲＡＭシステムに比べて実質的な電力と面積の節約を実現する。少なくとも一実施例では、各ＨＢＭ２スタックは、限定することなく４個のメモリ・ダイを含み、Ｙは４に等しく、各ＨＢＭ２スタックは、１つのダイ当たりに２つの１２８ビット・チャネルの合計８チャネル、及び１０２４ビットのデータ・バス幅を含む。少なくとも一実施例では、メモリは、１ビット・エラー訂正２ビット・エラー検出（「ＳＥＣＤＥＤ」：Ｓｉｎｇｌｅ－ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＤｏｕｂｌｅ－ＥｒｒｏｒＤｅｔｅｃｔｉｎｇ）エラー訂正コード（「ＥＣＣ」）をサポートしてデータを保護する。少なくとも一実施例では、ＥＣＣは、データ破損を受けやすいコンピュート・アプリケーションに、より高い信頼性を提供する。

少なくとも一実施例では、ＰＰＵは、マルチ・レベルのメモリ階層を実装する。少なくとも一実施例では、メモリ・パーティション・ユニット３２００は、統合されたメモリをサポートして、中央処理装置（「ＣＰＵ」）及びＰＰＵメモリに単一の統合された仮想アドレス空間を提供し、仮想メモリ・システム間でのデータの共有を可能にする。少なくとも一実施例では、他のプロセッサに位置付けられたメモリにＰＰＵがアクセスする頻度を追跡して、より頻繁にページにアクセスしているＰＰＵの物理メモリに、メモリ・ページが確実に移動されるようにする。少なくとも一実施例では、高速ＧＰＵ相互接続３００８は、アドレス・トランスレーション・サービスをサポートして、ＰＰＵが直接ＣＰＵのページ・テーブルにアクセスできるようにし、ＰＰＵによるＣＰＵメモリへのフル・アクセスを実現する。

少なくとも一実施例では、コピー・エンジンは、複数のＰＰＵ間、又はＰＰＵとＣＰＵの間で、データを転送する。少なくとも一実施例では、コピー・エンジンは、ページ・テーブルにマッピングされていないアドレスについてページ誤りを生成することができ、次いでメモリ・パーティション・ユニット３２００がページ誤りに対応して、アドレスをページ・テーブルにマッピングし、その後で、コピー・エンジンが転送を実行する。少なくとも一実施例では、メモリは、複数のプロセッサ間でコピー・エンジンの複数の動作についてピン留めされて（たとえば、ページ移動不可能にされて）、実質的に利用可能なメモリを低減させる。少なくとも一実施例では、ハードウェアのページ誤りがある場合、メモリ・ページが常駐であるかどうかに関わらず、アドレスをコピー・エンジンに渡すことができ、コピー・プロセスは透過的である。

少なくとも一実施例によれば、図３０のメモリ３００４又は他のシステム・メモリからのデータは、メモリ・パーティション・ユニット３２００によってフェッチされ、Ｌ２キャッシュ３２０４に記憶され、このＬ２キャッシュは、オン・チップに位置付けられ、様々ＧＰＣ間で共有される。少なくとも一実施例では、各メモリ・パーティション・ユニット３２００は、対応するメモリ・デバイスに関連付けられたＬ２キャッシュの少なくとも一部分を、限定することなく含む。少なくとも一実施例では、より低いレベルのキャッシュが、ＧＰＣ内の様々なユニットに実装される。少なくとも一実施例では、ＳＭ３１１４のそれぞれは、レベル１（「Ｌ１」）キャッシュを実装してもよく、ここでＬ１キャッシュは、特定のＳＭ３１１４専用のプライベート・メモリであり、Ｌ２キャッシュ３２０４からのデータは、ＳＭ３１１４の機能ユニットで処理するために、Ｌ１キャッシュのそれぞれにフェッチされ記憶される。少なくとも一実施例では、Ｌ２キャッシュ３２０４は、メモリ・インターフェース３２０６及びＸバー３０２０に結合される。

少なくとも一実施例では、ＲＯＰユニット３２０２は、色圧縮、ピクセル・ブレンディングなど、ピクセル色に関係するグラフィックス・ラスタ演算を実行する。ＲＯＰユニット３２０２は、少なくとも一実施例では、ラスタ・エンジン３１０８と併せて深度テストを実装して、ピクセル・フラグメントに関連付けられたサンプル・ロケーションの深度を、ラスタ・エンジン３１０８の選別エンジンから受信する。少なくとも一実施例では、深度は、フラグメントに関連付けられたサンプル・ロケーションの深度バッファにおける対応する深度と比べてテストされる。少なくとも一実施例では、フラグメントが、サンプル・ロケーションの深度テストを通過すると、ＲＯＰユニット３２０２は、深度バッファを更新し、深度テストの結果をラスタ・エンジン３１０８に送信する。パーティション・ユニット３２００の数はＧＰＣの数とは異なってもよく、したがって、各ＲＯＰユニット３２０２は、少なくとも一実施例では、ＧＰＣのそれぞれに結合されてもよいことが理解されよう。少なくとも一実施例では、ＲＯＰユニット３２０２は、異なるＧＰＣから受信したパケットを追跡し、ＲＯＰユニット３２０２によって生成された結果を、Ｘバー３０２０を通してどれにルーティングするかを判定する。

図３３は、少なくとも一実施例による、ストリーミング・マルチプロセッサ（「ＳＭ」）３３００を示す。少なくとも一実施例では、ＳＭ３３００は、図３１のＳＭ３１１４である。少なくとも一実施例では、ＳＭ３３００は、限定することなく、命令キャッシュ３３０２、１つ又は複数のスケジューラ・ユニット３３０４、レジスタ・ファイル３３０８、１つ又は複数の処理コア（「コア」）３３１０、１つ又は複数の特殊機能ユニット（「ＳＦＵ」：ｓｐｅｃｉａｌｆｕｎｃｔｉｏｎｕｎｉｔ）３３１２、１つ又は複数のロード／ストア・ユニット（「ＬＳＵ」ｌｏａｄ／ｓｔｏｒｅｕｎｉｔ）３３１４、相互接続ネットワーク３３１６、共有メモリ／レベル１（「Ｌ１」）キャッシュ３３１８、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、ワーク分配ユニットは、並列処理ユニット（「ＰＰＵ」）の汎用処理クラスタ（「ＧＰＣ」）で実行するためにタスクをディスパッチし、各タスクは、ＧＰＣ内の特定のデータ処理クラスタ（「ＤＰＣ」）に配分され、タスクがシェーダ・プログラムに関連する場合には、タスクはＳＭ３３００のうちの１つに配分される。少なくとも一実施例では、スケジューラ・ユニット３３０４は、ワーク分配ユニットからタスクを受信し、ＳＭ３３００に割り当てられた１つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも一実施例では、スケジューラ・ユニット３３０４は、並列スレッドのワープとして実行できるようにスレッド・ブロックをスケジューリングし、ここで各スレッド・ブロックは、少なくとも１つのワープに配分される。少なくとも一実施例では、各ワープは、スレッドを実行する。少なくとも一実施例では、スケジューラ・ユニット３３０４は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを配分し、次いで複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット（たとえば、処理コア３３１０、ＳＦＵ３３１２、及びＬＳＵ３３１４）にディスパッチする。

少なくとも一実施例では、連動グループとは、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し、このモデルは、スレッドが通信する粒度をデベロッパが表せるようにして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも一実施例では、連動した起動ＡＰＩは、並列アルゴリズムを実行できるようにスレッド・ブロック間の同期をサポートする。少なくとも一実施例では、従来のプログラミング・モデルのアプリケーションは、連動スレッドを同期するための単一の簡単な構造、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア（たとえば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）を提供する。しかし、少なくとも一実施例では、プログラマは、スレッド・ブロックの粒度よりも小さいスレッド・グループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形で、より高い性能、設計の融通性、及びソフトウェア再利用を可能にしてもよい。少なくとも一実施例では、連動グループによって、プログラマは、サブ・ブロック（すなわち、単一スレッドと同じ大きさ）の粒度及びマルチ・ブロックの粒度において、スレッドのグループを明示的に定義し、連動グループ内のスレッドに対する同期などの集合的な動作を実行できるようになる。少なくとも一実施例では、プログラミング・モデルは、ソフトウェア境界を横切るクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数を、収束について仮定する必要なくそれらのローカルなコンテキスト内で安全に同期することができる。少なくとも一実施例では、連動グループのプリミティブは、プロデューサ－コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を限定することなく含む新しいパターンの連動並列性を可能にする。

少なくとも一実施例では、ディスパッチ・ユニット３３０６は、機能ユニットの１つ又は複数に命令を送信するように構成され、スケジューラ・ユニット３３０４は、同じワープからの２つの異なる命令を、各クロック・サイクル中にディスパッチできるようにする２つのディスパッチ・ユニット３３０６を限定することなく含む。少なくとも一実施例では、各スケジューラ・ユニット３３０４は、単一のディスパッチ・ユニット３３０６又は追加のディスパッチ・ユニット３３０６を含む。

少なくとも一実施例では、各ＳＭ３３００は、少なくとも一実施例では、ＳＭ３３００の機能ユニットにレジスタのセットを提供するレジスタ・ファイル３３０８を限定することなく含む。少なくとも一実施例では、レジスタ・ファイル３３０８は、各機能ユニットがレジスタ・ファイル３３０８の専用部分に配分されるように、それぞれの機能ユニット間で分割される。少なくとも一実施例では、レジスタ・ファイル３３０８は、ＳＭ３３００によって実行されている異なるワープ間で分割され、レジスタ・ファイル３３０８は、機能ユニットのデータ経路に接続されたオペランド用の一時的なストレージを提供する。少なくとも一実施例では、各ＳＭ３３００は、限定することなく、複数のＬ処理コア３３１０を含む。少なくとも一実施例では、各ＳＭ３３００は、限定することなく、多数の（たとえば、１２８個以上の）個別の処理コア３３１０を含む。少なくとも一実施例では、各処理コア３３１０は、少なくとも一実施例では、浮動小数点算術論理演算ユニット及び整数算術論理演算ユニットを限定することなく含む完全にパイプライン化された、単精度の、倍精度の、及び／又は混合精度の処理ユニットを限定することなく含む。少なくとも一実施例では、浮動小数点算術論理演算ユニットは、浮動小数点演算のためのＩＥＥＥ７５４－２００８規格を実装する。少なくとも一実施例では、処理コア３３１０は、限定することなく、６４個の単精度（３２ビット）浮動小数点コア、６４個の整数コア、３２個の倍精度（６４ビット）浮動小数点コア、及び８個のテンソル・コアを含む。

テンソル・コアは、少なくとも一実施例による行列演算を実行するように構成される。少なくとも一実施例では、１つ又は複数のテンソル・コアは、処理コア３３１０に含まれる。少なくとも一実施例では、テンソル・コアは、ニューラル・ネットワークの訓練及び推論のための畳み込み演算など、深層学習の行列演算を実行するように構成される。少なくとも一実施例では、各テンソル・コアは、４×４の行列で動作し、行列の積和演算（ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅｏｐｅｒａｔｉｏｎ）Ｄ＝Ａ×Ｂ＋Ｃを実行し、ここでＡ、Ｂ、Ｃ、及びＤは４×４の行列である。

少なくとも一実施例では、行列乗算の入力Ａ及びＢは、１６ビットの浮動小数点行列であり、和の行列Ｃ及びＤは、１６ビットの浮動小数点又は３２ビットの浮動小数点行列である。少なくとも一実施例では、テンソル・コアは、３２ビットの浮動小数点の和を有する１６ビットの浮動小数点入力データで動作する。少なくとも一実施例では、１６ビットの浮動小数点乗算は、６４個の演算を使用し、結果的に完全精度の積をもたらし、次いでその積が、４×４×４の行列乗算の他の中間積との３２ビット浮動小数点加算を使用して加算される。テンソル・コアを使用して、少なくとも一実施例では、これらの小さい要素から構築される、はるかに大きい２次元又はさらに高次元の行列演算が実行される。少なくとも一実施例では、ＣＵＤＡ９Ｃ＋＋ＡＰＩなどのＡＰＩは、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも一実施例では、ＣＵＤＡレベルにおいて、ワープ・レベル・インターフェースは、ワープの３２スレッドすべてにわたる１６×１６のサイズの行列を仮定している。

少なくとも一実施例では、各ＳＭ３３００は、特殊関数（たとえば、属性評価、逆数平方根など）を実行するＭ個のＳＦＵ３３１２を、限定することなく含む。少なくとも一実施例では、ＳＦＵ３３１２は、限定することなく、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも一実施例では、ＳＦＵ３３１２は、テクスチャ・マップのフィルタリング動作を実行するように構成されたテクスチャ・ユニットを、限定することなく含む。少なくとも一実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ（たとえば、テクセルの２Ｄアレイ）をロードして、ＳＭ３３００により実行されるシェーダ・プログラムで使用するためのサンプリングされたテクスチャ値を生成するように構成される。少なくとも一実施例では、テクスチャ・マップは、共有メモリ／レベル１キャッシュ３３１８に記憶される。少なくとも一実施例では、テクスチャ・ユニットは、少なくとも一実施例によれば、ミップ・マップ（たとえば、詳細さのレベルが異なるテクスチャ・マップ）を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも一実施例では、各ＳＭ３３００は、限定することなく、２つのテクスチャ・ユニットを含む。

各ＳＭ３３００は、少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３３１８とレジスタ・ファイル３３０８の間でロード及びストア動作を実装するＮ個のＬＳＵ３３１４を、限定することなく含む。各ＳＭ３３００は、少なくとも一実施例では、機能ユニットのそれぞれをレジスタ・ファイル３３０８に接続し、ＬＳＵ３３１４をレジスタ・ファイル３３０８に接続する相互接続ネットワーク３３１６と、共有メモリ／Ｌ１キャッシュ３３１８を、限定することなく含む。少なくとも一実施例では、相互接続ネットワーク３３１６はクロスバーであり、このクロスバーは、いずれかの機能ユニットをレジスタ・ファイル３３０８のいずれかのレジスタに接続し、ＬＳＵ３３１４をレジスタ・ファイル３３０８と共有メモリ／Ｌ１キャッシュ３３１８のメモリ・ロケーションとに接続するように構成されてもよい。

少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３３１８は、少なくとも一実施例では、ＳＭ３３００とプリミティブ・エンジンの間、及びＳＭ３３００のスレッド間でデータ・ストレージ及び通信を可能にするオン・チップ・メモリのアレイである。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３３１８は、限定することなく、１２８ＫＢのストレージ容量を備え、ＳＭ３３００からパーティション・ユニットに向かう経路にある。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３３１８は、少なくとも一実施例では、読取り及び書込みをキャッシュするために使用される。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３３１８、Ｌ２キャッシュ、及びメモリのうちの１つ又は複数は、補助ストレージである。

少なくとも一実施例では、データ・キャッシュと共有メモリ機能とを単一のメモリ・ブロックに組み合わせることによって、両方のタイプのメモリ・アクセスについて性能が向上する。少なくとも一実施例では、容量は、共有メモリを使用しないプログラムによってキャッシュとして使用され、又は使用可能であり、それにより、共有メモリが容量の半分を使用するように構成されている場合、テクスチャ及びロード／ストア動作が、残りの容量を使用することができる。少なくとも一実施例によれば、共有メモリ／Ｌ１キャッシュ３３１８内に統合することによって、共有メモリ／Ｌ１キャッシュ３３１８が、データをストリームするための高スループットの管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供できるようになる。少なくとも一実施例では、汎用並列計算向けに構成されるときには、グラフィックス処理と比べてより簡単な構成を使用することができる。少なくとも一実施例では、固定機能のグラフィックス・プロセッシング・ユニットがバイパスされて、はるかに簡単なプログラミング・モデルが作製される。汎用並列計算の構成では、ワーク分配ユニットは、少なくとも一実施例においてスレッド・ブロックを直接ＤＰＣに割当て及び分配する。少なくとも一実施例では、ブロック内のスレッドは、各スレッドが確実に一意の結果を生成するように、計算において一意のスレッドＩＤを使用して同じプログラムを実行し、ＳＭ３３００を使用して、プログラムを実行し計算を行い、共有メモリ／Ｌ１キャッシュ３３１８を使用してスレッド間で通信し、ＬＳＵ３３１４を使用して、共有メモリ／Ｌ１キャッシュ３３１８及びメモリ・パーティション・ユニットを介してグローバル・メモリを読み取り、書き込む。少なくとも一実施例では、汎用並列計算向けに構成されるときには、ＳＭ３３００は、ＤＣＰ上で新規のワークを起動するためにスケジューラ・ユニット３３０４が使用できるコマンドを書き込む。

少なくとも一実施例では、ＰＰＵは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭装着型ディスプレイ、携帯型電子デバイスなどに含まれ、又はこれらに結合される。少なくとも一実施例では、ＰＰＵは、単一の半導体基板に具体化される。少なくとも一実施例では、ＰＰＵは、追加のＰＰＵ、メモリ、縮小命令セット・コンピュータ（「ＲＩＳＣ」）ＣＰＵ、メモリ管理ユニット（「ＭＭＵ」）、デジタル－アナログ変換器（「ＤＡＣ」：ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）などの１つ又は複数の他のデバイスとともにシステム・オン・チップ（「ＳｏＣ」）に含まれる。

少なくとも一実施例では、ＰＰＵは、１つ又は複数のメモリ・デバイスを含むグラフィックス・カードに含まれてもよい。グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースをとるように構成されてもよい。少なくとも一実施例では、ＰＰＵは、マザーボードのチップセットに含まれる統合グラフィックス・プロセッシング・ユニット（「ｉＧＰＵ」：ｉｎｔｅｇｒａｔｅｄｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）であってもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理９１５が使用される。推論及び／又は訓練論理９１５に関する詳細事項は、図９Ａ及び／又は図９Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＳＭ３３００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＳＭ３３００は、別のプロセッサ若しくはシステムによって、又はＳＭ３３００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＳＭ３３００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

少なくとも一実施例では、単一の半導体プラットフォームとは、単独で単体の半導体ベースの集積回路又はチップを指してもよい。少なくとも一実施例では、マルチ・チップ・モジュールは、オン・チップ動作をシミュレートする接続性が向上した状態で使用されてもよく、従来の中央処理装置（「ＣＰＵ」）及びバスの実装形態の利用を大幅に改善する。少なくとも一実施例では、ユーザの希望に応じて、半導体プラットフォームとは別々に、又は半導体プラットフォームとの様々な組合せで、様々なモジュールがさらに設置されてもよい。

少なくとも一実施例では、機械読取り可能で実行可能なコード若しくはコンピュータ制御論理アルゴリズムの形のコンピュータ・プログラムが、メイン・メモリ１３０４及び／又は二次ストレージに記憶される。コンピュータ・プログラムは、１つ又は複数のプロセッサによって実行された場合に、少なくとも一実施例による様々な機能をシステム１３００が実行できるようにする。少なくとも一実施例では、メモリ１３０４、ストレージ、及び／又はあらゆる他のストレージは、コンピュータ読取り可能媒体の可能な実例である。少なくとも一実施例では、二次ストレージとは、フロッピー（登録商標）・ディスク・ドライブ、磁気テープ・ドライブ、コンパクト・ディスク・ドライブ、デジタル多用途ディスク（「ＤＶＤ」：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）ドライブ、記録デバイス、ユニバーサル・シリアル・バス（「ＵＳＢ」）フラッシュ・メモリなどを表すハード・ディスク・ドライブ及び／若しくはリムーバブル・ストレージ・ドライブなどの任意の好適なストレージ・デバイス又はシステムを指してもよい。少なくとも一実施例では、様々な先の図面のアーキテクチャ及び／又は機能は、ＣＰＵ１３０２、並列処理システム１３１２、ＣＰＵ１３０２と並列処理システム１３１２の両方の機能の少なくとも一部分を実現可能な集積回路、チップセット（たとえば、関連機能を実行するためのユニットとして機能し、販売されるように設計された集積回路のグループなど）、及び集積回路の任意の好適な組合せの文脈において実装される。

少なくとも一実施例では、様々な先の図面のアーキテクチャ及び／又は機能は、汎用コンピュータ・システム、回路板システム、エンタテイメント目的専用のゲーム・コンソール・システム、及び特定用途システムなどの文脈において実装される。少なくとも一実施例では、コンピュータ・システム１３００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭装着型ディスプレイ、携帯型電子デバイス、モバイル・フォン・デバイス、テレビ、ワークステーション、ゲーム・コンソール、組み込みシステム、及び／又は任意の他のタイプの論理の形をとってもよい。

少なくとも一実施例では、並列処理システム１３１２は、限定することなく、複数の並列処理ユニット（「ＰＰＵ」）１３１４、及び関連メモリ１３１６を含む。少なくとも一実施例では、ＰＰＵ１３１４は、相互接続１３１８及びスイッチ１３２０又はマルチプレクサを介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、並列処理システム１３１２は、計算タスクをＰＰＵ１３１４にわたって分配し、これは、たとえば複数のグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）のスレッド・ブロックにわたる計算タスクの分配の一部として、並列化可能とすることができる。少なくとも一実施例では、メモリは、ＰＰＵ１３１４の一部又は全部にわたって共有され、（たとえば、読取り及び／又は書込みアクセスのために）アクセス可能であるが、こうした共有メモリは、ＰＰＵ１３１４に常駐しているローカル・メモリ及びレジスタの使用に対して、性能に不利益をもたらすことがある。少なくとも一実施例では、ＰＰＵ１３１４の動作は、＿ｓｙｎｃｔｈｒｅａｄｓ（）などのコマンドを使用することによって同期され、ここで（たとえば、複数のＰＰＵ１３１４にわたって動作している）ブロック内のすべてのスレッドが、進行前にコードのある一定の実行ポイントに到達する。

他の変形形態は、本開示の範囲内にある。したがって、開示した技法は、様々な修正及び代替的な構成が可能であるが、それらのうち一定の例示的な実施例が図面に示され、上で詳細に説明されてきた。しかし、特定の１つ又は複数の開示された形に本開示を限定する意図はなく、その反対に、特許請求の範囲に定義される開示の趣旨及び範囲に入るすべての修正形態、代替的な構成、及び等価物を網羅することを意図している。

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「収容する（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「含むが、これに限定されない」を意味する）と解釈される。「接続される」という用語は、修飾されずに物理的接続を指している場合には、何か介在するものがあったとしても、部分的に又は完全に中に収容される、取り付けられる、又は互いに接合されるものとして解釈される。本明細書において値の範囲を詳述することは、本明細書において別段の記載がない限り、またそれぞれ別々の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に含まれるそれぞれ別々の値を個々に参照する簡潔な方法として機能することを単に意図しているにすぎない。「セット」（たとえば、「アイテムのセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がない、又は否定されていない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がない、又は否定されていない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すのではなく、サブセットと対応するセットは等しくてもよい。

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という形の言い回しなどの結合語は、別段の具体的な記載のない限り、又は文脈によって明確に否定されていない限り、項目、用語などが、ＡかＢかＣである、又はＡとＢとＣのセットのいずれかの空でないサブセットであることを提示するために一般に使用される文脈で理解される。たとえば、３つの部材を有するセットの説明的な例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、こうした結合語は、ある一定の実施例が、少なくとも１つのＡ、少なくとも１つのＢ、及び少なくとも１つのＣのそれぞれの存在を必要とすることを全体的に暗示するものではない。さらに、別段の記載のない、又は文脈によって否定されていない限り、「複数」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。複数は、少なくとも２つの項目であるが、明示的に、又は文脈によって示されている場合にはそれより多くてもよい。さらに、別段の記載のない、又は文脈からそうでないことが明らかでない限り、「～に基づく」という言い回しは、「少なくとも部分的に～に基づく」を意味し、「～だけに基づく」を意味しない。

本明細書に記載のプロセスの動作は、本明細書に別段の記載のない、又は文脈によって明確に否定されない限り、任意の好適な順序で実行することができる。少なくとも一実施例では、本明細書に記載のプロセス（又はその変形及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実行され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行されるコード（たとえば、実行可能な命令、１つ若しくは複数のコンピュータ・プログラム、又は１つ若しくは複数のアプリケーション）として実装される。少なくとも一実施例では、コードは、たとえば１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形で、コンピュータ読取り可能ストレージ媒体に記憶される。少なくとも一実施例では、コンピュータ読取り可能ストレージ媒体は、一時的な信号（たとえば、伝播する一時的な電気若しくは電磁送信）を除外するが、一時的な信号のトランシーバ内の非一時的なデータ・ストレージ回路（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的なコンピュータ読取り可能ストレージ媒体である。少なくとも一実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的なコンピュータ読取り可能ストレージ媒体のセットに記憶され、このストレージ媒体には、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（すなわち、実行された結果として）、コンピュータ・システムに本明細書に記載の動作を実行させる実行可能命令が記憶されている（又は、実行可能命令を記憶するための他のメモリを有する）。非一時的なコンピュータ読取り可能ストレージ媒体のセットは、少なくとも一実施例では、複数の非一時的なコンピュータ読取り可能ストレージ媒体を備え、複数の非一時的なコンピュータ読取り可能ストレージ媒体の個々の非一時的なストレージ媒体のうちの１つ又は複数には、すべてのコードがないが、複数の非一時的なコンピュータ読取り可能ストレージ媒体は、集合的にすべてのコードを記憶している。少なくとも一実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的なコンピュータ読取り可能ストレージ媒体は命令を記憶し、メインの中央処理装置（「ＣＰＵ」）は一部の命令を実行し、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）は他の命令を実行する。少なくとも一実施例では、コンピュータ・システムの異なる構成要素は、別々のプロセッサを有し、異なるプロセッサは、命令の異なるサブセットを実行する。

したがって、少なくとも一実施例では、コンピュータ・システムは、本明細書に記載のプロセスの動作を単独で又は集合的に実行する１つ又は複数のサービスを実装するように構成され、こうしたコンピュータ・システムは、動作の実行を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも一実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、異なるやり方で動作する複数のデバイスを備える分散型のコンピュータ・システムであり、それにより単一のデバイスがすべての動作を実行しないように分散型のコンピュータ・システムが本明細書に記載の動作を実行する。

本明細書に提供されるあらゆる例、又は例示的な言葉（たとえば、「など」）の使用は、本開示の実施例をより明らかにすることだけを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

本明細書に引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることがあたかも個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用されてもよい。これらの用語は、互いに同義語として意図されていない場合があることを理解すべきである。むしろ、特定の例では、「接続される」又は「結合される」は、２つ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用されてもよい。また「結合される」は、２つ以上の要素が直接互いに接触していないが、なお互いに連動又は相互作用することを意味してもよい。

別段の具体的な記載のない限り、明細書全体を通して「処理する」、「コンピューティング」、「計算する」、又は「判定する」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータをコンピューティング・システムのメモリ、レジスタ、又は他のそのような情報ストレージ・デバイス、送信デバイス、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるよう操作及び／又は変換するコンピュータ若しくはコンピューティング・システム、又は同様の電子コンピューティング・デバイスの行為及び／又はプロセスを指す。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶することができる他の電子データに変換する任意のデバイス、又はデバイスの一部分を指してもよい。非限定的な例として、「プロセッサ」は、ＣＰＵ又はＧＰＵであってもよい。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備えてもよい。本明細書で使用する「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実行するソフトウェア及び／又はハードウェアのエンティティを含んでもよい。また、各プロセスは、命令を直列で又は並列で連続的に又は断続的に実行するための複数のプロセスを指してもよい。「システム」及び「方法」という用語は、１つ又は複数の方法をシステムが具体化することができ、方法がシステムと考えられてもよい場合に限り、本明細書において交換可能に使用される。

本明細書では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又はそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及することができる。アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力することは、関数呼出し、又はアプリケーション・プログラミング・インターフェースへの呼出しのパラメータとしてデータを受信するなど、様々なやり方で実現することができる。いくつかの実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、直列又は並列のインターフェースを介してデータを転送することによって実現することができる。別の実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、提供するエンティティから取得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現することができる。また、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示することにも言及することができる。様々な例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示するプロセスは、関数呼出しの入力又は出力のパラメータ、アプリケーション・プログラミング・インターフェース若しくはプロセス間通信機構のパラメータとしてデータを転送することによって実現することができる。

上の議論は、記載した技法の例示的な実装形態について述べているが、記載した機能を実装するために他のアーキテクチャが使用されてもよく、この他のアーキテクチャは、本開示の範囲内にあることが意図される。さらに、議論を目的として、役割の具体的な分配が定義されているが、様々な機能及び役割は、状況に応じて異なるやり方で分配及び分割されてもよい。

さらに、主題は、構造的特徴及び／又は方法論的動作に特有の言語で説明されてきたが、添付の特許請求の範囲で特許請求される主題は、説明した特有の特徴又は動作に必ずしも限定されないことが理解されるべきである。むしろ、特有の特徴及び動作は、特許請求の範囲を実装する例示的な形として開示されている。

Claims

１つ又は複数のニューラル・ネットワークを使用して、より高い解像度ビデオの前に推論したフレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するように構成された１つ又は複数の算術論理演算ユニット（ＡＬＵ）を備えたプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項１に記載のプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項１に記載のプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項１に記載のプロセッサ。
前記１つ又は複数のＡＬＵは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項１に記載のプロセッサ。
前記前に推論したフレームはバイキュービック・モーション・ワーピングされ、前記１つ又は複数のＡＬＵは、アップサンプリングされている前記アップサンプリングされたより低い解像度ビデオのフレームを一時的にアンチエイリアスするように構成されている、請求項１に記載のプロセッサ。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項１に記載のプロセッサ。
１つ又は複数のニューラル・ネットワークを使用して、より高い解像度ビデオの前のより高い解像度フレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するように構成された１つ又は複数のプロセッサと、
前記１つ又は複数のニューラル・ネットワークを記憶するための１つ又は複数のメモリとを備えたシステム。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項８に記載のシステム。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項９に記載のシステム。
前記１つ又は複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項９に記載のシステム。
前記１つ又は複数のプロセッサは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項９に記載のシステム。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項８に記載のシステム。
１つ又は複数のプロセッサによって行われる場合、前記１つ又は複数のプロセッサに少なくとも、１つ又は複数のニューラル・ネットワークを使用して、より高い解像度ビデオの前のより高い解像度フレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するようにさせる、命令のセットを上に記憶したマシン読取り可能媒体。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項１４に記載のマシン読取り可能媒体。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項１５に記載のマシン読取り可能媒体。
前記１つは複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項１５に記載のマシン読取り可能媒体。
前記１つ又は複数のプロセッサは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項１５に記載のマシン読取り可能媒体。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項１４に記載のマシン読取り可能媒体。
より高い解像度ビデオの前のより高い解像度フレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するように、少なくとも部分的に１つ又は複数のニューラル・ネットワークを訓練するための１つ又は複数の算術論理演算ユニット（ＡＬＵ）を備えたプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項２０に記載のプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項２１に記載のプロセッサ。
前記１つ又は複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項２１に記載のプロセッサ。
前記１つ又は複数のＡＬＵは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項２１に記載のプロセッサ。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項２０に記載のプロセッサ。
より高い解像度ビデオの前のより高い解像度フレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するように、少なくとも部分的に１つ又は複数のニューラル・ネットワークに対応するパラメータを算出するための１つ又は複数のプロセッサと、
前記パラメータを記憶するための１つ又は複数のメモリとを備えたシステム。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項２６に記載のシステム。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項２７に記載のシステム。
前記１つ又は複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項２７に記載のシステム。
前記１つ又は複数のプロセッサは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項２７に記載のシステム。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項２６に記載のシステム。
１つ又は複数のプロセッサによって行われる場合、前記１つ又は複数のプロセッサに少なくとも、より高い解像度ビデオの前のより高い解像度フレームと一体化されたより低い解像度ビデオのアップサンプリングされたフレームを使用する前記より高い解像度ビデオを生成するように少なくとも部分的に１つ又は複数のニューラル・ネットワークを訓練させる、命令のセットを上に記憶したマシン読取り可能媒体。
前記１つ又は複数のニューラル・ネットワークは、より低い及びより高い解像度ビデオ・フレームの対を使用して訓練される、請求項３２に記載のマシン読取り可能媒体。
前記１つ又は複数のニューラル・ネットワークは、少なくともスタイル損失ターム及び一時損失タームを含む複雑な損失関数を使用して訓練される、請求項３３に記載のマシン読取り可能媒体。
前記１つは複数のニューラル・ネットワークは、前記アップサンプリングされたフレーム及び前に推論されたフレームのピクセル値を一体化するための一体化ファクタ及び少なくとも１つのカーネル・ファクタを決定するために訓練される、請求項３３に記載のマシン読取り可能媒体。
前記１つ又は複数のプロセッサは、前記１つ又は複数のニューラル・ネットワークへの入力として提供する前に、ターゲット色空間のシングル・チャネルに前記アップサンプリングされたフレーム及び前に推論したフレームを変換するように構成され、前記より高い解像度ビデオは全色空間内で生成される、請求項３３に記載のマシン読取り可能媒体。
前記より低い解像度ビデオはゲーム・エンジンから受信され、前記より高い解像度ビデオは、前記ゲーム・エンジン上で実行するゲームのゲームプレイ中にプレーヤへの表示のために出力される、請求項３２に記載のマシン読取り可能媒体。