JP2023544231A

JP2023544231A - １つ又は複数のニューラル・ネットワークを使用した画像アップサンプリング

Info

Publication number: JP2023544231A
Application number: JP2022525355A
Authority: JP
Inventors: リュー、シク; ポットーフ、ロバート; リュー、グイリン; サプラ、カラン; バーカー、ジョン; タルジャン、デイヴィッド; ヤニス、ペッカ; ファゲルホルム、エドヴァルド; ヤン、レイ; シー、ケヴィン; サルヴィ、マルコ; ローマン、ティモ; タオ、アンドリュー; キャタンザロ、ブライアン
Original assignee: エヌビディアコーポレーション
Priority date: 2020-10-08
Filing date: 2021-10-06
Publication date: 2023-10-23
Also published as: US20220114702A1; GB2606060A; DE112021000174T5; KR20220080173A; US20220114701A1; US20220114700A1; US20220222778A1; CN114641791A; GB202203653D0; WO2022076583A1

Abstract

画像を生成するための装置、システム、及び技法が提示される。少なくとも１つの実施例では、１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて決定される１つ又は複数のピクセル重みを使用して１つ又は複数の画像を生成するために１つ又は複数のニューラル・ネットワークが使用される。

Description

これは、２０２０年１０月８日に出願された米国特許出願第１７／０６６，２８２号のＰＣＴ出願である。その出願の開示は、すべての目的でその全体を参照により本明細書に組み込む。

少なくとも一実施例は、人工知能を実行し、促進するために使用されるリソースを処理することに関する。たとえば、少なくとも一実施例は、本明細書に記載の様々な新規の技法に従ってニューラル・ネットワークを訓練するために使用されるプロセッサ又はコンピューティング・システムに関する。

画像及びビデオ・コンテンツは、ますます生成され、より高い解像度で、より高い品質のディスプレイ上で表示されつつある。これらのより高い解像度でこのコンテンツを生成するための手法は、しばしば、極めてリソース集約的であり、そのことは、リソース容量が限られたデバイスにとって問題になり得る。さらに、ビデオ・コンテンツは、しばしば、ターゲット・フレーム・レート又は最小フレーム・レートで表示されることが求められ、そのようなフレーム・レートでこの高い解像度のコンテンツを生成することが困難になり得る。しばしば、得られたコンテンツの品質はこれら及び他の制限による制約を受ける。

図面を参照しながら、本開示による様々な実施例について説明する。

少なくとも一実施例による、画像生成システムを示す図である。少なくとも一実施例による、サブピクセル・サンプリング及び対応するピクセル選択を示す図である。少なくとも一実施例による、サブピクセル・サンプリング及び対応するピクセル選択を示す図である。少なくとも一実施例による、シーケンスの画像を生成するためのプロセスを示す図である。少なくとも一実施例による、ピクセル重みを決定するためのプロセスを示す図である。少なくとも一実施例による、生成された画像コンテンツを提供するためのシステムの構成要素を示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、例示的データ・センタ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、例示的な集積回路及び関連するグラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、並列プロセッサを示す図である。少なくとも一実施例による、パーティション・ユニットを示す図である。少なくとも一実施例による、処理クラスタを示す図である。少なくとも一実施例による、グラフィックス・マルチプロセッサを示す図である。少なくとも一実施例による、マルチ・グラフィックス・プロセッシング・ユニット（ＧＰＵ）システムを示す図である。少なくとも一実施例による、グラフィックス・プロセッサを示す図である。少なくとも一実施例による、プロセッサのマイクロ・アーキテクチャを示す図である。少なくとも一実施例による、深層学習アプリケーション・プロセッサを示す図である。少なくとも一実施例による、例示的ニューロモーフィック・プロセッサを示す図である。少なくとも一実施例による、グラフィックス・プロセッサの少なくとも部分を示す図である。少なくとも一実施例による、グラフィックス・プロセッサの少なくとも部分を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも部分を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも部分を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも部分を示す図である。少なくとも一実施例による、並列処理ユニット（「ＰＰＵ」）を示す図である。少なくとも一実施例による、汎用処理クラスタ（「ＧＰＣ」）を示す図である。少なくとも一実施例による、並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニットを示す図である。少なくとも一実施例による、ストリーミング・マルチプロセッサを示す図である。少なくとも一実施例による、先進コンピューティング・パイプラインのための実例データ・フロー図である。少なくとも一実施例による、先進コンピューティング・パイプラインにおいて機械学習モデルを訓練、適応、インスタンス化、及び導入するための実例システムのシステム図である。少なくとも一実施例による、機械学習モデルを訓練するためのプロセスのデータ・フロー図である。少なくとも一実施例による、事前訓練済みアノテーション・モデルを用いてアノテーション・ツールを拡張するためのクライアント・サーバ・アーキテクチャの実例を示す図である。

少なくとも一実施例では、ビデオ・ゲーム・コンテンツ又はアニメーションなどのコンテンツは、レンダラー１０２、レンダリング・エンジン、又は他のそのようなコンテンツ生成器を使用して生成されてもよい。少なくとも一実施例では、レンダラー１０２は、シーケンスの１つ又は複数のフレームのための入力を受信することができ、その入力に少なくとも部分的に基づいて修正された、記憶されたコンテンツ１０４を使用してビデオの画像又はフレームを生成することができる。少なくとも一実施例では、このレンダラー１０２は、遅延シェーディング、グローバル・イルミネーション、ライティングあり透過性、後処理、及びベクトル場を使用したグラフィックス処理ユニット（ＧＰＵ）粒子シミュレーションなどの機能を与えることができる、ＥｐｉｃＧａｍｅｓ社のＵｎｒｅａｌＥｎｇｉｎｅ４によって提供されるものなど、レンダリング・パイプラインの一部であってもよい。少なくとも一実施例では、フル高解像度画像のこの複雑なレンダリングのために必要な処理の量は、少なくとも６０フレーム毎秒（ｆｐｓ：ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）など、現在のフレーム・レートを満たすようにこれらのビデオ・フレームをレンダリングすることを困難にすることがある。少なくとも一実施例では、タイミング要件を満たし、処理リソース要件を低減するために、１つ又は複数の最終出力解像度よりも低い解像度でレンダリング画像１０６を生成するために、レンダラー１０２が代わりに使用されてもよい。少なくとも一実施例では、この低解像度レンダリング画像１０６は、その場合、ターゲット出力解像度に等しい（又は少なくともより近い）解像度で低解像度レンダリング画像１０６のコンテンツを表すアップスケール画像１１０を生成するために、アップスケーラ（ｕｐｓｃａｌｅｒ）１０８を使用して処理されてもよい。

少なくとも一実施例では、（サービス、システム、モジュール、又はデバイスの形態を取ることができる）アップスケーラ・システム１０８が、ビデオ又はアニメーション・シーケンスの個々のフレームをアップスケールするために使用され得る。少なくとも一実施例では、実行されるべきアップスケーリングの量は、１０８０ｐから４Ｋ解像度に移行するなど、レンダリング画像の初期解像度及びディスプレイのターゲット解像度に依存することがある。少なくとも一実施例では、アンチエイリアシング及びテンポラル・スムージングを含み得る、アップサンプリング・プロセスの一部として追加の処理が実行されてもよい。少なくとも一実施例では、ガウス・フィルタを利用するものなど、任意の適切な再構成フィルタが利用されてもよい。少なくとも一実施例では、アップサンプリング・プロセスは、フレームごとに適用され得るサブピクセル・ジッタを考慮に入れる。

少なくとも一実施例では、シーケンスのこれらのアップサンプリングされたビデオ・フレームを推論するために深層学習が使用されてもよい。少なくとも一実施例では、機械学習を利用することもあり、利用しないこともあるスーパー・サンプリング・アルゴリズムが代わりに使用されてもよい。少なくとも一実施例では、初期アンチエイリアシングとアップサンプリングとを組み合わせた形で与える、アンチエイリアシングとスーパー解像度とを組み合わせた時間再構成アルゴリズムが使用されてもよい。少なくとも一実施例では、ビデオ・フレームの対応するシーケンスからの情報が、より高品質のアップサンプリング画像を推論するために使用されてもよい。少なくとも一実施例では、データからの学習を必要としないレンダリング・パイプラインの事前知識に基づく１つ又は複数のヒューリスティックが使用されてもよい。少なくとも一実施例では、これは、ジッタアウェアなアップサンプリングと、アップサンプリングされた解像度でサンプルを蓄積することとを含むことができる。少なくとも一実施例では、この以前のプロセス・データは、アップサンプリング・アルゴリズムのみによって生成されるであろうよりも高品質のアップサンプリング画像１１０を推論するために少なくとも１つのニューラル・ネットワークを含むアップスケーラ１０８への入力として、現在の入力ビデオ・フレームと以前の推論されたフレームとともに、与えられてもよい。少なくとも一実施例では、このアップサンプリングは、ジッタとフレームごとのサンプルとを、それらがより高い解像度であり得る過去のバッファと整合させられるように、実質的にシフトする。

少なくとも一実施例では、このアップスケール画像１１０は、１つ又は複数のブレンディング・ファクタ又はブレンディング重みを決定するためにニューラル・ネットワーク１１２への入力として与えられてもよい。少なくとも一実施例では、このニューラル・ネットワークはまた、現在の画像を再構成するか又は以前の画像とブレンディングするときに適用されるべき少なくとも何らかのフィルタリングを決定することができる。少なくとも一実施例では、この情報は、その場合、このシーケンスの少なくとも１つの以前の画像とブレンディングされるべきブレンディング構成要素１１４にこのアップスケール画像１１０とともに与えられてもよい。少なくとも一実施例では、シーケンスの以前の（又は過去の）画像との現在の画像のこのブレンディングは、良好で鮮明な高解像度出力画像１１６への時間的収束を助けることができ、高解像度出力画像１１６は、次いで、ディスプレイ１２０又は他のそのようなプレゼンテーション機構を介してプレゼンテーションのために提供されてもよい。少なくとも一実施例では、この高解像度出力画像１１６のコピーはまた、このシーケンス中のその後に生成された画像とのブレンディングのために履歴バッファ１１８又は他のそのようなストレージ・ロケーションに記憶されてもよい。少なくとも一実施例では、そのようなプロセスは、細部、時間的安定度、及び、ゴースト発生又は遅延などの一般的なアーティファクトがないことに関して、少なくともネイティブ解像度レンダリングと同等である再構成画像品質で、実際のレンダリングされた解像度よりも数倍（たとえば、２×、４×、又は８×）高い解像度でのリアルタイム・レンダリングのために画像を再構成するために深層学習を活用することができる。少なくとも一実施例では、再構成速度はテンソル・コアを用いて加速されてもよく、本明細書で提示する手法を使用することは、このレンダリング・プロセスをはるかに多くのサンプル効率的にし、様々なアプリケーションについてフレーム毎秒が大幅に増加することにつながり得る。

少なくとも一実施例では、サブピクセル・オフセットが図２Ａ及び図２Ｂに示すように決定され、利用されてもよい。少なくとも一実施例では、シーケンスの個々のフレームをアップスケールするためにアップサンプリング・システムが使用されてもよい。少なくとも一実施例では、これは、ジッタアウェアなアップサンプリングと、アップサンプリングされた解像度でのサンプルの蓄積とを含むことができる。少なくとも一実施例では、この以前のプロセス・データは、現在の入力フレームと以前の推論されたフレームとともに、アップサンプリングされた出力画像を推論するために少なくとも１つのニューラル・ネットワークを含むアップサンプラ・システムへの入力として与えられてもよい。少なくとも一実施例では、基本的なアップサンプリング手法は、図２Ａのビュー２００に示すように使用されてもよい。少なくとも一実施例では、アップサンプリング・プロセスは、より低い解像度のレンダリング画像の各個々のピクセル２０２について実行されてもよい。少なくとも一実施例では、アップスケーリング・プロセスは、図２Ａにおける２倍の高さ及び幅など、サイズがより大きいアップスケール画像中の対応するピクセル領域２１０に適用されたそのピクセルからの色情報を生じ得る。少なくとも一実施例では、このアップスケール画像中のこのピクセル２１０はいくつかの個々のピクセル２１２にセグメント化（又はマッピング）されてもよい。少なくとも一実施例では、アップサンプリングは、図２Ａに示すように、４×アップサンプリングであってもよく、入力画像の各ピクセルは４つのより高い解像度のピクセルにセグメント化されている。

少なくとも一実施例では、中心ピクセル位置を有するピクセルについて色が決定される。少なくとも一実施例では、レンダリングされるべきより低い解像度の画像は、その場合、この中心ピクセル・ロケーションにおいてセンタリングされたこのピクセルについて報告された単一の色値を有する。少なくとも一実施例では、しかしながら、ジッタリングはシーケンス中のフレーム又は画像間で実行されてもよく、色決定の中心点はこのピクセル中の別の点にわずかにシフトされる。少なくとも一実施例では、これは、ピクセル中心からサブピクセル・オフセット２０６だけオフセットされたサンプル点２０４に対応することができる。少なくとも一実施例では、ピクセル分析領域２０８（たとえば、３×３ピクセル分析領域）は、依然として、所与のピクセルについての色情報を決定するために使用されてもよいが、この３×３ピクセル分析のロケーションは、そのピクセル分析領域２０８をセンタリングするために使用されるジッタ・ロケーションに基づいてわずかにシフトする。少なくとも一実施例では、これらのジッタ・ロケーションは、ランダムに、又は決定されたパターン若しくはシーケンスに従ってシーケンスのフレーム間で変動することがある。少なくとも一実施例では、このピクセルについて決定された色データは、クロマ、ＲＧＢ（赤緑青）色値、又はそれの最終色値ではなくピクセルの明るさを表す光度（ｌｕｍｉｎｏｓｉｔｙ）（たとえば、ルーマ）値などのデータを含むことができ、ルーマは、一般に、最終ピクセル値を生成するためにクロマ色値と組み合わせられる。

少なくとも一実施例では、低解像度の画像シーケンスを入力として使用して高解像度画像を再構成するために、事前訓練されたニューラル・ネットワークが使用されてもよい。少なくとも一実施例では、ネイティブ解像度レンダリングに対抗することができる完全な細部をもつ高解像度画像を再構成するために、複数の低解像度のレンダリング画像が時的に蓄積される。少なくとも一実施例では、高解像度レンダリングの完全な細部を取得するために、これらの低解像度サンプルは正しいロケーションにおいて蓄積されるべきである。少なくとも一実施例では、高い解像度で正しい蓄積を達成するために、ブレンディング重みのセットがこのサブピクセル・ジッタ・オフセットから計算されてもよい。少なくとも一実施例では、これらの重みは、より低い解像度のレンダリング画像中の元のサンプル・ロケーションに少なくとも部分的に基づいていてもよい。少なくとも一実施例では、ピクセル領域２１０は、元のサンプル・ロケーション２０４を含むただ１つのピクセル２１４を含む。少なくとも一実施例では、対応するより低い解像度のピクセル２０２についてのサンプリングは、現在このピクセル２１４であるものにセンタリングされたので、このピクセルは、その場合、このピクセル領域の他のピクセル２１２よりも正確な色値又はピクセル値を有する可能性が高い。少なくとも一実施例では、この情報は、シーケンス中の以前の画像とブレンディングするとき、これらのサンプル・ロケーションを含むピクセルの重み付けを増加させるために使用されてもよい。

少なくとも一実施例では、図２Ｂはアップスケール画像中のピクセルのより大きいセット２５０を示す。少なくとも一実施例では、各２×２ピクセル領域は、より低い解像度の画像からのサンプル・ロケーション２０６に対応する１つのピクセルを含む。少なくとも一実施例では、このオフセット情報をブレンディング構成要素に渡すことによって、このブレンディング構成要素は、図２Ｂにおいて影付きピクセル２５２によって示されているように、どのピクセルが実際のサンプル・ロケーションに対応するかを迅速に決定することができる。少なくとも一実施例では、これらのピクセルは、対応するより低い解像度の画像からの実際のサンプリングされたデータにより密接に対応するので、それらはより正確な色データを有する可能性が高いことが決定され得る。少なくとも一実施例では、これらのピクセルは、それぞれのシーケンスの以前の画像又はフレームとブレンディングするときに、より重く重み付けされる。

少なくとも一実施例では、重み決定におけるこの差は、２ステージ・ブレンディング手法を使用して達成され得る。少なくとも一実施例では、追加のブレンディング・ステージが使用されてもよいか、又は異なる重み付けが単一のブレンディング・ステージにおいて決定されてもよい。少なくとも一実施例では、第１のパス又はステージは、サンプル・ロケーションに対応するピクセル２５２のみを以前のフレームとブレンディングする。少なくとも一実施例では、このブレンディングは、０と１との間の値に設定されることがある、このニューラル・ネットワークによって学習された第１のブレンディング重みを使用して実行されてもよく、ここで、０は以前の画像からの色データのみを保持し得、１は、それらのロケーションについてのサンプル・ピクセル２５２からの色データのみを保持し得、その間の値は、対応するピクセルについての色値のブレンディングを表し得る。少なくとも一実施例では、現在のフレームからのサンプル対応ピクセルのみが以前のフレームとブレンディングされているので、この第１のブレンディング値は比較的低いことがある。少なくとも一実施例では、この第１のブレンディング・ステージは、決定された第１のブレンディング重みにおける、サンプル対応ピクセル２５２とこの以前のフレームとのブレンディングである中間表現を生成することができる。

少なくとも一実施例では、現在のアップスケール画像フレームの残っているピクセルがより低い解像度の画像からの実際のサンプルに対応しないことがあるとしても、アーティファクトがほとんどないより鮮明な画像を生成するために、それらの残っているピクセルを以前のフレームからのピクセル値とブレンディングすることが依然として望ましいことがある。少なくとも一実施例では、第２のブレンディング・ステージはこの中間表現と入力アップスケール画像のピクセルとのブレンディングを伴うことができる。少なくとも一実施例では、この中間表現は、サンプリングされたロケーションからのピクセル・データとブレンディングされた以前のフレームからのデータを含む。少なくとも一実施例では、この入力アップスケール画像は、その場合、この中間表現を生成するために使用された対応する第１のブレンディング重みよりも低い（たとえば、＜０．５）第２のブレンディング重みを使用して、この中間表現とブレンディングされてもよい。少なくとも一実施例では、これは、これらのサンプル・ロケーション・ピクセルが効果的なより高いブレンディング・レートでブレンディングされるように、アップスケール画像からの非サンプル・ロケーション・ピクセルがより低い第２のブレンディング重みにおいて以前の画像のピクセルとブレンディングされ、サンプル・ロケーション・ピクセルがこのより低いブレンディング重みとこのより高いブレンディング重みの両方においてこの以前の画像のピクセルとブレンディングされた出力画像を生成する。少なくとも一実施例では、ニューラル・ネットワークがこれらの第１及び第２のブレンディング重みについての最適値を学習する能力は、高い解像度で正しい蓄積を達成することができる出力画像を生じることができる。少なくとも一実施例では、これらのピクセルごとのブレンディング・ファクタを予測することは、ちらつき及びゴースト発生などのアーティファクトを防ぐのを助け、時間的再構成中に動的コンテンツのロバストなハンドリングを行うことができる。少なくとも一実施例では、そのような手法は、動的コンテンツ上でさえ、正しい時間的蓄積を円満に達成するために、サブピクセル・オフセットから計算されたブレンディング重みを深層学習ベースの予測と組み合わせることができる。

少なくとも一実施例では、シーケンスの画像を生成するためのプロセス３００が、図３に示されているように実行されてもよい。少なくとも一実施例では、画像（又はビデオ・フレーム）が第１の解像度でレンダリングされる３０２。少なくとも一実施例では、この画像は、ビデオ、ゲーミング、仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）、拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）、又は他のそのようなアプリケーション又はコンテンツのタイプに関し得る、任意の適切なタイプのコンテンツの一部であってもよい。少なくとも一実施例では、この解像度は、レンダリング・エンジンに対してネイティブものであるか、又は所望のパフォーマンスを与えるものであってもよい。少なくとも一実施例では、このレンダリング画像は、ジッタアウェアなアップサンプリングを使用して第２のより高い解像度にアップサンプリング３０４されてもよく、このシーケンス中の１つ又は複数の以前の画像についての以前のオフセットとは異なり得る、この画像についての決定されるサブピクセル・オフセットが決定される。少なくとも一実施例では、このアップサンプリング画像は、このアップスケール画像を以前の画像とブレンディングするために使用されるべき１つ又は複数のブレンディング重みを決定３０６するために、ニューラル・ネットワークに与えられてもよい。このサブピクセル・オフセット・データを使用してサンプル・ピクセルが決定３０８されてもよく、それらのサンプル・ピクセルはこのより低い解像度のレンダリング画像のサンプル位置に対応する。少なくとも一実施例では、これらのサンプル・ピクセルは、第１のブレンディング重みを使用して、このシーケンス中の以前の画像の対応するピクセルとブレンディング３１０されてもよい。少なくとも一実施例では、このブレンディングは、これらのサンプル・ピクセルとこの以前の画像フレームとのブレンディングである中間表現を生成する。少なくとも一実施例では、このアップサンプリング画像のすべてのピクセルが、第２のブレンディング重みを使用してこの中間表現とブレンディング３１２されてもよい。少なくとも一実施例では、これらの別個のブレンディングは、異なる構成要素、アルゴリズム、又はシステムによって実行されてもよい。少なくとも一実施例では、この第２のブレンディングから生じる画像は、このシーケンスのための出力として与え３１４られてもよく、また、このシーケンス中の後続のフレームとのブレンディングにおいて使用するために履歴バッファに記憶されてもよい。少なくとも一実施例では、このブレンディングされたピクセル・データを複数のフレームにわたって蓄積することは、フル解像度でレンダリングし、はるかに多くのリソース容量を利用する手法と比較したときでも、非常に正確で明瞭な画像をもたらすことができる。少なくとも一実施例では、そのような手法は、ニューラル・ネットワークが、アプリケーション間で変動することがある長いジッタ・シーケンスを知る必要なしに、ジッタ情報の使用を可能にすることができる。少なくとも一実施例では、そのような手法は多角的に一般化され得、それにより、多くのアプリケーションにわたって使用され得る１つのネットワークが訓練されることが可能になる。

少なくとも一実施例では、ピクセル重みを決定するためのプロセス４００は、図４に示されているように実行されてもよい。少なくとも一実施例では、１つ又は複数の画像をアップスケーリングすることから１つ又は複数のサブピクセル・オフセット値が決定される４０２。少なくとも一実施例では、これらのサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル値が決定４０４されてもよい。

少なくとも一実施例では、クライアント・デバイス５０２は、クライアント・デバイス５０２上のコンテンツ・アプリケーション５０４の構成要素と、そのクライアント・デバイス上にローカルに記憶されたデータとを使用して、ゲーミング・セッション又はビデオ閲覧セッションなどのセッションのためのコンテンツを生成することができる。少なくとも一実施例では、セッション・マネージャと、ユーザ・データベース５３４に記憶されたユーザ・データとを利用し得る、コンテンツ・サーバ５２０上で実行しているコンテンツ・アプリケーション５２４（たとえば、ゲーミング又はストリーミング・メディア・アプリケーション）は、少なくともクライアント・デバイス５０２に関連付けられたセッションを開始し得、コンテンツ５３２を、コンテンツ・マネージャ５２６によって決定させ、このタイプのコンテンツ又はプラットフォームのために必要とされる場合、レンダリング・エンジン５２８を使用してレンダリングさせ、ダウンロード、ストリーミング、又は別のそのような伝送チャネルによって送るための適切な送信マネージャ５２２を使用してクライアント・デバイス５０２に送信させることができる。少なくとも一実施例では、このコンテンツを受信するクライアント・デバイス５０２は、ディスプレイ５０６によるビデオ・コンテンツ、及び、スピーカ又はヘッドフォンなど、少なくとも１つのオーディオ再生デバイス５０８による、サウンド及び音楽など、オーディオなど、クライアント・デバイス５０２を介したプレゼンテーションのために、このコンテンツの少なくとも一部をレンダリングするためのレンダリング・エンジン５１０をも含み得るか又は代替的にレンダリング・エンジン５１０を含む、対応するコンテンツ・アプリケーション５０４にこのコンテンツを与えることができる。少なくとも一実施例では、そのコンテンツが以前にダウンロードされたか、又はハード・ドライブ若しくは光ディスク上にローカルに記憶されたていたかもしれない場合など、少なくともコンテンツのその部分についてはネットワーク５４０を介した送信が必要とされないように、このコンテンツの少なくとも一部は、すでに、クライアント・デバイス５０２上に記憶されるか、レンダリングされるか、又はクライアント・デバイス５０２にとってアクセス可能であってもよい。少なくとも一実施例では、このコンテンツをサーバ５２０又はコンテンツ・データベース５３４からクライアント・デバイス５０２に伝達するために、データ・ストリーミングなどの送信機構が使用されてもよい。少なくとも一実施例では、このコンテンツの少なくとも一部分は、コンテンツを生成又は提供するためのコンテンツ・アプリケーション５５２をも含み得るサード・パーティ・コンテンツ・サービス５５０など、別のソースから取得又はストリーミングされてもよい。少なくとも一実施例では、この機能の部分は、複数のコンピューティング・デバイス、又は中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）とＧＰＵとの組合せを含み得るなど、１つ又は複数のコンピューティング・デバイス内の複数のプロセッサを使用して実行されてもよい。

少なくとも一実施例では、コンテンツ・アプリケーション５２４は、コンテンツがクライアント・デバイス５０２に送信される前にこのコンテンツを決定又は分析することができるコンテンツ・マネージャ５２６を含む。少なくとも一実施例では、コンテンツ・マネージャ５２６はまた、提供されるべきコンテンツを生成、修正、又は強調することが可能である他の構成要素を含むか、又は他の構成要素とともに働くことができる。少なくとも一実施例では、これは、第１の解像度でエイリアス化されたコンテンツなどのコンテンツをレンダリングするためのレンダリング・エンジン５２８を含むことができる。少なくとも一実施例では、アップサンプリング又はスケーリング構成要素５３０は、異なる解像度、より高い解像度又はより低い解像度でこの画像の少なくとも１つの追加のバージョンを生成することができ、アンチエイリアシングなど、少なくとも何らかのプロセスを実行することができる。少なくとも一実施例では、少なくとも１つのニューラル・ネットワークを含み得る、ブレンディング構成要素５３２は、本明細書に記載のように、１つ又は複数の以前の画像に対してそれらの画像のうちの１つ又は複数のためのブレンディングを実行することができる。少なくとも一実施例では、コンテンツ・マネージャ５２６は、その場合、クライアント・デバイス５０２に送るための適切な解像度の画像又はビデオ・フレームを選択することができる。少なくとも一実施例では、クライアント・デバイス５０２上のコンテンツ・アプリケーション５０４はまた、この機能のいずれか又はすべてがさらに又は代替的にクライアント・デバイス５０２上で実行され得るように、レンダリング・エンジン５１０、アップサンプリング・モジュール５１２、及びブレンディング・モジュール５１４などの構成要素を含み得る。少なくとも一実施例では、サード・パーティ・コンテンツ・サービス・システム５５０上のコンテンツ・アプリケーション５５２もそのような機能を含むことができる。少なくとも一実施例では、この機能の少なくとも一部が実行されるロケーションは構成可能であり得るか、又は、そのような要因の中でも、クライアント・デバイス５０２のタイプ、又は適切な帯域幅をもつネットワーク接続の利用可能性などの要因に依存し得る。少なくとも一実施例では、それらのニューラル・ネットワーク（又は少なくともそれらのネットワークのためのネットワーク・パラメータ）がコンテンツ・サーバ５２０又はサード・パーティ・システム５５０によって与えられ得る場合、アップサンプリング・モジュール５３０又はブレンディング・モジュール５３２は、この機能を実行又は支援するための１つ又は複数のニューラル・ネットワークを含んでもよい。少なくとも一実施例では、コンテンツ生成のためのシステムは、１つ又は複数のロケーションにおけるハードウェアとソフトウェアの任意の適切な組合せを含むことができる。少なくとも一実施例では、１つ又は複数の解像度の生成された画像又はビデオ・コンテンツはまた、その画像又はビデオ・コンテンツのコピーを記憶するメディア・ソースからのダウンロード又はストリーミングのためになど、他のクライアント・デバイス５６０に提供されるか、又は他のクライアント・デバイス５６０にとって利用可能にされてもよい。少なくとも一実施例では、これは、異なるクライアント・デバイスが、１つ又は複数の超解像度を含む、異なる解像度でそのコンテンツを表示し得る場合、マルチプレーヤ・ゲームのためのゲーム・コンテンツの画像を送信することを含んでもよい。

推論及び訓練の論理
図６Ａは、１つ又は複数の実施例に関して推論及び／又は訓練の動作を実行するために使用される推論及び／又は訓練論理６１５を示す。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。

少なくとも一実施例では、推論及び／又は訓練論理６１５は、１つ又は複数の実施例の態様において推論するように訓練及び／若しくは使用されるニューラル・ネットワークのニューロン若しくは層を構成するための順伝播及び／若しくは出力の重み、及び／若しくは入力／出力データ、及び／若しくは他のパラメータを記憶するためのコード並びに／又はデータ・ストレージ６０１を、限定することなく含んでもよい。少なくとも一実施例では、訓練論理６１５は、整数及び／又は浮動小数点ユニット（総称して算術論理ユニット（ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）を含む論理を構成するために重み及び／又は他のパラメータ情報がロードされるべきである、タイミング及び／又は順序を制御するためのグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ６０１を含んでもよいか、又はそれに結合されてもよい。少なくとも一実施例では、グラフ・コードなどのコードは、このコードがそれに対応するニューラル・ネットワークのアーキテクチャに基づき、重み又は他のパラメータ情報をプロセッサＡＬＵにロードする。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１は、１つ又は複数の実施例の態様を使用する訓練及び／又は推論中の入力／出力データ及び／又は重みパラメータの順方向伝搬中に１つ又は複数の実施例と併せて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ及び／又は入力／出力データを記憶する。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ若しくはシステム・メモリを含む、他のオン・チップ又はオフ・チップ・データ・ストレージとともに含められてもよい。

少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１の任意の部分は、１つ若しくは複数のプロセッサ又は他のハードウェア論理デバイス若しくは回路の内部にあってもよいか、又は外部にあってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１は、キャッシュ・メモリ、ダイナミック・ランダム・アドレス可能メモリ（「ＤＲＡＭ」：ｄｙｎａｍｉｃｒａｎｄｏｍｌｙａｄｄｒｅｓｓａｂｌｅｍｅｍｏｒｙ）、スタティック・ランダム・アドレス可能メモリ（「ＳＲＡＭ」：ｓｔａｔｉｃｒａｎｄｏｍｌｙａｄｄｒｅｓｓａｂｌｅｍｅｍｏｒｙ）、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１が、たとえば、プロセッサの内部にあるか外部にあるか、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ、若しくは何らかの他のストレージ・タイプから構成されるかの選択は、オン・チップ対オフ・チップで利用可能なストレージ、実行される訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練において使用されるデータのバッチ・サイズ、又はこれらの要因の何らかの組合せに依存してもよい。

少なくとも一実施例では、推論及び／又は訓練論理６１５は、１つ又は複数の実施例の態様における推論のために訓練及び／若しくは使用されるニューラル・ネットワークのニューロン又は層に対応する逆方向及び／若しくは出力重み、及び／若しくは入力／出力データを記憶するためのコード及び／又はデータ・ストレージ６０５を、限定することなく、含んでもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０５は、１つ又は複数の実施例の態様を使用する訓練及び／又は推論中の入力／出力データ及び／又は重みパラメータの逆伝搬中に１つ又は複数の実施例と併せて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ及び／又は入力／出力データを記憶する。少なくとも一実施例では、訓練論理６１５は、整数及び／又は浮動小数点ユニット（総称して算術論理ユニット（ＡＬＵ）を含む論理を構成するために重み及び／又は他のパラメータ情報がロードされるべきである、タイミング及び／又は順序を制御するためのグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ６０５を含んでもよく、又はそれに結合されてもよい。少なくとも一実施例では、グラフ・コードなどのコードは、このコードがそれに対応するニューラル・ネットワークのアーキテクチャに基づき、重み又は他のパラメータ情報をプロセッサＡＬＵにロードする。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０５の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ、若しくはシステム・メモリを含む、他のオン・チップ又はオフ・チップ・データ・ストレージとともに含められてもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０５の任意の部分は、１つ又は複数のプロセッサ又は他のハードウェア論理デバイス若しくは回路の内部にあってもよいか、又は外部にあってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０５は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０５が、たとえば、プロセッサの内部にあるか外部にあるか、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ、若しくは何らかの他のストレージ・タイプから構成されるかの選択は、オン・チップ対オフ・チップで利用可能なストレージ、実行される訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練において使用されるデータのバッチ・サイズ、又はこれらの要因の何らかの組合せに依存してもよい。

少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１とコード及び／又はデータ・ストレージ６０５とは別々のストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１とコード及び／又はデータ・ストレージ６０５とは同じストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１と、コード及び／又はデータ・ストレージ６０５とは、部分的に同じストレージ構造であってもよく、部分的に別々のストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１とコード及び／又はデータ・ストレージ６０５との任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３キャッシュ、若しくはシステム・メモリを含む、他のオン・チップ又はオフ・チップ・データ・ストレージとともに含められてもよい。

少なくとも一実施例では、推論及び／又は訓練論理６１５は、訓練及び／又は推論コード（たとえば、グラフ・コード）に少なくとも部分的に基づくか、又はそれによって示される論理演算及び／又は算術演算を実行するための、整数及び／又は浮動小数点ユニットを含む１つ又は複数の算術論理ユニット（「ＡＬＵ」）６１０を、限定することなく含んでもよく、その結果は、コード及び／又はデータ・ストレージ６０１並びに／又はコード及び／又はデータ・ストレージ６０５に記憶される入力／出力及び／又は重みパラメータ・データの関数である、アクティブ化ストレージ６２０に記憶されるアクティブ化（たとえば、ニューラル・ネットワーク内の層若しくはニューロンからの出力値）を生成してもよい。少なくとも一実施例では、アクティブ化ストレージ６２０に記憶されるアクティブ化は、命令又は他のコードを実行したことに応答して、ＡＬＵ６１０によって実行される線形代数計算及び又は行列ベースの計算に従って生成され、ここでコード及び／若しくはデータ・ストレージ６０５並びに／又はコード及び／若しくはデータ・ストレージ６０１に記憶された重み値は、バイアス値、勾配情報、運動量値などの他の値、又は他のパラメータ若しくはハイパーパラメータとともにオペランドとして使用され、これらのいずれか又はすべてが、コード及び／若しくはデータ・ストレージ６０５、又はコード及び／若しくはデータ・ストレージ６０１、又はオン・チップ若しくはオフ・チップの別のストレージに記憶されてもよい。

少なくとも一実施例では、ＡＬＵ６１０は、１つ若しくは複数のプロセッサ、又は他のハードウェア論理デバイス若しくは回路内に含まれるが、別の実施例では、ＡＬＵ６１０は、それらを使用するプロセッサ又は他のハードウェア論理デバイス若しくは回路の外部にあってもよい（たとえばコプロセッサ）。少なくとも一実施例では、ＡＬＵ６１０は、プロセッサの実行ユニット内に含まれてもよく、又は同じプロセッサ内にあるか異なるタイプの異なるプロセッサ（たとえば、中央処理装置、グラフィックス・プロセッシング・ユニット、固定機能ユニットなど）の間で分散されているかのいずれかであるプロセッサの実行ユニットによりアクセス可能なＡＬＵバンク内に、他のやり方で含まれてもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１、コード及び／又はデータ・ストレージ６０５、並びにアクティブ化ストレージ６２０は、同じプロセッサ又は他のハードウェア論理デバイス若しくは回路にあってもよく、別の実施例では、それらは異なるプロセッサ又は他のハードウェア論理デバイス若しくは回路にあってもよく、或いは同じプロセッサ又は他のハードウェア論理デバイス若しくは回路と、異なるプロセッサ又は他のハードウェア論理デバイス若しくは回路との何らかの組合せにあってもよい。少なくとも一実施例では、アクティブ化ストレージ６２０の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３のキャッシュ、若しくはシステム・メモリを含む他のオン・チップ又はオフ・チップのデータ・ストレージとともに含められてもよい。さらに、推論及び／又は訓練コードが、プロセッサ又は他のハードウェア論理若しくは回路にアクセス可能な他のコードとともに記憶されてもよく、プロセッサのフェッチ、デコード、スケジューリング、実行、リタイア、及び／又は他の論理回路を使用してフェッチ及び／又は処理されてもよい。

少なくとも一実施例では、アクティブ化ストレージ６２０は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、アクティブ化ストレージ６２０は、完全に又は部分的に、１つ若しくは複数のプロセッサ又は他の論理回路の内部にあってもよく、又は外部にあってもよい。少なくとも一実施例では、アクティブ化ストレージ６２０が、たとえばプロセッサの内部にあるか外部にあるかの選択、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ、若しくは何らか他のタイプのストレージを含むかの選択は、オン・チップ対オフ・チップの利用可能なストレージ、実行される訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練で使用されるデータのバッチ・サイズ、又はこれらの要因の何からの組合せに応じて決められてもよい。少なくとも一実施例では、図６Ａに示す推論及び／又は訓練論理６１５は、グーグルからのＴｅｎｓｏｒＦｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）からの推論処理ユニット（ＩＰＵ：ｉｎｆｅｒｅｎｃｅｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、又はＩｎｔｅｌＣｏｒｐからのＮｅｒｖａｎａ（登録商標）（たとえば「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（「ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ」）と併せて使用されてもよい。少なくとも一実施例では、図６Ａに示す推論及び／又は訓練論理６１５は、中央処理装置（「ＣＰＵ」：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）ハードウェア、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（「ＦＰＧＡ」：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）など他のハードウェアと併せて使用されてもよい。

図６Ｂは、少なくとも１つ又は複数の実施例による、推論及び／又は訓練論理６１５を示す。少なくとも一実施例では、推論及び／又は訓練論理６１５は、ハードウェア論理を限定することなく含んでもよく、このハードウェア論理では、計算リソースが、ニューラル・ネットワーク内のニューロンの１つ若しくは複数の層に対応する重み値又は他の情報の専用のものであるか、又は他のやり方でそれらと併せてしか使用されない。少なくとも一実施例では、図６Ｂに示す推論及び／又は訓練論理６１５は、グーグルからのＴｅｎｓｏｒＦｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）からの推論処理ユニット（ＩＰＵ）、又はインテルコーポレーションからのＮｅｒｖａｎａ（登録商標）（たとえば「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（ＡＳＩＣ）と併せて使用されてもよい。少なくとも一実施例では、図６Ｂに示す推論及び／又は訓練論理６１５は、中央処理装置（ＣＰＵ）ハードウェア、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など他のハードウェアと併せて使用されてもよい。少なくとも一実施例では、推論及び／又は訓練論理６１５は、限定することなく、コード及び／又はデータ・ストレージ６０１、並びにコード及び／又はデータ・ストレージ６０５を含み、これらを使用して、コード（たとえばグラフ・コード）、重み値、並びに／又はバイアス値、勾配情報、運動量値、及び／若しくは他のパラメータ若しくはハイパーパラメータ情報を含む他の情報を記憶してもよい。図６Ｂに示す少なくとも一実施例では、コード及び／又はデータ・ストレージ６０１並びにコード及び／又はデータ・ストレージ６０５のそれぞれは、それぞれ計算ハードウェア６０２及び計算ハードウェア６０６などの専用計算リソースに関連付けられる。少なくとも一実施例では、計算ハードウェア６０２及び計算ハードウェア６０６のそれぞれは、線形代数関数などの数学的関数を、それぞれコード及び／又はデータ・ストレージ６０１並びにコード及び／又はデータ・ストレージ６０５に記憶された情報に対してのみ実行する１つ又は複数のＡＬＵを備え、その結果は、アクティブ化ストレージ６２０に記憶される。

少なくとも一実施例では、コード並びに／又はデータ・ストレージ６０１及び６０５のそれぞれ、並びに対応する計算ハードウェア６０２及び６０６は、ニューラル・ネットワークの異なる層にそれぞれ対応し、それにより、コード及び／又はデータ・ストレージ６０１並びに計算ハードウェア６０２との１つのストレージ／計算の対６０１／６０２から結果的に生じるアクティブ化は、ニューラル・ネットワークの概念的組織化を反映させるために、コード及び／又はデータ・ストレージ６０５並びに計算ハードウェア６０６との「ストレージ／計算の対６０５／６０６」への入力として提供される。少なくとも一実施例では、ストレージ／計算の対６０１／６０２、及び６０５／６０６は、２つ以上のニューラル・ネットワークの層に対応してもよい。少なくとも一実施例では、ストレージ／計算の対６０１／６０２、及び６０５／６０６の後に、又はそれと並列に、追加のストレージ／計算の対（図示せず）が、推論及び／又は訓練論理６１５に含まれてもよい。

データ・センタ
図７は、少なくとも一実施例が使用されてもよい例示的なデータ・センタ７００を示す。少なくとも一実施例では、データ・センタ７００は、データ・センタ・インフラストラクチャ層７１０、フレームワーク層７２０、ソフトウェア層７３０、及びアプリケーション層７４０を含む。

図７に示すように、少なくとも一実施例では、データセンタ・インフラストラクチャ層７１０は、リソース・オーケストレータ７１２と、グループ化済みコンピューティング・リソース７１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ．」）７１６（１）～７１６（Ｎ）とを含んでもよく、ここで「Ｎ」は任意の正の整数を表す。少なくとも一実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）は、任意の数の中央処理装置（「ＣＰＵ」）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・デバイス（たとえば、ダイナミック読取り専用メモリ）、ストレージ・デバイス（たとえば、ソリッド・ステート・ドライブ又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）、電源モジュール、及び冷却モジュールを含んでもよいが、これらに限定されない。少なくとも一実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうち１つ又は複数のノードＣ．Ｒ．は、上述したコンピューティング・リソースのうちの１つ又は複数を有するサーバであってもよい。

少なくとも一実施例では、グループ化済みコンピューティング・リソース７１４は、１つ若しくは複数のラック（図示せず）内に収容されたノードＣ．Ｒ．の別々のグループ、又は様々なグラフィカル・ロケーション（同じく図示せず）においてデータ・センタに収容された多数のラックを含んでもよい。グループ化済みコンピューティング・リソース７１４内のノードＣ．Ｒ．の別々のグループは、１つ若しくは複数のワークロードをサポートするように構成又は配分されてもよいグループ化済みのコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含んでもよい。少なくとも一実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のラック内でグループ化されて、１つ又は複数のワークロードをサポートするためのコンピュート・リソースが提供されてもよい。少なくとも一実施例では、１つ又は複数のラックはまた、任意の数の電源モジュール、冷却モジュール、及びネットワーク・スイッチを任意の組合せで含んでもよい。

少なくとも一実施例では、リソース・オーケストレータ７１２は、１つ又は複数のノードＣ．Ｒ．７１６（１）～７１６（Ｎ）及び／若しくはグループ化済みコンピューティング・リソース７１４を構成してもよく、又は他のやり方で制御してもよい。少なくとも一実施例では、リソース・オーケストレータ７１２は、データ・センタ７００用のソフトウェア設計インフラストラクチャ（「ＳＤＩ」：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含んでもよい。少なくとも一実施例では、リソース・オーケストレータは、ハードウェア、ソフトウェア、又はこれらの何らかの組合せを含んでもよい。

図７に示す少なくとも一実施例では、フレームワーク層７２０は、ジョブ・スケジューラ７２２、構成マネージャ７２４、リソース・マネージャ７２６、及び分配ファイル・システム７２８を含む。少なくとも一実施例では、フレームワーク層７２０は、ソフトウェア層７３０のソフトウェア７３２、及び／又はアプリケーション層７４０の１つ若しくは複数のアプリケーション７４２をサポートするためのフレームワークを含んでもよい。少なくとも一実施例では、ソフトウェア７３２又はアプリケーション７４２はそれぞれ、アマゾン・ウェブ・サービス、グーグル・クラウド、及びマイクロソフト・アジュールによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでもよい。少なくとも一実施例では、フレームワーク層７２０は、大規模なデータ処理（たとえば「ビック・データ」）のために分配ファイル・システム７２８を使用することができるＡｐａｃｈｅＳｐａｒｋ（登録商標）（以下「Ｓｐａｒｋ」）など、無料でオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一種であってもよいが、これに限定されない。少なくとも一実施例では、ジョブ・スケジューラ７２２は、データ・センタ７００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含んでもよい。少なくとも一実施例では、構成マネージャ７２４は、ソフトウェア層７３０、並びに大規模なデータ処理をサポートするためのＳｐａｒｋ及び分配ファイル・システム７２８を含むフレームワーク層７２０などの異なる層を構成することが可能であってもよい。少なくとも一実施例では、リソース・マネージャ７２６は、分配ファイル・システム７２８及びジョブ・スケジューラ７２２をサポートするようにマッピング若しくは配分されたクラスタ化済み又はグループ化済みのコンピューティング・リソースを管理することが可能であってもよい。少なくとも一実施例では、クラスタ化済み又はグループ化済みのコンピューティング・リソースは、データ・センタ・インフラストラクチャ層７１０にあるグループ化済みコンピューティング・リソース７１４を含んでもよい。少なくとも一実施例では、リソース・マネージャ７２６は、リソース・オーケストレータ７１２と連携して、これらのマッピング又は配分されたコンピューティング・リソースを管理してもよい。

少なくとも一実施例では、ソフトウェア層７３０に含まれるソフトウェア７３２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化済みコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分配ファイル・システム７２８のうちの少なくとも一部分によって使用されるソフトウェアを含んでもよい。１つ又は複数のタイプのソフトウェアは、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアを含んでもよいが、これらに限定されない。

少なくとも一実施例では、アプリケーション層７４０に含まれるアプリケーション７４２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化済みコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分配ファイル・システム７２８のうちの少なくとも一部分によって使用される１つ若しくは複数のタイプのアプリケーションを含んでもよい。１つ若しくは複数のタイプのアプリケーションは、任意の数のゲノム学アプリケーション、認識コンピュート、並びに訓練若しくは推論のソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）を含む機械学習アプリケーション、又は１つ若しくは複数の実施例と併せて使用される他の機械学習アプリケーションを含んでもよいが、これらに限定されない。

少なくとも一実施例では、構成マネージャ７２４、リソース・マネージャ７２６、及びリソース・オーケストレータ７１２のうちのいずれかは、任意の技術的に実行可能なやり方で取得された任意の量及びタイプのデータに基づき、任意の数及びタイプの自己修正措置を実装してもよい。少なくとも一実施例では、自己修正措置は、データ・センタ７００のデータ・センタ演算子が、不良の恐れのある構成を決定しないようにし、十分に利用されていない且つ／又は性能の低いデータ・センタの部分をなくせるようにしてもよい。

少なくとも一実施例では、データ・センタ７００は、１つ若しくは複数の機械学習モデルを訓練し、又は本明細書に記載の１つ若しくは複数の実施例による１つ若しくは複数の機械学習モデルを使用して情報を予測若しくは推論するためのツール、サービス、ソフトウェア、又は他のリソースを含んでもよい。たとえば、少なくとも一実施例では、機械学習モデルは、データ・センタ７００に関して上述したソフトウェア及びコンピューティング・リソースを使用して、ニューラル・ネットワーク・アーキテクチャに従って重みパラメータを計算することによって、訓練されてもよい。少なくとも一実施例では、１つ又は複数のニューラル・ネットワークに対応する訓練済み機械学習モデルは、本明細書に記載の１つ又は複数の技法によって計算された重みパラメータを使用することにより、データ・センタ７００に関して上述したリソースを使用して、情報を推論又は予測するために使用されてもよい。

少なくとも一実施例では、データ・センタは、上述したリソースを使用して訓練及び／又は推論を実行するために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、又は他のハードウェアを使用してもよい。さらに、上述した１つ又は複数のソフトウェア及び／又はハードウェアのリソースは、画像認識、音声認識、又は他の人工知能サービスなどの情報の訓練又は推論の実行を、ユーザが行えるようにするためのサービスとして構成されてもよい。

推論及び／又は訓練論理６１５を使用して、１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作が実行される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図７のシステムにおいて使用されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。少なくとも一実施例では、１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために、この論理がこれらの図の構成要素とともに使用されてもよい。

コンピュータ・システム
図８は、例示的なコンピュータ・システムを示すブロック図であり、このコンピュータ・システムは、少なくとも一実施例による、命令を実行するための実行ユニットを含んでもよいプロセッサとともに形成された、相互接続されたデバイス及び構成要素、システム・オン・チップ（ＳｏＣ）、又はこれらの何らかの組合せを有するシステム８００であってもよい。少なくとも一実施例では、コンピュータ・システム８００は、本明細書に記載の実施例などにおいて本開示に従ってデータを処理するためのアルゴリズムを実行する論理を含む実行ユニットを使用するための、プロセッサ８０２などの構成要素を、限定することなく含んでもよい。少なくとも一実施例では、コンピュータ・システム８００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、ＸｅｏｎＴＭ、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅＴＭ及び／又はＳｔｒｏｎｇＡＲＭＴＭ、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含んでもよいが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含め）他のシステムが使用されてもよい。少なくとも一実施例では、コンピュータ・システム８００は、ワシントン州、レドモンドのマイクロソフトコーポレーションから入手可能なＷＩＮＤＯＷＳ（登録商標）のオペレーティング・システムのあるバージョンを実行してもよいが、他のオペレーティング・システム（たとえば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ（登録商標））、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースが使用されてもよい。

実施例は、携帯型デバイス及び組み込みアプリケーションなど、他のデバイスで使用されてもよい。携帯型デバイスのいくつかの例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、及び携帯型ＰＣを含む。少なくとも一実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（「ＤＳＰ」：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、システム・オン・チップ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：ｎｅｔｗｏｒｋｃｏｍｐｕｔｅｒｓ）、セット・トップ・ボックス、ネットワーク・ハブ、広域ネットワーク（「ＷＡＮ」：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）スイッチ、又は少なくとも一実施例による１つ又は複数の命令を実行することができる任意の他のシステムを含んでもよい。

少なくとも一実施例では、コンピュータ・システム８００は、限定することなくプロセッサ８０２を含んでもよく、このプロセッサ８０２は限定することなく、本明細書に記載の技法による機械学習モデルの訓練及び／又は推論を実行するための１つ又は複数の実行ユニット８０８を含んでもよい。少なくとも一実施例では、コンピュータ・システム８００は、シングル・プロセッサのデスクトップ又はサーバ・システムであるが、別の実施例では、コンピュータ・システム８００はマルチプロセッサ・システムであってもよい。少なくとも一実施例では、プロセッサ８０２は、限定することなく、複合命令セット・コンピュータ（「ＣＩＳＣ」：complex instruction set computer）マイクロプロセッサ、縮小命令セット・コンピューティング（「ＲＩＳＣ」）マイクロプロセッサ、超長命令語（「ＶＬＩＷ」）マイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は任意の他のプロセッサ・デバイス、たとえばデジタル信号プロセッサなどを含んでもよい。少なくとも一実施例では、プロセッサ８０２は、プロセッサ・バス８１０に結合されてもよく、このプロセッサ・バスは、プロセッサ８０２とコンピュータ・システム８００内の他の構成要素との間でデジタル信号を送信してもよい。

少なくとも一実施例では、プロセッサ８０２は、限定することなく、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）８０４を含んでもよい。少なくとも一実施例では、プロセッサ８０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ８０２の外部にあってもよい。他の実施例は、特定の実装形態及び必要性に応じて、内部キャッシュと外部キャッシュの両方の組合せも含んでよい。少なくとも一実施例では、レジスタ・ファイル８０６は、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタを限定することなく含む様々レジスタに、異なるタイプのデータを記憶してもよい。

少なくとも一実施例では、整数及び浮動小数点の演算を実行するための論理を限定することなく含む実行ユニット８０８も、プロセッサ８０２にある。少なくとも一実施例では、プロセッサ８０２は、ある一定のマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）も含んでよい。少なくとも一実施例では、実行ユニット８０８は、パック命令セット８０９に対処する論理を含んでもよい。少なくとも一実施例では、パック命令セット８０９を、命令を実行する関連回路とともに汎用プロセッサ８０２の命令セットに含めることにより、多くのマルチメディア・アプリケーションによって使用される演算を、汎用プロセッサ８０２のパック・データを使用して実行することができる。１つ又は複数の実施例では、プロセッサのデータ・バスの全幅を使用してパック・データの演算を実行することによって、多くのマルチメディア・アプリケーションを加速し、より効率的に実行することができ、これにより、１度に１つのデータ要素に対して１つ又は複数の演算を実行するためにプロセッサのデータ・バス間でより小さい単位のデータを転送する必要をなくすことができる。

少なくとも一実施例では、実行ユニット８０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用されてもよい。少なくとも一実施例では、コンピュータ・システム８００は、限定することなくメモリ８２０を含んでもよい。少なくとも一実施例では、メモリ８２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」）デバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装されてもよい。少なくとも一実施例では、メモリ８２０は、プロセッサ８０２によって実行されてもよいデータ信号によって表される命令８１９、及び／又はデータ８２１を記憶してもよい。

少なくとも一実施例では、システム論理チップが、プロセッサ・バス８１０及びメモリ８２０に結合されてもよい。少なくとも一実施例では、システム論理チップは、限定することなく、メモリ・コントローラ・ハブ（「ＭＣＨ」：ｍｅｍｏｒｙｃｏｎｔｒｏｌｌｅｒｈｕｂ）８１６を含んでもよく、プロセッサ８０２は、プロセッサ・バス８１０を介してＭＣＨ８１６と通信してもよい。少なくとも一実施例では、ＭＣＨ８１６は、命令及びデータを記憶するため、及びグラフィックス・コマンド、データ、及びテクスチャを記憶するために、高帯域幅メモリ経路８１８をメモリ８２０に提供してもよい。少なくとも一実施例では、ＭＣＨ８１６は、プロセッサ８０２と、メモリ８２０と、コンピュータ・システム８００の他の構成要素との間でデータ信号を導き、プロセッサ・バス８１０と、メモリ８２０と、システムＩ／Ｏ８２２との間でデータ信号をブリッジしてもよい。少なくとも一実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供してもよい。少なくとも一実施例では、ＭＣＨ８１６は、高帯域幅メモリ経路８１８を介してメモリ８２０に結合されてもよく、グラフィックス／ビデオカード８１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）相互接続８１４を介してＭＣＨ８１６に結合されてもよい。

少なくとも一実施例では、コンピュータ・システム８００は、ＭＣＨ８１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）８３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスであるシステムＩ／Ｏ８２２を使用してもよい。少なくとも一実施例では、ＩＣＨ８３０は、ローカルのＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供してもよい。少なくとも一実施例では、ローカルＩ／Ｏバスは、周辺装置をメモリ８２０、チップセット、及びプロセッサ８０２に接続するための高速Ｉ／Ｏバスを、限定することなく含んでもよい。例としては、オーディオ・コントローラ８２９、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）８２８、ワイヤレス・トランシーバ８２６、データ・ストレージ８２４、ユーザ入力及びキーボードのインターフェース８２５を含むレガシーＩ／Ｏコントローラ８２３、ユニバーサル・シリアル・バス（「ＵＳＢ」：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのシリアル拡張ポート８２７、及びネットワーク・コントローラ８３４が、限定することなく含まれてもよい。データ・ストレージ８２４は、ハード・ディスク・ドライブ、フロッピー（登録商標）・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備えてもよい。

少なくとも一実施例では、図８は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図８は例示的なシステム・オン・チップ（「ＳｏＣ」: ｓｙｓｔｅｍｏｎｃｈｉｐ）を示してもよい。少なくとも一実施例では、図ｃｃで示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、コンピュータ・システム８００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ：ｃｏｍｐｕｔｅｅｘｐｒｅｓｓｌｉｎｋ）相互接続を使用して相互接続されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図８のシステムにおいて使用されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。少なくとも一実施例では、１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために、この論理がこれらの図の構成要素とともに使用されてもよい。

図９は、少なくとも一実施例による、プロセッサ９１０を利用するための電子デバイス９００を示すブロック図である。少なくとも一実施例では、電子デバイス９００は、たとえば限定することなく、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、又は任意の他の好適な電子デバイスであってもよい。

少なくとも一実施例では、システム９００は、任意の好適な数又は種類の構成要素、周辺装置、モジュール、若しくはデバイスに通信可能に結合されたプロセッサ９１０を、限定することなく含んでもよい。少なくとも一実施例では、プロセッサ９１０は、１℃バス、システム・マネージメント・バス（「ＳＭＢｕｓ」：ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、ロー・ピン・カウント（ＬＰＣ：ＬｏｗＰｉｎＣｏｕｎｔ）バス、シリアル・ペリフェラル・インターフェース（「ＳＰＩ」：ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）、ハイ・デフィニション・オーディオ（「ＨＤＡ」：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＡｕｄｉｏ）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：ＳｅｒｉａｌＡｄｖａｎｃｅＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）バス、ユニバーサル・シリアル・バス（「ＵＳＢ」）（バージョン１、２、３）、又はユニバーサル非同期レシーバ／トランスミッタ（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなどのバス若しくはインターフェースを使用して結合される。少なくとも一実施例では、図９は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図９は例示的なシステム・オン・チップ（「ＳｏＣ」）を示してもよい。少なくとも一実施例では、図９に示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、図９の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ）相互接続を使用して相互接続されてもよい。

少なくとも一実施例では、図９は、ディスプレイ９２４、タッチ画面９２５、タッチ・パッド９３０、近距離無線通信ユニット（「ＮＦＣ」：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓｕｎｉｔ）９４５、センサ・ハブ９４０、熱センサ９４６、エクスプレス・チップセット（「ＥＣ」：ＥｘｐｒｅｓｓＣｈｉｐｓｅｔ）９３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：ＴｒｕｓｔｅｄＰｌａｔｆｏｒｍＭｏｄｕｌｅ）９３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）９２２、ＤＳＰ９６０、ソリッド・ステート・ディスク（「ＳＳＤ」：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）若しくはハード・ディスク・ドライブ（「ＨＤＤ」：ＨａｒｄＤｉｓｋＤｒｉｖｅ）などのドライブ９２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋｕｎｉｔ）９５０、Ｂｌｕｅｔｏｏｔｈユニット９５２、ワイヤレス広域ネットワーク・ユニット（「ＷＷＡＮ」：ＷｉｒｅｌｅｓｓＷｉｄｅＡｒｅａＮｅｔｗｏｒｋｕｎｉｔ）９５６、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）９５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）９５４、及び／又は、たとえばＬＰＤＤＲ３規格に実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：ＬｏｗＰｏｗｅｒＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリ・ユニット（「ＬＰＤＤＲ３」）９１５を含んでもよい。これらの構成要素は、それぞれ任意の好適なやり方で実装されてもよい。

少なくとも一実施例では、上述した構成要素を介して、他の構成要素がプロセッサ９１０に通信可能に結合されてもよい。少なくとも一実施例では、加速度計９４１、周囲光センサ（「ＡＬＳ」：ＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒ）９４２、コンパス９４３、及びジャイロスコープ９４４が、センサ・ハブ９４０に通信可能に結合されてもよい。少なくとも一実施例では、熱センサ９３９、ファン９３７、キーボード９４６、及びタッチ・パッド９３０が、ＥＣ９３５に通信可能に結合されてもよい。少なくとも一実施例では、スピーカ９６３、ヘッドフォン９６４、及びマイクロフォン（「ｍｉｃ」）９６５が、オーディオ・ユニット（「オーディオ・コーデック及びクラスＤアンプ」）９６２に通信可能に結合されてもよく、このオーディオ・ユニットが、ＤＳＰ９６０に通信可能に結合されてもよい。少なくとも一実施例では、オーディオ・ユニット９６４は、たとえば限定することなく、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤアンプリファイアを含んでもよい。少なくとも一実施例では、ＳＩＭカード（「ＳＩＭ」）９５７は、ＷＷＡＮユニット９５６に通信可能に結合されてもよい。少なくとも一実施例では、ＷＬＡＮユニット９５０及びＢｌｕｅｔｏｏｔｈユニット９５２などの構成要素、並びにＷＷＡＮ９５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＦｏｒｍＦａｃｔｏｒ）に実装されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／若しくはアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにシステム図９において使用されてもよい。

図１０は、少なくとも一実施例によるコンピュータ・システム１０００を示す。少なくとも一実施例では、コンピュータ・システム１０００は、本開示全体にわたって説明する様々なプロセス及び方法を実装するように構成される。

少なくとも一実施例では、コンピュータ・システム１０００は、限定することなく、ペリフェラル・コンポーネント・インターコネクト（「ＰＣＩ」：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩ－Ｅｘｐｒｅｓｓ」：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）、ハイパートランスポート、又は任意の他のバス又はポイントツーポイント通信プロトコルなど、任意の好適なプロトコルを使用して実装された通信バス１０１０に接続された少なくとも１つの中央処理ユニット（「ＣＰＵ」）１００２を備える。少なくとも一実施例では、コンピュータ・システム１０００は、限定することなく、メイン・メモリ１００４、及び（たとえば、ハードウェア、ソフトウェア、又はこれらの組合せとして実装される）制御論理を含み、データは、ランダム・アクセス・メモリ（「ＲＡＭ」）の形態をとってもよいメイン・メモリ１００４に記憶される。少なくとも一実施例では、ネットワーク・インターフェース・サブシステム（「ネットワーク・インターフェース」）１０２２は、コンピュータ・システム１０００から、他のシステムからデータを受信し、他のシステムにデータを送信するための他のコンピューティング・デバイス及びネットワークとのインターフェースを与える。

少なくとも一実施例では、コンピュータ・システム１０００は、少なくとも一実施例では、限定することなく、入力デバイス１００８と、並列処理システム１０１２と、従来の陰極線管（「ＣＲＴ」：ｃａｔｈｏｄｅｒａｙｔｕｂｅ）、液晶ディスプレイ（「ＬＣＤ」：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、発光ダイオード（「ＬＥＤ」：ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）、プラズマ・ディスプレイ、又は他の好適なディスプレイ技術を使用して実装され得るディスプレイ・デバイス１００６とを含む。少なくとも一実施例では、ユーザ入力は、キーボード、マウス、タッチ・パッド、マイクロフォンなどの入力デバイス１００８から受信される。少なくとも一実施例では、上記のモジュールのそれぞれは、処理システムを形成するために単一の半導体プラットフォーム上に位置してもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／又はアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにシステム図１０において使用されてもよい。

図１１は、少なくとも一実施例によるコンピュータ・システム１１００を示す。少なくとも一実施例では、コンピュータ・システム１１００は、限定することなく、コンピュータ１１１０及びＵＳＢスティック１１２０を含む。少なくとも一実施例では、コンピュータ１１１０は、限定することなく、任意の数及びタイプのプロセッサ（図示せず）並びにメモリ（図示せず）を含んでもよい。少なくとも一実施例では、コンピュータ１１１０は、限定することなく、サーバ、クラウド・インスタンス、ラップトップ、及びデスクトップ・コンピュータを含む。

少なくとも一実施例では、ＵＳＢスティック１１２０は、限定することなく、処理ユニット１１３０、ＵＳＢインターフェース１１４０、及びＵＳＢインターフェース論理１１５０を含む。少なくとも一実施例では、処理ユニット１１３０は、命令を実行することが可能な任意の命令実行システム、装置、又はデバイスであってもよい。少なくとも一実施例では、処理ユニット１１３０は、限定することなく、任意の数及びタイプの処理コア（図示せず）を含んでもよい。少なくとも一実施例では、処理コア１１３０は、機械学習に関連する任意の量及びタイプの演算を実行するように最適化された特定用途向け集積回路（「ＡＳＩＣ」）を備える。たとえば、少なくとも一実施例では、処理コア１１３０は、機械学習推論演算を実行するように最適化されたテンソル処理ユニット（「ＴＰＣ」：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）である。少なくとも一実施例では、処理コア１１３０は、機械視覚及び機械学習推論演算を実行するように最適化された視覚処理ユニット（「ＶＰＵ」：ｖｉｓｉｏｎｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）である。

少なくとも一実施例では、ＵＳＢインターフェース１１４０は任意のタイプのＵＳＢコネクタ又はＵＳＢソケットであってもよい。たとえば、少なくとも一実施例では、ＵＳＢインターフェース１１４０はデータ及び電源のためのＵＳＢ３．０Ｔｙｐｅ－Ｃソケットである。少なくとも一実施例では、ＵＳＢインターフェース１１４０はＵＳＢ３．０Ｔｙｐｅ－Ａコネクタである。少なくとも一実施例では、ＵＳＢインターフェース論理１１５０は、処理ユニット１１３０がＵＳＢコネクタ１１４０を介してデバイス（たとえば、コンピュータ１１１０）とインターフェースすることを可能にする任意の量及びタイプの論理を含んでもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／若しくはアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにシステム図１１において使用されてもよい。

図１２Ａは、複数のＧＰＵ１２１０～１２１３が、高速リンク１２４０～１２４３（たとえば、バス、ポイントツーポイント相互接続など）を介して複数のマルチ・コア・プロセッサ１２０５～１２０６に通信可能に結合されている例示的なアーキテクチャを示す。一実施例では、高速リンク１２４０～１２４３は、４ＧＢ／秒、３０ＧＢ／秒、８０ＧＢ／秒、又はそれ以上の通信スループットをサポートする。ＰＣＩｅ４．０又は５．０、及びＮＶＬｉｎｋ２．０を含むがこれらに限定されない様々な相互接続プロトコルが使用されてもよい。

さらに、一実施例では、ＧＰＵ１２１０～１２１３のうちの２つ以上は高速リンク１２２９～１２３０を介して相互接続され、これらは、高速リンク１２４０～１２４３に使用されたものと同じ又は異なるプロトコル／リンクを使用して実装されてもよい。同様に、マルチ・コア・プロセッサ１２０５～１２０６のうちの２つ以上は、高速リンク１２２８を介して接続されてもよく、この高速リンク１２２８は、２０ＧＢ／秒、３０ＧＢ／秒、１２０ＧＢ／秒、又はそれ以上で動作する対称型マルチプロセッサ（ＳＭＰ）バスとすることができる。或いは、図１２Ａに示す様々なシステム構成要素間のすべての通信は、同じプロトコル／リンクを使用して（たとえば、共通の相互接続ファブリックを介して）実現されてもよい。

一実施例では、各マルチ・コア・プロセッサ１２０５～１２０６は、それぞれメモリ相互接続１２２６～１２２７を介してプロセッサ・メモリ１２０１～１２０２に通信可能に結合され、各ＧＰＵ１２１０～１２１３は、それぞれＧＰＵメモリ・相互接続１２５０～１２５３を介してＧＰＵメモリ１２２０～１２２３に通信可能に結合される。メモリ相互接続１２２６～１２２７及び１２５０～１２５３は、同じ又は異なるメモリ・アクセス技術を利用してもよい。例として、限定ではなく、プロセッサ・メモリ１２０１～１２０２及びＧＰＵメモリ１２２０～１２２３は、（積層ＤＲＡＭを含む）ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又は高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。一実施例では、（たとえば、２レベルのメモリ（２ＬＭ）階層を使用して）、プロセッサ・メモリ１２０１～１２０２のいくつかの部分は揮発性メモリであってもよく、別の部分は不揮発性メモリであってもよい。

以下に記載するように、様々なプロセッサ１２０５～１２０６及びＧＰＵ１２１０～１２１３は、それぞれ特定のメモリ１２０１～１２０２、１２２０～１２２３に物理的に結合されてもよいが、同じ仮想システムのアドレス空間（「実効アドレス」空間とも呼ぶ）が様々な物理メモリ間に分配されている統合されたメモリ・アーキテクチャが実装されてもよい。たとえば、プロセッサ・メモリ１２０１～１２０２はそれぞれ、６４ＧＢのシステム・メモリ・アドレス空間を備えてもよく、ＧＰＵメモリ１２２０～１２２３はそれぞれ、３２ＧＢのシステム・メモリ・アドレス空間を備えてもよい（本実例では、合計２５６ＧＢのアドレス指定可能メモリが得られる）。

図１２Ｂは、１つの例示的な実施例によるマルチ・コア・プロセッサ１２０７とグラフィックス加速モジュール１２４６との相互接続のさらなる詳細事項を示す。グラフィックス加速モジュール１２４６は、高速リンク１２４０を介してプロセッサ１２０７に結合されるライン・カードに集積された１つ又は複数のＧＰＵチップを含んでもよい。或いは、グラフィックス加速モジュール１２４６は、プロセッサ１２０７と同じパッケージ又はチップに集積されてもよい。

少なくとも一実施例では、示されるプロセッサ１２０７は、複数のコア１２６０Ａ～１２６０Ｄを含み、それぞれのコアが、トランスレーション・ルックアサイド・バッファ１２６１Ａ～１２６１Ｄと、１つ又は複数のキャッシュ１２６２Ａ～１２６２Ｄとを有する。少なくとも一実施例では、コア１２６０Ａ～１２６０Ｄは、命令を実行しデータを処理するための、図示していない様々な他の構成要素を含んでもよい。キャッシュ１２６２Ａ～１２６２Ｄは、レベル１（Ｌ１）及びレベル２（Ｌ２）のキャッシュを備えてもよい。さらに、１つ又は複数の共有キャッシュ１２５６が、キャッシュ１２６２Ａ～１２６２Ｄに含まれ、コア１２６０Ａ～１２６０Ｄのセットによって共有されてもよい。たとえば、プロセッサ１２０７の一実施例は、２４個のコアを含み、各コアが、独自のＬ１キャッシュ、１２個の共有Ｌ２キャッシュ、及び１２個の共有Ｌ３キャッシュを有する。この実施例では、１つ又は複数のＬ２及びＬ３のキャッシュが、２つの隣接するコアによって共有される。プロセッサ１２０７及びグラフィックス加速モジュール１２４６は、システム・メモリ１２１４に接続されており、このシステム・メモリは、図１２Ａのプロセッサ・メモリ１２０１～１２０２を含んでもよい。

様々なキャッシュ１２６２Ａ～１２６２Ｄ、１２５６、及びシステム・メモリ１２１４に記憶されたデータ及び命令については、コヒーレンス・バス１２６４を介したコア間通信によって、コヒーレンスが維持される。たとえば、各キャッシュは、特定のキャッシュ・ラインに対する読取り又は書込みを検出したことに応答して、コヒーレンス・バス１２６４を介して通信するために、それに関連するキャッシュ・コヒーレンス論理／回路を有してもよい。一実装形態では、キャッシュ・アクセスを監視するために、コヒーレンス・バス１２６４を介してキャッシュ・スヌーピング・プロトコルが実装される。

一実施例では、プロキシ回路１２２５が、グラフィックス加速モジュール１２４６をコヒーレンス・バス１２６４に通信可能に結合して、グラフィックス加速モジュール１２４６がコア１２６０Ａ～１２６０Ｄのピアとしてキャッシュ・コヒーレンス・プロトコルに参加できるようにする。特に、インターフェース１２３５は、高速リンク１２４０（たとえば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）を介してプロキシ回路１２２５への接続を提供し、インターフェース１２３７は、グラフィックス加速モジュール１２４６をリンク１２４０に接続する。

一実装形態では、アクセラレータ統合回路１２３６は、グラフィックス加速モジュール１２４６の複数のグラフィックス処理エンジン１２３１、１２３２、Ｎの代わりに、キャッシュ管理、メモリ・アクセス、コンテンツ管理、及び割込み管理のサービスを提供する。グラフィックス処理エンジン１２３１、１２３２、Ｎはそれぞれ、別個のグラフィックス・プロセッシング・ユニット（ＧＰＵ）を備えてもよい。或いは、グラフィックス処理エンジン１２３１、１２３２、Ｎは、ＧＰＵの中に、グラフィックス実行ユニット、メディア処理エンジン（たとえば、ビデオ・エンコーダ／デコーダ）、サンプラ、及びブリット・エンジンなど、異なるタイプのグラフィックス処理エンジンを備えてもよい。少なくとも一実施例では、グラフィックス加速モジュール１２４６は、複数のグラフィックス処理エンジン１２３１～１２３２、Ｎを有するＧＰＵであってもよく、又はグラフィックス処理エンジン１２３１～１２３２、Ｎは、共通のパッケージ、ライン・カード、若しくはチップに集積された個々のＧＰＵであってもよい。

一実施例では、アクセラレータ統合回路１２３６は、仮想から物理のメモリ・トランスレーション（実効から実（ｅｆｆｅｃｔｉｖｅ－ｔｏ－ｒｅａｌ）のメモリ・トランスレーションとも呼ばれる）など、様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）１２３９、及びシステム・メモリ１２１４にアクセスするためのメモリ・アクセス・プロトコルを含む。ＭＭＵ１２３９は、仮想／実効から物理／実へのアドレス・トランスレーションをキャッシュするためのトランスレーション・ルックアサイド・バッファ（ＴＬＢ）（図示せず）も含むことができる。一実装形態では、キャッシュ１２３８は、グラフィックス処理エンジン１２３１～１２３２、Ｎから効率的にアクセスできるように、コマンド及びデータを記憶する。一実施例では、キャッシュ１２３８及びグラフィックス・メモリ１２３３～１２３４、Ｍに記憶されたデータは、コア・キャッシュ１２６２Ａ～１２６２Ｄ、１２５６、及びシステム・メモリ１２１４とコヒーレントに保たれる。上述のように、これは、キャッシュ１２３８及びメモリ１２３３～１２３４、Ｍの代わりにプロキシ回路１２２５を介して（たとえば、プロセッサ・キャッシュ１２６２Ａ～１２６２Ｄ、１２５６におけるキャッシュ・ラインの修正／アクセスに関するアップデートをキャッシュ１２３８に送り、キャッシュ１２３８からのアップデートを受け取って）実現されてもよい。

レジスタ１２４５のセットが、グラフィックス処理エンジン１２３１～１２３２、Ｎによって実行されるスレッドのためのコンテキスト・データを記憶し、コンテキスト管理回路１２４８が、スレッド・コンテキストを管理する。たとえば、コンテキスト管理回路１２４８は、コンテキスト・スイッチ中に様々なスレッドのコンテキストを保存及び復元するために、保存及び復元の動作を実行してもよい（たとえば、ここで、第２のスレッドをグラフィックス処理エンジンによって実行できるように、第１のスレッドが保存され、第２のスレッドが記憶される）。たとえば、コンテキスト・スイッチ時に、コンテキスト管理回路１２４８は、現在のレジスタ値を（たとえば、コンテキスト・ポインタによって識別された）メモリの指定領域に記憶してもよい。次いで、コンテキストに戻るときに、コンテキスト管理回路１２４８がレジスタ値を復元してもよい。一実施例では、割込み管理回路１２４７は、システム・デバイスから受け取った割込みを受け取り、処理する。

一実装形態では、グラフィックス処理エンジン１２３１からの仮想／実効アドレスは、ＭＭＵ１２３９によってシステム・メモリ１２１４の実／物理アドレスにトランスレートされる。アクセラレータ統合回路１２３６の一実施例は、複数（たとえば、４個、８個、１６個）のグラフィックス・アクセラレータ・モジュール１２４６、及び／又は他のアクセラレータ・デバイスをサポートする。グラフィックス・アクセラレータ・モジュール１２４６は、プロセッサ１２０７上で実行される単一のアプリケーション専用のものであってもよく、又は複数のアプリケーション間で共有されてもよい。一実施例では、グラフィックス処理エンジン１２３１～１２３２、Ｎのリソースが複数のアプリケーション又は仮想機械（ＶＭ）と共有される仮想化グラフィックス実行環境が存在する。少なくとも一実施例では、リソースは、「スライス」に細分化されてもよく、このスライスが、処理要件、並びにＶＭ及び／又はアプリケーションに関連付けられた優先度に基づき、異なるＶＭ及び／又はアプリケーションに割り振られる。

少なくとも一実施例では、アクセラレータ統合回路１２３６は、グラフィックス加速モジュール１２４６のためのシステムへのブリッジとして機能し、アドレス・トランスレーション及びシステム・メモリのキャッシュ・サービスを提供する。さらに、アクセラレータ統合回路１２３６は、グラフィックス処理エンジン１２３１～１２３２、Ｎの仮想化、割込み、及びメモリ管理をホスト・プロセッサが管理するための仮想化設備を提供してもよい。

グラフィックス処理エンジン１２３１～１２３２、Ｎのハードウェア・リソースは、ホスト・プロセッサ１２０７が見る実アドレス空間に明示的にマッピングされるので、いかなるホスト・プロセッサも、実効アドレス値を使用して、これらのリソースに直接アドレス指定することができる。アクセラレータ統合回路１２３６の１つの機能は、一実施例では、グラフィックス処理エンジン１２３１～１２３２、Ｎを、システムにとって独立したユニットに見えるように物理的に分離することである。

少なくとも一実施例では、１つ又は複数のグラフィックス・メモリ１２３３～１２３４、Ｍはそれぞれ、グラフィックス処理エンジン１２３１～１２３２、Ｎのそれぞれに結合される。グラフィックス・メモリ１２３３～１２３４、Ｍは、それぞれのグラフィックス処理エンジン１２３１～１２３１、Ｎによって処理される命令及びデータを記憶する。グラフィックス・メモリ１２３３～１２３４、Ｍは、（積層ＤＲＡＭを含む）ＤＲＡＭ、ＧＤＤＲメモリ、（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又はＨＢＭなどの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

一実施例では、リンク１２４０を介したデータ・トラフィックを低減するために、グラフィックス・メモリ１２３３～１２３４、Ｍに記憶されるデータが、グラフィックス処理エンジン１２３１～１２３２、Ｎによって最も頻繁に使用されることになるデータであるようにし、好ましくはコア１２６０Ａ～１２６０Ｄによっては使用されない（少なくとも頻繁には使用されない）データであるようにするためのバイアス技法が使用される。同様に、バイアス機構は、コアが必要とする（したがって、好ましくはグラフィックス処理エンジン１２３１～１２３２、Ｎは必要としない）データを、コアのキャッシュ１２６２Ａ～１２６２Ｄ、１２５６、及びシステム・メモリ１２１４の中に保つよう試みる。

図１２Ｃは、アクセラレータ統合回路１２３６がプロセッサ１２０７内に一体化されている別の例示的な実施例を示す。少なくともこの実施例では、グラフィックス処理エンジン１２３１～１２３２、Ｎは、インターフェース１２３７及びインターフェース１２３５により、高速リンク１２４０を介して直接アクセラレータ統合回路１２３６と通信する（この場合も任意の形のバス又はインターフェース・プロトコルを利用し得る）。アクセラレータ統合回路１２３６は、図１２Ｂに関して説明したのと同じ動作を実行してもよいが、コヒーレンス・バス１２６４及びキャッシュ１２６２Ａ～１２６２Ｄ、１２５６に近接していることを考えると、潜在的には、より高いスループットで動作してもよい。少なくとも一実施例は、（グラフィックス加速モジュールの仮想化のない）専用プロセスのプログラミング・モデルと、（仮想化のある）共有プログラミング・モデルとを含む異なるプログラミング・モデルをサポートし、これらは、アクセラレータ統合回路１２３６によって制御されるプログラミング・モデルと、グラフィックス加速モジュール１２４６によって制御されるプログラミング・モデルとを含んでもよい。

少なくとも一実施例では、グラフィックス処理エンジン１２３１～１２３２、Ｎは、単一のオペレーティング・システムの下で単一のアプリケーション又はプロセスに専用のものである。少なくとも一実施例では、単一のアプリケーションは、他のアプリケーション要求をグラフィックス処理エンジン１２３１～１２３２、Ｎに集中させて、ＶＭ／パーティション内で仮想化を実現することができる。

少なくとも一実施例では、グラフィックス処理エンジン１２３１～１２３２、Ｎは、複数のＶＭ／アプリケーション・パーティションによって共有されてもよい。少なくとも一実施例では、共有モデルはシステム・ハイパーバイザを使用して、グラフィックス処理エンジン１２３１～１２３２、Ｎを仮想化して、各オペレーティング・システムによるアクセスを可能にしてもよい。ハイパーバイザのない単一パーティションのシステムでは、グラフィックス処理エンジン１２３１～１２３２、Ｎは、オペレーティング・システムによって所有される。少なくとも一実施例では、オペレーティング・システムは、グラフィックス処理エンジン１２３１～１２３２、Ｎを仮想化して、各プロセス又はアプリケーションへのアクセスを提供することができる。

少なくとも一実施例では、グラフィックス加速モジュール１２４６又は個々のグラフィックス処理エンジン１２３１～１２３２、Ｎは、プロセス・ハンドルを使用して、プロセス要素を選択する。少なくとも一実施例では、プロセス要素は、システム・メモリ１２１４に記憶されており、本明細書に記載の実効アドレスから実アドレスへのトランスレーション技法を使用してアドレス指定可能である。少なくとも一実施例では、プロセス・ハンドルは、ホスト・プロセスのコンテキストをグラフィックス処理エンジン１２３１～１２３２、Ｎに登録する（すなわち、プロセス要素リンク・リストにプロセス要素を追加するためのシステム・ソフトウェアをコールする）ときに、ホスト・プロセスに提供される実装固有の値であってもよい。少なくとも一実施例では、プロセス・ハンドルの下位１６ビットは、プロセス要素リンク・リスト内のプロセス要素のオフセットであってもよい。

図１２Ｄは、例示的なアクセラレータ統合スライス１２９０を示す。本明細書で使用する「スライス」は、アクセラレータ統合回路１２３６の処理リソースの指定部分を備える。システム・メモリ１２１４内のアプリケーション実効アドレス空間１２８２は、プロセス要素１２８３を記憶する。一実施例では、プロセス要素１２８３は、プロセッサ１２０７上で実行されているアプリケーション１２８０からのＧＰＵ呼出し１２８１に応答して、記憶される。プロセス要素１２８３は、対応するアプリケーション１２８０のプロセス状態を収容する。プロセス要素１２８３に収容されたワーク記述子（ＷＤ）１２８４は、アプリケーションによって要求される単一のジョブとすることができ、又はジョブのキューに対するポインタを収容してもよい。少なくとも一実施例では、ＷＤ１２８４は、アプリケーションのアドレス空間１２８２におけるジョブ要求キューに対するポインタである。

グラフィックス加速モジュール１２４６及び／又は個々のグラフィックス処理エンジン１２３１～１２３２、Ｎは、システム内のプロセスのすべて又はサブセットによって共有されることが可能である。少なくとも一実施例では、プロセス状態を設定し、ＷＤ１２８４をグラフィックス加速モジュール１２４６に送信して、仮想化環境においてジョブを開始するためのインフラストラクチャが、含められてもよい。

少なくとも一実施例では、専用のプロセス・プログラミング・モデルは、実装固有である。このモデルでは、単一のプロセスが、グラフィックス加速モジュール１２４６又は個々のグラフィックス処理エンジン１２３１を所有する。グラフィックス加速モジュール１２４６が単一のプロセスによって所有されるので、グラフィックス加速モジュール１２４６が割り当てられたときに、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路１２３６を初期化し、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路１２３６を初期化する。

動作時、アクセラレータ統合スライス１２９０内のＷＤフェッチ・ユニット１２９１は、グラフィックス加速モジュール１２４６の１つ又は複数のグラフィックス処理エンジンによって行われることになるワークの表示を含む次のＷＤ１２８４をフェッチする。図示してあるように、ＷＤ１２８４からのデータは、レジスタ１２４５に記憶され、ＭＭＵ１２３９、割込み管理回路１２４７、及び／又はコンテキスト管理回路１２４８によって使用されてもよい。たとえば、ＭＭＵ１２３９の一実施例は、ＯＳ仮想アドレス空間１２８５内のセグメント／ページ・テーブル１２８６にアクセスするためのセグメント／ページ・ウォーク回路を含む。割込み管理回路１２４７は、グラフィックス加速モジュール１２４６から受け取った割込みイベント１２９２を処理してもよい。グラフィックス動作を実行するとき、グラフィックス処理エンジン１２３１～１２３２、Ｎによって生成された実効アドレス１２９３は、ＭＭＵ１２３９によって実アドレスにトランスレートされる。

一実施例では、同じレジスタのセット１２４５が、各グラフィックス処理エンジン１２３１～１２３２、Ｎ及び／又はグラフィックス加速モジュール１２４６について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化されてもよい。これらの複製されたレジスタのそれぞれは、アクセラレータ統合スライス１２９０に含まれてもよい。ハイパーバイザによって初期化されてもよい例示的なレジスタを、表１に示す。

オペレーティング・システムによって初期化されてもよい例示的なレジスタを、表２に示す。

一実施例では、各ＷＤ１２８４は、特定のグラフィックス加速モジュール１２４６及び／又はグラフィックス処理エンジン１２３１～１２３２、Ｎに固有のものである。ＷＤ１２８４は、グラフィックス処理エンジン１２３１～１２３２、Ｎがワークを行うために必要とするすべての情報を収容し、又は完了すべきワークのコマンド・キューをアプリケーションがセットアップした場所であるメモリ・ロケーションを指すポインタとすることができる。

図１２Ｅは、共有モデルの例示的な一実施例のさらなる詳細事項を示す。この実施例は、プロセス要素リスト１２９９が記憶されているハイパーバイザ実アドレス空間１２９８を含む。ハイパーバイザ実アドレス空間１２９８は、オペレーティング・システム１２９５のグラフィックス加速モジュール・エンジンを仮想化するハイパーバイザ１２９６を介してアクセス可能である。

少なくとも一実施例では、共有プログラミング・モデルは、システム内のすべて又はサブセットのパーティションからのすべて又はサブセットのプロセスが、グラフィックス加速モジュール１２４６を使用できるようにする。グラフィックス加速モジュール１２４６が複数のプロセス及びパーティションによって共有されるプログラミング・モデルが、２つ、つまり時間スライス共有及びグラフィックス指定共有（ｇｒａｐｈｉｃｓ－ｄｉｒｅｃｔｅｄｓｈａｒｅｄ）が存在する。

このモデルでは、システム・ハイパーバイザ１２９６がグラフィックス加速モジュール１２４６を所有しており、その機能をすべてのオペレーティング・システム１２９５にとって利用可能にする。システム・ハイパーバイザ１２９６による仮想化をグラフィックス加速モジュール１２４６がサポートするために、グラフィックス加速モジュール１２４６は、以下に準拠してもよい：１）アプリケーションのジョブ要求は自律でなくてはならず（すなわち、ジョブ間で状態を維持する必要はなく）、又はグラフィックス加速モジュール１２４６が、コンテキストの保存及び復元の機構を提供しなくてはならない、２）アプリケーションのジョブ要求は、あらゆるトランスレーション誤りも含めて指定された時間量で完了するようグラフィックス加速モジュール１２４６によって保証され、又はグラフィックス加速モジュール１２４６が、ジョブの処理をプリエンプションする機能を提供する、３）グラフィックス加速モジュール１２４６は、指定の共有プログラミング・モデルで動作しているとき、プロセス間で公平性が保証されなくてはならない。

少なくとも一実施例では、アプリケーション１２８０は、グラフィックス加速モジュール１２４６のタイプ、ワーク記述子（ＷＤ）、権限マスク・レジスタ（ＡＭＲ）値、及びコンテキスト保存／復元エリア・ポインタ（ＣＳＲＰ）を伴って、オペレーティング・システム１２９５のシステム・コールを行う必要がある。少なくとも一実施例では、グラフィックス加速モジュール１２４６のタイプは、システム・コールで目的とする加速機能を記述している。少なくとも一実施例では、グラフィックス加速モジュール１２４６のタイプは、システム固有値であってもよい。少なくとも一実施例では、ＷＤは、グラフィックス加速モジュール１２４６のために特にフォーマット化されており、グラフィックス加速モジュール１２４６のコマンド、ユーザ定義の構造を指す実効アドレス・ポインタ、コマンドのキューを指す実効アドレス・ポインタ、又はグラフィックス加速モジュール１２４６によって行われるワークを記述するための任意の他のデータ構造の形とすることができる。一実施例では、ＡＭＲ値は、現在のプロセスに使用するためのＡＭＲ状態である。少なくとも一実施例では、オペレーティング・システムに渡される値は、ＡＭＲをセッティングするアプリケーションと同様である。アクセラレータ統合回路１２３６及びグラフィックス加速モジュール１２４６の実装形態が、ユーザ権限マスク・オーバーライド・レジスタ（ＵＡＭＯＲ）をサポートしていない場合、オペレーティング・システムは、ＡＭＲ値に現在のＵＡＭＯＲ値を適用してから、ハイパーバイザ・コールにＡＭＲを渡してもよい。ハイパーバイザ１２９６は、任意選択で、現在の権限マスク・オーバーライド・レジスタ（ＡＭＯＲ）値を適用してから、ＡＭＲをプロセス要素１２８３に入れてもよい。少なくとも一実施例では、ＣＳＲＰは、グラフィックス加速モジュール１２４６がコンテキスト状態を保存及び復元するためのアプリケーションの実効アドレス空間１２８２内のエリアの実効アドレスを収容するレジスタ１２４５のうちの１つである。ジョブ間で、又はジョブがプリエンプションされるときに、いかなる状態も保存する必要のない場合は、このポインタは任意選択である。少なくとも一実施例では、コンテキスト保存／復元エリアは、ピン留めされたシステム・メモリであってもよい。

システム・コールを受け取ると、オペレーティング・システム１２９５は、アプリケーション１２８０が登録済みであり、グラフィックス加速モジュール１２４６を使用する権限が与えられていることを検証してもよい。次いで、オペレーティング・システム１２９５は、表３に示す情報を伴ってハイパーバイザ１２９６にコールする。

ハイパーバイザ・コールを受け取ると、ハイパーバイザ１２９６は、オペレーティング・システム１２９５が登録済みであり、グラフィックス加速モジュール１２４６を使用する権限が与えられていることを検証する。次いでハイパーバイザ１２９６は、プロセス要素１２８３を、対応するグラフィックス加速モジュール１２４６のタイプのプロセス要素リンク・リストに入れる。プロセス要素は、表４に示す情報を含んでもよい。

少なくとも一実施例では、ハイパーバイザは、複数のアクセラレータ統合スライス１２９０のレジスタ１２４５を初期化する。

図１２Ｆに示すように、少なくとも一実施例では、物理プロセッサ・メモリ１２０１～１２０２及びＧＰＵメモリ１２２０～１２２３にアクセスするために使用される共通の仮想メモリ・アドレス空間を介してアドレス指定可能である統合メモリが使用される。この実装形態では、ＧＰＵ１２１０～１２１３で実行される動作は、プロセッサ・メモリ１２０１～１２０２にアクセスするのと同じ仮想／実効メモリ・アドレス空間を利用し、且つその逆も同様であり、それによりプログラマビリティが簡単になる。一実施例では、仮想／実効アドレス空間の第１の部分はプロセッサ・メモリ１２０１に割り振られ、第２の部分は第２のプロセッサ・メモリ１２０２に割り振られ、第３の部分はＧＰＵメモリ１２２０に割り振られるというように続く。少なくとも一実施例では、仮想／実効メモリ空間全体（実効アドレス空間と呼ばれることもある）は、これによりプロセッサ・メモリ１２０１～１２０２及びＧＰＵメモリ１２２０～１２２３のそれぞれにわたって分配されて、仮想アドレスが物理メモリにマッピングされた状態で、いずれかのプロセッサ又はＧＰＵが、いずれかの物理メモリにアクセスできるようになる。

一実施例では、ＭＭＵ１２３９Ａ～１２３９Ｅのうちの１つ又は複数の中のバイアス／コヒーレンス管理回路１２９４Ａ～１２９４Ｅは、１つ又は複数のホスト・プロセッサ（たとえば、１２０５）のキャッシュとＧＰＵ１２１０～１２１３のキャッシュとの間でキャッシュ・コヒーレンスを確保し、バイアス技法を実装して、ある特定のタイプのデータが記憶されるべき物理メモリを示す。バイアス／コヒーレンス管理回路１２９４Ａ～１２９４Ｅの複数のインスタンスが図１２Ｆに示されるが、バイアス／コヒーレンス回路は、１つ又は複数のホスト・プロセッサ１２０５のＭＭＵ内に実装されてもよく、且つ／又はアクセラレータ統合回路１２３６内に実装されてもよい。

一実施例は、ＧＰＵ付きメモリ１２２０～１２２３をシステム・メモリの一部としてマッピングできるようにし、共有仮想メモリ（ＳＶＭ）技法を使用してアクセス可能にすることができるが、完全なシステム・キャッシュ・コヒーレンスに関連する性能の低下が生じることはない。少なくとも一実施例では、ＧＰＵ付きメモリ１２２０～１２２３が、面倒なキャッシュ・コヒーレンス・オーバーヘッドなく、システム・メモリとしてアクセス可能であることにより、ＧＰＵオフロードのための有益な動作環境が提供される。この構成によって、従来のＩ／ＯＤＭＡデータ・コピーのオーバーヘッドがなくても、ホスト・プロセッサ１２０５ソフトウェアがオペランドを設定し、計算結果にアクセスすることが可能になる。こうした従来のコピーは、ドライバ・コール、割込み、及びメモリ・マップドＩ／Ｏ（ＭＭＩＯ）アクセスを必要とし、これらはすべて、単純なメモリ・アクセスより非効率的である。少なくとも一実施例では、キャッシュ・コヒーレンス・オーバーヘッドなしでＧＰＵ付きメモリ１２２０～１２２３にアクセスできることが、オフロードされた計算の実行時間に不可欠であり得る。たとえば、かなりのストリーミング書込みメモリ・トラフィックがある場合には、キャッシュ・コヒーレンス・オーバーヘッドは、ＧＰＵ１２１０～１２１３が見る有効な書込み帯域幅を大幅に低減することがある。少なくとも一実施例では、オペランド設定の効率、結果へのアクセスの効率、及びＧＰＵ計算の効率は、ＧＰＵオフロードの有効性を判定する際に役立つことがある。

少なくとも一実施例では、ＧＰＵバイアス及びホスト・プロセッサ・バイアスの選択は、バイアス・トラッカー・データ構造によって決められる。たとえばバイアス・テーブルが使用されてもよく、このテーブルは、ＧＰＵ付きメモリ・ページ当たり１ビット又は２ビットを含むページ粒度構造であってもよい（すなわち、メモリ・ページの粒度で制御されてもよい）。少なくとも一実施例では、バイアス・テーブルは、（たとえば、バイアス・テーブルの頻繁に使用された／最近使用されたエントリをキャッシュするための）バイアス・キャッシュがＧＰＵ１２１０～１２１３にある状態又はない状態で、１つ又は複数のＧＰＵ付きメモリ１２２０～１２２３の奪われたメモリ範囲（ｓｔｏｌｅｎｍｅｍｏｒｙｒａｎｇｅ）において実装されてもよい。或いは、バイアス・テーブル全体が、ＧＰＵ内に維持されてもよい。

少なくとも一実施例では、ＧＰＵ付きメモリ１２２０～１２２３への各アクセスに関連付けられたバイアス・テーブルのエントリが、ＧＰＵメモリへの実際のアクセスより先にアクセスされて、以下の動作を生じさせる。最初に、ＧＰＵバイアス内での自らのページを見いだすＧＰＵ１２１０～１２１３からのローカル要求が、対応するＧＰＵメモリ１２２０～１２２３に直接転送される。ホスト・バイアスにおいて自らのページを見いだすＧＰＵからのローカル要求は、（たとえば、上述した高速リンクを介して）プロセッサ１２０５に転送される。一実施例では、要求されたページをホスト・プロセッサ・バイアスにおいて見いだすプロセッサ１２０５からの要求は、通常のメモリ読取りと同様に要求を完了させる。或いは、ＧＰＵバイアス化ページに向けられた要求は、ＧＰＵ１２１０～１２１３に転送されてもよい。少なくとも一実施例では、次いでＧＰＵは、現在ページを使用していない場合、ホスト・プロセッサ・バイアスにページを移行してもよい。少なくとも一実施例では、ページのバイアス状態は、ソフトウェア・ベースの機構、ハードウェア支援型ソフトウェア・ベースの機構のいずれかによって、又は限られた事例のセットについては、単にハードウェア・ベースの機構によって、変更することができる。

バイアス状態を変更するための１つの機構は、ＡＰＩコール（たとえば、ＯｐｅｎＣＬ）を利用し、このＡＰＩコールが、ＧＰＵのデバイス・ドライバをコールし、このデバイス・ドライバが、ＧＰＵにメッセージを送って（又はコマンド記述子をキューに加えて）、バイアス状態を変更し、一部の移行については、ホストにおいてキャッシュ・フラッシング動作を実行するよう、ＧＰＵを導く。少なくとも一実施例では、キャッシュ・フラッシング動作は、ホスト・プロセッサ１２０５のバイアスからＧＰＵバイアスへの移行のために使用されるが、反対向きの移行には使用されない。

一実施例では、キャッシュ・コヒーレンスは、ホスト・プロセッサ１２０５によってキャッシュできないＧＰＵバイアス化ページを一時的にレンダリングすることによって、維持される。これらのページにアクセスするために、プロセッサ１２０５は、ＧＰＵ１２１０からのアクセスを要求してもよく、ＧＰＵ１２１０は、すぐにアクセスを許可してもよく、又は許可しなくてもよい。したがって、プロセッサ１２０５とＧＰＵ１２１０との間の通信を低減するために、ＧＰＵバイアス化ページが、ＧＰＵによって要求されるが、ホスト・プロセッサ１２０５によっては要求されないようにすること、又はその逆にすることが有益である。

推論及び／又は訓練論理６１５は１つ又は複数の実施例を実行するために使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。

図１３は、本明細書に記載の様々な実施例による、１つ又は複数のＩＰコアを使用して作製することができる例示的な集積回路及び関連グラフィックス・プロセッサを示す。図示してあるものに加えて、少なくとも一実施例では、追加のグラフィックス・プロセッサ／コア、周辺装置インターフェース・コントローラ、若しくは汎用プロセッサ・コアを含む他の論理及び回路が含まれてもよい。

図１３は、少なくとも一実施例による１つ又は複数のＩＰコアを使用して作製することができる例示的なシステム・オン・チップ集積回路１３００を示すブロック図である。少なくとも一実施例では、集積回路１３００は、１つ又は複数のアプリケーション・プロセッサ１３０５（たとえば、ＣＰＵ）、少なくとも１つのグラフィックス・プロセッサ１３１０を含み、さらに、画像プロセッサ１３１５及び／又はビデオ・プロセッサ１３２０を含んでもよく、これらのいずれもが、モジュール式ＩＰコアであってもよい。少なくとも一実施例では、集積回路１３００は、ＵＳＢコントローラ１３２５、ＵＡＲＴコントローラ１３３０、ＳＰＩ／ＳＤＩＯコントローラ１３３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１３４０を含む周辺装置又はバス論理を含む。少なくとも一実施例では、集積回路１３００は、ハイ・デフィニション・マルチメディア・インターフェース（ＨＤＭＩ（登録商標）：ｈｉｇｈ－ｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ（登録商標））コントローラ１３５０及びモバイル・インダストリ・プロセッサ・インターフェース（ＭＩＰＩ）ディスプレイ・インターフェース１３５５のうちの１つ又は複数に結合されるディスプレイ・デバイス１３４５を含むことができる。少なくとも一実施例では、フラッシュ・メモリ及びフラッシュ・メモリ・コントローラを含むフラッシュ・メモリ・サブシステム１３６０によって、ストレージが提供されてもよい。少なくとも一実施例では、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスにアクセスするために、メモリ・コントローラ１３６５を介してメモリ・インターフェースが提供されてもよい。少なくとも一実施例では、いくつかの集積回路はさらに、組み込みセキュリティ・エンジン１３７０を含む。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１３００において使用されてもよい。

図１４Ａ～図１４Ｂは、本明細書に記載の様々実施例による、１つ又は複数のＩＰコアを使用して作製することができる例示的な集積回路及び関連グラフィックス・プロセッサを示す。図示してあるものに加えて、少なくとも一実施例では、追加のグラフィックス・プロセッサ／コア、周辺装置インターフェース・コントローラ、又は汎用プロセッサ・コアを含む他の論理及び回路が含まれてもよい。

図１４Ａ及び図１４Ｂは、本明細書に記載の実施例による、ＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。図１４Ａは、少なくとも一実施例による、１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路の例示的なグラフィックス・プロセッサ１４１０を示す。図１４Ｂは、少なくとも一実施例による、１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路のさらなる例示的なグラフィックス・プロセッサ１４４０を示す。少なくとも一実施例では、図１４Ａのグラフィックス・プロセッサ１４１０は、低電力グラフィックス・プロセッサ・コアである。少なくとも一実施例では、図１４Ｂのグラフィックス・プロセッサ１４４０は、高性能グラフィックス・プロセッサ・コアである。少なくとも一実施例では、グラフィックス・プロセッサ１４１０、１４４０のそれぞれは、図１３のグラフィックス・プロセッサ１３１０の変形形態とすることができる。

少なくとも一実施例では、グラフィックス・プロセッサ１４１０は、頂点プロセッサ１４０５と、１つ又は複数のフラグメント・プロセッサ１４１５Ａ～１４１５Ｎ（たとえば、１４１５Ａ、１４１５Ｂ、１４１５Ｃ、１４１５Ｄ～１４１５Ｎ－１、及び１４１５Ｎ）とを含む。少なくとも一実施例では、グラフィックス・プロセッサ１４１０は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ１４０５は、頂点シェーダ・プログラムのための動作を実行するように最適化され、一方、１つ又は複数のフラグメント・プロセッサ１４１５Ａ～１４１５Ｎは、フラグメント又はピクセルのシェーダ・プログラムのためのフラグメント（たとえば、ピクセル）シェーディング動作を実行する。少なくとも一実施例では、頂点プロセッサ１４０５は、３Ｄグラフィックス・パイプラインの頂点処理ステージを実行し、プリミティブ及び頂点データを生成する。少なくとも一実施例では、フラグメント・プロセッサ１４１５Ａ～１４１５Ｎは、頂点プロセッサ１４０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイスに表示されるフレーム・バッファを生成する。少なくとも一実施例では、フラグメント・プロセッサ１４１５Ａ～１４１５Ｎは、ＯｐｅｎＧＬのＡＰＩにおいて提供されるフラグメント・シェーダ・プログラムを実行するように最適化され、ＯｐｅｎＧＬのＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩにおいて提供されるピクセル・シェーダ・プログラムと同様の動作を実行するために使用されてもよい。

少なくとも一実施例では、グラフィックス・プロセッサ１４１０はさらに、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１４２０Ａ～１４２０Ｂ、キャッシュ１４２５Ａ～１４２５Ｂ、及び回路相互接続１４３０Ａ～１４３０Ｂを含む。少なくとも一実施例では、１つ又は複数のＭＭＵ１４２０Ａ～１４２０Ｂは、頂点プロセッサ１４０５及び／又はフラグメント・プロセッサ１４１５Ａ～１４１５Ｎを含め、グラフィックス・プロセッサ１４１０のための仮想から物理のアドレス・マッピングを提供し、それらは、１つ又は複数のキャッシュ１４２５Ａ～１４２５Ｂに記憶された頂点又は画像／テクスチャのデータに加えて、メモリに記憶された頂点又は画像／テキストのデータを参照してもよい。少なくとも一実施例では、１つ又は複数のＭＭＵ１４２０Ａ～１４２０Ｂは、図１３の１つ若しくは複数のアプリケーション・プロセッサ１３０５、画像プロセッサ１３１５、及び／又はビデオ・プロセッサ１３２０に関連付けられた１つ若しくは複数のＭＭＵを含む、システム内の他のＭＭＵと同期されてもよく、それにより各プロセッサ１３０５～１３２０は、共有の又は統合された仮想メモリ・システムに参加することができる。少なくとも一実施例では、１つ又は複数の回路相互接続１４３０Ａ～１４３０Ｂは、グラフィックス・プロセッサ１４１０が、ＳｏＣの内部バスを介して、又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェースをとることができるようにする。

少なくとも一実施例では、グラフィックス・プロセッサ１４４０は、図１４Ａのグラフィックス・プロセッサ１４１０の１つ又は複数のＭＭＵ１４２０Ａ、１４２０Ｂと、キャッシュ１４２５Ａ、１４２５Ｂと、回路相互接続１４３０Ａ、１４３０Ｂとを含む。少なくとも一実施例では、グラフィックス・プロセッサ１４４０は、単一のコア又はタイプ又はコアが、頂点シェーダ、フラグメント・シェーダ、及び／又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含む、すべてのタイプのプログラム可能なシェーダ・コードを実行することができる、統一されたシェーダ・コア・アーキテクチャを与える、１つ又は複数のシェーダ・コア１４５５Ａ～１４５５Ｎ（たとえば、１４５５Ａ、１４５５Ｂ、１４５５Ｃ、１４５５Ｄ、１４５５Ｅ、１４５５Ｆ、１４５５Ｎ－１を経て、１４５５Ｎ）を含む。少なくとも一実施例では、シェーダ・コアの数は変えることができる。少なくとも一実施例では、グラフィックス・プロセッサ１４４０は、１つ又は複数のシェーダ・コア１４５５Ａ～１４５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ１４４５と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンのレンダリング動作が画像空間において細分化される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット１４５８とを含む。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１４Ａ及び／又は１４Ｂにおいて使用されてもよい。１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。少なくとも一実施例では、１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために、この論理がこれらの図の構成要素とともに使用されてもよい。

図１５Ａ～図１５Ｂは、本明細書に記載の実施例による、さらなる例示的なグラフィックス・プロセッサ論理を示す。図１５Ａは、グラフィックス・コア１５００を示し、このグラフィックス・コア１５００は、少なくとも一実施例では図１３のグラフィックス・プロセッサ１３１０に含められてもよく、少なくとも一実施例では図１４Ｂのように、統合されたシェーダ・コア１４５５Ａ～１４５５Ｎであってもよい。図１５Ｂは、少なくとも一実施例におけるマルチ・チップ・モジュールに導入するのに適した高並列の汎用グラフィックス・プロセッシング・ユニット１５３０を示す。

少なくとも一実施例では、グラフィックス・コア１５００は、共有命令キャッシュ１５０２、テクスチャ・ユニット１５１８、及びキャッシュ／共有メモリ１５２０を含み、これらは、グラフィックス・コア１５００内の実行リソースに共通である。少なくとも一実施例では、グラフィックス・コア１５００は、複数のスライス１５０１Ａ～１５０１Ｎ、又はコアごとのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア１５００の複数のインスタンスを含むことができる。スライス１５０１Ａ～１５０１Ｎは、ローカル命令キャッシュ１５０４Ａ～１５０４Ｎ、スレッド・スケジューラ１５０６Ａ～１５０６Ｎ、スレッド・ディスパッチャ１５０８Ａ～１５０８Ｎ、及びレジスタのセット１５１０Ａ～１５１０Ｎを含むサポート論理を含むことができる。少なくとも一実施例では、スライス１５０１Ａ～１５０１Ｎは、追加機能ユニット（ＡＦＵ１５１２Ａ～１５１２Ｎ）、浮動小数点ユニット（ＦＰＵ１５１４Ａ～１５１４Ｎ）、整数算術論理演算ユニット（ＡＬＵ１５１６～１５１６Ｎ）、アドレス計算ユニット（ＡＣＵ１５１３Ａ～１５１３Ｎ）、倍精度浮動小数点ユニット（ＤＰＦＰＵ１５１５Ａ～１５１５Ｎ）、及び行列処理ユニット（ＭＰＵ１５１７Ａ～１５１７Ｎ）のセットを含むことができる。

少なくとも一実施例では、ＦＰＵ１５１４Ａ～１５１４Ｎは、単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を実行することができ、ＤＰＦＰＵ１５１５Ａ～１５１５Ｎは、倍精度（６４ビット）の浮動小数点演算を実行する。少なくとも一実施例では、ＡＬＵ１５１６Ａ～１５１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度の整数演算を実行することができ、混合精度の演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１５１７Ａ～１５１７Ｎも、半精度浮動小数点及び８ビット整数演算を含む混合精度の行列演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１５１７Ａ～１５１７Ｎは、汎用行列－行列乗算（ＧＥＭＭ）の加速をサポートできるようにすることを含め、機械学習アプリケーション・フレームワークを加速するための様々な行列演算を実行することができる。少なくとも一実施例では、ＡＦＵ１５１２Ａ～１５１２Ｎは、三角関数演算（たとえば、サイン、コサインなど）を含む、浮動小数点ユニット又は整数ユニットにサポートされていない追加の論理演算を実行することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・コア１５００において使用されてもよい。

図１５Ｂは、汎用処理ユニット（ＧＰＧＰＵ）１５３０を示し、この処理ユニットは、少なくとも一実施例において、グラフィックス・プロセッシング・ユニットのアレイによる高並列の計算動作を実行可能にするように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１５３０は、ＧＰＧＰＵ１５３０の他のインスタンスに直接リンクされて、ディープ・ニューラル・ネットワークの訓練スピードを向上させるために複数のＧＰＵクラスタを生成することができる。少なくとも一実施例では、ＧＰＧＰＵ１５３０は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース１５３２を含む。少なくとも一実施例では、ホスト・インターフェース１５３２は、ＰＣＩエクスプレス・インターフェースである。少なくとも一実施例では、ホスト・インターフェース１５３２は、ベンダー固有の通信インターフェース又は通信ファブリックとすることができる。少なくとも一実施例では、ＧＰＧＰＵ１５３０は、ホスト・プロセッサからコマンドを受け取り、グローバル・スケジューラ１５３４を使用して、これらのコマンドに関連付けられた実行スレッドを、コンピュート・クラスタ１５３６Ａ～１５３６Ｈのセットに分配する。少なくとも一実施例では、コンピュート・クラスタ１５３６Ａ～１５３６Ｈは、キャッシュ・メモリ１５３８を共有する。少なくとも一実施例では、キャッシュ・メモリ１５３８は、コンピュート・クラスタ１５３６Ａ～１５３６Ｈ内のキャッシュ・メモリ用の高レベル・キャッシュとして作用することができる。

少なくとも一実施例では、ＧＰＧＰＵ１５３０は、メモリ・コントローラ１５４２Ａ～１５４２Ｂのセットを介して、コンピュート・クラスタ１５３６Ａ～１５３６Ｈに結合されたメモリ１５４４Ａ～１５４４Ｂを含む。少なくとも一実施例では、メモリ１５４４Ａ～１５４４Ｂは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ：ｇｒａｐｈｉｃｓｄｏｕｂｌｅｄａｔａｒａｔｅ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。

少なくとも一実施例では、コンピュート・クラスタ１５３６Ａ～１５３６Ｈはそれぞれ、図１５Ａのグラフィックス・コア１５００などのグラフィックス・コアのセットを含み、このグラフィックス・コアのセットは、機械学習計算に適したものを含め、様々な精度で計算動作を実行することができる複数のタイプの整数及び浮動小数点の論理ユニットを含むことができる。たとえば、少なくとも一実施例では、コンピュート・クラスタ１５３６Ａ～１５３６Ｈのそれぞれにおける浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実行するように構成されることが可能であり、一方、浮動小数点ユニットの別のサブセットは、６４ビットの浮動小数点演算を実行するように構成されることが可能である。

少なくとも一実施例では、ＧＰＧＰＵ１５３０の複数のインスタンスは、コンピュート・クラスタとして動作するように構成されることが可能である。少なくとも一実施例では、コンピュート・クラスタ１５３６Ａ～１５３６Ｈにより同期及びデータ交換のために使用される通信は、実施例にわたって異なる。少なくとも一実施例では、ＧＰＧＰＵ１５３０の複数のインスタンスは、ホスト・インターフェース１５３２を介して通信する。少なくとも一実施例では、ＧＰＧＰＵ１５３０は、Ｉ／Ｏハブ１５３９を含み、このハブは、ＧＰＧＰＵ１５３０の他のインスタンスへの直接接続を可能にするＧＰＵリンク１５４０に、ＧＰＧＰＵ１５３０を結合する。少なくとも一実施例では、ＧＰＵリンク１５４０は、ＧＰＧＰＵ１５３０の複数のインスタンス間での通信及び同期を可能にするＧＰＵからＧＰＵへの専用のブリッジに結合される。少なくとも一実施例では、ＧＰＵリンク１５４０は、他のＧＰＧＰＵ又は並列プロセッサにデータを送受信するための高速相互接続に結合される。少なくとも一実施例では、ＧＰＧＰＵ１５３０の複数のインスタンスは、別々のデータ処理システムに位置付けられ、ホスト・インターフェース１５３２を介してアクセス可能なネットワーク・デバイスを介して通信する。少なくとも一実施例では、ＧＰＵリンク１５４０は、ホスト・インターフェース１５３２に加えて、又はその代わりに、ホスト・プロセッサへの接続を可能にするように構成することができる。

少なくとも一実施例では、ＧＰＧＰＵ１５３０は、ニューラル・ネットワークを訓練するように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１５３０は、推論プラットフォーム内で使用することができる。ＧＰＧＰＵ１５３０が推論のために使用される少なくとも一実施例では、ＧＰＧＰＵ１５３０は、ＧＰＧＰＵ１５３０がニューラル・ネットワークの訓練に使用されるときよりも少数のコンピュート・クラスタ１５３６Ａ～１５３６Ｈを含んでもよい。少なくとも一実施例では、メモリ１５４４Ａ～１５４４Ｂに関連するメモリ技術は、推論の構成と訓練の構成とで異なってもよく、高帯域幅のメモリ技術が、訓練構成に当てられる。少なくとも一実施例では、ＧＰＧＰＵ１５３０の推論構成は、推論固有の命令をサポートすることができる。たとえば、少なくとも一実施例では、推論構成は、１つ又は複数の８ビットの整数のドット積命令をサポートすることができ、これは、導入済みニューラル・ネットワークの推論動作中に使用されてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにＧＰＧＰＵ１５３０において使用されてもよい。

図１６は、少なくとも一実施例によるコンピューティング・システム１６００を示すブロック図である。少なくとも一実施例では、コンピューティング・システム１６００は、メモリ・ハブ１６０５を含んでもよい相互接続経路を介して通信する１つ又は複数のプロセッサ１６０２とシステム・メモリ１６０４とを有する処理サブシステム１６０１を含む。少なくとも一実施例では、メモリ・ハブ１６０５は、チップセット構成要素内の別個の構成要素であってもよく、又は１つ若しくは複数のプロセッサ１６０２内に一体化されていてもよい。少なくとも一実施例では、メモリ・ハブ１６０５は、通信リンク１６０６を介してＩ／Ｏサブシステム１６１１に結合される。少なくとも一実施例では、Ｉ／Ｏサブシステム１６１１は、コンピューティング・システム１６００が１つ又は複数の入力デバイス１６０８からの入力を受け取れるようにすることができるＩ／Ｏハブ１６０７を含む。少なくとも一実施例では、Ｉ／Ｏハブ１６０７は、ディスプレイ・コントローラを有効にすることができ、このディスプレイ・コントローラは、１つ又は複数のプロセッサ１６０２に含まれて、１つ又は複数のディスプレイ・デバイス１６１０Ａに出力を提供してもよい。少なくとも一実施例では、Ｉ／Ｏハブ１６０７に結合された１つ又は複数のディスプレイ・デバイス１６１０Ａは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。

少なくとも一実施例では、処理サブシステム１６０１は、バス又は他の通信リンク１６１３を介してメモリ・ハブ１６０５に結合された１つ又は複数の並列プロセッサ１６１２を含む。少なくとも一実施例では、通信リンク１６１３は、ＰＣＩエクスプレスなどであるがこれに限定されない任意の数の規格に基づく通信リンク技術若しくはプロトコルのうちの１つであることができ、又はベンダー固有の通信インターフェース若しくは通信ファブリックであってもよい。少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２は、メニー・インテグレーテッド・コア（ＭＩＣ：ｍａｎｙｉｎｔｅｇｒａｔｅｄｃｏｒｅ）プロセッサなど、多数の処理コア及び／又は処理クラスタを含むことのできる、計算に集中した並列又はベクトルの処理システムを形成する。少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２は、グラフィックス処理サブシステムを形成し、このサブシステムは、Ｉ／Ｏハブ１６０７を介して結合された１つ又は複数のディスプレイ・デバイス１６１０Ａのうちの１つに、ピクセルを出力することができる。少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２はまた、１つ又は複数のディスプレイ・デバイス１６１０Ｂへの直接接続を可能にするディスプレイ・コントローラ及びディスプレイ・インターフェース（図示せず）を含むことができる。

少なくとも一実施例では、システム・ストレージ・ユニット１６１４は、Ｉ／Ｏハブ１６０７に接続されて、コンピューティング・システム１６００のためのストレージ機構を提供することができる。少なくとも一実施例では、Ｉ／Ｏスイッチ１６１６を使用して、Ｉ／Ｏハブ１６０７と、プラットフォームに一体化されてもよいネットワーク・アダプタ１６１８及び／又はワイヤレス・ネットワーク・アダプタ１６１９などの他の構成要素、並びに１つ又は複数のアドイン・デバイス１６２０を介して加えることができる様々な他のデバイスとの通信を可能にするためのインターフェース機構を提供することができる。少なくとも一実施例では、ネットワーク・アダプタ１６１８は、イーサネット（登録商標）・アダプタ、又は別の有線ネットワーク・アダプタとすることができる。少なくとも一実施例では、ワイヤレス・ネットワーク・アダプタ１６１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、近距離無線通信（ＮＦＣ）、又は１つ若しくは複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの１つ又は複数を含むことができる。

少なくとも一実施例では、コンピューティング・システム１６００は、ＵＳＢ又は他のポート接続、光学ストレージ・ドライブ、ビデオ捕捉デバイスなどを含む明示されていない他の構成要素を含むことができ、これらもＩ／Ｏハブ１６０７に接続されてもよい。少なくとも一実施例では、図１６の様々な構成要素を相互接続する通信経路が、ＰＣＩ（ペリフェラル・コンポーネント・インターコネクト）ベースのプロトコル（たとえば、ＰＣＩ－エクスプレス）などの任意の好適なプロトコル、又はＮＶ－Ｌｉｎｋ高速相互接続などの他のバス若しくはポイントツーポイント通信インターフェース、又は他の相互接続プロトコルを使用して、実装されてもよい。

少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２は、たとえばビデオ出力回路を含むグラフィックス及びビデオの処理に最適化された回路を組み込んでおり、グラフィックス・プロセッシング・ユニット（ＧＰＵ）を構成する。少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２は、汎用処理に最適化された回路を組み込んでいる。少なくとも一実施例では、コンピューティング・システム１６００の構成要素は、単一の集積回路上の１つ又は複数の他のシステム要素と一体化されてもよい。たとえば、少なくとも一実施例では、１つ又は複数の並列プロセッサ１６１２、メモリ・ハブ１６０５、プロセッサ１６０２、及びＩ／Ｏハブ１６０７を、システム・オン・チップ（ＳｏＣ）集積回路に一体化することができる。少なくとも一実施例では、コンピューティング・システム１６００の構成要素は、単一のパッケージに一体化されて、システム・イン・パッケージ（ＳＩＰ：ｓｙｓｔｅｍｉｎｐａｃｋａｇｅ）構成を形成することができる。少なくとも一実施例では、コンピューティング・システム１６００の構成要素の少なくとも一部分を、マルチ・チップ・モジュール（ＭＣＭ：ｍｕｌｔｉ－ｃｈｉｐｍｏｄｕｌｅ）に一体化することができ、このモジュールを、他のマルチ・チップ・モジュールと相互接続して、モジュール式コンピューティング・システムにすることができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１６００のシステムにおいて使用されてもよい。

プロセッサ
図１７Ａは、少なくとも一実施例による並列プロセッサ１７００を示す。少なくとも一実施例では、並列プロセッサ１７００の様々な構成要素は、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などの１つ又は複数の集積回路デバイスを使用して実装されてもよい。少なくとも一実施例では、図示してある並列プロセッサ１７００は、例示的な実施例による図１６に示す１つ又は複数の並列プロセッサ１６１２の変形形態である。

少なくとも一実施例では、並列プロセッサ１７００は並列処理ユニット１７０２を含む。少なくとも一実施例では、並列処理ユニット１７０２は、並列処理ユニット１７０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット１７０４を含む。少なくとも一実施例では、Ｉ／Ｏユニット１７０４は、他のデバイスに直接接続されてもよい。少なくとも一実施例では、Ｉ／Ｏユニット１７０４は、メモリ・ハブ１６０５などのハブ又はスイッチ・インターフェースの使用を介して、他のデバイスと接続される。少なくとも一実施例では、メモリ・ハブ１６０５とＩ／Ｏユニット１７０４との間の接続は、通信リンク１６１３を形成する。少なくとも一実施例では、Ｉ／Ｏユニット１７０４は、ホスト・インターフェース１７０６及びメモリ・クロスバー１７１６に接続され、ここでホスト・インターフェース１７０６は、処理動作の実行を対象とするコマンドを受け取り、メモリ・クロスバー１７１６は、メモリ動作の実行を対象とするコマンドを受け取る。

少なくとも一実施例では、ホスト・インターフェース１７０６が、Ｉ／Ｏユニット１７０４を介してコマンド・バッファを受け取るとき、ホスト・インターフェース１７０６は、これらのコマンドを実行するためのワーク動作をフロント・エンド１７０８に向けることができる。少なくとも一実施例では、フロント・エンド１７０８はスケジューラ１７１０に結合され、このスケジューラは、コマンド又は他のワーク・アイテムを処理クラスタ・アレイ１７１２に分配するように構成される。少なくとも一実施例では、スケジューラ１７１０は、処理クラスタ・アレイ１７１２にタスクが分配される前に、処理クラスタ・アレイ１７１２が適切に構成され、有効な状態にあることを確実にする。少なくとも一実施例では、スケジューラ１７１０は、マイクロコントローラで実行しているファームウェア論理を介して実装される。少なくとも一実施例では、マイクロコントローラ実装スケジューラ１７１０は、複雑なスケジューリング及びワーク分配動作を、粗い粒度と細かい粒度で実行するように構成可能であり、処理アレイ１７１２で実行しているスレッドの迅速なプリエンプション及びコンテキストのスイッチングを可能にする。少なくとも一実施例では、ホスト・ソフトウェアは、処理アレイ１７１２でのスケジューリングのワークロードを、複数のグラフィックス処理のドアベルのうちの１つを介して証明することができる。少なくとも一実施例では、次いで、スケジューラ１７１０を含むマイクロコントローラ内のスケジューラ１７１０論理によって、ワークロードを自動的に処理・アレイ１７１２全体に分配することができる。

少なくとも一実施例では、処理クラスタ・アレイ１７１２は、最大「Ｎ個」の処理クラスタ（たとえば、クラスタ１７１４Ａ、クラスタ１７１４Ｂ～クラスタ１７１４Ｎ）を含むことができる。少なくとも一実施例では、処理クラスタ・アレイ１７１２の各クラスタ１７１４Ａ～１７１４Ｎは、大量の同時スレッドを実行することができる。少なくとも一実施例では、スケジューラ１７１０は、様々なスケジューリング及び／又はワーク分配のアルゴリズムを使用して、処理クラスタ・アレイ１７１２のクラスタ１７１４Ａ～１７１４Ｎにワークを配分することができ、これらのアルゴリズムは、プログラム又は計算のタイプごとに生じるワークロードに応じて、異なってもよい。少なくとも一実施例では、スケジューリングは、スケジューラ１７１０によって動的に対処されてもよく、又は処理クラスタ・アレイ１７１２によって実行されるように構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援されてもよい。少なくとも一実施例では、処理クラスタ・アレイ１７１２の異なるクラスタ１７１４Ａ～１７１４Ｎは、異なるタイプのプログラムを処理するように、又は異なるタイプの計算を実行するように配分されることが可能である。

少なくとも一実施例では、処理クラスタ・アレイ１７１２は、様々なタイプの並列処理動作を実行するように構成されることが可能である。少なくとも一実施例では、処理クラスタ・アレイ１７１２は、汎用の並列コンピュート動作を実行するように構成される。たとえば、少なくとも一実施例では、処理クラスタ・アレイ１７１２は、ビデオ及び／又はオーディオ・データのフィルタリング、物理動作を含むモデリング動作の実行、及びデータ変換の実行を含む処理タスクを実行するための論理を含むことができる。

少なくとも一実施例では、処理クラスタ・アレイ１７１２は、並列グラフィックス処理動作を実行するように構成される。少なくとも一実施例では、処理クラスタ・アレイ１７１２は、テクスチャ動作を実行するためのテクスチャ・サンプリング論理、並びにモザイク論理、及び他の頂点処理論理を含むがこれらに限定されないこうしたグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも一実施例では、処理クラスタ・アレイ１７１２は、頂点シェーダ、モザイク・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなどであるが、これらに限定されないグラフィックス処理関連のシェーダ・プログラムを実行するように構成されることが可能である。少なくとも一実施例では、並列処理ユニット１７０２は、処理できるようにデータをシステム・メモリからＩ／Ｏユニット１７０４を介して転送することができる。少なくとも一実施例では、処理中、転送されたデータを、処理中にオン・チップ・メモリ（たとえば、並列プロセッサ・メモリ１７２２）に記憶し、次いでシステム・メモリに書き戻すことができる。

少なくとも一実施例では、並列処理ユニット１７０２を使用してグラフィックス処理が実行される場合には、処理クラスタ・アレイ１７１２の複数のクラスタ１７１４Ａ～１７１４Ｎにグラフィックス処理動作をよりうまく分配できるようにするため、処理ワークロードをおおよそ等しい大きさのタスクに分割するようにスケジューラ１７１０を構成することができる。少なくとも一実施例では、処理クラスタ・アレイ１７１２の一部分は、異なるタイプの処理を実行するように構成されることが可能である。たとえば、少なくとも一実施例では、レンダリング画像を生成して表示するために、第１の部分は、頂点シェーディング及びトポロジ生成を実行するように構成されてもよく、第２の部分は、モザイク及びジオメトリのシェーディングを実行するように構成されてもよく、第３の部分は、ピクセル・シェーディング又は他の画面空間動作を実行するように構成されてもよい。少なくとも一実施例では、クラスタ１７１４Ａ～１７１４Ｎのうちの１つ又は複数によって生成される中間データをバッファに記憶して、さらなる処理ができるようにクラスタ１７１４Ａ～１７１４Ｎの間で中間データを送信できるようにしてもよい。

少なくとも一実施例では、処理クラスタ・アレイ１７１２は、実行される処理タスクをスケジューラ１７１０を介して受け取ることができ、スケジューラ１７１０は、処理タスクを定義するコマンドをフロント・エンド１７０８から受け取る。少なくとも一実施例では、処理タスクは、処理されるデータのインデックス、たとえば、表面（パッチ）データ、プリミティブ・データ、頂点データ、及び／又はピクセル・データ、並びに状態パラメータ、及びデータをどのように処理すべきかを定義するコマンド（たとえば、どのプログラムを実行すべきか）を含むことができる。少なくとも一実施例では、スケジューラ１７１０は、タスクに対応するインデックスをフェッチするように構成されてもよく、又はフロント・エンド１７０８からインデックスを受け取ってもよい。少なくとも一実施例では、フロント・エンド１７０８は、入ってくるコマンド・バッファ（たとえば、バッチ・バッファ、プッシュ・バッファなど）によって指定されるワークロードが開始される前に、処理クラスタ・アレイ１７１２が有効な状態に構成されていることを保証するように構成されることが可能である。

少なくとも一実施例では、並列処理ユニット１７０２の１つ又は複数のインスタンスのそれぞれは、並列プロセッサ・メモリ１７２２と結合することができる。少なくとも一実施例では、並列プロセッサ・メモリ１７２２には、メモリ・クロスバー１７１６を介してアクセスすることができ、メモリ・クロスバー１７１６は、処理クラスタ・アレイ１７１２並びにＩ／Ｏユニット１７０４からメモリ要求を受け取ることができる。少なくとも一実施例では、メモリ・クロスバー１７１６は、メモリ・インターフェース１７１８を介して並列プロセッサ・メモリ１７２２にアクセスすることができる。少なくとも一実施例では、メモリ・インターフェース１７１８は、複数のパーティション・ユニット（たとえば、パーティション・ユニット１７２０Ａ、パーティション・ユニット１７２０Ｂ～パーティション・ユニット１７２０Ｎ）を含むことができ、これらのユニットはそれぞれ、並列プロセッサ・メモリ１７２２の一部分（たとえば、メモリ・ユニット）に結合することができる。少なくとも一実施例では、パーティション・ユニット１７２０Ａ～１７２０Ｎの数は、メモリ・ユニットの数と等しくなるように構成され、それにより、第１のパーティション・ユニット１７２０Ａは、対応する第１のメモリ・ユニット１７２４Ａを有し、第２のパーティション・ユニット１７２０Ｂは、対応するメモリ・ユニット１７２４Ｂを有し、Ｎ番目のパーティション・ユニット１７２０Ｎは、対応するＮ番目のメモリ・ユニット１７２４Ｎを有する。少なくとも一実施例では、パーティション・ユニット１７２０Ａ～１７２０Ｎの数は、メモリ・デバイスの数に等しくなくてもよい。

少なくとも一実施例では、メモリ・ユニット１７２４Ａ～１７２４Ｎは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも一実施例では、またメモリ・ユニット１７２４Ａ～１７２４Ｎはまた、高帯域幅メモリ（ＨＢＭ）を含むがこれに限定されない３Ｄ積層メモリを含んでもよい。少なくとも一実施例では、並列プロセッサ・メモリ１７２２の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット１７２４Ａ～１７２４Ｎにわたって記憶されて、パーティション・ユニット１７２０Ａ～１７２０Ｎが、各レンダー・ターゲットの部分を並列に書き込みできるようにしてもよい。少なくとも一実施例では、システム・メモリとローカル・キャッシュ・メモリを併用する統合メモリ設計に有利なように、並列プロセッサ・メモリ１７２２のローカル・インスタンスは除外されてもよい。

少なくとも一実施例では、処理クラスタ・アレイ１７１２のクラスタ１７１４Ａ～１７１４Ｎのうちのいずれか１つは、並列プロセッサ・メモリ１７２２内のメモリ・ユニット１７２４Ａ～１７２４Ｎのいずれかに書き込まれることになるデータを処理することができる。少なくとも一実施例では、メモリ・クロスバー１７１６は、各クラスタ１７１４Ａ～１７１４Ｎの出力を、出力に対してさらなる処理動作を実行することができる任意のパーティション・ユニット１７２０Ａ～１７２０Ｎ、又は別のクラスタ１７１４Ａ～１７１４Ｎに転送するように構成されることが可能である。少なくとも一実施例では、各クラスタ１７１４Ａ～１７１４Ｎは、メモリ・クロスバー１７１６を通ってメモリ・インターフェース１７１８と通信して、様々な外部メモリ・デバイスからの読取り、又はそれへの書込みを行うことができる。少なくとも一実施例では、メモリ・クロスバー１７１６は、Ｉ／Ｏユニット１７０４と通信するためのメモリ・インターフェース１７１８への接続部、並びに並列プロセッサ・メモリ１７２２のローカル・インスタンスへの接続部を有して、異なる処理クラスタ１７１４Ａ～１７１４Ｎ内の処理ユニットが、システム・メモリ、又は並列処理ユニット１７０２のローカルにない他のメモリと通信できるようにする。少なくとも一実施例では、メモリ・クロスバー１７１６は、仮想チャネルを使用して、クラスタ１７１４Ａ～１７１４Ｎと、パーティション・ユニット１７２０Ａ～１７２０Ｎとの間でトラフィック・ストリームを分離することができる。

少なくとも一実施例では、並列処理ユニット１７０２の複数のインスタンスは、単一のアドイン・カードに提供されてもよく、又は複数のアドイン・カードが相互接続されてもよい。少なくとも一実施例では、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び／又は他の異なる構成を有する場合でも、並列処理ユニット１７０２の異なるインスタンスは相互動作するように構成されることが可能である。たとえば、少なくとも一実施例では、並列処理ユニット１７０２のいくつかインスタンスは、他のインスタンスに比べて高い精度の浮動小数点ユニットを含むことができる。少なくとも一実施例では、並列処理ユニット１７０２又は並列プロセッサ１７００のうちの１つ又は複数のインスタンスを組み込んだシステムは、デスクトップ、ラップトップ、若しくは携帯型のパーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び／又は組み込みシステムを含むが、これらに限定されない様々な構成及びフォーム・ファクタで実装することができる。

図１７Ｂは、少なくとも一実施例によるパーティション・ユニット１７２０のブロック図である。少なくとも一実施例では、パーティション・ユニット１７２０は、図１７Ａのパーティション・ユニット１７２０Ａ～１７２０Ｎのうちの１つのパーティション・ユニットのインスタンスである。少なくとも一実施例では、パーティション・ユニット１７２０は、Ｌ２キャッシュ１７２１、フレーム・バッファ・インターフェース１７２５、及びラスタ演算ユニット（「ＲＯＰ」：ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ）１７２６を含む。Ｌ２キャッシュ１７２１は、メモリ・クロスバー１７１６及びＲＯＰ１７２６から受け取ったロード及びストアの動作を実行するように構成された読取り／書込みキャッシュである。少なくとも一実施例では、読取りミス及び至急の書戻し要求が、処理されるようにＬ２キャッシュ１７２１によってフレーム・バッファ・インターフェース１７２５に出力される。少なくとも一実施例では、更新も、処理されるようにフレーム・バッファ・インターフェース１７２５を介してフレームに送られる。少なくとも一実施例では、フレーム・バッファ・インターフェース１７２５は、図１７の（たとえば並列プロセッサ・メモリ１７２２内の）メモリ・ユニット１７２４Ａ～１７２４Ｎなど、並列プロセッサ・メモリのメモリ・ユニットのうちの１つとインターフェースをとる。

少なくとも一実施例では、ＲＯＰ１７２６は、ステンシル、ｚテスト、ブレンディングなどのラスタ演算を実行する処理ユニットである。少なくとも一実施例では、次いでＲＯＰ１７２６は、グラフィックス・メモリに記憶された処理済みグラフィックス・データを出力する。少なくとも一実施例では、ＲＯＰ１７２６は、メモリに書き込まれる深度又は色データを圧縮し、メモリから読み取られた深度又は色データを解凍するための圧縮論理を含む。少なくとも一実施例では、圧縮論理は、複数の圧縮アルゴリズムのうちの１つ又は複数を利用するロスレス圧縮論理とすることができる。ＲＯＰ１７２６によって実行される圧縮論理は、圧縮されるデータの統計的特徴に基づき変更することができる。たとえば、少なくとも一実施例では、深度及び色データに対してはタイルごとにデルタ色圧縮が実行される。

少なくとも一実施例では、ＲＯＰ１７２６は、パーティション・ユニット１７２０内ではなく、各処理クラスタ内（たとえば、図１７Ａのクラスタ１７１４Ａ～１７１４Ｎ）に含まれる。少なくとも一実施例では、ピクセル・フラグメント・データではなく、ピクセル・データの読取り及び書込み要求が、メモリ・クロスバー１７１６を介して送信される。少なくとも一実施例では、処理済みグラフィックス・データは、図１６の１つ又は複数のディスプレイ・デバイス１６１０のうちの１つなどのディスプレイ・デバイスに表示されてもよく、プロセッサ１６０２によってさらに処理できるようにルーティングされてもよく、又は図１７Ａの並列プロセッサ１７００内の処理エンティティのうちの１つによってさらに処理できるようにルーティングされてもよい。

図１７Ｃは、少なくとも一実施例による並列処理ユニット内の処理クラスタ１７１４のブロック図である。少なくとも一実施例では、処理クラスタは、図１７Ａの処理クラスタ１７１４Ａ～１７１４Ｎのうちの１つの処理クラスタのインスタンスである。少なくとも一実施例では、１つ又は複数の処理クラスタ１７１４は、多数のスレッドを並列で実行するように構成されてもよく、ここで「スレッド」とは、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも一実施例では、複数の独立した命令ユニットを提供することなく、多数のスレッドの並列実行をサポートするために、単一命令複数データ（ＳＩＭＤ）の命令発行技法が使用される。少なくとも一実施例では、それぞれの処理クラスタ内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド（ＳＩＭＴ：ｓｉｎｇｌｅ－ｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅ－ｔｈｒｅａｄ）の技法が使用される。

少なくとも一実施例では、処理クラスタ１７１４の動作は、ＳＩＭＴ並列プロセッサに処理タスクを分配するパイプライン・マネージャ１７３２を介して制御することができる。少なくとも一実施例では、パイプライン・マネージャ１７３２は、図１７Ａのスケジューラ１７１０から命令を受け取り、グラフィックス・マルチプロセッサ１７３４及び／又はテクスチャ・ユニット１７３６を介してこれらの命令の実行を管理する。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかし、少なくとも一実施例では、アーキテクチャの異なる様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ１７１４内に含まれてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４の１つ又は複数のインスタンスは、処理クラスタ１７１４内に含めることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４はデータを処理することができ、処理済みデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの１つに分配するためにデータ・クロスバー１７４０が使用されてもよい。少なくとも一実施例では、パイプライン・マネージャ１７３２は、データ・クロスバー１７４０を通して分配されることになる処理済みデータの宛先を指定することによって、処理済みデータの分配を容易にすることができる。

少なくとも一実施例では、処理クラスタ１７１４内の各グラフィックス・マルチプロセッサ１７３４は、関数実行論理（たとえば、算術論理演算ユニット、ロード・ストア・ユニットなど）の同一のセットを含むことができる。少なくとも一実施例では、関数実行論理は、前の命令が完了する前に新規の命令を発行することができるパイプライン式に構成されることが可能である。少なくとも一実施例では、関数実行論理は、整数及び浮動小数点の算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の計算を含む様々な演算をサポートする。少なくとも一実施例では、同じ関数ユニットのハードウェアを活用して、異なる演算を実行することができ、関数ユニットの任意の組合せが存在してもよい。

少なくとも一実施例では、処理クラスタ１７１４に送信される命令がスレッドを構成する。少なくとも一実施例では、並列処理エンジンのセットにわたって実行されているスレッドのセットが、スレッド・グループである。少なくとも一実施例では、スレッド・グループは、異なる入力データに対してプログラムを実行する。少なくとも一実施例では、スレッド・グループ内の各スレッドを、グラフィックス・マルチプロセッサ１７３４内の異なる処理エンジンに割り当てることができる。少なくとも一実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ１７３４内の処理エンジンの数よりも少ないスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含む場合、１つ又は複数の処理エンジンは、そのスレッド・グループが処理されているサイクル中にはアイドルであってもよい。少なくとも一実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ１７３４内の処理エンジンの数よりも多いスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループがグラフィックス・マルチプロセッサ１７３４内の処理エンジンより多くのスレッドを含む場合には、連続したクロック・サイクルにわたって処理を実行することができる。少なくとも一実施例では、複数のスレッド・グループを、グラフィックス・マルチプロセッサ１７３４上で同時に実行することができる。

少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、ロード及びストアの動作を実行するための内部キャッシュ・メモリを含む。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、内部キャッシュをやめて、処理クラスタ１７１４内のキャッシュ・メモリ（たとえば、Ｌ１キャッシュ１７４８）を使用することができる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ１７３４は、パーティション・ユニット（たとえば、図１７Ａのパーティション・ユニット１７２０Ａ～１７２０Ｎ）内のＬ２キャッシュにもアクセスすることができ、これらのキャッシュが、すべての処理クラスタ１７１４間で共有され、スレッド間でデータを転送するために使用されてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、オフ・チップのグローバル・メモリにもアクセスすることができ、このメモリは、ローカル並列プロセッサ・メモリ及び／又はシステム・メモリのうちの１つ又は複数を含むことができる。少なくとも一実施例では、並列処理ユニット１７０２の外部にある任意のメモリが、グローバル・メモリとして使用されてもよい。少なくとも一実施例では、処理クラスタ１７１４は、グラフィックス・マルチプロセッサ１７３４の複数のインスタンスを含み、共通の命令及びデータを共有することができ、これらはＬ１キャッシュ１７４８に記憶されてもよい。

少なくとも一実施例では、各処理クラスタ１７１４は、仮想アドレスを物理アドレスにマッピングするように構成されたメモリ管理ユニット（「ＭＭＵ」）１７４５を含んでもよい。少なくとも一実施例では、ＭＭＵ２１４５の１つ又は複数のインスタンスは、図１７Ａのメモリ・インターフェース１７１８内にあってもよい。少なくとも一実施例では、ＭＭＵ１７４５は、仮想アドレスを、タイル及び任意選択でキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ（ＰＴＥ）のセットを含む。少なくとも一実施例では、ＭＭＵ１７４５は、アドレスのトランスレーション・ルックアサイド・バッファ（ＴＬＢ：ｔｒａｎｓｌａｔｉｏｎｌｏｏｋａｓｉｄｅｂｕｆｆｅｒ）又はキャッシュを含んでもよく、これらは、グラフィックス・マルチプロセッサ１７３４若しくはＬ１キャッシュ、又は処理クラスタ１７１４内にあってもよい。少なくとも一実施例では、表面データ・アクセスをローカルに分散するように物理アドレスを処理して、パーティション・ユニット間で要求の効率的なインターリーブが可能になる。少なくとも一実施例では、キャッシュ・ライン・インデックスを使用して、キャッシュ・ラインの要求がヒットかミスかが判定されてもよい。

少なくとも一実施例では、各グラフィックス・マルチプロセッサ１７３４がテクスチャ・ユニット１７３６に結合されて、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置の判定、テクスチャ・データの読取り、及びテクスチャ・データのフィルタリングが実行されるように、処理クラスタ１７１４が構成されてもよい。少なくとも一実施例では、テクスチャ・データは、内部テクスチャＬ１キャッシュ（図示せず）から、又はグラフィックス・マルチプロセッサ１７３４内のＬ１キャッシュから読み取られ、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ１７３４は、処理済みタスクをデータ・クロスバー１７４０に出力して、さらなる処理ができるように別の処理クラスタ１７１４に処理済みタスクを提供し、又はメモリ・クロスバー１７１６を介して、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに処理済みタスクを記憶する。少なくとも一実施例では、プレＲＯＰ１７４２（プレ・ラスタ演算ユニット）は、グラフィックス・マルチプロセッサ１７３４からデータを受け取り、ＲＯＰユニットにデータを仕向けるように構成されており、ＲＯＰユニットは、本明細書に記載のするように、パーティション・ユニット（たとえば、図１７Ａのパーティション・ユニット１７２０Ａ～１７２０Ｎ）内に位置付けられてもよい。少なくとも一実施例では、プレＲＯＰ１７４２ユニットは、色ブレンディングの最適化を実行し、ピクセル色データを組織化し、アドレス・トランスレーションを実行することができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス処理クラスタ１７１４において使用されてもよい。

図１７Ｄは、少なくとも一実施例によるグラフィックス・マルチプロセッサ１７３４を示す。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、処理クラスタ１７１４のパイプライン・マネージャ１７３２と結合する。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４は、命令キャッシュ１７５２、命令ユニット１７５４、アドレス・マッピング・ユニット１７５６、レジスタ・ファイル１７５８、１つ又は複数の汎用グラフィックス・プロセッシング・ユニット（ＧＰＧＰＵ）コア１７６２、及び１つ又は複数のロード／ストア・ユニット１７６６を含むがこれらに限定されない実行パイプラインを有する。ＧＰＧＰＵコア１７６２、及びロード／ストア・ユニット１７６６は、メモリ及びキャッシュ相互接続１７６８を介して、キャッシュ・メモリ１７７２及び共有メモリ１７７０に結合される。

少なくとも一実施例では、命令キャッシュ１７５２は、実行すべき命令のストリームをパイプライン・マネージャ１７３２から受け取る。少なくとも一実施例では、命令は、命令キャッシュ１７５２にキャッシュされ、命令ユニット１７５４により実行されるようにディスパッチされる。少なくとも一実施例では、命令ユニット１７５４は、命令をスレッド・グループ（たとえば、ワープ）としてディスパッチすることができ、各スレッド・グループは、ＧＰＧＰＵコア１７６２内の異なる実行ユニットに割り当てられる。少なくとも一実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも一実施例では、アドレス・マッピング・ユニット１７５６を使用して、統一アドレス空間のアドレスを、ロード／ストア・ユニット１７６６がアクセスできる個別メモリ・アドレスにトランスレーションすることができる。

少なくとも一実施例では、レジスタ・ファイル１７５８は、グラフィックス・マルチプロセッサ１７３４の機能ユニットにレジスタのセットを提供する。少なくとも一実施例では、レジスタ・ファイル１７５８は、グラフィックス・マルチプロセッサ１７３４の機能ユニット（たとえばＧＰＧＰＵコア１７６２、ロード／ストア・ユニット１７６６）のデータ経路に接続された、オペランドのための一時的なストレージを提供する。少なくとも一実施例では、レジスタ・ファイル１７５８は、レジスタ・ファイル１７５８の専用部分に各機能ユニットが配分されるように、それぞれの機能ユニット間で分割される。少なくとも一実施例では、レジスタ・ファイル１７５８は、グラフィックス・マルチプロセッサ１７３４によって実行されている異なるワープ間で分割される。

少なくとも一実施例では、ＧＰＧＰＵコア１７６２はそれぞれ、グラフィックス・マルチプロセッサ１７３４の命令を実行するために使用される浮動小数点ユニット（ＦＰＵ）及び／又は整数算術論理演算ユニット（ＡＬＵ）を含むことができる。ＧＰＧＰＵコア１７６２同士は、同様のアーキテクチャであってもよく、又は異なるアーキテクチャであってもよい。少なくとも一実施例では、ＧＰＧＰＵコア１７６２の第１の部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコアの第２の部分は、倍精度ＦＰＵを含む。少なくとも一実施例では、ＦＰＵは、浮動小数点演算に関するＩＥＥＥ７５４－２００８規格を実装することができ、又は、可変精度の浮動小数点演算を有効にすることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ１７３４はさらに、矩形コピー又はピクセル・ブレンディングの動作などの特定の機能を実行するための、１つ若しくは複数の固定機能ユニット又は特別機能ユニットをさらに含むことができる。少なくとも一実施例では、ＧＰＧＰＵコアの１つ又は複数は、固定の又は特別な機能論理も含むことができる。

少なくとも一実施例では、ＧＰＧＰＵコア１７６２は、複数のデータ・セットに対して単一の命令を実行することができるＳＩＭＤ論理を含む。少なくとも一実施例では、ＧＰＧＰＵコア１７６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６の命令を物理的に実行することができ、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２の命令を論理的に実行することができる。少なくとも一実施例では、ＧＰＧＰＵコアのためのＳＩＭＤ命令は、シェーダ・コンパイラによるコンパイル時に生成されてもよく、又は単一プログラム複数データ（ＳＰＭＤ：ｓｉｎｇｌｅｐｒｏｇｒａｍｍｕｌｔｉｐｌｅｄａｔａ）又はＳＩＭＴのアーキテクチャ向けに書かれコンパイルされたプログラムを実行しているときに、自動的に生成されてもよい。少なくとも一実施例では、ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行することができる。たとえば、少なくとも一実施例では、同じ又は同様の動作を実行する８個のＳＩＭＴスレッドを、単一のＳＩＭＤ８の論理ユニットを介して並列に実行することができる。

少なくとも一実施例では、メモリ及びキャッシュ相互接続１７６８は、グラフィックス・マルチプロセッサ１７３４の各機能ユニットをレジスタ・ファイル１７５８及び共有メモリ１７７０に接続する相互接続ネットワークである。少なくとも一実施例では、メモリ及びキャッシュ相互接続１７６８は、ロード／ストア・ユニット１７６６が、共有メモリ１７７０とレジスタ・ファイル１７５８の間でロード及びストアの動作を実装できるようにするクロスバー相互接続である。少なくとも一実施例では、レジスタ・ファイル１７５８は、ＧＰＧＰＵコア１７６２と同じ周波数で動作することができ、したがって、ＧＰＧＰＵコア１７６２とレジスタ・ファイル１７５８の間のデータ転送は非常に低レイテンシである。少なくとも一実施例では、共有メモリ１７７０を使用して、グラフィックス・マルチプロセッサ１７３４内の機能ユニットで実行されるスレッド間の通信を可能にすることができる。少なくとも一実施例では、キャッシュ・メモリ１７７２を、たとえばデータ・キャッシュとして使用して、機能ユニットとテクスチャ・ユニット１７３６の間で通信されるテクスチャ・データをキャッシュすることができる。少なくとも一実施例では、共有メモリ１７７０は、プログラム管理キャッシュとしても使用することができる。少なくとも一実施例では、ＧＰＧＰＵコア１７６２で実行されているスレッドは、キャッシュ・メモリ１７７２内に記憶される自動キャッシュ・データに加えて、共有メモリ内にプログラム的にデータを記憶することができる。

少なくとも一実施例では、本明細書に記載の並列プロセッサ又はＧＰＧＰＵは、ホスト／プロセッサ・コアに通信可能に結合されて、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速する。少なくとも一実施例では、ＧＰＵは、バス又は他の相互接続（たとえば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）を介してホスト・プロセッサ／コアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵは、コアとして同じパッケージ又はチップに一体化されてもよく、内部プロセッサ・バス／相互接続（すなわち、パッケージ又はチップの内部）を介してコアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵの接続方法に関わらず、プロセッサ・コアは、ワーク記述子に含まれたコマンド／命令のシーケンスの形でワークをＧＰＵに配分してもよい。少なくとも一実施例では、次いでＧＰＵは、これらのコマンド／命令を効率的に処理するために専用の回路／論理を使用する。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／若しくはアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・マルチプロセッサ１７３４において使用されてもよい。

図１８は、少なくとも一実施例によるマルチＧＰＵコンピューティング・システム１８００を示す。少なくとも一実施例では、マルチＧＰＵコンピューティング・システム１８００は、ホスト・インターフェース・スイッチ１８０４を介して複数の汎用グラフィックス処理ユニット（ＧＰＧＰＵ）１８０６Ａ～Ｄに結合されたプロセッサ１８０２を含むことができる。少なくとも一実施例では、ホスト・インターフェース・スイッチ１８０４は、プロセッサ１８０２がそれを介してＧＰＧＰＵ１８０６Ａ～Ｄと通信することができるＰＣＩエクスプレス・バスにプロセッサ１８０２を結合するＰＣＩエクスプレス・スイッチ・デバイスである。ＧＰＧＰＵ１８０６Ａ～Ｄは、高速ポイントツーポイントＧＰＵツーＧＰＵリンク１８１６のセットを介して相互接続することができる。少なくとも一実施例では、ＧＰＵツーＧＰＵリンク１８１６は、専用ＧＰＵリンクを介してＧＰＧＰＵ１８０６Ａ～Ｄの各々に接続する。少なくとも一実施例では、Ｐ２ＰＧＰＵリンク１８１６は、プロセッサ１８０２がそれに接続されているホスト・インターフェース・バス１８０４を介した通信を必要とせずに、ＧＰＧＰＵ１８０６Ａ～Ｄの各々の間の直接通信を可能にする。少なくとも一実施例では、Ｐ２ＰＧＰＵリンク１８１６に向けられたＧＰＵツーＧＰＵトラフィックがあると、ホスト・インターフェース・バス１８０４は、システム・メモリ・アクセスのために、又は、たとえば、１つ又は複数のネットワーク・デバイスを介してマルチＧＰＵコンピューティング・システム１８００の他のインスタンスと通信するために利用可能な状態に保たれる。少なくとも一実施例では、ＧＰＧＰＵ１８０６Ａ～Ｄはホスト・インターフェース・スイッチ１８０４を介してプロセッサ１８０２に接続されるが、少なくとも一実施例では、プロセッサ１８０２は、Ｐ２ＰＧＰＵリンク１８１６のための直接サポートを含み、ＧＰＧＰＵ１８０６Ａ～Ｄに直接接続することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／若しくはアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにマルチＧＰＵコンピューティング・システム１８００において使用されてもよい。

図１９は、少なくとも一実施例によるグラフィックス・プロセッサ１９００のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、リング相互接続１９０２、パイプライン・フロント・エンド１９０４、メディア・エンジン１９３７、及びグラフィックス・コア１９８０Ａ～１９８０Ｎを含む。少なくとも一実施例では、リング相互接続１９０２は、グラフィックス・プロセッサ１９００を、他のグラフィックス・プロセッサ又は１つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、マルチ・コア処理システム内に一体化された多数のプロセッサのうちの１つである。

少なくとも一実施例では、グラフィックス・プロセッサ１９００は、リング相互接続１９０２を介してコマンドのバッチを受け取る。少なくとも一実施例では、入ってくるコマンドは、パイプライン・フロント・エンド１９０４のコマンド・ストリーマ１９０３によって解釈される。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、グラフィックス・コア１９８０Ａ～１９８０Ｎを介して３Ｄジオメトリ処理及びメディア処理を実行するためのスケーラブルな実行論理を含む。少なくとも一実施例では、３Ｄジオメトリ処理コマンドについては、コマンド・ストリーマ１９０３はコマンドをジオメトリ・パイプライン１９３６に供給する。少なくとも一実施例では、少なくとも一部のメディア処理コマンドについては、コマンド・ストリーマ１９０３はコマンドをビデオ・フロント・エンド１９３４に供給し、ビデオ・フロント・エンド１９３４はメディア・エンジン１９３７に結合される。少なくとも一実施例では、メディア・エンジン１９３７は、ビデオ及び画像の後処理のためのＶｉｄｅｏＱｕａｌｉｔｙＥｎｇｉｎｅ（ＶＱＥ）１９３０と、ハードウェア加速されたメディア・データのエンコード及びデコードを提供するマルチ・フォーマット・エンコード／デコード（ＭＦＸ）１９３３エンジンとを含む。少なくとも一実施例では、ジオメトリ・パイプライン１９３６及びメディア・エンジン１９３７はそれぞれ、少なくとも１つのグラフィックス・コア１９８０Ａによって提供されるスレッド実行リソースのための実行スレッドを生成する。

少なくとも一実施例では、グラフィックス・プロセッサ１９００は、モジュール式コア１９８０Ａ～１９８０Ｎ（コア・スライスと呼ばれることもある）を特徴とするスケーラブルなスレッド実行リソースを含み、それぞれのモジュール式コア１９８０Ａ～１９８０Ｎは、複数のサブ・コア１９５０Ａ～１９５０Ｎ、１９６０Ａ～１９６０Ｎ（コア・サブ・スライスと呼ばれることもある）を有する。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、任意の数のグラフィックス・コア１９８０Ａ～１９８０Ｎを有することができる。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、少なくとも第１のサブ・コア１９５０Ａ及び第２のサブ・コア１９６０Ａを有するグラフィックス・コア１９８０Ａを含む。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、単一のサブ・コア（たとえば、１９５０Ａ）を有する低電力プロセッサである。少なくとも一実施例では、グラフィックス・プロセッサ１９００は、複数のグラフィックス・コア１９８０Ａ～１９８０Ｎを含み、このそれぞれが、第１のサブ・コア１９５０Ａ～１９５０Ｎのセット、及び第２のサブ・コア１９６０Ａ～１９６０Ｎのセットを含む。少なくとも一実施例では、第１のサブ・コア１９５０Ａ～１９５０Ｎの各サブ・コアは、少なくとも、実行ユニット１９５２Ａ～１９５２Ｎとメディア／テクスチャ・サンプラ１９５４Ａ～１９５４Ｎの第１のセットを含む。少なくとも一実施例では、第２のサブ・コア１９６０Ａ～１９６０Ｎの各サブ・コアは、少なくとも、実行ユニット１９６２Ａ～１９６２Ｎとサンプラ１９６４Ａ～１９６４Ｎの第２のセットを含む。少なくとも一実施例では、各サブ・コア１９５０Ａ～１９５０Ｎ、１９６０Ａ～１９６０Ｎは、共有リソース１９７０Ａ～１９７０Ｎのセットを共有する。少なくとも一実施例では、共有リソースは、共有キャッシュ・メモリ及びピクセル動作論理を含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細が図６Ａ及び／又は図６Ｂと併せて以下で与えられる。少なくとも一実施例では、推論及び／又は訓練論理６１５は、本明細書に記載のニューラル・ネットワーク訓練動作、ニューラル・ネットワーク機能及び／若しくはアーキテクチャ、又はニューラル・ネットワーク・ユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・プロセッサ１９００において使用されてもよい。

図２０は、少なくとも一実施例による、命令を実行するための論理回路を含んでもよいプロセッサ２０００のマイクロ・アーキテクチャを示すブロック図である。少なくとも一実施例では、プロセッサ２０００は、ｘ８６命令、ＡＭＲ命令、特定用途向け集積回路（ＡＳＩＣ）用の特別命令などを含む命令を実行してもよい。少なくとも一実施例では、プロセッサ２０００は、カリフォルニア州サンタクララのインテルコーポレーションによる、ＭＭＸ技術で有効化されたマイクロプロセッサ内の６４ビット幅ＭＭＸＴＭレジスタなど、パック・データを記憶するためのレジスタを含んでもよい。少なくとも一実施例では、整数形式と浮動小数点形式の両方で利用可能なＭＭＸレジスタは、単一命令複数データ（「ＳＩＭＤ」）及びストリーミングＳＩＭＤ拡張（「ＳＳＥ」：ｓｔｒｅａｍｉｎｇＳＩＭＤｅｘｔｅｎｓｉｏｎｓ）命令を伴うパック・データ要素で動作してもよい。少なくとも一実施例では、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、ＡＶＸ、又はそれ以上（総称して「ＳＳＥｘ」と呼ばれる）の技術に関する１２８ビット幅のＸＭＭレジスタは、こうしたパック・データのオペランドを保持してもよい。少なくとも一実施例では、プロセッサ２０００は、機械学習若しくは深層学習のアルゴリズム、訓練、又は推論を加速するために命令を実行してもよい。

少なくとも一実施例では、プロセッサ２０００は、実行すべき命令をフェッチし、プロセッサ・パイプラインで後に使用すべき命令を準備するイン・オーダー・フロント・エンド（「フロント・エンド」）２００１を含む。少なくとも一実施例では、フロント・エンド２００１は、いくつかのユニットを含んでもよい。少なくとも一実施例では、命令プリフェッチャ２０２６が、メモリから命令をフェッチし、命令デコーダ２０２８に命令を供給し、命令デコーダが、命令をデコード又は解釈する。たとえば、少なくとも一実施例では、命令デコーダ２０２８は、受け取った命令を、機械が実行することのできる「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる（「マイクロ・オプス」又は「ｕｏｐｓ」とも呼ばれる）１つ又は複数のオペレーションにデコードする。少なくとも一実施例では、命令デコーダ２０２８は、命令を、オプコード及び対応するデータ、並びに制御フィールドに構文解析して、これらがマイクロ・アーキテクチャによって使用されて、少なくとも一実施例による動作が実行されてもよい。少なくとも一実施例では、トレース・キャッシュ２０３０は、デコードされたｕｏｐｓを、実行できるようにｕｏｐキュー２０３４においてプログラム順のシーケンス又はトレースにアセンブルしてもよい。少なくとも一実施例では、トレース・キャッシュ２０３０が複雑な命令に遭遇すると、マイクロコードＲＯＭ２０３２が、動作の完了に必要なｕｏｐｓを提供する。

少なくとも一実施例では、単一のマイクロ・オプスに変換できる命令もあれば、全動作を完了するためにいくつかのマイクロ・オプスを必要とする命令もある。少なくとも一実施例では、命令を完了するために５つ以上のマイクロ・オプスが必要な場合、命令デコーダ２０２８は、マイクロコードＲＯＭ２０３２にアクセスして、命令を実行してもよい。少なくとも一実施例では、命令は、命令デコーダ２０２８において処理できるように、少数のマイクロ・オプスにデコードされてもよい。少なくとも一実施例では、動作を完了するのに多数のマイクロ・オプスが必要な場合には、命令は、マイクロコードＲＯＭ２０３２に記憶されてもよい。少なくとも一実施例では、トレース・キャッシュ２０３０は、少なくとも一実施例によるマイクロコードＲＯＭ２０３２からの１つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ（「ＰＬＡ」：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを判定する。少なくとも一実施例では、マイクロコードＲＯＭ２０３２が命令のためのマイクロ・オプスのシーケンシングを終了した後、機械のフロント・エンド２００１は、トレース・キャッシュ２０３０からマイクロ・オプスのフェッチを再開してもよい。

少なくとも一実施例では、アウト・オブ・オーダー実行エンジン（「アウト・オブ・オーダー・エンジン」）２００３は、実行できるように命令を準備してもよい。少なくとも一実施例では、アウト・オブ・オーダー実行論理は、命令のフローをなめらかにし、その順序を変更するために多数バッファを有し、命令がパイプラインを下り、実行されるようにスケジューリングされるときの性能を最適化する。少なくとも一実施例では、アウト・オブ・オーダー実行エンジン２００３は、限定することなく、アロケータ／レジスタ・リネーマ２０４０、メモリｕｏｐキュー２０４２、整数／浮動小数点ｕｏｐキュー２０４４、メモリ・スケジューラ２０４６、高速スケジューラ２００２、低速／汎用浮動小数点スケジューラ（「低速／汎用ＦＰ：ｆｌｏａｔｉｎｇｐｏｉｎｔスケジューラ」）２００４、及び単純浮動小数点スケジューラ（「単純ＦＰスケジューラ」）２００６を含む。少なくとも一実施例では、高速スケジューラ２００２、低速／汎用浮動小数点スケジューラ２００４、及び単純浮動小数点スケジューラ２００６は、本明細書において集合的に「ｕｏｐスケジューラ２００２、２００４、２００６」とも呼ばれる。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２０４０は、実行するために各ｕｏｐが必要とする機械バッファ及びリソースを配分する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２０４０は、レジスタ・ファイルへのエントリ時に論理レジスタの名前を変更する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２０４０はまた、メモリ・スケジューラ２０４６及びｕｏｐスケジューラ２００２、２００４、２００６の前の、２つのｕｏｐキュー、すなわちメモリ動作のためのメモリｕｏｐキュー２０４２と非メモリ動作のための整数／浮動小数点ｕｏｐキュー２０４４のうちの１つに、各ｕｏｐのエントリを配分する。少なくとも一実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、ｕｏｐｓがいつ実行準備されるかを、それらの従属入力レジスタ・オペランドのソースが準備されていること、及びそれらの動作を完了するためにｕｏｐが必要とする実行リソースが利用可能であることに基づき、判定する。少なくとも一実施例では、少なくとも一実施例の高速スケジューラ２００２は、メイン・クロック・サイクルの半分ごとにスケジューリングしてもよく、低速／汎用浮動小数点スケジューラ２００４及び単純浮動小数点スケジューラ２００６は、メイン・プロセッサのクロック・サイクル当たりに１回スケジューリングしてもよい。少なくとも一実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、実行できるようにｕｏｐｓをスケジューリングするためにディスパッチ・ポートを調停する。

少なくとも一実施例では、実行ブロック２０１１は、限定することなく、整数レジスタ・ファイル／バイパス・ネットワーク２００８、浮動小数点レジスタ・ファイル／バイパス・ネットワーク（「ＦＰレジスタ・ファイル／バイパス・ネットワーク」）２０１０、アドレス生成ユニット（「ＡＧＵ」：ａｄｄｒｅｓｓｇｅｎｅｒａｔｉｏｎｕｎｉｔｓ）２０１２及び２０１４、高速算術論理演算ユニット（ＡＬＵ）（「高速ＡＬＵ」）２０１６及び２０１８、低速算術論理演算ユニット（「低速ＡＬＵ」）２０２０、浮動小数点ＡＬＵ（「ＦＰ」）２０２２、並びに浮動小数点移動ユニット（「ＦＰ移動」）２０２４を含む。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８及び浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、本明細書において「レジスタ・ファイル２００８、２０１０」とも呼ばれる。少なくとも一実施例では、ＡＧＵ２０１２及び２０１４、高速ＡＬＵ２０１６及び２０１８、低速ＡＬＵ２０２０、浮動小数点ＡＬＵ２０２２、及び浮動小数点移動ユニット２０２４は、本明細書において「実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、及び２０２４」とも呼ばれる。少なくとも一実施例では、実行ブロックｂ１１は、限定することなく、（ゼロを含む）任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含んでもよい。

少なくとも一実施例では、レジスタ・ファイル２００８、２０１０は、ｕｏｐスケジューラ２００２、２００４、２００６と、実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、及び２０２４との間に配置されてもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８は、整数演算を実行する。少なくとも一実施例では、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、浮動小数点演算を実行する。少なくとも一実施例では、レジスタ・ファイル２００８、２０１０のそれぞれは、限定することなく、バイパス・ネットワークを含んでもよく、このバイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属ｕｏｐｓにバイパス又は転送してもよい。少なくとも一実施例では、レジスタ・ファイル２００８、２０１０は、互いにデータを通信してもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８は、限定することなく、２つの別々のレジスタ・ファイル、すなわち低次３２ビットのデータ用の１つのレジスタ・ファイル、及び高次３２ビットのデータ用の第２のレジスタ・ファイルを含んでもよい。少なくとも一実施例では、浮動小数点命令は、通常、６４～１２８ビット幅のオペランドを有することから、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、限定することなく、１２８ビット幅のエントリを含んでもよい。

少なくとも一実施例では、実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、２０２４は、命令を実行してもよい。少なくとも一実施例では、レジスタ・ファイル２００８、２０１０は、マイクロ命令が実行する必要のある整数及び浮動小数点のデータのオペランド値を記憶する。少なくとも一実施例では、プロセッサ２０００は、限定することなく、任意の数及び組合せの実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、２０２４を含んでよい。少なくとも一実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、ＡＶＸ、及びＳＥＥ、又は特別な機械学習命令を含む他の演算を実行してもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２０２２は、限定することなく、６４ビットずつの浮動小数点デバイダを含み、除算、平方根、及び残りのマイクロ・オプスを実行してもよい。少なくとも一実施例では、浮動小数点値を含む命令は、浮動小数点ハードウェアによって対処されてもよい。少なくとも一実施例では、ＡＬＵ演算は、高速ＡＬＵ２０１６、２０１８に渡されてもよい。少なくとも一実施例では、高速ＡＬＵ２０１６、２０１８は、クロック・サイクルの半分の実効レイテンシで高速演算を実行してもよい。少なくとも一実施例では、低速ＡＬＵ２０２０は、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを、限定することなく含んでもよいことから、ほとんどの複雑な整数演算は低速ＡＬＵ２０２０に進む。少なくとも一実施例では、メモリのロード／ストア動作は、ＡＧＵＳ２０１２、２０１４によって実行されてもよい。少なくとも一実施例では、高速ＡＬＵ２０１６、高速ＡＬＵ２０１８、及び低速ＡＬＵ２０２０は、６４ビットのデータ・オペランドで整数演算を実行してもよい。少なくとも一実施例では、高速ＡＬＵ２０１６、高速ＡＬＵ２０１８、及び低速ＡＬＵ２０２０は、１６、３２、１２８、２５６などを含む様々なデータ・ビット・サイズをサポートするように実装されてもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、様々なビット幅を有する幅広いオペランドをサポートするように実装されてもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、ＳＩＭＤ及びマルチメディア命令と併せて１２８ビット幅のパック・データ・オペランドに対して動作してもよい。

少なくとも一実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、親ロードが実行を終了する前に、従属演算をディスパッチする。少なくとも一実施例では、ｕｏｐｓは、プロセッサ２０００において投機的にスケジューリング及び実行されてもよいので、プロセッサ２０００は、メモリ・ミスに対処するための論理も含んでよい。少なくとも一実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータを有するスケジューラを通り過ぎたパイプラインに、進行中の従属演算が存在してもよい。少なくとも一実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも一実施例では、従属演算は、リプレイされる必要があってもよく、独立した演算は、完了が許容されてもよい。少なくとも一実施例では、プロセッサの少なくとも一実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計されてもよい。

少なくとも一実施例では、用語「レジスタ」は、オペランドを識別するための命令の一部として使用することができるオンボード・プロセッサのストレージ・ロケーションを指してもよい。少なくとも一実施例では、レジスタは、（プログラマの視点から見て）プロセッサの外部から使用可能であり得るものであってもよい。少なくとも一実施例では、レジスタは、特定のタイプの回路に限定されなくてもよい。むしろ、少なくとも一実施例では、レジスタは、データを記憶し、データを提供し、本明細書に記載の機能を実行してもよい。少なくとも一実施例では、本明細書に記載のレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に配分される物理レジスタ、専用物理レジスタと動的に配分される物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路によって実装されてもよい。少なくとも一実施例では、整数レジスタは、３２ビットの整数データを記憶する。少なくとも一実施例のレジスタ・ファイルは、パック・データのための８つのマルチメディアＳＩＭＤレジスタも含む。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５の一部又はすべてが、実行ブロック２０１１、及び図示してある若しくは図示していない他のメモリ又はレジスタに組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、実行ブロック２０１１に示すＡＬＵのうちの１つ又は複数を使用してもよい。さらに、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行ブロック２０１１のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２１は、少なくとも一実施例による深層学習アプリケーション・プロセッサ２１００を示す。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、深層学習アプリケーション・プロセッサ２１００によって実行される場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、深層学習アプリケーション・プロセッサ２１００に実行させる命令を使用する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、特定用途向け集積回路（ＡＳＩＣ）である。少なくとも一実施例では、アプリケーション・プロセッサ２１００は、１つ若しくは複数の命令又は両方を実行した結果としていずれもハードウェアに「ハード・ワイヤード」された行列乗算演算を実行する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、限定することなく、処理クラスタ２１１０（１）～２１１０（１２）、チップ間リンク（「ＩＣＬ」）２１２０（１）～２１２０（１２）、チップ間コントローラ（「ＩＣＣ」）２１３０（１）～２１３０（２）、メモリ・コントローラ（「ＭｅｍＣｔｒｌｒｓ」）２１４２（１）～２１４２（４）、高帯域幅メモリ物理層（「ＨＢＭＰＨＹ」）２１４４（１）～２１４４（４）、管理－コントローラ中央処理装置（「管理－コントローラＣＰＵ」）２１５０、周辺構成要素相互接続エクスプレス・コントローラ及びダイレクト・メモリ・アクセス・ブロック（「ＰＣＩｅコントローラ及びＤＭＡ」）２１７０、並びに１６レーン周辺構成要素相互接続エクスプレス・ポート（「ＰＣＩＥｘｐｒｅｓｓｘ１６」）２１８０を含む。

少なくとも一実施例では、処理クラスタ２１１０は、本明細書に記載の技法を含む１つ又は複数の訓練技法を使用して計算された重みパラメータに基づき、推論又は予測の演算を含む深層学習演算を実行してもよい。少なくとも一実施例では、各処理クラスタ２１１０は、限定することなく、任意の数及びタイプのプロセッサを含んでもよい。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、任意の数及びタイプの処理クラスタ２１００を含んでもよい。少なくとも一実施例では、チップ間リンク２１２０は、双方向性である。少なくとも一実施例では、チップ間リンク２１２０及びチップ間コントローラ２１３０は、１つ又は複数のニューラル・ネットワークに具体化された１つ又は複数の機械学習アルゴリズムを実行した結果得られるアクティブ化情報を含む情報を、複数の深層学習アプリケーション・プロセッサ２１００が交換できるようにする。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、（ゼロを含む）任意の数及びタイプのＩＣＬ２１２０及びＩＣＣ２１３０を含んでもよい。

少なくとも一実施例では、ＨＢＭ２２１４０は、合計３２ギガバイト（ＧＢ：Ｇｉｇａｂｙｔｅ）のメモリを提供する。ＨＢＭ２２１４０（ｉ）は、メモリ・コントローラ２１４２（ｉ）とＨＢＭＰＨＹ２１４４（ｉ）の両方に関連付けられる。少なくとも一実施例では、任意の数のＨＢＭ２２１４０が、任意のタイプ及び合計量の高帯域幅メモリを提供してもよく、（ゼロを含む）任意の数及びタイプのメモリ・コントローラ２１４２及びＨＢＭＰＨＹ２１４４に関連付けられてもよい。少なくとも一実施例では、ＳＰＩ、Ｉ２Ｃ、ＧＰＩＯ２１６０、ＰＣＩｅコントローラ及びＤＭＡ２１７０、並びに／又はＰＣＩｅ２１８０は、任意の技術的に実行可能なやり方で任意の数及びタイプの通信規格を有効にする任意の数及びタイプのブロックに置き換えられてもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、深層学習アプリケーション・プロセッサ２１００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２１００は、別のプロセッサ若しくはシステムによって、又は深層学習アプリケーション・プロセッサ２１００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、プロセッサ２１００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図２２は、少なくとも一実施例による、ニューロモーフィック・プロセッサ２２００のブロック図である。少なくとも一実施例では、ニューロモーフィック・プロセッサ２２００は、ニューロモーフィック・プロセッサ２２００の外部のソースから１つ又は複数の入力を受信する。少なくとも一実施例では、これらの入力は、ニューロモーフィック・プロセッサ２２００内の１つ又は複数のニューロン２２０２に送信されてもよい。少なくとも一実施例では、ニューロン２２０２及びその構成要素は、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２２００は、限定することなく、ニューロン２２０２の数千又は数百万のインスタンスを含んでもよいが、任意の好適な数のニューロン２２０２が使用されてもよい。少なくとも一実施例では、ニューロン２２０２の各インスタンスは、ニューロン入力２２０４及びニューロン出力２２０６を含んでもよい。少なくとも一実施例では、ニューロン２２０２は出力を生成してもよく、この出力は、ニューロン２２０２の他のインスタンスの入力に送信されてもよい。たとえば、少なくとも一実施例では、ニューロン入力２２０４及びニューロン出力２２０６は、シナプス２２０８を介して相互接続されてもよい。

少なくとも一実施例では、ニューロン２２０２とシナプス２２０８は、ニューロモーフィック・プロセッサ２２００が受信した情報をニューロモーフィック・プロセッサ２２００が動作して処理又は分析するように、相互接続されてもよい。少なくとも一実施例では、ニューロン２２０２は、ニューロン入力２２０４を介して受信した入力が、閾値を超えているとき、出力パルス（又は「発火」若しくは「スパイク」）を送信してもよい。少なくとも一実施例では、ニューロン２２０２は、ニューロン入力２２０４において受信した信号を合計又は積分してもよい。たとえば、少なくとも一実施例では、ニューロン２２０２は、漏れ積分発火ニューロン（ｌｅａｋｙｉｎｔｅｇｒａｔｅ－ａｎｄ－ｆｉｒｅｎｅｕｒｏｎ）として実装されてもよく、ここで、合計（「膜電位」と呼ばれる）が閾値を超える場合には、ニューロン２２０２は、シグモイド関数又は閾値関数などの伝達関数を使用して、出力（又は「発火」）を生成してもよい。少なくとも一実施例では、漏れ積分発火ニューロンは、ニューロン入力２２０４で受信した信号を合計して膜電位にしてもよく、また、崩壊因子（又は漏れ）を適用して膜電位を低減してもよい。少なくとも一実施例では、複数の入力信号が、閾値を超えるほど十分に素早く（すなわち、膜電位の崩壊が少なすぎて発火できなくなる前に）ニューロン入力２２０４において受信された場合には、漏れ積分発火ニューロンが発火してもよい。少なくとも一実施例では、ニューロン２２０２は、入力を受信し、入力を積分して膜電位にし、膜電位を崩壊させる回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、入力は平均化されてもよく、又は任意の他の好適な伝達関数が使用されてもよい。さらに、少なくとも一実施例では、ニューロン２２０２は、ニューロン入力２２０４に伝達関数を適用した結果が閾値を超えるとき、ニューロン出力２２０６において出力スパイクを生成するコンパレータ回路又は論理を、限定することなく含んでもよい。少なくとも一実施例では、ニューロン２２０２は発火すると、前に受信した入力情報を、たとえば膜電位を０又は他の好適なデフォルト値に再設定することによって、無視してもよい。少なくとも一実施例では、膜電位が０にリセットされると、ニューロン２２０２は、好適な期間（又は不応期）の後に通常の動作を再開してもよい。

少なくとも一実施例では、ニューロン２２０２は、シナプス２２０８を通して相互接続されてもよい。少なくとも一実施例では、シナプス２２０８は、第１のニューロン２２０２の出力から第２のニューロン２２０２の入力に信号を送信するように動作してもよい。少なくとも一実施例では、ニューロン２２０２は、シナプス２２０８の２つ以上のインスタンスを介して情報を送信してもよい。少なくとも一実施例では、ニューロン出力２２０６の１つ又は複数のインスタンスは、シナプス２２０８のインスタンスを介して、同じニューロン２２０２のニューロン入力２２０４のインスタンスに接続されてもよい。少なくとも一実施例では、シナプス２２０８のインスタンスを介して送信されることになる出力を生成するニューロン２２０２のインスタンスは、シナプス２２０８のそのインスタンスに対して「シナプス前ニューロン」と呼ばれてもよい。少なくとも一実施例では、シナプス２２０８のインスタンスを介して送信されることになる入力を受信するニューロン２２０２のインスタンスは、シナプス２２０８のそのインスタンスに対して「シナプス後ニューロン」と呼ばれてもよい。少なくとも一実施例では、ニューロン２２０２のインスタンスは、シナプス２２０８の１つ又は複数のインスタンスから入力を受信してもよく、また、シナプス２２０８の１つ又は複数のインスタンスを介して出力を送信してもよいので、ニューロン２２０２の単一のインスタンスは、したがって、シナプス２２０８の様々なインスタンスに対して「シナプス前ニューロン」と「シナプス後ニューロン」の両方であってもよい。

少なくとも一実施例では、ニューロン２２０２は、１つ又は複数の層に組織化されてもよい。ニューロン２２０２の各インスタンスは、１つ又は複数のシナプス２２０８を通って１つ又は複数のニューロン入力２２０４にファン・アウトすることができる１つのニューロン出力２２０６を有してもよい。少なくとも一実施例では、第１の層２２１０のニューロン２２０２のニューロン出力２２０６は、第２の層２２１２のニューロン２２０２のニューロン入力２２０４に接続されてもよい。少なくとも一実施例では、層２２１０は、「フィード・フォワード」層と呼ばれてもよい。少なくとも一実施例では、第１の層２２１０のインスタンスにおけるニューロン２２０２の各インスタンスは、第２の層２２１２におけるニューロン２２０２の各インスタンスにファン・アウトしてもよい。少なくとも一実施例では、第１の層２２１０は、「完全に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２２１２のインスタンスにおけるニューロン２２０２の各インスタンスは、第３の層２２１４におけるニューロン２２０２の全インスタンスより少ないインスタンスにファン・アウトしてもよい。少なくとも一実施例では、第２の層２２１２は、「疎に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２２１２のニューロン２２０２は、（同じ）第２の層２２１２におけるニューロン２２０２を含め、複数の他の層のニューロン２２０２にファン・アウトしてもよい。少なくとも一実施例では、第２の層２２１２は、「回帰層」と呼ばれてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２２００は、疎に接続されたフィード・フォワード層と完全に接続されたフィード・フォワード層の両方を限定することなく含む、回帰層とフィード・フォワード層の任意の好適な組合せを限定することなく含んでもよい。

少なくとも一実施例では、ニューロモーフィック・プロセッサ２２００は、シナプス２２０８をニューロン２２０２に接続するための再構成可能相互接続アーキテクチャ、又は専用ハード・ワイヤード相互接続を、限定することなく含んでもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２２００は、ニューラル・ネットワーク・トポロジ、及びニューロンのファン・イン／ファン・アウトに基づき、必要に応じてシナプスを異なるニューロン２２０２に配分できるようにする回路又は論理を、限定することなく含んでもよい。たとえば、少なくとも一実施例では、シナプス２２０８は、ネットワーク・オン・チップなどの相互接続ファブリックを使用して、又は専用の接続を用いて、ニューロン２２０２に接続されてもよい。少なくとも一実施例では、シナプス相互接続及びその構成要素は、回路又は論理を使用して実装されてもよい。

図２３は、少なくとも一実施例による処理システムのブロック図である。少なくとも一実施例では、システム２３００は、１つ又は複数のプロセッサ２３０２、及び１つ又は複数のグラフィックス・プロセッサ２３０８を含み、単一プロセッサのデスクトップ・システム、マルチプロセッサのワークステーション・システム、又は多数のプロセッサ２３０２若しくはプロセッサ・コア２３０７を有するサーバ・システムであってもよい。少なくとも一実施例では、システム２３００は、モバイル・デバイス、携帯型デバイス、又は組み込みデバイスで使用するためのシステム・オン・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

少なくとも一実施例では、システム２３００は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム及びメディアのコンソールを含むゲーム・コンソール、モバイル・ゲーミング・コンソール、携帯型ゲーム・コンソール、若しくはオンライン・ゲーム・コンソールを含んでもよく、又はそれらに組み込まれてもよい。少なくとも一実施例では、システム２３００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス、又はモバイル・インターネット・デバイスである。少なくとも一実施例では、処理システム２３００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、若しくは仮想現実デバイスなどのウェアラブル・デバイスを含んでもよく、それらに結合されてもよく、又はそれらの中に一体化されてもよい。少なくとも一実施例では、処理システム２３００は、１つ又は複数のプロセッサ２３０２と、１つ又は複数のグラフィックス・プロセッサ２３０８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

少なくとも一実施例では、１つ又は複数のプロセッサ２３０２はそれぞれ、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実行する命令を処理するための１つ又は複数のプロセッサ・コア２３０７を含む。少なくとも一実施例では、１つ又は複数のプロセッサ・コア２３０７のそれぞれは、特定の命令セット２３０９を処理するように構成される。少なくとも一実施例では、命令セット２３０９は、複合命令セット・コンピューティング（ＣＩＳＣ）、縮小命令セット・コンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介したコンピューティングを容易にしてもよい。少なくとも一実施例では、プロセッサ・コア２３０７はそれぞれ、異なる命令セット２３０９を処理してもよく、この命令セットは、他の命令セットのエミュレーションを容易にする命令を含んでもよい。少なくとも一実施例では、プロセッサ・コア２３０７はまた、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含んでもよい。

少なくとも一実施例では、プロセッサ２３０２はキャッシュ・メモリ２３０４を含む。少なくとも一実施例では、プロセッサ２３０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ２３０２の様々な構成要素間で共有される。少なくとも一実施例では、プロセッサ２３０２はまた、外部キャッシュ（たとえば、レベル３（Ｌ３）キャッシュ又はラスト・レベル・キャッシュ（ＬＬＣ））（図示せず）を使用し、このキャッシュは、知られているキャッシュ・コヒーレンス技法を使用して、プロセッサ・コア２３０７間で共有されてもよい。少なくとも一実施例では、さらにレジスタ・ファイル２３０６がプロセッサ２３０２に含まれ、このレジスタ・ファイルは、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタ）を含んでもよい。少なくとも一実施例では、レジスタ・ファイル２３０６は、汎用レジスタ又は他のレジスタを含んでもよい。

少なくとも一実施例では、１つ又は複数のプロセッサ２３０２は、１つ又は複数のインターフェース・バス２３１０に結合されて、アドレス、データ、又は制御信号などの通信信号を、プロセッサ２３０２とシステム２３００内の他の構成要素との間で送信する。少なくとも一実施例では、インターフェース・バス２３１０は、一実施例では、ダイレクト・メディア・インターフェース（ＤＭＩ）バスのバージョンなどのプロセッサ・バスとすることができる。少なくとも一実施例では、インターフェース２３１０は、ＤＭＩバスに限定されず、１つ又は複数のペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）、メモリ・バス、又は他のタイプのインターフェース・バスを含んでもよい。少なくとも一実施例では、プロセッサ２３０２は、統合メモリ・コントローラ２３１６、及びプラットフォーム・コントローラ・ハブ２３３０を含む。少なくとも一実施例では、メモリ・コントローラ２３１６は、メモリ・デバイスとシステム２３００の他の構成要素との間の通信を容易にし、一方でプラットフォーム・コントローラ・ハブ（ＰＣＨ）２３３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

少なくとも一実施例では、メモリ・デバイス２３２０は、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセス・メモリとしての役割を果たすのに好適な性能を有する何らかの他のメモリ・デバイスとすることができる。少なくとも一実施例では、メモリ・デバイス２３２０は、システム２３００のためのシステム・メモリとして動作して、１つ又は複数のプロセッサ２３０２がアプリケーション若しくはプロセスを実行するときに使用するためのデータ２３２２及び命令２３２１を記憶することができる。少なくとも一実施例では、メモリ・コントローラ２３１６はまた、任意選択の外部グラフィックス・プロセッサ２３１２と結合しており、このグラフィックス・プロセッサは、プロセッサ２３０２内の１つ又は複数のグラフィックス・プロセッサ２３０８と通信して、グラフィックス及びメディアの動作を実行してもよい。少なくとも一実施例では、ディスプレイ・デバイス２３１１は、プロセッサ２３０２に接続することができる。少なくとも一実施例では、ディスプレイ・デバイス２３１１は、モバイル電子デバイス又はラップトップ・デバイスのような内部ディスプレイ・デバイス、又はディスプレイ・インターフェース（たとえば、ディスプレイ・ポートなど）を介して取り付けられる外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも一実施例では、ディスプレイ・デバイス２３１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（ＨＭＤ）を含むことができる。

少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２３３０は、周辺装置が高速Ｉ／Ｏバスを介してメモリ・デバイス２３２０及びプロセッサ２３０２に接続できるようにする。少なくとも一実施例では、Ｉ／Ｏ周辺装置は、オーディオ・コントローラ２３４６、ネットワーク・コントローラ２３３４、ファームウェア・インターフェース２３２８、ワイヤレス・トランシーバ２３２６、タッチ・センサ２３２５、データ・ストレージ・デバイス２３２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）を含むが、これらに限定されない。少なくとも一実施例では、データ・ストレージ・デバイス２３２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）などのペリフェラル・バスを介して、接続することができる。少なくとも一実施例では、タッチ・センサ２３２５は、タッチ画面センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも一実施例では、ワイヤレス・トランシーバ２３２６は、ＷｉＦｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、又は３Ｇ、４Ｇ、若しくはＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）トランシーバなどのモバイル・ネットワーク・トランシーバとすることができる。少なくとも一実施例では、ファームウェア・インターフェース２３２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（ＵＥＦＩ）とすることができる。少なくとも一実施例では、ネットワーク・コントローラ２３３４は、有線ネットワークへのネットワーク接続を可能にすることができる。少なくとも一実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス２３１０と結合する。少なくとも一実施例では、オーディオ・コントローラ２３４６は、多チャネル・ハイ・デフィニション・オーディオ・コントローラである。少なくとも一実施例では、システム２３００は、レガシー（たとえば、パーソナル・システム２（ＰＳ／２））デバイスをシステムに結合するための任意選択のレガシーＩ／Ｏコントローラ２３４０を含む。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２３３０は、キーボードとマウス２３４３の組合せ、カメラ２３４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ２３４２の接続入力デバイスにも接続することができる。

少なくとも一実施例では、メモリ・コントローラ２３１６及びプラットフォーム・コントローラ・ハブ２３３０のインスタンスは、外部グラフィックス・プロセッサ２３１２などの個別の外部グラフィックス・プロセッサに一体化されてもよい。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２３３０及び／又はメモリ・コントローラ２３１６は、１つ又は複数のプロセッサ２３０２の外部にあってもよい。たとえば、少なくとも一実施例では、システム２３００は、外部のメモリ・コントローラ２３１６及びプラットフォーム・コントローラ・ハブ２３３０を含むことができ、これらは、プロセッサ２３０２と通信するシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺装置コントローラ・ハブとして構成されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５の一部又はすべてが、グラフィックス・プロセッサ２３００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２３１２に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図６Ａ又は図６Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２３００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２４は、少なくとも一実施例による、１つ又は複数のプロセッサ・コア２４０２Ａ～２４０２Ｎ、統合メモリ・コントローラ２４１４、及び統合グラフィックス・プロセッサ２４０８を有するプロセッサ２４００のブロック図である。少なくとも一実施例では、プロセッサ２４００は、破線の四角によって表される追加コア２４０２Ｎを含むそれ以下の数の追加コアを含むことができる。少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎのそれぞれは、１つ又は複数の内部キャッシュ・ユニット２４０４Ａ～２４０４Ｎを含む。少なくとも一実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット２４０６にアクセスできる。

少なくとも一実施例では、内部キャッシュ・ユニット２４０４Ａ～２４０４Ｎ、及び共有キャッシュ・ユニット２４０６は、プロセッサ２４００内のキャッシュ・メモリ階層を表す。少なくとも一実施例では、キャッシュ・メモリ・ユニット２４０４Ａ～２４０４Ｎは、各プロセッサ・コア内の命令及びデータのキャッシュの少なくとも１つのレベル、並びにレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含んでもよく、ここで外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも一実施例では、キャッシュ・コヒーレンス論理は、様々なキャッシュ・ユニット２４０６及び２４０４Ａ～２４０４Ｎ間でコヒーレンスを維持する。

少なくとも一実施例では、プロセッサ２４００はまた、１つ又は複数のバス・コントローラ・ユニット２４１６とシステム・エージェント・コア２４１０のセットを含んでもよい。少なくとも一実施例では、１つ又は複数のバス・コントローラ・ユニット２４１６は、１つ又は複数のＰＣＩ若しくはＰＣＩエクスプレス・バスなどのペリフェラル・バスのセットを管理する。少なくとも一実施例では、システム・エージェント・コア２４１０は、様々なプロセッサ構成要素のための管理機能を提供する。少なくとも一実施例では、システム・エージェント・コア２４１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合メモリ・コントローラ２４１４を含む。

少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも一実施例では、システム・エージェント・コア２４１０は、マルチスレッドの処理中にコア２４０２Ａ～２４０２Ｎを調整し動作させるための構成要素を含む。少なくとも一実施例では、システム・エージェント・コア２４１０はさらに、電力制御ユニット（ＰＣＵ）を含んでもよく、このユニットは、プロセッサ・コア２４０２Ａ～２４０２Ｎ及びグラフィックス・プロセッサ２４０８の１つ又は複数の電力状態を調整するための論理及び構成要素を含む。

少なくとも一実施例では、プロセッサ２４００はさらに、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ２４０８を含む。少なくとも一実施例では、グラフィックス・プロセッサ２４０８は、共有キャッシュ・ユニット２４０６と、１つ又は複数の統合メモリ・コントローラ２４１４を含むシステム・エージェント・コア２４１０とに結合する。少なくとも一実施例では、システム・エージェント・コア２４１０はまた、１つ又は複数の結合されたディスプレイに対してグラフィックス・プロセッサの出力を行わせるためのディスプレイ・コントローラ２４１１を含む。少なくとも一実施例では、ディスプレイ・コントローラ２４１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ２４０８に結合された別個のモジュールであってもよく、又はグラフィックス・プロセッサ２４０８内に一体化されていてもよい。

少なくとも一実施例では、プロセッサ２４００の内部構成要素を結合するために、リング・ベースの相互接続ユニット２４１２が使用される。少なくとも一実施例では、ポイントツーポイント相互接続、スイッチ相互接続、又は他の技法などの代替的な相互接続ユニットが使用されてもよい。少なくとも一実施例では、グラフィックス・プロセッサ２４０８は、Ｉ／Ｏリンク２４１３を介してリング相互接続２４１２と結合する。

少なくとも一実施例では、Ｉ／Ｏリンク２４１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール２４１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む多様なＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎのそれぞれ及びグラフィックス・プロセッサ２４０８は、共有ラスト・レベル・キャッシュとして組み込みメモリ・モジュール２４１８を使用する。

少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎは、命令セット・アーキテクチャ（ＩＳＡ）の観点から見れば異種であり、ここでプロセッサ・コア２４０２Ａ～２４０２Ｎのうちの１つ又は複数は、共通の命令セットを実行するが、プロセッサ・コア２４０２Ａ～２４０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも一実施例では、プロセッサ・コア２４０２Ａ～２４０２Ｎは、マイクロ・アーキテクチャの観点から見れば異種であり、ここで電力消費量が相対的に高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のコアと結合する。少なくとも一実施例では、プロセッサ２４００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５の一部又はすべてが、プロセッサ２４００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２３１２、グラフィックス・コア２４０２Ａ～２４０２Ｎ、又は図２４の他の構成要素に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図６Ａ又は図６Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２４００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２５は、本明細書に記載の少なくとも一実施例による、グラフィックス・プロセッサ・コア２５００のハードウェア論理のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ・コア２５００はグラフィックス・コア・アレイ内に含まれる。少なくとも一実施例では、コア・スライスと呼ばれることもあるグラフィックス・プロセッサ・コア２５００は、モジュール式グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアとすることができる。少なくとも一実施例では、グラフィックス・プロセッサ・コア２５００は、１つのグラフィックス・コア・スライスの例示であり、本明細書に記載のグラフィックス・プロセッサは、目的の電力及び性能エンベロープに基づき、複数のグラフィックス・コア・スライスを含んでもよい。少なくとも一実施例では、各グラフィックス・コア２５００は、汎用及び固定機能論理のモジュール式ブロックを含む、サブ・スライスとも呼ばれる、複数のサブ・コア２５０１Ａ～２５０１Ｆに結合された固定機能ブロック２５３０を含むことができる。

少なくとも一実施例では、固定機能ブロック２５３０は、たとえば低性能及び／又は低電力グラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ２５００中のすべてのサブ・コアが共有できるジオメトリ／固定機能パイプライン２５３６を含む。少なくとも一実施例では、ジオメトリ／固定機能パイプライン２５３６は、３Ｄ固定機能パイプラインと、ビデオ・フロントエンド・ユニットと、スレッド・スポーナ（ｔｈｒｅａｄｓｐａｗｎｅｒ）及びスレッド・ディスパッチャと、統合リターン・バッファを管理する統合リターン・バッファ・マネージャとを含む。

少なくとも一実施例では、固定機能ブロック２５３０はまた、グラフィックスＳｏＣインターフェース２５３７と、グラフィックス・マイクロコントローラ２５３８と、メディア・パイプライン２５３９とを含む。少なくとも一実施例では、固定されたグラフィックスＳｏＣインターフェース２５３７は、グラフィックス・コア２５００とシステム・オン・チップ集積回路内の他のプロセッサ・コアとの間のインターフェースを与える。少なくとも一実施例では、グラフィックス・マイクロコントローラ２５３８は、スレッド・ディスパッチとスケジューリングとプリエンプションとを含む、グラフィックス・プロセッサ２５００の様々な機能を管理するように構成可能なプログラム可能サブ・プロセッサである。少なくとも一実施例では、メディア・パイプライン２５３９は、画像及びビデオ・データを含むマルチメディア・データのデコーディング、エンコーディング、前処理、及び／又は後処理を容易にする論理を含む。少なくとも一実施例では、メディア・パイプライン２５３９は、サブ・コア２５０１～２５０１Ｆ内のコンピュート論理又はサンプリング論理への要求を介してメディア動作を実装する。

少なくとも一実施例では、ＳｏＣインターフェース２５３７は、グラフィックス・コア２５００が、汎用アプリケーション・プロセッサ・コア（たとえば、ＣＰＵ）、及び／又は共有ラストレベル・キャッシュ・メモリ、システムＲＡＭ、及び／又は組み込みオン・チップ若しくはオンパッケージＤＲＡＭなどのメモリ階層要素を含む、ＳｏＣ内の他の構成要素と通信することを可能にする。少なくとも一実施例では、ＳｏＣインターフェース２５３７はまた、カメラ・イメージング・パイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にし、グラフィックス・コア２５００とＳｏＣ内のＣＰＵとの間で共有できるグローバル・メモリ・アトミックの使用を可能にし、且つ／又はそれを実装する。少なくとも一実施例では、ＳｏＣインターフェース２５３７はまた、グラフィックス・コア２５００の電力管理制御を実装することができ、グラフ・コア２５００のクロック・ドメインとＳｏＣ内の他のクロック・ドメインとの間のインターフェースを可能にする。少なくとも一実施例では、ＳｏＣインターフェース２５３７は、グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアの各々にコマンド及び命令を与えるように構成されたコマンド・ストリーマとグローバル・スレッド・ディスパッチャとからのコマンド・バッファの受信を可能にする。少なくとも一実施例では、コマンド及び命令は、メディア動作が実行されるべきときに、メディア・パイプライン２５３９にディスパッチされ得るか、又はグラフィックス処理動作が実行されるべきときに、ジオメトリ及び固定機能パイプライン（たとえば、ジオメトリ及び固定機能パイプライン２５３６、ジオメトリ及び固定機能パイプライン２５１４）にディスパッチされ得る。

少なくとも一実施例では、グラフィックス・マイクロコントローラ２５３８は、グラフィックス・コア２５００のための様々なスケジューリング及び管理タスクを実行するように構成されてもよい。少なくとも一実施例では、グラフィックス・マイクロコントローラ２５３８は、サブ・コア２５０１Ａ～２５０１Ｆ内の実行ユニット（ＥＵ：ｅｘｅｃｕｔｉｏｎｕｎｉｔ）アレイ２５０２Ａ～２５０２Ｆ、２５０４Ａ～２５０４Ｆ内の様々なグラフィックス並列エンジンに対してグラフィックスを実行し、且つ／又はワークロード・スケジューリングを計算することができる。少なくとも一実施例では、グラフィックス・コア２５００を含むＳｏＣのＣＰＵコア上で実行しているホスト・ソフトウェアは、適切なグラフィックス・エンジンに対してスケジューリング動作を呼び出す、複数のグラフィック・プロセッサ・ドアベルのうちの１つにワークロードをサブミットすることができる。少なくとも一実施例では、スケジューリング動作は、どのワークロードを次に実行すべきかを判定することと、コマンド・ストリーマにワークロードをサブミットすることと、エンジン上で実行している既存のワークロードをプリエンプトすることと、ワークロードの進行を管理することと、ワークロードが完了したときにホスト・ソフトウェアに通知することとを含む。少なくとも一実施例では、グラフィックス・マイクロコントローラ２５３８はまた、グラフィックス・コア２５００の低電力又はアイドル状態を促進して、オペレーティング・システム及び／又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態の移行にわたってグラフィックス・コア２５００内のレジスタを保存及び復元する能力をグラフィックス・コア２５００に与えることができる。

少なくとも一実施例では、グラフィックス・コア２５００は、図示されたサブ・コア２５０１Ａ～２５０１Ｆよりも多い又は少ない、Ｎ個までのモジュール式サブ・コアを有してもよい。Ｎ個のサブ・コアの各セットについて、少なくとも一実施例では、グラフィックス・コア２５００はまた、共有機能論理２５１０、共有及び／又はキャッシュ・メモリ２５１２、ジオメトリ／固定機能パイプライン２５１４、並びに様々なグラフィックスを加速し、処理動作を計算するための追加の固定機能論理２５１６を含むことができる。少なくとも一実施例では、共有機能論理２５１０は、グラフィックス・コア２５００内の各Ｎ個のサブ・コアが共有できる論理ユニット（たとえば、サンプラ、数理、及び／又はスレッド間通信論理）を含むことができる。少なくとも一実施例では、固定された、共有及び／又はキャッシュ・メモリ２５１２は、グラフィックス・コア２５００内のＮ個のサブ・コア２５０１Ａ～２５０１Ｆのためのラストレベル・キャッシュとすることができ、また、複数のサブ・コアによってアクセス可能な共有メモリとして働くことができる。少なくとも一実施例では、ジオメトリ／固定機能パイプライン２５１４は、固定機能ブロック２５３０内のジオメトリ／固定機能パイプライン２５３６の代わりに含まれてもよく、同じ又は同様の論理ユニットを含むことができる。

少なくとも一実施例では、グラフィックス・コア２５００は、グラフィックス・コア２５００が使用するための様々な固定機能加速論理を含むことができる追加の固定機能論理２５１６を含む。少なくとも一実施例では、追加の固定機能論理２５１６は、位置限定シェーディングに使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、ジオメトリ／固定機能パイプライン２５１６、２５３６内の完全ジオメトリ・パイプラインと、追加の固定機能論理２５１６内に含まれてもよい追加のジオメトリ・パイプラインである選別（ｃｕｌｌ）パイプラインにおいて少なくとも２つのジオメトリ・パイプラインが存在する。少なくとも一実施例では、選別パイプラインは完全ジオメトリ・パイプラインの縮小版である。少なくとも一実施例では、完全パイプライン及び選別パイプラインはアプリケーションの異なるインスタンスを実行することができ、各インスタンスは別々のコンテキストを有する。少なくとも一実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、いくつかのインスタンスにおいてシェーディングを早く完了させることが可能になる。たとえば、少なくとも一実施例では、選別パイプラインは、フレーム・バッファへのピクセルのラスタ化及びレンダリングを実施することなく、頂点の位置属性をフェッチし、シェーディングするので、追加の固定機能論理２５１６内の選別パイプライン論理は、メイン・アプリケーションと並行して位置シェーダを実行することができ、概して完全パイプラインよりも速くクリティカルな結果を生成する。少なくとも一実施例では、選別パイプラインは、生成されたクリティカルな結果を使用して、すべての三角形について、それらの三角形が選別されているかどうかに関わらず、可視性情報を計算することができる。少なくとも一実施例では、（このインスタンスではリプレイ・パイプラインと呼ばれることがある）完全パイプラインは、最終的にラスタ化フェーズに渡される可視三角形のみをシェーディングするために、選別された三角形をスキップするために、可視性情報を消費することができる。

少なくとも一実施例では、追加の固定機能論理２５１６はまた、機械学習訓練又は推論のための最適化を含む実装形態のために、固定機能行列乗算論理など、機械学習加速論理を含むことができる。

少なくとも一実施例では、各グラフィックス・サブ・コア２５０１Ａ～２５０１Ｆ内に、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムからの要求に応答して、グラフィックス動作と、メディア動作と、計算動作とを実行するために使用されてもよい実行リソースのセットを含む。少なくとも一実施例では、グラフィックス・サブ・コア２５０１Ａ～２５０１Ｆは、複数のＥＵアレイ２５０２Ａ～２５０２Ｆと、２５０４Ａ～２５０４Ｆ、スレッド・ディスパッチ及びスレッド間通信（ＴＤ／ＩＣ：ｔｈｒｅａｄｄｉｓｐａｔｃｈａｎｄｉｎｔｅｒ－ｔｈｒｅａｄｃｏｍｍｕｎｉｃａｔｉｏｎ）論理２５０３Ａ～２５０３Ｆと、３Ｄ（たとえば、テクスチャ）サンプラ２５０５Ａ～２５０５Ｆと、メディア・サンプラ２５０６Ａ～２５０６Ｆと、シェーダ・プロセッサ２５０７Ａ～２５０７Ｆと、共有ローカル・メモリ（ＳＬＭ：ｓｈａｒｅｄｌｏｃａｌｍｅｍｏｒｙ）２５０８Ａ～２５０８Ｆとを含む。ＥＵアレイ２５０２Ａ～２５０２Ｆ、２５０４Ａ～２５０４Ｆは、それぞれ、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含む、グラフィックス動作、メディア動作、又は計算動作のサービスにおいて浮動小数点及び整数／固定小数点論理演算を実行することが可能な汎用グラフィックス処理ユニットである、複数の実行ユニットを含む。少なくとも一実施例では、ＴＤ／ＩＣ論理２５０３Ａ～２５０３Ｆは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実行し、サブ・コアの実行ユニット上で実行しているスレッド間の通信を容易にする。少なくとも一実施例では、３Ｄサンプラ２５０５Ａ～２５０５Ｆはテクスチャ又は他の３Ｄグラフィックス関連データをメモリに読み込むことができる。少なくとも一実施例では、３Ｄサンプラは、所与のテクスチャに関連付けられた構成済みサンプル状態とテクスチャ・フォーマットとに基づき、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも一実施例では、メディア・サンプラ２５０６Ａ～２５０６Ｆは、メディア・データに関連付けられたタイプとフォーマットとに基づき、同様の読取り動作を実行することができる。少なくとも一実施例では、各グラフィックス・サブ・コア２５０１Ａ～２５０１Ｆは３Ｄとメディアとの統合サンプラを交互に含むことができる。少なくとも一実施例では、サブ・コア２５０１Ａ～２５０１Ｆの各々内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドがオン・チップ・メモリの共通プールを使用して実行することを可能にするために、各サブ・コア内の共有ローカル・メモリ２５０８Ａ～２５０８Ｆを利用することができる。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５の一部又はすべてが、グラフィックス・プロセッサ２５１０に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、グラフィックス・プロセッサ２３１２、グラフィックス・マイクロコントローラ２５３８、ジオメトリ及び固定機能パイプライン２５１４及び２５３６、又は図２４中の他の論理において実施されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図６Ａ又は図６Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２５００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２６Ａ及び図２６Ｂは、少なくとも一実施例による、グラフィックス・プロセッサ・コアの処理要素のアレイを含むスレッド実行論理２６００を示す。図２６Ａは、スレッド実行論理２６００が使用される少なくとも一実施例を示す。図２６Ｂは、少なくとも一実施例による、実行ユニットの例示的な内側細部を示す図である。

図２６Ａに示すように、少なくとも一実施例では、スレッド実行論理２６００は、シェーダ・プロセッサ２６０２、スレッド・ディスパッチャ２６０４、命令キャッシュ２６０６、複数の実行ユニット２６０８Ａ～２６０８Ｎを含むスケーラブル実行ユニット・アレイ、サンプラ２６１０、データ・キャッシュ２６１２、及びデータ・ポート２６１４を含む。少なくとも一実施例では、スケーラブル実行ユニット・アレイは、１つ又は複数の実行ユニット（たとえば、実行ユニット２６０８Ａ、２６０８Ｂ、２６０８Ｃ、２６０８Ｄ～２６０８Ｎ－１及び２６０８Ｎのうちのいずれか）を、たとえばワークロードの計算要件に基づき有効又は無効にすることによって、動的に拡大縮小することができる。少なくとも一実施例では、スケーラブル実行ユニットは、実行ユニットのそれぞれにリンクされる相互接続ファブリックを介して相互接続される。少なくとも一実施例では、スレッド実行論理２６００は、命令キャッシュ２６０６、データ・ポート２６１４、サンプラ２６１０、及び実行ユニット２６０８Ａ～２６０８Ｎのうちの１つ又は複数を介した、システム・メモリ又はキャッシュ・メモリなどのメモリへの１つ又は複数の接続を含む。少なくとも一実施例では、各実行ユニット（たとえば、２６０８Ａ）は、スレッドごとに複数のデータ要素を並列で処理しながら、複数の同時のハードウェア・スレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットである。少なくとも一実施例では、実行ユニット２６０８Ａ～２６０８Ｎのアレイは、任意の数の個々の実行ユニットを含むように拡大縮小可能である。

少なくとも一実施例では、実行ユニット２６０８Ａ～２６０８Ｎは、シェーダ・プログラムを実行するために主に使用される。少なくとも一実施例では、シェーダ・プロセッサ２６０２は、様々なシェーダ・プログラムを処理し、シェーダ・プログラムに関連付けられた実行スレッドを、スレッド・ディスパッチャ２６０４を介してディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ２６０４は、グラフィックス及びメディア・パイプラインからのスレッド開始要求を調停し、要求されたスレッドを、実行ユニット２６０８Ａ～２６０８Ｎの１つ又は複数の実行ユニット上でインスタンス化するための論理を含む。たとえば、少なくとも一実施例では、ジオメトリ・パイプラインは、頂点シェーダ、モザイク・シェーダ、又はジオメトリ・シェーダを、処理できるようにスレッド実行論理にディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ２６０４はまた、実行しているシェーダ・プログラムからのラン・タイム・スレッド・スポーニング要求（ｓｐａｗｎｉｎｇｒｅｑｕｅｓｔ）を処理することができる。

少なくとも一実施例では、実行ユニット２６０８Ａ～２６０８Ｎは、多くの標準的な３Ｄグラフィックス・シェーダ命令のネイティブ・サポートを含む命令セットをサポートし、それにより、グラフィックス・ライブラリ（たとえば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダ・プログラムが、最小のトランスレーションで実行される。少なくとも一実施例では、実行ユニットは、頂点及びジオメトリの処理（たとえば、頂点プログラム、ジオメトリ・プログラム、頂点シェーダ）、ピクセル処理（たとえば、ピクセル・シェーダ、フラグメント・シェーダ）、及び汎用処理（たとえば、コンピュート及びメディアのシェーダ）をサポートする。少なくとも一実施例では、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む各実行ユニット２６０８Ａ～２６０８Ｎのそれぞれは、単一命令複数データ（ＳＩＭＤ）の実行を複数発行することができ、マルチスレッド化された動作によって、メモリ・アクセスのレイテンシが高いにも関わらず、効率的な実行環境が可能になる。少なくとも一実施例では、各実行ユニット内の各ハードウェア・スレッドは、専用の高帯域幅レジスタ・ファイル及び関連する独立したスレッド状態を有する。少なくとも一実施例では、実行は、整数演算、単精度及び倍精度の浮動小数点演算、ＳＩＭＤブランチ性能、論理演算、超越演算、及び他の種々の演算を行うことができるパイプラインに対して、クロック当たり複数発行される。少なくとも一実施例では、メモリ、又は共有機能のうちの１つからのデータを待機している間に、実行ユニット２６０８Ａ～２６０８Ｎ内の従属論理は、要求したデータが戻されるまで、待機スレッドをスリープ状態にする。少なくとも一実施例では、待機スレッドがスリープ状態の間に、ハードウェア・リソースは他のスレッドの処理に専念してもよい。たとえば、少なくとも一実施例では、頂点シェーダ動作に関連する遅延中に、実行ユニットは、ピクセル・シェーダ、フラグメント・シェーダ、又は異なる頂点シェーダを含む別のタイプのシェーダ・プログラムを実行することができる。

少なくとも一実施例では、実行ユニット２６０８Ａ～２６０８Ｎの各実行ユニットは、データ要素のアレイに対して動作する。少なくとも一実施例では、データ要素の数は「実行サイズ」であり、又は命令に対するチャネルの数である。少なくとも一実施例では、実行チャネルは、データ要素のアクセス、マスキング、及び命令内のフロー制御に関する実行の論理ユニットである。少なくとも一実施例では、チャネルの数は、特定のグラフィックス・プロセッサのための物理的な算術論理演算ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数とは無関係であってもよい。少なくとも一実施例では、実行ユニット２６０８Ａ～２６０８Ｎは、整数及び浮動小数点のデータ・タイプをサポートしてもよい。

少なくとも一実施例では、実行ユニット命令セットは、ＳＩＭＤ命令を含む。少なくとも一実施例では、様々なデータ要素が、パック・データ・タイプとしてレジスタに記憶されてもよく、実行ユニットは、要素のデータ・サイズに基づき様々な要素を処理する。たとえば、少なくとも一実施例では、２５６ビット幅ベクトルで動作しているとき、ベクトルの２５６ビットがレジスタに記憶され、実行ユニットは、４個の別々の６４ビット・パック・データ要素（クワッド・ワード（ＱＷ：Ｑｕａｄ－Ｗｏｒｄ）サイズのデータ要素）、８個の別々の３２ビット・パック・データ要素（ダブル・ワード（ＤＷ：ＤｏｕｂｌｅＷｏｒｄ）サイズのデータ要素）、１６個の別々の１６ビット・パック・データ要素（ワード（Ｗ：Ｗｏｒｄ）サイズのデータ要素）、又は３２個の別々の８ビット・データ要素（バイト（Ｂ：ｂｙｔｅ）サイズのデータ要素）としてベクトル上で動作する。しかし少なくとも一実施例では、異なるベクトル幅及びレジスタサイズが考えられる。

少なくとも一実施例では、１つ又は複数の実行ユニットを組み合わせて、融合ＥＵに共通のスレッド制御論理（２６０７Ａ～２６０７Ｎ）を有する融合実行ユニット２６０９Ａ～２６０９Ｎにすることができる。少なくとも一実施例では、複数のＥＵを融合して、ＥＵグループにすることができる。少なくとも一実施例では、融合ＥＵグループの各ＥＵは、別々のＳＩＭＤハードウェア・スレッドを実行するように構成されることが可能である。融合ＥＵグループのＥＵの数が、様々な実施例に応じて異なっている可能性がある。少なくとも一実施例では、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含むがこれに限定されない様々なＳＩＭＤ幅を、ＥＵごとに実行することができる。少なくとも一実施例では、各融合グラフィックス実行ユニット２６０９Ａ～２６０９Ｎは、少なくとも２つの実行ユニットを含む。たとえば、少なくとも一実施例では、融合実行ユニット２６０９Ａは、第１のＥＵ２６０８Ａ、第２のＥＵ２６０８Ｂ、及び第１のＥＵ２６０８Ａと第２のＥＵ２６０８Ａに共通のスレッド制御論理２６０７Ａを含む。少なくとも一実施例では、スレッド制御論理２６０７Ａは、融合グラフィックス実行ユニット２６０９Ａで実行されているスレッドを制御して、融合実行ユニット２６０９Ａ～２６０９Ｎ内の各ＥＵを、共通の命令ポインタ・レジスタを使用して実行できるようにする。

少なくとも一実施例では、１つ又は複数の内部命令キャッシュ（たとえば、２８０６）は、実行ユニットに対するスレッド命令をキャッシュするためにスレッド実行論理２６００に含まれる。少なくとも一実施例では、１つ又は複数のデータ・キャッシュ（たとえば、２６１２）は、スレッド実行中にスレッド・データをキャッシュするために含まれる。少なくとも一実施例では、サンプラ２６１０は、３Ｄ動作のためのテクスチャ・サンプリング、及びメディア動作のためのメディア・サンプリングを実行するために含まれる。少なくとも一実施例では、サンプラ２６１０は、特別なテクスチャ又はメディア・サンプリング機能を含み、サンプリングされたデータを実行ユニットに提供する前に、サンプリング処理中にテクスチャ又はメディアのデータを処理する。

実行中、少なくとも一実施例では、グラフィックス及びメディア・パイプラインは、スレッド開始要求を、スレッド・スポーニング及びディスパッチ論理を介してスレッド実行論理２６００に送る。少なくとも一実施例では、幾何学的物体のグループが処理され、ピクセル・データにラスタ化されたら、シェーダ・プロセッサ２６０２内のピクセル・プロセッサ論理（たとえば、ピクセル・シェーダ論理、フラグメント・シェーダ論理など）が呼び出されて、出力情報をさらにコンピュートし、結果を出力面（たとえば、色バッファ、深度バッファ、ステンシル・バッファなど）に書き込ませる。少なくとも一実施例では、ピクセル・シェーダ又はフラグメント・シェーダは、ラスタ化された物体間で補間されることになる様々な頂点属性の値を計算する。少なくとも一実施例では、次いで、シェーダ・プロセッサ２６０２内のピクセル・プロセッサ論理が、アプリケーション・プログラミング・インターフェース（ＡＰＩ）付きのピクセル・シェーダ・プログラム又はフラグメント・シェーダ・プログラムを実行する。少なくとも一実施例では、シェーダ・プログラムを実行するために、シェーダ・プロセッサ２６０２は、スレッド・ディスパッチャ２６０４を介してスレッドを実行ユニット（たとえば、２６０８Ａ）にディスパッチする。少なくとも一実施例では、シェーダ・プロセッサ２６０２は、サンプラ２６１０のテクスチャ・サンプリング論理を使用して、メモリに記憶されたテクスチャ・マップのテクスチャ・データにアクセスする。少なくとも一実施例では、テクスチャ・データ及び入力ジオメトリ・データに対する算術演算によって、各ジオメトリ・フラグメントのピクセル色データがコンピュートされ、又はさらに処理されないように１つ又は複数のピクセルが切り捨てられる。

少なくとも一実施例では、データ・ポート２６１４は、スレッド実行論理２６００のためのメモリ・アクセス機構を提供して、処理済みデータを、グラフィックス・プロセッサ出力パイプラインでさらに処理できるようにメモリに出力する。少なくとも一実施例では、データ・ポート２６１４は、１つ又は複数のキャッシュ・メモリ（たとえば、データ・キャッシュ２６１２）を含み、又はそれに結合されて、データ・ポートを介したメモリ・アクセスのためのデータをキャッシュする。

図２６Ｂに示してあるように、少なくとも一実施例では、グラフィック実行ユニット２６０８は、命令フェッチ・ユニット２６３７、汎用レジスタ・ファイル・アレイ（ＧＲＦ：ｇｅｎｅｒａｌｒｅｇｉｓｔｅｒｆｉｌｅａｒｒａｙ）２６２４、アーキテクチャ・レジスタ・ファイル・アレイ（ＡＲＦ）２６２６、スレッド調停装置（ａｒｂｉｔｅｒ）２６２２、送信ユニット２６３０、ブランチ・ユニット２６３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）２６３４のセット、及び、少なくとも一実施例では、専用整数ＳＩＭＤＡＬＵ２６３５のセットを含むことができる。少なくとも一実施例では、ＧＲＦ２６２４及びＡＲＦ２６２６は、各同時ハードウェア・スレッドに関連付けられた汎用レジスタ・ファイルとアーキテクチャ・レジスタ・ファイルのセットを含み、このハードウェア・スレッドは、グラフィックス実行ユニット２６０８においてアクティブであってもよい。少なくとも一実施例では、スレッドごとのアーキテクチャ状態が、ＡＲＦ２６２６において維持され、スレッド実行中に使用されるデータが、ＧＲＦ２６２４に記憶される。少なくとも一実施例では、各スレッドに対する命令ポインタを含む各スレッドの実行状態は、ＡＲＦ２６２６のスレッド専用レジスタに保持することが可能である。

少なくとも一実施例では、グラフィックス実行ユニット２６０８は、同時マルチスレッディング（ＳＭＴ：ＳｉｍｕｌｔａｎｅｏｕｓＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）と微細化インターリーブ・マルチスレッディング（ＩＭＴ：ＩｎｔｅｒｌｅａｖｅｄＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）の組合せであるアーキテクチャを有する。少なくとも一実施例では、アーキテクチャは、実行ユニット当たりの同時スレッドのターゲット数及びレジスタ数に基づき設計時に微調整することができるモジュール式構成を有し、ここで実行ユニットのリソースは、複数の同時スレッドを実行するために使用される論理にわたって分割される。

少なくとも一実施例では、グラフィックス実行ユニット２６０８は複数の命令を共同発行することができ、この命令は、それぞれ異なる命令であってもよい。少なくとも一実施例では、グラフィックス実行ユニット・スレッド２６０８のスレッド調停装置２６２２は、送信ユニット２６３０、ブランチ・ユニット２６４２、又はＳＩＭＤＦＰＵ２６３４のうちの１つに命令をディスパッチして実行できるようにすることができる。少なくとも一実施例では、各実行スレッドは、ＧＲＦ２６２４内の１２８個の汎用レジスタにアクセスすることができ、ここで各レジスタは、３２ビットのデータ要素のＳＩＭＤ８要素のベクトルとしてアクセス可能な３２バイトを記憶することができる。少なくとも一実施例では、各実行ユニット・スレッドは、ＧＲＦ２６２４内の４キロバイトにアクセスすることができるが、実施例はこのように限定されず、他の実施例ではより多くの、又はより少ないリソースが提供されてもよい。少なくとも一実施例では、最大７個のスレッドを同時に実行できるが、実行ユニット当たりのスレッド数も、実施例に応じて変えることができる。７個のスレッドが４キロバイトにアクセスできる少なくとも一実施例では、ＧＲＦ２６２４は、合計２８キロバイトを記憶することができる。少なくとも一実施例では、フレキシブルなアドレッシング・モードにより、複数のレジスタがともにアドレスされてより幅広いレジスタを構築したり、ストライド設定された矩形ブロック・データ構造を表したりできるようにすることができる。

少なくとも一実施例では、メモリ動作、サンプラ動作、及び他のレイテンシの長いシステム通信は、メッセージ引渡し送信ユニット２６３０によって実行される「送信」命令を介してディスパッチされる。少なくとも一実施例では、ブランチ命令は、ＳＩＭＤの発散及び最終的な収束を容易にするために、専用ブランチ・ユニット２６３２にディスパッチされる。

少なくとも一実施例では、グラフィックス実行ユニット２６０８は、浮動小数点演算を実行するための１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）２６３４を含む。少なくとも一実施例では、ＦＰＵ２６３４は、整数計算もサポートする。少なくとも一実施例ではＦＰＵ２６３４は、最大Ｍ個の３２ビット浮動小数点（若しくは整数）演算をＳＩＭＤで実行し、又は最大で２Ｍ個の１６ビット整数演算、若しくは１６ビット浮動小数点演算をＳＩＭＤで実行することができる。少なくとも一実施例では、ＦＰＵの少なくとも１つは、拡張数理機能を提供して、高スループットの超越数理関数、及び倍精度の６４ビット浮動小数点をサポートする。少なくとも一実施例では、８ビットの整数ＳＩＭＤＡＬＵ２６３５のセットも存在し、機械学習計算に関連する動作を実行するように特に最適化されてもよい。

少なくとも一実施例では、グラフィックス実行ユニット２６０８の複数のインスタンスのアレイが、グラフィックス・サブ・コア・グループ（たとえば、サブ・スライス）においてインスタンス化されてもよい。少なくとも一実施例では、実行ユニット２６０８は、複数の実行チャネルにわたって命令を実行することができる。少なくとも一実施例では、グラフィックス実行ユニット２６０８で実行される各スレッドは、異なるチャネルで実行される。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、推論及び／又は訓練論理６１５の一部又はすべてが、スレッド実行論理２６００に組み込まれてもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図６Ａ又は図６Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行論理２６００のＡＬＵスレッドを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２７は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）２７００を示す。少なくとも一実施例では、ＰＰＵ２７００は、ＰＰＵ２７００によって実行された場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、ＰＰＵ２７００に実行させる機械可読コードで構成される。少なくとも一実施例では、ＰＰＵ２７００はマルチスレッド・プロセッサであり、このプロセッサは、１つ又は複数の集積回路デバイスに実装され、コンピュータ可読命令（機械可読命令若しくは単に命令とも呼ばれる）を、複数のスレッドで並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも一実施例では、スレッドとは、実行スレッドを指し、ＰＰＵ２７００によって実行されるように構成された命令のセットをインスタンス化したものである。少なくとも一実施例では、ＰＰＵ２７００は、液晶ディスプレイ（「ＬＣＤ」）デバイスなどのディスプレイ・デバイスに表示できるように２次元（「２Ｄ」）画像データを生成するために、３次元（「３Ｄ」）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）である。少なくとも一実施例では、ＰＰＵ２７００を利用して、線形代数演算及び機械学習演算などの計算が実行される。図２７は、単に例示を目的とした例示的な並列プロセッサを示しており、本開示の範囲内で企図されるプロセッサ・アーキテクチャの非限定的な例として解釈されるべきであり、同プロセッサに追加するため、且つ／又はそれを置き換えるために、任意の好適なプロセッサが利用されてもよいことが解釈されるべきである。

少なくとも一実施例では、１つ又は複数のＰＰＵ２７００は、高性能コンピューティング（「ＨＰＣ」：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）、データ・センタ、及び機械学習のアプリケーションを加速するように構成される。少なくとも一実施例では、ＰＰＵ２７００は、以下の非限定的な例を含む深層学習システム及びアプリケーションを加速するように構成される：自律車両プラットフォーム、深層学習、高精度音声、画像、テキスト認識システム、インテリジェント・ビデオ分析、分子シミュレーション、創薬、病気診断、天気予報、ビッグ・データ分析、天文学、分子動態シミュレーション、金融モデリング、ロボット工学、工場自動化、リアル・タイム言語翻訳、オンライン検索最適化、及び個別化ユーザ推奨など。

少なくとも一実施例では、ＰＰＵ２７００は、限定することなく、入力／出力（「Ｉ／Ｏ」）ユニット２７０６、フロント・エンド・ユニット２７１０、スケジューラ・ユニット２７１２、ワーク分配ユニット２７１４、ハブ２７１６、クロスバー（「Ｘｂａｒ」：ｃｒｏｓｓｂａｒ）２７２０、１つ又は複数の汎用処理クラスタ（「ＧＰＣ」：ｇｅｎｅｒａｌｐｒｏｃｅｓｓｉｎｇｃｌｕｓｔｅｒ）２７１８、及び１つ又は複数のパーティション・ユニット（「メモリ・パーティション・ユニット」）２７２２を含む。少なくとも一実施例では、ＰＰＵ２７００は、１つ又は複数の高速ＧＰＵ相互接続（「ＧＰＵ相互接続」）２７０８を介してホスト・プロセッサ又は他のＰＰＵ２７００に接続される。少なくとも一実施例では、ＰＰＵ２７００は、相互接続２７０２を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、ＰＰＵ２７００は、１つ又は複数のメモリ・デバイス（「メモリ」）２７０４を備えるローカル・メモリに接続される。少なくとも一実施例では、メモリ・デバイス２７０４は、限定することなく、１つ又は複数のダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイスを含む。少なくとも一実施例では、１つ又は複数のＤＲＡＭデバイスは、複数のＤＲＡＭダイが各デバイス内で積層された高帯域幅メモリ（「ＨＢＭ」）サブシステムとして構成されても、且つ／又は構成可能であってもよい。

少なくとも一実施例では、高速ＧＰＵ相互接続２７０８は、有線ベースのマルチ・レーン通信リンクを指してもよく、このリンクは、拡張縮小するためにシステムによって使用され、１つ又は複数の中央処理装置（「ＣＰＵ」）と組み合わされた１つ又は複数のＰＰＵ２７００を含み、ＰＰＵ２７００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。少なくとも一実施例では、データ及び／又はコマンドは、高速ＧＰＵ相互接続２７０８により、ハブ２７１６を介して、１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図２７に明示されていないこともある他の構成要素などのＰＰＵ２７００の別のユニットに／から送信される。

少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、システム・バス２７０２を介してホスト・プロセッサ（図２７には示さず）から通信（たとえば、コマンド、データ）を送受信するように構成される。少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、システム・バス２７０２を介して直接、又は１つ若しくは複数の、メモリ・ブリッジなどの中間デバイスを介して、ホスト・プロセッサと通信する。少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、システム・バス２７０２を介してＰＰＵ２７００のうちの１つ又は複数などの１つ又は複数の他のプロセッサと通信してもよい。少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩｅ」）インターフェースを実装して、ＰＣＩｅバスを介して通信できるようにする。少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、外部デバイスと通信するためのインターフェースを実装する。

少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、システム・バス２７０２を介して受信したパケットをデコードする。少なくとも一実施例では、少なくともいくつかのパケットは、ＰＰＵ２７００に様々な動作を実行させるように構成されたコマンドを表す。少なくとも一実施例では、Ｉ／Ｏユニット２７０６は、デコードされたコマンドを、コマンドによって指定されるＰＰＵ２７００の様々な他のユニットに送信する。少なくとも一実施例では、コマンドは、フロント・エンド・ユニット２７１０に送信され、且つ／又はハブ２７１６、若しくは（図２７には明示していない）１つ若しくは複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなどのＰＰＵ２７００の他のユニットに送信される。少なくとも一実施例では、Ｉ／Ｏユニット２７０６はＰＰＵ２７００の様々な論理ユニット間で、通信をルーティングするように構成される。

少なくとも一実施例では、ホスト・プロセッサによって実行されるプログラムは、ワークロードをＰＰＵ２７００に提供して処理できるようにするバッファにおいて、コマンド・ストリームをエンコードする。少なくとも一実施例では、ワークロードは、命令と、これらの命令によって処理されることになるデータとを含む。少なくとも一実施例では、バッファは、ホスト・プロセッサとＰＰＵ２７００の両方がアクセス（たとえば、書込み／読取り）可能なメモリ内の領域であり、ホスト・インターフェース・ユニットは、Ｉ／Ｏユニット２７０６によってシステム・バス２７０２を介して送信されるメモリ要求を介して、システム・バス２７０２に接続されたシステム・メモリ内のバッファにアクセスするように構成されてもよい。少なくとも一実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始点を指すポインタをＰＰＵ２７００に送信し、それによりフロント・エンド・ユニット２７１０は、１つ又は複数のコマンド・ストリームを指すポインタを受信し、１つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをＰＰＵ２７００の様々なユニットに転送する。

少なくとも一実施例では、フロント・エンド・ユニット２７１０は、１つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なＧＰＣ２７１８を構成するスケジューラ・ユニット２７１２に結合される。少なくとも一実施例では、スケジューラ・ユニット２７１２は、スケジューラ・ユニット２７１２によって管理される様々タスクに関連する状態情報を追跡するように構成され、ここで状態情報は、どのＧＰＣ２７１８にタスクが割り当てられるか、タスクがアクティブか非アクティブか、タスクに関連付けられた優先レベルなどを示してもよい。少なくとも一実施例では、スケジューラ・ユニット２７１２は、ＧＰＣ２７１８のうちの１つ又は複数において、複数のタスクの実行を管理する。

少なくとも一実施例では、スケジューラ・ユニット２７１２は、ＧＰＣ２７１８で実行するためのタスクをディスパッチするように構成されたワーク分配ユニット２７１４に結合される。少なくとも一実施例では、ワーク分配ユニット２７１４は、スケジューラ・ユニット２７１２から受信したスケジュール済みタスクの数を追跡し、ワーク分配ユニット２７１４は、ＧＰＣ２７１８のそれぞれについて、ペンディング・タスク・プール、及びアクティブ・タスク・プールを管理する。少なくとも一実施例では、ペンディング・タスク・プールは、特定のＧＰＣ２７１８によって処理されるように割り当てられたタスクを含むいくつかのスロット（たとえば、３２スロット）を備え、アクティブ・タスク・プールは、ＧＰＣ２７１８によりアクティブに処理されているタスクのためのいくつかのスロット（たとえば、４スロット）を備え、それにより、ＧＰＣ２７１８のうちの１つがタスクの実行を完了すると、ＧＰＣ２７１８のアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクのうちの1つが選択され、ＧＰＣ２７１８で実行されるようにスケジューリングされる。少なくとも一実施例では、データ依存性が解決されるのを待機している間など、アクティブ・タスクがＧＰＣ２７１８上でアイドルである場合には、アクティブ・タスクがＧＰＣ２７１８から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プールの別のタスクが選択され、ＧＰＣ２７１８で実行されるようにスケジューリングされる。

少なくとも一実施例では、ワーク分配ユニット２７１４は、Ｘバー２７２０を介して１つ又は複数のＧＰＣ２７１８と通信する。少なくとも一実施例では、Ｘバー２７２０は、ＰＰＵ２７００のユニットのうちの多くを、ＰＰＵ２７００の別のユニットに結合する相互接続ネットワークであり、ワーク分配ユニット２７１４を特定のＧＰＣ２７１８に結合するように構成されることが可能である。少なくとも一実施例では、ＰＰＵ２７００の１つ又は複数の他のユニットも、ハブ２７１６を介してＸバー２７２０に接続されてもよい。

少なくとも一実施例では、タスクはスケジューラ・ユニット２７１２によって管理され、ワーク分配ユニット２７１４によってＧＰＣ２７１８のうちの１つにディスパッチされる。ＧＰＣ２７１８は、タスクを処理し、結果を生成するように構成される。少なくとも一実施例では、結果は、ＧＰＣ２７１８内の他のタスクによって消費されてもよく、Ｘバー２７２０を介して異なるＧＰＣ２７１８にルーティングされてもよく、又はメモリ２７０４に記憶されてもよい。少なくとも一実施例では、結果を、パーティション・ユニット２７２２を介してメモリ２７０４に書き込むことができ、パーティション・ユニット２７２２は、メモリ２７０４への／からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも一実施例では、結果を、高速ＧＰＵ相互接続２７０８を介して別のＰＰＵ２７０４又はＣＰＵに送信することができる。少なくとも一実施例では、ＰＰＵ２７００は、ＰＰＵ２７００に結合された別々の個別メモリ・デバイス２７０４の数に等しいＵ個のパーティション・ユニット２７２２を、限定することなく含む。少なくとも一実施例では、パーティション・ユニット２７２２について図２９と併せて以下でより詳細に説明する。

少なくとも一実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、このカーネルは、ホスト・プロセッサで実行されている１つ又は複数のアプリケーションがＰＰＵ２７００で実行するための動作をスケジューリングできるようにするアプリケーション・プログラミング・インターフェース（ＡＰＩ）を実装している。少なくとも一実施例では、複数のコンピュート・アプリケーションが、ＰＰＵ２７００によって同時に実行され、ＰＰＵ２７００は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質（「ＱｏＳ」：ｑｕａｌｉｔｙｏｆｓｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。少なくとも一実施例では、アプリケーションは、ＰＰＵ２７００によって実行するための１つ又は複数のタスクをドライバ・カーネルに生成させる（たとえば、ＡＰＩコールの形の）命令を生成し、ドライバ・カーネルは、ＰＰＵ２７００によって処理されている１つ又は複数のストリームにタスクを出力する。少なくとも一実施例では、各タスクは、ワープと呼ばれてもよい関連スレッドの１つ又は複数のグループを備える。少なくとも一実施例では、ワープは、並列に実行することができる複数の関連スレッド（たとえば、３２個のスレッド）を備える。少なくとも一実施例では、連動スレッドとは、タスクを実行するための命令を含み、共有メモリを介してデータを交換する複数のスレッドを指してもよい。少なくとも一実施例では、スレッド及び連動スレッドは、少なくとも一実施例に従って、図２９と併せてさらに詳細に説明される。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＰＰＵ２７００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＰＰＵ２７００は、別のプロセッサ若しくはシステムによって、又はＰＰＵ２７００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＰＰＵ２７００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図２８は、少なくとも一実施例による汎用処理クラスタ（「ＧＰＣ」）２８００を示す。少なくとも一実施例では、ＧＰＣ２８００は、図２７のＧＰＣ２７１８である。少なくとも一実施例では、各ＧＰＣ２８００は、限定することなく、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各ＧＰＣ２８００は、限定することなく、パイプライン・マネージャ２８０２、プレ・ラスタ演算ユニット（「ＰＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ）２８０４、ラスタ・エンジン２８０８、ワーク分配クロスバー（「ＷＤＸ」：ｗｏｒｋｄｉｓｔｒｉｂｕｔｉｏｎｃｒｏｓｓｂａｒ）２８１６、メモリ管理ユニット（「ＭＭＵ」）２８１８、１つ又は複数のデータ処理クラスタ（「ＤＰＣ」：ＤａｔａＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒｓ）２８０６、及びパーツの任意の好適な組合せを含む。

少なくとも一実施例では、ＧＰＣ２８００の動作は、パイプライン・マネージャ２８０２によって制御される。少なくとも一実施例では、パイプライン・マネージャ２８０２は、ＧＰＣ２８００に配分されたタスクを処理するために１つ又は複数のＤＰＣ２８０６の構成を管理する。少なくとも一実施例では、パイプライン・マネージャ２８０２は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、１つ又は複数のＤＰＣ２８０６のうちの少なくとも１つを構成する。少なくとも一実施例では、ＤＰＣ２８０６は、プログラム可能なストリーミング・マルチプロセッサ（「ＳＭ」：ｓｔｒｅａｍｉｎｇｍｕｌｔｉ－ｐｒｏｃｅｓｓｏｒ）２８１４で頂点シェーダ・プログラムを実行するように構成される。少なくとも一実施例では、パイプライン・マネージャ２８０２は、少なくとも一実施例では、ワーク分配ユニットから受信したパケットを、ＧＰＣ２８００内の適切な論理ユニットにルーティングするように構成され、いくつかのパケットは、ＰＲＯＰ２８０４の固定機能ハードウェア・ユニット及び／又はラスタ・エンジン２８０８にルーティングされてもよく、他のパケットは、プリミティブ・エンジン２８１２又はＳＭ２８１４によって処理されるようにＤＰＣ２８０６にルーティングされてもよい。少なくとも一実施例では、パイプライン・マネージャ２８０２は、ニューラル・ネットワーク・モデル及び／又はコンピューティング・パイプラインを実装するように、ＤＰＣ２８０６のうちの少なくとも１つを構成する。

少なくとも一実施例では、ＰＲＯＰユニット２８０４は、少なくとも一実施例では、ラスタ・エンジン２８０８及びＤＰＣ２８０６によって生成されたデータを、図２７と併せて上でより詳細に説明したパーティション・ユニット２７２２のラスタ動作（ＲＯＰ）ユニットにルーティングするように構成される。少なくとも一実施例では、ＰＲＯＰユニット２８０４は、色ブレンディングの最適化を実行し、ピクセル・データを組織化し、アドレス・トランスレーションを実行し、その他の動作を行うように構成される。少なくとも一実施例では、ラスタ・エンジン２８０８は、少なくとも一実施例では様々なラスタ動作を実行するように構成されたいくつかの固定機能ハードウェア・ユニットを、限定することなく含み、ラスタ・エンジン２８０８は、限定することなく、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何プリミティブに関連付けられた平面方程式を生成し、平面方程式が、粗いラスタ・エンジンに送信されて、プリミティブに対するカバレッジ情報（たとえば、タイルのｘ、ｙカバレッジ・マスク）が生成され、粗いラスタ・エンジンの出力が、選別エンジンに送信され、ここでｚテストに落ちたプリミティブに関連付けられたフラグメントが選別され、クリッピング・エンジンに送信され、ここで視錐台の外側にあるフラグメントがクリップされる。少なくとも一実施例では、クリッピング及び選別を通過したフラグメントは、細かいラスタ・エンジンに渡されて、セットアップ・エンジンによって生成された平面方程式に基づき、ピクセル・フラグメントに対する属性が生成される。少なくとも一実施例では、ラスタ・エンジン２８０８の出力は、ＤＰＣ２８０６内に実装されたフラグメント・シェーダによってなど任意の好適なエンティティによって処理されることになるフラグメントを含む。

少なくとも一実施例では、ＧＰＣ２８００に含まれる各ＤＰＣ２８０６は、限定することなく、Ｍパイプ・コントローラ（「ＭＰＣ」：Ｍ－ＰｉｐｅＣｏｎｔｒｏｌｌｅｒ）２８１０、プリミティブ・エンジン２８１２、１つ又は複数のＳＭ２８１４、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、ＭＰＣ２８１０は、ＤＰＣ２８０６の動作を制御して、パイプライン・マネージャ２８０２から受信したパケットを、ＤＰＣ２８０６内の適切なユニットにルーティングする。少なくとも一実施例では、頂点に関連付けられたパケットは、頂点に関連付けられた頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン２８１２にルーティングされ、対照的に、シェーダ・プログラムに関連付けられたパケットは、ＳＭ２８１４に送信されてもよい。

少なくとも一実施例では、ＳＭ２８１４は、いくつかのスレッドにより表されたタスクを処理するように構成されたプログラム可能なストリーミング・プロセッサを、限定することなく含む。少なくとも一実施例では、ＳＭ２８１４はマルチスレッド化されており、スレッドの特定のグループからの複数のスレッド（たとえば、３２個のスレッド）を同時に実行するように構成され、単一命令複数データ（ＳＩＭＤ）アーキテクチャを実装し、ここでスレッドのグループ（ワープ）内の各スレッドは、同じ命令セットに基づき、異なるデータ・セットを処理するように構成される。少なくとも一実施例では、スレッド・グループ内のすべてのスレッドが同じ命令を実行する。少なくとも一実施例では、ＳＭ２８１４は、単一命令複数スレッド（ＳＩＭＴ）アーキテクチャを実装し、ここで、スレッド・グループの各スレッドは、命令の同じセットに基づき、異なるデータ・セットを処理するように構成されるが、スレッド・グループ内の個々のスレッドは、実行中に発散することが許容される。少なくとも一実施例では、プログラム・カウンタ、コール・スタック、及び実行状態がワープごとに維持されて、ワープ内のスレッドが発散するときに、ワープ間の同時処理、及びワープ内での直列実行が可能になる。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が個々のスレッドごとに維持されて、すべてのスレッド間、ワープ内、及びワープ間で等しい同時処理が可能になる。少なくとも一実施例では、実行状態が個々のスレッドごとに維持され、同じ命令を実行しているスレッドが、より効率的になるように収束され並列に実行されてもよい。ＳＭ２８１４の少なくとも一実施例は、以下でさらに詳細に説明される。

少なくとも一実施例では、ＭＭＵ２８１８は、ＧＰＣ２８００とメモリ・パーティション・ユニット（たとえば、図２７のパーティション・ユニット２７２２）との間でインターフェースを提供し、ＭＭＵ２８１８は、仮想アドレスから物理アドレスへのトランスレーション、メモリ保護、及びメモリ要求の調停を提供する。少なくとも一実施例では、ＭＭＵ２８１８は、仮想アドレスからメモリの物理アドレスへのトランスレーションを実行するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（「ＴＬＢ」）を提供する。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＧＰＣ２８００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＧＰＣ２８００は、別のプロセッサ若しくはシステムによって、又はＧＰＣ２８００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＧＰＣ２８００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図２９は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニット２９００を示す。少なくとも一実施例では、メモリ・パーティション・ユニット２９００は、限定することなく、ラスタ演算（「ＲＯＰ」）ユニット２９０２、レベル２（「Ｌ２」）キャッシュ２９０４、メモリ・インターフェース２９０６、及びそれらの任意の好適な組合せを含む。少なくとも一実施例では、メモリ・インターフェース２９０６はメモリに結合される。少なくとも一実施例では、メモリ・インターフェース２９０６は、高速データ転送のために、３２、６４、１２８、１０２４ビットのデータ・バス、又は同様の実装形態を実装してもよい。少なくとも一実施例では、ＰＰＵは、Ｕ個のメモリ・インターフェース２９０６を、パーティション・ユニット２９００の対当たりに１つのメモリ・インターフェース２９０６に組み込んでおり、ここでパーティション・ユニット２９００の各対は、対応するメモリ・デバイスに接続される。たとえば、少なくとも一実施例では、ＰＰＵは、高帯域幅メモリ・スタック、又はグラフィックス・ダブル・データ・レート、バージョン５、同期ダイナミック・ランダム・アクセス・メモリ（「ＧＤＤＲ５ＳＤＲＡＭ」）など、最大Ｙ個のメモリ・デバイスに接続されてもよい。

少なくとも一実施例では、メモリ・インターフェース２９０６は、高帯域幅メモリの第２世代（「ＨＢＭ２」：ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙｓｅｃｏｎｄｇｅｎｅｒａｔｉｏｎ）メモリ・インターフェースを実装し、ＹはＵの半分に等しい。少なくとも一実施例では、ＨＢＭ２メモリ・スタックは、ＰＰＵと同じ物理パッケージに位置付けられて、従来のＧＤＤＲ５ＳＤＲＡＭシステムに比べて実質的な電力と面積の節約を実現する。少なくとも一実施例では、各ＨＢＭ２スタックは、限定することなく４個のメモリ・ダイを含み、Ｙは４に等しく、各ＨＢＭ２スタックは、１つのダイ当たりに２つの１２８ビット・チャネルの合計８チャネル、及び１０２４ビットのデータ・バス幅を含む。少なくとも一実施例では、メモリは、１ビット・エラー訂正２ビット・エラー検出（「ＳＥＣＤＥＤ」：Ｓｉｎｇｌｅ－ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＤｏｕｂｌｅ－ＥｒｒｏｒＤｅｔｅｃｔｉｎｇ）エラー訂正コード（「ＥＣＣ」）をサポートしてデータを保護する。少なくとも一実施例では、ＥＣＣは、データ破損を受けやすいコンピュート・アプリケーションに、より高い信頼性を提供する。

少なくとも一実施例では、ＰＰＵは、マルチ・レベルのメモリ階層を実装する。少なくとも一実施例では、メモリ・パーティション・ユニット２９００は、統合されたメモリをサポートして、中央処理装置（「ＣＰＵ」）及びＰＰＵメモリに単一の統合された仮想アドレス空間を提供し、仮想メモリ・システム間でのデータの共有を可能にする。少なくとも一実施例では、他のプロセッサに位置付けられたメモリにＰＰＵがアクセスする頻度を追跡して、より頻繁にページにアクセスしているＰＰＵの物理メモリに、メモリ・ページが確実に移動されるようにする。少なくとも一実施例では、高速ＧＰＵ相互接続２７０８は、アドレス・トランスレーション・サービスをサポートして、ＰＰＵが直接ＣＰＵのページ・テーブルにアクセスできるようにし、ＰＰＵによるＣＰＵメモリへのフル・アクセスを実現する。

少なくとも一実施例では、コピー・エンジンは、複数のＰＰＵ間、又はＰＰＵとＣＰＵの間で、データを転送する。少なくとも一実施例では、コピー・エンジンは、ページ・テーブルにマッピングされていないアドレスについてページ誤りを生成することができ、次いでメモリ・パーティション・ユニット２９００がページ誤りに対応して、アドレスをページ・テーブルにマッピングし、その後で、コピー・エンジンが転送を実行する。少なくとも一実施例では、メモリは、複数のプロセッサ間でコピー・エンジンの複数の動作についてピン留めされて（たとえば、ページ移動不可能にされて）、実質的に利用可能なメモリを低減させる。少なくとも一実施例では、ハードウェアのページ誤りがある場合、メモリ・ページが常駐であるかどうかに関わらず、アドレスをコピー・エンジンに渡すことができ、コピー・プロセスは透過的である。

少なくとも一実施例によれば、図２７のメモリ２７０４又は他のシステム・メモリからのデータは、メモリ・パーティション・ユニット２９００によってフェッチされ、Ｌ２キャッシュ２９０４に記憶され、このＬ２キャッシュは、オン・チップに位置付けられ、様々なＧＰＣ間で共有される。少なくとも一実施例では、各メモリ・パーティション・ユニット２９００は、対応するメモリ・デバイスに関連付けられたＬ２キャッシュの少なくとも一部分を、限定することなく含む。少なくとも一実施例では、より低いレベルのキャッシュが、ＧＰＣ内の様々なユニットに実装される。少なくとも一実施例では、ＳＭ２８１４のそれぞれは、レベル１（「Ｌ１」）キャッシュを実装してもよく、ここでＬ１キャッシュは、特定のＳＭ２８１４専用のプライベート・メモリであり、Ｌ２キャッシュ２９０４からのデータは、ＳＭ２８１４の機能ユニットで処理するために、Ｌ１キャッシュのそれぞれにフェッチされ記憶される。少なくとも一実施例では、Ｌ２キャッシュ２９０４は、メモリ・インターフェース２９０６及びＸバー２７２０に結合される。

少なくとも一実施例では、ＲＯＰユニット２９０２は、色圧縮、ピクセル・ブレンディングなど、ピクセル色に関係するグラフィックス・ラスタ演算を実行する。ＲＯＰユニット２９０２は、少なくとも一実施例では、ラスタ・エンジン２８０８と併せて深度テストを実装して、ピクセル・フラグメントに関連付けられたサンプル・ロケーションの深度を、ラスタ・エンジン２８０８の選別エンジンから受信する。少なくとも一実施例では、深度は、フラグメントに関連付けられたサンプル・ロケーションの深度バッファにおける対応する深度と比べてテストされる。少なくとも一実施例では、フラグメントが、サンプル・ロケーションの深度テストを通過すると、ＲＯＰユニット２９０２は、深度バッファを更新し、深度テストの結果をラスタ・エンジン２８０８に送信する。パーティション・ユニット２９００の数はＧＰＣの数とは異なってもよく、したがって、各ＲＯＰユニット２９０２は、少なくとも一実施例では、ＧＰＣのそれぞれに結合されてもよいことが理解されよう。少なくとも一実施例では、ＲＯＰユニット２９０２は、異なるＧＰＣから受信したパケットを追跡し、ＲＯＰユニット２９０２によって生成された結果が、Ｘバー２７２０を通してルーティングされることを判定する。

図３０は、少なくとも一実施例による、ストリーミング・マルチプロセッサ（「ＳＭ」）３０００を示す。少なくとも一実施例では、ＳＭ３０００は、図２８のＳＭ２８１４である。少なくとも一実施例では、ＳＭ３０００は、限定することなく、命令キャッシュ３００２、１つ又は複数のスケジューラ・ユニット３００４、レジスタ・ファイル３００８、１つ又は複数の処理コア（「コア」）３０１０、１つ又は複数の特殊機能ユニット（「ＳＦＵ」：ｓｐｅｃｉａｌｆｕｎｃｔｉｏｎｕｎｉｔ）３０１２、１つ又は複数のロード／ストア・ユニット（「ＬＳＵ」ｌｏａｄ／ｓｔｏｒｅｕｎｉｔ）３０１４、相互接続ネットワーク３０１６、共有メモリ／レベル１（「Ｌ１」）キャッシュ３０１８、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、ワーク分配ユニットは、並列処理ユニット（「ＰＰＵ」）の汎用処理クラスタ（「ＧＰＣ」）で実行するためにタスクをディスパッチし、各タスクは、ＧＰＣ内の特定のデータ処理クラスタ（「ＤＰＣ」）に配分され、タスクがシェーダ・プログラムに関連する場合には、タスクはＳＭ３０００のうちの１つに配分される。少なくとも一実施例では、スケジューラ・ユニット３００４は、ワーク分配ユニットからタスクを受信し、ＳＭ３０００に割り当てられた１つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも一実施例では、スケジューラ・ユニット３００４は、並列スレッドのワープとして実行できるようにスレッド・ブロックをスケジューリングし、ここで各スレッド・ブロックは、少なくとも１つのワープに配分される。少なくとも一実施例では、各ワープは、スレッドを実行する。少なくとも一実施例では、スケジューラ・ユニット３００４は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを配分し、次いで複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット（たとえば、処理コア３０１０、ＳＦＵ３０１２、及びＬＳＵ３０１４）にディスパッチする。

少なくとも一実施例では、連動グループとは、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し、このモデルは、スレッドが通信する粒度をデベロッパが表せるようにして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも一実施例では、連動した起動ＡＰＩは、並列アルゴリズムを実行できるようにスレッド・ブロック間の同期をサポートする。少なくとも一実施例では、従来のプログラミング・モデルのアプリケーションは、連動スレッドを同期するための単一の簡単な構造、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア（たとえば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）を提供する。しかし、少なくとも一実施例では、プログラマは、スレッド・ブロックの粒度よりも小さいスレッド・グループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形で、より高い性能、設計の融通性、及びソフトウェア再利用を可能にしてもよい。少なくとも一実施例では、連動グループによって、プログラマは、サブ・ブロック（すなわち、単一スレッドと同じ大きさ）の粒度及びマルチ・ブロックの粒度において、スレッドのグループを明示的に定義し、連動グループ内のスレッドに対する同期などの集合的な動作を実行できるようになる。少なくとも一実施例では、プログラミング・モデルは、ソフトウェア境界を横切るクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数を、収束について仮定する必要なくそれらのローカルなコンテキスト内で安全に同期することができる。少なくとも一実施例では、連動グループのプリミティブは、プロデューサ－コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を限定することなく含む新しいパターンの連動並列性を可能にする。

少なくとも一実施例では、ディスパッチ・ユニット３００６は、機能ユニットの１つ又は複数に命令を送信するように構成され、スケジューラ・ユニット３００４は、同じワープからの２つの異なる命令を、各クロック・サイクル中にディスパッチできるようにする２つのディスパッチ・ユニット３００６を限定することなく含む。少なくとも一実施例では、各スケジューラ・ユニット３００４は、単一のディスパッチ・ユニット３００６又は追加のディスパッチ・ユニット３００６を含む。

少なくとも一実施例では、各ＳＭ３０００は、少なくとも一実施例では、ＳＭ３０００の機能ユニットにレジスタのセットを提供するレジスタ・ファイル３００８を限定することなく含む。少なくとも一実施例では、レジスタ・ファイル３００８は、各機能ユニットがレジスタ・ファイル３００８の専用部分に配分されるように、各機能ユニット間で分割される。少なくとも一実施例では、レジスタ・ファイル３００８は、ＳＭ３０００によって実行されている異なるワープ間で分割され、レジスタ・ファイル３００８は、機能ユニットのデータ経路に接続されたオペランド用の一時的なストレージを提供する。少なくとも一実施例では、各ＳＭ３０００は、限定することなく複数のＬ処理コア３０１０を含む。少なくとも一実施例では、各ＳＭ３０００は、限定することなく、多数の（たとえば、１２８個以上の）個別の処理コア３０１０を含む。少なくとも一実施例では、各処理コア３０１０は、少なくとも一実施例では、浮動小数点算術論理演算ユニット及び整数算術論理演算ユニットを限定することなく含む完全にパイプライン化された、単精度の、倍精度の、及び／又は混合精度の処理ユニットを限定することなく含む。少なくとも一実施例では、浮動小数点算術論理演算ユニットは、浮動小数点演算のためのＩＥＥＥ７５４－２００８規格を実装する。少なくとも一実施例では、処理コア３０１０は、限定することなく、６４個の単精度（３２ビット）浮動小数点コア、６４個の整数コア、３２個の倍精度（６４ビット）浮動小数点コア、及び８個のテンソル・コアを含む。

テンソル・コアは、少なくとも一実施例による行列演算を実行するように構成される。少なくとも一実施例では、１つ又は複数のテンソル・コアは、処理コア３０１０に含まれる。少なくとも一実施例では、テンソル・コアは、ニューラル・ネットワークの訓練及び推論のための畳み込み演算など、深層学習の行列演算を実行するように構成される。少なくとも一実施例では、各テンソル・コアは、４×４の行列で動作し、行列の積和演算（ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅｏｐｅｒａｔｉｏｎ）Ｄ＝Ａ×Ｂ＋Ｃを実行し、ここでＡ、Ｂ、Ｃ、及びＤは４×４の行列である。

少なくとも一実施例では、行列乗算の入力Ａ及びＢは、１６ビットの浮動小数点行列であり、和の行列Ｃ及びＤは、１６ビットの浮動小数点又は３２ビットの浮動小数点行列である。少なくとも一実施例では、テンソル・コアは、３２ビットの浮動小数点の和を有する１６ビットの浮動小数点入力データで動作する。少なくとも一実施例では、１６ビットの浮動小数点乗算は、６４個の演算を使用し、結果的に完全精度の積をもたらし、次いでその積が、４×４×４の行列乗算の他の中間積との３２ビット浮動小数点加算を使用して加算される。テンソル・コアを使用して、少なくとも一実施例では、これらの小さい要素から構築される、はるかに大きい２次元又はさらに高次元の行列演算が実行される。少なくとも一実施例では、ＣＵＤＡ９Ｃ＋＋ＡＰＩなどのＡＰＩは、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも一実施例では、ＣＵＤＡレベルにおいて、ワープ・レベル・インターフェースは、ワープの３２スレッドすべてにわたる１６×１６のサイズの行列を仮定している。

少なくとも一実施例では、各ＳＭ３０００は、特殊関数（たとえば、属性評価、逆数平方根など）を実行するＭ個のＳＦＵ３０１２を、限定することなく含む。少なくとも一実施例では、ＳＦＵ３６１２は、限定することなく、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも一実施例では、ＳＦＵ３０１２は、テクスチャ・マップのフィルタリング動作を実行するように構成されたテクスチャ・ユニットを、限定することなく含む。少なくとも一実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ（たとえば、テクセルの２Ｄアレイ）をロードして、ＳＭ３０００により実行されるシェーダ・プログラムで使用するためのサンプリングされたテクスチャ値を生成するように構成される。少なくとも一実施例では、テクスチャ・マップは、共有メモリ／レベル１キャッシュ３０１８に記憶される。少なくとも一実施例では、テクスチャ・ユニットは、少なくとも一実施例によれば、ミップ・マップ（たとえば、詳細さのレベルが異なるテクスチャ・マップ）を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも一実施例では、各ＳＭ３０００は、限定することなく、２つのテクスチャ・ユニットを含む。

各ＳＭ３０００は、少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３０１８とレジスタ・ファイル３００８の間でロード及びストア動作を実装するＮ個のＬＳＵ３０１４を、限定することなく含む。各ＳＭ３０００は、少なくとも一実施例では、機能ユニットの各々をレジスタ・ファイル３００８に接続し、ＬＳＵ３０１４をレジスタ・ファイル３００８と共有メモリ／Ｌ１キャッシュ３０１８とに接続する相互接続ネットワーク３０１６を限定することなく含む。少なくとも一実施例では、相互接続ネットワーク３０１６はクロスバーであり、このクロスバーは、任意の機能ユニットをレジスタ・ファイル３００８の任意のレジスタに接続し、ＬＳＵ３０１４をレジスタ・ファイル３００８と共有メモリ／Ｌ１キャッシュ３０１８のメモリ・ロケーションとに接続するように構成されてもよい。

少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３０１８は、少なくとも一実施例では、ＳＭ３０００とプリミティブ・エンジンの間、及びＳＭ３０００のスレッド間でデータ・ストレージ及び通信を可能にするオン・チップ・メモリのアレイである。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３０１８は、限定することなく、１２８ＫＢのストレージ容量を備え、ＳＭ３０００からパーティション・ユニットに向かう経路にある。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３０１８は、少なくとも一実施例では、読取り及び書込みをキャッシュするために使用される。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３０１８、Ｌ２キャッシュ、及びメモリのうちの１つ又は複数は、補助ストレージである。

少なくとも一実施例では、データ・キャッシュと共有メモリ機能とを単一のメモリ・ブロックに組み合わせることによって、両方のタイプのメモリ・アクセスについて性能が向上する。少なくとも一実施例では、容量は、共有メモリを使用しないプログラムによってキャッシュとして使用され、又は使用可能であり、それにより、共有メモリが容量の半分を使用するように構成されている場合、テクスチャ及びロード／ストア動作が、残りの容量を使用することができる。少なくとも一実施例によれば、共有メモリ／Ｌ１キャッシュ３０１８内に統合することによって、共有メモリ／Ｌ１キャッシュ３０１８が、データをストリームするための高スループットの管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供できるようになる。少なくとも一実施例では、汎用並列計算向けに構成されるときには、グラフィックス処理と比べてより簡単な構成を使用することができる。少なくとも一実施例では、固定機能のグラフィックス・プロセッシング・ユニットがバイパスされて、はるかに簡単なプログラミング・モデルが作製される。汎用並列計算の構成では、ワーク分配ユニットは、少なくとも一実施例においてスレッド・ブロックを直接ＤＰＣに割当て及び分配する。少なくとも一実施例では、ブロック内のスレッドは、各スレッドが確実に一意の結果を生成するように、計算において一意のスレッドＩＤを使用して同じプログラムを実行し、ＳＭ３０００を使用して、プログラムを実行し計算を行い、共有メモリ／Ｌ１キャッシュ３０１８を使用してスレッド間で通信し、ＬＳＵ３０１４を使用して、共有メモリ／Ｌ１キャッシュ３０１８及びメモリ・パーティション・ユニットを介してグローバル・メモリを読み取り、書き込む。少なくとも一実施例では、汎用並列計算向けに構成されるときには、ＳＭ３０００は、ＤＣＰ上で新規のワークを起動するためにスケジューラ・ユニット３００４が使用できるコマンドを書き込む。

少なくとも一実施例では、ＰＰＵは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭装着型ディスプレイ、携帯型電子デバイスなどに含まれ、又はこれらに結合される。少なくとも一実施例では、ＰＰＵは、単一の半導体基板に具体化される。少なくとも一実施例では、ＰＰＵは、追加のＰＰＵ、メモリ、縮小命令セット・コンピュータ（「ＲＩＳＣ」）ＣＰＵ、メモリ管理ユニット（「ＭＭＵ」）、デジタル－アナログ変換器（「ＤＡＣ」：ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）などの１つ又は複数の他のデバイスとともにシステム・オン・チップ（「ＳｏＣ」）に含まれる。

少なくとも一実施例では、ＰＰＵは、１つ又は複数のメモリ・デバイスを含むグラフィックス・カードに含まれてもよい。グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースをとるように構成されてもよい。少なくとも一実施例では、ＰＰＵは、マザーボードのチップセットに含まれる統合グラフィックス・プロセッシング・ユニット（「ｉＧＰＵ」：ｉｎｔｅｇｒａｔｅｄｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）であってもよい。

１つ若しくは複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。推論及び／又は訓練論理６１５に関する詳細事項は、図６Ａ及び／又は図６Ｂと併せて以下に提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＳＭ３０００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＳＭ３０００は、別のプロセッサ若しくはシステムによって、又はＳＭ３０００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＳＭ３０００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

少なくとも一実施例では、単一の半導体プラットフォームは単独の単体の半導体ベースの集積回路又はチップを指すことがある。少なくとも一実施例では、オン・チップ動作をシミュレートし、従来の中央処理ユニット（「ＣＰＵ」）及びバス実装の利用を大幅に改善する、接続性が向上したマルチ・チップ・モジュールが使用されてもよい。少なくとも一実施例では、ユーザの希望に応じて、様々なモジュールも別々に又は半導体プラットフォームの様々な組合せで配置されてもよい。

少なくとも一実施例では、機械可読実行可能コード又はコンピュータ制御論理アルゴリズムの形態のコンピュータ・プログラムがメイン・メモリ１００４及び／又は２次ストレージに記憶される。コンピュータ・プログラムは、１つ又は複数のプロセッサによって実行された場合、システム１０００が少なくとも一実施例による様々な機能を実行することを可能にする。少なくとも一実施例では、メモリ１００４、ストレージ、及び／又は任意の他のストレージがコンピュータ可読媒体の考えられる例である。少なくとも一実施例では、２次ストレージは、フロッピー（登録商標）・ディスク・ドライブ、磁気テープ・ドライブ、コンパクト・ディスク・ドライブ、デジタル多用途ディスク（「ＤＶＤ」：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）ドライブ、記録デバイス、ユニバーサル・シリアル・バス（「ＵＳＢ」）フラッシュ・メモリなどを表す、ハード・ディスク・ドライブ及び／若しくはリムーバブル・ストレージ・ドライブなどの任意の好適なストレージ・デバイス又はシステムを指すことがある。少なくとも一実施例では、様々な以前の図面のアーキテクチャ及び／又は機能は、ＣＰＵ１００２、並列処理システム１０１２、ＣＰＵ１００２と並列処理システム１０１２の両方の機能の少なくとも一部分を実現可能な集積回路、チップセット（たとえば、関連機能を実行するためのユニットとして機能するように設計され、販売されている集積回路のグループなど）、及び集積回路の任意の好適な組合せの文脈において実装される。

少なくとも一実施例では、様々な以前の図面のアーキテクチャ及び／又は機能は、汎用コンピュータ・システム、回路板システム、エンタテイメント目的専用のゲーム・コンソール・システム、及び特定用途システムなどの文脈において実装される。少なくとも一実施例では、コンピュータ・システム１０００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭部装着型ディスプレイ、携帯型電子デバイス、モバイル・フォン・デバイス、テレビジョン、ワークステーション、ゲーム・コンソール、組み込みシステム、及び／又は任意の他のタイプの論理の形態を取ってもよい。

少なくとも一実施例では、並列処理システム１０１２は、限定することなく、複数の並列処理ユニット（「ＰＰＵ」）１０１４と、関連するメモリ１０１６とを含む。少なくとも一実施例では、ＰＰＵ１０１４は、相互接続１０１８及びスイッチ１０２０又はマルチプレクサを介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、並列処理システム１０１２は、たとえば、複数のグラフィックス処理ユニット（「ＧＰＵ」）スレッド・ブロックにわたる計算タスクの分配の一部として、並列化可能であり得るＰＰＵ１０１４にわたって計算タスクを分配する。少なくとも一実施例では、メモリはＰＰＵ１０１４の一部又は全部にわたって共有され、（たとえば、読取り及び／又は書込みアクセスのために）アクセス可能であるが、そのような共有メモリは、ＰＰＵ１０１４に常駐しているローカル・メモリ及びレジスタの使用に対して性能上の不利益をもたらすことがある。少なくとも一実施例では、ＰＰＵ１０１４の動作は、＿ｓｙｎｃｔｈｒｅａｄｓ（）などのコマンドを使用することによって同期させられ、（たとえば、複数のＰＰＵ１０１４にわたって実行される）ブロック中のすべてのスレッドは、進行の前にコードのある実行ポイントに到達する。

仮想化されたコンピューティング・プラットフォーム
画像推論及び画像処理など、先進コンピューティングのための仮想化コンピューティング・プラットフォームに関する実施例が開示される。図３１を参照すると、少なくとも一実施例による、画像処理及び推論のパイプラインを生成及び導入するプロセス３１００の実例データ・フロー図である。少なくとも一実施例では、プロセス３１００は、医療施設、病院、ヘルスケア機関、クリニック、リサーチ若しくは診断の研究所などの１つ又は複数の施設３１０２において、撮像デバイス、処理デバイス、ゲノミクス・デバイス、遺伝子配列デバイス、放射線デバイス、及び／又は他のタイプのデバイスとともに使用するために導入されてもよい。少なくとも一実施例では、プロセス３１００は、シーケンシング・データについてゲノミクスの分析及び推論を実行するために導入されてもよい。本明細書に記載のシステム及びプロセスを使用して実行することができるゲノム分析の実例は、限定することなく、バリアント・コール、変異検出、及び遺伝子発現の定量化を含む。プロセス３１００は、訓練システム３１０４内及び／又は導入システム３１０６内で実行されてもよい。少なくとも一実施例では、訓練システム３１０４を使用して、導入システム３１０６で使用するための機械学習モデル（たとえば、ニューラル・ネットワーク、物体検出アルゴリズム、コンピュータ・ビジョン・アルゴリズムなど）の訓練、導入、及び実装が実行されてもよい。少なくとも一実施例では、導入システム３１０６は、処理及び計算のリソースを分散コンピューティング環境間でオフロードするように構成されて、施設３１０２におけるインフラストラクチャ要件を低減してもよい。少なくとも一実施例では、導入システム３１０６は、施設３１０２において撮像デバイス（たとえば、ＭＲＩ、ＣＴスキャン、Ｘ線、超音波など）又はシーケンシング・デバイスとともに使用するための仮想機器を選択し、カスタマイズし、実装するための合理化されたプラットフォームを提供してもよい。少なくとも一実施例では、仮想機器は、撮像デバイス、シーケンシング・デバイス、放射線デバイス、及び／又は他のタイプのデバイスによって生成された撮像データに対して１つ又は複数の処理動作を実行するためのソフトウェア定義アプリケーションを含んでもよい。少なくとも一実施例では、パイプライン内の１つ又は複数のアプリケーションは、アプリケーションの実行中に導入システム３１０６のサービス（たとえば、推論、仮想化、計算、ＡＩなど）を使用又はコールしてもよい。

少なくとも一実施例では、先進処理及び推論パイプラインで使用されるアプリケーションのいくつかは、１つ又は複数の処理ステップを実行するために機械学習モデル又は他のＡＩを使用してもよい。少なくとも一実施例では、機械学習モデルは、施設３１０２で生成された（且つ、施設３１０２において１つ若しくは複数の画像アーカイブ及び通信システム（ＰＡＣＳ）サーバに記憶された）（撮像データなどの）データ３１０８を使用して、施設３１０２において訓練されてもよく、別の施設（たとえば、異なる病院、研究所、クリニックなど）からの撮像若しくはシーケンシングのデータ３１０８を使用して訓練されてもよく、又はそれらの組合せであってもよい。少なくとも一実施例では、訓練システム３１０４を使用して、導入システム３１０６向けの実用的で導入可能な機械学習モデルを生成するためのアプリケーション、サービス、及び／又は他のリソースが提供されてもよい。

少なくとも一実施例では、モデル・レジストリ３１２４は、バージョン管理及び物体メタデータをサポートすることができる物体ストレージによってバックアップされてもよい。少なくとも一実施例では、物体ストレージには、たとえば、クラウド・プラットフォーム内から、クラウド・ストレージ（たとえば、図３２のクラウド３２２６）の互換性アプリケーション・プログラミング・インターフェース（ＡＰＩ）を介してアクセス可能であってもよい。少なくとも一実施例では、モデル・レジストリ３１２４内の機械学習モデルは、システムの開発者又はパートナがＡＰＩと対話することによって、アップロード、リスト化、修正、又は削除されてもよい。少なくとも一実施例では、ＡＰＩは、適切な資格を有するユーザがモデルをアプリケーションに関連付けできるようにする方法へのアクセスを提供してもよく、それによりアプリケーションのコンテナ化されたインスタンスを実行することの一部として、モデルを実行できるようになる。

少なくとも一実施例では、訓練パイプライン３２０４（図３２）は、施設３１０２が独自の機械学習モデルを訓練している状況、又は最適化若しくは更新される必要がある既存の機械学習モデルを有している状況を含んでもよい。少なくとも一実施例では、撮像デバイス、シーケンシング・デバイス、及び／又は他のタイプのデバイスによって生成された撮像データ３１０８が受信されてもよい。少なくとも一実施例では、撮像データ３１０８が受信されると、機械学習モデルのグラウンド・トゥルース・データとして使用されることになる撮像データ３１０８に対応するアノテーションの生成を支援するために、ＡＩ支援アノテーション３１１０が使用されてもよい。少なくとも一実施例では、ＡＩ支援アノテーション３１１０は、１つ又は複数の機械学習モデル（たとえば、畳み込みニューラル・ネットワーク（ＣＮＮ））を含んでもよく、これは（たとえば特定のデバイスからの）特定のタイプの撮像データ３１０８、及び／又は撮像データ３１０８内の特定のタイプの異常に対応するアノテーションを生成するように訓練されてもよい。少なくとも一実施例では、次いでＡＩ支援アノテーション３１１０は、グラウンド・トゥルース・データを生成するために直接使用されてもよく、又は（たとえば、研究者、臨床医、医師、科学者などによって）アノテーション・ツールを使用して調節若しくは微調整されてもよい。少なくとも一実施例では、いくつかの実例において、ラベル付けされたクリニック・データ３１１２（たとえば、臨床医、医師、科学者、技術者などによって与えられたアノテーション）が、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、ＡＩ支援アノテーション３１１０、ラベル付けされたクリニック・データ３１１２、又はそれらの組合せが、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、訓練済み機械学習モデルは出力モデル３１１６と呼ばれてもよく、本明細書に記載の導入システム３１０６によって使用されてもよい。

少なくとも一実施例では、訓練パイプライン３２０４（図３２）は、施設３１０２が、導入システム３１０６内の１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行する際に使用する機械学習モデルを必要としているが、施設３１０２は現在そのような機械学習モデルを有していないかもしれない（又はそうした目的のために最適化された、効率よい、若しくは有効なモデルを有していないかもしれない）という状況を含んでもよい。少なくとも一実施例では、既存の機械学習モデルが、モデル・レジストリ３１２４から選択されてもよい。少なくとも一実施例では、モデル・レジストリ３１２４は、撮像データに対して様々な異なる推論タスクを実行するように訓練された機械学習モデルを含んでもよい。少なくとも一実施例では、モデル・レジストリ３１２４の機械学習モデルは、施設３１０２とは異なる施設（たとえば、離れた場所にある施設）からの撮像データについて訓練されたものであってもよい。少なくとも一実施例では、機械学習モデルは、１つの場所、２つの場所、又は任意の数の場所からの撮像データについて訓練されたものであってもよい。少なくとも一実施例では、特定の場所からの撮像データについて訓練されるとき、訓練は、その場所で行われてもよく、又は少なくとも、撮像データの機密性を保護するようなやり方で、若しくは撮像データが構外へ転送されるのを制限するようなやり方で（たとえば、ＨＩＰＰＡ規定、プライバシー規定に準拠するように）行われてもよい。少なくとも一実施例では、１つの場所においてモデルが訓練されると、又は部分的に訓練されると、機械学習モデルはモデル・レジストリ３１２４に加えられてもよい。少なくとも一実施例では、次いで機械学習モデルは、任意の数の他の施設において再訓練又は更新されてもよく、再訓練又は更新されたモデルが、モデル・レジストリ３１２４において利用可能にされてもよい。少なくとも一実施例では、次いで機械学習モデルは、モデル・レジストリ３１２４から選択されてもよく、出力モデル３１１６と呼ばれてもよく、導入システム３１０６において使用されて、導入システムの１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行してもよい。

少なくとも一実施例では、訓練パイプライン３２０４（図３２）は、シナリオは、導入システム３１０６内の１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行する際に使用する機械学習モデルを必要としている施設３１０２を含むかもしれないが、施設３１０２は現在そのような機械学習モデルを有していないかもしれない（又はそうした目的のために最適化された、効率よい、若しくは有効なモデルを有していないかもしれない）。少なくとも一実施例では、モデル・レジストリ３１２４から選択された機械学習モデルは、母集団、遺伝的差異、機械学習モデルを訓練するために使用される訓練データの頑健性、訓練データの異常の多様性、及び／又は訓練データに伴う他の問題に違いがあることから、施設３１０２において生成される撮像データ３１０８向けに微調整又は最適化されないことがある。少なくとも一実施例では、機械学習モデルを再訓練又は更新するためのグラウンド・トゥルース・データとして使用されることになる撮像データ３１０８に対応するアノテーションの生成を支援するために、ＡＩ支援アノテーション３１１０が使用されてもよい。少なくとも一実施例では、ラベル付けされたクリニック・データ３１１２（たとえば、臨床医、医師、科学者、技術者などによって提供されたアノテーション）が、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、機械学習モデルを再訓練又は更新することは、モデル訓練３１１４と呼ばれてもよい。少なくとも一実施例では、モデル訓練３１１４、たとえばＡＩ支援アノテーション３１１０、ラベル付けされたクリニック・データ３１１２、又はこれらの組合せは、機械学習モデルを再訓練若しくは更新するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、訓練された機械学習モデルは、出力モデル３１１６と呼ばれることがあり、本明細書に記載の展開システム３１０６によって使用されてもよい。

少なくとも一実施例では、導入システム３１０６は、ソフトウェア３１１８、サービス３１２０、ハードウェア３１２２、並びに／又は他の構成要素、特徴、及び機能を含んでもよい。少なくとも一実施例では、導入システム３１０６は、ソフトウェア「スタック」を含んでもよく、それによりソフトウェア３１１８は、サービス３１２０の上に構築されてもよく、サービス３１２０を使用して一部若しくはすべての処理タスクを実行してもよく、サービス３１２０及びソフトウェア３１１８は、ハードウェア３１２２の上に構築され、ハードウェア３１２２を使用して、導入システム３１０６の処理、ストレージ、及び／又は他の計算のタスクを実行してもよい。少なくとも一実施例では、ソフトウェア３１１８は、任意の数の異なるコンテナを含んでもよく、ここで各コンテナは、アプリケーションのインスタンス化を実行してもよい。少なくとも一実施例では、各アプリケーションは、先進処理及び推論パイプラインの１つ又は複数の処理タスク（たとえば、推論、物体検出、特徴検出、セグメント化、画像強調、キャリブレーションなど）を実行してもよい。少なくとも一実施例では、撮像デバイス（たとえば、ＣＴ、ＭＲＩ、Ｘ線、超音波、ソノグラフィ、心エコーなど）、シーケンシング・デバイス、放射線デバイス、ゲノミクス・デバイスなどのタイプごとに、デバイスによって生成された撮像データ３１０８（又は、本明細書に記載のものなどの他のタイプのデータ）に対してデータ処理タスクを実行できる任意の数のコンテナが存在してもよい。少なくとも一実施例では、先進処理及び推論パイプラインは、（たとえば、医用におけるデジタル画像と通信（ｄｉｇｉｔａｌｉｍａｇｉｎｇａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎｍｅｄｉｃｉｎｅ：ＤＩＣＯＭ）データ、放射線医学情報システム（ＲＩＳ）データ、臨床情報システム（ＣＩＳ）データ、リモート・プロシージャ・コール（ＲＰＣ）データ、表現状態転送（ＲＥＳＴ）インターフェースに実質的に準拠したデータ、ファイルベースのインターフェースに実質的に準拠したデータ、及び／又は生のデータなどの使用可能なタイプのデータに出力を再変換して、施設３１０２において記憶及び表示するように）パイプラインを通して処理した後に、各コンテナによって使用される、且つ／又は施設３１０２によって使用される撮像データを受信及び構成するコンテナに加えて、撮像データ３１０８を処理するのに所望される又は必要とされる異なるコンテナの選択に基づき定義されてもよい。少なくとも一実施例では、（たとえばパイプラインを構成する）ソフトウェア３１１８内のコンテナの組合せは、（本明細書においてより詳細に記載する）仮想機器と呼ばれてもよく、仮想機器は、サービス３１２０及びハードウェア３１２２を利用して、コンテナにおいてインスタンス化されたアプリケーションの一部又はすべての処理タスクを実行してもよい。

少なくとも一実施例では、データ処理パイプラインは、推論要求（たとえば、臨床医、医師、放射線医など、導入システム３１０６のユーザからの要求）に応答して、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生、及び／又は他のフォーマットで入力データ（たとえば、撮像データ３１０８）を受け取ってもよい。少なくとも一実施例では、入力データは、１つ又は複数の撮像デバイス、シーケンシング・デバイス、放射線デバイス、ゲノミクス・デバイス、及び／又は他のタイプのデバイスによって生成される１つ又は複数の画像、ビデオ、及び／又は他のデータ表現を表してもよい。少なくとも一実施例では、データは、データ処理パイプラインの一部としての事前処理を受けて、１つ又は複数のアプリケーションによって処理できるようにデータが準備されてもよい。少なくとも一実施例では、パイプラインの１つ若しくは複数の推論タスク又は他の処理タスクの出力に対して後処理が実行されて、次のアプリケーション用に出力データが準備されてもよく、且つ／又は送信及び／若しくはユーザによる使用のために（たとえば、推論要求への応答として）出力データが準備されてもよい。少なくとも一実施例では、推論タスクは、訓練済み若しくは導入済みのニューラル・ネットワークなど、１つ又は複数の機械学習モデルによって実行されてもよく、このモデルは、訓練システム３１０４の出力モデル３１１６を含んでもよい。

少なくとも一実施例では、データ処理パイプラインのタスクはコンテナにカプセル化されてもよく、コンテナはそれぞれ、アプリケーションの個別の完全に機能的なインスタンス化、及び機械学習モデルを参照できる仮想化コンピューティング環境を表す少なくとも一実施例では、コンテナ又はアプリケーションは、（本明細書においてより詳細に記載する）コンテナ・レジストリのプライベート（たとえば、アクセスの制限された）区域に発行されてもよく、訓練済み又は導入済みのモデルは、モデル・レジストリ３１２４に記憶され、１つ又は複数のアプリケーションに関連付けられてもよい。少なくとも一実施例では、アプリケーションの画像（たとえば、コンテナの画像）は、コンテナ・レジストリにおいて入手可能であってもよく、パイプラインに導入するためにユーザによってコンテナ・レジストリから選択されると、画像は、ユーザのシステムで使用できるようにアプリケーションをインスタンス化するためのコンテナを生成するために使用されてもよい。

少なくとも一実施例では、開発者（たとえば、ソフトウェア開発者、臨床医、医師など）は、供給されたデータに対して画像処理及び／又は推論を実行するために、アプリケーションを（たとえばコンテナとして）開発、公開、及び記憶してもよい。少なくとも一実施例では、開発、公開、及び／又は記憶は、（たとえば、開発されたアプリケーション及び／又はコンテナが、確実にシステムに準拠するように、又はシステムと互換性があるようにするために）システムに関連付けられたソフトウェア開発キット（ＳＤＫ）を使用して実行されてもよい。少なくとも一実施例では、開発されたアプリケーションは、システム（たとえば図３２のシステム３２００）としてサービス３１２０の少なくとも一部をサポートすることができるＳＤＫを用いて、ローカルに（たとえば第１の施設において、第１の施設からのデータについて）テストされてもよい。少なくとも一実施例では、ＤＩＣＯＭ物体は、１個から数百個にわたる画像又は他のタイプのデータをどこにでも含むことができるうえに、データのバリエーションがあることから、開発者は、入力されるＤＩＣＯＭデータの抽出及び準備を管理する（たとえば、アプリケーション用の構成を設定する、事前処理をアプリケーションに構築するなどの）責任を負うことがある。少なくとも一実施例では、システム３２００によって（たとえば、精度、安全性、患者のプライバシーなどが）検証されると、アプリケーションは、ユーザ（たとえば、病院、クリニック、研究所、ヘルスケア提供者など）によって選択及び／又は実装できるようにコンテナ・レジストリにおいて利用可能にされて、ユーザの施設（たとえば、第２の施設）におけるデータに対して１つ又は複数の処理タスクが実行されてもよい。

少なくとも一実施例では、次いで開発者は、アプリケーション又はコンテナを、システム（たとえば、図３２のシステム３２００）のユーザによってアクセス及び使用できるようにネットワークを通して共有してもよい。少なくとも一実施例では、完成し検証されたアプリケーション又はコンテナは、コンテナ・レジストリに記憶されてもよく、関連する機械学習モデルは、モデル・レジストリ３１２４に記憶されてもよい。少なくとも一実施例では、推論又は画像処理の要求を出す要求元エンティティ（たとえば、医療施設のユーザ）は、コンテナ・レジストリ及び／又はモデル・レジストリ３１２４をブラウジングしてアプリケーション、コンテナ、データセット、機械学習モデルなどを探し、データ処理パイプラインに含めるための要素の所望の組合せを選択し、撮像処理要求を送出してもよい。少なくとも一実施例では、要求は、要求を実行するために必要な入力データ（及びいくつかの実例では、関連する患者データ）を含んでもよく、且つ／又は要求を処理する際に実行されることになるアプリケーション及び／又は機械学習モデルの選択を含んでもよい。少なくとも一実施例では、次いで要求は、導入システム３１０６（たとえばクラウド）の１つ又は複数の構成要素に渡されて、データ処理パイプラインの処理が実行されてもよい。少なくとも一実施例では、導入システム３１０６による処理は、コンテナ・レジストリ及び／又はモデル・レジストリ３１２４から選択された要素（たとえば、アプリケーション、コンテナ、モデルなど）を参照することを含んでもよい。少なくとも一実施例では、パイプラインによって結果が生成されると、結果がユーザに返されて参照されてもよい（たとえば、ローカルで、構内のワークステーション又は端末で実行している視聴アプリケーション・スイートで視聴されてもよい）。少なくとも一実施例では、放射線医は、任意の数のアプリケーション及び／又はコンテナを含むデータ処理パイプラインから結果を受信してもよく、ここで結果は、Ｘ線、ＣＴスキャン、ＭＲＩなどにおける異常検出を含んでもよい。

少なくとも一実施例では、パイプラインにおけるアプリケーション又はコンテナの処理又は実行を支援するために、サービス３１２０が利用されてもよい。少なくとも一実施例では、サービス３１２０は、計算サービス、人工知能（ＡＩ）サービス、視覚化サービス、及び／又は他のタイプのサービスを含んでもよい。少なくとも一実施例では、サービス３１２０は、ソフトウェア３１１８の１つ又は複数のアプリケーションに共通の機能を提供してもよく、それにより機能は、アプリケーションによってコール又は利用されることが可能なサービスに対して抽象化されてもよい。少なくとも一実施例では、サービス３１２０によって提供される機能は、動的でより効率的に実行されてもよく、それと同時に、（たとえば、並列コンピューティング・プラットフォーム３２３０（図３２）を使用して）アプリケーションが並列にデータを処理できるようにすることにより、良好にスケーリングされてもよい。少なくとも一実施例では、サービス３１２０により提供される同じ機能を共有する各アプリケーションに、サービス３１２０のそれぞれのインスタンスを有するよう要求するのではなく、サービス３１２０が、様々なアプリケーション間で共有されてもよい。少なくとも一実施例では、サービスは、非限定的な実例として、検出又はセグメント化のタスクを実行するために使用されてもよい推論のサーバ又はエンジンを含んでもよい。少なくとも一実施例では、機械学習モデルの訓練及び／又は再訓練の機能を提供することができるモデル訓練サービスが含まれてもよい。少なくとも一実施例では、ＧＰＵ加速化データ（たとえば、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など）の抽出、リサイズ、スケーリング、及び／又は他の拡張を提供することができるデータ拡張サービスがさらに含まれてもよい。少なくとも一実施例では、レイ・トレーシング、ラスタ化、ノイズ除去、鮮鋭化などの画像レンダリング効果を加えることができる視覚化サービスが使用されて、２次元（２Ｄ）及び／又は３次元（３Ｄ）のモデルにリアル感が付加されてもよい。少なくとも一実施例では、仮想機器のパイプライン内の他のアプリケーションについてビーム形成、セグメント化、推論、撮像、及び／又はサポートを実現する仮想機器サービスが含まれてもよい。

少なくとも一実施例では、サービス３１２０がＡＩサービス（たとえば、推論サービス）を含む場合、異常検出（たとえば、腫瘍、発育異常、瘢痕化など）のためのアプリケーションに関連付けられた１つ又は複数の機械学習モデルは、機械学習モデル、又はその処理を、アプリケーション実行の一部として実行するように推論サービス（たとえば、推論サーバ）に（ＡＰＩコールとして）コールすることによって、実行されてもよい。少なくとも一実施例では、セグメント化タスクのための１つ又は複数の機械学習モデルを別のアプリケーションが含む場合、セグメント化タスクに関連付けられた処理動作のうちの１つ又は複数を実行するための機械学習モデルを実行するように、アプリケーションは推論サービスをコールしてもよい。少なくとも一実施例では、セグメント化アプリケーション及び異常検出アプリケーションを含む先進処理及び推論パイプラインを実装するソフトウェア３１１８は、１つ又は複数の推論タスクを実行するためにそれぞれのアプリケーションが同じ推論サービスをコールすることがあるので、合理化されてもよい。

少なくとも一実施例では、ハードウェア３１２２は、ＧＰＵ、ＣＰＵ、グラフィックス・カード、ＡＩ／深層学習システム（たとえば、ＮＶＩＤＩＡのＤＧＸなどのＡＩスーパーコンピュータ）、クラウド・プラットフォーム、又はそれらの組合せを含んでもよい。少なくとも一実施例では、異なるタイプのハードウェア３１２２を使用して、導入システム３１０６のソフトウェア３１１８及びサービス３１２０のための効率的で専用のサポートが提供されてもよい。少なくとも一実施例では、画像処理、画像再構築、セグメント化、ＭＲＩ検査、脳卒中又は心臓発作の（たとえばリアルタイムの）検出、レンダリングの画像品質などの効率、精度、及び有効性を向上させるために、ＡＩ／深層学習システム内、クラウド・システム、及び／又は導入システム３１０６の他の処理構成要素において、ローカルで（たとえば、施設３１０２で）処理を行うためのＧＰＵ処理の使用が実装されてもよい。少なくとも一実施例では、施設は、撮像デバイス、ゲノミクス・デバイス、シーケンシング・デバイス、及び／又は他のタイプのデバイスを構内に含んでもよく、これらは、ＧＰＵを利用して、対象者の解剖学的組織を表す撮像データを生成してもよい。少なくとも一実施例では、ソフトウェア３１１８及び／又はサービス３１２０は、非限定的な実例として深層学習、機械学習、及び／又は高性能コンピューティングに関するＧＰＵ処理のために最適化されてもよい。少なくとも一実施例では、導入システム３１０６及び／又は訓練システム３１０４のコンピューティング環境のうちの少なくとも一部は、データ・センタの１つ若しくは複数のスーパーコンピュータ、又は高性能コンピューティング・システムにおいて、ＧＰＵ最適化ソフトウェア（たとえば、ＮＶＩＤＩＡのＤＧＸシステムのハードウェアとソフトウェアの組合せ）を用いて実行されてもよい。少なくとも一実施例では、データセンサは、ＨＩＰＡＡの条項に準拠してもよく、したがって、撮像データ及び／又は他の患者データの受信、処理、及び送信は、患者データのプライバシーに関して安全に取り扱われる。少なくとも一実施例では、ハードウェア３１２２は、任意の数のＧＰＵを含んでもよく、これらのＧＰＵは、本明細書に記載するように、データの並列処理を実行するためにコールされてもよい。少なくとも一実施例では、クラウド・プラットフォームはさらに、深層学習タスク、機械学習タスク、又は他のコンピューティング・タスクのＧＰＵ最適化された実行のためのＧＰＵ処理を含んでもよい。少なくとも一実施例では、クラウド・プラットフォーム（たとえば、ＮＶＩＤＩＡのＮＧＣ）は、（たとえば、ＮＶＩＤＩＡのＤＧＸシステムによって提供される）ＡＩ／深層学習スーパーコンピュータ、及び／又はＧＰＵ最適化ソフトウェアをハードウェア抽象化及びスケーリングのプラットフォームとして使用して、実行されてもよい。少なくとも一実施例では、クラウド・プラットフォームは、シームレスなスケーリング及びロード・バランシングを可能にするために、複数のＧＰＵに対するアプリケーション・コンテナ・クラスタリング・システム又はオーケストレーション・システム（たとえば、ＫＵＢＥＲＮＥＴＥＳ）を統合してもよい。

図３２は、少なくとも一実施例による、イメージング展開パイプラインを生成し、展開するための例示的なシステム３２００のためのシステム図である。少なくとも一実施例では、システム３２００は、図３１のプロセス３１００、及び／又は先進処理及び推論パイプラインを含む他のプロセスを実装するために使用されてもよい。少なくとも一実施例では、システム３２００は、訓練システム３１０４及び導入システム３１０６を含んでもよい。少なくとも一実施例では、訓練システム３１０４及び導入システム３１０６は、本明細書に記載するように、ソフトウェア３１１８、サービス３１２０、及び／又はハードウェア３１２２を使用して実装されてもよい。

少なくとも一実施例では、システム３２００（たとえば、訓練システム３１０４及び／又は導入システム３１０６）は、クラウド・コンピューティング環境（たとえば、クラウド３２２６）において実装されてもよい。少なくとも一実施例では、システム３２００は、ヘルスケア・サービス施設に関してローカルに実装されてもよく、又はクラウドとローカル・コンピューティング・リソースとの組合せとして実装されてもよい。少なくとも一実施例では、クラウド・コンピューティングが実装される実施例では、ＨＩＰＡＡ並びに／又は他のデータ取扱い及びプライバシーの規定若しくは法律に準拠していない処理を提供するシステム３２００の１つ又は複数の構成要素から、患者データは分離されてもよく、又はそれらによって処理されなくてもよい。少なくとも一実施例では、クラウド３２２６のＡＰＩへのアクセスは、制定されたセキュリティ対策又はプロトコルを介して許可されたユーザに限定されてもよい。少なくとも一実施例では、セキュリティ・プロトコルはウェブ・トークンを含んでもよく、このウェブ・トークンは、認証（たとえば、ＡｕｔｈＮ、ＡｕｔｈＺ、Ｇｌｕｅｃｏｎなど）のサービスによって署名されてもよく、適切な許可を持っていてもよい。少なくとも一実施例では、（本明細書に記載の）仮想機器のＡＰＩ、又はシステム３２００の他のインスタンス化は、対話について検査済み又は許可済みのパブリックＩＰのセットに限定されてもよい。

少なくとも一実施例では、システム３２００の様々な構成要素は、有線及び／又は無線の通信プロトコルを介して、ローカル・エリア・ネットワーク（ＬＡＮ）及び／又は広域ネットワーク（ＷＡＮ）を含むがこれらに限定されない様々な異なるタイプのネットワークのうちの任意のものを使用して、相互に通信してもよい。少なくとも一実施例では、（たとえば推論要求を送信するため、推論要求の結果を受信するためなど）施設とシステム３２００の構成要素との間の通信は、データ・バス、無線データ・プロトコル（Ｗｉ－Ｆｉ）、有線データ・プロトコル（たとえば、イーサネット（登録商標））などを介して通信されてもよい。

少なくとも一実施例では、訓練システム３１０４は、図３１に関して本明細書に記載したものと同様の訓練パイプライン３２０４を実行してもよい。少なくとも一実施例では、１つ又は複数の機械学習モデルが導入システム３１０６により導入パイプライン３２１０において使用されることになる場合、訓練パイプライン３２０４を使用して、１つ又は複数の（たとえば、事前訓練された）モデルが訓練若しくは再訓練されてもよく、且つ／又は事前訓練されたモデル３２０６のうちの１つ又は複数が（たとえば再訓練若しくは更新を必要とせずに）実装されてもよい。少なくとも一実施例では、訓練パイプライン３２０４の結果として、出力モデル３１１６が生成されてもよい。少なくとも一実施例では、訓練パイプライン３２０４は、（たとえばＤＩＣＯＭ画像を、それぞれの機械学習モデルによって処理するのに適した別のフォーマット、たとえばＮｅｕｒｏｉｍａｇｉｎｇＩｎｆｏｒｍａｔｉｃｓＴｅｃｈｎｏｌｏｇｙＩｎｉｔｉａｔｉｖｅ（ＮＩｆＴＩ）フォーマットなどに変換するためのＤＩＣＯＭアダプタ３２０２Ａを使用した）撮像データ（若しくは他の入力データ）の変換若しくは適合、ＡＩ支援アノテーション３１１０、ラベル付きクリニック・データ３１１２を生成するための撮像データ３１０８のラベル付け又はアノテーション付け、モデル・レジストリからのモデル選択、モデル訓練３１１４、モデルの訓練、再訓練、若しくは更新、及び／又は他の処理ステップなどであるがこれらに限定されない任意の数の処理ステップを含んでもよい。少なくとも一実施例では、導入システム３１０６によって使用される異なる機械学習モデルについて、異なる訓練パイプライン３２０４が使用されてもよい。少なくとも一実施例では、図３１に関して記載した第１の実例と同様の訓練パイプライン３２０４は、第１の機械学習モデルに使用されてもよく、図３１に関して記載した第２の実例と同様の訓練パイプライン３２０４は、第２の機械学習モデルに使用されてもよく、図３１に関して記載した第３の実例と同様の訓練パイプライン３２０４は、第３の機械学習モデルに使用されてもよい。少なくとも一実施例では、それぞれの各機械学習モデルに要求されるものに応じて、訓練システム３１０４内のタスクの任意の組合せが使用されてもよい。少なくとも一実施例では、機械学習モデルのうちの１つ又は複数は、すでに訓練済みで導入の準備が整っていてもよく、それにより機械学習モデルは、訓練システム３１０４によるいかなる処理も受けなくてもよく、導入システム３１０６によって実装されてもよい。

少なくとも一実施例では、出力モデル３１１６及び／又は事前訓練されたモデル３２０６は、実装形態又は実施例に応じて任意のタイプの機械学習モデルを含んでもよい。少なくとも一実施例では、限定することなく、システム３２００によって使用される機械学習モデルは、線形回帰、ロジスティック回帰、決定木、サポート・ベクター・マシン（ＳＶＭ）、ナイーブ・ベイズ、ｋ近傍法（ｋ－ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ：Ｋｎｎ）、ｋ平均クラスタリング、ランダム・フォレスト、次元縮小アルゴリズム、勾配ブースティング・アルゴリズム、ニューラル・ネットワーク（たとえば、オート・エンコーダ、畳み込み、再帰、パーセプトロン、長／短期メモリ（ＬＳＴＭ）、ホップフィールド、ボルツマン、ディープ・ビリーフ、逆畳み込み、敵対的生成、液体状態マシンなど）を使用する機械学習モデル、及び／又は他のタイプの機械学習モデルを含んでもよい。

少なくとも一実施例では、訓練パイプライン３２０４は、少なくとも図３５Ｂに関して、より詳細に本明細書に記載するＡＩ支援アノテーションを含んでもよい。少なくとも一実施例では、ラベル付きクリニック・データ３１１２（たとえば、従来のアノテーション）は、任意の数の技法によって生成されてもよい。少なくとも一実施例では、ラベル又は他のアノテーションは、描画プログラム（たとえば、アノテーション・プログラム）、コンピュータ支援設計（ＣＡＤ）プログラム、ラベル付けプログラム、グラウンド・トゥルース用のアノテーション若しくはラベルの生成に適した別のタイプのプログラム内で生成されてもよく、且つ／又はいくつかの実例では、手書きされてもよい。少なくとも一実施例では、グラウンド・トゥルース・データは、合成により生成されてもよく（たとえば、コンピュータ・モデル又はレンダリングから生成されてもよく）、現実的に生成されてもよく（たとえば、実世界のデータから設計及び生成されてもよく）、機械自動化されてもよく（たとえば、特徴の分析及び学習を使用して、データから特徴を抽出し、次いでラベルを生成してもよく）、人間によりアノテーション付けされてもよく（たとえば、ラベラ、又はアノテーション専門家がラベルのロケーションを定義してもよく）、且つ／又はこれらの組合せであってもよい。少なくとも一実施例では、撮像データ３１０８のインスタンス（又は機械学習モデルによって使用される他のタイプのデータ）ごとに、訓練システム３１０４によって生成される対応するグラウンド・トゥルース・データが存在してもよい。少なくとも一実施例では、訓練パイプライン３２０４に含まれるＡＩ支援アノテーションに加えて又はその代わりに、導入パイプライン３２１０の一部としてＡＩ支援アノテーションが実行されてもよい。少なくとも一実施例では、システム３２００は多層プラットフォームを含んでもよく、このプラットフォームは、１つ又は複数の医療用撮像及び診断の機能を実行することができる診断アプリケーション（又は他のタイプのアプリケーション）のソフトウェア層（たとえば、ソフトウェア３１１８）を含んでもよい。少なくとも一実施例では、システム３２００は、１つ又は複数の施設のＰＡＣＳサーバ・ネットワークに、（たとえば、暗号化リンクを介して）通信可能に結合されてもよい。少なくとも一実施例では、システム３２００は、ＰＡＣＳサーバからのデータ（たとえば、ＤＩＣＯＭデータ、ＲＩＳデータ、生データ、ＣＩＳデータ、ＲＥＳＴ準拠データ、ＲＰＣデータ、生データなど）に（たとえば、ＤＩＣＯＭアダプタ３２０２、又はＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など別のタイプのデータ・アダプタを介して）アクセスし、それを参照するように構成されて、機械学習モデルの訓練、機械学習モデルの導入、画像処理、推論、及び／又は他の動作などの動作を実行してもよい。

少なくとも一実施例では、ソフトウェア層は、セキュアな、暗号化された、且つ／又は認証されたＡＰＩとして実装されてもよく、これを介して、アプリケーション又はコンテナが、外部環境（たとえば、施設３１０２）から呼び出し（たとえばコール）されてもよい。少なくとも一実施例では、次いでアプリケーションは、それぞれのアプリケーションに関連付けられた計算、ＡＩ、又は視覚化のタスクを実行するために１つ又は複数のサービス３１２０をコール又は実行してもよく、ソフトウェア３１１８及び／又はサービス３１２０は、ハードウェア３１２２を利用して、処理タスクを有効且つ効率的なやり方で実行してもよい。

少なくとも一実施例では、導入システム３１０６は、導入パイプライン３２１０を実行してもよい。少なくとも一実施例では、導入パイプライン３２１０は任意の数のアプリケーションを含んでもよく、これらは、上に記載のＡＩ支援アノテーションを含め、撮像デバイス、シーケンシング・デバイス、ゲノミクス・デバイスなどによって生成された撮像データ（及び／又は他のタイプのデータ）に連続的に、非連続的に、又は他のやり方で適用されてもよい。少なくとも一実施例では、本明細書に記載するように、個々のデバイス用の導入パイプライン３２１０は、デバイス用の仮想機器（たとえば、仮想超音波機器、仮想ＣＴスキャン機器、仮想シーケンシング機器など）と呼ばれてもよい。少なくとも一実施例では、デバイスによって生成されるデータに必要な情報に応じて、１つのデバイスにつき２つ以上の導入パイプライン３２１０が存在してもよい。少なくとも一実施例では、異常検出がＭＲＩマシンに必要とされる場合、第１の導入パイプライン３２１０が存在してもよく、画像強調がＭＲＩマシンの出力に必要とされる場合、第２の導入パイプライン３２１０が存在してもよい。

少なくとも一実施例では、導入パイプライン３２１０にとって利用可能なアプリケーションは、デバイスからの撮像データ又は他のデータに対して処理タスクを実行するために使用することができる任意のアプリケーションを含んでもよい。少なくとも一実施例では、画像強調、セグメント化、再構築、異常検出、物体検出、特徴検出、処置計画、線量測定、ビーム計画（又は他の放射線処置手順）、及び／又は他の分析、画像処理、又は推論のタスクを、異なるアプリケーションが担当してもよい。少なくとも一実施例では、導入システム３１０６は、それぞれのアプリケーションの構造を定義してもよく、それにより導入システム３１０６のユーザ（たとえば、医療施設、研修所、クリニックなど）は、構造を理解し、自らのそれぞれの施設内で実装できるようにアプリケーションを適応させてもよい。少なくとも一実施例では、導入パイプライン３２１０に含めるために、画像再構築用のアプリケーションが選択されてもよいが、撮像デバイスによって生成されるデータのタイプは、アプリケーション内で使用されるデータのタイプとは異なってもよい。少なくとも一実施例では、ＤＩＣＯＭアダプタ３２０２Ｂ（及び／又はＤＩＣＯＭリーダ）は、又は別のタイプのデータ・アダプタ若しくはリーダ（たとえば、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など）が導入パイプライン３２１０内で使用されて、導入システム３１０６内のアプリケーションによって使用可能な形にデータを変換してもよい。少なくとも一実施例では、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生、及び／又は他のタイプのデータ・ライブラリへのアクセスは、データに対する任意の畳み込み、色補正、鮮明度、ガンマ、及び／又は他の拡張を、デコード、抽出、及び／又は実行することを含め、累積され、事前処理されてもよい。少なくとも一実施例では、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、及び／又は生データは、順序なしであってもよく、収集されたデータを整理しソートするために、事前パスが実行されてもよい。少なくとも一実施例では、様々なアプリケーションは共通の画像動作を共有することがあるので、いくつかの実施例では、（たとえば、サービス３１２０の１つとして）データ拡張ライブラリを使用して、これらの動作が加速化されてもよい。少なくとも一実施例では、ＣＰＵ処理に依存する従来の処理手法のボトルネックを回避するために、並列コンピューティング・プラットフォーム３２３０を使用して、これらの処理タスクがＧＰＵ加速化されてもよい。

少なくとも一実施例では、画像再構築アプリケーションは、機械学習モデルの使用を含む処理タスクを含んでもよい。少なくとも一実施例では、ユーザは、独自の機械学習モデルを使用すること、又はモデル・レジストリ３１２４から機械学習モデルを選択することを望む場合がある。少なくとも一実施例では、ユーザは、処理タスクを実行するために、独自の機械学習モデルを実装してもよく、又は機械学習モデルを選択してアプリケーションに含めてもよい。少なくとも一実施例では、アプリケーションは選択可能及びカスタマイズ可能であってもよく、アプリケーションの構造を定義することにより、特定のユーザ向けのアプリケーションの導入及び実装が、よりシームレスなユーザ・エクスペリエンスとして提示される。少なくとも一実施例では、システム３２００の他の特徴、たとえばサービス３１２０及びハードウェア３１２２などを利用することにより、導入パイプライン３２１０は、さらによりユーザ・フレンドリになることができ、より容易な統合を実現でき、より正確で、効率的で、タイムリーな結果を生み出すことができる。

少なくとも一実施例では、導入システム３１０６はユーザ・インターフェース３２１４（たとえば、グラフィカル・ユーザ・インターフェース、ウェブ・インターフェースなど）を含んでもよく、これらは、アプリケーションを選択して導入パイプライン３２１０に含める、アプリケーションを構成する、アプリケーション又はそのパラメータ若しくは構造を修正又は変更する、セットアップ及び／又は導入中に導入パイプライン３２１０を使用しそれと対話する、且つ／又は他のやり方で導入システム３１０６と対話するために使用されてもよい。少なくとも一実施例では、訓練システム３１０４に関して図示されていないが、ユーザ・インターフェース３２１４（又は異なるユーザ・インターフェース）は、導入システム３１０６で使用するモデルを選択するため、訓練システム３１０４において訓練若しくは再訓練するモデルを選択するため、且つ／又は他のやり方で訓練システム３１０４と対話するために使用されてもよい。

少なくとも一実施例では、アプリケーション・オーケストレーション・システム３２２８に加えてパイプライン・マネージャ３２１２を使用して、導入パイプライン３２１０のアプリケーション又はコンテナと、サービス３１２０及び／又はハードウェア３１２２との間で対話が管理されてもよい。少なくとも一実施例では、パイプライン・マネージャ３２１２は、アプリケーションからアプリケーションへの対話、アプリケーションからサービス３１２０への対話、及び／又はアプリケーション若しくはサービスからハードウェア３１２２への対話を容易にするように構成されてもよい。少なくとも一実施例では、ソフトウェア３１１８に含まれるように図示してあるが、これは限定を意図しておらず、いくつかの事例では、パイプライン・マネージャ３２１２は、サービス３１２０に含まれてもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３２２８（たとえば、Ｋｕｂｅｒｎｅｔｅｓ、ＤＯＣＫＥＲなど）は、コンテナ・オーケストレーション・システムを含んでもよく、このシステムは、アプリケーションを、調整、管理、スケーリング、及び導入のための論理ユニットとして、コンテナにグループ化することができる。少なくとも一実施例では、導入パイプライン３２１０からのアプリケーション（たとえば、再構築アプリケーション、セグメント化アプリケーションなど）を個々のコンテナに関連付けることより、各アプリケーションは自己完結型環境内（たとえば、カーネル・レベル）で実行して、スピード及び効率を向上させることができる。

少なくとも一実施例では、各アプリケーション及び／又はコンテナ（又はその画像）は、個々に開発、修正、及び導入されてもよく（たとえば、第１のユーザ又は開発者が、第１のアプリケーションを開発、修正、及び導入し、第２のユーザ又は開発者が、第１のユーザ又は開発者とは別に第２のアプリケーションを開発、修正、及び導入してもよく）、これにより、別のアプリケーション又はコンテナのタスクに邪魔されることなく、１つのアプリケーション及び／又はコンテナのタスクに集中し、注意を払うことが可能になる。少なくとも一実施例では、異なるコンテナ間又はアプリケーション間の通信、及び協調が、パイプライン・マネージャ３２１２及びアプリケーション・オーケストレーション・システム３２２８によって支援されてもよい。少なくとも一実施例では、各コンテナ又はアプリケーションの予測される入力及び／又は出力が、（たとえば、アプリケーション又はコンテナの構造に基づき）システムによって知られている限り、アプリケーション・オーケストレーション・システム３２２８及び／又はパイプライン・マネージャ３２１２は、アプリケーション又はコンテナのそれぞれ間の通信、及びそれらの間でのリソースの共有を容易にすることができる。少なくとも一実施例では、導入パイプライン３２１０のアプリケーション又はコンテナのうちの１つ又は複数は、同じサービス及びリソースを共有することができるので、アプリケーション・オーケストレーション・システム３２２８は、様々なアプリケーション間又はコンテナ間でサービス又はリソースをオーケストレートし、ロード・バランシングをおこない、共有を決定してもよい。少なくとも一実施例では、スケジューラを使用して、アプリケーション又はコンテナのリソース要件、これらのリソースの現在の使用量又は計画された使用量、及びリソースの利用可能性が追跡されてもよい。少なくとも一実施例では、こうしてスケジューラは、異なるアプリケーションにリソースを配分し、システムの要件及び利用可能性を考慮してアプリケーション間でリソースを分配してもよい。いくつかの実例では、スケジューラ（及び／又はアプリケーション・オーケストレーション・システム３２２８の他の構成要素）は、サービスの品質（ＱｏＳ）、（たとえば、リアルタイム処理を実行するか、遅延処理を実行するかを決定するための）データ出力を必要とする緊急度など、システムに課される制約（たとえば、ユーザ制約）に基づき、リソースの利用可能性及び分配を決定してもよい。

少なくとも一実施例では、導入システム３１０６のアプリケーション又はコンテナによって利用及び共有されるサービス３１２０は、計算サービス３２１６、ＡＩサービス３２１８、視覚化サービス３２２０、及び／又は他のタイプのサービスを含んでもよい。少なくとも一実施例では、アプリケーションは、サービス３１２０のうちの１つ又は複数をコール（たとえば実行）して、アプリケーションのための処理動作を実行してもよい。少なくとも一実施例では、計算サービス３２１６は、スーパーコンピューティング又は他の高性能コンピューティング（ＨＰＣ）のタスクを実行するために、アプリケーションによって利用されてもよい。少なくとも一実施例では、アプリケーションのうちの１つ又は複数を介してデータを実質的に同時に処理するため、且つ／又は１つのアプリケーションの１つ又は複数のタスクを実質的に同時に処理するために、計算サービス３２１６を利用して（たとえば、並列コンピューティング・プラットフォーム３２３０を使用して）並列処理が実行されてもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３２３０（たとえば、ＮＶＩＤＩＡのＣＵＤＡ）は、ＧＰＵ（たとえば、ＧＰＵ３２２２）上での汎用コンピューティング（ＧＰＧＰＵ）を可能にしてもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３２３０のソフトウェア層は、計算カーネルを実行するために仮想命令セット及びＧＰＵの並列計算要素へのアクセスを提供してもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３２３０はメモリを含んでもよく、いくつかの実施例では、メモリは、複数のコンテナ間で、且つ／又は１つのコンテナ内の異なる処理タスク間で共有されてもよい。少なくとも一実施例では、複数のコンテナ、及び／又はコンテナ内の複数のプロセスが、並列コンピューティング・プラットフォーム３２３０のメモリの共有セグメントからの同じデータを使用するために（たとえば、アプリケーションの複数の異なるステージ、又は複数のアプリケーションが、同じ情報を処理する場合）、プロセス間通信（ＩＰＣ）コールが生成されてもよい。少なくとも一実施例では、データのコピーを作成し、データをメモリの異なるロケーションに移動（たとえば、読取り／書込みの動作）させるのではなく、メモリの同じロケーションの同じデータが、任意の数の処理タスクに（たとえば、同じ時間、異なる時間などに）使用されてもよい。少なくとも一実施例では、データが使用されて、処理の結果として新規データが生成されるとき、データの新規ロケーションのこの情報は、様々なアプリケーションに記憶され、それらの間で共有されてもよい。少なくとも一実施例では、データのロケーション及び更新済み又は修正済みのデータのロケーションは、コンテナ内でペイロードがどのように理解されるかという定義の一部であってもよい。

少なくとも一実施例では、ＡＩサービス３２１８は、アプリケーションに関連付けられた（たとえば、アプリケーションの１つ又は複数の処理タスクを実行する役割を課された）機械学習モデルを実行するための推論サービスを実行するために利用されてもよい少なくとも一実施例では、ＡＩサービス３２１８は、セグメント化、再構築、物体検出、特徴検出、分類、及び／又は他の推論タスクのための機械学習モデル（たとえば、ＣＮＮなどのニューラル・ネットワーク）を実行するために、ＡＩシステム３２２４を利用してもよい。少なくとも一実施例では、導入パイプライン３２１０のアプリケーションは、訓練システム３１０４からの出力モデル３１１６及び／又はアプリケーションの他のモデルのうちの１つ又は複数を使用して、撮像データ（たとえば、ＤＩＣＯＭデータ、ＲＩＳデータ、ＣＩＳデータ、ＲＥＳＴ準拠データ、ＲＰＣデータ、生データなど）について推論を実行してもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３２２８（たとえば、スケジューラ）を使用する推論の２つ以上の実例が利用可能であってもよい。少なくとも一実施例では、第１のカテゴリは、緊急時の緊急要求について推論を実行するため、又は診断時の放射線医のためなど、より高いサービス・レベル合意を達成できる高優先順位／低レイテンシの経路を含むことができる。少なくとも一実施例では、第２のカテゴリは、緊急ではない要求のため、又は分析が後で実行されてもよい場合に使用することができる標準優先順位の経路を含んでもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３２２８は、ＡＩサービス３２１８の異なる推論タスク向けの優先順位経路に基づき、リソース（たとえば、サービス３１２０及び／又はハードウェア３１２２）を分配してもよい。

少なくとも一実施例では、共有ストレージが、システム３２００内でＡＩサービス３２１８に取り付けられてもよい。少なくとも一実施例では、共有ストレージは、キャッシュ（又は他のタイプのストレージ・デバイス）として動作してもよく、アプリケーションからの推論要求を処理するために使用されてもよい。少なくとも一実施例では、推論要求が送出されたとき、要求は、導入システム３１０６のＡＰＩインスタンスのセットによって受信されてもよく、１つ又は複数のインスタンスが（たとえば、最良な適合のため、ロード・バランシングのためなどに）選択されて、要求が処理されてもよい。少なくとも一実施例では、要求を処理するために、要求がデータベースに入れられてもよく、機械学習モデルは、まだキャッシュにない場合には、モデル・レジストリ３１２４から特定されてもよく、検証ステップは、適切な機械学習モデルがキャッシュ（たとえば、共有ストレージ）に確実にロードされるようにしてもよく、且つ／又はモデルのコピーがキャッシュに保存されてもよい。少なくとも一実施例では、アプリケーションがまだ実行されていない場合、又はアプリケーションの充分なインスタンスが存在しない場合には、スケジューラ（たとえば、パイプライン・マネージャ３２１２）を使用して、要求において参照されたアプリケーションが起動されてもよい。少なくとも一実施例では、モデルを実行するための推論サーバがまだ起動されていない場合には、推論サーバが起動されてもよい。任意の数の推論サーバがモデルごとに起動されてもよい。少なくとも一実施例では、推論サーバがクラスタ化済みであるプル・モデルでは、ロード・バランシングが有利な場合にはいつでもモデルがキャッシュされてもよい。少なくとも一実施例では、推論サーバは、対応する分散サーバに静的にロードされてもよい。

少なくとも一実施例では、推論は、コンテナ内で実行される推論サーバを使用して実行されてもよい。少なくとも一実施例では、推論サーバのインスタンスは、モデルに（任意選択でモデルの複数のバージョンに）関連付けられてもよい。少なくとも一実施例では、モデルに対して推論を実行する要求が受信されたとき、推論サーバのインスタンスが存在しない場合には、新規のインスタンスがロードされてもよい。少なくとも一実施例では、推論サーバをスタートするとき、モデルが推論サーバに渡されてもよく、それにより、推論サーバが異なるインスタンスとして実行されている限り、同じコンテナを使用して異なるモデルにサービス提供されてもよい。

少なくとも一実施例では、アプリケーションの実行中、所与のアプリケーションについて推論要求が受信されてもよく、（たとえば、推論サーバのインスタンスをホストする）コンテナが（まだロードされていなければ）ロードされてもよく、開始プロシージャがコールされてもよい。少なくとも一実施例では、コンテナの事前処理論理が、（たとえばＣＰＵ及び／又はＧＰＵを使用して）入力データに対する任意の追加的な事前処理をロード、デコード、及び／又は実行してもよい。少なくとも一実施例では、推論のためにデータが準備されると、コンテナは、必要に応じてデータに推論を実行してもよい。少なくとも一実施例では、これは１つの画像（たとえば手のＸ線）に対する単一の推論コールを含んでもよく、又は何百もの画像（たとえば胸のＣＴ）について推論を要求してもよい。少なくとも一実施例では、アプリケーションは、完了前に結果を要約してもよく、これは限定することなく、単一の信頼性スコア、ピクセル・レベルのセグメント化、ボクセル・レベルのセグメント化、視覚化の生成、又は所見を要約するためのテキストの生成を含んでもよい。少なくとも一実施例では、異なるモデル又はアプリケーションには、異なる優先順位が割り当てられてもよい。たとえば、リアルタイム（ＴＡＴ＜１分）の優先順位を有するモデルもあれば、低優先順位（たとえば、ＴＡＴ＜１０分）を有するモデルもある。少なくとも一実施例では、モデル実行時間は、要求元の施設又はエンティティから測定されてもよく、推論サービスに対する実行に加えてパートナ・ネットワーク横断時間を含んでもよい。

少なくとも一実施例では、サービス３１２０と推論アプリケーションの間での要求の移行は、ソフトウェア開発キット（ＳＤＫ）の後ろに隠されてもよく、キューを通して頑健な移送が提供されてもよい。少なくとも一実施例では、個々のアプリケーション／テナントＩＤの組合せを求めて、要求がＡＰＩを介してキューに入れられ、ＳＤＫは、キューから要求を引き出し、要求をアプリケーションに与える。少なくとも一実施例では、ＳＤＫが要求をピックアップする環境において、キューの名称が提供されてもよい。少なくとも一実施例では、キューを介した非同期の通信は、その通信が利用可能になったときに、その通信によって、アプリケーションの任意のインスタンスがワークをピックアップできるようになるので、有用な場合がある。結果はキューを介して返送されて、データが失われないようにしてもよい。少なくとも一実施例では、最高優先順位のワークは、アプリケーションのほとんどのインスタンスがキューに接続された状態のキューに進むことができ、一方で最低優先順位のワークは、１つのインスタンスがキューに接続された状態の、受信した順番にタスクを処理するキューに進むことができるので、キューは、ワークをセグメント化する機能も提供することができる。少なくとも一実施例では、アプリケーションは、クラウド３２２６に生成されたＧＰＵ加速インスタンス上で実行されてもよく、推論サービスは、ＧＰＵ上で推論を実行してもよい。

少なくとも一実施例では、視覚化サービス３２２０を利用して、アプリケーション及び／又は導入パイプライン３２１０の出力を見るための視覚化が生成されてもよい。少なくとも一実施例では、視覚化を生成するために、視覚化サービス３２２０によってＧＰＵ３２２２が利用されてもよい。少なくとも一実施例では、レイ・トレーシングなどのレンダリング効果が、視覚化サービス３２２０によって実装されて、より高品質の視覚化が生成されてもよい。少なくとも一実施例では、視覚化は、２Ｄ画像のレンダリング、３Ｄボリュームのレンダリング、３Ｄボリュームの再構築、２Ｄトモグラフィ・スライス、仮想現実表示、拡張現実表示などを、限定することなく含んでもよい。少なくとも一実施例では、仮想化された環境を使用して、システムのユーザが対話するための仮想のインタラクティブ表示又はインタラクティブ環境（たとえば、仮想環境）が生成されてもよい。少なくとも一実施例では、視覚化サービス３２２０は、内部ビジュアライザ、シネマティクス、及び／又は他のレンダリング若しくは画像処理の能力若しくは機能（たとえば、レイ・トレーシング、ラスタ化、内部光学など）を含んでもよい。

少なくとも一実施例では、ハードウェア３１２２は、ＧＰＵ３２２２、ＡＩシステム３２２４、クラウド３２２６、並びに／又は訓練システム３１０４及び／若しくは導入システム３１０６を実行するために使用される任意の他のハードウェアを含んでもよい。少なくとも一実施例では、ＧＰＵ３２２２（たとえば、ＮＶＩＤＩＡのＴＥＳＬＡ及び／又はＱＵＡＤＲＯのＧＰＵ）は、任意の数のＧＰＵを含んでもよく、これらは、計算サービス３２１６、ＡＩサービス３２１８、視覚化サービス３２２０、他のサービス、及び／又はソフトウェア３１１８の任意の特徴若しくは機能の処理タスクを実行するために使用されてもよい。たとえば、ＡＩサービス３２１８に関して、ＧＰＵ３２２２を使用して、撮像データ（又は機械学習モデルによって使用される他のタイプのデータ）に対して事前処理が実行されてもよく、機械学習モデルの出力に対して事後処理が実行されてもよく、且つ／又は推論が実行されてもよい（たとえば、機械学習モデルが実行されてもよい）。少なくとも一実施例では、クラウド３２２６、ＡＩシステム３２２４、及び／又はシステム３２００の他の構成要素は、ＧＰＵ３２２２を使用してもよい。少なくとも一実施例では、クラウド３２２６は、深層学習タスクのためにＧＰＵ最適化されたプラットフォームを含んでもよい。少なくとも一実施例では、ＡＩシステム３２２４は、ＧＰＵを使用してもよく、クラウド３２２６、又は深層学習若しくは推論の役割を課された少なくとも一部分は、１つ又は複数のＡＩシステム３２２４を使用して実行されてもよい。したがって、ハードウェア３１２２は、個別構成要素として示されているが、これは限定を意図したものではなく、ハードウェア３１２２の任意の構成要素が、ハードウェア３１２２の任意の他の構成要素と組み合わされてもよく、それらによって利用されてもよい。

少なくとも一実施例では、ＡＩシステム３２２４は、推論、深層学習、機械学習、及び／又は他の人工知能タスク向けに構成された専用のコンピューティング・システム（たとえば、スーパーコンピュータ又はＨＰＣ）を含んでもよい。少なくとも一実施例では、ＡＩシステム３２２４（たとえば、ＮＶＩＤＩＡのＤＧＸ）は、ＧＰＵ最適化されたソフトウェア（たとえば、ソフトウェア・スタック）を含んでもよく、これは、ＣＰＵ、ＲＡＭ、ストレージ、及び／又は他の構成要素、特徴、若しくは機能に加えて、複数のＧＰＵ３２２２を使用して実行されてもよい。少なくとも一実施例では、１つ又は複数のＡＩシステム３２２４は、システム３２００の一部又はすべてのＡＩベースの処理タスクを実行するために、（たとえば、データ・センタにおいて）クラウド３２２６に実装されてもよい。

少なくとも一実施例では、クラウド３２２６は、ＧＰＵ加速化インフラストラクチャ（たとえば、ＮＶＩＤＩＡのＮＧＣ）を含んでもよく、これは、システム３２００の処理タスクを実行するためのＧＰＵ最適化されたプラットフォームを提供してもよい。少なくとも一実施例では、クラウド３２２６は、システム３２００のＡＩベースのタスクのうちの１つ又は複数を実行するためのＡＩシステム３２２４を（たとえば、ハードウェア抽象化及びスケーリングのプラットフォームとして）含んでもよい。少なくとも一実施例では、クラウド３２２６は、複数のＧＰＵを利用してアプリケーション・オーケストレーション・システム３２２８と統合されて、アプリケーションとサービス３１２０の間でシームレスなスケーリング及びロード・バランシングを可能にしてもよい。少なくとも一実施例では、クラウド３２２６は、本明細書に記載する計算サービス３２１６、ＡＩサービス３２１８、及び／又は視覚化サービス３２２０を含むシステム３２００のサービス３１２０の少なくとも一部を実行する役割を課されてもよい。少なくとも一実施例では、クラウド３２２６は、大小のバッチ推論（たとえば、ＮＶＩＤＩＡのテンソルＲＴの実行）を実行してもよく、加速化された並列コンピューティングのＡＰＩ及びプラットフォーム３２３０（たとえば、ＮＶＩＤＩＡのＣＵＤＡ）を提供してもよく、アプリケーション・オーケストレーション・システム３２２８（たとえば、ＫＵＢＥＲＮＥＴＥＳ）を実行してもよく、グラフィックス・レンダリングのＡＰＩ及びプラットフォーム（たとえば、高品質のシネマティクスを生成するためのレイ・トレーシング、２Ｄグラフィックス、３Ｄグラフィックス、及び／又は他のレンダリング技法）を提供してもよく、且つ／又はシステム３２００のための他の機能を提供してもよい。

少なくとも一実施例では、患者の機密性を保護するために（たとえば、患者のデータ又は記録が構外で使用されることになる場合）、クラウド３２２６は、深層学習コンテナ・レジストリなどのレジストリを含んでもよい。少なくとも一実施例では、レジストリは、患者データに対する事前処理、事後処理、又は他の処理タスクを実行できるアプリケーションのインスタンス化のためのコンテナを記憶してもよい。少なくとも一実施例では、クラウド３２２６は、患者データ並びにセンサ・データをコンテナに含むデータを受信してもよく、これらのコンテナにおいてセンサ・データについてのみ要求された処理を実行してもよく、次いで、いずれも患者データを抽出、記憶、又は他のやり方でそれにアクセスする必要なしに、結果の出力及び／又は視覚化を適切なパーティ及び／又はデバイス（たとえば、視覚化又は診断に使用される構内の医療デバイス）に転送してもよい。少なくとも一実施例では、患者データの機密性は、ＨＩＰＡＡ及び／又は他のデータ規定に準拠して保護される。

図３３Ａは、少なくとも一実施例による、機械学習モデルを訓練、再訓練、又は更新するためのプロセス３３００のデータ・フロー図を示す。少なくとも一実施例では、プロセス３３００は、図３２のシステム３２００を非限定的な実例として使用して、実行されてもよい。少なくとも一実施例では、プロセス３３００は、本明細書に記載のシステム３２００のサービス３１２０及び／又はハードウェア３１２２を利用してもよい。少なくとも一実施例では、プロセス３３００によって生成される精緻化モデル３３１２は、導入パイプライン３２１０内の１つ又は複数のコンテナ化アプリケーションのために、導入システム３１０６によって実行されてもよい。

少なくとも一実施例では、モデル訓練３１１４は、新規訓練データ（たとえば、顧客データセット３３０６、及び／又は入力データに関連付けられた新規グラウンド・トゥルース・データなどの新規入力データ）を使用して、初期モデル３３０４（たとえば、事前訓練済みモデル）を再訓練又は更新することを含んでもよい。少なくとも一実施例では、初期モデル３３０４を再訓練又は更新するために、初期モデル３３０４の出力又は損失層がリセットされてもよく、削除されてもよく、且つ／又は更新済み若しくは新規の出力若しくは損失層と置換されてもよい。少なくとも一実施例では、初期モデル３３０４は、以前に微調整された、前の訓練から残っているパラメータ（たとえば、重み及び／又はバイアス）を有してもよく、それにより、訓練又は再訓練３１１４は、最初からモデルを訓練するほど長い時間がかからず、又は多くの処理を必要としなくても済む。少なくとも一実施例では、モデル訓練３１１４の間に、初期モデル３３０４のリセット又は置換された出力又は損失層を有することにより、パラメータは、新規の顧客データセット３３０６（たとえば、図３１の画像データ３１０８）について予測を生成する際の出力又は損失層の精度に関連付けられた損失計算に基づき、新規データセットのために更新又は再調整されてもよい。

少なくとも一実施例では、事前訓練済みモデル３２０６は、データストア又はレジストリ（たとえば、図３１のモデル・レジストリ３１２４）に記憶されてもよい。少なくとも一実施例では、事前訓練済みモデル３２０６は、少なくとも部分的に、プロセス３３００を実行する施設とは異なる１つ又は複数の施設において訓練済みであってもよい。少なくとも一実施例では、異なる施設の患者、対象者、顧客のプライバシー及び権利を保護するために、事前訓練済みモデル３２０６は、構内で生成された顧客又は患者のデータを使用して、構内で訓練されたものであってもよい。少なくとも一実施例では、事前訓練済みモデル３２０６は、クラウド３２２６及び／又は他のハードウェア３１２２を使用して訓練されてもよいが、プライバシー保護された機密の患者データは、クラウド３２２６（又は他の構外のハードウェア）の任意の構成要素に転送できず、それらの構成要素によって使用されず、又はアクセス不可能であってもよい。少なくとも一実施例では、事前訓練済みモデル３２０６が２つ以上の施設からの患者データを使用して訓練される場合、事前訓練済みモデル３２０６は、各施設について個々に訓練されてから、別の施設からの患者若しくは顧客のデータについて訓練されてもよい。少なくとも一実施例では、顧客又は患者のデータが（たとえば、実験での使用を目的とした権利放棄などによって）プライバシー問題から解放されている場合、又は顧客若しくは患者のデータがパブリック・データセットに含まれる場合などには、任意の数の施設からの顧客又は患者のデータを使用して、データ・センタ又は他のクラウド・コンピューティング・インフラストラクチャなど、構内及び／又は構外で事前訓練済みモデル３２０６が訓練されてもよい。

少なくとも一実施例では、導入パイプライン３２１０で使用するアプリケーションを選択するとき、ユーザは、特定のアプリケーションで使用することになる機械学習モデルも選択することができる。少なくとも一実施例では、ユーザは、使用するモデルを有していないことがあり、したがって、ユーザはアプリケーションとともに使用する事前訓練済みモデル３２０６を選択してもよい。少なくとも一実施例では、訓練済みモデル３２０６は、（たとえば、患者の多様性、人口統計、使用される医療用撮像デバイスのタイプなどに基づき）ユーザの施設の顧客データセット３３０６について正確な結果を生成するように最適化されてもよい。少なくとも一実施例では、事前訓練済みモデル３２０６を、アプリケーションとともに使用するために導入パイプライン３２１０に導入する前に、事前訓練済みモデル３２０６は、それぞれの施設において使用するために更新、再訓練、及び／又は微調整されてもよい。

少なくとも一実施例では、ユーザは、更新、再訓練、及び／又は微調整されることになる事前訓練済みモデル３２０６を選択してもよく、事前訓練済みモデル３２０６は、プロセス３３００内でシステム３１０４を訓練するための初期モデル３３０４と呼ばれてもよい。少なくとも一実施例では、顧客データセット３３０６（たとえば、施設のデバイスによって生成された撮像データ、ゲノミクス・データ、シーケンシング・データ、又は他のタイプのデータ）を使用して、初期モデル３３０４について（限定することなく転送学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）を含んでもよい）モデル訓練３１１４が実行されて、精緻化モデル３３１２が生成されてもよい。少なくとも一実施例では、顧客データセット３３０６に対応するグラウンド・トゥルース・データが、訓練システム３１０４によって生成されてもよい。少なくとも一実施例では、グラウンド・トゥルース・データは、（たとえば、図３１のラベル付けされたクリニック・データ３１１２として）施設において臨床医、科学者、医師、開業医によって、少なくとも部分的に生成されてもよい。

少なくとも一実施例では、ＡＩ支援アノテーション３１１０がいくつかの実例において使用されて、グラウンド・トゥルース・データが生成されてもよい。少なくとも一実施例では、（たとえば、ＡＩ支援アノテーションＳＤＫを使用して実装された）ＡＩ支援アノテーション３１１０は、機械学習モデル（たとえば、ニューラル・ネットワーク）を利用して、顧客データセットについて示唆又は予測されるグラウンド・トゥルース・データを生成してもよい。少なくとも一実施例では、ユーザ３３１０は、コンピューティング・デバイス３３０８上のユーザ・インターフェース（グラフィカル・ユーザ・インターフェース（ＧＵＩ））内でアノテーション・ツールを使用してもよい。

少なくとも一実施例では、ユーザ３３１０は、コンピューティング・デバイス３３０８を介してＧＵＩと対話して、（自動）アノテーションを編集又は微調整してもよい。少なくとも一実施例では、ポリゴン編集特徴を使用して、ポリゴンの頂点をより正確なロケーション又は微調整されたロケーションに移動させてもよい。

少なくとも一実施例では、顧客データセット３３０６が、関連付けられたグラウンド・トゥルース・データを得ると、（たとえば、ＡＩ支援アノテーション、手動ラベリングなどからの）グラウンド・トゥルース・データが、モデル訓練３１１４中に使用されて、精緻化モデル３３１２が生成されてもよい。少なくとも一実施例では、顧客データセット３３０６は、初期モデル３３０４に任意の回数、適用されてもよく、グラウンド・トゥルース・データは、精緻化モデル３３１２について許容可能なレベルの精度が達成されるまで、初期モデル３３０４のパラメータを更新するために使用されてもよい。少なくとも一実施例では、精緻化モデル３３１２が生成されると、精緻化モデル３３１２は、医療用撮像データに対して１つ又は複数の処理タスクを実行するために、施設において１つ又は複数の導入パイプライン３２１０内に導入されてもよい。

少なくとも一実施例では、精緻化モデル３３１２は、別の施設によって選択されることになるモデル・レジストリ３１２４の事前訓練済みモデル３２０６にアップロードされてもよい。少なくとも一実施例では、このプロセスは任意の数の施設において完了されてもよく、それにより精緻化モデル３３１２は、新規データセットについて任意の回数さらに精緻化されて、より普遍的なモデルが生成されてもよい。

図３３Ｂは、少なくとも一実施例による、事前訓練されたアノテーション・モデルを用いてアノテーション・ツールを拡張するためのクライアント・サーバ・アーキテクチャ３３３２の例示的な図である。少なくとも一実施例では、ＡＩ支援アノテーション・ツール３３３６は、クライアント・サーバのアーキテクチャ３３３２に基づきインスタンス化されてもよい。少なくとも一実施例では、撮像アプリケーションのアノテーション・ツール３３３６は、たとえば放射線医が器官及び異常を識別するのを支援してもよい。少なくとも一実施例では、撮像アプリケーションは、非限定的な実例として（たとえば、３ＤのＭＲＩ又はＣＲスキャンの）生画像３３３４において、特定の対象器官上の数少ない極値点をユーザ３３１０が識別するのを援助し、特定の器官の２Ｄスライスすべてについて自動アノテーション付けされた結果を受信するソフトウェア・ツールを含んでもよい。少なくとも一実施例では、結果は、訓練データ３３３８としてデータストアに記憶されてもよく、（たとえば、限定することなく）訓練用のグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、コンピューティング・デバイス３３０８が、ＡＩ支援アノテーション３１１０のために極値点を送るとき、たとえば深層学習モデルがこのデータを入力として受信してもよく、セグメント化された器官又は異常の推論結果を返してもよい。少なくとも一実施例では、図３３ＢのＡＩ支援アノテーション・ツール３３３６Ｂなどの事前インスタンス化されたアノテーション・ツールは、たとえばアノテーション・モデル・レジストリに記憶された事前訓練済みモデル３３４２のセットを含むことができるアノテーション支援サーバ３３４０などのサーバに、ＡＰＩコール（たとえば、ＡＰＩコール３３４４）を行うことによって、拡張されてもよい。少なくとも一実施例では、アノテーション・モデル・レジストリは、特定の器官又は異常に対してＡＩ支援アノテーションを実行するように事前訓練された事前訓練済みモデル３３４２（たとえば、深層学習モデルなどの機械学習モデル）を記憶してもよい。これらのモデルは、訓練パイプライン３２０４を使用することにより、さらに更新されてもよい。少なくとも一実施例では、事前インストールされたアノテーション・ツールは、ラベル付けされた新規クリニック・データ３１１２が加えられるにつれて、経時的に改善されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理６１５が使用される。少なくとも一実施例では、１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために、この論理がこれらの図の構成要素とともに使用されてもよい。

他の変形形態は、本開示の範囲内にある。したがって、開示した技法は、様々な修正及び代替的な構成が可能であるが、それらのうち一定の例示的な実施例が図面に示され、上で詳細に説明されてきた。しかし、特定の１つ又は複数の開示された形に本開示を限定する意図はなく、その反対に、特許請求の範囲に定義される開示の趣旨及び範囲に入るすべての修正形態、代替的な構成、及び等価物を網羅することを意図している。

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「収容する（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「含むが、これに限定されない」を意味する）と解釈される。「接続される」という用語は、修飾されずに物理的接続を指している場合には、何か介在するものがあったとしても、部分的に又は完全に中に収容される、取り付けられる、又は互いに接合されるものとして解釈される。本明細書において値の範囲を詳述することは、本明細書において別段の記載がない限り、またそれぞれ別々の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に含まれるそれぞれ別々の値を個々に参照する簡潔な方法として機能することを単に意図しているにすぎない。「セット」（たとえば、「アイテムのセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がない、又は否定されていない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がない、又は否定されていない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すのではなく、サブセットと対応するセットは等しくてもよい。

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という形の言い回しなどの結合語は、別段の具体的な記載のない限り、又は文脈によって明確に否定されていない限り、項目、用語などが、ＡかＢかＣである、又はＡとＢとＣのセットのいずれかの空でないサブセットであることを提示するために一般に使用される文脈で理解される。たとえば、３つの部材を有するセットの説明的な例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、こうした結合語は、ある一定の実施例が、少なくとも１つのＡ、少なくとも１つのＢ、及び少なくとも１つのＣのそれぞれの存在を必要とすることを全体的に暗示するものではない。さらに、別段の記載のない、又は文脈によって否定されていない限り、「複数」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。複数は、少なくとも２つの項目であるが、明示的に、又は文脈によって示されている場合にはそれより多くてもよい。さらに、別段の記載のない、又は文脈からそうでないことが明らかでない限り、「～に基づく」という言い回しは、「少なくとも部分的に～に基づく」を意味し、「～だけに基づく」を意味しない。

本明細書に記載のプロセスの動作は、本明細書に別段の記載のない、又は文脈によって明確に否定されない限り、任意の好適な順序で実行することができる。少なくとも一実施例では、本明細書に記載のプロセス（又はその変形及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実行され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行されるコード（たとえば、実行可能な命令、１つ若しくは複数のコンピュータ・プログラム、又は１つ若しくは複数のアプリケーション）として実装される。少なくとも一実施例では、コードは、たとえば１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形で、コンピュータ読取り可能ストレージ媒体に記憶される。少なくとも一実施例では、コンピュータ読取り可能ストレージ媒体は、一時的な信号（たとえば、伝播する一時的な電気若しくは電磁送信）を除外するが、一時的な信号のトランシーバ内の非一時的なデータ・ストレージ回路（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的なコンピュータ読取り可能ストレージ媒体である。少なくとも一実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的なコンピュータ読取り可能ストレージ媒体のセットに記憶され、このストレージ媒体には、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（すなわち、実行された結果として）、コンピュータ・システムに本明細書に記載の動作を実行させる実行可能命令が記憶されている（又は、実行可能命令を記憶するための他のメモリを有する）。非一時的なコンピュータ読取り可能ストレージ媒体のセットは、少なくとも一実施例では、複数の非一時的なコンピュータ読取り可能ストレージ媒体を備え、複数の非一時的なコンピュータ読取り可能ストレージ媒体の個々の非一時的なストレージ媒体のうちの１つ又は複数には、すべてのコードがないが、複数の非一時的なコンピュータ読取り可能ストレージ媒体は、集合的にすべてのコードを記憶している。少なくとも一実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的なコンピュータ読取り可能ストレージ媒体は命令を記憶し、メインの中央処理装置（「ＣＰＵ」）は一部の命令を実行し、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）は他の命令を実行する。少なくとも一実施例では、コンピュータ・システムの異なる構成要素は、別々のプロセッサを有し、異なるプロセッサは、命令の異なるサブセットを実行する。

したがって、少なくとも一実施例では、コンピュータ・システムは、本明細書に記載のプロセスの動作を単独で又は集合的に実行する１つ又は複数のサービスを実装するように構成され、こうしたコンピュータ・システムは、動作の実行を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも一実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、異なるやり方で動作する複数のデバイスを備える分散型のコンピュータ・システムであり、それにより単一のデバイスがすべての動作を実行しないように分散型のコンピュータ・システムが本明細書に記載の動作を実行する。

本明細書に提供されるあらゆる例、又は例示的な言葉（たとえば、「など」）の使用は、本開示の実施例をより明らかにすることだけを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

本明細書に引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることがあたかも個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用されてもよい。これらの用語は、互いに同義語として意図されていない場合があることを理解すべきである。むしろ、特定の例では、「接続される」又は「結合される」は、２つ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用されてもよい。また「結合される」は、２つ以上の要素が直接互いに接触していないが、なお互いに連動又は相互作用することを意味してもよい。

別段の具体的な記載のない限り、明細書全体を通して「処理する」、「コンピューティング」、「計算する」、又は「判定する」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータをコンピューティング・システムのメモリ、レジスタ、又は他のそのような情報ストレージ・デバイス、送信デバイス、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるよう操作及び／又は変換するコンピュータ若しくはコンピューティング・システム、又は同様の電子コンピューティング・デバイスの行為及び／又はプロセスを指す。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶することができる他の電子データに変換する任意のデバイス、又はデバイスの一部分を指してもよい。非限定的な例として、「プロセッサ」は、ＣＰＵ又はＧＰＵであってもよい。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備えてもよい。本明細書で使用する「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実行するソフトウェア及び／又はハードウェアのエンティティを含んでもよい。また、各プロセスは、命令を直列で又は並列で連続的に又は断続的に実行するための複数のプロセスを指してもよい。「システム」及び「方法」は、１つ又は複数の方法をシステムが具体化することができ、方法がシステムと考えられてもよい場合に限り、本明細書において交換可能に使用される。

本明細書では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又はそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及することができる。アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力することは、関数呼出し、又はアプリケーション・プログラミング・インターフェースへの呼出しのパラメータとしてデータを受信するなど、様々なやり方で実現することができる。いくつかの実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、直列又は並列のインターフェースを介してデータを転送することによって実現することができる。別の実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、提供するエンティティから取得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現することができる。アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示することにも言及することができる。様々な例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示するプロセスは、関数呼出しの入力又は出力のパラメータ、アプリケーション・プログラミング・インターフェース若しくはプロセス間通信機構のパラメータとしてデータを転送することによって実現することができる。

上記の説明は、記載した技法の例示的な実装形態について述べているが、記載した機能を実装するために他のアーキテクチャが使用されてもよく、この他のアーキテクチャは、本開示の範囲内にあることが意図される。さらに、説明を目的として、役割の具体的な分配が定義されるが、様々な機能及び役割は、状況に応じて異なるやり方で分配及び分割されてもよい。

さらに、主題は、構造的特徴及び／又は方法論的動作に特有の言語で説明されてきたが、添付の特許請求の範囲で特許請求される主題は、説明した特有の特徴又は動作に必ずしも限定されないことが理解されるべきである。むしろ、特有の特徴及び動作は、特許請求の範囲を実装する例示的な形として開示されている。

Claims

１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために１つ又は複数のニューラル・ネットワークを使用するための１つ又は複数の回路を備える、プロセッサ。
前記サブピクセル・オフセット値は、前記１つ又は複数のピクセル重みがそれについて決定されるためである１つ又は複数のアップサンプリング画像を生成するために、１つ又は複数のレンダリング画像をアップサンプリングするために使用されるジッタアウェアなアップサンプリング・プロセスから決定されるためである、請求項１に記載のプロセッサ。
前記１つ又は複数のレンダリング画像が画像シーケンスに対応し、前記１つ又は複数のピクセル重みが、前記画像シーケンスの１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の重み付けされたブレンディングを実行するために使用されるためである、請求項２に記載のプロセッサ。
前記１つ又は複数のピクセル重みが、１つ又は複数の中間画像表現を生成するために、１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の第１のブレンディングのための第１のピクセル重みを含み、前記第１のブレンディングが、前記１つ又は複数のサブピクセル・オフセットを使用して決定された、前記１つ又は複数のレンダリング画像中のサンプル・ロケーションに対応するピクセルについての前記１つ又は複数のアップサンプリング画像のピクセル値のみに適用される、請求項３に記載のプロセッサ。
前記１つ又は複数のピクセル重みが、前記シーケンス中に１つ又は複数の出力画像を生成するために、前記１つ又は複数の中間画像表現のピクセル値との前記１つ又は複数のアップサンプリング画像のすべてのピクセル値の第２のブレンディングのための第２のピクセル重みを含む、請求項４に記載のプロセッサ。
前記第１のピクセル重み及び前記第２のピクセル重みが前記１つ又は複数のニューラル・ネットワークによって決定され、前記第１のピクセル重みが前記第２のピクセル重みよりも高い、請求項５に記載のプロセッサ。
１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために１つ又は複数のニューラル・ネットワークを使用するための１つ又は複数のプロセッサを備える、システム。
前記サブピクセル・オフセット値は、前記１つ又は複数のピクセル重みがそれについて決定されるためである１つ又は複数のアップサンプリング画像を生成するために、１つ又は複数のレンダリング画像をアップサンプリングするために使用されるジッタアウェアなアップサンプリング・プロセスから決定されるためである、請求項７に記載のシステム。
前記１つ又は複数のレンダリング画像が画像シーケンスに対応し、前記１つ又は複数のピクセル重みが、前記画像シーケンスの１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の重み付けされたブレンディングを実行するために使用されるためである、請求項８に記載のシステム。
前記１つ又は複数のピクセル重みが、１つ又は複数の中間画像表現を生成するために、１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の第１のブレンディングのための第１のピクセル重みを含み、前記第１のブレンディングが、前記１つ又は複数のサブピクセル・オフセットを使用して決定された、前記１つ又は複数のレンダリング画像中のサンプル・ロケーションに対応するピクセルについての前記１つ又は複数のアップサンプリング画像のピクセル値のみに適用される、請求項９に記載のシステム。
前記１つ又は複数のピクセル重みが、前記シーケンス中に１つ又は複数の出力画像を生成するために、前記１つ又は複数の中間画像表現のピクセル値との前記１つ又は複数のアップサンプリング画像のすべてのピクセル値の第２のブレンディングのための第２のピクセル重みを含む、請求項１０に記載のシステム。
前記第１のピクセル重み及び前記第２のピクセル重みが前記１つ又は複数のニューラル・ネットワークによって決定され、前記第１のピクセル重みが前記第２のピクセル重みよりも高い、請求項１１に記載のシステム。
１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために１つ又は複数のニューラル・ネットワークを使用することを含む、方法。
前記サブピクセル・オフセット値は、前記１つ又は複数のピクセル重みがそれについて決定されるためである１つ又は複数のアップサンプリング画像を生成するために、１つ又は複数のレンダリング画像をアップサンプリングするために使用されるジッタアウェアなアップサンプリング・プロセスから決定されるためである、請求項１３に記載の方法。
前記１つ又は複数のレンダリング画像が画像シーケンスに対応し、前記１つ又は複数のピクセル重みが、前記画像シーケンスの１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の重み付けされたブレンディングを実行するために使用されるためである、請求項１４に記載の方法。
前記１つ又は複数のピクセル重みが、１つ又は複数の中間画像表現を生成するために、１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の第１のブレンディングのための第１のピクセル重みを含み、前記第１のブレンディングが、前記１つ又は複数のサブピクセル・オフセットを使用して決定された、前記１つ又は複数のレンダリング画像中のサンプル・ロケーションに対応するピクセルについての前記１つ又は複数のアップサンプリング画像のピクセル値のみに適用される、請求項１５に記載の方法。
前記１つ又は複数のピクセル重みが、前記シーケンス中に１つ又は複数の出力画像を生成するために、前記１つ又は複数の中間画像表現のピクセル値との前記１つ又は複数のアップサンプリング画像のすべてのピクセル値の第２のブレンディングのための第２のピクセル重みを含む、請求項１６に記載の方法。
前記第１のピクセル重み及び前記第２のピクセル重みが前記１つ又は複数のニューラル・ネットワークによって決定され、前記第１のピクセル重みが前記第２のピクセル重みよりも高い、請求項１７に記載の方法。
命令のセットを記憶した機械可読媒体であって、前記命令が、１つ又は複数のプロセッサによって実行された場合、前記１つ又は複数のプロセッサに、少なくとも、
１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために１つ又は複数のニューラル・ネットワークを使用させる、機械可読媒体。
前記サブピクセル・オフセット値は、前記１つ又は複数のピクセル重みがそれについて決定されるためである１つ又は複数のアップサンプリング画像を生成するために、１つ又は複数のレンダリング画像をアップサンプリングするために使用されるジッタアウェアなアップサンプリング・プロセスから決定されるためである、請求項１９に記載の機械可読媒体。
前記１つ又は複数のレンダリング画像が画像シーケンスに対応し、前記１つ又は複数のピクセル重みが、前記画像シーケンスの１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の重み付けされたブレンディングを実行するために使用されるためである、請求項２０に記載の機械可読媒体。
前記１つ又は複数のピクセル重みが、１つ又は複数の中間画像表現を生成するために、１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の第１のブレンディングのための第１のピクセル重みを含み、前記第１のブレンディングが、前記１つ又は複数のサブピクセル・オフセットを使用して決定された、前記１つ又は複数のレンダリング画像中のサンプル・ロケーションに対応するピクセルについての前記１つ又は複数のアップサンプリング画像のピクセル値のみに適用される、請求項２１に記載の機械可読媒体。
前記１つ又は複数のピクセル重みが、前記シーケンス中に１つ又は複数の出力画像を生成するために、前記１つ又は複数の中間画像表現のピクセル値との前記１つ又は複数のアップサンプリング画像のすべてのピクセル値の第２のブレンディングのための第２のピクセル重みを含む、請求項２２に記載の機械可読媒体。
前記第１のピクセル重み及び前記第２のピクセル重みが前記１つ又は複数のニューラル・ネットワークによって決定され、前記第１のピクセル重みが前記第２のピクセル重みよりも高い、請求項２３に記載の機械可読媒体。
１つ又は複数のサブピクセル・オフセット値に少なくとも部分的に基づいて１つ又は複数のピクセル重みを決定するために１つ又は複数のニューラル・ネットワークを使用するための１つ又は複数のプロセッサと、
前記１つ又は複数のニューラル・ネットワークのためのネットワーク・パラメータを記憶するためのメモリと
を含む、画像生成システム。
前記サブピクセル・オフセット値は、前記１つ又は複数のピクセル重みがそれについて決定されるためである１つ又は複数のアップサンプリング画像を生成するために、１つ又は複数のレンダリング画像をアップサンプリングするために使用されるジッタアウェアなアップサンプリング・プロセスから決定されるためである、請求項２５に記載の画像生成システム。
前記１つ又は複数のレンダリング画像が画像シーケンスに対応し、前記１つ又は複数のピクセル重みが、前記画像シーケンスの１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の重み付けされたブレンディングを実行するために使用されるためである、請求項２６に記載の画像生成システム。
前記１つ又は複数のピクセル重みが、１つ又は複数の中間画像表現を生成するために、１つ又は複数の以前のアップサンプリング画像のピクセル値との前記１つ又は複数のアップサンプリング画像のピクセル値の第１のブレンディングのための第１のピクセル重みを含み、前記第１のブレンディングが、前記１つ又は複数のサブピクセル・オフセットを使用して決定された、前記１つ又は複数のレンダリング画像中のサンプル・ロケーションに対応するピクセルについての前記１つ又は複数のアップサンプリング画像のピクセル値のみに適用される、請求項２７に記載の画像生成システム。
前記１つ又は複数のピクセル重みが、前記シーケンス中に１つ又は複数の出力画像を生成するために、前記１つ又は複数の中間画像表現のピクセル値との前記１つ又は複数のアップサンプリング画像のすべてのピクセル値の第２のブレンディングのための第２のピクセル重みを含む、請求項２８に記載の画像生成システム。
前記第１のピクセル重み及び前記第２のピクセル重みが前記１つ又は複数のニューラル・ネットワークによって決定され、前記第１のピクセル重みが前記第２のピクセル重みよりも高い、請求項２９に記載の画像生成システム。