JP2024514369A

JP2024514369A - 機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース

Info

Publication number: JP2024514369A
Application number: JP2022525575A
Authority: JP
Inventors: ドゥスーザ、シェルトン; マーシンピエチョトカ、マチェイ; ペレリギン、キリーロ; パランジャペ、ヴィクラム
Original assignee: エヌビディアコーポレーション
Priority date: 2021-04-14
Filing date: 2022-04-13
Publication date: 2024-04-02
Also published as: DE112022000413T5; WO2022221460A1; KR20220142997A; CN115917502A

Abstract

並列コンピューティングを容易にするための１つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される１つ又は複数のコンピューティング機能に対応する１つ又は複数のメモリ・アドレス値を決定するための、装置、システム、及び技法。少なくとも１つの実施例では、並列コンピューティングを容易にするための１つ又は複数のアプリケーション・プログラミング・インターフェースは、グラフィックス処理ユニットなど、１つ又は複数の並列処理ユニットを使用して並列コンピューティングを容易にするための前記１つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される１つ又は複数の機能への１つ又は複数の機能コールに少なくとも部分的に基づいて、１つ又は複数のメモリ・アドレス値を決定する。

Description

本出願は、その内容全体が参照により本明細書に組み込まれる、２０２１年４月１４日に出願された、「ＥＮＨＡＮＣＥＭＥＮＴＳＴＯＡＰＩＦＵＮＣＴＩＯＮＡＤＤＲＥＳＳＱＵＥＲＩＥＳ」と題する、米国仮出願第６３／１７５，０１３号の利益を主張する。

少なくとも１つの実施例は、並列コンピューティングを容易にするための１つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される１つ又は複数のコンピューティング機能を実行するために使用される処理リソースに関する。たとえば、並列コンピューティングを容易にするための１つ又は複数のアプリケーション・プログラミング・インターフェースは、本明細書で説明される様々な新規の技法による、並列コンピューティングを容易にするための前記１つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される１つ又は複数の機能への１つ又は複数の機能コールに少なくとも部分的に基づいて、１つ又は複数のメモリ・アドレス値を決定する。

プログラミング・コードは、しばしば、異なるコンピュータ・プログラムにおいて再使用される。しかしながら、経時的に、コードは、性能、ハードウェア互換性、及び／又は新しいハードウェア特徴を利用するためになど、様々な理由で更新され得る。その結果、特定のアプリケーションのためのコードを再使用することは、様々なバージョンのコードが利用可能であることの複雑さにより、複雑であり、潜在的にエラーを起こしやすくなり得る。

少なくとも１つの実施例による、ソフトウェア・プログラムによる呼出しの結果として実施されるべきドライバ及び／又はランタイムによって提供される１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）又はＡＰＩ機能を示すブロック図である。少なくとも１つの実施例による、１つ又は複数のＡＰＩを公開するシステム・ローダを示すブロック図である。少なくとも１つの実施例による、ＡＰＩを公開しないシステム・ローダを示すブロック図である。少なくとも１つの実施例による、１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数のメモリ・ロケーションについて１つ又は複数のライブラリを照会するためのプロセスを示す図である。少なくとも１つの実施例による、例示的なデータ・センタを示す図である。少なくとも１つの実施例による、処理システムを示す図である。少なくとも１つの実施例による、コンピュータ・システムを示す図である。少なくとも１つの実施例による、システムを示す図である。少なくとも１つの実施例による、例示的な集積回路を示す図である。少なくとも１つの実施例による、コンピューティング・システムを示す図である。少なくとも１つの実施例による、ＡＰＵを示す図である。少なくとも１つの実施例による、ＣＰＵを示す図である。少なくとも１つの実施例による、例示的なアクセラレータ統合スライス（ａｃｃｅｌｅｒａｔｏｒｉｎｔｅｇｒａｔｉｏｎｓｌｉｃｅ）を示す図である。少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す図である。少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す図である。少なくとも１つの実施例による、グラフィックス・コアを示す図である。少なくとも１つの実施例による、ＧＰＧＰＵを示す図である。少なくとも１つの実施例による、並列プロセッサを示す図である。少なくとも１つの実施例による、処理クラスタを示す図である。少なくとも１つの実施例による、グラフィックス・マルチプロセッサを示す図である。少なくとも１つの実施例による、グラフィックス・プロセッサを示す図である。少なくとも１つの実施例による、プロセッサを示す図である。少なくとも１つの実施例による、プロセッサを示す図である。少なくとも１つの実施例による、グラフィックス・プロセッサ・コアを示す図である。少なくとも１つの実施例による、ＰＰＵを示す図である。少なくとも１つの実施例による、ＧＰＣを示す図である。少なくとも１つの実施例による、ストリーミング・マルチプロセッサを示す図である。少なくとも１つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す図である。少なくとも１つの実施例による、図２３のソフトウェア・スタックのＣＵＤＡ実装形態を示す図である。少なくとも１つの実施例による、図２３のソフトウェア・スタックのＲＯＣｍ実装形態を示す図である。少なくとも１つの実施例による、図２３のソフトウェア・スタックのＯｐｅｎＣＬ実装形態を示す図である。少なくとも１つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す図である。少なくとも１つの実施例による、図２３～図２６のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることを示す図である。少なくとも１つの実施例による、図２３～図２６のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることをより詳細に示す図である。少なくとも１つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す図である。少なくとも１つの実施例による、異なるタイプの処理ユニットを使用してＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。少なくとも１つの実施例による、ＣＰＵ及びＣＵＤＡ対応ＧＰＵを使用して、図３１ＡのＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。少なくとも１つの実施例による、ＣＰＵ及びＣＵＤＡ非対応（ｎｏｎ－ＣＵＤＡ－ｅｎａｂｌｅｄ）ＧＰＵを使用して、図３１ＡのＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。少なくとも１つの実施例による、図３１ＣのＣＵＤＡからＨＩＰへのトランスレーション・ツール（ＣＵＤＡ－ｔｏ－ＨＩＰｔｒａｎｓｌａｔｉｏｎｔｏｏｌ）によってトランスレートされた例示的なカーネルを示す図である。少なくとも１つの実施例による、図３１ＣのＣＵＤＡ非対応ＧＰＵをより詳細に示す図である。少なくとも１つの実施例による、例示的なＣＵＤＡグリッドのスレッドが図３３の異なるコンピュート・ユニットにどのようにマッピングされるかを示す図である。少なくとも１つの実施例による、既存のＣＵＤＡコードをＤａｔａＰａｒａｌｌｅｌＣ＋＋コードにどのようにマイグレートするかを示す図である。

図１は、少なくとも１つの実施例による、ソフトウェア・プログラム１０２による呼出しの結果として実施されるべきドライバ及び／又はランタイム１０４によって提供される１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を示すブロック図である。

少なくとも１つの実施例では、ＡＰＩ１１０は、プロセッサによって実行された場合、１つ又は複数のプロセッサに、１つ又は複数の算出動作を実施することを行わせるソフトウェア命令のセットである。少なくとも１つの実施例では、１つ又は複数のＡＰＩ１１０は、１つ又は複数のソフトウェア・ライブラリ１０６、ランタイム１０４、ドライバ１０４、或いは本明細書でさらに説明されるソフトウェア及び／又は実行可能コードの任意の他のグループ化の一部として分散されるか又はさもなければ提供される。少なくとも１つの実施例では、１つ又は複数のＡＰＩ１１０は、ユーザ実装された（ｕｓｅｒ－ｉｍｐｌｅｍｅｎｔｅｄ）ソフトウェア・プログラム１０２に機能性を提供する。少なくとも１つの実施例では、ソフトウェア・プログラム１０２は、コンピューティング・デバイスに、１つ又は複数の算出動作を実施すること、及び／又は実行されるべきＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８など、命令の１つ又は複数の他のセットを呼び出すことを行うように命令するための、ソフトウェア・コード、コマンド、命令、又はテキストの他のシーケンスの集合である。少なくとも１つの実施例では、１つ又は複数のＡＰＩ１１０によって提供される機能性は、ソフトウェア機能１１２、１１４、１１６、１１８、及び／又はグラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）などの１つ又は複数の並列処理ユニット（ＰＰＵ：ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を使用してユーザ実装されたソフトウェア・プログラム１０２を加速するための１つ又は複数のソフトウェア機能１１２、１１４、１１６、１１８を含む。

少なくとも１つの実施例では、ＡＰＩ１１０は、１つ又は複数の算出動作を実施するための１つ又は複数の回路へのハードウェア・インターフェースである。少なくとも１つの実施例では、本明細書で説明される１つ又は複数のソフトウェアＡＰＩ１１０は、図２Ａ、図２Ｂ、及び図３と併せて以下で説明される１つ又は複数の技法を実施するための１つ又は複数の回路として実装される。少なくとも１つの実施例では、１つ又は複数のソフトウェア・プログラム１０２は、実行された場合、１つ又は複数のハードウェア・デバイス及び／又は回路に、図２Ａ、図２Ｂ、及び図３と併せて以下でさらに説明される１つ又は複数の技法を実施することを行わせる命令を備える。

少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム１０２は、コンピュート・ユニファイド・デバイス・アーキテクチャ（ＣＵＤＡ：ＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ）、ｏｎｅＡＰＩ、又は本明細書でさらに説明される任意の他のＡＰＩ１１０など、並列コンピューティングを容易にするための１つ又は複数のＡＰＩ１１０を利用する。少なくとも１つの実施例では、並列コンピューティングを容易にするための１つ又は複数のＡＰＩは、並列コンピューティングに関係する１つ又は複数の動作を個々に実施するコール可能機能１１２、１１４、１１６、１１８など、ＡＰＩ１１０のセットを提供する。たとえば、一実施例では、並列コンピューティングを容易にするための１つ又は複数のＡＰＩ１１０は、グラフィックス処理ユニット（ＧＰＵ）などの１つ又は複数の並列処理ユニット（ＰＰＵ）上で実施されるべき１つ又は複数のソフトウェア命令及び／又は動作をスケジュールするために機能１１２、１１４、１１６、１１８を提供する。

少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、ＧＰＵなどの１つ又は複数のＰＰＵを使用して１つ又は複数のコンピューティング動作を実施するために、並列コンピューティングを容易にするための１つ又は複数のＡＰＩ１１０と対話する。少なくとも１つの実施例では、１つ又は複数のＰＰＵを使用する１つ又は複数のコンピューティング動作は、少なくとも部分的に前記１つ又は複数のＰＰＵによる実行によって加速されるべきコンピューティング動作の少なくとも１つ又は複数のグループを含む。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラムは、前記１つ又は複数のＡＰＩへのリモート・インターフェース又はローカル・インターフェースを使用して、並列コンピューティングを容易にするための１つ又は複数のＡＰＩ１１０と対話する。

少なくとも１つの実施例では、リモート・インターフェース１０８は、実行された場合、ネットワークなどの通信媒体上で１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２と１つ又は複数のＡＰＩ１１０を提供する１つ又は複数のソフトウェア・ライブラリ１０６との間の対話を容易にする１つ又は複数のソフトウェア命令のセットである。少なくとも１つの実施例では、１つ又は複数のソフトウェア・ライブラリ１０６は、実行された場合、１つ又は複数の算出動作を実施するために、ＡＰＩ又はＡＰＩ機能など、１つ又は複数の機能を提供する命令のセットである。少なくとも１つの実施例では、ライブラリは、インターフェース１０８を通した１つ又は複数のＡＰＩ１１０への１つ又は複数のコールの結果として提供されるべき１つ又は複数の機能実装形態１１２、１１４、１１６、１１８を備える。少なくとも１つの実施例では、１つ又は複数の機能実装形態１１２、１１４、１１６、１１８は、実行された場合、算出動作などの１つ又は複数のＡＰＩ又はＡＰＩ機能を実施するソフトウェア命令のセットである。少なくとも１つの実施例では、リモート・インターフェース１０８は、コンピューティング・リソース・サービス・プロバイダなどのリモート・コンピューティング・サービスによる１つ又は複数のＡＰＩの実施を容易にする。別の実施例では、１つ又は複数のＡＰＩ１１０を備える１つ又は複数のライブラリ１０６は、任意の他のコンピューティング・ホストによって実施され、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２によって、又はそれとともに算出することを容易にするための前記１つ又は複数のＡＰＩ１１０を提供する。

少なくとも１つの実施例では、ローカル・インターフェース１０８は、実行された場合、リモート通信又はネットワーク通信なしに、ソフトウェア・プログラム１０２と１つ又は複数のＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８との間の対話を容易にするソフトウェア命令を備える。少なくとも１つの実施例では、ローカル・インターフェース１０８は、ライブラリ１０６又はライブラリの１つ又は複数のＡＰＩ１１０へのソフトウェア・プログラム１０２によるアクセスを容易にする。少なくとも１つの実施例では、ローカル・インターフェース１０８は、ユーザ実装されたソフトウェア・プログラム１０２によって使用されるためのものであり、１つ又は複数のＡＰＩ１１０を備える１つ又は複数のソフトウェア・ライブラリ１０６とともに前記ユーザ実装されたソフトウェア・プログラム１０２をコンパイルする。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、１つ又は複数のＡＰＩ１１０を実装するプリコンパイルされたソフトウェア・ライブラリ１０６又はコンパイルされていないソース・コードとともに静的にコンパイルされる。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、動的にコンパイルされ、前記１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、コンパイラ、又は本明細書でさらに説明されるものなど、他のリンクツールを使用して、１つ又は複数のＡＰＩ１１０とＡＰＩ１１０機能１１２、１１４、１１６、１１８とを備える１つ又は複数のプリコンパイルされたソフトウェア・ライブラリ１０６にリンクする。

少なくとも１つの実施例では、ドライバ又はランタイム１０４は、１つ又は複数のＡＰＩ１１０を実装するか又はさもなければ提供するライブラリ１０６へのローカル・インターフェース又はリモート・インターフェース１０８を備える。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、１つ又は複数のドライバ又はランタイム１０４のライブラリ１０６によって提供される１つ又は複数のＡＰＩ１１０を呼び出すか又はさもなければそれと対話するための、システム・コール及び／又はＡＰＩ機能コールなど、１つ又は複数の機能コールを実施する。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、システム・ローダへの１つ又は複数の機能コールを実施することによって、前記１つ又は複数のＡＰＩ１１０を備える１つ又は複数のドライバ又はランタイム１０４中の１つ又は複数のライブラリ１０６によって提供される１つ又は複数のＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を直接呼び出し、前記システム・ローダは、その場合、図２Ａ及び図２Ｂと併せて以下で説明されるように、前記１つ又は複数のＡＰＩ１１０を呼び出すために前記１つ又は複数のドライバ又はランタイム１０４と対話する。

少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、１つ又は複数のドライバ又はランタイム１０４によって提供される１つ又は複数のライブラリ１０６中の１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８の１つ又は複数のアドレス、及び／又はＡＰＩ機能１１２、１１４、１１６、１１８の実装形態を取得するために、システム・ローダへの１つ又は複数のシステム・コールを実施する。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、図２Ａ及び図２Ｂと併せて以下で説明されるように、１つ又は複数のＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８のアドレスを要求するための前記システム・ローダへの前記ユーザ実装されたソフトウェアによるコールの結果として、システム・ローダによって提供される１つ又は複数のメモリ・アドレス又はシンボルに少なくとも部分的に基づいて、１つ又は複数のＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を呼び出す。少なくとも１つの実施例では、１つ又は複数のユーザ実装されたソフトウェア・プログラム１０２は、ＡＰＩ１１０及び／又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を実装するライブラリ１０６を備えるか又はさもなければ提供するドライバ又はランタイム１０４への１つ又は複数の機能コールの結果として提供される１つ又は複数のメモリ・アドレス又はシンボルに少なくとも部分的に基づいて、１つ又は複数のＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を直接呼び出す。

少なくとも１つの実施例では、１つ又は複数のライブラリ１０６へのインターフェース１０８を備えるか又はさもなければ提供する１つ又は複数のドライバ又はランタイム１０４は、実行されたとき、１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８、或いは並列コンピューティング又は本明細書でさらに説明される任意の他の目的を容易にするための機能など、他の算出動作を実施する命令を含んでいる。少なくとも１つの実施例では、１つ又は複数のライブラリ１０６を備えるか又は１つ又は複数のライブラリ１０６との対話を容易にする１つ又は複数のドライバ又はランタイム１０４によって実装されるか又はさもなければ提供される１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８は、機能性を追加し、ソフトウェア・バグを修繕し、新しい要件を満たすために、又は任意の他のソフトウェア開発目的のために、より最近のバージョンに更新される。少なくとも１つの実施例では、１つ又は複数のユーザ開発されたソフトウェア・プログラム１０２は、図２Ａ及び図２Ｂと併せて以下で説明されるように、１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８を、直接、又はシステム・ローダへの１つ又は複数のシステム・コールを実施することによって呼び出す。少なくとも１つの実施例では、１つ又は複数のユーザ開発されたソフトウェア・プログラム１０２は、メモリ・アドレスを取得するための１つ又は複数のＡＰＩ１１０コールの結果として受信された前記メモリ・アドレスにおいて、ＡＰＩ１１０又はＡＰＩ１１０機能１１２、１１４、１１６、１１８を呼び出すことによって、１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８を呼び出す。

少なくとも１つの実施例では、１つ又は複数の機能ポインタは、１つ又は複数のＡＰＩ１１０を実装するドライバ又はランタイム１０４によって実装されるか又はさもなければ提供される特定のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８、又は他のコンピューティング機能のアドレスを含むデータ値である。少なくとも１つの実施例では、１つ又は複数のソフトウェア・プログラム１０２は、インターフェース１０８及び／又はＡＰＩ１１０への１つ又は複数の機能コールの結果として、ドライバ又はランタイム１０４によって実装されるか又はさもなければ提供される１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８、又は他のコンピューティング機能に対応する１つ又は複数の機能ポインタを受信する。少なくとも１つの実施例では、１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８、又は他のコンピューティング機能に対応するメモリ・アドレスへの１つ又は複数のポインタを提供するために、ドライバ及び／又はランタイム１０４は、前記ドライバ及び／又はランタイム１０４によって提供される１つ又は複数のＡＰＩ１１０、ＡＰＩ１１０機能１１２、１１４、１１６、１１８、又は他のコンピューティング機能に対応する１つ又は複数のメモリ・アドレスを取り出すための少なくとも１つのコンピューティング機能を提供する。

図２Ａは、少なくとも１つの実施例による、図１と併せて上記で説明された、及び本明細書でさらに説明される、１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）又はＡＰＩ機能を公開するシステム・ローダ２０６を示すブロック図である。少なくとも１つの実施例では、システム・ローダ２０６は、実行された場合、１つ又は複数のソフトウェア・プログラムの実行を容易にするための１つ又は複数のコンピューティング動作を実施するソフトウェア命令のセットである。少なくとも１つの実施例では、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザ実装されたソフトウェア・プログラム２０２は、データ値であり、実行されたとき、前記ユーザ実装されたソフトウェア・プログラム１０２を実装するソース・コードに従って、何らかの機能を実施するソフトウェア命令である。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２０２は、実行された場合、ＡＰＩ又はＡＰＩ機能コール２０４を呼び出すか又はさもなければそれが実施されることを引き起こす命令を備える。少なくとも１つの実施例では、ＡＰＩ又はＡＰＩ機能コール２０４は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、実行されたとき、１つ又は複数のＡＰＩによって実装されるか又はさもなければ提供される１つ又は複数のコンピューティング機能を呼び出す１つ又は複数のソフトウェア命令である。

少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２０２は、システム・ローダ１０６と対話することによって、ＡＰＩ機能コール２０４又はＡＰＩを実施する。少なくとも１つの実施例では、システム・ローダ２０６は、データ値であり、実行されたとき、並列コンピューティングを容易にするための１つ又は複数のＡＰＩを実装するドライバによって提供される１つ又は複数の機能を呼び出すことなど、オペレーティング・システム機能を実施するソフトウェア命令である。少なくとも１つの実施例では、システム・ローダ２０６は、ＡＰＩ機能コール又はＡＰＩのアドレスを得る２０８ために、ＡＰＩドライバ２１０と対話する。少なくとも１つの実施例では、ＡＰＩドライバ２１０は、データ値であり、実行されたとき、前記ＡＰＩドライバ１１０への１つ又は複数のコンピューティング機能コール及び／又はＡＰＩコールの結果として１つ又は複数のＡＰＩ又はＡＰＩ機能を実施するソフトウェア命令である。

少なくとも１つの実施例では、システム・ローダ２０６は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、１つ又は複数のＡＰＩ及び／又は１つ又は複数のＡＰＩによって提供される１つ又は複数の機能コールの実装形態に対応する１つ又は複数のメモリ・アドレスを受信するための、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ、ｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓ、又は任意の他の機能など、１つ又は複数のコンピューティング機能コールを実施した結果として、１つ又は複数のＡＰＩ又はＡＰＩ機能コールのアドレスを受信する２０８。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２０２が、ＡＰＩ又はＡＰＩ機能コールを実施するか、又はさもなければ、それを直接、システム・ローダ１０６への１つ又は複数のシステム機能コールを実施することによって呼び出した結果として、前記システム・ローダ２０６は、前記ユーザ実装されたソフトウェア・プログラム２０２によるＡＰＩ又はコールされたＡＰＩ機能２０４の１つ又は複数の実装形態に関連する１つ又は複数のメモリ・アドレスを決定し、前記１つ又は複数のメモリ・アドレスにおいて前記ＡＰＩ又はＡＰＩ機能を実施するための命令の実行を開始する。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２０２は、１つ又は複数のＡＰＩ又はＡＰＩ機能コール２０４を、前記１つ又は複数のＡＰＩ又はＡＰＩ機能のどの実装形態がシステム・ローダ１０６によってＡＰＩドライバ２１０において呼び出されるべきであるかにかかわらず、実施する。

図２Ｂは、少なくとも１つの実施例による、ＡＰＩ又はＡＰＩ機能を公開しないシステム・ローダ２１６を示すブロック図である。少なくとも１つの実施例では、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ＡＰＩドライバ１２０によって実装されるＡＰＩ又はＡＰＩ機能を呼び出すためにシステム・ローダ２１６を使用するのではなく、ユーザ実装されたソフトウェア・プログラム２１２は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ＡＰＩドライバ１２０によって提供される１つ又は複数のＡＰＩ又はＡＰＩ機能実装形態に関連する１つ又は複数のメモリ・アドレスを得るために、システム・ローダへの１つ又は複数のシステム機能コール２１４を実施する。少なくとも１つの実施例では、システム・ローダ２１６は、１つ又は複数のＡＰＩ機能コール２１４の１つ又は複数のメモリ・アドレスを、前記１つ又は複数のＡＰＩ又はＡＰＩ機能コールを実装するＡＰＩドライバ２２０に要求すること２１８によって、前記１つ又は複数のメモリ・アドレスを要求する１つ又は複数のシステム機能コールに応答する。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２１２は、システム・ローダ２１６への１つ又は複数のシステム機能コール２１４の結果として決定された１つ又は複数のメモリ・アドレス・ロケーションにおいて記憶された１つ又は複数のソフトウェア命令を呼び出すことによって、１つ又は複数のＡＰＩ機能コールを実施して、ＡＰＩドライバ１２０への１つ又は複数の機能コールの結果として前記１つ又は複数のメモリ・アドレス・ロケーションを決定する。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２１２は、ＡＰＩドライバ１２０への直接の１つ又は複数の機能コールの結果として決定された１つ又は複数のメモリ・アドレス・ロケーションにおいて記憶された１つ又は複数のソフトウェア命令を呼び出すことによって、１つ又は複数のＡＰＩ又はＡＰＩ機能コールを実施する。

少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２１２は、前記１つ又は複数のＡＰＩ又はＡＰＩ機能に対応する１つ又は複数のメモリ・アドレスを要求するとき、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ＡＰＩに、ＡＰＩドライバ２２０によって実装されるか又はさもなければ提供される、他のＡＰＩ又はＡＰＩ機能など、１つ又は複数のソフトウェア機能の１つ又は複数のバージョンを示す。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム２１２は、１つ又は複数のＡＰＩへの１つ又は複数のコール、及び／或いは並列コンピューティングを容易にするためのＡＰＩなどのＡＰＩを実装するか又はさもなければ提供するドライバ又はランタイムへの１つ又は複数のＡＰＩ機能コールの結果として、ＡＰＩドライバ１２０によって実装されるか又はさもなければ提供される１つ又は複数のＡＰＩ又はＡＰＩ機能の特定のバージョン及び／又は実装形態に対応する１つ又は複数のメモリ・アドレスを受信する。

少なくとも１つの実施例では、機能、並列コンピューティングを容易にするためのＡＰＩによって提供される機能など、１つ又は複数のＡＰＩ又はＡＰＩ機能、或いは本明細書でさらに説明される任意の他のＡＰＩ及び／又は機能は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザモード・ソフトウェア・ドライバ及び／又はランタイム・ソフトウェア・ライブラリによって実装されるか又はさもなければ提供される。少なくとも１つの実施例では、１つ又は複数のＡＰＩ又はＡＰＩ機能に関連するか又はそれに対応する１つ又は複数のメモリ・アドレスの決定を容易にするために、ユーザモード・ソフトウェア・ドライバ及び／又はランタイム・ソフトウェア・ライブラリは、前記１つ又は複数のメモリ・アドレスを取り出す及び／又は示すための１つ又は複数の追加の機能及び／又はＡＰＩを提供する。たとえば、一実施例では、ＣＵＤＡなどの並列コンピューティングを容易にするためのＡＰＩを実装するドライバが、以下のように、１つ又は複数の他のＡＰＩ及び／又はＡＰＩ機能及び／又は機能の１つ又は複数の実装形態に対応する１つ又は複数のメモリ・アドレスを得るための機能及び／又はＡＰＩを提供する。

少なくとも１つの実施例では、１つ又は複数のＡＰＩは、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザモード・ドライバによって実装されるか又はさもなければ提供される１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数の実装形態の１つ又は複数のメモリ・アドレスを得るための、一般的なｇｅｔＰｒｏｃＡｄｄｒｅｓｓ或いは任意の他の名前及び／又は定義を伴う機能など、ｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓと同様の１つ又は複数のソフトウェア機能を提供する。少なくとも１つの実施例では、ユーザ実装されたソフトウェア・プログラム又はシステム・ローダは、上記で説明されたように、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア機能及び／又はＡＰＩへの１つ又は複数のパラメータを提供する。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア機能又はＡＰＩへの１つ又は複数のパラメータは、シンボルを含む。少なくとも１つの実施例では、シンボルは、ドライバＡＰＩ機能を識別するために使用可能な名前、ポインタ、又は他の値を含む、データ値である。少なくとも１つの実施例では、シンボル・パラメータによって提供される名前又は他の識別子は、ドライバＡＰＩ機能のベース名である。たとえば、ＣＵＤＡなどの並列コンピューティングを容易にするためのＡＰＩにおいて、シンボル値は、１つ又は複数の実装形態バージョンを有する「ｃｕＭｅｍＡｌｌｏｃ」と称するドライバによって実装されるＡＰＩ又はＡＰＩ機能に対応する「ｃｕＭｅｍＡｌｌｏｃ」であり得る。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア機能への１つ又は複数のパラメータは、機能ポインタ「ｆｕｎｃＰｔｒ」を含む。少なくとも１つの実施例では、機能ポインタは、メモリ中のＡＰＩ又はＡＰＩ機能のドライバ実装形態のメモリ・アドレスを含むか又はそのドライバ実装形態をポイントする、データ値である。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア機能は、呼び出されたとき、「ｃｕｄａＶｅｒｓｉｏｎ」によって示された特定のドライバ・バージョンに対応するバージョンを有する「ｓｙｍｂｏｌ」において要求されたＡＰＩ又はＡＰＩ機能のドライバ固有実装形態に対応するメモリ・アドレスを伴う機能ポインタ値を得る。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア及び／又はＡＰＩ機能への１つ又は複数のパラメータは、ドライバ・バージョンを含む。少なくとも１つの実施例では、ドライバ・バージョンは、さらにＡＰＩを実装するか又はさもなければ提供するドライバの特定の実装形態又はバージョンを識別するための数値を示すデータ値である。少なくとも１つの実施例では、本明細書で説明されるようなＣＵＤＡの特定のバージョンに対応する「ｃｕｄａＶｅｒｓｉｏｎ」などのドライバ・バージョンは、「ｓｙｍｂｏｌ」によって示されたＡＰＩ機能の実装形態を含む及び／又は提供するドライバ・バージョンを示す。少なくとも１つの実施例では、特定のドライバ・バージョンの指示は、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓが、「ｓｙｍｂｏｌ」によって示されたＡＰＩ又はＡＰＩ機能の１つ又は複数の特定の実装形態又はバージョンの１つ又は複数のアドレスを決定することと、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓへのパラメータとしても受け渡されるメモリ・アドレスを機能ポインタ中で設定することとを引き起こす。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓへのパラメータとして提供されるドライバ・バージョンは、「ｓｙｍｂｏｌ」の特定の実装形態が、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓを提供するライブラリによって検索されることを引き起こす。一実施例では、ドライバ・バージョンが、現在稼動しているドライバ・バージョンよりも小さいか又はそれに等しい場合、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓは「ｓｙｍｂｏｌ」によって示された対応する機能又はＡＰＩを見つけることになる。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ソフトウェア機能又はＡＰＩへの１つ又は複数のパラメータは、１つ又は複数のフラグを含む。少なくとも１つの実施例では、フラグは、ドライバ又は他のソフトウェアを提供されるＡＰＩ又はＡＰＩ機能の特定の実装形態を検索するとき、ソフトウェア機能又はＡＰＩによって使用可能な１つ又は複数のオプションを示すデータ値である。少なくとも１つの実施例では、特定のフラグを含まないパラメータは、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、機能又はＡＰＩが、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ又はＡＰＩ機能のデフォルト及び／又は直近の実装形態を検索することを引き起こす。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、１つ又は複数のソフトウェア機能又はＡＰＩは、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ又はＡＰＩ機能の１つ又は複数のアドレスの決定又は位置特定に対応するステータスを示す値を返す。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、１つ又は複数のソフトウェア機能は、「ｓｙｍｂｏｌ」パラメータに一致するＡＰＩが見つけられ、それぞれのメモリ・アドレスが「ｆｕｎｃＰｔｒ」などの機能ポインタ中で返されたか又はさもなければ設定されたことを示すために、成功を示すためのＣＵＤＡ＿ＳＵＣＣＥＳＳ又は任意の他のデータ値など、成功値を返す。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、１つ又は複数のソフトウェア機能は、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓに提供された１つ又は複数のパラメータがヌルであるか又はさもなければ無効であることを示すために、ＣＵＤＡ＿ＥＲＲＯＲ＿ＩＮＶＡＬＩＤ＿ＶＡＬＵＥなどの１つ又は複数の無効なパラメータを示す値を返す。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、１つ又は複数のソフトウェア機能は、「ｓｙｍｂｏｌ」パラメータによって示された特定のＡＰＩ機能が見つけられなかったこと、或いは前記「ｓｙｍｂｏｌ」パラメータによって示された特定のＡＰＩ又はＡＰＩ機能に対応するメモリ・アドレスが位置を特定され得なかったこと又は計算され得なかったことを示す、値を返す。少なくとも１つの実施例では、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ又はＡＰＩ機能が位置を特定され得なかった場合、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、機能は、失敗を示すためのＣＵＤＡ＿ＥＲＲＯＲ＿ＮＯＴ＿ＦＯＵＮＤ又は任意の他の値など、前記ＡＰＩ機能が位置を特定され得なかったことを示す値を返す。

少なくとも１つの実施例では、ＡＰＩ又はＡＰＩ機能を実装するランタイム・ライブラリが、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、以下のように、１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数の実装形態又はバージョンに対応する１つ又は複数のメモリ・アドレスを得るための機能を提供する。

少なくとも１つの実施例では、１つ又は複数のＡＰＩは、ランタイム・ライブラリによって実装されるか又はさもなければ提供される１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数の実装形態又はバージョンに対応する１つ又は複数のメモリ・アドレスを得るために、一般的なｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔと同様の１つ又は複数のソフトウェア機能を提供し得る。

少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ、ＡＰＩ機能、又は他のソフトウェア機能への１つ又は複数のパラメータは、シンボルを含む。少なくとも１つの実施例では、シンボルは、に対応する１つ又は複数のメモリ・アドレスを検索又は決定するためのドライバ実装された（ｄｒｉｖｅｒ－ｉｍｐｌｅｍｅｎｔｅｄ）ＡＰＩ機能の名前を含む、ポインタなどのデータ値である。少なくとも１つの実施例では、シンボル・パラメータによって提供される名前は、ドライバ実装されたＡＰＩ機能のベース名である。たとえば、ＣＵＤＡなどの並列コンピューティングを容易にするためのＡＰＩにおいて、シンボル値は、１つ又は複数のドライバ・バージョン固有実装形態を有する「ｃｕＭｅｍＡｌｌｏｃ」と称するドライバによって実装されるＡＰＩ機能に対応する「ｃｕＭｅｍＡｌｌｏｃ」であり得る。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ、ＡＰＩ機能、又はソフトウェア機能は、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ又はＡＰＩ機能の直近のドライバ実装形態に対応するメモリ・アドレス又は機能ポインタを決定する。

少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ、ＡＰＩ機能、又はソフトウェア機能への１つ又は複数のパラメータは、機能ポインタ「ｆｕｎｃＰｔｒ」を含む。少なくとも１つの実施例では、機能ポインタは、図１と併せて上記で説明された、及び本明細書でさらに説明されるものなど、ＡＰＩ又はＡＰＩ機能の現在又は直近のドライバ実装形態をポイントするメモリ・アドレスを含むデータ値である。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ、ＡＰＩ機能、又はソフトウェア機能は、現在又は直近のドライバ・バージョンに対応するバージョンを有する「ｓｙｍｂｏｌ」において要求されたＡＰＩ又はＡＰＩ機能の現在又は直近のドライバ固有実装形態に対応するメモリ・アドレスを伴う機能ポインタ値を設定する。

少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ、ＡＰＩ機能、又はソフトウェア機能への１つ又は複数のパラメータは、１つ又は複数のフラグを含む。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔへのパラメータとして受け渡されるフラグは、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ＡＰＩを実装するドライバ中のＡＰＩ又はＡＰＩ機能の特定の実装形態を検索するときに考慮すべき１つ又は複数のオプションを示すデータ値である。少なくとも１つの実施例では、特定のフラグを含まないパラメータは、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ又はＡＰＩ機能が、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ機能のデフォルト及び／又は直近のドライバ実装形態を検索することを引き起こす。

少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、１つ又は複数のＡＰＩ、ＡＰＩ機能、又はソフトウェア機能は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔに受け渡される「ｓｙｍｂｏｌ」パラメータによって示された、ドライバ中のＡＰＩ又はＡＰＩ機能実装形態に対応する１つ又は複数のアドレスの決定又は位置特定に対応するステータスを示す値を返す。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、１つ又は複数のＡＰＩ、ＡＰＩ機能、又はソフトウェア機能は、「ｓｙｍｂｏｌ」パラメータに一致するＡＰＩ又はＡＰＩ機能実装形態が見つけられ、それぞれのメモリ・アドレスが「ｆｕｎｃＰｔｒ」などの機能ポインタ中で返されたか又はさもなければ設定されたことを示すために、ｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔに対応するｃｕｄａＳｕｃｃｅｓｓなど、成功値を返す。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、１つ又は複数のＡＰＩ、ＡＰＩ機能、又はソフトウェア機能は、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔに提供された１つ又は複数のパラメータがヌルであるか又はさもなければ無効であることを示すために、ｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔに対応するｃｕｄａＥｒｒｏｒＩｎｖａｌｉｄＶａｌｕｅなどの１つ又は複数の無効なパラメータを示す値を返す。少なくとも１つの実施例では、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、１つ又は複数のソフトウェア機能は、「ｓｙｍｂｏｌ」パラメータによって示された特定のＡＰＩ又はＡＰＩ機能が見つけられなかったこと、或いは前記「ｓｙｍｂｏｌ」パラメータによって示されたドライバ実装された特定のＡＰＩ又はＡＰＩ機能に対応するメモリ・アドレスが位置を特定され得なかったこと又は計算され得なかったことを示す、値を返す。少なくとも１つの実施例では、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、「ｓｙｍｂｏｌ」パラメータによって示されたＡＰＩ又はＡＰＩ機能が位置を特定され得なかったか、又は無効であるか、又はさもなければＡＰＩの現在のドライバ実装形態において利用可能でない場合、ｇｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔ又はｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ又はＡＰＩ機能は、ｃｕＧｅｔＤｒｉｖｅｒＥｎｔｒｙＰｏｉｎｔに対応するｃｕｄａＥｒｒｏｒＮｏｔＦｏｕｎｄなど、前記ＡＰＩ又はＡＰＩ機能が位置を特定され得なかったことを示す値を返す。

少なくとも１つの実施例では、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数のバージョンの特定のドライバ実装形態に対応するメモリ・アドレスを決定するために、ドライバは、ドライバＡＰＩ又はＡＰＩ機能エントリからなるテーブルを維持し、ここで、各エントリは、ドライバ機能のデフォルト実装形態と、ドライバ機能のバージョン化された実装形態と、ドライバ機能の特殊な変形態とを含むドライバ機能のセットからなる。各ドライバ機能は、一実施例では、特定のＡＰＩ又はＡＰＩ機能がいつもたらされたかを示すドライバ・バージョンを含むバージョン情報、特定のＡＰＩ又はＡＰＩ機能が削除されたときのドライバ・バージョンを示す削除情報、及びＡＰＩ又はＡＰＩ機能の特定の実装形態に対応する１つ又は複数のメモリ・アドレスへのポインタなど、対応するメタデータを有する。

少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ドライバＡＰＩ又はＡＰＩ機能への１つ又は複数のコールが行われたとき、ドライバは、上記で説明されたように、ｐｒｏｃテーブルにおいて、要求されたシンボルを検索し、一致が見つけられた場合、そのアドレスを返す。少なくとも１つの実施例では、ドライバは、上記で説明されたように、各シンボルに対応する各ＡＰＩ又はＡＰＩ機能に関連するシンボル名、メモリ・アドレス、及び／又は他のメタデータに少なくとも部分的に基づいて、ハッシュ・テーブルを実装し、すべてのハッシュを事前算出する。

上記で説明されたように、少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、ドライバＡＰＩ又はＡＰＩ機能は、パラメータ又は引数としてフラグを受け付け、前記フラグは、ドライバ実装されたＡＰＩ又はＡＰＩ機能の特殊な変形態を示し得る。少なくとも１つの実施例では、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓへのパラメータ又は引数として提供されるべき１つ又は複数のフラグを示す例示的な列挙型は、以下の通りである。

少なくとも１つの実施例では、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＤＥＦＡＵＬＴ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＤＥＦＡＵＬＴのフラグ値は、特定のＡＰＩ又はＡＰＩ機能のデフォルト・ドライバ実装形態が、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓによって検索されるべきであることを示す。少なくとも１つの実施例では、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＤＥＦＡＵＬＴ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＤＥＦＡＵＬＴは、ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵＤＡ＿ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭが設定されていないとき、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＬＥＧＡＣＹ＿ＳＴＲＥＡＭ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＬＥＧＡＣＹ＿ＳＴＲＥＡＭを受け渡すことと等価であり、ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵＤＡ＿ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭが設定されているとき、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭを受け渡すことと等価である。少なくとも１つの実施例では、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＬＥＧＡＣＹ＿ＳＴＲＥＡＭ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＬＥＧＡＣＹ＿ＳＴＲＥＡＭは、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓが、引数に受け渡されるか又はさもなければ引数として提供される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも１つの実施例では、ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵ＿ＧＥＴ＿ＰＲＯＣ＿ＡＤＤＲＥＳＳ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭは、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓが、要求されたシンボルに一致するすべてのｐｔｄｓバージョンを含むｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓに受け渡されるか又はさもなければそれに引数として提供される前記シンボルに一致するすべてのシンボルを検索することを引き起こす。

少なくとも１つの実施例では、ドライバは、前記ドライバの所与の実装形態についての特定の挙動に準拠するために、フラグ・パラメータ又は引数を修正するための１つ又は複数のインライン機能を実装し得るか又はさもなければ提供し得る。少なくとも１つの実施例では、ドライバは、ＣＵＤＡなどの並列コンピューティングを容易にするためのＡＰＩ、又は本明細書でさらに説明される任意の他のＡＰＩの様々なＡＰＩ又はＡＰＩ機能に対応する利用可能な各ドライバ・バージョン又は実装形態バージョンについて、１つ又は複数のユーザ実装されたソフトウェア・プログラムにとって利用可能な様々なヘッダ・ファイル中で、公的に公開されたタイプ定義又はｔｙｐｅｄｅｆｓのリストを実装し得るか又はさもなければ提供し得る。

上記で説明されたように、少なくとも１つの実施例では、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ランタイムＡＰＩ又はＡＰＩ機能は、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、パラメータ又は引数としてフラグを受け付け、前記フラグは、ドライバ実装されたＡＰＩ又はＡＰＩ機能の特殊な変形態を示し得る。少なくとも１つの実施例では、１つ又は複数のフラグは、以下のように定義され得る。

少なくとも１つの実施例では、ｅｎａｂｌｅＤｅｆａｕｌｔ又はｃｕｄａＥｎａｂｌｅＤｅｆａｕｌｔのフラグ値は、特定のＡＰＩ又はＡＰＩ機能のデフォルト・ドライバ実装形態が、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ランタイムＡＰＩ又はＡＰＩ機能によって検索されるべきであることを示す。少なくとも１つの実施例では、ｅｎａｂｌｅＤｅｆａｕｌｔ又はｃｕｄａＥｎａｂｌｅＤｅｆａｕｌｔは、ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵＤＡ＿ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭが設定されていないとき、ｅｎａｂｌｅＬｅｇａｃｙＳｔｒｅａｍ又はｃｕｄａＥｎａｂｌｅＬｅｇａｃｙＳｔｒｅａｍを受け渡すことと等価であり、ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭ又はＣＵＤＡ＿ＡＰＩ＿ＰＥＲ＿ＴＨＲＥＡＤ＿ＤＥＦＡＵＬＴ＿ＳＴＲＥＡＭが設定されているとき、ｅｎａｂｌｅＰｅｒＴｈｒｅａｄＤｅｆａｕｌｔＳｔｒｅａｍ又はｃｕｄａＥｎａｂｌｅＰｅｒＴｈｒｅａｄＤｅｆａｕｌｔＳｔｒｅａｍを受け渡すことと等価である。少なくとも１つの実施例では、ｅｎａｂｌｅＬｅｇａｃｙＳｔｒｅａｍ又はｃｕｄａＥｎａｂｌｅＬｅｇａｃｙＳｔｒｅａｍは、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ランタイム機能が、対応するｐｔｄｓバージョンを除いてｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔにパラメータ又は引数として受け渡される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも１つの実施例では、ｅｎａｂｌｅＰｅｒＴｈｒｅａｄＤｅｆａｕｌｔＳｔｒｅａｍ又はｃｕｄａＥｎａｂｌｅＰｅｒＴｈｒｅａｄＤｅｆａｕｌｔＳｔｒｅａｍは、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔが、１つ又は複数のｐｔｄｓバージョンを含むパラメータ又は他の引数として受け渡される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも１つの実施例では、機能のｐｔｄｓバージョンが、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔへのシンボル・パラメータ又は引数によって示された場合、現在のドライバによって実装された前記機能のデフォルト・バージョンが、機能ポインタ・パラメータ中で返されるか又は設定される。少なくとも１つの実施例では、ランタイム機能ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔはまた、スレッドごとのストリーム・オーバーロードをサポートするための特定のドライバ実装されたＡＰＩ又はＡＰＩ機能のｐｔｄｓバージョンを返す。

少なくとも１つの実施例では、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ又はＡＰＩ機能を実装するランタイムは、初期化中にそれが必要とするすべてのドライバ・シンボルを動的にロードする。少なくとも１つの実施例では、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ又はＡＰＩ機能を実装するランタイムは、１つ又は複数のドライバ・シンボルに対応する１つ又は複数のメモリ・アドレスを決定するために、ｇｅｔＰｒｏｃＡｄｄｒｅｓｓ又はｃｕＧｅｔＰｒｏｃＡｄｄｒｅｓｓなど、１つ又は複数のドライバ機能を利用する。少なくとも１つの実施例では、ｄｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔ又はｃｕｄａＤｒｉｖｅｒＧｅｔＥｎｔｒｙＰｏｉｎｔなど、ＡＰＩ又はＡＰＩ機能を実装するランタイムは、並列コンピューティングを容易にするためのＡＰＩ機能、又は本明細書でさらに説明される任意のＡＰＩの一部としての任意の他のＡＰＩ機能など、１つ又は複数のＡＰＩ機能を実装するドライバと併せて上記で説明されたように、１つ又は複数のハッシュ・テーブルを利用する。

少なくとも１つの実施例では、並列コンピューティングを容易にするためのＡＰＩ、又は本明細書でさらに説明される任意の他のＡＰＩによって提供される機能など、１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数の実装形態に関連する１つ又は複数のアドレスを決定するための１つ又は複数の機能を実装するドライバ又はランタイムは、互換性があるドライバ・バージョンについて、ドライバ固有実装形態において別個の引数を指定するのではなく、「＿ｖ１」、「＿ｖ２」など）のバージョニング情報をシンボル名自体中に埋め込み得る。少なくとも１つの実施例では、ドライバがバージョニング情報を埋め込む場合、前記ドライバは、ドライバ機能のマップと上記で説明されたような他のメタデータとを維持する必要がない。対照的に、一実施例では、ドライバは、各シンボルを動的にロードし、そのアドレスを得ることができる。

少なくとも１つの実施例では、上記で説明されたように、ランタイム又はドライバにパラメータ又は引数として受け渡されるシンボルの代わりに、序数値（ｏｒｄｉｎａｌｖａｌｕｅ）が、引数又はパラメータとして提供され得る。少なくとも１つの実施例では、序数値は、メモリ・アドレスを決定するための、１つ又は複数のドライバ又はランタイム機能によって検索されるべきＡＰＩ又はＡＰＩ機能についての特定のバージョン又は任意の他の情報を示すデータ値である。少なくとも１つの実施例では、序数値が指定された場合、上記で説明されたようにハッシュ・テーブルを利用する代わりに、線形テーブルにおける直接ルックアップが、ランタイム又はドライバによって実施され得る。

少なくとも１つの実施例では、１つ又は複数のＡＰＩ又はＡＰＩ機能を実装するランタイム又はドライバは、図１と併せて上記で説明されたように、及び本明細書でさらに説明されるように、引数又はパラメータとして、１つ又は複数のデバイス識別子を受け付け得る。少なくとも１つの実施例では、デバイス識別子は、１つ又は複数のデバイスを示すデータ値、及び１つ又は複数のデバイスに対応する識別値又はハンドルである。少なくとも１つの実施例では、デバイス識別子は、並列コンピューティングを容易にするＡＰＩ、又は本明細書でさらに説明される任意の他のＡＰＩに対応する１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数のバージョンを実装し得る特定のデバイスに対応する特定のドライバを検索することを可能にする。

図３は、少なくとも１つの実施例による、アプリケーション・プログラミング・インターフェース（ＡＰＩ）又はＡＰＩ機能実装形態、或いは実行された場合、１つ又は複数のＡＰＩ又はＡＰＩ機能の１つ又は複数のバージョンを実施する命令を記憶する、１つ又は複数のメモリ・ロケーションについて１つ又は複数のライブラリを照会するためのプロセス３００を示す。少なくとも１つの実施例では、プロセス３００は、図１、図２Ａ、及び図２Ｂと併せて上記で説明されたように、ドライバ又はランタイムが、図２Ａ及び図２Ｂと併せて上記で説明されたように、３０４において、位置を特定されるべきＡＰＩ又はＡＰＩ機能の１つ又は複数のプロパティを示す１つ又は複数の識別子データ値を受信したとき、開始する。少なくとも１つの実施例では、識別子は、特定の機能名及び／又はバージョン識別子を含む。少なくとも１つの実施例では、識別子は、１つ又は複数のＡＰＩ又はＡＰＩ機能、或いは、実行された場合、図１と併せて上記で説明されたように、１つ又は複数のライブラリ中の、１つ又は複数のＡＰＩ又はＡＰＩ機能を実施する命令を示すための、情報を含む。

少なくとも１つの実施例では、ドライバ又はランタイムが、上記で説明されたように、３０４において、識別子を受信すると、前記ドライバ又はランタイムは、３０６において、実行された場合、ＡＰＩ又はＡＰＩ機能を実施する命令を備えるライブラリ中の前記ＡＰＩ又はＡＰＩ機能の位置を特定する。少なくとも１つの実施例では、ドライバ又はランタイムは、図２Ａ及び図２Ｂと併せて上記で説明されたデータ値など、ＡＰＩ又はＡＰＩ機能を識別するために前記ドライバ又はランタイムに示された１つ又は複数のデータ値に少なくとも部分的に基づいて、ライブラリ中の前記ＡＰＩ又はＡＰＩ機能の位置を特定する。

少なくとも１つの実施例では、ドライバ又はランタイムが、３０８において、実行された場合、ＡＰＩ又はＡＰＩ機能を実施するソフトウェア命令など、ＡＰＩ又はＡＰＩ機能の実装形態の位置を特定した場合、前記ドライバ又はランタイムは、３１０において、前記ＡＰＩ又はＡＰＩ機能の前記実装形態へのポインタを返す。少なくとも１つの実施例では、ポインタは、実行された場合、ＡＰＩ又はＡＰＩ機能を実施するソフトウェア命令のセットの第１のソフトウェア命令のアドレスを含むデータ値である。

少なくとも１つの実施例では、ドライバ又はランタイムが、３０８において、実行された場合、ＡＰＩ又はＡＰＩ機能を実施するソフトウェア命令など、ＡＰＩ又はＡＰＩ機能の実装形態の位置を特定しない場合、前記ドライバ又はランタイムは、３１２において、ヌル又はニル値を返す。少なくとも１つの実施例では、ヌル又はニル値は、ドライバ又はランタイムがＡＰＩ又はＡＰＩ機能の実装形態の位置を特定することに失敗したことを示す任意のデータ値である。少なくとも１つの実施例では、ドライバ又はランタイムが、３１０においてポインタを返すこと、或いは３１２においてヌル又はニル値を返すことのいずれかを行うと、ＡＰＩ又はＡＰＩ機能実装形態を記憶する１つ又は複数のメモリ・ロケーションについて１つ又は複数のライブラリを照会するためのプロセス３００が、３１４において終了する。

以下の説明では、少なくとも１つの実施例のより完全な理解を提供するために、多数の具体的な詳細が記載される。ただし、発明概念はこれらの具体的な詳細のうちの１つ又は複数なしに実施され得ることが当業者には明らかであろう。

データ・センタ
図４は、少なくとも１つの実施例による、例示的なデータ・センタ４００を示す。少なくとも１つの実施例では、データ・センタ４００は、限定はしないが、データ・センタ・インフラストラクチャ層４１０と、フレームワーク層４２０と、ソフトウェア層４３０と、アプリケーション層４４０とを含む。少なくとも１つの実施例では、ソフトウェア層４３０及び／又はアプリケーション層４４０は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を実施するための命令を備える。

少なくとも１つの実施例では、図４に示されているように、データ・センタ・インフラストラクチャ層４１０は、リソース・オーケストレータ４１２と、グループ化されたコンピューティング・リソース４１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ．」：ｎｏｄｅｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅ）４１６（１）～４１６（Ｎ）とを含み得、ここで、「Ｎ」は、任意のすべての正の整数を表す。少なくとも１つの実施例では、ノードＣ．Ｒ．４１６（１）～４１６（Ｎ）は、限定はしないが、任意の数の中央処理ユニット（「ＣＰＵ」）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（「ＦＰＧＡ」：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ネットワーク・デバイス中のデータ処理ユニット（「ＤＰＵ」：ｄａｔａｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・デバイス（たとえば、動的読取り専用メモリ）、ストレージ・デバイス（たとえば、ソリッド・ステート又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）、電力モジュール、及び冷却モジュールなどを含み得る。少なくとも１つの実施例では、ノードＣ．Ｒ．４１６（１）～４１６（Ｎ）の中からの１つ又は複数のノードＣ．Ｒ．は、上述のコンピューティング・リソースのうちの１つ又は複数を有するサーバであり得る。

少なくとも１つの実施例では、グループ化されたコンピューティング・リソース４１４は、１つ又は複数のラック（図示せず）内に格納されたノードＣ．Ｒ．の別個のグループ化、又は様々な地理的ロケーション（同じく図示せず）においてデータ・センタ中に格納された多くのラックを含み得る。グループ化されたコンピューティング・リソース４１４内のノードＣ．Ｒ．の別個のグループ化は、１つ又は複数のワークロードをサポートするように構成されるか又は割り振られ得る、グループ化されたコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含み得る。少なくとも１つの実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のワークロードをサポートするためのコンピュート・リソースを提供するために１つ又は複数のラック内でグループ化され得る。少なくとも１つの実施例では、１つ又は複数のラックはまた、任意の数の電力モジュール、冷却モジュール、及びネットワーク・スイッチを、任意の組合せで含み得る。

少なくとも１つの実施例では、リソース・オーケストレータ４１２は、１つ又は複数のノードＣ．Ｒ．４１６（１）～４１６（Ｎ）及び／又はグループ化されたコンピューティング・リソース４１４を構成するか、又はさもなければ、制御し得る。少なくとも１つの実施例では、リソース・オーケストレータ４１２は、データ・センタ４００のためのソフトウェア設計インフラストラクチャ（「ＳＤＩ」：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含み得る。少なくとも１つの実施例では、リソース・オーケストレータ４１２は、ハードウェア、ソフトウェア又はそれらの何らかの組合せを含み得る。

少なくとも１つの実施例では、図４に示されているように、フレームワーク層４２０は、限定はしないが、ジョブ・スケジューラ４３２と、構成マネージャ４３４と、リソース・マネージャ４３６と、分散型ファイル・システム４３８とを含む。少なくとも１つの実施例では、フレームワーク層４２０は、ソフトウェア層４３０のソフトウェア４５２、及び／又はアプリケーション層４４０の１つ又は複数のアプリケーション４４２をサポートするためのフレームワークを含み得る。少なくとも１つの実施例では、ソフトウェア４５２又は（１つ又は複数の）アプリケーション４４２は、それぞれ、アマゾン・ウェブ・サービス、ＧｏｏｇｌｅＣｌｏｕｄ、及びＭｉｃｒｏｓｏｆｔＡｚｕｒｅによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含み得る。少なくとも１つの実施例では、フレームワーク層４２０は、限定はしないが、大規模データ処理（たとえば、「ビック・データ」）のために分散型ファイル・システム４３８を利用し得るＡｐａｃｈｅＳｐａｒｋ（商標）（以下「Ｓｐａｒｋ」）など、無料でオープンソースのソフトウェア・ウェブ・アプリケーション・フレームワークのタイプであり得る。少なくとも１つの実施例では、ジョブ・スケジューラ４３２は、データ・センタ４００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含み得る。少なくとも１つの実施例では、構成マネージャ４３４は、ソフトウェア層４３０、並びに大規模データ処理をサポートするためのＳｐａｒｋ及び分散型ファイル・システム４３８を含むフレームワーク層４２０など、異なる層を構成することが可能であり得る。少なくとも１つの実施例では、リソース・マネージャ４３６は、分散型ファイル・システム４３８及びジョブ・スケジューラ４３２をサポートするようにマッピングされたか又は割り振られた、クラスタ化された又はグループ化されたコンピューティング・リソースを管理することが可能であり得る。少なくとも１つの実施例では、クラスタ化された又はグループ化されたコンピューティング・リソースは、データ・センタ・インフラストラクチャ層４１０において、グループ化されたコンピューティング・リソース４１４を含み得る。少なくとも１つの実施例では、リソース・マネージャ４３６は、リソース・オーケストレータ４１２と協調して、これらのマッピングされた又は割り振られたコンピューティング・リソースを管理し得る。

少なくとも１つの実施例では、ソフトウェア層４３０中に含まれるソフトウェア４５２は、ノードＣ．Ｒ．４１６（１）～４１６（Ｎ）、グループ化されたコンピューティング・リソース４１４、及び／又はフレームワーク層４２０の分散型ファイル・システム４３８の少なくとも部分によって使用されるソフトウェアを含み得る。１つ又は複数のタイプのソフトウェアは、限定はしないが、インターネット・ウェブ・ページ検索ソフトウェアと、電子メール・ウイルス・スキャン・ソフトウェアと、データベース・ソフトウェアと、ストリーミング・ビデオ・コンテンツ・ソフトウェアとを含み得る。

少なくとも１つの実施例では、アプリケーション層４４０中に含まれる（１つ又は複数の）アプリケーション４４２は、ノードＣ．Ｒ．４１６（１）～４１６（Ｎ）、グループ化されたコンピューティング・リソース４１４、及び／又はフレームワーク層４２０の分散型ファイル・システム４３８の少なくとも部分によって使用される１つ又は複数のタイプのアプリケーションを含み得る。少なくとも１つ又は複数のタイプのアプリケーションでは、限定はしないが、ＣＵＤＡアプリケーションを含み得る。

少なくとも１つの実施例では、構成マネージャ４３４、リソース・マネージャ４３６、及びリソース・オーケストレータ４１２のいずれかが、任意の技術的に実現可能な様式で獲得された任意の量及びタイプのデータに基づいて、任意の数及びタイプの自己修正アクションを実装し得る。少なくとも１つの実施例では、自己修正アクションは、データ・センタ４００のデータ・センタ・オペレータを、不良の恐れのある構成を判定し、十分に利用されていない及び／又は性能の低いデータ・センタの部分を場合によっては回避することから解放し得る。

コンピュータ・ベースのシステム
以下の図は、限定はしないが、少なくとも１つの実施例を実装するために使用され得る、例示的なコンピュータ・ベースのシステムを記載する。

図５は、少なくとも１つの実施例による、処理システム５００を示す。少なくとも１つの実施例では、処理システム５００は、１つ又は複数のプロセッサ５０２と１つ又は複数のグラフィックス・プロセッサ５０８とを含み、単一プロセッサ・デスクトップ・システム、マルチプロセッサ・ワークステーション・システム、或いは多数のプロセッサ５０２又はプロセッサ・コア５０７を有するサーバ・システムであり得る。少なくとも１つの実施例では、処理システム５００は、モバイル・デバイス、ハンドヘルド・デバイス、又は組み込みデバイスにおいて使用するためのシステム・オン・チップ（「ＳｏＣ」：ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）集積回路内に組み込まれた処理プラットフォームである。少なくとも１つの実施例では、処理システム５００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を実施するためのものである。

少なくとも１つの実施例では、処理システム５００は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム・コンソール、メディア・コンソール、モバイル・ゲーミング・コンソール、ハンドヘルド・ゲーム・コンソール、又はオンライン・ゲーム・コンソールを含むことができるか、或いはそれらの内部に組み込まれ得る。少なくとも１つの実施例では、処理システム５００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス又はモバイル・インターネット・デバイスである。少なくとも１つの実施例では、処理システム５００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、又は仮想現実デバイスなどのウェアラブル・デバイスを含むことができるか、それらと結合することができるか、又はそれらの内部に組み込まれ得る。少なくとも１つの実施例では、処理システム５００は、１つ又は複数のプロセッサ５０２と、１つ又は複数のグラフィックス・プロセッサ５０８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

少なくとも１つの実施例では、１つ又は複数のプロセッサ５０２は、各々、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実施する命令を処理するための１つ又は複数のプロセッサ・コア５０７を含む。少なくとも１つの実施例では、１つ又は複数のプロセッサ・コア５０７の各々は、特定の命令セット５０９を処理するように構成される。少なくとも１つの実施例では、命令セット５０９は、複合命令セット・コンピューティング（「ＣＩＳＣ」：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）、縮小命令セット・コンピューティング（「ＲＩＳＣ」：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）、又は超長命令語（「ＶＬＩＷ」：ＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ）を介したコンピューティングを容易にし得る。少なくとも１つの実施例では、プロセッサ・コア５０７は、各々、異なる命令セット５０９を処理し得、命令セット５０９は、他の命令セットのエミュレーションを容易にするための命令を含み得る。少なくとも１つの実施例では、プロセッサ・コア５０７はまた、デジタル信号プロセッサ（「ＤＳＰ」：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）などの他の処理デバイスを含み得る。

少なくとも１つの実施例では、プロセッサ５０２はキャッシュ・メモリ（「キャッシュ」）５０４を含む。少なくとも１つの実施例では、プロセッサ５０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。少なくとも１つの実施例では、キャッシュ・メモリは、プロセッサ５０２の様々な構成要素の間で共有される。少なくとも１つの実施例では、プロセッサ５０２はまた、外部キャッシュ（たとえば、レベル３（「Ｌ３」）キャッシュ又はラスト・レベル・キャッシュ（「ＬＬＣ」：ＬａｓｔＬｅｖｅｌＣａｃｈｅ））（図示せず）を使用し、外部キャッシュは、知られているキャッシュ・コヒーレンシ技法を使用してプロセッサ・コア５０７の間で共有され得る。少なくとも１つの実施例では、追加として、レジスタ・ファイル５０６がプロセッサ５０２中に含まれ、レジスタ・ファイル５０６は、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタ）を含み得る。少なくとも１つの実施例では、レジスタ・ファイル５０６は、汎用レジスタ又は他のレジスタを含み得る。

少なくとも１つの実施例では、１つ又は複数のプロセッサ５０２は、アドレス、データ、又は制御信号などの通信信号を、プロセッサ５０２と処理システム５００中の他の構成要素との間で送信するために、１つ又は複数のインターフェース・バス５１０と結合される。少なくとも１つの実施例では、１つの実施例におけるインターフェース・バス５１０は、ダイレクト・メディア・インターフェース（「ＤＭＩ」：ＤｉｒｅｃｔＭｅｄｉａＩｎｔｅｒｆａｃｅ）バスのバージョンなどのプロセッサ・バスであり得る。少なくとも１つの実施例では、インターフェース・バス５１０は、ＤＭＩバスに限定されず、１つ又は複数の周辺構成要素相互接続バス（たとえば、「ＰＣＩ」：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ＰＣＩＥｘｐｒｅｓｓ（「ＰＣＩｅ」））、メモリ・バス、又は他のタイプのインターフェース・バスを含み得る。少なくとも１つの実施例では、（１つ又は複数の）プロセッサ５０２は、統合されたメモリ・コントローラ５１６と、プラットフォーム・コントローラ・ハブ５３０とを含む。少なくとも１つの実施例では、メモリ・コントローラ５１６は、メモリ・デバイスと処理システム５００の他の構成要素との間の通信を容易にし、プラットフォーム・コントローラ・ハブ（「ＰＣＨ」：ｐｌａｔｆｏｒｍｃｏｎｔｒｏｌｌｅｒｈｕｂ）５３０は、ローカル入力／出力（「Ｉ／Ｏ」：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）バスを介してＩ／Ｏデバイスへの接続を提供する。

少なくとも１つの実施例では、メモリ・デバイス５２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセッサ・メモリとして働くのに好適な性能を有する何らかの他のメモリ・デバイスであり得る。少なくとも１つの実施例では、メモリ・デバイス５２０は、１つ又は複数のプロセッサ５０２がアプリケーション又はプロセスを実行するときの使用のためのデータ５２２及び命令５２１を記憶するために、処理システム５００のためのシステム・メモリとして動作することができる。少なくとも１つの実施例では、メモリ・コントローラ５１６はまた、随意の外部グラフィックス・プロセッサ５１２と結合し、外部グラフィックス・プロセッサ５１２は、グラフィックス動作及びメディア動作を実施するために、プロセッサ５０２中の１つ又は複数のグラフィックス・プロセッサ５０８と通信し得る。少なくとも１つの実施例では、ディスプレイ・デバイス５１１は、（１つ又は複数の）プロセッサ５０２に接続することができる。少なくとも１つの実施例では、ディスプレイ・デバイス５１１は、モバイル電子デバイス又はラップトップ・デバイスの場合のような内部ディスプレイ・デバイス、或いは、ディスプレイ・インターフェース（たとえば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも１つの実施例では、ディスプレイ・デバイス５１１は、仮想現実（「ＶＲ」：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）アプリケーション又は拡張現実（「ＡＲ」：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）アプリケーションにおいて使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（「ＨＭＤ」：ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）を含むことができる。

少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ５３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリ・デバイス５２０及びプロセッサ５０２に接続することを可能にする。少なくとも１つの実施例では、Ｉ／Ｏ周辺機器は、限定はしないが、オーディオ・コントローラ５４６と、ネットワーク・コントローラ５３４と、ファームウェア・インターフェース５２８と、ワイヤレス・トランシーバ５２６と、タッチ・センサ５２５と、データ・ストレージ・デバイス５２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）とを含む。少なくとも１つの実施例では、データ・ストレージ・デバイス５２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、或いはＰＣＩ又はＰＣＩｅなどの周辺バスを介して、接続することができる。少なくとも１つの実施例では、タッチ・センサ５２５は、タッチ・スクリーン・センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも１つの実施例では、ワイヤレス・トランシーバ５２６は、Ｗｉ－Ｆｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、或いは３Ｇ、４Ｇ、又はロング・ターム・エボリューション（「ＬＴＥ」：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）トランシーバなどのモバイル・ネットワーク・トランシーバであり得る。少なくとも１つの実施例では、ファームウェア・インターフェース５２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（「ＵＥＦＩ」：ｕｎｉｆｉｅｄｅｘｔｅｎｓｉｂｌｅｆｉｒｍｗａｒｅｉｎｔｅｒｆａｃｅ）であり得る。少なくとも１つの実施例では、ネットワーク・コントローラ５３４は、ワイヤード・ネットワークへのネットワーク接続を可能にすることができる。少なくとも１つの実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス５１０と結合する。少なくとも１つの実施例では、オーディオ・コントローラ５４６は、マルチチャネル高精細度オーディオ・コントローラである。少なくとも１つの実施例では、処理システム５００は、レガシー（たとえば、パーソナル・システム２（「ＰＳ／２」：ＰｅｒｓｏｎａｌＳｙｓｔｅｍ２））デバイスを処理システム５００に結合するための随意のレガシーＩ／Ｏコントローラ５４０を含む。少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ５３０は、キーボードとマウス５４３との組合せ、カメラ５４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（「ＵＳＢ」：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コントローラ５４２接続入力デバイスにも接続することができる。

少なくとも１つの実施例では、メモリ・コントローラ５１６及びプラットフォーム・コントローラ・ハブ５３０のインスタンスが、外部グラフィックス・プロセッサ５１２などの慎重な外部グラフィックス・プロセッサに組み込まれ得る。少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ５３０及び／又はメモリ・コントローラ５１６は、１つ又は複数のプロセッサ５０２の外部にあり得る。たとえば、少なくとも１つの実施例では、処理システム５００は、外部のメモリ・コントローラ５１６とプラットフォーム・コントローラ・ハブ５３０とを含むことができ、それらは、（１つ又は複数の）プロセッサ５０２と通信しているシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺コントローラ・ハブとして構成され得る。

図６は、少なくとも１つの実施例による、コンピュータ・システム６００を示す。少なくとも１つの実施例では、コンピュータ・システム６００は、相互接続されたデバイス及び構成要素をもつシステム、ＳＯＣ、又は何らかの組合せであり得る。少なくとも１つの実施例では、コンピュータ・システム６００は、命令を実行するための実行ユニットを含み得るプロセッサ６０２とともに形成される。少なくとも１つの実施例では、コンピュータ・システム６００は、限定はしないが、データを処理するためのアルゴリズムを実施するための論理を含む実行ユニットを採用するための、プロセッサ６０２などの構成要素を含み得る。少なくとも１つの実施例では、コンピュータ・システム６００は、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、Ｘｅｏｎ（商標）、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅ（商標）及び／又はＳｔｒｏｎｇＡＲＭ（商標）、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含み得るが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含む）他のシステムも使用され得る。少なくとも１つの実施例では、コンピュータ・システム６００は、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＷＩＮＤＯＷＳオペレーティング・システムのあるバージョンを実行し得るが、他のオペレーティング・システム（たとえば、ＵＮＩＸ及びＬｉｎｕｘ）、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースも使用され得る。少なくとも１つの実施例では、処理システム６００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、コンピュータ・システム６００は、ハンドヘルド・デバイス及び組み込みアプリケーションなど、他のデバイスにおいて使用され得る。ハンドヘルド・デバイスのいくつかの実例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、及びハンドヘルドＰＣを含む。少なくとも１つの実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、ＳｏＣ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：ｎｅｔｗｏｒｋｃｏｍｐｕｔｅｒ）、セット・トップ・ボックス、ネットワーク・ハブ、ワイド・エリア・ネットワーク（「ＷＡＮ」：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）スイッチ、又は１つ又は複数の命令を実施し得る任意の他のシステムを含み得る。

少なくとも１つの実施例では、コンピュータ・システム６００は、限定はしないが、プロセッサ６０２を含み得、プロセッサ６０２は、限定はしないが、コンピュート・ユニファイド・デバイス・アーキテクチャ（「ＣＵＤＡ」）（ＣＵＤＡ（登録商標）は、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される）プログラムを実行するように構成され得る、１つ又は複数の実行ユニット６０８を含み得る。少なくとも１つの実施例では、ＣＵＤＡプログラムは、ＣＵＤＡプログラミング言語で書かれたソフトウェア・アプリケーションの少なくとも一部分である。少なくとも１つの実施例では、コンピュータ・システム６００は、シングル・プロセッサ・デスクトップ又はサーバ・システムである。少なくとも１つの実施例では、コンピュータ・システム６００は、マルチプロセッサ・システムであり得る。少なくとも１つの実施例では、プロセッサ６０２は、限定はしないが、ＣＩＳＣマイクロプロセッサ、ＲＩＳＣマイクロプロセッサ、ＶＬＩＷマイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は、たとえばデジタル信号プロセッサなど、任意の他のプロセッサ・デバイスを含み得る。少なくとも１つの実施例では、プロセッサ６０２は、プロセッサ・バス６１０に結合され得、プロセッサ・バス６１０は、プロセッサ６０２とコンピュータ・システム６００中の他の構成要素との間でデータ信号を送信し得る。

少なくとも１つの実施例では、プロセッサ６０２は、限定はしないが、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）６０４を含み得る。少なくとも１つの実施例では、プロセッサ６０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有し得る。少なくとも１つの実施例では、キャッシュ・メモリは、プロセッサ６０２の外部に存在し得る。少なくとも１つの実施例では、プロセッサ６０２は、内部キャッシュと外部キャッシュの両方の組合せをも含み得る。少なくとも１つの実施例では、レジスタ・ファイル６０６は、限定はしないが、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタを含む様々なレジスタに、異なるタイプのデータを記憶し得る。

少なくとも１つの実施例では、限定はしないが、整数演算及び浮動小数点演算を実施するための論理を含む実行ユニット６０８も、プロセッサ６０２中に存在し得る。プロセッサ６０２は、いくつかのマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）をも含み得る。少なくとも１つの実施例では、実行ユニット６０８は、パック命令セット６０９に対処するための論理を含み得る。少なくとも１つの実施例では、パック命令セット６０９を、命令を実行するための関連する回路要素とともに汎用プロセッサ６０２の命令セットに含めることによって、多くのマルチメディア・アプリケーションによって使用される演算が、汎用プロセッサ６０２中のパック・データを使用して実施され得る。少なくとも１つの実施例では、多くのマルチメディア・アプリケーションが、パック・データの演算を実施するためにプロセッサのデータ・バスの全幅を使用することによって加速され、より効率的に実行され得、これは、一度に１つのデータ要素ずつ１つ又は複数の演算を実施するために、プロセッサのデータ・バスにわたってより小さい単位のデータを転送する必要をなくし得る。

少なくとも１つの実施例では、実行ユニット６０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用され得る。少なくとも１つの実施例では、コンピュータ・システム６００は、限定はしないが、メモリ６２０を含み得る。少なくとも１つの実施例では、メモリ６２０は、ＤＲＡＭデバイス、ＳＲＡＭデバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装され得る。メモリ６２０は、プロセッサ６０２によって実行され得るデータ信号によって表される（１つ又は複数の）命令６１９及び／又はデータ６２１を記憶し得る。

少なくとも１つの実施例では、システム論理チップが、プロセッサ・バス６１０及びメモリ６２０に結合され得る。少なくとも１つの実施例では、システム論理チップは、限定はしないが、メモリ・コントローラ・ハブ（「ＭＣＨ」：ｍｅｍｏｒｙｃｏｎｔｒｏｌｌｅｒｈｕｂ）６１６を含み得、プロセッサ６０２は、プロセッサ・バス６１０を介してＭＣＨ６１６と通信し得る。少なくとも１つの実施例では、ＭＣＨ６１６は、命令及びデータ・ストレージのための、並びにグラフィックス・コマンド、データ及びテクスチャのストレージのための、高帯域幅メモリ経路６１８をメモリ６２０に提供し得る。少なくとも１つの実施例では、ＭＣＨ６１６は、プロセッサ６０２と、メモリ６２０と、コンピュータ・システム６００中の他の構成要素との間でデータ信号をダイレクトし、プロセッサ・バス６１０と、メモリ６２０と、システムＩ／Ｏ６２２との間でデータ信号をブリッジし得る。少なくとも１つの実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供し得る。少なくとも１つの実施例では、ＭＣＨ６１６は、高帯域幅メモリ経路６１８を通してメモリ６２０に結合され得、グラフィックス／ビデオ・カード６１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）相互接続６１４を介してＭＣＨ６１６に結合され得る。

少なくとも１つの実施例では、コンピュータ・システム６００は、ＭＣＨ６１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）６３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスである、システムＩ／Ｏ６２２を使用し得る。少なくとも１つの実施例では、ＩＣＨ６３０は、ローカルＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供し得る。少なくとも１つの実施例では、ローカルＩ／Ｏバスは、限定はしないが、周辺機器をメモリ６２０、チップセット、及びプロセッサ６０２に接続するための高速Ｉ／Ｏバスを含み得る。実例は、限定はしないが、オーディオ・コントローラ６２９と、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）６２８と、ワイヤレス・トランシーバ６２６と、データ・ストレージ６２４と、ユーザ入力インターフェース６２５及びキーボード・インターフェースを含んでいるレガシーＩ／Ｏコントローラ６２３と、ＵＳＢなどのシリアル拡張ポート６２７と、ネットワーク・コントローラ６３４とを含み得る。データ・ストレージ６２４は、ハード・ディスク・ドライブ、フロッピー・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備え得る。

少なくとも１つの実施例では、図６は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも１つの実施例では、図６は、例示的なＳｏＣを示し得る。少なくとも１つの実施例では、図６に示されているデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はそれらの何らかの組合せで相互接続され得る。少なくとも１つの実施例では、システム６００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（「ＣＸＬ」：ｃｏｍｐｕｔｅｅｘｐｒｅｓｓｌｉｎｋ）相互接続を使用して相互接続される。

図７は、少なくとも１つの実施例による、システム７００を示す。少なくとも１つの実施例では、システム７００は、プロセッサ７１０を利用する電子デバイスである。少なくとも１つの実施例では、システム７００は、たとえば、限定はしないが、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、１つ又は複数の構内サービス・プロバイダ又はクラウド・サービス・プロバイダに通信可能に結合されたエッジ・デバイス、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、或いは任意の他の好適な電子デバイスであり得る。少なくとも１つの実施例では、システム７００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、システム７００は、限定はしないが、任意の好適な数又は種類の構成要素、周辺機器、モジュール、又はデバイスに通信可能に結合されたプロセッサ７１０を含み得る。少なくとも１つの実施例では、プロセッサ７１０は、Ｉ^２Ｃバス、システム管理バス（「ＳＭＢｕｓ」：ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、ロー・ピン・カウント（「ＬＰＣ」：ＬｏｗＰｉｎＣｏｕｎｔ）バス、シリアル周辺インターフェース（「ＳＰＩ」：ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）、高精細度オーディオ（「ＨＤＡ」：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＡｕｄｉｏ）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：ＳｅｒｉａｌＡｄｖａｎｃｅＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）バス、ＵＳＢ（バージョン１、２、３）、又はユニバーサル非同期受信機／送信機（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなど、バス又はインターフェースを使用して結合される。少なくとも１つの実施例では、図７は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも１つの実施例では、図７は、例示的なＳｏＣを示し得る。少なくとも１つの実施例では、図７に示されているデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）又はそれらの何らかの組合せで相互接続され得る。少なくとも１つの実施例では、図７の１つ又は複数の構成要素は、ＣＸＬ相互接続を使用して相互接続される。

少なくとも１つの実施例では、図７は、ディスプレイ７２４、タッチ・スクリーン７２５、タッチ・パッド７３０、ニア・フィールド通信ユニット（「ＮＦＣ」：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）７４５、センサ・ハブ７４０、熱センサ７４６、エクスプレス・チップセット（「ＥＣ」：ＥｘｐｒｅｓｓＣｈｉｐｓｅｔ）７３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：ＴｒｕｓｔｅｄＰｌａｔｆｏｒｍＭｏｄｕｌｅ）７３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）７２２、ＤＳＰ７６０、ソリッド・ステート・ディスク（「ＳＳＤ」：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）又はハード・ディスク・ドライブ（「ＨＤＤ」：ＨａｒｄＤｉｓｋＤｒｉｖｅ）７２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）７５０、Ｂｌｕｅｔｏｏｔｈユニット７５２、ワイヤレス・ワイド・エリア・ネットワーク・ユニット（「ＷＷＡＮ」：ＷｉｒｅｌｅｓｓＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）７５６、全地球測位システム（「ＧＰＳ」：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）７５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）７５４、或いは、たとえばＬＰＤＤＲ３規格において実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：ＬｏｗＰｏｗｅｒＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリ・ユニット（「ＬＰＤＤＲ３」）７１５を含み得る。これらの構成要素は、各々、任意の好適な様式で実装され得る。

少なくとも１つの実施例では、上記で説明された構成要素を通して、他の構成要素がプロセッサ７１０に通信可能に結合され得る。少なくとも１つの実施例では、加速度計７４１と、周囲光センサ（「ＡＬＳ」：ＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒ）７４２と、コンパス７４３と、ジャイロスコープ７４４とが、センサ・ハブ７４０に通信可能に結合され得る。少なくとも１つの実施例では、熱センサ７３９と、ファン７３７と、キーボード７３６と、タッチ・パッド７３０とが、ＥＣ７３５に通信可能に結合され得る。少なくとも１つの実施例では、スピーカー７６３と、ヘッドフォン７６４と、マイクロフォン（「ｍｉｃ」）７６５とが、オーディオ・ユニット（「オーディオ・コーデック及びクラスｄアンプ」）７６２に通信可能に結合され得、オーディオ・ユニット７６２は、ＤＳＰ７６０に通信可能に結合され得る。少なくとも１つの実施例では、オーディオ・ユニット７６２は、たとえば、限定はしないが、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤ増幅器を含み得る。少なくとも１つの実施例では、ＳＩＭカード（「ＳＩＭ」）７５７は、ＷＷＡＮユニット７５６に通信可能に結合され得る。少なくとも１つの実施例では、ＷＬＡＮユニット７５０及びＢｌｕｅｔｏｏｔｈユニット７５２などの構成要素、並びにＷＷＡＮユニット７５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＦｏｒｍＦａｃｔｏｒ）において実装され得る。

図８は、少なくとも１つの実施例による、例示的な集積回路８００を示す。少なくとも１つの実施例では、例示的な集積回路８００は、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣである。少なくとも１つの実施例では、集積回路８００は、１つ又は複数のアプリケーション・プロセッサ８０５（たとえば、ＣＰＵ、ＤＰＵ）、少なくとも１つのグラフィックス・プロセッサ８１０を含み、追加として、画像プロセッサ８１５及び／又はビデオ・プロセッサ８２０を含み得、それらのいずれも、モジュール式ＩＰコアであり得る。少なくとも１つの実施例では、集積回路８００は、ＵＳＢコントローラ８２５、ＵＡＲＴコントローラ８３０、ＳＰＩ／ＳＤＩＯコントローラ８３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ８４０を含む周辺機器又はバス論理を含む。少なくとも１つの実施例では、集積回路８００は、高精細度マルチメディア・インターフェース（「ＨＤＭＩ」：ｈｉｇｈ－ｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ）コントローラ８５０及びモバイル・インダストリ・プロセッサ・インターフェース（「ＭＩＰＩ」：ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ）ディスプレイ・インターフェース８５５のうちの１つ又は複数に結合されたディスプレイ・デバイス８４５を含むことができる。少なくとも１つの実施例では、フラッシュ・メモリとフラッシュ・メモリ・コントローラとを含むフラッシュ・メモリ・サブシステム８６０によって、ストレージが提供され得る。少なくとも１つの実施例では、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスへのアクセスのために、メモリ・コントローラ８６５を介してメモリ・インターフェースが提供され得る。少なくとも１つの実施例では、いくつかの集積回路は、追加として、組み込みセキュリティ・エンジン８７０を含む。少なくとも１つの実施例では、例示的な集積回路８００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

図９は、少なくとも１つの実施例による、コンピューティング・システム９００を示す。少なくとも１つの実施例では、コンピューティング・システム９００は、メモリ・ハブ９０５を含み得る相互接続経路を介して通信する１つ又は複数のプロセッサ９０２とシステム・メモリ９０４とを有する処理サブシステム９０１を含む。少なくとも１つの実施例では、メモリ・ハブ９０５は、チップセット構成要素内の別個の構成要素であり得るか、又は１つ又は複数のプロセッサ９０２内に組み込まれ得る。少なくとも１つの実施例では、メモリ・ハブ９０５は、通信リンク９０６を介してＩ／Ｏサブシステム９１１と結合する。少なくとも１つの実施例では、Ｉ／Ｏサブシステム９１１は、コンピューティング・システム９００が１つ又は複数の入力デバイス９０８からの入力を受信することを可能にすることができるＩ／Ｏハブ９０７を含む。少なくとも１つの実施例では、Ｉ／Ｏハブ９０７は、１つ又は複数のプロセッサ９０２中に含まれ得るディスプレイ・コントローラが、１つ又は複数のディスプレイ・デバイス９１０Ａに出力を提供することを可能にすることができる。少なくとも１つの実施例では、Ｉ／Ｏハブ９０７と結合された１つ又は複数のディスプレイ・デバイス９１０Ａは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。少なくとも１つの実施例では、コンピューティング・システム９００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、処理サブシステム９０１は、バス又は他の通信リンク９１３を介してメモリ・ハブ９０５に結合された１つ又は複数の並列プロセッサ９１２を含む。少なくとも１つの実施例では、通信リンク９１３は、限定はしないがＰＣＩｅなど、任意の数の規格ベースの通信リンク技術又はプロトコルのうちの１つであり得るか、或いはベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２は、メニー・インテグレーテッド・コア・プロセッサなど、多数の処理コア及び／又は処理クラスタを含むことができる、算出に集中した並列又はベクトル処理システムを形成する。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２は、グラフィックス処理サブシステムを形成し、グラフィックス処理サブシステムは、Ｉ／Ｏハブ９０７を介して結合された１つ又は複数のディスプレイ・デバイス９１０Ａのうちの１つにピクセルを出力することができる。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２はまた、ディスプレイ・コントローラと、１つ又は複数のディスプレイ・デバイス９１０Ｂへの直接接続を可能にするためのディスプレイ・インターフェース（図示せず）とを含むことができる。

少なくとも１つの実施例では、システム・ストレージ・ユニット９１４は、Ｉ／Ｏハブ９０７に接続して、コンピューティング・システム９００のためのストレージ機構を提供することができる。少なくとも１つの実施例では、Ｉ／Ｏハブ９０７と、プラットフォームに組み込まれ得るネットワーク・アダプタ９１８及び／又はワイヤレス・ネットワーク・アダプタ９１９などの他の構成要素、並びに１つ又は複数のアドイン・デバイス９２０を介して追加され得る様々な他のデバイスとの間の接続を可能にするためのインターフェース機構を提供するために、Ｉ／Ｏスイッチ９１６が使用され得る。少なくとも１つの実施例では、ネットワーク・アダプタ９１８は、イーサネット・アダプタ又は別のワイヤード・ネットワーク・アダプタであり得る。少なくとも１つの実施例では、ワイヤレス・ネットワーク・アダプタ９１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、ＮＦＣ、又は１つ又は複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの１つ又は複数を含むことができる。

少なくとも１つの実施例では、コンピューティング・システム９００は、ＵＳＢ又は他のポート接続、光学ストレージ・ドライブ、ビデオ・キャプチャ・デバイスなどを含む、Ｉ／Ｏハブ９０７にも接続され得る、明示的に示されていない他の構成要素を含むことができる。少なくとも１つの実施例では、図９中の様々な構成要素を相互接続する通信経路が、ＰＣＩベースのプロトコル（たとえば、ＰＣＩｅ）などの任意の好適なプロトコル、或いはＮＶＬｉｎｋ高速相互接続などの他のバス又はポイントツーポイント通信インターフェース及び／又は（１つ又は複数の）プロトコル、或いは相互接続プロトコルを使用して、実装され得る。

少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２は、たとえばビデオ出力回路要素を含むグラフィックス及びビデオ処理のために最適化された回路要素を組み込み、グラフィックス処理ユニット（「ＧＰＵ」）を構成する。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２は、汎用処理のために最適化された回路要素を組み込む。少なくとも実施例では、コンピューティング・システム９００の構成要素は、単一の集積回路上の１つ又は複数の他のシステム要素と統合され得る。たとえば、少なくとも１つの実施例では、１つ又は複数の並列プロセッサ９１２、メモリ・ハブ９０５、（１つ又は複数の）プロセッサ９０２、及びＩ／Ｏハブ９０７は、ＳｏＣ集積回路に組み込まれ得る。少なくとも１つの実施例では、コンピューティング・システム９００の構成要素は、システム・イン・パッケージ（「ＳＩＰ」：ｓｙｓｔｅｍｉｎｐａｃｋａｇｅ）構成を形成するために、単一のパッケージに組み込まれ得る。少なくとも１つの実施例では、コンピューティング・システム９００の構成要素の少なくとも一部分は、マルチチップ・モジュール（「ＭＣＭ」：ｍｕｌｔｉ－ｃｈｉｐｍｏｄｕｌｅ）に組み込まれ得、マルチチップ・モジュールは、他のマルチチップ・モジュールと相互接続されてモジュール式コンピューティング・システムにすることができる。少なくとも１つの実施例では、Ｉ／Ｏサブシステム９１１及びディスプレイ・デバイス９１０Ｂは、コンピューティング・システム９００から省略される。

処理システム
以下の図は、限定はしないが、少なくとも１つの実施例を実装するために使用され得る、例示的な処理システムを記載する。

図１０は、少なくとも１つの実施例による、加速処理ユニット（「ＡＰＵ」：ａｃｃｅｌｅｒａｔｅｄｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１０００を示す。少なくとも１つの実施例では、ＡＰＵ１０００は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＡＰＵ１０００は、ＣＵＤＡプログラムなど、アプリケーション・プログラムを実行するように構成され得る。少なくとも１つの実施例では、ＡＰＵ１０００は、限定はしないが、コア複合体１０１０と、グラフィックス複合体１０４０と、ファブリック１０６０と、Ｉ／Ｏインターフェース１０７０と、メモリ・コントローラ１０８０と、ディスプレイ・コントローラ１０９２と、マルチメディア・エンジン１０９４とを含む。少なくとも１つの実施例では、ＡＰＵ１０００は、限定はしないが、任意の数のコア複合体１０１０と、任意の数のグラフィックス複合体１０５０と、任意の数のディスプレイ・コントローラ１０９２と、任意の数のマルチメディア・エンジン１０９４とを、任意の組合せで含み得る。説明目的のために、同様のオブジェクトの複数のインスタンスは、オブジェクトを識別する参照番号と、必要な場合にインスタンスを識別する括弧付きの番号とともに、本明細書で示される。少なくとも１つの実施例では、ＡＰＵ１０００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、コア複合体１０１０はＣＰＵであり、グラフィックス複合体１０４０はＧＰＵであり、ＡＰＵ１０００は、限定はしないが、単一のチップ上に１０１０及び１０４０を組み込む処理ユニットである。少なくとも１つの実施例では、いくつかのタスクは、コア複合体１０１０に割り当てられ得、他のタスクは、グラフィックス複合体１０４０に割り当てられ得る。少なくとも１つの実施例では、コア複合体１０１０は、オペレーティング・システムなど、ＡＰＵ１０００に関連するメイン制御ソフトウェアを実行するように構成される。少なくとも１つの実施例では、コア複合体１０１０は、ＡＰＵ１０００のマスタ・プロセッサであり、他のプロセッサの動作を制御し、協調させる。少なくとも１つの実施例では、コア複合体１０１０は、グラフィックス複合体１０４０の動作を制御するコマンドを発行する。少なくとも１つの実施例では、コア複合体１０１０は、ＣＵＤＡソース・コードから導出されたホスト実行可能コードを実行するように構成され得、グラフィックス複合体１０４０は、ＣＵＤＡソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。

少なくとも１つの実施例では、コア複合体１０１０は、限定はしないが、コア１０２０（１）～１０２０（４）と、Ｌ３キャッシュ１０３０とを含む。少なくとも１つの実施例では、コア複合体１０１０は、限定はしないが、任意の数のコア１０２０と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも１つの実施例では、コア１０２０は、特定の命令セット・アーキテクチャ（「ＩＳＡ」：ｉｎｓｔｒｕｃｔｉｏｎｓｅｔａｒｃｈｉｔｅｃｔｕｒｅ）の命令を実行するように構成される。少なくとも１つの実施例では、各コア１０２０はＣＰＵコアである。

少なくとも１つの実施例では、各コア１０２０は、限定はしないが、フェッチ／復号ユニット１０２２と、整数実行エンジン１０２４と、浮動小数点実行エンジン１０２６と、Ｌ２キャッシュ１０２８とを含む。少なくとも１つの実施例では、フェッチ／復号ユニット１０２２は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン１０２４と浮動小数点実行エンジン１０２６とに別個のマイクロ命令をディスパッチする。少なくとも１つの実施例では、フェッチ／復号ユニット１０２２は、同時に、あるマイクロ命令を整数実行エンジン１０２４にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン１０２６にディスパッチすることができる。少なくとも１つの実施例では、整数実行エンジン１０２４は、限定はしないが、整数及びメモリ演算を実行する。少なくとも１つの実施例では、浮動小数点エンジン１０２６は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも１つの実施例では、フェッチ復号ユニット１０２２は、整数実行エンジン１０２４と浮動小数点実行エンジン１０２６の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。

少なくとも１つの実施例では、ｉがコア１０２０の特定のインスタンスを表す整数である、各コア１０２０（ｉ）は、コア１０２０（ｉ）中に含まれるＬ２キャッシュ１０２８（ｉ）にアクセスし得る。少なくとも１つの実施例では、ｊがコア複合体１０１０の特定のインスタンスを表す整数である、コア複合体１０１０（ｊ）中に含まれる各コア１０２０は、コア複合体１０１０（ｊ）中に含まれるＬ３キャッシュ１０３０（ｊ）を介して、コア複合体１０１０（ｊ）中に含まれる他のコア１０２０に接続される。少なくとも１つの実施例では、ｊがコア複合体１０１０の特定のインスタンスを表す整数である、コア複合体１０１０（ｊ）中に含まれるコア１０２０は、コア複合体１０１０（ｊ）中に含まれるＬ３キャッシュ１０３０（ｊ）のすべてにアクセスすることができる。少なくとも１つの実施例では、Ｌ３キャッシュ１０３０は、限定はしないが、任意の数のスライスを含み得る。

少なくとも１つの実施例では、グラフィックス複合体１０４０は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも１つの実施例では、グラフィックス複合体１０４０は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも１つの実施例では、グラフィックス複合体１０４０は、グラフィックに関係しない動作を実行するように構成される。少なくとも１つの実施例では、グラフィックス複合体１０４０は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。

少なくとも１つの実施例では、グラフィックス複合体１０４０は、限定はしないが、任意の数のコンピュート・ユニット１０５０と、Ｌ２キャッシュ１０４２とを含む。少なくとも１つの実施例では、コンピュート・ユニット１０５０は、Ｌ２キャッシュ１０４２を共有する。少なくとも１つの実施例では、Ｌ２キャッシュ１０４２は区分けされる。少なくとも１つの実施例では、グラフィックス複合体１０４０は、限定はしないが、任意の数のコンピュート・ユニット１０５０と、（ゼロを含む）任意の数及びタイプのキャッシュとを含む。少なくとも１つの実施例では、グラフィックス複合体１０４０は、限定はしないが、任意の量の専用グラフィックス・ハードウェアを含む。

少なくとも１つの実施例では、各コンピュート・ユニット１０５０は、限定はしないが、任意の数のＳＩＭＤユニット１０５２と、共有メモリ１０５４とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット１０５２は、ＳＩＭＤアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも１つの実施例では、各コンピュート・ユニット１０５０は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット１０５０上で実行する。少なくとも１つの実施例では、スレッド・ブロックは、限定はしないが、任意の数の実行のスレッドを含む。少なくとも１つの実施例では、ワークグループは、スレッド・ブロックである。少なくとも１つの実施例では、各ＳＩＭＤユニット１０５２は、異なるワープを実行する。少なくとも１つの実施例では、ワープは、スレッドのグループ（たとえば、１６個のスレッド）であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも１つの実施例では、ワープ中の１つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも１つの実施例では、レーンはスレッドである。少なくとも１つの実施例では、ワーク・アイテムはスレッドである。少なくとも１つの実施例では、ウェーブフロントはワープである。少なくとも１つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ１０５４を介して通信し得る。

少なくとも１つの実施例では、ファブリック１０６０は、コア複合体１０１０、グラフィックス複合体１０４０、Ｉ／Ｏインターフェース１０７０、メモリ・コントローラ１０８０、ディスプレイ・コントローラ１０９２、及びマルチメディア・エンジン１０９４にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも１つの実施例では、ＡＰＵ１０００は、限定はしないが、ファブリック１０６０に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、ＡＰＵ１０００の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１０７０は、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩ、ＰＣＩ－Ｅｘｔｅｎｄｅｄ（「ＰＣＩ－Ｘ」）、ＰＣＩｅ、ギガビット・イーサネット（「ＧＢＥ」：ｇｉｇａｂｉｔＥｔｈｅｒｎｅｔ）、ＵＳＢなど）を表す。少なくとも１つの実施例では、様々なタイプの周辺デバイスがＩ／Ｏインターフェース１０７０に結合される。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１０７０に結合される周辺デバイスは、限定はしないが、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。

少なくとも１つの実施例では、ディスプレイ・コントローラＡＭＤ９２は、液晶ディスプレイ（「ＬＣＤ」：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）デバイスなど、１つ又は複数のディスプレイ・デバイス上に画像を表示する。少なくとも１つの実施例では、マルチメディア・エンジン１０９４は、限定はしないが、ビデオ・デコーダ、ビデオ・エンコーダ、画像信号プロセッサなど、マルチメディアに関係する任意の量及びタイプの回路要素を含む。少なくとも１つの実施例では、メモリ・コントローラ１０８０は、ＡＰＵ１０００と統一システム・メモリ１０９０との間のデータ転送を容易にする。少なくとも１つの実施例では、コア複合体１０１０とグラフィックス複合体１０４０とは、統一システム・メモリ１０９０を共有する。

少なくとも１つの実施例では、ＡＰＵ１０００は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ１０８０及びメモリ・デバイス（たとえば、共有メモリ１０５４）を含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＡＰＵ１０００は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ１１２８、Ｌ３キャッシュ１０３０、及びＬ２キャッシュ１０４２）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、コア１０２０、コア複合体１０１０、ＳＩＭＤユニット１０５２、コンピュート・ユニット１０５０、及びグラフィックス複合体１０４０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

図１１は、少なくとも１つの実施例による、ＣＰＵ１１００を示す。少なくとも１つの実施例では、ＣＰＵ１１００は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＣＰＵ１１００は、アプリケーション・プログラムを実行するように構成され得る。少なくとも１つの実施例では、ＣＰＵ１１００は、オペレーティング・システムなど、メイン制御ソフトウェアを実行するように構成される。少なくとも１つの実施例では、ＣＰＵ１１００は、外部ＧＰＵ（図示せず）の動作を制御するコマンドを発行する。少なくとも１つの実施例では、ＣＰＵ１１００は、ＣＵＤＡソース・コードから導出されたホスト実行可能コードを実行するように構成され得、外部ＧＰＵは、そのようなＣＵＤＡソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。少なくとも１つの実施例では、ＣＰＵ１１００は、限定はしないが、任意の数のコア複合体１１１０と、ファブリック１１６０と、Ｉ／Ｏインターフェース１１７０と、メモリ・コントローラ１１８０とを含む。少なくとも１つの実施例では、ＣＰＵ１１００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、コア複合体１１１０は、限定はしないが、コア１１２０（１）～１１２０（４）と、Ｌ３キャッシュ１１３０とを含む。少なくとも１つの実施例では、コア複合体１１１０は、限定はしないが、任意の数のコア１１２０と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも１つの実施例では、コア１１２０は、特定のＩＳＡの命令を実行するように構成される。少なくとも１つの実施例では、各コア１１２０はＣＰＵコアである。

少なくとも１つの実施例では、各コア１１２０は、限定はしないが、フェッチ／復号ユニット１１２２と、整数実行エンジン１１２４と、浮動小数点実行エンジン１１２６と、Ｌ２キャッシュ１１２８とを含む。少なくとも１つの実施例では、フェッチ／復号ユニット１１２２は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン１１２４と浮動小数点実行エンジン１１２６とに別個のマイクロ命令をディスパッチする。少なくとも１つの実施例では、フェッチ／復号ユニット１１２２は、同時に、あるマイクロ命令を整数実行エンジン１１２４にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン１１２６にディスパッチすることができる。少なくとも１つの実施例では、整数実行エンジン１１２４は、限定はしないが、整数及びメモリ演算を実行する。少なくとも１つの実施例では、浮動小数点エンジン１１２６は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも１つの実施例では、フェッチ復号ユニット１１２２は、整数実行エンジン１１２４と浮動小数点実行エンジン１１２６の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。

少なくとも１つの実施例では、ｉがコア１１２０の特定のインスタンスを表す整数である、各コア１１２０（ｉ）は、コア１１２０（ｉ）中に含まれるＬ２キャッシュ１１２８（ｉ）にアクセスし得る。少なくとも１つの実施例では、ｊがコア複合体１１１０の特定のインスタンスを表す整数である、コア複合体１１１０（ｊ）中に含まれる各コア１１２０は、コア複合体１１１０（ｊ）中に含まれるＬ３キャッシュ１１３０（ｊ）を介して、コア複合体１１１０（ｊ）中の他のコア１１２０に接続される。少なくとも１つの実施例では、ｊがコア複合体１１１０の特定のインスタンスを表す整数である、コア複合体１１１０（ｊ）中に含まれるコア１１２０は、コア複合体１１１０（ｊ）中に含まれるＬ３キャッシュ１１３０（ｊ）のすべてにアクセスすることができる。少なくとも１つの実施例では、Ｌ３キャッシュ１１３０は、限定はしないが、任意の数のスライスを含み得る。

少なくとも１つの実施例では、ファブリック１１６０は、コア複合体１１１０（１）～１１１０（Ｎ）（ここで、Ｎは０よりも大きい整数である）、Ｉ／Ｏインターフェース１１７０、及びメモリ・コントローラ１１８０にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも１つの実施例では、ＣＰＵ１１００は、限定はしないが、ファブリック１１６０に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、ＣＰＵ１１００の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１１７０は、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩｅ、ＧＢＥ、ＵＳＢなど）を表す。少なくとも１つの実施例では、様々なタイプの周辺デバイスが、Ｉ／Ｏインターフェース１１７０に結合される。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１１７０に結合される周辺デバイスは、限定はしないが、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。

少なくとも１つの実施例では、メモリ・コントローラ１１８０は、ＣＰＵ１１００とシステム・メモリ１１９０との間のデータ転送を容易にする。少なくとも１つの実施例では、コア複合体１１１０とグラフィックス複合体１１４０とは、システム・メモリ１１９０を共有する。少なくとも１つの実施例では、ＣＰＵ１１００は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ１１８０及びメモリ・デバイスを含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＣＰＵ１１００は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ１１２８及びＬ３キャッシュ１１３０）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、コア１１２０及びコア複合体１１１０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

図１２は、少なくとも１つの実施例による、例示的なアクセラレータ統合スライス１２９０を示す。本明細書で使用される「スライス」は、アクセラレータ統合回路の処理リソースの指定部分を備える。少なくとも１つの実施例では、アクセラレータ統合回路は、グラフィックス加速モジュール中に含まれる複数のグラフィックス処理エンジンの代わりに、キャッシュ管理、メモリ・アクセス、コンテキスト管理、及び割込み管理サービスを提供する。グラフィックス処理エンジンは、各々、別個のＧＰＵを備え得る。代替的に、グラフィックス処理エンジンは、ＧＰＵ内に、グラフィックス実行ユニット、メディア処理エンジン（たとえば、ビデオ・エンコーダ／デコーダ）、サンプラ、及びｂｌｉｔエンジンなど、異なるタイプのグラフィックス処理エンジンを備え得る。少なくとも１つの実施例では、グラフィックス加速モジュールは、複数のグラフィックス処理エンジンをもつＧＰＵであり得る。少なくとも１つの実施例では、グラフィックス処理エンジンは、共通のパッケージ、ライン・カード、又はチップ上に組み込まれた個々のＧＰＵであり得る。少なくとも１つの実施例では、アクセラレータ統合スライス１２９０は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

システム・メモリ１２１４内のアプリケーション実効アドレス空間１２８２は、プロセス要素１２８３を記憶する。一実施例では、プロセス要素１２８３は、プロセッサ１２０７上で実行されるアプリケーション１２８０からのＧＰＵ呼出し１２８１に応答して、記憶される。プロセス要素１２８３は、対応するアプリケーション１２８０のプロセス状態を含んでいる。プロセス要素１２８３に含まれているワーク記述子（「ＷＤ」：ｗｏｒｋｄｅｓｃｒｉｐｔｏｒ）１２８４は、アプリケーションによって要求される単一のジョブであり得るか、又はジョブのキューに対するポインタを含んでいることがある。少なくとも１つの実施例では、ＷＤ１２８４は、アプリケーション実効アドレス空間１２８２におけるジョブ要求キューに対するポインタである。

グラフィックス加速モジュール１２４６及び／又は個々のグラフィックス処理エンジンは、システム中のプロセスのすべて又はサブセットによって共有され得る。少なくとも１つの実施例では、プロセス状態を設定し、ＷＤ１２８４をグラフィックス加速モジュール１２４６に送出して、仮想化環境中でジョブを開始するためのインフラストラクチャが、含められ得る。

少なくとも１つの実施例では、専用プロセス・プログラミング・モデルは、実装固有である。このモデルでは、単一のプロセスが、グラフィックス加速モジュール１２４６又は個々のグラフィックス処理エンジンを所有する。グラフィックス加速モジュール１２４６が単一のプロセスによって所有されるので、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路を初期化し、グラフィックス加速モジュール１２４６が割り当てられたとき、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路を初期化する。

動作時、アクセラレータ統合スライス１２９０中のＷＤフェッチ・ユニット１２９１は、グラフィックス加速モジュール１２４６の１つ又は複数のグラフィックス処理エンジンによって行われるべきであるワークの指示を含む、次のＷＤ１２８４をフェッチする。示されているように、ＷＤ１２８４からのデータは、レジスタ１２４５に記憶され、メモリ管理ユニット（「ＭＭＵ」：ｍｅｍｏｒｙｍａｎａｇｅｍｅｎｔｕｎｉｔ）１２３９、割込み管理回路１２４７、及び／又はコンテキスト管理回路１２４８によって使用され得る。たとえば、ＭＭＵ１２３９の一実施例は、ＯＳ仮想アドレス空間１２８５内のセグメント／ページ・テーブル１２８６にアクセスするためのセグメント／ページ・ウォーク回路要素を含む。割込み管理回路１２４７は、グラフィックス加速モジュール１２４６から受信された割込みイベント（「ＩＮＴ」：ｉｎｔｅｒｒｕｐｔ）１２９２を処理し得る。グラフィックス動作を実施するとき、グラフィックス処理エンジンによって生成された実効アドレス１２９３は、ＭＭＵ１２３９によって実アドレスにトランスレートされる。

一実施例では、レジスタ１２４５の同じセットが、各グラフィックス処理エンジン、及び／又はグラフィックス加速モジュール１２４６について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化され得る。これらの複製されたレジスタの各々は、アクセラレータ統合スライス１２９０中に含められ得る。ハイパーバイザによって初期化され得る例示的なレジスタが、表１に示されている。

オペレーティング・システムによって初期化され得る例示的なレジスタが、表２に示されている。

一実施例では、各ＷＤ１２８４は、特定のグラフィックス加速モジュール１２４６及び／又は特定のグラフィックス処理エンジンに固有である。ＷＤ１２８４は、ワークを行うためにグラフィックス処理エンジンによって必要とされるすべての情報を含んでいるか、又は、ＷＤ１２８４は、完了されるべきワークのコマンド・キューをアプリケーションが設定したメモリ・ロケーションに対するポインタであり得る。

図１３Ａ～図１３Ｂは、少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す。少なくとも１つの実施例では、例示的なグラフィックス・プロセッサのうちのいずれかは、１つ又は複数のＩＰコアを使用して作製され得る。示されているものに加えて、少なくとも１つの実施例では、追加のグラフィックス・プロセッサ／コア、周辺インターフェース・コントローラ、又は汎用プロセッサ・コアを含む他の論理及び回路が含まれ得る。少なくとも１つの実施例では、例示的なグラフィックス・プロセッサは、ＳｏＣ内での使用のためのものである。

図１３Ａは、少なくとも１つの実施例による、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣ集積回路の例示的なグラフィックス・プロセッサ１３１０を示す。図１３Ｂは、少なくとも１つの実施例による、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣ集積回路の追加の例示的なグラフィックス・プロセッサ１３４０を示す。少なくとも１つの実施例では、図１３Ａのグラフィックス・プロセッサ１３１０は、低電力グラフィックス・プロセッサ・コアである。少なくとも１つの実施例では、図１３Ｂのグラフィックス・プロセッサ１３４０は、より高性能のグラフィックス・プロセッサ・コアである。少なくとも１つの実施例では、グラフィックス・プロセッサ１３１０、１３４０の各々は、図８のグラフィックス・プロセッサ８１０の変形態であり得る。少なくとも１つの実施例では、グラフィックス・プロセッサ１３１０は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、グラフィックス・プロセッサ１３１０は、頂点プロセッサ１３０５と、１つ又は複数のフラグメント・プロセッサ１３１５Ａ～１３１５Ｎ（たとえば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄ～１３１５Ｎ－１、及び１３１５Ｎ）とを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１３１０は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ１３０５は、頂点シェーダ・プログラムのための動作を実行するように最適化され、１つ又は複数のフラグメント・プロセッサ１３１５Ａ～１３１５Ｎは、フラグメント又はピクセル・シェーダ・プログラムのためのフラグメント（たとえば、ピクセル）シェーディング動作を実行する。少なくとも１つの実施例では、頂点プロセッサ１３０５は、３Ｄグラフィックス・パイプラインの頂点処理段階を実施し、プリミティブ及び頂点データを生成する。少なくとも１つの実施例では、（１つ又は複数の）フラグメント・プロセッサ１３１５Ａ～１３１５Ｎは、頂点プロセッサ１３０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイス上に表示されるフレームバッファを作り出す。少なくとも１つの実施例では、（１つ又は複数の）フラグメント・プロセッサ１３１５Ａ～１３１５Ｎは、ＯｐｅｎＧＬＡＰＩにおいて提供されるようなフラグメント・シェーダ・プログラムを実行するように最適化され、ＯｐｅｎＧＬＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩにおいて提供されるようなピクセル・シェーダ・プログラムと同様の動作を実施するために使用され得る。

少なくとも１つの実施例では、グラフィックス・プロセッサ１３１０は、追加として、１つ又は複数のＭＭＵ１３２０Ａ～１３２０Ｂと、（１つ又は複数の）キャッシュ１３２５Ａ～１３２５Ｂと、（１つ又は複数の）回路相互接続１３３０Ａ～１３３０Ｂとを含む。少なくとも１つの実施例では、１つ又は複数のＭＭＵ１３２０Ａ～１３２０Ｂは、頂点プロセッサ１３０５及び／又は（１つ又は複数の）フラグメント・プロセッサ１３１５Ａ～１３１５Ｎを含む、グラフィックス・プロセッサ１３１０のための仮想－物理アドレス・マッピングを提供し、それらは、１つ又は複数のキャッシュ１３２５Ａ～１３２５Ｂに記憶された頂点又は画像／テクスチャ・データに加えて、メモリに記憶された頂点又は画像／テクスチャ・データを参照し得る。少なくとも１つの実施例では、１つ又は複数のＭＭＵ１３２０Ａ～１３２０Ｂは、図８の１つ又は複数のアプリケーション・プロセッサ８０５、画像プロセッサ８１５、及び／又はビデオ・プロセッサ８２０に関連する１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期され得、それにより、各プロセッサ８０５～８２０は、共有又は統一仮想メモリ・システムに参加することができる。少なくとも１つの実施例では、１つ又は複数の回路相互接続１３３０Ａ～１３３０Ｂは、グラフィックス・プロセッサ１３１０が、ＳｏＣの内部バスを介して又は直接接続を介してのいずれかで、ＳｏＣ内の他のＩＰコアとインターフェースすることを可能にする。

少なくとも１つの実施例では、グラフィックス・プロセッサ１３４０は、図１３Ａのグラフィックス・プロセッサ１３１０の１つ又は複数のＭＭＵ１３２０Ａ～１３２０Ｂと、キャッシュ１３２５Ａ～１３２５Ｂと、回路相互接続１３３０Ａ～１３３０Ｂとを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１３４０は、１つ又は複数のシェーダ・コア１３５５Ａ～１３５５Ｎ（たとえば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆ～１３５５Ｎ－１、及び１３５５Ｎ）を含み、１つ又は複数のシェーダ・コア１３５５Ａ～１３５５Ｎは、単一のコア、又はタイプ、又はコアが、頂点シェーダ、フラグメント・シェーダ、及び／又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含むすべてのタイプのプログラマブル・シェーダ・コードを実行することができる統一シェーダ・コア・アーキテクチャを提供する。少なくとも１つの実施例では、シェーダ・コアの数は変動することができる。少なくとも１つの実施例では、グラフィックス・プロセッサ１３４０は、１つ又は複数のシェーダ・コア１３５５Ａ～１３５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ１３４５と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンについてのレンダリング動作が画像空間において下位区分される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット１３５８とを含む。

図１４Ａは、少なくとも１つの実施例による、グラフィックス・コア１４００を示す。少なくとも１つの実施例では、グラフィックス・コア１４００は、図８のグラフィックス・プロセッサ８１０内に含まれ得る。少なくとも１つの実施例では、グラフィックス・コア１４００は、図１３Ｂの場合のような統一シェーダ・コア１３５５Ａ～１３５５Ｎであり得る。少なくとも１つの実施例では、グラフィックス・コア１４００は、共有命令キャッシュ１４０２と、テクスチャ・ユニット１４１８と、キャッシュ／共有メモリ１４２０とを含み、それらは、グラフィックス・コア１４００内の実行リソースに共通である。少なくとも１つの実施例では、グラフィックス・コア１４００は、複数のスライス１４０１Ａ～１４０１Ｎ、又は各コアについてのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア１４００の複数のインスタンスを含むことができる。スライス１４０１Ａ～１４０１Ｎは、ローカル命令キャッシュ１４０４Ａ～１４０４Ｎと、スレッド・スケジューラ１４０６Ａ～１４０６Ｎと、スレッド・ディスパッチャ１４０８Ａ～１４０８Ｎと、レジスタのセット１４１０Ａ～１４１０Ｎとを含むサポート論理を含むことができる。少なくとも１つの実施例では、スライス１４０１Ａ～１４０１Ｎは、追加機能ユニット（「ＡＦＵ」：ａｄｄｉｔｉｏｎａｌｆｕｎｃｔｉｏｎｕｎｉｔ）１４１２Ａ～１４１２Ｎ、浮動小数点ユニット（「ＦＰＵ」：ｆｌｏａｔｉｎｇ－ｐｏｉｎｔｕｎｉｔ）１４１４Ａ～１４１４Ｎ、整数算術論理ユニット（「ＡＬＵ」：ｉｎｔｅｇｅｒａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）１４１６～１４１６Ｎ、アドレス算出ユニット（「ＡＣＵ」：ａｄｄｒｅｓｓｃｏｍｐｕｔａｔｉｏｎａｌｕｎｉｔ）１４１３Ａ～１４１３Ｎ、倍精度浮動小数点ユニット（「ＤＰＦＰＵ」：ｄｏｕｂｌｅ－ｐｒｅｃｉｓｉｏｎｆｌｏａｔｉｎｇ－ｐｏｉｎｔｕｎｉｔ）１４１５Ａ～１４１５Ｎ、及び行列処理ユニット（「ＭＰＵ」：ｍａｔｒｉｘｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１４１７Ａ～１４１７Ｎのセットを含むことができる。少なくとも１つの実施例では、グラフィックス・コア１４００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、ＦＰＵ１４１４Ａ～１４１４Ｎは、単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を実施することができ、ＤＰＦＰＵ１４１５Ａ～１４１５Ｎは、倍精度（６４ビット）の浮動小数点演算を実施する。少なくとも１つの実施例では、ＡＬＵ１４１６Ａ～１４１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度整数演算を実施することができ、混合精度演算のために構成され得る。少なくとも１つの実施例では、ＭＰＵ１４１７Ａ～１４１７Ｎも、半精度浮動小数点演算と８ビット整数演算とを含む、混合精度行列演算のために構成され得る。少なくとも１つの実施例では、ＭＰＵ１４１７～１４１７Ｎは、加速汎用行列－行列乗算（「ＧＥＭＭ」：ｇｅｎｅｒａｌｍａｔｒｉｘｔｏｍａｔｒｉｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ）のサポートを可能にすることを含む、ＣＵＤＡプログラムを加速するための様々な行列演算を実施することができる。少なくとも１つの実施例では、ＡＦＵ１４１２Ａ～１４１２Ｎは、三角関数演算（たとえば、サイン、コサインなど）を含む、浮動小数点ユニット又は整数ユニットによってサポートされていない追加の論理演算を実施することができる。

図１４Ｂは、少なくとも１つの実施例による、汎用グラフィックス処理ユニット（「ＧＰＧＰＵ」：ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１４３０を示す。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、高度並列であり、マルチチップ・モジュール上での導入に好適である。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、高度並列コンピュート動作がＧＰＵのアレイによって実施されることを可能にするように構成され得る。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、ＣＵＤＡプログラムのための実行時間を改善するためにマルチＧＰＵクラスタを作成するために、ＧＰＧＰＵ１４３０の他のインスタンスに直接リンクされ得る。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース１４３２を含む。少なくとも１つの実施例では、ホスト・インターフェース１４３２は、ＰＣＩｅインターフェースである。少なくとも１つの実施例では、ホスト・インターフェース１４３２は、ベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、ホスト・プロセッサからコマンドを受信し、グローバル・スケジューラ１４３４を使用して、それらのコマンドに関連する実行スレッドを、コンピュート・クラスタ１４３６Ａ～１４３６Ｈのセットに分散させる。少なくとも１つの実施例では、コンピュート・クラスタ１４３６Ａ～１４３６Ｈは、キャッシュ・メモリ１４３８を共有する。少なくとも１つの実施例では、キャッシュ・メモリ１４３８は、コンピュート・クラスタ１４３６Ａ～１４３６Ｈ内のキャッシュ・メモリのためのより高レベルのキャッシュとして働くことができる。

少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、メモリ・コントローラ１４４２Ａ～１４４２Ｂのセットを介してコンピュート・クラスタ１４３６Ａ～１４３６Ｈと結合されたメモリ１４４４Ａ～１４４４Ｂを含む。少なくとも１つの実施例では、メモリ１４４４Ａ～１４４４Ｂは、ＤＲＡＭ、又は、グラフィックス・ダブル・データ・レート（「ＧＤＤＲ」：ｇｒａｐｈｉｃｓｄｏｕｂｌｅｄａｔａｒａｔｅ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（「ＳＧＲＡＭ」：ｓｙｎｃｈｒｏｎｏｕｓｇｒａｐｈｉｃｓｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などのグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。

少なくとも１つの実施例では、コンピュート・クラスタ１４３６Ａ～１４３６Ｈは、各々、図１４Ａのグラフィックス・コア１４００などのグラフィックス・コアのセットを含み、グラフィックス・コアのセットは、ＣＵＤＡプログラムに関連する算出に適したものを含む、様々な精度で算出動作を実施することができる複数のタイプの整数及び浮動小数点論理ユニットを含むことができる。たとえば、少なくとも１つの実施例では、コンピュート・クラスタ１４３６Ａ～１４３６Ｈの各々における浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実施するように構成され得、浮動小数点ユニットの異なるサブセットは、６４ビットの浮動小数点演算を実施するように構成され得る。

少なくとも１つの実施例では、ＧＰＧＰＵ１４３０の複数のインスタンスは、コンピュート・クラスタとして動作するように構成され得る。コンピュート・クラスタ１４３６Ａ～１４３６Ｈは、同期及びデータ交換のための任意の技術的に実現可能な通信技法を実装し得る。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０の複数のインスタンスは、ホスト・インターフェース１４３２を介して通信する。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、Ｉ／Ｏハブ１４３９を含み、Ｉ／Ｏハブ１４３９は、ＧＰＧＰＵ１４３０を、ＧＰＧＰＵ１４３０の他のインスタンスへの直接接続を可能にするＧＰＵリンク１４４０と結合する。少なくとも１つの実施例では、ＧＰＵリンク１４４０は、ＧＰＧＰＵ１４３０の複数のインスタンス間での通信及び同期を可能にする専用ＧＰＵ－ＧＰＵブリッジに結合される。少なくとも１つの実施例では、ＧＰＵリンク１４４０は、他のＧＰＧＰＵ１４３０又は並列プロセッサにデータを送信及び受信するために高速相互接続と結合する。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０の複数のインスタンスは、別個のデータ処理システムに位置し、ホスト・インターフェース１４３２を介してアクセス可能であるネットワーク・デバイスを介して通信する。少なくとも１つの実施例では、ＧＰＵリンク１４４０は、ホスト・インターフェース１４３２に加えて、又はその代替として、ホスト・プロセッサへの接続を可能にするように構成され得る。少なくとも１つの実施例では、ＧＰＧＰＵ１４３０は、ＣＵＤＡプログラムを実行するように構成され得る。

図１５Ａは、少なくとも１つの実施例による、並列プロセッサ１５００を示す。少なくとも１つの実施例では、並列プロセッサ１５００の様々な構成要素は、プログラマブル・プロセッサ、特定用途向け集積回路（「ＡＳＩＣ」：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、又はＦＰＧＡなど、１つ又は複数の集積回路デバイスを使用して実装され得る。少なくとも１つの実施例では、並列プロセッサ１５００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、並列プロセッサ１５００は並列処理ユニット１５０２を含む。少なくとも１つの実施例では、並列処理ユニット１５０２は、並列処理ユニット１５０２の他のインスタンスを含む、他のデバイスとの通信を可能にするＩ／Ｏユニット１５０４を含む。少なくとも１つの実施例では、Ｉ／Ｏユニット１５０４は、他のデバイスに直接接続され得る。少なくとも１つの実施例では、Ｉ／Ｏユニット１５０４は、メモリ・ハブ１５０５など、ハブ又はスイッチ・インターフェースの使用を介して他のデバイスと接続する。少なくとも１つの実施例では、メモリ・ハブ１５０５とＩ／Ｏユニット１５０４との間の接続は、通信リンクを形成する。少なくとも１つの実施例では、Ｉ／Ｏユニット１５０４は、ホスト・インターフェース１５０６及びメモリ・クロスバー１５１６と接続し、ホスト・インターフェース１５０６は、処理動作を実施することを対象とするコマンドを受信し、メモリ・クロスバー１５１６は、メモリ動作を実施することを対象とするコマンドを受信する。

少なくとも１つの実施例では、ホスト・インターフェース１５０６が、Ｉ／Ｏユニット１５０４を介してコマンド・バッファを受信したとき、ホスト・インターフェース１５０６は、それらのコマンドを実施するためのワーク動作をフロント・エンド１５０８に向けることができる。少なくとも１つの実施例では、フロント・エンド１５０８はスケジューラ１５１０と結合し、スケジューラ１５１０は、コマンド又は他のワーク・アイテムを処理アレイ１５１２に分散させるように構成される。少なくとも１つの実施例では、スケジューラ１５１０は、処理アレイ１５１２にタスクが分散される前に、処理アレイ１５１２が適切に構成され、有効な状態にあることを確実にする。少なくとも１つの実施例では、スケジューラ１５１０は、マイクロコントローラ上で実行しているファームウェア論理を介して実装される。少なくとも１つの実施例では、マイクロコントローラ実装スケジューラ１５１０は、複雑なスケジューリング及びワーク分散動作を、粗い粒度及び細かい粒度において実施するように構成可能であり、処理アレイ１５１２上で実行しているスレッドの迅速なプリエンプション及びコンテキスト切替えを可能にする。少なくとも１つの実施例では、ホスト・ソフトウェアは、処理アレイ１５１２上でのスケジューリングのためのワークロードを、複数のグラフィックス処理ドアベルのうちの１つを介して証明することができる。少なくとも１つの実施例では、ワークロードは、次いで、スケジューラ１５１０を含むマイクロコントローラ内のスケジューラ１５１０論理によって、処理アレイ１５１２にわたって自動的に分散され得る。

少なくとも１つの実施例では、処理アレイ１５１２は、最高「Ｎ」個のクラスタ（たとえば、クラスタ１５１４Ａ、クラスタ１５１４Ｂ～クラスタ１５１４Ｎ）を含むことができる。少なくとも１つの実施例では、処理アレイ１５１２の各クラスタ１５１４Ａ～１５１４Ｎは、多数の同時スレッドを実行することができる。少なくとも１つの実施例では、スケジューラ１５１０は、様々なスケジューリング及び／又はワーク分散アルゴリズムを使用して処理アレイ１５１２のクラスタ１５１４Ａ～１５１４Ｎにワークを割り振ることができ、それらのアルゴリズムは、プログラム又は算出の各タイプについて生じるワークロードに応じて変動し得る。少なくとも１つの実施例では、スケジューリングは、スケジューラ１５１０によって動的に対処され得るか、又は処理アレイ１５１２による実行のために構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援され得る。少なくとも１つの実施例では、処理アレイ１５１２の異なるクラスタ１５１４Ａ～１５１４Ｎは、異なるタイプのプログラムを処理するために、又は異なるタイプの算出を実施するために割り振られ得る。

少なくとも１つの実施例では、処理アレイ１５１２は、様々なタイプの並列処理動作を実施するように構成され得る。少なくとも１つの実施例では、処理アレイ１５１２は、汎用並列コンピュート動作を実施するように構成される。たとえば、少なくとも１つの実施例では、処理アレイ１５１２は、ビデオ及び／又はオーディオ・データをフィルタリングすること、物理動作を含むモデリング動作を実施すること、及びデータ変換を実施することを含む処理タスクを実行するための論理を含むことができる。

少なくとも１つの実施例では、処理アレイ１５１２は、並列グラフィックス処理動作を実施するように構成される。少なくとも１つの実施例では、処理アレイ１５１２は、限定はしないが、テクスチャ動作を実施するためのテクスチャ・サンプリング論理、並びにテッセレーション論理及び他の頂点処理論理を含む、そのようなグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも１つの実施例では、処理アレイ１５１２は、限定はしないが、頂点シェーダ、テッセレーション・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなど、グラフィックス処理関係シェーダ・プログラムを実行するように構成され得る。少なくとも１つの実施例では、並列処理ユニット１５０２は、処理のためにＩ／Ｏユニット１５０４を介してシステム・メモリからデータを転送することができる。少なくとも１つの実施例では、処理中に、転送されたデータは、処理中にオンチップ・メモリ（たとえば、並列プロセッサ・メモリ１５２２）に記憶され、次いでシステム・メモリに書き戻され得る。

少なくとも１つの実施例では、並列処理ユニット１５０２がグラフィックス処理を実施するために使用されるとき、スケジューラ１５１０は、処理アレイ１５１２の複数のクラスタ１５１４Ａ～１５１４Ｎへのグラフィックス処理動作の分散をより良く可能にするために、処理ワークロードをほぼ等しいサイズのタスクに分割するように構成され得る。少なくとも１つの実施例では、処理アレイ１５１２の部分は、異なるタイプの処理を実施するように構成され得る。たとえば、少なくとも１つの実施例では、表示のために、レンダリングされた画像を作り出すために、第１の部分は、頂点シェーディング及びトポロジ生成を実施するように構成され得、第２の部分は、テッセレーション及びジオメトリ・シェーディングを実施するように構成され得、第３の部分は、ピクセル・シェーディング又は他のスクリーン空間動作を実施するように構成され得る。少なくとも１つの実施例では、クラスタ１５１４Ａ～１５１４Ｎのうちの１つ又は複数によって作り出された中間データは、中間データがさらなる処理のためにクラスタ１５１４Ａ～１５１４Ｎ間で送信されることを可能にするために、バッファに記憶され得る。

少なくとも１つの実施例では、処理アレイ１５１２は、実行されるべき処理タスクをスケジューラ１５１０を介して受信することができ、スケジューラ１５１０は、処理タスクを定義するコマンドをフロント・エンド１５０８から受信する。少なくとも１つの実施例では、処理タスクは、処理されるべきデータのインデックス、たとえば、表面（パッチ）データ、プリミティブ・データ、頂点データ、及び／又はピクセル・データ、並びに、データがどのように処理されるべきであるか（たとえば、どのプログラムが実行されるべきであるか）を定義する状態パラメータ及びコマンドを含むことができる。少なくとも１つの実施例では、スケジューラ１５１０は、タスクに対応するインデックスをフェッチするように構成され得るか、又はフロント・エンド１５０８からインデックスを受信し得る。少なくとも１つの実施例では、フロント・エンド１５０８は、入って来るコマンド・バッファ（たとえば、バッチ・バッファ、プッシュ・バッファなど）によって指定されるワークロードが始動される前に、処理アレイ１５１２が有効な状態に構成されることを確実にするように構成され得る。

少なくとも１つの実施例では、並列処理ユニット１５０２の１つ又は複数のインスタンスの各々は、並列プロセッサ・メモリ１５２２と結合することができる。少なくとも１つの実施例では、並列プロセッサ・メモリ１５２２は、メモリ・クロスバー１５１６を介してアクセスされ得、メモリ・クロスバー１５１６は、処理アレイ１５１２並びにＩ／Ｏユニット１５０４からメモリ要求を受信することができる。少なくとも１つの実施例では、メモリ・クロスバー１５１６は、メモリ・インターフェース１５１８を介して並列プロセッサ・メモリ１５２２にアクセスすることができる。少なくとも１つの実施例では、メモリ・インターフェース１５１８は、複数のパーティション・ユニット（たとえば、パーティション・ユニット１５２０Ａ、パーティション・ユニット１５２０Ｂ～パーティション・ユニット１５２０Ｎ）を含むことができ、複数のパーティション・ユニットは、各々、並列プロセッサ・メモリ１５２２の一部分（たとえば、メモリ・ユニット）に結合することができる。少なくとも１つの実施例では、パーティション・ユニット１５２０Ａ～１５２０Ｎの数は、メモリ・ユニットの数に等しくなるように構成され、それにより、第１のパーティション・ユニット１５２０Ａは、対応する第１のメモリ・ユニット１５２４Ａを有し、第２のパーティション・ユニット１５２０Ｂは、対応するメモリ・ユニット１５２４Ｂを有し、第Ｎのパーティション・ユニット１５２０Ｎは、対応する第Ｎのメモリ・ユニット１５２４Ｎを有する。少なくとも１つの実施例では、パーティション・ユニット１５２０Ａ～１５２０Ｎの数は、メモリ・デバイスの数に等しくないことがある。

少なくとも１つの実施例では、メモリ・ユニット１５２４Ａ～１５２４Ｎは、ＧＤＤＲメモリを含むＳＧＲＡＭなど、ＤＲＡＭ又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも１つの実施例では、メモリ・ユニット１５２４Ａ～１５２４Ｎは、限定はしないが高帯域幅メモリ（「ＨＢＭ」：ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙ）を含む、３Ｄ積層メモリをも含み得る。少なくとも１つの実施例では、並列プロセッサ・メモリ１５２２の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット１５２４Ａ～１５２４Ｎにわたって記憶されて、パーティション・ユニット１５２０Ａ～１５２０Ｎが、各レンダー・ターゲットの部分を並列に書き込むことを可能にし得る。少なくとも１つの実施例では、ローカル・キャッシュ・メモリと併せてシステム・メモリを利用する統一メモリ設計に有利なように、並列プロセッサ・メモリ１５２２のローカル・インスタンスが除外され得る。

少なくとも１つの実施例では、処理アレイ１５１２のクラスタ１５１４Ａ～１５１４Ｎのうちのいずれか１つは、並列プロセッサ・メモリ１５２２内のメモリ・ユニット１５２４Ａ～１５２４Ｎのいずれかに書き込まれることになるデータを処理することができる。少なくとも１つの実施例では、メモリ・クロスバー１５１６は、各クラスタ１５１４Ａ～１５１４Ｎの出力を、出力に対して追加の処理動作を実施することができる任意のパーティション・ユニット１５２０Ａ～１５２０Ｎに転送するか、又は別のクラスタ１５１４Ａ～１５１４Ｎに転送するように構成され得る。少なくとも１つの実施例では、各クラスタ１５１４Ａ～１５１４Ｎは、様々な外部メモリ・デバイスから読み取るか、又はそれに書き込むために、メモリ・クロスバー１５１６を通してメモリ・インターフェース１５１８と通信することができる。少なくとも１つの実施例では、メモリ・クロスバー１５１６は、Ｉ／Ｏユニット１５０４と通信するためのメモリ・インターフェース１５１８への接続、並びに、並列プロセッサ・メモリ１５２２のローカル・インスタンスへの接続を有し、これは、異なるクラスタ１５１４Ａ～１５１４Ｎ内の処理ユニットが、システム・メモリ、又は並列処理ユニット１５０２にローカルでない他のメモリと通信することを可能にする。少なくとも１つの実施例では、メモリ・クロスバー１５１６は、クラスタ１５１４Ａ～１５１４Ｎとパーティション・ユニット１５２０Ａ～１５２０Ｎとの間でトラフィック・ストリームを分離するために、仮想チャネルを使用することができる。

少なくとも１つの実施例では、並列処理ユニット１５０２の複数のインスタンスは、単一のアドイン・カード上で提供され得るか、又は複数のアドイン・カードが相互接続され得る。少なくとも１つの実施例では、並列処理ユニット１５０２の異なるインスタンスは、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び／又は他の構成の差を有する場合でも、相互動作するように構成され得る。たとえば、少なくとも１つの実施例では、並列処理ユニット１５０２のいくつかのインスタンスは、他のインスタンスに対してより高い精度の浮動小数点ユニットを含むことができる。少なくとも１つの実施例では、並列処理ユニット１５０２又は並列プロセッサ１５００の１つ又は複数のインスタンスを組み込んだシステムは、限定はしないが、デスクトップ、ラップトップ、又はハンドヘルド・パーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び／又は組み込みシステムを含む、様々な構成及びフォーム・ファクタにおいて実装され得る。

図１５Ｂは、少なくとも１つの実施例による、処理クラスタ１５９４を示す。少なくとも１つの実施例では、処理クラスタ１５９４は、並列処理ユニット内に含まれる。少なくとも１つの実施例では、処理クラスタ１５９４は、図１５の処理クラスタ１５１４Ａ～１５１４Ｎのうちの１つである。少なくとも１つの実施例では、処理クラスタ１５９４は、多くのスレッドを並列で実行するように構成され得、「スレッド」という用語は、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも１つの実施例では、複数の独立した命令ユニットを提供することなしに多数のスレッドの並列実行をサポートするために、単一命令複数データ（「ＳＩＭＤ」：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｄａｔａ）命令発行技法が使用される。少なくとも１つの実施例では、各処理クラスタ１５９４内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド（「ＳＩＭＴ」：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｔｈｒｅａｄ）技法が使用される。少なくとも１つの実施例では、処理クラスタ１５９４は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、処理クラスタ１５９４の動作は、ＳＩＭＴ並列プロセッサに処理タスクを分散させるパイプライン・マネージャ１５３２を介して制御され得る。少なくとも１つの実施例では、パイプライン・マネージャ１５３２は、図１５のスケジューラ１５１０から命令を受信し、グラフィックス・マルチプロセッサ１５３４及び／又はテクスチャ・ユニット１５３６を介してそれらの命令の実行を管理する。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、少なくとも１つの実施例では、異なるアーキテクチャの様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ１５９４内に含められ得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４の１つ又は複数のインスタンスは、処理クラスタ１５９４内に含められ得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４はデータを処理することができ、処理されたデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの１つに分散させるために、データ・クロスバー１５４０が使用され得る。少なくとも１つの実施例では、パイプライン・マネージャ１５３２は、データ・クロスバー１５４０を介して分散されることになる処理されたデータのための宛先を指定することによって、処理されたデータの分散を容易にすることができる。

少なくとも１つの実施例では、処理クラスタ１５９４内の各グラフィックス・マルチプロセッサ１５３４は、関数実行論理（たとえば、算術論理ユニット、ロード／ストア・ユニット（「ＬＳＵ」：ｌｏａｄ／ｓｔｏｒｅｕｎｉｔ）など）の同一のセットを含むことができる。少なくとも１つの実施例では、関数実行論理は、前の命令が完了する前に新しい命令が発行され得るパイプライン様式で構成され得る。少なくとも１つの実施例では、関数実行論理は、整数及び浮動小数点算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の算出を含む様々な演算をサポートする。少なくとも１つの実施例では、異なる演算を実施するために同じ関数ユニット・ハードウェアが活用され得、関数ユニットの任意の組合せが存在し得る。

少なくとも１つの実施例では、処理クラスタ１５９４に送信される命令がスレッドを構成する。少なくとも１つの実施例では、並列処理エンジンのセットにわたって実行しているスレッドのセットが、スレッド・グループである。少なくとも１つの実施例では、スレッド・グループは、異なる入力データに対してプログラムを実行する。少なくとも１つの実施例では、スレッド・グループ内の各スレッドは、グラフィックス・マルチプロセッサ１５３４内の異なる処理エンジンに割り当てられ得る。少なくとも１つの実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ１５３４内の処理エンジンの数よりも少ないスレッドを含み得る。少なくとも１つの実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含むとき、処理エンジンのうちの１つ又は複数は、そのスレッド・グループが処理されているサイクル中にアイドルであり得る。少なくとも１つの実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ１５３４内の処理エンジンの数よりも多いスレッドを含み得る。少なくとも１つの実施例では、スレッド・グループがグラフィックス・マルチプロセッサ１５３４内の処理エンジンの数よりも多くのスレッドを含むとき、連続するクロック・サイクルにわたって処理が実施され得る。少なくとも１つの実施例では、複数のスレッド・グループが、グラフィックス・マルチプロセッサ１５３４上で同時に実行され得る。

少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４は、ロード動作及びストア動作を実施するための内部キャッシュ・メモリを含む。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４は、内部キャッシュをやめ、処理クラスタ１５９４内のキャッシュ・メモリ（たとえば、Ｌ１キャッシュ１５４８）を使用することができる。少なくとも１つの実施例では、各グラフィックス・マルチプロセッサ１５３４は、パーティション・ユニット（たとえば、図１５Ａのパーティション・ユニット１５２０Ａ～１５２０Ｎ）内のレベル２（「Ｌ２」）キャッシュへのアクセスをも有し、それらのＬ２キャッシュは、すべての処理クラスタ１５９４の間で共有され、スレッド間でデータを転送するために使用され得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５３４はまた、オフチップ・グローバル・メモリにアクセスし得、オフチップ・グローバル・メモリは、ローカル並列プロセッサ・メモリ及び／又はシステム・メモリのうちの１つ又は複数を含むことができる。少なくとも１つの実施例では、並列処理ユニット１５０２の外部の任意のメモリが、グローバル・メモリとして使用され得る。少なくとも１つの実施例では、処理クラスタ１５９４は、グラフィックス・マルチプロセッサ１５３４の複数のインスタンスを含み、グラフィックス・マルチプロセッサ１５３４は、共通の命令及びデータを共有することができ、共通の命令及びデータは、Ｌ１キャッシュ１５４８に記憶され得る。

少なくとも１つの実施例では、各処理クラスタ１５９４は、仮想アドレスを物理アドレスにマッピングするように構成されたＭＭＵ１５４５を含み得る。少なくとも１つの実施例では、ＭＭＵ１５４５の１つ又は複数のインスタンスは、図１５のメモリ・インターフェース１５１８内に存在し得る。少なくとも１つの実施例では、ＭＭＵ１５４５は、仮想アドレスを、タイル及び随意にキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ（「ＰＴＥ」：ｐａｇｅｔａｂｌｅｅｎｔｒｙ）のセットを含む。少なくとも１つの実施例では、ＭＭＵ１５４５は、アドレス・トランスレーション・ルックアサイド・バッファ（「ＴＬＢ」：ｔｒａｎｓｌａｔｉｏｎｌｏｏｋａｓｉｄｅｂｕｆｆｅｒ）又はキャッシュを含み得、これらは、グラフィックス・マルチプロセッサ１５３４又はＬ１キャッシュ１５４８或いは処理クラスタ１５９４内に存在し得る。少なくとも１つの実施例では、物理アドレスが、表面データ・アクセス・ローカリティを分散させて、パーティション・ユニットの間での効率的な要求インターリーブを可能にするために処理される。少なくとも１つの実施例では、キャッシュ・ライン・インデックスが、キャッシュ・ラインについての要求がヒットであるのかミスであるのかを決定するために使用され得る。

少なくとも１つの実施例では、処理クラスタ１５９４は、各グラフィックス・マルチプロセッサ１５３４が、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置を決定すること、テクスチャ・データを読み取ること、及びテクスチャ・データをフィルタリングすることを実施するためのテクスチャ・ユニット１５３６に結合されるように、構成され得る。少なくとも１つの実施例では、テクスチャ・データは、内部テクスチャＬ１キャッシュ（図示せず）から又はグラフィックス・マルチプロセッサ１５３４内のＬ１キャッシュから読み取られ、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも１つの実施例では、各グラフィックス・マルチプロセッサ１５３４は、処理されたタスクをデータ・クロスバー１５４０に出力して、処理されたタスクを、さらなる処理のために別の処理クラスタ１５９４に提供するか、或いは、処理されたタスクを、メモリ・クロスバー１５１６を介してＬ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに記憶する。少なくとも１つの実施例では、プレ・ラスタ演算ユニット（「プレＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎ）１５４２は、グラフィックス・マルチプロセッサ１５３４からデータを受信し、データをＲＯＰユニットにダイレクトするように構成され、ＲＯＰユニットは、本明細書で説明されるようなパーティション・ユニット（たとえば、図１５のパーティション・ユニット１５２０Ａ～１５２０Ｎ）とともに位置し得る。少なくとも１つの実施例では、プレＲＯＰ１５４２は、色ブレンディングのための最適化を実施し、ピクセル色データを組織化し、アドレス・トランスレーションを実施することができる。

図１５Ｃは、少なくとも１つの実施例による、グラフィックス・マルチプロセッサ１５９６を示す。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５９６は、図１５Ｂのグラフィックス・マルチプロセッサ１５３４である。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５９６は、処理クラスタ１５９４のパイプライン・マネージャ１５３２と結合する。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５９６は、限定はしないが、命令キャッシュ１５５２と、命令ユニット１５５４と、アドレス・マッピング・ユニット１５５６と、レジスタ・ファイル１５５８と、１つ又は複数のＧＰＧＰＵコア１５６２と、１つ又は複数のＬＳＵ１５６６とを含む実行パイプラインを有する。ＧＰＧＰＵコア１５６２及びＬＳＵ１５６６は、メモリ及びキャッシュ相互接続１５６８を介してキャッシュ・メモリ１５７２及び共有メモリ１５７０と結合される。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５９６は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、命令キャッシュ１５５２は、実行すべき命令のストリームをパイプライン・マネージャ１５３２から受信する。少なくとも１つの実施例では、命令は、命令キャッシュ１５５２においてキャッシュされ、命令ユニット１５５４による実行のためにディスパッチされる。少なくとも１つの実施例では、命令ユニット１５５４は、命令をスレッド・グループ（たとえば、ワープ）としてディスパッチすることができ、スレッド・グループの各スレッドは、ＧＰＧＰＵコア１５６２内の異なる実行ユニットに割り当てられる。少なくとも１つの実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも１つの実施例では、アドレス・マッピング・ユニット１５５６は、統一アドレス空間中のアドレスを、ＬＳＵ１５６６によってアクセスされ得る個別メモリ・アドレスにトランスレートするために使用され得る。

少なくとも１つの実施例では、レジスタ・ファイル１５５８は、グラフィックス・マルチプロセッサ１５９６の機能ユニットにレジスタのセットを提供する。少なくとも１つの実施例では、レジスタ・ファイル１５５８は、グラフィックス・マルチプロセッサ１５９６の機能ユニット（たとえば、ＧＰＧＰＵコア１５６２、ＬＳＵ１５６６）のデータ経路に接続された、オペランドのための一時的ストレージを提供する。少なくとも１つの実施例では、レジスタ・ファイル１５５８は、各機能ユニットがレジスタ・ファイル１５５８の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも１つの実施例では、レジスタ・ファイル１５５８は、グラフィックス・マルチプロセッサ１５９６によって実行されている異なるスレッド・グループ間で分割される。

少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２は、各々、グラフィックス・マルチプロセッサ１５９６の命令を実行するために使用されるＦＰＵ及び／又は整数ＡＬＵを含むことができる。ＧＰＧＰＵコア１５６２は、同様のアーキテクチャであることも異なるアーキテクチャであることもある。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２の第１の部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコア１５６２の第２の部分は、倍精度ＦＰＵを含む。少なくとも１つの実施例では、ＦＰＵは、浮動小数点算術のためのＩＥＥＥ７５４－２００８規格を実装することができるか、又は、可変精度の浮動小数点算術を有効にすることができる。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１５９６は、追加として、矩形コピー動作又はピクセル・ブレンディング動作などの特定の機能を実施するための１つ又は複数の固定機能ユニット又は特別機能ユニットを含むことができる。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２のうちの１つ又は複数は、固定又は特別機能論理をも含むことができる。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２は、データの複数のセットに対して単一の命令を実施することが可能なＳＩＭＤ論理を含む。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６命令を物理的に実行し、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２命令を論理的に実行することができる。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２のためのＳＩＭＤ命令は、シェーダ・コンパイラによるコンパイル時に生成されるか、或いは、単一プログラム複数データ（「ＳＰＭＤ」：ｓｉｎｇｌｅｐｒｏｇｒａｍｍｕｌｔｉｐｌｅｄａｔａ）又はＳＩＭＴアーキテクチャのために書かれ、コンパイルされたプログラムを実行しているときに自動的に生成され得る。少なくとも１つの実施例では、ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行され得る。たとえば、少なくとも１つの実施例では、同じ又は同様の動作を実施する８つのＳＩＭＴスレッドが、単一のＳＩＭＤ８論理ユニットを介して並列に実行され得る。

少なくとも１つの実施例では、メモリ及びキャッシュ相互接続１５６８は、グラフィックス・マルチプロセッサ１５９６の各機能ユニットをレジスタ・ファイル１５５８及び共有メモリ１５７０に接続する相互接続ネットワークである。少なくとも１つの実施例では、メモリ及びキャッシュ相互接続１５６８は、ＬＳＵ１５６６が、共有メモリ１５７０とレジスタ・ファイル１５５８との間でロード動作及びストア動作を実装することを可能にするクロスバー相互接続である。少なくとも１つの実施例では、レジスタ・ファイル１５５８は、ＧＰＧＰＵコア１５６２と同じ周波数において動作することができ、したがって、ＧＰＧＰＵコア１５６２とレジスタ・ファイル１５５８との間のデータ転送は、非常に低いレイテンシである。少なくとも１つの実施例では、共有メモリ１５７０は、グラフィックス・マルチプロセッサ１５９６内の機能ユニット上で実行するスレッド間の通信を可能にするために使用され得る。少なくとも１つの実施例では、キャッシュ・メモリ１５７２は、たとえば、機能ユニットとテクスチャ・ユニット１５３６との間で通信されるテクスチャ・データをキャッシュするために、データ・キャッシュとして使用され得る。少なくとも１つの実施例では、共有メモリ１５７０は、キャッシュされる管理されるプログラムとしても使用され得る。少なくとも１つの実施例では、ＧＰＧＰＵコア１５６２上で実行しているスレッドは、キャッシュ・メモリ１５７２内に記憶される自動的にキャッシュされるデータに加えて、データを共有メモリ内にプログラム的に記憶することができる。

少なくとも１つの実施例では、本明細書で説明されるような並列プロセッサ又はＧＰＧＰＵは、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速するために、ホスト／プロセッサ・コアに通信可能に結合される。少なくとも１つの実施例では、ＧＰＵは、バス又は他の相互接続（たとえば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）を介してホスト・プロセッサ／コアに通信可能に結合され得る。少なくとも１つの実施例では、ＧＰＵは、コアとして同じパッケージ又はチップに集積され、パッケージ又はチップの内部にあるプロセッサ・バス／相互接続を介してコアに通信可能に結合され得る。少なくとも１つの実施例では、ＧＰＵが接続される様式にかかわらず、プロセッサ・コアは、ＷＤ中に含まれているコマンド／命令のシーケンスの形態で、ワークをＧＰＵに割り振り得る。少なくとも１つの実施例では、ＧＰＵは、次いで、これらのコマンド／命令を効率的に処理するための専用回路要素／論理を使用する。

図１６は、少なくとも１つの実施例による、グラフィックス・プロセッサ１６００を示す。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、リング相互接続１６０２と、パイプライン・フロント・エンド１６０４と、メディア・エンジン１６３７と、グラフィックス・コア１６８０Ａ～１６８０Ｎとを含む。少なくとも１つの実施例では、リング相互接続１６０２は、グラフィックス・プロセッサ１６００を、他のグラフィックス・プロセッサ又は１つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、マルチコア処理システム内に組み込まれた多くのプロセッサのうちの１つである。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、リング相互接続１６０２を介してコマンドのバッチを受信する。少なくとも１つの実施例では、入って来るコマンドは、パイプライン・フロント・エンド１６０４中のコマンド・ストリーマ１６０３によって解釈される。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、（１つ又は複数の）グラフィックス・コア１６８０Ａ～１６８０Ｎを介して３Ｄジオメトリ処理及びメディア処理を実施するためのスケーラブル実行論理を含む。少なくとも１つの実施例では、３Ｄジオメトリ処理コマンドについて、コマンド・ストリーマ１６０３は、コマンドをジオメトリ・パイプライン１６３６に供給する。少なくとも１つの実施例では、少なくともいくつかのメディア処理コマンドについて、コマンド・ストリーマ１６０３は、コマンドをビデオ・フロント・エンド１６３４に供給し、ビデオ・フロント・エンド１６３４はメディア・エンジン１６３７と結合する。少なくとも１つの実施例では、メディア・エンジン１６３７は、ビデオ及び画像後処理のためのビデオ品質エンジン（「ＶＱＥ」：ＶｉｄｅｏＱｕａｌｉｔｙＥｎｇｉｎｅ）１６３０と、ハードウェア加速メディア・データ・エンコード及びデコードを提供するためのマルチ・フォーマット・エンコード／デコード（「ＭＦＸ」：ｍｕｌｔｉ－ｆｏｒｍａｔｅｎｃｏｄｅ／ｄｅｃｏｄｅ）エンジン１６３３とを含む。少なくとも１つの実施例では、ジオメトリ・パイプライン１６３６及びメディア・エンジン１６３７は、各々、少なくとも１つのグラフィックス・コア１６８０Ａによって提供されるスレッド実行リソースのための実行スレッドを生成する。

少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、各々が（コア・サブ・スライスと呼ばれることもある）複数のサブ・コア１６５０Ａ～５５０Ｎ、１６６０Ａ～１６６０Ｎを有する、（コア・スライスと呼ばれることもある）モジュール式グラフィックス・コア１６８０Ａ～１６８０Ｎを特徴とするスケーラブル・スレッド実行リソースを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、任意の数のグラフィックス・コア１６８０Ａ～１６８０Ｎを有することができる。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、少なくとも第１のサブ・コア１６５０Ａ及び第２のサブ・コア１６６０Ａを有するグラフィックス・コア１６８０Ａを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、単一のサブ・コア（たとえば、サブ・コア１６５０Ａ）をもつ低電力プロセッサである。少なくとも１つの実施例では、グラフィックス・プロセッサ１６００は、各々が第１のサブ・コア１６５０Ａ～１６５０Ｎのセットと第２のサブ・コア１６６０Ａ～１６６０Ｎのセットとを含む、複数のグラフィックス・コア１６８０Ａ～１６８０Ｎを含む。少なくとも１つの実施例では、第１のサブ・コア１６５０Ａ～１６５０Ｎ中の各サブ・コアは、少なくとも、実行ユニット（「ＥＵ」：ｅｘｅｃｕｔｉｏｎｕｎｉｔ）１６５２Ａ～１６５２Ｎ及びメディア／テクスチャ・サンプラ１６５４Ａ～１６５４Ｎの第１のセットを含む。少なくとも１つの実施例では、第２のサブ・コア１６６０Ａ～１６６０Ｎ中の各サブ・コアは、少なくとも、実行ユニット１６６２Ａ～１６６２Ｎ及びサンプラ１６６４Ａ～１６６４Ｎの第２のセットを含む。少なくとも１つの実施例では、各サブ・コア１６５０Ａ～１６５０Ｎ、１６６０Ａ～１６６０Ｎは、共有リソース１６７０Ａ～１６７０Ｎのセットを共有する。少なくとも１つの実施例では、共有リソース１６７０は、共有キャッシュ・メモリ及びピクセル動作論理を含む。

図１７は、少なくとも１つの実施例による、プロセッサ１７００を示す。少なくとも１つの実施例では、プロセッサ１７００は、限定はしないが、命令を実施するための論理回路を含み得る。少なくとも１つの実施例では、プロセッサ１７００は、ｘ８６命令、ＡＭＲ命令、ＡＳＩＣのための特別命令などを含む命令を実施し得る。少なくとも１つの実施例では、プロセッサ１７１０は、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎからの、ＭＭＸ（商標）技術で可能にされたマイクロプロセッサ中の６４ビット幅ＭＭＸレジスタなど、パック・データを記憶するためのレジスタを含み得る。少なくとも１つの実施例では、整数形式と浮動小数点形式の両方で利用可能なＭＭＸレジスタは、ＳＩＭＤ及びストリーミングＳＩＭＤ拡張（「ＳＳＥ」：ｓｔｒｅａｍｉｎｇＳＩＭＤｅｘｔｅｎｓｉｏｎ）命令を伴うパック・データ要素で動作し得る。少なくとも１つの実施例では、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、ＡＶＸ、又はそれ以上（総称して「ＳＳＥｘ」と呼ばれる）技術に関係する１２８ビット幅ＸＭＭレジスタは、そのようなパック・データ・オペランドを保持し得る。少なくとも１つの実施例では、プロセッサ１７１０は、ＣＵＤＡプログラムを加速するための命令を実施し得る。少なくとも１つの実施例では、プロセッサ１７００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、プロセッサ１７００は、実行されるべき命令をフェッチし、プロセッサ・パイプラインにおいて後で使用されるべき命令を準備するためのイン・オーダー・フロント・エンド（「フロント・エンド」）１７０１を含む。少なくとも１つの実施例では、フロント・エンド１７０１は、いくつかのユニットを含み得る。少なくとも１つの実施例では、命令プリフェッチャ１７２６が、メモリから命令をフェッチし、命令を命令デコーダ１７２８にフィードし、命令デコーダ１７２８が命令を復号又は解釈する。たとえば、少なくとも１つの実施例では、命令デコーダ１７２８は、受信された命令を、実行のために「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる（「マイクロ・オプ」又は「ｕｏｐ」とも呼ばれる）１つ又は複数のオペレーションに復号する。少なくとも１つの実施例では、命令デコーダ１７２８は、命令を、動作を実施するためにマイクロアーキテクチャによって使用され得るオプコード及び対応するデータ並びに制御フィールドに構文解析する。少なくとも１つの実施例では、トレース・キャッシュ１７３０は、復号されたｕｏｐを、実行のためにｕｏｐキュー１７３４においてプログラム順のシーケンス又はトレースにアセンブルし得る。少なくとも１つの実施例では、トレース・キャッシュ１７３０が複雑な命令に遭遇したとき、マイクロコードＲＯＭ１７３２が、動作を完了するために必要なｕｏｐを提供する。

少なくとも１つの実施例では、単一のマイクロ・オプにコンバートされ得る命令もあれば、全動作を完了するためにいくつかのマイクロ・オプを必要とする命令もある。少なくとも１つの実施例では、命令を完了するために５つ以上のマイクロ・オプが必要とされる場合、命令デコーダ１７２８は、マイクロコードＲＯＭ１７３２にアクセスして命令を実施し得る。少なくとも１つの実施例では、命令は、命令デコーダ１７２８における処理のために少数のマイクロ・オプに復号され得る。少なくとも１つの実施例では、命令は、動作を達成するためにいくつかのマイクロ・オプが必要とされる場合、マイクロコードＲＯＭ１７３２内に記憶され得る。少なくとも１つの実施例では、トレース・キャッシュ１７３０は、マイクロコードＲＯＭ１７３２からの１つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ（「ＰＬＡ」：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを決定する。少なくとも１つの実施例では、マイクロコードＲＯＭ１７３２が命令のためにマイクロ・オプのシーケンシングを終えた後、機械のフロント・エンド１７０１は、トレース・キャッシュ１７３０からマイクロ・オプをフェッチすることを再開し得る。

少なくとも１つの実施例では、アウト・オブ・オーダー実行エンジン（「アウト・オブ・オーダー・エンジン」）１７０３は、実行のために命令を準備し得る。少なくとも１つの実施例では、アウト・オブ・オーダー実行論理は、命令がパイプラインを下り、実行のためにスケジューリングされるときの性能を最適化するために、命令のフローを滑らかにし、それを並べ替えるためのいくつかのバッファを有する。アウト・オブ・オーダー実行エンジン１７０３は、限定はしないが、アロケータ／レジスタ・リネーマ１７４０と、メモリｕｏｐキュー１７４２と、整数／浮動小数点ｕｏｐキュー１７４４と、メモリ・スケジューラ１７４６と、高速スケジューラ１７０２と、低速／汎用浮動小数点スケジューラ（「低速／汎用ＦＰ（ｆｌｏａｔｉｎｇｐｏｉｎｔ）スケジューラ」）１７０４と、単純浮動小数点スケジューラ（「単純ＦＰスケジューラ」）１７０６とを含む。少なくとも１つの実施例では、高速スケジューラ１７０２、低速／汎用浮動小数点スケジューラ１７０４、及び単純浮動小数点スケジューラ１７０６は、総称して本明細書では「ｕｏｐスケジューラ１７０２、１７０４、１７０６」とも呼ばれる。アロケータ／レジスタ・リネーマ１７４０は、実行するために各ｕｏｐが必要とする機械バッファ及びリソースを割り振る。少なくとも１つの実施例では、アロケータ／レジスタ・リネーマ１７４０は、レジスタ・ファイルへのエントリ時に論理レジスタをリネームする。少なくとも１つの実施例では、アロケータ／レジスタ・リネーマ１７４０はまた、メモリ・スケジューラ１７４６及びｕｏｐスケジューラ１７０２、１７０４、１７０６の前の、２つのｕｏｐキュー、すなわちメモリ動作のためのメモリｕｏｐキュー１７４２及び非メモリ動作のための整数／浮動小数点ｕｏｐキュー１７４４のうちの１つにおいて、各ｕｏｐのためのエントリを割り振る。少なくとも１つの実施例では、ｕｏｐスケジューラ１７０２、１７０４、１７０６は、ｕｏｐがいつ実行する準備ができるかを、それらの従属入力レジスタ・オペランド・ソースが準備されていることと、それらの動作を完了するためにｕｏｐが必要とする実行リソースの利用可能性とに基づいて、決定する。少なくとも１つの実施例では、少なくとも１つの実施例の高速スケジューラ１７０２は、メイン・クロック・サイクルの半分ごとにスケジューリングし得、低速／汎用浮動小数点スケジューラ１７０４及び単純浮動小数点スケジューラ１７０６は、メイン・プロセッサ・クロック・サイクル当たりに１回スケジューリングし得る。少なくとも１つの実施例では、ｕｏｐスケジューラ１７０２、１７０４、１７０６は、実行のためにｕｏｐをスケジューリングするためにディスパッチ・ポートを調停する。

少なくとも１つの実施例では、実行ブロック１７１１は、限定はしないが、整数レジスタ・ファイル／バイパス・ネットワーク１７０８と、浮動小数点レジスタ・ファイル／バイパス・ネットワーク（「ＦＰレジスタ・ファイル／バイパス・ネットワーク」）１７１０と、アドレス生成ユニット（「ＡＧＵ」：ａｄｄｒｅｓｓｇｅｎｅｒａｔｉｏｎｕｎｉｔ）１７１２及び１７１４と、高速ＡＬＵ１７１６及び１７１８と、低速ＡＬＵ１７２０と、浮動小数点ＡＬＵ（「ＦＰ」）１７２２と、浮動小数点移動ユニット（「ＦＰ移動」）１７２４とを含む。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク１７０８及び浮動小数点レジスタ・ファイル／バイパス・ネットワーク１７１０は、本明細書では「レジスタ・ファイル１７０８、１７１０」とも呼ばれる。少なくとも１つの実施例では、ＡＧＵ１７１２及び１７１４、高速ＡＬＵ１７１６及び１７１８、低速ＡＬＵ１７２０、浮動小数点ＡＬＵ１７２２、及び浮動小数点移動ユニット１７２４は、本明細書では「実行ユニット１７１２、１７１４、１７１６、１７１８、１７２０、１７２２、及び１７２４」とも呼ばれる。少なくとも１つの実施例では、実行ブロックは、限定はしないが、（ゼロを含む）任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含み得る。

少なくとも１つの実施例では、レジスタ・ファイル１７０８、１７１０は、ｕｏｐスケジューラ１７０２、１７０４、１７０６と、実行ユニット１７１２、１７１４、１７１６、１７１８、１７２０、１７２２、及び１７２４との間に配置され得る。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク１７０８は、整数演算を実施する。少なくとも１つの実施例では、浮動小数点レジスタ・ファイル／バイパス・ネットワーク１７１０は、浮動小数点演算を実施する。少なくとも１つの実施例では、レジスタ・ファイル１７０８、１７１０の各々は、限定はしないが、バイパス・ネットワークを含み得、バイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属ｕｏｐにバイパス又はフォワーディングし得る。少なくとも１つの実施例では、レジスタ・ファイル１７０８、１７１０は、互いにデータを通信し得る。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク１７０８は、限定はしないが、２つの別個のレジスタ・ファイル、すなわち低次３２ビットのデータのための１つのレジスタ・ファイル及び高次３２ビットのデータのための第２のレジスタ・ファイルを含み得る。少なくとも１つの実施例では、浮動小数点命令は、通常、６４～１２８ビット幅のオペランドを有するので、浮動小数点レジスタ・ファイル／バイパス・ネットワーク１７１０は、限定はしないが、１２８ビット幅のエントリを含み得る。

少なくとも１つの実施例では、実行ユニット１７１２、１７１４、１７１６、１７１８、１７２０、１７２２、１７２４は、命令を実行し得る。少なくとも１つの実施例では、レジスタ・ファイル１７０８、１７１０は、マイクロ命令が実行する必要がある整数及び浮動小数点データ・オペランド値を記憶する。少なくとも１つの実施例では、プロセッサ１７００は、限定はしないが、任意の数及び組合せの実行ユニット１７１２、１７１４、１７１６、１７１８、１７２０、１７２２、１７２４を含み得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ１７２２及び浮動小数点移動ユニット１７２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、ＡＶＸ及びＳＳＥ、又は他の演算を実行し得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ１７２２は、限定はしないが、除算、平方根、及び剰余マイクロ・オプを実行するための６４ビットずつの浮動小数点デバイダを含み得る。少なくとも１つの実施例では、浮動小数点値を伴う命令は、浮動小数点ハードウェアで対処され得る。少なくとも１つの実施例では、ＡＬＵ演算は、高速ＡＬＵ１７１６、１７１８に渡され得る。少なくとも１つの実施例では、高速ＡＬＵ１７１６、１７１８は、クロック・サイクルの半分の実効レイテンシを伴う高速演算を実行し得る。少なくとも１つの実施例では、低速ＡＬＵ１７２０は、限定はしないが、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを含み得るので、ほとんどの複雑な整数演算は低速ＡＬＵ１７２０に進む。少なくとも１つの実施例では、メモリ・ロード／ストア動作は、ＡＧＵ１７１２、１７１４によって実行され得る。少なくとも１つの実施例では、高速ＡＬＵ１７１６、高速ＡＬＵ１７１８、及び低速ＡＬＵ１７２０は、６４ビット・データ・オペランドで整数演算を実施し得る。少なくとも１つの実施例では、高速ＡＬＵ１７１６、高速ＡＬＵ１７１８、及び低速ＡＬＵ１７２０は、１６、３２、１２８、２５６などを含む様々なデータ・ビット・サイズをサポートするために実装され得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ１７２２及び浮動小数点移動ユニット１７２４は、様々なビット幅を有する様々なオペランドをサポートするために実装され得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ１７２２及び浮動小数点移動ユニット１７２４は、ＳＩＭＤ及びマルチメディア命令と併せた１２８ビット幅のパック・データ・オペランドで動作し得る。

少なくとも１つの実施例では、ｕｏｐスケジューラ１７０２、１７０４、１７０６は、親ロードが実行し終える前に従属演算をディスパッチする。少なくとも１つの実施例では、ｕｏｐは、プロセッサ１７００において投機的にスケジューリング及び実行され得るので、プロセッサ１７００は、メモリ・ミスに対処するための論理をも含み得る。少なくとも１つの実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータをもつスケジューラを通り過ぎたパイプラインにおいて、進行中の従属演算があり得る。少なくとも１つの実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも１つの実施例では、従属演算は、リプレイされる必要があり得、独立した演算は、完了することを可能にされ得る。少なくとも１つの実施例では、プロセッサの少なくとも１つの実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計され得る。

少なくとも１つの実施例では、「レジスタ」という用語は、オペランドを識別するための命令の一部として使用され得るオンボード・プロセッサ・ストレージ・ロケーションを指し得る。少なくとも１つの実施例では、レジスタは、（プログラマの視点から見て）プロセッサの外部から使用可能であり得るものであり得る。少なくとも１つの実施例では、レジスタは、特定のタイプの回路に限定されないことがある。むしろ、少なくとも１つの実施例では、レジスタは、データを記憶し、データを提供し、本明細書で説明される機能を実施し得る。少なくとも１つの実施例では、本明細書で説明されるレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に割り振られる物理レジスタ、専用物理レジスタと動的に割り振られる物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路要素によって実装され得る。少なくとも１つの実施例では、整数レジスタは、３２ビット整数データを記憶する。少なくとも１つの実施例のレジスタ・ファイルは、パック・データのための８つのマルチメディアＳＩＭＤレジスタをも含んでいる。

図１８は、少なくとも１つの実施例による、プロセッサ１８００を示す。少なくとも１つの実施例では、プロセッサ１８００は、限定はしないが、１つ又は複数のプロセッサ・コア（「コア」）１８０２Ａ～１８０２Ｎと、統合されたメモリ・コントローラ１８１４と、統合されたグラフィックス・プロセッサ１８０８とを含む。少なくとも１つの実施例では、プロセッサ１８００は、破線ボックスによって表される追加プロセッサ・コア１８０２Ｎまでの追加コアを含むことができる。少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎの各々は、１つ又は複数の内部キャッシュ・ユニット１８０４Ａ～１８０４Ｎを含む。少なくとも１つの実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット１８０６へのアクセスを有する。少なくとも１つの実施例では、プロセッサ１８００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、内部キャッシュ・ユニット１８０４Ａ～１８０４Ｎと共有キャッシュ・ユニット１８０６とは、プロセッサ１８００内のキャッシュ・メモリ階層を表す。少なくとも１つの実施例では、キャッシュ・メモリ・ユニット１８０４Ａ～１８０４Ｎは、各プロセッサ・コア内の命令及びデータ・キャッシュの少なくとも１つのレベル、及びＬ２、Ｌ３、レベル４（「Ｌ４」）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含み得、ここで、外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも１つの実施例では、キャッシュ・コヒーレンシ論理は、様々なキャッシュ・ユニット１８０６及び１８０４Ａ～１８０４Ｎ間でコヒーレンシを維持する。

少なくとも１つの実施例では、プロセッサ１８００は、１つ又は複数のバス・コントローラ・ユニット１８１６とシステム・エージェント・コア１８１０とのセットをも含み得る。少なくとも１つの実施例では、１つ又は複数のバス・コントローラ・ユニット１８１６は、１つ又は複数のＰＣＩ又はＰＣＩエクスプレス・バスなどの周辺バスのセットを管理する。少なくとも１つの実施例では、システム・エージェント・コア１８１０は、様々なプロセッサ構成要素のための管理機能性を提供する。少なくとも１つの実施例では、システム・エージェント・コア１８１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合されたメモリ・コントローラ１８１４を含む。

少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎのうちの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも１つの実施例では、システム・エージェント・コア１８１０は、マルチスレッド処理中にプロセッサ・コア１８０２Ａ～１８０２Ｎを協調させ、動作させるための構成要素を含む。少なくとも１つの実施例では、システム・エージェント・コア１８１０は、追加として、電力制御ユニット（「ＰＣＵ」：ｐｏｗｅｒｃｏｎｔｒｏｌｕｎｉｔ）を含み得、ＰＣＵは、プロセッサ・コア１８０２Ａ～１８０２Ｎ及びグラフィックス・プロセッサ１８０８の１つ又は複数の電力状態を調節するための論理及び構成要素を含む。

少なくとも１つの実施例では、プロセッサ１８００は、追加として、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ１８０８を含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１８０８は、共有キャッシュ・ユニット１８０６、及び１つ又は複数の統合されたメモリ・コントローラ１８１４を含むシステム・エージェント・コア１８１０と結合する。少なくとも１つの実施例では、システム・エージェント・コア１８１０は、１つ又は複数の結合されたディスプレイへのグラフィックス・プロセッサ出力を駆動するためのディスプレイ・コントローラ１８１１をも含む。少なくとも１つの実施例では、ディスプレイ・コントローラ１８１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ１８０８と結合された別個のモジュールであり得るか、又はグラフィックス・プロセッサ１８０８内に組み込まれ得る。

少なくとも１つの実施例では、プロセッサ１８００の内部構成要素を結合するために、リング・ベースの相互接続ユニット１８１２が使用される。少なくとも１つの実施例では、ポイントツーポイント相互接続、切替え相互接続、又は他の技法などの代替相互接続ユニットが使用され得る。少なくとも１つの実施例では、グラフィックス・プロセッサ１８０８は、Ｉ／Ｏリンク１８１３を介してリング相互接続１８１２と結合する。

少なくとも１つの実施例では、Ｉ／Ｏリンク１８１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール１８１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む、複数の種類のＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎの各々と、グラフィックス・プロセッサ１８０８とは、共有ＬＬＣとして組み込みメモリ・モジュール１８１８を使用する。

少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎは、ＩＳＡという観点から異種であり、ここで、プロセッサ・コア１８０２Ａ～１８０２Ｎのうちの１つ又は複数は、共通の命令セットを実行し、プロセッサ・コア１８０２Ａ～１８－０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも１つの実施例では、プロセッサ・コア１８０２Ａ～１８０２Ｎは、マイクロアーキテクチャという観点から異種であり、ここで、電力消費量が比較的高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のコアと結合する。少なくとも１つの実施例では、プロセッサ１８００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装され得る。

図１９は、説明される少なくとも１つの実施例による、グラフィックス・プロセッサ・コア１９００を示す。少なくとも１つの実施例では、グラフィックス・プロセッサ・コア１９００は、グラフィックス・コア・アレイ内に含まれる。少なくとも１つの実施例では、コア・スライスと呼ばれることもあるグラフィックス・プロセッサ・コア１９００は、モジュール式グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアであり得る。少なくとも１つの実施例では、グラフィックス・プロセッサ・コア１９００は、１つのグラフィックス・コア・スライスの例示であり、本明細書で説明されるグラフィックス・プロセッサは、ターゲット電力及び性能エンベロープに基づいて、複数のグラフィックス・コア・スライスを含み得る。少なくとも１つの実施例では、各グラフィックス・コア１９００は、汎用及び固定機能論理のモジュール式ブロックを含む、サブ・スライスとも呼ばれる複数のサブ・コア１９０１Ａ～１９０１Ｆと結合された固定機能ブロック１９３０を含むことができる。少なくとも１つの実施例では、グラフィックス・プロセッサ・コア１９００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施するためのものである。

少なくとも１つの実施例では、固定機能ブロック１９３０は、たとえば、より低い性能及び／又はより低い電力のグラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ１９００中のすべてのサブ・コアによって共有され得るジオメトリ／固定機能パイプライン１９３６を含む。少なくとも１つの実施例では、ジオメトリ／固定機能パイプライン１９３６は、３Ｄ固定機能パイプラインと、ビデオ・フロント・エンド・ユニットと、スレッド・スポーナ（ｓｐａｗｎｅｒ）及びスレッド・ディスパッチャと、統一リターン・バッファを管理する統一リターン・バッファ・マネージャとを含む。

少なくとも１つの実施例では、固定機能ブロック１９３０はまた、グラフィックスＳｏＣインターフェース１９３７と、グラフィックス・マイクロコントローラ１９３８と、メディア・パイプライン１９３９とを含む。グラフィックスＳｏＣインターフェース１９３７は、グラフィックス・コア１９００と、ＳｏＣ集積回路内の他のプロセッサ・コアとの間のインターフェースを提供する。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ１９３８は、スレッド・ディスパッチと、スケジューリングと、プリエンプションとを含む、グラフィックス・プロセッサ１９００の様々な機能を管理するように構成可能であるプログラマブル・サブ・プロセッサである。少なくとも１つの実施例では、メディア・パイプライン１９３９は、画像及びビデオ・データを含むマルチメディア・データの復号、符号化、前処理、及び／又は後処理を容易にするための論理を含む。少なくとも１つの実施例では、メディア・パイプライン１９３９は、サブ・コア１９０１～１９０１Ｆ内のコンピュート論理又はサンプリング論理への要求を介して、メディア動作を実装する。

少なくとも１つの実施例では、ＳｏＣインターフェース１９３７は、グラフィックス・コア１９００が汎用アプリケーション・プロセッサ・コア（たとえば、ＣＰＵ）及び／又はＳｏＣ内の他の構成要素と通信することを可能にし、ＳｏＣ内の他の構成要素は、共有ＬＬＣメモリ、システムＲＡＭ、及び／或いは組み込みオンチップ又はオンパッケージＤＲＡＭなどのメモリ階層要素を含む。少なくとも１つの実施例では、ＳｏＣインターフェース１９３７はまた、カメラ撮像パイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にすることができ、グラフィックス・コア１９００とＳｏＣ内のＣＰＵとの間で共有され得るグローバル・メモリ・アトミックの使用を可能にし、及び／又はそれを実装する。少なくとも１つの実施例では、ＳｏＣインターフェース１９３７はまた、グラフィックス・コア１９００のための電力管理制御を実装し、グラフィック・コア１９００のクロック・ドメインとＳｏＣ内の他のクロック・ドメインとの間のインターフェースを可能にすることができる。少なくとも１つの実施例では、ＳｏＣインターフェース１９３７は、グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアの各々にコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャからのコマンド・バッファの受信を可能にする。少なくとも１つの実施例では、コマンド及び命令は、メディア動作が実施されるべきであるときにメディア・パイプライン１９３９にディスパッチされ得るか、又は、グラフィックス処理動作が実施されるべきであるときにジオメトリ及び固定機能パイプライン（たとえば、ジオメトリ及び固定機能パイプライン１９３６、ジオメトリ及び固定機能パイプライン１９１４）にディスパッチされ得る。

少なくとも１つの実施例では、グラフィックス・マイクロコントローラ１９３８は、グラフィックス・コア１９００のための様々なスケジューリング及び管理タスクを実施するように構成され得る。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ１９３８は、サブ・コア１９０１Ａ～１９０１Ｆ内の実行ユニット（ＥＵ）アレイ１９０２Ａ～１９０２Ｆ、１９０４Ａ～１９０４Ｆ内の様々なグラフィックス並列エンジンに対して、グラフィックスを実施し、及び／又はワークロード・スケジューリングを算出することができる。少なくとも１つの実施例では、グラフィックス・コア１９００を含むＳｏＣのＣＰＵコア上で実行しているホスト・ソフトウェアは、複数のグラフィック・プロセッサ・ドアベルのうちの１つにワークロードをサブミットすることができ、このドアベルが、適切なグラフィックス・エンジンに対するスケジューリング動作を呼び出す。少なくとも１つの実施例では、スケジューリング動作は、どのワークロードを次に稼働すべきかを決定することと、ワークロードをコマンド・ストリーマにサブミットすることと、エンジン上で稼働している既存のワークロードをプリエンプトすることと、ワークロードの進行を監視することと、ワークロードが完了したときにホスト・ソフトウェアに通知することとを含む。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ１９３８はまた、グラフィックス・コア１９００のための低電力又はアイドル状態を促進して、オペレーティング・システム及び／又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態移行にわたってグラフィックス・コア１９００内のレジスタを保存及び復元するアビリティをグラフィックス・コア１９００に提供することができる。

少なくとも１つの実施例では、グラフィックス・コア１９００は、示されているサブ・コア１９０１Ａ～１９０１Ｆよりも多い又はそれよりも少ない、Ｎ個までのモジュール式サブ・コアを有し得る。Ｎ個のサブ・コアの各セットについて、少なくとも１つの実施例では、グラフィックス・コア１９００はまた、共有機能論理１９１０、共有及び／又はキャッシュ・メモリ１９１２、ジオメトリ／固定機能パイプライン１９１４、並びに様々なグラフィックスを加速し、処理動作を算出するための追加の固定機能論理１９１６を含むことができる。少なくとも１つの実施例では、共有機能論理１９１０は、グラフィックス・コア１９００内の各Ｎ個のサブ・コアによって共有され得る論理ユニット（たとえば、サンプラ、数理、及び／又はスレッド間通信論理）を含むことができる。共有及び／又はキャッシュ・メモリ１９１２は、グラフィックス・コア１９００内のＮ個のサブ・コア１９０１Ａ～１９０１ＦのためのＬＬＣであり得、また、複数のサブ・コアによってアクセス可能である共有メモリとして働き得る。少なくとも１つの実施例では、ジオメトリ／固定機能パイプライン１９１４は、固定機能ブロック１９３０内のジオメトリ／固定機能パイプライン１９３６の代わりに含まれ得、同じ又は同様の論理ユニットを含むことができる。

少なくとも１つの実施例では、グラフィックス・コア１９００は、グラフィックス・コア１９００による使用のための様々な固定機能加速論理を含むことができる追加の固定機能論理１９１６を含む。少なくとも１つの実施例では、追加の固定機能論理１９１６は、位置限定シェーディング（ｐｏｓｉｔｉｏｎｏｎｌｙｓｈａｄｉｎｇ）において使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、少なくとも２つのジオメトリ・パイプラインが存在するが、ジオメトリ／固定機能パイプライン１９１６、１９３６内の完全ジオメトリ・パイプライン、並びに選別パイプライン（ｃｕｌｌｐｉｐｅｌｉｎｅ）においてであり、選別パイプラインは、追加の固定機能論理１９１６内に含まれ得る追加のジオメトリ・パイプラインである。少なくとも１つの実施例では、選別パイプラインは、完全ジオメトリ・パイプラインの縮小版である。少なくとも１つの実施例では、完全パイプライン及び選別パイプラインは、アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。少なくとも１つの実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、これは、いくつかのインスタンスにおいてシェーディングがより早く完了することを可能にする。たとえば、少なくとも１つの実施例では、選別パイプラインは、ピクセルの、フレーム・バッファへのラスタ化及びレンダリングを実施することなしに、頂点の位置属性をフェッチし、シェーディングするので、追加の固定機能論理１９１６内の選別パイプライン論理は、メイン・アプリケーションと並列で位置シェーダを実行することができ、全体的に完全パイプラインよりも速く臨界結果（ｃｒｉｔｉｃａｌｒｅｓｕｌｔ）を生成する。少なくとも１つの実施例では、選別パイプラインは、生成された臨界結果を使用して、すべての三角形について、それらの三角形が選別されているかどうかにかかわらず、可視性情報を算出することができる。少なくとも１つの実施例では、（このインスタンスではリプレイ・パイプラインと呼ばれることがある）完全パイプラインは、可視性情報を消費して、選別された三角形を飛ばして可視三角形のみをシェーディングすることができ、可視三角形は、最終的にラスタ化フェーズに渡される。

少なくとも１つの実施例では、追加の固定機能論理１９１６はまた、ＣＵＤＡプログラムを加速するために、固定機能行列乗算論理など、汎用処理加速論理を含むことができる。

少なくとも１つの実施例では、各グラフィックス・サブ・コア１９０１Ａ～１９０１Ｆは、実行リソースのセットを含み、実行リソースのセットは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムによる要求に応答して、グラフィックス動作、メディア動作、及びコンピュート動作を実施するために使用され得る。少なくとも１つの実施例では、グラフィックス・サブ・コア１９０１Ａ～１９０１Ｆは、複数のＥＵアレイ１９０２Ａ～１９０２Ｆ、１９０４Ａ～１９０４Ｆと、スレッド・ディスパッチ及びスレッド間通信（「ＴＤ／ＩＣ」：ｔｈｒｅａｄｄｉｓｐａｔｃｈａｎｄｉｎｔｅｒ－ｔｈｒｅａｄｃｏｍｍｕｎｉｃａｔｉｏｎ）論理１９０３Ａ～１９０３Ｆと、３Ｄ（たとえば、テクスチャ）サンプラ１９０５Ａ～１９０５Ｆと、メディア・サンプラ１９０６Ａ～１９０６Ｆと、シェーダ・プロセッサ１９０７Ａ～１９０７Ｆと、共有ローカル・メモリ（「ＳＬＭ」：ｓｈａｒｅｄｌｏｃａｌｍｅｍｏｒｙ）１９０８Ａ～１９０８Ｆとを含む。ＥＵアレイ１９０２Ａ～１９０２Ｆ、１９０４Ａ～１９０４Ｆは、各々、複数の実行ユニットを含み、複数の実行ユニットは、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含むグラフィックス動作、メディア動作、又はコンピュート動作のサービスにおいて浮動小数点及び整数／固定小数点論理演算を実施することが可能なＧＰＧＰＵである。少なくとも１つの実施例では、ＴＤ／ＩＣ論理１９０３Ａ～１９０３Ｆは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実施し、サブ・コアの実行ユニット上で実行しているスレッド間の通信を容易にする。少なくとも１つの実施例では、３Ｄサンプラ１９０５Ａ～１９０５Ｆは、テクスチャ又は他の３Ｄグラフィックス関係データをメモリに読み取ることができる。少なくとも１つの実施例では、３Ｄサンプラは、所与のテクスチャに関連する、構成されたサンプル状態及びテクスチャ・フォーマットに基づいて、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも１つの実施例では、メディア・サンプラ１９０６Ａ～１９０６Ｆは、メディア・データに関連するタイプ及びフォーマットに基づいて、同様の読取り動作を実施することができる。少なくとも１つの実施例では、各グラフィックス・サブ・コア１９０１Ａ～１９０１Ｆは、代替的に統一３Ｄ及びメディア・サンプラを含むことができる。少なくとも１つの実施例では、サブ・コア１９０１Ａ～１９０１Ｆの各々内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドがオンチップ・メモリの共通のプールを使用して実行することを可能にするために、各サブ・コア内の共有ローカル・メモリ１９０８Ａ～１９０８Ｆを利用することができる。

図２０は、少なくとも１つの実施例による、並列処理ユニット（「ＰＰＵ」）２０００を示す。少なくとも１つの実施例では、ＰＰＵ２０００は、ＰＰＵ２０００によって実行された場合、ＰＰＵ２０００に、本明細書で説明されるプロセス及び技法のいくつか又はすべてを実施させる機械可読コードで構成される。少なくとも１つの実施例では、ＰＰＵ２０００はマルチスレッド・プロセッサであり、マルチスレッド・プロセッサは、１つ又は複数の集積回路デバイス上で実装され、（機械可読命令又は単に命令とも呼ばれる）コンピュータ可読命令を複数のスレッド上で並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも１つの実施例では、スレッドは、実行のスレッドを指し、ＰＰＵ２０００によって実行されるように構成された命令のセットのインスタンス化である。少なくとも１つの実施例では、ＰＰＵ２０００は、ＬＣＤデバイスなどのディスプレイ・デバイス上での表示のための２次元（「２Ｄ」）画像データを生成するために３次元（「３Ｄ」）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたＧＰＵである。少なくとも１つの実施例では、ＰＰＵ２０００は、線形代数演算及び機械学習演算などの算出を実施するために利用される。図２０は、単に例示を目的とした例示的な並列プロセッサを示し、少なくとも１つの実施例において実装され得るプロセッサ・アーキテクチャの非限定的な実例として解釈されるべきである。少なくとも１つの実施例では、ＰＰＵ２０００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、１つ又は複数のＰＰＵ２０００は、高性能コンピューティング（「ＨＰＣ」：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）、データ・センタ、及び機械学習アプリケーションを加速するように構成される。少なくとも１つの実施例では、１つ又は複数のＰＰＵ２０００は、ＣＵＤＡプログラムを加速するように構成される。少なくとも１つの実施例では、ＰＰＵ２０００は、限定はしないが、Ｉ／Ｏユニット２００６と、フロント・エンド・ユニット２０１０と、スケジューラ・ユニット２０１２と、ワーク分散ユニット２０１４と、ハブ２０１６と、クロスバー（「Ｘバー」：ｃｒｏｓｓｂａｒ）２０２０と、１つ又は複数の汎用処理クラスタ（「ＧＰＣ」：ｇｅｎｅｒａｌｐｒｏｃｅｓｓｉｎｇｃｌｕｓｔｅｒ）２０１８と、１つ又は複数のパーティション・ユニット（「メモリ・パーティション・ユニット」）２０２２とを含む。少なくとも１つの実施例では、ＰＰＵ２０００は、１つ又は複数の高速ＧＰＵ相互接続（「ＧＰＵ相互接続」）２００８を介してホスト・プロセッサ又は他のＰＰＵ２０００に接続される。少なくとも１つの実施例では、ＰＰＵ２０００は、システム・バス又は相互接続２００２を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも１つの実施例では、ＰＰＵ２０００は、１つ又は複数のメモリ・デバイス（「メモリ」）２００４を備えるローカル・メモリに接続される。少なくとも１つの実施例では、メモリ・デバイス２００４は、限定はしないが、１つ又は複数のダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイスを含む。少なくとも１つの実施例では、１つ又は複数のＤＲＡＭデバイスは、複数のＤＲＡＭダイが各デバイス内で積層された高帯域幅メモリ（「ＨＢＭ」）サブシステムとして構成され、及び／又は構成可能である。

少なくとも１つの実施例では、高速ＧＰＵ相互接続２００８は、ワイヤ・ベースのマルチ・レーン通信リンクを指し得、ワイヤ・ベースのマルチ・レーン通信リンクは、１つ又は複数のＣＰＵと組み合わせられた１つ又は複数のＰＰＵ２０００をスケーリングし、含めるために、システムによって使用され、ＰＰＵ２０００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。少なくとも１つの実施例では、データ及び／又はコマンドは、高速ＧＰＵ相互接続２００８によって、ハブ２０１６を通して、１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図２０に明示的に示されていないこともある他の構成要素など、ＰＰＵ２０００の他のユニットに／から送信される。

少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、システム・バス２００２を介して（図２０に示されていない）ホスト・プロセッサから通信（たとえば、コマンド、データ）を送受信するように構成される。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、システム・バス２００２を介して直接、又は、メモリ・ブリッジなどの１つ又は複数の中間デバイスを通して、ホスト・プロセッサと通信する。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、システム・バス２００２を介してＰＰＵ２０００のうちの１つ又は複数などの１つ又は複数の他のプロセッサと通信し得る。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、ＰＣＩｅインターフェースを、ＰＣＩｅバスを介した通信のために実装する。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、外部デバイスと通信するためのインターフェースを実装する。

少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、システム・バス２００２を介して受信されたパケットを復号する。少なくとも１つの実施例では、少なくともいくつかのパケットは、ＰＰＵ２０００に様々な動作を実施させるように構成されたコマンドを表す。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６は、復号されたコマンドを、コマンドによって指定されるＰＰＵ２０００の様々な他のユニットに送信する。少なくとも１つの実施例では、コマンドは、フロント・エンド・ユニット２０１０に送信され、及び／或いは、ハブ２０１６、又は（図２０に明示的に示されていない）１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなど、ＰＰＵ２０００の他のユニットに送信される。少なくとも１つの実施例では、Ｉ／Ｏユニット２００６はＰＰＵ２０００の様々な論理ユニット間で及びそれらの間で通信をルーティングするように構成される。

少なくとも１つの実施例では、ホスト・プロセッサによって実行されるプログラムは、処理のためにワークロードをＰＰＵ２０００に提供するバッファにおいて、コマンド・ストリームを符号化する。少なくとも１つの実施例では、ワークロードは、命令と、それらの命令によって処理されるべきデータとを含む。少なくとも１つの実施例では、バッファは、ホスト・プロセッサとＰＰＵ２０００の両方によってアクセス（たとえば、読取り／書込み）可能であるメモリ中の領域であり、ホスト・インターフェース・ユニットは、Ｉ／Ｏユニット２００６によってシステム・バス２００２を介して送信されるメモリ要求を介して、システム・バス２００２に接続されたシステム・メモリ中のバッファにアクセスするように構成され得る。少なくとも１つの実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始に対するポインタをＰＰＵ２０００に送信し、それにより、フロント・エンド・ユニット２０１０は、１つ又は複数のコマンド・ストリームに対するポインタを受信し、１つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをＰＰＵ２０００の様々なユニットにフォワーディングする。

少なくとも１つの実施例では、フロント・エンド・ユニット２０１０は、１つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なＧＰＣ２０１８を構成するスケジューラ・ユニット２０１２に結合される。少なくとも１つの実施例では、スケジューラ・ユニット２０１２は、スケジューラ・ユニット２０１２によって管理される様々なタスクに関係する状態情報を追跡するように構成され、状態情報は、ＧＰＣ２０１８のうちのどれにタスクが割り当てられるか、タスクがアクティブであるのか非アクティブであるのか、タスクに関連する優先レベルなどを示し得る。少なくとも１つの実施例では、スケジューラ・ユニット２０１２は、ＧＰＣ２０１８のうちの１つ又は複数上での複数のタスクの実行を管理する。

少なくとも１つの実施例では、スケジューラ・ユニット２０１２は、ＧＰＣ２０１８上での実行のためのタスクをディスパッチするように構成されたワーク分散ユニット２０１４に結合される。少なくとも１つの実施例では、ワーク分散ユニット２０１４は、スケジューラ・ユニット２０１２から受信された、スケジューリングされたタスクの数を追跡し、ワーク分散ユニット２０１４は、ＧＰＣ２０１８の各々について、ペンディング・タスク・プール及びアクティブ・タスク・プールを管理する。少なくとも１つの実施例では、ペンディング・タスク・プールは、特定のＧＰＣ２０１８によって処理されるように割り当てられたタスクを含んでいるいくつかのスロット（たとえば、３２個のスロット）を備え、アクティブ・タスク・プールは、ＧＰＣ２０１８によってアクティブに処理されているタスクのためのいくつかのスロット（たとえば、４つのスロット）を備え得、それにより、ＧＰＣ２０１８のうちの１つがタスクの実行を完了したとき、ＧＰＣ２０１８のためのアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクのうちの１つが選択され、ＧＰＣ２０１８上での実行のためにスケジューリングされる。少なくとも１つの実施例では、データ依存性が解決されるのを待っている間など、アクティブ・タスクがＧＰＣ２０１８上でアイドルである場合、アクティブ・タスクがＧＰＣ２０１８から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プール中の別のタスクが選択され、ＧＰＣ２０１８上での実行のためにスケジューリングされる。

少なくとも１つの実施例では、ワーク分散ユニット２０１４は、Ｘバー２０２０を介して１つ又は複数のＧＰＣ２０１８と通信する。少なくとも１つの実施例では、Ｘバー２０２０は、ＰＰＵ２０００の多くのユニットをＰＰＵ２０００の他のユニットに結合する相互接続ネットワークであり、ワーク分散ユニット２０１４を特定のＧＰＣ２０１８に結合するように構成され得る。少なくとも１つの実施例では、ＰＰＵ２０００の１つ又は複数の他のユニットも、ハブ２０１６を介してＸバー２０２０に接続され得る。

少なくとも１つの実施例では、タスクはスケジューラ・ユニット２０１２によって管理され、ワーク分散ユニット２０１４によってＧＰＣ２０１８のうちの１つにディスパッチされる。ＧＰＣ２０１８は、タスクを処理し、結果を生成するように構成される。少なくとも１つの実施例では、結果は、ＧＰＣ２０１８内の他のタスクによって消費されるか、Ｘバー２０２０を介して異なるＧＰＣ２０１８にルーティングされるか、又はメモリ２００４に記憶され得る。少なくとも１つの実施例では、結果は、パーティション・ユニット２０２２を介してメモリ２００４に書き込まれ得、パーティション・ユニット２０２２は、メモリ２００４への／からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも１つの実施例では、結果は、高速ＧＰＵ相互接続２００８を介して別のＰＰＵ２００４又はＣＰＵに送信され得る。少なくとも１つの実施例では、ＰＰＵ２０００は、限定はしないが、ＰＰＵ２０００に結合された別個の個別メモリ・デバイス２００４の数に等しいＵ個のパーティション・ユニット２０２２を含む。

少なくとも１つの実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、ドライバ・カーネルは、ホスト・プロセッサ上で実行している１つ又は複数のアプリケーションがＰＰＵ２０００上での実行のために動作をスケジューリングすることを可能にするアプリケーション・プログラミング・インターフェース（「ＡＰＩ」）を実装する。少なくとも１つの実施例では、複数のコンピュート・アプリケーションが、ＰＰＵ２０００によって同時に実行され、ＰＰＵ２０００は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質（「ＱｏＳ」：ｑｕａｌｉｔｙｏｆｓｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。少なくとも１つの実施例では、アプリケーションは、ＰＰＵ２０００による実行のための１つ又は複数のタスクをドライバ・カーネルに生成させる（たとえば、ＡＰＩコールの形態の）命令を生成し、ドライバ・カーネルは、ＰＰＵ２０００によって処理されている１つ又は複数のストリームにタスクを出力する。少なくとも１つの実施例では、各タスクは、ワープと呼ばれることがある関係スレッドの１つ又は複数のグループを備える。少なくとも１つの実施例では、ワープは、並列に実行され得る複数の関係スレッド（たとえば、３２個のスレッド）を備える。少なくとも１つの実施例では、連動スレッドは、タスクを実施するための命令を含み、共有メモリを通してデータを交換する、複数のスレッドを指すことができる。

図２１は、少なくとも１つの実施例による、ＧＰＣ２１００を示す。少なくとも１つの実施例では、ＧＰＣ２１００は、図２０のＧＰＣ２０１８である。少なくとも１つの実施例では、各ＧＰＣ２１００は、限定はしないが、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各ＧＰＣ２１００は、限定はしないが、パイプライン・マネージャ２１０２、プレ・ラスタ演算ユニット（「ＰＲＯＰ」）２１０４、ラスタ・エンジン２１０８、ワーク分散クロスバー（「ＷＤＸ」：ｗｏｒｋｄｉｓｔｒｉｂｕｔｉｏｎｃｒｏｓｓｂａｒ）２１１６、ＭＭＵ２１１８、１つ又は複数のデータ処理クラスタ（「ＤＰＣ」：ＤａｔａＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）２１０６、及びパーツの任意の好適な組合せを含む。

少なくとも１つの実施例では、ＧＰＣ２１００の動作は、パイプライン・マネージャ２１０２によって制御される。少なくとも１つの実施例では、パイプライン・マネージャ２１０２は、ＧＰＣ２１００に割り振られたタスクを処理するための１つ又は複数のＤＰＣ２１０６の構成を管理する。少なくとも１つの実施例では、パイプライン・マネージャ２１０２は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、１つ又は複数のＤＰＣ２１０６のうちの少なくとも１つを構成する。少なくとも１つの実施例では、ＤＰＣ２１０６は、プログラマブル・ストリーミング・マルチプロセッサ（「ＳＭ」：ｓｔｒｅａｍｉｎｇｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）２１１４上で頂点シェーダ・プログラムを実行するように構成される。少なくとも１つの実施例では、パイプライン・マネージャ２１０２は、ワーク分散ユニットから受信されたパケットを、ＧＰＣ２１００内の適切な論理ユニットにルーティングするように構成され、少なくとも１つの実施例では、いくつかのパケットは、ＰＲＯＰ２１０４中の固定機能ハードウェア・ユニット及び／又はラスタ・エンジン２１０８にルーティングされ得、他のパケットは、プリミティブ・エンジン２１１２又はＳＭ２１１４による処理のためにＤＰＣ２１０６にルーティングされ得る。少なくとも１つの実施例では、パイプライン・マネージャ２１０２は、コンピューティング・パイプラインを実装するように、ＤＰＣ２１０６のうちの少なくとも１つを構成する。少なくとも１つの実施例では、パイプライン・マネージャ２１０２は、ＣＵＤＡプログラムの少なくとも一部分を実行するように、ＤＰＣ２１０６のうちの少なくとも１つを構成する。少なくとも１つの実施例では、ＧＰＣ２１００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、ＰＲＯＰユニット２１０４は、ラスタ・エンジン２１０８及びＤＰＣ２１０６によって生成されたデータを、図２０と併せて上記でより詳細に説明されたメモリ・パーティション・ユニット２０２２など、パーティション・ユニット中のラスタ演算（「ＲＯＰ」：ＲａｓｔｅｒＯｐｅｒａｔｉｏｎ）ユニットにルーティングするように構成される。少なくとも１つの実施例では、ＰＲＯＰユニット２１０４は、色ブレンディングのための最適化を実施すること、ピクセル・データを組織化すること、アドレス・トランスレーションを実施することなどを行うように構成される。少なくとも１つの実施例では、ラスタ・エンジン２１０８は、限定はしないが、様々なラスタ演算を実施するように構成されたいくつかの固定機能ハードウェア・ユニットを含み、少なくとも１つの実施例では、ラスタ・エンジン２１０８は、限定はしないが、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何学的プリミティブに関連する平面方程式を生成し、平面方程式は、プリミティブについてのカバレージ情報（たとえば、タイルのためのｘ、ｙカバレージ・マスク）を生成するために粗いラスタ・エンジンに送信され、粗いラスタ・エンジンの出力は選別エンジンに送信され、ｚテストに落ちたプリミティブに関連するフラグメントが選別され、クリッピング・エンジンに送信され、視錐台の外側にあるフラグメントがクリップされる。少なくとも１つの実施例では、クリッピング及び選別を通過したフラグメントは、セットアップ・エンジンによって生成された平面方程式に基づいてピクセル・フラグメントについての属性を生成するために、細かいラスタ・エンジンに渡される。少なくとも１つの実施例では、ラスタ・エンジン２１０８の出力は、ＤＰＣ２１０６内に実装されたフラグメント・シェーダによってなど、任意の好適なエンティティによって処理されるべきフラグメントを含む。

少なくとも１つの実施例では、ＧＰＣ２１００中に含まれる各ＤＰＣ２１０６は、限定はしないが、Ｍパイプ・コントローラ（「ＭＰＣ」：Ｍ－ＰｉｐｅＣｏｎｔｒｏｌｌｅｒ）２１１０、プリミティブ・エンジン２１１２、１つ又は複数のＳＭ２１１４、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、ＭＰＣ２１１０は、ＤＰＣ２１０６の動作を制御して、パイプライン・マネージャ２１０２から受信されたパケットを、ＤＰＣ２１０６中の適切なユニットにルーティングする。少なくとも１つの実施例では、頂点に関連するパケットは、頂点に関連する頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン２１１２にルーティングされ、対照的に、シェーダ・プログラムに関連するパケットは、ＳＭ２１１４に送信され得る。

少なくとも１つの実施例では、ＳＭ２１１４は、限定はしないが、いくつかのスレッドによって表されたタスクを処理するように構成されたプログラマブル・ストリーミング・プロセッサを含む。少なくとも１つの実施例では、ＳＭ２１１４はマルチスレッド化され、スレッドの特定のグループからの複数のスレッド（たとえば、３２個のスレッド）を同時に実行するように構成され、ＳＩＭＤアーキテクチャを実装し、スレッドのグループ（たとえば、ワープ）中の各スレッドは、命令の同じセットに基づいてデータの異なるセットを処理するように構成される。少なくとも１つの実施例では、スレッドのグループ中のすべてのスレッドが同じ命令を実行する。少なくとも１つの実施例では、ＳＭ２１１４は、ＳＩＭＴアーキテクチャを実装し、スレッドのグループ中の各スレッドは、命令の同じセットに基づいて、データの異なるセットを処理するように構成されるが、スレッドのグループ中の個々のスレッドは、実行中に発散することを可能にされる。少なくとも１つの実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各ワープについて維持されて、ワープ内のスレッドが発散するときのワープ間の同時処理及びワープ内の直列実行を可能にする。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各個々のスレッドについて維持されて、すべてのスレッド間、ワープ内及びワープ間での等しい同時処理を可能にする。少なくとも１つの実施例では、実行状態が、各個々のスレッドについて維持され、同じ命令を実行しているスレッドが、より良い効率性のために収束され、並列に実行され得る。ＳＭ２１１４の少なくとも１つの実施例は、図２２と併せてさらに詳細に説明される。

少なくとも１つの実施例では、ＭＭＵ２１１８は、ＧＰＣ２１００とメモリ・パーティション・ユニット（たとえば、図２０のパーティション・ユニット２０２２）との間のインターフェースを提供し、ＭＭＵ２１１８は、仮想アドレスから物理アドレスへのトランスレーションと、メモリ保護と、メモリ要求の調停とを提供する。少なくとも１つの実施例では、ＭＭＵ２１１８は、仮想アドレスからメモリ中の物理アドレスへのトランスレーションを実施するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（ＴＬＢ）を提供する。

図２２は、少なくとも１つの実施例による、ストリーミング・マルチプロセッサ（「ＳＭ」）２２００を示す。少なくとも１つの実施例では、ＳＭ２２００は、図２１のＳＭ２１１４である。少なくとも１つの実施例では、ＳＭ２２００は、限定はしないが、命令キャッシュ２２０２、１つ又は複数のスケジューラ・ユニット２２０４、レジスタ・ファイル２２０８、１つ又は複数の処理コア（「コア」）２２１０、１つ又は複数の特殊機能ユニット（「ＳＦＵ」：ｓｐｅｃｉａｌｆｕｎｃｔｉｏｎｕｎｉｔ）２２１２、１つ又は複数のＬＳＵ２２１４、相互接続ネットワーク２２１６、共有メモリ／Ｌ１キャッシュ２２１８、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、ワーク分散ユニットは、並列処理ユニット（ＰＰＵ）のＧＰＣ上での実行のためにタスクをディスパッチし、各タスクは、ＧＰＣ内の特定のデータ処理クラスタ（ＤＰＣ）に割り振られ、タスクがシェーダ・プログラムに関連する場合、タスクはＳＭ２２００のうちの１つに割り振られる。少なくとも１つの実施例では、スケジューラ・ユニット２２０４は、ワーク分散ユニットからタスクを受信し、ＳＭ２２００に割り当てられた１つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも１つの実施例では、スケジューラ・ユニット２２０４は、並列スレッドのワープとしての実行のためにスレッド・ブロックをスケジューリングし、各スレッド・ブロックは、少なくとも１つのワープを割り振られる。少なくとも１つの実施例では、各ワープは、スレッドを実行する。少なくとも１つの実施例では、スケジューラ・ユニット２２０４は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを割り振り、次いで、複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット（たとえば、処理コア２２１０、ＳＦＵ２２１２、及びＬＳＵ２２１４）にディスパッチする。少なくとも１つの実施例では、ＳＭ２２００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、「連動グループ」は、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し得、プログラミング・モデルは、スレッドが通信している粒度を開発者が表現することを可能にして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも１つの実施例では、連動起動ＡＰＩは、並列アルゴリズムの実行のためにスレッド・ブロックの間の同期をサポートする。少なくとも１つの実施例では、従来のプログラミング・モデルのＡＰＩは、連動スレッドを同期するための単一の簡単な構築物、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア（たとえば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）を提供する。しかしながら、少なくとも１つの実施例では、プログラマは、スレッド・ブロックよりも小さい粒度においてスレッドのグループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形態で、より高い性能、設計のフレキシビリティ、及びソフトウェア再使用を可能にし得る。少なくとも１つの実施例では、連動グループは、プログラマが、サブ・ブロック粒度及びマルチ・ブロック粒度において、スレッドのグループを明示的に定義し、連動グループ中のスレッドに対する同期などの集合的な動作を実施することを可能にする。少なくとも１つの実施例では、サブ・ブロック粒度は、単一スレッドと同じくらい小さい。少なくとも１つの実施例では、プログラミング・モデルは、ソフトウェア境界にわたるクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数が、収束に関して仮定する必要なしにそれらのローカル・コンテキスト内で安全に同期することができる。少なくとも１つの実施例では、連動グループ・プリミティブは、限定はしないが、プロデューサ－コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を含む、新しいパターンの連動並列性を可能にする。

少なくとも１つの実施例では、ディスパッチ・ユニット２２０６は、機能ユニットのうちの１つ又は複数に命令を送信するように構成され、スケジューラ・ユニット２２０４は、限定はしないが、同じワープからの２つの異なる命令が各クロック・サイクル中にディスパッチされることを可能にする２つのディスパッチ・ユニット２２０６を含む。少なくとも１つの実施例では、各スケジューラ・ユニット２２０４は、単一のディスパッチ・ユニット２２０６又は追加のディスパッチ・ユニット２２０６を含む。

少なくとも１つの実施例では、各ＳＭ２２００は、少なくとも１つの実施例では、限定はしないが、ＳＭ２２００の機能ユニットにレジスタのセットを提供するレジスタ・ファイル２２０８を含む。少なくとも１つの実施例では、レジスタ・ファイル２２０８は、各機能ユニットがレジスタ・ファイル２２０８の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも１つの実施例では、レジスタ・ファイル２２０８は、ＳＭ２２００によって実行されている異なるワープ間で分割され、レジスタ・ファイル２２０８は、機能ユニットのデータ経路に接続されたオペランドのための一時的ストレージを提供する。少なくとも１つの実施例では、各ＳＭ２２００は、限定はしないが、複数のＬ個の処理コア２２１０を含む。少なくとも１つの実施例では、ＳＭ２２００は、限定はしないが、多数の（たとえば、１２８個以上の）個別の処理コア２２１０を含む。少なくとも１つの実施例では、各処理コア２２１０は、限定はしないが、完全にパイプライン化された、単精度の、倍精度の、及び／又は混合精度の処理ユニットを含み、これは、限定はしないが、浮動小数点算術論理ユニット及び整数算術論理ユニットを含む。少なくとも１つの実施例では、浮動小数点算術論理ユニットは、浮動小数点算術のためのＩＥＥＥ７５４－２００８規格を実装する。少なくとも１つの実施例では、処理コア２２１０は、限定はしないが、６４個の単精度（３２ビット）浮動小数点コアと、６４個の整数コアと、３２個の倍精度（６４ビット）浮動小数点コアと、８つのテンソル・コアとを含む。

少なくとも１つの実施例では、テンソル・コアは、行列演算を実施するように構成される。少なくとも１つの実施例では、１つ又は複数のテンソル・コアは、処理コア２２１０中に含まれる。少なくとも１つの実施例では、テンソル・コアは、ニューラル・ネットワーク訓練及び推論のための畳み込み演算など、深層学習行列算術を実施するように構成される。少なくとも１つの実施例では、各テンソル・コアは、４×４の行列で動作し、行列の積和演算（ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅｏｐｅｒａｔｉｏｎ）Ｄ＝Ａ×Ｂ＋Ｃを実施し、ここで、Ａ、Ｂ、Ｃ、及びＤは４×４の行列である。

少なくとも１つの実施例では、行列乗算入力Ａ及びＢは、１６ビットの浮動小数点行列であり、和の行列Ｃ及びＤは、１６ビットの浮動小数点又は３２ビットの浮動小数点行列である。少なくとも１つの実施例では、テンソル・コアは、３２ビットの浮動小数点の和をもつ１６ビットの浮動小数点入力データで動作する。少なくとも１つの実施例では、１６ビットの浮動小数点乗算は、６４個の演算を使用し、結果的に完全精度の積をもたらし、次いで、完全精度の積が、４×４×４の行列乗算についての他の中間積との３２ビット浮動小数点加算を使用して加算される。少なくとも１つの実施例では、これらの小さい要素から築かれる、はるかに大きい２次元又はさらに高次元の行列演算を実施するために、テンソル・コアが使用される。少なくとも１つの実施例では、ＣＵＤＡ－Ｃ＋＋ＡＰＩなどのＡＰＩは、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも１つの実施例では、ＣＵＤＡレベルにおいて、ワープ・レベル・インターフェースは、ワープの３２個のスレッドすべてに及ぶ１６×１６サイズの行列を仮定する。

少なくとも１つの実施例では、各ＳＭ２２００は、限定はしないが、特殊関数（たとえば、属性評価、逆数平方根など）を実施するＭ個のＳＦＵ２２１２を含む。少なくとも１つの実施例では、ＳＦＵ２２１２は、限定はしないが、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも１つの実施例では、ＳＦＵ２２１２は、限定はしないが、テクスチャ・マップ・フィルタリング動作を実施するように構成されたテクスチャ・ユニットを含む。少なくとも１つの実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ（たとえば、テクセルの２Ｄアレイ）をロードして、ＳＭ２２００によって実行されるシェーダ・プログラムにおける使用のためのサンプリングされたテクスチャ値を作り出すように構成される。少なくとも１つの実施例では、テクスチャ・マップは、共有メモリ／Ｌ１キャッシュ２２１８に記憶される。少なくとも１つの実施例では、テクスチャ・ユニットは、ミップ・マップ（たとえば、詳細のレベルが異なるテクスチャ・マップ）を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも１つの実施例では、各ＳＭ２２００は、限定はしないが、２つのテクスチャ・ユニットを含む。

少なくとも１つの実施例では、各ＳＭ２２００は、限定はしないが、共有メモリ／Ｌ１キャッシュ２２１８とレジスタ・ファイル２２０８との間でロード及びストア動作を実装するＮ個のＬＳＵ２２１４を含む。少なくとも１つの実施例では、各ＳＭ２２００は、限定はしないが、相互接続ネットワーク２２１６を含み、相互接続ネットワーク２２１６は、機能ユニットの各々をレジスタ・ファイル２２０８に接続し、ＬＳＵ２２１４をレジスタ・ファイル２２０８及び共有メモリ／Ｌ１キャッシュ２２１８に接続する。少なくとも１つの実施例では、相互接続ネットワーク２２１６はクロスバーであり、クロスバーは、機能ユニットのうちのいずれかをレジスタ・ファイル２２０８中のレジスタのうちのいずれかに接続し、ＬＳＵ２２１４をレジスタ・ファイル２２０８と共有メモリ／Ｌ１キャッシュ２２１８中のメモリ・ロケーションとに接続するように構成され得る。

少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２２１８は、ＳＭ２２００とプリミティブ・エンジンとの間及びＳＭ２２００中のスレッド間でのデータ・ストレージ及び通信を可能にするオンチップ・メモリのアレイである。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２２１８は、限定はしないが、１２８ＫＢのストレージ容量を備え、ＳＭ２２００からパーティション・ユニットへの経路中にある。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２２１８は、読取り及び書込みをキャッシュするために使用される。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２２１８、Ｌ２キャッシュ、及びメモリのうちの１つ又は複数は、補助ストアである。

少なくとも１つの実施例では、データ・キャッシュと共有メモリ機能性とを単一のメモリ・ブロックに組み合わせることは、両方のタイプのメモリ・アクセスについて改善された性能を提供する。少なくとも１つの実施例では、容量は、共有メモリが容量の半分を使用するように構成され、テクスチャ及びロード／ストア動作が残りの容量を使用することができる場合など、共有メモリを使用しないプログラムによってキャッシュとして使用されるか、又は使用可能である。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２２１８内の統合は、共有メモリ／Ｌ１キャッシュ２２１８が、データをストリーミングするための高スループット管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供することを可能にする。少なくとも１つの実施例では、汎用並列算出のために構成されたとき、グラフィックス処理と比較してより簡単な構成が使用され得る。少なくとも１つの実施例では、固定機能ＧＰＵがバイパスされて、はるかに簡単なプログラミング・モデルを作成する。少なくとも１つの実施例では及び汎用並列算出構成では、ワーク分散ユニットは、スレッドのブロックをＤＰＣに直接割り当て、分散させる。少なくとも１つの実施例では、ブロック中のスレッドは、各スレッドが一意の結果を生成することを確実にするように、計算において一意のスレッドＩＤを使用して、同じプログラムを実行し、ＳＭ２２００を使用してプログラムを実行し、計算を実施し、共有メモリ／Ｌ１キャッシュ２２１８を使用してスレッド間で通信し、ＬＳＵ２２１４を使用して、共有メモリ／Ｌ１キャッシュ２２１８及びメモリ・パーティション・ユニットを通してグローバル・メモリを読み取り、書き込む。少なくとも１つの実施例では、汎用並列算出のために構成されたとき、ＳＭ２２００は、ＤＰＣ上で新しいワークを起動するためにスケジューラ・ユニット２２０４が使用することができるコマンドを書き込む。

少なくとも１つの実施例では、ＰＰＵは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレス・ハンドヘルド・デバイス）、ＰＤＡ、デジタル・カメラ、車両、頭部装着型ディスプレイ、ハンドヘルド電子デバイスなどに含まれるか、又はそれらに結合される。少なくとも１つの実施例では、ＰＰＵは、単一の半導体基板上で具体化される。少なくとも１つの実施例では、ＰＰＵは、追加のＰＰＵ、メモリ、ＲＩＳＣＣＰＵ、ＭＭＵ、デジタル－アナログ変換器（「ＤＡＣ」：ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）などの１つ又は複数の他のデバイスとともにＳｏＣ中に含まれる。

少なくとも１つの実施例では、ＰＰＵは、１つ又は複数のメモリ・デバイスを含むグラフィックス・カード上に含まれ得る。少なくとも１つの実施例では、グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースするように構成され得る。少なくとも１つの実施例では、ＰＰＵは、マザーボードのチップセット中に含まれる統合されたＧＰＵ（「ｉＧＰＵ」：ｉｎｔｅｇｒａｔｅｄＧＰＵ）であり得る。

汎用コンピューティングのためのソフトウェア構築物
以下の図は、限定はしないが、少なくとも１つの実施例を実装するための例示的なソフトウェア構築物を記載する。

図２３は、少なくとも１つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す。少なくとも１つの実施例では、プログラミング・プラットフォームは、算出タスクを加速するために、コンピューティング・システム上のハードウェアを活用するためのプラットフォームである。少なくとも１つの実施例では、プログラミング・プラットフォームは、ライブラリ、コンパイラ指令、及び／又はプログラミング言語への拡張を通して、ソフトウェア開発者にとってアクセス可能であり得る。少なくとも１つの実施例では、プログラミング・プラットフォームは、限定はしないが、ＣＵＤＡ、Ｒａｄｅｏｎオープン・コンピュート・プラットフォーム（「ＲＯＣｍ」：ＲａｄｅｏｎＯｐｅｎＣｏｍｐｕｔｅＰｌａｔｆｏｒｍ）、ＯｐｅｎＣＬ（ＯｐｅｎＣＬ（商標）はクロノス・グループ（Ｋｈｒｏｎｏｓｇｒｏｕｐ）によって開発される）、ＳＹＣＬ、又はＩｎｔｅｌＯｎｅＡＰＩであり得る。少なくとも１つの実施例では、ソフトウェア・スタック２３００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック２３００は、アプリケーション２３０１のための実行環境を提供する。少なくとも１つの実施例では、アプリケーション２３０１は、ソフトウェア・スタック２３００上で起動されることが可能な任意のコンピュータ・ソフトウェアを含み得る。少なくとも１つの実施例では、アプリケーション２３０１は、限定はしないが、人工知能（「ＡＩ」：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）／機械学習（「ＭＬ」：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）アプリケーション、高性能コンピューティング（「ＨＰＣ」）アプリケーション、仮想デスクトップ・インフラストラクチャ（「ＶＤＩ」：ｖｉｒｔｕａｌｄｅｓｋｔｏｐｉｎｆｒａｓｔｒｕｃｔｕｒｅ）、又はデータ・センタ・ワークロードを含み得る。

少なくとも１つの実施例では、アプリケーション２３０１及びソフトウェア・スタック２３００は、ハードウェア２３０７上で稼働する。少なくとも１つの実施例では、ハードウェア２３０７は、１つ又は複数のＧＰＵ、ＣＰＵ、ＦＰＧＡ、ＡＩエンジン、及び／又はプログラミング・プラットフォームをサポートする他のタイプのコンピュート・デバイスを含み得る。ＣＵＤＡの場合など、少なくとも１つの実施例では、ソフトウェア・スタック２３００は、ベンダー固有であり、（１つ又は複数の）特定のベンダーからのデバイスのみと互換性があり得る。ＯｐｅｎＣＬの場合など、少なくとも１つの実施例では、ソフトウェア・スタック２３００は、異なるベンダーからのデバイスで使用され得る。少なくとも１つの実施例では、ハードウェア２３０７は、アプリケーション・プログラミング・インターフェース（「ＡＰＩ」）コールを介して算出タスクを実施するためにアクセスされ得るもう１つのデバイスに接続されたホストを含む。少なくとも１つの実施例では、限定はしないが、ＣＰＵ（ただし、コンピュート・デバイスをも含み得る）及びそのメモリを含み得る、ハードウェア２３０７内のホストとは対照的に、ハードウェア２３０７内のデバイスは、限定はしないが、ＧＰＵ、ＦＰＧＡ、ＡＩエンジン、又は他のコンピュート・デバイス（ただし、ＣＰＵをも含み得る）及びそのメモリを含み得る。

少なくとも１つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック２３００は、限定はしないが、いくつかのライブラリ２３０３と、ランタイム２３０５と、デバイス・カーネル・ドライバ２３０６とを含む。少なくとも１つの実施例では、ライブラリ２３０３の各々は、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含み得る。少なくとも１つの実施例では、ライブラリ２３０３は、限定はしないが、事前に書かれたコード及びサブルーチン、クラス、値、タイプ仕様、構成データ、ドキュメンテーション、ヘルプ・データ、並びに／又はメッセージ・テンプレートを含み得る。少なくとも１つの実施例では、ライブラリ２３０３は、１つ又は複数のタイプのデバイス上での実行のために最適化される機能を含む。少なくとも１つの実施例では、ライブラリ２３０３は、限定はしないが、デバイス上で数学、深層学習、及び／又は他のタイプの動作を実施するための機能を含み得る。少なくとも１つの実施例では、ライブラリ２３０３は、ライブラリ２３０３において実装される機能を公開する、１つ又は複数のＡＰＩを含み得る、対応するＡＰＩ２３０２に関連する。

少なくとも１つの実施例では、アプリケーション２３０１は、図２８～図３０と併せて以下でより詳細に説明されるように、実行可能コードにコンパイルされるソース・コードとして書かれる。少なくとも１つの実施例では、アプリケーション２３０１の実行可能コードは、少なくとも部分的に、ソフトウェア・スタック２３００によって提供される実行環境上で稼働し得る。少なくとも１つの実施例では、アプリケーション２３０１の実行中に、ホストとは対照的な、デバイス上で稼働する必要があるコードに達し得る。少なくとも１つの実施例では、そのような場合、デバイス上で必須のコードをロード及び起動するために、ランタイム２３０５がコールされ得る。少なくとも１つの実施例では、ランタイム２３０５は、アプリケーションＳ０１の実行をサポートすることが可能である、任意の技術的に実現可能なランタイム・システムを含み得る。

少なくとも１つの実施例では、ランタイム２３０５は、（１つ又は複数の）ＡＰＩ２３０４として示されている、対応するＡＰＩに関連する、１つ又は複数のランタイム・ライブラリとして実装される。少なくとも１つの実施例では、そのようなランタイム・ライブラリのうちの１つ又は複数は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び／又は同期のための機能を含み得る。少なくとも１つの実施例では、メモリ管理機能は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、コピーし、並びにホスト・メモリとデバイス・メモリとの間でデータを転送するための機能を含み得る。少なくとも１つの実施例では、実行制御機能は、限定はしないが、デバイス上で機能（機能がホストからコール可能なグローバル機能であるとき、「カーネル」と呼ばれることがある）を起動し、デバイス上で実行されるべき所与の機能のためのランタイム・ライブラリによって維持されるバッファ中に属性値をセットするための機能を含み得る。

少なくとも１つの実施例では、ランタイム・ライブラリ及び対応する（１つ又は複数の）ＡＰＩ２３０４は、任意の技術的に実現可能な様式で実装され得る。少なくとも１つの実施例では、ある（又は任意の数の）ＡＰＩは、デバイスのきめ細かい制御のための機能の低レベルのセットを公開し得るが、別の（又は任意の数の）ＡＰＩは、そのような機能のより高いレベルのセットを公開し得る。少なくとも１つの実施例では、高レベル・ランタイムＡＰＩは、低レベルＡＰＩの上に築かれ得る。少なくとも１つの実施例では、ランタイムＡＰＩのうちの１つ又は複数は、言語依存しないランタイムＡＰＩの上に階層化された言語固有ＡＰＩであり得る。

少なくとも１つの実施例では、デバイス・カーネル・ドライバ２３０６は、基礎をなすデバイスとの通信を容易にするように構成される。少なくとも１つの実施例では、デバイス・カーネル・ドライバ２３０６は、（１つ又は複数の）ＡＰＩ２３０４などのＡＰＩ及び／又は他のソフトウェアが依拠する、低レベル機能性を提供し得る。少なくとも１つの実施例では、デバイス・カーネル・ドライバ２３０６は、ランタイムにおいて中間表現（「ＩＲ」：ｉｎｔｅｒｍｅｄｉａｔｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）コードをバイナリ・コードにコンパイルするように構成され得る。少なくとも１つの実施例では、ＣＵＤＡの場合、デバイス・カーネル・ドライバ２３０６は、ハードウェア固有でない並列スレッド実行（「ＰＴＸ」：ＰａｒａｌｌｅｌＴｈｒｅａｄＥｘｅｃｕｔｉｏｎ）ＩＲコードを、（コンパイルされたバイナリ・コードのキャッシングを伴って）ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにコンパイルし得、これは、コードを「ファイナライズする」（ｆｉｎａｌｉｚｉｎｇ）と呼ばれることもある。少なくとも１つの実施例では、そうすることは、ファイナライズされたコードがターゲット・デバイス上で稼働することを許し得、これは、ソース・コードが最初にＰＴＸコードにコンパイルされたとき、存在していないことがある。代替的に、少なくとも１つの実施例では、デバイス・ソース・コードは、デバイス・カーネル・ドライバ２３０６がランタイムにおいてＩＲコードをコンパイルすることを必要とすることなしに、オフラインでバイナリ・コードにコンパイルされ得る。

図２４は、少なくとも１つの実施例による、図２３のソフトウェア・スタック２３００のＣＵＤＡ実装形態を示す。少なくとも１つの実施例では、アプリケーション２４０１が起動され得るＣＵＤＡソフトウェア・スタック２４００は、ＣＵＤＡライブラリ２４０３と、ＣＵＤＡランタイム２４０５と、ＣＵＤＡドライバ２４０７と、デバイス・カーネル・ドライバ２４０８とを含む。少なくとも１つの実施例では、ＣＵＤＡソフトウェア・スタック２４００は、ハードウェア２４０９上で実行し、ハードウェア２４０９はＧＰＵを含み得、ＧＰＵは、ＣＵＤＡをサポートし、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＣＵＤＡソフトウェア・スタック２４００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、アプリケーション２４０１、ＣＵＤＡランタイム２４０５、及びデバイス・カーネル・ドライバ２４０８は、それぞれ、図２３と併せて上記で説明された、アプリケーション２３０１、ランタイム２３０５、及びデバイス・カーネル・ドライバ２３０６と同様の機能性を実施し得る。少なくとも１つの実施例では、ＣＵＤＡドライバ２４０７は、ＣＵＤＡドライバＡＰＩ２４０６を実装するライブラリ（ｌｉｂｃｕｄａ．ｓｏ）を含む。少なくとも１つの実施例では、ＣＵＤＡランタイム・ライブラリ（ｃｕｄａｒｔ）によって実装されるＣＵＤＡランタイムＡＰＩ２４０４と同様に、ＣＵＤＡドライバＡＰＩ２４０６は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、同期、及び／又はグラフィックス相互運用性のための機能を公開し得る。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２４０６は、ＣＵＤＡランタイムＡＰＩ２４０４が、暗黙的な初期化、（プロセスに類似する）コンテキスト管理、及び（動的にロードされたライブラリに類似する）モジュール管理を提供することによって、デバイス・コード管理を簡略化するという点で、ＣＵＤＡランタイムＡＰＩ２４０４とは異なる。少なくとも１つの実施例では、高レベルＣＵＤＡランタイムＡＰＩ２４０４とは対照的に、ＣＵＤＡドライバＡＰＩ２４０６は、特にコンテキスト及びモジュール・ローディングに関して、デバイスのよりきめ細かい制御を提供する低レベルＡＰＩである。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２４０６は、ＣＵＤＡランタイムＡＰＩ２４０４によって公開されないコンテキスト管理のための機能を公開し得る。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２４０６はまた、言語依存せず、たとえば、ＣＵＤＡランタイムＡＰＩ２４０４に加えて、ＯｐｅｎＣＬをサポートする。さらに、少なくとも１つの実施例では、ＣＵＤＡランタイム２４０５を含む開発ライブラリは、ユーザモードＣＵＤＡドライバ２４０７と（「ディスプレイ」ドライバと呼ばれることもある）カーネルモード・デバイス・ドライバ２４０８とを含むドライバ構成要素とは別個のものと見なされ得る。

少なくとも１つの実施例では、ＣＵＤＡライブラリ２４０３は、限定はしないが、数学ライブラリ、深層学習ライブラリ、並列アルゴリズム・ライブラリ、及び／又は信号／画像／ビデオ処理ライブラリを含み得、それらをアプリケーション２４０１などの並列コンピューティング・アプリケーションが利用し得る。少なくとも１つの実施例では、ＣＵＤＡライブラリ２４０３は、とりわけ、線形代数演算を実施するための基本線形代数サブプログラム（「ＢＬＡＳ」：ＢａｓｉｃＬｉｎｅａｒＡｌｇｅｂｒａＳｕｂｐｒｏｇｒａｍｓ）の実装であるｃｕＢＬＡＳライブラリ、高速フーリエ変換（「ＦＦＴ」：ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を算出するためのｃｕＦＦＴライブラリ、及び乱数を生成するためのｃｕＲＡＮＤライブラリなど、数学ライブラリを含み得る。少なくとも１つの実施例では、ＣＵＤＡライブラリ２４０３は、とりわけ、深層ニューラル・ネットワークのためのプリミティブのｃｕＤＮＮライブラリ及び高性能深層学習推論のためのＴｅｎｓｏｒＲＴプラットフォームなど、深層学習ライブラリを含み得る。

図２５は、少なくとも１つの実施例による、図２３のソフトウェア・スタック２３００のＲＯＣｍ実装形態を示す。少なくとも１つの実施例では、アプリケーション２５０１が起動され得るＲＯＣｍソフトウェア・スタック２５００は、言語ランタイム２５０３と、システム・ランタイム２５０５と、サンク（ｔｈｕｎｋ）２５０７と、ＲＯＣｍカーネル・ドライバ２５０８とを含む。少なくとも１つの実施例では、ＲＯＣｍソフトウェア・スタック２５００は、ハードウェア２５０９上で実行し、ハードウェア２５０９はＧＰＵを含み得、ＧＰＵは、ＲＯＣｍをサポートし、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＲＯＣｍソフトウェア・スタック２５００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、アプリケーション２５０１は、図２３と併せて上記で説明されたアプリケーション２３０１と同様の機能性を実施し得る。少なくとも１つの実施例では、さらに、言語ランタイム２５０３及びシステム・ランタイム２５０５は、図２３と併せて上記で説明されたランタイム２３０５と同様の機能性を実施し得る。少なくとも１つの実施例では、言語ランタイム２５０３とシステム・ランタイム２５０５とは、システム・ランタイム２５０５が、ＲＯＣｒシステム・ランタイムＡＰＩ２５０４を実装し、異種システム・アーキテクチャ（「ＨＳＡ」：ＨｅｔｅｒｏｇｅｎｅｏｕｓＳｙｓｔｅｍＡｒｃｈｉｔｅｃｔｕｒｅ）ランタイムＡＰＩを利用する、言語依存しないランタイムであるという点で、異なる。少なくとも１つの実施例では、ＨＳＡランタイムＡＰＩは、とりわけ、メモリ管理、カーネルの設計されたディスパッチを介した実行制御、エラー対処、システム及びエージェント情報、並びにランタイム初期化及び停止（ｓｈｕｔｄｏｗｎ）のための機能を含む、ＡＭＤＧＰＵにアクセスし、それと対話するためのインターフェースを公開する、シン（ｔｈｉｎ）・ユーザモードＡＰＩである。少なくとも１つの実施例では、システム・ランタイム２５０５とは対照的に、言語ランタイム２５０３は、ＲＯＣｒシステム・ランタイムＡＰＩ２５０４の上に階層化された言語固有ランタイムＡＰＩ２５０２の実装である。少なくとも１つの実施例では、言語ランタイムＡＰＩは、限定はしないが、とりわけ、ポータビリティのための異種コンピュート・インターフェース（「ＨＩＰ」）言語ランタイムＡＰＩ、異種コンピュート・コンパイラ（「ＨＣＣ」：ＨｅｔｅｒｏｇｅｎｅｏｕｓＣｏｍｐｕｔｅＣｏｍｐｉｌｅｒ）言語ランタイムＡＰＩ、又はＯｐｅｎＣＬＡＰＩを含み得る。特にＨＩＰ言語は、機能的に同様のバージョンのＣＵＤＡ機構をもつＣ＋＋プログラミング言語の拡張であり、少なくとも１つの実施例では、ＨＩＰ言語ランタイムＡＰＩは、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び同期のための機能など、図２４と併せて上記で説明されたＣＵＤＡランタイムＡＰＩ２４０４の機能と同様である機能を含む。

少なくとも１つの実施例では、サンク（ＲＯＣｔ）２５０７は、基礎をなすＲＯＣｍドライバ２５０８と対話するために使用され得るインターフェース２５０６である。少なくとも１つの実施例では、ＲＯＣｍドライバ２５０８は、ＡＭＤＧＰＵドライバとＨＳＡカーネル・ドライバ（ａｍｄｋｆｄ）との組合せである、ＲＯＣｋドライバである。少なくとも１つの実施例では、ＡＭＤＧＰＵドライバは、図２３と併せて上記で説明されたデバイス・カーネル・ドライバ２３０６と同様の機能性を実施する、ＡＭＤによって開発されたＧＰＵのためのデバイス・カーネル・ドライバである。少なくとも１つの実施例では、ＨＳＡカーネル・ドライバは、異なるタイプのプロセッサがハードウェア特徴を介してより効果的にシステム・リソースを共有することを許すドライバである。

少なくとも１つの実施例では、様々なライブラリ（図示せず）が、言語ランタイム２５０３より上にＲＯＣｍソフトウェア・スタック２５００中に含まれ、図２４と併せて上記で説明されたＣＵＤＡライブラリ２４０３に対する機能性の類似性を提供し得る。少なくとも１つの実施例では、様々なライブラリは、限定はしないが、とりわけ、ＣＵＤＡｃｕＢＬＡＳの機能と同様の機能を実装するｈｉｐＢＬＡＳライブラリ、ＣＵＤＡｃｕＦＦＴと同様であるＦＦＴを算出するためのｒｏｃＦＦＴライブラリなど、数学、深層学習、及び／又は他のライブラリを含み得る。

図２６は、少なくとも１つの実施例による、図２３のソフトウェア・スタック２３００のＯｐｅｎＣＬ実装形態を示す。少なくとも１つの実施例では、アプリケーション２６０１が起動され得るＯｐｅｎＣＬソフトウェア・スタック２６００は、ＯｐｅｎＣＬフレームワーク２６１０と、ＯｐｅｎＣＬランタイム２６０６と、ドライバ２６０７とを含む。少なくとも１つの実施例では、ＯｐｅｎＣＬソフトウェア・スタック２６００は、ベンダー固有でないハードウェア２４０９上で実行する。少なくとも１つの実施例では、ＯｐｅｎＣＬは、異なるベンダーによって開発されたデバイスによってサポートされるので、そのようなベンダーからのハードウェアと相互動作するために、特定のＯｐｅｎＣＬドライバが必要とされ得る。少なくとも１つの実施例では、ＯｐｅｎＣＬソフトウェア・スタック２６００は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、アプリケーション２６０１、ＯｐｅｎＣＬランタイム２６０６、デバイス・カーネル・ドライバ２６０７、及びハードウェア２６０８は、それぞれ、図２３と併せて上記で説明された、アプリケーション２３０１、ランタイム２３０５、デバイス・カーネル・ドライバ２３０６、及びハードウェア２３０７と同様の機能性を実施し得る。少なくとも１つの実施例では、アプリケーション２６０１は、デバイス上で実行されるべきであるコードをもつＯｐｅｎＣＬカーネル２６０２をさらに含む。

少なくとも１つの実施例では、ＯｐｅｎＣＬは、ホストに接続されたデバイスをホストが制御することを可能にする「プラットフォーム」を定義する。少なくとも１つの実施例では、ＯｐｅｎＣＬフレームワークは、プラットフォームＡＰＩ２６０３及びランタイムＡＰＩ２６０５として示されている、プラットフォーム層ＡＰＩ及びランタイムＡＰＩを提供する。少なくとも１つの実施例では、ランタイムＡＰＩ２６０５は、デバイス上でのカーネルの実行を管理するためにコンテキストを使用する。少なくとも１つの実施例では、各識別されたデバイスは、それぞれのコンテキストに関連し得、ランタイムＡＰＩ２６０５は、それぞれのコンテキストを使用して、そのデバイスのために、とりわけ、コマンド・キュー、プログラム・オブジェクト、及びカーネル・オブジェクトを管理し、メモリ・オブジェクトを共有し得る。少なくとも１つの実施例では、プラットフォームＡＰＩ２６０３は、とりわけ、デバイスを選択及び初期化し、コマンド・キューを介してデバイスにワークをサブミットし、デバイスとの間でのデータ転送を可能にするために、デバイス・コンテキストが使用されることを許す機能を公開する。少なくとも１つの実施例では、さらに、ＯｐｅｎＣＬフレームワークは、とりわけ、数学関数とリレーショナル関数と画像処理関数とを含む、様々な組み込み関数（図示せず）を提供する。

少なくとも１つの実施例では、コンパイラ２６０４も、ＯｐｅｎＣＬフレームワーク２６１０中に含まれる。少なくとも１つの実施例では、ソース・コードは、アプリケーションを実行するより前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされ得る。ＣＵＤＡ及びＲＯＣｍとは対照的に、少なくとも１つの実施例におけるＯｐｅｎＣＬアプリケーションは、コンパイラ２６０４によってオンラインでコンパイルされ得、コンパイラ２６０４は、標準ポータブル中間表現（「ＳＰＩＲ－Ｖ」：ＳｔａｎｄａｒｄＰｏｒｔａｂｌｅＩｎｔｅｒｍｅｄｉａｔｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ）コードなど、ソース・コード及び／又はＩＲコードをバイナリ・コードにコンパイルするために使用され得る、任意の数のコンパイラを表すために含まれる。代替的に、少なくとも１つの実施例では、ＯｐｅｎＣＬアプリケーションは、そのようなアプリケーションの実行より前に、オフラインでコンパイルされ得る。

図２７は、少なくとも１つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す。少なくとも１つの実施例では、プログラミング・プラットフォーム２７０４は、アプリケーション２７００が依拠し得る、様々なプログラミング・モデル２７０３、ミドルウェア及び／又はライブラリ２７０２、並びにフレームワーク２７０１をサポートするように構成される。少なくとも１つの実施例では、アプリケーション２７００は、たとえば、ＭＸＮｅｔ、ＰｙＴｏｒｃｈ、又はＴｅｎｓｏｒＦｌｏｗなど、深層学習フレームワークを使用して実装される、ＡＩ／ＭＬアプリケーションであり得、これは、基礎をなすハードウェア上で加速コンピューティングを提供するために、ｃｕＤＮＮ、ＮＶＩＤＩＡ集合通信ライブラリ（「ＮＣＣＬ」）、及び／又はＮＶＩＤＡディベロッパー・データ・ローディング・ライブラリ（「ＤＡＬＩ」：ＮＶＩＤＡＤｅｖｅｌｏｐｅｒＤａｔａＬｏａｄｉｎｇＬｉｂｒａｒｙ）ＣＵＤＡライブラリなど、ライブラリに依拠し得る。少なくとも１つの実施例では、プログラミング・プラットフォーム２７０４は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、プログラミング・プラットフォーム２７０４は、それぞれ、図２４、図２５、及び図２６と併せて上記で説明された、ＣＵＤＡ、ＲＯＣｍ、又はＯｐｅｎＣＬプラットフォームのうちの１つであり得る。少なくとも１つの実施例では、プログラミング・プラットフォーム２７０４は、アルゴリズム及びデータ構造の表現を許す基礎をなすコンピューティング・システムの抽象化である、複数のプログラミング・モデル２７０３をサポートする。少なくとも１つの実施例では、プログラミング・モデル２７０３は、性能を改善するために、基礎をなすハードウェアの特徴を公開し得る。少なくとも１つの実施例では、プログラミング・モデル２７０３は、限定はしないが、ＣＵＤＡ、ＨＩＰ、ＯｐｅｎＣＬ、Ｃ＋＋加速超並列処理（「Ｃ＋＋ＡＭＰ」：Ｃ＋＋ＡｃｃｅｌｅｒａｔｅｄＭａｓｓｉｖｅＰａｒａｌｌｅｌｉｓｍ）、オープン・マルチプロセシング（「ＯｐｅｎＭＰ」：ＯｐｅｎＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）、オープン・アクセラレータ（「ＯｐｅｎＡＣＣ」：ＯｐｅｎＡｃｃｅｌｅｒａｔｏｒｓ）、及び／又はＶｕｌｃａｎコンピュート（ＶｕｌｃａｎＣｏｍｐｕｔｅ）を含み得る。

少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア２７０２は、プログラミング・モデル２７０４の抽象化の実装を提供する。少なくとも１つの実施例では、そのようなライブラリは、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含む。少なくとも１つの実施例では、そのようなミドルウェアは、プログラミング・プラットフォーム２７０４から利用可能なソフトウェア以外にアプリケーションにサービスを提供するソフトウェアを含む。少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア２７０２は、限定はしないが、ｃｕＢＬＡＳ、ｃｕＦＦＴ、ｃｕＲＡＮＤ、及び他のＣＵＤＡライブラリ、又は、ｒｏｃＢＬＡＳ、ｒｏｃＦＦＴ、ｒｏｃＲＡＮＤ、及び他のＲＯＣｍライブラリを含み得る。さらに、少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア２７０２は、ＧＰＵのための通信ルーチンを提供するＮＣＣＬ及びＲＯＣｍ通信集合ライブラリ（「ＲＣＣＬ」：ＲＯＣｍＣｏｍｍｕｎｉｃａｔｉｏｎＣｏｌｌｅｃｔｉｖｅｓＬｉｂｒａｒｙ）のライブラリ、深層学習加速のためのＭＩＯｐｅｎライブラリ、並びに／又は、線形代数、行列及びベクトル演算、幾何学的変換、数値ソルバー、及び関係するアルゴリズムのための固有（Ｅｉｇｅｎ）ライブラリを含み得る。

少なくとも１つの実施例では、アプリケーション・フレームワーク２７０１は、ライブラリ及び／又はミドルウェア２７０２に依存する。少なくとも１つの実施例では、アプリケーション・フレームワーク２７０１の各々は、アプリケーション・ソフトウェアの標準構造を実装するために使用されるソフトウェア・フレームワークである。少なくとも１つの実施例では、上記で説明されたＡＩ／ＭＬ実例に戻ると、ＡＩ／ＭＬアプリケーションは、Ｃａｆｆｅ、Ｃａｆｆｅ２、ＴｅｎｓｏｒＦｌｏｗ、Ｋｅｒａｓ、ＰｙＴｏｒｃｈ、又はＭｘＮｅｔ深層学習フレームワークなど、フレームワークを使用して実装され得る。

図２８は、少なくとも１つの実施例による、図２３～図２６のプログラミング・プラットフォームのうちの１つの上で実行するためのコードをコンパイルすることを示す。少なくとも１つの実施例では、コンパイラ２８０１は、ホスト・コード並びにデバイス・コードの両方を含むソース・コード２８００を受信する。少なくとも１つの実施例では、コンパイラ２８０１は、ソース・コード２８００を、ホスト上での実行のためのホスト実行可能コード２８０２及びデバイス上での実行のためのデバイス実行可能コード２８０３にコンバートするように構成される。少なくとも１つの実施例では、ソース・コード２８００は、アプリケーションの実行より前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされるかのいずれかであり得る。

少なくとも１つの実施例では、ソース・コード２８００は、Ｃ＋＋、Ｃ、Ｆｏｒｔｒａｎなど、コンパイラ２８０１によってサポートされる任意のプログラミング言語のコードを含み得る。少なくとも１つの実施例では、ソース・コード２８００は、ホスト・コードとデバイス・コードとの混合物を有する単一ソース・ファイル中に含まれ得、その中にデバイス・コードのロケーションが示されている。少なくとも１つの実施例では、単一ソース・ファイルは、ＣＵＤＡコードを含む．ｃｕファイル、又はＨＩＰコードを含む．ｈｉｐ．ｃｐｐファイルであり得る。代替的に、少なくとも１つの実施例では、ソース・コード２８００は、その中でホスト・コードとデバイス・コードとが分離される単一ソース・ファイルではなく、複数のソース・コード・ファイルを含み得る。

少なくとも１つの実施例では、コンパイラ２８０１は、ソース・コード２８００を、ホスト上での実行のためのホスト実行可能コード２８０２及びデバイス上での実行のためのデバイス実行可能コード２８０３にコンパイルするように構成される。少なくとも１つの実施例では、コンパイラ２８０１は、ソース・コード２８００を抽象システム・ツリー（ＡＳＴ：ａｂｓｔｒａｃｔｓｙｓｔｅｍｔｒｅｅ）に構文解析することと、最適化を実施することと、実行可能コードを生成することとを含む、動作を実施する。ソース・コード２８００が単一ソース・ファイルを含む、少なくとも１つの実施例では、コンパイラ２８０１は、図２９に関して以下でより詳細に説明されるように、そのような単一ソース・ファイル中でデバイス・コードをホスト・コードから分離し、デバイス・コード及びホスト・コードを、それぞれ、デバイス実行可能コード２８０３及びホスト実行可能コード２８０２にコンパイルし、デバイス実行可能コード２８０３とホスト実行可能コード２８０２とを単一のファイルにおいて互いにリンクし得る。

少なくとも１つの実施例では、ホスト実行可能コード２８０２及びデバイス実行可能コード２８０３は、バイナリ・コード及び／又はＩＲコードなど、任意の好適なフォーマットのものであり得る。少なくとも１つの実施例では、ＣＵＤＡの場合、ホスト実行可能コード２８０２は、ネイティブ・オブジェクト・コードを含み得、デバイス実行可能コード２８０３は、ＰＴＸ中間表現のコードを含み得る。少なくとも１つの実施例では、ＲＯＣｍの場合、ホスト実行可能コード２８０２とデバイス実行可能コード２８０３の両方は、ターゲット・バイナリ・コードを含み得る。

図２９は、少なくとも１つの実施例による、図２３～図２６のプログラミング・プラットフォームのうちの１つの上で実行するためのコードをコンパイルすることのより詳細な図である。少なくとも１つの実施例では、コンパイラ２９０１は、ソース・コード２９００を受信し、ソース・コード２９００をコンパイルし、実行可能ファイル２９１０を出力するように構成される。少なくとも１つの実施例では、ソース・コード２９００は、ホスト・コードとデバイス・コードの両方を含む、．ｃｕファイル、．ｈｉｐ．ｃｐｐファイル、又は別のフォーマットのファイルなど、単一ソース・ファイルである。少なくとも１つの実施例では、コンパイラ２９０１は、限定はしないが、．ｃｕファイル中のＣＵＤＡコードをコンパイルするためのＮＶＩＤＩＡＣＵＤＡコンパイラ（「ＮＶＣＣ」：ＮＶＩＤＩＡＣＵＤＡｃｏｍｐｉｌｅｒ）、又は．ｈｉｐ．ｃｐｐファイル中のＨＩＰコードをコンパイルするためのＨＣＣコンパイラであり得る。

少なくとも１つの実施例では、コンパイラ２９０１は、コンパイラ・フロント・エンド２９０２と、ホスト・コンパイラ２９０５と、デバイス・コンパイラ２９０６と、リンカ２９０９とを含む。少なくとも１つの実施例では、コンパイラ・フロント・エンド２９０２は、ソース・コード２９００中でデバイス・コード２９０４をホスト・コード２９０３から分離するように構成される。少なくとも１つの実施例では、デバイス・コード２９０４は、デバイス・コンパイラ２９０６によってデバイス実行可能コード２９０８にコンパイルされ、デバイス実行可能コード２９０８は、説明されたように、バイナリ・コード又はＩＲコードを含み得る。少なくとも１つの実施例では、別個に、ホスト・コード２９０３は、ホスト・コンパイラ２９０５によってホスト実行可能コード２９０７にコンパイルされる。少なくとも１つの実施例では、ＮＶＣＣの場合、ホスト・コンパイラ２９０５は、限定はしないが、ネイティブ・オブジェクト・コードを出力する汎用Ｃ／Ｃ＋＋コンパイラであり得るが、デバイス・コンパイラ２９０６は、限定はしないが、ＬＬＶＭコンパイラ・インフラストラクチャをフォークし、ＰＴＸコード又はバイナリ・コードを出力する、低レベル仮想機械（「ＬＬＶＭ」：ＬｏｗＬｅｖｅｌＶｉｒｔｕａｌＭａｃｈｉｎｅ）ベースのコンパイラであり得る。少なくとも１つの実施例では、ＨＣＣの場合、ホスト・コンパイラ２９０５とデバイス・コンパイラ２９０６の両方は、限定はしないが、ターゲット・バイナリ・コードを出力するＬＬＶＭベースのコンパイラであり得る。

少なくとも１つの実施例では、ソース・コード２９００をホスト実行可能コード２９０７及びデバイス実行可能コード２９０８にコンパイルした後に、リンカ２９０９は、ホスト実行可能コード２９０７とデバイス実行可能コード２９０８とを実行可能ファイル２９１０において互いにリンクする。少なくとも１つの実施例では、ホストのためのネイティブ・オブジェクト・コードと、デバイスのためのＰＴＸ又はバイナリ・コードとは、オブジェクト・コードを記憶するために使用されるコンテナ・フォーマットである、実行可能及びリンク可能フォーマット（「ＥＬＦ」：ＥｘｅｃｕｔａｂｌｅａｎｄＬｉｎｋａｂｌｅＦｏｒｍａｔ）ファイルにおいて互いにリンクされ得る。

図３０は、少なくとも１つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す。少なくとも１つの実施例では、ソース・コード３０００は、トランスレーション・ツール３００１を通して渡され、トランスレーション・ツール３００１は、ソース・コード３０００を、トランスレートされたソース・コード３００２にトランスレートする。少なくとも１つの実施例では、コンパイラ３００３は、図２８と併せて上記で説明されたように、ホスト実行可能コード２８０２及びデバイス実行可能２８０３へのコンパイラ２８０１によるソース・コード２８００のコンパイルと同様であるプロセスにおいて、トランスレートされたソース・コード３００２をホスト実行可能コード３００４及びデバイス実行可能コード３００５にコンパイルするために使用される。

少なくとも１つの実施例では、トランスレーション・ツール３００１によって実施されるトランスレーションは、稼働することが最初に意図された環境とは異なる環境における実行のためにソース３０００を移植するために使用される。少なくとも１つの実施例では、トランスレーション・ツール３００１は、限定はしないが、ＣＵＤＡプラットフォームを対象とするＣＵＤＡコードを、ＲＯＣｍプラットフォーム上でコンパイル及び実行され得るＨＩＰコードに「ｈｉｐｉｆｙ」するために使用される、ＨＩＰトランスレータを含み得る。少なくとも１つの実施例では、ソース・コード３０００のトランスレーションは、図３１Ａ～図３２と併せて以下でより詳細に説明されるように、ソース・コード３０００を構文解析することと、あるプログラミング・モデル（たとえば、ＣＵＤＡ）によって提供される（１つ又は複数の）ＡＰＩへのコールを、別のプログラミング・モデル（たとえば、ＨＩＰ）によって提供される（１つ又は複数の）ＡＰＩへの対応するコールにコンバートすることとを含み得る。少なくとも１つの実施例では、ＣＵＤＡコードをｈｉｐｉｆｙすることの実例に戻ると、ＣＵＤＡランタイムＡＰＩ、ＣＵＤＡドライバＡＰＩ、及び／又はＣＵＤＡライブラリへのコールは、対応するＨＩＰＡＰＩコールにコンバートされ得る。少なくとも１つの実施例では、トランスレーション・ツール３００１によって実施される自動トランスレーションは、時々、不完全であり、ソース・コード３０００を完全に移植するために追加の手動の労力を必要とし得る。

汎用コンピューティングのためのＧＰＵを構成すること
以下の図は、限定はしないが、少なくとも１つの実施例による、コンピュート・ソース・コードをコンパイル及び実行するための例示的なアーキテクチャを記載する。

図３１Ａは、少なくとも１つの実施例による、異なるタイプの処理ユニットを使用してＣＵＤＡソース・コード３１１０をコンパイル及び実行するように構成されたシステム３１Ａ００を示す。少なくとも１つの実施例では、システム３１Ａ００は、限定はしないが、ＣＵＤＡソース・コード３１１０と、ＣＵＤＡコンパイラ３１５０と、ホスト実行可能コード３１７０（１）と、ホスト実行可能コード３１７０（２）と、ＣＵＤＡデバイス実行可能コード３１８４と、ＣＰＵ３１９０と、ＣＵＤＡ対応ＧＰＵ３１９４と、ＧＰＵ３１９２と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０と、ＨＩＰソース・コード３１３０と、ＨＩＰコンパイラ・ドライバ３１４０と、ＨＣＣ３１６０と、ＨＣＣデバイス実行可能コード３１８２とを含む。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、ＣＵＤＡプログラミング言語の人間が読み取れるコードの集合である。少なくとも１つの実施例では、ＣＵＤＡコードは、ＣＵＤＡプログラミング言語の人間が読み取れるコードである。少なくとも１つの実施例では、ＣＵＤＡプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、デバイス・コードは、コンパイルの後にデバイス上で並列に実行可能であるソース・コードである。少なくとも１つの実施例では、デバイスは、ＣＵＤＡ対応ＧＰＵ３１９０、ＧＰＵ３１１９２、又は別のＧＰＧＰＵなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも１つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも１つの実施例では、ホストは、ＣＰＵ３１９０など、連続命令処理のために最適化されるプロセッサである。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３１１２と、（ゼロを含む）任意の数のデバイス機能３１１４と、（ゼロを含む）任意の数のホスト機能３１１６と、（ゼロを含む）任意の数のホスト／デバイス機能３１１８とを含む。少なくとも１つの実施例では、グローバル機能３１１２と、デバイス機能３１１４と、ホスト機能３１１６と、ホスト／デバイス機能３１１８とは、ＣＵＤＡソース・コード３１１０中で混合され得る。少なくとも１つの実施例では、グローバル機能３１１２の各々は、デバイス上で実行可能であり、ホストからコール可能である。少なくとも１つの実施例では、グローバル機能３１１２のうちの１つ又は複数は、したがって、デバイスへのエントリ・ポイントとして働き得る。少なくとも１つの実施例では、グローバル機能３１１２の各々はカーネルである。少なくとも１つの実施例では、及び動的並列処理として知られる技法では、グローバル機能３１１２のうちの１つ又は複数は、カーネルを定義し、カーネルは、デバイス上で実行可能であり、そのようなデバイスからコール可能である。少なくとも１つの実施例では、カーネルは、実行中にデバイス上のＮ（ここで、Ｎは任意の正の整数である）個の異なるスレッドによって並列にＮ回実行される。

少なくとも１つの実施例では、デバイス機能３１１４の各々は、デバイス上で実行され、そのようなデバイスからのみコール可能である。少なくとも１つの実施例では、ホスト機能３１１６の各々は、ホスト上で実行され、そのようなホストからのみコール可能である。少なくとも１つの実施例では、ホスト／デバイス機能３１１６の各々は、ホスト上で実行可能であり、そのようなホストからのみコール可能であるホスト・バージョンの機能と、デバイス上で実行可能であり、そのようなデバイスからのみコール可能であるデバイス・バージョンの機能の両方を定義する。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、限定はしないが、ＣＵＤＡランタイムＡＰＩ３１０２を介して定義される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＣＵＤＡランタイムＡＰＩ３１０２は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、ホスト・メモリとデバイス・メモリとの間でデータを転送し、複数のデバイスをもつシステムを管理するなどのためにホスト上で実行する、任意の数の機能を含み得る。少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、任意の数の他のＣＵＤＡＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＣＵＤＡＡＰＩは、ＣＵＤＡコードによる使用のために設計される任意のＡＰＩであり得る。少なくとも１つの実施例では、ＣＵＤＡＡＰＩは、限定はしないが、ＣＵＤＡランタイムＡＰＩ３１０２、ＣＵＤＡドライバＡＰＩ、任意の数のＣＵＤＡライブラリのためのＡＰＩなどを含む。少なくとも１つの実施例では、及びＣＵＤＡランタイムＡＰＩ３１０２に対して、ＣＵＤＡドライバＡＰＩは、より低いレベルのＡＰＩであるが、デバイスのよりきめ細かい制御を提供する。少なくとも１つの実施例では、ＣＵＤＡライブラリの実例は、限定はしないが、ｃｕＢＬＡＳ、ｃｕＦＦＴ、ｃｕＲＡＮＤ、ｃｕＤＮＮなどを含む。

少なくとも１つの実施例では、ＣＵＤＡコンパイラ３１５０は、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成するために、入力ＣＵＤＡコード（たとえば、ＣＵＤＡソース・コード３１１０）をコンパイルする。少なくとも１つの実施例では、ＣＵＤＡコンパイラ３１５０はＮＶＣＣである。少なくとも１つの実施例では、ホスト実行可能コード３１７０（１）は、ＣＰＵ３１９０上で実行可能である、入力ソース・コード中に含まれるホスト・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＣＰＵ３１９０は、連続命令処理のために最適化される任意のプロセッサであり得る。

少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、ＣＵＤＡ対応ＧＰＵ３１９４上で実行可能である、入力ソース・コード中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、ＰＴＸコードなどのＩＲコードを含み、これは、デバイス・ドライバによって、特定のターゲット・デバイス（たとえば、ＣＵＤＡ対応ＧＰＵ３１９４）のためのバイナリ・コードに、ランタイムにおいてさらにコンパイルされる。少なくとも１つの実施例では、ＣＵＤＡ対応ＧＰＵ３１９４は、並列命令処理のために最適化され、ＣＵＤＡをサポートする、任意のプロセッサであり得る。少なくとも１つの実施例では、ＣＵＤＡ対応ＧＰＵ３１９４は、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される。

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０を機能的に同様のＨＩＰソース・コード３１３０にトランスレートするように構成される。少なくとも１つの実施例では、ＨＩＰソース・コード３１３０は、ＨＩＰプログラミング言語の人間が読み取れるコードの集合である。少なくとも１つの実施例では、ＨＩＰコードは、ＨＩＰプログラミング言語の人間が読み取れるコードである。少なくとも１つの実施例では、ＨＩＰプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための、機能的に同様のバージョンのＣＵＤＡ機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、ＨＩＰプログラミング言語は、ＣＵＤＡプログラミング言語の機能性のサブセットを含み得る。少なくとも１つの実施例では、たとえば、ＨＩＰプログラミング言語は、限定はしないが、グローバル機能３１１２を定義するための（１つ又は複数の）機構を含むが、そのようなＨＩＰプログラミング言語は、動的並列処理のサポートがないことがあり、したがって、ＨＩＰコードにおいて定義されたグローバル機能３１１２は、ホストからのみコール可能であり得る。

少なくとも１つの実施例では、ＨＩＰソース・コード３１３０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３１１２と、（ゼロを含む）任意の数のデバイス機能３１１４と、（ゼロを含む）任意の数のホスト機能３１１６と、（ゼロを含む）任意の数のホスト／デバイス機能３１１８とを含む。少なくとも１つの実施例では、ＨＩＰソース・コード３１３０は、ＨＩＰランタイムＡＰＩ３１３２において指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＨＩＰランタイムＡＰＩ３１３２は、限定はしないが、ＣＵＤＡランタイムＡＰＩ３１０２中に含まれる機能のサブセットの機能的に同様のバージョンを含む。少なくとも１つの実施例では、ＨＩＰソース・コード３１３０は、任意の数の他のＨＩＰＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＨＩＰＡＰＩは、ＨＩＰコード及び／又はＲＯＣｍによる使用のために設計される任意のＡＰＩであり得る。少なくとも１つの実施例では、ＨＩＰＡＰＩは、限定はしないが、ＨＩＰランタイムＡＰＩ３１３２、ＨＩＰドライバＡＰＩ、任意の数のＨＩＰライブラリのためのＡＰＩ、任意の数のＲＯＣｍライブラリのためのＡＰＩなどを含む。

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡコード中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ＣＵＤＡコード中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。少なくとも１つの実施例では、ＣＵＤＡコールは、ＣＵＤＡＡＰＩにおいて指定された機能へのコールであり、ＨＩＰコールは、ＨＩＰＡＰＩにおいて指定された機能へのコールである。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡランタイムＡＰＩ３１０２において指定された機能への任意の数のコールを、ＨＩＰランタイムＡＰＩ３１３２において指定された機能への任意の数のコールにコンバートする。

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、テキスト・ベースのトランスレーション・プロセスを実行するｈｉｐｉｆｙ－ｐｅｒｌとして知られるツールである。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ｈｉｐｉｆｙ－ｃｌａｎｇとして知られるツールであり、これは、ｈｉｐｉｆｙ－ｐｅｒｌに対して、ｃｌａｎｇ（コンパイラ・フロント・エンド）を使用してＣＵＤＡコードを構文解析することと、次いで、得られたシンボルをトランスレートすることとを伴う、より複雑でよりロバストなトランスレーション・プロセスを実行する。少なくとも１つの実施例では、ＣＵＤＡコードをＨＩＰコードに適切にコンバートすることは、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０によって実施される修正に加えて、修正（たとえば、手動の編集）を必要とし得る。

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、ターゲット・デバイス３１４６を決定し、次いで、ターゲット・デバイス３１４６と互換性があるコンパイラを、ＨＩＰソース・コード３１３０をコンパイルするように構成する、フロント・エンドである。少なくとも１つの実施例では、ターゲット・デバイス３１４６は、並列命令処理のために最適化されるプロセッサである。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、任意の技術的に実現可能な様式でターゲット・デバイス３１４６を決定し得る。

少なくとも１つの実施例では、ターゲット・デバイス３１４６が、ＣＵＤＡ（たとえば、ＣＵＤＡ対応ＧＰＵ３１９４）と互換性がある場合、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２を生成する。少なくとも１つの実施例では、及び図３１Ｂと併せてより詳細に説明されるように、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２は、限定はしないが、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ及びＣＵＤＡランタイム・ライブラリを使用してＨＩＰソース・コード３１３０をコンパイルするようにＣＵＤＡコンパイラ３１５０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２に応答して、ＣＵＤＡコンパイラ３１５０は、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成する。

少なくとも１つの実施例では、ターゲット・デバイス３１４６が、ＣＵＤＡと互換性がない場合、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４を生成する。少なくとも１つの実施例では、及び図３１Ｃと併せてより詳細に説明されるように、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４は、限定はしないが、ＨＣＣヘッダ及びＨＩＰ／ＨＣＣランタイム・ライブラリを使用してＨＩＰソース・コード３１３０をコンパイルするようにＨＣＣ３１６０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＨＣＣコンパイル・コマンド３１４４に応答して、ＨＣＣ３１６０は、ホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２を生成する。少なくとも１つの実施例では、ＨＣＣデバイス実行可能コード３１８２は、ＧＰＵ３１９２上で実行可能である、ＨＩＰソース・コード３１３０中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＧＰＵ３１９２は、並列命令処理のために最適化され、ＣＵＤＡと互換性がなく、ＨＣＣと互換性がある、任意のプロセッサであり得る。少なくとも１つの実施例では、ＧＰＵ３１９２は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＧＰＵ３１９２は、ＣＵＤＡ非対応ＧＰＵ３１９２である。

単に説明目的のために、ＣＰＵ３１９０及び異なるデバイス上での実行のためにＣＵＤＡソース・コード３１１０をコンパイルするために少なくとも１つの実施例において実装され得る３つの異なるフローが、図３１Ａに図示されている。少なくとも１つの実施例では、直接的ＣＵＤＡフローが、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートすることなしに、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４上での実行のためにＣＵＤＡソース・コード３１１０をコンパイルする。少なくとも１つの実施例では、間接的ＣＵＤＡフローが、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートし、次いで、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４上での実行のためにＨＩＰソース・コード３１３０をコンパイルする。少なくとも１つの実施例では、ＣＵＤＡ／ＨＣＣフローが、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートし、次いで、ＣＰＵ３１９０及びＧＰＵ３１９２上での実行のためにＨＩＰソース・コード３１３０をコンパイルする。

少なくとも１つの実施例において実装され得る直接的ＣＵＤＡフローは、破線及びＡ１～Ａ３とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＡ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡコンパイラ３１５０は、ＣＵＤＡソース・コード３１１０と、ＣＵＤＡソース・コード３１１０をコンパイルするようにＣＵＤＡコンパイラ３１５０を構成するＣＵＤＡコンパイル・コマンド３１４８とを受信する。少なくとも１つの実施例では、直接的ＣＵＤＡフローにおいて使用されるＣＵＤＡソース・コード３１１０は、Ｃ＋＋以外のプログラミング言語（たとえば、Ｃ、Ｆｏｒｔｒａｎ、Ｐｙｔｈｏｎ、Ｊａｖａなど）に基づくＣＵＤＡプログラミング言語で書かれる。少なくとも１つの実施例では、及びＣＵＤＡコンパイル・コマンド３１４８に応答して、ＣＵＤＡコンパイラ３１５０は、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成する（Ａ２とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＡ３とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４は、それぞれ、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

少なくとも１つの実施例において実装され得る間接的ＣＵＤＡフローは、点線及びＢ１～Ｂ６とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＢ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０を受信する。少なくとも１つの実施例では、及びＢ２とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートする。少なくとも１つの実施例では、及びＢ３とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰソース・コード３１３０を受信し、ターゲット・デバイス３１４６がＣＵＤＡ対応であると決定する。

少なくとも１つの実施例では、及びＢ４とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２を生成し、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２とＨＩＰソース・コード３１３０の両方をＣＵＤＡコンパイラ３１５０に送信する。少なくとも１つの実施例では、及び図３１Ｂと併せてより詳細に説明されるように、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２は、限定はしないが、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ及びＣＵＤＡランタイム・ライブラリを使用してＨＩＰソース・コード３１３０をコンパイルするようにＣＵＤＡコンパイラ３１５０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２に応答して、ＣＵＤＡコンパイラ３１５０は、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成する（Ｂ５とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＢ６とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４は、それぞれ、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

少なくとも１つの実施例において実装され得るＣＵＤＡ／ＨＣＣフローは、実線及びＣ１～Ｃ６とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＣ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０を受信する。少なくとも１つの実施例では、及びＣ２とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートする。少なくとも１つの実施例では、及びＣ３とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰソース・コード３１３０を受信し、ターゲット・デバイス３１４６がＣＵＤＡ対応でないと決定する。

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４を生成し、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４とＨＩＰソース・コード３１３０の両方をＨＣＣ３１６０に送信する（Ｃ４とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及び図３１Ｃと併せてより詳細に説明されるように、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４は、限定はしないが、ＨＣＣヘッダ及びＨＩＰ／ＨＣＣランタイム・ライブラリを使用してＨＩＰソース・コード３１３０をコンパイルするようにＨＣＣ３１６０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＨＣＣコンパイル・コマンド３１４４に応答して、ＨＣＣ３１６０は、ホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２を生成する（Ｃ５とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＣ６とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２は、それぞれ、ＣＰＵ３１９０及びＧＰＵ３１９２上で実行され得る。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０がＨＩＰソース・コード３１３０にトランスレートされた後に、ＨＩＰコンパイラ・ドライバ３１４０は、その後、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０を再実行することなしに、ＣＵＤＡ対応ＧＰＵ３１９４又はＧＰＵ３１９２のいずれかのための実行可能コードを生成するために使用され得る。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートし、ＨＩＰソース・コード３１３０は、次いで、メモリに記憶される。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、次いで、ＨＩＰソース・コード３１３０に基づいてホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２を生成するようにＨＣＣ３１６０を構成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、その後、記憶されたＨＩＰソース・コード３１３０に基づいてホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成するようにＣＵＤＡコンパイラ３１５０を構成する。

図３１Ｂは、少なくとも１つの実施例による、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４を使用して、図３１ＡのＣＵＤＡソース・コード３１１０をコンパイル及び実行するように構成されたシステム３１０４を示す。少なくとも１つの実施例では、システム３１０４は、限定はしないが、ＣＵＤＡソース・コード３１１０と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０と、ＨＩＰソース・コード３１３０と、ＨＩＰコンパイラ・ドライバ３１４０と、ＣＵＤＡコンパイラ３１５０と、ホスト実行可能コード３１７０（１）と、ＣＵＤＡデバイス実行可能コード３１８４と、ＣＰＵ３１９０と、ＣＵＤＡ対応ＧＰＵ３１９４とを含む。少なくとも１つの実施例では、システム３１０４は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、及び図３１Ａと併せて本明細書で前に説明されたように、ＣＵＤＡソース・コード３１１０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３１１２と、（ゼロを含む）任意の数のデバイス機能３１１４と、（ゼロを含む）任意の数のホスト機能３１１６と、（ゼロを含む）任意の数のホスト／デバイス機能３１１８とを含む。少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、限定はしないが、任意の数のＣＵＤＡＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含む。

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ＣＵＤＡソース・コード３１１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、ターゲット・デバイス３１４６がＣＵＤＡ対応であると決定し、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２を生成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、次いで、ＨＩＰソース・コード３１３０をコンパイルするようにＨＩＰ／ＮＶＣＣコンパイル・コマンド３１４２を介してＣＵＤＡコンパイラ３１５０を構成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、ＣＵＤＡコンパイラ３１５０を構成することの一部として、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３１５２へのアクセスを提供する。少なくとも１つの実施例では、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３１５２は、任意の数のＨＩＰＡＰＩにおいて指定された任意の数の機構（たとえば、機能）を、任意の数のＣＵＤＡＡＰＩにおいて指定された任意の数の機構にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡコンパイラ３１５０は、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４を生成するために、ＣＵＤＡランタイムＡＰＩ３１０２に対応するＣＵＤＡランタイム・ライブラリ３１５４と併せて、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３１５２を使用する。少なくとも１つの実施例では、ホスト実行可能コード３１７０（１）及びＣＵＤＡデバイス実行可能コード３１８４は、次いで、それぞれ、ＣＰＵ３１９０及びＣＵＤＡ対応ＧＰＵ３１９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３１８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

図３１Ｃは、少なくとも１つの実施例による、ＣＰＵ３１９０及びＣＵＤＡ非対応ＧＰＵ３１９２を使用して、図３１ＡのＣＵＤＡソース・コード３１１０をコンパイル及び実行するように構成されたシステム３１０６を示す。少なくとも１つの実施例では、システム３１０６は、限定はしないが、ＣＵＤＡソース・コード３１１０と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０と、ＨＩＰソース・コード３１３０と、ＨＩＰコンパイラ・ドライバ３１４０と、ＨＣＣ３１６０と、ホスト実行可能コード３１７０（２）と、ＨＣＣデバイス実行可能コード３１８２と、ＣＰＵ３１９０と、ＧＰＵ３１９２とを含む。少なくとも１つの実施例では、システム３１０６は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ソース・コード３１１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、その後、ターゲット・デバイス３１４６がＣＵＤＡ対応でないと決定し、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４を生成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３１４０は、次いで、ＨＩＰソース・コード３１３０をコンパイルするためにＨＩＰ／ＨＣＣコンパイル・コマンド３１４４を実行するようにＨＣＣ３１６０を構成する。少なくとも１つの実施例では、ＨＩＰ／ＨＣＣコンパイル・コマンド３１４４は、限定はしないが、ホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２を生成するためにＨＩＰ／ＨＣＣランタイム・ライブラリ３１５８及びＨＣＣヘッダ３１５６を使用するようにＨＣＣ３１６０を構成する。少なくとも１つの実施例では、ＨＩＰ／ＨＣＣランタイム・ライブラリ３１５８は、ＨＩＰランタイムＡＰＩ３１３２に対応する。少なくとも１つの実施例では、ＨＣＣヘッダ３１５６は、限定はしないが、ＨＩＰ及びＨＣＣのための任意の数及びタイプの相互運用性機構を含む。少なくとも１つの実施例では、ホスト実行可能コード３１７０（２）及びＨＣＣデバイス実行可能コード３１８２は、それぞれ、ＣＰＵ３１９０及びＧＰＵ３１９２上で実行され得る。

図３２は、少なくとも１つの実施例による、図３１ＣのＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０によってトランスレートされた例示的なカーネルを示す。少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、所与のカーネルが解くように設計される全体的な問題を、スレッド・ブロックを使用して独立して解かれ得る比較的粗いサブ問題に区分けする。少なくとも１つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含む。少なくとも１つの実施例では、各サブ問題は、スレッド・ブロック内のスレッドによって並列に連動して解かれ得る比較的細かい部片に区分けされる。少なくとも１つの実施例では、スレッド・ブロック内のスレッドは、共有メモリを通してデータを共有することによって、及びメモリ・アクセスを協調させるために実行を同期させることによって連動することができる。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、所与のカーネルに関連するスレッド・ブロックを、スレッド・ブロックの１次元グリッド、２次元グリッド、又は３次元グリッドに組織化する。少なくとも１つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含み、グリッドは、限定はしないが、任意の数のスレッド・ブロックを含む。

少なくとも１つの実施例では、カーネルは、「＿＿ｇｌｏｂａｌ＿＿」宣言指定子（ｄｅｃｌａｒａｔｉｏｎｓｐｅｃｉｆｉｅｒ）を使用して定義されるデバイス・コード中の関数である。少なくとも１つの実施例では、所与のカーネル・コール及び関連するストリームについてカーネルを実行するグリッドの次元は、ＣＵＤＡカーネル起動シンタックス３２１０を使用して指定される。少なくとも１つの実施例では、ＣＵＤＡカーネル起動シンタックス３２１０は、「ＫｅｒｎｅｌＮａｍｅ＜＜＜ＧｒｉｄＳｉｚｅ，ＢｌｏｃｋＳｉｚｅ，ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ，Ｓｔｒｅａｍ＞＞＞（ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ）；」として指定される。少なくとも１つの実施例では、実行構成シンタックスは、カーネル名（「ＫｅｒｎｅｌＮａｍｅ」）とカーネル引数の括弧に入れられたリスト（「ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ」）との間に挿入される「＜＜＜．．．＞＞＞」構築物である。少なくとも１つの実施例では、ＣＵＤＡカーネル起動シンタックス３２１０は、限定はしないが、実行構成シンタックスの代わりにＣＵＤＡ起動機能シンタックスを含む。

少なくとも１つの実施例では、「ＧｒｉｄＳｉｚｅ」は、タイプｄｉｍ３のものであり、グリッドの次元及びサイズを指定する。少なくとも１つの実施例では、タイプｄｉｍ３は、限定はしないが、符号なし整数ｘ、ｙ、及びｚを含む、ＣＵＤＡ定義構造である。少なくとも１つの実施例では、ｚが指定されない場合、ｚは１にデフォルト設定される。少なくとも１つの実施例では、ｙが指定されない場合、ｙは１にデフォルト設定される。少なくとも１つの実施例では、グリッド中のスレッド・ブロックの数は、ＧｒｉｄＳｉｚｅ．ｘとＧｒｉｄＳｉｚｅ．ｙとＧｒｉｄＳｉｚｅ．ｚとの積に等しい。少なくとも１つの実施例では、「ＢｌｏｃｋＳｉｚｅ」は、タイプｄｉｍ３のものであり、各スレッド・ブロックの次元及びサイズを指定する。少なくとも１つの実施例では、スレッド・ブロックごとのスレッドの数は、ＢｌｏｃｋＳｉｚｅ．ｘとＢｌｏｃｋＳｉｚｅ．ｙとＢｌｏｃｋＳｉｚｅ．ｚとの積に等しい。少なくとも１つの実施例では、カーネルを実行する各スレッドは、組み込み変数（たとえば、「ｔｈｒｅａｄＩｄｘ」）を通してカーネル内でアクセス可能である一意のスレッドＩＤを与えられる。

少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３２１０に関して、「ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ」は、静的に割り振られたメモリに加えて、所与のカーネル・コールについてスレッド・ブロックごとに動的に割り振られる共有メモリ中のバイトの数を指定する随意の引数である。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３２１０に関して、ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅは０にデフォルト設定される。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３２１０に関して、「Ｓｔｒｅａｍ」は、関連するストリームを指定する随意の引数であり、デフォルト・ストリームを指定するために０にデフォルト設定される。少なくとも１つの実施例では、ストリームは、イン・オーダーで実行する（場合によっては、異なるホスト・スレッドによって発行された）コマンドのシーケンスである。少なくとも１つの実施例では、異なるストリームは、互いに対してアウト・オブ・オーダーで、又は同時に、コマンドを実行し得る。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０は、限定はしないが、例示的なカーネル「ＭａｔＡｄｄ」のためのカーネル定義とメイン関数とを含む。少なくとも１つの実施例では、メイン関数は、ホスト上で実行し、限定はしないが、カーネルＭａｔＡｄｄにデバイス上で実行させるカーネル・コールを含む、ホスト・コードである。少なくとも１つの実施例では、及び示されているように、カーネルＭａｔＡｄｄは、Ｎが正の整数である、サイズＮ×Ｎの２つの行列ＡとＢとを加算し、結果を行列Ｃに記憶する。少なくとも１つの実施例では、メイン関数は、ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ変数を１６×１６として定義し、ｎｕｍＢｌｏｃｋｓ変数をＮ／１６×Ｎ／１６として定義する。少なくとも１つの実施例では、メイン関数は、次いで、カーネル・コール「ＭａｔＡｄｄ＜＜＜ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ＞＞＞（Ａ，Ｂ，Ｃ）；」を指定する。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３２１０通りに、カーネルＭａｔＡｄｄは、寸法Ｎ／１６×Ｎ／１６を有する、スレッド・ブロックのグリッドを使用して実行され、ここで、各スレッド・ブロックは、１６×１６の寸法を有する。少なくとも１つの実施例では、各スレッド・ブロックは、２５６個のスレッドを含み、グリッドは、行列要素ごとに１つのスレッドを有するのに十分なブロックで作成され、そのようなグリッド中の各スレッドは、１つのペアワイズ加算を実施するためにカーネルＭａｔＡｄｄを実行する。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３１１０をＨＩＰソース・コード３１３０にトランスレートする間、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３１２０は、ＣＵＤＡソース・コード３１１０中の各カーネル・コールを、ＣＵＤＡカーネル起動シンタックス３２１０からＨＩＰカーネル起動シンタックス３２２０にトランスレートし、ソース・コード３１１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。少なくとも１つの実施例では、ＨＩＰカーネル起動シンタックス３２２０は、「ｈｉｐＬａｕｎｃｈＫｅｒｎｅｌＧＧＬ（ＫｅｒｎｅｌＮａｍｅ，ＧｒｉｄＳｉｚｅ，ＢｌｏｃｋＳｉｚｅ，ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ，Ｓｔｒｅａｍ，ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ）；」として指定される。少なくとも１つの実施例では、ＫｅｒｎｅｌＮａｍｅ、ＧｒｉｄＳｉｚｅ、ＢｌｏｃｋＳｉｚｅ、ＳｈａｒｅＭｅｍｏｒｙＳｉｚｅ、Ｓｔｒｅａｍ、及びＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓの各々は、ＨＩＰカーネル起動シンタックス３２２０において、（本明細書で前に説明された）ＣＵＤＡカーネル起動シンタックス３２１０の場合と同じ意味を有する。少なくとも１つの実施例では、引数ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ及びＳｔｒｅａｍは、ＨＩＰカーネル起動シンタックス３２２０では必要とされ、ＣＵＤＡカーネル起動シンタックス３２１０では随意である。

少なくとも１つの実施例では、図３２に図示されたＨＩＰソース・コード３１３０の一部分は、カーネルＭａｔＡｄｄにデバイス上で実行させるカーネル・コールを除いて、図３２に図示されたＣＵＤＡソース・コード３１１０の一部分と同一である。少なくとも１つの実施例では、カーネルＭａｔＡｄｄは、カーネルＭａｔＡｄｄがＣＵＤＡソース・コード３１１０において定義される、同じ「＿＿ｇｌｏｂａｌ＿＿」宣言指定子を用いて、ＨＩＰソース・コード３１３０において定義される。少なくとも１つの実施例では、ＨＩＰソース・コード３１３０中のカーネル・コールは、「ｈｉｐＬａｕｎｃｈＫｅｒｎｅｌＧＧＬ（ＭａｔＡｄｄ，ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ，０，０，Ａ，Ｂ，Ｃ）；」であるが、ＣＵＤＡソース・コード３１１０中の対応するカーネル・コールは、「ＭａｔＡｄｄ＜＜＜ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ＞＞＞（Ａ，Ｂ，Ｃ）；」である。

図３３は、少なくとも１つの実施例による、図３１ＣのＣＵＤＡ非対応ＧＰＵ３１９２をより詳細に示す。少なくとも１つの実施例では、ＧＰＵ３１９２は、サンタクララのＡＭＤｃｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＧＰＵ３１９２は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも１つの実施例では、ＧＰＵ３１９２は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３１９２は、グラフィックに関係しない動作を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３１９２は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３１９２は、ＨＩＰソース・コード３１３０中に含まれるデバイス・コードを実行するように構成され得る。

少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、任意の数のプログラマブル処理ユニット３３２０と、コマンド・プロセッサ３３１０と、Ｌ２キャッシュ３３２２と、メモリ・コントローラ３３７０と、ＤＭＡエンジン３３８０（１）と、システム・メモリ・コントローラ３３８２と、ＤＭＡエンジン３３８０（２）と、ＧＰＵコントローラ３３８４とを含む。少なくとも１つの実施例では、各プログラマブル処理ユニット３３２０は、限定はしないが、ワークロード・マネージャ３３３０と、任意の数のコンピュート・ユニット３３４０とを含む。少なくとも１つの実施例では、コマンド・プロセッサ３３１０は、１つ又は複数のコマンド・キュー（図示せず）からコマンドを読み取り、ワークロード・マネージャ３３３０にコマンドを分散させる。少なくとも１つの実施例では、各プログラマブル処理ユニット３３２０について、関連するワークロード・マネージャ３３３０は、プログラマブル処理ユニット３３２０中に含まれるコンピュート・ユニット３３４０にワークを分散させる。少なくとも１つの実施例では、各コンピュート・ユニット３３４０は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット３３４０上で実行する。少なくとも１つの実施例では、ワークグループは、スレッド・ブロックである。

少なくとも１つの実施例では、各コンピュート・ユニット３３４０は、限定はしないが、任意の数のＳＩＭＤユニット３３５０と、共有メモリ３３６０とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット３３５０は、ＳＩＭＤアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも１つの実施例では、各ＳＩＭＤユニット３３５０は、限定はしないが、ベクトルＡＬＵ３３５２とベクトル・レジスタ・ファイル３３５４とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット３３５０は、異なるワープを実行する。少なくとも１つの実施例では、ワープは、スレッドのグループ（たとえば、１６個のスレッド）であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも１つの実施例では、ワープ中の１つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも１つの実施例では、レーンはスレッドである。少なくとも１つの実施例では、ワーク・アイテムはスレッドである。少なくとも１つの実施例では、ウェーブフロントはワープである。少なくとも１つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ３３６０を介して通信し得る。

少なくとも１つの実施例では、プログラマブル処理ユニット３３２０は、「シェーダ・エンジン」と呼ばれる。少なくとも１つの実施例では、各プログラマブル処理ユニット３３２０は、限定はしないが、コンピュート・ユニット３３４０に加えて、任意の量の専用グラフィックス・ハードウェアを含む。少なくとも１つの実施例では、各プログラマブル処理ユニット３３２０は、限定はしないが、（ゼロを含む）任意の数のジオメトリ・プロセッサと、（ゼロを含む）任意の数のラスターライザと、（ゼロを含む）任意の数のレンダー・バック・エンドと、ワークロード・マネージャ３３３０と、任意の数のコンピュート・ユニット３３４０とを含む。

少なくとも１つの実施例では、コンピュート・ユニット３３４０は、Ｌ２キャッシュ３３２２を共有する。少なくとも１つの実施例では、Ｌ２キャッシュ３３２２は区分けされる。少なくとも１つの実施例では、ＧＰＵメモリ３３９０は、ＧＰＵ３１９２中のすべてのコンピュート・ユニット３３４０によってアクセス可能である。少なくとも１つの実施例では、メモリ・コントローラ３３７０及びシステム・メモリ・コントローラ３３８２は、ＧＰＵ３１９２とホストとの間のデータ転送を容易にし、ＤＭＡエンジン３３８０（１）は、ＧＰＵ３１９２とそのようなホストとの間の非同期メモリ転送を可能にする。少なくとも１つの実施例では、メモリ・コントローラ３３７０及びＧＰＵコントローラ３３８４は、ＧＰＵ３１９２と他のＧＰＵ３１９２との間のデータ転送を容易にし、ＤＭＡエンジン３３８０（２）は、ＧＰＵ３１９２と他のＧＰＵ３１９２との間の非同期メモリ転送を可能にする。

少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、ＧＰＵ３１９２の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする、任意の量及びタイプのシステム相互接続を含む。少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、任意の数及びタイプの周辺デバイスに結合される、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩｅ）を含む。少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、（ゼロを含む）任意の数のディスプレイ・エンジンと、（ゼロを含む）任意の数のマルチメディア・エンジンとを含み得る。少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ（たとえば、メモリ・コントローラ３３７０及びシステム・メモリ・コントローラ３３８２）及びメモリ・デバイス（たとえば、共有メモリ３３６０）を含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＧＰＵ３１９２は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ３３２２）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、ＳＩＭＤユニット３３５０、コンピュート・ユニット３３４０、及びプログラマブル処理ユニット３３２０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

図３４は、少なくとも１つの実施例による、例示的なＣＵＤＡグリッド３４２０のスレッドが図３３の異なるコンピュート・ユニット３３４０にどのようにマッピングされるかを示す。少なくとも１つの実施例では、及び単に説明目的のために、グリッド３４２０は、ＢＸ×ＢＹ×１のＧｒｉｄＳｉｚｅと、ＴＸ×ＴＹ×１のＢｌｏｃｋＳｉｚｅとを有する。少なくとも１つの実施例では、グリッド３４２０は、したがって、限定はしないが、（ＢＸ＊ＢＹ）個のスレッド・ブロック３４３０を含み、各スレッド・ブロック３４３０は、限定はしないが、（ＴＸ＊ＴＹ）個のスレッド３４４０を含む。スレッド３４４０は、曲がりくねった矢印（ｓｑｕｉｇｇｌｙａｒｒｏｗ）として図３４に図示されている。

少なくとも１つの実施例では、グリッド３４２０は、限定はしないが、コンピュート・ユニット３３４０（１）～３３４０（Ｃ）を含むプログラマブル処理ユニット３３２０（１）にマッピングされる。少なくとも１つの実施例では、及び示されているように、（ＢＪ＊ＢＹ）個のスレッド・ブロック３４３０が、コンピュート・ユニット３３４０（１）にマッピングされ、残りのスレッド・ブロック３４３０が、コンピュート・ユニット３３４０（２）にマッピングされる。少なくとも１つの実施例では、各スレッド・ブロック３４３０は、限定はしないが、任意の数のワープを含み得、各ワープは、図３３の異なるＳＩＭＤユニット３３５０にマッピングされる。

少なくとも１つの実施例では、所与のスレッド・ブロック３４３０中のワープは、互いに同期し、関連するコンピュート・ユニット３３４０中に含まれる共有メモリ３３６０を通して通信し得る。たとえば、及び少なくとも１つの実施例では、スレッド・ブロック３４３０（ＢＪ，１）中のワープは、互いに同期し、共有メモリ３３６０（１）を通して通信することができる。たとえば、及び少なくとも１つの実施例では、スレッド・ブロック３４３０（ＢＪ＋１，１）中のワープは、互いに同期し、共有メモリ３３６０（２）を通して通信することができる。

図３５は、少なくとも１つの実施例による、既存のＣＵＤＡコードをＤａｔａＰａｒａｌｌｅｌＣ＋＋コードにどのようにマイグレートするかを示す。ＤａｔａＰａｒａｌｌｅｌＣ＋＋（ＤＰＣ＋＋）は、単一アーキテクチャ・プロプライエタリ言語に対するオープンな規格ベースの代替を指し得、これは、開発者が、ハードウェア・ターゲット（ＣＰＵ並びにＧＰＵ及びＦＰＧＡなどのアクセラレータ）にわたってコードを再使用し、また、特定のアクセラレータのためのカスタム調整を実施することを可能にする。ＤＰＣ＋＋は、開発者が精通していることがあるＩＳＯＣ＋＋に従う、同様の及び／又は同一のＣ及びＣ＋＋構築物を使用する。ＤＰＣ＋＋は、データ並列処理及び異種プログラミングをサポートするためにクロノス・グループからの標準ＳＹＣＬを組み込む。ＳＹＣＬは、ＯｐｅｎＣＬの基礎をなす概念、ポータビリティ及び効率に基づく、クロスプラットフォーム抽象化層を指し、これは、異種プロセッサのためのコードが、標準Ｃ＋＋を使用して「単一ソース」スタイルで書かれることを可能にする。ＳＹＣＬは、Ｃ＋＋テンプレート関数が、ホスト・コードとデバイス・コードの両方を含んでおり、ＯｐｅｎＣＬ加速を使用する複雑なアルゴリズムを構築し、次いで、それらを、異なるタイプのデータに関するそれらのソース・コード全体にわたって再使用することができる、単一ソース開発を可能にし得る。

少なくとも１つの実施例では、ＤＰＣ＋＋コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るＤＰＣ＋＋ソース・コードをコンパイルするために使用される。少なくとも１つの実施例では、ＤＰＣ＋＋コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るＤＰＣ＋＋アプリケーションを生成するために使用され、ＤＰＣ＋＋互換性ツールは、ＣＵＤＡアプリケーションをＤＰＣ＋＋のマルチプラットフォーム・プログラムにマイグレートするために使用され得る。少なくとも１つの実施例では、ＤＰＣ＋＋ベース・ツール・キットは、多様なハードウェア・ターゲットにわたってアプリケーションを導入するためのＤＰＣ＋＋コンパイラと、ＣＰＵ、ＧＰＵ、及びＦＰＧＡにわたって生産性及び性能を増加させるためのＤＰＣ＋＋ライブラリと、ＣＵＤＡアプリケーションをマルチプラットフォーム・アプリケーションにマイグレートするためのＤＰＣ＋＋互換性ツールと、それらの任意の好適な組合せとを含む。

少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング・モデルは、ＤａｔａＰａｒａｌｌｅｌＣ＋＋と呼ばれるプログラミング言語を用いて並列処理を表現するための現代のＣ＋＋特徴を使用することによって、単に、ＣＰＵ及びアクセラレータをプログラムすることに関係する１つ又は複数の態様に対して利用される。ＤＰＣ＋＋プログラミング言語は、ホスト（たとえば、ＣＰＵ）及びアクセラレータ（たとえば、ＧＰＵ又はＦＰＧＡ）のためのコード再使用に対して利用され、単一のソース言語を使用し、実行及びメモリ依存性が明確に通信され得る。ＤＰＣ＋＋コード内でのマッピングは、アプリケーションを移行させて、ワークロードを最も良く加速するハードウェア又はハードウェア・デバイスのセット上で稼働するために、使用され得る。利用可能なアクセラレータを有しないプラットフォーム上でも、デバイス・コードの開発及びデバッギングを簡略化するために、ホストが利用可能であり得る。

少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３５０４を生成するために、ＤＰＣ＋＋互換性ツール３５０２への入力として、ＣＵＤＡソース・コード３５００が提供される。少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３５０４は、ＤＰＣ＋＋互換性ツール３５０２によって生成されたインライン・コメントを含み、これは、コーディングと所望の性能への調整とを完了３５０６するために、ＤＰＣ＋＋コードをどのように及び／又はどこで修正すべきかに関して開発者をガイドし、それにより、ＤＰＣ＋＋ソース・コード３５０８を生成する。少なくとも１つの実施例では、ＤＰＣ＋＋３５０４は、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３５００は、ＣＵＤＡプログラミング言語の人間が読み取れるソース・コードの集合であるか、又はその集合を含む。少なくとも１つの実施例では、ＣＵＤＡソース・コード３５００は、ＣＵＤＡプログラミング言語の人間が読み取れるソース・コードである。少なくとも１つの実施例では、ＣＵＤＡプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、デバイス・コードは、コンパイルの後に、デバイス（たとえば、ＧＰＵ又はＦＰＧＡ）上で実行可能であり、デバイスの１つ又は複数のプロセッサ・コア上で実行され得る、又はより並列化可能なワークフローを含み得る、ソース・コードである。少なくとも１つの実施例では、デバイスは、ＣＵＤＡ対応ＧＰＵ、ＧＰＵ、又は別のＧＰＧＰＵなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも１つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも１つの実施例では、ホスト・コード及びデバイス・コードの一部又は全部は、ＣＰＵ及びＧＰＵ／ＦＰＧＡにわたって並列に実行され得る。少なくとも１つの実施例では、ホストは、ＣＰＵなど、連続命令処理のために最適化されるプロセッサである。図３５に関して説明されるＣＵＤＡソース・コード３５００は、本明細書の他の場所で説明されるＣＵＤＡソース・コードに従い得る。

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、ＤＰＣ＋＋ソース・コード３５０８へのＣＵＤＡソース・コード３５００のマイグレーションを容易にするために使用される、実行可能ツール、プログラム、アプリケーション、又は任意の他の好適なタイプのツールを指す。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、既存のＣＵＤＡソースをＤＰＣ＋＋に移植するために使用されるＤＰＣ＋＋ツール・キットの一部として利用可能なコマンド・ライン・ベースのコード・マイグレーション・ツールである。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、ＣＵＤＡアプリケーションの一部又は全部のソース・コードをＣＵＤＡからＤＰＣ＋＋にコンバートし、人間が読み取れるＤＰＣ＋＋３５０４と呼ばれる、少なくとも部分的にＤＰＣ＋＋で書かれる得られたファイルを生成する。少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３５０４は、ユーザ介入がどこで必要であり得るかを示すためにＤＰＣ＋＋互換性ツール３５０２によって生成されるコメントを含む。少なくとも１つの実施例では、ユーザ介入は、ＣＵＤＡソース・コード３５００が、類似するＤＰＣ＋＋ＡＰＩを有しないＣＵＤＡＡＰＩをコールするとき、必要であり、ユーザ介入が必要とされる他の実例は、後でより詳細に説明される。

少なくとも１つの実施例では、ＣＵＤＡソース・コード３５００（たとえば、アプリケーション又はそれの部分）をマイグレートするためのワークフローは、１つ又は複数のコンパイル・データベース・ファイルを作成することと、ＤＰＣ＋＋互換性ツール３５０２を使用してＣＵＤＡをＤＰＣ＋＋にマイグレートすることと、マイグレーションを完了し、正当性を確認し、それにより、ＤＰＣ＋＋ソース・コード３５０８を生成することと、ＤＰＣ＋＋アプリケーションを生成するためにＤＰＣ＋＋コンパイラを用いてＤＰＣ＋＋ソース・コード３５０８をコンパイルすることとを含む。少なくとも１つの実施例では、互換性ツールは、Ｍａｋｅｆｉｌｅが実行するときに使用されるコマンドをインターセプトし、それらをコンパイル・データベース・ファイルに記憶する、ユーティリティを提供する。少なくとも１つの実施例では、ファイルは、ＪＳＯＮフォーマットで記憶される。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔコマンドは、ＭａｋｅｆｉｌｅコマンドをＤＰＣ互換性コマンドにコンバートする。

少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄは、ビルド・プロセスをインターセプトして、コンパイル・オプション、マクロ定義（ｍａｃｒｏｄｅｆｓ）、及びインクルード・パス（ｉｎｃｌｕｄｅｐａｔｈｓ）をキャプチャし、このデータをコンパイル・データベース・ファイルに書き込む、ユーティリティ・スクリプトである。少なくとも１つの実施例では、コンパイル・データベース・ファイルは、ＪＳＯＮファイルである。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、コンパイル・データベースを構文解析し、入力ソースをマイグレートするときにオプションを適用する。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄの使用は、随意であるが、Ｍａｋｅ又はＣＭａｋｅベースの環境について大いに推奨される。少なくとも１つの実施例では、マイグレーション・データベースは、コマンドとディレクトリとファイルとを含み、コマンドは、必要なコンパイル・フラグを含み得、ディレクトリは、ヘッダ・ファイルへのパスを含み得、ファイルは、ＣＵＤＡファイルへのパスを含み得る。

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、可能な場合はいつでもＤＰＣ＋＋を生成することによって、ＣＵＤＡで書かれたＣＵＤＡコード（たとえば、アプリケーション）をＤＰＣ＋＋にマイグレートする。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、ツール・キットの一部として利用可能である。少なくとも１つの実施例では、ＤＰＣ＋＋ツール・キットは、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄツールを含む。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔツールは、ＣＵＤＡファイルをマイグレートするためにコンパイル・コマンドをキャプチャするコンパイル・データベースを作成する。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔツールによって生成されたコンパイル・データベースは、ＣＵＤＡコードをＤＰＣ＋＋にマイグレートするためにＤＰＣ＋＋互換性ツール３５０２によって使用される。少なくとも１つの実施例では、非ＣＵＤＡＣ＋＋コード及びファイルは、そのままマイグレートされる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、人間が読み取れるＤＰＣ＋＋３５０４を生成し、これは、ＤＰＣ＋＋互換性ツール３５０２によって生成されたとき、ＤＰＣ＋＋コンパイラによってコンパイルされないことがあり、正しくマイグレートされなかったコードの部分を確認するための追加のプラミング（ｐｌｕｍｂｉｎｇ）を必要とする、ＤＰＣ＋＋コードであり得、開発者によってなど、手動の介入を伴い得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、自動的にマイグレートされないことがある追加のコードを開発者が手動でマイグレートするのを助けるために、コード中に埋め込まれたヒント又はツールを提供する。少なくとも１つの実施例では、マイグレーションは、ソース・ファイル、プロジェクト、又はアプリケーションのための１回のアクティビティである。

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５００２は、ＣＵＤＡコードのすべての部分をＤＰＣ＋＋に正常にマイグレートすることが可能であり、単に、生成されたＤＰＣ＋＋ソース・コードの性能を手動で確認及び調整するための随意のステップがあり得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、ＤＰＣ＋＋互換性ツール３５０２によって生成されたＤＰＣ＋＋コードを修正するための人間の介入を必要とするか又は利用することなしに、ＤＰＣ＋＋コンパイラによってコンパイルされるＤＰＣ＋＋ソース・コード３５０８を直接生成する。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツールは、コンパイル可能なＤＰＣ＋＋コードを生成し、これは、性能、読みやすさ、維持可能性、他の様々な考慮事項、又はそれらの任意の組合せについて、開発者によって随意に調整され得る。

少なくとも１つの実施例では、１つ又は複数のＣＵＤＡソース・ファイルは、少なくとも部分的にＤＰＣ＋＋互換性ツール３５０２を使用してＤＰＣ＋＋ソース・ファイルにマイグレートされる。少なくとも１つの実施例では、ＣＵＤＡソース・コードは、ＣＵＤＡヘッダ・ファイルを含み得る１つ又は複数のヘッダ・ファイルを含む。少なくとも１つの実施例では、ＣＵＤＡソース・ファイルは、＜ｃｕｄａ．ｈ＞ヘッダ・ファイルと、テキストをプリントするために使用され得る＜ｓｔｄｉｏ．ｈ＞ヘッダ・ファイルとを含む。少なくとも１つの実施例では、ベクトル加算カーネルＣＵＤＡソース・ファイルの一部分は、以下のように書かれるか、又は以下に関係し得る。

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、ＤＰＣ＋＋互換性ツール３５０２は、ＣＵＤＡソース・コードを構文解析し、ヘッダ・ファイルを、適切なＤＰＣ＋＋ヘッダ・ファイル及びＳＹＣＬヘッダ・ファイルと置き換える。少なくとも１つの実施例では、ＤＰＣ＋＋ヘッダ・ファイルは、ヘルパー宣言（ｈｅｌｐｅｒｄｅｃｌａｒａｔｉｏｎ）を含む。ＣＵＤＡでは、スレッドＩＤの概念があり、対応して、ＤＰＣ＋＋又はＳＹＣＬでは、各要素について、ローカル識別子がある。

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、初期化される２つのベクトルＡ及びＢがあり、ベクトル加算結果が、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）の一部として、ベクトルＣに入れられる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、ＣＵＤＡコードをＤＰＣ＋＋コードにマイグレートすることの一部として、ワーク要素をインデックス付けするために使用されるＣＵＤＡスレッドＩＤを、ローカルＩＤを介したワーク要素のためのＳＹＣＬ標準アドレッシングにコンバートする。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２によって生成されたＤＰＣ＋＋コードは、たとえば、ｎｄ＿ｉｔｅｍの次元を低減し、それにより、メモリ及び／又はプロセッサ利用率を増加させることによって、最適化され得る。

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、メモリ割振りがマイグレートされる。少なくとも１つの実施例では、ｃｕｄａＭａｌｌｏｃ（）は、プラットフォーム、デバイス、コンテキスト、及びキューなど、ＳＹＣＬ概念に依拠して、デバイス及びコンテキストが渡される、統一共有メモリＳＹＣＬコールｍａｌｌｏｃ＿ｄｅｖｉｃｅ（）にマイグレートされる。少なくとも１つの実施例では、ＳＹＣＬプラットフォームは、複数のデバイス（たとえば、ホスト及びＧＰＵデバイス）を有することができ、デバイスは、ジョブがサブミットされ得る複数のキューを有し得、各デバイスは、コンテキストを有し得、コンテキストは、複数のデバイスを有し、共有メモリ・オブジェクトを管理し得る。

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、ｍａｉｎ（）関数は、２つのベクトルＡとＢとを互いに加算し、結果をベクトルＣに記憶するための、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）を呼び出すか又はコールする。少なくとも１つの実施例では、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）を呼び出すためのＣＵＤＡコードは、実行のためにカーネルをコマンド・キューにサブミットするためのＤＰＣ＋＋コードによって置き換えられる。少なくとも１つの実施例では、コマンド・グループ・ハンドラｃｇｈは、キューにサブミットされる、データ、同期、及び算出を渡し、ｐａｒａｌｌｅｌ＿ｆｏｒは、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）がコールされるワーク・グループ中の、グローバル要素の数及びワーク・アイテムの数についてコールされる。

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、デバイス・メモリをコピーし、次いで、ベクトルＡ、Ｂ、及びＣのためのメモリを解放するためのＣＵＤＡコールが、対応するＤＰＣ＋＋コールにマイグレートされる。少なくとも１つの実施例では、Ｃ＋＋コード（たとえば、浮動小数点変数のベクトルをプリントするための標準ＩＳＯＣ＋＋コード）は、ＤＰＣ＋＋互換性ツール３５０２によって修正されることなしに、そのままマイグレートされる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、加速デバイス上でカーネルを実行するために、メモリ・セットアップ及び／又はホスト・コールのためのＣＵＤＡＡＰＩを修正する。少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、（たとえば、コンパイルされ得る）対応する人間が読み取れるＤＰＣ＋＋３５０４は、以下のように書かれるか、又は以下に関係する。

少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３５０４は、ＤＰＣ＋＋互換性ツール３５０２によって生成された出力を指し、ある様式又は別の様式で最適化され得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２によって生成された人間が読み取れるＤＰＣ＋＋３５０４は、それをより維持可能にすること、性能、又は他の考慮事項のために、マイグレーションの後に開発者によって手動で編集され得る。少なくとも１つの実施例では、開示されるＤＰＣ＋＋などのＤＰＣ＋＋互換性ツール３５００２によって生成されたＤＰＣ＋＋コードは、各ｍａｌｌｏｃ＿ｄｅｖｉｃｅ（）コールのためのｇｅｔ＿ｃｕｒｒｅｎｔ＿ｄｅｖｉｃｅ（）及び／又はｇｅｔ＿ｄｅｆａｕｌｔ＿ｃｏｎｔｅｘｔ（）への繰返しコールを削除することによって最適化され得る。少なくとも１つの実施例では、上記で生成されるＤＰＣ＋＋コードは、３次元のｎｄ＿ｒａｎｇｅを使用し、これは、単一次元のみを使用し、それにより、メモリ使用量を低減するために、再ファクタ化され得る。少なくとも１つの実施例では、開発者は、ＤＰＣ＋＋互換性ツール３５０２によって生成されたＤＰＣ＋＋コードを手動で編集し、統一共有メモリの使用をアクセッサと置き換えることができる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、それがＣＵＤＡコードをＤＰＣ＋＋コードにどのようにマイグレートするかを変更するためのオプションを有する。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３５０２は、それが、ＣＵＤＡコードを、多数の場合について機能するＤＰＣ＋＋コードにマイグレートするための一般的なテンプレートを使用しているので、冗長である。

少なくとも１つの実施例では、ＣＵＤＡからＤＰＣ＋＋へのマイグレーション・ワークフローは、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄスクリプトを使用してマイグレーションの準備をするためのステップと、ＤＰＣ＋＋互換性ツール３５０２を使用してＤＰＣ＋＋へのＣＵＤＡプロジェクトのマイグレーションを実施するためのステップと、完了及び正当性のために、マイグレートされたソース・ファイルを手動で検討及び編集するためのステップと、ＤＰＣ＋＋アプリケーションを生成するために最終ＤＰＣ＋＋コードをコンパイルするためのステップとを含む。少なくとも１つの実施例では、ＤＰＣ＋＋ソース・コードの手動の検討は、限定はしないが、マイグレートされたＡＰＩがエラー・コードを返さないこと（ＣＵＤＡコードは、エラー・コードを返すことができ、エラー・コードは、次いで、アプリケーションよって消費され得るが、ＳＹＣＬは、エラーを報告するために例外を使用し、したがって、エラーを表面化させるためのエラー・コードを使用しない）、ＣＵＤＡコンピュート能力依存論理がＤＰＣ＋＋によってサポートされないこと、ステートメントが削除されないことがあることを含む、１つ又は複数のシナリオにおいて必要とされ得る。少なくとも１つの実施例では、ＤＰＣ＋＋コードが手動の介入を必要とするシナリオは、限定はしないが、エラー・コード論理が（＊，０）コードと置き換えられるか又はコメント・アウトされる、等価なＤＰＣ＋＋ＡＰＩが利用可能でない、ＣＵＤＡコンピュート能力依存論理、ハードウェア依存ＡＰＩ（ｃｌｏｃｋ（））、欠落した特徴、サポートされていないＡＰＩ、実行時間測定論理、組み込みベクトル・タイプ競合に対処すること、ｃｕＢＬＡＳＡＰＩのマイグレーションなどを含み得る。

少なくとも１つの実施例では、本明細書で説明される１つ又は複数の技法は、ｏｎｅＡＰＩプログラミング・モデルを利用する。少なくとも１つの実施例では、ｏｎｅＡＰＩプログラミング・モデルは、様々なコンピュート・アクセラレータ・アーキテクチャと対話するためのプログラミング・モデルを指す。少なくとも１つの実施例では、ｏｎｅＡＰＩは、様々なコンピュート・アクセラレータ・アーキテクチャと対話するように設計されたアプリケーション・プログラミング・インターフェース（ＡＰＩ）を指す。少なくとも１つの実施例では、ｏｎｅＡＰＩプログラミング・モデルは、ＤＰＣ＋＋プログラミング言語を利用する。少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング言語は、データ並列プログラミング生産性のための高水準言語を指す。少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング言語は、Ｃ及び／又はＣ＋＋プログラミング言語に少なくとも部分的に基づく。少なくとも１つの実施例では、ｏｎｅＡＰＩプログラミング・モデルは、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎによって開発されたものなどのプログラミング・モデルである。少なくとも１つの実施例では、ｏｎｅＡＰＩ及び／又はｏｎｅＡＰＩプログラミング・モデルは、少なくとも部分的に、図１～図３と併せて上記で説明された様々な構成要素及び／又は動作を備える及び／又は実施する。

少なくとも１つの実施例では、ｏｎｅＡＰＩ及び／又はｏｎｅＡＰＩプログラミング・モデルは、様々なアクセラレータ・アーキテクチャ、ＧＰＵアーキテクチャ、プロセッサ・アーキテクチャ、及び／又はそれらの変形形態のアーキテクチャと対話するために利用される。少なくとも１つの実施例では、ｏｎｅＡＰＩは、様々な機能性を実装するライブラリのセットを含む。少なくとも１つの実施例では、ｏｎｅＡＰＩは、少なくとも、ｏｎｅＡＰＩＤＰＣ＋＋ライブラリ、ｏｎｅＡＰＩマス・カーネル・ライブラリ、ｏｎｅＡＰＩデータ分析ライブラリ、ｏｎｅＡＰＩ深層ニューラル・ネットワーク・ライブラリ、ｏｎｅＡＰＩ集合通信ライブラリ、ｏｎｅＡＰＩスレッディング・ビルディング・ブロック・ライブラリ、ｏｎｅＡＰＩビデオ処理ライブラリ、及び／又はそれらの変形形態を含む。

少なくとも１つの実施例では、ｏｎｅＤＰＬとも呼ばれるｏｎｅＡＰＩＤＰＣ＋＋ライブラリは、ＤＰＣ＋＋カーネル・プログラミングを加速するためのアルゴリズム及び機能を実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＤＰＬは、１つ又は複数の標準テンプレート・ライブラリ（ＳＴＬ：ｓｔａｎｄａｒｄｔｅｍｐｌａｔｅｌｉｂｒａｒｙ）機能を実装する。少なくとも１つの実施例では、ｏｎｅＤＰＬは、１つ又は複数の並列ＳＴＬ機能を実装する。少なくとも１つの実施例では、ｏｎｅＤＰＬは、並列アルゴリズム、イテレーター、関数オブジェクト・クラス、範囲ベースのＡＰＩ、及び／又はそれらの変形形態など、ライブラリ・クラス及び関数のセットを提供する。少なくとも１つの実施例では、ｏｎｅＤＰＬは、Ｃ＋＋標準ライブラリの１つ又は複数のクラス及び／又は関数を実装する。少なくとも１つの実施例では、ｏｎｅＤＰＬは、１つ又は複数の乱数生成器関数を実装する。

少なくとも１つの実施例では、ｏｎｅＭＫＬとも呼ばれるｏｎｅＡＰＩマス・カーネル・ライブラリは、様々な数学関数及び／又は演算のための様々な最適化及び並列化されたルーチンを実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＭＫＬは、１つ又は複数の基本線形代数サブプログラム（ＢＬＡＳ）及び／又は線形代数パッケージ（ＬＡＰＡＣＫ：ｌｉｎｅａｒａｌｇｅｂｒａｐａｃｋａｇｅ）高密度線形代数ルーチンを実装する。少なくとも１つの実施例では、ｏｎｅＭＫＬは、１つ又は複数のスパースＢＬＡＳ線形代数ルーチンを実装する。少なくとも１つの実施例では、ｏｎｅＭＫＬは、１つ又は複数の乱数生成器（ＲＮＧ：ｒａｎｄｏｍｎｕｍｂｅｒｇｅｎｅｒａｔｏｒ）を実装する。少なくとも１つの実施例では、ｏｎｅＭＫＬは、ベクトルに関する数学演算のための１つ又は複数のベクトル数学（ＶＭ：ｖｅｃｔｏｒｍａｔｈｅｍａｔｉｃｓ）ルーチンを実装する。少なくとも１つの実施例では、ｏｎｅＭＫＬは、１つ又は複数の高速フーリエ変換（ＦＦＴ）関数を実装する。

少なくとも１つの実施例では、ｏｎｅＤＡＬとも呼ばれるｏｎｅＡＰＩデータ分析ライブラリは、様々なデータ分析アプリケーション及び分散算出を実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＤＡＬは、バッチ、オンライン、及び算出の分散処理モードにおける、データ分析のための前処理、変換、分析、モデリング、確認、及び意思決定のための、様々なアルゴリズムを実装する。少なくとも１つの実施例では、ｏｎｅＤＡＬは、様々なＣ＋＋及び／又はＪａｖａＡＰＩと、１つ又は複数のデータ・ソースへの様々なコネクタとを実装する。少なくとも１つの実施例では、ｏｎｅＤＡＬは、旧来のＣ＋＋インターフェースに対するＤＰＣ＋＋ＡＰＩ拡張を実装し、様々なアルゴリズムのためのＧＰＵ使用を可能にする。

少なくとも１つの実施例では、ｏｎｅＤＮＮとも呼ばれるｏｎｅＡＰＩ深層ニューラル・ネットワーク・ライブラリは、様々な深層学習機能を実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＤＮＮは、様々なニューラル・ネットワーク、機械学習、及び深層学習機能、アルゴリズム、並びに／又はそれらの変形形態を実装する。

少なくとも１つの実施例では、ｏｎｅＣＣＬとも呼ばれるｏｎｅＡＰＩ集合通信ライブラリは、深層学習及び機械学習ワークロードのための様々なアプリケーションを実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＣＣＬは、メッセージ・パッシング・インターフェース（ＭＰＩ：ｍｅｓｓａｇｅｐａｓｓｉｎｇｉｎｔｅｒｆａｃｅ）及びｌｉｂｆａｂｒｉｃなど、下位レベル通信ミドルウェア上に築かれる。少なくとも１つの実施例では、ｏｎｅＣＣＬは、優先順位、永続的な動作、アウト・オブ・オーダー実行、及び／又はそれらの変形形態など、深層学習固有の最適化のセットを可能にする。少なくとも１つの実施例では、ｏｎｅＣＣＬは、様々なＣＰＵ及びＧＰＵ機能を実装する。

少なくとも１つの実施例では、ｏｎｅＴＢＢとも呼ばれるｏｎｅＡＰＩスレッディング・ビルディング・ブロック・ライブラリは、様々なアプリケーションのための様々な並列化されたプロセスを実装するライブラリである。少なくとも１つの実施例では、ｏｎｅＴＢＢは、ホスト上でのタスク・ベース共有並列プログラミングのために利用される。少なくとも１つの実施例では、ｏｎｅＴＢＢは、一般並列アルゴリズムを実装する。少なくとも１つの実施例では、ｏｎｅＴＢＢは、同時コンテナを実装する。少なくとも１つの実施例では、ｏｎｅＴＢＢは、スケーラブル・メモリ・アロケータを実装する。少なくとも１つの実施例では、ｏｎｅＴＢＢは、ワークスティーリング（ｗｏｒｋ－ｓｔｅａｌｉｎｇ）・タスク・スケジューラを実装する。少なくとも１つの実施例では、ｏｎｅＴＢＢは、低レベル同期プリミティブを実装する。少なくとも１つの実施例では、ｏｎｅＴＢＢは、コンパイラ依存せず、ＧＰＵ、ＰＰＵ、ＣＰＵ、及び／又はそれらの変形形態など、様々なプロセッサ上で使用可能である。

少なくとも１つの実施例では、ｏｎｅＶＰＬとも呼ばれるｏｎｅＡＰＩビデオ処理ライブラリは、１つ又は複数のアプリケーションにおけるビデオ処理を加速するために利用されるライブラリである。少なくとも１つの実施例では、ｏｎｅＶＰＬは、様々なビデオ復号、符号化、及び処理機能を実装する。少なくとも１つの実施例では、ｏｎｅＶＰＬは、ＣＰＵ、ＧＰＵ、及び他のアクセラレータ上のメディア・パイプラインのための様々な機能を実装する。少なくとも１つの実施例では、ｏｎｅＶＰＬは、メディア中心及びビデオ分析ワークロードにおけるデバイス発見及び選択を実装する。少なくとも１つの実施例では、ｏｎｅＶＰＬは、ゼロコピー・バッファ共有のためのＡＰＩプリミティブを実装する。

少なくとも１つの実施例では、ｏｎｅＡＰＩプログラミング・モデルは、ＤＰＣ＋＋プログラミング言語を利用する。少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための、機能的に同様のバージョンのＣＵＤＡ機構を含むプログラミング言語である。少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング言語は、ＣＵＤＡプログラミング言語の機能性のサブセットを含み得る。少なくとも１つの実施例では、１つ又は複数のＣＵＤＡプログラミング・モデル動作は、ＤＰＣ＋＋プログラミング言語を使用するｏｎｅＡＰＩプログラミング・モデルを使用して実施される。

本明細書で説明される例示的な実施例はＣＵＤＡプログラミング・モデルに関し得るが、本明細書で説明される技法は、任意の好適なプログラミング・モデル、そのようなＨＩＰ、ｏｎｅＡＰＩ（たとえば、本明細書で開示される方法を実施又は実装するためにｏｎｅＡＰＩベース・プログラミングを使用する）、及び／又はそれらの変形形態とともに利用され得ることに留意されたい。

少なくとも１つの実施例では、上記で開示されたシステム及び／又はプロセッサの１つ又は複数の構成要素は、たとえば、画像をアップスケールするためのアップスケーラ又はアップサンプラ、画像を一緒にブレンド、ミックス、又は加算するための画像ブレンダ又は画像ブレンダ構成要素、（たとえば、ＤＳＰの一部として）画像をサンプリングするためのサンプラ、（たとえば、低解像度画像から高解像度画像に）画像をアップスケールするためのアップスケーラを実施するように構成されたニューラル・ネットワーク回路、或いは、画像、フレーム、又はビデオを、それの解像度、サイズ、又はピクセルを調整するために、修正又は生成するための他のハードウェアを含む、１つ又は複数のＣＰＵ、ＡＳＩＣ、ＧＰＵ、ＦＰＧＡ、或いは他のハードウェア、回路要素、又は集積回路構成要素と通信することができ、上記で開示されたシステム及び／又はプロセッサの１つ又は複数の構成要素は、画像を生成又は修正する方法、動作、又は命令を実施するために、本開示で説明される構成要素を使用することができる。

本開示の少なくとも１つの実施例は、以下の条項を考慮して説明され得る。
１．アプリケーション・プログラミング・インターフェース（ＡＰＩ）とともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するためにＡＰＩを実施するための１つ又は複数の回路
を備える、プロセッサ。
２．ＡＰＩが、少なくとも、ＡＰＩに示された機能のバージョンに少なくとも部分的に基づいて機能の１つ又は複数の命令のメモリ中のロケーションを示すことによって、１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するためのものである、条項１に記載のプロセッサ。
３．ＡＰＩが、１つ又は複数のバージョンを示すための１つ又は複数のデータ値を受信するためのものである、条項１又は２に記載のプロセッサ。
４．ＡＰＩが、ベース名を示すための１つ又は複数の第１のデータ値と、１つ又は複数のバージョンを示すための１つ又は複数の第２のデータ値とを受信するためのものである、条項１から３までのいずれか一項に記載のプロセッサ。
５．１つ又は複数のライブラリが、１つ又は複数の回路によって実施されるべきランタイム・ライブラリである、条項１から４までのいずれか一項に記載のプロセッサ。
６．１つ又は複数のライブラリが、１つ又は複数の回路によって実施されるべきドライバである、条項１から５までのいずれか一項に記載のプロセッサ。
７．アプリケーション・プログラミング・インターフェース（ＡＰＩ）とともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するためにＡＰＩを実施するための１つ又は複数のプロセッサ
を備える、システム。
８．ＡＰＩが、少なくとも、ＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを実施するための１つ又は複数の命令の１つ又は複数のメモリ・ロケーションを示すことによって、１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するためのものである、条項７に記載のシステム。
９．１つ又は複数のバージョンを識別するためにＡＰＩによって使用されるべきベース名とバージョン番号とを示す１つ又は複数のデータ値をさらに備える、条項７又は８に記載のシステム。
１０．ＡＰＩが、少なくとも名前値と数値とを示すためのデータを含む１つ又は複数のパラメータを受信するためのものであり、名前値と数値とが、１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するためにＡＰＩによって使用されるためのものである、条項７から９までのいずれか一項に記載のシステム。
１１．１つ又は複数のライブラリが、１つ又は複数のプロセッサによって実施されるべきドライバである、条項７から１０までのいずれか一項に記載のシステム。
１２．１つ又は複数のライブラリが、１つ又は複数のプロセッサによって実施されるべきランタイム・ライブラリである、条項７から１１までのいずれか一項に記載のシステム。
１３．１つ又は複数のプロセッサによって少なくとも部分的に実施された場合、１つ又は複数のプロセッサに、少なくとも、
１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）とともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別すること
を行わせる１つ又は複数のＡＰＩを記憶した機械可読媒体。
１４．１つ又は複数のプロセッサによって実施された場合、１つ又は複数のプロセッサに、１つ又は複数のＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別することを行わせる１つ又は複数の命令をさらに備え、データ値が、１つ又は複数のバージョンを識別するために使用可能な名前を示すための情報を含む、条項１３に記載の機械可読媒体。
１５．１つ又は複数のプロセッサによって実施された場合、１つ又は複数のプロセッサに、１つ又は複数のＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別することを行わせる１つ又は複数の命令をさらに備え、データ値が、１つ又は複数のバージョンを識別するために使用可能な数値を示すための情報を含む、条項１３又は１４に記載の機械可読媒体。
１６．１つ又は複数のＡＰＩが、１つ又は複数のＡＰＩに示された１つ又は複数のパラメータに少なくとも部分的に基づいて１つ又は複数のバージョンを識別するためのものである、条項１３から１５までのいずれか一項に記載の機械可読媒体。
１７．１つ又は複数のＡＰＩは、１つ又は複数のプロセッサが、少なくとも、１つ又は複数の命令のメモリ中のロケーションを示すことによって、１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別することを引き起こすためのものである、条項１３から１６までのいずれか一項に記載の機械可読媒体。
１８．１つ又は複数のライブラリが、１つ又は複数のプロセッサによって実施されるべきドライバである、条項１３から１７までのいずれか一項に記載の機械可読媒体。
１９．アプリケーション・プログラミング・インターフェース（ＡＰＩ）に応答して、ＡＰＩとともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するステップ
を含む、方法。
２０．１つ又は複数のバージョンが、ＡＰＩへの１つ又は複数のパラメータに少なくとも部分的に基づいて識別されるためのものであり、１つ又は複数のパラメータが、１つ又は複数のバージョンを識別するために使用可能な少なくともストリングを示すためのデータを含む、条項１９に記載の方法。
２１．１つ又は複数のバージョンが、ＡＰＩへの１つ又は複数のパラメータに少なくとも部分的に基づいて識別されるためのものであり、１つ又は複数のパラメータが、１つ又は複数のバージョンを識別するために使用可能な少なくとも数値を示すためのデータを含む、条項１９又は２０に記載の方法。
２２．ＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンの１つ又は複数の命令のメモリ中のロケーションを示すことによって、１つ又は複数のバージョンを識別するステップをさらに含む、条項１９から２１までのいずれか一項に記載の方法。
２３．１つ又は複数の部分が、ＡＰＩとともに１つ又は複数のソフトウェア・プログラムによって実施されるべき命令の１つ又は複数のセットを含む、条項１９から２２までのいずれか一項に記載の方法。
２４．１つ又は複数のライブラリが、実行された場合、ＡＰＩを実施する命令を備えるランタイム・ライブラリである、条項１９から２３までのいずれか一項に記載の方法。
２５．１つ又は複数のライブラリがドライバであり、ドライバが、ＡＰＩを実施するための１つ又は複数の命令を備える、条項１９から２４までのいずれか一項に記載の方法。

他の変形形態は、本開示の範囲内にある。したがって、開示される技法は、様々な修正及び代替構築が可能であるが、それらのいくつかの例示的な実施例が図面に示され、上記で詳細に説明された。しかしながら、特定の１つ又は複数の開示された形態に本開示を限定する意図はなく、その反対に、添付の特許請求の範囲において定義されるように、開示の趣旨及び範囲に入るすべての修正形態、代替構築、及び等価物を網羅することを意図していることが理解されるべきである。

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「含む、備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「含んでいる（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「限定はしないが、～を含む（ｉｎｃｌｕｄｉｎｇ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ，）」を意味する）と解釈されるべきである。「接続される」という用語は、修飾されず、物理的接続を指しているとき、何か介在するものがある場合でも、部分的に又は完全に中に含まれているか、取り付けられるか、又は互いに接合されるものとして解釈されるべきである。本明細書で値の範囲を詳述することは、本明細書に別段の記載のない限り、及び各別個の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に入る各別個の値を個々に参照する簡潔な方法として働くことを単に意図しているにすぎない。「セット」（たとえば、「項目のセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がないか又は否定されない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がないか又は否定されない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すとは限らず、サブセットと、対応するセットとは、等しくなり得る。

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ及びＣのうちの少なくとも１つ」という形態の言い回しなどの結合語は、別段の具体的な記載がないか又はさもなければ文脈によって明確に否定されない限り、別様に、項目、用語などが、Ａ又はＢ又はＣのいずれか、或いはＡとＢとＣとのセットの任意の空でないサブセットであり得ることを提示するために一般に使用される文脈で、理解される。たとえば、３つの部材を有するセットの説明的な実例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、そのような結合語は、いくつかの実施例が、Ａのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、及びＣのうちの少なくとも１つの各々が存在することを必要とすることを全体的に暗示するものではない。さらに、別段の記載がないか又は文脈によって否定されない限り、「複数（ｐｌｕｒａｌｉｔｙ）」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。複数である項目の数は、少なくとも２つであるが、明示的に、又は文脈によってのいずれかでそのように示されているとき、それよりも多いことがある。さらに、別段の記載がないか又はさもなければ文脈から明らかでない限り、「～に基づいて」という言い回しは、「少なくとも部分的に～に基づいて」を意味し、「～のみに基づいて」を意味しない。

本明細書で説明されるプロセスの動作は、本明細書に別段の記載がないか又はさもなければ文脈によって明確に否定されない限り、任意の好適な順序で実施され得る。少なくとも１つの実施例では、本明細書で説明されるプロセス（又はその変形形態及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実施され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行するコード（たとえば、実行可能命令、１つ又は複数のコンピュータ・プログラム、又は１つ又は複数のアプリケーション）として実装される。少なくとも１つの実施例では、コードは、たとえば、１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形態で、コンピュータ可読記憶媒体に記憶される。少なくとも１つの実施例では、コンピュータ可読記憶媒体は、一時的信号（たとえば、伝搬する一時的な電気又は電磁送信）を除外するが、一時的信号のトランシーバ内の非一時的データ・ストレージ回路要素（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的コンピュータ可読記憶媒体である。少なくとも１つの実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的コンピュータ可読記憶媒体のセットに記憶され、この記憶媒体は、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（たとえば、実行された結果として）、コンピュータ・システムに本明細書で説明される動作を実施させる実行可能命令を記憶している（又は、実行可能命令を記憶するための他のメモリを有する）。非一時的コンピュータ可読記憶媒体のセットは、少なくとも１つの実施例では、複数の非一時的コンピュータ可読記憶媒体を備え、複数の非一時的コンピュータ可読記憶媒体の個々の非一時的記憶媒体のうちの１つ又は複数は、コードのすべてがないが、複数の非一時的コンピュータ可読記憶媒体は、集合的にコードのすべてを記憶している。少なくとも１つの実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的コンピュータ可読記憶媒体は命令を記憶し、メイン中央処理ユニット（「ＣＰＵ」）は命令のいくつかを実行し、グラフィックス処理ユニット（「ＧＰＵ」）は他の命令を実行する。少なくとも１つの実施例では、コンピュータ・システムの異なる構成要素は、別個のプロセッサを有し、異なるプロセッサが命令の異なるサブセットを実行する。

したがって、少なくとも１つの実施例では、コンピュータ・システムは、本明細書で説明されるプロセスの動作を単独で又は集合的に実施する１つ又は複数のサービスを実装するように構成され、そのようなコンピュータ・システムは、動作の実施を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも１つの実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、分散型コンピュータ・システムが本明細書で説明される動作を実施するように、及び単一のデバイスがすべての動作を実施しないように、異なるやり方で動作する複数のデバイスを備える分散型コンピュータ・システムである。

本明細書で提供されるあらゆる実例、又は例示的な言葉（たとえば、「など、などの（ｓｕｃｈａｓ）」）の使用は、本開示の実施例をより明らかにすることのみを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

本明細書で引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることが個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用され得る。これらの用語は、互いに同義語として意図されていないことがあることが理解されるべきである。むしろ、特定の実例では、「接続される」又は「結合される」は、２つ又はそれ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用され得る。「結合される」はまた、２つ又はそれ以上の要素が直接互いに接触していないが、それでもなお互いに連動又は対話することを意味し得る。

別段の具体的な記載がない限り、明細書全体を通して、「処理する（ｐｒｏｃｅｓｓｉｎｇ）」、「算出する（ｃｏｍｐｕｔｉｎｇ）」、「計算する（ｃａｌｃｕｌａｔｉｎｇ）」、又は「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータを、コンピューティング・システムのメモリ、レジスタ又は他のそのような情報ストレージ、送信、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるように操作及び／又は変換する、コンピュータ又はコンピューティング・システム、或いは同様の電子コンピューティング・デバイスのアクション及び／又はプロセスを指すことが諒解され得る。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶され得る他の電子データに変換する任意のデバイス、又はデバイスの一部分を指し得る。非限定的な実例として、「プロセッサ」は、ＣＰＵ又はＧＰＵであり得る。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備え得る。本明細書で使用される「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実施するソフトウェア及び／又はハードウェア・エンティティを含み得る。また、各プロセスは、命令を直列で又は並列で、連続的に又は断続的に行うための複数のプロセスを指し得る。「システム」及び「方法」という用語は、１つ又は複数の方法をシステムが具体化し得、方法がシステムと考えられ得る場合に限り、本明細書において交換可能に使用される。

少なくとも１つの実施例では、算術論理ユニットは、結果を作り出すために１つ又は複数の入力をとる組合せ論理回路要素のセットである。少なくとも１つの実施例では、算術論理ユニットは、加算、減算、又は乗算などの数学演算を実装するためにプロセッサによって使用される。少なくとも１つの実施例では、算術論理ユニットは、論理ＡＮＤ／ＯＲ又はＸＯＲなどの論理演算を実装するために使用される。少なくとも１つの実施例では、算術論理ユニットは、ステートレスであり、論理ゲートを形成するように構成された半導体トランジスタなど、物理的切替え構成要素から作られる。少なくとも１つの実施例では、算術論理ユニットは、関連するクロックをもつステートフル論理回路として、内部で動作し得る。少なくとも１つの実施例では、算術論理ユニットは、関連するレジスタ・セット中で維持されない内部状態をもつ非同期論理回路として構築され得る。少なくとも１つの実施例では、算術論理ユニットは、プロセッサの１つ又は複数のレジスタに記憶されたオペランドを組み合わせ、別のレジスタ又はメモリ・ロケーションにプロセッサによって記憶され得る出力を作り出すために、プロセッサによって使用される。

少なくとも１つの実施例では、プロセッサによって取り出された命令を処理した結果として、プロセッサは、１つ又は複数の入力又はオペランドを算術論理ユニットに提示し、算術論理ユニットに、算術論理ユニットの入力に提供された命令コードに少なくとも部分的に基づく結果を作り出させる。少なくとも１つの実施例では、プロセッサによってＡＬＵに提供された命令コードは、プロセッサによって実行された命令に少なくとも部分的に基づく。少なくとも１つの実施例では、ＡＬＵにおける組合せ論理は、入力を処理し、プロセッサ内のバス上に置かれる出力を作り出す。少なくとも１つの実施例では、プロセッサは、プロセッサをクロック制御することにより、ＡＬＵによって作り出された結果が所望のロケーションに送出されるように、宛先レジスタ、メモリ・ロケーション、出力デバイス、又は出力バス上の出力ストレージ・ロケーションを選択する。

本明細書では、アナログ・データ又はデジタル・データを取得すること、獲得すること、受信すること、或いはそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及し得る。アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、機能コール、又はアプリケーション・プログラミング・インターフェースへのコールのパラメータとしてデータを受信することによってなど、様々なやり方で実現され得る。いくつかの実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、直列又は並列インターフェースを介してデータを転送することによって実現され得る。別の実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、提供するエンティティから獲得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現され得る。アナログ・データ又はデジタル・データを提供すること、出力すること、送信すること、送出すること、又は提示することにも言及し得る。様々な実例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送出する、又は提示するプロセスは、機能コールの入力又は出力パラメータ、アプリケーション・プログラミング・インターフェース又はプロセス間通信機構のパラメータとしてデータを転送することによって実現され得る。

上記の説明は、説明された技法の例示的な実装形態について述べているが、他のアーキテクチャが、説明された機能性を実装するために使用され得、本開示の範囲内にあることが意図される。さらに、説明を目的として、責任の具体的な分散が上記で定義されたが、様々な機能及び責任は、状況に応じて異なるやり方で分散及び分割され得る。

さらに、主題は、構造的特徴及び／又は方法論的行為に特有の言語で説明されたが、添付の特許請求の範囲で特許請求される主題は、説明された特有の特徴又は行為に必ずしも限定されるとは限らないことが理解されるべきである。むしろ、特有の特徴及び行為は、特許請求の範囲を実装する例示的な形態として開示される。

Claims

アプリケーション・プログラミング・インターフェース（ＡＰＩ）とともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別する前記ＡＰＩを実施する１つ又は複数の回路
を備える、プロセッサ。
前記ＡＰＩが、前記ＡＰＩに示された機能のバージョンに少なくとも部分的に基づいて前記機能の１つ又は複数の命令のメモリ中のロケーションを少なくとも示すことによって、前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別する、請求項１に記載のプロセッサ。
前記ＡＰＩが、前記１つ又は複数のバージョンを示すための１つ又は複数のデータ値を受信する、請求項１に記載のプロセッサ。
前記ＡＰＩが、ベース名を示すための１つ又は複数の第１のデータ値と、前記１つ又は複数のバージョンを示すための１つ又は複数の第２のデータ値とを受信する、請求項１に記載のプロセッサ。
前記１つ又は複数のライブラリが、前記１つ又は複数の回路によって実施されるべきランタイム・ライブラリである、請求項１に記載のプロセッサ。
前記１つ又は複数のライブラリが、前記１つ又は複数の回路によって実施されるべきドライバである、請求項１に記載のプロセッサ。
アプリケーション・プログラミング・インターフェース（ＡＰＩ）とともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別する前記ＡＰＩを実施する１つ又は複数のプロセッサ
を備える、システム。
前記ＡＰＩが、前記ＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを実施するための１つ又は複数の命令の１つ又は複数のメモリ・ロケーションを少なくとも示すことによって、前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別する、請求項７に記載のシステム。
前記１つ又は複数のバージョンを識別するために前記ＡＰＩによって使用されるべきベース名とバージョン番号とを示す１つ又は複数のデータ値をさらに含む、請求項７に記載のシステム。
前記ＡＰＩが、少なくとも名前値と数値とを示すためのデータを含む１つ又は複数のパラメータを受信し、前記名前値と前記数値とが、前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別するために前記ＡＰＩによって使用される、請求項７に記載のシステム。
前記１つ又は複数のライブラリが、前記１つ又は複数のプロセッサによって実施されるべきドライバである、請求項７に記載のシステム。
前記１つ又は複数のライブラリが、前記１つ又は複数のプロセッサによって実施されるべきランタイム・ライブラリである、請求項７に記載のシステム。
１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）を記憶した機械可読媒体であって、前記１つ又は複数のＡＰＩが、１つ又は複数のプロセッサによって少なくとも部分的に実施される場合、前記１つ又は複数のプロセッサに、少なくとも、
前記１つ又は複数のＡＰＩとともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別させる、機械可読媒体。
前記１つ又は複数のプロセッサによって実施される場合、前記１つ又は複数のプロセッサに、前記１つ又は複数のＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別させる１つ又は複数の命令をさらに含み、前記データ値が、前記１つ又は複数のバージョンを識別するために使用可能な名前を示すための情報を含む、請求項１３に記載の機械可読媒体。
前記１つ又は複数のプロセッサによって実施される場合、前記１つ又は複数のプロセッサに、前記１つ又は複数のＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別させる１つ又は複数の命令をさらに含み、前記データ値が、前記１つ又は複数のバージョンを識別するために使用可能な数値を示すための情報を含む、請求項１３に記載の機械可読媒体。
前記１つ又は複数のＡＰＩが、前記１つ又は複数のＡＰＩに示された１つ又は複数のパラメータに少なくとも部分的に基づいて前記１つ又は複数のバージョンを識別する、請求項１３に記載の機械可読媒体。
前記１つ又は複数のＡＰＩが、前記１つ又は複数のプロセッサに、１つ又は複数の命令のメモリ中のロケーションを少なくとも示すことによって、前記１つ又は複数のライブラリの前記１つ又は複数の部分の前記１つ又は複数のバージョンを識別させる、請求項１３に記載の機械可読媒体。
前記１つ又は複数のライブラリが、前記１つ又は複数のプロセッサによって実施されるべきドライバである、請求項１３に記載の機械可読媒体。
アプリケーション・プログラミング・インターフェース（ＡＰＩ）に応答して、前記ＡＰＩとともに使用されるべき１つ又は複数のライブラリの１つ又は複数の部分の１つ又は複数のバージョンを識別するステップ
を含む、方法。
前記１つ又は複数のバージョンが、前記ＡＰＩへの１つ又は複数のパラメータに少なくとも部分的に基づいて識別され、前記１つ又は複数のパラメータが、前記１つ又は複数のバージョンを識別するために使用可能な少なくとも１つのストリングを示すためのデータを含む、請求項１９に記載の方法。
前記１つ又は複数のバージョンが、前記ＡＰＩへの１つ又は複数のパラメータに少なくとも部分的に基づいて識別され、前記１つ又は複数のパラメータが、前記１つ又は複数のバージョンを識別するために使用可能な少なくとも１つの数値を示すためのデータを含む、請求項１９に記載の方法。
前記ＡＰＩに示された１つ又は複数のデータ値に少なくとも部分的に基づいて１つ又は複数のライブラリの１つ又は複数の部分の前記１つ又は複数のバージョンの１つ又は複数の命令のメモリ中のロケーションを示すことによって、前記１つ又は複数のバージョンを識別するステップをさらに含む、請求項１９に記載の方法。
前記１つ又は複数の部分が、前記ＡＰＩとともに１つ又は複数のソフトウェア・プログラムによって実施されるべき命令の１つ又は複数のセットを含む、請求項１９に記載の方法。
前記１つ又は複数のライブラリが、実行される場合、前記ＡＰＩを実施する命令を含むランタイム・ライブラリである、請求項１９に記載の方法。
前記１つ又は複数のライブラリがドライバであり、前記ドライバが、前記ＡＰＩを実施するための１つ又は複数の命令を含む、請求項１９に記載の方法。