JP2024514369A - 機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース - Google Patents

機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース Download PDF

Info

Publication number
JP2024514369A
JP2024514369A JP2022525575A JP2022525575A JP2024514369A JP 2024514369 A JP2024514369 A JP 2024514369A JP 2022525575 A JP2022525575 A JP 2022525575A JP 2022525575 A JP2022525575 A JP 2022525575A JP 2024514369 A JP2024514369 A JP 2024514369A
Authority
JP
Japan
Prior art keywords
api
memory
cuda
processor
libraries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022525575A
Other languages
English (en)
Inventor
ドゥスーザ、シェルトン
マーシン ピエチョトカ、マチェイ
ペレリギン、キリーロ
パランジャペ、ヴィクラム
Original Assignee
エヌビディア コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌビディア コーポレーション filed Critical エヌビディア コーポレーション
Publication of JP2024514369A publication Critical patent/JP2024514369A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/36Software reuse
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44536Selecting among different versions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/45Exploiting coarse grain parallelism in compilation, i.e. parallelism between groups of instructions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

並列コンピューティングを容易にするための1つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される1つ又は複数のコンピューティング機能に対応する1つ又は複数のメモリ・アドレス値を決定するための、装置、システム、及び技法。少なくとも1つの実施例では、並列コンピューティングを容易にするための1つ又は複数のアプリケーション・プログラミング・インターフェースは、グラフィックス処理ユニットなど、1つ又は複数の並列処理ユニットを使用して並列コンピューティングを容易にするための前記1つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される1つ又は複数の機能への1つ又は複数の機能コールに少なくとも部分的に基づいて、1つ又は複数のメモリ・アドレス値を決定する。

Description

本出願は、その内容全体が参照により本明細書に組み込まれる、2021年4月14日に出願された、「ENHANCEMENTS TO API FUNCTION ADDRESS QUERIES」と題する、米国仮出願第63/175,013号の利益を主張する。
少なくとも1つの実施例は、並列コンピューティングを容易にするための1つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される1つ又は複数のコンピューティング機能を実行するために使用される処理リソースに関する。たとえば、並列コンピューティングを容易にするための1つ又は複数のアプリケーション・プログラミング・インターフェースは、本明細書で説明される様々な新規の技法による、並列コンピューティングを容易にするための前記1つ又は複数のアプリケーション・プログラミング・インターフェースによって提供される1つ又は複数の機能への1つ又は複数の機能コールに少なくとも部分的に基づいて、1つ又は複数のメモリ・アドレス値を決定する。
プログラミング・コードは、しばしば、異なるコンピュータ・プログラムにおいて再使用される。しかしながら、経時的に、コードは、性能、ハードウェア互換性、及び/又は新しいハードウェア特徴を利用するためになど、様々な理由で更新され得る。その結果、特定のアプリケーションのためのコードを再使用することは、様々なバージョンのコードが利用可能であることの複雑さにより、複雑であり、潜在的にエラーを起こしやすくなり得る。
少なくとも1つの実施例による、ソフトウェア・プログラムによる呼出しの結果として実施されるべきドライバ及び/又はランタイムによって提供される1つ又は複数のアプリケーション・プログラミング・インターフェース(API)又はAPI機能を示すブロック図である。 少なくとも1つの実施例による、1つ又は複数のAPIを公開するシステム・ローダを示すブロック図である。 少なくとも1つの実施例による、APIを公開しないシステム・ローダを示すブロック図である。 少なくとも1つの実施例による、1つ又は複数のAPI又はAPI機能の1つ又は複数のメモリ・ロケーションについて1つ又は複数のライブラリを照会するためのプロセスを示す図である。 少なくとも1つの実施例による、例示的なデータ・センタを示す図である。 少なくとも1つの実施例による、処理システムを示す図である。 少なくとも1つの実施例による、コンピュータ・システムを示す図である。 少なくとも1つの実施例による、システムを示す図である。 少なくとも1つの実施例による、例示的な集積回路を示す図である。 少なくとも1つの実施例による、コンピューティング・システムを示す図である。 少なくとも1つの実施例による、APUを示す図である。 少なくとも1つの実施例による、CPUを示す図である。 少なくとも1つの実施例による、例示的なアクセラレータ統合スライス(accelerator integration slice)を示す図である。 少なくとも1つの実施例による、例示的なグラフィックス・プロセッサを示す図である。 少なくとも1つの実施例による、例示的なグラフィックス・プロセッサを示す図である。 少なくとも1つの実施例による、グラフィックス・コアを示す図である。 少なくとも1つの実施例による、GPGPUを示す図である。 少なくとも1つの実施例による、並列プロセッサを示す図である。 少なくとも1つの実施例による、処理クラスタを示す図である。 少なくとも1つの実施例による、グラフィックス・マルチプロセッサを示す図である。 少なくとも1つの実施例による、グラフィックス・プロセッサを示す図である。 少なくとも1つの実施例による、プロセッサを示す図である。 少なくとも1つの実施例による、プロセッサを示す図である。 少なくとも1つの実施例による、グラフィックス・プロセッサ・コアを示す図である。 少なくとも1つの実施例による、PPUを示す図である。 少なくとも1つの実施例による、GPCを示す図である。 少なくとも1つの実施例による、ストリーミング・マルチプロセッサを示す図である。 少なくとも1つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す図である。 少なくとも1つの実施例による、図23のソフトウェア・スタックのCUDA実装形態を示す図である。 少なくとも1つの実施例による、図23のソフトウェア・スタックのROCm実装形態を示す図である。 少なくとも1つの実施例による、図23のソフトウェア・スタックのOpenCL実装形態を示す図である。 少なくとも1つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す図である。 少なくとも1つの実施例による、図23~図26のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることを示す図である。 少なくとも1つの実施例による、図23~図26のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることをより詳細に示す図である。 少なくとも1つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す図である。 少なくとも1つの実施例による、異なるタイプの処理ユニットを使用してCUDAソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。 少なくとも1つの実施例による、CPU及びCUDA対応GPUを使用して、図31AのCUDAソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。 少なくとも1つの実施例による、CPU及びCUDA非対応(non-CUDA-enabled)GPUを使用して、図31AのCUDAソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。 少なくとも1つの実施例による、図31CのCUDAからHIPへのトランスレーション・ツール(CUDA-to-HIP translation tool)によってトランスレートされた例示的なカーネルを示す図である。 少なくとも1つの実施例による、図31CのCUDA非対応GPUをより詳細に示す図である。 少なくとも1つの実施例による、例示的なCUDAグリッドのスレッドが図33の異なるコンピュート・ユニットにどのようにマッピングされるかを示す図である。 少なくとも1つの実施例による、既存のCUDAコードをData Parallel C++コードにどのようにマイグレートするかを示す図である。
図1は、少なくとも1つの実施例による、ソフトウェア・プログラム102による呼出しの結果として実施されるべきドライバ及び/又はランタイム104によって提供される1つ又は複数のアプリケーション・プログラミング・インターフェース(API)又はAPI110機能112、114、116、118を示すブロック図である。
少なくとも1つの実施例では、API110は、プロセッサによって実行された場合、1つ又は複数のプロセッサに、1つ又は複数の算出動作を実施することを行わせるソフトウェア命令のセットである。少なくとも1つの実施例では、1つ又は複数のAPI110は、1つ又は複数のソフトウェア・ライブラリ106、ランタイム104、ドライバ104、或いは本明細書でさらに説明されるソフトウェア及び/又は実行可能コードの任意の他のグループ化の一部として分散されるか又はさもなければ提供される。少なくとも1つの実施例では、1つ又は複数のAPI110は、ユーザ実装された(user-implemented)ソフトウェア・プログラム102に機能性を提供する。少なくとも1つの実施例では、ソフトウェア・プログラム102は、コンピューティング・デバイスに、1つ又は複数の算出動作を実施すること、及び/又は実行されるべきAPI110又はAPI110機能112、114、116、118など、命令の1つ又は複数の他のセットを呼び出すことを行うように命令するための、ソフトウェア・コード、コマンド、命令、又はテキストの他のシーケンスの集合である。少なくとも1つの実施例では、1つ又は複数のAPI110によって提供される機能性は、ソフトウェア機能112、114、116、118、及び/又はグラフィックス処理ユニット(GPU:graphics processing unit)などの1つ又は複数の並列処理ユニット(PPU:parallel processing unit)を使用してユーザ実装されたソフトウェア・プログラム102を加速するための1つ又は複数のソフトウェア機能112、114、116、118を含む。
少なくとも1つの実施例では、API110は、1つ又は複数の算出動作を実施するための1つ又は複数の回路へのハードウェア・インターフェースである。少なくとも1つの実施例では、本明細書で説明される1つ又は複数のソフトウェアAPI110は、図2A、図2B、及び図3と併せて以下で説明される1つ又は複数の技法を実施するための1つ又は複数の回路として実装される。少なくとも1つの実施例では、1つ又は複数のソフトウェア・プログラム102は、実行された場合、1つ又は複数のハードウェア・デバイス及び/又は回路に、図2A、図2B、及び図3と併せて以下でさらに説明される1つ又は複数の技法を実施することを行わせる命令を備える。
少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム102は、コンピュート・ユニファイド・デバイス・アーキテクチャ(CUDA:Compute Unified Device Architecture)、oneAPI、又は本明細書でさらに説明される任意の他のAPI110など、並列コンピューティングを容易にするための1つ又は複数のAPI110を利用する。少なくとも1つの実施例では、並列コンピューティングを容易にするための1つ又は複数のAPIは、並列コンピューティングに関係する1つ又は複数の動作を個々に実施するコール可能機能112、114、116、118など、API110のセットを提供する。たとえば、一実施例では、並列コンピューティングを容易にするための1つ又は複数のAPI110は、グラフィックス処理ユニット(GPU)などの1つ又は複数の並列処理ユニット(PPU)上で実施されるべき1つ又は複数のソフトウェア命令及び/又は動作をスケジュールするために機能112、114、116、118を提供する。
少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、GPUなどの1つ又は複数のPPUを使用して1つ又は複数のコンピューティング動作を実施するために、並列コンピューティングを容易にするための1つ又は複数のAPI110と対話する。少なくとも1つの実施例では、1つ又は複数のPPUを使用する1つ又は複数のコンピューティング動作は、少なくとも部分的に前記1つ又は複数のPPUによる実行によって加速されるべきコンピューティング動作の少なくとも1つ又は複数のグループを含む。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラムは、前記1つ又は複数のAPIへのリモート・インターフェース又はローカル・インターフェースを使用して、並列コンピューティングを容易にするための1つ又は複数のAPI110と対話する。
少なくとも1つの実施例では、リモート・インターフェース108は、実行された場合、ネットワークなどの通信媒体上で1つ又は複数のユーザ実装されたソフトウェア・プログラム102と1つ又は複数のAPI110を提供する1つ又は複数のソフトウェア・ライブラリ106との間の対話を容易にする1つ又は複数のソフトウェア命令のセットである。少なくとも1つの実施例では、1つ又は複数のソフトウェア・ライブラリ106は、実行された場合、1つ又は複数の算出動作を実施するために、API又はAPI機能など、1つ又は複数の機能を提供する命令のセットである。少なくとも1つの実施例では、ライブラリは、インターフェース108を通した1つ又は複数のAPI110への1つ又は複数のコールの結果として提供されるべき1つ又は複数の機能実装形態112、114、116、118を備える。少なくとも1つの実施例では、1つ又は複数の機能実装形態112、114、116、118は、実行された場合、算出動作などの1つ又は複数のAPI又はAPI機能を実施するソフトウェア命令のセットである。少なくとも1つの実施例では、リモート・インターフェース108は、コンピューティング・リソース・サービス・プロバイダなどのリモート・コンピューティング・サービスによる1つ又は複数のAPIの実施を容易にする。別の実施例では、1つ又は複数のAPI110を備える1つ又は複数のライブラリ106は、任意の他のコンピューティング・ホストによって実施され、1つ又は複数のユーザ実装されたソフトウェア・プログラム102によって、又はそれとともに算出することを容易にするための前記1つ又は複数のAPI110を提供する。
少なくとも1つの実施例では、ローカル・インターフェース108は、実行された場合、リモート通信又はネットワーク通信なしに、ソフトウェア・プログラム102と1つ又は複数のAPI110又はAPI110機能112、114、116、118との間の対話を容易にするソフトウェア命令を備える。少なくとも1つの実施例では、ローカル・インターフェース108は、ライブラリ106又はライブラリの1つ又は複数のAPI110へのソフトウェア・プログラム102によるアクセスを容易にする。少なくとも1つの実施例では、ローカル・インターフェース108は、ユーザ実装されたソフトウェア・プログラム102によって使用されるためのものであり、1つ又は複数のAPI110を備える1つ又は複数のソフトウェア・ライブラリ106とともに前記ユーザ実装されたソフトウェア・プログラム102をコンパイルする。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、1つ又は複数のAPI110を実装するプリコンパイルされたソフトウェア・ライブラリ106又はコンパイルされていないソース・コードとともに静的にコンパイルされる。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、動的にコンパイルされ、前記1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、コンパイラ、又は本明細書でさらに説明されるものなど、他のリンクツールを使用して、1つ又は複数のAPI110とAPI110機能112、114、116、118とを備える1つ又は複数のプリコンパイルされたソフトウェア・ライブラリ106にリンクする。
少なくとも1つの実施例では、ドライバ又はランタイム104は、1つ又は複数のAPI110を実装するか又はさもなければ提供するライブラリ106へのローカル・インターフェース又はリモート・インターフェース108を備える。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、1つ又は複数のドライバ又はランタイム104のライブラリ106によって提供される1つ又は複数のAPI110を呼び出すか又はさもなければそれと対話するための、システム・コール及び/又はAPI機能コールなど、1つ又は複数の機能コールを実施する。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、システム・ローダへの1つ又は複数の機能コールを実施することによって、前記1つ又は複数のAPI110を備える1つ又は複数のドライバ又はランタイム104中の1つ又は複数のライブラリ106によって提供される1つ又は複数のAPI110又はAPI110機能112、114、116、118を直接呼び出し、前記システム・ローダは、その場合、図2A及び図2Bと併せて以下で説明されるように、前記1つ又は複数のAPI110を呼び出すために前記1つ又は複数のドライバ又はランタイム104と対話する。
少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、1つ又は複数のドライバ又はランタイム104によって提供される1つ又は複数のライブラリ106中の1つ又は複数のAPI110、API110機能112、114、116、118の1つ又は複数のアドレス、及び/又はAPI機能112、114、116、118の実装形態を取得するために、システム・ローダへの1つ又は複数のシステム・コールを実施する。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、図2A及び図2Bと併せて以下で説明されるように、1つ又は複数のAPI110又はAPI110機能112、114、116、118のアドレスを要求するための前記システム・ローダへの前記ユーザ実装されたソフトウェアによるコールの結果として、システム・ローダによって提供される1つ又は複数のメモリ・アドレス又はシンボルに少なくとも部分的に基づいて、1つ又は複数のAPI110又はAPI110機能112、114、116、118を呼び出す。少なくとも1つの実施例では、1つ又は複数のユーザ実装されたソフトウェア・プログラム102は、API110及び/又はAPI110機能112、114、116、118を実装するライブラリ106を備えるか又はさもなければ提供するドライバ又はランタイム104への1つ又は複数の機能コールの結果として提供される1つ又は複数のメモリ・アドレス又はシンボルに少なくとも部分的に基づいて、1つ又は複数のAPI110又はAPI110機能112、114、116、118を直接呼び出す。
少なくとも1つの実施例では、1つ又は複数のライブラリ106へのインターフェース108を備えるか又はさもなければ提供する1つ又は複数のドライバ又はランタイム104は、実行されたとき、1つ又は複数のAPI110、API110機能112、114、116、118、或いは並列コンピューティング又は本明細書でさらに説明される任意の他の目的を容易にするための機能など、他の算出動作を実施する命令を含んでいる。少なくとも1つの実施例では、1つ又は複数のライブラリ106を備えるか又は1つ又は複数のライブラリ106との対話を容易にする1つ又は複数のドライバ又はランタイム104によって実装されるか又はさもなければ提供される1つ又は複数のAPI110、API110機能112、114、116、118は、機能性を追加し、ソフトウェア・バグを修繕し、新しい要件を満たすために、又は任意の他のソフトウェア開発目的のために、より最近のバージョンに更新される。少なくとも1つの実施例では、1つ又は複数のユーザ開発されたソフトウェア・プログラム102は、図2A及び図2Bと併せて以下で説明されるように、1つ又は複数のAPI110、API110機能112、114、116、118を、直接、又はシステム・ローダへの1つ又は複数のシステム・コールを実施することによって呼び出す。少なくとも1つの実施例では、1つ又は複数のユーザ開発されたソフトウェア・プログラム102は、メモリ・アドレスを取得するための1つ又は複数のAPI110コールの結果として受信された前記メモリ・アドレスにおいて、API110又はAPI110機能112、114、116、118を呼び出すことによって、1つ又は複数のAPI110、API110機能112、114、116、118を呼び出す。
少なくとも1つの実施例では、1つ又は複数の機能ポインタは、1つ又は複数のAPI110を実装するドライバ又はランタイム104によって実装されるか又はさもなければ提供される特定のAPI110、API110機能112、114、116、118、又は他のコンピューティング機能のアドレスを含むデータ値である。少なくとも1つの実施例では、1つ又は複数のソフトウェア・プログラム102は、インターフェース108及び/又はAPI110への1つ又は複数の機能コールの結果として、ドライバ又はランタイム104によって実装されるか又はさもなければ提供される1つ又は複数のAPI110、API110機能112、114、116、118、又は他のコンピューティング機能に対応する1つ又は複数の機能ポインタを受信する。少なくとも1つの実施例では、1つ又は複数のAPI110、API110機能112、114、116、118、又は他のコンピューティング機能に対応するメモリ・アドレスへの1つ又は複数のポインタを提供するために、ドライバ及び/又はランタイム104は、前記ドライバ及び/又はランタイム104によって提供される1つ又は複数のAPI110、API110機能112、114、116、118、又は他のコンピューティング機能に対応する1つ又は複数のメモリ・アドレスを取り出すための少なくとも1つのコンピューティング機能を提供する。
図2Aは、少なくとも1つの実施例による、図1と併せて上記で説明された、及び本明細書でさらに説明される、1つ又は複数のアプリケーション・プログラミング・インターフェース(API)又はAPI機能を公開するシステム・ローダ206を示すブロック図である。少なくとも1つの実施例では、システム・ローダ206は、実行された場合、1つ又は複数のソフトウェア・プログラムの実行を容易にするための1つ又は複数のコンピューティング動作を実施するソフトウェア命令のセットである。少なくとも1つの実施例では、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザ実装されたソフトウェア・プログラム202は、データ値であり、実行されたとき、前記ユーザ実装されたソフトウェア・プログラム102を実装するソース・コードに従って、何らかの機能を実施するソフトウェア命令である。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム202は、実行された場合、API又はAPI機能コール204を呼び出すか又はさもなければそれが実施されることを引き起こす命令を備える。少なくとも1つの実施例では、API又はAPI機能コール204は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、実行されたとき、1つ又は複数のAPIによって実装されるか又はさもなければ提供される1つ又は複数のコンピューティング機能を呼び出す1つ又は複数のソフトウェア命令である。
少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム202は、システム・ローダ106と対話することによって、API機能コール204又はAPIを実施する。少なくとも1つの実施例では、システム・ローダ206は、データ値であり、実行されたとき、並列コンピューティングを容易にするための1つ又は複数のAPIを実装するドライバによって提供される1つ又は複数の機能を呼び出すことなど、オペレーティング・システム機能を実施するソフトウェア命令である。少なくとも1つの実施例では、システム・ローダ206は、API機能コール又はAPIのアドレスを得る208ために、APIドライバ210と対話する。少なくとも1つの実施例では、APIドライバ210は、データ値であり、実行されたとき、前記APIドライバ110への1つ又は複数のコンピューティング機能コール及び/又はAPIコールの結果として1つ又は複数のAPI又はAPI機能を実施するソフトウェア命令である。
少なくとも1つの実施例では、システム・ローダ206は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、1つ又は複数のAPI及び/又は1つ又は複数のAPIによって提供される1つ又は複数の機能コールの実装形態に対応する1つ又は複数のメモリ・アドレスを受信するための、getProcAddress、cuGetProcAddress、又は任意の他の機能など、1つ又は複数のコンピューティング機能コールを実施した結果として、1つ又は複数のAPI又はAPI機能コールのアドレスを受信する208。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム202が、API又はAPI機能コールを実施するか、又はさもなければ、それを直接、システム・ローダ106への1つ又は複数のシステム機能コールを実施することによって呼び出した結果として、前記システム・ローダ206は、前記ユーザ実装されたソフトウェア・プログラム202によるAPI又はコールされたAPI機能204の1つ又は複数の実装形態に関連する1つ又は複数のメモリ・アドレスを決定し、前記1つ又は複数のメモリ・アドレスにおいて前記API又はAPI機能を実施するための命令の実行を開始する。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム202は、1つ又は複数のAPI又はAPI機能コール204を、前記1つ又は複数のAPI又はAPI機能のどの実装形態がシステム・ローダ106によってAPIドライバ210において呼び出されるべきであるかにかかわらず、実施する。
図2Bは、少なくとも1つの実施例による、API又はAPI機能を公開しないシステム・ローダ216を示すブロック図である。少なくとも1つの実施例では、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、APIドライバ120によって実装されるAPI又はAPI機能を呼び出すためにシステム・ローダ216を使用するのではなく、ユーザ実装されたソフトウェア・プログラム212は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、APIドライバ120によって提供される1つ又は複数のAPI又はAPI機能実装形態に関連する1つ又は複数のメモリ・アドレスを得るために、システム・ローダへの1つ又は複数のシステム機能コール214を実施する。少なくとも1つの実施例では、システム・ローダ216は、1つ又は複数のAPI機能コール214の1つ又は複数のメモリ・アドレスを、前記1つ又は複数のAPI又はAPI機能コールを実装するAPIドライバ220に要求すること218によって、前記1つ又は複数のメモリ・アドレスを要求する1つ又は複数のシステム機能コールに応答する。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム212は、システム・ローダ216への1つ又は複数のシステム機能コール214の結果として決定された1つ又は複数のメモリ・アドレス・ロケーションにおいて記憶された1つ又は複数のソフトウェア命令を呼び出すことによって、1つ又は複数のAPI機能コールを実施して、APIドライバ120への1つ又は複数の機能コールの結果として前記1つ又は複数のメモリ・アドレス・ロケーションを決定する。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム212は、APIドライバ120への直接の1つ又は複数の機能コールの結果として決定された1つ又は複数のメモリ・アドレス・ロケーションにおいて記憶された1つ又は複数のソフトウェア命令を呼び出すことによって、1つ又は複数のAPI又はAPI機能コールを実施する。
少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム212は、前記1つ又は複数のAPI又はAPI機能に対応する1つ又は複数のメモリ・アドレスを要求するとき、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、APIに、APIドライバ220によって実装されるか又はさもなければ提供される、他のAPI又はAPI機能など、1つ又は複数のソフトウェア機能の1つ又は複数のバージョンを示す。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム212は、1つ又は複数のAPIへの1つ又は複数のコール、及び/或いは並列コンピューティングを容易にするためのAPIなどのAPIを実装するか又はさもなければ提供するドライバ又はランタイムへの1つ又は複数のAPI機能コールの結果として、APIドライバ120によって実装されるか又はさもなければ提供される1つ又は複数のAPI又はAPI機能の特定のバージョン及び/又は実装形態に対応する1つ又は複数のメモリ・アドレスを受信する。
少なくとも1つの実施例では、機能、並列コンピューティングを容易にするためのAPIによって提供される機能など、1つ又は複数のAPI又はAPI機能、或いは本明細書でさらに説明される任意の他のAPI及び/又は機能は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザモード・ソフトウェア・ドライバ及び/又はランタイム・ソフトウェア・ライブラリによって実装されるか又はさもなければ提供される。少なくとも1つの実施例では、1つ又は複数のAPI又はAPI機能に関連するか又はそれに対応する1つ又は複数のメモリ・アドレスの決定を容易にするために、ユーザモード・ソフトウェア・ドライバ及び/又はランタイム・ソフトウェア・ライブラリは、前記1つ又は複数のメモリ・アドレスを取り出す及び/又は示すための1つ又は複数の追加の機能及び/又はAPIを提供する。たとえば、一実施例では、CUDAなどの並列コンピューティングを容易にするためのAPIを実装するドライバが、以下のように、1つ又は複数の他のAPI及び/又はAPI機能及び/又は機能の1つ又は複数の実装形態に対応する1つ又は複数のメモリ・アドレスを得るための機能及び/又はAPIを提供する。

少なくとも1つの実施例では、1つ又は複数のAPIは、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、ユーザモード・ドライバによって実装されるか又はさもなければ提供される1つ又は複数のAPI又はAPI機能の1つ又は複数の実装形態の1つ又は複数のメモリ・アドレスを得るための、一般的なgetProcAddress或いは任意の他の名前及び/又は定義を伴う機能など、cuGetProcAddressと同様の1つ又は複数のソフトウェア機能を提供する。少なくとも1つの実施例では、ユーザ実装されたソフトウェア・プログラム又はシステム・ローダは、上記で説明されたように、getProcAddress又はcuGetProcAddressなど、ソフトウェア機能及び/又はAPIへの1つ又は複数のパラメータを提供する。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ソフトウェア機能又はAPIへの1つ又は複数のパラメータは、シンボルを含む。少なくとも1つの実施例では、シンボルは、ドライバAPI機能を識別するために使用可能な名前、ポインタ、又は他の値を含む、データ値である。少なくとも1つの実施例では、シンボル・パラメータによって提供される名前又は他の識別子は、ドライバAPI機能のベース名である。たとえば、CUDAなどの並列コンピューティングを容易にするためのAPIにおいて、シンボル値は、1つ又は複数の実装形態バージョンを有する「cuMemAlloc」と称するドライバによって実装されるAPI又はAPI機能に対応する「cuMemAlloc」であり得る。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ソフトウェア機能への1つ又は複数のパラメータは、機能ポインタ「funcPtr」を含む。少なくとも1つの実施例では、機能ポインタは、メモリ中のAPI又はAPI機能のドライバ実装形態のメモリ・アドレスを含むか又はそのドライバ実装形態をポイントする、データ値である。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ソフトウェア機能は、呼び出されたとき、「cudaVersion」によって示された特定のドライバ・バージョンに対応するバージョンを有する「symbol」において要求されたAPI又はAPI機能のドライバ固有実装形態に対応するメモリ・アドレスを伴う機能ポインタ値を得る。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ソフトウェア及び/又はAPI機能への1つ又は複数のパラメータは、ドライバ・バージョンを含む。少なくとも1つの実施例では、ドライバ・バージョンは、さらにAPIを実装するか又はさもなければ提供するドライバの特定の実装形態又はバージョンを識別するための数値を示すデータ値である。少なくとも1つの実施例では、本明細書で説明されるようなCUDAの特定のバージョンに対応する「cudaVersion」などのドライバ・バージョンは、「symbol」によって示されたAPI機能の実装形態を含む及び/又は提供するドライバ・バージョンを示す。少なくとも1つの実施例では、特定のドライバ・バージョンの指示は、getProcAddress又はcuGetProcAddressが、「symbol」によって示されたAPI又はAPI機能の1つ又は複数の特定の実装形態又はバージョンの1つ又は複数のアドレスを決定することと、getProcAddress又はcuGetProcAddressへのパラメータとしても受け渡されるメモリ・アドレスを機能ポインタ中で設定することとを引き起こす。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressへのパラメータとして提供されるドライバ・バージョンは、「symbol」の特定の実装形態が、getProcAddress又はcuGetProcAddressを提供するライブラリによって検索されることを引き起こす。一実施例では、ドライバ・バージョンが、現在稼動しているドライバ・バージョンよりも小さいか又はそれに等しい場合、getProcAddress又はcuGetProcAddressは「symbol」によって示された対応する機能又はAPIを見つけることになる。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ソフトウェア機能又はAPIへの1つ又は複数のパラメータは、1つ又は複数のフラグを含む。少なくとも1つの実施例では、フラグは、ドライバ又は他のソフトウェアを提供されるAPI又はAPI機能の特定の実装形態を検索するとき、ソフトウェア機能又はAPIによって使用可能な1つ又は複数のオプションを示すデータ値である。少なくとも1つの実施例では、特定のフラグを含まないパラメータは、getProcAddress又はcuGetProcAddressなど、機能又はAPIが、「symbol」パラメータによって示されたAPI又はAPI機能のデフォルト及び/又は直近の実装形態を検索することを引き起こす。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、1つ又は複数のソフトウェア機能又はAPIは、「symbol」パラメータによって示されたAPI又はAPI機能の1つ又は複数のアドレスの決定又は位置特定に対応するステータスを示す値を返す。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、1つ又は複数のソフトウェア機能は、「symbol」パラメータに一致するAPIが見つけられ、それぞれのメモリ・アドレスが「funcPtr」などの機能ポインタ中で返されたか又はさもなければ設定されたことを示すために、成功を示すためのCUDA_SUCCESS又は任意の他のデータ値など、成功値を返す。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、1つ又は複数のソフトウェア機能は、getProcAddress又はcuGetProcAddressに提供された1つ又は複数のパラメータがヌルであるか又はさもなければ無効であることを示すために、CUDA_ERROR_INVALID_VALUEなどの1つ又は複数の無効なパラメータを示す値を返す。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、1つ又は複数のソフトウェア機能は、「symbol」パラメータによって示された特定のAPI機能が見つけられなかったこと、或いは前記「symbol」パラメータによって示された特定のAPI又はAPI機能に対応するメモリ・アドレスが位置を特定され得なかったこと又は計算され得なかったことを示す、値を返す。少なくとも1つの実施例では、「symbol」パラメータによって示されたAPI又はAPI機能が位置を特定され得なかった場合、getProcAddress又はcuGetProcAddressなど、機能は、失敗を示すためのCUDA_ERROR_NOT_FOUND又は任意の他の値など、前記API機能が位置を特定され得なかったことを示す値を返す。
少なくとも1つの実施例では、API又はAPI機能を実装するランタイム・ライブラリが、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、以下のように、1つ又は複数のAPI又はAPI機能の1つ又は複数の実装形態又はバージョンに対応する1つ又は複数のメモリ・アドレスを得るための機能を提供する。

少なくとも1つの実施例では、1つ又は複数のAPIは、ランタイム・ライブラリによって実装されるか又はさもなければ提供される1つ又は複数のAPI又はAPI機能の1つ又は複数の実装形態又はバージョンに対応する1つ又は複数のメモリ・アドレスを得るために、一般的なgetDriverEntryPointなど、cudaDriverGetEntryPointと同様の1つ又は複数のソフトウェア機能を提供し得る。
少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、API、API機能、又は他のソフトウェア機能への1つ又は複数のパラメータは、シンボルを含む。少なくとも1つの実施例では、シンボルは、に対応する1つ又は複数のメモリ・アドレスを検索又は決定するためのドライバ実装された(driver-implemented)API機能の名前を含む、ポインタなどのデータ値である。少なくとも1つの実施例では、シンボル・パラメータによって提供される名前は、ドライバ実装されたAPI機能のベース名である。たとえば、CUDAなどの並列コンピューティングを容易にするためのAPIにおいて、シンボル値は、1つ又は複数のドライバ・バージョン固有実装形態を有する「cuMemAlloc」と称するドライバによって実装されるAPI機能に対応する「cuMemAlloc」であり得る。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、API、API機能、又はソフトウェア機能は、「symbol」パラメータによって示されたAPI又はAPI機能の直近のドライバ実装形態に対応するメモリ・アドレス又は機能ポインタを決定する。
少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、API、API機能、又はソフトウェア機能への1つ又は複数のパラメータは、機能ポインタ「funcPtr」を含む。少なくとも1つの実施例では、機能ポインタは、図1と併せて上記で説明された、及び本明細書でさらに説明されるものなど、API又はAPI機能の現在又は直近のドライバ実装形態をポイントするメモリ・アドレスを含むデータ値である。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、API、API機能、又はソフトウェア機能は、現在又は直近のドライバ・バージョンに対応するバージョンを有する「symbol」において要求されたAPI又はAPI機能の現在又は直近のドライバ固有実装形態に対応するメモリ・アドレスを伴う機能ポインタ値を設定する。
少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、API、API機能、又はソフトウェア機能への1つ又は複数のパラメータは、1つ又は複数のフラグを含む。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointへのパラメータとして受け渡されるフラグは、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、APIを実装するドライバ中のAPI又はAPI機能の特定の実装形態を検索するときに考慮すべき1つ又は複数のオプションを示すデータ値である。少なくとも1つの実施例では、特定のフラグを含まないパラメータは、getDriverEntryPoint又はcuGetDriverEntryPointなど、API又はAPI機能が、「symbol」パラメータによって示されたAPI機能のデフォルト及び/又は直近のドライバ実装形態を検索することを引き起こす。
少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、1つ又は複数のAPI、API機能、又はソフトウェア機能は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、getDriverEntryPoint又はcuGetDriverEntryPointに受け渡される「symbol」パラメータによって示された、ドライバ中のAPI又はAPI機能実装形態に対応する1つ又は複数のアドレスの決定又は位置特定に対応するステータスを示す値を返す。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、1つ又は複数のAPI、API機能、又はソフトウェア機能は、「symbol」パラメータに一致するAPI又はAPI機能実装形態が見つけられ、それぞれのメモリ・アドレスが「funcPtr」などの機能ポインタ中で返されたか又はさもなければ設定されたことを示すために、cuGetDriverEntryPointに対応するcudaSuccessなど、成功値を返す。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、1つ又は複数のAPI、API機能、又はソフトウェア機能は、getDriverEntryPoint又はcuGetDriverEntryPointに提供された1つ又は複数のパラメータがヌルであるか又はさもなければ無効であることを示すために、cuGetDriverEntryPointに対応するcudaErrorInvalidValueなどの1つ又は複数の無効なパラメータを示す値を返す。少なくとも1つの実施例では、getDriverEntryPoint又はcuGetDriverEntryPointなど、1つ又は複数のソフトウェア機能は、「symbol」パラメータによって示された特定のAPI又はAPI機能が見つけられなかったこと、或いは前記「symbol」パラメータによって示されたドライバ実装された特定のAPI又はAPI機能に対応するメモリ・アドレスが位置を特定され得なかったこと又は計算され得なかったことを示す、値を返す。少なくとも1つの実施例では、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、「symbol」パラメータによって示されたAPI又はAPI機能が位置を特定され得なかったか、又は無効であるか、又はさもなければAPIの現在のドライバ実装形態において利用可能でない場合、getDriverEntryPoint又はcuGetDriverEntryPointなど、API又はAPI機能は、cuGetDriverEntryPointに対応するcudaErrorNotFoundなど、前記API又はAPI機能が位置を特定され得なかったことを示す値を返す。
少なくとも1つの実施例では、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、1つ又は複数のAPI又はAPI機能の1つ又は複数のバージョンの特定のドライバ実装形態に対応するメモリ・アドレスを決定するために、ドライバは、ドライバAPI又はAPI機能エントリからなるテーブルを維持し、ここで、各エントリは、ドライバ機能のデフォルト実装形態と、ドライバ機能のバージョン化された実装形態と、ドライバ機能の特殊な変形態とを含むドライバ機能のセットからなる。各ドライバ機能は、一実施例では、特定のAPI又はAPI機能がいつもたらされたかを示すドライバ・バージョンを含むバージョン情報、特定のAPI又はAPI機能が削除されたときのドライバ・バージョンを示す削除情報、及びAPI又はAPI機能の特定の実装形態に対応する1つ又は複数のメモリ・アドレスへのポインタなど、対応するメタデータを有する。
少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ドライバAPI又はAPI機能への1つ又は複数のコールが行われたとき、ドライバは、上記で説明されたように、procテーブルにおいて、要求されたシンボルを検索し、一致が見つけられた場合、そのアドレスを返す。少なくとも1つの実施例では、ドライバは、上記で説明されたように、各シンボルに対応する各API又はAPI機能に関連するシンボル名、メモリ・アドレス、及び/又は他のメタデータに少なくとも部分的に基づいて、ハッシュ・テーブルを実装し、すべてのハッシュを事前算出する。
上記で説明されたように、少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressなど、ドライバAPI又はAPI機能は、パラメータ又は引数としてフラグを受け付け、前記フラグは、ドライバ実装されたAPI又はAPI機能の特殊な変形態を示し得る。少なくとも1つの実施例では、getProcAddress又はcuGetProcAddressへのパラメータ又は引数として提供されるべき1つ又は複数のフラグを示す例示的な列挙型は、以下の通りである。
少なくとも1つの実施例では、GET_PROC_ADDRESS_DEFAULT又はCU_GET_PROC_ADDRESS_DEFAULTのフラグ値は、特定のAPI又はAPI機能のデフォルト・ドライバ実装形態が、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、getProcAddress又はcuGetProcAddressによって検索されるべきであることを示す。少なくとも1つの実施例では、GET_PROC_ADDRESS_DEFAULT又はCU_GET_PROC_ADDRESS_DEFAULTは、API_PER_THREAD_DEFAULT_STREAM又はCUDA_API_PER_THREAD_DEFAULT_STREAMが設定されていないとき、GET_PROC_ADDRESS_LEGACY_STREAM又はCU_GET_PROC_ADDRESS_LEGACY_STREAMを受け渡すことと等価であり、API_PER_THREAD_DEFAULT_STREAM又はCUDA_API_PER_THREAD_DEFAULT_STREAMが設定されているとき、GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAM又はCU_GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAMを受け渡すことと等価である。少なくとも1つの実施例では、GET_PROC_ADDRESS_LEGACY_STREAM又はCU_GET_PROC_ADDRESS_LEGACY_STREAMは、getProcAddress又はcuGetProcAddressが、引数に受け渡されるか又はさもなければ引数として提供される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも1つの実施例では、GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAM又はCU_GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAMは、getProcAddress又はcuGetProcAddressが、要求されたシンボルに一致するすべてのptdsバージョンを含むgetProcAddress又はcuGetProcAddressに受け渡されるか又はさもなければそれに引数として提供される前記シンボルに一致するすべてのシンボルを検索することを引き起こす。
少なくとも1つの実施例では、ドライバは、前記ドライバの所与の実装形態についての特定の挙動に準拠するために、フラグ・パラメータ又は引数を修正するための1つ又は複数のインライン機能を実装し得るか又はさもなければ提供し得る。少なくとも1つの実施例では、ドライバは、CUDAなどの並列コンピューティングを容易にするためのAPI、又は本明細書でさらに説明される任意の他のAPIの様々なAPI又はAPI機能に対応する利用可能な各ドライバ・バージョン又は実装形態バージョンについて、1つ又は複数のユーザ実装されたソフトウェア・プログラムにとって利用可能な様々なヘッダ・ファイル中で、公的に公開されたタイプ定義又はtypedefsのリストを実装し得るか又はさもなければ提供し得る。
上記で説明されたように、少なくとも1つの実施例では、driverGetEntryPoint又はcudaDriverGetEntryPointなど、ランタイムAPI又はAPI機能は、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、パラメータ又は引数としてフラグを受け付け、前記フラグは、ドライバ実装されたAPI又はAPI機能の特殊な変形態を示し得る。少なくとも1つの実施例では、1つ又は複数のフラグは、以下のように定義され得る。
少なくとも1つの実施例では、enableDefault又はcudaEnableDefaultのフラグ値は、特定のAPI又はAPI機能のデフォルト・ドライバ実装形態が、driverGetEntryPoint又はcudaDriverGetEntryPointなど、ランタイムAPI又はAPI機能によって検索されるべきであることを示す。少なくとも1つの実施例では、enableDefault又はcudaEnableDefaultは、API_PER_THREAD_DEFAULT_STREAM又はCUDA_API_PER_THREAD_DEFAULT_STREAMが設定されていないとき、enableLegacyStream又はcudaEnableLegacyStreamを受け渡すことと等価であり、API_PER_THREAD_DEFAULT_STREAM又はCUDA_API_PER_THREAD_DEFAULT_STREAMが設定されているとき、enablePerThreadDefaultStream又はcudaEnablePerThreadDefaultStreamを受け渡すことと等価である。少なくとも1つの実施例では、enableLegacyStream又はcudaEnableLegacyStreamは、driverGetEntryPoint又はcudaDriverGetEntryPointなど、ランタイム機能が、対応するptdsバージョンを除いてdriverGetEntryPoint又はcudaDriverGetEntryPointにパラメータ又は引数として受け渡される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも1つの実施例では、enablePerThreadDefaultStream又はcudaEnablePerThreadDefaultStreamは、driverGetEntryPoint又はcudaDriverGetEntryPointが、1つ又は複数のptdsバージョンを含むパラメータ又は他の引数として受け渡される要求されたシンボルに一致するすべてのシンボルを検索することを引き起こす。少なくとも1つの実施例では、機能のptdsバージョンが、driverGetEntryPoint又はcudaDriverGetEntryPointへのシンボル・パラメータ又は引数によって示された場合、現在のドライバによって実装された前記機能のデフォルト・バージョンが、機能ポインタ・パラメータ中で返されるか又は設定される。少なくとも1つの実施例では、ランタイム機能driverGetEntryPoint又はcudaDriverGetEntryPointはまた、スレッドごとのストリーム・オーバーロードをサポートするための特定のドライバ実装されたAPI又はAPI機能のptdsバージョンを返す。
少なくとも1つの実施例では、driverGetEntryPoint又はcudaDriverGetEntryPointなど、API又はAPI機能を実装するランタイムは、初期化中にそれが必要とするすべてのドライバ・シンボルを動的にロードする。少なくとも1つの実施例では、driverGetEntryPoint又はcudaDriverGetEntryPointなど、API又はAPI機能を実装するランタイムは、1つ又は複数のドライバ・シンボルに対応する1つ又は複数のメモリ・アドレスを決定するために、getProcAddress又はcuGetProcAddressなど、1つ又は複数のドライバ機能を利用する。少なくとも1つの実施例では、driverGetEntryPoint又はcudaDriverGetEntryPointなど、API又はAPI機能を実装するランタイムは、並列コンピューティングを容易にするためのAPI機能、又は本明細書でさらに説明される任意のAPIの一部としての任意の他のAPI機能など、1つ又は複数のAPI機能を実装するドライバと併せて上記で説明されたように、1つ又は複数のハッシュ・テーブルを利用する。
少なくとも1つの実施例では、並列コンピューティングを容易にするためのAPI、又は本明細書でさらに説明される任意の他のAPIによって提供される機能など、1つ又は複数のAPI又はAPI機能の1つ又は複数の実装形態に関連する1つ又は複数のアドレスを決定するための1つ又は複数の機能を実装するドライバ又はランタイムは、互換性があるドライバ・バージョンについて、ドライバ固有実装形態において別個の引数を指定するのではなく、「_v1」、「_v2」など)のバージョニング情報をシンボル名自体中に埋め込み得る。少なくとも1つの実施例では、ドライバがバージョニング情報を埋め込む場合、前記ドライバは、ドライバ機能のマップと上記で説明されたような他のメタデータとを維持する必要がない。対照的に、一実施例では、ドライバは、各シンボルを動的にロードし、そのアドレスを得ることができる。
少なくとも1つの実施例では、上記で説明されたように、ランタイム又はドライバにパラメータ又は引数として受け渡されるシンボルの代わりに、序数値(ordinal value)が、引数又はパラメータとして提供され得る。少なくとも1つの実施例では、序数値は、メモリ・アドレスを決定するための、1つ又は複数のドライバ又はランタイム機能によって検索されるべきAPI又はAPI機能についての特定のバージョン又は任意の他の情報を示すデータ値である。少なくとも1つの実施例では、序数値が指定された場合、上記で説明されたようにハッシュ・テーブルを利用する代わりに、線形テーブルにおける直接ルックアップが、ランタイム又はドライバによって実施され得る。
少なくとも1つの実施例では、1つ又は複数のAPI又はAPI機能を実装するランタイム又はドライバは、図1と併せて上記で説明されたように、及び本明細書でさらに説明されるように、引数又はパラメータとして、1つ又は複数のデバイス識別子を受け付け得る。少なくとも1つの実施例では、デバイス識別子は、1つ又は複数のデバイスを示すデータ値、及び1つ又は複数のデバイスに対応する識別値又はハンドルである。少なくとも1つの実施例では、デバイス識別子は、並列コンピューティングを容易にするAPI、又は本明細書でさらに説明される任意の他のAPIに対応する1つ又は複数のAPI又はAPI機能の1つ又は複数のバージョンを実装し得る特定のデバイスに対応する特定のドライバを検索することを可能にする。
図3は、少なくとも1つの実施例による、アプリケーション・プログラミング・インターフェース(API)又はAPI機能実装形態、或いは実行された場合、1つ又は複数のAPI又はAPI機能の1つ又は複数のバージョンを実施する命令を記憶する、1つ又は複数のメモリ・ロケーションについて1つ又は複数のライブラリを照会するためのプロセス300を示す。少なくとも1つの実施例では、プロセス300は、図1、図2A、及び図2Bと併せて上記で説明されたように、ドライバ又はランタイムが、図2A及び図2Bと併せて上記で説明されたように、304において、位置を特定されるべきAPI又はAPI機能の1つ又は複数のプロパティを示す1つ又は複数の識別子データ値を受信したとき、開始する。少なくとも1つの実施例では、識別子は、特定の機能名及び/又はバージョン識別子を含む。少なくとも1つの実施例では、識別子は、1つ又は複数のAPI又はAPI機能、或いは、実行された場合、図1と併せて上記で説明されたように、1つ又は複数のライブラリ中の、1つ又は複数のAPI又はAPI機能を実施する命令を示すための、情報を含む。
少なくとも1つの実施例では、ドライバ又はランタイムが、上記で説明されたように、304において、識別子を受信すると、前記ドライバ又はランタイムは、306において、実行された場合、API又はAPI機能を実施する命令を備えるライブラリ中の前記API又はAPI機能の位置を特定する。少なくとも1つの実施例では、ドライバ又はランタイムは、図2A及び図2Bと併せて上記で説明されたデータ値など、API又はAPI機能を識別するために前記ドライバ又はランタイムに示された1つ又は複数のデータ値に少なくとも部分的に基づいて、ライブラリ中の前記API又はAPI機能の位置を特定する。
少なくとも1つの実施例では、ドライバ又はランタイムが、308において、実行された場合、API又はAPI機能を実施するソフトウェア命令など、API又はAPI機能の実装形態の位置を特定した場合、前記ドライバ又はランタイムは、310において、前記API又はAPI機能の前記実装形態へのポインタを返す。少なくとも1つの実施例では、ポインタは、実行された場合、API又はAPI機能を実施するソフトウェア命令のセットの第1のソフトウェア命令のアドレスを含むデータ値である。
少なくとも1つの実施例では、ドライバ又はランタイムが、308において、実行された場合、API又はAPI機能を実施するソフトウェア命令など、API又はAPI機能の実装形態の位置を特定しない場合、前記ドライバ又はランタイムは、312において、ヌル又はニル値を返す。少なくとも1つの実施例では、ヌル又はニル値は、ドライバ又はランタイムがAPI又はAPI機能の実装形態の位置を特定することに失敗したことを示す任意のデータ値である。少なくとも1つの実施例では、ドライバ又はランタイムが、310においてポインタを返すこと、或いは312においてヌル又はニル値を返すことのいずれかを行うと、API又はAPI機能実装形態を記憶する1つ又は複数のメモリ・ロケーションについて1つ又は複数のライブラリを照会するためのプロセス300が、314において終了する。
以下の説明では、少なくとも1つの実施例のより完全な理解を提供するために、多数の具体的な詳細が記載される。ただし、発明概念はこれらの具体的な詳細のうちの1つ又は複数なしに実施され得ることが当業者には明らかであろう。
データ・センタ
図4は、少なくとも1つの実施例による、例示的なデータ・センタ400を示す。少なくとも1つの実施例では、データ・センタ400は、限定はしないが、データ・センタ・インフラストラクチャ層410と、フレームワーク層420と、ソフトウェア層430と、アプリケーション層440とを含む。少なくとも1つの実施例では、ソフトウェア層430及び/又はアプリケーション層440は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を実施するための命令を備える。
少なくとも1つの実施例では、図4に示されているように、データ・センタ・インフラストラクチャ層410は、リソース・オーケストレータ412と、グループ化されたコンピューティング・リソース414と、ノード・コンピューティング・リソース(「ノードC.R.」:node computing resource)416(1)~416(N)とを含み得、ここで、「N」は、任意のすべての正の整数を表す。少なくとも1つの実施例では、ノードC.R.416(1)~416(N)は、限定はしないが、任意の数の中央処理ユニット(「CPU」)又は(アクセラレータ、フィールド・プログラマブル・ゲート・アレイ(「FPGA」:field programmable gate array)、ネットワーク・デバイス中のデータ処理ユニット(「DPU」:data processing unit)、グラフィックス・プロセッサなどを含む)他のプロセッサ、メモリ・デバイス(たとえば、動的読取り専用メモリ)、ストレージ・デバイス(たとえば、ソリッド・ステート又はディスク・ドライブ)、ネットワーク入力/出力(「NW I/O」:network input/output)デバイス、ネットワーク・スイッチ、仮想機械(「VM」:virtual machine)、電力モジュール、及び冷却モジュールなどを含み得る。少なくとも1つの実施例では、ノードC.R.416(1)~416(N)の中からの1つ又は複数のノードC.R.は、上述のコンピューティング・リソースのうちの1つ又は複数を有するサーバであり得る。
少なくとも1つの実施例では、グループ化されたコンピューティング・リソース414は、1つ又は複数のラック(図示せず)内に格納されたノードC.R.の別個のグループ化、又は様々な地理的ロケーション(同じく図示せず)においてデータ・センタ中に格納された多くのラックを含み得る。グループ化されたコンピューティング・リソース414内のノードC.R.の別個のグループ化は、1つ又は複数のワークロードをサポートするように構成されるか又は割り振られ得る、グループ化されたコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含み得る。少なくとも1つの実施例では、CPU又はプロセッサを含むいくつかのノードC.R.は、1つ又は複数のワークロードをサポートするためのコンピュート・リソースを提供するために1つ又は複数のラック内でグループ化され得る。少なくとも1つの実施例では、1つ又は複数のラックはまた、任意の数の電力モジュール、冷却モジュール、及びネットワーク・スイッチを、任意の組合せで含み得る。
少なくとも1つの実施例では、リソース・オーケストレータ412は、1つ又は複数のノードC.R.416(1)~416(N)及び/又はグループ化されたコンピューティング・リソース414を構成するか、又はさもなければ、制御し得る。少なくとも1つの実施例では、リソース・オーケストレータ412は、データ・センタ400のためのソフトウェア設計インフラストラクチャ(「SDI」:software design infrastructure)管理エンティティを含み得る。少なくとも1つの実施例では、リソース・オーケストレータ412は、ハードウェア、ソフトウェア又はそれらの何らかの組合せを含み得る。
少なくとも1つの実施例では、図4に示されているように、フレームワーク層420は、限定はしないが、ジョブ・スケジューラ432と、構成マネージャ434と、リソース・マネージャ436と、分散型ファイル・システム438とを含む。少なくとも1つの実施例では、フレームワーク層420は、ソフトウェア層430のソフトウェア452、及び/又はアプリケーション層440の1つ又は複数のアプリケーション442をサポートするためのフレームワークを含み得る。少なくとも1つの実施例では、ソフトウェア452又は(1つ又は複数の)アプリケーション442は、それぞれ、アマゾン・ウェブ・サービス、Google Cloud、及びMicrosoft Azureによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含み得る。少なくとも1つの実施例では、フレームワーク層420は、限定はしないが、大規模データ処理(たとえば、「ビック・データ」)のために分散型ファイル・システム438を利用し得るApache Spark(商標)(以下「Spark」)など、無料でオープンソースのソフトウェア・ウェブ・アプリケーション・フレームワークのタイプであり得る。少なくとも1つの実施例では、ジョブ・スケジューラ432は、データ・センタ400の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Sparkドライバを含み得る。少なくとも1つの実施例では、構成マネージャ434は、ソフトウェア層430、並びに大規模データ処理をサポートするためのSpark及び分散型ファイル・システム438を含むフレームワーク層420など、異なる層を構成することが可能であり得る。少なくとも1つの実施例では、リソース・マネージャ436は、分散型ファイル・システム438及びジョブ・スケジューラ432をサポートするようにマッピングされたか又は割り振られた、クラスタ化された又はグループ化されたコンピューティング・リソースを管理することが可能であり得る。少なくとも1つの実施例では、クラスタ化された又はグループ化されたコンピューティング・リソースは、データ・センタ・インフラストラクチャ層410において、グループ化されたコンピューティング・リソース414を含み得る。少なくとも1つの実施例では、リソース・マネージャ436は、リソース・オーケストレータ412と協調して、これらのマッピングされた又は割り振られたコンピューティング・リソースを管理し得る。
少なくとも1つの実施例では、ソフトウェア層430中に含まれるソフトウェア452は、ノードC.R.416(1)~416(N)、グループ化されたコンピューティング・リソース414、及び/又はフレームワーク層420の分散型ファイル・システム438の少なくとも部分によって使用されるソフトウェアを含み得る。1つ又は複数のタイプのソフトウェアは、限定はしないが、インターネット・ウェブ・ページ検索ソフトウェアと、電子メール・ウイルス・スキャン・ソフトウェアと、データベース・ソフトウェアと、ストリーミング・ビデオ・コンテンツ・ソフトウェアとを含み得る。
少なくとも1つの実施例では、アプリケーション層440中に含まれる(1つ又は複数の)アプリケーション442は、ノードC.R.416(1)~416(N)、グループ化されたコンピューティング・リソース414、及び/又はフレームワーク層420の分散型ファイル・システム438の少なくとも部分によって使用される1つ又は複数のタイプのアプリケーションを含み得る。少なくとも1つ又は複数のタイプのアプリケーションでは、限定はしないが、CUDAアプリケーションを含み得る。
少なくとも1つの実施例では、構成マネージャ434、リソース・マネージャ436、及びリソース・オーケストレータ412のいずれかが、任意の技術的に実現可能な様式で獲得された任意の量及びタイプのデータに基づいて、任意の数及びタイプの自己修正アクションを実装し得る。少なくとも1つの実施例では、自己修正アクションは、データ・センタ400のデータ・センタ・オペレータを、不良の恐れのある構成を判定し、十分に利用されていない及び/又は性能の低いデータ・センタの部分を場合によっては回避することから解放し得る。
コンピュータ・ベースのシステム
以下の図は、限定はしないが、少なくとも1つの実施例を実装するために使用され得る、例示的なコンピュータ・ベースのシステムを記載する。
図5は、少なくとも1つの実施例による、処理システム500を示す。少なくとも1つの実施例では、処理システム500は、1つ又は複数のプロセッサ502と1つ又は複数のグラフィックス・プロセッサ508とを含み、単一プロセッサ・デスクトップ・システム、マルチプロセッサ・ワークステーション・システム、或いは多数のプロセッサ502又はプロセッサ・コア507を有するサーバ・システムであり得る。少なくとも1つの実施例では、処理システム500は、モバイル・デバイス、ハンドヘルド・デバイス、又は組み込みデバイスにおいて使用するためのシステム・オン・チップ(「SoC」:system-on-a-chip)集積回路内に組み込まれた処理プラットフォームである。少なくとも1つの実施例では、処理システム500は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を実施するためのものである。
少なくとも1つの実施例では、処理システム500は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム・コンソール、メディア・コンソール、モバイル・ゲーミング・コンソール、ハンドヘルド・ゲーム・コンソール、又はオンライン・ゲーム・コンソールを含むことができるか、或いはそれらの内部に組み込まれ得る。少なくとも1つの実施例では、処理システム500は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス又はモバイル・インターネット・デバイスである。少なくとも1つの実施例では、処理システム500はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、又は仮想現実デバイスなどのウェアラブル・デバイスを含むことができるか、それらと結合することができるか、又はそれらの内部に組み込まれ得る。少なくとも1つの実施例では、処理システム500は、1つ又は複数のプロセッサ502と、1つ又は複数のグラフィックス・プロセッサ508によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。
少なくとも1つの実施例では、1つ又は複数のプロセッサ502は、各々、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実施する命令を処理するための1つ又は複数のプロセッサ・コア507を含む。少なくとも1つの実施例では、1つ又は複数のプロセッサ・コア507の各々は、特定の命令セット509を処理するように構成される。少なくとも1つの実施例では、命令セット509は、複合命令セット・コンピューティング(「CISC」:Complex Instruction Set Computing)、縮小命令セット・コンピューティング(「RISC」:Reduced Instruction Set Computing)、又は超長命令語(「VLIW」:Very Long Instruction Word)を介したコンピューティングを容易にし得る。少なくとも1つの実施例では、プロセッサ・コア507は、各々、異なる命令セット509を処理し得、命令セット509は、他の命令セットのエミュレーションを容易にするための命令を含み得る。少なくとも1つの実施例では、プロセッサ・コア507はまた、デジタル信号プロセッサ(「DSP」:digital signal processor)などの他の処理デバイスを含み得る。
少なくとも1つの実施例では、プロセッサ502はキャッシュ・メモリ(「キャッシュ」)504を含む。少なくとも1つの実施例では、プロセッサ502は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。少なくとも1つの実施例では、キャッシュ・メモリは、プロセッサ502の様々な構成要素の間で共有される。少なくとも1つの実施例では、プロセッサ502はまた、外部キャッシュ(たとえば、レベル3(「L3」)キャッシュ又はラスト・レベル・キャッシュ(「LLC」:Last Level Cache))(図示せず)を使用し、外部キャッシュは、知られているキャッシュ・コヒーレンシ技法を使用してプロセッサ・コア507の間で共有され得る。少なくとも1つの実施例では、追加として、レジスタ・ファイル506がプロセッサ502中に含まれ、レジスタ・ファイル506は、異なるタイプのデータを記憶するための異なるタイプのレジスタ(たとえば、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタ)を含み得る。少なくとも1つの実施例では、レジスタ・ファイル506は、汎用レジスタ又は他のレジスタを含み得る。
少なくとも1つの実施例では、1つ又は複数のプロセッサ502は、アドレス、データ、又は制御信号などの通信信号を、プロセッサ502と処理システム500中の他の構成要素との間で送信するために、1つ又は複数のインターフェース・バス510と結合される。少なくとも1つの実施例では、1つの実施例におけるインターフェース・バス510は、ダイレクト・メディア・インターフェース(「DMI」:Direct Media Interface)バスのバージョンなどのプロセッサ・バスであり得る。少なくとも1つの実施例では、インターフェース・バス510は、DMIバスに限定されず、1つ又は複数の周辺構成要素相互接続バス(たとえば、「PCI」:Peripheral Component Interconnect、PCI Express(「PCIe」))、メモリ・バス、又は他のタイプのインターフェース・バスを含み得る。少なくとも1つの実施例では、(1つ又は複数の)プロセッサ502は、統合されたメモリ・コントローラ516と、プラットフォーム・コントローラ・ハブ530とを含む。少なくとも1つの実施例では、メモリ・コントローラ516は、メモリ・デバイスと処理システム500の他の構成要素との間の通信を容易にし、プラットフォーム・コントローラ・ハブ(「PCH」:platform controller hub)530は、ローカル入力/出力(「I/O」:Input/Output)バスを介してI/Oデバイスへの接続を提供する。
少なくとも1つの実施例では、メモリ・デバイス520は、ダイナミック・ランダム・アクセス・メモリ(「DRAM」:dynamic random access memory)デバイス、スタティック・ランダム・アクセス・メモリ(「SRAM」:static random access memory)デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセッサ・メモリとして働くのに好適な性能を有する何らかの他のメモリ・デバイスであり得る。少なくとも1つの実施例では、メモリ・デバイス520は、1つ又は複数のプロセッサ502がアプリケーション又はプロセスを実行するときの使用のためのデータ522及び命令521を記憶するために、処理システム500のためのシステム・メモリとして動作することができる。少なくとも1つの実施例では、メモリ・コントローラ516はまた、随意の外部グラフィックス・プロセッサ512と結合し、外部グラフィックス・プロセッサ512は、グラフィックス動作及びメディア動作を実施するために、プロセッサ502中の1つ又は複数のグラフィックス・プロセッサ508と通信し得る。少なくとも1つの実施例では、ディスプレイ・デバイス511は、(1つ又は複数の)プロセッサ502に接続することができる。少なくとも1つの実施例では、ディスプレイ・デバイス511は、モバイル電子デバイス又はラップトップ・デバイスの場合のような内部ディスプレイ・デバイス、或いは、ディスプレイ・インターフェース(たとえば、DisplayPortなど)を介して取り付けられた外部ディスプレイ・デバイスのうちの1つ又は複数を含むことができる。少なくとも1つの実施例では、ディスプレイ・デバイス511は、仮想現実(「VR」:virtual reality)アプリケーション又は拡張現実(「AR」:augmented reality)アプリケーションにおいて使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ(「HMD」:head mounted display)を含むことができる。
少なくとも1つの実施例では、プラットフォーム・コントローラ・ハブ530は、周辺機器が高速I/Oバスを介してメモリ・デバイス520及びプロセッサ502に接続することを可能にする。少なくとも1つの実施例では、I/O周辺機器は、限定はしないが、オーディオ・コントローラ546と、ネットワーク・コントローラ534と、ファームウェア・インターフェース528と、ワイヤレス・トランシーバ526と、タッチ・センサ525と、データ・ストレージ・デバイス524(たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど)とを含む。少なくとも1つの実施例では、データ・ストレージ・デバイス524は、ストレージ・インターフェース(たとえば、SATA)を介して、或いはPCI又はPCIeなどの周辺バスを介して、接続することができる。少なくとも1つの実施例では、タッチ・センサ525は、タッチ・スクリーン・センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも1つの実施例では、ワイヤレス・トランシーバ526は、Wi-Fiトランシーバ、Bluetoothトランシーバ、或いは3G、4G、又はロング・ターム・エボリューション(「LTE」:Long Term Evolution)トランシーバなどのモバイル・ネットワーク・トランシーバであり得る。少なくとも1つの実施例では、ファームウェア・インターフェース528は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース(「UEFI」:unified extensible firmware interface)であり得る。少なくとも1つの実施例では、ネットワーク・コントローラ534は、ワイヤード・ネットワークへのネットワーク接続を可能にすることができる。少なくとも1つの実施例では、高性能ネットワーク・コントローラ(図示せず)は、インターフェース・バス510と結合する。少なくとも1つの実施例では、オーディオ・コントローラ546は、マルチチャネル高精細度オーディオ・コントローラである。少なくとも1つの実施例では、処理システム500は、レガシー(たとえば、パーソナル・システム2(「PS/2」:Personal System 2))デバイスを処理システム500に結合するための随意のレガシーI/Oコントローラ540を含む。少なくとも1つの実施例では、プラットフォーム・コントローラ・ハブ530は、キーボードとマウス543との組合せ、カメラ544、又は他のUSB入力デバイスなど、1つ又は複数のユニバーサル・シリアル・バス(「USB」:Universal Serial Bus)コントローラ542接続入力デバイスにも接続することができる。
少なくとも1つの実施例では、メモリ・コントローラ516及びプラットフォーム・コントローラ・ハブ530のインスタンスが、外部グラフィックス・プロセッサ512などの慎重な外部グラフィックス・プロセッサに組み込まれ得る。少なくとも1つの実施例では、プラットフォーム・コントローラ・ハブ530及び/又はメモリ・コントローラ516は、1つ又は複数のプロセッサ502の外部にあり得る。たとえば、少なくとも1つの実施例では、処理システム500は、外部のメモリ・コントローラ516とプラットフォーム・コントローラ・ハブ530とを含むことができ、それらは、(1つ又は複数の)プロセッサ502と通信しているシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺コントローラ・ハブとして構成され得る。
図6は、少なくとも1つの実施例による、コンピュータ・システム600を示す。少なくとも1つの実施例では、コンピュータ・システム600は、相互接続されたデバイス及び構成要素をもつシステム、SOC、又は何らかの組合せであり得る。少なくとも1つの実施例では、コンピュータ・システム600は、命令を実行するための実行ユニットを含み得るプロセッサ602とともに形成される。少なくとも1つの実施例では、コンピュータ・システム600は、限定はしないが、データを処理するためのアルゴリズムを実施するための論理を含む実行ユニットを採用するための、プロセッサ602などの構成要素を含み得る。少なくとも1つの実施例では、コンピュータ・システム600は、カリフォルニア州サンタクララのIntel Corporationから入手可能なPENTIUM(登録商標)プロセッサ・ファミリー、Xeon(商標)、Itanium(登録商標)、XScale(商標)及び/又はStrongARM(商標)、Intel(登録商標)Core(商標)、又はIntel(登録商標)Nervana(商標)マイクロプロセッサなどのプロセッサを含み得るが、(他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するPCを含む)他のシステムも使用され得る。少なくとも1つの実施例では、コンピュータ・システム600は、ワシントン州レドモンドのMicrosoft Corporationから入手可能なWINDOWSオペレーティング・システムのあるバージョンを実行し得るが、他のオペレーティング・システム(たとえば、UNIX及びLinux)、組み込みソフトウェア、及び/又はグラフィカル・ユーザ・インターフェースも使用され得る。少なくとも1つの実施例では、処理システム600は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、コンピュータ・システム600は、ハンドヘルド・デバイス及び組み込みアプリケーションなど、他のデバイスにおいて使用され得る。ハンドヘルド・デバイスのいくつかの実例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント(「PDA」:personal digital assistant)、及びハンドヘルドPCを含む。少なくとも1つの実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ(DSP)、SoC、ネットワーク・コンピュータ(「NetPC」:network computer)、セット・トップ・ボックス、ネットワーク・ハブ、ワイド・エリア・ネットワーク(「WAN」:wide area network)スイッチ、又は1つ又は複数の命令を実施し得る任意の他のシステムを含み得る。
少なくとも1つの実施例では、コンピュータ・システム600は、限定はしないが、プロセッサ602を含み得、プロセッサ602は、限定はしないが、コンピュート・ユニファイド・デバイス・アーキテクチャ(「CUDA」)(CUDA(登録商標)は、カリフォルニア州サンタクララのNVIDIA Corporationによって開発される)プログラムを実行するように構成され得る、1つ又は複数の実行ユニット608を含み得る。少なくとも1つの実施例では、CUDAプログラムは、CUDAプログラミング言語で書かれたソフトウェア・アプリケーションの少なくとも一部分である。少なくとも1つの実施例では、コンピュータ・システム600は、シングル・プロセッサ・デスクトップ又はサーバ・システムである。少なくとも1つの実施例では、コンピュータ・システム600は、マルチプロセッサ・システムであり得る。少なくとも1つの実施例では、プロセッサ602は、限定はしないが、CISCマイクロプロセッサ、RISCマイクロプロセッサ、VLIWマイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は、たとえばデジタル信号プロセッサなど、任意の他のプロセッサ・デバイスを含み得る。少なくとも1つの実施例では、プロセッサ602は、プロセッサ・バス610に結合され得、プロセッサ・バス610は、プロセッサ602とコンピュータ・システム600中の他の構成要素との間でデータ信号を送信し得る。
少なくとも1つの実施例では、プロセッサ602は、限定はしないが、レベル1(「L1」)の内部キャッシュ・メモリ(「キャッシュ」)604を含み得る。少なくとも1つの実施例では、プロセッサ602は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有し得る。少なくとも1つの実施例では、キャッシュ・メモリは、プロセッサ602の外部に存在し得る。少なくとも1つの実施例では、プロセッサ602は、内部キャッシュと外部キャッシュの両方の組合せをも含み得る。少なくとも1つの実施例では、レジスタ・ファイル606は、限定はしないが、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタを含む様々なレジスタに、異なるタイプのデータを記憶し得る。
少なくとも1つの実施例では、限定はしないが、整数演算及び浮動小数点演算を実施するための論理を含む実行ユニット608も、プロセッサ602中に存在し得る。プロセッサ602は、いくつかのマクロ命令のためのマイクロコードを記憶するマイクロコード(「uコード」)読取り専用メモリ(「ROM」:read only memory)をも含み得る。少なくとも1つの実施例では、実行ユニット608は、パック命令セット609に対処するための論理を含み得る。少なくとも1つの実施例では、パック命令セット609を、命令を実行するための関連する回路要素とともに汎用プロセッサ602の命令セットに含めることによって、多くのマルチメディア・アプリケーションによって使用される演算が、汎用プロセッサ602中のパック・データを使用して実施され得る。少なくとも1つの実施例では、多くのマルチメディア・アプリケーションが、パック・データの演算を実施するためにプロセッサのデータ・バスの全幅を使用することによって加速され、より効率的に実行され得、これは、一度に1つのデータ要素ずつ1つ又は複数の演算を実施するために、プロセッサのデータ・バスにわたってより小さい単位のデータを転送する必要をなくし得る。
少なくとも1つの実施例では、実行ユニット608はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、DSP、及び他のタイプの論理回路において使用され得る。少なくとも1つの実施例では、コンピュータ・システム600は、限定はしないが、メモリ620を含み得る。少なくとも1つの実施例では、メモリ620は、DRAMデバイス、SRAMデバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装され得る。メモリ620は、プロセッサ602によって実行され得るデータ信号によって表される(1つ又は複数の)命令619及び/又はデータ621を記憶し得る。
少なくとも1つの実施例では、システム論理チップが、プロセッサ・バス610及びメモリ620に結合され得る。少なくとも1つの実施例では、システム論理チップは、限定はしないが、メモリ・コントローラ・ハブ(「MCH」:memory controller hub)616を含み得、プロセッサ602は、プロセッサ・バス610を介してMCH616と通信し得る。少なくとも1つの実施例では、MCH616は、命令及びデータ・ストレージのための、並びにグラフィックス・コマンド、データ及びテクスチャのストレージのための、高帯域幅メモリ経路618をメモリ620に提供し得る。少なくとも1つの実施例では、MCH616は、プロセッサ602と、メモリ620と、コンピュータ・システム600中の他の構成要素との間でデータ信号をダイレクトし、プロセッサ・バス610と、メモリ620と、システムI/O622との間でデータ信号をブリッジし得る。少なくとも1つの実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供し得る。少なくとも1つの実施例では、MCH616は、高帯域幅メモリ経路618を通してメモリ620に結合され得、グラフィックス/ビデオ・カード612は、アクセラレーテッド・グラフィックス・ポート(「AGP」:Accelerated Graphics Port)相互接続614を介してMCH616に結合され得る。
少なくとも1つの実施例では、コンピュータ・システム600は、MCH616をI/Oコントローラ・ハブ(「ICH」:I/O controller hub)630に結合するためのプロプライエタリ・ハブ・インターフェース・バスである、システムI/O622を使用し得る。少なくとも1つの実施例では、ICH630は、ローカルI/Oバスを介していくつかのI/Oデバイスに直接接続を提供し得る。少なくとも1つの実施例では、ローカルI/Oバスは、限定はしないが、周辺機器をメモリ620、チップセット、及びプロセッサ602に接続するための高速I/Oバスを含み得る。実例は、限定はしないが、オーディオ・コントローラ629と、ファームウェア・ハブ(「フラッシュBIOS」)628と、ワイヤレス・トランシーバ626と、データ・ストレージ624と、ユーザ入力インターフェース625及びキーボード・インターフェースを含んでいるレガシーI/Oコントローラ623と、USBなどのシリアル拡張ポート627と、ネットワーク・コントローラ634とを含み得る。データ・ストレージ624は、ハード・ディスク・ドライブ、フロッピー・ディスク・ドライブ、CD-ROMデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備え得る。
少なくとも1つの実施例では、図6は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも1つの実施例では、図6は、例示的なSoCを示し得る。少なくとも1つの実施例では、図6に示されているデバイスは、プロプライエタリ相互接続、標準相互接続(たとえば、PCIe)、又はそれらの何らかの組合せで相互接続され得る。少なくとも1つの実施例では、システム600の1つ又は複数の構成要素は、コンピュート・エクスプレス・リンク(「CXL」:compute express link)相互接続を使用して相互接続される。
図7は、少なくとも1つの実施例による、システム700を示す。少なくとも1つの実施例では、システム700は、プロセッサ710を利用する電子デバイスである。少なくとも1つの実施例では、システム700は、たとえば、限定はしないが、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、1つ又は複数の構内サービス・プロバイダ又はクラウド・サービス・プロバイダに通信可能に結合されたエッジ・デバイス、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、或いは任意の他の好適な電子デバイスであり得る。少なくとも1つの実施例では、システム700は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、システム700は、限定はしないが、任意の好適な数又は種類の構成要素、周辺機器、モジュール、又はデバイスに通信可能に結合されたプロセッサ710を含み得る。少なくとも1つの実施例では、プロセッサ710は、ICバス、システム管理バス(「SMBus」:System Management Bus)、ロー・ピン・カウント(「LPC」:Low Pin Count)バス、シリアル周辺インターフェース(「SPI」:Serial Peripheral Interface)、高精細度オーディオ(「HDA」:High Definition Audio)バス、シリアル・アドバンス・テクノロジー・アタッチメント(「SATA」:Serial Advance Technology Attachment)バス、USB(バージョン1、2、3)、又はユニバーサル非同期受信機/送信機(「UART」:Universal Asynchronous Receiver/Transmitter)バスなど、バス又はインターフェースを使用して結合される。少なくとも1つの実施例では、図7は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも1つの実施例では、図7は、例示的なSoCを示し得る。少なくとも1つの実施例では、図7に示されているデバイスは、プロプライエタリ相互接続、標準相互接続(たとえば、PCIe)又はそれらの何らかの組合せで相互接続され得る。少なくとも1つの実施例では、図7の1つ又は複数の構成要素は、CXL相互接続を使用して相互接続される。
少なくとも1つの実施例では、図7は、ディスプレイ724、タッチ・スクリーン725、タッチ・パッド730、ニア・フィールド通信ユニット(「NFC」:Near Field Communication)745、センサ・ハブ740、熱センサ746、エクスプレス・チップセット(「EC」:Express Chipset)735、トラステッド・プラットフォーム・モジュール(「TPM」:Trusted Platform Module)738、BIOS/ファームウェア/フラッシュ・メモリ(「BIOS、FWフラッシュ」:BIOS/firmware/flash memory)722、DSP760、ソリッド・ステート・ディスク(「SSD」:Solid State Disk)又はハード・ディスク・ドライブ(「HDD」:Hard Disk Drive)720、ワイヤレス・ローカル・エリア・ネットワーク・ユニット(「WLAN」:wireless local area network)750、Bluetoothユニット752、ワイヤレス・ワイド・エリア・ネットワーク・ユニット(「WWAN」:Wireless Wide Area Network)756、全地球測位システム(「GPS」:Global Positioning System)755、USB3.0カメラなどのカメラ(「USB3.0カメラ」)754、或いは、たとえばLPDDR3規格において実装された低電力ダブル・データ・レート(「LPDDR」:Low Power Double Data Rate)メモリ・ユニット(「LPDDR3」)715を含み得る。これらの構成要素は、各々、任意の好適な様式で実装され得る。
少なくとも1つの実施例では、上記で説明された構成要素を通して、他の構成要素がプロセッサ710に通信可能に結合され得る。少なくとも1つの実施例では、加速度計741と、周囲光センサ(「ALS」:Ambient Light Sensor)742と、コンパス743と、ジャイロスコープ744とが、センサ・ハブ740に通信可能に結合され得る。少なくとも1つの実施例では、熱センサ739と、ファン737と、キーボード736と、タッチ・パッド730とが、EC735に通信可能に結合され得る。少なくとも1つの実施例では、スピーカー763と、ヘッドフォン764と、マイクロフォン(「mic」)765とが、オーディオ・ユニット(「オーディオ・コーデック及びクラスdアンプ」)762に通信可能に結合され得、オーディオ・ユニット762は、DSP760に通信可能に結合され得る。少なくとも1つの実施例では、オーディオ・ユニット762は、たとえば、限定はしないが、オーディオ・コーダ/デコーダ(「コーデック」)及びクラスD増幅器を含み得る。少なくとも1つの実施例では、SIMカード(「SIM」)757は、WWANユニット756に通信可能に結合され得る。少なくとも1つの実施例では、WLANユニット750及びBluetoothユニット752などの構成要素、並びにWWANユニット756は、次世代フォーム・ファクタ(「NGFF」:Next Generation Form Factor)において実装され得る。
図8は、少なくとも1つの実施例による、例示的な集積回路800を示す。少なくとも1つの実施例では、例示的な集積回路800は、1つ又は複数のIPコアを使用して作製され得るSoCである。少なくとも1つの実施例では、集積回路800は、1つ又は複数のアプリケーション・プロセッサ805(たとえば、CPU、DPU)、少なくとも1つのグラフィックス・プロセッサ810を含み、追加として、画像プロセッサ815及び/又はビデオ・プロセッサ820を含み得、それらのいずれも、モジュール式IPコアであり得る。少なくとも1つの実施例では、集積回路800は、USBコントローラ825、UARTコントローラ830、SPI/SDIOコントローラ835、及びIS/ICコントローラ840を含む周辺機器又はバス論理を含む。少なくとも1つの実施例では、集積回路800は、高精細度マルチメディア・インターフェース(「HDMI」:high-definition multimedia interface)コントローラ850及びモバイル・インダストリ・プロセッサ・インターフェース(「MIPI」:mobile industry processor interface)ディスプレイ・インターフェース855のうちの1つ又は複数に結合されたディスプレイ・デバイス845を含むことができる。少なくとも1つの実施例では、フラッシュ・メモリとフラッシュ・メモリ・コントローラとを含むフラッシュ・メモリ・サブシステム860によって、ストレージが提供され得る。少なくとも1つの実施例では、SDRAM又はSRAMメモリ・デバイスへのアクセスのために、メモリ・コントローラ865を介してメモリ・インターフェースが提供され得る。少なくとも1つの実施例では、いくつかの集積回路は、追加として、組み込みセキュリティ・エンジン870を含む。少なくとも1つの実施例では、例示的な集積回路800は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
図9は、少なくとも1つの実施例による、コンピューティング・システム900を示す。少なくとも1つの実施例では、コンピューティング・システム900は、メモリ・ハブ905を含み得る相互接続経路を介して通信する1つ又は複数のプロセッサ902とシステム・メモリ904とを有する処理サブシステム901を含む。少なくとも1つの実施例では、メモリ・ハブ905は、チップセット構成要素内の別個の構成要素であり得るか、又は1つ又は複数のプロセッサ902内に組み込まれ得る。少なくとも1つの実施例では、メモリ・ハブ905は、通信リンク906を介してI/Oサブシステム911と結合する。少なくとも1つの実施例では、I/Oサブシステム911は、コンピューティング・システム900が1つ又は複数の入力デバイス908からの入力を受信することを可能にすることができるI/Oハブ907を含む。少なくとも1つの実施例では、I/Oハブ907は、1つ又は複数のプロセッサ902中に含まれ得るディスプレイ・コントローラが、1つ又は複数のディスプレイ・デバイス910Aに出力を提供することを可能にすることができる。少なくとも1つの実施例では、I/Oハブ907と結合された1つ又は複数のディスプレイ・デバイス910Aは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。少なくとも1つの実施例では、コンピューティング・システム900は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、処理サブシステム901は、バス又は他の通信リンク913を介してメモリ・ハブ905に結合された1つ又は複数の並列プロセッサ912を含む。少なくとも1つの実施例では、通信リンク913は、限定はしないがPCIeなど、任意の数の規格ベースの通信リンク技術又はプロトコルのうちの1つであり得るか、或いはベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912は、メニー・インテグレーテッド・コア・プロセッサなど、多数の処理コア及び/又は処理クラスタを含むことができる、算出に集中した並列又はベクトル処理システムを形成する。少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912は、グラフィックス処理サブシステムを形成し、グラフィックス処理サブシステムは、I/Oハブ907を介して結合された1つ又は複数のディスプレイ・デバイス910Aのうちの1つにピクセルを出力することができる。少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912はまた、ディスプレイ・コントローラと、1つ又は複数のディスプレイ・デバイス910Bへの直接接続を可能にするためのディスプレイ・インターフェース(図示せず)とを含むことができる。
少なくとも1つの実施例では、システム・ストレージ・ユニット914は、I/Oハブ907に接続して、コンピューティング・システム900のためのストレージ機構を提供することができる。少なくとも1つの実施例では、I/Oハブ907と、プラットフォームに組み込まれ得るネットワーク・アダプタ918及び/又はワイヤレス・ネットワーク・アダプタ919などの他の構成要素、並びに1つ又は複数のアドイン・デバイス920を介して追加され得る様々な他のデバイスとの間の接続を可能にするためのインターフェース機構を提供するために、I/Oスイッチ916が使用され得る。少なくとも1つの実施例では、ネットワーク・アダプタ918は、イーサネット・アダプタ又は別のワイヤード・ネットワーク・アダプタであり得る。少なくとも1つの実施例では、ワイヤレス・ネットワーク・アダプタ919は、Wi-Fi、Bluetooth、NFC、又は1つ又は複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの1つ又は複数を含むことができる。
少なくとも1つの実施例では、コンピューティング・システム900は、USB又は他のポート接続、光学ストレージ・ドライブ、ビデオ・キャプチャ・デバイスなどを含む、I/Oハブ907にも接続され得る、明示的に示されていない他の構成要素を含むことができる。少なくとも1つの実施例では、図9中の様々な構成要素を相互接続する通信経路が、PCIベースのプロトコル(たとえば、PCIe)などの任意の好適なプロトコル、或いはNVLink高速相互接続などの他のバス又はポイントツーポイント通信インターフェース及び/又は(1つ又は複数の)プロトコル、或いは相互接続プロトコルを使用して、実装され得る。
少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912は、たとえばビデオ出力回路要素を含むグラフィックス及びビデオ処理のために最適化された回路要素を組み込み、グラフィックス処理ユニット(「GPU」)を構成する。少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912は、汎用処理のために最適化された回路要素を組み込む。少なくとも実施例では、コンピューティング・システム900の構成要素は、単一の集積回路上の1つ又は複数の他のシステム要素と統合され得る。たとえば、少なくとも1つの実施例では、1つ又は複数の並列プロセッサ912、メモリ・ハブ905、(1つ又は複数の)プロセッサ902、及びI/Oハブ907は、SoC集積回路に組み込まれ得る。少なくとも1つの実施例では、コンピューティング・システム900の構成要素は、システム・イン・パッケージ(「SIP」:system in package)構成を形成するために、単一のパッケージに組み込まれ得る。少なくとも1つの実施例では、コンピューティング・システム900の構成要素の少なくとも一部分は、マルチチップ・モジュール(「MCM」:multi-chip module)に組み込まれ得、マルチチップ・モジュールは、他のマルチチップ・モジュールと相互接続されてモジュール式コンピューティング・システムにすることができる。少なくとも1つの実施例では、I/Oサブシステム911及びディスプレイ・デバイス910Bは、コンピューティング・システム900から省略される。
処理システム
以下の図は、限定はしないが、少なくとも1つの実施例を実装するために使用され得る、例示的な処理システムを記載する。
図10は、少なくとも1つの実施例による、加速処理ユニット(「APU」:accelerated processing unit)1000を示す。少なくとも1つの実施例では、APU1000は、カリフォルニア州サンタクララのAMD Corporationによって開発される。少なくとも1つの実施例では、APU1000は、CUDAプログラムなど、アプリケーション・プログラムを実行するように構成され得る。少なくとも1つの実施例では、APU1000は、限定はしないが、コア複合体1010と、グラフィックス複合体1040と、ファブリック1060と、I/Oインターフェース1070と、メモリ・コントローラ1080と、ディスプレイ・コントローラ1092と、マルチメディア・エンジン1094とを含む。少なくとも1つの実施例では、APU1000は、限定はしないが、任意の数のコア複合体1010と、任意の数のグラフィックス複合体1050と、任意の数のディスプレイ・コントローラ1092と、任意の数のマルチメディア・エンジン1094とを、任意の組合せで含み得る。説明目的のために、同様のオブジェクトの複数のインスタンスは、オブジェクトを識別する参照番号と、必要な場合にインスタンスを識別する括弧付きの番号とともに、本明細書で示される。少なくとも1つの実施例では、APU1000は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、コア複合体1010はCPUであり、グラフィックス複合体1040はGPUであり、APU1000は、限定はしないが、単一のチップ上に1010及び1040を組み込む処理ユニットである。少なくとも1つの実施例では、いくつかのタスクは、コア複合体1010に割り当てられ得、他のタスクは、グラフィックス複合体1040に割り当てられ得る。少なくとも1つの実施例では、コア複合体1010は、オペレーティング・システムなど、APU1000に関連するメイン制御ソフトウェアを実行するように構成される。少なくとも1つの実施例では、コア複合体1010は、APU1000のマスタ・プロセッサであり、他のプロセッサの動作を制御し、協調させる。少なくとも1つの実施例では、コア複合体1010は、グラフィックス複合体1040の動作を制御するコマンドを発行する。少なくとも1つの実施例では、コア複合体1010は、CUDAソース・コードから導出されたホスト実行可能コードを実行するように構成され得、グラフィックス複合体1040は、CUDAソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。
少なくとも1つの実施例では、コア複合体1010は、限定はしないが、コア1020(1)~1020(4)と、L3キャッシュ1030とを含む。少なくとも1つの実施例では、コア複合体1010は、限定はしないが、任意の数のコア1020と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも1つの実施例では、コア1020は、特定の命令セット・アーキテクチャ(「ISA」:instruction set architecture)の命令を実行するように構成される。少なくとも1つの実施例では、各コア1020はCPUコアである。
少なくとも1つの実施例では、各コア1020は、限定はしないが、フェッチ/復号ユニット1022と、整数実行エンジン1024と、浮動小数点実行エンジン1026と、L2キャッシュ1028とを含む。少なくとも1つの実施例では、フェッチ/復号ユニット1022は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン1024と浮動小数点実行エンジン1026とに別個のマイクロ命令をディスパッチする。少なくとも1つの実施例では、フェッチ/復号ユニット1022は、同時に、あるマイクロ命令を整数実行エンジン1024にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン1026にディスパッチすることができる。少なくとも1つの実施例では、整数実行エンジン1024は、限定はしないが、整数及びメモリ演算を実行する。少なくとも1つの実施例では、浮動小数点エンジン1026は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも1つの実施例では、フェッチ復号ユニット1022は、整数実行エンジン1024と浮動小数点実行エンジン1026の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。
少なくとも1つの実施例では、iがコア1020の特定のインスタンスを表す整数である、各コア1020(i)は、コア1020(i)中に含まれるL2キャッシュ1028(i)にアクセスし得る。少なくとも1つの実施例では、jがコア複合体1010の特定のインスタンスを表す整数である、コア複合体1010(j)中に含まれる各コア1020は、コア複合体1010(j)中に含まれるL3キャッシュ1030(j)を介して、コア複合体1010(j)中に含まれる他のコア1020に接続される。少なくとも1つの実施例では、jがコア複合体1010の特定のインスタンスを表す整数である、コア複合体1010(j)中に含まれるコア1020は、コア複合体1010(j)中に含まれるL3キャッシュ1030(j)のすべてにアクセスすることができる。少なくとも1つの実施例では、L3キャッシュ1030は、限定はしないが、任意の数のスライスを含み得る。
少なくとも1つの実施例では、グラフィックス複合体1040は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも1つの実施例では、グラフィックス複合体1040は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも1つの実施例では、グラフィックス複合体1040は、グラフィックに関係しない動作を実行するように構成される。少なくとも1つの実施例では、グラフィックス複合体1040は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。
少なくとも1つの実施例では、グラフィックス複合体1040は、限定はしないが、任意の数のコンピュート・ユニット1050と、L2キャッシュ1042とを含む。少なくとも1つの実施例では、コンピュート・ユニット1050は、L2キャッシュ1042を共有する。少なくとも1つの実施例では、L2キャッシュ1042は区分けされる。少なくとも1つの実施例では、グラフィックス複合体1040は、限定はしないが、任意の数のコンピュート・ユニット1050と、(ゼロを含む)任意の数及びタイプのキャッシュとを含む。少なくとも1つの実施例では、グラフィックス複合体1040は、限定はしないが、任意の量の専用グラフィックス・ハードウェアを含む。
少なくとも1つの実施例では、各コンピュート・ユニット1050は、限定はしないが、任意の数のSIMDユニット1052と、共有メモリ1054とを含む。少なくとも1つの実施例では、各SIMDユニット1052は、SIMDアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも1つの実施例では、各コンピュート・ユニット1050は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット1050上で実行する。少なくとも1つの実施例では、スレッド・ブロックは、限定はしないが、任意の数の実行のスレッドを含む。少なくとも1つの実施例では、ワークグループは、スレッド・ブロックである。少なくとも1つの実施例では、各SIMDユニット1052は、異なるワープを実行する。少なくとも1つの実施例では、ワープは、スレッドのグループ(たとえば、16個のスレッド)であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも1つの実施例では、ワープ中の1つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも1つの実施例では、レーンはスレッドである。少なくとも1つの実施例では、ワーク・アイテムはスレッドである。少なくとも1つの実施例では、ウェーブフロントはワープである。少なくとも1つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ1054を介して通信し得る。
少なくとも1つの実施例では、ファブリック1060は、コア複合体1010、グラフィックス複合体1040、I/Oインターフェース1070、メモリ・コントローラ1080、ディスプレイ・コントローラ1092、及びマルチメディア・エンジン1094にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも1つの実施例では、APU1000は、限定はしないが、ファブリック1060に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、APU1000の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも1つの実施例では、I/Oインターフェース1070は、任意の数及びタイプのI/Oインターフェース(たとえば、PCI、PCI-Extended(「PCI-X」)、PCIe、ギガビット・イーサネット(「GBE」:gigabit Ethernet)、USBなど)を表す。少なくとも1つの実施例では、様々なタイプの周辺デバイスがI/Oインターフェース1070に結合される。少なくとも1つの実施例では、I/Oインターフェース1070に結合される周辺デバイスは、限定はしないが、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。
少なくとも1つの実施例では、ディスプレイ・コントローラAMD92は、液晶ディスプレイ(「LCD」:liquid crystal display)デバイスなど、1つ又は複数のディスプレイ・デバイス上に画像を表示する。少なくとも1つの実施例では、マルチメディア・エンジン1094は、限定はしないが、ビデオ・デコーダ、ビデオ・エンコーダ、画像信号プロセッサなど、マルチメディアに関係する任意の量及びタイプの回路要素を含む。少なくとも1つの実施例では、メモリ・コントローラ1080は、APU1000と統一システム・メモリ1090との間のデータ転送を容易にする。少なくとも1つの実施例では、コア複合体1010とグラフィックス複合体1040とは、統一システム・メモリ1090を共有する。
少なくとも1つの実施例では、APU1000は、限定はしないが、1つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ1080及びメモリ・デバイス(たとえば、共有メモリ1054)を含む、メモリ・サブシステムを実装する。少なくとも1つの実施例では、APU1000は、限定はしないが、1つ又は複数のキャッシュ・メモリ(たとえば、L2キャッシュ1128、L3キャッシュ1030、及びL2キャッシュ1042)を含む、キャッシュ・サブシステムを実装し、1つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素(たとえば、コア1020、コア複合体1010、SIMDユニット1052、コンピュート・ユニット1050、及びグラフィックス複合体1040)に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。
図11は、少なくとも1つの実施例による、CPU1100を示す。少なくとも1つの実施例では、CPU1100は、カリフォルニア州サンタクララのAMD Corporationによって開発される。少なくとも1つの実施例では、CPU1100は、アプリケーション・プログラムを実行するように構成され得る。少なくとも1つの実施例では、CPU1100は、オペレーティング・システムなど、メイン制御ソフトウェアを実行するように構成される。少なくとも1つの実施例では、CPU1100は、外部GPU(図示せず)の動作を制御するコマンドを発行する。少なくとも1つの実施例では、CPU1100は、CUDAソース・コードから導出されたホスト実行可能コードを実行するように構成され得、外部GPUは、そのようなCUDAソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。少なくとも1つの実施例では、CPU1100は、限定はしないが、任意の数のコア複合体1110と、ファブリック1160と、I/Oインターフェース1170と、メモリ・コントローラ1180とを含む。少なくとも1つの実施例では、CPU1100は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、コア複合体1110は、限定はしないが、コア1120(1)~1120(4)と、L3キャッシュ1130とを含む。少なくとも1つの実施例では、コア複合体1110は、限定はしないが、任意の数のコア1120と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも1つの実施例では、コア1120は、特定のISAの命令を実行するように構成される。少なくとも1つの実施例では、各コア1120はCPUコアである。
少なくとも1つの実施例では、各コア1120は、限定はしないが、フェッチ/復号ユニット1122と、整数実行エンジン1124と、浮動小数点実行エンジン1126と、L2キャッシュ1128とを含む。少なくとも1つの実施例では、フェッチ/復号ユニット1122は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン1124と浮動小数点実行エンジン1126とに別個のマイクロ命令をディスパッチする。少なくとも1つの実施例では、フェッチ/復号ユニット1122は、同時に、あるマイクロ命令を整数実行エンジン1124にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン1126にディスパッチすることができる。少なくとも1つの実施例では、整数実行エンジン1124は、限定はしないが、整数及びメモリ演算を実行する。少なくとも1つの実施例では、浮動小数点エンジン1126は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも1つの実施例では、フェッチ復号ユニット1122は、整数実行エンジン1124と浮動小数点実行エンジン1126の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。
少なくとも1つの実施例では、iがコア1120の特定のインスタンスを表す整数である、各コア1120(i)は、コア1120(i)中に含まれるL2キャッシュ1128(i)にアクセスし得る。少なくとも1つの実施例では、jがコア複合体1110の特定のインスタンスを表す整数である、コア複合体1110(j)中に含まれる各コア1120は、コア複合体1110(j)中に含まれるL3キャッシュ1130(j)を介して、コア複合体1110(j)中の他のコア1120に接続される。少なくとも1つの実施例では、jがコア複合体1110の特定のインスタンスを表す整数である、コア複合体1110(j)中に含まれるコア1120は、コア複合体1110(j)中に含まれるL3キャッシュ1130(j)のすべてにアクセスすることができる。少なくとも1つの実施例では、L3キャッシュ1130は、限定はしないが、任意の数のスライスを含み得る。
少なくとも1つの実施例では、ファブリック1160は、コア複合体1110(1)~1110(N)(ここで、Nは0よりも大きい整数である)、I/Oインターフェース1170、及びメモリ・コントローラ1180にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも1つの実施例では、CPU1100は、限定はしないが、ファブリック1160に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、CPU1100の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも1つの実施例では、I/Oインターフェース1170は、任意の数及びタイプのI/Oインターフェース(たとえば、PCI、PCI-X、PCIe、GBE、USBなど)を表す。少なくとも1つの実施例では、様々なタイプの周辺デバイスが、I/Oインターフェース1170に結合される。少なくとも1つの実施例では、I/Oインターフェース1170に結合される周辺デバイスは、限定はしないが、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。
少なくとも1つの実施例では、メモリ・コントローラ1180は、CPU1100とシステム・メモリ1190との間のデータ転送を容易にする。少なくとも1つの実施例では、コア複合体1110とグラフィックス複合体1140とは、システム・メモリ1190を共有する。少なくとも1つの実施例では、CPU1100は、限定はしないが、1つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ1180及びメモリ・デバイスを含む、メモリ・サブシステムを実装する。少なくとも1つの実施例では、CPU1100は、限定はしないが、1つ又は複数のキャッシュ・メモリ(たとえば、L2キャッシュ1128及びL3キャッシュ1130)を含む、キャッシュ・サブシステムを実装し、1つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素(たとえば、コア1120及びコア複合体1110)に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。
図12は、少なくとも1つの実施例による、例示的なアクセラレータ統合スライス1290を示す。本明細書で使用される「スライス」は、アクセラレータ統合回路の処理リソースの指定部分を備える。少なくとも1つの実施例では、アクセラレータ統合回路は、グラフィックス加速モジュール中に含まれる複数のグラフィックス処理エンジンの代わりに、キャッシュ管理、メモリ・アクセス、コンテキスト管理、及び割込み管理サービスを提供する。グラフィックス処理エンジンは、各々、別個のGPUを備え得る。代替的に、グラフィックス処理エンジンは、GPU内に、グラフィックス実行ユニット、メディア処理エンジン(たとえば、ビデオ・エンコーダ/デコーダ)、サンプラ、及びblitエンジンなど、異なるタイプのグラフィックス処理エンジンを備え得る。少なくとも1つの実施例では、グラフィックス加速モジュールは、複数のグラフィックス処理エンジンをもつGPUであり得る。少なくとも1つの実施例では、グラフィックス処理エンジンは、共通のパッケージ、ライン・カード、又はチップ上に組み込まれた個々のGPUであり得る。少なくとも1つの実施例では、アクセラレータ統合スライス1290は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
システム・メモリ1214内のアプリケーション実効アドレス空間1282は、プロセス要素1283を記憶する。一実施例では、プロセス要素1283は、プロセッサ1207上で実行されるアプリケーション1280からのGPU呼出し1281に応答して、記憶される。プロセス要素1283は、対応するアプリケーション1280のプロセス状態を含んでいる。プロセス要素1283に含まれているワーク記述子(「WD」:work descriptor)1284は、アプリケーションによって要求される単一のジョブであり得るか、又はジョブのキューに対するポインタを含んでいることがある。少なくとも1つの実施例では、WD1284は、アプリケーション実効アドレス空間1282におけるジョブ要求キューに対するポインタである。
グラフィックス加速モジュール1246及び/又は個々のグラフィックス処理エンジンは、システム中のプロセスのすべて又はサブセットによって共有され得る。少なくとも1つの実施例では、プロセス状態を設定し、WD1284をグラフィックス加速モジュール1246に送出して、仮想化環境中でジョブを開始するためのインフラストラクチャが、含められ得る。
少なくとも1つの実施例では、専用プロセス・プログラミング・モデルは、実装固有である。このモデルでは、単一のプロセスが、グラフィックス加速モジュール1246又は個々のグラフィックス処理エンジンを所有する。グラフィックス加速モジュール1246が単一のプロセスによって所有されるので、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路を初期化し、グラフィックス加速モジュール1246が割り当てられたとき、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路を初期化する。
動作時、アクセラレータ統合スライス1290中のWDフェッチ・ユニット1291は、グラフィックス加速モジュール1246の1つ又は複数のグラフィックス処理エンジンによって行われるべきであるワークの指示を含む、次のWD1284をフェッチする。示されているように、WD1284からのデータは、レジスタ1245に記憶され、メモリ管理ユニット(「MMU」:memory management unit)1239、割込み管理回路1247、及び/又はコンテキスト管理回路1248によって使用され得る。たとえば、MMU1239の一実施例は、OS仮想アドレス空間1285内のセグメント/ページ・テーブル1286にアクセスするためのセグメント/ページ・ウォーク回路要素を含む。割込み管理回路1247は、グラフィックス加速モジュール1246から受信された割込みイベント(「INT」:interrupt)1292を処理し得る。グラフィックス動作を実施するとき、グラフィックス処理エンジンによって生成された実効アドレス1293は、MMU1239によって実アドレスにトランスレートされる。
一実施例では、レジスタ1245の同じセットが、各グラフィックス処理エンジン、及び/又はグラフィックス加速モジュール1246について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化され得る。これらの複製されたレジスタの各々は、アクセラレータ統合スライス1290中に含められ得る。ハイパーバイザによって初期化され得る例示的なレジスタが、表1に示されている。
オペレーティング・システムによって初期化され得る例示的なレジスタが、表2に示されている。
一実施例では、各WD1284は、特定のグラフィックス加速モジュール1246及び/又は特定のグラフィックス処理エンジンに固有である。WD1284は、ワークを行うためにグラフィックス処理エンジンによって必要とされるすべての情報を含んでいるか、又は、WD1284は、完了されるべきワークのコマンド・キューをアプリケーションが設定したメモリ・ロケーションに対するポインタであり得る。
図13A~図13Bは、少なくとも1つの実施例による、例示的なグラフィックス・プロセッサを示す。少なくとも1つの実施例では、例示的なグラフィックス・プロセッサのうちのいずれかは、1つ又は複数のIPコアを使用して作製され得る。示されているものに加えて、少なくとも1つの実施例では、追加のグラフィックス・プロセッサ/コア、周辺インターフェース・コントローラ、又は汎用プロセッサ・コアを含む他の論理及び回路が含まれ得る。少なくとも1つの実施例では、例示的なグラフィックス・プロセッサは、SoC内での使用のためのものである。
図13Aは、少なくとも1つの実施例による、1つ又は複数のIPコアを使用して作製され得るSoC集積回路の例示的なグラフィックス・プロセッサ1310を示す。図13Bは、少なくとも1つの実施例による、1つ又は複数のIPコアを使用して作製され得るSoC集積回路の追加の例示的なグラフィックス・プロセッサ1340を示す。少なくとも1つの実施例では、図13Aのグラフィックス・プロセッサ1310は、低電力グラフィックス・プロセッサ・コアである。少なくとも1つの実施例では、図13Bのグラフィックス・プロセッサ1340は、より高性能のグラフィックス・プロセッサ・コアである。少なくとも1つの実施例では、グラフィックス・プロセッサ1310、1340の各々は、図8のグラフィックス・プロセッサ810の変形態であり得る。少なくとも1つの実施例では、グラフィックス・プロセッサ1310は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、グラフィックス・プロセッサ1310は、頂点プロセッサ1305と、1つ又は複数のフラグメント・プロセッサ1315A~1315N(たとえば、1315A、1315B、1315C、1315D~1315N-1、及び1315N)とを含む。少なくとも1つの実施例では、グラフィックス・プロセッサ1310は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ1305は、頂点シェーダ・プログラムのための動作を実行するように最適化され、1つ又は複数のフラグメント・プロセッサ1315A~1315Nは、フラグメント又はピクセル・シェーダ・プログラムのためのフラグメント(たとえば、ピクセル)シェーディング動作を実行する。少なくとも1つの実施例では、頂点プロセッサ1305は、3Dグラフィックス・パイプラインの頂点処理段階を実施し、プリミティブ及び頂点データを生成する。少なくとも1つの実施例では、(1つ又は複数の)フラグメント・プロセッサ1315A~1315Nは、頂点プロセッサ1305によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイス上に表示されるフレームバッファを作り出す。少なくとも1つの実施例では、(1つ又は複数の)フラグメント・プロセッサ1315A~1315Nは、OpenGL APIにおいて提供されるようなフラグメント・シェーダ・プログラムを実行するように最適化され、OpenGL APIは、Direct 3D APIにおいて提供されるようなピクセル・シェーダ・プログラムと同様の動作を実施するために使用され得る。
少なくとも1つの実施例では、グラフィックス・プロセッサ1310は、追加として、1つ又は複数のMMU1320A~1320Bと、(1つ又は複数の)キャッシュ1325A~1325Bと、(1つ又は複数の)回路相互接続1330A~1330Bとを含む。少なくとも1つの実施例では、1つ又は複数のMMU1320A~1320Bは、頂点プロセッサ1305及び/又は(1つ又は複数の)フラグメント・プロセッサ1315A~1315Nを含む、グラフィックス・プロセッサ1310のための仮想-物理アドレス・マッピングを提供し、それらは、1つ又は複数のキャッシュ1325A~1325Bに記憶された頂点又は画像/テクスチャ・データに加えて、メモリに記憶された頂点又は画像/テクスチャ・データを参照し得る。少なくとも1つの実施例では、1つ又は複数のMMU1320A~1320Bは、図8の1つ又は複数のアプリケーション・プロセッサ805、画像プロセッサ815、及び/又はビデオ・プロセッサ820に関連する1つ又は複数のMMUを含む、システム内の他のMMUと同期され得、それにより、各プロセッサ805~820は、共有又は統一仮想メモリ・システムに参加することができる。少なくとも1つの実施例では、1つ又は複数の回路相互接続1330A~1330Bは、グラフィックス・プロセッサ1310が、SoCの内部バスを介して又は直接接続を介してのいずれかで、SoC内の他のIPコアとインターフェースすることを可能にする。
少なくとも1つの実施例では、グラフィックス・プロセッサ1340は、図13Aのグラフィックス・プロセッサ1310の1つ又は複数のMMU1320A~1320Bと、キャッシュ1325A~1325Bと、回路相互接続1330A~1330Bとを含む。少なくとも1つの実施例では、グラフィックス・プロセッサ1340は、1つ又は複数のシェーダ・コア1355A~1355N(たとえば、1355A、1355B、1355C、1355D、1355E、1355F~1355N-1、及び1355N)を含み、1つ又は複数のシェーダ・コア1355A~1355Nは、単一のコア、又はタイプ、又はコアが、頂点シェーダ、フラグメント・シェーダ、及び/又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含むすべてのタイプのプログラマブル・シェーダ・コードを実行することができる統一シェーダ・コア・アーキテクチャを提供する。少なくとも1つの実施例では、シェーダ・コアの数は変動することができる。少なくとも1つの実施例では、グラフィックス・プロセッサ1340は、1つ又は複数のシェーダ・コア1355A~1355Nに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ1345と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンについてのレンダリング動作が画像空間において下位区分される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット1358とを含む。
図14Aは、少なくとも1つの実施例による、グラフィックス・コア1400を示す。少なくとも1つの実施例では、グラフィックス・コア1400は、図8のグラフィックス・プロセッサ810内に含まれ得る。少なくとも1つの実施例では、グラフィックス・コア1400は、図13Bの場合のような統一シェーダ・コア1355A~1355Nであり得る。少なくとも1つの実施例では、グラフィックス・コア1400は、共有命令キャッシュ1402と、テクスチャ・ユニット1418と、キャッシュ/共有メモリ1420とを含み、それらは、グラフィックス・コア1400内の実行リソースに共通である。少なくとも1つの実施例では、グラフィックス・コア1400は、複数のスライス1401A~1401N、又は各コアについてのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア1400の複数のインスタンスを含むことができる。スライス1401A~1401Nは、ローカル命令キャッシュ1404A~1404Nと、スレッド・スケジューラ1406A~1406Nと、スレッド・ディスパッチャ1408A~1408Nと、レジスタのセット1410A~1410Nとを含むサポート論理を含むことができる。少なくとも1つの実施例では、スライス1401A~1401Nは、追加機能ユニット(「AFU」:additional function unit)1412A~1412N、浮動小数点ユニット(「FPU」:floating-point unit)1414A~1414N、整数算術論理ユニット(「ALU」:integer arithmetic logic unit)1416~1416N、アドレス算出ユニット(「ACU」:address computational unit)1413A~1413N、倍精度浮動小数点ユニット(「DPFPU」:double-precision floating-point unit)1415A~1415N、及び行列処理ユニット(「MPU」:matrix processing unit)1417A~1417Nのセットを含むことができる。少なくとも1つの実施例では、グラフィックス・コア1400は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、FPU1414A~1414Nは、単精度(32ビット)及び半精度(16ビット)の浮動小数点演算を実施することができ、DPFPU1415A~1415Nは、倍精度(64ビット)の浮動小数点演算を実施する。少なくとも1つの実施例では、ALU1416A~1416Nは、8ビット、16ビット、及び32ビットの精度で可変精度整数演算を実施することができ、混合精度演算のために構成され得る。少なくとも1つの実施例では、MPU1417A~1417Nも、半精度浮動小数点演算と8ビット整数演算とを含む、混合精度行列演算のために構成され得る。少なくとも1つの実施例では、MPU1417~1417Nは、加速汎用行列-行列乗算(「GEMM」:general matrix to matrix multiplication)のサポートを可能にすることを含む、CUDAプログラムを加速するための様々な行列演算を実施することができる。少なくとも1つの実施例では、AFU1412A~1412Nは、三角関数演算(たとえば、サイン、コサインなど)を含む、浮動小数点ユニット又は整数ユニットによってサポートされていない追加の論理演算を実施することができる。
図14Bは、少なくとも1つの実施例による、汎用グラフィックス処理ユニット(「GPGPU」:general-purpose graphics processing unit)1430を示す。少なくとも1つの実施例では、GPGPU1430は、高度並列であり、マルチチップ・モジュール上での導入に好適である。少なくとも1つの実施例では、GPGPU1430は、高度並列コンピュート動作がGPUのアレイによって実施されることを可能にするように構成され得る。少なくとも1つの実施例では、GPGPU1430は、CUDAプログラムのための実行時間を改善するためにマルチGPUクラスタを作成するために、GPGPU1430の他のインスタンスに直接リンクされ得る。少なくとも1つの実施例では、GPGPU1430は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース1432を含む。少なくとも1つの実施例では、ホスト・インターフェース1432は、PCIeインターフェースである。少なくとも1つの実施例では、ホスト・インターフェース1432は、ベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも1つの実施例では、GPGPU1430は、ホスト・プロセッサからコマンドを受信し、グローバル・スケジューラ1434を使用して、それらのコマンドに関連する実行スレッドを、コンピュート・クラスタ1436A~1436Hのセットに分散させる。少なくとも1つの実施例では、コンピュート・クラスタ1436A~1436Hは、キャッシュ・メモリ1438を共有する。少なくとも1つの実施例では、キャッシュ・メモリ1438は、コンピュート・クラスタ1436A~1436H内のキャッシュ・メモリのためのより高レベルのキャッシュとして働くことができる。
少なくとも1つの実施例では、GPGPU1430は、メモリ・コントローラ1442A~1442Bのセットを介してコンピュート・クラスタ1436A~1436Hと結合されたメモリ1444A~1444Bを含む。少なくとも1つの実施例では、メモリ1444A~1444Bは、DRAM、又は、グラフィックス・ダブル・データ・レート(「GDDR」:graphics double data rate)メモリを含む同期グラフィックス・ランダム・アクセス・メモリ(「SGRAM」:synchronous graphics random access memory)などのグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。
少なくとも1つの実施例では、コンピュート・クラスタ1436A~1436Hは、各々、図14Aのグラフィックス・コア1400などのグラフィックス・コアのセットを含み、グラフィックス・コアのセットは、CUDAプログラムに関連する算出に適したものを含む、様々な精度で算出動作を実施することができる複数のタイプの整数及び浮動小数点論理ユニットを含むことができる。たとえば、少なくとも1つの実施例では、コンピュート・クラスタ1436A~1436Hの各々における浮動小数点ユニットの少なくともサブセットは、16ビット又は32ビットの浮動小数点演算を実施するように構成され得、浮動小数点ユニットの異なるサブセットは、64ビットの浮動小数点演算を実施するように構成され得る。
少なくとも1つの実施例では、GPGPU1430の複数のインスタンスは、コンピュート・クラスタとして動作するように構成され得る。コンピュート・クラスタ1436A~1436Hは、同期及びデータ交換のための任意の技術的に実現可能な通信技法を実装し得る。少なくとも1つの実施例では、GPGPU1430の複数のインスタンスは、ホスト・インターフェース1432を介して通信する。少なくとも1つの実施例では、GPGPU1430は、I/Oハブ1439を含み、I/Oハブ1439は、GPGPU1430を、GPGPU1430の他のインスタンスへの直接接続を可能にするGPUリンク1440と結合する。少なくとも1つの実施例では、GPUリンク1440は、GPGPU1430の複数のインスタンス間での通信及び同期を可能にする専用GPU-GPUブリッジに結合される。少なくとも1つの実施例では、GPUリンク1440は、他のGPGPU1430又は並列プロセッサにデータを送信及び受信するために高速相互接続と結合する。少なくとも1つの実施例では、GPGPU1430の複数のインスタンスは、別個のデータ処理システムに位置し、ホスト・インターフェース1432を介してアクセス可能であるネットワーク・デバイスを介して通信する。少なくとも1つの実施例では、GPUリンク1440は、ホスト・インターフェース1432に加えて、又はその代替として、ホスト・プロセッサへの接続を可能にするように構成され得る。少なくとも1つの実施例では、GPGPU1430は、CUDAプログラムを実行するように構成され得る。
図15Aは、少なくとも1つの実施例による、並列プロセッサ1500を示す。少なくとも1つの実施例では、並列プロセッサ1500の様々な構成要素は、プログラマブル・プロセッサ、特定用途向け集積回路(「ASIC」:application specific integrated circuit)、又はFPGAなど、1つ又は複数の集積回路デバイスを使用して実装され得る。少なくとも1つの実施例では、並列プロセッサ1500は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、並列プロセッサ1500は並列処理ユニット1502を含む。少なくとも1つの実施例では、並列処理ユニット1502は、並列処理ユニット1502の他のインスタンスを含む、他のデバイスとの通信を可能にするI/Oユニット1504を含む。少なくとも1つの実施例では、I/Oユニット1504は、他のデバイスに直接接続され得る。少なくとも1つの実施例では、I/Oユニット1504は、メモリ・ハブ1505など、ハブ又はスイッチ・インターフェースの使用を介して他のデバイスと接続する。少なくとも1つの実施例では、メモリ・ハブ1505とI/Oユニット1504との間の接続は、通信リンクを形成する。少なくとも1つの実施例では、I/Oユニット1504は、ホスト・インターフェース1506及びメモリ・クロスバー1516と接続し、ホスト・インターフェース1506は、処理動作を実施することを対象とするコマンドを受信し、メモリ・クロスバー1516は、メモリ動作を実施することを対象とするコマンドを受信する。
少なくとも1つの実施例では、ホスト・インターフェース1506が、I/Oユニット1504を介してコマンド・バッファを受信したとき、ホスト・インターフェース1506は、それらのコマンドを実施するためのワーク動作をフロント・エンド1508に向けることができる。少なくとも1つの実施例では、フロント・エンド1508はスケジューラ1510と結合し、スケジューラ1510は、コマンド又は他のワーク・アイテムを処理アレイ1512に分散させるように構成される。少なくとも1つの実施例では、スケジューラ1510は、処理アレイ1512にタスクが分散される前に、処理アレイ1512が適切に構成され、有効な状態にあることを確実にする。少なくとも1つの実施例では、スケジューラ1510は、マイクロコントローラ上で実行しているファームウェア論理を介して実装される。少なくとも1つの実施例では、マイクロコントローラ実装スケジューラ1510は、複雑なスケジューリング及びワーク分散動作を、粗い粒度及び細かい粒度において実施するように構成可能であり、処理アレイ1512上で実行しているスレッドの迅速なプリエンプション及びコンテキスト切替えを可能にする。少なくとも1つの実施例では、ホスト・ソフトウェアは、処理アレイ1512上でのスケジューリングのためのワークロードを、複数のグラフィックス処理ドアベルのうちの1つを介して証明することができる。少なくとも1つの実施例では、ワークロードは、次いで、スケジューラ1510を含むマイクロコントローラ内のスケジューラ1510論理によって、処理アレイ1512にわたって自動的に分散され得る。
少なくとも1つの実施例では、処理アレイ1512は、最高「N」個のクラスタ(たとえば、クラスタ1514A、クラスタ1514B~クラスタ1514N)を含むことができる。少なくとも1つの実施例では、処理アレイ1512の各クラスタ1514A~1514Nは、多数の同時スレッドを実行することができる。少なくとも1つの実施例では、スケジューラ1510は、様々なスケジューリング及び/又はワーク分散アルゴリズムを使用して処理アレイ1512のクラスタ1514A~1514Nにワークを割り振ることができ、それらのアルゴリズムは、プログラム又は算出の各タイプについて生じるワークロードに応じて変動し得る。少なくとも1つの実施例では、スケジューリングは、スケジューラ1510によって動的に対処され得るか、又は処理アレイ1512による実行のために構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援され得る。少なくとも1つの実施例では、処理アレイ1512の異なるクラスタ1514A~1514Nは、異なるタイプのプログラムを処理するために、又は異なるタイプの算出を実施するために割り振られ得る。
少なくとも1つの実施例では、処理アレイ1512は、様々なタイプの並列処理動作を実施するように構成され得る。少なくとも1つの実施例では、処理アレイ1512は、汎用並列コンピュート動作を実施するように構成される。たとえば、少なくとも1つの実施例では、処理アレイ1512は、ビデオ及び/又はオーディオ・データをフィルタリングすること、物理動作を含むモデリング動作を実施すること、及びデータ変換を実施することを含む処理タスクを実行するための論理を含むことができる。
少なくとも1つの実施例では、処理アレイ1512は、並列グラフィックス処理動作を実施するように構成される。少なくとも1つの実施例では、処理アレイ1512は、限定はしないが、テクスチャ動作を実施するためのテクスチャ・サンプリング論理、並びにテッセレーション論理及び他の頂点処理論理を含む、そのようなグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも1つの実施例では、処理アレイ1512は、限定はしないが、頂点シェーダ、テッセレーション・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなど、グラフィックス処理関係シェーダ・プログラムを実行するように構成され得る。少なくとも1つの実施例では、並列処理ユニット1502は、処理のためにI/Oユニット1504を介してシステム・メモリからデータを転送することができる。少なくとも1つの実施例では、処理中に、転送されたデータは、処理中にオンチップ・メモリ(たとえば、並列プロセッサ・メモリ1522)に記憶され、次いでシステム・メモリに書き戻され得る。
少なくとも1つの実施例では、並列処理ユニット1502がグラフィックス処理を実施するために使用されるとき、スケジューラ1510は、処理アレイ1512の複数のクラスタ1514A~1514Nへのグラフィックス処理動作の分散をより良く可能にするために、処理ワークロードをほぼ等しいサイズのタスクに分割するように構成され得る。少なくとも1つの実施例では、処理アレイ1512の部分は、異なるタイプの処理を実施するように構成され得る。たとえば、少なくとも1つの実施例では、表示のために、レンダリングされた画像を作り出すために、第1の部分は、頂点シェーディング及びトポロジ生成を実施するように構成され得、第2の部分は、テッセレーション及びジオメトリ・シェーディングを実施するように構成され得、第3の部分は、ピクセル・シェーディング又は他のスクリーン空間動作を実施するように構成され得る。少なくとも1つの実施例では、クラスタ1514A~1514Nのうちの1つ又は複数によって作り出された中間データは、中間データがさらなる処理のためにクラスタ1514A~1514N間で送信されることを可能にするために、バッファに記憶され得る。
少なくとも1つの実施例では、処理アレイ1512は、実行されるべき処理タスクをスケジューラ1510を介して受信することができ、スケジューラ1510は、処理タスクを定義するコマンドをフロント・エンド1508から受信する。少なくとも1つの実施例では、処理タスクは、処理されるべきデータのインデックス、たとえば、表面(パッチ)データ、プリミティブ・データ、頂点データ、及び/又はピクセル・データ、並びに、データがどのように処理されるべきであるか(たとえば、どのプログラムが実行されるべきであるか)を定義する状態パラメータ及びコマンドを含むことができる。少なくとも1つの実施例では、スケジューラ1510は、タスクに対応するインデックスをフェッチするように構成され得るか、又はフロント・エンド1508からインデックスを受信し得る。少なくとも1つの実施例では、フロント・エンド1508は、入って来るコマンド・バッファ(たとえば、バッチ・バッファ、プッシュ・バッファなど)によって指定されるワークロードが始動される前に、処理アレイ1512が有効な状態に構成されることを確実にするように構成され得る。
少なくとも1つの実施例では、並列処理ユニット1502の1つ又は複数のインスタンスの各々は、並列プロセッサ・メモリ1522と結合することができる。少なくとも1つの実施例では、並列プロセッサ・メモリ1522は、メモリ・クロスバー1516を介してアクセスされ得、メモリ・クロスバー1516は、処理アレイ1512並びにI/Oユニット1504からメモリ要求を受信することができる。少なくとも1つの実施例では、メモリ・クロスバー1516は、メモリ・インターフェース1518を介して並列プロセッサ・メモリ1522にアクセスすることができる。少なくとも1つの実施例では、メモリ・インターフェース1518は、複数のパーティション・ユニット(たとえば、パーティション・ユニット1520A、パーティション・ユニット1520B~パーティション・ユニット1520N)を含むことができ、複数のパーティション・ユニットは、各々、並列プロセッサ・メモリ1522の一部分(たとえば、メモリ・ユニット)に結合することができる。少なくとも1つの実施例では、パーティション・ユニット1520A~1520Nの数は、メモリ・ユニットの数に等しくなるように構成され、それにより、第1のパーティション・ユニット1520Aは、対応する第1のメモリ・ユニット1524Aを有し、第2のパーティション・ユニット1520Bは、対応するメモリ・ユニット1524Bを有し、第Nのパーティション・ユニット1520Nは、対応する第Nのメモリ・ユニット1524Nを有する。少なくとも1つの実施例では、パーティション・ユニット1520A~1520Nの数は、メモリ・デバイスの数に等しくないことがある。
少なくとも1つの実施例では、メモリ・ユニット1524A~1524Nは、GDDRメモリを含むSGRAMなど、DRAM又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも1つの実施例では、メモリ・ユニット1524A~1524Nは、限定はしないが高帯域幅メモリ(「HBM」:high bandwidth memory)を含む、3D積層メモリをも含み得る。少なくとも1つの実施例では、並列プロセッサ・メモリ1522の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット1524A~1524Nにわたって記憶されて、パーティション・ユニット1520A~1520Nが、各レンダー・ターゲットの部分を並列に書き込むことを可能にし得る。少なくとも1つの実施例では、ローカル・キャッシュ・メモリと併せてシステム・メモリを利用する統一メモリ設計に有利なように、並列プロセッサ・メモリ1522のローカル・インスタンスが除外され得る。
少なくとも1つの実施例では、処理アレイ1512のクラスタ1514A~1514Nのうちのいずれか1つは、並列プロセッサ・メモリ1522内のメモリ・ユニット1524A~1524Nのいずれかに書き込まれることになるデータを処理することができる。少なくとも1つの実施例では、メモリ・クロスバー1516は、各クラスタ1514A~1514Nの出力を、出力に対して追加の処理動作を実施することができる任意のパーティション・ユニット1520A~1520Nに転送するか、又は別のクラスタ1514A~1514Nに転送するように構成され得る。少なくとも1つの実施例では、各クラスタ1514A~1514Nは、様々な外部メモリ・デバイスから読み取るか、又はそれに書き込むために、メモリ・クロスバー1516を通してメモリ・インターフェース1518と通信することができる。少なくとも1つの実施例では、メモリ・クロスバー1516は、I/Oユニット1504と通信するためのメモリ・インターフェース1518への接続、並びに、並列プロセッサ・メモリ1522のローカル・インスタンスへの接続を有し、これは、異なるクラスタ1514A~1514N内の処理ユニットが、システム・メモリ、又は並列処理ユニット1502にローカルでない他のメモリと通信することを可能にする。少なくとも1つの実施例では、メモリ・クロスバー1516は、クラスタ1514A~1514Nとパーティション・ユニット1520A~1520Nとの間でトラフィック・ストリームを分離するために、仮想チャネルを使用することができる。
少なくとも1つの実施例では、並列処理ユニット1502の複数のインスタンスは、単一のアドイン・カード上で提供され得るか、又は複数のアドイン・カードが相互接続され得る。少なくとも1つの実施例では、並列処理ユニット1502の異なるインスタンスは、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び/又は他の構成の差を有する場合でも、相互動作するように構成され得る。たとえば、少なくとも1つの実施例では、並列処理ユニット1502のいくつかのインスタンスは、他のインスタンスに対してより高い精度の浮動小数点ユニットを含むことができる。少なくとも1つの実施例では、並列処理ユニット1502又は並列プロセッサ1500の1つ又は複数のインスタンスを組み込んだシステムは、限定はしないが、デスクトップ、ラップトップ、又はハンドヘルド・パーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び/又は組み込みシステムを含む、様々な構成及びフォーム・ファクタにおいて実装され得る。
図15Bは、少なくとも1つの実施例による、処理クラスタ1594を示す。少なくとも1つの実施例では、処理クラスタ1594は、並列処理ユニット内に含まれる。少なくとも1つの実施例では、処理クラスタ1594は、図15の処理クラスタ1514A~1514Nのうちの1つである。少なくとも1つの実施例では、処理クラスタ1594は、多くのスレッドを並列で実行するように構成され得、「スレッド」という用語は、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも1つの実施例では、複数の独立した命令ユニットを提供することなしに多数のスレッドの並列実行をサポートするために、単一命令複数データ(「SIMD」:single instruction,multiple data)命令発行技法が使用される。少なくとも1つの実施例では、各処理クラスタ1594内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド(「SIMT」:single instruction,multiple thread)技法が使用される。少なくとも1つの実施例では、処理クラスタ1594は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、処理クラスタ1594の動作は、SIMT並列プロセッサに処理タスクを分散させるパイプライン・マネージャ1532を介して制御され得る。少なくとも1つの実施例では、パイプライン・マネージャ1532は、図15のスケジューラ1510から命令を受信し、グラフィックス・マルチプロセッサ1534及び/又はテクスチャ・ユニット1536を介してそれらの命令の実行を管理する。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534は、SIMT並列プロセッサの例示的なインスタンスである。しかしながら、少なくとも1つの実施例では、異なるアーキテクチャの様々なタイプのSIMT並列プロセッサが、処理クラスタ1594内に含められ得る。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534の1つ又は複数のインスタンスは、処理クラスタ1594内に含められ得る。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534はデータを処理することができ、処理されたデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの1つに分散させるために、データ・クロスバー1540が使用され得る。少なくとも1つの実施例では、パイプライン・マネージャ1532は、データ・クロスバー1540を介して分散されることになる処理されたデータのための宛先を指定することによって、処理されたデータの分散を容易にすることができる。
少なくとも1つの実施例では、処理クラスタ1594内の各グラフィックス・マルチプロセッサ1534は、関数実行論理(たとえば、算術論理ユニット、ロード/ストア・ユニット(「LSU」:load/store unit)など)の同一のセットを含むことができる。少なくとも1つの実施例では、関数実行論理は、前の命令が完了する前に新しい命令が発行され得るパイプライン様式で構成され得る。少なくとも1つの実施例では、関数実行論理は、整数及び浮動小数点算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の算出を含む様々な演算をサポートする。少なくとも1つの実施例では、異なる演算を実施するために同じ関数ユニット・ハードウェアが活用され得、関数ユニットの任意の組合せが存在し得る。
少なくとも1つの実施例では、処理クラスタ1594に送信される命令がスレッドを構成する。少なくとも1つの実施例では、並列処理エンジンのセットにわたって実行しているスレッドのセットが、スレッド・グループである。少なくとも1つの実施例では、スレッド・グループは、異なる入力データに対してプログラムを実行する。少なくとも1つの実施例では、スレッド・グループ内の各スレッドは、グラフィックス・マルチプロセッサ1534内の異なる処理エンジンに割り当てられ得る。少なくとも1つの実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ1534内の処理エンジンの数よりも少ないスレッドを含み得る。少なくとも1つの実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含むとき、処理エンジンのうちの1つ又は複数は、そのスレッド・グループが処理されているサイクル中にアイドルであり得る。少なくとも1つの実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ1534内の処理エンジンの数よりも多いスレッドを含み得る。少なくとも1つの実施例では、スレッド・グループがグラフィックス・マルチプロセッサ1534内の処理エンジンの数よりも多くのスレッドを含むとき、連続するクロック・サイクルにわたって処理が実施され得る。少なくとも1つの実施例では、複数のスレッド・グループが、グラフィックス・マルチプロセッサ1534上で同時に実行され得る。
少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534は、ロード動作及びストア動作を実施するための内部キャッシュ・メモリを含む。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534は、内部キャッシュをやめ、処理クラスタ1594内のキャッシュ・メモリ(たとえば、L1キャッシュ1548)を使用することができる。少なくとも1つの実施例では、各グラフィックス・マルチプロセッサ1534は、パーティション・ユニット(たとえば、図15Aのパーティション・ユニット1520A~1520N)内のレベル2(「L2」)キャッシュへのアクセスをも有し、それらのL2キャッシュは、すべての処理クラスタ1594の間で共有され、スレッド間でデータを転送するために使用され得る。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1534はまた、オフチップ・グローバル・メモリにアクセスし得、オフチップ・グローバル・メモリは、ローカル並列プロセッサ・メモリ及び/又はシステム・メモリのうちの1つ又は複数を含むことができる。少なくとも1つの実施例では、並列処理ユニット1502の外部の任意のメモリが、グローバル・メモリとして使用され得る。少なくとも1つの実施例では、処理クラスタ1594は、グラフィックス・マルチプロセッサ1534の複数のインスタンスを含み、グラフィックス・マルチプロセッサ1534は、共通の命令及びデータを共有することができ、共通の命令及びデータは、L1キャッシュ1548に記憶され得る。
少なくとも1つの実施例では、各処理クラスタ1594は、仮想アドレスを物理アドレスにマッピングするように構成されたMMU1545を含み得る。少なくとも1つの実施例では、MMU1545の1つ又は複数のインスタンスは、図15のメモリ・インターフェース1518内に存在し得る。少なくとも1つの実施例では、MMU1545は、仮想アドレスを、タイル及び随意にキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ(「PTE」:page table entry)のセットを含む。少なくとも1つの実施例では、MMU1545は、アドレス・トランスレーション・ルックアサイド・バッファ(「TLB」:translation lookaside buffer)又はキャッシュを含み得、これらは、グラフィックス・マルチプロセッサ1534又はL1キャッシュ1548或いは処理クラスタ1594内に存在し得る。少なくとも1つの実施例では、物理アドレスが、表面データ・アクセス・ローカリティを分散させて、パーティション・ユニットの間での効率的な要求インターリーブを可能にするために処理される。少なくとも1つの実施例では、キャッシュ・ライン・インデックスが、キャッシュ・ラインについての要求がヒットであるのかミスであるのかを決定するために使用され得る。
少なくとも1つの実施例では、処理クラスタ1594は、各グラフィックス・マルチプロセッサ1534が、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置を決定すること、テクスチャ・データを読み取ること、及びテクスチャ・データをフィルタリングすることを実施するためのテクスチャ・ユニット1536に結合されるように、構成され得る。少なくとも1つの実施例では、テクスチャ・データは、内部テクスチャL1キャッシュ(図示せず)から又はグラフィックス・マルチプロセッサ1534内のL1キャッシュから読み取られ、必要に応じて、L2キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも1つの実施例では、各グラフィックス・マルチプロセッサ1534は、処理されたタスクをデータ・クロスバー1540に出力して、処理されたタスクを、さらなる処理のために別の処理クラスタ1594に提供するか、或いは、処理されたタスクを、メモリ・クロスバー1516を介してL2キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに記憶する。少なくとも1つの実施例では、プレ・ラスタ演算ユニット(「プレROP」:pre-raster operation)1542は、グラフィックス・マルチプロセッサ1534からデータを受信し、データをROPユニットにダイレクトするように構成され、ROPユニットは、本明細書で説明されるようなパーティション・ユニット(たとえば、図15のパーティション・ユニット1520A~1520N)とともに位置し得る。少なくとも1つの実施例では、プレROP1542は、色ブレンディングのための最適化を実施し、ピクセル色データを組織化し、アドレス・トランスレーションを実施することができる。
図15Cは、少なくとも1つの実施例による、グラフィックス・マルチプロセッサ1596を示す。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1596は、図15Bのグラフィックス・マルチプロセッサ1534である。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1596は、処理クラスタ1594のパイプライン・マネージャ1532と結合する。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1596は、限定はしないが、命令キャッシュ1552と、命令ユニット1554と、アドレス・マッピング・ユニット1556と、レジスタ・ファイル1558と、1つ又は複数のGPGPUコア1562と、1つ又は複数のLSU1566とを含む実行パイプラインを有する。GPGPUコア1562及びLSU1566は、メモリ及びキャッシュ相互接続1568を介してキャッシュ・メモリ1572及び共有メモリ1570と結合される。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1596は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、命令キャッシュ1552は、実行すべき命令のストリームをパイプライン・マネージャ1532から受信する。少なくとも1つの実施例では、命令は、命令キャッシュ1552においてキャッシュされ、命令ユニット1554による実行のためにディスパッチされる。少なくとも1つの実施例では、命令ユニット1554は、命令をスレッド・グループ(たとえば、ワープ)としてディスパッチすることができ、スレッド・グループの各スレッドは、GPGPUコア1562内の異なる実行ユニットに割り当てられる。少なくとも1つの実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも1つの実施例では、アドレス・マッピング・ユニット1556は、統一アドレス空間中のアドレスを、LSU1566によってアクセスされ得る個別メモリ・アドレスにトランスレートするために使用され得る。
少なくとも1つの実施例では、レジスタ・ファイル1558は、グラフィックス・マルチプロセッサ1596の機能ユニットにレジスタのセットを提供する。少なくとも1つの実施例では、レジスタ・ファイル1558は、グラフィックス・マルチプロセッサ1596の機能ユニット(たとえば、GPGPUコア1562、LSU1566)のデータ経路に接続された、オペランドのための一時的ストレージを提供する。少なくとも1つの実施例では、レジスタ・ファイル1558は、各機能ユニットがレジスタ・ファイル1558の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも1つの実施例では、レジスタ・ファイル1558は、グラフィックス・マルチプロセッサ1596によって実行されている異なるスレッド・グループ間で分割される。
少なくとも1つの実施例では、GPGPUコア1562は、各々、グラフィックス・マルチプロセッサ1596の命令を実行するために使用されるFPU及び/又は整数ALUを含むことができる。GPGPUコア1562は、同様のアーキテクチャであることも異なるアーキテクチャであることもある。少なくとも1つの実施例では、GPGPUコア1562の第1の部分は、単精度FPU及び整数ALUを含み、GPGPUコア1562の第2の部分は、倍精度FPUを含む。少なくとも1つの実施例では、FPUは、浮動小数点算術のためのIEEE754-2008規格を実装することができるか、又は、可変精度の浮動小数点算術を有効にすることができる。少なくとも1つの実施例では、グラフィックス・マルチプロセッサ1596は、追加として、矩形コピー動作又はピクセル・ブレンディング動作などの特定の機能を実施するための1つ又は複数の固定機能ユニット又は特別機能ユニットを含むことができる。少なくとも1つの実施例では、GPGPUコア1562のうちの1つ又は複数は、固定又は特別機能論理をも含むことができる。少なくとも1つの実施例では、GPGPUコア1562は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、GPGPUコア1562は、データの複数のセットに対して単一の命令を実施することが可能なSIMD論理を含む。少なくとも1つの実施例では、GPGPUコア1562は、SIMD4、SIMD8、及びSIMD16命令を物理的に実行し、SIMD1、SIMD2、及びSIMD32命令を論理的に実行することができる。少なくとも1つの実施例では、GPGPUコア1562のためのSIMD命令は、シェーダ・コンパイラによるコンパイル時に生成されるか、或いは、単一プログラム複数データ(「SPMD」:single program multiple data)又はSIMTアーキテクチャのために書かれ、コンパイルされたプログラムを実行しているときに自動的に生成され得る。少なくとも1つの実施例では、SIMT実行モデルのために構成されたプログラムの複数のスレッドは、単一のSIMD命令を介して実行され得る。たとえば、少なくとも1つの実施例では、同じ又は同様の動作を実施する8つのSIMTスレッドが、単一のSIMD8論理ユニットを介して並列に実行され得る。
少なくとも1つの実施例では、メモリ及びキャッシュ相互接続1568は、グラフィックス・マルチプロセッサ1596の各機能ユニットをレジスタ・ファイル1558及び共有メモリ1570に接続する相互接続ネットワークである。少なくとも1つの実施例では、メモリ及びキャッシュ相互接続1568は、LSU1566が、共有メモリ1570とレジスタ・ファイル1558との間でロード動作及びストア動作を実装することを可能にするクロスバー相互接続である。少なくとも1つの実施例では、レジスタ・ファイル1558は、GPGPUコア1562と同じ周波数において動作することができ、したがって、GPGPUコア1562とレジスタ・ファイル1558との間のデータ転送は、非常に低いレイテンシである。少なくとも1つの実施例では、共有メモリ1570は、グラフィックス・マルチプロセッサ1596内の機能ユニット上で実行するスレッド間の通信を可能にするために使用され得る。少なくとも1つの実施例では、キャッシュ・メモリ1572は、たとえば、機能ユニットとテクスチャ・ユニット1536との間で通信されるテクスチャ・データをキャッシュするために、データ・キャッシュとして使用され得る。少なくとも1つの実施例では、共有メモリ1570は、キャッシュされる管理されるプログラムとしても使用され得る。少なくとも1つの実施例では、GPGPUコア1562上で実行しているスレッドは、キャッシュ・メモリ1572内に記憶される自動的にキャッシュされるデータに加えて、データを共有メモリ内にプログラム的に記憶することができる。
少なくとも1つの実施例では、本明細書で説明されるような並列プロセッサ又はGPGPUは、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用GPU(GPGPU)機能を加速するために、ホスト/プロセッサ・コアに通信可能に結合される。少なくとも1つの実施例では、GPUは、バス又は他の相互接続(たとえば、PCIe又はNVLinkなどの高速相互接続)を介してホスト・プロセッサ/コアに通信可能に結合され得る。少なくとも1つの実施例では、GPUは、コアとして同じパッケージ又はチップに集積され、パッケージ又はチップの内部にあるプロセッサ・バス/相互接続を介してコアに通信可能に結合され得る。少なくとも1つの実施例では、GPUが接続される様式にかかわらず、プロセッサ・コアは、WD中に含まれているコマンド/命令のシーケンスの形態で、ワークをGPUに割り振り得る。少なくとも1つの実施例では、GPUは、次いで、これらのコマンド/命令を効率的に処理するための専用回路要素/論理を使用する。
図16は、少なくとも1つの実施例による、グラフィックス・プロセッサ1600を示す。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、リング相互接続1602と、パイプライン・フロント・エンド1604と、メディア・エンジン1637と、グラフィックス・コア1680A~1680Nとを含む。少なくとも1つの実施例では、リング相互接続1602は、グラフィックス・プロセッサ1600を、他のグラフィックス・プロセッサ又は1つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、マルチコア処理システム内に組み込まれた多くのプロセッサのうちの1つである。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、リング相互接続1602を介してコマンドのバッチを受信する。少なくとも1つの実施例では、入って来るコマンドは、パイプライン・フロント・エンド1604中のコマンド・ストリーマ1603によって解釈される。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、(1つ又は複数の)グラフィックス・コア1680A~1680Nを介して3Dジオメトリ処理及びメディア処理を実施するためのスケーラブル実行論理を含む。少なくとも1つの実施例では、3Dジオメトリ処理コマンドについて、コマンド・ストリーマ1603は、コマンドをジオメトリ・パイプライン1636に供給する。少なくとも1つの実施例では、少なくともいくつかのメディア処理コマンドについて、コマンド・ストリーマ1603は、コマンドをビデオ・フロント・エンド1634に供給し、ビデオ・フロント・エンド1634はメディア・エンジン1637と結合する。少なくとも1つの実施例では、メディア・エンジン1637は、ビデオ及び画像後処理のためのビデオ品質エンジン(「VQE」:Video Quality Engine)1630と、ハードウェア加速メディア・データ・エンコード及びデコードを提供するためのマルチ・フォーマット・エンコード/デコード(「MFX」:multi-format encode/decode)エンジン1633とを含む。少なくとも1つの実施例では、ジオメトリ・パイプライン1636及びメディア・エンジン1637は、各々、少なくとも1つのグラフィックス・コア1680Aによって提供されるスレッド実行リソースのための実行スレッドを生成する。
少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、各々が(コア・サブ・スライスと呼ばれることもある)複数のサブ・コア1650A~550N、1660A~1660Nを有する、(コア・スライスと呼ばれることもある)モジュール式グラフィックス・コア1680A~1680Nを特徴とするスケーラブル・スレッド実行リソースを含む。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、任意の数のグラフィックス・コア1680A~1680Nを有することができる。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、少なくとも第1のサブ・コア1650A及び第2のサブ・コア1660Aを有するグラフィックス・コア1680Aを含む。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、単一のサブ・コア(たとえば、サブ・コア1650A)をもつ低電力プロセッサである。少なくとも1つの実施例では、グラフィックス・プロセッサ1600は、各々が第1のサブ・コア1650A~1650Nのセットと第2のサブ・コア1660A~1660Nのセットとを含む、複数のグラフィックス・コア1680A~1680Nを含む。少なくとも1つの実施例では、第1のサブ・コア1650A~1650N中の各サブ・コアは、少なくとも、実行ユニット(「EU」:execution unit)1652A~1652N及びメディア/テクスチャ・サンプラ1654A~1654Nの第1のセットを含む。少なくとも1つの実施例では、第2のサブ・コア1660A~1660N中の各サブ・コアは、少なくとも、実行ユニット1662A~1662N及びサンプラ1664A~1664Nの第2のセットを含む。少なくとも1つの実施例では、各サブ・コア1650A~1650N、1660A~1660Nは、共有リソース1670A~1670Nのセットを共有する。少なくとも1つの実施例では、共有リソース1670は、共有キャッシュ・メモリ及びピクセル動作論理を含む。
図17は、少なくとも1つの実施例による、プロセッサ1700を示す。少なくとも1つの実施例では、プロセッサ1700は、限定はしないが、命令を実施するための論理回路を含み得る。少なくとも1つの実施例では、プロセッサ1700は、x86命令、AMR命令、ASICのための特別命令などを含む命令を実施し得る。少なくとも1つの実施例では、プロセッサ1710は、カリフォルニア州サンタクララのIntel Corporationからの、MMX(商標)技術で可能にされたマイクロプロセッサ中の64ビット幅MMXレジスタなど、パック・データを記憶するためのレジスタを含み得る。少なくとも1つの実施例では、整数形式と浮動小数点形式の両方で利用可能なMMXレジスタは、SIMD及びストリーミングSIMD拡張(「SSE」:streaming SIMD extension)命令を伴うパック・データ要素で動作し得る。少なくとも1つの実施例では、SSE2、SSE3、SSE4、AVX、又はそれ以上(総称して「SSEx」と呼ばれる)技術に関係する128ビット幅XMMレジスタは、そのようなパック・データ・オペランドを保持し得る。少なくとも1つの実施例では、プロセッサ1710は、CUDAプログラムを加速するための命令を実施し得る。少なくとも1つの実施例では、プロセッサ1700は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、プロセッサ1700は、実行されるべき命令をフェッチし、プロセッサ・パイプラインにおいて後で使用されるべき命令を準備するためのイン・オーダー・フロント・エンド(「フロント・エンド」)1701を含む。少なくとも1つの実施例では、フロント・エンド1701は、いくつかのユニットを含み得る。少なくとも1つの実施例では、命令プリフェッチャ1726が、メモリから命令をフェッチし、命令を命令デコーダ1728にフィードし、命令デコーダ1728が命令を復号又は解釈する。たとえば、少なくとも1つの実施例では、命令デコーダ1728は、受信された命令を、実行のために「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる(「マイクロ・オプ」又は「uop」とも呼ばれる)1つ又は複数のオペレーションに復号する。少なくとも1つの実施例では、命令デコーダ1728は、命令を、動作を実施するためにマイクロアーキテクチャによって使用され得るオプコード及び対応するデータ並びに制御フィールドに構文解析する。少なくとも1つの実施例では、トレース・キャッシュ1730は、復号されたuopを、実行のためにuopキュー1734においてプログラム順のシーケンス又はトレースにアセンブルし得る。少なくとも1つの実施例では、トレース・キャッシュ1730が複雑な命令に遭遇したとき、マイクロコードROM1732が、動作を完了するために必要なuopを提供する。
少なくとも1つの実施例では、単一のマイクロ・オプにコンバートされ得る命令もあれば、全動作を完了するためにいくつかのマイクロ・オプを必要とする命令もある。少なくとも1つの実施例では、命令を完了するために5つ以上のマイクロ・オプが必要とされる場合、命令デコーダ1728は、マイクロコードROM1732にアクセスして命令を実施し得る。少なくとも1つの実施例では、命令は、命令デコーダ1728における処理のために少数のマイクロ・オプに復号され得る。少なくとも1つの実施例では、命令は、動作を達成するためにいくつかのマイクロ・オプが必要とされる場合、マイクロコードROM1732内に記憶され得る。少なくとも1つの実施例では、トレース・キャッシュ1730は、マイクロコードROM1732からの1つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ(「PLA」:programmable logic array)を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを決定する。少なくとも1つの実施例では、マイクロコードROM1732が命令のためにマイクロ・オプのシーケンシングを終えた後、機械のフロント・エンド1701は、トレース・キャッシュ1730からマイクロ・オプをフェッチすることを再開し得る。
少なくとも1つの実施例では、アウト・オブ・オーダー実行エンジン(「アウト・オブ・オーダー・エンジン」)1703は、実行のために命令を準備し得る。少なくとも1つの実施例では、アウト・オブ・オーダー実行論理は、命令がパイプラインを下り、実行のためにスケジューリングされるときの性能を最適化するために、命令のフローを滑らかにし、それを並べ替えるためのいくつかのバッファを有する。アウト・オブ・オーダー実行エンジン1703は、限定はしないが、アロケータ/レジスタ・リネーマ1740と、メモリuopキュー1742と、整数/浮動小数点uopキュー1744と、メモリ・スケジューラ1746と、高速スケジューラ1702と、低速/汎用浮動小数点スケジューラ(「低速/汎用FP(floating point)スケジューラ」)1704と、単純浮動小数点スケジューラ(「単純FPスケジューラ」)1706とを含む。少なくとも1つの実施例では、高速スケジューラ1702、低速/汎用浮動小数点スケジューラ1704、及び単純浮動小数点スケジューラ1706は、総称して本明細書では「uopスケジューラ1702、1704、1706」とも呼ばれる。アロケータ/レジスタ・リネーマ1740は、実行するために各uopが必要とする機械バッファ及びリソースを割り振る。少なくとも1つの実施例では、アロケータ/レジスタ・リネーマ1740は、レジスタ・ファイルへのエントリ時に論理レジスタをリネームする。少なくとも1つの実施例では、アロケータ/レジスタ・リネーマ1740はまた、メモリ・スケジューラ1746及びuopスケジューラ1702、1704、1706の前の、2つのuopキュー、すなわちメモリ動作のためのメモリuopキュー1742及び非メモリ動作のための整数/浮動小数点uopキュー1744のうちの1つにおいて、各uopのためのエントリを割り振る。少なくとも1つの実施例では、uopスケジューラ1702、1704、1706は、uopがいつ実行する準備ができるかを、それらの従属入力レジスタ・オペランド・ソースが準備されていることと、それらの動作を完了するためにuopが必要とする実行リソースの利用可能性とに基づいて、決定する。少なくとも1つの実施例では、少なくとも1つの実施例の高速スケジューラ1702は、メイン・クロック・サイクルの半分ごとにスケジューリングし得、低速/汎用浮動小数点スケジューラ1704及び単純浮動小数点スケジューラ1706は、メイン・プロセッサ・クロック・サイクル当たりに1回スケジューリングし得る。少なくとも1つの実施例では、uopスケジューラ1702、1704、1706は、実行のためにuopをスケジューリングするためにディスパッチ・ポートを調停する。
少なくとも1つの実施例では、実行ブロック1711は、限定はしないが、整数レジスタ・ファイル/バイパス・ネットワーク1708と、浮動小数点レジスタ・ファイル/バイパス・ネットワーク(「FPレジスタ・ファイル/バイパス・ネットワーク」)1710と、アドレス生成ユニット(「AGU」:address generation unit)1712及び1714と、高速ALU1716及び1718と、低速ALU1720と、浮動小数点ALU(「FP」)1722と、浮動小数点移動ユニット(「FP移動」)1724とを含む。少なくとも1つの実施例では、整数レジスタ・ファイル/バイパス・ネットワーク1708及び浮動小数点レジスタ・ファイル/バイパス・ネットワーク1710は、本明細書では「レジスタ・ファイル1708、1710」とも呼ばれる。少なくとも1つの実施例では、AGU1712及び1714、高速ALU1716及び1718、低速ALU1720、浮動小数点ALU1722、及び浮動小数点移動ユニット1724は、本明細書では「実行ユニット1712、1714、1716、1718、1720、1722、及び1724」とも呼ばれる。少なくとも1つの実施例では、実行ブロックは、限定はしないが、(ゼロを含む)任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含み得る。
少なくとも1つの実施例では、レジスタ・ファイル1708、1710は、uopスケジューラ1702、1704、1706と、実行ユニット1712、1714、1716、1718、1720、1722、及び1724との間に配置され得る。少なくとも1つの実施例では、整数レジスタ・ファイル/バイパス・ネットワーク1708は、整数演算を実施する。少なくとも1つの実施例では、浮動小数点レジスタ・ファイル/バイパス・ネットワーク1710は、浮動小数点演算を実施する。少なくとも1つの実施例では、レジスタ・ファイル1708、1710の各々は、限定はしないが、バイパス・ネットワークを含み得、バイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属uopにバイパス又はフォワーディングし得る。少なくとも1つの実施例では、レジスタ・ファイル1708、1710は、互いにデータを通信し得る。少なくとも1つの実施例では、整数レジスタ・ファイル/バイパス・ネットワーク1708は、限定はしないが、2つの別個のレジスタ・ファイル、すなわち低次32ビットのデータのための1つのレジスタ・ファイル及び高次32ビットのデータのための第2のレジスタ・ファイルを含み得る。少なくとも1つの実施例では、浮動小数点命令は、通常、64~128ビット幅のオペランドを有するので、浮動小数点レジスタ・ファイル/バイパス・ネットワーク1710は、限定はしないが、128ビット幅のエントリを含み得る。
少なくとも1つの実施例では、実行ユニット1712、1714、1716、1718、1720、1722、1724は、命令を実行し得る。少なくとも1つの実施例では、レジスタ・ファイル1708、1710は、マイクロ命令が実行する必要がある整数及び浮動小数点データ・オペランド値を記憶する。少なくとも1つの実施例では、プロセッサ1700は、限定はしないが、任意の数及び組合せの実行ユニット1712、1714、1716、1718、1720、1722、1724を含み得る。少なくとも1つの実施例では、浮動小数点ALU1722及び浮動小数点移動ユニット1724は、浮動小数点、MMX、SIMD、AVX及びSSE、又は他の演算を実行し得る。少なくとも1つの実施例では、浮動小数点ALU1722は、限定はしないが、除算、平方根、及び剰余マイクロ・オプを実行するための64ビットずつの浮動小数点デバイダを含み得る。少なくとも1つの実施例では、浮動小数点値を伴う命令は、浮動小数点ハードウェアで対処され得る。少なくとも1つの実施例では、ALU演算は、高速ALU1716、1718に渡され得る。少なくとも1つの実施例では、高速ALU1716、1718は、クロック・サイクルの半分の実効レイテンシを伴う高速演算を実行し得る。少なくとも1つの実施例では、低速ALU1720は、限定はしないが、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを含み得るので、ほとんどの複雑な整数演算は低速ALU1720に進む。少なくとも1つの実施例では、メモリ・ロード/ストア動作は、AGU1712、1714によって実行され得る。少なくとも1つの実施例では、高速ALU1716、高速ALU1718、及び低速ALU1720は、64ビット・データ・オペランドで整数演算を実施し得る。少なくとも1つの実施例では、高速ALU1716、高速ALU1718、及び低速ALU1720は、16、32、128、256などを含む様々なデータ・ビット・サイズをサポートするために実装され得る。少なくとも1つの実施例では、浮動小数点ALU1722及び浮動小数点移動ユニット1724は、様々なビット幅を有する様々なオペランドをサポートするために実装され得る。少なくとも1つの実施例では、浮動小数点ALU1722及び浮動小数点移動ユニット1724は、SIMD及びマルチメディア命令と併せた128ビット幅のパック・データ・オペランドで動作し得る。
少なくとも1つの実施例では、uopスケジューラ1702、1704、1706は、親ロードが実行し終える前に従属演算をディスパッチする。少なくとも1つの実施例では、uopは、プロセッサ1700において投機的にスケジューリング及び実行され得るので、プロセッサ1700は、メモリ・ミスに対処するための論理をも含み得る。少なくとも1つの実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータをもつスケジューラを通り過ぎたパイプラインにおいて、進行中の従属演算があり得る。少なくとも1つの実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも1つの実施例では、従属演算は、リプレイされる必要があり得、独立した演算は、完了することを可能にされ得る。少なくとも1つの実施例では、プロセッサの少なくとも1つの実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計され得る。
少なくとも1つの実施例では、「レジスタ」という用語は、オペランドを識別するための命令の一部として使用され得るオンボード・プロセッサ・ストレージ・ロケーションを指し得る。少なくとも1つの実施例では、レジスタは、(プログラマの視点から見て)プロセッサの外部から使用可能であり得るものであり得る。少なくとも1つの実施例では、レジスタは、特定のタイプの回路に限定されないことがある。むしろ、少なくとも1つの実施例では、レジスタは、データを記憶し、データを提供し、本明細書で説明される機能を実施し得る。少なくとも1つの実施例では、本明細書で説明されるレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に割り振られる物理レジスタ、専用物理レジスタと動的に割り振られる物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路要素によって実装され得る。少なくとも1つの実施例では、整数レジスタは、32ビット整数データを記憶する。少なくとも1つの実施例のレジスタ・ファイルは、パック・データのための8つのマルチメディアSIMDレジスタをも含んでいる。
図18は、少なくとも1つの実施例による、プロセッサ1800を示す。少なくとも1つの実施例では、プロセッサ1800は、限定はしないが、1つ又は複数のプロセッサ・コア(「コア」)1802A~1802Nと、統合されたメモリ・コントローラ1814と、統合されたグラフィックス・プロセッサ1808とを含む。少なくとも1つの実施例では、プロセッサ1800は、破線ボックスによって表される追加プロセッサ・コア1802Nまでの追加コアを含むことができる。少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nの各々は、1つ又は複数の内部キャッシュ・ユニット1804A~1804Nを含む。少なくとも1つの実施例では、各プロセッサ・コアはまた、1つ又は複数の共有キャッシュ・ユニット1806へのアクセスを有する。少なくとも1つの実施例では、プロセッサ1800は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、内部キャッシュ・ユニット1804A~1804Nと共有キャッシュ・ユニット1806とは、プロセッサ1800内のキャッシュ・メモリ階層を表す。少なくとも1つの実施例では、キャッシュ・メモリ・ユニット1804A~1804Nは、各プロセッサ・コア内の命令及びデータ・キャッシュの少なくとも1つのレベル、及びL2、L3、レベル4(「L4」)などの共有中間レベル・キャッシュの1つ又は複数のレベル、又はキャッシュの他のレベルを含み得、ここで、外部メモリの前の最高レベルのキャッシュは、LLCとして分類される。少なくとも1つの実施例では、キャッシュ・コヒーレンシ論理は、様々なキャッシュ・ユニット1806及び1804A~1804N間でコヒーレンシを維持する。
少なくとも1つの実施例では、プロセッサ1800は、1つ又は複数のバス・コントローラ・ユニット1816とシステム・エージェント・コア1810とのセットをも含み得る。少なくとも1つの実施例では、1つ又は複数のバス・コントローラ・ユニット1816は、1つ又は複数のPCI又はPCIエクスプレス・バスなどの周辺バスのセットを管理する。少なくとも1つの実施例では、システム・エージェント・コア1810は、様々なプロセッサ構成要素のための管理機能性を提供する。少なくとも1つの実施例では、システム・エージェント・コア1810は、様々な外部メモリ・デバイス(図示せず)へのアクセスを管理するための1つ又は複数の統合されたメモリ・コントローラ1814を含む。
少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nのうちの1つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも1つの実施例では、システム・エージェント・コア1810は、マルチスレッド処理中にプロセッサ・コア1802A~1802Nを協調させ、動作させるための構成要素を含む。少なくとも1つの実施例では、システム・エージェント・コア1810は、追加として、電力制御ユニット(「PCU」:power control unit)を含み得、PCUは、プロセッサ・コア1802A~1802N及びグラフィックス・プロセッサ1808の1つ又は複数の電力状態を調節するための論理及び構成要素を含む。
少なくとも1つの実施例では、プロセッサ1800は、追加として、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ1808を含む。少なくとも1つの実施例では、グラフィックス・プロセッサ1808は、共有キャッシュ・ユニット1806、及び1つ又は複数の統合されたメモリ・コントローラ1814を含むシステム・エージェント・コア1810と結合する。少なくとも1つの実施例では、システム・エージェント・コア1810は、1つ又は複数の結合されたディスプレイへのグラフィックス・プロセッサ出力を駆動するためのディスプレイ・コントローラ1811をも含む。少なくとも1つの実施例では、ディスプレイ・コントローラ1811はまた、少なくとも1つの相互接続を介してグラフィックス・プロセッサ1808と結合された別個のモジュールであり得るか、又はグラフィックス・プロセッサ1808内に組み込まれ得る。
少なくとも1つの実施例では、プロセッサ1800の内部構成要素を結合するために、リング・ベースの相互接続ユニット1812が使用される。少なくとも1つの実施例では、ポイントツーポイント相互接続、切替え相互接続、又は他の技法などの代替相互接続ユニットが使用され得る。少なくとも1つの実施例では、グラフィックス・プロセッサ1808は、I/Oリンク1813を介してリング相互接続1812と結合する。
少なくとも1つの実施例では、I/Oリンク1813は、様々なプロセッサ構成要素と、eDRAMモジュールなどの高性能組み込みメモリ・モジュール1818との間の通信を容易にするオン・パッケージI/O相互接続を含む、複数の種類のI/O相互接続のうちの少なくとも1つを表す。少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nの各々と、グラフィックス・プロセッサ1808とは、共有LLCとして組み込みメモリ・モジュール1818を使用する。
少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nは、ISAという観点から異種であり、ここで、プロセッサ・コア1802A~1802Nのうちの1つ又は複数は、共通の命令セットを実行し、プロセッサ・コア1802A~18-02Nのうちの1つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも1つの実施例では、プロセッサ・コア1802A~1802Nは、マイクロアーキテクチャという観点から異種であり、ここで、電力消費量が比較的高い1つ又は複数のコアは、電力消費量がより低い1つ又は複数のコアと結合する。少なくとも1つの実施例では、プロセッサ1800は、1つ又は複数のチップ上に、又はSoC集積回路として実装され得る。
図19は、説明される少なくとも1つの実施例による、グラフィックス・プロセッサ・コア1900を示す。少なくとも1つの実施例では、グラフィックス・プロセッサ・コア1900は、グラフィックス・コア・アレイ内に含まれる。少なくとも1つの実施例では、コア・スライスと呼ばれることもあるグラフィックス・プロセッサ・コア1900は、モジュール式グラフィックス・プロセッサ内の1つ又は複数のグラフィックス・コアであり得る。少なくとも1つの実施例では、グラフィックス・プロセッサ・コア1900は、1つのグラフィックス・コア・スライスの例示であり、本明細書で説明されるグラフィックス・プロセッサは、ターゲット電力及び性能エンベロープに基づいて、複数のグラフィックス・コア・スライスを含み得る。少なくとも1つの実施例では、各グラフィックス・コア1900は、汎用及び固定機能論理のモジュール式ブロックを含む、サブ・スライスとも呼ばれる複数のサブ・コア1901A~1901Fと結合された固定機能ブロック1930を含むことができる。少なくとも1つの実施例では、グラフィックス・プロセッサ・コア1900は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施するためのものである。
少なくとも1つの実施例では、固定機能ブロック1930は、たとえば、より低い性能及び/又はより低い電力のグラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ1900中のすべてのサブ・コアによって共有され得るジオメトリ/固定機能パイプライン1936を含む。少なくとも1つの実施例では、ジオメトリ/固定機能パイプライン1936は、3D固定機能パイプラインと、ビデオ・フロント・エンド・ユニットと、スレッド・スポーナ(spawner)及びスレッド・ディスパッチャと、統一リターン・バッファを管理する統一リターン・バッファ・マネージャとを含む。
少なくとも1つの実施例では、固定機能ブロック1930はまた、グラフィックスSoCインターフェース1937と、グラフィックス・マイクロコントローラ1938と、メディア・パイプライン1939とを含む。グラフィックスSoCインターフェース1937は、グラフィックス・コア1900と、SoC集積回路内の他のプロセッサ・コアとの間のインターフェースを提供する。少なくとも1つの実施例では、グラフィックス・マイクロコントローラ1938は、スレッド・ディスパッチと、スケジューリングと、プリエンプションとを含む、グラフィックス・プロセッサ1900の様々な機能を管理するように構成可能であるプログラマブル・サブ・プロセッサである。少なくとも1つの実施例では、メディア・パイプライン1939は、画像及びビデオ・データを含むマルチメディア・データの復号、符号化、前処理、及び/又は後処理を容易にするための論理を含む。少なくとも1つの実施例では、メディア・パイプライン1939は、サブ・コア1901~1901F内のコンピュート論理又はサンプリング論理への要求を介して、メディア動作を実装する。
少なくとも1つの実施例では、SoCインターフェース1937は、グラフィックス・コア1900が汎用アプリケーション・プロセッサ・コア(たとえば、CPU)及び/又はSoC内の他の構成要素と通信することを可能にし、SoC内の他の構成要素は、共有LLCメモリ、システムRAM、及び/或いは組み込みオンチップ又はオンパッケージDRAMなどのメモリ階層要素を含む。少なくとも1つの実施例では、SoCインターフェース1937はまた、カメラ撮像パイプラインなど、SoC内の固定機能デバイスとの通信を可能にすることができ、グラフィックス・コア1900とSoC内のCPUとの間で共有され得るグローバル・メモリ・アトミックの使用を可能にし、及び/又はそれを実装する。少なくとも1つの実施例では、SoCインターフェース1937はまた、グラフィックス・コア1900のための電力管理制御を実装し、グラフィック・コア1900のクロック・ドメインとSoC内の他のクロック・ドメインとの間のインターフェースを可能にすることができる。少なくとも1つの実施例では、SoCインターフェース1937は、グラフィックス・プロセッサ内の1つ又は複数のグラフィックス・コアの各々にコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャからのコマンド・バッファの受信を可能にする。少なくとも1つの実施例では、コマンド及び命令は、メディア動作が実施されるべきであるときにメディア・パイプライン1939にディスパッチされ得るか、又は、グラフィックス処理動作が実施されるべきであるときにジオメトリ及び固定機能パイプライン(たとえば、ジオメトリ及び固定機能パイプライン1936、ジオメトリ及び固定機能パイプライン1914)にディスパッチされ得る。
少なくとも1つの実施例では、グラフィックス・マイクロコントローラ1938は、グラフィックス・コア1900のための様々なスケジューリング及び管理タスクを実施するように構成され得る。少なくとも1つの実施例では、グラフィックス・マイクロコントローラ1938は、サブ・コア1901A~1901F内の実行ユニット(EU)アレイ1902A~1902F、1904A~1904F内の様々なグラフィックス並列エンジンに対して、グラフィックスを実施し、及び/又はワークロード・スケジューリングを算出することができる。少なくとも1つの実施例では、グラフィックス・コア1900を含むSoCのCPUコア上で実行しているホスト・ソフトウェアは、複数のグラフィック・プロセッサ・ドアベルのうちの1つにワークロードをサブミットすることができ、このドアベルが、適切なグラフィックス・エンジンに対するスケジューリング動作を呼び出す。少なくとも1つの実施例では、スケジューリング動作は、どのワークロードを次に稼働すべきかを決定することと、ワークロードをコマンド・ストリーマにサブミットすることと、エンジン上で稼働している既存のワークロードをプリエンプトすることと、ワークロードの進行を監視することと、ワークロードが完了したときにホスト・ソフトウェアに通知することとを含む。少なくとも1つの実施例では、グラフィックス・マイクロコントローラ1938はまた、グラフィックス・コア1900のための低電力又はアイドル状態を促進して、オペレーティング・システム及び/又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態移行にわたってグラフィックス・コア1900内のレジスタを保存及び復元するアビリティをグラフィックス・コア1900に提供することができる。
少なくとも1つの実施例では、グラフィックス・コア1900は、示されているサブ・コア1901A~1901Fよりも多い又はそれよりも少ない、N個までのモジュール式サブ・コアを有し得る。N個のサブ・コアの各セットについて、少なくとも1つの実施例では、グラフィックス・コア1900はまた、共有機能論理1910、共有及び/又はキャッシュ・メモリ1912、ジオメトリ/固定機能パイプライン1914、並びに様々なグラフィックスを加速し、処理動作を算出するための追加の固定機能論理1916を含むことができる。少なくとも1つの実施例では、共有機能論理1910は、グラフィックス・コア1900内の各N個のサブ・コアによって共有され得る論理ユニット(たとえば、サンプラ、数理、及び/又はスレッド間通信論理)を含むことができる。共有及び/又はキャッシュ・メモリ1912は、グラフィックス・コア1900内のN個のサブ・コア1901A~1901FのためのLLCであり得、また、複数のサブ・コアによってアクセス可能である共有メモリとして働き得る。少なくとも1つの実施例では、ジオメトリ/固定機能パイプライン1914は、固定機能ブロック1930内のジオメトリ/固定機能パイプライン1936の代わりに含まれ得、同じ又は同様の論理ユニットを含むことができる。
少なくとも1つの実施例では、グラフィックス・コア1900は、グラフィックス・コア1900による使用のための様々な固定機能加速論理を含むことができる追加の固定機能論理1916を含む。少なくとも1つの実施例では、追加の固定機能論理1916は、位置限定シェーディング(position only shading)において使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、少なくとも2つのジオメトリ・パイプラインが存在するが、ジオメトリ/固定機能パイプライン1916、1936内の完全ジオメトリ・パイプライン、並びに選別パイプライン(cull pipeline)においてであり、選別パイプラインは、追加の固定機能論理1916内に含まれ得る追加のジオメトリ・パイプラインである。少なくとも1つの実施例では、選別パイプラインは、完全ジオメトリ・パイプラインの縮小版である。少なくとも1つの実施例では、完全パイプライン及び選別パイプラインは、アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。少なくとも1つの実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、これは、いくつかのインスタンスにおいてシェーディングがより早く完了することを可能にする。たとえば、少なくとも1つの実施例では、選別パイプラインは、ピクセルの、フレーム・バッファへのラスタ化及びレンダリングを実施することなしに、頂点の位置属性をフェッチし、シェーディングするので、追加の固定機能論理1916内の選別パイプライン論理は、メイン・アプリケーションと並列で位置シェーダを実行することができ、全体的に完全パイプラインよりも速く臨界結果(critical result)を生成する。少なくとも1つの実施例では、選別パイプラインは、生成された臨界結果を使用して、すべての三角形について、それらの三角形が選別されているかどうかにかかわらず、可視性情報を算出することができる。少なくとも1つの実施例では、(このインスタンスではリプレイ・パイプラインと呼ばれることがある)完全パイプラインは、可視性情報を消費して、選別された三角形を飛ばして可視三角形のみをシェーディングすることができ、可視三角形は、最終的にラスタ化フェーズに渡される。
少なくとも1つの実施例では、追加の固定機能論理1916はまた、CUDAプログラムを加速するために、固定機能行列乗算論理など、汎用処理加速論理を含むことができる。
少なくとも1つの実施例では、各グラフィックス・サブ・コア1901A~1901Fは、実行リソースのセットを含み、実行リソースのセットは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムによる要求に応答して、グラフィックス動作、メディア動作、及びコンピュート動作を実施するために使用され得る。少なくとも1つの実施例では、グラフィックス・サブ・コア1901A~1901Fは、複数のEUアレイ1902A~1902F、1904A~1904Fと、スレッド・ディスパッチ及びスレッド間通信(「TD/IC」:thread dispatch and inter-thread communication)論理1903A~1903Fと、3D(たとえば、テクスチャ)サンプラ1905A~1905Fと、メディア・サンプラ1906A~1906Fと、シェーダ・プロセッサ1907A~1907Fと、共有ローカル・メモリ(「SLM」:shared local memory)1908A~1908Fとを含む。EUアレイ1902A~1902F、1904A~1904Fは、各々、複数の実行ユニットを含み、複数の実行ユニットは、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含むグラフィックス動作、メディア動作、又はコンピュート動作のサービスにおいて浮動小数点及び整数/固定小数点論理演算を実施することが可能なGPGPUである。少なくとも1つの実施例では、TD/IC論理1903A~1903Fは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実施し、サブ・コアの実行ユニット上で実行しているスレッド間の通信を容易にする。少なくとも1つの実施例では、3Dサンプラ1905A~1905Fは、テクスチャ又は他の3Dグラフィックス関係データをメモリに読み取ることができる。少なくとも1つの実施例では、3Dサンプラは、所与のテクスチャに関連する、構成されたサンプル状態及びテクスチャ・フォーマットに基づいて、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも1つの実施例では、メディア・サンプラ1906A~1906Fは、メディア・データに関連するタイプ及びフォーマットに基づいて、同様の読取り動作を実施することができる。少なくとも1つの実施例では、各グラフィックス・サブ・コア1901A~1901Fは、代替的に統一3D及びメディア・サンプラを含むことができる。少なくとも1つの実施例では、サブ・コア1901A~1901Fの各々内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドがオンチップ・メモリの共通のプールを使用して実行することを可能にするために、各サブ・コア内の共有ローカル・メモリ1908A~1908Fを利用することができる。
図20は、少なくとも1つの実施例による、並列処理ユニット(「PPU」)2000を示す。少なくとも1つの実施例では、PPU2000は、PPU2000によって実行された場合、PPU2000に、本明細書で説明されるプロセス及び技法のいくつか又はすべてを実施させる機械可読コードで構成される。少なくとも1つの実施例では、PPU2000はマルチスレッド・プロセッサであり、マルチスレッド・プロセッサは、1つ又は複数の集積回路デバイス上で実装され、(機械可読命令又は単に命令とも呼ばれる)コンピュータ可読命令を複数のスレッド上で並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも1つの実施例では、スレッドは、実行のスレッドを指し、PPU2000によって実行されるように構成された命令のセットのインスタンス化である。少なくとも1つの実施例では、PPU2000は、LCDデバイスなどのディスプレイ・デバイス上での表示のための2次元(「2D」)画像データを生成するために3次元(「3D」)グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたGPUである。少なくとも1つの実施例では、PPU2000は、線形代数演算及び機械学習演算などの算出を実施するために利用される。図20は、単に例示を目的とした例示的な並列プロセッサを示し、少なくとも1つの実施例において実装され得るプロセッサ・アーキテクチャの非限定的な実例として解釈されるべきである。少なくとも1つの実施例では、PPU2000は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、1つ又は複数のPPU2000は、高性能コンピューティング(「HPC」:High Performance Computing)、データ・センタ、及び機械学習アプリケーションを加速するように構成される。少なくとも1つの実施例では、1つ又は複数のPPU2000は、CUDAプログラムを加速するように構成される。少なくとも1つの実施例では、PPU2000は、限定はしないが、I/Oユニット2006と、フロント・エンド・ユニット2010と、スケジューラ・ユニット2012と、ワーク分散ユニット2014と、ハブ2016と、クロスバー(「Xバー」:crossbar)2020と、1つ又は複数の汎用処理クラスタ(「GPC」:general processing cluster)2018と、1つ又は複数のパーティション・ユニット(「メモリ・パーティション・ユニット」)2022とを含む。少なくとも1つの実施例では、PPU2000は、1つ又は複数の高速GPU相互接続(「GPU相互接続」)2008を介してホスト・プロセッサ又は他のPPU2000に接続される。少なくとも1つの実施例では、PPU2000は、システム・バス又は相互接続2002を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも1つの実施例では、PPU2000は、1つ又は複数のメモリ・デバイス(「メモリ」)2004を備えるローカル・メモリに接続される。少なくとも1つの実施例では、メモリ・デバイス2004は、限定はしないが、1つ又は複数のダイナミック・ランダム・アクセス・メモリ(DRAM)デバイスを含む。少なくとも1つの実施例では、1つ又は複数のDRAMデバイスは、複数のDRAMダイが各デバイス内で積層された高帯域幅メモリ(「HBM」)サブシステムとして構成され、及び/又は構成可能である。
少なくとも1つの実施例では、高速GPU相互接続2008は、ワイヤ・ベースのマルチ・レーン通信リンクを指し得、ワイヤ・ベースのマルチ・レーン通信リンクは、1つ又は複数のCPUと組み合わせられた1つ又は複数のPPU2000をスケーリングし、含めるために、システムによって使用され、PPU2000とCPUとの間のキャッシュ・コヒーレンス、及びCPUマスタリングをサポートする。少なくとも1つの実施例では、データ及び/又はコマンドは、高速GPU相互接続2008によって、ハブ2016を通して、1つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図20に明示的に示されていないこともある他の構成要素など、PPU2000の他のユニットに/から送信される。
少なくとも1つの実施例では、I/Oユニット2006は、システム・バス2002を介して(図20に示されていない)ホスト・プロセッサから通信(たとえば、コマンド、データ)を送受信するように構成される。少なくとも1つの実施例では、I/Oユニット2006は、システム・バス2002を介して直接、又は、メモリ・ブリッジなどの1つ又は複数の中間デバイスを通して、ホスト・プロセッサと通信する。少なくとも1つの実施例では、I/Oユニット2006は、システム・バス2002を介してPPU2000のうちの1つ又は複数などの1つ又は複数の他のプロセッサと通信し得る。少なくとも1つの実施例では、I/Oユニット2006は、PCIeインターフェースを、PCIeバスを介した通信のために実装する。少なくとも1つの実施例では、I/Oユニット2006は、外部デバイスと通信するためのインターフェースを実装する。
少なくとも1つの実施例では、I/Oユニット2006は、システム・バス2002を介して受信されたパケットを復号する。少なくとも1つの実施例では、少なくともいくつかのパケットは、PPU2000に様々な動作を実施させるように構成されたコマンドを表す。少なくとも1つの実施例では、I/Oユニット2006は、復号されたコマンドを、コマンドによって指定されるPPU2000の様々な他のユニットに送信する。少なくとも1つの実施例では、コマンドは、フロント・エンド・ユニット2010に送信され、及び/或いは、ハブ2016、又は(図20に明示的に示されていない)1つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなど、PPU2000の他のユニットに送信される。少なくとも1つの実施例では、I/Oユニット2006はPPU2000の様々な論理ユニット間で及びそれらの間で通信をルーティングするように構成される。
少なくとも1つの実施例では、ホスト・プロセッサによって実行されるプログラムは、処理のためにワークロードをPPU2000に提供するバッファにおいて、コマンド・ストリームを符号化する。少なくとも1つの実施例では、ワークロードは、命令と、それらの命令によって処理されるべきデータとを含む。少なくとも1つの実施例では、バッファは、ホスト・プロセッサとPPU2000の両方によってアクセス(たとえば、読取り/書込み)可能であるメモリ中の領域であり、ホスト・インターフェース・ユニットは、I/Oユニット2006によってシステム・バス2002を介して送信されるメモリ要求を介して、システム・バス2002に接続されたシステム・メモリ中のバッファにアクセスするように構成され得る。少なくとも1つの実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始に対するポインタをPPU2000に送信し、それにより、フロント・エンド・ユニット2010は、1つ又は複数のコマンド・ストリームに対するポインタを受信し、1つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをPPU2000の様々なユニットにフォワーディングする。
少なくとも1つの実施例では、フロント・エンド・ユニット2010は、1つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なGPC2018を構成するスケジューラ・ユニット2012に結合される。少なくとも1つの実施例では、スケジューラ・ユニット2012は、スケジューラ・ユニット2012によって管理される様々なタスクに関係する状態情報を追跡するように構成され、状態情報は、GPC2018のうちのどれにタスクが割り当てられるか、タスクがアクティブであるのか非アクティブであるのか、タスクに関連する優先レベルなどを示し得る。少なくとも1つの実施例では、スケジューラ・ユニット2012は、GPC2018のうちの1つ又は複数上での複数のタスクの実行を管理する。
少なくとも1つの実施例では、スケジューラ・ユニット2012は、GPC2018上での実行のためのタスクをディスパッチするように構成されたワーク分散ユニット2014に結合される。少なくとも1つの実施例では、ワーク分散ユニット2014は、スケジューラ・ユニット2012から受信された、スケジューリングされたタスクの数を追跡し、ワーク分散ユニット2014は、GPC2018の各々について、ペンディング・タスク・プール及びアクティブ・タスク・プールを管理する。少なくとも1つの実施例では、ペンディング・タスク・プールは、特定のGPC2018によって処理されるように割り当てられたタスクを含んでいるいくつかのスロット(たとえば、32個のスロット)を備え、アクティブ・タスク・プールは、GPC2018によってアクティブに処理されているタスクのためのいくつかのスロット(たとえば、4つのスロット)を備え得、それにより、GPC2018のうちの1つがタスクの実行を完了したとき、GPC2018のためのアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクのうちの1つが選択され、GPC2018上での実行のためにスケジューリングされる。少なくとも1つの実施例では、データ依存性が解決されるのを待っている間など、アクティブ・タスクがGPC2018上でアイドルである場合、アクティブ・タスクがGPC2018から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プール中の別のタスクが選択され、GPC2018上での実行のためにスケジューリングされる。
少なくとも1つの実施例では、ワーク分散ユニット2014は、Xバー2020を介して1つ又は複数のGPC2018と通信する。少なくとも1つの実施例では、Xバー2020は、PPU2000の多くのユニットをPPU2000の他のユニットに結合する相互接続ネットワークであり、ワーク分散ユニット2014を特定のGPC2018に結合するように構成され得る。少なくとも1つの実施例では、PPU2000の1つ又は複数の他のユニットも、ハブ2016を介してXバー2020に接続され得る。
少なくとも1つの実施例では、タスクはスケジューラ・ユニット2012によって管理され、ワーク分散ユニット2014によってGPC2018のうちの1つにディスパッチされる。GPC2018は、タスクを処理し、結果を生成するように構成される。少なくとも1つの実施例では、結果は、GPC2018内の他のタスクによって消費されるか、Xバー2020を介して異なるGPC2018にルーティングされるか、又はメモリ2004に記憶され得る。少なくとも1つの実施例では、結果は、パーティション・ユニット2022を介してメモリ2004に書き込まれ得、パーティション・ユニット2022は、メモリ2004への/からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも1つの実施例では、結果は、高速GPU相互接続2008を介して別のPPU2004又はCPUに送信され得る。少なくとも1つの実施例では、PPU2000は、限定はしないが、PPU2000に結合された別個の個別メモリ・デバイス2004の数に等しいU個のパーティション・ユニット2022を含む。
少なくとも1つの実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、ドライバ・カーネルは、ホスト・プロセッサ上で実行している1つ又は複数のアプリケーションがPPU2000上での実行のために動作をスケジューリングすることを可能にするアプリケーション・プログラミング・インターフェース(「API」)を実装する。少なくとも1つの実施例では、複数のコンピュート・アプリケーションが、PPU2000によって同時に実行され、PPU2000は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質(「QoS」:quality of service)、及び独立したアドレス空間を提供する。少なくとも1つの実施例では、アプリケーションは、PPU2000による実行のための1つ又は複数のタスクをドライバ・カーネルに生成させる(たとえば、APIコールの形態の)命令を生成し、ドライバ・カーネルは、PPU2000によって処理されている1つ又は複数のストリームにタスクを出力する。少なくとも1つの実施例では、各タスクは、ワープと呼ばれることがある関係スレッドの1つ又は複数のグループを備える。少なくとも1つの実施例では、ワープは、並列に実行され得る複数の関係スレッド(たとえば、32個のスレッド)を備える。少なくとも1つの実施例では、連動スレッドは、タスクを実施するための命令を含み、共有メモリを通してデータを交換する、複数のスレッドを指すことができる。
図21は、少なくとも1つの実施例による、GPC2100を示す。少なくとも1つの実施例では、GPC2100は、図20のGPC2018である。少なくとも1つの実施例では、各GPC2100は、限定はしないが、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各GPC2100は、限定はしないが、パイプライン・マネージャ2102、プレ・ラスタ演算ユニット(「PROP」)2104、ラスタ・エンジン2108、ワーク分散クロスバー(「WDX」:work distribution crossbar)2116、MMU2118、1つ又は複数のデータ処理クラスタ(「DPC」:Data Processing Cluster)2106、及びパーツの任意の好適な組合せを含む。
少なくとも1つの実施例では、GPC2100の動作は、パイプライン・マネージャ2102によって制御される。少なくとも1つの実施例では、パイプライン・マネージャ2102は、GPC2100に割り振られたタスクを処理するための1つ又は複数のDPC2106の構成を管理する。少なくとも1つの実施例では、パイプライン・マネージャ2102は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、1つ又は複数のDPC2106のうちの少なくとも1つを構成する。少なくとも1つの実施例では、DPC2106は、プログラマブル・ストリーミング・マルチプロセッサ(「SM」:streaming multiprocessor)2114上で頂点シェーダ・プログラムを実行するように構成される。少なくとも1つの実施例では、パイプライン・マネージャ2102は、ワーク分散ユニットから受信されたパケットを、GPC2100内の適切な論理ユニットにルーティングするように構成され、少なくとも1つの実施例では、いくつかのパケットは、PROP2104中の固定機能ハードウェア・ユニット及び/又はラスタ・エンジン2108にルーティングされ得、他のパケットは、プリミティブ・エンジン2112又はSM2114による処理のためにDPC2106にルーティングされ得る。少なくとも1つの実施例では、パイプライン・マネージャ2102は、コンピューティング・パイプラインを実装するように、DPC2106のうちの少なくとも1つを構成する。少なくとも1つの実施例では、パイプライン・マネージャ2102は、CUDAプログラムの少なくとも一部分を実行するように、DPC2106のうちの少なくとも1つを構成する。少なくとも1つの実施例では、GPC2100は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、PROPユニット2104は、ラスタ・エンジン2108及びDPC2106によって生成されたデータを、図20と併せて上記でより詳細に説明されたメモリ・パーティション・ユニット2022など、パーティション・ユニット中のラスタ演算(「ROP」:Raster Operation)ユニットにルーティングするように構成される。少なくとも1つの実施例では、PROPユニット2104は、色ブレンディングのための最適化を実施すること、ピクセル・データを組織化すること、アドレス・トランスレーションを実施することなどを行うように構成される。少なくとも1つの実施例では、ラスタ・エンジン2108は、限定はしないが、様々なラスタ演算を実施するように構成されたいくつかの固定機能ハードウェア・ユニットを含み、少なくとも1つの実施例では、ラスタ・エンジン2108は、限定はしないが、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びそれらの任意の好適な組合せを含む。少なくとも1つの実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何学的プリミティブに関連する平面方程式を生成し、平面方程式は、プリミティブについてのカバレージ情報(たとえば、タイルのためのx、yカバレージ・マスク)を生成するために粗いラスタ・エンジンに送信され、粗いラスタ・エンジンの出力は選別エンジンに送信され、zテストに落ちたプリミティブに関連するフラグメントが選別され、クリッピング・エンジンに送信され、視錐台の外側にあるフラグメントがクリップされる。少なくとも1つの実施例では、クリッピング及び選別を通過したフラグメントは、セットアップ・エンジンによって生成された平面方程式に基づいてピクセル・フラグメントについての属性を生成するために、細かいラスタ・エンジンに渡される。少なくとも1つの実施例では、ラスタ・エンジン2108の出力は、DPC2106内に実装されたフラグメント・シェーダによってなど、任意の好適なエンティティによって処理されるべきフラグメントを含む。
少なくとも1つの実施例では、GPC2100中に含まれる各DPC2106は、限定はしないが、Mパイプ・コントローラ(「MPC」:M-Pipe Controller)2110、プリミティブ・エンジン2112、1つ又は複数のSM2114、及びそれらの任意の好適な組合せを含む。少なくとも1つの実施例では、MPC2110は、DPC2106の動作を制御して、パイプライン・マネージャ2102から受信されたパケットを、DPC2106中の適切なユニットにルーティングする。少なくとも1つの実施例では、頂点に関連するパケットは、頂点に関連する頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン2112にルーティングされ、対照的に、シェーダ・プログラムに関連するパケットは、SM2114に送信され得る。
少なくとも1つの実施例では、SM2114は、限定はしないが、いくつかのスレッドによって表されたタスクを処理するように構成されたプログラマブル・ストリーミング・プロセッサを含む。少なくとも1つの実施例では、SM2114はマルチスレッド化され、スレッドの特定のグループからの複数のスレッド(たとえば、32個のスレッド)を同時に実行するように構成され、SIMDアーキテクチャを実装し、スレッドのグループ(たとえば、ワープ)中の各スレッドは、命令の同じセットに基づいてデータの異なるセットを処理するように構成される。少なくとも1つの実施例では、スレッドのグループ中のすべてのスレッドが同じ命令を実行する。少なくとも1つの実施例では、SM2114は、SIMTアーキテクチャを実装し、スレッドのグループ中の各スレッドは、命令の同じセットに基づいて、データの異なるセットを処理するように構成されるが、スレッドのグループ中の個々のスレッドは、実行中に発散することを可能にされる。少なくとも1つの実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各ワープについて維持されて、ワープ内のスレッドが発散するときのワープ間の同時処理及びワープ内の直列実行を可能にする。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各個々のスレッドについて維持されて、すべてのスレッド間、ワープ内及びワープ間での等しい同時処理を可能にする。少なくとも1つの実施例では、実行状態が、各個々のスレッドについて維持され、同じ命令を実行しているスレッドが、より良い効率性のために収束され、並列に実行され得る。SM2114の少なくとも1つの実施例は、図22と併せてさらに詳細に説明される。
少なくとも1つの実施例では、MMU2118は、GPC2100とメモリ・パーティション・ユニット(たとえば、図20のパーティション・ユニット2022)との間のインターフェースを提供し、MMU2118は、仮想アドレスから物理アドレスへのトランスレーションと、メモリ保護と、メモリ要求の調停とを提供する。少なくとも1つの実施例では、MMU2118は、仮想アドレスからメモリ中の物理アドレスへのトランスレーションを実施するための1つ又は複数のトランスレーション・ルックアサイド・バッファ(TLB)を提供する。
図22は、少なくとも1つの実施例による、ストリーミング・マルチプロセッサ(「SM」)2200を示す。少なくとも1つの実施例では、SM2200は、図21のSM2114である。少なくとも1つの実施例では、SM2200は、限定はしないが、命令キャッシュ2202、1つ又は複数のスケジューラ・ユニット2204、レジスタ・ファイル2208、1つ又は複数の処理コア(「コア」)2210、1つ又は複数の特殊機能ユニット(「SFU」:special function unit)2212、1つ又は複数のLSU2214、相互接続ネットワーク2216、共有メモリ/L1キャッシュ2218、及びそれらの任意の好適な組合せを含む。少なくとも1つの実施例では、ワーク分散ユニットは、並列処理ユニット(PPU)のGPC上での実行のためにタスクをディスパッチし、各タスクは、GPC内の特定のデータ処理クラスタ(DPC)に割り振られ、タスクがシェーダ・プログラムに関連する場合、タスクはSM2200のうちの1つに割り振られる。少なくとも1つの実施例では、スケジューラ・ユニット2204は、ワーク分散ユニットからタスクを受信し、SM2200に割り当てられた1つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも1つの実施例では、スケジューラ・ユニット2204は、並列スレッドのワープとしての実行のためにスレッド・ブロックをスケジューリングし、各スレッド・ブロックは、少なくとも1つのワープを割り振られる。少なくとも1つの実施例では、各ワープは、スレッドを実行する。少なくとも1つの実施例では、スケジューラ・ユニット2204は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを割り振り、次いで、複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット(たとえば、処理コア2210、SFU2212、及びLSU2214)にディスパッチする。少なくとも1つの実施例では、SM2200は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、「連動グループ」は、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し得、プログラミング・モデルは、スレッドが通信している粒度を開発者が表現することを可能にして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも1つの実施例では、連動起動APIは、並列アルゴリズムの実行のためにスレッド・ブロックの間の同期をサポートする。少なくとも1つの実施例では、従来のプログラミング・モデルのAPIは、連動スレッドを同期するための単一の簡単な構築物、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア(たとえば、syncthreads()関数)を提供する。しかしながら、少なくとも1つの実施例では、プログラマは、スレッド・ブロックよりも小さい粒度においてスレッドのグループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形態で、より高い性能、設計のフレキシビリティ、及びソフトウェア再使用を可能にし得る。少なくとも1つの実施例では、連動グループは、プログラマが、サブ・ブロック粒度及びマルチ・ブロック粒度において、スレッドのグループを明示的に定義し、連動グループ中のスレッドに対する同期などの集合的な動作を実施することを可能にする。少なくとも1つの実施例では、サブ・ブロック粒度は、単一スレッドと同じくらい小さい。少なくとも1つの実施例では、プログラミング・モデルは、ソフトウェア境界にわたるクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数が、収束に関して仮定する必要なしにそれらのローカル・コンテキスト内で安全に同期することができる。少なくとも1つの実施例では、連動グループ・プリミティブは、限定はしないが、プロデューサ-コンシューマ並列性、日和見並列性(opportunistic parallelism)、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を含む、新しいパターンの連動並列性を可能にする。
少なくとも1つの実施例では、ディスパッチ・ユニット2206は、機能ユニットのうちの1つ又は複数に命令を送信するように構成され、スケジューラ・ユニット2204は、限定はしないが、同じワープからの2つの異なる命令が各クロック・サイクル中にディスパッチされることを可能にする2つのディスパッチ・ユニット2206を含む。少なくとも1つの実施例では、各スケジューラ・ユニット2204は、単一のディスパッチ・ユニット2206又は追加のディスパッチ・ユニット2206を含む。
少なくとも1つの実施例では、各SM2200は、少なくとも1つの実施例では、限定はしないが、SM2200の機能ユニットにレジスタのセットを提供するレジスタ・ファイル2208を含む。少なくとも1つの実施例では、レジスタ・ファイル2208は、各機能ユニットがレジスタ・ファイル2208の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも1つの実施例では、レジスタ・ファイル2208は、SM2200によって実行されている異なるワープ間で分割され、レジスタ・ファイル2208は、機能ユニットのデータ経路に接続されたオペランドのための一時的ストレージを提供する。少なくとも1つの実施例では、各SM2200は、限定はしないが、複数のL個の処理コア2210を含む。少なくとも1つの実施例では、SM2200は、限定はしないが、多数の(たとえば、128個以上の)個別の処理コア2210を含む。少なくとも1つの実施例では、各処理コア2210は、限定はしないが、完全にパイプライン化された、単精度の、倍精度の、及び/又は混合精度の処理ユニットを含み、これは、限定はしないが、浮動小数点算術論理ユニット及び整数算術論理ユニットを含む。少なくとも1つの実施例では、浮動小数点算術論理ユニットは、浮動小数点算術のためのIEEE754-2008規格を実装する。少なくとも1つの実施例では、処理コア2210は、限定はしないが、64個の単精度(32ビット)浮動小数点コアと、64個の整数コアと、32個の倍精度(64ビット)浮動小数点コアと、8つのテンソル・コアとを含む。
少なくとも1つの実施例では、テンソル・コアは、行列演算を実施するように構成される。少なくとも1つの実施例では、1つ又は複数のテンソル・コアは、処理コア2210中に含まれる。少なくとも1つの実施例では、テンソル・コアは、ニューラル・ネットワーク訓練及び推論のための畳み込み演算など、深層学習行列算術を実施するように構成される。少なくとも1つの実施例では、各テンソル・コアは、4×4の行列で動作し、行列の積和演算(matrix multiply and accumulate operation)D=A×B+Cを実施し、ここで、A、B、C、及びDは4×4の行列である。
少なくとも1つの実施例では、行列乗算入力A及びBは、16ビットの浮動小数点行列であり、和の行列C及びDは、16ビットの浮動小数点又は32ビットの浮動小数点行列である。少なくとも1つの実施例では、テンソル・コアは、32ビットの浮動小数点の和をもつ16ビットの浮動小数点入力データで動作する。少なくとも1つの実施例では、16ビットの浮動小数点乗算は、64個の演算を使用し、結果的に完全精度の積をもたらし、次いで、完全精度の積が、4×4×4の行列乗算についての他の中間積との32ビット浮動小数点加算を使用して加算される。少なくとも1つの実施例では、これらの小さい要素から築かれる、はるかに大きい2次元又はさらに高次元の行列演算を実施するために、テンソル・コアが使用される。少なくとも1つの実施例では、CUDA-C++APIなどのAPIは、CUDA-C++プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも1つの実施例では、CUDAレベルにおいて、ワープ・レベル・インターフェースは、ワープの32個のスレッドすべてに及ぶ16×16サイズの行列を仮定する。
少なくとも1つの実施例では、各SM2200は、限定はしないが、特殊関数(たとえば、属性評価、逆数平方根など)を実施するM個のSFU2212を含む。少なくとも1つの実施例では、SFU2212は、限定はしないが、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも1つの実施例では、SFU2212は、限定はしないが、テクスチャ・マップ・フィルタリング動作を実施するように構成されたテクスチャ・ユニットを含む。少なくとも1つの実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ(たとえば、テクセルの2Dアレイ)をロードして、SM2200によって実行されるシェーダ・プログラムにおける使用のためのサンプリングされたテクスチャ値を作り出すように構成される。少なくとも1つの実施例では、テクスチャ・マップは、共有メモリ/L1キャッシュ2218に記憶される。少なくとも1つの実施例では、テクスチャ・ユニットは、ミップ・マップ(たとえば、詳細のレベルが異なるテクスチャ・マップ)を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも1つの実施例では、各SM2200は、限定はしないが、2つのテクスチャ・ユニットを含む。
少なくとも1つの実施例では、各SM2200は、限定はしないが、共有メモリ/L1キャッシュ2218とレジスタ・ファイル2208との間でロード及びストア動作を実装するN個のLSU2214を含む。少なくとも1つの実施例では、各SM2200は、限定はしないが、相互接続ネットワーク2216を含み、相互接続ネットワーク2216は、機能ユニットの各々をレジスタ・ファイル2208に接続し、LSU2214をレジスタ・ファイル2208及び共有メモリ/L1キャッシュ2218に接続する。少なくとも1つの実施例では、相互接続ネットワーク2216はクロスバーであり、クロスバーは、機能ユニットのうちのいずれかをレジスタ・ファイル2208中のレジスタのうちのいずれかに接続し、LSU2214をレジスタ・ファイル2208と共有メモリ/L1キャッシュ2218中のメモリ・ロケーションとに接続するように構成され得る。
少なくとも1つの実施例では、共有メモリ/L1キャッシュ2218は、SM2200とプリミティブ・エンジンとの間及びSM2200中のスレッド間でのデータ・ストレージ及び通信を可能にするオンチップ・メモリのアレイである。少なくとも1つの実施例では、共有メモリ/L1キャッシュ2218は、限定はしないが、128KBのストレージ容量を備え、SM2200からパーティション・ユニットへの経路中にある。少なくとも1つの実施例では、共有メモリ/L1キャッシュ2218は、読取り及び書込みをキャッシュするために使用される。少なくとも1つの実施例では、共有メモリ/L1キャッシュ2218、L2キャッシュ、及びメモリのうちの1つ又は複数は、補助ストアである。
少なくとも1つの実施例では、データ・キャッシュと共有メモリ機能性とを単一のメモリ・ブロックに組み合わせることは、両方のタイプのメモリ・アクセスについて改善された性能を提供する。少なくとも1つの実施例では、容量は、共有メモリが容量の半分を使用するように構成され、テクスチャ及びロード/ストア動作が残りの容量を使用することができる場合など、共有メモリを使用しないプログラムによってキャッシュとして使用されるか、又は使用可能である。少なくとも1つの実施例では、共有メモリ/L1キャッシュ2218内の統合は、共有メモリ/L1キャッシュ2218が、データをストリーミングするための高スループット管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供することを可能にする。少なくとも1つの実施例では、汎用並列算出のために構成されたとき、グラフィックス処理と比較してより簡単な構成が使用され得る。少なくとも1つの実施例では、固定機能GPUがバイパスされて、はるかに簡単なプログラミング・モデルを作成する。少なくとも1つの実施例では及び汎用並列算出構成では、ワーク分散ユニットは、スレッドのブロックをDPCに直接割り当て、分散させる。少なくとも1つの実施例では、ブロック中のスレッドは、各スレッドが一意の結果を生成することを確実にするように、計算において一意のスレッドIDを使用して、同じプログラムを実行し、SM2200を使用してプログラムを実行し、計算を実施し、共有メモリ/L1キャッシュ2218を使用してスレッド間で通信し、LSU2214を使用して、共有メモリ/L1キャッシュ2218及びメモリ・パーティション・ユニットを通してグローバル・メモリを読み取り、書き込む。少なくとも1つの実施例では、汎用並列算出のために構成されたとき、SM2200は、DPC上で新しいワークを起動するためにスケジューラ・ユニット2204が使用することができるコマンドを書き込む。
少なくとも1つの実施例では、PPUは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン(たとえば、ワイヤレス・ハンドヘルド・デバイス)、PDA、デジタル・カメラ、車両、頭部装着型ディスプレイ、ハンドヘルド電子デバイスなどに含まれるか、又はそれらに結合される。少なくとも1つの実施例では、PPUは、単一の半導体基板上で具体化される。少なくとも1つの実施例では、PPUは、追加のPPU、メモリ、RISC CPU、MMU、デジタル-アナログ変換器(「DAC」:digital-to-analog converter)などの1つ又は複数の他のデバイスとともにSoC中に含まれる。
少なくとも1つの実施例では、PPUは、1つ又は複数のメモリ・デバイスを含むグラフィックス・カード上に含まれ得る。少なくとも1つの実施例では、グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のPCIeスロットとインターフェースするように構成され得る。少なくとも1つの実施例では、PPUは、マザーボードのチップセット中に含まれる統合されたGPU(「iGPU」:integrated GPU)であり得る。
汎用コンピューティングのためのソフトウェア構築物
以下の図は、限定はしないが、少なくとも1つの実施例を実装するための例示的なソフトウェア構築物を記載する。
図23は、少なくとも1つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す。少なくとも1つの実施例では、プログラミング・プラットフォームは、算出タスクを加速するために、コンピューティング・システム上のハードウェアを活用するためのプラットフォームである。少なくとも1つの実施例では、プログラミング・プラットフォームは、ライブラリ、コンパイラ指令、及び/又はプログラミング言語への拡張を通して、ソフトウェア開発者にとってアクセス可能であり得る。少なくとも1つの実施例では、プログラミング・プラットフォームは、限定はしないが、CUDA、Radeonオープン・コンピュート・プラットフォーム(「ROCm」:Radeon Open Compute Platform)、OpenCL(OpenCL(商標)はクロノス・グループ(Khronos group)によって開発される)、SYCL、又はIntel One APIであり得る。少なくとも1つの実施例では、ソフトウェア・スタック2300は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック2300は、アプリケーション2301のための実行環境を提供する。少なくとも1つの実施例では、アプリケーション2301は、ソフトウェア・スタック2300上で起動されることが可能な任意のコンピュータ・ソフトウェアを含み得る。少なくとも1つの実施例では、アプリケーション2301は、限定はしないが、人工知能(「AI」:artificial intelligence)/機械学習(「ML」:machine learning)アプリケーション、高性能コンピューティング(「HPC」)アプリケーション、仮想デスクトップ・インフラストラクチャ(「VDI」:virtual desktop infrastructure)、又はデータ・センタ・ワークロードを含み得る。
少なくとも1つの実施例では、アプリケーション2301及びソフトウェア・スタック2300は、ハードウェア2307上で稼働する。少なくとも1つの実施例では、ハードウェア2307は、1つ又は複数のGPU、CPU、FPGA、AIエンジン、及び/又はプログラミング・プラットフォームをサポートする他のタイプのコンピュート・デバイスを含み得る。CUDAの場合など、少なくとも1つの実施例では、ソフトウェア・スタック2300は、ベンダー固有であり、(1つ又は複数の)特定のベンダーからのデバイスのみと互換性があり得る。OpenCLの場合など、少なくとも1つの実施例では、ソフトウェア・スタック2300は、異なるベンダーからのデバイスで使用され得る。少なくとも1つの実施例では、ハードウェア2307は、アプリケーション・プログラミング・インターフェース(「API」)コールを介して算出タスクを実施するためにアクセスされ得るもう1つのデバイスに接続されたホストを含む。少なくとも1つの実施例では、限定はしないが、CPU(ただし、コンピュート・デバイスをも含み得る)及びそのメモリを含み得る、ハードウェア2307内のホストとは対照的に、ハードウェア2307内のデバイスは、限定はしないが、GPU、FPGA、AIエンジン、又は他のコンピュート・デバイス(ただし、CPUをも含み得る)及びそのメモリを含み得る。
少なくとも1つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック2300は、限定はしないが、いくつかのライブラリ2303と、ランタイム2305と、デバイス・カーネル・ドライバ2306とを含む。少なくとも1つの実施例では、ライブラリ2303の各々は、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含み得る。少なくとも1つの実施例では、ライブラリ2303は、限定はしないが、事前に書かれたコード及びサブルーチン、クラス、値、タイプ仕様、構成データ、ドキュメンテーション、ヘルプ・データ、並びに/又はメッセージ・テンプレートを含み得る。少なくとも1つの実施例では、ライブラリ2303は、1つ又は複数のタイプのデバイス上での実行のために最適化される機能を含む。少なくとも1つの実施例では、ライブラリ2303は、限定はしないが、デバイス上で数学、深層学習、及び/又は他のタイプの動作を実施するための機能を含み得る。少なくとも1つの実施例では、ライブラリ2303は、ライブラリ2303において実装される機能を公開する、1つ又は複数のAPIを含み得る、対応するAPI2302に関連する。
少なくとも1つの実施例では、アプリケーション2301は、図28~図30と併せて以下でより詳細に説明されるように、実行可能コードにコンパイルされるソース・コードとして書かれる。少なくとも1つの実施例では、アプリケーション2301の実行可能コードは、少なくとも部分的に、ソフトウェア・スタック2300によって提供される実行環境上で稼働し得る。少なくとも1つの実施例では、アプリケーション2301の実行中に、ホストとは対照的な、デバイス上で稼働する必要があるコードに達し得る。少なくとも1つの実施例では、そのような場合、デバイス上で必須のコードをロード及び起動するために、ランタイム2305がコールされ得る。少なくとも1つの実施例では、ランタイム2305は、アプリケーションS01の実行をサポートすることが可能である、任意の技術的に実現可能なランタイム・システムを含み得る。
少なくとも1つの実施例では、ランタイム2305は、(1つ又は複数の)API2304として示されている、対応するAPIに関連する、1つ又は複数のランタイム・ライブラリとして実装される。少なくとも1つの実施例では、そのようなランタイム・ライブラリのうちの1つ又は複数は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び/又は同期のための機能を含み得る。少なくとも1つの実施例では、メモリ管理機能は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、コピーし、並びにホスト・メモリとデバイス・メモリとの間でデータを転送するための機能を含み得る。少なくとも1つの実施例では、実行制御機能は、限定はしないが、デバイス上で機能(機能がホストからコール可能なグローバル機能であるとき、「カーネル」と呼ばれることがある)を起動し、デバイス上で実行されるべき所与の機能のためのランタイム・ライブラリによって維持されるバッファ中に属性値をセットするための機能を含み得る。
少なくとも1つの実施例では、ランタイム・ライブラリ及び対応する(1つ又は複数の)API2304は、任意の技術的に実現可能な様式で実装され得る。少なくとも1つの実施例では、ある(又は任意の数の)APIは、デバイスのきめ細かい制御のための機能の低レベルのセットを公開し得るが、別の(又は任意の数の)APIは、そのような機能のより高いレベルのセットを公開し得る。少なくとも1つの実施例では、高レベル・ランタイムAPIは、低レベルAPIの上に築かれ得る。少なくとも1つの実施例では、ランタイムAPIのうちの1つ又は複数は、言語依存しないランタイムAPIの上に階層化された言語固有APIであり得る。
少なくとも1つの実施例では、デバイス・カーネル・ドライバ2306は、基礎をなすデバイスとの通信を容易にするように構成される。少なくとも1つの実施例では、デバイス・カーネル・ドライバ2306は、(1つ又は複数の)API2304などのAPI及び/又は他のソフトウェアが依拠する、低レベル機能性を提供し得る。少なくとも1つの実施例では、デバイス・カーネル・ドライバ2306は、ランタイムにおいて中間表現(「IR」:intermediate representation)コードをバイナリ・コードにコンパイルするように構成され得る。少なくとも1つの実施例では、CUDAの場合、デバイス・カーネル・ドライバ2306は、ハードウェア固有でない並列スレッド実行(「PTX」:Parallel Thread Execution)IRコードを、(コンパイルされたバイナリ・コードのキャッシングを伴って)ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにコンパイルし得、これは、コードを「ファイナライズする」(finalizing)と呼ばれることもある。少なくとも1つの実施例では、そうすることは、ファイナライズされたコードがターゲット・デバイス上で稼働することを許し得、これは、ソース・コードが最初にPTXコードにコンパイルされたとき、存在していないことがある。代替的に、少なくとも1つの実施例では、デバイス・ソース・コードは、デバイス・カーネル・ドライバ2306がランタイムにおいてIRコードをコンパイルすることを必要とすることなしに、オフラインでバイナリ・コードにコンパイルされ得る。
図24は、少なくとも1つの実施例による、図23のソフトウェア・スタック2300のCUDA実装形態を示す。少なくとも1つの実施例では、アプリケーション2401が起動され得るCUDAソフトウェア・スタック2400は、CUDAライブラリ2403と、CUDAランタイム2405と、CUDAドライバ2407と、デバイス・カーネル・ドライバ2408とを含む。少なくとも1つの実施例では、CUDAソフトウェア・スタック2400は、ハードウェア2409上で実行し、ハードウェア2409はGPUを含み得、GPUは、CUDAをサポートし、カリフォルニア州サンタクララのNVIDIA Corporationによって開発される。少なくとも1つの実施例では、CUDAソフトウェア・スタック2400は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、アプリケーション2401、CUDAランタイム2405、及びデバイス・カーネル・ドライバ2408は、それぞれ、図23と併せて上記で説明された、アプリケーション2301、ランタイム2305、及びデバイス・カーネル・ドライバ2306と同様の機能性を実施し得る。少なくとも1つの実施例では、CUDAドライバ2407は、CUDAドライバAPI2406を実装するライブラリ(libcuda.so)を含む。少なくとも1つの実施例では、CUDAランタイム・ライブラリ(cudart)によって実装されるCUDAランタイムAPI2404と同様に、CUDAドライバAPI2406は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、同期、及び/又はグラフィックス相互運用性のための機能を公開し得る。少なくとも1つの実施例では、CUDAドライバAPI2406は、CUDAランタイムAPI2404が、暗黙的な初期化、(プロセスに類似する)コンテキスト管理、及び(動的にロードされたライブラリに類似する)モジュール管理を提供することによって、デバイス・コード管理を簡略化するという点で、CUDAランタイムAPI2404とは異なる。少なくとも1つの実施例では、高レベルCUDAランタイムAPI2404とは対照的に、CUDAドライバAPI2406は、特にコンテキスト及びモジュール・ローディングに関して、デバイスのよりきめ細かい制御を提供する低レベルAPIである。少なくとも1つの実施例では、CUDAドライバAPI2406は、CUDAランタイムAPI2404によって公開されないコンテキスト管理のための機能を公開し得る。少なくとも1つの実施例では、CUDAドライバAPI2406はまた、言語依存せず、たとえば、CUDAランタイムAPI2404に加えて、OpenCLをサポートする。さらに、少なくとも1つの実施例では、CUDAランタイム2405を含む開発ライブラリは、ユーザモードCUDAドライバ2407と(「ディスプレイ」ドライバと呼ばれることもある)カーネルモード・デバイス・ドライバ2408とを含むドライバ構成要素とは別個のものと見なされ得る。
少なくとも1つの実施例では、CUDAライブラリ2403は、限定はしないが、数学ライブラリ、深層学習ライブラリ、並列アルゴリズム・ライブラリ、及び/又は信号/画像/ビデオ処理ライブラリを含み得、それらをアプリケーション2401などの並列コンピューティング・アプリケーションが利用し得る。少なくとも1つの実施例では、CUDAライブラリ2403は、とりわけ、線形代数演算を実施するための基本線形代数サブプログラム(「BLAS」:Basic Linear Algebra Subprograms)の実装であるcuBLASライブラリ、高速フーリエ変換(「FFT」:fast Fourier transform)を算出するためのcuFFTライブラリ、及び乱数を生成するためのcuRANDライブラリなど、数学ライブラリを含み得る。少なくとも1つの実施例では、CUDAライブラリ2403は、とりわけ、深層ニューラル・ネットワークのためのプリミティブのcuDNNライブラリ及び高性能深層学習推論のためのTensorRTプラットフォームなど、深層学習ライブラリを含み得る。
図25は、少なくとも1つの実施例による、図23のソフトウェア・スタック2300のROCm実装形態を示す。少なくとも1つの実施例では、アプリケーション2501が起動され得るROCmソフトウェア・スタック2500は、言語ランタイム2503と、システム・ランタイム2505と、サンク(thunk)2507と、ROCmカーネル・ドライバ2508とを含む。少なくとも1つの実施例では、ROCmソフトウェア・スタック2500は、ハードウェア2509上で実行し、ハードウェア2509はGPUを含み得、GPUは、ROCmをサポートし、カリフォルニア州サンタクララのAMD Corporationによって開発される。少なくとも1つの実施例では、ROCmソフトウェア・スタック2500は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、アプリケーション2501は、図23と併せて上記で説明されたアプリケーション2301と同様の機能性を実施し得る。少なくとも1つの実施例では、さらに、言語ランタイム2503及びシステム・ランタイム2505は、図23と併せて上記で説明されたランタイム2305と同様の機能性を実施し得る。少なくとも1つの実施例では、言語ランタイム2503とシステム・ランタイム2505とは、システム・ランタイム2505が、ROCrシステム・ランタイムAPI2504を実装し、異種システム・アーキテクチャ(「HSA」:Heterogeneous System Architecture)ランタイムAPIを利用する、言語依存しないランタイムであるという点で、異なる。少なくとも1つの実施例では、HSAランタイムAPIは、とりわけ、メモリ管理、カーネルの設計されたディスパッチを介した実行制御、エラー対処、システム及びエージェント情報、並びにランタイム初期化及び停止(shutdown)のための機能を含む、AMD GPUにアクセスし、それと対話するためのインターフェースを公開する、シン(thin)・ユーザモードAPIである。少なくとも1つの実施例では、システム・ランタイム2505とは対照的に、言語ランタイム2503は、ROCrシステム・ランタイムAPI2504の上に階層化された言語固有ランタイムAPI2502の実装である。少なくとも1つの実施例では、言語ランタイムAPIは、限定はしないが、とりわけ、ポータビリティのための異種コンピュート・インターフェース(「HIP」)言語ランタイムAPI、異種コンピュート・コンパイラ(「HCC」:Heterogeneous Compute Compiler)言語ランタイムAPI、又はOpenCL APIを含み得る。特にHIP言語は、機能的に同様のバージョンのCUDA機構をもつC++プログラミング言語の拡張であり、少なくとも1つの実施例では、HIP言語ランタイムAPIは、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び同期のための機能など、図24と併せて上記で説明されたCUDAランタイムAPI2404の機能と同様である機能を含む。
少なくとも1つの実施例では、サンク(ROCt)2507は、基礎をなすROCmドライバ2508と対話するために使用され得るインターフェース2506である。少なくとも1つの実施例では、ROCmドライバ2508は、AMDGPUドライバとHSAカーネル・ドライバ(amdkfd)との組合せである、ROCkドライバである。少なくとも1つの実施例では、AMDGPUドライバは、図23と併せて上記で説明されたデバイス・カーネル・ドライバ2306と同様の機能性を実施する、AMDによって開発されたGPUのためのデバイス・カーネル・ドライバである。少なくとも1つの実施例では、HSAカーネル・ドライバは、異なるタイプのプロセッサがハードウェア特徴を介してより効果的にシステム・リソースを共有することを許すドライバである。
少なくとも1つの実施例では、様々なライブラリ(図示せず)が、言語ランタイム2503より上にROCmソフトウェア・スタック2500中に含まれ、図24と併せて上記で説明されたCUDAライブラリ2403に対する機能性の類似性を提供し得る。少なくとも1つの実施例では、様々なライブラリは、限定はしないが、とりわけ、CUDA cuBLASの機能と同様の機能を実装するhipBLASライブラリ、CUDA cuFFTと同様であるFFTを算出するためのrocFFTライブラリなど、数学、深層学習、及び/又は他のライブラリを含み得る。
図26は、少なくとも1つの実施例による、図23のソフトウェア・スタック2300のOpenCL実装形態を示す。少なくとも1つの実施例では、アプリケーション2601が起動され得るOpenCLソフトウェア・スタック2600は、OpenCLフレームワーク2610と、OpenCLランタイム2606と、ドライバ2607とを含む。少なくとも1つの実施例では、OpenCLソフトウェア・スタック2600は、ベンダー固有でないハードウェア2409上で実行する。少なくとも1つの実施例では、OpenCLは、異なるベンダーによって開発されたデバイスによってサポートされるので、そのようなベンダーからのハードウェアと相互動作するために、特定のOpenCLドライバが必要とされ得る。少なくとも1つの実施例では、OpenCLソフトウェア・スタック2600は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、アプリケーション2601、OpenCLランタイム2606、デバイス・カーネル・ドライバ2607、及びハードウェア2608は、それぞれ、図23と併せて上記で説明された、アプリケーション2301、ランタイム2305、デバイス・カーネル・ドライバ2306、及びハードウェア2307と同様の機能性を実施し得る。少なくとも1つの実施例では、アプリケーション2601は、デバイス上で実行されるべきであるコードをもつOpenCLカーネル2602をさらに含む。
少なくとも1つの実施例では、OpenCLは、ホストに接続されたデバイスをホストが制御することを可能にする「プラットフォーム」を定義する。少なくとも1つの実施例では、OpenCLフレームワークは、プラットフォームAPI2603及びランタイムAPI2605として示されている、プラットフォーム層API及びランタイムAPIを提供する。少なくとも1つの実施例では、ランタイムAPI2605は、デバイス上でのカーネルの実行を管理するためにコンテキストを使用する。少なくとも1つの実施例では、各識別されたデバイスは、それぞれのコンテキストに関連し得、ランタイムAPI2605は、それぞれのコンテキストを使用して、そのデバイスのために、とりわけ、コマンド・キュー、プログラム・オブジェクト、及びカーネル・オブジェクトを管理し、メモリ・オブジェクトを共有し得る。少なくとも1つの実施例では、プラットフォームAPI2603は、とりわけ、デバイスを選択及び初期化し、コマンド・キューを介してデバイスにワークをサブミットし、デバイスとの間でのデータ転送を可能にするために、デバイス・コンテキストが使用されることを許す機能を公開する。少なくとも1つの実施例では、さらに、OpenCLフレームワークは、とりわけ、数学関数とリレーショナル関数と画像処理関数とを含む、様々な組み込み関数(図示せず)を提供する。
少なくとも1つの実施例では、コンパイラ2604も、OpenCLフレームワーク2610中に含まれる。少なくとも1つの実施例では、ソース・コードは、アプリケーションを実行するより前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされ得る。CUDA及びROCmとは対照的に、少なくとも1つの実施例におけるOpenCLアプリケーションは、コンパイラ2604によってオンラインでコンパイルされ得、コンパイラ2604は、標準ポータブル中間表現(「SPIR-V」:Standard Portable Intermediate Representation)コードなど、ソース・コード及び/又はIRコードをバイナリ・コードにコンパイルするために使用され得る、任意の数のコンパイラを表すために含まれる。代替的に、少なくとも1つの実施例では、OpenCLアプリケーションは、そのようなアプリケーションの実行より前に、オフラインでコンパイルされ得る。
図27は、少なくとも1つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す。少なくとも1つの実施例では、プログラミング・プラットフォーム2704は、アプリケーション2700が依拠し得る、様々なプログラミング・モデル2703、ミドルウェア及び/又はライブラリ2702、並びにフレームワーク2701をサポートするように構成される。少なくとも1つの実施例では、アプリケーション2700は、たとえば、MXNet、PyTorch、又はTensorFlowなど、深層学習フレームワークを使用して実装される、AI/MLアプリケーションであり得、これは、基礎をなすハードウェア上で加速コンピューティングを提供するために、cuDNN、NVIDIA集合通信ライブラリ(「NCCL」)、及び/又はNVIDAディベロッパー・データ・ローディング・ライブラリ(「DALI」:NVIDA Developer Data Loading Library)CUDAライブラリなど、ライブラリに依拠し得る。少なくとも1つの実施例では、プログラミング・プラットフォーム2704は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、プログラミング・プラットフォーム2704は、それぞれ、図24、図25、及び図26と併せて上記で説明された、CUDA、ROCm、又はOpenCLプラットフォームのうちの1つであり得る。少なくとも1つの実施例では、プログラミング・プラットフォーム2704は、アルゴリズム及びデータ構造の表現を許す基礎をなすコンピューティング・システムの抽象化である、複数のプログラミング・モデル2703をサポートする。少なくとも1つの実施例では、プログラミング・モデル2703は、性能を改善するために、基礎をなすハードウェアの特徴を公開し得る。少なくとも1つの実施例では、プログラミング・モデル2703は、限定はしないが、CUDA、HIP、OpenCL、C++加速超並列処理(「C++AMP」:C++ Accelerated Massive Parallelism)、オープン・マルチプロセシング(「OpenMP」:Open Multi-Processing)、オープン・アクセラレータ(「OpenACC」:Open Accelerators)、及び/又はVulcanコンピュート(Vulcan Compute)を含み得る。
少なくとも1つの実施例では、ライブラリ及び/又はミドルウェア2702は、プログラミング・モデル2704の抽象化の実装を提供する。少なくとも1つの実施例では、そのようなライブラリは、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含む。少なくとも1つの実施例では、そのようなミドルウェアは、プログラミング・プラットフォーム2704から利用可能なソフトウェア以外にアプリケーションにサービスを提供するソフトウェアを含む。少なくとも1つの実施例では、ライブラリ及び/又はミドルウェア2702は、限定はしないが、cuBLAS、cuFFT、cuRAND、及び他のCUDAライブラリ、又は、rocBLAS、rocFFT、rocRAND、及び他のROCmライブラリを含み得る。さらに、少なくとも1つの実施例では、ライブラリ及び/又はミドルウェア2702は、GPUのための通信ルーチンを提供するNCCL及びROCm通信集合ライブラリ(「RCCL」:ROCm Communication Collectives Library)のライブラリ、深層学習加速のためのMIOpenライブラリ、並びに/又は、線形代数、行列及びベクトル演算、幾何学的変換、数値ソルバー、及び関係するアルゴリズムのための固有(Eigen)ライブラリを含み得る。
少なくとも1つの実施例では、アプリケーション・フレームワーク2701は、ライブラリ及び/又はミドルウェア2702に依存する。少なくとも1つの実施例では、アプリケーション・フレームワーク2701の各々は、アプリケーション・ソフトウェアの標準構造を実装するために使用されるソフトウェア・フレームワークである。少なくとも1つの実施例では、上記で説明されたAI/ML実例に戻ると、AI/MLアプリケーションは、Caffe、Caffe2、TensorFlow、Keras、PyTorch、又はMxNet深層学習フレームワークなど、フレームワークを使用して実装され得る。
図28は、少なくとも1つの実施例による、図23~図26のプログラミング・プラットフォームのうちの1つの上で実行するためのコードをコンパイルすることを示す。少なくとも1つの実施例では、コンパイラ2801は、ホスト・コード並びにデバイス・コードの両方を含むソース・コード2800を受信する。少なくとも1つの実施例では、コンパイラ2801は、ソース・コード2800を、ホスト上での実行のためのホスト実行可能コード2802及びデバイス上での実行のためのデバイス実行可能コード2803にコンバートするように構成される。少なくとも1つの実施例では、ソース・コード2800は、アプリケーションの実行より前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされるかのいずれかであり得る。
少なくとも1つの実施例では、ソース・コード2800は、C++、C、Fortranなど、コンパイラ2801によってサポートされる任意のプログラミング言語のコードを含み得る。少なくとも1つの実施例では、ソース・コード2800は、ホスト・コードとデバイス・コードとの混合物を有する単一ソース・ファイル中に含まれ得、その中にデバイス・コードのロケーションが示されている。少なくとも1つの実施例では、単一ソース・ファイルは、CUDAコードを含む.cuファイル、又はHIPコードを含む.hip.cppファイルであり得る。代替的に、少なくとも1つの実施例では、ソース・コード2800は、その中でホスト・コードとデバイス・コードとが分離される単一ソース・ファイルではなく、複数のソース・コード・ファイルを含み得る。
少なくとも1つの実施例では、コンパイラ2801は、ソース・コード2800を、ホスト上での実行のためのホスト実行可能コード2802及びデバイス上での実行のためのデバイス実行可能コード2803にコンパイルするように構成される。少なくとも1つの実施例では、コンパイラ2801は、ソース・コード2800を抽象システム・ツリー(AST:abstract system tree)に構文解析することと、最適化を実施することと、実行可能コードを生成することとを含む、動作を実施する。ソース・コード2800が単一ソース・ファイルを含む、少なくとも1つの実施例では、コンパイラ2801は、図29に関して以下でより詳細に説明されるように、そのような単一ソース・ファイル中でデバイス・コードをホスト・コードから分離し、デバイス・コード及びホスト・コードを、それぞれ、デバイス実行可能コード2803及びホスト実行可能コード2802にコンパイルし、デバイス実行可能コード2803とホスト実行可能コード2802とを単一のファイルにおいて互いにリンクし得る。
少なくとも1つの実施例では、ホスト実行可能コード2802及びデバイス実行可能コード2803は、バイナリ・コード及び/又はIRコードなど、任意の好適なフォーマットのものであり得る。少なくとも1つの実施例では、CUDAの場合、ホスト実行可能コード2802は、ネイティブ・オブジェクト・コードを含み得、デバイス実行可能コード2803は、PTX中間表現のコードを含み得る。少なくとも1つの実施例では、ROCmの場合、ホスト実行可能コード2802とデバイス実行可能コード2803の両方は、ターゲット・バイナリ・コードを含み得る。
図29は、少なくとも1つの実施例による、図23~図26のプログラミング・プラットフォームのうちの1つの上で実行するためのコードをコンパイルすることのより詳細な図である。少なくとも1つの実施例では、コンパイラ2901は、ソース・コード2900を受信し、ソース・コード2900をコンパイルし、実行可能ファイル2910を出力するように構成される。少なくとも1つの実施例では、ソース・コード2900は、ホスト・コードとデバイス・コードの両方を含む、.cuファイル、.hip.cppファイル、又は別のフォーマットのファイルなど、単一ソース・ファイルである。少なくとも1つの実施例では、コンパイラ2901は、限定はしないが、.cuファイル中のCUDAコードをコンパイルするためのNVIDIA CUDAコンパイラ(「NVCC」:NVIDIA CUDA compiler)、又は.hip.cppファイル中のHIPコードをコンパイルするためのHCCコンパイラであり得る。
少なくとも1つの実施例では、コンパイラ2901は、コンパイラ・フロント・エンド2902と、ホスト・コンパイラ2905と、デバイス・コンパイラ2906と、リンカ2909とを含む。少なくとも1つの実施例では、コンパイラ・フロント・エンド2902は、ソース・コード2900中でデバイス・コード2904をホスト・コード2903から分離するように構成される。少なくとも1つの実施例では、デバイス・コード2904は、デバイス・コンパイラ2906によってデバイス実行可能コード2908にコンパイルされ、デバイス実行可能コード2908は、説明されたように、バイナリ・コード又はIRコードを含み得る。少なくとも1つの実施例では、別個に、ホスト・コード2903は、ホスト・コンパイラ2905によってホスト実行可能コード2907にコンパイルされる。少なくとも1つの実施例では、NVCCの場合、ホスト・コンパイラ2905は、限定はしないが、ネイティブ・オブジェクト・コードを出力する汎用C/C++コンパイラであり得るが、デバイス・コンパイラ2906は、限定はしないが、LLVMコンパイラ・インフラストラクチャをフォークし、PTXコード又はバイナリ・コードを出力する、低レベル仮想機械(「LLVM」:Low Level Virtual Machine)ベースのコンパイラであり得る。少なくとも1つの実施例では、HCCの場合、ホスト・コンパイラ2905とデバイス・コンパイラ2906の両方は、限定はしないが、ターゲット・バイナリ・コードを出力するLLVMベースのコンパイラであり得る。
少なくとも1つの実施例では、ソース・コード2900をホスト実行可能コード2907及びデバイス実行可能コード2908にコンパイルした後に、リンカ2909は、ホスト実行可能コード2907とデバイス実行可能コード2908とを実行可能ファイル2910において互いにリンクする。少なくとも1つの実施例では、ホストのためのネイティブ・オブジェクト・コードと、デバイスのためのPTX又はバイナリ・コードとは、オブジェクト・コードを記憶するために使用されるコンテナ・フォーマットである、実行可能及びリンク可能フォーマット(「ELF」:Executable and Linkable Format)ファイルにおいて互いにリンクされ得る。
図30は、少なくとも1つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す。少なくとも1つの実施例では、ソース・コード3000は、トランスレーション・ツール3001を通して渡され、トランスレーション・ツール3001は、ソース・コード3000を、トランスレートされたソース・コード3002にトランスレートする。少なくとも1つの実施例では、コンパイラ3003は、図28と併せて上記で説明されたように、ホスト実行可能コード2802及びデバイス実行可能2803へのコンパイラ2801によるソース・コード2800のコンパイルと同様であるプロセスにおいて、トランスレートされたソース・コード3002をホスト実行可能コード3004及びデバイス実行可能コード3005にコンパイルするために使用される。
少なくとも1つの実施例では、トランスレーション・ツール3001によって実施されるトランスレーションは、稼働することが最初に意図された環境とは異なる環境における実行のためにソース3000を移植するために使用される。少なくとも1つの実施例では、トランスレーション・ツール3001は、限定はしないが、CUDAプラットフォームを対象とするCUDAコードを、ROCmプラットフォーム上でコンパイル及び実行され得るHIPコードに「hipify」するために使用される、HIPトランスレータを含み得る。少なくとも1つの実施例では、ソース・コード3000のトランスレーションは、図31A~図32と併せて以下でより詳細に説明されるように、ソース・コード3000を構文解析することと、あるプログラミング・モデル(たとえば、CUDA)によって提供される(1つ又は複数の)APIへのコールを、別のプログラミング・モデル(たとえば、HIP)によって提供される(1つ又は複数の)APIへの対応するコールにコンバートすることとを含み得る。少なくとも1つの実施例では、CUDAコードをhipifyすることの実例に戻ると、CUDAランタイムAPI、CUDAドライバAPI、及び/又はCUDAライブラリへのコールは、対応するHIP APIコールにコンバートされ得る。少なくとも1つの実施例では、トランスレーション・ツール3001によって実施される自動トランスレーションは、時々、不完全であり、ソース・コード3000を完全に移植するために追加の手動の労力を必要とし得る。
汎用コンピューティングのためのGPUを構成すること
以下の図は、限定はしないが、少なくとも1つの実施例による、コンピュート・ソース・コードをコンパイル及び実行するための例示的なアーキテクチャを記載する。
図31Aは、少なくとも1つの実施例による、異なるタイプの処理ユニットを使用してCUDAソース・コード3110をコンパイル及び実行するように構成されたシステム31A00を示す。少なくとも1つの実施例では、システム31A00は、限定はしないが、CUDAソース・コード3110と、CUDAコンパイラ3150と、ホスト実行可能コード3170(1)と、ホスト実行可能コード3170(2)と、CUDAデバイス実行可能コード3184と、CPU3190と、CUDA対応GPU3194と、GPU3192と、CUDAからHIPへのトランスレーション・ツール3120と、HIPソース・コード3130と、HIPコンパイラ・ドライバ3140と、HCC3160と、HCCデバイス実行可能コード3182とを含む。
少なくとも1つの実施例では、CUDAソース・コード3110は、CUDAプログラミング言語の人間が読み取れるコードの集合である。少なくとも1つの実施例では、CUDAコードは、CUDAプログラミング言語の人間が読み取れるコードである。少なくとも1つの実施例では、CUDAプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、C++プログラミング言語の拡張である。少なくとも1つの実施例では、デバイス・コードは、コンパイルの後にデバイス上で並列に実行可能であるソース・コードである。少なくとも1つの実施例では、デバイスは、CUDA対応GPU3190、GPU31192、又は別のGPGPUなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも1つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも1つの実施例では、ホストは、CPU3190など、連続命令処理のために最適化されるプロセッサである。
少なくとも1つの実施例では、CUDAソース・コード3110は、限定はしないが、(ゼロを含む)任意の数のグローバル機能3112と、(ゼロを含む)任意の数のデバイス機能3114と、(ゼロを含む)任意の数のホスト機能3116と、(ゼロを含む)任意の数のホスト/デバイス機能3118とを含む。少なくとも1つの実施例では、グローバル機能3112と、デバイス機能3114と、ホスト機能3116と、ホスト/デバイス機能3118とは、CUDAソース・コード3110中で混合され得る。少なくとも1つの実施例では、グローバル機能3112の各々は、デバイス上で実行可能であり、ホストからコール可能である。少なくとも1つの実施例では、グローバル機能3112のうちの1つ又は複数は、したがって、デバイスへのエントリ・ポイントとして働き得る。少なくとも1つの実施例では、グローバル機能3112の各々はカーネルである。少なくとも1つの実施例では、及び動的並列処理として知られる技法では、グローバル機能3112のうちの1つ又は複数は、カーネルを定義し、カーネルは、デバイス上で実行可能であり、そのようなデバイスからコール可能である。少なくとも1つの実施例では、カーネルは、実行中にデバイス上のN(ここで、Nは任意の正の整数である)個の異なるスレッドによって並列にN回実行される。
少なくとも1つの実施例では、デバイス機能3114の各々は、デバイス上で実行され、そのようなデバイスからのみコール可能である。少なくとも1つの実施例では、ホスト機能3116の各々は、ホスト上で実行され、そのようなホストからのみコール可能である。少なくとも1つの実施例では、ホスト/デバイス機能3116の各々は、ホスト上で実行可能であり、そのようなホストからのみコール可能であるホスト・バージョンの機能と、デバイス上で実行可能であり、そのようなデバイスからのみコール可能であるデバイス・バージョンの機能の両方を定義する。
少なくとも1つの実施例では、CUDAソース・コード3110は、限定はしないが、CUDAランタイムAPI3102を介して定義される任意の数の機能への任意の数のコールをも含み得る。少なくとも1つの実施例では、CUDAランタイムAPI3102は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、ホスト・メモリとデバイス・メモリとの間でデータを転送し、複数のデバイスをもつシステムを管理するなどのためにホスト上で実行する、任意の数の機能を含み得る。少なくとも1つの実施例では、CUDAソース・コード3110は、任意の数の他のCUDA APIにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも1つの実施例では、CUDA APIは、CUDAコードによる使用のために設計される任意のAPIであり得る。少なくとも1つの実施例では、CUDA APIは、限定はしないが、CUDAランタイムAPI3102、CUDAドライバAPI、任意の数のCUDAライブラリのためのAPIなどを含む。少なくとも1つの実施例では、及びCUDAランタイムAPI3102に対して、CUDAドライバAPIは、より低いレベルのAPIであるが、デバイスのよりきめ細かい制御を提供する。少なくとも1つの実施例では、CUDAライブラリの実例は、限定はしないが、cuBLAS、cuFFT、cuRAND、cuDNNなどを含む。
少なくとも1つの実施例では、CUDAコンパイラ3150は、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成するために、入力CUDAコード(たとえば、CUDAソース・コード3110)をコンパイルする。少なくとも1つの実施例では、CUDAコンパイラ3150はNVCCである。少なくとも1つの実施例では、ホスト実行可能コード3170(1)は、CPU3190上で実行可能である、入力ソース・コード中に含まれるホスト・コードのコンパイルされたバージョンである。少なくとも1つの実施例では、CPU3190は、連続命令処理のために最適化される任意のプロセッサであり得る。
少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、CUDA対応GPU3194上で実行可能である、入力ソース・コード中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、バイナリ・コードを含む。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、PTXコードなどのIRコードを含み、これは、デバイス・ドライバによって、特定のターゲット・デバイス(たとえば、CUDA対応GPU3194)のためのバイナリ・コードに、ランタイムにおいてさらにコンパイルされる。少なくとも1つの実施例では、CUDA対応GPU3194は、並列命令処理のために最適化され、CUDAをサポートする、任意のプロセッサであり得る。少なくとも1つの実施例では、CUDA対応GPU3194は、カリフォルニア州サンタクララのNVIDIA Corporationによって開発される。
少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110を機能的に同様のHIPソース・コード3130にトランスレートするように構成される。少なくとも1つの実施例では、HIPソース・コード3130は、HIPプログラミング言語の人間が読み取れるコードの集合である。少なくとも1つの実施例では、HIPコードは、HIPプログラミング言語の人間が読み取れるコードである。少なくとも1つの実施例では、HIPプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための、機能的に同様のバージョンのCUDA機構を含む、C++プログラミング言語の拡張である。少なくとも1つの実施例では、HIPプログラミング言語は、CUDAプログラミング言語の機能性のサブセットを含み得る。少なくとも1つの実施例では、たとえば、HIPプログラミング言語は、限定はしないが、グローバル機能3112を定義するための(1つ又は複数の)機構を含むが、そのようなHIPプログラミング言語は、動的並列処理のサポートがないことがあり、したがって、HIPコードにおいて定義されたグローバル機能3112は、ホストからのみコール可能であり得る。
少なくとも1つの実施例では、HIPソース・コード3130は、限定はしないが、(ゼロを含む)任意の数のグローバル機能3112と、(ゼロを含む)任意の数のデバイス機能3114と、(ゼロを含む)任意の数のホスト機能3116と、(ゼロを含む)任意の数のホスト/デバイス機能3118とを含む。少なくとも1つの実施例では、HIPソース・コード3130は、HIPランタイムAPI3132において指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも1つの実施例では、HIPランタイムAPI3132は、限定はしないが、CUDAランタイムAPI3102中に含まれる機能のサブセットの機能的に同様のバージョンを含む。少なくとも1つの実施例では、HIPソース・コード3130は、任意の数の他のHIP APIにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも1つの実施例では、HIP APIは、HIPコード及び/又はROCmによる使用のために設計される任意のAPIであり得る。少なくとも1つの実施例では、HIP APIは、限定はしないが、HIPランタイムAPI3132、HIPドライバAPI、任意の数のHIPライブラリのためのAPI、任意の数のROCmライブラリのためのAPIなどを含む。
少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAコード中の各カーネル・コールを、CUDAシンタックスからHIPシンタックスにコンバートし、CUDAコード中の任意の数の他のCUDAコールを、任意の数の他の機能的に同様のHIPコールにコンバートする。少なくとも1つの実施例では、CUDAコールは、CUDA APIにおいて指定された機能へのコールであり、HIPコールは、HIP APIにおいて指定された機能へのコールである。少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAランタイムAPI3102において指定された機能への任意の数のコールを、HIPランタイムAPI3132において指定された機能への任意の数のコールにコンバートする。
少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、テキスト・ベースのトランスレーション・プロセスを実行するhipify-perlとして知られるツールである。少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、hipify-clangとして知られるツールであり、これは、hipify-perlに対して、clang(コンパイラ・フロント・エンド)を使用してCUDAコードを構文解析することと、次いで、得られたシンボルをトランスレートすることとを伴う、より複雑でよりロバストなトランスレーション・プロセスを実行する。少なくとも1つの実施例では、CUDAコードをHIPコードに適切にコンバートすることは、CUDAからHIPへのトランスレーション・ツール3120によって実施される修正に加えて、修正(たとえば、手動の編集)を必要とし得る。
少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、ターゲット・デバイス3146を決定し、次いで、ターゲット・デバイス3146と互換性があるコンパイラを、HIPソース・コード3130をコンパイルするように構成する、フロント・エンドである。少なくとも1つの実施例では、ターゲット・デバイス3146は、並列命令処理のために最適化されるプロセッサである。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、任意の技術的に実現可能な様式でターゲット・デバイス3146を決定し得る。
少なくとも1つの実施例では、ターゲット・デバイス3146が、CUDA(たとえば、CUDA対応GPU3194)と互換性がある場合、HIPコンパイラ・ドライバ3140は、HIP/NVCCコンパイル・コマンド3142を生成する。少なくとも1つの実施例では、及び図31Bと併せてより詳細に説明されるように、HIP/NVCCコンパイル・コマンド3142は、限定はしないが、HIPからCUDAへのトランスレーション・ヘッダ及びCUDAランタイム・ライブラリを使用してHIPソース・コード3130をコンパイルするようにCUDAコンパイラ3150を構成する。少なくとも1つの実施例では、及びHIP/NVCCコンパイル・コマンド3142に応答して、CUDAコンパイラ3150は、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成する。
少なくとも1つの実施例では、ターゲット・デバイス3146が、CUDAと互換性がない場合、HIPコンパイラ・ドライバ3140は、HIP/HCCコンパイル・コマンド3144を生成する。少なくとも1つの実施例では、及び図31Cと併せてより詳細に説明されるように、HIP/HCCコンパイル・コマンド3144は、限定はしないが、HCCヘッダ及びHIP/HCCランタイム・ライブラリを使用してHIPソース・コード3130をコンパイルするようにHCC3160を構成する。少なくとも1つの実施例では、及びHIP/HCCコンパイル・コマンド3144に応答して、HCC3160は、ホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182を生成する。少なくとも1つの実施例では、HCCデバイス実行可能コード3182は、GPU3192上で実行可能である、HIPソース・コード3130中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも1つの実施例では、GPU3192は、並列命令処理のために最適化され、CUDAと互換性がなく、HCCと互換性がある、任意のプロセッサであり得る。少なくとも1つの実施例では、GPU3192は、カリフォルニア州サンタクララのAMD Corporationによって開発される。少なくとも1つの実施例では、GPU3192は、CUDA非対応GPU3192である。
単に説明目的のために、CPU3190及び異なるデバイス上での実行のためにCUDAソース・コード3110をコンパイルするために少なくとも1つの実施例において実装され得る3つの異なるフローが、図31Aに図示されている。少なくとも1つの実施例では、直接的CUDAフローが、CUDAソース・コード3110をHIPソース・コード3130にトランスレートすることなしに、CPU3190及びCUDA対応GPU3194上での実行のためにCUDAソース・コード3110をコンパイルする。少なくとも1つの実施例では、間接的CUDAフローが、CUDAソース・コード3110をHIPソース・コード3130にトランスレートし、次いで、CPU3190及びCUDA対応GPU3194上での実行のためにHIPソース・コード3130をコンパイルする。少なくとも1つの実施例では、CUDA/HCCフローが、CUDAソース・コード3110をHIPソース・コード3130にトランスレートし、次いで、CPU3190及びGPU3192上での実行のためにHIPソース・コード3130をコンパイルする。
少なくとも1つの実施例において実装され得る直接的CUDAフローは、破線及びA1~A3とアノテーション付けされた一連のバブルを介して図示されている。少なくとも1つの実施例では、及びA1とアノテーション付けされたバブルで図示されているように、CUDAコンパイラ3150は、CUDAソース・コード3110と、CUDAソース・コード3110をコンパイルするようにCUDAコンパイラ3150を構成するCUDAコンパイル・コマンド3148とを受信する。少なくとも1つの実施例では、直接的CUDAフローにおいて使用されるCUDAソース・コード3110は、C++以外のプログラミング言語(たとえば、C、Fortran、Python、Javaなど)に基づくCUDAプログラミング言語で書かれる。少なくとも1つの実施例では、及びCUDAコンパイル・コマンド3148に応答して、CUDAコンパイラ3150は、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成する(A2とアノテーション付けされたバブルで図示される)。少なくとも1つの実施例では、及びA3とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184は、それぞれ、CPU3190及びCUDA対応GPU3194上で実行され得る。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、バイナリ・コードを含む。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、PTXコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。
少なくとも1つの実施例において実装され得る間接的CUDAフローは、点線及びB1~B6とアノテーション付けされた一連のバブルを介して図示されている。少なくとも1つの実施例では、及びB1とアノテーション付けされたバブルで図示されているように、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110を受信する。少なくとも1つの実施例では、及びB2とアノテーション付けされたバブルで図示されているように、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110をHIPソース・コード3130にトランスレートする。少なくとも1つの実施例では、及びB3とアノテーション付けされたバブルで図示されているように、HIPコンパイラ・ドライバ3140は、HIPソース・コード3130を受信し、ターゲット・デバイス3146がCUDA対応であると決定する。
少なくとも1つの実施例では、及びB4とアノテーション付けされたバブルで図示されているように、HIPコンパイラ・ドライバ3140は、HIP/NVCCコンパイル・コマンド3142を生成し、HIP/NVCCコンパイル・コマンド3142とHIPソース・コード3130の両方をCUDAコンパイラ3150に送信する。少なくとも1つの実施例では、及び図31Bと併せてより詳細に説明されるように、HIP/NVCCコンパイル・コマンド3142は、限定はしないが、HIPからCUDAへのトランスレーション・ヘッダ及びCUDAランタイム・ライブラリを使用してHIPソース・コード3130をコンパイルするようにCUDAコンパイラ3150を構成する。少なくとも1つの実施例では、及びHIP/NVCCコンパイル・コマンド3142に応答して、CUDAコンパイラ3150は、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成する(B5とアノテーション付けされたバブルで図示される)。少なくとも1つの実施例では、及びB6とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184は、それぞれ、CPU3190及びCUDA対応GPU3194上で実行され得る。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、バイナリ・コードを含む。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、PTXコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。
少なくとも1つの実施例において実装され得るCUDA/HCCフローは、実線及びC1~C6とアノテーション付けされた一連のバブルを介して図示されている。少なくとも1つの実施例では、及びC1とアノテーション付けされたバブルで図示されているように、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110を受信する。少なくとも1つの実施例では、及びC2とアノテーション付けされたバブルで図示されているように、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110をHIPソース・コード3130にトランスレートする。少なくとも1つの実施例では、及びC3とアノテーション付けされたバブルで図示されているように、HIPコンパイラ・ドライバ3140は、HIPソース・コード3130を受信し、ターゲット・デバイス3146がCUDA対応でないと決定する。
少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、HIP/HCCコンパイル・コマンド3144を生成し、HIP/HCCコンパイル・コマンド3144とHIPソース・コード3130の両方をHCC3160に送信する(C4とアノテーション付けされたバブルで図示される)。少なくとも1つの実施例では、及び図31Cと併せてより詳細に説明されるように、HIP/HCCコンパイル・コマンド3144は、限定はしないが、HCCヘッダ及びHIP/HCCランタイム・ライブラリを使用してHIPソース・コード3130をコンパイルするようにHCC3160を構成する。少なくとも1つの実施例では、及びHIP/HCCコンパイル・コマンド3144に応答して、HCC3160は、ホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182を生成する(C5とアノテーション付けされたバブルで図示される)。少なくとも1つの実施例では、及びC6とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182は、それぞれ、CPU3190及びGPU3192上で実行され得る。
少なくとも1つの実施例では、CUDAソース・コード3110がHIPソース・コード3130にトランスレートされた後に、HIPコンパイラ・ドライバ3140は、その後、CUDAからHIPへのトランスレーション・ツール3120を再実行することなしに、CUDA対応GPU3194又はGPU3192のいずれかのための実行可能コードを生成するために使用され得る。少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110をHIPソース・コード3130にトランスレートし、HIPソース・コード3130は、次いで、メモリに記憶される。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、次いで、HIPソース・コード3130に基づいてホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182を生成するようにHCC3160を構成する。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、その後、記憶されたHIPソース・コード3130に基づいてホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成するようにCUDAコンパイラ3150を構成する。
図31Bは、少なくとも1つの実施例による、CPU3190及びCUDA対応GPU3194を使用して、図31AのCUDAソース・コード3110をコンパイル及び実行するように構成されたシステム3104を示す。少なくとも1つの実施例では、システム3104は、限定はしないが、CUDAソース・コード3110と、CUDAからHIPへのトランスレーション・ツール3120と、HIPソース・コード3130と、HIPコンパイラ・ドライバ3140と、CUDAコンパイラ3150と、ホスト実行可能コード3170(1)と、CUDAデバイス実行可能コード3184と、CPU3190と、CUDA対応GPU3194とを含む。少なくとも1つの実施例では、システム3104は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、及び図31Aと併せて本明細書で前に説明されたように、CUDAソース・コード3110は、限定はしないが、(ゼロを含む)任意の数のグローバル機能3112と、(ゼロを含む)任意の数のデバイス機能3114と、(ゼロを含む)任意の数のホスト機能3116と、(ゼロを含む)任意の数のホスト/デバイス機能3118とを含む。少なくとも1つの実施例では、CUDAソース・コード3110は、限定はしないが、任意の数のCUDA APIにおいて指定される任意の数の機能への任意の数のコールをも含む。
少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110をHIPソース・コード3130にトランスレートする。少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110中の各カーネル・コールを、CUDAシンタックスからHIPシンタックスにコンバートし、CUDAソース・コード3110中の任意の数の他のCUDAコールを、任意の数の他の機能的に同様のHIPコールにコンバートする。
少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、ターゲット・デバイス3146がCUDA対応であると決定し、HIP/NVCCコンパイル・コマンド3142を生成する。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、次いで、HIPソース・コード3130をコンパイルするようにHIP/NVCCコンパイル・コマンド3142を介してCUDAコンパイラ3150を構成する。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、CUDAコンパイラ3150を構成することの一部として、HIPからCUDAへのトランスレーション・ヘッダ3152へのアクセスを提供する。少なくとも1つの実施例では、HIPからCUDAへのトランスレーション・ヘッダ3152は、任意の数のHIP APIにおいて指定された任意の数の機構(たとえば、機能)を、任意の数のCUDA APIにおいて指定された任意の数の機構にトランスレートする。少なくとも1つの実施例では、CUDAコンパイラ3150は、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184を生成するために、CUDAランタイムAPI3102に対応するCUDAランタイム・ライブラリ3154と併せて、HIPからCUDAへのトランスレーション・ヘッダ3152を使用する。少なくとも1つの実施例では、ホスト実行可能コード3170(1)及びCUDAデバイス実行可能コード3184は、次いで、それぞれ、CPU3190及びCUDA対応GPU3194上で実行され得る。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、バイナリ・コードを含む。少なくとも1つの実施例では、CUDAデバイス実行可能コード3184は、限定はしないが、PTXコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。
図31Cは、少なくとも1つの実施例による、CPU3190及びCUDA非対応GPU3192を使用して、図31AのCUDAソース・コード3110をコンパイル及び実行するように構成されたシステム3106を示す。少なくとも1つの実施例では、システム3106は、限定はしないが、CUDAソース・コード3110と、CUDAからHIPへのトランスレーション・ツール3120と、HIPソース・コード3130と、HIPコンパイラ・ドライバ3140と、HCC3160と、ホスト実行可能コード3170(2)と、HCCデバイス実行可能コード3182と、CPU3190と、GPU3192とを含む。少なくとも1つの実施例では、システム3106は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、及び図31Aと併せて本明細書で前に説明されたように、CUDAソース・コード3110は、限定はしないが、(ゼロを含む)任意の数のグローバル機能3112と、(ゼロを含む)任意の数のデバイス機能3114と、(ゼロを含む)任意の数のホスト機能3116と、(ゼロを含む)任意の数のホスト/デバイス機能3118とを含む。少なくとも1つの実施例では、CUDAソース・コード3110は、限定はしないが、任意の数のCUDA APIにおいて指定される任意の数の機能への任意の数のコールをも含む。
少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110をHIPソース・コード3130にトランスレートする。少なくとも1つの実施例では、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110中の各カーネル・コールを、CUDAシンタックスからHIPシンタックスにコンバートし、ソース・コード3110中の任意の数の他のCUDAコールを、任意の数の他の機能的に同様のHIPコールにコンバートする。
少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、その後、ターゲット・デバイス3146がCUDA対応でないと決定し、HIP/HCCコンパイル・コマンド3144を生成する。少なくとも1つの実施例では、HIPコンパイラ・ドライバ3140は、次いで、HIPソース・コード3130をコンパイルするためにHIP/HCCコンパイル・コマンド3144を実行するようにHCC3160を構成する。少なくとも1つの実施例では、HIP/HCCコンパイル・コマンド3144は、限定はしないが、ホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182を生成するためにHIP/HCCランタイム・ライブラリ3158及びHCCヘッダ3156を使用するようにHCC3160を構成する。少なくとも1つの実施例では、HIP/HCCランタイム・ライブラリ3158は、HIPランタイムAPI3132に対応する。少なくとも1つの実施例では、HCCヘッダ3156は、限定はしないが、HIP及びHCCのための任意の数及びタイプの相互運用性機構を含む。少なくとも1つの実施例では、ホスト実行可能コード3170(2)及びHCCデバイス実行可能コード3182は、それぞれ、CPU3190及びGPU3192上で実行され得る。
図32は、少なくとも1つの実施例による、図31CのCUDAからHIPへのトランスレーション・ツール3120によってトランスレートされた例示的なカーネルを示す。少なくとも1つの実施例では、CUDAソース・コード3110は、所与のカーネルが解くように設計される全体的な問題を、スレッド・ブロックを使用して独立して解かれ得る比較的粗いサブ問題に区分けする。少なくとも1つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含む。少なくとも1つの実施例では、各サブ問題は、スレッド・ブロック内のスレッドによって並列に連動して解かれ得る比較的細かい部片に区分けされる。少なくとも1つの実施例では、スレッド・ブロック内のスレッドは、共有メモリを通してデータを共有することによって、及びメモリ・アクセスを協調させるために実行を同期させることによって連動することができる。
少なくとも1つの実施例では、CUDAソース・コード3110は、所与のカーネルに関連するスレッド・ブロックを、スレッド・ブロックの1次元グリッド、2次元グリッド、又は3次元グリッドに組織化する。少なくとも1つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含み、グリッドは、限定はしないが、任意の数のスレッド・ブロックを含む。
少なくとも1つの実施例では、カーネルは、「__global__」宣言指定子(declaration specifier)を使用して定義されるデバイス・コード中の関数である。少なくとも1つの実施例では、所与のカーネル・コール及び関連するストリームについてカーネルを実行するグリッドの次元は、CUDAカーネル起動シンタックス3210を使用して指定される。少なくとも1つの実施例では、CUDAカーネル起動シンタックス3210は、「KernelName<<<GridSize,BlockSize,SharedMemorySize,Stream>>>(KernelArguments);」として指定される。少なくとも1つの実施例では、実行構成シンタックスは、カーネル名(「KernelName」)とカーネル引数の括弧に入れられたリスト(「KernelArguments」)との間に挿入される「<<<...>>>」構築物である。少なくとも1つの実施例では、CUDAカーネル起動シンタックス3210は、限定はしないが、実行構成シンタックスの代わりにCUDA起動機能シンタックスを含む。
少なくとも1つの実施例では、「GridSize」は、タイプdim3のものであり、グリッドの次元及びサイズを指定する。少なくとも1つの実施例では、タイプdim3は、限定はしないが、符号なし整数x、y、及びzを含む、CUDA定義構造である。少なくとも1つの実施例では、zが指定されない場合、zは1にデフォルト設定される。少なくとも1つの実施例では、yが指定されない場合、yは1にデフォルト設定される。少なくとも1つの実施例では、グリッド中のスレッド・ブロックの数は、GridSize.xとGridSize.yとGridSize.zとの積に等しい。少なくとも1つの実施例では、「BlockSize」は、タイプdim3のものであり、各スレッド・ブロックの次元及びサイズを指定する。少なくとも1つの実施例では、スレッド・ブロックごとのスレッドの数は、BlockSize.xとBlockSize.yとBlockSize.zとの積に等しい。少なくとも1つの実施例では、カーネルを実行する各スレッドは、組み込み変数(たとえば、「threadIdx」)を通してカーネル内でアクセス可能である一意のスレッドIDを与えられる。
少なくとも1つの実施例では、及びCUDAカーネル起動シンタックス3210に関して、「SharedMemorySize」は、静的に割り振られたメモリに加えて、所与のカーネル・コールについてスレッド・ブロックごとに動的に割り振られる共有メモリ中のバイトの数を指定する随意の引数である。少なくとも1つの実施例では、及びCUDAカーネル起動シンタックス3210に関して、SharedMemorySizeは0にデフォルト設定される。少なくとも1つの実施例では、及びCUDAカーネル起動シンタックス3210に関して、「Stream」は、関連するストリームを指定する随意の引数であり、デフォルト・ストリームを指定するために0にデフォルト設定される。少なくとも1つの実施例では、ストリームは、イン・オーダーで実行する(場合によっては、異なるホスト・スレッドによって発行された)コマンドのシーケンスである。少なくとも1つの実施例では、異なるストリームは、互いに対してアウト・オブ・オーダーで、又は同時に、コマンドを実行し得る。
少なくとも1つの実施例では、CUDAソース・コード3110は、限定はしないが、例示的なカーネル「MatAdd」のためのカーネル定義とメイン関数とを含む。少なくとも1つの実施例では、メイン関数は、ホスト上で実行し、限定はしないが、カーネルMatAddにデバイス上で実行させるカーネル・コールを含む、ホスト・コードである。少なくとも1つの実施例では、及び示されているように、カーネルMatAddは、Nが正の整数である、サイズN×Nの2つの行列AとBとを加算し、結果を行列Cに記憶する。少なくとも1つの実施例では、メイン関数は、threadsPerBlock変数を16×16として定義し、numBlocks変数をN/16×N/16として定義する。少なくとも1つの実施例では、メイン関数は、次いで、カーネル・コール「MatAdd<<<numBlocks,threadsPerBlock>>>(A,B,C);」を指定する。少なくとも1つの実施例では、及びCUDAカーネル起動シンタックス3210通りに、カーネルMatAddは、寸法N/16×N/16を有する、スレッド・ブロックのグリッドを使用して実行され、ここで、各スレッド・ブロックは、16×16の寸法を有する。少なくとも1つの実施例では、各スレッド・ブロックは、256個のスレッドを含み、グリッドは、行列要素ごとに1つのスレッドを有するのに十分なブロックで作成され、そのようなグリッド中の各スレッドは、1つのペアワイズ加算を実施するためにカーネルMatAddを実行する。
少なくとも1つの実施例では、CUDAソース・コード3110をHIPソース・コード3130にトランスレートする間、CUDAからHIPへのトランスレーション・ツール3120は、CUDAソース・コード3110中の各カーネル・コールを、CUDAカーネル起動シンタックス3210からHIPカーネル起動シンタックス3220にトランスレートし、ソース・コード3110中の任意の数の他のCUDAコールを、任意の数の他の機能的に同様のHIPコールにコンバートする。少なくとも1つの実施例では、HIPカーネル起動シンタックス3220は、「hipLaunchKernelGGL(KernelName,GridSize,BlockSize,SharedMemorySize,Stream,KernelArguments);」として指定される。少なくとも1つの実施例では、KernelName、GridSize、BlockSize、ShareMemorySize、Stream、及びKernelArgumentsの各々は、HIPカーネル起動シンタックス3220において、(本明細書で前に説明された)CUDAカーネル起動シンタックス3210の場合と同じ意味を有する。少なくとも1つの実施例では、引数SharedMemorySize及びStreamは、HIPカーネル起動シンタックス3220では必要とされ、CUDAカーネル起動シンタックス3210では随意である。
少なくとも1つの実施例では、図32に図示されたHIPソース・コード3130の一部分は、カーネルMatAddにデバイス上で実行させるカーネル・コールを除いて、図32に図示されたCUDAソース・コード3110の一部分と同一である。少なくとも1つの実施例では、カーネルMatAddは、カーネルMatAddがCUDAソース・コード3110において定義される、同じ「__global__」宣言指定子を用いて、HIPソース・コード3130において定義される。少なくとも1つの実施例では、HIPソース・コード3130中のカーネル・コールは、「hipLaunchKernelGGL(MatAdd,numBlocks,threadsPerBlock,0,0,A,B,C);」であるが、CUDAソース・コード3110中の対応するカーネル・コールは、「MatAdd<<<numBlocks,threadsPerBlock>>>(A,B,C);」である。
図33は、少なくとも1つの実施例による、図31CのCUDA非対応GPU3192をより詳細に示す。少なくとも1つの実施例では、GPU3192は、サンタクララのAMD corporationによって開発される。少なくとも1つの実施例では、GPU3192は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも1つの実施例では、GPU3192は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも1つの実施例では、GPU3192は、グラフィックに関係しない動作を実行するように構成される。少なくとも1つの実施例では、GPU3192は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。少なくとも1つの実施例では、GPU3192は、HIPソース・コード3130中に含まれるデバイス・コードを実行するように構成され得る。
少なくとも1つの実施例では、GPU3192は、限定はしないが、任意の数のプログラマブル処理ユニット3320と、コマンド・プロセッサ3310と、L2キャッシュ3322と、メモリ・コントローラ3370と、DMAエンジン3380(1)と、システム・メモリ・コントローラ3382と、DMAエンジン3380(2)と、GPUコントローラ3384とを含む。少なくとも1つの実施例では、各プログラマブル処理ユニット3320は、限定はしないが、ワークロード・マネージャ3330と、任意の数のコンピュート・ユニット3340とを含む。少なくとも1つの実施例では、コマンド・プロセッサ3310は、1つ又は複数のコマンド・キュー(図示せず)からコマンドを読み取り、ワークロード・マネージャ3330にコマンドを分散させる。少なくとも1つの実施例では、各プログラマブル処理ユニット3320について、関連するワークロード・マネージャ3330は、プログラマブル処理ユニット3320中に含まれるコンピュート・ユニット3340にワークを分散させる。少なくとも1つの実施例では、各コンピュート・ユニット3340は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット3340上で実行する。少なくとも1つの実施例では、ワークグループは、スレッド・ブロックである。
少なくとも1つの実施例では、各コンピュート・ユニット3340は、限定はしないが、任意の数のSIMDユニット3350と、共有メモリ3360とを含む。少なくとも1つの実施例では、各SIMDユニット3350は、SIMDアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも1つの実施例では、各SIMDユニット3350は、限定はしないが、ベクトルALU3352とベクトル・レジスタ・ファイル3354とを含む。少なくとも1つの実施例では、各SIMDユニット3350は、異なるワープを実行する。少なくとも1つの実施例では、ワープは、スレッドのグループ(たとえば、16個のスレッド)であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも1つの実施例では、ワープ中の1つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも1つの実施例では、レーンはスレッドである。少なくとも1つの実施例では、ワーク・アイテムはスレッドである。少なくとも1つの実施例では、ウェーブフロントはワープである。少なくとも1つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ3360を介して通信し得る。
少なくとも1つの実施例では、プログラマブル処理ユニット3320は、「シェーダ・エンジン」と呼ばれる。少なくとも1つの実施例では、各プログラマブル処理ユニット3320は、限定はしないが、コンピュート・ユニット3340に加えて、任意の量の専用グラフィックス・ハードウェアを含む。少なくとも1つの実施例では、各プログラマブル処理ユニット3320は、限定はしないが、(ゼロを含む)任意の数のジオメトリ・プロセッサと、(ゼロを含む)任意の数のラスターライザと、(ゼロを含む)任意の数のレンダー・バック・エンドと、ワークロード・マネージャ3330と、任意の数のコンピュート・ユニット3340とを含む。
少なくとも1つの実施例では、コンピュート・ユニット3340は、L2キャッシュ3322を共有する。少なくとも1つの実施例では、L2キャッシュ3322は区分けされる。少なくとも1つの実施例では、GPUメモリ3390は、GPU3192中のすべてのコンピュート・ユニット3340によってアクセス可能である。少なくとも1つの実施例では、メモリ・コントローラ3370及びシステム・メモリ・コントローラ3382は、GPU3192とホストとの間のデータ転送を容易にし、DMAエンジン3380(1)は、GPU3192とそのようなホストとの間の非同期メモリ転送を可能にする。少なくとも1つの実施例では、メモリ・コントローラ3370及びGPUコントローラ3384は、GPU3192と他のGPU3192との間のデータ転送を容易にし、DMAエンジン3380(2)は、GPU3192と他のGPU3192との間の非同期メモリ転送を可能にする。
少なくとも1つの実施例では、GPU3192は、限定はしないが、GPU3192の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする、任意の量及びタイプのシステム相互接続を含む。少なくとも1つの実施例では、GPU3192は、限定はしないが、任意の数及びタイプの周辺デバイスに結合される、任意の数及びタイプのI/Oインターフェース(たとえば、PCIe)を含む。少なくとも1つの実施例では、GPU3192は、限定はしないが、(ゼロを含む)任意の数のディスプレイ・エンジンと、(ゼロを含む)任意の数のマルチメディア・エンジンとを含み得る。少なくとも1つの実施例では、GPU3192は、限定はしないが、1つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ(たとえば、メモリ・コントローラ3370及びシステム・メモリ・コントローラ3382)及びメモリ・デバイス(たとえば、共有メモリ3360)を含む、メモリ・サブシステムを実装する。少なくとも1つの実施例では、GPU3192は、限定はしないが、1つ又は複数のキャッシュ・メモリ(たとえば、L2キャッシュ3322)を含む、キャッシュ・サブシステムを実装し、1つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素(たとえば、SIMDユニット3350、コンピュート・ユニット3340、及びプログラマブル処理ユニット3320)に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。
図34は、少なくとも1つの実施例による、例示的なCUDAグリッド3420のスレッドが図33の異なるコンピュート・ユニット3340にどのようにマッピングされるかを示す。少なくとも1つの実施例では、及び単に説明目的のために、グリッド3420は、BX×BY×1のGridSizeと、TX×TY×1のBlockSizeとを有する。少なくとも1つの実施例では、グリッド3420は、したがって、限定はしないが、(BX*BY)個のスレッド・ブロック3430を含み、各スレッド・ブロック3430は、限定はしないが、(TX*TY)個のスレッド3440を含む。スレッド3440は、曲がりくねった矢印(squiggly arrow)として図34に図示されている。
少なくとも1つの実施例では、グリッド3420は、限定はしないが、コンピュート・ユニット3340(1)~3340(C)を含むプログラマブル処理ユニット3320(1)にマッピングされる。少なくとも1つの実施例では、及び示されているように、(BJ*BY)個のスレッド・ブロック3430が、コンピュート・ユニット3340(1)にマッピングされ、残りのスレッド・ブロック3430が、コンピュート・ユニット3340(2)にマッピングされる。少なくとも1つの実施例では、各スレッド・ブロック3430は、限定はしないが、任意の数のワープを含み得、各ワープは、図33の異なるSIMDユニット3350にマッピングされる。
少なくとも1つの実施例では、所与のスレッド・ブロック3430中のワープは、互いに同期し、関連するコンピュート・ユニット3340中に含まれる共有メモリ3360を通して通信し得る。たとえば、及び少なくとも1つの実施例では、スレッド・ブロック3430(BJ,1)中のワープは、互いに同期し、共有メモリ3360(1)を通して通信することができる。たとえば、及び少なくとも1つの実施例では、スレッド・ブロック3430(BJ+1,1)中のワープは、互いに同期し、共有メモリ3360(2)を通して通信することができる。
図35は、少なくとも1つの実施例による、既存のCUDAコードをData Parallel C++コードにどのようにマイグレートするかを示す。Data Parallel C++(DPC++)は、単一アーキテクチャ・プロプライエタリ言語に対するオープンな規格ベースの代替を指し得、これは、開発者が、ハードウェア・ターゲット(CPU並びにGPU及びFPGAなどのアクセラレータ)にわたってコードを再使用し、また、特定のアクセラレータのためのカスタム調整を実施することを可能にする。DPC++は、開発者が精通していることがあるISO C++に従う、同様の及び/又は同一のC及びC++構築物を使用する。DPC++は、データ並列処理及び異種プログラミングをサポートするためにクロノス・グループからの標準SYCLを組み込む。SYCLは、OpenCLの基礎をなす概念、ポータビリティ及び効率に基づく、クロスプラットフォーム抽象化層を指し、これは、異種プロセッサのためのコードが、標準C++を使用して「単一ソース」スタイルで書かれることを可能にする。SYCLは、C++テンプレート関数が、ホスト・コードとデバイス・コードの両方を含んでおり、OpenCL加速を使用する複雑なアルゴリズムを構築し、次いで、それらを、異なるタイプのデータに関するそれらのソース・コード全体にわたって再使用することができる、単一ソース開発を可能にし得る。
少なくとも1つの実施例では、DPC++コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るDPC++ソース・コードをコンパイルするために使用される。少なくとも1つの実施例では、DPC++コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るDPC++アプリケーションを生成するために使用され、DPC++互換性ツールは、CUDAアプリケーションをDPC++のマルチプラットフォーム・プログラムにマイグレートするために使用され得る。少なくとも1つの実施例では、DPC++ベース・ツール・キットは、多様なハードウェア・ターゲットにわたってアプリケーションを導入するためのDPC++コンパイラと、CPU、GPU、及びFPGAにわたって生産性及び性能を増加させるためのDPC++ライブラリと、CUDAアプリケーションをマルチプラットフォーム・アプリケーションにマイグレートするためのDPC++互換性ツールと、それらの任意の好適な組合せとを含む。
少なくとも1つの実施例では、DPC++プログラミング・モデルは、Data Parallel C++と呼ばれるプログラミング言語を用いて並列処理を表現するための現代のC++特徴を使用することによって、単に、CPU及びアクセラレータをプログラムすることに関係する1つ又は複数の態様に対して利用される。DPC++プログラミング言語は、ホスト(たとえば、CPU)及びアクセラレータ(たとえば、GPU又はFPGA)のためのコード再使用に対して利用され、単一のソース言語を使用し、実行及びメモリ依存性が明確に通信され得る。DPC++コード内でのマッピングは、アプリケーションを移行させて、ワークロードを最も良く加速するハードウェア又はハードウェア・デバイスのセット上で稼働するために、使用され得る。利用可能なアクセラレータを有しないプラットフォーム上でも、デバイス・コードの開発及びデバッギングを簡略化するために、ホストが利用可能であり得る。
少なくとも1つの実施例では、人間が読み取れるDPC++3504を生成するために、DPC++互換性ツール3502への入力として、CUDAソース・コード3500が提供される。少なくとも1つの実施例では、人間が読み取れるDPC++3504は、DPC++互換性ツール3502によって生成されたインライン・コメントを含み、これは、コーディングと所望の性能への調整とを完了3506するために、DPC++コードをどのように及び/又はどこで修正すべきかに関して開発者をガイドし、それにより、DPC++ソース・コード3508を生成する。少なくとも1つの実施例では、DPC++3504は、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、CUDAソース・コード3500は、CUDAプログラミング言語の人間が読み取れるソース・コードの集合であるか、又はその集合を含む。少なくとも1つの実施例では、CUDAソース・コード3500は、CUDAプログラミング言語の人間が読み取れるソース・コードである。少なくとも1つの実施例では、CUDAプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、C++プログラミング言語の拡張である。少なくとも1つの実施例では、デバイス・コードは、コンパイルの後に、デバイス(たとえば、GPU又はFPGA)上で実行可能であり、デバイスの1つ又は複数のプロセッサ・コア上で実行され得る、又はより並列化可能なワークフローを含み得る、ソース・コードである。少なくとも1つの実施例では、デバイスは、CUDA対応GPU、GPU、又は別のGPGPUなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも1つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも1つの実施例では、ホスト・コード及びデバイス・コードの一部又は全部は、CPU及びGPU/FPGAにわたって並列に実行され得る。少なくとも1つの実施例では、ホストは、CPUなど、連続命令処理のために最適化されるプロセッサである。図35に関して説明されるCUDAソース・コード3500は、本明細書の他の場所で説明されるCUDAソース・コードに従い得る。
少なくとも1つの実施例では、DPC++互換性ツール3502は、DPC++ソース・コード3508へのCUDAソース・コード3500のマイグレーションを容易にするために使用される、実行可能ツール、プログラム、アプリケーション、又は任意の他の好適なタイプのツールを指す。少なくとも1つの実施例では、DPC++互換性ツール3502は、既存のCUDAソースをDPC++に移植するために使用されるDPC++ツール・キットの一部として利用可能なコマンド・ライン・ベースのコード・マイグレーション・ツールである。少なくとも1つの実施例では、DPC++互換性ツール3502は、CUDAアプリケーションの一部又は全部のソース・コードをCUDAからDPC++にコンバートし、人間が読み取れるDPC++3504と呼ばれる、少なくとも部分的にDPC++で書かれる得られたファイルを生成する。少なくとも1つの実施例では、人間が読み取れるDPC++3504は、ユーザ介入がどこで必要であり得るかを示すためにDPC++互換性ツール3502によって生成されるコメントを含む。少なくとも1つの実施例では、ユーザ介入は、CUDAソース・コード3500が、類似するDPC++APIを有しないCUDA APIをコールするとき、必要であり、ユーザ介入が必要とされる他の実例は、後でより詳細に説明される。
少なくとも1つの実施例では、CUDAソース・コード3500(たとえば、アプリケーション又はそれの部分)をマイグレートするためのワークフローは、1つ又は複数のコンパイル・データベース・ファイルを作成することと、DPC++互換性ツール3502を使用してCUDAをDPC++にマイグレートすることと、マイグレーションを完了し、正当性を確認し、それにより、DPC++ソース・コード3508を生成することと、DPC++アプリケーションを生成するためにDPC++コンパイラを用いてDPC++ソース・コード3508をコンパイルすることとを含む。少なくとも1つの実施例では、互換性ツールは、Makefileが実行するときに使用されるコマンドをインターセプトし、それらをコンパイル・データベース・ファイルに記憶する、ユーティリティを提供する。少なくとも1つの実施例では、ファイルは、JSONフォーマットで記憶される。少なくとも1つの実施例では、intercept-builtコマンドは、MakefileコマンドをDPC互換性コマンドにコンバートする。
少なくとも1つの実施例では、intercept-buildは、ビルド・プロセスをインターセプトして、コンパイル・オプション、マクロ定義(macro defs)、及びインクルード・パス(include paths)をキャプチャし、このデータをコンパイル・データベース・ファイルに書き込む、ユーティリティ・スクリプトである。少なくとも1つの実施例では、コンパイル・データベース・ファイルは、JSONファイルである。少なくとも1つの実施例では、DPC++互換性ツール3502は、コンパイル・データベースを構文解析し、入力ソースをマイグレートするときにオプションを適用する。少なくとも1つの実施例では、intercept-buildの使用は、随意であるが、Make又はCMakeベースの環境について大いに推奨される。少なくとも1つの実施例では、マイグレーション・データベースは、コマンドとディレクトリとファイルとを含み、コマンドは、必要なコンパイル・フラグを含み得、ディレクトリは、ヘッダ・ファイルへのパスを含み得、ファイルは、CUDAファイルへのパスを含み得る。
少なくとも1つの実施例では、DPC++互換性ツール3502は、可能な場合はいつでもDPC++を生成することによって、CUDAで書かれたCUDAコード(たとえば、アプリケーション)をDPC++にマイグレートする。少なくとも1つの実施例では、DPC++互換性ツール3502は、ツール・キットの一部として利用可能である。少なくとも1つの実施例では、DPC++ツール・キットは、intercept-buildツールを含む。少なくとも1つの実施例では、intercept-builtツールは、CUDAファイルをマイグレートするためにコンパイル・コマンドをキャプチャするコンパイル・データベースを作成する。少なくとも1つの実施例では、intercept-builtツールによって生成されたコンパイル・データベースは、CUDAコードをDPC++にマイグレートするためにDPC++互換性ツール3502によって使用される。少なくとも1つの実施例では、非CUDA C++コード及びファイルは、そのままマイグレートされる。少なくとも1つの実施例では、DPC++互換性ツール3502は、人間が読み取れるDPC++3504を生成し、これは、DPC++互換性ツール3502によって生成されたとき、DPC++コンパイラによってコンパイルされないことがあり、正しくマイグレートされなかったコードの部分を確認するための追加のプラミング(plumbing)を必要とする、DPC++コードであり得、開発者によってなど、手動の介入を伴い得る。少なくとも1つの実施例では、DPC++互換性ツール3502は、自動的にマイグレートされないことがある追加のコードを開発者が手動でマイグレートするのを助けるために、コード中に埋め込まれたヒント又はツールを提供する。少なくとも1つの実施例では、マイグレーションは、ソース・ファイル、プロジェクト、又はアプリケーションのための1回のアクティビティである。
少なくとも1つの実施例では、DPC++互換性ツール35002は、CUDAコードのすべての部分をDPC++に正常にマイグレートすることが可能であり、単に、生成されたDPC++ソース・コードの性能を手動で確認及び調整するための随意のステップがあり得る。少なくとも1つの実施例では、DPC++互換性ツール3502は、DPC++互換性ツール3502によって生成されたDPC++コードを修正するための人間の介入を必要とするか又は利用することなしに、DPC++コンパイラによってコンパイルされるDPC++ソース・コード3508を直接生成する。少なくとも1つの実施例では、DPC++互換性ツールは、コンパイル可能なDPC++コードを生成し、これは、性能、読みやすさ、維持可能性、他の様々な考慮事項、又はそれらの任意の組合せについて、開発者によって随意に調整され得る。
少なくとも1つの実施例では、1つ又は複数のCUDAソース・ファイルは、少なくとも部分的にDPC++互換性ツール3502を使用してDPC++ソース・ファイルにマイグレートされる。少なくとも1つの実施例では、CUDAソース・コードは、CUDAヘッダ・ファイルを含み得る1つ又は複数のヘッダ・ファイルを含む。少なくとも1つの実施例では、CUDAソース・ファイルは、<cuda.h>ヘッダ・ファイルと、テキストをプリントするために使用され得る<stdio.h>ヘッダ・ファイルとを含む。少なくとも1つの実施例では、ベクトル加算カーネルCUDAソース・ファイルの一部分は、以下のように書かれるか、又は以下に関係し得る。

少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、DPC++互換性ツール3502は、CUDAソース・コードを構文解析し、ヘッダ・ファイルを、適切なDPC++ヘッダ・ファイル及びSYCLヘッダ・ファイルと置き換える。少なくとも1つの実施例では、DPC++ヘッダ・ファイルは、ヘルパー宣言(helper declaration)を含む。CUDAでは、スレッドIDの概念があり、対応して、DPC++又はSYCLでは、各要素について、ローカル識別子がある。
少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、初期化される2つのベクトルA及びBがあり、ベクトル加算結果が、VectorAddKernel()の一部として、ベクトルCに入れられる。少なくとも1つの実施例では、DPC++互換性ツール3502は、CUDAコードをDPC++コードにマイグレートすることの一部として、ワーク要素をインデックス付けするために使用されるCUDAスレッドIDを、ローカルIDを介したワーク要素のためのSYCL標準アドレッシングにコンバートする。少なくとも1つの実施例では、DPC++互換性ツール3502によって生成されたDPC++コードは、たとえば、nd_itemの次元を低減し、それにより、メモリ及び/又はプロセッサ利用率を増加させることによって、最適化され得る。
少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、メモリ割振りがマイグレートされる。少なくとも1つの実施例では、cudaMalloc()は、プラットフォーム、デバイス、コンテキスト、及びキューなど、SYCL概念に依拠して、デバイス及びコンテキストが渡される、統一共有メモリSYCLコールmalloc_device()にマイグレートされる。少なくとも1つの実施例では、SYCLプラットフォームは、複数のデバイス(たとえば、ホスト及びGPUデバイス)を有することができ、デバイスは、ジョブがサブミットされ得る複数のキューを有し得、各デバイスは、コンテキストを有し得、コンテキストは、複数のデバイスを有し、共有メモリ・オブジェクトを管理し得る。
少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、main()関数は、2つのベクトルAとBとを互いに加算し、結果をベクトルCに記憶するための、VectorAddKernel()を呼び出すか又はコールする。少なくとも1つの実施例では、VectorAddKernel()を呼び出すためのCUDAコードは、実行のためにカーネルをコマンド・キューにサブミットするためのDPC++コードによって置き換えられる。少なくとも1つの実施例では、コマンド・グループ・ハンドラcghは、キューにサブミットされる、データ、同期、及び算出を渡し、parallel_forは、VectorAddKernel()がコールされるワーク・グループ中の、グローバル要素の数及びワーク・アイテムの数についてコールされる。
少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、デバイス・メモリをコピーし、次いで、ベクトルA、B、及びCのためのメモリを解放するためのCUDAコールが、対応するDPC++コールにマイグレートされる。少なくとも1つの実施例では、C++コード(たとえば、浮動小数点変数のベクトルをプリントするための標準ISO C++コード)は、DPC++互換性ツール3502によって修正されることなしに、そのままマイグレートされる。少なくとも1つの実施例では、DPC++互換性ツール3502は、加速デバイス上でカーネルを実行するために、メモリ・セットアップ及び/又はホスト・コールのためのCUDA APIを修正する。少なくとも1つの実施例では、及び上記で提示されたCUDAソース・ファイルに関して、(たとえば、コンパイルされ得る)対応する人間が読み取れるDPC++3504は、以下のように書かれるか、又は以下に関係する。


少なくとも1つの実施例では、人間が読み取れるDPC++3504は、DPC++互換性ツール3502によって生成された出力を指し、ある様式又は別の様式で最適化され得る。少なくとも1つの実施例では、DPC++互換性ツール3502によって生成された人間が読み取れるDPC++3504は、それをより維持可能にすること、性能、又は他の考慮事項のために、マイグレーションの後に開発者によって手動で編集され得る。少なくとも1つの実施例では、開示されるDPC++などのDPC++互換性ツール35002によって生成されたDPC++コードは、各malloc_device()コールのためのget_current_device()及び/又はget_default_context()への繰返しコールを削除することによって最適化され得る。少なくとも1つの実施例では、上記で生成されるDPC++コードは、3次元のnd_rangeを使用し、これは、単一次元のみを使用し、それにより、メモリ使用量を低減するために、再ファクタ化され得る。少なくとも1つの実施例では、開発者は、DPC++互換性ツール3502によって生成されたDPC++コードを手動で編集し、統一共有メモリの使用をアクセッサと置き換えることができる。少なくとも1つの実施例では、DPC++互換性ツール3502は、それがCUDAコードをDPC++コードにどのようにマイグレートするかを変更するためのオプションを有する。少なくとも1つの実施例では、DPC++互換性ツール3502は、それが、CUDAコードを、多数の場合について機能するDPC++コードにマイグレートするための一般的なテンプレートを使用しているので、冗長である。
少なくとも1つの実施例では、CUDAからDPC++へのマイグレーション・ワークフローは、intercept-buildスクリプトを使用してマイグレーションの準備をするためのステップと、DPC++互換性ツール3502を使用してDPC++へのCUDAプロジェクトのマイグレーションを実施するためのステップと、完了及び正当性のために、マイグレートされたソース・ファイルを手動で検討及び編集するためのステップと、DPC++アプリケーションを生成するために最終DPC++コードをコンパイルするためのステップとを含む。少なくとも1つの実施例では、DPC++ソース・コードの手動の検討は、限定はしないが、マイグレートされたAPIがエラー・コードを返さないこと(CUDAコードは、エラー・コードを返すことができ、エラー・コードは、次いで、アプリケーションよって消費され得るが、SYCLは、エラーを報告するために例外を使用し、したがって、エラーを表面化させるためのエラー・コードを使用しない)、CUDAコンピュート能力依存論理がDPC++によってサポートされないこと、ステートメントが削除されないことがあることを含む、1つ又は複数のシナリオにおいて必要とされ得る。少なくとも1つの実施例では、DPC++コードが手動の介入を必要とするシナリオは、限定はしないが、エラー・コード論理が(*,0)コードと置き換えられるか又はコメント・アウトされる、等価なDPC++APIが利用可能でない、CUDAコンピュート能力依存論理、ハードウェア依存API(clock())、欠落した特徴、サポートされていないAPI、実行時間測定論理、組み込みベクトル・タイプ競合に対処すること、cuBLAS APIのマイグレーションなどを含み得る。
少なくとも1つの実施例では、本明細書で説明される1つ又は複数の技法は、oneAPIプログラミング・モデルを利用する。少なくとも1つの実施例では、oneAPIプログラミング・モデルは、様々なコンピュート・アクセラレータ・アーキテクチャと対話するためのプログラミング・モデルを指す。少なくとも1つの実施例では、oneAPIは、様々なコンピュート・アクセラレータ・アーキテクチャと対話するように設計されたアプリケーション・プログラミング・インターフェース(API)を指す。少なくとも1つの実施例では、oneAPIプログラミング・モデルは、DPC++プログラミング言語を利用する。少なくとも1つの実施例では、DPC++プログラミング言語は、データ並列プログラミング生産性のための高水準言語を指す。少なくとも1つの実施例では、DPC++プログラミング言語は、C及び/又はC++プログラミング言語に少なくとも部分的に基づく。少なくとも1つの実施例では、oneAPIプログラミング・モデルは、カリフォルニア州サンタクララのIntel Corporationによって開発されたものなどのプログラミング・モデルである。少なくとも1つの実施例では、oneAPI及び/又はoneAPIプログラミング・モデルは、少なくとも部分的に、図1~図3と併せて上記で説明された様々な構成要素及び/又は動作を備える及び/又は実施する。
少なくとも1つの実施例では、oneAPI及び/又はoneAPIプログラミング・モデルは、様々なアクセラレータ・アーキテクチャ、GPUアーキテクチャ、プロセッサ・アーキテクチャ、及び/又はそれらの変形形態のアーキテクチャと対話するために利用される。少なくとも1つの実施例では、oneAPIは、様々な機能性を実装するライブラリのセットを含む。少なくとも1つの実施例では、oneAPIは、少なくとも、oneAPI DPC++ライブラリ、oneAPIマス・カーネル・ライブラリ、oneAPIデータ分析ライブラリ、oneAPI深層ニューラル・ネットワーク・ライブラリ、oneAPI集合通信ライブラリ、oneAPIスレッディング・ビルディング・ブロック・ライブラリ、oneAPIビデオ処理ライブラリ、及び/又はそれらの変形形態を含む。
少なくとも1つの実施例では、oneDPLとも呼ばれるoneAPI DPC++ライブラリは、DPC++カーネル・プログラミングを加速するためのアルゴリズム及び機能を実装するライブラリである。少なくとも1つの実施例では、oneDPLは、1つ又は複数の標準テンプレート・ライブラリ(STL:standard template library)機能を実装する。少なくとも1つの実施例では、oneDPLは、1つ又は複数の並列STL機能を実装する。少なくとも1つの実施例では、oneDPLは、並列アルゴリズム、イテレーター、関数オブジェクト・クラス、範囲ベースのAPI、及び/又はそれらの変形形態など、ライブラリ・クラス及び関数のセットを提供する。少なくとも1つの実施例では、oneDPLは、C++標準ライブラリの1つ又は複数のクラス及び/又は関数を実装する。少なくとも1つの実施例では、oneDPLは、1つ又は複数の乱数生成器関数を実装する。
少なくとも1つの実施例では、oneMKLとも呼ばれるoneAPIマス・カーネル・ライブラリは、様々な数学関数及び/又は演算のための様々な最適化及び並列化されたルーチンを実装するライブラリである。少なくとも1つの実施例では、oneMKLは、1つ又は複数の基本線形代数サブプログラム(BLAS)及び/又は線形代数パッケージ(LAPACK:linear algebra package)高密度線形代数ルーチンを実装する。少なくとも1つの実施例では、oneMKLは、1つ又は複数のスパースBLAS線形代数ルーチンを実装する。少なくとも1つの実施例では、oneMKLは、1つ又は複数の乱数生成器(RNG:random number generator)を実装する。少なくとも1つの実施例では、oneMKLは、ベクトルに関する数学演算のための1つ又は複数のベクトル数学(VM:vector mathematics)ルーチンを実装する。少なくとも1つの実施例では、oneMKLは、1つ又は複数の高速フーリエ変換(FFT)関数を実装する。
少なくとも1つの実施例では、oneDALとも呼ばれるoneAPIデータ分析ライブラリは、様々なデータ分析アプリケーション及び分散算出を実装するライブラリである。少なくとも1つの実施例では、oneDALは、バッチ、オンライン、及び算出の分散処理モードにおける、データ分析のための前処理、変換、分析、モデリング、確認、及び意思決定のための、様々なアルゴリズムを実装する。少なくとも1つの実施例では、oneDALは、様々なC++及び/又はJava APIと、1つ又は複数のデータ・ソースへの様々なコネクタとを実装する。少なくとも1つの実施例では、oneDALは、旧来のC++インターフェースに対するDPC++API拡張を実装し、様々なアルゴリズムのためのGPU使用を可能にする。
少なくとも1つの実施例では、oneDNNとも呼ばれるoneAPI深層ニューラル・ネットワーク・ライブラリは、様々な深層学習機能を実装するライブラリである。少なくとも1つの実施例では、oneDNNは、様々なニューラル・ネットワーク、機械学習、及び深層学習機能、アルゴリズム、並びに/又はそれらの変形形態を実装する。
少なくとも1つの実施例では、oneCCLとも呼ばれるoneAPI集合通信ライブラリは、深層学習及び機械学習ワークロードのための様々なアプリケーションを実装するライブラリである。少なくとも1つの実施例では、oneCCLは、メッセージ・パッシング・インターフェース(MPI:message passing interface)及びlibfabricなど、下位レベル通信ミドルウェア上に築かれる。少なくとも1つの実施例では、oneCCLは、優先順位、永続的な動作、アウト・オブ・オーダー実行、及び/又はそれらの変形形態など、深層学習固有の最適化のセットを可能にする。少なくとも1つの実施例では、oneCCLは、様々なCPU及びGPU機能を実装する。
少なくとも1つの実施例では、oneTBBとも呼ばれるoneAPIスレッディング・ビルディング・ブロック・ライブラリは、様々なアプリケーションのための様々な並列化されたプロセスを実装するライブラリである。少なくとも1つの実施例では、oneTBBは、ホスト上でのタスク・ベース共有並列プログラミングのために利用される。少なくとも1つの実施例では、oneTBBは、一般並列アルゴリズムを実装する。少なくとも1つの実施例では、oneTBBは、同時コンテナを実装する。少なくとも1つの実施例では、oneTBBは、スケーラブル・メモリ・アロケータを実装する。少なくとも1つの実施例では、oneTBBは、ワークスティーリング(work-stealing)・タスク・スケジューラを実装する。少なくとも1つの実施例では、oneTBBは、低レベル同期プリミティブを実装する。少なくとも1つの実施例では、oneTBBは、コンパイラ依存せず、GPU、PPU、CPU、及び/又はそれらの変形形態など、様々なプロセッサ上で使用可能である。
少なくとも1つの実施例では、oneVPLとも呼ばれるoneAPIビデオ処理ライブラリは、1つ又は複数のアプリケーションにおけるビデオ処理を加速するために利用されるライブラリである。少なくとも1つの実施例では、oneVPLは、様々なビデオ復号、符号化、及び処理機能を実装する。少なくとも1つの実施例では、oneVPLは、CPU、GPU、及び他のアクセラレータ上のメディア・パイプラインのための様々な機能を実装する。少なくとも1つの実施例では、oneVPLは、メディア中心及びビデオ分析ワークロードにおけるデバイス発見及び選択を実装する。少なくとも1つの実施例では、oneVPLは、ゼロコピー・バッファ共有のためのAPIプリミティブを実装する。
少なくとも1つの実施例では、oneAPIプログラミング・モデルは、DPC++プログラミング言語を利用する。少なくとも1つの実施例では、DPC++プログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための、機能的に同様のバージョンのCUDA機構を含むプログラミング言語である。少なくとも1つの実施例では、DPC++プログラミング言語は、CUDAプログラミング言語の機能性のサブセットを含み得る。少なくとも1つの実施例では、1つ又は複数のCUDAプログラミング・モデル動作は、DPC++プログラミング言語を使用するoneAPIプログラミング・モデルを使用して実施される。
本明細書で説明される例示的な実施例はCUDAプログラミング・モデルに関し得るが、本明細書で説明される技法は、任意の好適なプログラミング・モデル、そのようなHIP、oneAPI(たとえば、本明細書で開示される方法を実施又は実装するためにoneAPIベース・プログラミングを使用する)、及び/又はそれらの変形形態とともに利用され得ることに留意されたい。
少なくとも1つの実施例では、上記で開示されたシステム及び/又はプロセッサの1つ又は複数の構成要素は、たとえば、画像をアップスケールするためのアップスケーラ又はアップサンプラ、画像を一緒にブレンド、ミックス、又は加算するための画像ブレンダ又は画像ブレンダ構成要素、(たとえば、DSPの一部として)画像をサンプリングするためのサンプラ、(たとえば、低解像度画像から高解像度画像に)画像をアップスケールするためのアップスケーラを実施するように構成されたニューラル・ネットワーク回路、或いは、画像、フレーム、又はビデオを、それの解像度、サイズ、又はピクセルを調整するために、修正又は生成するための他のハードウェアを含む、1つ又は複数のCPU、ASIC、GPU、FPGA、或いは他のハードウェア、回路要素、又は集積回路構成要素と通信することができ、上記で開示されたシステム及び/又はプロセッサの1つ又は複数の構成要素は、画像を生成又は修正する方法、動作、又は命令を実施するために、本開示で説明される構成要素を使用することができる。
本開示の少なくとも1つの実施例は、以下の条項を考慮して説明され得る。
1. アプリケーション・プログラミング・インターフェース(API)とともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するためにAPIを実施するための1つ又は複数の回路
を備える、プロセッサ。
2. APIが、少なくとも、APIに示された機能のバージョンに少なくとも部分的に基づいて機能の1つ又は複数の命令のメモリ中のロケーションを示すことによって、1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するためのものである、条項1に記載のプロセッサ。
3. APIが、1つ又は複数のバージョンを示すための1つ又は複数のデータ値を受信するためのものである、条項1又は2に記載のプロセッサ。
4. APIが、ベース名を示すための1つ又は複数の第1のデータ値と、1つ又は複数のバージョンを示すための1つ又は複数の第2のデータ値とを受信するためのものである、条項1から3までのいずれか一項に記載のプロセッサ。
5. 1つ又は複数のライブラリが、1つ又は複数の回路によって実施されるべきランタイム・ライブラリである、条項1から4までのいずれか一項に記載のプロセッサ。
6. 1つ又は複数のライブラリが、1つ又は複数の回路によって実施されるべきドライバである、条項1から5までのいずれか一項に記載のプロセッサ。
7. アプリケーション・プログラミング・インターフェース(API)とともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するためにAPIを実施するための1つ又は複数のプロセッサ
を備える、システム。
8. APIが、少なくとも、APIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを実施するための1つ又は複数の命令の1つ又は複数のメモリ・ロケーションを示すことによって、1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するためのものである、条項7に記載のシステム。
9. 1つ又は複数のバージョンを識別するためにAPIによって使用されるべきベース名とバージョン番号とを示す1つ又は複数のデータ値をさらに備える、条項7又は8に記載のシステム。
10. APIが、少なくとも名前値と数値とを示すためのデータを含む1つ又は複数のパラメータを受信するためのものであり、名前値と数値とが、1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するためにAPIによって使用されるためのものである、条項7から9までのいずれか一項に記載のシステム。
11. 1つ又は複数のライブラリが、1つ又は複数のプロセッサによって実施されるべきドライバである、条項7から10までのいずれか一項に記載のシステム。
12. 1つ又は複数のライブラリが、1つ又は複数のプロセッサによって実施されるべきランタイム・ライブラリである、条項7から11までのいずれか一項に記載のシステム。
13. 1つ又は複数のプロセッサによって少なくとも部分的に実施された場合、1つ又は複数のプロセッサに、少なくとも、
1つ又は複数のアプリケーション・プログラミング・インターフェース(API)とともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別すること
を行わせる1つ又は複数のAPIを記憶した機械可読媒体。
14. 1つ又は複数のプロセッサによって実施された場合、1つ又は複数のプロセッサに、1つ又は複数のAPIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別することを行わせる1つ又は複数の命令をさらに備え、データ値が、1つ又は複数のバージョンを識別するために使用可能な名前を示すための情報を含む、条項13に記載の機械可読媒体。
15. 1つ又は複数のプロセッサによって実施された場合、1つ又は複数のプロセッサに、1つ又は複数のAPIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別することを行わせる1つ又は複数の命令をさらに備え、データ値が、1つ又は複数のバージョンを識別するために使用可能な数値を示すための情報を含む、条項13又は14に記載の機械可読媒体。
16. 1つ又は複数のAPIが、1つ又は複数のAPIに示された1つ又は複数のパラメータに少なくとも部分的に基づいて1つ又は複数のバージョンを識別するためのものである、条項13から15までのいずれか一項に記載の機械可読媒体。
17. 1つ又は複数のAPIは、1つ又は複数のプロセッサが、少なくとも、1つ又は複数の命令のメモリ中のロケーションを示すことによって、1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別することを引き起こすためのものである、条項13から16までのいずれか一項に記載の機械可読媒体。
18. 1つ又は複数のライブラリが、1つ又は複数のプロセッサによって実施されるべきドライバである、条項13から17までのいずれか一項に記載の機械可読媒体。
19. アプリケーション・プログラミング・インターフェース(API)に応答して、APIとともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するステップ
を含む、方法。
20. 1つ又は複数のバージョンが、APIへの1つ又は複数のパラメータに少なくとも部分的に基づいて識別されるためのものであり、1つ又は複数のパラメータが、1つ又は複数のバージョンを識別するために使用可能な少なくともストリングを示すためのデータを含む、条項19に記載の方法。
21. 1つ又は複数のバージョンが、APIへの1つ又は複数のパラメータに少なくとも部分的に基づいて識別されるためのものであり、1つ又は複数のパラメータが、1つ又は複数のバージョンを識別するために使用可能な少なくとも数値を示すためのデータを含む、条項19又は20に記載の方法。
22. APIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンの1つ又は複数の命令のメモリ中のロケーションを示すことによって、1つ又は複数のバージョンを識別するステップをさらに含む、条項19から21までのいずれか一項に記載の方法。
23. 1つ又は複数の部分が、APIとともに1つ又は複数のソフトウェア・プログラムによって実施されるべき命令の1つ又は複数のセットを含む、条項19から22までのいずれか一項に記載の方法。
24. 1つ又は複数のライブラリが、実行された場合、APIを実施する命令を備えるランタイム・ライブラリである、条項19から23までのいずれか一項に記載の方法。
25. 1つ又は複数のライブラリがドライバであり、ドライバが、APIを実施するための1つ又は複数の命令を備える、条項19から24までのいずれか一項に記載の方法。
他の変形形態は、本開示の範囲内にある。したがって、開示される技法は、様々な修正及び代替構築が可能であるが、それらのいくつかの例示的な実施例が図面に示され、上記で詳細に説明された。しかしながら、特定の1つ又は複数の開示された形態に本開示を限定する意図はなく、その反対に、添付の特許請求の範囲において定義されるように、開示の趣旨及び範囲に入るすべての修正形態、代替構築、及び等価物を網羅することを意図していることが理解されるべきである。
開示される実施例を説明する文脈において(特に、以下の特許請求の範囲の文脈において)「a」及び「an」及び「the」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「含む、備える(comprising)」、「有する(having)」、「含む(including)」、「含んでいる(containing)」という用語は、別段の記載のない限り、オープンエンドの用語(「限定はしないが、~を含む(including, but not limited to,)」を意味する)と解釈されるべきである。「接続される」という用語は、修飾されず、物理的接続を指しているとき、何か介在するものがある場合でも、部分的に又は完全に中に含まれているか、取り付けられるか、又は互いに接合されるものとして解釈されるべきである。本明細書で値の範囲を詳述することは、本明細書に別段の記載のない限り、及び各別個の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に入る各別個の値を個々に参照する簡潔な方法として働くことを単に意図しているにすぎない。「セット」(たとえば、「項目のセット」)又は「サブセット」という用語の使用は、文脈によって別段の記載がないか又は否定されない限り、1つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がないか又は否定されない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すとは限らず、サブセットと、対応するセットとは、等しくなり得る。
「A、B、及びCのうちの少なくとも1つ」又は「A、B及びCのうちの少なくとも1つ」という形態の言い回しなどの結合語は、別段の具体的な記載がないか又はさもなければ文脈によって明確に否定されない限り、別様に、項目、用語などが、A又はB又はCのいずれか、或いはAとBとCとのセットの任意の空でないサブセットであり得ることを提示するために一般に使用される文脈で、理解される。たとえば、3つの部材を有するセットの説明的な実例では、「A、B、及びCのうちの少なくとも1つ」並びに「A、B及びCのうちの少なくとも1つ」という結合句は、次のセットのうちのいずれかを指す:{A}、{B}、{C}、{A、B}、{A、C}、{B、C}、{A、B、C}。したがって、そのような結合語は、いくつかの実施例が、Aのうちの少なくとも1つ、Bのうちの少なくとも1つ、及びCのうちの少なくとも1つの各々が存在することを必要とすることを全体的に暗示するものではない。さらに、別段の記載がないか又は文脈によって否定されない限り、「複数(plurality)」という用語は、複数である状態を示す(たとえば、「複数の項目(a plurality of items)」は複数の項目(multiple items)を示す)。複数である項目の数は、少なくとも2つであるが、明示的に、又は文脈によってのいずれかでそのように示されているとき、それよりも多いことがある。さらに、別段の記載がないか又はさもなければ文脈から明らかでない限り、「~に基づいて」という言い回しは、「少なくとも部分的に~に基づいて」を意味し、「~のみに基づいて」を意味しない。
本明細書で説明されるプロセスの動作は、本明細書に別段の記載がないか又はさもなければ文脈によって明確に否定されない限り、任意の好適な順序で実施され得る。少なくとも1つの実施例では、本明細書で説明されるプロセス(又はその変形形態及び/又は組合せ)などのプロセスは、実行可能命令で構成された1つ又は複数のコンピュータ・システムの制御下で実施され、1つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行するコード(たとえば、実行可能命令、1つ又は複数のコンピュータ・プログラム、又は1つ又は複数のアプリケーション)として実装される。少なくとも1つの実施例では、コードは、たとえば、1つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形態で、コンピュータ可読記憶媒体に記憶される。少なくとも1つの実施例では、コンピュータ可読記憶媒体は、一時的信号(たとえば、伝搬する一時的な電気又は電磁送信)を除外するが、一時的信号のトランシーバ内の非一時的データ・ストレージ回路要素(たとえば、バッファ、キャッシュ、及びキュー)を含む非一時的コンピュータ可読記憶媒体である。少なくとも1つの実施例では、コード(たとえば、実行可能コード又はソース・コード)は、1つ又は複数の非一時的コンピュータ可読記憶媒体のセットに記憶され、この記憶媒体は、コンピュータ・システムの1つ又は複数のプロセッサによって実行されたときに(たとえば、実行された結果として)、コンピュータ・システムに本明細書で説明される動作を実施させる実行可能命令を記憶している(又は、実行可能命令を記憶するための他のメモリを有する)。非一時的コンピュータ可読記憶媒体のセットは、少なくとも1つの実施例では、複数の非一時的コンピュータ可読記憶媒体を備え、複数の非一時的コンピュータ可読記憶媒体の個々の非一時的記憶媒体のうちの1つ又は複数は、コードのすべてがないが、複数の非一時的コンピュータ可読記憶媒体は、集合的にコードのすべてを記憶している。少なくとも1つの実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的コンピュータ可読記憶媒体は命令を記憶し、メイン中央処理ユニット(「CPU」)は命令のいくつかを実行し、グラフィックス処理ユニット(「GPU」)は他の命令を実行する。少なくとも1つの実施例では、コンピュータ・システムの異なる構成要素は、別個のプロセッサを有し、異なるプロセッサが命令の異なるサブセットを実行する。
したがって、少なくとも1つの実施例では、コンピュータ・システムは、本明細書で説明されるプロセスの動作を単独で又は集合的に実施する1つ又は複数のサービスを実装するように構成され、そのようなコンピュータ・システムは、動作の実施を可能にする適用可能なハードウェア及び/又はソフトウェアで構成される。さらに、本開示の少なくとも1つの実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、分散型コンピュータ・システムが本明細書で説明される動作を実施するように、及び単一のデバイスがすべての動作を実施しないように、異なるやり方で動作する複数のデバイスを備える分散型コンピュータ・システムである。
本明細書で提供されるあらゆる実例、又は例示的な言葉(たとえば、「など、などの(such as)」)の使用は、本開示の実施例をより明らかにすることのみを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。
本明細書で引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることが個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。
明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用され得る。これらの用語は、互いに同義語として意図されていないことがあることが理解されるべきである。むしろ、特定の実例では、「接続される」又は「結合される」は、2つ又はそれ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用され得る。「結合される」はまた、2つ又はそれ以上の要素が直接互いに接触していないが、それでもなお互いに連動又は対話することを意味し得る。
別段の具体的な記載がない限り、明細書全体を通して、「処理する(processing)」、「算出する(computing)」、「計算する(calculating)」、又は「決定する(determining)」などの用語は、コンピューティング・システムのレジスタ及び/又はメモリ内の、電子的などの物理的な量として表されるデータを、コンピューティング・システムのメモリ、レジスタ又は他のそのような情報ストレージ、送信、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるように操作及び/又は変換する、コンピュータ又はコンピューティング・システム、或いは同様の電子コンピューティング・デバイスのアクション及び/又はプロセスを指すことが諒解され得る。
同様に、「プロセッサ」という用語は、レジスタ及び/又はメモリからの電子データを処理し、その電子データを、レジスタ及び/又はメモリに記憶され得る他の電子データに変換する任意のデバイス、又はデバイスの一部分を指し得る。非限定的な実例として、「プロセッサ」は、CPU又はGPUであり得る。「コンピューティング・プラットフォーム」は、1つ又は複数のプロセッサを備え得る。本明細書で使用される「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実施するソフトウェア及び/又はハードウェア・エンティティを含み得る。また、各プロセスは、命令を直列で又は並列で、連続的に又は断続的に行うための複数のプロセスを指し得る。「システム」及び「方法」という用語は、1つ又は複数の方法をシステムが具体化し得、方法がシステムと考えられ得る場合に限り、本明細書において交換可能に使用される。
少なくとも1つの実施例では、算術論理ユニットは、結果を作り出すために1つ又は複数の入力をとる組合せ論理回路要素のセットである。少なくとも1つの実施例では、算術論理ユニットは、加算、減算、又は乗算などの数学演算を実装するためにプロセッサによって使用される。少なくとも1つの実施例では、算術論理ユニットは、論理AND/OR又はXORなどの論理演算を実装するために使用される。少なくとも1つの実施例では、算術論理ユニットは、ステートレスであり、論理ゲートを形成するように構成された半導体トランジスタなど、物理的切替え構成要素から作られる。少なくとも1つの実施例では、算術論理ユニットは、関連するクロックをもつステートフル論理回路として、内部で動作し得る。少なくとも1つの実施例では、算術論理ユニットは、関連するレジスタ・セット中で維持されない内部状態をもつ非同期論理回路として構築され得る。少なくとも1つの実施例では、算術論理ユニットは、プロセッサの1つ又は複数のレジスタに記憶されたオペランドを組み合わせ、別のレジスタ又はメモリ・ロケーションにプロセッサによって記憶され得る出力を作り出すために、プロセッサによって使用される。
少なくとも1つの実施例では、プロセッサによって取り出された命令を処理した結果として、プロセッサは、1つ又は複数の入力又はオペランドを算術論理ユニットに提示し、算術論理ユニットに、算術論理ユニットの入力に提供された命令コードに少なくとも部分的に基づく結果を作り出させる。少なくとも1つの実施例では、プロセッサによってALUに提供された命令コードは、プロセッサによって実行された命令に少なくとも部分的に基づく。少なくとも1つの実施例では、ALUにおける組合せ論理は、入力を処理し、プロセッサ内のバス上に置かれる出力を作り出す。少なくとも1つの実施例では、プロセッサは、プロセッサをクロック制御することにより、ALUによって作り出された結果が所望のロケーションに送出されるように、宛先レジスタ、メモリ・ロケーション、出力デバイス、又は出力バス上の出力ストレージ・ロケーションを選択する。
本明細書では、アナログ・データ又はデジタル・データを取得すること、獲得すること、受信すること、或いはそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及し得る。アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、機能コール、又はアプリケーション・プログラミング・インターフェースへのコールのパラメータとしてデータを受信することによってなど、様々なやり方で実現され得る。いくつかの実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、直列又は並列インターフェースを介してデータを転送することによって実現され得る。別の実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、提供するエンティティから獲得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現され得る。アナログ・データ又はデジタル・データを提供すること、出力すること、送信すること、送出すること、又は提示することにも言及し得る。様々な実例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送出する、又は提示するプロセスは、機能コールの入力又は出力パラメータ、アプリケーション・プログラミング・インターフェース又はプロセス間通信機構のパラメータとしてデータを転送することによって実現され得る。
上記の説明は、説明された技法の例示的な実装形態について述べているが、他のアーキテクチャが、説明された機能性を実装するために使用され得、本開示の範囲内にあることが意図される。さらに、説明を目的として、責任の具体的な分散が上記で定義されたが、様々な機能及び責任は、状況に応じて異なるやり方で分散及び分割され得る。
さらに、主題は、構造的特徴及び/又は方法論的行為に特有の言語で説明されたが、添付の特許請求の範囲で特許請求される主題は、説明された特有の特徴又は行為に必ずしも限定されるとは限らないことが理解されるべきである。むしろ、特有の特徴及び行為は、特許請求の範囲を実装する例示的な形態として開示される。

Claims (25)

  1. アプリケーション・プログラミング・インターフェース(API)とともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別する前記APIを実施する1つ又は複数の回路
    を備える、プロセッサ。
  2. 前記APIが、前記APIに示された機能のバージョンに少なくとも部分的に基づいて前記機能の1つ又は複数の命令のメモリ中のロケーションを少なくとも示すことによって、前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別する、請求項1に記載のプロセッサ。
  3. 前記APIが、前記1つ又は複数のバージョンを示すための1つ又は複数のデータ値を受信する、請求項1に記載のプロセッサ。
  4. 前記APIが、ベース名を示すための1つ又は複数の第1のデータ値と、前記1つ又は複数のバージョンを示すための1つ又は複数の第2のデータ値とを受信する、請求項1に記載のプロセッサ。
  5. 前記1つ又は複数のライブラリが、前記1つ又は複数の回路によって実施されるべきランタイム・ライブラリである、請求項1に記載のプロセッサ。
  6. 前記1つ又は複数のライブラリが、前記1つ又は複数の回路によって実施されるべきドライバである、請求項1に記載のプロセッサ。
  7. アプリケーション・プログラミング・インターフェース(API)とともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別する前記APIを実施する1つ又は複数のプロセッサ
    を備える、システム。
  8. 前記APIが、前記APIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを実施するための1つ又は複数の命令の1つ又は複数のメモリ・ロケーションを少なくとも示すことによって、前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別する、請求項7に記載のシステム。
  9. 前記1つ又は複数のバージョンを識別するために前記APIによって使用されるべきベース名とバージョン番号とを示す1つ又は複数のデータ値をさらに含む、請求項7に記載のシステム。
  10. 前記APIが、少なくとも名前値と数値とを示すためのデータを含む1つ又は複数のパラメータを受信し、前記名前値と前記数値とが、前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別するために前記APIによって使用される、請求項7に記載のシステム。
  11. 前記1つ又は複数のライブラリが、前記1つ又は複数のプロセッサによって実施されるべきドライバである、請求項7に記載のシステム。
  12. 前記1つ又は複数のライブラリが、前記1つ又は複数のプロセッサによって実施されるべきランタイム・ライブラリである、請求項7に記載のシステム。
  13. 1つ又は複数のアプリケーション・プログラミング・インターフェース(API)を記憶した機械可読媒体であって、前記1つ又は複数のAPIが、1つ又は複数のプロセッサによって少なくとも部分的に実施される場合、前記1つ又は複数のプロセッサに、少なくとも、
    前記1つ又は複数のAPIとともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別させる、機械可読媒体。
  14. 前記1つ又は複数のプロセッサによって実施される場合、前記1つ又は複数のプロセッサに、前記1つ又は複数のAPIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別させる1つ又は複数の命令をさらに含み、前記データ値が、前記1つ又は複数のバージョンを識別するために使用可能な名前を示すための情報を含む、請求項13に記載の機械可読媒体。
  15. 前記1つ又は複数のプロセッサによって実施される場合、前記1つ又は複数のプロセッサに、前記1つ又は複数のAPIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別させる1つ又は複数の命令をさらに含み、前記データ値が、前記1つ又は複数のバージョンを識別するために使用可能な数値を示すための情報を含む、請求項13に記載の機械可読媒体。
  16. 前記1つ又は複数のAPIが、前記1つ又は複数のAPIに示された1つ又は複数のパラメータに少なくとも部分的に基づいて前記1つ又は複数のバージョンを識別する、請求項13に記載の機械可読媒体。
  17. 前記1つ又は複数のAPIが、前記1つ又は複数のプロセッサに、1つ又は複数の命令のメモリ中のロケーションを少なくとも示すことによって、前記1つ又は複数のライブラリの前記1つ又は複数の部分の前記1つ又は複数のバージョンを識別させる、請求項13に記載の機械可読媒体。
  18. 前記1つ又は複数のライブラリが、前記1つ又は複数のプロセッサによって実施されるべきドライバである、請求項13に記載の機械可読媒体。
  19. アプリケーション・プログラミング・インターフェース(API)に応答して、前記APIとともに使用されるべき1つ又は複数のライブラリの1つ又は複数の部分の1つ又は複数のバージョンを識別するステップ
    を含む、方法。
  20. 前記1つ又は複数のバージョンが、前記APIへの1つ又は複数のパラメータに少なくとも部分的に基づいて識別され、前記1つ又は複数のパラメータが、前記1つ又は複数のバージョンを識別するために使用可能な少なくとも1つのストリングを示すためのデータを含む、請求項19に記載の方法。
  21. 前記1つ又は複数のバージョンが、前記APIへの1つ又は複数のパラメータに少なくとも部分的に基づいて識別され、前記1つ又は複数のパラメータが、前記1つ又は複数のバージョンを識別するために使用可能な少なくとも1つの数値を示すためのデータを含む、請求項19に記載の方法。
  22. 前記APIに示された1つ又は複数のデータ値に少なくとも部分的に基づいて1つ又は複数のライブラリの1つ又は複数の部分の前記1つ又は複数のバージョンの1つ又は複数の命令のメモリ中のロケーションを示すことによって、前記1つ又は複数のバージョンを識別するステップをさらに含む、請求項19に記載の方法。
  23. 前記1つ又は複数の部分が、前記APIとともに1つ又は複数のソフトウェア・プログラムによって実施されるべき命令の1つ又は複数のセットを含む、請求項19に記載の方法。
  24. 前記1つ又は複数のライブラリが、実行される場合、前記APIを実施する命令を含むランタイム・ライブラリである、請求項19に記載の方法。
  25. 前記1つ又は複数のライブラリがドライバであり、前記ドライバが、前記APIを実施するための1つ又は複数の命令を含む、請求項19に記載の方法。
JP2022525575A 2021-04-14 2022-04-13 機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース Pending JP2024514369A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163175013P 2021-04-14 2021-04-14
US63/175,013 2021-04-14
PCT/US2022/024696 WO2022221460A1 (en) 2021-04-14 2022-04-13 Application programming interface to identify function versions

Publications (1)

Publication Number Publication Date
JP2024514369A true JP2024514369A (ja) 2024-04-02

Family

ID=81648251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022525575A Pending JP2024514369A (ja) 2021-04-14 2022-04-13 機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース

Country Status (5)

Country Link
JP (1) JP2024514369A (ja)
KR (1) KR20220142997A (ja)
CN (1) CN115917502A (ja)
DE (1) DE112022000413T5 (ja)
WO (1) WO2022221460A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853094B2 (en) * 2018-10-23 2020-12-01 EMC IP Holding Company, LLC Dynamically downloadable distributed data deduplication library

Also Published As

Publication number Publication date
CN115917502A (zh) 2023-04-04
WO2022221460A1 (en) 2022-10-20
KR20220142997A (ko) 2022-10-24
DE112022000413T5 (de) 2023-10-05

Similar Documents

Publication Publication Date Title
US20240086491A1 (en) Application programming interface to accelerate matrix operations
JP2024519231A (ja) 行列値指示を実施すること
US20220334891A1 (en) Application programming interface to modify incomplete graph code
US20230305853A1 (en) Application programming interface to perform operation with reusable thread
US20230176933A1 (en) Techniques for modifying graph code
US20230185706A1 (en) Asynchronous memory deallocation
US20230185634A1 (en) Application programming interface to cause graph code to update a semaphore
JP2024513617A (ja) コードを同時に起動すること
US20240095024A1 (en) Program code versions
US20240168763A1 (en) Application programming interface to indicate operations to be performed by corresponding streaming multiprocessors
US20240143402A1 (en) Application programming interface to indicate operations
US20220334900A1 (en) Application programming interface to indicate increased resource usage
US20230224239A1 (en) Network multicasting using alternate sets of directives
US20240036957A1 (en) Application programming interface to share memory between groups of blocks of threads
US20240168799A1 (en) Graph modification
US20230185612A1 (en) Asynchronous memory allocation
US20240078185A1 (en) Using parallel processor(s) to process packets in real-time
US20230185641A1 (en) Application programming interface to store portions of an image
US20230185642A1 (en) Application programming interface to retrieve portions of an image
US20230221960A1 (en) Location agnostic data access
US20230244549A1 (en) Application programming interface to cause graph code to wait on a semaphore
US20230111125A1 (en) Application programming interface for scan operations
JP2024514369A (ja) 機能バージョンを識別するためのアプリケーション・プログラミング・インターフェース
JP2024514371A (ja) 不完全なグラフ・コードの位置を特定するためのアプリケーション・プログラミング・インターフェース
JP2024513616A (ja) メモリを特定するためのアプリケーション・プログラミング・インターフェース

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240314