DE112022000373T5

DE112022000373T5 - Application programming interface for monitoring resource usage

Info

Publication number: DE112022000373T5
Application number: DE112022000373.1T
Authority: DE
Inventors: David Anthony Fontaine; John Bachan; Ke Wen; Yang Xu
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2021-04-14
Filing date: 2022-04-14
Publication date: 2023-10-19
Also published as: GB202207088D0; GB2617868A; JP2024514370A; KR20220143635A; CN115698960A

Abstract

Vorrichtungen, Systeme und Techniken zum Erzeugen einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden eine oder mehrere Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind, erzeugt, z. B. auf der Grundlage von CUDA oder anderem Parallelrechenplattformcode.Apparatus, systems and techniques for creating one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more data structures to be used to monitor the use of information by a computer program are created, e.g. B. based on CUDA or other parallel computing platform code.

Description

QUERREFERENZ AUF VERWANDTE ANMELDUNGENCROSS REFERENCE TO RELATED APPLICATIONS

Diese Anmeldung beansprucht den Vorteil der U.S. Provisional Application Nr. 63/174,999 mit dem Titel „REFERENCE COUNTED DESTRUCTORS“, eingereicht am 14. April 2021 (Anwaltsakte Nr. 0112912-270PR0); der U.S. Patentanmeldung Nr. 17/720,231 mit dem Titel „APPLICATION PROGRAMMING INTERFACE TO MONITOR RESOURCE USAGE“, eingereicht am 13. April 2022 (Anwaltsakte Nr. 0112912-270US0); der U.S. Patentanmeldung Nr. 17/720,234 , mit dem Titel „APPLICATION PROGRAMMING INTERFACE TO INDICATE INCREASED RESOURCE USAGE“, eingereicht am 13. April 2022 (Anwaltsakte Nr. 0112912-505US0); und der U.S. Patentanmeldung Nr. 17/720,236 mit dem Titel „APPLICATION PROGRAMMING INTERFACE TO INDICATE REDUCED RESOURCE USAGE“, eingereicht am 13. April 2022 (Anwaltsakte Nr. 0112912-506US0), deren gesamter Inhalt durch Bezugnahme hierin aufgenommen wird.This application claims the benefit of US Provisional Application No. 63/174,999 entitled “REFERENCE COUNTED DESTRUCTORS,” filed April 14, 2021 (Attorney File No. 0112912-270PR0); US patent application no. 17/720,231 entitled “APPLICATION PROGRAMMING INTERFACE TO MONITOR RESOURCE USAGE,” filed April 13, 2022 (Attorney File No. 0112912-270US0); US patent application no. 17/720,234 , entitled “APPLICATION PROGRAMMING INTERFACE TO INDICATE INCREASED RESOURCE USAGE,” filed April 13, 2022 (Attorney Docket No. 0112912-505US0); and US Patent Application No. 17/720,236 entitled “APPLICATION PROGRAMMING INTERFACE TO INDICATE REDUCED RESOURCE USAGE,” filed April 13, 2022 (Attorney Docket No. 0112912-506US0), the entire contents of which are incorporated herein by reference.

GEBIETAREA

Mindestens eine Ausführungsform bezieht sich auf Verarbeitungsressourcen, die zum Überwachen der Verwendung von Computerprogrammressourcen verwendet werden. Zum Beispiel bezieht sich mindestens eine Ausführungsform auf Prozessoren oder Computersysteme, die zum Überwachen der Verwendung von Computerprogrammressourcen verwendet werden und verschiedene hierin beschriebene neue Techniken implementieren.At least one embodiment relates to processing resources used to monitor the usage of computer program resources. For example, at least one embodiment relates to processors or computer systems used to monitor the usage of computer program resources and implementing various new techniques described herein.

HINTERGRUNDBACKGROUND

Die Überwachung der Verwendung von Computerprogrammressourcen kann schwierig sein, da die Ressourcen für verschiedene Operationen verwendet werden können. Techniken zum Überwachen der Verwendung von Computerprogrammressourcen können daher durch den Einsatz von CUDA oder anderem Parallelrechenplattformcode verbessert werden.Monitoring the use of computer program resources can be difficult because the resources can be used for various operations. Techniques for monitoring the usage of computer program resources can therefore be improved through the use of CUDA or other parallel computing platform code.

KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

1 illustrates an example of a program using graphs in accordance with at least one embodiment;
2 illustrates an example of techniques described herein, in accordance with at least one embodiment;
3 illustrates a diagram of a User Object Create API call, in accordance with at least one embodiment;
4 illustrates a diagram of a User Object Retain API call, in accordance with at least one embodiment;
5 illustrates a diagram of a User Object Release API call, in accordance with at least one embodiment;
6 illustrates an example of a process of creating data structures used to monitor a computer program's use of information, according to at least one embodiment;
7 illustrates an example of a process of causing a computer program to increase the use of information, according to at least one embodiment;
8th illustrates an example of a process of causing a computer program to reduce the use of information, according to at least one embodiment;
9 illustrates an example data center, in accordance with at least one embodiment;
10 illustrates a processing system in accordance with at least one embodiment;
11 illustrates a computer system in accordance with at least one embodiment;
12 illustrates a system in accordance with at least one embodiment;
13 illustrates an example integrated circuit, in accordance with at least one embodiment;
14 illustrates a computer system in accordance with at least one embodiment;
15 illustrates an APU, in accordance with at least one embodiment;
16 illustrates a CPU in accordance with at least one embodiment;
17 illustrates an example accelerator integration slice, in accordance with at least one embodiment;
18A-18B illustrate exemplary graphics processors, in accordance with at least one embodiment;
19A illustrates a graphics core, in accordance with at least one embodiment;
19B illustrates a GPGPU, in accordance with at least one embodiment;
20A illustrates a parallel processor, in accordance with at least one embodiment;
20B illustrates a processing cluster, in accordance with at least one embodiment;
20C illustrates a graphics multiprocessor, in accordance with at least one embodiment;
21 illustrates a graphics processor in accordance with at least one embodiment;
22 illustrates a processor in accordance with at least one embodiment;
23 illustrates a processor in accordance with at least one embodiment;
24 illustrates a graphics processor core, in accordance with at least one embodiment;
25 illustrates a PPU, in accordance with at least one embodiment;
26 illustrates a GPC, in accordance with at least one embodiment;
27 illustrates a streaming multiprocessor, in accordance with at least one embodiment;
28 illustrates a software stack of a programming platform, in accordance with at least one embodiment;
29 illustrates a CUDA implementation of a software stack from 28 , in accordance with at least one embodiment;
30 illustrates a ROCm implementation of a software stack from 28 , in accordance with at least one embodiment;
31 illustrates an OpenCL implementation of a software stack from 28 , in accordance with at least one embodiment;
32 illustrates software supported by a programming platform in accordance with at least one embodiment;
33 demonstrates how to compile code for execution on the programming platforms of 28-31 , in accordance with at least one embodiment;
34 illustrates in greater detail how to compile code for execution on the programming platforms of 28-31 , in accordance with at least one embodiment;
35 illustrates translation of source code prior to compilation of source code, in accordance with at least one embodiment;
36A illustrates a system configured to compile and execute CUDA source code using various types of processing units, in accordance with at least one embodiment;
36B illustrates a system for compiling and running CUDA source code 36A is configured using a CPU and a CUDA-enabled graphics processor, in accordance with at least one embodiment;
36C illustrates a system for compiling and running CUDA source code 36A is configured using a CPU and a non-CUDA capable GPU, in accordance with at least one embodiment;
37 illustrates an example kernel created by the CUDA to HIP translation tool from 36C has been translated in accordance with at least one embodiment;
38 illustrates the non-CUDA capable GPU of 36C in greater detail, in accordance with at least one embodiment;
39 illustrates how threads of an example CUDA grid access different computing units 38 are depicted in accordance with at least one embodiment; and
40 illustrates how to migrate existing CUDA code to Data Parallel C++ code, in accordance with at least one embodiment.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

In mindestens einer Ausführungsform verwenden ein oder mehrere Programmiermodelle Graphen, um verschiedene Operationen durchzuführen. In mindestens einer Ausführungsform umfassen das eine oder die mehreren Programmiermodelle Modelle wie das Compute Unified Device Architecture (CUDA)-Modell, das Heterogeneous Compute Interface for Portability (HIP)-Modell, das oneAPI-Modell, verschiedene Hardwarebeschleuniger-Programmiermodelle und/oder Variationen davon. In mindestens einer Ausführungsform ist ein Graph eine Reihe von Operationen, die auf einer oder mehreren Verarbeitungseinheiten, wie einer Zentralverarbeitungseinheit (CPU), einer Grafikverarbeitungseinheit (GPU), einer Universal-GPU (GPGPU), einer Parallelverarbeitungseinheit (PPU) und/oder Variationen davon, ausgeführt werden. In mindestens einer Ausführungsform ist der Graph ein Datenobjekt, das auch als Graphen-Datenstruktur, Graphen-Code und/oder Variationen davon bezeichnet wird und das eine Reihe von Operationen, wie z. B. Kernel-Starts, definiert, die durch Abhängigkeiten verbunden sind. In mindestens einer Ausführungsform werden Abhängigkeiten des Graphen getrennt von der Ausführung des Graphen definiert. In mindestens einer Ausführungsform wird der Graph einmal definiert und kann ein oder mehrere Male gestartet werden.In at least one embodiment, one or more programming models use graphs to perform various operations. In at least one embodiment, the one or more programming models include models such as the Compute Unified Device Architecture (CUDA) model, the Heterogeneous Compute Interface for Portability (HIP) model, the oneAPI model, various hardware accelerator programming models, and/or variations thereof . In at least one embodiment, a graph is a series of operations performed on one or more processing units, such as a central processing unit (CPU), a graphics processing unit (GPU), a general purpose GPU (GPGPU), a parallel processing unit (PPU), and/or variations thereof , be executed. In at least one embodiment, the graph is a data object, also referred to as a graph data structure, graph code, and/or variations thereof, that performs a series of operations such as: B. Kernel starts, which are connected by dependencies. In at least one embodiment, dependencies of the graph are defined separately from the execution of the graph. In at least one embodiment, the graph is defined once and may be started one or more times.

In mindestens einer Ausführungsform entspricht eine Operation bzw. ein Betriebsablauf einem Knoten in dem Graphen. In mindestens einer Ausführungsform bilden Abhängigkeiten zwischen den Operationen Kanten des Graphen. In mindestens einer Ausführungsform schränken Abhängigkeiten die Ausführungsreihenfolge der Operationen ein. In mindestens einer Ausführungsform kann eine Operation jederzeit eingeplant werden, sobald Knoten, von denen er abhängt, abgeschlossen sind (z. B. wenn von Knoten angegebene Operationen ausgeführt/durchgeführt worden sind). In mindestens einer Ausführungsform können von den Knoten angegebene Operationen Operationen wie beispielsweise einen Kernel, CPU-Funktionsaufrufe, Speicherverwaltungs-/-manipulationsoperationen, Warten auf ein Ereignis, Aufzeichnen eines Ereignisses, Signalisieren eines externen Semaphors, Warten auf einen externen Semaphor sowie andere Graphen (z. B. untergeordnete Graphen) umfassen. In mindestens einer Ausführungsform werden Graphen durch verschiedene Funktionen der Anwendungsprogrammierschnittstelle (API) des Programmiermodells erstellt. In mindestens einer Ausführungsform werden Operationen des Graphen über verschiedene API-Funktionen des Programmiermodells ausgeführt.In at least one embodiment, an operation corresponds to a node in the graph. In at least one embodiment, dependencies between the operations form edges of the graph. In at least one embodiment, dependencies restrict the order of execution of operations. In at least one embodiment, an operation may be scheduled at any time once nodes on which it depends have completed (e.g., when node-specified operations have been executed/performed). In at least one embodiment, operations specified by the nodes may include operations such as a kernel, CPU function calls, memory management/manipulation operations, waiting for an event, recording an event, signaling an external semaphore, waiting for an external semaphore, and other graphs (e.g B. subordinate graphs). In at least one embodiment, graphs are created through various functions of the application programming interface (API) of the programming model. In at least one embodiment, operations of the graph are performed via various API functions of the programming model.

In mindestens einer Ausführungsform werden Graphen durch eine oder mehrere Operationen erstellt, welche als Stream Capture bezeichnet werden können. In mindestens einer Ausführungsform werden eine oder mehrere Operationen definiert, bei denen Stream Capture verwendet wird, um die eine oder die mehreren Operationen in dem Graphen zu erfassen. In mindestens einer Ausführungsform zeigt beispielsweise ein API-Aufruf den Beginn einer Reihe von Operationen an, die auch als Stream bezeichnet werden, und ein anderer API-Aufruf zeigt das Ende der Reihe von Operationen an, wobei die Reihe von Operationen dann als Graph instanziiert wird. In mindestens einer Ausführungsform kann eine API-Funktion, die den Beginn der Reihe von Operationen anzeigt, als Stream Begin Capture API-Funktion bezeichnet werden. In mindestens einer Ausführungsform kann eine API-Funktion, die ein Ende der Reihe von Operationen anzeigt, als Stream End Capture API-Funktion bezeichnet werden. In mindestens einer Ausführungsform ist zu beachten, dass API-Funktionen, wie hierin beschriebene, in jeder geeigneten Weise und mit jeder geeigneten Terminologie bezeichnet werden können, die sich auf eine oder mehrere Funktionalitäten der API-Funktionen beziehen kann oder nicht.In at least one embodiment, graphs are created through one or more operations, which may be referred to as stream capture. In at least one embodiment, one or more operations are defined using stream capture to capture the one or more operations in the graph. For example, in at least one embodiment, an API call indicates the beginning of a series of operations, also referred to as a stream, and another API call indicates the end of the series of operations, where the series of operations is then instantiated as a graph . In at least one embodiment, an API function that indicates the beginning of the series of operations may be referred to as a Stream Begin Capture API function. In at least one embodiment, an API function that indicates an end to the series of operations may be as Stream End Capture API function. In at least one embodiment, it should be noted that API functions as described herein may be referred to in any appropriate manner and with any appropriate terminology, which may or may not relate to one or more functionalities of the API functions.

In mindestens einer Ausführungsform werden verschiedene Objekte in verschiedenen Operationen verwendet, die durch den Graphen und/oder ein anderes geeignetes Computerprogramm angegeben werden. In mindestens einer Ausführungsform kann der Graph und/oder ein anderes geeignetes Computerprogramm Operationen definieren, die verschiedene benutzerspezifische Daten und/oder benutzerverwaltete Ressourcen verwenden, die auch als Objekte bezeichnet werden. In mindestens einer Ausführungsform umfasst ein Objekt Kernelargumente, Hostfunktionsargumente, Arbeitsbereichspuffer und/oder Variationen davon. In mindestens einer Ausführungsform umfasst das Objekt alle geeigneten Computerressourcen, Informationen und/oder Daten, die während der Ausführung einer oder mehrerer Operationen des Graphen und/oder eines anderen geeigneten Computerprogramms verwendet werden. In mindestens einer Ausführungsform wird das Objekt durch einen Konstruktor erzeugt, der sich auf eine Art von Funktion bezieht, die zur Erzeugung des Objekts aufgerufen wird. In mindestens einer Ausführungsform wird das Objekt durch eine Destruktorfunktion zerstört, die auch als ein Destruktor bezeichnet wird und eine Art von Funktion ist, die zur Zerstörung des Objekts aufgerufen wird. In mindestens einer Ausführungsform wird das Objekt durch die Destruktorfunktion zerstört, indem zumindest der dem Objekt entsprechende Speicher freigegeben wird, und/oder durch jeden geeigneten Prozess, der das Objekt löscht oder anderweitig zerstört. In mindestens einer Ausführungsform können Konstruktoren und/oder Destruktoren von Benutzern, verschiedenen Softwarebibliotheken und/oder Variationen davon definiert werden.In at least one embodiment, different objects are used in different operations specified by the graph and/or another suitable computer program. In at least one embodiment, the graph and/or another suitable computer program may define operations using various user-specific data and/or user-managed resources, also referred to as objects. In at least one embodiment, an object includes kernel arguments, host function arguments, workspace buffers, and/or variations thereof. In at least one embodiment, the object includes any suitable computer resources, information and/or data used during the execution of one or more operations of the graph and/or another suitable computer program. In at least one embodiment, the object is created by a constructor that refers to some type of function that is called to create the object. In at least one embodiment, the object is destroyed by a destructor function, also referred to as a destructor, which is a type of function called to destroy the object. In at least one embodiment, the object is destroyed by the destructor function, freeing at least the memory corresponding to the object, and/or by any suitable process that deletes or otherwise destroys the object. In at least one embodiment, constructors and/or destructors may be defined by users, various software libraries, and/or variations thereof.

In mindestens einer Ausführungsform werden Graphen in verschiedenen Operationen eines Programms verwendet. 1 zeigt ein Beispiel 100 eines Programms, das Graphen verwendet, gemäß mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst das Beispiel 100 verschiedene Graphen-Datenstrukturoperationen, die Graphen zugeordnet sind, die das Programm umfasst. In mindestens einer Ausführungsform umfassen diese Operationen ein Erstellen von Graphen, ein Klonen von Graphen, ein Instanziieren von Graphen in ausführbare Dateien (z. B. Aexec in 1), ein Starten von Graphen, ein Ausführen von Graphen (z. B. Async-Ausführung in 1), ein Zerstören von Graphen, ein Zerstören von ausführbaren Graphen und/oder verschiedene andere in 1 nicht dargestellte Operationen. In mindestens einer Ausführungsform, als ein illustratives Beispiel, wird als Teil des Programms der Graph erstellt, der Graph als ausführbarer Graph instanziiert, der Graph gelöscht, der ausführbare Graph gestartet, der ausführbare Graph ausgeführt und der ausführbare Graph gelöscht. In mindestens einer Ausführungsform muss das Objekt, das von einer oder mehreren Operationen des Graphen verwendet wird, so lange bestehen bleiben, bis jede Verwendung des Graphen durch ein Programm abgeschlossen ist. In mindestens einer Ausführungsform bieten hierin beschriebene Techniken eine Möglichkeit zu bestimmen, wann das von einer oder mehreren Operationen des Graphen verwendete Objekt freigegeben oder anderweitig zerstört werden kann (z. B. über einen Destruktor).In at least one embodiment, graphs are used in various operations of a program. 1 shows an example 100 of a program that uses graphs, according to at least one embodiment. In at least one embodiment, the example includes 100 different graph data structure operations associated with graphs that the program includes. In at least one embodiment, these operations include creating graphs, cloning graphs, instantiating graphs into executable files (e.g. Aexec in 1 ), starting Graphs, executing Graphs (e.g. async execution in 1 ), a destroying graph, destroying executable graphs, and/or various others in 1 Operations not shown. In at least one embodiment, as an illustrative example, as part of the program, the graph is created, the graph is instantiated as an executable graph, the graph is deleted, the executable graph is started, the executable graph is executed, and the executable graph is deleted. In at least one embodiment, the object used by one or more operations of the graph must persist until each use of the graph by a program is completed. In at least one embodiment, techniques described herein provide a way to determine when the object used by one or more operations of the graph may be freed or otherwise destroyed (e.g., via a destructor).

In mindestens einer Ausführungsform führen ein oder mehrere Systeme, z. B. ein System mit einem oder mehreren Programmiermodellen wie beispielsweise CUDA, HIP, oneAPI und/oder Variationen davon, verschiedene hierin beschriebene Vorgänge und/oder Techniken durch. In mindestens einer Ausführungsform bestimmt das System, wann immer ein neues Graph-Handle für eine Verwendung eines Graphen erstellt wird. In mindestens einer Ausführungsform, als ein illustratives Beispiel, wird das Graph-Handle erstellt, wenn der Graph erstellt wird, der Graph als ausführbarer Graph instanziiert wird, der ausführbare Graph gestartet wird und/oder verschiedene andere Graph-Operationen. In mindestens einer Ausführungsform, als ein illustratives Beispiel, wird das Graph-Handle gelöscht, wenn der Graph zerstört wird, der ausführbare Graph ausgeführt wird, der ausführbare Graph zerstört wird, und/oder verschiedene andere Graph-Operationen. In mindestens einer Ausführungsform verwendet das System den Zähler, der auch als ein Referenzzähler bezeichnet wird, um die Erstellung und die Löschung von Graph-Handles zu verfolgen, wobei der Zähler um 1 erhöht wird, wenn das Graph-Handle erstellt wird (z. B. über einen API-Aufruf, der zur Erstellung des Graph-Handles führt), und um 1 verringert wird, wenn das Graph-Handle zerstört oder anderweitig gelöscht wird (z. B. über einen API-Aufruf, der zur Löschung des Graph-Handles führt). In mindestens einer Ausführungsform bestimmt das System, wenn der Referenzzähler einen Wert von 0 erreicht, dass das von dem Graphen verwendete Objekt freigegeben (z. B. kann der für das Objekt zugewiesene Speicher freigegeben werden) oder anderweitig zerstört werden kann (z. B. über einen Destruktor).In at least one embodiment, one or more systems, e.g. B. a system with one or more programming models such as CUDA, HIP, oneAPI and / or variations thereof, perform various operations and / or techniques described herein. In at least one embodiment, the system determines whenever a new graph handle is created for use of a graph. In at least one embodiment, as an illustrative example, the graph handle is created when the graph is created, the graph is instantiated as an executable graph, the executable graph is started, and/or various other graph operations. In at least one embodiment, as an illustrative example, the graph handle is deleted when the graph is destroyed, the executable graph is executed, the executable graph is destroyed, and/or various other graph operations. In at least one embodiment, the system uses the counter, also referred to as a reference counter, to track the creation and deletion of graph handles, where the counter is incremented by 1 when the graph handle is created (e.g . via an API call that results in the creation of the graph handle), and is decremented by 1 if the graph handle is destroyed or otherwise deleted (e.g. via an API call that results in the deletion of the graph handle). Handles leads). In at least one embodiment, when the reference count reaches a value of 0, the system determines that the object used by the graph may be freed (e.g., memory allocated for the object may be freed) or otherwise destroyed (e.g., via a destructor).

In mindestens einer Ausführungsform bietet das System die Möglichkeit, die Verwendung des Objekts oder einer anderen geeigneten Computerressource durch ein Computerprogramm über den Zähler zu verfolgen. In mindestens einer Ausführungsform wird die Verwendung des Objekts durch das Computerprogramm über Referenzen, die dem Computerprogramm zugeordnet sind, zu dem Objekt verfolgt. In mindestens einer Ausführungsform bietet das System die Möglichkeit, den Zähler, der auch als ein Referenzzähler bezeichnet wird, zur Verfolgung von Referenzen auf das Objekt zu verwenden, wobei der Zähler bei einer neuen Referenz auf das Objekt um 1 erhöht und um 1 verringert wird, wenn eine Referenz auf das Objekt nicht mehr verwendet wird. In mindestens einer Ausführungsform bestimmt das System, wenn der Referenzzähler einen Wert von 0 erreicht, dass das von dem Computerprogramm verwendete Objekt freigegeben werden kann (z. B. kann der für das Objekt zugewiesene Speicher freigegeben werden) oder anderweitig zerstört werden kann (z. B. über einen Destruktor).In at least one embodiment, the system provides the ability to track the use of the object or other suitable computer resource by a computer program via the counter In at least one embodiment, use of the object by the computer program is tracked to the object via references associated with the computer program. In at least one embodiment, the system provides the ability to use the counter, also referred to as a reference counter, to track references to the object, the counter being incremented by 1 and decremented by 1 upon a new reference to the object, when a reference to the object is no longer used. In at least one embodiment, when the reference count reaches a value of 0, the system determines that the object used by the computer program may be freed (e.g., the memory allocated for the object may be freed) or otherwise destroyed (e.g. B. via a destructor).

In mindestens einer Ausführungsform werden hierin beschriebene Techniken für verschiedene Softwarebibliotheken, wie z. B. eine NVIDIA Collective Communications Library (NCCL), verschiedene kollektive Kommunikationsbibliotheken und/oder eine beliebige geeignete Softwarebibliothek, verwendet, um einem Host-Knoten in dem Graphen dynamisch dimensionierte Daten bereitzustellen, ohne dass Speicherplatz verloren geht. 2 veranschaulicht ein Beispiel 200 von hierin beschriebenen Techniken, die in Verbindung mit der Erfassung von Datenströmen in Verbindung mit NCCL verwendet werden, gemäß mindestens einer Ausführungsform. In mindestens einer Ausführungsform werden hierin beschriebene Techniken mit Graphen verwendet, die unter Verwendung eines oder mehrerer Stream-Capture-Prozesse oder eines beliebigen geeigneten Prozesses erstellt wurden. In mindestens einer Ausführungsform erfolgt, Bezug auf „202“ in 2 nehmend, der Einrichtungscode in einem API-Aufruf (z. B. Ops einreihen, Starte Helferthread). In mindestens einer Ausführungsform ermöglichen, Bezug auf „204 (wenn Erfassung erkannt)“ in 2 nehmend, hierin beschriebene Techniken zur Unterstützung eines Neustarts von Graphen mit NCCL-Operationen (z. B. NCCL API Aufrufe), dass der Einrichtungscode, der normalerweise in einem API-Aufruf erfolgen würde, in einen Host-Knoten verschoben wird, wenn eine Erfassung bzw. Capture erfasst wird, so dass er bei jedem Start des Graphen ausgeführt wird. In mindestens einer Ausführungsform werden hierin beschriebene Techniken verwendet, um dem Graphen eine Arbeitsplatzlebensdauer zuzuordnen. In mindestens einer Ausführungsform ermöglichen hierin beschriebene Techniken die Verwaltung einer Lebensdauer eines dynamischen Objekts, das in dem Graphen oder einem anderen geeigneten Computerprogramm verwendet werden kann. In mindestens einer Ausführungsform unterstützen hierin beschriebene Techniken trivial kopierbare Objekte. In mindestens einer Ausführungsform unterstützen hierin beschriebene Techniken Operationen für einen Graphen und/oder ein anderes geeignetes Computerprogramm, das auf ein dynamisches Benutzerobjekt verweist, wobei die Operationen Instanziierungsoperationen, Klonoperationen, Operationen zum Einfügen eines untergeordneten Graphen, asynchrone Zerstörungsoperationen, Operationen zum Aktualisieren eines ausführbaren Graphen aus einem neuen Quellgraphen und/oder verschiedene andere Graph-Operationen umfassen.In at least one embodiment, techniques described herein are used for various software libraries, such as: B. an NVIDIA Collective Communications Library (NCCL), various collective communications libraries, and/or any suitable software library, to provide dynamically sized data to a host node in the graph without wasting storage space. 2 illustrates an example 200 of techniques described herein used in connection with data stream capture in conjunction with NCCL, according to at least one embodiment. In at least one embodiment, techniques described herein are used with graphs created using one or more stream capture processes, or any suitable process. In at least one embodiment, reference is made to “202” in 2 taking, the setup code in an API call (e.g. Enqueue Ops, Start Helper Thread). In at least one embodiment, allow reference to “204 (if capture detected)” in 2 Taking techniques described herein to support restarting graphs with NCCL operations (e.g. NCCL API calls), the setup code that would normally occur in an API call is moved to a host node when a capture is made or Capture is captured so that it is executed every time the graph is started. In at least one embodiment, techniques described herein are used to assign a job lifetime to the graph. In at least one embodiment, techniques described herein enable management of a lifetime of a dynamic object that may be used in the graph or other suitable computer program. In at least one embodiment, techniques described herein support trivially copyable objects. In at least one embodiment, techniques described herein support operations on a graph and/or other suitable computer program that references a dynamic user object, the operations including instantiation operations, clone operations, child graph insertion operations, asynchronous destruction operations, executable graph update operations from a new source graph and/or various other graph operations.

In mindestens einer Ausführungsform unterstützen hierin beschriebene Techniken Graphen und/oder andere geeignete Computerprogramme, die auf nicht-trivial kopierbare Objekte Referenzen, wie z. B. Objekte, die einen vom Benutzer bereitgestellten Zerstörungs- und/oder Kopiercode erfordern. In mindestens einer Ausführungsform erlauben hierin beschriebene Techniken Benutzern, die Zerstörung von Benutzerobjekten zu synchronisieren, wenn ein vom Benutzer bereitgestellter Zerstörungscode unterstützt wird. In mindestens einer Ausführungsform ermöglichen hierin beschriebene Techniken die Zerstörung von Objekten durch verschiedene architekturspezifische API-Aufrufe (z. B. CUDA-API-Aufrufe). In mindestens einer Ausführungsform ermöglichen hierin beschriebene Techniken die Aktualisierung von Knoten unter Verwendung einer oder mehrerer Softwarebibliotheken und/oder ursprünglichen Aufgabenbeschreibungscodes.In at least one embodiment, techniques described herein support graphs and/or other suitable computer programs that reference non-trivially copyable objects, such as: B. Objects that require user-supplied destruction and/or copy code. In at least one embodiment, techniques described herein allow users to synchronize the destruction of user objects when user-supplied destruction code is supported. In at least one embodiment, techniques described herein enable objects to be destroyed through various architecture-specific API calls (e.g., CUDA API calls). In at least one embodiment, techniques described herein enable nodes to be updated using one or more software libraries and/or original task description code.

In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken Konstruktoren und Destruktoren für die Erstellung und Löschung von Objekten. In mindestens einer Ausführungsform werden bei hierin beschriebenen Techniken Rückrufe verwendet. In mindestens einer Ausführungsform bezieht sich ein Rückruf auf eine Funktion, die als Argument an einen anderen Code übergeben wird, der die Rückruffunktion ausführen (z. B. rückrufen) kann. In mindestens einer Ausführungsform umfassen Rückrufe Code wie beispielsweise Code von Konstruktoren und/oder Destruktoren. In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken einen vom Benutzer bereitgestellten Destruktorcode. In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken einen C++-Wrapper, der verschiedene C++-Objekte (z. B. Destruktor- und/oder Konstruktorcode) akzeptiert und sie zur Verwendung mit einer oder mehreren hierin beschriebenen Techniken konvertiert. In mindestens einer Ausführungsform ermöglichen hierin beschriebene Techniken, dass Benutzerobjektreferenzen von Graphen, einzelnen Knoten, anderen Objekten und/oder Variationen davon verwendet oder anderweitig in Besitz genommen werden können.In at least one embodiment, techniques described herein use constructors and destructors for creating and deleting objects. In at least one embodiment, techniques described herein utilize callbacks. In at least one embodiment, a callback refers to a function that is passed as an argument to other code that can execute (e.g., callback) the callback function. In at least one embodiment, callbacks include code such as constructor and/or destructor code. In at least one embodiment, techniques described herein use user-supplied destructor code. In at least one embodiment, techniques described herein use a C++ wrapper that accepts various C++ objects (e.g., destructor and/or constructor code) and converts them for use with one or more techniques described herein. In at least one embodiment, techniques described herein enable user object references to be used or otherwise owned by graphs, individual nodes, other objects, and/or variations thereof.

In mindestens einer Ausführungsform wird die Ausführung des Destruktors (z. B. zur Freigabe oder anderweitigen Löschung des Objekts) auf jede geeignete Weise durchgeführt. In mindestens einer Ausführungsform beziehen sich synchrone Referenzen auf Referenzen, die durch Aktionen einer CPU verwaltet werden. In mindestens einer Ausführungsform müssen Objekte alle Graph-Ausführungen überleben, die diese Objekte verwenden. In mindestens einer Ausführungsform hat eine Graph-Ausführung Zugriff auf alle Benutzerobjekte, für die der Graph bei einem Startaufruf als eine synchrone Referenz gehalten wird. In mindestens einer Ausführungsform verfolgen hierin beschriebene Techniken die Graph-Operationen so, dass alle Graph-Ausführungen Zugriff auf alle geeigneten Benutzerobjekte haben. In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken eine Ordnung, die als No-CUDA-Ordnung bezeichnet wird und bei der ein oder mehrere Systeme eines Programmiermodells die Ausführung des Destruktors einplanen, sobald alle synchronen Referenzen auf das Objekt (z. B. ein Objekt, das von einem oder mehreren Graphen verwendet wird) freigegeben sind und alle Graph-Ausführungen mit Zugriff darauf abgeschlossen sind. In mindestens einer Ausführungsform kann das System hinter anderen Destruktoren oder zuvor eingereihten Aufgaben blockieren. In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken ein vollständiges Ordnungsschema, bei dem bei einem Benutzerobjekt, das mit O bezeichnet wird, und einer Anweisung, die mit S bezeichnet wird, alle synchronen Freigaben von O in der Reihenfolge der Basiskausalität vor S erfolgen und alle Graph-Ausführungen mit Zugriff auf O in der Reihenfolge der Basiskausalität vor S erfolgen, wobei ein oder mehrere Systeme eines Programmiermodells sicherstellen, dass die Zerstörung von O in der Reihenfolge der Basiskausalität vor S erfolgt. In mindestens einer Ausführungsform verwenden hierin beschriebene Techniken ein reines CPU-Ordnungsschema, das der vollständigen Ordnung ähnelt, wobei die vollständige Ordnungsdefinition nur auf eine Anweisung S angewendet wird, die von einem CPU-Thread ausgeführt wird.In at least one embodiment, execution of the destructor (e.g., to release or otherwise delete the object) is performed in any suitable manner. In at least one embodiment, synchronous references refer to references that are managed by actions of a CPU. In at least one embodiment, objects must survive all graph executions that use those objects. In at least one embodiment, a graph execution has access to all user objects for which the graph is held as a synchronous reference upon a start call. In at least one embodiment, techniques described herein track graph operations so that all graph executions have access to all appropriate user objects. In at least one embodiment, techniques described herein utilize an ordering, referred to as the no-CUDA ordering, in which one or more systems of a programming model schedule the destructor to execute once all synchronous references to the object (e.g., an object, used by one or more graphs) are released and all graph executions with access to it are completed. In at least one embodiment, the system may block behind other destructors or previously queued tasks. In at least one embodiment, techniques described herein employ a complete ordering scheme in which, given a user object denoted O and an instruction denoted S, all synchronous releases from O occur before S in base causality order and all graph -Executions with access to O occur in the order of base causality before S, with one or more systems of a programming model ensuring that the destruction of O occurs in the order of base causality before S. In at least one embodiment, techniques described herein use a CPU-only ordering scheme similar to full ordering, where the full ordering definition is applied to only an instruction S executed by a CPU thread.

In mindestens einer Ausführungsform werden Referenzen, die dem Graphen gehören oder anderweitig von ihm genutzt werden, von allen Kopien (z. B. Klonen, Instanziierungen) beibehalten. In mindestens einer Ausführungsform stellen ein oder mehrere Systeme sicher, dass Benutzerobjekte die Ausführung des Graphen überleben, wenn ein ausführbarer Graph asynchron zerstört wird (z. B. wenn er gestartet, aber nicht synchronisiert wurde). In mindestens einer Ausführungsform wird, nachdem der Start synchronisiert ist, eine verbleibende Referenz freigegeben, und wird der Destruktor asynchron ausgeführt. In mindestens einer Ausführungsform werden Referenzen, die Graphen in untergeordneten Graphenknoten gehören, den untergeordneten Graphen zugeordnet. In mindestens einer Ausführungsform ändern sich Referenzen entsprechend, wenn ein untergeordneter Graph aktualisiert oder gelöscht wird. In mindestens einer Ausführungsform werden dann, wenn ein ausführbarer Graph oder ein untergeordneter Graph aktualisiert oder gelöscht wird (z. B. durch eine oder mehrere API-Funktionen wie beispielsweise cudaGraphExecUpdate oder cudaGraphExecChildGraphNodeSetParams, oder eine andere geeignete API-Funktion) die Referenzen in einem neuen Quellgraphen geklont und ersetzen die Referenzen in einem Zielgraphen. In mindestens einer Ausführungsform werden, wenn frühere Starts (z. B. Graphenstarts zur Ausführung) nicht synchronisiert sind, alle Referenzen, die freigegeben würden, zurückgehalten, bis diese Starts ihre Ausführung beendet haben. In mindestens einer Ausführungsform rufen ein oder mehrere Systeme die Zerstörungsfunktion (z. B. den Destruktor) des Benutzerobjekts auf, wenn eine letzte Referenz auf ein Benutzerobjekt freigegeben wird.In at least one embodiment, references owned or otherwise used by the graph are retained by all copies (e.g., clones, instantiations). In at least one embodiment, if an executable graph is destroyed asynchronously (e.g., if it was started but not synchronized), one or more systems ensure that user objects survive execution of the graph. In at least one embodiment, after the start is synchronized, a remaining reference is released and the destructor is executed asynchronously. In at least one embodiment, references belonging to graphs in child graph nodes are associated with the child graphs. In at least one embodiment, references change accordingly when a subgraph is updated or deleted. In at least one embodiment, when an executable graph or a child graph is updated or deleted (e.g., by one or more API functions such as cudaGraphExecUpdate or cudaGraphExecChildGraphNodeSetParams, or other suitable API function), the references are in a new one Source graphs cloned and replace the references in a target graph. In at least one embodiment, if previous launches (e.g., graph launches for execution) are not synchronized, any references that would be released are held until those launches have finished executing. In at least one embodiment, one or more systems call the destruction function (e.g., destructor) of the user object when a final reference to a user object is released.

In mindestens einer Ausführungsform bezieht sich eine Referenz auf das Objekt auf einen Zeiger auf das Objekt oder eine andere Verwendung des Objekts in einer oder mehreren Operationen eines oder mehrerer Computerprogramme und/oder Graphen. In mindestens einer Ausführungsform fügen ein oder mehrere Systeme Referenzen zu einzelnen Knoten des Graphen hinzu. In mindestens einer Ausführungsform fragen ein oder mehrere Systeme Referenzen ab, die zu einem bestimmten Objekt gehören. In mindestens einer Ausführungsform planen ein oder mehrere Systeme die Bereinigung von Objekten (z. B. über einen oder mehrere Destruktoren) für die Zeit nach einer letzten Ausführung, wenn der Graph zerstört wird.In at least one embodiment, a reference to the object refers to a pointer to the object or other use of the object in one or more operations of one or more computer programs and/or graphs. In at least one embodiment, one or more systems add references to individual nodes of the graph. In at least one embodiment, one or more systems query references associated with a particular object. In at least one embodiment, one or more systems schedule the cleanup of objects (e.g., via one or more destructors) after a final execution when the graph is destroyed.

In mindestens einer Ausführungsform erlauben hierin beschriebene Techniken Benutzern, einen Rückruf (z. B. einen Destruktor) zu registrieren, der einen internen Referenzzählmechanismus (z. B. einen Zähler) verwendet, der aufzurufen ist, nachdem verschiedene Bedingungen erfüllt sind (z. B. wenn ein Zählerwert 0 erreicht). In mindestens einer Ausführungsform kann ein Rückruf auf dem Graphen registriert werden und wird erst dann aufgerufen werden, wenn das Graph-Handle und alle Klone zerstört sind und alle asynchronen Ausführungen abgeschlossen sind. In mindestens einer Ausführungsform werden Rückrufe zur Zerstörung von Objekten (z. B. über Destruktoren) verwendet. In mindestens einer Ausführungsform stellen hierin beschriebene Techniken einen Mechanismus bereit zum Verfolgen von Operationen an Graph-Handles, die für die Verwaltung der Objektlebensdauer erforderlich sind. In mindestens einer Ausführungsform verschieben hierin beschriebene Techniken die Ausführung aller Rückrufe, bis ein Referenzzähler (z. B. über einen Zähler angezeigt) Null erreicht.In at least one embodiment, techniques described herein allow users to register a callback (e.g., a destructor) that uses an internal reference counting mechanism (e.g., a counter) to be invoked after various conditions are met (e.g . when a counter value reaches 0). In at least one embodiment, a callback may be registered on the graph and will not be invoked until the graph handle and all clones are destroyed and all asynchronous executions have completed. In at least one embodiment, callbacks are used to destroy objects (e.g., via destructors). In at least one embodiment, techniques described herein provide a mechanism for tracking operations on graph handles necessary for object lifetime management. In at least one embodiment, techniques described herein defer execution of all callbacks until a reference count (e.g., indicated by a counter) reaches zero.

In mindestens einer Ausführungsform erlauben hierin beschriebene Techniken einem Benutzer, ein Handle (z. B. ein CUDA-Handle) auf die Ausführung eines Destruktor-Callbacks warten zu lassen. In mindestens einer Ausführungsform erlauben hierin beschriebene Techniken ein Anhängen und/oder Manipulieren von Referenzen an verschiedenen Stellen, wie beispielsweise Graphen, Knoten von Graphen, Abhängigkeiten und/oder Variationen davon. In mindestens einer Ausführungsform sind hierin beschriebene Techniken auf Streams anwendbar, in welchen Referenzen an verschiedene asynchrone Arbeitslasten (z. B. Stream-Workloads) angehängt werden können. In mindestens einer Ausführungsform ermöglichen hierin beschriebene Techniken, dass der Destruktor-Callback rekursiv in einen oder mehrere Treiber (z. B. CUDA-Treiber) aufruft.In at least one embodiment, techniques described herein allow a user to make a handle (e.g., a CUDA handle) wait for a destructor callback to execute. In at least one embodiment, techniques described herein allow for attaching and/or manipulating references at various locations, such as graphs, nodes of graphs, dependencies, and/or variations thereof. In at least one embodiment, techniques described herein are applicable to streams, in which references can be attached to various asynchronous workloads (e.g., stream workloads). In at least one embodiment, techniques described herein enable the destructor callback to recursively call into one or more drivers (e.g., CUDA drivers).

3- 5 veranschaulichen grafische Repräsentationen von API-Funktionen, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform werden in 3 - 5 dargestellte API-Funktionen als Teil einer oder mehrerer Techniken verwendet, wie denjenigen, die hierin beschrieben sind (z. B. Techniken, die in Verbindung mit 1-2 und 6-8 beschrieben sind). In mindestens einer Ausführungsform werden in 3 - 5 dargestellte API-Funktionen von einem beliebigen geeigneten Prozessor und/oder einer beliebigen Kombination von Prozessoren, wie z. B. einer oder mehreren CPUs, GPUs, GPGPUs, PPUs und/oder Variationen davon, und in einer beliebigen geeigneten Reihenfolge und/oder Weise, z. B. parallel, ausgeführt. In mindestens einer Ausführungsform liegen, während jede von 3 bis 5 bestimmte Sammlungen von Informationen, die in API-Aufrufen und -Antworten enthalten sein können, veranschaulichen, Variationen im Rahmen der vorliegenden Offenbarung und können API-Aufrufe weniger oder mehr informationelle Komponenten enthalten, die auf jede geeignete Weise bezeichnet sein können. In mindestens einer Ausführungsform enthalten nicht alle API-Aufrufe, die unter Verwendung einer selben API-Funktion erfolgten, dieselben informationellen Komponenten. In mindestens einer Ausführungsform kann eine Art und/oder ein Vorhandensein nicht-trivialer Informationen für einen Parameter, als ein anschauliches Beispiel, von einem Wert eines anderen Parameters abhängen. In mindestens einer Ausführungsform hängt eine Art und/oder ein Vorhandensein nicht-trivialer Informationen für eine Komponente einer Antwort von einem Wert eines anderen Parameters und/oder eines Parameters eines API-Aufrufs, der die Antwort ausgelöst hat, ab. 3 - 5 illustrate graphical representations of API functions, in accordance with at least one embodiment. In at least one embodiment, in 3 - 5 API functions presented are used as part of one or more techniques, such as those described herein (e.g., techniques used in connection with 1-2 and 6-8 are described). In at least one embodiment, in 3 - 5 illustrated API functions from any suitable processor and/or combination of processors, such as: one or more CPUs, GPUs, GPGPUs, PPUs and/or variations thereof, and in any suitable order and/or manner, e.g. B. executed in parallel. In at least one embodiment, while each of 3 until 5 certain collections of information that may be included in API calls and responses illustrate variations within the scope of the present disclosure, and API calls may contain fewer or more informational components, which may be labeled in any appropriate manner. In at least one embodiment, not all API calls made using a same API function contain the same informational components. In at least one embodiment, a type and/or presence of non-trivial information for a parameter may, as an illustrative example, depend on a value of another parameter. In at least one embodiment, a type and/or presence of non-trivial information for a component of a response depends on a value of another parameter and/or a parameter of an API call that triggered the response.

In mindestens einer Ausführungsform ist eine API, wie diejenigen, die hierin beschrieben werden, eine Treiber-API oder eine Laufzeit-API. In mindestens einer Ausführungsform ist eine Treiber-API eine Low-Level-API, auf die in Bezug auf ein Programmiermodell Bezug genommen werden kann (z. B. CUDA-Treiber-API). In mindestens einer Ausführungsform interagiert eine Treiber-API direkt mit einer oder mehreren Vorrichtungen. In mindestens einer Ausführungsform ist eine Laufzeit-API eine High-Level-API, auf die unter Bezugnahme auf ein Programmiermodell Bezug genommen werden kann (z. B. CUDA-Laufzeit-API). In mindestens einer Ausführungsform arbeitet eine Laufzeit-API unter Verwendung einer Treiber-API. Weitere Informationen zu einer Treiber-API und einer Laufzeit-API sind in der Beschreibung von 29 zu finden.In at least one embodiment, an API such as those described herein is a driver API or a runtime API. In at least one embodiment, a driver API is a low-level API that can be referenced in terms of a programming model (e.g., CUDA Driver API). In at least one embodiment, a driver API interacts directly with one or more devices. In at least one embodiment, a runtime API is a high-level API that can be referenced by reference to a programming model (e.g., CUDA runtime API). In at least one embodiment, a runtime API operates using a driver API. More information about a driver API and a runtime API can be found in the description of 29 to find.

In mindestens einer Ausführungsform erfolgt ein API-Aufruf als Teil der Ausführung von Code, der mindestens eine API-Funktion angibt, die dem API-Aufruf entspricht. In mindestens einer Ausführungsform führen, als ein veranschaulichendes Beispiel, ein oder mehrere Systeme einen API-Aufruf durch und erhalten eine Antwort als Teil der Ausführung von Code in Verbindung mit einem oder mehreren Programmiermodellen, wie beispielsweise CUDA, HIP, oneAPI und/oder Variationen davon.In at least one embodiment, an API call is made as part of the execution of code that specifies at least one API function that corresponds to the API call. In at least one embodiment, as an illustrative example, one or more systems make an API call and receive a response as part of executing code in conjunction with one or more programming models, such as CUDA, HIP, oneAPI, and/or variations thereof .

3 veranschaulicht ein Diagramm 300 eines User Object Create API-Aufrufs, gemäß mindestens einer Ausführungsform. Weitere Informationen bezüglich des User Object Create API-Aufrufs sind in der Beschreibung von 6 zu finden. In mindestens einer Ausführungsform wird die User Object Create API als cudaUserObjectCreate, UserObjectCreate und/oder eine beliebige geeignete Notation bezeichnet, die sich auf ein Programmiermodell (z. B. CUDA, HIP, oneAPI und/oder Variationen davon) beziehen kann. In mindestens einer Ausführungsform veranlasst die User Object Create API ein oder mehrere Systeme eines oder mehrerer Programmiermodelle (z. B. CUDA, HIP, oneAPI und/oder Variationen davon), ein Benutzerobjekt zu erstellen, das sich auf eine Datenstruktur bezieht, die einen Destruktor und eine Referenzanzahl angibt. In mindestens einer Ausführungsform gibt das Benutzerobjekt einen bestimmten Destruktor-Callback und eine anfängliche Referenzanzahl an. In mindestens einer Ausführungsform entspricht das Benutzerobjekt einer Rechenressource, wie beispielsweise dem Objekt, dem Speicherbereich, dem Datenobjekt, der Datenstruktur und/oder jeder geeigneten Rechenressource, die bei Operationen bzw. Betriebsabläufen eines Computerprogramms verwendet wird. In mindestens einer Ausführungsform wird das Benutzerobjekt verwendet, um Referenzen auf die Rechenressource zu verfolgen, wobei der Destruktor aufgerufen wird, um die Rechenressource zu zerstören oder anderweitig zu löschen, sobald der Referenzzähler Null erreicht. 3 illustrates a diagram 300 of a User Object Create API call, according to at least one embodiment. Further information regarding the User Object Create API call can be found in the description of 6 to find. In at least one embodiment, the User Object Create API is referred to as cudaUserObjectCreate, UserObjectCreate, and/or any suitable notation that may refer to a programming model (e.g., CUDA, HIP, oneAPI, and/or variations thereof). In at least one embodiment, the User Object Create API causes one or more systems of one or more programming models (e.g., CUDA, HIP, oneAPI, and/or variations thereof) to create a user object that references a data structure that includes a destructor and specifies a reference number. In at least one embodiment, the user object specifies a particular destructor callback and an initial reference count. In at least one embodiment, the user object corresponds to a computing resource, such as the object, the storage area, the data object, the data structure, and/or any suitable computing resource used in operations of a computer program. In at least one embodiment, the user object is used to keep track of references to the computing resource, with the destructor being called to destroy or otherwise delete the computing resource once the reference count reaches zero.

In mindestens einer Ausführungsform umfassen Parameter für den User Object Create API-Aufruf „object_out“, „ptr“, „destroy“, „initialRefcount“ und „flags“ und können weitere Parameter beinhalten, die Aspekte des Benutzerobjekts weiter definieren. In mindestens einer Ausführungsform gibt der Parameter „object_out“ einen Ort an, an dem ein Handle an das bzw. zu dem Benutzerobjekt zurückgegeben wird. In mindestens einer Ausführungsform gibt der Parameter „ptr“ einen Zeiger an, der an eine Zerstörungsfunktion (z. B. Destruktor) zu übergeben ist. In mindestens einer Ausführungsform gibt der Parameter „destroy“ einen Rückruf an, um eine oder mehrere Rechenressourcen freizugeben, wenn die eine oder die mehreren Rechenressourcen nicht länger in Verwendung sind. In mindestens einer Ausführungsform gibt der Parameter „initialRefcount“ einen Wert einer anfänglichen Referenzanzahl an, mit der das Objekt zu erstellen ist, wobei die anfänglichen Referenzen einem aufrufenden Thread gehören. In mindestens einer Ausführungsform gibt der Parameter „flags“ ein oder mehrere Flags an, die sich auf einen Wert beziehen, der ein Signal für eine Funktion oder einen Prozess (z. B. eine API-Funktion) ist, das eine oder mehrere Eigenschaften der Funktion oder des Prozesses bestimmt. In mindestens einer Ausführungsform enthalten die Flags für die User Object Create API ein Flag mit der Bezeichnung „UserObjectNoDestructorSync“, das anzeigt, dass der Zerstörungs-Callback nicht von einer API abgewartet werden kann.In at least one embodiment, parameters for the User Object Create API call include “object_out,” “ptr,” “destroy,” “initialRefcount,” and “flags,” and may include other parameters that further define aspects of the user object. In at least one embodiment, the object_out parameter specifies a location at which a handle is returned to the user object. In at least one embodiment, the "ptr" parameter specifies a pointer to pass to a destruction function (e.g., destructor). In at least one embodiment, the destroy parameter indicates a callback to release one or more computing resources when the one or more computing resources are no longer in use. In at least one embodiment, the initialRefcount parameter specifies a value of an initial reference count with which to create the object, the initial references belonging to a calling thread. In at least one embodiment, the "flags" parameter specifies one or more flags that relate to a value that is a signal to a function or process (e.g., an API function) that has one or more properties of the Function or process determined. In at least one embodiment, the flags for the User Object Create API include a flag called "UserObjectNoDestructorSync" that indicates that the destruction callback cannot be awaited by an API.

In mindestens einer Ausführungsform führen ein oder mehrere Systeme die User Object Create API durch, indem sie mindestens das Benutzerobjekt erzeugen, das mindestens eine oder mehrere Funktionen (z. B. einen Destruktor) und einen Wert, der eine Anzahl von Referenzen angibt, auch als eine Referenzanzahl bezeichnet, codiert oder anderweitig angibt. In mindestens einer Ausführungsform enthält eine Antwort auf den User Object Create API-Aufruf einen Status. In mindestens einer Ausführungsform wird folgend auf den User Object Create API-Aufruf, der die Erzeugung des Benutzerobjekts anzeigt, das Benutzerobjekt erzeugt und ein Handle zu dem Benutzerobjekt an einem durch den Parameter „object_out“ spezifizierten Ort zurückgegeben. In mindestens einer Ausführungsform wird der Status im Ansprechen auf den User Object Create API-Aufruf zurückgegeben, um eine Statusanzeige des User Object Create API-Aufrufs anzuzeigen. In mindestens einer Ausführungsform zeigt die Statusanzeige an, ob eine oder mehrere Operationen der User Object Create API erfolgreich sind, fehlgeschlagen sind oder ob andere Fehler aufgetreten sind.In at least one embodiment, one or more systems perform the User Object Create API by creating at least the user object that includes at least one or more functions (e.g., a destructor) and a value indicating a number of references, also known as designates, encodes or otherwise indicates a reference number. In at least one embodiment, a response to the User Object Create API call includes status. In at least one embodiment, following the User Object Create API call indicating creation of the user object, the user object is created and a handle to the user object is returned at a location specified by the object_out parameter. In at least one embodiment, the status is returned in response to the User Object Create API call to display a status indicator of the User Object Create API call. In at least one embodiment, the status indicator indicates whether one or more User Object Create API operations succeeded, failed, or other errors occurred.

4 veranschaulicht ein Diagramm 400 eines User Object Retain API-Aufrufs, in Übereinstimmung mit mindestens einer Ausführungsform. Weitere Informationen zu diesem User Object Retain API-Aufruf sind in der Beschreibung von 7 zu finden. In mindestens einer Ausführungsform wird die User Object Retain API als cudaUserObjectRetain, UserObjectRetain und/oder eine beliebige geeignete Notation bezeichnet, die sich auf ein Programmiermodell (z. B. CUDA, HIP, oneAPI und/oder Variationen davon) beziehen kann. In mindestens einer Ausführungsform veranlasst die User Object Retain API ein oder mehrere Systeme eines oder mehrerer Programmiermodelle (z. B. CUDA, HIP, oneAPI und/oder Variationen davon), eine Referenz auf das Benutzerobjekt beizubehalten, indem mindestens die Referenzanzahl des Benutzerobjekts um einen bestimmten Wert erhöht wird. In mindestens einer Ausführungsform verwenden ein oder mehrere Systeme die User Object Retain API, um eine Anzahl von Referenzen auf eine und/oder Verwendungen von einer Computerressource, oder jede geeignete Information, durch ein oder mehrere Computerprogramme zu verfolgen. 4 illustrates a diagram 400 of a User Object Retain API call, in accordance with at least one embodiment. More information about this User Object Retain API call can be found in the description of 7 to find. In at least one embodiment, the User Object Retain API is referred to as cudaUserObjectRetain, UserObjectRetain, and/or any suitable notation that may refer to a programming model (e.g., CUDA, HIP, oneAPI, and/or variations thereof). In at least one embodiment, the User Object Retain API causes one or more systems of one or more programming models (e.g., CUDA, HIP, oneAPI, and/or variations thereof) to retain a reference to the user object by increasing at least one reference count of the user object certain value is increased. In at least one embodiment, one or more systems use the User Object Retain API to track a number of references to and/or uses of a computer resource, or any appropriate information, by one or more computer programs.

In mindestens einer Ausführungsform umfassen Parameter für den User Object Retain API-Aufruf „object“ und „count“ und können weitere Parameter beinhalten, die Aspekte des Benutzerobjekts weiter definieren. In mindestens einer Ausführungsform bezeichnet der Parameter „object“ das Benutzerobjekt. In mindestens einer Ausführungsform gibt der Parameter „count“ die Anzahl der zu haltenden Referenzen an. In mindestens einer Ausführungsform führen ein oder mehrere Systeme die User Object Retain API durch, indem sie eine Anzahl von Referenzen, die dem Benutzerobjekt zugeordnet sind, mindestens erhöhen oder anderweitig inkrementieren (z. B. um die angegebene Anzahl von zu haltenden Referenzen). In mindestens einer Ausführungsform enthält eine Antwort auf den User Object Retain API-Aufruf einen Status. In mindestens einer Ausführungsform wird folgend auf den User Object Retain API-Aufruf die durch den Parameter „object“ angegebene Referenzanzahl des Benutzerobjekts um einen durch den Parameter „count“ spezifizierten Wert inkrementiert. In mindestens einer Ausführungsform wird der Status im Ansprechen auf den User Object Retain API-Aufruf zurückgegeben, um eine Statusanzeige des User Object Retain API-Aufrufs anzuzeigen. In mindestens einer Ausführungsform zeigt die Statusanzeige an, ob eine oder mehrere Operationen der User Object Retain API erfolgreich sind, fehlgeschlagen sind oder ob andere Fehler aufgetreten sind.In at least one embodiment, parameters for the User Object Retain API call include "object" and "count" and may include other parameters that further define aspects of the user object. In at least one embodiment, the “object” parameter denotes the user object. In at least one embodiment, the “count” parameter indicates the number of references to keep. In at least one embodiment, one or more systems perform the User Object Retain API by at least increasing or otherwise incrementing a number of references associated with the user object (e.g., by the specified number of references to be retained). In at least one embodiment, a response to the User Object Retain API call includes status. In at least one embodiment, following the User Object Retain API call, the reference count of the user object specified by the "object" parameter is incremented by a value specified by the "count" parameter. In at least one embodiment, the status is returned in response to the User Object Retain API call to display a status indicator of the User Object Retain API call. In at least one embodiment, the status indicator indicates whether one or more User Object Retain API operations succeeded, failed, or other errors occurred.

In mindestens einer Ausführungsform führt eine Graph Retain User Object API einen oder mehrere Prozesse der User Object Retain API durch. In mindestens einer Ausführungsform kann die User Object Retain API verwendet werden, um einen oder mehrere Prozesse der Graph Retain User Object API durchzuführen. In mindestens einer Ausführungsform wird die Graph Retain User Object API verwendet, um eine Referenz auf das Benutzerobjekt aus dem Graphen zu behalten und/oder das Benutzerobjekt einem oder mehreren Graphen zuzuordnen, wobei die Parameter für den Graph Retain User Object API-Aufruf „graph“ umfassen, der den Graphen angibt, dem die Referenz zuzuordnen ist, „object“, das das Benutzerobjekt angibt, für das die Referenz beizubehalten ist, „count“, das eine Anzahl von Referenzen angibt, die dem Graphen hinzuzufügen sind, und „flags“, das verschiedene Flags angibt, wie z. B. ein „GraphUserObjectMove“-Flag, das Referenzen von dem aufrufenden Thread transferiert (z. B. die Zuordnung des Benutzerobjekts und des Graphen anzeigt).In at least one embodiment, a Graph Retain User Object API performs one or more processes of the User Object Retain API. In at least one embodiment, the User Object Retain API may be used to perform one or more processes of the Graph Retain User Object API. In at least one embodiment, the Graph Retain User Object API is used to create a retain reference to the user object from the graph and/or associate the user object with one or more graphs, the parameters for the Graph Retain User Object API call including "graph" specifying the graph to which the reference is to be associated, "object " which specifies the user object for which the reference is to be retained, "count" which specifies a number of references to add to the graph, and "flags" which specifies various flags such as For example, a “GraphUserObjectMove” flag that transfers references from the calling thread (e.g. indicates the mapping of the user object and the graph).

5 veranschaulicht ein Diagramm 500 eines User Object Release API-Aufrufs, in Übereinstimmung mit mindestens einer Ausführungsform. Weitere Informationen zu diesem User Object Release API-Aufruf sind in der Beschreibung von 8 zu finden. In mindestens einer Ausführungsform wird die User Object Release API als cudaUserObjectRelease, UserObjectRelease und/oder eine beliebige geeignete Notation bezeichnet, die sich auf ein Programmiermodell (z. B. CUDA, HIP, oneAPI und/oder Variationen davon) beziehen kann. In mindestens einer Ausführungsform veranlasst die User Object Release API ein oder mehrere Systeme eines oder mehrerer Programmiermodelle (z. B. CUDA, HIP, oneAPI und/oder Variationen davon), eine Referenz auf das Benutzerobjekt freizugeben, indem mindestens die Referenzanzahl des Benutzerobjekts um einen bestimmten Wert verringert wird. In mindestens einer Ausführungsform verwenden ein oder mehrere Systeme die User Object Release API, um eine Anzahl von Referenzen auf eine und/oder Verwendungen von einer Rechenressource oder jede geeignete Information durch ein oder mehrere Rechenprogramme zu verfolgen. 5 illustrates a diagram 500 of a User Object Release API call, in accordance with at least one embodiment. More information about this User Object Release API call can be found in the description of 8th to find. In at least one embodiment, the User Object Release API is referred to as cudaUserObjectRelease, UserObjectRelease, and/or any suitable notation that may refer to a programming model (e.g., CUDA, HIP, oneAPI, and/or variations thereof). In at least one embodiment, the User Object Release API causes one or more systems of one or more programming models (e.g., CUDA, HIP, oneAPI, and/or variations thereof) to release a reference to the user object by increasing at least one reference count of the user object certain value is reduced. In at least one embodiment, one or more systems use the User Object Release API to track a number of references to and/or uses of a computing resource or any appropriate information by one or more computing programs.

In mindestens einer Ausführungsform umfassen Parameter für den User Object Release API-Aufruf „object“, „count“ und können weitere Parameter beinhalten, die Aspekte des Benutzerobjekts weiter definieren. In mindestens einer Ausführungsform gibt der Parameter „object“ das Benutzerobjekt an. In mindestens einer Ausführungsform gibt der Parameter „count“ eine Anzahl freizugebender Referenzen an. In mindestens einer Ausführungsform führen ein oder mehrere Systeme die U-ser Object Release API durch, indem sie eine Anzahl von Referenzen, die dem Benutzerobjekt zugeordnet sind, mindestens verringern oder auf andere Weise dekrementieren (z. B. um die angegebene Anzahl von freizugebenden Referenzen). In mindestens einer Ausführungsform enthält eine Antwort auf den User Object Release API-Aufruf einen Status. In mindestens einer Ausführungsform wird folgend auf den User Object Release API-Aufruf die durch den Parameter „object“ angegebene Referenzanzahl des Benutzerobjekts um einen durch den Parameter „count“ angegebenen Wert verringert. In mindestens einer Ausführungsform wird der Status im Ansprechen auf den User Object Release API-Aufruf zurückgegeben, um eine Statusanzeige des User Object Release API-Aufrufs anzuzeigen. In mindestens einer Ausführungsform zeigt die Statusanzeige an, ob eine oder mehrere Operationen der User Object Release API erfolgreich sind, fehlgeschlagen sind oder ob andere Fehler aufgetreten sind.In at least one embodiment, parameters for the User Object Release API call include "object", "count", and may include other parameters that further define aspects of the user object. In at least one embodiment, the object parameter specifies the user object. In at least one embodiment, the count parameter indicates a number of references to be released. In at least one embodiment, one or more systems perform the User Object Release API by at least reducing or otherwise decrementing a number of references associated with the user object (e.g., by the specified number of references to be released ). In at least one embodiment, a response to the User Object Release API call includes status. In at least one embodiment, following the User Object Release API call, the reference count of the user object specified by the "object" parameter is reduced by a value specified by the "count" parameter. In at least one embodiment, the status is returned in response to the User Object Release API call to display a status indicator of the User Object Release API call. In at least one embodiment, the status indicator indicates whether one or more operations of the User Object Release API succeeded, failed, or other errors occurred.

In mindestens einer Ausführungsform führt eine Graph Release User Object API einen oder mehrere Prozesse der User Object Release API durch. In mindestens einer Ausführungsform kann die User Object Release API verwendet werden, um einen oder mehrere Prozesse der Graph Release User Object API durchzuführen. In mindestens einer Ausführungsform wird die Graph Release User Object API verwendet, um die Benutzerobjektreferenz aus dem Graphen freizugeben, wobei die Parameter für den Graph Release User Object API-Aufruf „graph“, das den Graphen angibt, der die Referenz freigeben wird, „object“, das das Benutzerobjekt angibt, für das die Referenz freizugeben ist, und „count“, das eine Anzahl von freizugebenden Referenzen angibt, beinhalten.In at least one embodiment, a Graph Release User Object API performs one or more processes of the User Object Release API. In at least one embodiment, the User Object Release API may be used to perform one or more processes of the Graph Release User Object API. In at least one embodiment, the Graph Release User Object API is used to release the user object reference from the graph, where the parameters for the Graph Release User Object API call "graph" that specifies the graph that will release the reference are "object ', which specifies the user object to which the reference is to be released, and 'count', which specifies a number of references to be released.

6 veranschaulicht ein Beispiel eines Prozesses 600 des Erzeugens von Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind, gemäß mindestens einer Ausführungsform. In mindestens einer Ausführungsform wird ein Teil oder der gesamte Prozess 600 (oder beliebige andere hierin beschriebene Prozesse oder Variationen und/oder Kombinationen davon) unter der Steuerung eines oder mehrerer Computersysteme durchgeführt, die mit computerausführbaren Anweisungen konfiguriert sind und als Code (z. B. computerausführbare Anweisungen, ein oder mehrere Computerprogramme oder eine oder mehrere Anwendungen) implementiert sind, die kollektiv auf einem oder mehreren Prozessoren durch Hardware, Software oder Kombinationen davon ausgeführt werden. In mindestens einer Ausführungsform ist Code auf einem computerlesbaren Speichermedium in Form eines Computerprogramms gespeichert, das eine Vielzahl von computerlesbaren Anweisungen umfasst, die von einem oder mehreren Prozessoren ausführbar sind. In mindestens einer Ausführungsform ist ein computerlesbares Speichermedium ein nicht übertragbares computerlesbares Medium. In mindestens einer Ausführungsform werden zumindest einige computerlesbare Anweisungen, die zum Durchführen des Prozesses 600 verwendbar sind, nicht ausschließlich unter Verwendung von transitorischen Signalen (z. B. einer sich ausbreitenden transienten elektrischen oder elektromagnetischen Übertragung) gespeichert. In mindestens einer Ausführungsform enthält ein nicht-transitorisches computerlesbares Medium nicht notwendigerweise nicht-transitorische Datenspeicherschaltungen (z. B. Puffer, Caches und Warteschlangen) innerhalb von Transceivern von transitorischen Signalen. 6 illustrates an example of a process 600 of generating data structures to be used to monitor a computer program's use of information, according to at least one embodiment. In at least one embodiment, part or all of process 600 (or any other processes or variations and/or combinations thereof described herein) is performed under the control of one or more computer systems configured with computer-executable instructions and written as code (e.g. computer-executable instructions, one or more computer programs, or one or more applications) that are executed collectively on one or more processors by hardware, software, or combinations thereof. In at least one embodiment, code is stored on a computer-readable storage medium in the form of a computer program that includes a plurality of computer-readable instructions executable by one or more processors. In at least one embodiment, a computer-readable storage medium is a non-transferable computer-readable medium. In at least one embodiment, at least some computer-readable instructions usable to perform process 600 are not executed exclusively using transitory signals (e.g. a propagating transient electrical or electromagnetic transmission). In at least one embodiment, a non-transitory computer-readable medium does not necessarily include non-transitory data storage circuits (e.g., buffers, caches, and queues) within transceivers of transient signals.

In mindestens einer Ausführungsform wird der Prozess 600 von einem oder mehreren Systemen wie beispielsweise diejenigen, die in der vorliegenden Offenbarung beschrieben sind, durchgeführt. In mindestens einer Ausführungsform wird der Prozess 600 von einem System mit einem oder mehreren Programmiermodellen durchgeführt. In mindestens einer Ausführungsform werden ein oder mehrere Prozesse des Prozesses 600 in jeder geeigneten Reihenfolge, einschließlich sequenziell, parallel und/oder Variationen davon, und unter Verwendung einer geeigneten Verarbeitungseinheit, wie beispielsweise einer CPU, GPU, PPU und/oder Variationen davon, durchgeführt.In at least one embodiment, process 600 is performed by one or more systems, such as those described in the present disclosure. In at least one embodiment, process 600 is performed by a system with one or more programming models. In at least one embodiment, one or more processes of process 600 are performed in any suitable order, including sequential, parallel, and/or variations thereof, and using a suitable processing unit, such as a CPU, GPU, PPU, and/or variations thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 600 durchführt, ausführbaren Code, um mindestens Code zu erhalten 602, der mindestens eine API angibt, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform ist die API eine User Object Create API, wie sie in Verbindung mit 3 beschrieben ist. In mindestens einer Ausführungsform umfassen die eine oder mehreren Datenstrukturen das Benutzerobjekt. In mindestens einer Ausführungsform umfassen die Informationen jede geeignete Rechenressource, die von dem Computerprogramm verwendet wird, wie beispielsweise das Objekt, Eingabedaten, Datenobjekte, Datenstrukturen, Speicherbereiche und/oder Variationen davon. In mindestens einer Ausführungsform enthält die API Parameterwerte, wie sie in Verbindung mit 3 beschrieben sind. In mindestens einer Ausführungsform enthält die API Parameterwerte, die einen Ort angeben, der der einen oder den mehreren Datenstrukturen entspricht (z. B. einen Ort für ein Handle, das der einen oder den mehreren Datenstrukturen entspricht), eine Anzahl von Referenzen, eine oder mehrere Funktionen (z. B. Destruktoren) und/oder Variationen davon.In at least one embodiment, the system that performs at least a portion of the process 600 includes executable code to obtain at least code 602 specifying at least one API to produce one or more data structures used to monitor the use of information by a Computer program can be used. In at least one embodiment, the API is a User Object Create API as used in connection with 3 is described. In at least one embodiment, the one or more data structures include the user object. In at least one embodiment, the information includes any suitable computing resource used by the computer program, such as the object, input data, data objects, data structures, memory areas, and/or variations thereof. In at least one embodiment, the API includes parameter values as used in connection with 3 are described. In at least one embodiment, the API includes parameter values indicating a location corresponding to the one or more data structures (e.g., a location for a handle corresponding to the one or more data structures), a number of references, a or multiple functions (e.g. destructors) and/or variations thereof.

In mindestens einer Ausführungsform ist das Computerprogramm, wie hierin beschrieben, ein beliebiges geeignetes Programm, das von einer beliebigen geeigneten Verarbeitungseinheit, z. B. einer oder mehreren CPUs, GPUs, PPUs, GPGPUs und/oder Variationen davon, ausführbar ist. In mindestens einer Ausführungsform entspricht das Computerprogramm, wie hierin beschrieben, einer oder mehreren Graph-Datenstrukturen, Graph-Code und/oder Variationen davon. In mindestens einer Ausführungsform ist der Code unter Verwendung einer beliebigen geeigneten Programmiersprache und in Verbindung mit einem beliebigen geeigneten Programmiermodell, wie z. B. CUDA, HIP, oneAPI und/oder Variationen davon, geschrieben.In at least one embodiment, the computer program, as described herein, is any suitable program executed by any suitable processing unit, e.g. B. one or more CPUs, GPUs, PPUs, GPGPUs and / or variations thereof. In at least one embodiment, the computer program, as described herein, corresponds to one or more graph data structures, graph code, and/or variations thereof. In at least one embodiment, the code is written using any suitable programming language and in conjunction with any suitable programming model, such as. B. CUDA, HIP, oneAPI and/or variations thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 600 ausführt, ausführbaren Code, um mindestens die API durchzuführen 604, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind. In mindestens einer Ausführungsform führt das System die API als Teil der Ausführung des Codes durch, der die API angibt. In mindestens einer Ausführungsform erzeugt das System die eine oder die mehreren Datenstrukturen, die mindestens die eine oder die mehreren Funktionen (z. B. Destruktoren) und einen Wert codieren oder anderweitig angeben, der eine Anzahl von Referenzen angibt, die dem Computerprogramm zugeordnet sind und auch als eine Referenzanzahl bezeichnet werden. In mindestens einer Ausführungsform überwacht das System die Verwendung der Informationen durch das Computerprogramm, indem es mindestens die Anzahl der Referenzen auf die Informationen überwacht, die von dem Computerprogramm verwendet werden. In mindestens einer Ausführungsform verknüpft das System die eine oder mehreren Datenstrukturen mit einer oder mehreren Graph-Datenstrukturen, um die Verwendung von Informationen durch die eine oder mehreren Graph-Datenstrukturen zu überwachen. In mindestens einer Ausführungsform veranlasst das System die Ausführung der einen oder mehreren Funktionen, wenn der Wert Null erreicht.In at least one embodiment, the system that executes at least a portion of the process 600 includes executable code to perform at least the API 604 to produce one or more data structures to be used to monitor a computer program's use of information. In at least one embodiment, the system performs the API as part of executing the code that specifies the API. In at least one embodiment, the system creates the one or more data structures that encode or otherwise specify at least the one or more functions (e.g., destructors) and a value indicating a number of references associated with the computer program and also referred to as a reference number. In at least one embodiment, the system monitors the computer program's use of the information by monitoring at least the number of references to the information used by the computer program. In at least one embodiment, the system associates the one or more data structures with one or more graph data structures to monitor the use of information by the one or more graph data structures. In at least one embodiment, the system causes the one or more functions to be executed when the value reaches zero.

7 veranschaulicht ein Beispiel eines Prozesses 700 des Veranlassens, die Verwendung von Informationen durch ein Computerprogramm zu steigern, gemäß mindestens einer Ausführungsform. In mindestens einer Ausführungsform wird ein Teil oder der gesamte Prozess 700 (oder andere hierin beschriebene Prozesse oder Variationen und/oder Kombinationen davon) unter der Steuerung eines oder mehrerer Computersysteme durchgeführt, die mit computerausführbaren Anweisungen konfiguriert sind und als Code (z. B. computerausführbare Anweisungen, ein oder mehrere Computerprogramme oder eine oder mehrere Anwendungen) implementiert sind, die gemeinsam auf einem oder mehreren Prozessoren durch Hardware, Software oder Kombinationen davon ausgeführt werden. In mindestens einer Ausführungsform ist der Code auf einem computerlesbaren Speichermedium in Form eines Computerprogramms gespeichert, das eine Vielzahl von computerlesbaren Anweisungen umfasst-, die von einem oder mehreren Prozessoren ausführbar sind. In mindestens einer Ausführungsform ist das computerlesbare Speichermedium ein nicht-transitorisches computerlesbares Medium. In mindestens einer Ausführungsform werden zumindest einige computerlesbare Anweisungen, die zur Durchführung des Prozesses 700 verwendbar sind, nicht ausschließlich unter Verwendung von transitorischen Signalen (z. B. einer sich ausbreitenden transienten elektrischen oder elektromagnetischen Übertragung) gespeichert. In mindestens einer Ausführungsform enthält ein nicht-transitorisches computerlesbares Medium nicht notwendigerweise nicht-transitorische Datenspeicherschaltungen (z. B. Puffer, Caches und Warteschlangen) innerhalb von Transceivern von transitorischen Signalen. 7 illustrates an example of a process 700 of causing a computer program to increase the use of information, according to at least one embodiment. In at least one embodiment, part or all of process 700 (or other processes described herein or variations and/or combinations thereof) is performed under the control of one or more computer systems configured with computer-executable instructions and expressed as code (e.g., computer-executable Instructions, one or more computer programs, or one or more applications) that are executed together on one or more processors by hardware, software, or combinations thereof. In at least one embodiment, the code is on stored on a computer-readable storage medium in the form of a computer program comprising a plurality of computer-readable instructions executable by one or more processors. In at least one embodiment, the computer-readable storage medium is a non-transitory computer-readable medium. In at least one embodiment, at least some computer-readable instructions usable to perform process 700 are not stored exclusively using transient signals (e.g., propagating transient electrical or electromagnetic transmission). In at least one embodiment, a non-transitory computer-readable medium does not necessarily include non-transitory data storage circuits (e.g., buffers, caches, and queues) within transceivers of transient signals.

In mindestens einer Ausführungsform wird der Prozess 700 von einem oder mehreren Systemen, wie diejenigen, die in der vorliegenden Offenbarung beschrieben sind, durchgeführt. In mindestens einer Ausführungsform wird der Prozess 700 von einem System mit einem oder mehreren Programmiermodellen durchgeführt. In mindestens einer Ausführungsform werden ein oder mehrere Prozesse des Prozesses 700 in jeder geeigneten Reihenfolge, einschließlich sequenziell, parallel und/oder Variationen davon, und unter Verwendung einer geeigneten Verarbeitungseinheit, wie beispielsweise einer CPU, GPU, PPU und/oder Variationen davon, durchgeführt.In at least one embodiment, process 700 is performed by one or more systems such as those described in the present disclosure. In at least one embodiment, process 700 is performed by a system with one or more programming models. In at least one embodiment, one or more processes of process 700 are performed in any suitable order, including sequential, parallel, and/or variations thereof, and using a suitable processing unit, such as a CPU, GPU, PPU, and/or variations thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 700 durchführt, ausführbaren Code, um mindestens Code zu erhalten 702, der mindestens eine API zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm gesteigert wird, angibt, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen verwendet werden. In mindestens einer Ausführungsform ist die API eine User Object Retain API oder Graph Retain User Object API, wie diejenigen, die in Verbindung mit 4 beschrieben sind. In mindestens einer Ausführungsform enthält die API Parameterwerte, wie diejenigen, die in Verbindung mit 4 beschrieben sind. In mindestens einer Ausführungsform enthält die API Parameterwerte, die die eine oder die mehreren Datenstrukturen, eine Anzahl von zu speichernden Referenzen und/oder Variationen davon angeben. In mindestens einer Ausführungsform enthält die API Parameterwerte, die eine oder mehrere Graph-Datenstrukturen und/oder ein oder mehrere Flags angeben.In at least one embodiment, the system that performs at least a portion of the process 700 includes, at least in part, executable code to obtain at least code 702 that specifies at least one API for causing the use of information by a computer program to be increased the basis of one or more data structures used to monitor the use of information. In at least one embodiment, the API is a User Object Retain API or Graph Retain User Object API, such as those described in connection with 4 are described. In at least one embodiment, the API includes parameter values, such as those associated with 4 are described. In at least one embodiment, the API includes parameter values that specify the one or more data structures, a number of references to be stored, and/or variations thereof. In at least one embodiment, the API includes parameter values that specify one or more graph data structures and/or one or more flags.

In mindestens einer Ausführungsform ist das Computerprogramm ein beliebiges geeignetes Programm, das von einer beliebigen geeigneten Verarbeitungseinheit, wie beispielsweise einer oder mehreren CPUs, GPUs, PPUs, GPGPUs und/oder Varianten davon, ausführbar ist. In mindestens einer Ausführungsform ist das Computerprogramm der einen oder den mehreren Graphen-Datenstrukturen zugeordnet, wobei das System die API durchführt, indem es zumindest die eine oder die mehreren Datenstrukturen der einen oder den mehreren Graph-Datenstrukturen zuordnet, um die Verwendung von Informationen durch die eine oder die mehreren Graph-Datenstrukturen zu verfolgen. In mindestens einer Ausführungsform ist der Code unter Verwendung einer beliebigen geeigneten Programmiersprache und in Verbindung mit einem beliebigen geeigneten Programmiermodell, wie z. B. CUDA, HIP, oneAPI und/oder Varianten davon, geschrieben.In at least one embodiment, the computer program is any suitable program executable by any suitable processing unit, such as one or more CPUs, GPUs, PPUs, GPGPUs, and/or variants thereof. In at least one embodiment, the computer program is associated with the one or more graph data structures, wherein the system performs the API by associating at least the one or more data structures with the one or more graph data structures to facilitate the use of information by the to trace one or more graph data structures. In at least one embodiment, the code is written using any suitable programming language and in conjunction with any suitable programming model, such as. B. CUDA, HIP, oneAPI and/or variants thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 700 ausführt, ausführbaren Code, um mindestens die API durchzuführen 704, um zu veranlassen, dass die Verwendung von Informationen durch das Computerprogramm gesteigert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen verwendet werden. In mindestens einer Ausführungsform führt das System die API als Teil der Ausführung des Codes durch, der die API angibt. In mindestens einer Ausführungsform führt das System die API durch, indem es zumindest einen Wert der einen oder der mehreren Datenstrukturen (z. B. Benutzerobjekt), die eine Anzahl von Referenzen anzeigen, die dem Computerprogramm zugeordnet sind, um die Anzahl von Referenzen erhöht oder anderweitig erhöht, die durch die Parameterwerte der API angezeigt werden. In mindestens einer Ausführungsform veranlasst das System, dass die Verwendung der Informationen durch das Computerprogramm gesteigert wird, zumindest teilweise auf der Grundlage der einen oder mehreren Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden, indem zumindest die API durchgeführt wird, um eine gesteigerte Verwendung von Informationen (z. B. mehr Referenzen auf eine Computerressource, wie beispielsweise das Objekt) durch das Computerprogramm anzuzeigen.In at least one embodiment, the system that executes at least a portion of the process 700 includes executable code to perform at least the API 704 to cause the computer program to increase its use of information, based at least in part on one or more Data structures used to monitor the use of information. In at least one embodiment, the system performs the API as part of executing the code that specifies the API. In at least one embodiment, the system performs the API by incrementing at least one value of the one or more data structures (e.g., user object) indicating a number of references associated with the computer program by the number of references or otherwise increased as indicated by the API's parameter values. In at least one embodiment, the system causes the computer program's use of the information to be increased based at least in part on the one or more data structures used to monitor the use of the information by performing at least the API Use of information (e.g., to display more references to a computer resource, such as the object) by the computer program.

8 veranschaulicht ein Beispiel eines Prozesses 800 des Veranlassens, dass die Verwendung von Informationen durch ein Computerprogramm reduziert wird, gemäß mindestens einer Ausführungsform. In mindestens einer Ausführungsform wird ein Teil oder der gesamte Prozess 800 (oder beliebige andere hierin beschriebene Prozesse oder Variationen und/oder Kombinationen davon) unter der Steuerung eines oder mehrerer Computersysteme durchgeführt, die mit computerausführbaren Anweisungen konfiguriert sind und als Code (z. B. computerausführbare Anweisungen, ein oder mehrere Computerprogramme oder eine oder mehrere Anwendungen) implementiert sind, die gemeinsam auf einem oder mehreren Prozessoren durch Hardware, Software oder Kombinationen davon ausgeführt werden. In mindestens einer Ausführungsform ist der Code auf einem computerlesbaren -Speichermedium in Form eines Computerprogramms gespeichert, das eine Vielzahl von computerlesbaren Anweisungen umfasst, die von einem oder mehreren Prozessoren ausgeführt werden können. In mindestens einer Ausführungsform ist das computerlesbare Speichermedium ein nicht-transitorisches computerlesbares Medium. In mindestens einer Ausführungsform werden zumindest einige computerlesbare Anweisungen, die zur Durchführung des Prozesses 800 verwendet werden können, nicht ausschließlich unter Verwendung von transitorischen Signalen (z. B. einer sich ausbreitenden transienten elektrischen oder elektromagnetischen Übertragung) gespeichert. In mindestens einer Ausführungsform enthält ein nicht-transitorisches computerlesbares Medium nicht notwendigerweise nicht-transitorische Datenspeicherschaltungen (z. B. Puffer, Caches und Warteschlangen) innerhalb von Transceivern von transitorischen Signalen. 8th illustrates an example of a process 800 of causing a computer program's use of information to be reduced, according to at least one embodiment. In at least one embodiment, part or all of process 800 (or any other processes or variations and/or combinations thereof described herein) is performed under the control of one or more computer systems configured with computer-executable instructions and implemented as code (e.g., computer-executable instructions, one or more computer programs, or one or more applications) that are collectively executed on one or more processors by hardware, software, or combinations thereof. In at least one embodiment, the code is stored on a computer-readable storage medium in the form of a computer program that includes a plurality of computer-readable instructions that can be executed by one or more processors. In at least one embodiment, the computer-readable storage medium is a non-transitory computer-readable medium. In at least one embodiment, at least some computer-readable instructions that may be used to perform process 800 are not stored exclusively using transient signals (e.g., propagating transient electrical or electromagnetic transmission). In at least one embodiment, a non-transitory computer-readable medium does not necessarily include non-transitory data storage circuits (e.g., buffers, caches, and queues) within transceivers of transient signals.

In mindestens einer Ausführungsform wird der Prozess 800 von einem oder mehreren Systemen, wie beispielsweise denjenigen, die in der vorliegenden Offenbarung beschrieben sind, durchgeführt. In mindestens einer Ausführungsform wird der Prozess 800 von einem System eines oder mehrerer Programmiermodelle durchgeführt. In mindestens einer Ausführungsform werden ein oder mehrere Prozesse des Prozesses 800 in jeder geeigneten Reihenfolge, einschließlich sequenziell, parallel und/oder Variationen davon, und unter Verwendung jeder geeigneten Verarbeitungseinheit, wie beispielsweise einer CPU, GPU, PPU und/oder Variationen davon, durchgeführt.In at least one embodiment, process 800 is performed by one or more systems, such as those described in the present disclosure. In at least one embodiment, process 800 is performed by a system of one or more programming models. In at least one embodiment, one or more processes of process 800 are performed in any suitable order, including sequential, parallel, and/or variations thereof, and using any suitable processing unit, such as a CPU, GPU, PPU, and/or variations thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 800 durchführt, ausführbaren Code, um mindestens Code zu erhalten 802, der mindestens eine API angibt, um zu veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen verwendet werden. In mindestens einer Ausführungsform ist die API eine User Object Release API oder eine Graph Release User Object API, wie beispielsweise diejenigen, die in Verbindung mit 5 beschrieben sind. In mindestens einer Ausführungsform enthält die API Parameterwerte, wie beispielsweise diejenigen, die in Verbindung mit 5 beschrieben sind. In mindestens einer Ausführungsform enthält die API Parameterwerte, die die eine oder mehrere Datenstrukturen, eine Anzahl von Referenzen auf die Freigabe und/oder Variationen davon angeben. In mindestens einer Ausführungsform umfasst die API Parameterwerte, die eine oder mehrere Graph-Datenstrukturen angeben.In at least one embodiment, the system that performs at least a portion of the process 800 includes executable code to obtain at least code 802 that specifies at least one API to cause a computer program's use of information to be reduced, at least in part based on one or more data structures used to monitor the use of information. In at least one embodiment, the API is a User Object Release API or a Graph Release User Object API, such as those associated with 5 are described. In at least one embodiment, the API includes parameter values, such as those associated with 5 are described. In at least one embodiment, the API includes parameter values that specify the one or more data structures, a number of references to the release, and/or variations thereof. In at least one embodiment, the API includes parameter values that specify one or more graph data structures.

In mindestens einer Ausführungsform ist das Computerprogramm ein beliebiges geeignetes Programm, das von einer beliebigen geeigneten Verarbeitungseinheit, wie beispielsweise einer oder mehreren CPUs, GPUs, PPUs, GPGPUs und/oder Varianten davon, ausführbar sind. In mindestens einer Ausführungsform ist das Computerprogramm der einen oder den mehreren Graph-Datenstrukturen zugeordnet. In mindestens einer Ausführungsform ist der Code unter Verwendung einer beliebigen geeigneten Programmiersprache und in Verbindung mit einem beliebigen geeigneten Programmiermodell, wie beispielsweise CUDA, HIP, oneAPI und/oder Variationen davon, geschrieben.In at least one embodiment, the computer program is any suitable program executable by any suitable processing unit, such as one or more CPUs, GPUs, PPUs, GPGPUs, and/or variants thereof. In at least one embodiment, the computer program is associated with the one or more graph data structures. In at least one embodiment, the code is written using any suitable programming language and in conjunction with any suitable programming model, such as CUDA, HIP, oneAPI, and/or variations thereof.

In mindestens einer Ausführungsform enthält das System, das mindestens einen Teil des Prozesses 800 ausführt, ausführbaren Code, um mindestens die API auszuführen 804, um zu veranlassen, dass die Verwendung von Informationen durch das Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen verwendet werden. In mindestens einer Ausführungsform führt das System die API als Teil der Ausführung des Codes durch, der die API angibt. In mindestens einer Ausführungsform führt das System die API durch, indem es einen Wert der einen oder der mehreren Datenstrukturen (z. B. Benutzerobjekt), der eine Anzahl von Referenzen angibt, die dem Computerprogramm zugeordnet sind, um die Anzahl von Referenzen auf die Freigabe, die durch die Parameterwerte der API angezeigt werden, reduziert oder anderweitig verringert. In mindestens einer Ausführungsform veranlasst das System, dass die Verwendung der Informationen durch das Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage der einen oder mehreren Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden, indem zumindest die API ausgeführt wird, um eine Reduzierung der Verwendung von Informationen (z. B. weniger Referenzen auf eine Computerressource) durch das Computerprogramm anzuzeigen. In mindestens einer Ausführungsform ruft das System, sobald der Wert, der die Anzahl der Referenzen anzeigt, Null erreicht, eine oder mehrere Funktionen (z. B. Destruktoren) auf, um die von dem Computerprogramm verwendeten Informationen (z. B. eine Computerressource, wie beispielsweise das Objekt) zu zerstören oder anderweitig zu löschen.In at least one embodiment, the system that executes at least a portion of the process 800 includes executable code to execute at least the API 804 to cause the computer program's use of information to be reduced, based at least in part on one or more Data structures used to monitor the use of information. In at least one embodiment, the system performs the API as part of executing the code that specifies the API. In at least one embodiment, the system performs the API by changing a value of the one or more data structures (e.g., user object) that indicates a number of references associated with the computer program to the number of references to the release , which are indicated by the API's parameter values, reduced or otherwise reduced. In at least one embodiment, the system causes the computer program's use of the information to be reduced based at least in part on the one or more data structures used to monitor the use of the information by executing at least the API the use of information (e.g. fewer references to a computer resource) by the computer program. In at least one embodiment, once the value indicating the number of references reaches zero, the system calls one or more functions (e.g., destructors) to retrieve the information used by the computer program (e.g., a computer resource, such as the object) to destroy or otherwise delete.

In der vorangehenden und der nachfolgenden Beschreibung werden zahlreiche spezifische Details aufgeführt, um ein gründlicheres Verständnis mindestens einer Ausführungsform zu ermöglichen. Für den Fachmann ist jedoch ersichtlich, dass die erfindungsgemäßen Konzepte auch ohne eines oder mehrere dieser spezifischen Details in die Praxis umgesetzt werden können.Numerous specific details are set forth in the foregoing and subsequent descriptions to provide a more thorough understanding of at least one embodiment. However, it will be apparent to those skilled in the art that the concepts according to the invention can also be put into practice without one or more of these specific details.

RechenzentrumData center

9 veranschaulicht ein beispielhaftes Rechenzentrum 900, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform beinhaltet das Rechenzentrum 900, ohne darauf beschränkt zu sein, eine Rechenzentrum-Infrastrukturschicht 910, eine Frameworkschicht 920, eine Softwareschicht 930 und eine Anwendungsschicht 940. 9 illustrates an example data center 900, in accordance with at least one embodiment. In at least one embodiment, data center 900 includes, but is not limited to, a data center infrastructure layer 910, a framework layer 920, a software layer 930, and an application layer 940.

In mindestens einer Ausführungsform, wie in 9 gezeigt, kann die Rechenzentrum-Infrastrukturschicht 910 einen Ressourcenorchestrator 912, gruppierte Rechenressourcen 914 und Knoten-Rechenressourcen („Knoten-C.R.s“) 916(1)-916(N) beinhalten, wobei „N“ eine beliebige ganze, positive Zahl darstellt. In mindestens einer Ausführungsform können die Knoten-C.R.s 916(1)-916(N), ohne darauf beschränkt zu sein, eine beliebige Anzahl von Zentralverarbeitungseinheiten („CPUs“) oder anderen Prozessoren (einschließlich Beschleunigern, feldprogrammierbaren Gate-Arrays („FPGAs“), Datenverarbeitungseinheiten („DPUs“) in Netzwerkgeräten, Grafikprozessoren usw.), Speichervorrichtungen (z.B. dynamischer Festspeicher), Speichervorrichtungen (z.B. Solid-State- oder Festplattenlaufwerke), Netzwerk-Eingabe-/Ausgabe-Geräte („NW E/A“), Netzwerk-Switches, virtuelle Maschinen („VMs“), Leistungsmodule und Kühlmodule usw. beinhalten. In mindestens einer Ausführungsform können ein oder mehrere Knoten-C.R.s unter den Knoten-C.R.s 916(1)-916(N) ein Server mit einer oder mehreren der vorstehend erwähnten Rechenressourcen sein.In at least one embodiment, as in 9 As shown, the data center infrastructure layer 910 may include a resource orchestrator 912, clustered computing resources 914, and node computing resources (“node CRs”) 916(1)-916(N), where “N” represents any positive integer. In at least one embodiment, the node CRs 916(1)-916(N) may include, but are not limited to, any number of central processing units ("CPUs") or other processors (including accelerators, field programmable gate arrays ("FPGAs") ), data processing units (“DPUs”) in network devices, graphics processors, etc.), storage devices (e.g. dynamic read-only memory), storage devices (e.g. solid-state or hard disk drives), network input/output devices (“NW I/O”) , network switches, virtual machines (“VMs”), power modules and cooling modules, etc. In at least one embodiment, one or more node CRs among node CRs 916(1)-916(N) may be a server with one or more of the computing resources mentioned above.

In mindestens einer Ausführungsform können die gruppierten Rechenressourcen 914 separate Gruppierungen von Knoten-C.R.s beinhalten, die in einem oder mehreren Racks (nicht dargestellt) untergebracht sind, oder in vielen Racks, die in Rechenzentren an verschiedenen geografischen Positionen untergebracht sind (ebenfalls nicht dargestellt). Separate Gruppierungen von Knoten-C.R.s innerhalb der gruppierten Rechenressourcen 914 können gruppierte Rechen-, Netzwerk-, Speicher- oder Speicherressourcen beinhalten, die zur Unterstützung einer oder mehrerer Arbeitslasten konfiguriert oder zugewiesen werden können. In mindestens einer Ausführungsform können mehrere Knoten-C.R.s mit CPUs oder Prozessoren in einem oder mehreren Racks gruppiert sein, um Rechenressourcen zur Unterstützung einer oder mehrerer Arbeitslasten bereitzustellen. In mindestens einer Ausführungsform können ein oder mehrere Racks auch eine beliebige Anzahl von Leistungs- bzw. Stromversorgungsmodulen, Kühlmodulen und Netzwerk-Switches in beliebiger Kombination beinhalten.In at least one embodiment, the grouped computing resources 914 may include separate groupings of node C.R.s housed in one or more racks (not shown), or in many racks housed in data centers in different geographical locations (also not shown). Separate groupings of node C.R.s within the grouped compute resources 914 may include grouped compute, network, memory, or storage resources that may be configured or assigned to support one or more workloads. In at least one embodiment, multiple node C.R.s with CPUs or processors may be grouped in one or more racks to provide computing resources to support one or more workloads. In at least one embodiment, one or more racks may also contain any number of power modules, cooling modules, and network switches in any combination.

In mindestens einer Ausführungsform kann der Ressourcenorchestrator 912 einen oder mehrere Knoten-CRs 916(1)-916(N) und/oder gruppierte Rechenressourcen 914 konfigurieren oder anderweitig steuern. In mindestens einer Ausführungsform kann der Ressourcenorchestrator 912 eine Software-Design-Infrastruktur („SDI“)-Verwaltungseinheit für das Rechenzentrum 900 beinhalten. In mindestens einer Ausführungsform kann der Ressourcenorchestrator 912 Hardware, Software oder eine Kombination davon umfassen.In at least one embodiment, resource orchestrator 912 may configure or otherwise control one or more node CRs 916(1)-916(N) and/or grouped computing resources 914. In at least one embodiment, the resource orchestrator 912 may include a software design infrastructure (“SDI”) manager for the data center 900. In at least one embodiment, resource orchestrator 912 may include hardware, software, or a combination thereof.

In mindestens einer Ausführungsform, wie in 9 gezeigt, beinhaltet die Frameworkschicht 920, ohne Beschränkung darauf, einen Job-Scheduler 932, einen Konfigurationsmanager 934, einen Ressourcenverwalter 936 und ein verteiltes Dateisystem 938. In mindestens einer Ausführungsform kann die Frameworkschicht 920 ein Framework zur Unterstützung der Software 952 der Softwareschicht 930 und/oder einer oder mehrerer Anwendung(en) 942 der Anwendungsschicht 940 beinhalten. In mindestens einer Ausführungsform können die Software 952 oder die Anwendung(en) 942 jeweils webbasierte Dienstsoftware oder Anwendungen beinhalten, wie sie beispielsweise von Amazon Web Services, Google Cloud und Microsoft Azure bereitgestellt werden. In mindestens einer Ausführungsform kann die Frameworkschicht 920 eine Art von freiem und quelloffenem Software-Webanwendungs-Framework wie Apache SparkTM (nachstehend „Spark“) sein, das ein verteiltes Dateisystem 938 für die Verarbeitung großer Datenmengen (z.B. „Big Data“) verwenden kann, ist aber nicht darauf beschränkt. In mindestens einer Ausführungsform kann der Job-Scheduler 932 einen Spark-Treiber enthalten, um die Planung von Arbeitslasten zu erleichtern, die von verschiedenen Schichten des Rechenzentrums 900 unterstützt werden. In mindestens einer Ausführungsform kann der Konfigurationsmanager 934 in der Lage sein, verschiedene Schichten zu konfigurieren, wie beispielsweise die Softwareschicht 930 und die Frameworkschicht 920, einschließlich Spark und das verteilte Dateisystem 938 zur Unterstützung der Verarbeitung großer Datenmengen. In mindestens einer Ausführungsform kann der Ressourcenverwalter 936 in der Lage sein, geclusterte oder gruppierte Rechenressourcen zu verwalten, die zur Unterstützung des verteilten Dateisystems 938 und des Job-Schedulers 932 gemappt oder zugeordnet sind. In mindestens einer Ausführungsform können geclusterte oder gruppierte Rechenressourcen die gruppierten Rechenressourcen 914 auf der Rechenzentrums-Infrastrukturschicht 910 umfassen. In mindestens einer Ausführungsform kann sich der Ressourcenverwalter 936 mit dem Ressourcenorchestrator 912 koordinieren, um diese gemappten oder zugeordneten Rechenressourcen zu verwalten.In at least one embodiment, as in 9 As shown, the framework layer 920 includes, but is not limited to, a job scheduler 932, a configuration manager 934, a resource manager 936, and a distributed file system 938. In at least one embodiment, the framework layer 920 may be a framework for supporting the software 952 of the software layer 930 and/or or one or more application(s) 942 of the application layer 940. In at least one embodiment, the software 952 or the application(s) 942 may each include web-based service software or applications such as those provided by Amazon Web Services, Google Cloud, and Microsoft Azure. In at least one embodiment, the framework layer 920 may be a type of free and open source software web application framework such as Apache Spark™ (hereinafter "Spark"), which may use a distributed file system 938 for processing large amounts of data (e.g., "Big Data"), but is not limited to this. In at least one embodiment, job scheduler 932 may include a Spark driver to facilitate scheduling of workloads supported by different tiers of data center 900. In at least one embodiment, the configuration manager 934 may be capable of configuring various layers, such as the software layer 930 and the framework layer 920, including Spark and the distributed file system 938 to support large data processing. In at least one embodiment, resource manager 936 may be capable of managing clustered or grouped computing resources that are mapped or assigned to support the distributed file system 938 and the job scheduler 932. In at least one embodiment, clustered or grouped computing resources may include the grouped computing resources 914 on the data center infrastructure layer 910. In at least one embodiment, resource manager 936 may coordinate with resource orchestrator 912 to manage these mapped or allocated computing resources.

In mindestens einer Ausführungsform kann die in der Softwareschicht 930 enthaltene Software 952 Software enthalten, die von mindestens Teilen der Knoten C.R.s 916(1)-916(N), den gruppierten Rechenressourcen 914 und/oder dem verteilten Dateisystem 938 der Frameworkschicht 920 verwendet wird. Eine oder mehrere Arten von Software können Internet-Webseiten-Suchsoftware, E-Mail-Virenscan-Software, Datenbanksoftware und Software für Stream ing-Videoinhalte umfassen, ohne darauf beschränkt zu sein.In at least one embodiment, the software 952 included in the software layer 930 may include software used by at least portions of the node C.R.s 916(1)-916(N), the clustered computing resources 914, and/or the distributed file system 938 of the framework layer 920. One or more types of software may include, but are not limited to, Internet website search software, email virus scanning software, database software, and video content streaming software.

In mindestens einer Ausführungsform kann (können) die in der Anwendungsschicht 940 enthaltene(n) Anwendung(en) 942 eine oder mehrere Arten von Anwendungen beinhalten, die von mindestens Teilen der Knoten C.R.s 916(1)-916(N), den gruppierten Rechenressourcen 914 und/oder dem verteilten Dateisystem 938 der Rahmenschicht 920 verwendet werden. Mindestens eine oder mehrere Arten von Anwendungen können, ohne Beschränkung darauf, CUDA-Anwendungen beinhalten.In at least one embodiment, the application(s) 942 included in the application layer 940 may include one or more types of applications powered by at least portions of the nodes C.R.s 916(1)-916(N), the grouped computing resources 914 and/or the distributed file system 938 of the frame layer 920 can be used. At least one or more types of applications may include, but are not limited to, CUDA applications.

In mindestens einer Ausführungsform können der Konfigurationsmanager 934, der Ressourcenverwalter 936 und der Ressourcenorchestrator 912 eine beliebige Anzahl und Art von selbstmodifizierenden Aktionen implementieren, die auf einer beliebigen Menge und Art von Daten basieren, die auf jede technisch mögliche Weise erfasst werden. In mindestens einer Ausführungsform können selbstmodifizierende Aktionen einen Rechenzentrumsbetreiber des Rechenzentrums 900 davon entlasten, möglicherweise schlechte Konfigurationsentscheidungen zu treffen und möglicherweise nicht ausgelastete und/oder schlecht leistende Teile eines Rechenzentrums zu vermeiden.In at least one embodiment, the configuration manager 934, the resource manager 936, and the resource orchestrator 912 may implement any number and type of self-modifying actions based on any amount and type of data collected in any technically possible manner. In at least one embodiment, self-modifying actions may relieve a data center operator of data center 900 from potentially making poor configuration decisions and potentially avoiding underutilized and/or underperforming portions of a data center.

In mindestens einer Ausführungsform werden ein oder mehrere in 9 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 9 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 9 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 9 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 9 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 9 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 9 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 9 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

Computer-basierte SystemeComputer based systems

Die folgenden Figuren zeigen, ohne Beschränkung darauf, beispielhafte computer-basierte bzw. computergestützte Systeme, die zur Implementierung mindestens einer Ausführungsform verwendet werden können.The following figures show, but are not limited to, exemplary computer-based systems that may be used to implement at least one embodiment.

10 veranschaulicht ein Verarbeitungssystem 1000, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform beinhaltet das Verarbeitungssystem 1000 einen oder mehrere Prozessoren 1002 und einen oder mehrere Grafikprozessoren 1008, und kann ein Einzelprozessor-Desktop-System, ein Multiprozessor-Workstation-System oder ein Serversystem mit einer großen Anzahl von Prozessoren 1002 oder Prozessorkernen 1007 sein. In mindestens einer Ausführungsform ist das Verarbeitungssystem 1000 eine Verarbeitungsplattform, die in eine integrierte System-on-a-Chip („SoC“)-Schaltung zur Verwendung in mobilen, tragbaren oder eingebetteten Geräten integriert ist. 10 illustrates a processing system 1000, in accordance with at least one embodiment. In at least one embodiment, processing system 1000 includes one or more processors 1002 and one or more graphics processors 1008, and may be a single-processor desktop system, a multiprocessor workstation system, or a server system with a large number of processors 1002 or processor cores 1007. In at least one embodiment, the processing system 1000 is a processing platform integrated into a system-on-a-chip (“SoC”) integrated circuit for use in mobile, portable, or embedded devices.

In mindestens einer Ausführungsform kann das Verarbeitungssystem 1000 eine serverbasierte Spielplattform, eine Spielkonsole, eine Medienkonsole, eine mobile Spielkonsole, eine Handheld-Spielkonsole oder eine Online-Spielkonsole beinhalten oder in diese integriert sein. In mindestens einer Ausführungsform ist das Verarbeitungssystem 1000 ein Mobiltelefon, ein Smartphone, ein Tablet-Computergerät oder ein mobiles Internetgerät. In mindestens einer Ausführungsform kann das Verarbeitungssystem 1000 auch ein Wearable-Gerät, wie z.B. ein Smart Watch-Wearable-Gerät, eine intelligente Brille, ein Augmented-Reality-Gerät oder ein Virtual-Reality-Gerät beinhalten, mit diesem gekoppelt oder in dieses integriert sein. In mindestens einer Ausführungsform ist das Verarbeitungssystem 1000 ein Fernseh- oder Set-Top-Box-Gerät mit einem oder mehreren Prozessoren 1002 und einer grafischen Oberfläche, die von einem oder mehreren Grafikprozessoren 1008 erzeugt wird.In at least one embodiment, the processing system 1000 may include or be integrated with a server-based gaming platform, a gaming console, a media console, a mobile gaming console, a handheld gaming console, or an online gaming console. In at least one embodiment, the processing system 1000 is a cell phone, a smartphone, a tablet computing device, or a mobile Internet device. In at least one embodiment, the processing system 1000 may also include, coupled to, or integrated with a wearable device, such as a smart watch wearable device, smart glasses, an augmented reality device, or a virtual reality device be. In at least In one embodiment, processing system 1000 is a television or set-top box device with one or more processors 1002 and a graphical interface generated by one or more graphics processors 1008.

In mindestens einer Ausführungsform enthalten ein oder mehrere Prozessoren 1002 jeweils einen oder mehrere Prozessorkerne 1007 zur Verarbeitung von Anweisungen, die bei ihrer Ausführung Operationen für System- und Anwendersoftware durchführen. In mindestens einer Ausführungsform ist jeder von einem oder mehreren Prozessorkernen 1007 so konfiguriert, dass er einen bestimmten Befehlssatz 1009 verarbeitet. In mindestens einer Ausführungsform kann der Befehlssatz 1009 Complex Instruction Set Computing („CISC“), Reduced Instruction Set Computing („RISC“) oder das Rechnen über Very Long Instruction Word („VLIW”) erleichtern. In mindestens einer Ausführungsform können die Prozessorkerne 1007 jeweils einen anderen Befehlssatz 1009 verarbeiten, der Anweisungen enthalten kann, um die Emulation anderer Befehlssätze zu erleichtern. In mindestens einer Ausführungsform kann der Prozessorkern 1007 auch andere Verarbeitungsvorrichtungen enthalten, wie z.B. einen digitalen Signalprozessor („DSP“).In at least one embodiment, one or more processors 1002 each include one or more processor cores 1007 for processing instructions that, when executed, perform operations for system and application software. In at least one embodiment, each of one or more processor cores 1007 is configured to process a particular instruction set 1009. In at least one embodiment, the instruction set 1009 may facilitate Complex Instruction Set Computing (“CISC”), Reduced Instruction Set Computing (“RISC”), or Very Long Instruction Word (“VLIW”) computing. In at least one embodiment, the processor cores 1007 may each process a different instruction set 1009, which may include instructions to facilitate emulation of other instruction sets. In at least one embodiment, the processor core 1007 may also include other processing devices, such as a digital signal processor (“DSP”).

In mindestens einer Ausführungsform beinhaltet der Prozessor 1002 einen Cachespeicher („Cache“) 1004. In mindestens einer Ausführungsform kann der Prozessor 1002 einen einzigen internen Cache oder mehrere Ebenen von internem Cache haben. In mindestens einer Ausführungsform wird der Cachespeicher von verschiedenen Komponenten des Prozessors 1002 gemeinsam genutzt. In mindestens einer Ausführungsform verwendet der Prozessor 1002 auch einen externen Cache (z.B. einen Level 3 („L3“)-Cache oder Last Level Cache („LLC“)) (nicht dargestellt), der von den Prozessorkernen 1007 unter Verwendung bekannter Cache-Kohärenztechniken gemeinsam genutzt werden kann. In mindestens einer Ausführungsform ist zusätzlich eine Registerdatei 1006 in dem Prozessor 1002 enthalten, die verschiedene Arten von Registern zum Speichern unterschiedlicher Datentypen (z.B. Ganzzahlregister, Gleitkommaregister, Statusregister und ein Befehlszeigerregister) enthalten kann. In mindestens einer Ausführungsform kann die Registerdatei 1006 Universalregister oder andere Register enthalten.In at least one embodiment, processor 1002 includes a cache 1004. In at least one embodiment, processor 1002 may have a single internal cache or multiple levels of internal cache. In at least one embodiment, the cache memory is shared among various components of the processor 1002. In at least one embodiment, the processor 1002 also uses an external cache (e.g., a Level 3 (“L3”) cache or Last Level Cache (“LLC”) (not shown) maintained by the processor cores 1007 using known cache coherence techniques can be shared. In at least one embodiment, a register file 1006 is additionally included in the processor 1002, which may contain various types of registers for storing different types of data (e.g., integer registers, floating point registers, status registers, and an instruction pointer register). In at least one embodiment, register file 1006 may include general purpose registers or other registers.

In mindestens einer Ausführungsform ist/sind ein oder mehrere Prozessor(en) 1002 mit einem oder mehreren Schnittstellenbus(en) 1010 gekoppelt, um Kommunikationssignale wie Adress-, Daten- oder Steuersignale zwischen dem Prozessor 1002 und anderen Komponenten in dem Verarbeitungssystem 1000 zu übertragen. In mindestens einer Ausführungsform kann der Schnittstellenbus 1010 ein Prozessorbus sein, wie z.B. eine Version eines Direct Media Interface („DMI“)-Busses. In mindestens einer Ausführungsform ist der Schnittstellenbus 1010 nicht auf einen DMI-Bus beschränkt und kann einen oder mehrere Peripheral Component Interconnect-Busse (z.B. „PCI“, PCI Express („PCIe“)), Speicherbusse oder andere Arten von Schnittstellenbussen beinhalten. In mindestens einer Ausführungsform beinhalten der/die Prozessor(en) 1002 einen integrierten Speichercontroller 1016 und einen Plattformcontroller-Hub 1030. In mindestens einer Ausführungsform erleichtert der Speichercontroller 1016 die Kommunikation zwischen einem Speichervorrichtung und anderen Komponenten des Verarbeitungssystems 1000, während der Plattformcontroller-Hub („PCH“) 1030 Verbindungen zu Eingabe/Ausgabe-Geräten („E/A“) über einen lokalen E/A-Bus bereitstellt.In at least one embodiment, one or more processors 1002 are coupled to one or more interface buses 1010 to transmit communication signals, such as address, data, or control signals, between the processor 1002 and other components in the processing system 1000. In at least one embodiment, the interface bus 1010 may be a processor bus, such as a version of a Direct Media Interface (“DMI”) bus. In at least one embodiment, the interface bus 1010 is not limited to a DMI bus and may include one or more Peripheral Component Interconnect buses (e.g., “PCI,” PCI Express (“PCIe”)), memory buses, or other types of interface buses. In at least one embodiment, the processor(s) 1002 includes an integrated memory controller 1016 and a platform controller hub 1030. In at least one embodiment, the memory controller 1016 facilitates communication between a storage device and other components of the processing system 1000, while the platform controller hub ( “PCH”) 1030 provides connections to input/output devices (“I/O”) via a local I/O bus.

In mindestens einer Ausführungsform kann die Speichervorrichtung 1020 eine dynamische Direktzugriffsspeicher („DRAM“)-Vorrichtung, eine statische Direktzugriffsspeicher („SRAM“)-Vorrichtung, eine Flash-Speicher-Vorrichtung, eine Phasenwechsel-Speicher-Vorrichtung oder eine andere Speichervorrichtung mit geeigneter Leistung sein, um als Prozessorspeicher zu dienen. In mindestens einer Ausführungsform kann die Speichervorrichtung 1020 als Systemspeicher für das Verarbeitungssystem 1000 arbeiten, um Daten 1022 und Anweisungen 1021 zur Verwendung zu speichern, wenn ein oder mehrere Prozessoren 1002 eine Anwendung oder einen Prozess ausführen. In mindestens einer Ausführungsform koppelt der Speichercontroller 1016 auch mit einem optionalen externen Grafikprozessor 1012, der mit einem oder mehreren Grafikprozessoren 1008 in den Prozessoren 1002 kommunizieren kann, um Grafik- und Medienoperationen durchzuführen. In mindestens einer Ausführungsform kann eine Anzeigevorrichtung 1011 mit dem/den Prozessor(en) 1002 verbunden sein. In mindestens einer Ausführungsform kann die Anzeigevorrichtung 1011 eine oder mehrere interne Anzeigevorrichtungen, wie in einem mobilen elektronischen Gerät oder einem Laptop, oder eine externe Anzeigevorrichtung, die über eine Anzeigeschnittstelle (z.B. DisplayPort usw.) angeschlossen ist, beinhalten. In mindestens einer Ausführungsform kann die Anzeigevorrichtung 1011 eine kopfmontierte Anzeige („HMD“), wie beispielsweise eine stereoskopische Anzeigevorrichtung zur Verwendung in Anwendungen der virtuellen Realität („VR“) oder der erweiterten Realität („AR“), beinhalten.In at least one embodiment, memory device 1020 may be a dynamic random access memory (“DRAM”) device, a static random access memory (“SRAM”) device, a flash memory device, a phase change memory device, or another memory device with suitable performance to serve as processor memory. In at least one embodiment, storage device 1020 may function as system memory for processing system 1000 to store data 1022 and instructions 1021 for use when one or more processors 1002 execute an application or process. In at least one embodiment, memory controller 1016 also couples to an optional external graphics processor 1012, which can communicate with one or more graphics processors 1008 within processors 1002 to perform graphics and media operations. In at least one embodiment, a display device 1011 may be connected to the processor(s) 1002. In at least one embodiment, the display device 1011 may include one or more internal display devices, such as in a mobile electronic device or a laptop, or an external display device connected via a display interface (e.g., DisplayPort, etc.). In at least one embodiment, the display device 1011 may include a head-mounted display (“HMD”), such as a stereoscopic display device for use in virtual reality (“VR”) or augmented reality (“AR”) applications.

In mindestens einer Ausführungsform ermöglicht der Plattformcontroller-Hub 1030 die Verbindung von Peripheriegeräten mit der Speichervorrichtung 1020 und dem Prozessor 1002 über einen Hochgeschwindigkeits-E/A-Bus. In mindestens einer Ausführungsform beinhalten die E/A-Peripheriegeräte, ohne darauf beschränkt zu sein, einen Audiocontroller 1046, einen Netzwerkcontroller 1034, eine Firmware-Schnittstelle 1028, einen drahtlosen Transceiver 1026, Berührungssensoren 1025 und eine Datenspeichervorrichtung 1024 (z.B. ein Festplattenlaufwerk, einen Flash-Speicher usw.). In mindestens einer Ausführungsform kann die Datenspeichervorrichtung 1024 über eine Speicherschnittstelle (z.B. SATA) oder über einen Peripheriebus, wie PCI oder PCIe, verbunden sein. In mindestens einer Ausführungsform können die Berührungssensoren 1025 Touchscreen-Sensoren, Drucksensoren oder Fingerabdrucksensoren beinhalten. In mindestens einer Ausführungsform kann der drahtlose Transceiver 1026 ein Wi-Fi-Transceiver, ein Bluetooth-Transceiver oder ein Mobilfunk-Transceiver wie beispielsweise ein 3G-, 4G- oder Long Term Evolution („LTE“)-Transceiver sein. In mindestens einer Ausführungsform ermöglicht die Firmware-Schnittstelle 1028 eine Kommunikation mit System-Firmware und kann z.B. eine einheitliche erweiterbare Firmware-Schnittstelle („UEFI“) sein. In mindestens einer Ausführungsform kann der Netzwerkcontroller 1034 eine Netzwerkverbindung zu einem kabelgebundenen Netzwerk ermöglichen. In mindestens einer Ausführungsform koppelt ein Hochleistungs-Netzwerkcontroller (nicht dargestellt) mit dem Schnittstellenbus 1010. In mindestens einer Ausführungsform ist der Audiocontroller 1046 ein Mehrkanal-High-Definition-Audiocontroller. In mindestens einer Ausführungsform enthält das Verarbeitungssystem 1000 einen optionalen Legacy-E/A-Controller 1040 zur Kopplung von Legacy-Geräten (z.B. Personal System 2 („PS/2“)) mit dem Verarbeitungssystem 1000. In mindestens einer Ausführungsform kann der Plattformcontroller-Hub 1030 auch mit einem oder mehreren Universal Serial Bus („USB“)-Controllern 1042 verbinden, die Eingabevorrichtungen, wie z.B. Tastatur- und Mauskombinationen 1043, eine Kamera 1044 oder andere USB-Eingabevorrichtungen verbinden.In at least one embodiment, the platform controller hub 1030 enables peripheral devices to be connected to the storage device 1020 and the processor 1002 via a high-speed I/O bus. In at least one embodiment, the I/O peripherals include, but are not limited to, peripherals to be limited to an audio controller 1046, a network controller 1034, a firmware interface 1028, a wireless transceiver 1026, touch sensors 1025, and a data storage device 1024 (e.g., a hard drive, flash memory, etc.). In at least one embodiment, the data storage device 1024 may be connected via a storage interface (eg, SATA) or via a peripheral bus, such as PCI or PCIe. In at least one embodiment, the touch sensors 1025 may include touchscreen sensors, pressure sensors, or fingerprint sensors. In at least one embodiment, the wireless transceiver 1026 may be a Wi-Fi transceiver, a Bluetooth transceiver, or a cellular transceiver such as a 3G, 4G, or Long Term Evolution (“LTE”) transceiver. In at least one embodiment, the firmware interface 1028 enables communication with system firmware and may, for example, be a unified extensible firmware interface (“UEFI”). In at least one embodiment, network controller 1034 may enable a network connection to a wired network. In at least one embodiment, a high performance network controller (not shown) couples to the interface bus 1010. In at least one embodiment, the audio controller 1046 is a multi-channel, high definition audio controller. In at least one embodiment, the processing system 1000 includes an optional legacy I/O controller 1040 for coupling legacy devices (e.g., Personal System 2 (“PS/2”)) to the processing system 1000. In at least one embodiment, the platform controller Hub 1030 also connect to one or more Universal Serial Bus (“USB”) controllers 1042 that connect input devices such as keyboard and mouse combinations 1043, a camera 1044, or other USB input devices.

In mindestens einer Ausführungsform kann eine Instanz des Speichercontrollers 1016 und des Plattformcontroller-Hubs 1030 in einen diskreten externen Grafikprozessor, wie beispielsweise den externen Grafikprozessor 1012, integriert sein. In mindestens einer Ausführungsform können der Plattformcontroller-Hub 1030 und/oder der Speichercontroller 1016 extern zu einem oder mehreren Prozessor(en) 1002 sein. In mindestens einer Ausführungsform kann das Verarbeitungssystem 1000 beispielsweise einen externen Speichercontroller 1016 und einen Plattformcontroller-Hub 1030 enthalten, der als ein Speichercontroller-Hub und Peripheriecontroller-Hub innerhalb eines System-Chipsatzes konfiguriert sein kann, der mit dem/den Prozessor(en) 1002 in Verbindung steht.In at least one embodiment, an instance of the storage controller 1016 and the platform controller hub 1030 may be integrated into a discrete external graphics processor, such as the external graphics processor 1012. In at least one embodiment, the platform controller hub 1030 and/or the storage controller 1016 may be external to one or more processors 1002. For example, in at least one embodiment, the processing system 1000 may include an external memory controller 1016 and a platform controller hub 1030, which may be configured as a memory controller hub and peripheral controller hub within a system chipset that is compatible with the processor(s) 1002 is connected.

In mindestens einer Ausführungsform werden ein oder mehrere in 10 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 10 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 10 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 10 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 10 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 10 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 10 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 10 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

11 veranschaulicht ein Computersystem 1100 in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform kann das Computersystem 1100 ein System mit miteinander verbundenen Vorrichtungen und Komponenten, ein SOC oder eine Kombination davon sein. In mindestens einer Ausführungsform ist das Computersystem 1100 mit einem Prozessor 1102 ausgebildet, der Ausführungseinheiten zum Ausführen einer Anweisung enthalten kann. In mindestens einer Ausführungsform kann das Computersystem 1100, ohne Beschränkung darauf, eine Komponente, wie beispielsweise den Prozessor 1102, beinhalten, um Ausführungseinheiten einschließlich Logik zur Durchführung von Algorithmen zur Verarbeitung von Daten einzusetzen. In mindestens einer Ausführungsform kann das Computersystem 1100 Prozessoren beinhalten, wie z.B. die PEN-TIUMO-Prozessorfamilie, XeonTM, Itanium®, XScaleTM und/oder StrongARMTM, Intel® Core™ oder Intel® Nervana™-Mikroprozessoren, die von der Intel Corporation aus Santa Clara, Kalifornien, erhältlich sind, obwohl auch andere Systeme (einschließlich PCs mit anderen Mikroprozessoren, technische Workstations, Set-Top-Boxen und dergleichen) verwendet werden können. In mindestens einer Ausführungsform kann das Computersystem 1100 eine Version des Betriebssystems WINDOWS ausführen, das von der Microsoft Corporation in Redmond, Washington, erhältlich ist, obwohl auch andere Betriebssysteme (z.B. UNIX und Linux), eingebettete Software und/oder grafische Benutzeroberflächen verwendet werden können. 11 illustrates a computer system 1100 in accordance with at least one embodiment. In at least one embodiment, the computer system 1100 may be a system of interconnected devices and components, a SOC, or a combination thereof. In at least one embodiment, computer system 1100 is configured with a processor 1102, which may include execution units for executing an instruction. In at least one embodiment, computer system 1100 may include, but is not limited to, a component, such as processor 1102, to employ execution units, including logic, to perform algorithms to process data. In at least one embodiment, the computer system 1100 may include processors such as the PEN-TIUMO processor family, Xeon™, Itanium®, XScale™ and/or StrongARM™, Intel® Core™ or Intel® Nervana™ microprocessors manufactured by Intel Corporation of Santa Clara, California, although other systems (including PCs with other microprocessors, engineering workstations, set-top boxes, and the like) may also be used. In at least one embodiment, computer system 1100 may run a version of the WINDOWS operating system available from Microsoft Corporation of Redmond, Washington, although other operating systems (e.g., UNIX and Linux), embedded software, and/or graphical user interfaces may also be used.

In mindestens einer Ausführungsform kann das Computersystem 1100 in anderen Vorrichtungen wie Handheld-Geräten und eingebetteten Anwendungen verwendet werden. Einige Beispiele für Handheld-Geräte sind Mobiltelefone, Internetprotokollgeräte, Digitalkameras, persönliche digitale Assistenten („PDAs“) und Handheld-PCs. In mindestens einer Ausführungsform können eingebettete Anwendungen einen Mikrocontroller, einen digitalen Signalprozessor (DSP), ein SoC, Netzwerkcomputer („NetPCs“), Set-Top-Boxen, Netzwerk-Hubs, Wide-Area-Network („WAN“)-Switches oder jedes andere System umfassen, das eine oder mehrere Anweisungen ausführen kann.In at least one embodiment, computer system 1100 may be used in other devices such as handheld devices and embedded applications. Some examples of handheld devices include cell phones, Internet protocol devices, digital cameras, personal digital assistants (“PDAs”) and handheld PCs. In at least one embodiment, embedded applications may include a microcontroller, a digital signal processor (DSP), an SoC, network computers (“NetPCs”), set-top boxes, network hubs, wide area network (“WAN”) switches, or include any other system capable of executing one or more instructions.

In mindestens einer Ausführungsform kann das Computersystem 1100, ohne Beschränkung darauf, einen Prozessor 1102 enthalten, der, ohne Beschränkung darauf, eine oder mehrere Ausführungseinheiten 1108 enthalten kann, die so konfiguriert sein können, dass sie ein Compute Unified Device Architecture („CUDA“)-Programm (CUDA® wird von der NVIDIA Corporation in Santa Clara, CA, entwickelt) ausführen. In mindestens einer Ausführungsform ist ein CUDA-Programm mindestens ein Teil einer Softwareanwendung, die in einer CUDA-Programmiersprache geschrieben ist. In mindestens einer Ausführungsform ist das Computersystem 1100 ein Einzelprozessor-Desktop- oder ein Serversystem. In mindestens einer Ausführungsform kann das Computersystem 1100 ein Multiprozessorsystem sein. In mindestens einer Ausführungsform kann der Prozessor 1102, ohne Beschränkung darauf, einen CISC-Mikroprozessor, einen RISC-Mikroprozessor, einen VLIW-Mikroprozessor, einen Prozessor, der eine Kombination von Befehlssätzen implementiert, oder eine beliebige andere Prozessoreinheit, wie z.B. einen digitalen Signalprozessor, beinhalten. In mindestens einer Ausführungsform kann der Prozessor 1102 mit einem Prozessorbus 1110 gekoppelt sein, der Datensignale zwischen dem Prozessor 1102 und anderen Komponenten in dem Computersystem 1100 übertragen kann.In at least one embodiment, computer system 1100 may include, but is not limited to, a processor 1102, which may include, but is not limited to, one or more execution units 1108, which may be configured to implement a Compute Unified Device Architecture ("CUDA"). program (CUDA® is developed by NVIDIA Corporation in Santa Clara, CA). In at least one embodiment, a CUDA program is at least part of a software application written in a CUDA programming language. In at least one embodiment, computer system 1100 is a single-processor desktop or server system. In at least one embodiment, computer system 1100 may be a multiprocessor system. In at least one embodiment, processor 1102 may include, but is not limited to, a CISC microprocessor, a RISC microprocessor, a VLIW microprocessor, a processor that implements a combination of instruction sets, or any other processing unit, such as a digital signal processor. include. In at least one embodiment, processor 1102 may be coupled to a processor bus 1110 that may transmit data signals between processor 1102 and other components in computer system 1100.

In mindestens einer Ausführungsform kann der Prozessor 1102, ohne Beschränkung darauf, einen internen Level 1 („L1")-Cachespeicher („Cache“) 1104 enthalten. In mindestens einer Ausführungsform kann der Prozessor 1102 einen einzigen internen Cache oder mehrere Ebenen von internem Cache haben. In mindestens einer Ausführungsform kann sich der Cachespeicher außerhalb des Prozessors 1102 befinden. In mindestens einer Ausführungsform kann der Prozessor 1102 auch eine Kombination aus sowohl internen als auch externen Caches enthalten. In mindestens einer Ausführungsform kann eine Registerdatei 1106 verschiedene Arten von Daten in verschiedenen Registern, einschließlich, ohne Beschränkung darauf, Ganzzahlregister, Gleitkommaregister, Statusregister und Befehlszeigerregister, speichern.In at least one embodiment, processor 1102 may include, but is not limited to, an internal level 1 ("L1") cache ("cache") 1104. In at least one embodiment, processor 1102 may include a single internal cache or multiple levels of internal cache In at least one embodiment, the cache memory may reside external to the processor 1102. In at least one embodiment, the processor 1102 may also include a combination of both internal and external caches. In at least one embodiment, a register file 1106 may contain various types of data in different Registers, including, but not limited to, integer registers, floating point registers, status registers and instruction pointer registers.

In mindestens einer Ausführungsform befindet sich die Ausführungseinheit 1108, einschließlich, ohne Beschränkung darauf, von Logik zur Durchführung von Ganzzahl- und Gleitkommaoperationen, ebenfalls in dem Prozessor 1102. Der Prozessor 1102 kann auch einen Nur-Lese-Speicher („ROM“) für Mikrocode („ucode“) enthalten, der Mikrocode für bestimmte Makrobefehle speichert. In mindestens einer Ausführungsform kann die Ausführungseinheit 1108 Logik zur Verarbeitung eines gepackten Befehlssatzes 1109 enthalten. In mindestens einer Ausführungsform können durch Aufnahme des gepackten Befehlssatzes 1109 in einen Befehlssatz eines Universalprozessors 1102 zusammen mit zugehörigen Schaltkreisen zur Ausführung von Anweisungen Operationen, die von vielen Multimedia-Anwendungen verwendet werden, unter Verwendung gepackter Daten in einem Universalprozessor 1102 durchgeführt werden. In mindestens einer Ausführungsform können viele Multimedia-Anwendungen beschleunigt und effizienter ausgeführt werden, indem die volle Breite des Datenbusses eines Prozessors für die Ausführung von Operationen mit gepackten Daten genutzt wird, welches die Notwendigkeit eliminieren kann, kleinere Dateneinheiten über den Datenbus eines Prozessors zu übertragen, um eine oder mehrere Operationen auf bzw. mit einem Datenelement nach dem anderen durchzuführen.In at least one embodiment, execution unit 1108, including, but not limited to, logic for performing integer and floating point operations, is also located in processor 1102. Processor 1102 may also include read-only memory (“ROM”) for microcode (“ucode”), which stores microcode for certain macro commands. In at least one embodiment, execution unit 1108 may include logic for processing a packed instruction set 1109. In at least one embodiment, by including the packed instruction set 1109 in an instruction set of a general purpose processor 1102 along with associated instruction execution circuitry, operations used by many multimedia applications can be performed using packed data in a general purpose processor 1102. In at least one embodiment, many multimedia applications can be accelerated and run more efficiently by using the full width of a processor's data bus to perform operations on packed data, which can eliminate the need to transfer smaller units of data over a processor's data bus. to perform one or more operations on or with one data element at a time.

In mindestens einer Ausführungsform kann die Ausführungseinheit 1108 auch in Mikrocontrollern, eingebetteten Prozessoren, Grafikvorrichtungen, DSPs und anderen Arten von Logikschaltungen verwendet werden. In mindestens einer Ausführungsform kann das Computersystem 1100, ohne Beschränkung darauf, einen Speicher 1120 enthalten. In mindestens einer Ausführungsform kann der Speicher 1120 als eine DRAM-Vorrichtung, eine SRAM-Vorrichtung, eine Flash-Speicher-Vorrichtung oder eine andere Speichervorrichtung implementiert sein. Der Speicher 1120 kann Anweisung(en) 1119 und/oder Daten 1121 speichern, die durch Datensignale repräsentiert werden, die von dem Prozessor 1102 ausgeführt werden können.In at least one embodiment, execution unit 1108 may also be used in microcontrollers, embedded processors, graphics devices, DSPs, and other types of logic circuits. In at least one embodiment, computer system 1100 may include, but is not limited to, memory 1120. In at least one embodiment, memory 1120 may be implemented as a DRAM device, an SRAM device, a flash memory device, or another storage device. Memory 1120 may store instruction(s) 1119 and/or data 1121 represented by data signals that may be executed by processor 1102.

In mindestens einer Ausführungsform kann ein Systemlogikchip mit dem Prozessorbus 1110 und dem Speicher 1120 gekoppelt sein. In mindestens einer Ausführungsform kann der Systemlogikchip, ohne Beschränkung darauf, einen Speichercontroller-Hub („MCH“) 1116 enthalten, und kann der Prozessor 1102 mit dem MCH 1116 über den Prozessorbus 1110 kommunizieren. In mindestens einer Ausführungsform kann der MCH 1116 einen Speicherpfad 1118 mit hoher Bandbreite zu dem Speicher 1120 zur Befehls- und Datenspeicherung und zur Speicherung von Grafikbefehlen, Daten und Texturen bereitstellen. In mindestens einer Ausführungsform kann der MCH 1116 Datensignale zwischen dem Prozessor 1102, dem Speicher 1120 und anderen Komponenten in dem Computersystem 1100 leiten und Datensignale zwischen dem Prozessorbus 1110, dem Speicher 1120 und einer System-E/A 1122 überbrücken. In mindestens einer Ausführungsform kann der Systemlogikchip einen Grafik-Port zur Kopplung mit einem Grafikcontroller bereitstellen. In mindestens einer Ausführungsform kann der MCH 1116 über einen Speicherpfad 1118 mit hoher Bandbreite mit dem Speicher 1120 gekoppelt sein, und kann die Grafik-/ Videokarte 1112 über eine Accelerated Graphics Port („AGP“)-Verbindung bzw. Zwischenverbindung bzw. Interconnect 1114 mit dem MCH 1116 gekoppelt sein.In at least one embodiment, a system logic chip may be coupled to processor bus 1110 and memory 1120. In at least one embodiment, the system logic chip may include, but is not limited to, a memory controller hub (“MCH”) 1116, and the processor 1102 may communicate with the MCH 1116 via the processor bus 1110. In at least one embodiment, the MCH 1116 may provide a high bandwidth memory path 1118 to the memory 1120 for instruction and data storage and provide storage of graphics commands, data and textures. In at least one embodiment, the MCH 1116 may route data signals between the processor 1102, the memory 1120, and other components in the computer system 1100 and bridge data signals between the processor bus 1110, the memory 1120, and a system I/O 1122. In at least one embodiment, the system logic chip may provide a graphics port for coupling to a graphics controller. In at least one embodiment, the MCH 1116 may be coupled to the memory 1120 via a high bandwidth storage path 1118 and may be coupled to the graphics/video card 1112 via an Accelerated Graphics Port ("AGP") interconnect 1114 be coupled to the MCH 1116.

In mindestens einer Ausführungsform kann das Computersystem 1100 die System-E/A 1122 verwenden, der ein proprietärer Hub-Schnittstellenbus ist, um den MCH 1116 mit dem E/A-Controller-Hub („ICH“) 1130 zu koppeln. In mindestens einer Ausführungsform kann der ICH 1130 direkte Verbindungen zu einigen E/A-Geräten über einen lokalen E/A-Bus bereitstellen. In mindestens einer Ausführungsform kann der lokale E/A-Bus, ohne Beschränkung darauf, einen Hochgeschwindigkeits-E/A-Bus zur Verbindung von Peripheriegeräten mit dem Speicher 1120, einem Chipsatz und dem Prozessor 1102 umfassen. Beispiele können, ohne Beschränkung darauf, einen Audiocontroller 1129, einen Firmware-Hub („Flash-BIOS“) 1128, einen drahtlosen Transceiver 1126, einen Datenspeicher 1124, einen Legacy-E/A-Controller 1123, der eine Benutzereingabeschnittstelle 1125 und eine Tastaturschnittstelle enthält, einen seriellen Erweiterungs-Port 1127, wie z.B. ein USB, und einen Netzwerkcontroller 1134 beinhalten. Der Datenspeicher 1124 kann ein Festplattenlaufwerk, ein Diskettenlaufwerk, ein CD-ROM-Gerät, eine Flash-Speicher-Vorrichtung oder eine andere Massenspeichervorrichtung beinhalten.In at least one embodiment, the computer system 1100 may use the system I/O 1122, which is a proprietary hub interface bus, to couple the MCH 1116 to the I/O controller hub (“ICH”) 1130. In at least one embodiment, the ICH 1130 may provide direct connections to some I/O devices via a local I/O bus. In at least one embodiment, the local I/O bus may include, but is not limited to, a high-speed I/O bus for connecting peripherals to the memory 1120, a chipset, and the processor 1102. Examples may include, but are not limited to, an audio controller 1129, a firmware hub (“flash BIOS”) 1128, a wireless transceiver 1126, a data storage 1124, a legacy I/O controller 1123, a user input interface 1125, and a keyboard interface includes a serial expansion port 1127, such as a USB, and a network controller 1134. Data storage 1124 may include a hard drive, a floppy disk drive, a CD-ROM device, a flash memory device, or other mass storage device.

In mindestens einer Ausführungsform veranschaulicht 11 ein System, das miteinander verbundene Hardwaregeräte oder „Chips“ enthält. In mindestens einer Ausführungsform kann 11 ein beispielhaftes SoC veranschaulichen. In mindestens einer Ausführungsform können in 11 dargestellte Vorrichtungen mit proprietären Zwischenverbindungen bzw. Interconnects, standardisierten Interconnects (z.B. PCIe) oder einer Kombination davon verbunden sein. In mindestens einer Ausführungsform sind eine oder mehrere Komponenten des Systems 1100 unter Verwendung von Compute-Express-Link („CXL“)-Interconnects miteinander verbunden.Illustrated in at least one embodiment 11 a system that contains interconnected hardware devices or “chips.” In at least one embodiment, 11 illustrate an example SoC. In at least one embodiment, in 11 Devices shown may be connected to proprietary intermediate connections or interconnects, standardized interconnects (e.g. PCIe) or a combination thereof. In at least one embodiment, one or more components of system 1100 are interconnected using Compute Express Link (“CXL”) interconnects.

In mindestens einer Ausführungsform werden ein oder mehrere in 11 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 11 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 11 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 11 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 11 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 11 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 11 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 11 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

12 veranschaulicht ein System 1200, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist das System 1200 eine elektronische Vorrichtung, das einen Prozessor 1210 verwendet. In mindestens einer Ausführungsform kann das System 1200 zum Beispiel, und ohne Beschränkung darauf, ein Notebook, ein Tower-Server, ein Rack-Server, ein Blade-Server, eine Edge-Vorrichtung, die kommunikativ mit einem oder mehreren Dienstanbietern vor Ort oder in der Cloud verbunden ist, ein Laptop, ein Desktop, ein Tablet, eine mobile Vorrichtung, ein Telefon, ein eingebetteter Computer oder eine beliebige andere geeignete elektronische Vorrichtung sein. 12 illustrates a system 1200, in accordance with at least one embodiment. In at least one embodiment, system 1200 is an electronic device that uses processor 1210. In at least one embodiment, the system 1200 may include, for example, and without limitation, a notebook, a tower server, a rack server, a blade server, an edge device that is communicative with one or more on-premises or in-premises service providers connected to the cloud may be a laptop, desktop, tablet, mobile device, phone, embedded computer, or any other suitable electronic device.

In mindestens einer Ausführungsform kann das System 1200, ohne Beschränkung darauf, einen Prozessor 1210 enthalten, der mit einer beliebigen Anzahl oder Art von Komponenten, Peripheriegeräten, Modulen oder Geräten bzw. Vorrichtungen kommunikativ gekoppelt ist. In mindestens einer Ausführungsform ist der Prozessor 1210 unter Verwendung eines Busses oder einer Schnittstelle, wie z.B. ein I²C-Bus, ein System Management-Bus („SMBus“), ein Low Pin Count-Bus („LPC“), ein Serial Peripheral Interface („SPI“), ein High Definition Audio-Bus („HDA“), ein Serial Advance Technology Attachment-Bus („SATA“), ein USB-Bus (Versionen 1, 2, 3) oder ein Universal Asynchronous Receiver/Transmitter-Bus („UART“), gekoppelt. In mindestens einer Ausführungsform veranschaulicht 12 ein System, das miteinander verbundene Hardwaregeräte oder „Chips“ enthält. In mindestens einer Ausführungsform kann 12 ein beispielhaftes SoC darstellen. In mindestens einer Ausführungsform können die in 12 dargestellten Vorrichtungen mit proprietären Interconnects, standardisierten Interconnects (z.B. PCIe) oder einer Kombination davon miteinander verbunden sein. In mindestens einer Ausführungsform sind eine oder mehrere Komponenten von 12 unter Verwendung von CXL-Interconnects miteinander verbunden.In at least one embodiment, system 1200 may include, but is not limited to, a processor 1210 communicatively coupled to any number or type of components, peripherals, modules, or devices. In at least one embodiment, the processor 1210 is using a bus or interface, such as an I ² C bus, a system management bus (“SMBus”), a low pin count bus (“LPC”), a serial Peripheral Interface (“SPI”), a High Definition Audio bus (“HDA”), a Serial Advance Technology Attachment bus (“SATA”), a USB bus (versions 1, 2, 3), or a Universal Asynchronous Receiver /Transmitter bus (“UART”), coupled. Illustrated in at least one embodiment 12 a system that contains interconnected hardware devices or “chips.” In at least one embodiment, 12 an exemplary SoC place. In at least one embodiment, the in 12 The devices shown may be interconnected with proprietary interconnects, standardized interconnects (e.g. PCIe) or a combination thereof. In at least one embodiment, one or more components of 12 interconnected using CXL interconnects.

In mindestens einer Ausführungsform kann 12 eine Anzeige 1224, einen Touchscreen 1225, ein Touchpad 1230, eine Near Field Communications („NFC“)-Einheit 1245, einen Sensor-Hub 1240, einen Wärmesensor 1246, einen Express-Chipsatz („EC“) 1235, ein Trusted Platform Module („TPM“) 1238, BIOS/Firmware/Flash-Speicher („BIOS, FW Flash“) 1222, einen DSP 1260, eine Solid State Disk („SSD“) oder eine Festplatte („HDD“) 1220, eine Wireless Local Area Network („WLAN“)-Einheit 1250, eine Bluetooth-Einheit 1252, eine Wireless Wide Area Network („W1Λ/AN“)-Einheit 1256, ein Global Positioning System („GPS“) 1255, eine Kamera („USB 3.0-Kamera“) 1254, wie z.B. eine USB 3.0-Kamera, oder eine Low Power Double Data Rate („LPDDR“)-Speichereinheit („LPDDR3“) 1215, die z.B. in dem LPDDR3-Standard implementiert ist, beinhalten. Jede dieser Komponenten kann in jeder geeigneten Weise implementiert sein.In at least one embodiment, 12 a display 1224, a touchscreen 1225, a touchpad 1230, a Near Field Communications (“NFC”) unit 1245, a sensor hub 1240, a thermal sensor 1246, an Express Chipset (“EC”) 1235, a Trusted Platform Module (“TPM”) 1238, BIOS/Firmware/Flash Memory (“BIOS, FW Flash”) 1222, a DSP 1260, a Solid State Disk (“SSD”) or a Hard Drive (“HDD”) 1220, a Wireless Local Area Network (“WLAN”) unit 1250, a Bluetooth unit 1252, a Wireless Wide Area Network (“W1Λ/AN”) unit 1256, a Global Positioning System (“GPS”) 1255, a camera (“USB 3.0 camera”) 1254, such as a USB 3.0 camera, or a Low Power Double Data Rate (“LPDDR”) storage device (“LPDDR3”) 1215, which is implemented, for example, in the LPDDR3 standard. Each of these components can be implemented in any suitable manner.

In mindestens einer Ausführungsform können andere Komponenten über die vorstehend beschriebenen Komponenten kommunikativ mit dem Prozessor 1210 verbunden sein. In mindestens einer Ausführungsform können ein Beschleunigungsmesser 1241, ein Umgebungslichtsensor („ALS“) 1242, ein Kompass 1243 und ein Gyroskop 1244 kommunikativ mit dem Sensor-Hub 1240 gekoppelt sein. In mindestens einer Ausführungsform können ein Wärmesensor 1239, ein Lüfter 1237, eine Tastatur 1236 und ein Touchpad 1230 kommunikativ mit dem EC 1235 gekoppelt sein. In mindestens einer Ausführungsform können ein Lautsprecher 1263, ein Kopfhörer 1264 und ein Mikrofon („mic“) 1265 kommunikativ mit einer Audioeinheit („audio codec and dass d amp“) 1262 gekoppelt sein, die ihrerseits kommunikativ mit dem DSP 1260 gekoppelt sein kann. In mindestens einer Ausführungsform kann die Audioeinheit 1262 beispielsweise, und ohne Beschränkung darauf, einen Audio-Kodierer/-Dekodierer („codec“) und einen Verstärker der Klasse D beinhalten. In mindestens einer Ausführungsform kann eine SIM-Karte („SIM“) 1257 kommunikativ mit der WWAN-Einheit 1256 gekoppelt sein. In mindestens einer Ausführungsform können Komponenten wie beispielsweise die WLAN-Einheit 1250 und die Bluetooth-Einheit 1252 sowie die WWAN-Einheit 1256 in einem Next Generation Form Factor („NGFF“) implementiert sein.In at least one embodiment, other components may be communicatively coupled to processor 1210 via the components described above. In at least one embodiment, an accelerometer 1241, an ambient light sensor (“ALS”) 1242, a compass 1243, and a gyroscope 1244 may be communicatively coupled to the sensor hub 1240. In at least one embodiment, a thermal sensor 1239, a fan 1237, a keyboard 1236, and a touchpad 1230 may be communicatively coupled to the EC 1235. In at least one embodiment, a speaker 1263, a headphone 1264 and a microphone (“mic”) 1265 may be communicatively coupled to an audio unit (“audio codec and d amp”) 1262, which in turn may be communicatively coupled to the DSP 1260. In at least one embodiment, the audio unit 1262 may include, for example, and without limitation, an audio encoder/decoder (“codec”) and a Class D amplifier. In at least one embodiment, a SIM card (“SIM”) 1257 may be communicatively coupled to the WWAN unit 1256. In at least one embodiment, components such as the WLAN unit 1250 and the Bluetooth unit 1252 as well as the WWAN unit 1256 may be implemented in a Next Generation Form Factor (“NGFF”).

In mindestens einer Ausführungsform werden ein oder mehrere in 12 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 12 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 12 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 12 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 12 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 12 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 12 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 12 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

13 veranschaulicht eine beispielhafte integrierte Schaltung 1300, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist die beispielhafte integrierte Schaltung 1300 ein SoC, das unter Verwendung eines oder mehrerer IP-Cores hergestellt sein kann. In mindestens einer Ausführungsform enthält die integrierte Schaltung 1300 einen oder mehrere Anwendungsprozessor(en) 1305 (z.B. CPUs, DPUs), mindestens einen Grafikprozessor 1310 und kann zusätzlich einen Bildprozessor 1315 und/oder einen Videoprozessor 1320 enthalten, von denen jeder ein modularer IP-Kern sein kann. In mindestens einer Ausführungsform enthält die integrierte Schaltung 1300 eine Peripherie- oder Bus-Logik einschließlich eines USB-Controllers 1325, eines UART-Controllers 1330, eines SPI/SDIO-Controllers 1335 und eines I²S/I²C-Controllers 1340. In mindestens einer Ausführungsform kann die integrierte Schaltung 1300 eine Anzeigevorrichtung 1345 enthalten, die mit einem oder mehreren eines High-Definition Multimedia Interface („HDMI“)-Controllers 1350 und einer Mobile Industry Processor Interface („MIPI“)-Anzeigeschnittstelle 1355 verbunden ist. In mindestens einer Ausführungsform kann der Speicher durch ein Flash-Speicher-Subsystem 1360 mit Flash-Speicher und einem Flash-Speichercontroller bereitgestellt sein. In mindestens einer Ausführungsform kann eine Speicherschnittstelle über einen Speichercontroller 1365 für den Zugriff auf SDRAM- oder SRAM-Speichervorrichtungen bereitgestellt sein. In mindestens einer Ausführungsform enthalten einige integrierte Schaltungen zusätzlich eine eingebettete Sicherheits-Engine 1370. 13 illustrates an example integrated circuit 1300, in accordance with at least one embodiment. In at least one embodiment, the example integrated circuit 1300 is an SoC that may be fabricated using one or more IP cores. In at least one embodiment, the integrated circuit 1300 includes one or more application processors 1305 (e.g., CPUs, DPUs), at least one graphics processor 1310, and may additionally include an image processor 1315 and/or a video processor 1320, each of which is a modular IP core can be. In at least one embodiment, integrated circuit 1300 includes peripheral or bus logic including a USB controller 1325, a UART controller 1330, an SPI/SDIO controller 1335, and an I ² S/I ² C controller 1340. In In at least one embodiment, the integrated circuit 1300 may include a display device 1345 connected to one or more of a High-Definition Multimedia Interface ("HDMI") controller 1350 and a Mobile Industry Processor Interface ("MIPI") display interface 1355. In at least one embodiment, the memory may be provided by a flash memory subsystem 1360 including flash memory and a flash memory controller. In at least one embodiment, a memory interface may be provided via a memory controller 1365 for accessing SDRAM or SRAM memory devices. In at least one embodiment, some integrated circuits additionally include an embedded security engine 1370.

In mindestens einer Ausführungsform werden ein oder mehrere in 13 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 13 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 13 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 13 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 13 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 13 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 13 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 13 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

14 veranschaulicht ein Computer- bzw. Rechensystem 1400, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst das Rechensystem 1400 ein Verarbeitungssubsystem 1401 mit einem oder mehreren Prozessor(en) 1402 und einem Systemspeicher 1404, der über einen Zwischenverbindungspfad bzw. Verbindungspfad kommuniziert, der einen Speicher-Hub 1405 enthalten kann. In mindestens einer Ausführungsform kann der Speicher-Hub 1405 eine separate Komponente innerhalb einer Chipsatzkomponente sein oder in einen oder mehrere Prozessor(en) 1402 integriert sein. In mindestens einer Ausführungsform ist der Speicher-Hub 1405 mit einem E/A-Subsystem 1411 über eine Kommunikationsverbindung 1406 gekoppelt. In mindestens einer Ausführungsform beinhaltet das E/A-Subsystem 1411 einen E/A-Hub 1407, der es dem Rechensystem 1400 ermöglichen kann, Eingaben von einer oder mehreren Eingabevorrichtung(en) 1408 zu empfangen. In mindestens einer Ausführungsform kann der E/A-Hub 1407 einen Anzeigecontroller, der in einem oder mehreren Prozessor(en) 1402 enthalten sein kann, in die Lage versetzen, Ausgaben an eine oder mehrere Anzeigevorrichtung(en) 1410A zu liefern. In mindestens einer Ausführungsform kann/können ein oder mehrere Anzeigevorrichtung(en) 1410A, die mit dem E/A-Hub 1407 gekoppelt sind, eine lokale, interne oder eingebettete Anzeigevorrichtung beinhalten. 14 illustrates a computer or computing system 1400, in accordance with at least one embodiment. In at least one embodiment, computing system 1400 includes a processing subsystem 1401 having one or more processors 1402 and system memory 1404 that communicates via an interconnect path that may include a storage hub 1405. In at least one embodiment, memory hub 1405 may be a separate component within a chipset component or integrated into one or more processors 1402. In at least one embodiment, the storage hub 1405 is coupled to an I/O subsystem 1411 via a communication link 1406. In at least one embodiment, the I/O subsystem 1411 includes an I/O hub 1407 that may enable the computing system 1400 to receive inputs from one or more input devices 1408. In at least one embodiment, the I/O hub 1407 may enable a display controller, which may be included in one or more processors 1402, to provide outputs to one or more display devices 1410A. In at least one embodiment, one or more display devices 1410A coupled to the I/O hub 1407 may include a local, internal, or embedded display device.

In mindestens einer Ausführungsform beinhaltet das Verarbeitungssubsystem 1401 einen oder mehrere Parallelprozessor(en) 1412, der/die über einen Bus oder eine andere Kommunikationsverbindung 1413 mit dem Speicher-Hub 1405 verbunden ist/sind. In mindestens einer Ausführungsform kann die Kommunikationsverbindung 1413 eine einer beliebigen Anzahl von standardbasierten Kommunikationsverbindungstechnologien oder -protokollen sein, wie z.B., aber nicht beschränkt auf, PCIe, oder kann eine herstellerspezifische Kommunikationsschnittstelle oder eine Kommunikationsstruktur bzw. ein Kommunikations-Fabric sein. In mindestens einer Ausführungsform bilden ein oder mehrere Parallelprozessor(en) 1412 ein rechnerisch fokussiertes Parallel- oder Vektor-Verarbeitungssystem, das eine große Anzahl von Verarbeitungskernen und/oder Verarbeitungsclustern umfassen kann, wie z.B. einen Prozessor mit vielen integrierten Kernen. In mindestens einer Ausführungsform bilden ein oder mehrere Parallelprozessor(en) 1412 ein Grafikverarbeitungs-Subsystem, das Pixel an eine oder mehrere Anzeigevorrichtung(en) 1410A ausgeben kann, die über den E/A-Hub 1407 gekoppelt sind. In mindestens einer Ausführungsform können ein oder mehrere Parallelprozessor(en) 1412 auch einen Anzeigecontroller und eine Anzeigeschnittstelle (nicht dargestellt) enthalten, um eine direkte Verbindung zu einer oder mehreren Anzeigevorrichtung(en) 1410B zu ermöglichen.In at least one embodiment, processing subsystem 1401 includes one or more parallel processors 1412 connected to storage hub 1405 via a bus or other communication link 1413. In at least one embodiment, the communications link 1413 may be any of a number of standards-based communications link technologies or protocols, such as, but not limited to, PCIe, or may be a vendor-specific communications interface or communications fabric. In at least one embodiment, one or more parallel processors 1412 form a computationally focused parallel or vector processing system, which may include a large number of processing cores and/or processing clusters, such as a processor with many integrated cores. In at least one embodiment, one or more parallel processors 1412 form a graphics processing subsystem that can output pixels to one or more display devices 1410A coupled via the I/O hub 1407. In at least one embodiment, one or more parallel processors 1412 may also include a display controller and a display interface (not shown) to enable direct connection to one or more display devices 1410B.

In mindestens einer Ausführungsform kann eine Systemspeichereinheit 1414 mit dem E/A-Hub 1407 verbunden sein, um einen Speichermechanismus für das Rechensystem 1400 bereitzustellen. In mindestens einer Ausführungsform kann ein E/A-Switch 1416 verwendet werden, um einen Schnittstellenmechanismus bereitzustellen, der Verbindungen zwischen dem E/A-Hub 1407 und anderen Komponenten ermöglicht, wie z.B. einem Netzwerkadapter 1418 und/oder einem drahtlosen Netzwerkadapter 1419, der in eine Plattform integriert sein kann, und verschiedenen anderen Vorrichtungen, die über ein oder mehrere Add-in-Vorrichtungen 1420 hinzugefügt werden können. In mindestens einer Ausführungsform kann der Netzwerkadapter 1418 ein Ethernet-Adapter oder ein anderer kabelgebundener Netzwerkadapter sein. In mindestens einer Ausführungsform kann der drahtlose Netzwerkadapter 1419 ein oder mehrere Wi-Fi-, Bluetooth-, NFC- oder andere Netzwerkvorrichtungen umfassen, die ein oder mehrere drahtlose Funkvorrichtungen enthalten.In at least one embodiment, a system storage device 1414 may be connected to the I/O hub 1407 to provide a storage mechanism for the computing system 1400. In at least one embodiment, an I/O switch 1416 may be used to provide an interface mechanism that enables connections between the I/O hub 1407 and other components, such as a network adapter 1418 and/or a wireless network adapter 1419, included in a platform may be integrated, and various other devices that may be added via one or more add-in devices 1420. In at least one embodiment, network adapter 1418 may be an Ethernet adapter or other wired network adapter. In at least one embodiment, the wireless network adapter 1419 may include one or more Wi-Fi, Bluetooth, NFC, or other network devices that include one or more wireless radio devices.

In mindestens einer Ausführungsform kann das Rechensystem 1400 weitere, nicht explizit dargestellte Komponenten enthalten, darunter USB- oder andere Portverbindungen, optische Speicherlaufwerke, Videoaufnahmevorrichtungen und dergleichen, die ebenfalls mit dem E/A-Hub 1407 verbunden sein können. In mindestens einer Ausführungsform können Kommunikationspfade, die verschiedene Komponenten in 14 miteinander verbinden, unter Verwendung beliebiger geeigneter Protokolle implementiert sein, wie z.B. PCI-basierte Protokolle (z.B. PCIe) oder andere Bus- oder Punkt-zu-Punkt-Kommunikationsschnittstellen und/oder Protokolle, wie z.B. ein NVLink-Hochgeschwindigkeits-Interconnect oder Interconnect-Protokolle.In at least one embodiment, computing system 1400 may include other components not explicitly shown, including USB or other port connections, optical storage drives, video capture devices, and the like, which may also be connected to I/O hub 1407. In at least one embodiment, communication paths that include various components in 14 interconnect, be implemented using any suitable protocols, such as e.g., PCI-based protocols (e.g., PCIe) or other bus or point-to-point communications interfaces and/or protocols, such as an NVLink high-speed interconnect or interconnect protocols.

In mindestens einer Ausführungsform enthalten ein oder mehrere Parallelprozessoren 1412 Schaltungen, die für die Grafik- und Videoverarbeitung optimiert sind, z. B. Videoausgangsschaltungen, und bilden eine Grafikverarbeitungseinheit („GPU“). In mindestens einer Ausführungsform enthalten ein oder mehrere Parallelprozessor(en) 1412 Schaltungen, die für die allgemeine Verarbeitung optimiert sind. In mindestens einer Ausführungsform können Komponenten des Rechensystems 1400 mit einem oder mehreren anderen Systemelementen auf einer einzigen integrierten Schaltung In mindestens einer Ausführungsform integrieren ein oder mehrere Parallelprozessor(en) 1412 Schaltkreise, die für Grafik- und Videoverarbeitung optimiert sind, einschließlich z.B. Videoausgabeschaltungen, und bilden eine Grafikverarbeitungseinheit („GPU“). In mindestens einer Ausführungsform integrieren ein oder mehrere Parallelprozessor(en) 1412 Schaltkreise, die für allgemeine Verarbeitung optimiert sind. In mindestens einer Ausführungsform können Komponenten des Rechensystems 1400 mit einem oder mehreren anderen Systemelementen auf einem einzigen integrierten Schaltkreis integriert sein. Zum Beispiel können in mindestens einer Ausführungsform ein oder mehrere Parallelprozessor(en) 1412, der Speicher-Hub 1405, der/die Prozessor(en) 1402 und der E/A-Hub 1407 in eine integrierte SoC-Schaltung integriert sein. In mindestens einer Ausführungsform können Komponenten des Rechensystems 1400 in ein einziges Gehäuse integriert sein, um eine System-in-Package-Konfiguration („SIP“) zu bilden. In mindestens einer Ausführungsform kann mindestens ein Teil der Komponenten des Rechensystems 1400 in ein Multi-Chip-Modul („MCM“) integriert sein, das mit anderen Multi-Chip-Modulen zu einem modularen Rechensystem zusammengeschaltet sein kann. In mindestens einer Ausführungsform sind das E/A-Subsystem 1411 und die Anzeigevorrichtungen 1410B nicht in dem Rechensystem 1400 enthalten.In at least one embodiment, one or more parallel processors 1412 include circuitry optimized for graphics and video processing, e.g. B. video output circuits, and form a graphics processing unit (“GPU”). In at least one embodiment, one or more parallel processors 1412 include circuitry optimized for general purpose processing. In at least one embodiment, components of the computing system 1400 may integrate with one or more other system elements on a single integrated circuit. In at least one embodiment, one or more parallel processors 1412 integrate and form circuits optimized for graphics and video processing, including, for example, video output circuits a graphics processing unit (“GPU”). In at least one embodiment, one or more parallel processors 1412 integrate circuits optimized for general purpose processing. In at least one embodiment, components of computing system 1400 may be integrated with one or more other system elements on a single integrated circuit. For example, in at least one embodiment, one or more parallel processor(s) 1412, memory hub 1405, processor(s) 1402, and I/O hub 1407 may be integrated into an SoC integrated circuit. In at least one embodiment, components of computing system 1400 may be integrated into a single chassis to form a system-in-package (“SIP”) configuration. In at least one embodiment, at least a portion of the components of the computing system 1400 may be integrated into a multi-chip module (“MCM”) that may be interconnected with other multi-chip modules to form a modular computing system. In at least one embodiment, the I/O subsystem 1411 and the displays 1410B are not included in the computing system 1400.

In mindestens einer Ausführungsform werden ein oder mehrere in 14 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 14 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 14 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 14 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 14 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 14 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 14 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 14 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

VerarbeitungssystemeProcessing systems

Die folgenden Figuren stellen, ohne Beschränkung darauf, beispielhafte Verarbeitungssysteme dar, die zur Implementierung mindestens einer Ausführungsform verwendet werden können.The following figures illustrate, but are not limited to, example processing systems that may be used to implement at least one embodiment.

15 veranschaulicht eine beschleunigte Verarbeitungseinheit („APU“) 1500, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist die APU 1500 von der AMD Corporation aus Santa Clara, CA, entwickelt. In mindestens einer Ausführungsform kann die APU 1500 so konfiguriert sein, dass sie ein Anwendungsprogramm, wie z.B. ein CUDA-Programm, ausführt. In mindestens einer Ausführungsform umfasst die APU 1500, ohne Beschränkung darauf, einen Kernkomplex 1510, einen Grafikkomplex 1540, eine Struktur bzw. ein Fabric 1560, E/A-Schnittstellen 1570, Speichercontroller 1580, einen Anzeigecontroller 1592 und eine Multimedia-Engine 1594. In mindestens einer Ausführungsform kann die APU 1500, ohne Beschränkung darauf, eine beliebige Anzahl von Kernkomplexen 1510, eine beliebige Anzahl von Grafikkomplexen 1550, eine beliebige Anzahl von Anzeigecontrollern 1592 und eine beliebige Anzahl von Multimedia-Engines 1594 in beliebiger Kombination enthalten. Zu Erklärungszwecken sind hierin mehrere Instanzen gleicher Objekte bedarfsweise mit Bezugszeichen bezeichnet, die das Objekt identifizieren, und mit Zahlen in Klammern, die die Instanz identifizieren. 15 illustrates an accelerated processing unit (“APU”) 1500, in accordance with at least one embodiment. In at least one embodiment, the APU 1500 is developed by AMD Corporation of Santa Clara, CA. In at least one embodiment, the APU 1500 may be configured to execute an application program, such as a CUDA program. In at least one embodiment, the APU 1500 includes, but is not limited to, a core complex 1510, a graphics complex 1540, a fabric 1560, I/O interfaces 1570, memory controllers 1580, a display controller 1592, and a multimedia engine 1594. In In at least one embodiment, the APU 1500 may include, but is not limited to, any number of core complexes 1510, any number of graphics complexes 1550, any number of display controllers 1592, and any number of multimedia engines 1594 in any combination. For explanatory purposes, multiple instances of the same objects are designated herein as necessary with reference numbers that identify the object and with numbers in parentheses that identify the instance.

In mindestens einer Ausführungsform ist der Kernkomplex 1510 eine CPU, ist der Grafikkomplex 1540 eine GPU und ist die APU 1500 eine Verarbeitungseinheit, die, ohne Beschränkung darauf, 1510 und 1540 auf einem einzigen Chip integriert. In mindestens einer Ausführungsform können einige Aufgaben dem Kernkomplex 1510 und andere Aufgaben dem Grafikkomplex 1540 zugewiesen werden. In mindestens einer Ausführungsform ist der Kernkomplex 1510 so konfiguriert, dass er eine Hauptsteuerungssoftware ausführt, die der APU 1500 zugeordnet ist, wie z.B. ein Betriebssystem. In mindestens einer Ausführungsform ist der Kernkomplex 1510 der Hauptprozessor der APU 1500, der Operationen bzw. Betriebsabläufe der anderen Prozessoren steuert und koordiniert. In mindestens einer Ausführungsform gibt der Kernkomplex 1510 Befehle aus, die den Betrieb des Grafikkomplexes 1540 steuern. In mindestens einer Ausführungsform kann der Kernkomplex 1510 so konfiguriert sein, dass er von dem CUDA-Quellcode abgeleiteten ausführbaren Host-Code ausführt, und kann der Grafikkomplex 1540 so konfiguriert sein, dass er von dem CUDA-Quellcode abgeleiteten ausführbaren Geräte-Code ausführt.In at least one embodiment, core complex 1510 is a CPU, graphics complex 1540 is a GPU, and APU 1500 is a processing unit that integrates, but is not limited to, 1510 and 1540 on a single chip. In at least one embodiment, some tasks may be assigned to core complex 1510 and other tasks may be assigned to graphics complex 1540. In at least one embodiment, core complex 1510 is configured to execute master control software, that is assigned to the APU 1500, such as an operating system. In at least one embodiment, core complex 1510 is the main processor of APU 1500, which controls and coordinates operations of the other processors. In at least one embodiment, the core complex 1510 issues commands that control the operation of the graphics complex 1540. In at least one embodiment, the core complex 1510 may be configured to execute host executable code derived from the CUDA source code, and the graphics complex 1540 may be configured to execute device executable code derived from the CUDA source code.

In mindestens einer Ausführungsform beinhaltet der Kernkomplex 1510, ohne Beschränkung darauf, Kerne 1520(1)-1520(4) und einen L3-Cache 1530. In mindestens einer Ausführungsform kann der Kernkomplex 1510, ohne Beschränkung darauf, eine beliebige Anzahl von Kernen 1520 und eine beliebige Anzahl und Art von Caches in beliebiger Kombination enthalten. In mindestens einer Ausführungsform sind die Kerne 1520 so konfiguriert, dass sie Anweisungen einer bestimmten Befehlssatzarchitektur („ISA“) ausführen. In mindestens einer Ausführungsform ist jeder Kern 1520 ein CPU-Kern.In at least one embodiment, core complex 1510 includes, but is not limited to, cores 1520(1)-1520(4) and an L3 cache 1530. In at least one embodiment, core complex 1510 may include, but is not limited to, cores 1520 and contain any number and type of caches in any combination. In at least one embodiment, cores 1520 are configured to execute instructions of a particular instruction set architecture (“ISA”). In at least one embodiment, each core 1520 is a CPU core.

In mindestens einer Ausführungsform enthält jeder Kern 1520, ohne Beschränkung darauf, eine Abhol-/Dekodier-Einheit 1522, eine Ganzzahlausführungsmaschine 1524, eine Gleitkommaausführungsmaschine 1526 und einen L2-Cache 1528. In mindestens einer Ausführungsform holt die Abhol-/Dekodier-Einheit 1522 Anweisungen ab, dekodiert solche Anweisungen, erzeugt Mikrooperationen und sendet separate Mikroanweisungen an die Ganzzahlausführungsmaschine 1524 und die Gleitkommaausführungsmaschine 1526. In mindestens einer Ausführungsform kann die Abhol-/Dekodier-Einheit 1522 gleichzeitig eine Mikroanweisung an die Ganzzahlausführungsmaschine 1524 und eine andere Mikroanweisung an die Gleitkommaausführungsmaschine 1526 senden. In mindestens einer Ausführungsform führt die Ganzzahlausführungsmaschine 1524, ohne Beschränkung darauf, Ganzzahl- und Speicheroperationen aus. In mindestens einer Ausführungsform führt die Gleitkommamaschine 1526, ohne Beschränkung darauf, Gleitkomma- und Vektoroperationen aus. In mindestens einer Ausführungsform sendet die Abhol-/Dekodier-Einheit 1522 Mikroanweisungen an eine einzige Ausführungsmaschine, die sowohl die Ganzzahlausführungsmaschine 1524 als auch die Gleitkommaausführungsmaschine 1526 ersetzt.In at least one embodiment, each core 1520 includes, but is not limited to, a fetch/decode unit 1522, an integer execution engine 1524, a floating point execution engine 1526, and an L2 cache 1528. In at least one embodiment, the fetch/decode unit 1522 fetches instructions decodes such instructions, generates micro-operations, and sends separate micro-instructions to the integer execution engine 1524 and the floating-point execution engine 1526. In at least one embodiment, the fetch/decode unit 1522 may simultaneously send a micro-instruction to the integer execution engine 1524 and another micro-instruction to the floating-point execution engine 1526 . In at least one embodiment, integer execution engine 1524 performs, but is not limited to, integer and memory operations. In at least one embodiment, floating point engine 1526 performs, but is not limited to, floating point and vector operations. In at least one embodiment, the fetch/decode unit 1522 sends microinstructions to a single execution engine that replaces both the integer execution engine 1524 and the floating point execution engine 1526.

In mindestens einer Ausführungsform kann jeder Kern 1520(i), wobei i eine ganze Zahl ist, die eine bestimmte Instanz des Kerns 1520 repräsentiert, auf den L2-Cache 1528(i) zugreifen, der in dem Kern 1520(i) enthalten ist. In mindestens einer Ausführungsform ist jeder in dem Kernkomplex 1510(j) enthaltene Kern 1520, wobei j eine ganze Zahl ist, die eine bestimmte Instanz des Kernkomplexes 1510 repräsentiert, mit anderen in dem Kernkomplex 1510(j) enthaltenen Kernen 1520 über den in dem Kernkomplex 1510(j) enthaltenen L3-Cache 1530(j) verbunden. In mindestens einer Ausführungsform können die in dem Kernkomplex 1510(j) enthaltenen Kerne 1520, wobei j eine ganze Zahl ist, die eine bestimmte Instanz des Kernkomplexes 1510 repräsentiert, auf den gesamten L3-Cache 1530(j) zugreifen, der in dem Kernkomplex 1510(j) enthalten ist. In mindestens einer Ausführungsform kann der L3-Cache 1530, ohne Beschränkung darauf, eine beliebige Anzahl von Slices enthalten.In at least one embodiment, each core 1520(i), where i is an integer representing a particular instance of core 1520, may access the L2 cache 1528(i) included in core 1520(i). In at least one embodiment, each core 1520 included in the core complex 1510(j), where j is an integer representing a particular instance of the core complex 1510, is other cores 1520 included in the core complex 1510(j) beyond those in the core complex 1510(j) included L3 cache 1530(j). In at least one embodiment, the cores 1520 included in the core complex 1510(j), where j is an integer representing a particular instance of the core complex 1510, may access the entire L3 cache 1530(j) contained in the core complex 1510 (j) is included. In at least one embodiment, the L3 cache 1530 may include, but is not limited to, any number of slices.

In mindestens einer Ausführungsform kann der Grafikkomplex 1540 so konfiguriert sein, dass er Rechenoperationen hochparallel ausführt. In mindestens einer Ausführungsform ist der Grafikkomplex 1540 so konfiguriert, dass er Grafikpipelineoperationen wie beispielsweise Zeichenbefehle, Pixeloperationen, geometrische Berechnungen und andere Operationen im Zusammenhang mit dem Rendern eines Bilds auf einer Anzeige ausführt. In mindestens einer Ausführungsform ist der Grafikkomplex 1540 so konfiguriert, dass er Operationen ausführt, die nichts mit Grafik zu tun haben. In mindestens einer Ausführungsform ist der Grafikkomplex 1540 so konfiguriert, dass er sowohl grafikbezogene als auch grafikfremde Operationen ausführt.In at least one embodiment, graphics complex 1540 may be configured to perform computing operations in a highly parallel manner. In at least one embodiment, graphics complex 1540 is configured to perform graphics pipeline operations such as drawing commands, pixel operations, geometric calculations, and other operations related to rendering an image on a display. In at least one embodiment, graphics complex 1540 is configured to perform operations unrelated to graphics. In at least one embodiment, graphics complex 1540 is configured to perform both graphics-related and non-graphics operations.

In mindestens einer Ausführungsform beinhaltet der Grafikkomplex 1540, ohne Beschränkung darauf, eine beliebige Anzahl von Recheneinheiten 1550 und einen L2-Cache 1542. In mindestens einer Ausführungsform teilen sich die Recheneinheiten 1550 den L2-Cache 1542. In mindestens einer Ausführungsform ist der L2-Cache 1542 partitioniert. In mindestens einer Ausführungsform umfasst der Grafikkomplex 1540, ohne Beschränkung darauf, eine beliebige Anzahl von Recheneinheiten 1550 und eine beliebige Anzahl (einschließlich Null) und Art von Caches. In mindestens einer Ausführungsform beinhaltet der Grafikkomplex 1540, ohne Beschränkung darauf, eine beliebige Menge an dedizierter Grafikhardware.In at least one embodiment, the graphics complex 1540 includes, but is not limited to, any number of compute units 1550 and an L2 cache 1542. In at least one embodiment, the compute units 1550 share the L2 cache 1542. In at least one embodiment, the L2 cache Partitioned in 1542. In at least one embodiment, the graphics complex 1540 includes, but is not limited to, any number of computing units 1550 and any number (including zero) and type of caches. In at least one embodiment, graphics complex 1540 includes, but is not limited to, any amount of dedicated graphics hardware.

In mindestens einer Ausführungsform beinhaltet jede Recheneinheit 1550, ohne Beschränkung darauf, eine beliebige Anzahl von SIMD-Einheiten 1552 und einen gemeinsamen Speicher 1554. In mindestens einer Ausführungsform implementiert jede SIMD-Einheit 1552 eine SIMD-Architektur und ist für die parallele Ausführung von Operationen konfiguriert. In mindestens einer Ausführungsform kann jede Recheneinheit 1550 eine beliebige Anzahl von Thread-Blöcken ausführen, aber jeder Thread-Block wird auf einer einzigen Recheneinheit 1550 ausgeführt. In mindestens einer Ausführungsform beinhaltet ein Thread-Block, ohne Beschränkung darauf, eine beliebige Anzahl von Ausführungs-Threads. In mindestens einer Ausführungsform ist eine Arbeitsgruppe bzw. eine Workgroup ein Thread-Block. In mindestens einer Ausführungsform führt jede SIMD-Einheit 1552 einen anderen Warp aus. In mindestens einer Ausführungsform ist ein Warp eine Gruppe von Threads (z.B. 16 Threads), wobei jeder Thread im Warp zu einem einzigen Thread-Block gehört und so konfiguriert ist, dass er einen anderen Datensatz auf der Grundlage eines einzigen Satzes von Anweisungen verarbeitet. In mindestens einer Ausführungsform kann eine Prädikation verwendet werden, um einen oder mehrere Threads in einem Warp zu deaktivieren. In mindestens einer Ausführungsform ist eine Spur bzw. eine Lane ein Thread. In mindestens einer Ausführungsform ist ein Arbeitselement bzw. Workitem ein Thread. In mindestens einer Ausführungsform ist eine Wellenfront ein Warp. In mindestens einer Ausführungsform können sich verschiedene Wellenfronten in einem Thread-Block miteinander synchronisieren und über den gemeinsamen Speicher 1554 kommunizieren.In at least one embodiment, each computing unit 1550 includes, but is not limited to, any number of SIMD units 1552 and shared memory 1554. In at least one embodiment, each SIMD unit 1552 implements a SIMD architecture and is configured to perform operations in parallel . In at least one embodiment, each rake can unit 1550 can execute any number of thread blocks, but each thread block is executed on a single computing unit 1550. In at least one embodiment, a thread block includes, but is not limited to, any number of threads of execution. In at least one embodiment, a workgroup is a thread block. In at least one embodiment, each SIMD unit 1552 performs a different warp. In at least one embodiment, a warp is a group of threads (e.g., 16 threads), where each thread in the warp belongs to a single thread block and is configured to process a different set of data based on a single set of instructions. In at least one embodiment, a predication may be used to disable one or more threads in a warp. In at least one embodiment, a track is a thread. In at least one embodiment, a work item is a thread. In at least one embodiment, a wavefront is a warp. In at least one embodiment, different wavefronts in a thread block may synchronize with each other and communicate via shared memory 1554.

In mindestens einer Ausführungsform ist die Struktur 1560 eine Systemverbindung bzw. ein System-Interconnect, die bzw. der Daten- und Steuerungs-Übertragungen zwischen dem Kernkomplex 1510, dem Grafikkomplex 1540, den E/A-Schnittstellen 1570, den Speichercontrollern 1580, dem Anzeigecontroller 1592 und der Multimedia-Engine 1594 ermöglicht. In mindestens einer Ausführungsform kann die APU 1500, ohne Beschränkung darauf, eine beliebige Menge und Art von Systemverbindungen zusätzlich zu oder anstelle des Fabric 1560 enthalten, die Daten- und Steuerungs-Übertragungen über eine beliebige Anzahl und Art von direkt oder indirekt verbundenen Komponenten ermöglicht, die intern oder extern zur APU 1500 sein können. In mindestens einer Ausführungsform sind die E/A-Schnittstellen 1570 repräsentativ für eine beliebige Anzahl und Art von E/A-Schnittstellen (z.B. PCI, PCI-Extended („PCI-X“), PCIe, Gigabit-Ethernet („GBE“), USB usw.). In mindestens einer Ausführungsform sind verschiedene Arten von Peripheriegeräten mit den E/A-Schnittstellen 1570 gekoppelt. Die Peripheriegeräte, die mit den E/A-Schnittstellen 1570 gekoppelt sind, können, ohne Beschränkung darauf, Tastaturen, Mäuse, Drucker, Scanner, Joysticks oder andere Arten von Spielsteuerungen, Medienaufzeichnungsvorrichtungen, externe Speichervorrichtungen, Netzwerkschnittstellenkarten usw. beinhalten.In at least one embodiment, structure 1560 is a system interconnect that carries data and control transfers between core complex 1510, graphics complex 1540, I/O interfaces 1570, memory controllers 1580, display controller 1592 and the multimedia engine 1594. In at least one embodiment, the APU 1500 may include, but is not limited to, any number and type of system connections in addition to or instead of the fabric 1560, enabling data and control transfers over any number and type of directly or indirectly connected components. which can be internal or external to the APU 1500. In at least one embodiment, the I/O interfaces 1570 are representative of any number and type of I/O interfaces (e.g., PCI, PCI-Extended ("PCI-X"), PCIe, Gigabit Ethernet ("GBE") , USB etc.). In at least one embodiment, various types of peripheral devices are coupled to the I/O interfaces 1570. The peripheral devices coupled to the I/O interfaces 1570 may include, but are not limited to, keyboards, mice, printers, scanners, joysticks or other types of gaming controllers, media recording devices, external storage devices, network interface cards, etc.

In mindestens einer Ausführungsform zeigt der Anzeigecontroller AMD92 Bilder auf einer oder mehreren Anzeigevorrichtungen an, z.B. auf einer Flüssigkristallanzeige („LCD“). In mindestens einer Ausführungsform umfasst die Multimedia-Engine 1594, ohne Beschränkung darauf, eine beliebige Menge und Art von Schaltkreisen, die sich auf Multimedia beziehen, wie z.B. einen Video-Dekoder, einen Video-Enkoder, einen Bildsignalprozessor usw. In mindestens einer Ausführungsform erleichtern Speichercontroller 1580 die Datenübertragung zwischen der APU 1500 und einem einheitlichen Systemspeicher 1590. In mindestens einer Ausführungsform teilen sich der Kernkomplex 1510 und der Grafikkomplex 1540 den vereinheitlichten Systemspeicher 1590.In at least one embodiment, the AMD92 display controller displays images on one or more display devices, such as a liquid crystal display (“LCD”). In at least one embodiment, the multimedia engine 1594 includes, but is not limited to, any set and type of circuitry related to multimedia, such as a video decoder, a video encoder, an image signal processor, etc. In at least one embodiment, facilitate Memory controller 1580 transfers data between the APU 1500 and a unified system memory 1590. In at least one embodiment, the core complex 1510 and the graphics complex 1540 share the unified system memory 1590.

In mindestens einer Ausführungsform implementiert die APU 1500 ein Speicher-Subsystem, das, ohne Beschränkung darauf, eine beliebige Anzahl und Art von Speichercontrollern 1580 und Speichervorrichtungen (z.B. den gemeinsam genutzten Speicher 1554) enthält, die einer Komponente zugeordnet oder von mehreren Komponenten gemeinsam genutzt werden können. In mindestens einer Ausführungsform implementiert die APU 1500 ein Cache-Subsystem, das, ohne Beschränkung darauf, einen oder mehrere Cachespeicher (z.B. L2-Caches 1628, L3-Cache 1530 und L2-Cache 1542) beinhaltet, die jeweils für eine beliebige Anzahl von Komponenten (z.B. Kerne 1520, Kernkomplex 1510, SIMD-Einheiten 1552, Recheneinheiten 1550 und Grafikkomplex 1540) reserviert sein oder von diesen gemeinsam genutzt werden können.In at least one embodiment, the APU 1500 implements a memory subsystem that includes, but is not limited to, any number and type of memory controllers 1580 and memory devices (e.g., shared memory 1554) associated with a component or shared by multiple components can. In at least one embodiment, the APU 1500 implements a cache subsystem that includes, but is not limited to, one or more caches (e.g., L2 caches 1628, L3 cache 1530, and L2 cache 1542), each for any number of components (e.g. cores 1520, core complex 1510, SIMD units 1552, computing units 1550 and graphics complex 1540) can be reserved or shared between them.

In mindestens einer Ausführungsform werden ein oder mehrere in 15 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 15 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 15 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 15 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 15 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 15 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 15 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 15 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

16 zeigt eine CPU 1600, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist die CPU 1600 von der AMD Corporation aus Santa Clara, CA, entwickelt. In mindestens einer Ausführungsform kann die CPU 1600 so konfiguriert sein, dass sie ein Anwendungsprogramm ausführt. In mindestens einer Ausführungsform ist die CPU 1600 so konfiguriert, dass sie eine Hauptsteuerungssoftware, wie z.B. ein Betriebssystem, ausführt. In mindestens einer Ausführungsform gibt die CPU 1600 Befehle aus, die den Betrieb einer externen GPU (nicht dargestellt) steuern. In mindestens einer Ausführungsform kann die CPU 1600 so konfiguriert sein, dass sie ausführbaren Host-Code ausführt, der von CUDA-Quellcode abgeleitet ist, und kann eine externe GPU so konfiguriert sein, dass sie ausführbaren Geräte-Code ausführt, der von einem solchen CUDA-Quellcode abgeleitet ist. In mindestens einer Ausführungsform beinhaltet die CPU 1600, ohne Beschränkung darauf, eine beliebige Anzahl von Kernkomplexen 1610, ein Fabric 1660, E/A-Schnittstellen 1670 und Speichercontroller 1680. 16 shows a CPU 1600, in accordance with at least one embodiment. In at least one embodiment, CPU 1600 is developed by AMD Corporation of Santa Clara, CA. In at least one embodiment, CPU 1600 may be configured to execute an application program. In at least one embodiment, CPU 1600 is configured to execute master control software, such as an operating system. In at least one embodiment, CPU 1600 issues instructions that control the operation of an external GPU (not shown). In at least one embodiment, CPU 1600 may be configured to execute host executable code derived from CUDA source code, and an external GPU may be configured to execute device executable code derived from such CUDA source code is derived. In at least one embodiment, the CPU 1600 includes, but is not limited to, any number of core complexes 1610, a fabric 1660, I/O interfaces 1670, and memory controllers 1680.

In mindestens einer Ausführungsform beinhaltet der Kernkomplex 1610, ohne Beschränkung darauf, Kerne 1620(1)-1620(4) und einen L3-Cache 1630. In mindestens einer Ausführungsform kann der Kernkomplex 1610, ohne Beschränkung darauf, eine beliebige Anzahl von Kernen 1620 und eine beliebige Anzahl und Art von Caches in beliebiger Kombination enthalten. In mindestens einer Ausführungsform sind die Kerne 1620 so konfiguriert, dass sie Anweisungen eines bestimmten ISA ausführen. In mindestens einer Ausführungsform ist jeder Kern 1620 ein CPU-Kern.In at least one embodiment, core complex 1610 includes, but is not limited to, cores 1620(1)-1620(4) and an L3 cache 1630. In at least one embodiment, core complex 1610 may include, but is not limited to, cores 1620 and contain any number and type of caches in any combination. In at least one embodiment, cores 1620 are configured to execute instructions of a particular ISA. In at least one embodiment, each core 1620 is a CPU core.

In mindestens einer Ausführungsform beinhaltet jeder Kern 1620, ohne Beschränkung darauf, eine Abhol-/Dekodier-Einheit 1622, eine Ganzzahlausführungsmaschine 1624, eine Gleitkommaausführungsmaschine 1626 und einen L2-Cache 1628. In mindestens einer Ausführungsform holt die Abruf-/Dekodier-Einheit 1622 Anweisungen ab, dekodiert solche Anweisungen, erzeugt Mikrooperationen und sendet separate Mikroanweisungen an die Ganzzahlausführungs-Engine 1624 und die Gleitkommaausführungsmaschine 1626. In mindestens einer Ausführungsform kann die Abhol-/Dekodier-Einheit 1622 gleichzeitig eine Mikroanweisung an die Ganzzahlausführungsmaschine 1624 und eine andere Mikroanweisung an die Gleitkommaausführungsmaschine 1626 senden. In mindestens einer Ausführungsform führt die Ganzzahlausführungsmaschine 1624, ohne Beschränkung darauf, Ganzzahl- und Speicheroperationen aus. In mindestens einer Ausführungsform führt die Gleitkommamaschine 1626, ohne Beschränkung darauf, Gleitkomma- und Vektoroperationen aus. In mindestens einer Ausführungsform sendet die Abhol-/Dekodier-Einheit 1622 Mikroanweisungen an eine einzige Ausführungsmaschine, die sowohl die Ganzzahlausführungsmaschine 1624 als auch die Gleitkommaausführungsmaschine 1626 ersetzt.In at least one embodiment, each core 1620 includes, but is not limited to, a fetch/decode unit 1622, an integer execution engine 1624, a floating point execution engine 1626, and an L2 cache 1628. In at least one embodiment, the fetch/decode unit 1622 fetches instructions decodes such instructions, generates micro-operations, and sends separate micro-instructions to the integer execution engine 1624 and the floating-point execution engine 1626. In at least one embodiment, the fetch/decode unit 1622 may simultaneously send a micro-instruction to the integer execution engine 1624 and another micro-instruction to the floating-point execution engine Send 1626. In at least one embodiment, integer execution engine 1624 performs, but is not limited to, integer and memory operations. In at least one embodiment, floating point engine 1626 performs, but is not limited to, floating point and vector operations. In at least one embodiment, the fetch/decode unit 1622 sends microinstructions to a single execution engine that replaces both the integer execution engine 1624 and the floating point execution engine 1626.

In mindestens einer Ausführungsform kann jeder Kern 1620(i), wobei i eine ganze Zahl ist, die eine bestimmte Instanz des Kerns 1620 repräsentiert, auf den L2-Cache 1628(i) zugreifen, der in dem Kern 1620(i) enthalten ist. In mindestens einer Ausführungsform ist jeder in dem Kernkomplex 1610(j) enthaltene Kern 1620, wobei j eine ganze Zahl ist, die eine bestimmte Instanz des Kernkomplexes 1610 repräsentiert, mit anderen Kernen 1620 in dem Kernkomplex 1610(j) über den in dem Kernkomplex 1610(j) enthaltenen L3-Cache 1630(j) verbunden. In mindestens einer Ausführungsform können die in dem Kernkomplex 1610(j) enthaltenen Kerne 1620, wobei j eine ganze Zahl ist, die eine bestimmte Instanz des Kernkomplexes 1610 repräsentiert, auf den gesamten in dem Kernkomplex 1610(j) enthaltenen L3-Cache 1630(j) zugreifen. In mindestens einer Ausführungsform kann der L3-Cache 1630, ohne Beschränkung darauf, eine beliebige Anzahl von Slices enthalten.In at least one embodiment, each core 1620(i), where i is an integer representing a particular instance of core 1620, may access the L2 cache 1628(i) included in core 1620(i). In at least one embodiment, each core included in the core complex 1610(j) is 1620, where j is an integer representing a particular instance of the core complex 1610, with other cores 1620 in the core complex 1610(j) beyond those in the core complex 1610 (j) included L3 cache 1630(j). In at least one embodiment, the cores 1620 included in the core complex 1610(j), where j is an integer representing a particular instance of the core complex 1610, may be applied to the entire L3 cache 1630(j) included in the core complex 1610(j). ). In at least one embodiment, the L3 cache 1630 may include, but is not limited to, any number of slices.

In mindestens einer Ausführungsform ist das Fabric 1660 eine Systemverbindung, die Daten- und Steuerungs-Übertragungen über die Kernkomplexe 1610(1)-1610(N) (wobei N eine ganze Zahl größer als Null ist), E/A-Schnittstellen 1670 und Speichercontroller 1680 erleichtert. In mindestens einer Ausführungsform kann die CPU 1600, ohne Beschränkung darauf, eine beliebige Menge und Art von Systemverbindungen zusätzlich zu oder anstelle des Fabric 1660 enthalten, die Daten- und Steuerungs-Übertragungen über eine beliebige Anzahl und Art von direkt oder indirekt verbundenen Komponenten erleichtern, die intern oder extern zur CPU 1600 sein können. In mindestens einer Ausführungsform sind die E/A-Schnittstellen 1670 repräsentativ für eine beliebige Anzahl und Art von E/A-Schnittstellen (z.B. PCI , PCI-X, PCIe, GBE, USB usw.). In mindestens einer Ausführungsform sind verschiedene Arten von Peripheriegeräten mit den E/A-Schnittstellen 1670 gekoppelt. Zu den Peripheriegeräten, die mit den E/A-Schnittstellen 1670 gekoppelt sind, gehören unter anderem Bildschirme, Tastaturen, Mäuse, Drucker, Scanner, Joysticks oder andere Arten von Spielsteuerungen, Medienaufzeichnungsvorrichtungen, externe Speichervorrichtungen, Netzwerkschnittstellenkarten usw.In at least one embodiment, fabric 1660 is a system interconnect that carries data and control transfers across core complexes 1610(1)-1610(N) (where N is an integer greater than zero), I/O interfaces 1670, and memory controllers relieved in 1680. In at least one embodiment, CPU 1600 may include, but is not limited to, any number and type of system connections in addition to or instead of fabric 1660 that facilitate data and control transfers over any number and type of directly or indirectly connected components. which can be internal or external to the CPU 1600. In at least one embodiment, the I/O interfaces 1670 are representative of any number and type of I/O interfaces (e.g., PCI, PCI-X, PCIe, GBE, USB, etc.). In at least one embodiment, various types of peripheral devices are coupled to the I/O interfaces 1670. Peripheral devices coupled to I/O interfaces 1670 include, but are not limited to, monitors, keyboards, mice, printers, scanners, joysticks or other types of gaming controllers, media recording devices, external storage devices, network interface cards, etc.

In mindestens einer Ausführungsform erleichtern die Speichercontroller 1680 Datenübertragungen zwischen der CPU 1600 und einem Systemspeicher 1690. In mindestens einer Ausführungsform teilen sich der Kernkomplex 1610 und der Grafikkomplex 1640 den Systemspeicher 1690. In mindestens einer Ausführungsform implementiert die CPU 1600 ein Speichersubsystem, das, ohne Beschränkung darauf, eine beliebige Anzahl und Art von Speichercontrollern 1680 und Speichervorrichtungen beinhaltet, die einer Komponente zugeordnet sein oder von mehreren Komponenten gemeinsam genutzt werden können. In mindestens einer Ausführungsform implementiert die CPU 1600 ein Cache-Subsystem, das, ohne Beschränkung darauf, einen oder mehrere Cachespeicher (z.B. L2-Caches 1628 und L3-Caches 1630) beinhaltet, die jeweils für eine beliebige Anzahl von Komponenten (z.B. Kerne 1620 und Kernkomplexe 1610) reserviert sein oder von diesen gemeinsam genutzt werden können.In at least one embodiment, memory controllers 1680 facilitate data transfers between CPU 1600 and a system memory 1690. In at least one embodiment, share the core complex 1610 and the graphics complex 1640 the system memory 1690. In at least one embodiment, the CPU 1600 implements a memory subsystem that includes, but is not limited to, any number and type of memory controllers 1680 and memory devices associated with a component or shared by multiple components can be used. In at least one embodiment, CPU 1600 implements a cache subsystem that includes, but is not limited to, one or more caches (e.g., L2 caches 1628 and L3 caches 1630), each for any number of components (e.g., cores 1620 and Core complexes 1610) can be reserved or shared by them.

In mindestens einer Ausführungsform werden ein oder mehrere in 16 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 16 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 16 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 16 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 16 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 16 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 16 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 16 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

17 veranschaulicht ein beispielhaftes Beschleunigerintegrationsslice 1790, in Übereinstimmung mit mindestens einer Ausführungsform. Wie hierin verwendet, umfasst ein „Slice“ einen bestimmten Teil von Verarbeitungsressourcen einer Beschleunigerintegrationsschaltung. In mindestens einer Ausführungsform stellt die Beschleunigerintegrationsschaltung Cache-Verwaltung, Speicherzugriff, Kontextverwaltung und Interruptverwaltungsdienste für mehrere Grafikverarbeitungsmodule in einem Grafikbeschleunigungsmodul bereit. Die Grafikverarbeitungs-Engines können jeweils eine separate GPU umfassen. Alternativ können die Grafikverarbeitungs-Engines verschiedene Arten von Grafikverarbeitungs-Engines innerhalb einer GPU umfassen, wie z.B. Grafikausführungseinheiten, Medienverarbeitungs-Engines (z.B. Video-Enkoder/Dekoder), Sampler und Blit-Engines. In mindestens einer Ausführungsform kann das Grafikbeschleunigungsmodul eine GPU mit mehreren Grafikverarbeitungs-Engines sein. In mindestens einer Ausführungsform können die Grafikverarbeitungs-Engines einzelne GPUs sein, die auf einem gemeinsamen Package, einer Linecard oder einem Chip integriert sind. 17 illustrates an example accelerator integration slice 1790, in accordance with at least one embodiment. As used herein, a “slice” includes a specific portion of processing resources of an accelerator integration circuit. In at least one embodiment, the accelerator integration circuit provides cache management, memory access, context management, and interrupt management services for multiple graphics processing modules in a graphics accelerator module. The graphics processing engines may each include a separate GPU. Alternatively, the graphics processing engines may include various types of graphics processing engines within a GPU, such as graphics execution units, media processing engines (e.g., video encoders/decoders), samplers, and blit engines. In at least one embodiment, the graphics acceleration module may be a GPU with multiple graphics processing engines. In at least one embodiment, the graphics processing engines may be individual GPUs integrated on a common package, line card, or chip.

Ein anwendungswirksamer Adressraum 1782 innerhalb eines Systemspeichers 1714 speichert Prozesselemente 1783. In einer Ausführungsform werden die Prozesselemente 1783 im Ansprechen auf GPU-Aufrufe 1781 von Anwendungen 1780, die auf dem Prozessor 1707 ausgeführt werden, gespeichert. Ein Prozesselement 1783 enthält den Prozessstatus für die entsprechende Anwendung 1780. Ein in dem Prozesselement 1783 enthaltener Arbeits- bzw. Workdeskriptor („WD“) 1784 kann ein einzelner, von einer Anwendung angeforderter Auftrag bzw. Job sein oder einen Zeiger auf eine Warteschlange von Jobs enthalten. In mindestens einer Ausführungsform ist der WD 1784 ein Zeiger auf eine Auftragsanforderungswarteschlange in dem effektiven Adressraum 1782 der Anwendung.An application effective address space 1782 within a system memory 1714 stores process elements 1783. In one embodiment, the process elements 1783 are stored in response to GPU calls 1781 from applications 1780 running on the processor 1707. A process element 1783 contains the process status for the corresponding application 1780. A work descriptor (“WD”) 1784 contained in the process element 1783 may be a single job requested by an application or a pointer to a queue of jobs contain. In at least one embodiment, WD 1784 is a pointer to a job request queue in the application's effective address space 1782.

Das Grafikbeschleunigungsmodul 1746 und/oder einzelne Grafikverarbeitungs-Engines können von allen oder einer Teilmenge von Prozessen in einem System gemeinsam genutzt werden. In mindestens einer Ausführungsform kann eine Infrastruktur zum Einrichten eines Prozessstatus und zum Senden des WD 1784 an das Grafikbeschleunigungsmodul 1746 zum Starten eines Auftrags in einer virtualisierten Umgebung enthalten sein.The graphics acceleration module 1746 and/or individual graphics processing engines may be shared among all or a subset of processes in a system. In at least one embodiment, an infrastructure for establishing a process status and sending the WD 1784 to the graphics acceleration module 1746 to start a job in a virtualized environment may be included.

In mindestens einer Ausführungsform ist ein Dedizierter-Prozess-Programmiermodell implementierungsspezifisch. In diesem Modell besitzt ein einzelner Prozess das Grafikbeschleunigungsmodul 1746 oder eine individuelle Grafikverarbeitungs-Engine. Weil das Grafikbeschleunigungsmodul 1746 einem einzelnen Prozess gehört, initialisiert ein Hypervisor eine Beschleunigerintegrationsschaltung für eine besitzende Partition und initialisiert ein Betriebssystem die Beschleunigerintegrationsschaltung für einen besitzenden Prozess, wenn das Grafikbeschleunigungsmodul 1746 zugewiesen wird.In at least one embodiment, a dedicated process programming model is implementation specific. In this model, a single process has the graphics acceleration module 1746 or an individual graphics processing engine. Because the graphics accelerator module 1746 is owned by a single process, a hypervisor initializes an accelerator integration circuit for an owning partition and an operating system initializes the accelerator integration circuit for an owning process when the graphics accelerator module 1746 is assigned.

Im Betrieb holt eine WD-Abholeinheit 1791 in dem Beschleunigerintegrationsslice 1790 den nächsten WD 1784 ab, der eine Angabe der Arbeit enthält, die von einer oder mehreren Grafikverarbeitungsmaschinen des Grafikbeschleunigungsmoduls 1746 zu erledigen ist. Daten aus dem WD 1784 können in Registern 1745 gespeichert und von einer Speicherverwaltungseinheit („MMU“) 1739, einer Unterbrechungs- bzw. Interrupt-Verwaltungsschaltung 1747 und/oder einer Kontextverwaltungsschaltung 1748 verwendet werden, wie dargestellt. Eine Ausführungsform der MMU 1739 beinhaltet beispielsweise einen Segment-/Seitenlauf-Schaltkreis für den Zugriff auf Segment-/Seitentabellen 1786 innerhalb des virtuellen Betriebssystemadressraums 1785. Die Interrupt-Verwaltungsschaltung 1747 kann von dem Grafikbeschleunigungsmodul 1746 empfangene Interrupt-Ereignisse („INT“) 1792 verarbeiten. Bei der Durchführung von Grafikoperationen wird eine von einer Grafikverarbeitungsmaschine erzeugte effektive Adresse 1793 von der MMU 1739 in eine reale Adresse übersetzt.In operation, a WD fetch unit 1791 in the accelerator integration slice 1790 fetches the next WD 1784 that contains an indication of the work to be done by one or more graphics processing engines of the graphics accelerator module 1746. Data from WD 1784 can be stored in registers 1745 stored and used by a memory management unit (“MMU”) 1739, an interrupt management circuit 1747, and/or a context management circuit 1748, as shown. For example, one embodiment of the MMU 1739 includes a segment/page running circuit for accessing segment/page tables 1786 within the virtual operating system address space 1785. The interrupt management circuit 1747 may process interrupt events (“INT”) 1792 received from the graphics acceleration module 1746 . When performing graphics operations, an effective address 1793 generated by a graphics processing engine is translated into a real address by the MMU 1739.

In einer Ausführungsform wird für jede Grafikverarbeitungs-Engine und/oder jedes Grafikbeschleunigungsmodul 1746 ein gleicher Satz von Registern 1745 dupliziert und kann von einem Hypervisor oder Betriebssystem initialisiert werden. Jedes dieser duplizierten Register kann in dem Beschleunigerintegrationsslice 1790 enthalten sein. Beispielhafte Register, die von einem Hypervisor initialisiert werden können, sind in Tabelle 1 gezeigt. Tabelle 1 -Hypervisor-initialisierte Register 1 Slicesteuerregister 2 Realadresse (RA)-Geplantprozesse-Bereichszeiger 3 Autoritätsmasken-Überschreibungsregister 4 I nterruptvektor-Tabel leneintragsversatz 5 I nterruptvektor-Tabel leneintragsgrenze 6 Zustandsregister 7 Logische Partitions-ID 8 Realadresse (RA)-Hypervisorbeschleunigernutzungsaufzeichnungs-Zeiger 9 Speicherbeschreibungsregister In one embodiment, a similar set of registers 1745 is duplicated for each graphics processing engine and/or graphics acceleration module 1746 and may be initialized by a hypervisor or operating system. Each of these duplicate registers may be included in the accelerator integration slice 1790. Example registers that can be initialized by a hypervisor are shown in Table 1. Table 1 - Hypervisor initialized registers 1 Slice control register 2 Real address (RA) scheduled processes area pointer 3 Authority mask override register 4 Interrupt vector table entry offset 5 Interrupt vector table entry limit 6 Status register 7 Logical partition ID 8th Real address (RA) hypervisor accelerator usage record pointer 9 Memory description register

Beispielhafte Register, die von einem Betriebssystem initialisiert werden können, sind in Tabelle 2 gezeigt. Tabelle 2 - Betriebssystem-initialisierte Register 1 Prozess- und Thread-Identifikation 2 Effektivadresse (EA) Kontextspeicherungs-/Wiederherstellungs-Zeiger 3 Virtuelladresse (VA)-Beschleunigernutzungsaufzeichnungs-Zeiger 4 Virtuelladresse (VA)-Speichersegmenttabellenzeiger 5 Autoritätsmaske 6 Arbeitsdeskriptor Example registers that can be initialized by an operating system are shown in Table 2. Table 2 - Operating System Initialized Registers 1 Process and thread identification 2 Effective Address (EA) Context save/restore pointer 3 Virtual address (VA) accelerator usage record pointer 4 Virtual address (VA) memory segment table pointer 5 Authority mask 6 Work descriptor

In einer Ausführungsform ist jeder WD 1784 spezifisch für ein bestimmtes Grafikbeschleunigungsmodul 1746 und/oder eine bestimmte Grafikverarbeitungs-Engine. Er enthält alle Informationen, die von einer Grafikverarbeitungs-Engine benötigt werden, um Arbeit zu verrichten, oder er kann ein Zeiger auf einen Speicherplatz sein, an dem eine Anwendung eine Befehlswarteschlange von abzuschließender Arbeit eingerichtet hat.In one embodiment, each WD 1784 is specific to a particular graphics acceleration module 1746 and/or a particular graphics processing engine. It contains all the information needed by a graphics processing engine to perform work, or it can be a pointer to a memory location where an application has set up a command queue of work to be completed.

In mindestens einer Ausführungsform werden ein oder mehrere in 17 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 17 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 17 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 17 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 17 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 17 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 17 systems illustrated are used to execute the API to reduce the use of information by a computer program, based at least in part on one or more data structures ren used to monitor the use of the information. In at least one embodiment, one or more in 17 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

18A-18B veranschaulichen beispielhafte Grafikprozessoren, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform kann jeder der beispielhaften Grafikprozessoren unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein. Zusätzlich zu dem, was dargestellt ist, können andere Logik und Schaltungen in mindestens einer Ausführungsform enthalten sein, einschließlich zusätzlicher Grafikprozessoren/-kerne, Peripherieschnittstellencontroller oder Universalprozessorkerne. In mindestens einer Ausführungsform sind die beispielhaften Grafikprozessoren zur Verwendung innerhalb eines SoC vorgesehen. 18A-18B illustrate exemplary graphics processors, in accordance with at least one embodiment. In at least one embodiment, each of the example graphics processors may be fabricated using one or more IP cores. In addition to what is illustrated, other logic and circuitry may be included in at least one embodiment, including additional graphics processors/cores, peripheral interface controllers, or general purpose processor cores. In at least one embodiment, the example graphics processors are intended for use within an SoC.

18A veranschaulicht einen beispielhaften Grafikprozessor 1810 eines integrierten SoC-Schaltkreises, der unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein kann, in Übereinstimmung mit mindestens einer Ausführungsform. 18B veranschaulicht einen weiteren beispielhaften Grafikprozessor 1840 eines integrierten SoC-Schaltkreises, der unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein kann, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist der Grafikprozessor 1810 von 18A ein stromsparender Grafikprozessorkern. In mindestens einer Ausführungsform ist der Grafikprozessor 1840 von 18B ein Grafikprozessorkern mit höherer Leistung. In mindestens einer Ausführungsform kann jeder der Grafikprozessoren 1810, 1840 eine Variante des Grafikprozessors 1310 von 13 sein. 18A illustrates an example SoC integrated circuit graphics processor 1810, which may be fabricated using one or more IP cores, in accordance with at least one embodiment. 18B illustrates another example SoC integrated circuit graphics processor 1840 that may be fabricated using one or more IP cores, in accordance with at least one embodiment. In at least one embodiment, the graphics processor 1810 is from 18A a power-saving graphics processor core. In at least one embodiment, the graphics processor 1840 is from 18B a higher performance graphics processor core. In at least one embodiment, each of the graphics processors 1810, 1840 may be a variant of the graphics processor 1310 of 13 be.

In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 1810 einen Vertex-Prozessor 1805 und einen oder mehrere Fragment-Prozessor(en) 1815A-1815N (z.B. 1815A, 1815B, 1815C, 1815D, bis 1815N-1 und 1815N). In mindestens einer Ausführungsform kann der Grafikprozessor 1810 verschiedene Shader-Programme über eine separate Logik ausführen, so dass der Vertex-Prozessor 1805 für die Ausführung von Operationen für Vertex-Shader-Programme optimiert ist, während ein oder mehrere Fragment-Prozessor(en) 1815A-1815N Fragment- (z.B. Pixel-) Shading-Operationen für Fragment- oder Pixel-Shader-Programme ausführen. In mindestens einer Ausführungsform führt der Vertex-Prozessor 1805 eine Vertex-Verarbeitungsstufe einer 3D-Grafik-Pipeline aus und erzeugt Primitive und Vertex-Daten. In mindestens einer Ausführungsform verwenden Fragmentprozessor(en) 1815A-1815N die von dem Vertexprozessor 1805 erzeugten Primitiv- und Vertexdaten, um einen Framebuffer bzw. Bildpuffer zu erzeugen, der auf einer Anzeigevorrichtung angezeigt wird. In mindestens einer Ausführungsform ist/sind der/die Fragmentprozessor(en) 1815A-1815N für die Ausführung von Fragment-Shader-Programmen optimiert, wie sie in einer OpenGL-API bereitgestellt sind, die verwendet werden können, um ähnliche Operationen wie ein Pixel-Shader-Programm durchzuführen, wie sie in einer Direct 3D-API bereitgestellt sind.In at least one embodiment, graphics processor 1810 includes a vertex processor 1805 and one or more fragment processors 1815A-1815N (e.g., 1815A, 1815B, 1815C, 1815D, through 1815N-1 and 1815N). In at least one embodiment, graphics processor 1810 may execute different shader programs via separate logic such that vertex processor 1805 is optimized to perform operations for vertex shader programs, while one or more fragment processors 1815A -1815N Perform fragment (e.g. pixel) shading operations for fragment or pixel shader programs. In at least one embodiment, vertex processor 1805 executes a vertex processing stage of a 3D graphics pipeline and generates primitives and vertex data. In at least one embodiment, fragment processor(s) 1815A-1815N use the primitive and vertex data generated by vertex processor 1805 to generate a frame buffer that is displayed on a display device. In at least one embodiment, the fragment processor(s) 1815A-1815N is optimized to execute fragment shader programs as provided in an OpenGL API, which can be used to perform similar operations to a pixel shader. Execute shader programs as provided in a Direct 3D API.

In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 1810 zusätzlich eine oder mehrere MMU(s) 1820A-1820B, Cache(s) 1825A-1825B und Schaltungsverbindung(en) bzw. Interconnect(s) 1830A-1830B. In mindestens einer Ausführungsform sorgen eine oder mehrere MMU(s) 1820A-1820B für die Zuordnung von virtuellen zu physikalischen Adressen für den Grafikprozessor 1810, einschließlich für den Vertex-Prozessor 1805 und/oder den/die Fragment-Prozessor(en) 1815A-1815N, der/die auf in dem Speicher gespeicherte Vertex- oder Bild/TexturDaten verweisen kann/können, zusätzlich zu Vertex- oder Bild/Textur-Daten, die in einem oder mehreren Cache(s) 1825A-1825B gespeichert sind. In mindestens einer Ausführungsform können eine oder mehrere MMU(s) 1820A-1820B mit anderen MMUs innerhalb eines Systems synchronisiert werden, einschließlich einer oder mehrerer MMUs, die einem oder mehreren Anwendungsprozessor(en) 1305, Bildprozessor(en) 1315 und/oder Videoprozessor(en) 1320 von 13 zugeordnet sind, so dass jeder Prozessor 1305-1320 an einem gemeinsamen oder vereinheitlichten virtuellen Speichersystem teilhaben kann. In mindestens einer Ausführungsform ermöglichen eine oder mehrere Schaltungsverbindung(en) 1830A-1830B dem Grafikprozessor 1810 die Verbindung mit anderen IP-Kernen innerhalb eines SoCs, entweder über einen internen Bus des SoCs oder über eine direkte Verbindung.In at least one embodiment, graphics processor 1810 additionally includes one or more MMU(s) 1820A-1820B, cache(s) 1825A-1825B, and circuit interconnect(s) 1830A-1830B. In at least one embodiment, one or more MMU(s) 1820A-1820B provide virtual to physical address mapping for graphics processor 1810, including vertex processor 1805 and/or fragment processor(s) 1815A-1815N , which may reference vertex or image/texture data stored in memory, in addition to vertex or image/texture data stored in one or more cache(s) 1825A-1825B. In at least one embodiment, one or more MMU(s) 1820A-1820B may be synchronized with other MMUs within a system, including one or more MMUs that are associated with one or more application processor(s) 1305, image processor(s) 1315, and/or video processor(s). en) 1320 from 13 are assigned so that each processor 1305-1320 can participate in a common or unified virtual memory system. In at least one embodiment, one or more circuit connections 1830A-1830B enable graphics processor 1810 to connect to other IP cores within an SoC, either via an internal bus of the SoC or via a direct connection.

In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 1840 eine oder mehrere MMU(s) 1820A-1820B, Caches 1825A-1825B und Schaltungsverbindungen 1830A-1830B des Grafikprozessors 1810 von 18A. In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 1840 einen oder mehrere Shader-Kerne 1855A-1855N (z.B. 1855A, 1855B, 1855C, 1855D, 1855E, 1855F bis 1855N-1 und 1855N), die eine einheitliche Shader-Kern-Architektur bereitstellen, in der ein einziger Kern oder Art oder Kern alle Arten von programmierbarem Shader-Code ausführen kann, einschließlich Shader-Programmcode zur Implementierung von Vertex-Shadern, Fragment-Shadern und/oder Rechen-Shadern. In mindestens einer Ausführungsform kann eine Anzahl von Shader-Kernen variieren. In mindestens einer Ausführungsform enthält der Grafikprozessor 1840 einen Zwischenkern-Aufgabenverwalter bzw. Intercore-Taskmanager 1845, der als ein Thread-Dispatcher bzw. -Versender fungiert, um Ausführungs-Threads an einen oder mehrere Shader-Kerne 1855A-1855N zu verteilen, und eine Kacheleinheit 1858, um Kacheloperationen für kachelbasiertes Rendering zu beschleunigen, bei denen Renderingoperationen für eine Szene in den Bildraum unterteilt werden, um beispielsweise lokale räumliche Kohärenz innerhalb einer Szene auszunutzen oder die Verwendung interner Caches zu optimieren.In at least one embodiment, graphics processor 1840 includes one or more MMUs 1820A-1820B, caches 1825A-1825B, and circuit interconnects 1830A-1830B of graphics processor 1810 18A . In at least one embodiment, graphics processor 1840 includes one or more shader cores 1855A-1855N (e.g., 1855A, 1855B, 1855C, 1855D, 1855E, 1855F through 1855N-1, and 1855N) that provide a unified shader core architecture in which a single core or type or core can execute all types of programmable shader code, including shader program code implementing vertex shaders, fragment shaders and/or compute shaders. In at least one embodiment, a number of shader cores may vary. In at least one embodiment The graphics processor 1840 includes an intercore task manager 1845, which acts as a thread dispatcher to distribute execution threads to one or more shader cores 1855A-1855N, and a tiling unit 1858 Accelerate tiling operations for tile-based rendering, where rendering operations for a scene are partitioned into image space, for example to exploit local spatial coherence within a scene or to optimize the use of internal caches.

In mindestens einer Ausführungsform werden ein oder mehrere in 18A-18B dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 18A-18B dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 18A-18B dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 18A-18B dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 18A-18B illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 18A-18B illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 18A-18B systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 18A-18B systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

19A veranschaulicht einen Grafikkern 1900, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform kann der Grafikkern 1900 in dem Grafikprozessor 1310 von 13 enthalten sein. In mindestens einer Ausführungsform kann der Grafikkern 1900 ein einheitlicher Shader-Kern 1855A-1855N wie in 18B sein. In mindestens einer Ausführungsform beinhaltet der Grafikkern 1900 einen gemeinsam genutzten Befehlscache 1902, eine Textureinheit 1932 und einen Cache/gemeinsamen Speicher 1920, die den Ausführungsressourcen innerhalb des Grafikkerns 1900 gemeinsam sind. In mindestens einer Ausführungsform kann der Grafikkern 1900 mehrere Slices 1901A-1901 N oder Partitionen für jeden Kern enthalten, und kann ein Grafikprozessor mehrere Instanzen des Grafikkerns 1900 enthalten. Die Slices 1901A-1901 N können eine Unterstützungslogik enthalten, die einen lokalen Befehlscache 1904A-1904N, einen Thread-Planer bzw. Thread-Scheduler 1906A-1906N, einen Thread-Versender bzw. Thread-Dispatcher 1908A-1908N und einen Satz von Registern 1910A-1910N beinhaltet. In mindestens einer Ausführungsform können die Slices 1901A-1901 N einen Satz zusätzlicher Funktionseinheiten („AFUs“) 1912A-1912N, Gleitkommaeinheiten („FPUs“) 1914A-1914N, ganzzahlige arithmetische Logikeinheiten („ALUs“) 1916-1916N, Adressberechnungseinheiten („ACUs“) 1913A-1913N, doppeltpräzise Gleitkommaeinheiten („DPFPUs“) 1915A-1915N und Matrixverarbeitungseinheiten („MPUs“) 1917A-1917N beinhalten. 19A illustrates a graphics core 1900, in accordance with at least one embodiment. In at least one embodiment, the graphics core 1900 in the graphics processor 1310 may 13 be included. In at least one embodiment, the graphics core 1900 may be a unified shader core 1855A-1855N as in 18B be. In at least one embodiment, the graphics core 1900 includes a shared instruction cache 1902, a texture unit 1932, and a cache/shared memory 1920 that are common to the execution resources within the graphics core 1900. In at least one embodiment, the graphics core 1900 may include multiple slices 1901A-1901N or partitions for each core, and a graphics processor may include multiple instances of the graphics core 1900. The slices 1901A-1901N may include support logic including a local instruction cache 1904A-1904N, a thread scheduler 1906A-1906N, a thread dispatcher 1908A-1908N, and a set of registers 1910A -1910N included. In at least one embodiment, the slices 1901A-1901N may include a set of additional functional units ("AFUs") 1912A-1912N, floating point units ("FPUs") 1914A-1914N, integer arithmetic logic units ("ALUs") 1916-1916N, address calculation units ("ACUs") ") 1913A-1913N, double-precision floating point units ("DPFPUs") 1915A-1915N and matrix processing units ("MPUs") 1917A-1917N.

In mindestens einer Ausführungsform können die FPUs 1914A-1914N Gleitkommaoperationen mit einfacher Genauigkeit (32 Bit) und halber Genauigkeit (16 Bit) durchführen, während die DPFPUs 1915A-1915N Gleitkommaoperationen mit doppelter Genauigkeit (64 Bit) durchführen. In mindestens einer Ausführungsform können die ALUs 1916A-1916N Ganzzahloperationen mit variabler Präzision bei 8-Bit-, 16-Bit- und 32-Bit-Präzision ausführen und für Operationen mit gemischter Präzision konfiguriert sein. In mindestens einer Ausführungsform können die MPUs 1917A-1917N auch für Matrixoperationen mit gemischter Genauigkeit konfiguriert sein, einschließlich Gleitkomma- und 8-Bit-Ganzzahloperationen mit halber Genauigkeit. In mindestens einer Ausführungsform können die MPUs 1917-1917N eine Vielzahl von Matrixoperationen durchführen, um CUDA-Programme zu beschleunigen, einschließlich der Unterstützung für eine beschleunigte allgemeine Matrix-zu-Matrix-Multiplikation („GEMM“). In mindestens einer Ausführungsform können die AFUs 1912A-1912N zusätzliche logische Operationen durchführen, die nicht von Gleitkomma- oder Ganzzahleinheiten unterstützt werden, einschließlich trigonometrischer Operationen (z.B. Sinus, Cosinus usw.).In at least one embodiment, the FPUs 1914A-1914N may perform single-precision (32-bit) and half-precision (16-bit) floating-point operations, while the DPFPUs 1915A-1915N may perform double-precision (64-bit) floating-point operations. In at least one embodiment, the ALUs 1916A-1916N may perform variable-precision integer operations at 8-bit, 16-bit, and 32-bit precision and may be configured for mixed-precision operations. In at least one embodiment, MPUs 1917A-1917N may also be configured for mixed-precision matrix operations, including half-precision floating-point and 8-bit integer operations. In at least one embodiment, MPUs 1917-1917N may perform a variety of matrix operations to accelerate CUDA programs, including support for accelerated general matrix-to-matrix multiplication (“GEMM”). In at least one embodiment, AFUs 1912A-1912N may perform additional logical operations not supported by floating point or integer units, including trigonometric operations (e.g., sine, cosine, etc.).

19B veranschaulicht eine Universal-Grafikverarbeitungseinheit („GPGPU“) 1930, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist die GPGPU 1930 hochparallel und für den Einsatz auf einem Multi-Chip-Modul geeignet. In mindestens einer Ausführungsform kann die GPGPU 1930 so konfiguriert sein, dass hochparallele Rechenoperationen von einem Array von GPUs durchgeführt werden können. In mindestens einer Ausführungsform kann die GPGPU 1930 direkt mit anderen Instanzen der GPGPU 1930 verbunden sein, um einen Multi-GPU-Cluster zu erstellen, um die Ausführungszeit für CUDA-Programme zu verbessern. In mindestens einer Ausführungsform enthält die GPGPU 1930 eine Host-Schnittstelle 1932, um eine Verbindung mit einem Hostprozessor zu ermöglichen. In mindestens einer Ausführungsform ist die Host-Schnittstelle 1932 eine PCIe-Schnittstelle. In mindestens einer Ausführungsform kann die Host-Schnittstelle 1932 eine herstellerspezifische Kommunikationsschnittstelle oder ein Kommunikations-Fabric sein. In mindestens einer Ausführungsform empfängt die GPGPU 1930 Befehle von einem Hostprozessor und verwendet einen globalen Planer bzw. Scheduler 1934, um Ausführungs-Threads, die mit diesen Befehlen verbunden sind, an einen Satz von Rechenclustern 1936A-1936H zu verteilen. In mindestens einer Ausführungsform teilen sich die Rechencluster 1936A-1936H einen Cachespeicher 1938. In mindestens einer Ausführungsform kann der Cachespeicher 1938 als ein übergeordneter Cache für Cachespeicher innerhalb von Rechenclustern 1936A-1936H dienen. 19B illustrates a general purpose graphics processing unit (“GPGPU”) 1930, in accordance with at least one embodiment. In at least one embodiment, the GPGPU 1930 is highly parallel and suitable for use on a multi-chip module. In at least one embodiment, the GPGPU 1930 may be configured to allow highly parallel computing operations to be performed by an array of GPUs. In at least one embodiment, the GPGPU 1930 may be directly connected to other instances of the GPGPU 1930 to create a multi-GPU cluster to improve execution time for CUDA programs. In at least one embodiment, the GPGPU 1930 includes a host interface 1932 to enable connection to a host processor. At least In one embodiment, host interface 1932 is a PCIe interface. In at least one embodiment, the host interface 1932 may be a vendor-specific communications interface or communications fabric. In at least one embodiment, the GPGPU 1930 receives commands from a host processor and uses a global scheduler 1934 to distribute threads of execution associated with those commands to a set of computing clusters 1936A-1936H. In at least one embodiment, compute clusters 1936A-1936H share a cache 1938. In at least one embodiment, cache 1938 may serve as a parent cache for caches within compute clusters 1936A-1936H.

In mindestens einer Ausführungsform umfasst die GPGPU 1930 einen Speicher 1944A-1944B, der über eine Reihe von Speichercontrollern 1942A-1942B mit den Rechenclustern 1936A-1936H verbunden ist. In mindestens einer Ausführungsform kann der Speicher 1944A-1944B verschiedene Arten von Speichervorrichtungen umfassen, darunter DRAM oder Grafik-Direktzugriffsspeicher, wie synchroner Grafik-Direktzugriffsspeicher („SGRAM“), einschließlich Grafik-Doppeldatenraten-Speicher („GDDR“).In at least one embodiment, the GPGPU 1930 includes a memory 1944A-1944B that is connected to the computing clusters 1936A-1936H via a series of memory controllers 1942A-1942B. In at least one embodiment, memory 1944A-1944B may include various types of memory devices, including DRAM or graphics random access memory, such as synchronous graphics random access memory ("SGRAM"), including graphics dual data rate memory ("GDDR").

In mindestens einer Ausführungsform enthalten die Rechencluster 1936A-1936H jeweils einen Satz von Grafikkernen, wie z.B. den Grafikkern 1900 von 19A, der mehrere Arten von Ganzzahl- und Gleitkomma-Logikeinheiten enthalten kann, die Rechenoperationen mit einer Reihe von Genauigkeiten durchführen können, die auch für Berechnungen im Zusammenhang mit CUDA-Programmen geeignet sind. Zum Beispiel kann in mindestens einer Ausführungsform mindestens eine Teilmenge der Gleitkommaeinheiten in jedem der Rechencluster 1936A-1936H so konfiguriert sein, dass sie 16-Bit- oder 32-Bit-Gleitkommaoperationen durchführen, während eine andere Teilmenge der Gleitkommaeinheiten so konfiguriert sein kann, dass sie 64-Bit-Gleitkommaoperationen durchführen.In at least one embodiment, computing clusters 1936A-1936H each include a set of graphics cores, such as graphics core 1900 of 19A , which can contain several types of integer and floating point logic units that can perform arithmetic operations with a range of precisions, also suitable for calculations related to CUDA programs. For example, in at least one embodiment, at least a subset of the floating point units in each of the computing clusters 1936A-1936H may be configured to perform 16-bit or 32-bit floating point operations, while another subset of the floating point units may be configured to Perform 64-bit floating point operations.

In mindestens einer Ausführungsform können mehrere Instanzen der GPGPU 1930 so konfiguriert sein, dass sie als Rechencluster arbeiten. Die Rechencluster 1936A-1936H können beliebige technisch machbare Kommunikationstechniken zur Synchronisation und zum Datenaustausch implementieren. In mindestens einer Ausführungsform kommunizieren mehrere Instanzen der GPGPU 1930 über die Host-Schnittstelle 1932. In mindestens einer Ausführungsform enthält die GPGPU 1930 einen E/A-Hub 1939, der die GPGPU 1930 mit einer GPU-Verbindung 1940 koppelt, die eine direkte Verbindung zu anderen Instanzen der GPGPU 1930 ermöglicht. In mindestens einer Ausführungsform ist die GPU-Verbindung 1940 mit einer dedizierten GPU-zu-GPU-Brücke gekoppelt, die die Kommunikation und Synchronisation die zwischen mehreren Instanzen der GPGPU 1930 ermöglicht. In mindestens einer Ausführungsform koppelt die GPU-Verbindung 1940 mit einem Hochgeschwindigkeits-Interconnect, um Daten an andere GPGPUs 1930 oder Parallelprozessoren zu senden und von diesen zu empfangen. In mindestens einer Ausführungsform befinden sich mehrere Instanzen der GPGPU 1930 in separaten Datenverarbeitungssystemen und kommunizieren über eine Netzwerkvorrichtung, die über die Host-Schnittstelle 1932 zugänglich ist. In mindestens einer Ausführungsform kann die GPU-Verbindung 1940 so konfiguriert sein, dass sie zusätzlich oder alternativ zu der Host-Schnittstelle 1932 eine Verbindung zu einem Hostprozessor ermöglicht. In mindestens einer Ausführungsform kann die GPGPU 1930 so konfiguriert sein, dass sie ein CUDA-Programm ausführt.In at least one embodiment, multiple instances of the GPGPU 1930 may be configured to operate as a computing cluster. The 1936A-1936H computing clusters can implement any technically feasible communication techniques for synchronization and data exchange. In at least one embodiment, multiple instances of the GPGPU 1930 communicate over the host interface 1932. In at least one embodiment, the GPGPU 1930 includes an I/O hub 1939 that couples the GPGPU 1930 to a GPU connection 1940 that connects directly to other instances of the GPGPU 1930. In at least one embodiment, the GPU connection 1940 is coupled to a dedicated GPU-to-GPU bridge that enables communication and synchronization between multiple instances of the GPGPU 1930. In at least one embodiment, the GPU connection 1940 couples to a high-speed interconnect to send and receive data to and from other GPGPUs 1930 or parallel processors. In at least one embodiment, multiple instances of the GPGPU 1930 reside in separate computing systems and communicate via a network device accessible via the host interface 1932. In at least one embodiment, the GPU connection 1940 may be configured to enable connection to a host processor in addition to or alternatively to the host interface 1932. In at least one embodiment, the GPGPU 1930 may be configured to execute a CUDA program.

In mindestens einer Ausführungsform werden ein oder mehrere in 19A-19B dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 19A-19B dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 19A-19B dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 19A-19B dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 19A-19B illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 19A-19B illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 19A-19B systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 19A-19B systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

20A veranschaulicht einen Parallelprozessor 2000, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform können verschiedene Komponenten des Parallelprozessors 2000 mit einem oder mehreren integrierten Schaltkreisen, wie z.B. programmierbaren Prozessoren, anwendungsspezifischen integrierten Schaltkreisen („ASICs“) oder FPGAs, implementiert sein. 20A illustrates a parallel processor 2000, in accordance with at least one embodiment. In at least one embodiment, various components of the parallel processor 2000 may be implemented with one or more integrated circuits, such as programmable processors, application specific integrated circuits (“ASICs”), or FPGAs.

In mindestens einer Ausführungsform enthält der Parallelprozessor 2000 eine Parallelverarbeitungseinheit 2002. In mindestens einer Ausführungsform enthält die Parallelverarbeitungseinheit 2002 eine E/A-Einheit 2004, die die Kommunikation mit anderen Vorrichtungen ermöglicht, einschließlich anderer Instanzen der Parallelverarbeitungseinheit 2002. In mindestens einer Ausführungsform kann die E/A-Einheit 2004 direkt mit anderen Vorrichtungen verbunden sein. In mindestens einer Ausführungsform ist die E/A-Einheit 2004 über eine Hub- oder Switch-Schnittstelle, wie z.B. den Speicher-Hub 1405, mit anderen Vorrichtungen verbunden. In mindestens einer Ausführungsform bilden die Verbindungen zwischen dem Speicher-Hub 1405 und der E/A-Einheit 2004 eine Kommunikationsverbindung. In mindestens einer Ausführungsform ist die E/A-Einheit 2004 mit einer Host-Schnittstelle 2006 und einer Speicherkreuzschiene 2016 verbunden, wobei die Host-Schnittstelle 2006 Befehle zur Durchführung von Verarbeitungsvorgängen und die Speicherkreuzschiene 2016 Befehle zur Durchführung von Speicheroperationen empfängt.In at least one embodiment, the parallel processor 2000 includes a parallel processing unit 2002. In at least one embodiment, the parallel processing unit 2002 includes an I/O unit 2004 that enables communication with other devices, including other instances of the parallel processing unit 2002. In at least one embodiment, the E /A unit 2004 can be directly connected to other devices. In at least one embodiment, I/O device 2004 is connected to other devices via a hub or switch interface, such as storage hub 1405. In at least one embodiment, the connections between the storage hub 1405 and the I/O device 2004 form a communication link. In at least one embodiment, the I/O device 2004 is connected to a host interface 2006 and a storage crossbar 2016, where the host interface 2006 receives instructions to perform processing operations and the storage crossbar 2016 receives instructions to perform storage operations.

In mindestens einer Ausführungsform kann die Host-Schnittstelle 2006 dann, wenn die Host-Schnittstelle einen Befehlspuffer über die E/A-Einheit 2004 empfängt, Arbeitsoperationen zur Ausführung dieser Befehle an ein Frontend 2008 leiten. In mindestens einer Ausführungsform ist das Frontend 2008 mit einem Planer bzw. Scheduler 2010 gekoppelt, der so konfiguriert ist, dass er Befehle oder andere Arbeitselemente an ein Verarbeitungsfeld bzw. Verarbeitungs-Array 2012 verteilt. In mindestens einer Ausführungsform stellt der Scheduler 2010 sicher, dass das Verarbeitungs-Array 2012 richtig konfiguriert ist und sich in einem gültigen Zustand befindet, bevor Aufgaben an das Verarbeitungs-Array 2012 verteilt werden. In mindestens einer Ausführungsform ist der Scheduler 2010 über Firmware-Logik implementiert, die auf einem Mikrocontroller ausgeführt wird. In mindestens einer Ausführungsform ist der in einem Mikrocontroller implementierte Scheduler 2010 so konfigurierbar, dass er komplexe Planungs- und Arbeitsverteilungsoperationen mit grober und feiner Granularität durchführen kann, was eine schnelle Bevorrechtigung und Kontextumschaltung von Threads ermöglicht, die auf dem Verarbeitungs-Array 2012 ausgeführt werden. In mindestens einer Ausführungsform kann die Hostsoftware Arbeitslasten für die Planung auf dem Verarbeitungs-Array 2012 über eine von mehreren Grafikverarbeitungs-Doorbells nachweisen. In mindestens einer Ausführungsform können die Arbeitslasten dann automatisch über das Verarbeitungs-Array 2012 durch die Logik des Schedulers 2010 in einem Mikrocontroller mit Scheduler 2010 verteilt werden.In at least one embodiment, when the host interface receives a command buffer via the I/O device 2004, the host interface 2006 may direct work operations to a front end 2008 to execute those commands. In at least one embodiment, the front end 2008 is coupled to a scheduler 2010 that is configured to distribute commands or other work items to a processing array 2012. In at least one embodiment, scheduler 2010 ensures that processing array 2012 is properly configured and in a valid state before dispatching tasks to processing array 2012. In at least one embodiment, scheduler 2010 is implemented via firmware logic running on a microcontroller. In at least one embodiment, the scheduler 2010 implemented in a microcontroller is configurable to perform complex scheduling and work distribution operations at coarse and fine granularity, enabling rapid preemption and context switching of threads executing on the processing array 2012. In at least one embodiment, the host software may detect workloads for scheduling on the processing array 2012 via one of a plurality of graphics processing doorbells. In at least one embodiment, the workloads may then be automatically distributed across the processing array 2012 by Scheduler 2010 logic in a Scheduler 2010 microcontroller.

In mindestens einer Ausführungsform kann das Verarbeitungs-Array 2012 bis zu „N“ Cluster umfassen (z.B. Cluster 2014A, Cluster 2014B bis Cluster 2014N). In mindestens einer Ausführungsform kann jeder Cluster 2014A-2014N des Verarbeitungs-Arrays 2012 eine große Anzahl gleichzeitiger Threads ausführen. In mindestens einer Ausführungsform kann der Scheduler 2010 den Clustern 2014A-2014N des Verarbeitungs-Arrays 2012 durch Verwenden verschiedener Planungs- und/oder Arbeitsverteilungsalgorithmen, die in Abhängigkeit von der Arbeitslast variieren können, die für jede Art von Programm oder Berechnung entsteht, Arbeit zuweisen. In mindestens einer Ausführungsform kann die Planung dynamisch durch den Scheduler 2010 gehandhabt werden, oder kann teilweise durch die Compilerlogik während der Kompilierung der Programmlogik, die für die Ausführung durch das Verarbeitungs-Array 2012 konfiguriert ist, unterstützt werden. In mindestens einer Ausführungsform können verschiedene Cluster 2014A-2014N des Verarbeitungs-Arrays 2012 für die Verarbeitung verschiedener Arten von Programmen oder für die Durchführung verschiedener Arten von Berechnungen zugewiesen werden.In at least one embodiment, processing array 2012 may include up to “N” clusters (e.g., cluster 2014A, cluster 2014B through cluster 2014N). In at least one embodiment, each cluster 2014A-2014N of processing array 2012 may execute a large number of concurrent threads. In at least one embodiment, the scheduler 2010 may allocate work to the clusters 2014A-2014N of the processing array 2012 by using various scheduling and/or work distribution algorithms, which may vary depending on the workload incurred for each type of program or computation. In at least one embodiment, scheduling may be handled dynamically by scheduler 2010, or may be partially assisted by compiler logic during compilation of program logic configured for execution by processing array 2012. In at least one embodiment, different clusters 2014A-2014N of the processing array 2012 may be assigned to process different types of programs or to perform different types of calculations.

In mindestens einer Ausführungsform kann das Verarbeitungs-Array 2012 so konfiguriert sein, dass es verschiedene Arten von parallelen Verarbeitungsoperationen durchführt. In mindestens einer Ausführungsform ist das Verarbeitungs-Array 2012 so konfiguriert, dass es parallele Universalrechenoperationen durchführt. Zum Beispiel kann in mindestens einer Ausführungsform das Verarbeitungs-Array 2012 Logik zur Ausführung von Verarbeitungsaufgaben enthalten, einschließlich der Filterung von Video- und/oder Audiodaten, der Durchführung von Modellierungsoperationen, einschließlich physikalischer Operationen, und der Durchführung von Datentransformationen.In at least one embodiment, processing array 2012 may be configured to perform various types of parallel processing operations. In at least one embodiment, processing array 2012 is configured to perform general purpose parallel computing operations. For example, in at least one embodiment, processing array 2012 may include logic for performing processing tasks, including filtering video and/or audio data, performing modeling operations, including physical operations, and performing data transformations.

In mindestens einer Ausführungsform ist das Verarbeitungs-Array 2012 so konfiguriert, dass es parallele Grafikverarbeitungsoperationen durchführt. In mindestens einer Ausführungsform kann das Verarbeitungsarray 2012 zusätzliche Logik enthalten, um die Ausführung solcher Grafikverarbeitungsoperationen zu unterstützen, einschließlich, aber nicht beschränkt auf, Texturabtastlogik, um Texturoperationen durchzuführen, sowie Tesselationslogik und anderer Vertexverarbeitungslogik. In mindestens einer Ausführungsform kann das Verarbeitungs-Array 2012 so konfiguriert sein, dass es auf die Grafikverarbeitung bezogene Shader-Programme ausführt, wie z.B. Vertex-Shader, Tesselations-Shader, Geometrie-Shader und Pixel-Shader, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform kann die Parallelverarbeitungseinheit 2002 Daten aus dem Systemspeicher über die E/A-Einheit 2004 zur Verarbeitung übertragen. In mindestens einer Ausführungsform können die übertragenen Daten während der Verarbeitung in dem On-Chip-Speicher (z.B. einem Parallelprozessorspeicher 2022) gespeichert und dann in den Systemspeicher zurückgeschrieben werden.In at least one embodiment, processing array 2012 is configured to perform parallel graphics processing operations. In at least one embodiment, the processing array 2012 may include additional logic to support the execution of such graphics processing operations, including, but not limited to, texture sampling logic to perform texture operations, as well as tessellation logic and other vertex processing logic. In at least one embodiment, the processing array 2012 may be configured to execute graphics processing-related shader programs such as, but not limited to, vertex shaders, tessellation shaders, geometry shaders, and pixel shaders. In at least one embodiment, parallel processing unit 2002 may transfer data from system memory via I/O unit 2004 for processing. In at least one embodiment, the transferred data may be stored in the on-chip memory during processing (e.g. a parallel processor memory 2022) and then written back to the system memory.

In mindestens einer Ausführungsform kann dann, wenn die Parallelverarbeitungseinheit 2002 zur Durchführung der Grafikverarbeitung verwendet wird, der Scheduler 2010 so konfiguriert sein, dass er eine Verarbeitungslast in ungefähr gleich große Aufgaben aufteilt, um eine bessere Verteilung der Grafikverarbeitungsoperationen auf mehrere Cluster 2014A-2014N des Verarbeitungsarrays 2012 zu ermöglichen. In mindestens einer Ausführungsform können Teile des Verarbeitungs-Arrays 2012 so konfiguriert sein, dass sie verschiedene Arten der Verarbeitung durchführen. Zum Beispiel kann in mindestens einer Ausführungsform ein erster Teil so konfiguriert sein, dass er ein Vertexshading und eine Topologieerzeugung durchführt, ein kann zweiter Teil so konfiguriert sein, dass er Tesselation und Geometrieshading durchführt, und kann ein dritter Teil so konfiguriert sein, dass er Pixelshading oder andere Bildschirmraumoperationen durchführt, um ein gerendertes Bild für die Anzeige zu erzeugen. In mindestens einer Ausführungsform können Zwischendaten, die von einem oder mehreren der Cluster 2014A-2014N erzeugt werden, in Puffern gespeichert werden, damit Zwischendaten zur weiteren Verarbeitung zwischen den Clustern 2014A-2014N übertragen werden können.In at least one embodiment, when parallel processing unit 2002 is used to perform graphics processing, scheduler 2010 may be configured to divide a processing load into approximately equal tasks to better distribute graphics processing operations across multiple clusters 2014A-2014N of the processing array 2012 to make possible. In at least one embodiment, portions of the processing array 2012 may be configured to perform various types of processing. For example, in at least one embodiment, a first part may be configured to perform vertex shading and topology generation, a second part may be configured to perform tessellation and geometry shading, and a third part may be configured to perform pixel shading or performs other screen space operations to produce a rendered image for display. In at least one embodiment, intermediate data generated by one or more of the clusters 2014A-2014N may be stored in buffers to allow intermediate data to be transferred between the clusters 2014A-2014N for further processing.

In mindestens einer Ausführungsform kann das Verarbeitungs-Array 2012 Verarbeitungsaufgaben empfangen, die über den Scheduler 2010 auszuführen sind, der Befehle zur Definition von Verarbeitungsaufgaben von dem Frontend 2008 empfängt. In mindestens einer Ausführungsform können die Verarbeitungsaufgaben Indizes der zu verarbeitenden Daten enthalten, z.B. Oberflächen-(Patch-)Daten, Primitivdaten, Vertexdaten und/oder Pixeldaten, sowie Zustandsparameter und Befehle, die definieren, wie die Daten zu verarbeiten sind (z.B. welches Programm auszuführen ist). In mindestens einer Ausführungsform kann der Scheduler 2010 so konfiguriert sein, dass er den Aufgaben entsprechende Indizes abruft oder Indizes von dem Frontend 2008 empfängt. In mindestens einer Ausführungsform kann das Frontend 2008 so konfiguriert sein, dass es sicherstellt, dass das Verarbeitungs-Array 2012 in einen gültigen Zustand versetzt wird, bevor eine durch eingehende Befehlspuffer (z.B. Batch-Puffer, Push-Puffer usw.) spezifizierte Arbeitslast initiiert wird.In at least one embodiment, the processing array 2012 may receive processing tasks to be executed via the scheduler 2010, which receives commands defining processing tasks from the front end 2008. In at least one embodiment, the processing tasks may include indices of the data to be processed, e.g. surface (patch) data, primitive data, vertex data and/or pixel data, as well as state parameters and instructions that define how the data is to be processed (e.g. which program to execute is). In at least one embodiment, the scheduler 2010 may be configured to retrieve indexes corresponding to the tasks or to receive indexes from the front end 2008. In at least one embodiment, the front end 2008 may be configured to ensure that the processing array 2012 is brought into a valid state before initiating a workload specified by incoming command buffers (e.g., batch buffers, push buffers, etc.). .

In mindestens einer Ausführungsform kann jede von einer oder mehreren Instanzen der Parallelverarbeitungseinheit 2002 mit dem Parallelprozessorspeicher 2022 gekoppelt sein. In mindestens einer Ausführungsform kann auf den Parallelprozessorspeicher 2022 über eine Speicherkreuzschiene 2016 zugegriffen werden, die Speicheranforderungen von dem Verarbeitungs-Array 2012 sowie von der E/A-Einheit 2004 empfangen kann. In mindestens einer Ausführungsform kann die Speicherkreuzschiene 2016 über eine Speicherschnittstelle 2018 auf den Parallelprozessorspeicher 2022 zugreifen. In mindestens einer Ausführungsform kann die Speicherschnittstelle 2018 mehrere Partitionseinheiten (z.B. eine Partitionseinheit 2020A, eine Partitionseinheit 2020B bis eine Partitionseinheit 2020N) beinhalten, die jeweils mit einem Teil (z.B. einer Speichereinheit) des Parallelprozessorspeichers 2022 gekoppelt sein können. In mindestens einer Ausführungsform ist eine Anzahl von Partitionseinheiten 2020A-2020N so konfiguriert, dass sie gleich einer Anzahl von Speichereinheiten ist, so dass eine erste Partitionseinheit 2020A eine entsprechende erste Speichereinheit 2024A hat, eine zweite Partitionseinheit 2020B eine entsprechende Speichereinheit 2024B hat und eine N-te Partitionseinheit 2020N eine entsprechende N-te Speichereinheit 2024N hat. In mindestens einer Ausführungsform kann die Anzahl der Partitionseinheiten 2020A-2020N nicht gleich der Anzahl der Speichereinheiten sein.In at least one embodiment, each of one or more instances of parallel processing unit 2002 may be coupled to parallel processor memory 2022. In at least one embodiment, parallel processor memory 2022 may be accessed via a memory crossbar 2016, which may receive memory requests from processing array 2012 as well as from I/O device 2004. In at least one embodiment, the memory crossbar 2016 may access the parallel processor memory 2022 via a memory interface 2018. In at least one embodiment, the memory interface 2018 may include multiple partition units (e.g., a partition unit 2020A, a partition unit 2020B through a partition unit 2020N), each of which may be coupled to a portion (e.g., a memory unit) of the parallel processor memory 2022. In at least one embodiment, a number of partition units 2020A-2020N is configured to be equal to a number of storage units, such that a first partition unit 2020A has a corresponding first storage unit 2024A, a second partition unit 2020B has a corresponding storage unit 2024B, and an N- th partition unit 2020N has a corresponding Nth storage unit 2024N. In at least one embodiment, the number of partition units 2020A-2020N may not be equal to the number of storage units.

In mindestens einer Ausführungsform können die Speichereinheiten 2024A-2024N verschiedene Arten von Speichervorrichtungen enthalten, einschließlich DRAM oder Grafik-Direktzugriffsspeicher, wie SGRAM, einschließlich GDDR-Speicher. In mindestens einer Ausführungsform können die Speichereinheiten 2024A-2024N auch 3D-Stapelspeicher enthalten, einschließlich, aber nicht beschränkt auf, Speicher mit hoher Bandbreite („HBM“). In mindestens einer Ausführungsform können Renderingziele, wie z.B. Frame-Puffer oder Textur-Maps, über die Speichereinheiten 2024A-2024N hinweg gespeichert werden, so dass die Partitionseinheiten 2020A-2020N Teile jedes Renderingziels parallel schreiben können, um die verfügbare Bandbreite des Parallelprozessorspeichers 2022 effizient zu nutzen. In mindestens einer Ausführungsform kann eine lokale Instanz des Parallelprozessorspeichers 2022 zugunsten eines einheitlichen Speicherdesigns, das den Systemspeicher in Verbindung mit dem lokalen Cachespeicher nutzt, ausgeschlossen sein.In at least one embodiment, memory devices 2024A-2024N may include various types of memory devices, including DRAM or graphics random access memory, such as SGRAM, including GDDR memory. In at least one embodiment, memory devices 2024A-2024N may also include 3D stacked memory, including, but not limited to, high bandwidth memory (“HBM”). In at least one embodiment, rendering targets, such as frame buffers or texture maps, may be stored across storage units 2024A-2024N so that partition units 2020A-2020N can write portions of each rendering target in parallel to efficiently allocate the available bandwidth of parallel processor memory 2022 to use. In at least one embodiment, a local instance of parallel processor memory 2022 may be excluded in favor of a unified memory design that utilizes system memory in conjunction with local cache memory.

In mindestens einer Ausführungsform kann jeder der Cluster 2014A-2014N des Verarbeitungs-Arrays 2012 Daten verarbeiten, die in jede der Speichereinheiten 2024A-2024N in dem Parallelprozessorspeicher 2022 geschrieben werden. In mindestens einer Ausführungsform kann die Speicherkreuzschiene 2016 so konfiguriert sein, dass sie eine Ausgabe jedes Clusters 2014A-2014N an eine beliebige Partitionseinheit 2020A-2020N oder an einen anderen Cluster 2014A-2014N überträgt, der zusätzliche Verarbeitungsoperationen an einer Ausgabe durchführen kann. In mindestens einer Ausführungsform kann jeder Cluster 2014A-2014N mit der Speicherschnittstelle 2018 über die Speicherkreuzschiene 2016 kommunizieren, um von verschiedenen externen Speichervorrichtungen zu lesen oder in diese zu schreiben. In at least one embodiment, each of the clusters 2014A-2014N of the processing array 2012 may process data written to each of the storage units 2024A-2024N in the parallel processor memory 2022. In at least one embodiment, storage crossbar 2016 may be configured to output each cluster 2014A-2014N to any partition device 2020A-2020N or to another 2014A-2014N cluster that can perform additional processing operations on an output. In at least one embodiment, each cluster 2014A-2014N may communicate with the storage interface 2018 via the storage crossbar 2016 to read from or write to various external storage devices.

In mindestens einer Ausführungsform hat die Speicherkreuzschiene 2016 eine Verbindung zu der Speicherschnittstelle 2018, um mit der E/A-Einheit 2004 zu kommunizieren, sowie eine Verbindung zu einer lokalen Instanz des Parallelprozessorspeichers 2022, so dass die Verarbeitungseinheiten in den verschiedenen Clustern 2014A-2014N mit dem Systemspeicher oder einem anderen Speicher kommunizieren können, der nicht lokal zur Parallelverarbeitungseinheit 2002 ist. In mindestens einer Ausführungsform kann die Speicherkreuzschiene 2016 virtuelle Kanäle verwenden, um Verkehrsstreams zwischen Clustern 2014A-2014N und Partitionseinheiten 2020A-2020N zu trennen.In at least one embodiment, the memory crossbar 2016 has a connection to the memory interface 2018 to communicate with the I/O device 2004, as well as a connection to a local instance of the parallel processor memory 2022 so that the processing units in the various clusters 2014A-2014N the system memory or another memory that is not local to the parallel processing unit 2002. In at least one embodiment, storage crossbar 2016 may use virtual channels to separate traffic streams between clusters 2014A-2014N and partition units 2020A-2020N.

In mindestens einer Ausführungsform können mehrere Instanzen der Parallelverarbeitungseinheit 2002 auf einer einzigen Steckkarte bzw. Add-in-Karte bereitgestellt sein, oder es können mehrere Add-in-Karten miteinander verbunden sein. In mindestens einer Ausführungsform können verschiedene Instanzen der Parallelverarbeitungseinheit 2002 so konfiguriert sein, dass sie auch dann zusammenarbeiten, wenn die verschiedenen Instanzen eine unterschiedliche Anzahl von Prozessorkernen, unterschiedliche Mengen an lokalem Parallelprozessorspeicher und/oder andere Konfigurationsunterschiede aufweisen. Zum Beispiel können in mindestens einer Ausführungsform einige Instanzen der Parallelverarbeitungseinheit 2002 im Vergleich zu anderen Instanzen Gleitkommaeinheiten mit höherer Präzision enthalten. In mindestens einer Ausführungsform können Systeme, die eine oder mehrere Instanzen der Parallelverarbeitungseinheit 2002 oder des Parallelprozessors 2000 enthalten, in einer Vielzahl von Konfigurationen und Formfaktoren implementiert sein, einschließlich, aber nicht beschränkt auf, Desktop-, Laptop- oder Handheld-Personal Computer, Server, Workstations, Spielkonsolen und/oder eingebettete Systeme.In at least one embodiment, multiple instances of the parallel processing unit 2002 may be provided on a single plug-in card or add-in card, or multiple add-in cards may be connected together. In at least one embodiment, different instances of the parallel processing unit 2002 may be configured to work together even if the different instances have different numbers of processor cores, different amounts of local parallel processor memory, and/or other configuration differences. For example, in at least one embodiment, some instances of the parallel processing unit 2002 may include higher precision floating point units compared to other instances. In at least one embodiment, systems including one or more instances of parallel processing unit 2002 or parallel processor 2000 may be implemented in a variety of configurations and form factors, including, but not limited to, desktop, laptop, or handheld personal computer servers , workstations, gaming consoles and/or embedded systems.

20B zeigt einen Verarbeitungscluster 2094, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist der Verarbeitungscluster 2094 in einer Parallelverarbeitungseinheit enthalten. In mindestens einer Ausführungsform ist der Verarbeitungscluster 2094 einer der Verarbeitungscluster 2014A-2014N von 20. In mindestens einer Ausführungsform kann der Verarbeitungscluster 2094 so konfiguriert sein, dass er viele Threads parallel ausführt, wobei sich der Begriff „Thread“ auf eine Instanz eines bestimmten Programms bezieht, das auf einem bestimmten Satz von Eingangsdaten ausgeführt wird. In mindestens einer Ausführungsform werden SIMD („Single Instruction, Multiple Data“)-Befehlsausgabetechniken verwendet, um die parallele Ausführung einer großen Anzahl von Threads zu unterstützen, ohne mehrere unabhängige Anweisungseinheiten bereitzustellen. In mindestens einer Ausführungsform werden SIMT („Single Instruction, Multiple Thread“)-Techniken verwendet, um die parallele Ausführung einer großen Anzahl von im Allgemeinen synchronisierten Threads zu unterstützen, wobei eine gemeinsame Anweisungseinheit verwendet wird, die so konfiguriert ist, dass sie Befehle an einen Satz von Verarbeitungsmaschinen innerhalb jedes Verarbeitungsclusters 2094 ausgibt. 20B shows a processing cluster 2094, in accordance with at least one embodiment. In at least one embodiment, processing cluster 2094 is included in a parallel processing unit. In at least one embodiment, processing cluster 2094 is one of processing clusters 2014A-2014N 20 . In at least one embodiment, processing cluster 2094 may be configured to execute many threads in parallel, where the term “thread” refers to an instance of a particular program executing on a particular set of input data. In at least one embodiment, Single Instruction, Multiple Data (SIMD) instruction issuing techniques are used to support parallel execution of large numbers of threads without providing multiple independent instruction units. In at least one embodiment, Single Instruction, Multiple Thread (SIMT) techniques are used to support parallel execution of a large number of generally synchronized threads using a common instruction unit configured to send instructions outputs a set of processing machines within each processing cluster 2094.

In mindestens einer Ausführungsform kann der Betrieb des Verarbeitungsclusters 2094 über einen Pipeline-Manager 2032 gesteuert werden, der Verarbeitungsaufgaben auf parallele SIMT-Prozessoren verteilt. In mindestens einer Ausführungsform empfängt der Pipeline-Manager 2032 Anweisungen von dem Scheduler 2010 von 20 und verwaltet die Ausführung dieser Anweisungen über einen Grafik-Multiprozessor 2034 und/oder eine Textureinheit 2036. In mindestens einer Ausführungsform ist der Grafik-Multiprozessor 2034 eine beispielhafte Instanz eines SIMT-Parallelprozessors. In mindestens einer Ausführungsform können jedoch verschiedene Typen von SIMT-Parallelprozessoren mit unterschiedlichen Architekturen in dem Verarbeitungscluster 2094 enthalten sein. In mindestens einer Ausführungsform können eine oder mehrere Instanzen des Grafik-Multiprozessors 2034 in dem Verarbeitungscluster 2094 enthalten sein. In mindestens einer Ausführungsform kann der Grafik-Multiprozessor 2034 Daten verarbeiten und kann eine Datenkreuzschiene 2040 verwendet werden, um verarbeitete Daten an eines von mehreren möglichen Zielen, einschließlich anderer Shader-Einheiten, zu verteilen. In mindestens einer Ausführungsform kann der Pipeline-Manager 2032 die Verteilung der verarbeiteten Daten erleichtern, indem er Ziele für die verarbeiteten Daten angibt, die über die Datenkreuzschiene 2040 zu verteilen sind.In at least one embodiment, the operation of the processing cluster 2094 may be controlled via a pipeline manager 2032 that distributes processing tasks among parallel SIMT processors. In at least one embodiment, pipeline manager 2032 receives instructions from scheduler 2010 20 and manages the execution of those instructions via a graphics multiprocessor 2034 and/or a texture unit 2036. In at least one embodiment, the graphics multiprocessor 2034 is an example instance of a SIMT parallel processor. However, in at least one embodiment, different types of SIMT parallel processors with different architectures may be included in the processing cluster 2094. In at least one embodiment, one or more instances of graphics multiprocessor 2034 may be included in processing cluster 2094. In at least one embodiment, the graphics multiprocessor 2034 may process data, and a data crossbar 2040 may be used to distribute processed data to one of several possible destinations, including other shader devices. In at least one embodiment, the pipeline manager 2032 may facilitate distribution of the processed data by specifying destinations for the processed data to be distributed via the data crossbar 2040.

In mindestens einer Ausführungsform kann jeder Grafik-Multiprozessor 2034 innerhalb des Verarbeitungsclusters 2094 einen identischen Satz an funktioneller Ausführungslogik (z.B. arithmetische Logikeinheiten, Lade-/Speichereinheiten („LSUs“) usw.) enthalten. In mindestens einer Ausführungsform kann die funktionelle Ausführungslogik in einer Pipeline konfiguriert sein, in der neue Anweisungen ausgegeben werden können, bevor vorherige Anweisungen abgeschlossen sind. In mindestens einer Ausführungsform unterstützt die funktionelle Ausführungslogik eine Vielzahl von Operationen, darunter Ganzzahl- und Gleitkommaarithmetik, Vergleichsoperationen, boolesche Operationen, Bitverschiebung und die Berechnung verschiedener algebraischer Funktionen. In mindestens einer Ausführungsform kann dieselbe Hardware mit funktionellen Einheiten genutzt werden, um verschiedene Operationen auszuführen, und es kann eine beliebige Kombination von funktionellen Einheiten vorhanden sein.In at least one embodiment, each graphics multiprocessor 2034 within the processing cluster 2094 may include an identical set of functional execution logic (e.g., arithmetic logic units, load/store units (“LSUs”), etc.). In at least one embodiment, the functional execution logic may be configured in a pipeline in which new instructions may be issued before previous instructions are completed. Supported in at least one embodiment the functional execution logic performs a variety of operations, including integer and floating point arithmetic, comparison operations, Boolean operations, bit shifting, and the calculation of various algebraic functions. In at least one embodiment, the same hardware may be used with functional units to perform different operations, and any combination of functional units may be present.

In mindestens einer Ausführungsform bilden die an den Verarbeitungscluster 2094 übertragenen Anweisungen einen Thread. In mindestens einer Ausführungsform ist ein Satz von Threads, die über einen Satz von Parallelverarbeitungsmaschinen ausgeführt werden, eine Thread-Gruppe. In mindestens einer Ausführungsform führt eine Thread-Gruppe ein Programm auf unterschiedlichen Eingabedaten aus. In mindestens einer Ausführungsform kann jeder Thread innerhalb einer Thread-Gruppe einer anderen Verarbeitungs-Engine innerhalb des Grafik-Multiprozessors 2034 zugewiesen sein. In mindestens einer Ausführungsform kann eine Thread-Gruppe weniger Threads umfassen als die Anzahl der Verarbeitungs-Engines innerhalb des Grafik-Multiprozessors 2034. In mindestens einer Ausführungsform können dann, wenn eine Thread-Gruppe weniger Threads als eine Anzahl von Verarbeitungs-Engines beinhaltet, eine oder mehrere der Verarbeitungs-Engines während der Zyklen, in denen diese Thread-Gruppe verarbeitet wird, im Leerlauf sein. In mindestens einer Ausführungsform kann eine Thread-Gruppe auch mehr Threads als eine Anzahl von Verarbeitungs-Engines innerhalb des Grafik-Multiprozessors 2034 enthalten. Wenn eine Thread-Gruppe mehr Threads umfasst als die Anzahl der Verarbeitungs-Engines in dem Grafik-Multiprozessor 2034, kann die Verarbeitung in mindestens einer Ausführungsform über aufeinanderfolgende Taktzyklen hinweg durchgeführt werden. In mindestens einer Ausführungsform können mehrere Thread-Gruppen gleichzeitig auf dem Grafik-Multiprozessor 2034 ausgeführt werden.In at least one embodiment, the instructions transmitted to the processing cluster 2094 form a thread. In at least one embodiment, a set of threads executing across a set of parallel processing machines is a thread group. In at least one embodiment, a group of threads executes a program on different input data. In at least one embodiment, each thread within a thread group may be assigned to a different processing engine within graphics multiprocessor 2034. In at least one embodiment, a thread group may include fewer threads than the number of processing engines within the graphics multiprocessor 2034. In at least one embodiment, if a thread group includes fewer threads than a number of processing engines, a or more of the processing engines may be idle during the cycles in which this thread group is processed. In at least one embodiment, a thread group may also include more threads than a number of processing engines within graphics multiprocessor 2034. In at least one embodiment, if a thread group includes more threads than the number of processing engines in the graphics multiprocessor 2034, processing may be performed over successive clock cycles. In at least one embodiment, multiple thread groups may execute simultaneously on graphics multiprocessor 2034.

In mindestens einer Ausführungsform enthält der Grafik-Multiprozessor 2034 einen internen Cachespeicher, um Lade- und Speicheroperationen durchzuführen. In mindestens einer Ausführungsform kann der Grafik-Multiprozessor 2034 auf einen internen Cache verzichten und einen Cachespeicher (z.B. L1-Cache 2048) innerhalb des Verarbeitungsclusters 2094 verwenden. In mindestens einer Ausführungsform hat jeder Grafik-Multiprozessor 2034 auch Zugriff auf Level-2 („L2“)-Caches innerhalb von Partitionseinheiten (z.B. den Partitionseinheiten 2020A-2020N von 20A), die von allen Verarbeitungsclustern 2094 gemeinsam genutzt werden und zur Datenübertragung zwischen Threads verwendet werden können. In mindestens einer Ausführungsform kann der Grafik-Multiprozessor 2034 auch auf den globalen Off-Chip-Speicher zugreifen, der einen oder mehrere lokale Parallelprozessorspeicher und/oder Systemspeicher umfassen kann. In mindestens einer Ausführungsform kann jeder Speicher außerhalb der Parallelverarbeitungseinheit 2002 als globaler Speicher verwendet werden. In mindestens einer Ausführungsform umfasst der Verarbeitungscluster 2094 mehrere Instanzen des Grafik-Multiprozessors 2034, die sich gemeinsame Anweisungen und Daten teilen können, die in dem L1-Cache 2048 gespeichert sein können.In at least one embodiment, graphics multiprocessor 2034 includes an internal cache to perform load and store operations. In at least one embodiment, the graphics multiprocessor 2034 may forgo an internal cache and use a cache memory (eg, L1 cache 2048) within the processing cluster 2094. In at least one embodiment, each graphics multiprocessor 2034 also has access to level 2 (“L2”) caches within partition units (e.g., partition units 2020A-2020N of 20A) , which are shared by all processing clusters 2094 and can be used to transfer data between threads. In at least one embodiment, graphics multiprocessor 2034 may also access off-chip global memory, which may include one or more local parallel processor memory and/or system memory. In at least one embodiment, any memory external to parallel processing unit 2002 may be used as global memory. In at least one embodiment, the processing cluster 2094 includes multiple instances of the graphics multiprocessor 2034 that may share common instructions and data that may be stored in the L1 cache 2048.

In mindestens einer Ausführungsform kann jeder Verarbeitungscluster 2094 eine MMU 2045 enthalten, die so konfiguriert ist, dass sie virtuelle Adressen auf physische Adressen abbildet. In mindestens einer Ausführungsform können sich eine oder mehrere Instanzen der MMU 2045 innerhalb der Speicherschnittstelle 2018 von 20 befinden. In mindestens einer Ausführungsform enthält die MMU 2045 einen Satz von Seitentabelleneinträgen („PTEs“), die verwendet werden, um eine virtuelle Adresse auf eine physische Adresse einer Tile bzw. Kachel abzubilden, und optional einen Cache-Zeilenindex. In mindestens einer Ausführungsform kann die MMU 2045 Adressübersetzungs-Lookaside-Puffer („TLBs“) oder Caches enthalten, die sich in dem Grafik-Multiprozessor 2034 oder in dem L1-Cache 2048 oder in dem Verarbeitungscluster 2094 befinden können. In mindestens einer Ausführungsform wird eine physische Adresse verarbeitet, um die Lokalität des Oberflächendatenzugriffs zu verteilen, um ein effizientes Request Interleaving zwischen den Partitionseinheiten zu ermöglichen. In mindestens einer Ausführungsform kann ein Cache-Zeilenindex verwendet werden, um zu bestimmen, ob eine Anforderung für eine Cachezeile ein Hit oder ein Miss ist.In at least one embodiment, each processing cluster 2094 may include an MMU 2045 configured to map virtual addresses to physical addresses. In at least one embodiment, one or more instances of the MMU 2045 may reside within the memory interface 2018 of 20 condition. In at least one embodiment, the MMU 2045 includes a set of page table entries (“PTEs”) used to map a virtual address to a physical address of a tile, and optionally a cache line index. In at least one embodiment, the MMU 2045 may include address translation lookaside buffers (“TLBs”) or caches, which may reside in the graphics multiprocessor 2034 or in the L1 cache 2048 or in the processing cluster 2094. In at least one embodiment, a physical address is processed to distribute the locality of surface data access to enable efficient request interleaving between partition devices. In at least one embodiment, a cache line index may be used to determine whether a request for a cache line is a hit or a miss.

In mindestens einer Ausführungsform kann der Verarbeitungscluster 2094 so konfiguriert sein, dass jeder Grafik-Multiprozessor 2034 mit einer Textureinheit 2036 gekoppelt ist, um Texturabbildungsoperationen, z.B. ein Bestimmen von Texturabtastpositionen, ein Lesen von Texturdaten und ein Filtern von Texturdaten. durchzuführen. In mindestens einer Ausführungsform werden die Texturdaten aus einem internen Textur-L1-Cache (nicht dargestellt) oder aus einem L1-Cache innerhalb des Grafik-Multiprozessors 2034 gelesen und je nach Bedarf aus einem L2-Cache, einem lokalen Parallelprozessorspeicher oder dem Systemspeicher abgerufen. In mindestens einer Ausführungsform gibt jeder Grafik-Multiprozessor 2034 eine verarbeitete Aufgabe an die Datenkreuzschiene 2040 aus, um die verarbeitete Aufgabe einem anderen Verarbeitungscluster 2094 zur weiteren Verarbeitung bereitzustellen oder um die verarbeitete Aufgabe in einem L2-Cache, einem lokalen Parallelprozessorspeicher oder einem Systemspeicher über die Speicherkreuzschiene 2016 zu speichern. In mindestens einer Ausführungsform ist eine Pre-Raster-OperationsEinheit („preROP“) 2042 so konfiguriert, dass sie Daten von dem Grafik-Multiprozessor 2034 empfängt und Daten an ROP-Einheiten weiterleitet, die sich bei den hierin beschriebenen Partitionseinheiten (z.B. den Partitionseinheiten 2020A-2020N in 20) befinden können. In mindestens einer Ausführungsform kann die PreROP 2042 Optimierungen für die Farbmischung durchführen, Pixelfarbdaten organisieren und Adressübersetzungen vornehmen.In at least one embodiment, processing cluster 2094 may be configured such that each graphics multiprocessor 2034 is coupled to a texture unit 2036 to perform texture mapping operations, e.g., determining texture sample positions, reading texture data, and filtering texture data. to carry out. In at least one embodiment, the texture data is read from an internal texture L1 cache (not shown) or from an L1 cache within the graphics multiprocessor 2034 and retrieved from an L2 cache, parallel processor local memory, or system memory as necessary. In at least one embodiment, each graphics multiprocessor 2034 outputs a processed task to the data crossbar 2040 to provide the processed task to another processing cluster 2094 for further processing or to store the processed task in an L2 cache, parallel processor local memory, or system memory via the Storage matrix switcher 2016 chern. In at least one embodiment, a pre-raster operations unit ("preROP") 2042 is configured to receive data from the graphics multiprocessor 2034 and forward data to ROP units located at the partition units described herein (e.g., the partition units 2020A -2020N in 20 ). In at least one embodiment, the PreROP 2042 may perform color mixing optimizations, organize pixel color data, and address translations.

20C veranschaulicht einen Grafik-Multiprozessor 2096, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist der Grafik-Multiprozessor 2096 der Grafik-Multiprozessor 2034 von 20B. In mindestens einer Ausführungsform ist der Grafik-Multiprozessor 2096 mit dem Pipeline-Manager 2032 des Verarbeitungsclusters 2094 gekoppelt. In mindestens einer Ausführungsform hat der Grafik-Multiprozessor 2096 eine Ausführungs-Pipeline, die unter anderem einen Anweisungscache 2052, eine Anweisungseinheit 2054, eine Adressabbildungseinheit 2056, eine Registerdatei 2058, einen oder mehrere GPGPU-Kerne 2062 und eine oder mehrere LSUs 2066 beinhaltet. Die GPGPU-Kerne 2062 und die LSUs 2066 sind über eine Speicher- und Cache-Verbindung 2068 mit dem Cachespeicher 2072 und dem gemeinsamen Speicher 2070 gekoppelt. 20C illustrates a graphics multiprocessor 2096, in accordance with at least one embodiment. In at least one embodiment, the graphics multiprocessor 2096 is the graphics multiprocessor 2034 of 20B . In at least one embodiment, the graphics multiprocessor 2096 is coupled to the pipeline manager 2032 of the processing cluster 2094. In at least one embodiment, graphics multiprocessor 2096 has an execution pipeline including, among other things, an instruction cache 2052, an instruction unit 2054, an address mapping unit 2056, a register file 2058, one or more GPGPU cores 2062, and one or more LSUs 2066. The GPGPU cores 2062 and the LSUs 2066 are coupled to the cache memory 2072 and the shared memory 2070 via a memory and cache connection 2068.

In mindestens einer Ausführungsform empfängt der Anweisungscache 2052 einen Stream bzw. Strom von auszuführenden Befehlen von dem Pipeline-Manager 2032. In mindestens einer Ausführungsform werden die Befehle in dem Anweisungscache 2052 zwischengespeichert und von der Anweisungseinheit 2054 zur Ausführung bereitgestellt. In mindestens einer Ausführungsform kann die Anweisungseinheit 2054 Anweisungen als Thread-Gruppen (z.B. Warps) versenden, wobei jeder Thread einer Thread-Gruppe einer anderen Ausführungseinheit innerhalb des GPGPU-Kerns 2062 zugewiesen ist. In mindestens einer Ausführungsform kann ein Befehl durch Spezifizieren einer Adresse in einem einheitlichen Adressraum auf einen lokalen, gemeinsam genutzten oder globalen Adressraum zugreifen. In mindestens einer Ausführungsform kann die Adressabbildungseinheit 2056 verwendet werden, um Adressen in einem vereinheitlichten Adressraum in eine eindeutige Speicheradresse zu übersetzen, auf die die LSUs 2066 zugreifen können.In at least one embodiment, the instruction cache 2052 receives a stream of instructions to be executed from the pipeline manager 2032. In at least one embodiment, the instructions are cached in the instruction cache 2052 and made available for execution by the instruction unit 2054. In at least one embodiment, the instruction unit 2054 may dispatch instructions as thread groups (e.g., warps), where each thread of a thread group is assigned to a different execution unit within the GPGPU core 2062. In at least one embodiment, an instruction may access a local, shared, or global address space by specifying an address in a unified address space. In at least one embodiment, address mapping unit 2056 may be used to translate addresses in a unified address space into a unique memory address accessible to LSUs 2066.

In mindestens einer Ausführungsform stellt die Registerdatei 2058 einen Satz von Registern für Funktionseinheiten des Grafik-Multiprozessors 2096 bereit. In mindestens einer Ausführungsform stellt die Registerdatei 2058 einen temporären Speicher für Operanden bereit, die mit Datenpfaden von Funktionseinheiten (z.B. GPGPU-Kerne 2062, LSUs 2066) des Grafik-Multiprozessors 2096 verbunden sind. In mindestens einer Ausführungsform ist die Registerdatei 2058 zwischen den einzelnen Funktionseinheiten aufgeteilt, so dass jeder Funktionseinheit ein dedizierter Teil der Registerdatei 2058 zugeordnet ist. In mindestens einer Ausführungsform ist die Registerdatei 2058 zwischen verschiedenen Thread-Gruppen aufgeteilt, die von dem Grafik-Multiprozessor 2096 ausgeführt werden.In at least one embodiment, register file 2058 provides a set of registers for functional units of graphics multiprocessor 2096. In at least one embodiment, register file 2058 provides temporary storage for operands associated with data paths of functional units (e.g., GPGPU cores 2062, LSUs 2066) of graphics multiprocessor 2096. In at least one embodiment, the register file 2058 is divided between the individual functional units, so that each functional unit is assigned a dedicated part of the register file 2058. In at least one embodiment, register file 2058 is shared between different thread groups executed by graphics multiprocessor 2096.

In mindestens einer Ausführungsform können die GPGPU-Kerne 2062 jeweils FPUs und/oder Integer-ALUs enthalten, die zur Ausführung von Anweisungen des Grafik-Multiprozessors 2096 verwendet werden. Die GPGPU-Kerne 2062 können eine ähnliche Architektur aufweisen oder sich in der Architektur unterscheiden. In mindestens einer Ausführungsform enthält ein erster Teil der GPGPU-Kerne 2062 eine FPU mit einfacher Genauigkeit und eine Integer-ALU, während ein zweiter Teil der GPGPU-Kerne 2062 eine FPU mit doppelter Genauigkeit enthält. In mindestens einer Ausführungsform können die FPUs den IEEE 754-2008-Standard für Gleitkommaarithmetik implementieren oder Gleitkommaarithmetik mit variabler Genauigkeit ermöglichen. In mindestens einer Ausführungsform kann der Grafik-Multiprozessor 2096 zusätzlich eine oder mehrere Funktionseinheiten mit fester Funktion oder mit Sonderfunktion enthalten, um spezifische Funktionen wie Kopierrechteck- oder Pixelmischoperationen durchzuführen. In mindestens einer Ausführungsform können einer oder mehrere der GPGPU-Kerne 2062 auch eine Logik mit fester oder spezieller Funktion enthalten.In at least one embodiment, the GPGPU cores 2062 may each include FPUs and/or integer ALUs that are used to execute graphics multiprocessor 2096 instructions. The GPGPU cores 2062 may have a similar architecture or may differ in architecture. In at least one embodiment, a first portion of the GPGPU cores 2062 includes a single precision FPU and an integer ALU, while a second portion of the GPGPU cores 2062 includes a double precision FPU. In at least one embodiment, the FPUs may implement the IEEE 754-2008 standard for floating point arithmetic or enable variable precision floating point arithmetic. In at least one embodiment, the graphics multiprocessor 2096 may additionally include one or more fixed-function or special-function functional units to perform specific functions such as copy rectangle or pixel blending operations. In at least one embodiment, one or more of the GPGPU cores 2062 may also include fixed or special function logic.

In mindestens einer Ausführungsform enthalten die GPGPU-Kerne 2062 SIMD-Logik, die in der Lage ist, einen einzigen Befehl auf mehreren Datensätzen auszuführen. In mindestens einer Ausführungsform können die GPGPU-Kerne 2062 physisch SIMD4-, SIMD8- und SIMD16-Anweisungen und logisch SIMD1-, SIMD2- und SIMD32-Anweisungen ausführen. In mindestens einer Ausführungsform können SIMD-Befehle für die GPGPU-Kerne 2062 zur Kompilierzeit von einem Shader-Compiler generiert werden oder automatisch generiert werden, wenn Programme ausgeführt werden, die für Single Program Multiple Data („SPMD“) oder SIMT-Architekturen geschrieben und kompiliert wurden. In mindestens einer Ausführungsform können mehrere Threads eines für ein SIMT-Ausführungsmodell konfigurierten Programms über eine einzige SIMD-Anweisung ausgeführt werden. Zum Beispiel können in mindestens einer Ausführungsform acht SIMT-Threads, die die gleichen oder ähnliche Operationen ausführen, parallel über eine einzige SIMD8-Logikeinheit ausgeführt werden.In at least one embodiment, the GPGPU cores 2062 contain SIMD logic capable of executing a single instruction on multiple data sets. In at least one embodiment, the GPGPU cores 2062 may physically execute SIMD4, SIMD8, and SIMD16 instructions and logically execute SIMD1, SIMD2, and SIMD32 instructions. In at least one embodiment, SIMD instructions for the GPGPU cores 2062 may be generated at compile time by a shader compiler or may be automatically generated when executing programs written for Single Program Multiple Data ("SPMD") or SIMT architectures were compiled. In at least one embodiment, multiple threads of a program configured for a SIMT execution model may be executed via a single SIMD instruction. For example, in at least one embodiment, eight SIMT threads performing the same or similar operations may be executed in parallel via a single SIMD8 logic unit.

In mindestens einer Ausführungsform ist die Speicher- und Cache-Verbindung 2068 ein Verbindungsnetzwerk, das jede Funktionseinheit des Grafik-Multiprozessors 2096 mit der Registerdatei 2058 und dem gemeinsamen Speicher 2070 verbindet. In mindestens einer Ausführungsform ist die Speicher- und Cache-Verbindung 2068 eine Kreuzschienenverbindung, die es der LSU 2066 ermöglicht, Lade- und Speicheroperationen zwischen dem gemeinsamen Speicher 2070 und der Registerdatei 2058 durchzuführen. In mindestens einer Ausführungsform kann die Registerdatei 2058 mit derselben Frequenz arbeiten wie die GPGPU-Kerne 2062, so dass die Datenübertragung zwischen den GPGPU-Kernen 2062 und der Registerdatei 2058 eine sehr geringe Latenz aufweist. In mindestens einer Ausführungsform kann der gemeinsame Speicher 2070 verwendet werden, um die Kommunikation zwischen Threads zu ermöglichen, die auf Funktionseinheiten innerhalb des Grafik-Multiprozessors 2096 ausgeführt werden. In mindestens einer Ausführungsform kann der Cachespeicher 2072 z.B. als Datencache verwendet werden, um Texturdaten zu cachen, die zwischen Funktionseinheiten und der Textureinheit 2036 kommuniziert werden. In mindestens einer Ausführungsform kann der gemeinsame Speicher 2070 auch als programmverwalteter Cache verwendet werden. In mindestens einer Ausführungsform können Threads, die auf den GPGPU-Kernen 2062 ausgeführt werden, zusätzlich zu den automatisch zwischengespeicherten Daten, die in dem Cachespeicher 2072 gespeichert sind, programmatisch Daten in dem gemeinsam genutzten Speicher speichern.In at least one embodiment, the memory and cache connection 2068 is an interconnection network that connects each functional unit of the graphics multiprocessor 2096 to the register file 2058 and the shared memory 2070. In at least one embodiment, the memory and cache connection 2068 is a crossbar connection that allows the LSU 2066 to perform load and store operations between the shared memory 2070 and the register file 2058. In at least one embodiment, the register file 2058 may operate at the same frequency as the GPGPU cores 2062 so that data transfer between the GPGPU cores 2062 and the register file 2058 has very low latency. In at least one embodiment, shared memory 2070 may be used to enable communication between threads executing on functional units within graphics multiprocessor 2096. For example, in at least one embodiment, cache memory 2072 may be used as a data cache to cache texture data communicated between functional units and texture unit 2036. In at least one embodiment, shared memory 2070 may also be used as a program-managed cache. In at least one embodiment, threads executing on the GPGPU cores 2062 may programmatically store data in the shared memory in addition to the automatically cached data stored in the cache memory 2072.

In mindestens einer Ausführungsform ist ein Parallelprozessor oder eine GPGPU, wie hierin beschrieben, kommunikativ mit einem Hostprozessor/mit Kernen gekoppelt, um Grafikoperationen, Operationen des maschinellen Lernens, Musteranalyseoperationen und verschiedene Universal-GPU-Funktionen (GPGPU) zu beschleunigen. In mindestens einer Ausführungsform kann eine GPU über einen Bus oder eine andere Verbindung (z.B. eine Hochgeschwindigkeitsverbindung wie beispielsweise PCIe oder NVLink) mit dem Hostprozessor/mit Kernen kommunikativ gekoppelt sein. In mindestens einer Ausführungsform kann ein Grafikprozessor auf demselben Gehäuse oder Chip wie die Kerne integriert sein und mit den Kernen über einen Prozessorbus/einen Interconnect kommunizieren, der sich innerhalb eines Gehäuses oder eines Chips befindet. In mindestens einer Ausführungsform können Prozessorkerne unabhängig von der Art und Weise, in der ein Grafikprozessor verbunden ist, dem Grafikprozessor Arbeit in Form von Sequenzen von Befehlen/Anweisungen, die in einem WD enthalten sind, zuweisen. In mindestens einer Ausführungsform verwendet die GPU dann dedizierte Schaltkreise/Logik zur effizienten Verarbeitung dieser Befehle/Anweisungen.In at least one embodiment, a parallel processor or GPGPU, as described herein, is communicatively coupled to a host processor/cores to accelerate graphics operations, machine learning operations, pattern analysis operations, and various general purpose GPU (GPGPU) functions. In at least one embodiment, a GPU may be communicatively coupled to the host processor/cores via a bus or other connection (e.g., a high-speed connection such as PCIe or NVLink). In at least one embodiment, a graphics processor may be integrated on the same package or chip as the cores and communicate with the cores via a processor bus/interconnect located within a package or chip. In at least one embodiment, regardless of how a graphics processor is connected, processor cores may assign work to the graphics processor in the form of sequences of commands/instructions included in a WD. In at least one embodiment, the GPU then uses dedicated circuitry/logic to efficiently process these commands/instructions.

In mindestens einer Ausführungsform werden ein oder mehrere in 20A-20C dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 20A-20C dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 20A-20C dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 20A-20C dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 20A-20C illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 20A-20C illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 20A-20C systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 20A-20C systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

21 zeigt einen Grafikprozessor2100, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst der Grafikprozessor 2100 eine Ringverbindung 2102, ein Pipeline-Frontend 2104, eine Media Engine 2137 und Grafikkerne 2180A-2180N. In mindestens einer Ausführungsform verbindet die Ringverbindung 2102 den Grafikprozessor 2100 mit anderen Verarbeitungseinheiten, einschließlich anderer Grafikprozessoren oder eines oder mehrerer Mehrzweckprozessorkerne. In mindestens einer Ausführungsform ist der Grafikprozessor 2100 einer von vielen Prozessoren, die in ein Multikern-Verarbeitungssystem integriert sind. 21 shows a graphics processor 2100, in accordance with at least one embodiment. In at least one embodiment, graphics processor 2100 includes a ring interconnect 2102, a pipeline front end 2104, a media engine 2137, and graphics cores 2180A-2180N. In at least one embodiment, the ring connection 2102 connects the graphics processor 2100 to other processing units, including other graphics processors or one or more general purpose processor cores. In at least one embodiment, graphics processor 2100 is one of many processors integrated into a multi-core processing system.

In mindestens einer Ausführungsform empfängt der Grafikprozessor 2100 Stapel von Befehlen über die Ringverbindung 2102. In mindestens einer Ausführungsform werden die eingehenden Befehle von einem Befehlsstreamer 2103 in dem Pipeline-Frontend 2104 interpretiert. In mindestens einer Ausführungsform enthält der Grafikprozessor 2100 eine skalierbare Ausführungslogik zur Durchführung der 3D-Geometrieverarbeitung und der Medienverarbeitung über den/die Grafikkern(e) 2180A-2180N. In mindestens einer Ausführungsform liefert der Befehlsstreamer 2103 für 3D-Geometrieverarbeitungsbefehle Befehle an die Geometrie-Pipeline 2136. In mindestens einer Ausführungsform liefert der Befehlsstreamer 2103 für mindestens einige Medienverarbeitungsbefehle Befehle an ein Video-Frontend 2134, das mit einer Medien-Engine 2137 gekoppelt ist. In mindestens einer Ausführungsform umfasst die Medien-Engine 2137 eine Video Quality Engine („VQE“) 2130 für die Video- und Bildnachbearbeitung und eine Multiformat-Kodier-/ Dekodier-Engine („MFX“) 2133 für die hardwarebeschleunigte Kodierung und Dekodierung von Mediendaten. In mindestens einer Ausführungsform erzeugen die Geometrie-Pipeline 2136 und die Medien-Engine 2137 jeweils Ausführungs-Threads für Thread-Ausführungsressourcen, die von mindestens einem Grafikkern 2180A bereitgestellt werden.In at least one embodiment, the graphics processor 2100 receives batches of commands over the ring connection 2102. In at least one embodiment, the incoming commands are interpreted by a command streamer 2103 in the pipeline front end 2104. In at least one embodiment, graphics processor 2100 includes scalable execution logic to perform 3D geometry processing and media processing via graphics core(s) 2180A-2180N. In at least one embodiment, the command streamer 2103 provides commands to the geometry pipeline 2136 for 3D geometry processing commands. In at least one embodiment, the command streamer 2103 supplies commands to a video front end 2134 connected to a media engine for at least some media processing commands 2137 is coupled. In at least one embodiment, the media engine 2137 includes a Video Quality Engine (“VQE”) 2130 for video and image post-processing and a Multiformat Encoding/Decoding Engine (“MFX”) 2133 for hardware-accelerated encoding and decoding of media data . In at least one embodiment, the geometry pipeline 2136 and the media engine 2137 each create threads of execution for thread execution resources provided by at least one graphics core 2180A.

In mindestens einer Ausführungsform enthält der Grafikprozessor 2100 skalierbare Thread-Ausführungsressourcen mit modularen Grafikkernen 2180A-2180N (manchmal als Kern-Slices bezeichnet), die jeweils mehrere Subkerne 2150A-550N, 2160A-2160N (manchmal als Kern-Sub-Slices bezeichnet) aufweisen. In mindestens einer Ausführungsform kann der Grafikprozessor 2100 eine beliebige Anzahl von Grafikkernen 2180A bis 2180N aufweisen. In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 2100 einen Grafikkern 2180A mit mindestens einem ersten Subkern 2150A und einem zweiten Subkern 2160A. In mindestens einer Ausführungsform ist der Grafikprozessor 2100 ein Prozessor mit geringem Stromverbrauch und einem einzigen Subkern (z.B. dem Subkern 2150A). In mindestens einer Ausführungsform beinhaltet der Grafikprozessor 2100 mehrere Grafikkerne 2180A-2180N, die jeweils einen Satz erster Subkerne 2150A-2150N und einen Satz zweiter Subkerne 2160A-2160N umfassen. In mindestens einer Ausführungsform enthält jeder Subkern in den ersten Subkernen 2150A-2150N mindestens einen ersten Satz von Ausführungseinheiten („EUs“) 2152A-2152N und Medien-/Textur-Sampler 2154A-2154N. In mindestens einer Ausführungsform enthält jeder Subkern in den zweiten Subkernen 2160A-2160N mindestens einen zweiten Satz von Ausführungseinheiten 2162A-2162N und Samplern 2164A-2164N. In mindestens einer Ausführungsform teilt sich jeder Subkern 2150A-2150N, 2160A-2160N einen Satz von gemeinsam genutzten Ressourcen 2170A-2170N. In mindestens einer Ausführungsform umfassen die gemeinsam genutzten Ressourcen 2170 den gemeinsam genutzten Cachespeicher und die Pixeloperationslogik.In at least one embodiment, the graphics processor 2100 includes scalable thread execution resources with modular graphics cores 2180A-2180N (sometimes referred to as core slices), each having a plurality of sub-cores 2150A-550N, 2160A-2160N (sometimes referred to as core sub-slices). In at least one embodiment, graphics processor 2100 may include any number of graphics cores 2180A to 2180N. In at least one embodiment, graphics processor 2100 includes a graphics core 2180A with at least a first subcore 2150A and a second subcore 2160A. In at least one embodiment, graphics processor 2100 is a low-power processor with a single subcore (e.g., subcore 2150A). In at least one embodiment, graphics processor 2100 includes a plurality of graphics cores 2180A-2180N, each including a set of first sub-cores 2150A-2150N and a set of second sub-cores 2160A-2160N. In at least one embodiment, each subcore in the first subcores 2150A-2150N includes at least a first set of execution units (“EUs”) 2152A-2152N and media/texture samplers 2154A-2154N. In at least one embodiment, each subcore in the second subcores 2160A-2160N includes at least a second set of execution units 2162A-2162N and samplers 2164A-2164N. In at least one embodiment, each subcore 2150A-2150N, 2160A-2160N shares a set of shared resources 2170A-2170N. In at least one embodiment, shared resources 2170 include shared cache memory and pixel operation logic.

In mindestens einer Ausführungsform werden ein oder mehrere in 21 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 21 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 21 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 21 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 21 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 21 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 21 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 21 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

22 veranschaulicht einen Prozessor 2200, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform kann der Prozessor 2200, ohne Beschränkung darauf, Logikschaltungen zur Ausführung von Befehlen enthalten. In mindestens einer Ausführungsform kann der Prozessor 2200 Befehle ausführen, einschließlich x86-Befehle, ARM-Befehle, spezielle Befehle für ASICs usw. In mindestens einer Ausführungsform kann der Prozessor 2210 Register enthalten, um gepackte Daten zu speichern, wie z.B. 64 Bit breite MMXTM-Register in Mikroprozessoren, die mit der MMX-Technologie der Intel Corporation aus Santa Clara, Kalifornien, ausgestattet sind. In mindestens einer Ausführungsform können MMX-Register, die sowohl in Ganzzahl- als auch in Gleitkommaform verfügbar sind, mit gepackten Datenelementen arbeiten, die SIMD- und Streaming-SIMD-Erweiterungsbefehle („SSE“) begleiten. In mindestens einer Ausführungsform können 128 Bit breite XMM-Register, die sich auf SSE2-, SSE3-, SSE4-, AVX- oder darüber hinausgehende Technologien beziehen (allgemein als „SSEx“ bezeichnet), solche gepackten Datenoperanden aufnehmen. In mindestens einer Ausführungsform können die Prozessoren 2210 Anweisungen zur Beschleunigung von CUDA-Programmen ausführen. 22 illustrates a processor 2200, in accordance with at least one embodiment. In at least one embodiment, processor 2200 may include, but is not limited to, logic circuitry for executing instructions. In at least one embodiment, processor 2200 may execute instructions, including x86 instructions, ARM instructions, special instructions for ASICs, etc. In at least one embodiment, processor 2210 may include registers to store packed data, such as 64-bit wide MMXTM Registers in microprocessors equipped with MMX technology from Intel Corporation of Santa Clara, California. In at least one embodiment, MMX registers, which are available in both integer and floating point forms, may operate on packed data elements accompanying SIMD and streaming SIMD extension (“SSE”) instructions. In at least one embodiment, 128-bit wide XMM registers related to SSE2, SSE3, SSE4, AVX or beyond technologies (commonly referred to as "SSEx") may accommodate such packed data operands. In at least one embodiment, processors 2210 may execute instructions to accelerate CUDA programs.

In mindestens einer Ausführungsform enthält der Prozessor 2200 ein In-Order-Front-End („Front-End“) 2201 zum Abrufen von auszuführenden Anweisungen und zur Vorbereitung von Anweisungen, die später in der Prozessor-Pipeline zu verwenden sind. In mindestens einer Ausführungsform kann das Front-End 2201 mehrere Einheiten beinhalten. In mindestens einer Ausführungsform holt ein Anweisungs-Vorabrufer bzw. -Prefetcher 2226 Anweisungen aus dem Speicher und leitet sie an einen Anweisungs-Dekodierer 2228 weiter, der seinerseits Anweisungen dekodiert oder interpretiert. In mindestens einer Ausführungsform dekodiert der Anweisungs-Dekodierer 2228 beispielsweise eine empfangene Anweisung in eine oder mehrere Operationen, die als „Mikroanweisungen“ oder „Mikrooperationen“ (auch „mikro-ops“ oder „uops“ genannt) bezeichnet werden, um sie auszuführen. In mindestens einer Ausführungsform zerlegt der Anweisungs-Dekodierer 2228 die Anweisung in einen Op-Code und entsprechende Daten- und Steuerfelder, die von der Mikroarchitektur zur Ausführung von Operationen verwendet werden können. In mindestens einer Ausführungsform kann ein Trace-Cache 2230 dekodierte Uops in programmgeordnete Sequenzen oder Traces in einer Uop-Warteschlange 2234 zur Ausführung zusammenstellen. In mindestens einer Ausführungsform stellt dann, wenn der Trace-Cache 2230 auf eine komplexe Anweisung stößt, ein Mikrocode-ROM 2232 Uops bereit, die zum Abschluss einer Operation benötigt werden.In at least one embodiment, processor 2200 includes an in-order front end 2201 for fetching instructions to be executed and preparing instructions to be used later in the processor pipeline. In at least one embodiment, the front end 2201 may include multiple units. In at least one embodiment, an instruction prefetcher 2226 fetches instructions from memory and forwards them to an instruction decoder 2228, which in turn decodes or interprets instructions. For example, in at least one embodiment, the instruction decoder 2228 decodes a received instruction into one or more operations called "micro-instructions" or "micro-operations" (also called "micro-ops" or "uops"). are designated to carry them out. In at least one embodiment, the instruction decoder 2228 decomposes the instruction into an opcode and corresponding data and control fields that can be used by the microarchitecture to perform operations. In at least one embodiment, a trace cache 2230 may assemble decoded uops into program-ordered sequences or traces in a uop queue 2234 for execution. In at least one embodiment, when the trace cache 2230 encounters a complex instruction, a microcode ROM 2232 provides Uops needed to complete an operation.

In mindestens einer Ausführungsform können einige Anweisungen in eine einzige Mikro-Op umgewandelt werden, während andere mehrere Mikro-Ops benötigen, um den vollen Betriebsablauf abzuschließen. In mindestens einer Ausführungsform kann der Anweisungs-Dekodierer 2228 auf den Mikrocode-ROM 2232 zugreifen, wenn mehr als vier Mikro-Ops für die Ausführung einer Anweisung erforderlich sind. In mindestens einer Ausführungsform kann eine Anweisung in eine kleine Anzahl von Mikro-Ops für die Verarbeitung in dem Anweisungs-Dekodierer 2228 dekodiert werden. In mindestens einer Ausführungsform kann eine Anweisung in dem Mikrocode-ROM 2232 gespeichert werden, falls eine Anzahl von Mikro-Ops zur Ausführung der Operation benötigt wird. In mindestens einer Ausführungsform bezieht sich der Trace-Cache 2230 auf ein programmierbares Logik-Array („PLA“) als Einstiegspunkt, um einen korrekten Mikroanweisungszeiger zum Lesen von Mikrocode-Sequenzen zu bestimmen, um einen oder mehrere Anweisungen aus dem Mikrocode-ROM 2232 zu vervollständigen. In mindestens einer Ausführungsform kann das Front-End 2201 der Maschine, nachdem der Mikrocode-ROM 2232 die Sequenzierung von Mikro-Ops für eine Anweisung beendet hat, das Abrufen von Mikro-Ops aus dem Trace-Cache 2230 wieder aufnehmen.In at least one embodiment, some instructions may be converted into a single micro-op, while others may require multiple micro-ops to complete the full flow of operations. In at least one embodiment, instruction decoder 2228 may access microcode ROM 2232 when more than four micro-ops are required to execute an instruction. In at least one embodiment, an instruction may be decoded into a small number of micro-ops for processing in the instruction decoder 2228. In at least one embodiment, an instruction may be stored in the microcode ROM 2232 if a number of micro-ops are required to perform the operation. In at least one embodiment, the trace cache 2230 refers to a programmable logic array (“PLA”) as an entry point to determine a correct microinstruction pointer for reading microcode sequences to one or more instructions from the microcode ROM 2232 to complete. In at least one embodiment, after the microcode ROM 2232 finishes sequencing micro-ops for an instruction, the machine front-end 2201 may resume fetching micro-ops from the trace cache 2230.

In mindestens einer Ausführungsform kann die Out-of-Order-Ausführungs-Engine („Out of Order Engine“) 2203 Anweisungen für die Ausführung vorbereiten. In mindestens einer Ausführungsform verfügt die Out-of-Order-Ausführungslogik über eine Reihe von Puffern, um den Fluss von Anweisungen zu glätten und neu zu ordnen, um die Leistung zu optimieren, während sie eine Pipeline durchlaufen und für die Ausführung geplant werden. Die Out-of-Order-Ausführungslogik 2203 beinhaltet, ohne darauf beschränkt zu sein, einen Allokator/Register-Umbenenner 2240, eine Speicher-Uop-Warteschlange 2242, eine Ganzzahl-/Gleitkomma-Uop-Warteschlange 2244, einen Speicher-Scheduler 2246, einen schnellen Scheduler 2202, einen langsamen/allgemeinen Gleitkomma-Scheduler („langsamer/allgemeiner FP-Scheduler“) 2204 und einen einfachen Gleitkomma-Scheduler („einfacher FPscheduler“) 2206. In mindestens einer Ausführungsform werden der schnelle Scheduler 2202, der langsame/allgemeine Gleitkomma-Scheduler 2204 und der einfache Gleitkomma-Scheduler 2206 hierin auch gemeinsam als „Uop-Scheduler 2202, 2204, 2206“ bezeichnet. Der Allocator/Register-Umbenenner 2240 weist Maschinenpuffer und Ressourcen zu, die jede Uop zur Ausführung benötigt. In mindestens einer Ausführungsform benennt der Allocator/Register-Umbenenner 2240 logische Register auf Einträge in einer Registerdatei um. In mindestens einer Ausführungsform weist der Allocator/Register-Umbenenner 2240 auch einen Eintrag für jede Uop in einer von zwei Uop-Warteschlangen zu, der Speicher-Uop-Warteschlange 2242 für Speicheroperationen und der Ganzzahl-/Gleitkomma-Uop-Warteschlange 2244 für Nicht-Speicheroperationen, und zwar vor dem Speicher-Scheduler 2246 und den Uop-Schedulern 2202, 2204, 2206. In mindestens einer Ausführungsform bestimmen die Uop-Scheduler 2202, 2204, 2206, wann eine Uop zur Ausführung bereit ist, basierend auf der Bereitschaft ihrer abhängigen Eingangsregister-Operandenquellen und der Verfügbarkeit der Ausführungsressourcen, die Uops benötigen, um ihre Operation abzuschließen. In mindestens einer Ausführungsform kann der schnelle Scheduler 2202 in jeder Hälfte des Haupttaktzyklus terminieren, während der langsame/allgemeine Gleitkomma-Scheduler 2204 und der einfache Gleitkomma-Scheduler 2206 einmal pro Hauptprozessortaktzyklus terminieren können. In mindestens einer Ausführungsform arbitrieren die Uop-Scheduler 2202, 2204, 2206 für Versende- bzw. Dispatch-Ports, um Uops für die Ausführung zu planen.In at least one embodiment, the out-of-order execution engine 2203 may prepare instructions for execution. In at least one embodiment, the out-of-order execution logic includes a series of buffers to smooth and reorder the flow of instructions to optimize performance as they traverse a pipeline and are scheduled for execution. The out-of-order execution logic 2203 includes, but is not limited to, an allocator/register renamer 2240, a memory uop queue 2242, an integer/floating point uop queue 2244, a memory scheduler 2246, a fast scheduler 2202, a slow/general floating point scheduler (“slow/general FP scheduler”) 2204, and a simple floating point scheduler (“simple FPscheduler”) 2206. In at least one embodiment, the fast scheduler 2202, the slow/ general floating point scheduler 2204 and simple floating point scheduler 2206 also collectively referred to herein as “Uop scheduler 2202, 2204, 2206”. The allocator/register renamer 2240 allocates machine buffers and resources that each uop requires to execute. In at least one embodiment, the allocator/register renamer 2240 renames logical registers to entries in a register file. In at least one embodiment, the allocator/register renamer 2240 also allocates an entry for each uop in one of two uop queues, the memory uop queue 2242 for memory operations and the integer/floating point uop queue 2244 for non- Memory operations, namely, before the memory scheduler 2246 and the Uop schedulers 2202, 2204, 2206. In at least one embodiment, the Uop schedulers 2202, 2204, 2206 determine when a Uop is ready for execution based on the readiness of its dependent Input register operand sources and the availability of the execution resources that Uops require to complete their operation. In at least one embodiment, the fast scheduler 2202 may schedule in each half of the main clock cycle, while the slow/general floating point scheduler 2204 and the simple floating point scheduler 2206 may schedule once per main processor clock cycle. In at least one embodiment, Uop schedulers 2202, 2204, 2206 arbitrate dispatch ports to schedule Uops for execution.

In mindestens einer Ausführungsform beinhaltet der Ausführungsblock 2211, ohne Beschränkung darauf, eine Ganzzahl-Registerdatei/ein Bypass-Netzwerk 2208, eine Gleitkommaregisterdatei/ein Bypass-Netzwerk („FP-Registerdatei/ein Bypass-Netzwerk“) 2210, Adresserzeugungseinheiten („AGUs“) 2212 und 2214, schnelle ALUs bzw. S-ALUSs 2216 und 2218, eine langsame ALU bzw. L-ALU 2220, eine Gleitkomma-ALU („FP“) 2222 und eine Gleitkomma-Bewegungseinheit („FP-Move“) 2224. In mindestens einer Ausführungsform werden die Ganzzahl-Registerdatei/das Bypass-Netzwerk 2208 und die Gleitkomma-Registerdatei/das Bypass-Netzwerk 2210 hierin auch als „Registerdateien 2208, 2210“ bezeichnet. In mindestens einer Ausführungsform werden die AGUs 2212 und 2214, die schnellen ALUs 2216 und 2218, die langsame ALU 2220, die Gleitkomma-ALU 2222 und die Gleitkomma-Bewegungseinheit 2224 hierin auch als „Ausführungseinheiten 2212, 2214, 2216, 2218, 2220, 2222 und 2224“ bezeichnet. In mindestens einer Ausführungsform kann ein Ausführungsblock, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich Null) und Art von Registerdateien, Bypass-Netzwerken, Adresserzeugungseinheiten und Ausführungseinheiten in beliebiger Kombination enthalten.In at least one embodiment, execution block 2211 includes, but is not limited to, an integer register file/bypass network 2208, a floating point register file/bypass network (“FP register file/bypass network”) 2210, address generation units (“AGUs”) ) 2212 and 2214, fast ALUs or S-ALUSs 2216 and 2218, a slow ALU or L-ALU 2220, a floating point ALU (“FP”) 2222 and a floating point movement unit (“FP-Move”) 2224. In at least one embodiment, the integer register file/bypass network 2208 and the floating point register file/bypass network 2210 are also referred to herein as “register files 2208, 2210.” In at least one embodiment, the AGUs 2212 and 2214, the fast ALUs 2216 and 2218, the slow ALU 2220, the floating point ALU 2222, and the floating point mover unit 2224 are also referred to herein as “execution units 2212, 2214, 2216, 2218, 2220, 2222 and 2224”. In at least one embodiment, an execution block may include, but is not limited to, any number (including Lich zero) and type of register files, bypass networks, address generation units and execution units in any combination.

In mindestens einer Ausführungsform können die Registerdateien 2208, 2210 zwischen den Uop-Schedulern 2202, 2204, 2206 und den Ausführungseinheiten 2212, 2214, 2216, 2218, 2220, 2222 und 2224 angeordnet sein. In mindestens einer Ausführungsform führt das Ganzzahl-Registerdatei/das Bypass-Netzwerk 2208 Ganzzahloperationen durch. In mindestens einer Ausführungsform führt die Gleitkommaregisterdatei/das Bypass-Netzwerk 2210 Gleitkommaoperationen durch. In mindestens einer Ausführungsform kann jede der Registerdateien 2208, 2210, ohne Beschränkung darauf, ein Bypass-Netzwerk beinhalten, das gerade abgeschlossene Ergebnisse, die noch nicht in die Registerdatei geschrieben wurden, umgehen oder an neue abhängige Uops weiterleiten kann. In mindestens einer Ausführungsform können die Registerdateien 2208, 2210 Daten miteinander austauschen. In mindestens einer Ausführungsform kann das Ganzzahl-Registerdatei/das Bypass-Netzwerk 2208, ohne Beschränkung darauf, zwei separate Registerdateien beinhalten, eine Registerdatei für Daten niedriger Ordnung mit 32 Bits und eine zweite Registerdatei für Daten hoher Ordnung mit 32 Bits. In mindestens einer Ausführungsform kann die Gleitkomma-Registerdatei/das Bypass-Netzwerk 2210, ohne Beschränkung darauf, 128 Bit breite Einträge enthalten, da Gleitkomma-Befehle typischerweise Operanden mit einer Breite von 64 bis 128 Bit haben.In at least one embodiment, register files 2208, 2210 may be located between Uop schedulers 2202, 2204, 2206 and execution units 2212, 2214, 2216, 2218, 2220, 2222, and 2224. In at least one embodiment, the integer register file/bypass network 2208 performs integer operations. In at least one embodiment, the floating point register file/bypass network 2210 performs floating point operations. In at least one embodiment, each of the register files 2208, 2210 may include, but is not limited to, a bypass network that may bypass or forward newly completed results that have not yet been written to the register file to new dependent uops. In at least one embodiment, register files 2208, 2210 may exchange data with each other. In at least one embodiment, the integer register file/bypass network 2208 may include, but is not limited to, two separate register files, a 32-bit low-order data register file and a second 32-bit high-order data register file. In at least one embodiment, the floating point register file/bypass network 2210 may contain, but is not limited to, 128 bit wide entries, as floating point instructions typically have operands 64 to 128 bits wide.

In mindestens einer Ausführungsform können die Ausführungseinheiten 2212, 2214, 2216, 2218, 2220, 2222, 2224 Anweisungen ausführen. In mindestens einer Ausführungsform speichern Registerdateien 2208, 2210 Ganzzahl- und Gleitkomma-Daten-Operandenwerte, die Mikroanweisungen ausführen müssen. In mindestens einer Ausführungsform kann der Prozessor 2200, ohne Beschränkung darauf, eine beliebige Anzahl und Kombination von Ausführungseinheiten 2212, 2214, 2216, 2218, 2220, 2222, 2224 enthalten. In mindestens einer Ausführungsform können die Gleitkomma-ALU 2222 und die Gleitkomma-Bewegungseinheit 2224 Gleitkomma-, MMX-, SIMD-, AVX- und SSE- oder andere Operationen ausführen. In mindestens einer Ausführungsform kann die Gleitkomma-ALU 2222, ohne Beschränkung darauf, einen 64-Bit-mal-64-Bit-Gleitkomma-Teiler enthalten, um die Mikrooperationen Dividieren, Quadratwurzel und Rest auszuführen. In mindestens einer Ausführungsform können Anweisungen, die einen Gleitkommawert beinhalten, mit Gleitkomma-Hardware verarbeitet werden. In mindestens einer Ausführungsform können ALU-Operationen an die schnellen ALUs 2216, 2218 übergeben werden. In mindestens einer Ausführungsform können die schnellen ALUS 2216, 2218 schnelle Operationen mit einer effektiven Latenz von einem halben Taktzyklus ausführen. In mindestens einer Ausführungsform gehen die meisten komplexen Ganzzahloperationen an die langsame ALU 2220, da die langsame ALU 2220, ohne Beschränkung darauf, Ganzzahl-Ausführungshardware für Operationen mit langer Latenzzeit enthalten kann, wie z.B. einen Multiplizierer, Verschiebungen, Flag-Logik und Verzweigungsverarbeitung. In mindestens einer Ausführungsform können Speicher-Lade-/Speicher-Operationen von den AGUs 2212, 2214 ausgeführt werden. In mindestens einer Ausführungsform können die schnelle ALU 2216, die schnelle ALU 2218 und die langsame ALU 2220 Ganzzahloperationen an 64-Bit-Datenoperanden durchführen. In mindestens einer Ausführungsform können die schnelle ALU 2216, die schnelle ALU 2218 und die langsame ALU 2220 so implementiert sein, dass sie eine Vielzahl von Datenbitgrößen unterstützen, einschließlich sechzehn, zweiunddreißig, 128, 256, usw. In mindestens einer Ausführungsform können die Gleitkomma-ALU 2222 und die Gleitkomma-Bewegungseinheit („FP MOVE“) 2224 so implementiert sein, dass sie einen Bereich von Operanden mit Bits unterschiedlicher Breite unterstützen. In mindestens einer Ausführungsform können die Gleitkomma-ALU 2222 und die Gleitkomma-Bewegungseinheit 2224 mit 128 Bit breiten gepackten Datenoperanden in Verbindung mit SIMD- und Multimedia-Anweisungen arbeiten.In at least one embodiment, execution units 2212, 2214, 2216, 2218, 2220, 2222, 2224 may execute instructions. In at least one embodiment, register files 2208, 2210 store integer and floating point data operand values that need to execute microinstructions. In at least one embodiment, processor 2200 may include, but is not limited to, any number and combination of execution units 2212, 2214, 2216, 2218, 2220, 2222, 2224. In at least one embodiment, the floating point ALU 2222 and the floating point mover 2224 may perform floating point, MMX, SIMD, AVX, and SSE or other operations. In at least one embodiment, the floating point ALU 2222 may include, but is not limited to, a 64-bit by 64-bit floating point divider to perform the divide, square root, and remainder microoperations. In at least one embodiment, instructions that include a floating point value may be processed using floating point hardware. In at least one embodiment, ALU operations may be passed to the fast ALUs 2216, 2218. In at least one embodiment, the fast ALUS 2216, 2218 can perform fast operations with an effective latency of half a clock cycle. In at least one embodiment, most complex integer operations go to the slow ALU 2220 because the slow ALU 2220 may include, but is not limited to, integer execution hardware for long latency operations such as a multiplier, shifts, flag logic, and branch processing. In at least one embodiment, memory load/store operations may be performed by the AGUs 2212, 2214. In at least one embodiment, fast ALU 2216, fast ALU 2218, and slow ALU 2220 may perform integer operations on 64-bit data operands. In at least one embodiment, the fast ALU 2216, the fast ALU 2218, and the slow ALU 2220 may be implemented to support a variety of data bit sizes, including sixteen, thirty-two, 128, 256, etc. In at least one embodiment, the floating point ALU 2222 and the floating point move unit (“FP MOVE”) 2224 may be implemented to support a range of operands with bits of different widths. In at least one embodiment, the floating point ALU 2222 and the floating point mover 2224 may operate with 128-bit wide packed data operands in conjunction with SIMD and multimedia instructions.

In mindestens einer Ausführungsform versenden die Uop-Scheduler 2202, 2204, 2206 abhängige Operationen, bevor die Ausführung der übergeordneten Last beendet ist. Da in mindestens einer Ausführungsform UOPs spekulativ geplant und in dem Prozessor 2200 ausgeführt werden können, kann der Prozessor 2200 auch Logik zur Behandlung von Speicherfehlern enthalten. In mindestens einer Ausführungsform kann es dann, wenn eine Datenlast in einem Datencache fehlschlägt, abhängige Operationen in der Pipeline geben, die einen Scheduler mit vorübergehend falschen Daten verlassen haben. In mindestens einer Ausführungsform verfolgt ein Wiedergabemechanismus Anweisungen, die falsche Daten verwenden, und führt sie erneut aus. In mindestens einer Ausführungsform müssen abhängige Operationen möglicherweise erneut abgespielt werden, während unabhängige Operationen zu Ende geführt werden können. In mindestens einer Ausführungsform können Scheduler und Wiedergabemechanismen von mindestens einer Ausführungsform eines Prozessors auch so ausgelegt sein, dass sie Befehlssequenzen für Textstring-Vergleichsoperationen abfangen.In at least one embodiment, Uop schedulers 2202, 2204, 2206 dispatch dependent operations before execution of the parent load completes. Since, in at least one embodiment, UOPs may be speculatively scheduled and executed in processor 2200, processor 2200 may also include logic to handle memory errors. In at least one embodiment, when a data load fails in a data cache, there may be dependent operations in the pipeline that have exited a scheduler with temporarily incorrect data. In at least one embodiment, a replay mechanism tracks and re-executes instructions that use incorrect data. In at least one embodiment, dependent operations may need to be replayed while independent operations may be completed. In at least one embodiment, schedulers and rendering mechanisms of at least one embodiment of a processor may also be configured to intercept instruction sequences for text string comparison operations.

In mindestens einer Ausführungsform kann sich der Begriff „Register“ auf prozessorinterne Speicherplätze beziehen, die als Teil von Anweisungen verwendet werden können, um Operanden zu identifizieren. In mindestens einer Ausführungsform kann es sich bei den Registern um solche handeln, die von außerhalb eines Prozessors (aus der Sicht eines Programmierers) nutzbar sein können. In mindestens einer Ausführungsform brauchen die Register nicht auf einen bestimmten Schaltungstyp beschränkt zu sein. Vielmehr kann ein Register in mindestens einer Ausführungsform Daten speichern, Daten bereitstellen und die hierin beschriebenen Funktionen ausführen. In mindestens einer Ausführungsform können die hierin beschriebenen Register durch Schaltkreise innerhalb eines Prozessors unter Verwendung einer beliebigen Anzahl verschiedener Techniken implementiert sein, wie z.B. dedizierte physische Register, dynamisch zugewiesene physische Register unter Verwendung von Registerumbenennung, Kombinationen aus dedizierten und dynamisch zugewiesenen physischen Registern usw. In mindestens einer Ausführungsform speichern Ganzzahlregister 32-Bit-Ganzzahl-Daten. Eine Registerdatei von mindestens einer Ausführungsform enthält auch acht Multimedia-SIMD-Registerfür gepackte Daten.In at least one embodiment, the term “registers” may refer to processor-internal memory locations that may be used as part of instructions to identify operands. In at least one embodiment, the registers may be those that may be usable from outside a processor (from a programmer's perspective). In at least one embodiment, the registers need not be limited to a particular type of circuit. Rather, in at least one embodiment, a register may store data, provide data, and perform the functions described herein. In at least one embodiment, the registers described herein may be implemented by circuits within a processor using any number of different techniques, such as dedicated physical registers, dynamically allocated physical registers using register renaming, combinations of dedicated and dynamically allocated physical registers, etc. In In at least one embodiment, integer registers store 32-bit integer data. A register file of at least one embodiment also includes eight multimedia SIMD packed data registers.

In mindestens einer Ausführungsform werden ein oder mehrere in 22 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 22 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 22 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 22 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 22 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 22 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 22 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 22 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

23 zeigt einen Prozessor 2300, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform beinhaltet der Prozessor 2300, ohne Beschränkung darauf, einen oder mehrere Prozessorkerne („Kerne“) 2302A-2302N, einen integrierten Speichercontroller 2314 und einen integrierten Grafikprozessor 2308. In mindestens einer Ausführungsform kann der Prozessor 2300 zusätzliche Kerne bis hin zu und einschließlich des zusätzlichen Prozessorkerns 2302N enthalten, der durch gestrichelte, linierte Kästen dargestellt ist. In mindestens einer Ausführungsform enthält jeder der Prozessorkerne 2302A-2302N eine oder mehrere interne Cacheeinheiten 2304A-2304N. In mindestens einer Ausführungsform hat jeder Prozessorkern auch Zugriff auf eine oder mehrere gemeinsam genutzte Cacheeinheiten 2306. 23 shows a processor 2300, in accordance with at least one embodiment. In at least one embodiment, the processor 2300 includes, but is not limited to, one or more processor cores (“Cores”) 2302A-2302N, an integrated memory controller 2314, and an integrated graphics processor 2308. In at least one embodiment, the processor 2300 may include additional cores up to and including the additional processor core 2302N, shown by dashed lined boxes. In at least one embodiment, each of the processor cores 2302A-2302N includes one or more internal cache units 2304A-2304N. In at least one embodiment, each processor core also has access to one or more shared cache units 2306.

In mindestens einer Ausführungsform repräsentieren die internen Cacheeinheiten 2304A-2304N und die gemeinsam genutzten Cacheeinheiten 2306 eine Cachespeicherhierarchie innerhalb des Prozessors 2300. In mindestens einer Ausführungsform können die Cachespeichereinheiten 2304A-2304N mindestens eine Ebene von Befehls- und Daten-Cache innerhalb jedes Prozessorkerns und eine oder mehrere Ebenen von gemeinsam genutztem Mid-Level-Cache, wie z.B. L2, L3, Ebene 4 („L4“) oder andere Cacheebenen, beinhalten, wobei eine höchste Cacheebene vor dem externen Speicher als LLC klassifiziert ist. In mindestens einer Ausführungsform hält die Cache-Kohärenzlogik die Kohärenz zwischen verschiedenen Cacheeinheiten 2306 und 2304A-2304N aufrecht.In at least one embodiment, the internal cache units 2304A-2304N and the shared cache units 2306 represent a cache memory hierarchy within the processor 2300. In at least one embodiment, the cache memory units 2304A-2304N may include at least one level of instruction and data cache within each processor core and one or more include multiple levels of shared mid-level cache, such as L2, L3, Level 4 (“L4”), or other cache levels, with a highest cache level prior to external storage classified as LLC. In at least one embodiment, cache coherence logic maintains coherency between different cache units 2306 and 2304A-2304N.

In mindestens einer Ausführungsform kann der Prozessor 2300 auch einen Satz von einer oder mehreren Buscontrollereinheiten 2316 und einen Systemagent-Kern 2310 enthalten. In mindestens einer Ausführungsform verwalten eine oder mehrere Buscontrollereinheiten 2316 einen Satz von Peripheriebussen, wie z.B. einen oder mehrere PCI- oder PCI-Express-Busse. In mindestens einer Ausführungsform stellt der Systemagent-Kern 2310 Verwaltungsfunktionen für verschiedene Prozessorkomponenten bereit. In mindestens einer Ausführungsform enthält der Systemagent-Kern 2310 einen oder mehrere integrierte Speichercontroller 2314 zur Verwaltung des Zugriffs auf verschiedene externe Speichervorrichtungen (nicht gezeigt).In at least one embodiment, processor 2300 may also include a set of one or more bus controller units 2316 and a system agent core 2310. In at least one embodiment, one or more bus controller units 2316 manage a set of peripheral buses, such as one or more PCI or PCI Express buses. In at least one embodiment, the system agent core 2310 provides management functions for various processor components. In at least one embodiment, the system agent core 2310 includes one or more integrated storage controllers 2314 for managing access to various external storage devices (not shown).

In mindestens einer Ausführungsform beinhalten einer oder mehrere der Prozessorkerne 2302A-2302N Unterstützung für gleichzeitiges Multithreading. In mindestens einer Ausführungsform enthält der Systemagent-Kern 2310 Komponenten zum Koordinieren und Betreiben der Prozessorkerne 2302A-2302N während der Multithreading-Verarbeitung. In mindestens einer Ausführungsform kann der Systemagent-Kern 2310 zusätzlich eine Leistungssteuerungseinheit („PCU“) enthalten, die Logik und Komponenten zur Regelung eines oder mehrerer Leistungszustände der Prozessorkerne 2302A-2302N und des Grafikprozessors 2308 beinhaltet.In at least one embodiment, one or more of the processor cores 2302A-2302N include support for concurrent multithreading. In at least one embodiment, the system agent core 2310 includes components for coordinating and operating the processor cores 2302A-2302N during multithreaded processing. In at least one embodiment, the system agent core 2310 may additionally include a power control unit (“PCU”) that includes logic and components for controlling one or more performance states of the processor cores 2302A-2302N and the graphics processor 2308.

In mindestens einer Ausführungsform enthält der Prozessor 2300 zusätzlich einen Grafikprozessor 2308 zur Ausführung von Grafikverarbeitungsoperationen. In mindestens einer Ausführungsform ist der Grafikprozessor 2308 mit gemeinsam genutzten Cacheeinheiten 2306 und dem Systemagent-Kern 2310 gekoppelt, einschließlich eines oder mehrerer integrierter Speichercontroller 2314. In mindestens einer Ausführungsform enthält der Systemagent-Kern 2310 auch einen Anzeigecontroller 2311, um die Ausgabe des Grafikprozessors an ein oder mehrere gekoppelte Anzeigen zu steuern. In mindestens einer Ausführungsform kann der Anzeigecontroller 2311 auch ein separates Modul sein, das über mindestens eine Verbindung bzw. einen Interconnect mit dem Grafikprozessor 2308 gekoppelt ist, oder kann in den Grafikprozessor 2308 integriert sein.In at least one embodiment, processor 2300 additionally includes a graphics processor 2308 for performing graphics processing operations. In at least one embodiment, the graphics processor 2308 is coupled to shared cache units 2306 and the system agent core 2310, including one or more integrated memory controllers 2314. In at least one embodiment, the system agent core 2310 also includes a display controller 2311 to display the output of the graphics processor to control one or more paired displays. In at least one embodiment, the display controller 2311 may also be a separate module coupled to the graphics processor 2308 via at least one interconnect, or may be integrated into the graphics processor 2308.

In mindestens einer Ausführungsform wird eine ringbasierte Verbindungseinheit 2312 verwendet, um interne Komponenten des Prozessors 2300 zu koppeln. In mindestens einer Ausführungsform kann auch eine alternative Verbindungseinheit verwendet werden, z.B. eine Punkt-zu-Punkt-Verbindung, eine geschaltete Verbindung oder andere Techniken. In mindestens einer Ausführungsform ist der Grafikprozessor 2308 über eine E/A-Verbindung 2313 mit der Ringverbindung 2312 gekoppelt.In at least one embodiment, a ring-based connection unit 2312 is used to couple internal components of the processor 2300. In at least one embodiment, an alternative connection device may also be used, such as a point-to-point connection, a switched connection, or other techniques. In at least one embodiment, the graphics processor 2308 is coupled to the ring connection 2312 via an I/O connection 2313.

In mindestens einer Ausführungsform repräsentiert die E/A-Verbindung 2313 mindestens eine von mehreren Arten von E/A-Verbindungen, einschließlich einer On-Package-E/A-Verbindung, die die Kommunikation zwischen verschiedenen Prozessorkomponenten und einem eingebetteten Hochleistungsspeichermodul 2318, wie z.B. einem eDRAM-Modul, erleichtert. In mindestens einer Ausführungsform verwenden jeder der Prozessorkerne 2302A-2302N und der Grafikprozessor 2308 eingebettete Speichermodule 2318 als gemeinsame LLC.In at least one embodiment, the I/O connection 2313 represents at least one of several types of I/O connections, including an on-package I/O connection that enables communication between various processor components and an embedded high-performance memory module 2318, such as. an eDRAM module. In at least one embodiment, each of the processor cores 2302A-2302N and the graphics processor 2308 use embedded memory modules 2318 as a common LLC.

In mindestens einer Ausführungsform sind die Prozessorkerne 2302A-2302N homogene Kerne, die eine gemeinsame Befehlssatzarchitektur ausführen. In mindestens einer Ausführungsform sind die Prozessorkerne 2302A-2302N heterogen in Bezug auf die ISA, wobei ein oder mehrere Prozessorkerne 2302A-2302N einen gemeinsamen Befehlssatz ausführen, während ein oder mehrere andere Kerne der Prozessorkerne 2302A-23-02N eine Teilmenge eines gemeinsamen Befehlssatzes oder einen anderen Befehlssatz ausführen. In mindestens einer Ausführungsform sind die Prozessorkerne 2302A-2302N in Bezug auf die Mikroarchitektur heterogen, wobei ein oder mehrere Kerne mit einer relativ höheren Leistungsaufnahme mit einem oder mehreren Kernen mit einer niedrigeren Leistungsaufnahme gekoppelt sind. In mindestens einer Ausführungsform kann der Prozessor 2300 auf einem oder mehreren Chips oder als integrierte SoC-Schaltung implementiert sein.In at least one embodiment, processor cores 2302A-2302N are homogeneous cores that execute a common instruction set architecture. In at least one embodiment, the processor cores 2302A-2302N are heterogeneous with respect to the ISA, with one or more processor cores 2302A-2302N executing a common instruction set, while one or more other cores of the processor cores 2302A-23-02N execute a subset or a common instruction set execute a different set of commands. In at least one embodiment, the processor cores 2302A-2302N are heterogeneous in terms of microarchitecture, with one or more relatively higher power cores coupled to one or more lower power cores. In at least one embodiment, the processor 2300 may be implemented on one or more chips or as an integrated SoC circuit.

In mindestens einer Ausführungsform werden ein oder mehrere in 23 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 23 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 23 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 23 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 23 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 23 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 23 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 23 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

24 veranschaulicht einen Grafikprozessorkern 2400, in Übereinstimmung mit mindestens einer beschriebenen Ausführungsform. In mindestens einer Ausführungsform ist der Grafikprozessorkern 2400 in einem Grafikkern-Array enthalten. In mindestens einer Ausführungsform kann der Grafikprozessorkern 2400, der manchmal auch als ein Core Slice bezeichnet wird, ein oder mehrere Grafikkerne innerhalb eines modularen Grafikprozessors sein. In mindestens einer Ausführungsform ist der Grafikprozessorkern 2400 beispielhaft für ein Grafikkern-Slice, und ein Grafikprozessor, wie hierin beschrieben, kann mehrere Grafikkern-Slices enthalten, die auf den angestrebten Energie- und Leistungsumfängen basieren. In mindestens einer Ausführungsform kann jeder Grafikkern 2400 einen Festfunktionsblock 2430 enthalten, der mit mehreren Subkernen 2401A-2401 F gekoppelt ist, die auch als Sub-Slices bezeichnet werden und modulare Blöcke von Logik allgemeiner und fester Funktion enthalten. 24 illustrates a graphics processor core 2400, in accordance with at least one described embodiment. In at least one embodiment, the graphics processor core 2400 is included in a graphics core array. In at least one embodiment, the graphics processor core 2400, sometimes referred to as a core slice, may be one or more graphics cores within a modular graphics processor. In at least one embodiment, the graphics processor core 2400 is exemplary of a graphics core slice, and a graphics processor as described herein may include multiple graphics core slices based on desired power and performance levels. In at least one embodiment, each graphics core 2400 may include a fixed-function block 2430 coupled to multiple sub-cores 2401A-2401F, also referred to as sub-slices, containing modular blocks of general and fixed-function logic.

In mindestens einer Ausführungsform beinhaltet der Festfunktionsblock 2430 eine Geometrie/Festfunktions-Pipeline 2436, die von allen Subkernen in dem Grafikprozessor 2400, z.B. in Grafikprozessor-Implementierungen mit geringerer Leistung und/oder geringerem Energieverbrauch, gemeinsam genutzt werden kann. In mindestens einer Ausführungsform beinhaltet die Geometrie/Festfunktions-Pipeline 2436 eine 3D-Festfunktions-Pipeline, eine Video-Frontend-Einheit, einen Thread-Spawner und Thread-Dispatcher sowie einen Unified Return Puffer-Manager, der Unified Return Puffer verwaltet.In at least one embodiment, the fixed function block 2430 includes a geometry/fixed function pipeline 2436 that is used by all subcores in the graphics processor 2400, for example in graphics processor Implementations with lower performance and/or lower energy consumption can be shared. In at least one embodiment, the geometry/fixed function pipeline 2436 includes a 3D fixed function pipeline, a video frontend unit, a thread spawner and thread dispatcher, and a unified return buffer manager that manages unified return buffers.

In mindestens einer Ausführungsform beinhaltet der Festfunktionsblock 2430 darüber hinaus eine Grafik-SoC-Schnittstelle 2437, einen Grafik-Mikrocontroller 2438 und eine Medienpipeline 2439. Die Grafik-SoC-Schnittstelle 2437 stellt eine Schnittstelle zwischen dem Grafikkern 2400 und anderen Prozessorkernen innerhalb einer integrierten SoC-Schaltung bereit. In mindestens einer Ausführungsform ist der Grafik-Mikrocontroller 2438 ein programmierbarer Subprozessor, der so konfiguriert werden kann, dass er verschiedene Funktionen des Grafikprozessors 2400 verwaltet, einschließlich Thread-Versendung, Planung und Präemption. In mindestens einer Ausführungsform enthält die Medienpipeline 2439 Logik zur Erleichterung der Dekodierung, Kodierung, Vorverarbeitung und/oder Nachverarbeitung von Multimediadaten, einschließlich Bild- und Videodaten. In mindestens einer Ausführungsform implementiert die Medienpipeline 2439 Medienoperationen über Anforderungen an die Rechen- oder Abtastlogik innerhalb der Subkerne 2401-2401 F.In at least one embodiment, the fixed function block 2430 further includes a graphics SoC interface 2437, a graphics microcontroller 2438, and a media pipeline 2439. The graphics SoC interface 2437 provides an interface between the graphics core 2400 and other processor cores within an integrated SoC Circuit ready. In at least one embodiment, graphics microcontroller 2438 is a programmable subprocessor that can be configured to manage various functions of graphics processor 2400, including thread dispatch, scheduling, and preemption. In at least one embodiment, the media pipeline 2439 includes logic to facilitate decoding, encoding, pre-processing, and/or post-processing of multimedia data, including image and video data. In at least one embodiment, the media pipeline 2439 implements media operations via requests to compute or sensing logic within the subcores 2401-2401F.

In mindestens einer Ausführungsform ermöglicht die SoC-Schnittstelle 2437 dem Grafikkern 2400 die Kommunikation mit Mehrzweck-Anwendungsprozessorkernen (z.B. CPUs) und/oder anderen Komponenten innerhalb eines SoC, einschließlich Speicherhierarchieelementen wie einem gemeinsam genutzten LLC-Speicher, System-RAM und/oder eingebettetem On-Chip- oder On-Package-DRAM. In mindestens einer Ausführungsform kann die SoC-Schnittstelle 2437 auch Kommunikation mit Vorrichtungen mit fester Funktion innerhalb eines SoCs ermöglichen, wie z.B. Kamera-Bildgebungs-Pipelines, und ermöglicht sie die Verwendung von und/oder implementiert globale(n) Speicheratome(n), die von einem Grafikkern 2400 und CPUs innerhalb eines SoCs gemeinsam genutzt werden können. In mindestens einer Ausführungsform kann die SoC-Schnittstelle 2437 auch Energieverwaltungssteuerungen für den Grafikkern 2400 implementieren und eine Schnittstelle zwischen einer Taktdomäne des Grafikkerns 2400 und anderen Taktdomänen innerhalb eines SoCs ermöglichen. In mindestens einer Ausführungsform ermöglicht die SoC-Schnittstelle 2437 den Empfang von Befehlspuffern von einem Befehlsstreamer und einem globalen Thread-Dispatcher, die so konfiguriert sind, dass sie Befehle und Anweisungen für jeden von einem oder mehreren Grafikkernen innerhalb eines Grafikprozessors bereitstellen. In mindestens einer Ausführungsform können Befehle und Anweisungen an die Medienpipeline 2439 gesendet werden, wenn Medienoperationen durchzuführen sind, oder an eine Geometrie- und Festfunktions-Pipeline (z.B. die Geometrie- und Festfunktions-Pipeline 2436, die Geometrie- und Festfunktions-Pipeline 2414), wenn Grafikverarbeitungsoperationen durchzuführen sind.In at least one embodiment, the SoC interface 2437 enables the graphics core 2400 to communicate with general-purpose application processor cores (e.g., CPUs) and/or other components within an SoC, including memory hierarchy elements such as shared LLC memory, system RAM, and/or embedded On -Chip or on-package DRAM. In at least one embodiment, the SoC interface 2437 may also enable communication with fixed-function devices within an SoC, such as camera imaging pipelines, and enables the use of and/or implements global memory atoms can be shared between a graphics core 2400 and CPUs within a SoC. In at least one embodiment, the SoC interface 2437 may also implement power management controls for the graphics core 2400 and enable an interface between a clock domain of the graphics core 2400 and other clock domains within an SoC. In at least one embodiment, the SoC interface 2437 enables the receipt of command buffers from a command streamer and a global thread dispatcher that are configured to provide commands and instructions to each of one or more graphics cores within a graphics processor. In at least one embodiment, commands and instructions may be sent to the media pipeline 2439 when media operations are to be performed, or to a geometry and fixed function pipeline (e.g., the geometry and fixed function pipeline 2436, the geometry and fixed function pipeline 2414), when graphics processing operations need to be performed.

In mindestens einer Ausführungsform kann der Grafik-Mikrocontroller 2438 so konfiguriert sein, dass er verschiedene Planungs- und Verwaltungsaufgaben für den Grafikkern 2400 durchführt. In mindestens einer Ausführungsform kann der Grafik-Mikrocontroller 2438 die Planung von Grafik- und/oder Rechenlasten auf verschiedenen parallelen Grafik-Engines in den Arrays 2402A-2402F, 2404A-2404F der Ausführungseinheiten (EU) in den Subkernen 2401A-2401 F durchführen. In mindestens einer Ausführungsform kann Hostsoftware, die auf einem CPU-Kern eines SoC mit Grafikkern 2400 ausgeführt wird, Arbeitslasten an eine von mehreren Grafikprozessor-Doorbells übermitteln, die einen Planungsvorgang auf einer geeigneten Grafik-Engine aufruft. In mindestens einer Ausführungsform umfassen die Planungsvorgänge ein Bestimmen, welche Arbeitslast als nächstes auszuführen ist, ein Übermitteln einer Arbeitslast an einen Befehlsstreamer, ein Vorziehen bestehender Arbeitslasten, die auf einer Engine laufen, ein Überwachen des Fortschritts einer Arbeitslast und ein Benachrichtigen der Hostsoftware, wenn eine Arbeitslast abgeschlossen ist. In mindestens einer Ausführungsform kann der Grafik-Mikrocontroller 2438 auch Stromsparzustände oder Leerlaufzustände für den Grafikkern 2400 erleichtern, indem er dem Grafikkern 2400 eine Fähigkeit bereitstellt, Register innerhalb des Grafikkerns 2400 über Stromsparzustandsübergänge hinweg unabhängig von einem Betriebssystem und/oder einer Grafiktreibersoftware auf einem System zu speichern und wiederherzustellen.In at least one embodiment, graphics microcontroller 2438 may be configured to perform various scheduling and management tasks for graphics core 2400. In at least one embodiment, the graphics microcontroller 2438 may perform scheduling of graphics and/or compute workloads on various parallel graphics engines in the execution unit (EU) arrays 2402A-2402F, 2404A-2404F in the subcores 2401A-2401F. In at least one embodiment, host software running on a CPU core of a SoC with graphics core 2400 may submit workloads to one of multiple graphics processor doorbells, which invokes a scheduling operation on an appropriate graphics engine. In at least one embodiment, the scheduling operations include determining which workload to execute next, submitting a workload to a command streamer, preempting existing workloads running on an engine, monitoring the progress of a workload, and notifying the host software when a Workload is completed. In at least one embodiment, the graphics microcontroller 2438 may also facilitate power save states or idle states for the graphics core 2400 by providing the graphics core 2400 with a capability to access registers within the graphics core 2400 across power save state transitions independent of an operating system and/or graphics driver software on a system save and restore.

In mindestens einer Ausführungsform kann der Grafikkern 2400 mehr oder weniger als die dargestellten Subkerne 2401A-2401 F haben, bis hin zu N modularen Subkernen. Für jeden Satz von N Subkernen kann der Grafikkern 2400 in mindestens einer Ausführungsform auch eine gemeinsam genutzte Funktionslogik 2410, einen gemeinsam genutzten Speicher und/oder Cachespeicher 2412, eine Geometrie-/ Festfunktions-Pipeline 2414 sowie eine zusätzliche Festfunktionslogik 2416 zur Beschleunigung verschiedener Grafik- und Rechenverarbeitungsvorgänge beinhalten. In mindestens einer Ausführungsform kann die gemeinsam genutzte Funktionslogik 2410 Logikeinheiten (z.B. Sampler-, Mathematik- und/oder Inter-Thread-Kommunikationslogik) umfassen, die von allen N Subkernen innerhalb des Grafikkerns 2400 gemeinsam genutzt werden können. Der gemeinsam genutzte Speicher und/oder Cachespeicher 2412 kann ein LLC für N Subkerne 2401 A-2401 F innerhalb des Grafikkerns 2400 sein und kann auch als gemeinsam genutzter Speicher dienen, auf den mehrere Subkerne zugreifen können. In mindestens einer Ausführungsform kann die Geometrie-/Festfunktions-Pipeline 2414 anstelle der Geometrie-ZFestfunktions-Pipeline 2436 innerhalb des Festfunktionsblocks 2430 enthalten sein und kann gleiche oder ähnliche Logikeinheiten beinhalten.In at least one embodiment, the graphics core 2400 may have more or fewer than the illustrated sub-cores 2401A-2401F, up to N modular sub-cores. For each set of N subcores, in at least one embodiment, the graphics core 2400 may also include shared function logic 2410, shared memory and/or cache 2412, a geometry/fixed function pipeline 2414, and additional fixed function logic 2416 for accelerating various graphics and Include computational processing operations. In at least one embodiment, shared functional logic 2410 may include logic units (e.g., sampler, math, and/or inter-thread communication logic) that may be shared by all N subcores within graphics core 2400. The shared memory and/or cache 2412 may be an LLC for N subcores 2401A-2401F within the graphics core 2400 and may also be shared Memory that can be accessed by multiple subcores. In at least one embodiment, the geometry/fixed function pipeline 2414 may be included within the fixed function block 2430 instead of the geometry/fixed function pipeline 2436 and may include the same or similar logic units.

In mindestens einer Ausführungsform beinhaltet der Grafikkern 2400 zusätzliche feste Funktionslogik 2416, die verschiedene feste Funktionsbeschleunigungslogik zur Verwendung durch den Grafikkern 2400 enthalten kann. In mindestens einer Ausführungsform umfasst die zusätzliche Festfunktionslogik 2416 eine zusätzliche Geometrie-Pipeline für die Verwendung im positionsabhängigen Shading. Bei positionsabhängigem Shading existieren mindestens zwei Geometrie-Pipelines, d.h. eine vollständige Geometrie-Pipeline innerhalb der Geometrie/Festfunktions-Pipeline 2416, 2436, und eine Cull-Pipeline, bei der es sich um eine zusätzliche Geometrie-Pipeline handelt, die in der zusätzlichen Festfunktionslogik 2416 enthalten sein kann. In mindestens einer Ausführungsform ist die Cull-Pipeline eine abgespeckte Version einer vollständigen Geometrie-Pipeline. In mindestens einer Ausführungsform können eine vollständige Pipeline und eine Cull-Pipeline unterschiedliche Instanzen einer Anwendung ausführen, wobei jede Instanz einen separaten Kontext hat. In mindestens einer Ausführungsform kann positionsabhängiges Shading lange Cull-Läufe von verworfenen Dreiecken ausblenden, wodurch das Shading in einigen Fällen früher abgeschlossen werden kann. Zum Beispiel kann in mindestens einer Ausführungsform die Cull-Pipeline-Logik innerhalb der zusätzlichen Festfunktionslogik 2416 Positions-Shader parallel zu einer Hauptanwendung ausführen und generiert im Allgemeinen kritische Ergebnisse schneller als eine vollständige Pipeline, da eine Cull-Pipeline ein Positionsattribut von Vertices abruft und schattiert, ohne eine Rasterung und ein Rendering von Pixeln in einen Frame-Buffer durchzuführen. In mindestens einer Ausführungsform kann eine Cull-Pipeline generierte kritische Ergebnisse verwenden, um Sichtbarkeitsinformationen für alle Dreiecke zu berechnen, ohne Rücksicht darauf, ob diese Dreiecke gecullt sind. In mindestens einer Ausführungsform kann eine vollständige Pipeline (die in diesem Fall als eine Replay-Pipeline bezeichnet werden kann) Sichtbarkeitsinformationen verwenden, um gecullte Dreiecke zu überspringen, um nur sichtbare Dreiecke zu schattieren, die schließlich an eine Rasterisierungsphase übergeben werden.In at least one embodiment, graphics core 2400 includes additional fixed function logic 2416, which may include various fixed function acceleration logic for use by graphics core 2400. In at least one embodiment, the additional fixed function logic 2416 includes an additional geometry pipeline for use in position-dependent shading. With position-dependent shading, there are at least two geometry pipelines, i.e. a full geometry pipeline within the geometry/fixed function pipeline 2416, 2436, and a cull pipeline, which is an additional geometry pipeline contained in the additional fixed function logic 2416 can be included. In at least one embodiment, the cull pipeline is a stripped down version of a full geometry pipeline. In at least one embodiment, a full pipeline and a cull pipeline may execute different instances of an application, with each instance having a separate context. In at least one embodiment, position-dependent shading may hide long cull runs of discarded triangles, allowing shading to complete sooner in some cases. For example, in at least one embodiment, the cull pipeline logic within the additional fixed function logic 2416 can execute position shaders in parallel with a main application and generally generates critical results faster than a full pipeline because a cull pipeline retrieves and shades a position attribute of vertices , without rasterizing and rendering pixels into a frame buffer. In at least one embodiment, a cull pipeline may use generated critical results to calculate visibility information for all triangles, regardless of whether those triangles are culled. In at least one embodiment, a complete pipeline (which in this case may be referred to as a replay pipeline) may use visibility information to skip culled triangles in order to shade only visible triangles, which are ultimately passed to a rasterization phase.

In mindestens einer Ausführungsform kann die zusätzliche Festfunktionslogik 2416 auch eine allgemeine Verarbeitungsbeschleunigungslogik, wie z.B. eine Festfunktions-Matrixmultiplikationslogik, zur Beschleunigung von CUDA-Programmen beinhalten.In at least one embodiment, the additional fixed-function logic 2416 may also include general processing acceleration logic, such as fixed-function matrix multiplication logic, for accelerating CUDA programs.

In mindestens einer Ausführungsform enthält jeder Grafiksubkern 2401A-2401 F einen Satz von Ausführungsressourcen, die verwendet werden können, um Grafik-, Medien- und Rechenoperationen im Ansprechen auf Anforderungen von Grafikpipeline-, Medienpipeline- oder Shader-Programmen durchzuführen. In mindestens einer Ausführungsform beinhalten die Grafiksubkerne 2401A-2401 F mehrere EU-Arrays 2402A-2402F, 2404A-2404F, Thread-Dispatch- und Inter-Thread-Kommunikationslogik („TD/IC“) 2403A-2403F, einen 3D (z.B. Textur-)- Sampler 2405A-2405F, einen Media-Sampler 2406A-2406F, einen Shader-Prozessor 2407A-2407F und gemeinsam genutzten lokalen Speicher („SLM“) 2408A-2408F. Die EU-Arrays 2402A-2402F, 2404A-2404F enthalten jeweils mehrere Ausführungseinheiten, welche GPGPUs sind, die in der Lage sind, Gleitkomma- und Ganzzahl-/Festkomma-Logikoperationen im Dienste einer Grafik-, Medien- oder Rechenoperation durchzuführen, einschließlich Grafik-, Medien- oder Rechen-Shader-Programmen. In mindestens einer Ausführungsform führt die TD/IC-Logik 2403A-2403F lokale Thread-Dispatch- und Thread-Steuerungsoperationen für Ausführungseinheiten innerhalb eines Subkerns durch und erleichtert Kommunikation zwischen Threads, die auf Ausführungseinheiten eines Subkerns ausgeführt werden. In mindestens einer Ausführungsform kann der 3D-Sampler 2405A-2405F Textur- oder andere auf 3D-Grafik bezogene Daten in den Speicher einlesen. In mindestens einer Ausführungsform kann der 3D-Sampler Texturdaten auf der Grundlage eines konfigurierten Abtaststatus und eines Texturformats, das mit einer bestimmten Textur verbunden ist, unterschiedlich lesen. In mindestens einer Ausführungsform kann der Media-Sampler 2406A-2406F ähnliche Lesevorgänge auf der Grundlage eines Typs und eines Formats durchführen, die mit den Mediendaten verbunden sind. In mindestens einer Ausführungsform kann jeder Grafik-Subkern 2401A-2401 F abwechselnd einen vereinheitlichten 3D- und Medien-Sampler enthalten. In mindestens einer Ausführungsform können Threads, die auf Ausführungseinheiten innerhalb jedes der Subkerne 2401A-2401 F ausgeführt werden, den gemeinsamen lokalen Speicher 2408A-2408F innerhalb jedes Subkerns nutzen, damit Threads, die innerhalb einer Thread-Gruppe ausgeführt werden, unter Verwendung eines gemeinsamen Pools von On-Chip-Speicher ausgeführt werden können.In at least one embodiment, each graphics subcore 2401A-2401F includes a set of execution resources that can be used to perform graphics, media, and computing operations in response to requests from graphics pipeline, media pipeline, or shader programs. In at least one embodiment, the graphics subcores 2401A-2401F include multiple EU arrays 2402A-2402F, 2404A-2404F, thread dispatch and inter-thread communication logic ("TD/IC") 2403A-2403F, a 3D (e.g. texture) )- sampler 2405A-2405F, a media sampler 2406A-2406F, a shader processor 2407A-2407F and shared local memory (“SLM”) 2408A-2408F. The EU 2402A-2402F, 2404A-2404F arrays each contain multiple execution units, which are GPGPUs capable of performing floating-point and integer/fixed-point logic operations in service of a graphics, media, or computing operation, including graphics , media or computing shader programs. In at least one embodiment, TD/IC logic 2403A-2403F performs local thread dispatch and thread control operations for execution units within a subcore and facilitates communication between threads executing on execution units of a subcore. In at least one embodiment, the 3D sampler 2405A-2405F may read texture or other 3D graphics-related data into memory. In at least one embodiment, the 3D sampler may read texture data differently based on a configured sampling state and a texture format associated with a particular texture. In at least one embodiment, the media sampler 2406A-2406F may perform similar reads based on a type and format associated with the media data. In at least one embodiment, each graphics subcore 2401A-2401F may alternately contain a unified 3D and media sampler. In at least one embodiment, threads executing on execution units within each of subcores 2401A-2401F may utilize shared local memory 2408A-2408F within each subcore, so that threads executing within a thread group may use a shared pool from on-chip memory.

In mindestens einer Ausführungsform werden ein oder mehrere in 24 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 24 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in In at least one embodiment, one or more in 24 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 24 presented systems for implementing the API ver to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in

24 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 24 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind. 24 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 24 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

25 veranschaulicht eine Parallelverarbeitungseinheit („PPU“) 2500, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist die PPU 2500 mit maschinenlesbarem Code konfiguriert, der, wenn er von der PPU 2500 ausgeführt wird, die PPU 2500 veranlasst, einige oder alle der hierin beschriebenen Prozesse und Techniken durchzuführen. In mindestens einer Ausführungsform ist die PPU 2500 ein Multi-Thread-Prozessor, der auf einer oder mehreren Vorrichtungen mit integrierten Schaltkreisen implementiert ist und der Multithreading als eine latenzverbergende Technik nutzt, um computerlesbare Anweisungen (auch als maschinenlesbare Anweisungen oder einfach Anweisungen bezeichnet) auf mehreren Threads parallel zu verarbeiten. In mindestens einer Ausführungsform bezieht sich ein Thread auf einen Ausführungs-Thread und ist eine Instanziierung eines Satzes von Anweisungen, die zur Ausführung durch die PPU 2500 konfiguriert sind. In mindestens einer Ausführungsform ist die PPU 2500 eine GPU, die so konfiguriert ist, dass sie eine Grafik-Rendering-Pipeline zur Verarbeitung dreidimensionaler („3D“) Grafikdaten implementiert, um zweidimensionale („2D“) Bilddaten zur Anzeige auf einer Anzeigevorrichtung, wie z.B. einer LCD-Vorrichtung, zu erzeugen. In mindestens einer Ausführungsform wird die PPU 2500 verwendet, um Berechnungen wie lineare Algebra-Operationen und Machine-Learning-Operationen durchzuführen. 25 veranschaulicht ein Beispiel für einen Parallelprozessor nur zu darstellenden Zwecken und ist als nicht ein beschränkendes Beispiel für eine Prozessorarchitektur zu verstehen, die in mindestens einer Ausführungsform implementiert sein kann. 25 illustrates a parallel processing unit (“PPU”) 2500, in accordance with at least one embodiment. In at least one embodiment, the PPU 2500 is configured with machine-readable code that, when executed by the PPU 2500, causes the PPU 2500 to perform some or all of the processes and techniques described herein. In at least one embodiment, the PPU 2500 is a multi-threaded processor implemented on one or more integrated circuit devices and that utilizes multi-threading as a latency-hiding technique to execute computer-readable instructions (also referred to as machine-readable instructions or simply instructions) on multiple Processing threads in parallel. In at least one embodiment, a thread refers to a thread of execution and is an instantiation of a set of instructions configured for execution by the PPU 2500. In at least one embodiment, the PPU 2500 is a GPU configured to implement a graphics rendering pipeline for processing three-dimensional ("3D") graphics data to produce two-dimensional ("2D") image data for display on a display device, such as e.g. an LCD device. In at least one embodiment, the PPU 2500 is used to perform calculations such as linear algebra operations and machine learning operations. 25 illustrates an example of a parallel processor for illustrative purposes only and is not intended to be a limiting example of a processor architecture that may be implemented in at least one embodiment.

In mindestens einer Ausführungsform sind eine oder mehrere PPUs 2500 so konfiguriert, dass sie High Performance Computing („HPC“)-, Rechenzentrums- und Machine Learning-Anwendungen beschleunigen. In mindestens einer Ausführungsform sind eine oder mehrere PPUs 2500 für die Beschleunigung von CUDA-Programmen konfiguriert. In mindestens einer Ausführungsform beinhaltet die PPU 2500, ohne Beschränkung darauf, eine E/A-Einheit 2506, eine Frontend-Einheit 2510, eine Scheduler-Einheit 2512, eine Arbeitsverteilungseinheit 2514, einen Hub 2516, eine Kreuzschiene bzw. Crossbar („Xbar“) 2520, einen oder mehrere Universalverarbeitungscluster („GPCs“) 2518 und eine oder mehrere Partitionseinheiten („Speicherpartitionseinheiten“) 2522. In mindestens einer Ausführungsform ist die PPU 2500 mit einem Hostprozessor oder anderen PPUs 2500 über eine oder mehrere Hochgeschwindigkeits-GPU-Verbindungen („GPU-Interconnects“) 2508 verbunden. In mindestens einer Ausführungsform ist die PPU 2500 über einen Systembus oder eine Zwischenverbindung bzw. einen Interconnect 2502 mit einem Hostprozessor oder anderen Peripheriegeräten verbunden. In mindestens einer Ausführungsform ist die PPU 2500 mit einem lokalen Speicher verbunden, der ein oder mehrere Speichervorrichtungen („Speicher“) 2504 umfasst. In mindestens einer Ausführungsform beinhalten die Speichervorrichtungen 2504, ohne Beschränkung darauf, eine oder mehrere DRAM-Vorrichtungen (Dynamic Random Access Memory). In mindestens einer Ausführungsform sind eine oder mehrere DRAM-Vorrichtungen als Hochbandbreitenspeicher („HBM“)-Subsysteme konfiguriert und/oder konfigurierbar, wobei mehrere DRAM-Chips innerhalb jeder Vorrichtung gestapelt sind.In at least one embodiment, one or more PPUs 2500 are configured to accelerate high performance computing (“HPC”), data center, and machine learning applications. In at least one embodiment, one or more PPUs 2500 are configured to accelerate CUDA programs. In at least one embodiment, the PPU 2500 includes, but is not limited to, an I/O unit 2506, a frontend unit 2510, a scheduler unit 2512, a work distribution unit 2514, a hub 2516, a crossbar (“Xbar”) ) 2520, one or more general purpose processing clusters ("GPCs") 2518, and one or more partition units ("storage partition units") 2522. In at least one embodiment, the PPU 2500 is connected to a host processor or other PPUs 2500 via one or more high-speed GPU connections ( “GPU interconnects”) 2508 connected. In at least one embodiment, the PPU 2500 is connected to a host processor or other peripheral devices via a system bus or interconnect 2502. In at least one embodiment, the PPU 2500 is connected to a local storage that includes one or more storage devices (“memory”) 2504. In at least one embodiment, memory devices 2504 include, but are not limited to, one or more dynamic random access memory (DRAM) devices. In at least one embodiment, one or more DRAM devices are configured and/or configurable as high-bandwidth memory ("HBM") subsystems, with multiple DRAM chips stacked within each device.

In mindestens einer Ausführungsform kann sich die Hochgeschwindigkeits-GPU-Verbindung 2508 auf eine drahtgebundene Mehrspur-Kommunikations-verbindung beziehen, die von Systemen verwendet wird, um zu skalieren und die eine oder mehrere PPUs 2500 in Kombination mit einer oder mehreren CPUs umfassen, die Cache-Kohärenz zwischen PPUs 2500 und CPUs sowie CPU-Mastering unterstützen. In mindestens einer Ausführungsform werden Daten und/oder Befehle über die Hochgeschwindigkeits-GPU-Verbindung 2508 durch den Hub 2516 zu/von anderen Einheiten der PPU 2500, wie z.B. einer oder mehreren Kopiermaschinen, Videokodierern, Video-Dekodierern, Energieverwaltungs-einheiten und anderen Komponenten, die in 25 möglicherweise nicht explizit dargestellt sind, übertragen.In at least one embodiment, the high-speed GPU connection 2508 may refer to a wired multi-lane communications connection used by systems to scale and that include one or more PPUs 2500 in combination with one or more CPUs that provide cache -Coherence between PPUs 2500 and CPUs and support CPU mastering. In at least one embodiment, data and/or commands are transmitted over the high-speed GPU connection 2508 through the hub 2516 to/from other units of the PPU 2500, such as one or more copy machines, video encoders, video decoders, power management units, and other components , in the 25 may not be explicitly shown.

In mindestens einer Ausführungsform ist die E/A-Einheit 2506 so konfiguriert, dass sie Kommunikationen (z.B. Befehle, Daten) von einem Hostprozessor (in 25 nicht dargestellt) über den Systembus 2502 sendet und empfängt. In mindestens einer Ausführungsform kommuniziert die E/A-Einheit 2506 mit dem Hostprozessor direkt über den Systembus 2502 oder über ein oder mehrere Zwischenvorrichtungen, wie z.B. eine Speicherbrücke. In mindestens einer Ausführungsform kann die E/A-Einheit 2506 über den Systembus 2502 mit einem oder mehreren anderen Prozessoren kommunizieren, z.B. mit einer oder mehreren der PPUs 2500. In mindestens einer Ausführungsform implementiert die E/A-Einheit 2506 eine PCIe-Schnittstelle für die Kommunikation über einen PCIe-Bus. In mindestens einer Ausführungsform implementiert die E/A-Einheit 2506 Schnittstellen für die Kommunikation mit externen Geräten.In at least one embodiment, I/O device 2506 is configured to receive communications (e.g., commands, data) from a host processor (in 25 not shown) sends and receives via the system bus 2502. In at least one embodiment, the I/O device 2506 communicates with the host processor directly via the system bus 2502 or via one or more intermediate devices, such as e.g. a memory bridge. In at least one embodiment, the I/O unit 2506 may communicate with one or more other processors, eg, with one or more of the PPUs 2500, via the system bus 2502. In at least one embodiment, the I/O unit 2506 implements a PCIe interface for communication via a PCIe bus. In at least one embodiment, the I/O device 2506 implements interfaces for communication with external devices.

In mindestens einer Ausführungsform dekodiert die E/A-Einheit 2506 über den Systembus 2502 empfangene Pakete. In mindestens einer Ausführungsform repräsentieren mindestens einige Pakete Befehle, die so konfiguriert sind, dass sie die PPU 2500 veranlassen, verschiedene Operationen durchzuführen. In mindestens einer Ausführungsform sendet die E/A-Einheit 2506 dekodierte Befehle an verschiedene andere Einheiten der PPU 2500, wie durch Befehle vorgegeben. In mindestens einer Ausführungsform werden Befehle an die Frontend-Einheit 2510 und/oder an den Hub 2516 oder andere Einheiten der PPU 2500, wie z.B. eine oder mehrere Kopiermaschinen, einen Videokodierer, einen Video-Dekodierer, eine Energieverwaltungseinheit usw., (in 25 nicht explizit dargestellt) übertragen. In mindestens einer Ausführungsform ist die E/A-Einheit 2506 so konfiguriert, dass sie die Kommunikation zwischen und unter verschiedenen logischen Einheiten der PPU 2500 routet bzw. leitet.In at least one embodiment, the I/O unit 2506 decodes packets received over the system bus 2502. In at least one embodiment, at least some packets represent commands configured to cause the PPU 2500 to perform various operations. In at least one embodiment, the I/O unit 2506 sends decoded commands to various other units of the PPU 2500 as specified by commands. In at least one embodiment, commands are sent to the front end unit 2510 and/or to the hub 2516 or other units of the PPU 2500, such as one or more copy machines, a video encoder, a video decoder, a power management unit, etc. (in 25 not explicitly shown). In at least one embodiment, the I/O unit 2506 is configured to route communications between and among various logical units of the PPU 2500.

In mindestens einer Ausführungsform kodiert ein von dem Hostprozessor ausgeführtes Programm einen Befehlsstrom in einem Puffer, der der PPU 2500 Arbeitslasten zur Verarbeitung bereitstellt. In mindestens einer Ausführungsform umfasst eine Arbeitslast Anweisungen und Daten, die von diesen Anweisungen zu verarbeiten sind. In mindestens einer Ausführungsform ist der Puffer eine Region in einem Speicher, auf die sowohl ein Hostprozessor als auch die PPU 2500 zugreifen können (z.B. Lesen/Schreiben) - eine Host-Schnittstelleneinheit kann so konfiguriert sein, dass sie auf einen Puffer in einem mit dem Systembus 2502 verbundenen Systemspeicher über Speicheranforderungen zugreift, die über den Systembus 2502 von der E/A-Einheit 2506 übertragen werden. In mindestens einer Ausführungsform schreibt ein Hostprozessor einen Befehlsstrom in einen Puffer und überträgt dann einen Zeiger auf den Anfang des Befehlsstroms an die PPU 2500, so dass die Frontend-Einheit 2510 Zeiger auf einen oder mehrere Befehlsströme empfängt und einen oder mehrere Befehlsströme verwaltet, wobei sie Befehle aus den Befehlsströmen liest und Befehle an verschiedene Einheiten der PPU 2500 weiterleitet.In at least one embodiment, a program executed by the host processor encodes an instruction stream in a buffer that provides workloads to the PPU 2500 for processing. In at least one embodiment, a workload includes instructions and data to be processed by those instructions. In at least one embodiment, the buffer is a region in memory that can be accessed (e.g., read/write) by both a host processor and the PPU 2500 - a host interface unit may be configured to access a buffer in a memory with the Accesses system memory connected to system bus 2502 via memory requests transmitted via system bus 2502 from I/O device 2506. In at least one embodiment, a host processor writes a command stream into a buffer and then transmits a pointer to the beginning of the command stream to the PPU 2500 so that the front end unit 2510 receives pointers to one or more command streams and manages one or more command streams, thereby Reads commands from the command streams and forwards commands to various units of the PPU 2500.

In mindestens einer Ausführungsform ist die Frontend-Einheit 2510 mit der Scheduler-Einheit 2512 gekoppelt, die verschiedene GPCs 2518 zur Verarbeitung von Aufgaben konfiguriert, die durch einen oder mehrere Befehlsströme definiert sind. In mindestens einer Ausführungsform ist die Scheduler-Einheit 2512 so konfiguriert, dass sie Zustandsinformationen mit Bezug zu verschiedenen Aufgaben nachverfolgt, die von der Scheduler-Einheit 2512 verwaltet werden, wobei die Zustandsinformationen angeben können, welchem der GPCs 2518 eine Aufgabe zugewiesen ist, ob die Aufgabe aktiv oder inaktiv ist, welche Prioritätsstufe der Aufgabe zugeordnet ist und so weiter. In mindestens einer Ausführungsform verwaltet die Scheduler-Einheit 2512 die Ausführung einer Vielzahl von Aufgaben auf einem oder mehreren GPCs 2518.In at least one embodiment, the frontend unit 2510 is coupled to the scheduler unit 2512, which configures various GPCs 2518 to process tasks defined by one or more command streams. In at least one embodiment, the scheduler unit 2512 is configured to track state information related to various tasks managed by the scheduler unit 2512, the state information may indicate which of the GPCs 2518 a task is assigned to, whether the Task is active or inactive, what priority level is assigned to the task and so on. In at least one embodiment, the scheduler unit 2512 manages the execution of a variety of tasks on one or more GPCs 2518.

In mindestens einer Ausführungsform ist die Scheduler-Einheit 2512 mit der Arbeitsverteilungseinheit 2514 gekoppelt, die so konfiguriert ist, dass sie Aufgaben zur Ausführung auf den GPCs 2518 versendet. In mindestens einer Ausführungsform nachverfolgt die Arbeitsverteilungseinheit 2514 eine Anzahl geplanter Aufgaben, die von der Scheduler-Einheit 2512 empfangen wurden, und verwaltet die Arbeitsverteilungseinheit 2514 einen Pool ausstehender Aufgaben und einen Pool aktiver Aufgaben für jeden GPC 2518. In mindestens einer Ausführungsform umfasst der Pool anstehender Aufgaben eine Anzahl von Slots (z.B. 32 Slots), die Aufgaben enthalten, die zur Verarbeitung durch einen bestimmten GPC 2518 zugewiesen sind; der Pool aktiver Aufgaben kann eine Anzahl von Slots (z.B. 4 Slots) für Aufgaben umfassen, die aktiv von den GPCs 2518 verarbeitet werden, so dass dann, wenn einer der GPCs 2518 die Ausführung einer Aufgabe abschließt, diese Aufgabe aus dem Pool aktiver Aufgaben für den GPC 2518 entfernt wird und eine der anderen Aufgaben aus dem Pool anstehender Aufgaben ausgewählt und zur Ausführung auf dem GPC 2518 eingeplant wird. In mindestens einer Ausführungsform wird dann, wenn eine aktive Aufgabe auf dem GPC 2518 im Leerlauf ist, z.B. während auf die Auflösung einer Datenabhängigkeit gewartet wird, die aktive Aufgabe aus dem GPC 2518 entfernt und in einen Pool anstehender Aufgaben zurückgegeben, während eine andere Aufgabe im Pool anstehender Aufgaben ausgewählt und zur Ausführung auf dem GPC 2518 eingeplant wird.In at least one embodiment, the scheduler unit 2512 is coupled to the work distribution unit 2514, which is configured to dispatch tasks for execution on the GPCs 2518. In at least one embodiment, the work distribution unit 2514 tracks a number of scheduled tasks received from the scheduler unit 2512 and manages a pool of pending tasks and a pool of active tasks for each GPC 2518. In at least one embodiment, the pool includes pending tasks a number of slots (e.g. 32 slots) containing tasks assigned for processing by a particular GPC 2518; the active task pool may include a number of slots (e.g., 4 slots) for tasks that are actively being processed by the GPCs 2518, such that when one of the GPCs 2518 completes execution of a task, that task is removed from the active task pool for the GPC 2518 is removed and one of the other tasks is selected from the pool of pending tasks and scheduled to run on the GPC 2518. In at least one embodiment, when an active task on the GPC 2518 is idle, e.g., while waiting for a data dependency to be resolved, the active task is removed from the GPC 2518 and returned to a pending task pool while another task in the Pool of pending tasks is selected and scheduled for execution on the GPC 2518.

In mindestens einer Ausführungsform kommuniziert die Arbeitsverteilungs-einheit 2514 mit einem oder mehreren GPCs 2518 über die Kreuzschiene bzw. XBar 2520. In mindestens einer Ausführungsform ist die XBar 2520 ein Interconnect- bzw. Verbindungsnetzwerk, das viele Einheiten der PPU 2500 mit anderen Einheiten der PPU 2500 koppelt und so konfiguriert sein kann, dass es die Arbeitsverteilungseinheit 2514 mit einem bestimmten GPC 2518 koppelt. In mindestens einer Ausführungsform können auch eine oder mehrere andere Einheiten der PPU 2500 über den Hub 2516 mit der XBar 2520 verbunden sein.In at least one embodiment, the work distribution unit 2514 communicates with one or more GPCs 2518 via the crossbar or XBar 2520. In at least one embodiment, the XBar 2520 is an interconnect network that connects many units of the PPU 2500 to other units of the PPU 2500 and can be configured to be the work distribution unit 2514 pairs with a specific GPC 2518. In at least one embodiment, one or more other units of the PPU 2500 may also be connected to the XBar 2520 via the hub 2516.

In mindestens einer Ausführungsform werden Aufgaben von der Scheduler-Einheit 2512 verwaltet und von der Arbeitsverteilungseinheit 2514 an einen der GPCs 2518 weitergeleitet. Der GPC 2518 ist so konfiguriert, dass er die Aufgabe verarbeitet und Ergebnisse erzeugt. In mindestens einer Ausführungsform können die Ergebnisse von anderen Aufgaben innerhalb des GPC 2518 verbraucht, über die XBar 2520 an einen anderen GPC 2518 weitergeleitet oder in dem Speicher 2504 gespeichert werden. In mindestens einer Ausführungsform können Ergebnisse in den Speicher 2504 über Partitionseinheiten 2522 geschrieben werden, die eine Speicherschnittstelle zum Lesen und Schreiben von Daten in/aus dem Speicher 2504 implementieren. In mindestens einer Ausführungsform können die Ergebnisse über die Hochgeschwindigkeits-GPU-Verbindung 2508 an eine andere PPU 2504 oder CPU übertragen werden. In mindestens einer Ausführungsform umfasst die PPU 2500, ohne Beschränkung darauf, eine Anzahl U von Partitionseinheiten 2522, die gleich der Anzahl der mit der PPU 2500 verbundenen separaten und unterschiedlichen Speichervorrichtungen 2504 ist.In at least one embodiment, tasks are managed by the scheduler unit 2512 and routed to one of the GPCs 2518 by the work distribution unit 2514. The GPC 2518 is configured to process the task and produce results. In at least one embodiment, the results may be consumed by other tasks within the GPC 2518, forwarded to another GPC 2518 via the XBar 2520, or stored in the memory 2504. In at least one embodiment, results may be written to memory 2504 via partition units 2522 that implement a memory interface for reading and writing data to/from memory 2504. In at least one embodiment, the results may be transferred to another PPU 2504 or CPU over the high-speed GPU connection 2508. In at least one embodiment, the PPU 2500 includes, but is not limited to, a number U of partition units 2522 equal to the number of separate and distinct storage devices 2504 connected to the PPU 2500.

In mindestens einer Ausführungsform führt ein Hostprozessor einen Treiberkern aus, der eine Anwendungsprogrammierschnittstelle („API“) implementiert, die es einer oder mehreren auf dem Hostprozessor ausgeführten Anwendungen ermöglicht, Operationen zur Ausführung auf der PPU 2500 zu planen. In mindestens einer Ausführungsform werden mehrere Rechenanwendungen gleichzeitig von der PPU 2500 ausgeführt und stellt die PPU 2500 Isolierung, Dienstgüte („QoS“) und unabhängige Adressräume für mehrere Rechenanwendungen bereit. In mindestens einer Ausführungsform generiert eine Anwendung Anweisungen (z.B. in Form von API-Aufrufen), die einen Treiberkern veranlassen, eine oder mehrere Aufgaben zur Ausführung durch die PPU 2500 zu generieren, und gibt der Treiberkern Aufgaben an einen oder mehrere Streams aus, die von der PPU 2500 verarbeitet werden. In mindestens einer Ausführungsform umfasst jede Aufgabe eine oder mehrere Gruppen von zusammenhängenden Threads, die als Warp bezeichnet werden können. In mindestens einer Ausführungsform umfasst ein Warp eine Vielzahl von zusammenhängenden Threads (z.B. 32 Threads), die parallel ausgeführt werden können. In mindestens einer Ausführungsform können sich kooperierende Threads auf eine Vielzahl von Threads beziehen, die Anweisungen zur Durchführung einer Aufgabe enthalten und die Daten über einen gemeinsamen Speicher austauschen.In at least one embodiment, a host processor executes a driver core that implements an application programming interface (“API”) that allows one or more applications running on the host processor to schedule operations for execution on the PPU 2500. In at least one embodiment, multiple computing applications are executed simultaneously by the PPU 2500 and the PPU 2500 provides isolation, quality of service (“QoS”), and independent address spaces for multiple computing applications. In at least one embodiment, an application generates instructions (e.g., in the form of API calls) that cause a driver core to generate one or more tasks for execution by the PPU 2500, and the driver core issues tasks to one or more streams received from the PPU 2500 can be processed. In at least one embodiment, each task includes one or more groups of related threads, which may be referred to as a warp. In at least one embodiment, a warp includes a plurality of contiguous threads (e.g., 32 threads) that can execute in parallel. In at least one embodiment, cooperating threads may refer to a plurality of threads that contain instructions to perform a task and that exchange data via shared memory.

In mindestens einer Ausführungsform werden ein oder mehrere in 25 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 25 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 25 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 25 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 25 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 25 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 25 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 25 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

26 veranschaulicht einen GPC 2600, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist der GPC 2600 der GPC 2518 von 25. In mindestens einer Ausführungsform beinhaltet jeder GPC 2600, ohne Beschränkung darauf, eine Anzahl von Hardware-Einheiten zur Verarbeitung von Aufgaben, und beinhaltet jeder GPC 2600, ohne Beschränkung darauf, einen Pipeline-Manager 2602, eine Pre-Raster-Operationseinheit („PROP“) 2604, eine Raster-Engine 2608, eine Arbeitsverteilungs-Kreuzschiene („WDX“) 2616, eine MMU 2618, einen oder mehrere Datenverarbeitungscluster („DPCs“) 2606 und jede geeignete Kombination von Teilen. 26 illustrates a GPC 2600, in accordance with at least one embodiment. In at least one embodiment, the GPC 2600 is the GPC 2518 of 25 . In at least one embodiment, each GPC 2600 includes, but is not limited to, a number of hardware units for processing tasks, and each GPC 2600 includes, but is not limited to, a pipeline manager 2602, a pre-raster operations unit ("PROP") ) 2604, a raster engine 2608, a work distribution matrix switcher (“WDX”) 2616, an MMU 2618, one or more data processing clusters (“DPCs”) 2606, and any suitable combination of parts.

In mindestens einer Ausführungsform wird der Betriebsablauf des GPC 2600 von dem Pipeline-Manager 2602 gesteuert. In mindestens einer Ausführungsform verwaltet der Pipeline-Manager 2602 die Konfiguration eines oder mehrerer DPCs 2606 zur Verarbeitung von Aufgaben, die dem GPC 2600 zugewiesen sind. In mindestens einer Ausführungsform konfiguriert der Pipeline-Manager 2602 mindestens eine des einen oder der mehreren DPCs 2606, um mindestens einen Teil einer Grafik-Rendering-Pipeline zu implementieren. In mindestens einer Ausführungsform ist der DPC 2606 so konfiguriert, dass er ein Vertex-Shader-Programm auf einem programmierbaren Streaming-Multiprozessor („SM“) 2614 ausführt. In mindestens einer Ausführungsform ist der Pipeline-Manager 2602 so konfiguriert, dass er von einer Arbeitsverteilungseinheit empfangene Pakete an entsprechende logische Einheiten innerhalb des GPC 2600 weiterleitet, und in mindestens einer Ausführungsform können einige Pakete an Hardwareeinheiten mit fester Funktion in dem PROP 2604 und/oder in der Raster-Engine 2608 weitergeleitet werden, während andere Pakete an die DPCs 2606 zur Verarbeitung durch eine Primitiv-Engine 2612 oder den SM 2614 weitergeleitet werden können. In mindestens einer Ausführungsform konfiguriert der Pipeline-Manager 2602 mindestens einen der DPCs 2606, um eine Rechenpipeline zu implementieren. In mindestens einer Ausführungsform konfiguriert der Pipeline-Manager 2602 mindestens einen der DPCs 2606, um mindestens einen Teil eines CUDA-Programms auszuführen.In at least one embodiment, the operation of the GPC 2600 is controlled by the pipeline manager 2602. In at least one embodiment, pipeline manager 2602 manages the configuration of one or more DPCs 2606 to process tasks assigned to GPC 2600. In at least one embodiment, pipeline manager 2602 configures at least one of the one or more DPCs 2606 to implement at least a portion of a graphics rendering pipeline. In at least one embodiment, the DPC 2606 is configured to execute a vertex shader program on a programmable streaming multiprocessor (“SM”) 2614. In at least one embodiment, pipeline manager 2602 is configured to be from a work distribution device forwards received packets to appropriate logical units within the GPC 2600, and in at least one embodiment, some packets may be forwarded to fixed-function hardware units in the PROP 2604 and/or in the raster engine 2608, while other packets are forwarded to the DPCs 2606 Processing can be forwarded by a primitive engine 2612 or the SM 2614. In at least one embodiment, pipeline manager 2602 configures at least one of DPCs 2606 to implement a compute pipeline. In at least one embodiment, pipeline manager 2602 configures at least one of DPCs 2606 to execute at least a portion of a CUDA program.

In mindestens einer Ausführungsform ist die PROP-Einheit 2604 so konfiguriert, dass sie von der Raster-Engine 2608 und den DPCs 2606 erzeugte Daten an eine Raster Operations („ROP“)-Einheit in einer Partitionseinheit weiterleitet, wie z. B. die vorstehend in Verbindung mit 25 näher beschriebene Speicherpartitionseinheit 2522. In mindestens einer Ausführungsform ist die PROP-Einheit 2604 so konfiguriert, dass sie Optimierungen für die Farbmischung durchführt, Pixeldaten organisiert, Adressübersetzungen durchführt, und mehr. In mindestens einer Ausführungsform beinhaltet die Raster-Engine 2608, ohne Beschränkung darauf, eine Reihe von Hardwareeinheiten mit fester Funktion, die so konfiguriert sind, dass sie verschiedene Rasteroperationen durchführen, und in mindestens einer Ausführungsform beinhaltet die Raster-Engine 2608, ohne Beschränkung darauf, eine Setup-Engine, eine Grobraster-Engine, eine Culling-Engine, eine Clipping-Engine, eine Feinraster-Engine, eine Kachelkoaleszenz-Engine und jede geeignete Kombination davon. In mindestens einer Ausführungsform empfängt eine Setup-Engine transformierte Vertices und erzeugt Ebenengleichungen, die mit einem durch Vertices definierten geometrischen Primitiv verbunden sind; die Ebenengleichungen werden an eine Grobraster-Engine übertragen, um Abdeckungsinformationen (z.B. eine x-, y-Abdeckungsmaske für eine Kachel) für ein Primitiv zu erzeugen; wird die Ausgabe der Grobraster-Engine an eine Culling-Engine übertragen, in der Fragmente, die mit einem Primitiv verbunden sind und einen z-Test nicht bestehen, aussortiert werden, und an eine Clipping-Engine übertragen, in der Fragmente, die außerhalb eines Sichtkegelstumpfs liegen, abgeschnitten werden. In mindestens einer Ausführungsform werden Fragmente, die das Clipping und Culling überstehen, an eine Feinraster-Engine weitergeleitet, um Attribute für Pixelfragmente auf der Grundlage von Ebenengleichungen zu erzeugen, die von einer Setup-Engine generiert werden. In mindestens einer Ausführungsform umfasst die Ausgabe der Raster-Engine 2608 Fragmente, die von einer geeigneten Einheit zu verarbeiten sind, z.B. von einem in dem DPC 2606 implementierten Fragment-Shader.In at least one embodiment, PROP unit 2604 is configured to route data generated by raster engine 2608 and DPCs 2606 to a Raster Operations ("ROP") unit in a partition unit, such as a ROP unit. B. those above in connection with 25 memory partition unit 2522, described in more detail. In at least one embodiment, PROP unit 2604 is configured to perform color mixing optimizations, organize pixel data, perform address translations, and more. In at least one embodiment, the raster engine 2608 includes, but is not limited to, a series of fixed-function hardware devices configured to perform various raster operations, and in at least one embodiment, the raster engine 2608 includes, but is not limited to, a setup engine, a coarse grid engine, a culling engine, a clipping engine, a fine grid engine, a tiling coalescing engine, and any suitable combination thereof. In at least one embodiment, a setup engine receives transformed vertices and generates plane equations associated with a geometric primitive defined by vertices; the layer equations are transferred to a coarse-raster engine to generate coverage information (e.g., an x,y coverage mask for a tile) for a primitive; The output of the coarse raster engine is transferred to a culling engine, in which fragments that are connected to a primitive and fail a z-test are sorted out, and to a clipping engine, in which fragments that are outside a The visible truncated cone is cut off. In at least one embodiment, fragments that survive clipping and culling are passed to a fine-mesh engine to generate attributes for pixel fragments based on plane equations generated by a setup engine. In at least one embodiment, the output of the raster engine 2608 includes fragments to be processed by an appropriate device, such as a fragment shader implemented in the DPC 2606.

In mindestens einer Ausführungsform umfasst jeder in dem GPC 2600 enthaltene DPC 2606, ohne Beschränkung darauf, einen M-Pipe-Controller („MPC“) 2610, eine Primitiv-Engine 2612, einen oder mehrere SMs 2614 und jede geeignete Kombination davon. In mindestens einer Ausführungsform steuert der MPC 2610 den Betriebsablauf des DPC 2606, indem er von dem Pipeline-Manager 2602 empfangene Pakete an entsprechende Einheiten in dem DPC 2606 weiterleitet. In mindestens einer Ausführungsform werden Pakete, die einem Vertex zugeordnet sind, an die Primitive Engine 2612 weitergeleitet, die so konfiguriert ist, dass sie Vertexattribute, die dem Vertex zugeordnet sind, aus dem Speicher abruft; demgegenüber können Pakete, die einem Shader-Programm zugeordnet sind, an den SM 2614 übertragen werden.In at least one embodiment, each DPC 2606 included in the GPC 2600 includes, but is not limited to, an M-Pipe Controller (“MPC”) 2610, a primitive engine 2612, one or more SMs 2614, and any suitable combination thereof. In at least one embodiment, the MPC 2610 controls the operation of the DPC 2606 by forwarding packets received from the pipeline manager 2602 to corresponding entities in the DPC 2606. In at least one embodiment, packets associated with a vertex are forwarded to the primitive engine 2612, which is configured to retrieve vertex attributes associated with the vertex from memory; In contrast, packets that are assigned to a shader program can be transferred to the SM 2614.

In mindestens einer Ausführungsform umfasst der SM 2614, ohne Beschränkung darauf, einen programmierbaren Streamingprozessor, der so konfiguriert ist, dass er Aufgaben verarbeitet, die durch eine Anzahl von Threads repräsentiert werden. In mindestens einer Ausführungsform ist der SM 2614 mit mehreren Threads ausgestattet und so konfiguriert, dass er mehrere Threads (z.B. 32 Threads) aus einer bestimmten Gruppe von Threads gleichzeitig ausführt und eine SIMD-Architektur implementiert, bei der jeder Thread in einer Gruppe von Threads (z.B. ein Warp) so konfiguriert ist, dass er einen anderen Satz von Daten auf der Grundlage desselben Satzes von Anweisungen verarbeitet. In mindestens einer Ausführungsform führen alle Threads in einer Gruppe von Threads dieselben Anweisungen aus. In mindestens einer Ausführungsform implementiert der SM 2614 eine SIMT-Architektur, bei der jeder Thread in einer Gruppe von Threads so konfiguriert ist, dass er einen anderen Datensatz auf der Grundlage desselben Satzes von Anweisungen verarbeitet, wobei jedoch einzelne Threads in der Gruppe von Threads während der Ausführung divergieren dürfen. In mindestens einer Ausführungsform werden ein Programmzähler, ein Aufrufstapel und ein Ausführungsstatus für jeden Warp beibehalten, was Gleichzeitigkeit zwischen Warps und serielle Ausführung innerhalb von Warps ermöglicht, wenn Threads innerhalb eines Warps divergieren. In einer anderen Ausführungsform werden ein Programmzähler, ein Aufrufstapel und ein Ausführungsstatus für jeden einzelnen Thread beibehalten, wodurch gleiche Gleichzeitigkeit zwischen allen Threads innerhalb und zwischen Warps ermöglicht wird. In mindestens einer Ausführungsform wird ein Ausführungsstatus für jeden einzelnen Thread beibehalten, und können Threads, die die gleichen Anweisungen ausführen, zur besseren Effizienz zusammengeführt und parallel ausgeführt werden. Mindestens eine Ausführungsform des SM 2614 wird in Verbindung mit 27 ausführlicher beschrieben.In at least one embodiment, SM 2614 includes, but is not limited to, a programmable streaming processor configured to process tasks represented by a number of threads. In at least one embodiment, the SM 2614 is multi-threaded and configured to execute multiple threads (e.g., 32 threads) from a particular group of threads simultaneously and implements a SIMD architecture in which each thread in a group of threads ( e.g. a warp) is configured to process a different set of data based on the same set of instructions. In at least one embodiment, all threads in a group of threads execute the same instructions. In at least one embodiment, the SM 2614 implements a SIMT architecture in which each thread in a group of threads is configured to process a different set of data based on the same set of instructions, but with individual threads in the group of threads during the execution may differ. In at least one embodiment, a program counter, call stack, and execution state are maintained for each warp, enabling concurrency between warps and serial execution within warps when threads diverge within a warp. In another embodiment, a program counter, call stack, and execution state are maintained for each individual thread, allowing equal concurrency between all threads within and between warps. In at least one embodiment, an execution state is maintained for each individual thread, and threads executing the same instructions may be grouped together for greater efficiency managed and executed in parallel. At least one embodiment of the SM 2614 is used in conjunction with 27 described in more detail.

In mindestens einer Ausführungsform stellt die MMU 2618 eine Schnittstelle zwischen dem GPC 2600 und einer Speicherpartitionseinheit (z.B. der Partitionseinheit 2522 in 25) bereit, und stellt die MMU 2618 eine Übersetzung virtueller Adressen in physische Adressen, einen Speicherschutz und eine Arbitrierung von Speicheranforderungen bereit. In mindestens einer Ausführungsform stellt die MMU 2618 einen oder mehrere Übersetzungs-Lookaside-Puffer (TLBs) zur Durchführung der Übersetzung virtueller Adressen in physische Adressen im Speicher bereit.In at least one embodiment, the MMU 2618 provides an interface between the GPC 2600 and a storage partition unit (e.g., the partition unit 2522 in 25 ), and the MMU 2618 provides virtual address to physical address translation, memory protection, and arbitration of memory requests. In at least one embodiment, the MMU 2618 provides one or more translation lookaside buffers (TLBs) to perform translation of virtual addresses to physical addresses in memory.

In mindestens einer Ausführungsform werden ein oder mehrere in 26 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 26 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 26 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 26 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 26 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 26 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 26 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 26 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

27 veranschaulicht einen Streaming-Multiprozessor („SM“) 2700, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist der SM 2700 der SM 2614 von 26. In mindestens einer Ausführungsform beinhaltet der SM 2700, ohne Beschränkung darauf, einen Anweisungscache 2702; eine oder mehrere Schedulereinheiten 2704; eine Registerdatei 2708; einen oder mehrere Verarbeitungskerne („Cores“) 2710; eine oder mehrere Spezialfunktionseinheiten („SFUs“) 2712; eine oder mehrere LSUs 2714; ein Verbindungsnetzwerk 2716; einen gemeinsamen Speicher/L1-Cache 2718; und jede geeignete Kombination davon. In mindestens einer Ausführungsform verteilt eine Arbeitsverteilungseinheit Aufgaben zur Ausführung auf GPCs von Parallelverarbeitungseinheiten (PPUs), und wird jede Aufgabe einem bestimmten Datenverarbeitungscluster (DPC) innerhalb eines GPCs zugewiesen, und wenn eine Aufgabe mit einem Shader-Programm verbunden ist, dann wird die Aufgabe einem der SMs 2700 zugewiesen. In mindestens einer Ausführungsform empfängt die Schedulereinheit 2704 Aufgaben von einer Arbeitsverteilungseinheit und verwaltet die Befehlsplanung für einen oder mehrere Thread-Blöcke, die dem SM 2700 zugewiesen sind. In mindestens einer Ausführungsform plant die Schedulereinheit 2704 Thread-Blöcke zur Ausführung als Warps von parallelen Threads, wobei jedem Thread-Block mindestens ein Warp zugewiesen wird. In mindestens einer Ausführungsform führt jeder Warp Threads aus. In mindestens einer Ausführungsform verwaltet die Schedulereinheit 2704 eine Vielzahl verschiedener Thread-Blöcke, indem sie verschiedenen Thread-Blöcken Warps zuweist und dann Anweisungen von einer Vielzahl verschiedener kooperativer Gruppen an verschiedene Funktionseinheiten (z.B. Verarbeitungskerne 2710, SFUs 2712 und LSUs 2714) während jedes Taktzyklus verteilt. 27 illustrates a streaming multiprocessor (“SM”) 2700, in accordance with at least one embodiment. In at least one embodiment, the SM 2700 is the SM 2614 of 26 . In at least one embodiment, SM 2700 includes, but is not limited to, an instruction cache 2702; one or more scheduler units 2704; a register file 2708; one or more processing cores 2710; one or more special function units (“SFUs”) 2712; one or more LSUs 2714; a connection network 2716; a shared memory/L1 cache 2718; and any suitable combination thereof. In at least one embodiment, a work distribution unit distributes tasks for execution among GPCs of parallel processing units (PPUs), and each task is assigned to a particular data processing cluster (DPC) within a GPC, and if a task is associated with a shader program, then the task is assigned to a assigned to SMs 2700. In at least one embodiment, the scheduler unit 2704 receives tasks from a work dispatcher and manages instruction scheduling for one or more thread blocks assigned to the SM 2700. In at least one embodiment, the scheduler unit 2704 schedules thread blocks for execution as warps of parallel threads, with at least one warp assigned to each thread block. In at least one embodiment, each warp runs threads. In at least one embodiment, scheduler unit 2704 manages a plurality of different thread blocks by assigning warps to different thread blocks and then distributing instructions from a plurality of different cooperative groups to different functional units (e.g., processing cores 2710, SFUs 2712, and LSUs 2714) during each clock cycle .

In mindestens einer Ausführungsform kann sich „kooperative Gruppen“ auf ein Programmiermodell zum Organisieren von Gruppen kommunizierender Threads beziehen, das es Entwicklern ermöglicht, Granularität auszudrücken, mit der Threads kommunizieren, und so reichhaltigere, effizientere parallele Dekompositionen zu ermöglichen. In mindestens einer Ausführungsform unterstützen kooperative Start-APIs eine Synchronisierung zwischen Thread-Blöcken zur Ausführung paralleler Algorithmen. In mindestens einer Ausführungsform bieten APIs herkömmlicher Programmiermodelle ein einziges, einfaches Konstrukt zur Synchronisierung kooperierender Threads: eine Sperre über alle Threads eines Thread-Blocks (z.B. die Funktion syncthreads( )). In mindestens einer Ausführungsform können Programmierer jedoch Gruppen von Threads mit einer kleineren Granularität als der des Thread-Blocks definieren und innerhalb definierter Gruppen synchronisieren, um höhere Leistung, Designflexibilität und Software-Wiederverwendung in Form von gemeinsamen gruppenweiten Funktionsschnittstellen zu ermöglichen. In mindestens einer Ausführungsform ermöglichen es kooperative Gruppen Programmierern, Gruppen von Threads explizit auf Subblock- und Multiblock-Granularität zu definieren und kollektive Operationen wie beispielsweise Synchronisation auf Threads in einer kooperativen Gruppe durchzuführen. In mindestens einer Ausführungsform ist eine Subblock-Granularität so klein wie ein einzelner Thread. In mindestens einer Ausführungsform unterstützt ein Programmiermodell eine saubere Komposition über Softwaregrenzen hinweg, so dass Bibliotheken und Utility-Funktionen innerhalb ihres lokalen Kontexts sicher synchronisieren können, ohne Annahmen über Konvergenz treffen zu müssen. In mindestens einer Ausführungsform ermöglichen kooperative Gruppenprimitive neue Muster kooperativer Parallelität, einschließlich, ohne Beschränkung darauf, Produzenten-Verbraucher-Parallelität, opportunistischer Parallelität und globaler Synchronisierung über ein gesamtes Gitter von Thread-Blöcken.In at least one embodiment, "cooperative groups" may refer to a programming model for organizing groups of communicating threads, allowing developers to express granularity at which threads communicate, enabling richer, more efficient parallel decompositions. In at least one embodiment, cooperative startup APIs support synchronization between thread blocks to execute parallel algorithms. In at least one embodiment, APIs of traditional programming models provide a single, simple construct for synchronizing cooperating threads: a lock across all threads of a thread block (e.g., the syncthreads() function). However, in at least one embodiment, programmers may define groups of threads at a granularity smaller than that of the thread block and synchronize within defined groups to enable higher performance, design flexibility, and software reuse in the form of common group-wide functional interfaces. In at least one embodiment, cooperative groups enable programmers to explicitly define groups of threads at subblock and multiblock granularity and to perform collective operations such as synchronization on threads in a cooperative group. In at least one embodiment, subblock granularity is as small as a single thread. In at least one embodiment, a programming model supports clean composition across software boundaries so that libraries and utility functions can securely synchronize within their local context without making assumptions about convergence to have to. In at least one embodiment, cooperative group primitives enable new patterns of cooperative parallelism, including, but not limited to, producer-consumer parallelism, opportunistic parallelism, and global synchronization across an entire grid of thread blocks.

In mindestens einer Ausführungsform ist eine Dispatcheinheit 2706 so konfiguriert, dass sie Befehle an eine oder mehrere Funktionseinheiten überträgt, und beinhaltet die Schedulereinheit 2704, ohne Beschränkung darauf, zwei Dispatcheinheiten 2706, die es ermöglichen, dass zwei verschiedene Befehle aus demselben Warp während jedes Taktzyklus versendet werden. In mindestens einer Ausführungsform umfasst jede Schedulereinheit 2704 eine einzelne Dispatcheinheit 2706 oder zusätzliche Dispatcheinheiten 2706.In at least one embodiment, a dispatch unit 2706 is configured to transmit commands to one or more functional units, and the scheduler unit 2704 includes, but is not limited to, two dispatch units 2706 that allow two different commands to be dispatched from the same warp during each clock cycle become. In at least one embodiment, each scheduler unit 2704 includes a single dispatch unit 2706 or additional dispatch units 2706.

In mindestens einer Ausführungsform enthält jeder SM 2700, ohne Beschränkung darauf, eine Registerdatei 2708, die einen Satz von Registern für Funktionseinheiten des SM 2700 bereitstellt. In mindestens einer Ausführungsform ist die Registerdatei 2708 zwischen den einzelnen Funktionseinheiten aufgeteilt, so dass jeder Funktionseinheit ein dedizierter Teil der Registerdatei 2708 zugeordnet ist. In mindestens einer Ausführungsform ist die Registerdatei 2708 zwischen verschiedenen Warps aufgeteilt, die von dem SM 2700 ausgeführt werden, und stellt die Registerdatei 2708 einen temporären Speicher für Operanden bereit, die mit Datenpfaden von Funktionseinheiten verbunden sind. In mindestens einer Ausführungsform umfasst jeder SM 2700, ohne Beschränkung darauf, eine Vielzahl von L Verarbeitungskernen 2710. In mindestens einer Ausführungsform beinhaltet der SM 2700, ohne Beschränkung darauf, eine große Anzahl (z.B. 128 oder mehr) von unterschiedlichen Verarbeitungskernen 2710. In mindestens einer Ausführungsform beinhaltet jeder Verarbeitungskern 2710, ohne Beschränkung darauf, eine voll gepipelte, einfachpräzise, doppeltpräzise und/oder gemischtpräzise Verarbeitungseinheit, die, ohne Beschränkung darauf, eine arithmetische Gleitkomma-Logikeinheit und eine arithmetische Ganzzahl-Logikeinheit umfasst. In mindestens einer Ausführungsform implementieren die Gleitkomma-Arithmetik-Logikeinheiten den Standard IEEE 754-2008 für Gleitkomma-Arithmetik. In mindestens einer Ausführungsform beinhalten die Verarbeitungskerne 2710, ohne Beschränkung darauf, 64 Gleitkommakerne mit einfacher Genauigkeit (32 Bit), 64 Ganzzahlkerne, 32 Gleitkommakerne mit doppelter Genauigkeit (64 Bit) und 8 Tensorkerne.In at least one embodiment, each SM 2700 includes, but is not limited to, a register file 2708 that provides a set of registers for functional units of the SM 2700. In at least one embodiment, the register file 2708 is divided between the individual functional units, so that each functional unit is assigned a dedicated part of the register file 2708. In at least one embodiment, register file 2708 is partitioned between different warps executed by SM 2700, and register file 2708 provides temporary storage for operands associated with data paths of functional units. In at least one embodiment, each SM 2700 includes, but is not limited to, a plurality of L processing cores 2710. In at least one embodiment, the SM 2700 includes, but is not limited to, a large number (e.g., 128 or more) of different processing cores 2710. In at least one In this embodiment, each processing core 2710 includes, but is not limited to, a fully piped, single-precision, double-precision, and/or mixed-precision processing unit that includes, but is not limited to, a floating-point arithmetic logic unit and an integer arithmetic logic unit. In at least one embodiment, the floating point arithmetic logic units implement the IEEE 754-2008 standard for floating point arithmetic. In at least one embodiment, the processing cores 2710 include, but are not limited to, 64 single-precision (32-bit) floating-point cores, 64 integer cores, 32 double-precision (64-bit) floating-point cores, and 8 tensor cores.

In mindestens einer Ausführungsform sind Tensorkerne so konfiguriert, dass sie Matrixoperationen durchführen. In mindestens einer Ausführungsform sind ein oder mehrere Tensorkerne in den Verarbeitungskernen 2710 enthalten. In mindestens einer Ausführungsform sind Tensorkerne so konfiguriert, dass sie eine Deep-Learning-Matrixarithmetik durchführen, wie z.B. Faltungsoperationen für das Training und die Inferenzierung neuronaler Netze. In mindestens einer Ausführungsform arbeitet jeder Tensorkern auf einer 4x4-Matrix und führt eine Matrixmultiplikations- und Akkumulationsoperation D = A X B + C durch, wobei A, B, C und D 4x4-Matrizen sind.In at least one embodiment, tensor cores are configured to perform matrix operations. In at least one embodiment, one or more tensor cores are included in the processing cores 2710. In at least one embodiment, tensor cores are configured to perform deep learning matrix arithmetic, such as convolution operations for neural network training and inference. In at least one embodiment, each tensor core operates on a 4x4 matrix and performs a matrix multiplication and accumulation operation D = A X B + C, where A, B, C and D are 4x4 matrices.

In mindestens einer Ausführungsform sind die Matrixmultiplikationseingänge A und B 16-Bit-Gleitkommamatrizen und sind die Akkumulationsmatrizen C und D 16-Bit-Gleitkomma- oder 32-Bit-Gleitkommamatrizen. In mindestens einer Ausführungsform arbeiten die Tensorkerne auf 16-Bit-Gleitkomma-Eingangsdaten mit 32-Bit-Gleitkomma-Akkumulation. In mindestens einer Ausführungsform verwendet die 16-Bit-Gleitkommamultiplikation 64 Operationen und ergibt ein Produkt mit voller Genauigkeit, das dann unter Verwendung einer 32-Bit-Gleitkomma-Addition mit anderen Zwischenprodukten für eine 4x4x4-Matrixmultiplikation akkumuliert wird. In mindestens einer Ausführungsform werden Tensorkerne verwendet, um viel größere zweidimensionale oder höherdimensionale Matrixoperationen durchzuführen, die aus diesen kleineren Elementen aufgebaut sind. In mindestens einer Ausführungsform stellt eine API, wie z.B. eine CUDA-C++ API, spezialisierte Operationen zum Laden, Multiplizieren und Akkumulieren von Matrizen und zum Speichern von Matrizen bereit, um Tensorkerne aus einem CUDA-C++ Programm heraus effizient zu nutzen. In mindestens einer Ausführungsform geht, auf der CUDA-Ebene, eine Schnittstelle auf Warp-Ebene von Matrizen der Größe 16x16 aus, die sich über alle 32 Threads eines Warps erstrecken.In at least one embodiment, the matrix multiplication inputs A and B are 16-bit floating-point matrices and the accumulation matrices C and D are 16-bit floating-point or 32-bit floating-point matrices. In at least one embodiment, the tensor cores operate on 16-bit floating-point input data with 32-bit floating-point accumulation. In at least one embodiment, 16-bit floating point multiplication uses 64 operations and yields a full precision product that is then accumulated using 32-bit floating point addition with other intermediate products for a 4x4x4 matrix multiplication. In at least one embodiment, tensor cores are used to perform much larger two-dimensional or higher-dimensional matrix operations built from these smaller elements. In at least one embodiment, an API, such as a CUDA-C++ API, provides specialized operations for loading, multiplying, accumulating, and storing matrices to efficiently utilize tensor cores from within a CUDA-C++ program. In at least one embodiment, at the CUDA level, a warp level interface assumes matrices of size 16x16 spanning all 32 threads of a warp.

In mindestens einer Ausführungsform umfasst jeder SM 2700, ohne Beschränkung darauf, M SFUs 2712, die spezielle Funktionen ausführen (z.B. Attributauswertung, reziproke Quadratwurzel und dergleichen). In mindestens einer Ausführungsform beinhalten die SFUs 2712, ohne Beschränkung darauf, eine Baumdurchlaufeinheit, die so konfiguriert ist, dass sie eine hierarchische Baumdatenstruktur durchläuft. In mindestens einer Ausführungsform beinhalten die SFUs 2712, ohne Beschränkung darauf, eine Textureinheit, die so konfiguriert ist, dass sie Texturabbildungsfilterungsoperationen durchführt. In mindestens einer Ausführungsform sind Textureinheiten so konfiguriert, dass sie Texturkarten (z.B. ein 2D-Array von Texeln) aus dem Speicher laden und die Texturkarten abtasten, um abgetastete Texturwerte zur Verwendung in Shader-Programmen zu erzeugen, die von dem SM 2700 ausgeführt werden. In mindestens einer Ausführungsform werden die Texturkarten in dem gemeinsamen Speicher/L1-Cache 2718 gespeichert. In mindestens einer Ausführungsform implementieren Textureinheiten Texturoperationen, wie z.B. Filteroperationen unter Verwendung von Mip-Maps (z.B. Texturkarten mit unterschiedlichen Detailstufen). In mindestens einer Ausführungsform umfasst jeder SM 2700, ohne Beschränkung darauf, zwei Textureinheiten.In at least one embodiment, each SM 2700 includes, but is not limited to, M SFUs 2712 that perform specific functions (e.g., attribute evaluation, reciprocal square root, and the like). In at least one embodiment, the SFUs 2712 include, but are not limited to, a tree traversal unit configured to traverse a hierarchical tree data structure. In at least one embodiment, the SFUs 2712 include, but are not limited to, a texture unit configured to perform texture map filtering operations. In at least one embodiment, texture units are configured to load texture maps (e.g., a 2D array of texels) from memory and sample the texture maps to produce sampled texture values for use in shader programs executed by the SM 2700. In at least one embodiment form, the texture maps are stored in shared memory/L1 cache 2718. In at least one embodiment, texture units implement texture operations, such as filter operations using mip-maps (e.g., texture maps with different levels of detail). In at least one embodiment, each SM 2700 includes, but is not limited to, two texture units.

In mindestens einer Ausführungsform umfasst jeder SM 2700, ohne Beschränkung darauf, N LSUs 2714, die Lade- und Speicheroperationen zwischen dem gemeinsamen Speicher/L1-Cache 2718 und der Registerdatei 2708 implementieren. In mindestens einer Ausführungsform umfasst jeder SM 2700, ohne Beschränkung darauf, ein Verbindungsnetzwerk 2716, das jede der Funktionseinheiten mit der Registerdatei 2708 und die LSU 2714 mit der Registerdatei 2708 und dem gemeinsamen Speicher/L1-Cache 2718 verbindet. In mindestens einer Ausführungsform ist das Verbindungsnetzwerk 2716 eine Kreuzschiene, die so konfiguriert werden kann, dass sie jede der Funktionseinheiten mit jedem der Register in der Registerdatei 2708 verbindet und die LSUs 2714 mit der Registerdatei 2708 und Speicherplätzen in dem gemeinsamen Speicher/L1-Cache 2718 verbindet.In at least one embodiment, each SM 2700 includes, but is not limited to, N LSUs 2714 that implement load and store operations between shared memory/L1 cache 2718 and register file 2708. In at least one embodiment, each SM 2700 includes, but is not limited to, an interconnection network 2716 that connects each of the functional units to the register file 2708 and the LSU 2714 to the register file 2708 and the shared memory/L1 cache 2718. In at least one embodiment, the interconnection network 2716 is a crossbar that can be configured to connect each of the functional units to each of the registers in the register file 2708 and the LSUs 2714 to the register file 2708 and storage locations in the shared memory/L1 cache 2718 connects.

In mindestens einer Ausführungsform ist der gemeinsam genutzte Speicher/L1-Cache 2718 ein Array von On-Chip-Speicher, der die Datenspeicherung und Kommunikation zwischen dem SM 2700 und einer Primitiv-Engine sowie zwischen Threads in dem SM 2700 ermöglicht. In mindestens einer Ausführungsform umfasst der gemeinsam genutzte Speicher/L1-Cache 2718, ohne Beschränkung darauf, 128 KB Speicherkapazität und befindet sich in einem Pfad von dem SM 2700 zu einer Partitionseinheit. In mindestens einer Ausführungsform wird der gemeinsame Speicher/L1-Cache 2718 zum Zwischenspeichern von Lese- und Schreibvorgängen verwendet. In mindestens einer Ausführungsform sind einer oder mehrere von gemeinsamem Speicher/L1-Cache 2718, L2-Cache und Arbeitsspeicher Sicherungsspeicher.In at least one embodiment, shared memory/L1 cache 2718 is an array of on-chip memory that enables data storage and communication between SM 2700 and a primitive engine, as well as between threads in SM 2700. In at least one embodiment, the shared memory/L1 cache 2718 includes, but is not limited to, 128 KB of storage capacity and is located in a path from the SM 2700 to a partition device. In at least one embodiment, shared memory/L1 cache 2718 is used to cache reads and writes. In at least one embodiment, one or more of shared memory/L1 cache 2718, L2 cache, and memory are backup storage.

In mindestens einer Ausführungsform stellt die Kombination von Datencache- und Shared-Memory-Funktionalität in einem einzigen Speicherblock eine verbesserte Leistung für beide Arten von Speicherzugriffen bereit. In mindestens einer Ausführungsform wird die Kapazität von Programmen, die den gemeinsam genutzten Speicher nicht verwenden, als Cache genutzt oder ist dazu nutzbar, derart, dass beispielsweise dann, wenn der gemeinsam genutzte Speicher so konfiguriert ist, dass er die Hälfte der Kapazität nutzt, Textur- und Lade-/Speicheroperationen die verbleibende Kapazität nutzen können. In mindestens einer Ausführungsform ermöglicht die Integration in den gemeinsam genutzten Speicher/L1-Cache 2718, dass der gemeinsam genutzte Speicher/L1-Cache 2718 als eine Leitung mit hohem Durchsatz für Streaming-Daten fungiert und gleichzeitig einen Zugriff mit hoher Bandbreite und niedriger Latenz auf häufig wiederverwendete Daten ermöglicht. In mindestens einer Ausführungsform kann bei der Konfiguration für parallele Universalberechnungen eine einfachere Konfiguration als bei der Grafikverarbeitung verwendet werden. In mindestens einer Ausführungsform werden GPUs mit festen Funktionen umgangen, wodurch ein wesentlich einfacheres Programmiermodell entsteht. In mindestens einer Ausführungsform und in einer Konfiguration für parallele Berechnungen für allgemeine Zwecke weist eine Arbeitsverteilungseinheit Blöcke von Threads direkt den DPCs zu und verteilt sie. In mindestens einer Ausführungsform führen Threads in einem Block dasselbe Programm aus, wobei eine eindeutige Thread-ID in einer Berechnung verwendet wird, um sicherzustellen, dass jeder Thread eindeutige Ergebnisse erzeugt, wobei der SM 2700 zur Ausführung eines Programms und zur Durchführung von Berechnungen, der gemeinsame Speicher/L1-Cache 2718 zur Kommunikation zwischen Threads und die LSU 2714 zum Lesen und Schreiben des globalen Speichers über den gemeinsamen Speicher/L1-Cache 2718 und eine Speicherpartitionseinheit verwendet werden. In mindestens einer Ausführungsform schreibt der SM 2700, wenn er für allgemeine parallele Berechnungen konfiguriert ist, Befehle, die die Schedulereinheit 2704 verwenden kann, um neue Arbeit auf DPCs zu starten.In at least one embodiment, the combination of data cache and shared memory functionality in a single memory block provides improved performance for both types of memory accesses. In at least one embodiment, the capacity of programs that do not use the shared memory is used or can be used as a cache, such that, for example, when the shared memory is configured to use half the capacity, texture - and load/store operations can use the remaining capacity. In at least one embodiment, integration with shared memory/L1 cache 2718 enables shared memory/L1 cache 2718 to function as a high-throughput conduit for streaming data while providing high-bandwidth, low-latency access enables frequently reused data. In at least one embodiment, the parallel general purpose computing configuration may use a simpler configuration than graphics processing. In at least one embodiment, fixed function GPUs are bypassed, resulting in a much simpler programming model. In at least one embodiment, and in a general purpose parallel computing configuration, a work distribution unit allocates and distributes blocks of threads directly to the DPCs. In at least one embodiment, threads in a block execute the same program, a unique thread ID is used in a calculation to ensure that each thread produces unique results, the SM 2700 to execute a program and perform calculations, the shared memory/L1 cache 2718 for inter-thread communication and the LSU 2714 for reading and writing global memory via shared memory/L1 cache 2718 and a memory partition unit. In at least one embodiment, the SM 2700, when configured for general purpose parallel computations, writes commands that the scheduler unit 2704 can use to start new work on DPCs.

In mindestens einer Ausführungsform ist die PPU in einem Desktop-Computer, einem Laptop-Computer, einem Tablet-Computer, Servern, Supercomputern, einem Smartphone (z.B. einem drahtlosen Handheld-Gerät), einem PDA, einer Digitalkamera, einem Fahrzeug, einer kopfmontierten Anzeige, einem elektronischen Handheld-Gerät usw. enthalten oder mit diesen gekoppelt. In mindestens einer Ausführungsform ist die PPU auf einem einzigen Halbleitersubstrat verkörpert. In mindestens einer Ausführungsform ist die PPU in einem SoC zusammen mit einer oder mehreren anderen Vorrichtungen wie zusätzlichen PPUs, Speicher, einer RISC-CPU, einer MMU, einem Digital-Analog-Wandler („DAC“) und dergleichen enthalten.In at least one embodiment, the PPU is in a desktop computer, a laptop computer, a tablet computer, servers, supercomputers, a smartphone (e.g., a wireless handheld device), a PDA, a digital camera, a vehicle, a head-mounted display , a handheld electronic device, etc. In at least one embodiment, the PPU is embodied on a single semiconductor substrate. In at least one embodiment, the PPU is included in an SoC along with one or more other devices such as additional PPUs, memory, a RISC CPU, an MMU, a digital-to-analog converter (“DAC”), and the like.

In mindestens einer Ausführungsform kann die PPU auf einer Grafikkarte enthalten sein, die ein oder mehrere Speichervorrichtungen enthält. In mindestens einer Ausführungsform kann eine Grafikkarte so konfiguriert sein, dass sie mit einem PCIe-Steckplatz auf einer Hauptplatine eines Desktop-Computers verbunden werden kann. In mindestens einer Ausführungsform kann die PPU eine integrierte GPU („iGPU“) sein, die im Chipsatz der Hauptplatine enthalten ist.In at least one embodiment, the PPU may be included on a graphics card that includes one or more memory devices. In at least one embodiment, a graphics card may be configured to connect to a PCIe slot on a motherboard of a desktop computer. In at least one embodiment, the PPU may be an integrated GPU (“iGPU”) included in the motherboard chipset.

In mindestens einer Ausführungsform werden ein oder mehrere in 27 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 27 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 27 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 27 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 27 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 27 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 27 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 27 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

Software-Konstruktionen für universelles RechnenSoftware constructions for universal computing

Die folgenden Figuren zeigen, ohne Beschränkung darauf, beispielhafte Softwarekonstrukte zur Implementierung mindestens einer Ausführungsform.The following figures show, without limitation, exemplary software constructs for implementing at least one embodiment.

28 veranschaulicht einen Software-Stack einer Programmierplattform, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist eine Programmierplattform eine Plattform zur Nutzung von Hardware auf einem Rechen- bzw. Computersystem, um Berechnungsaufgaben zu beschleunigen. In mindestens einer Ausführungsform kann eine Programmierplattform für Softwareentwickler über Bibliotheken, Compilerdirektiven und/oder Erweiterungen von Programmiersprachen zugänglich sein. In mindestens einer Ausführungsform kann eine Programmierplattform CUDA, Radeon Open Compute Platform („ROCm“), OpenCL (OpenCL™ wird von der Khronos-Gruppe entwickelt), SYCL oder Intel One API sein, ist aber nicht darauf beschränkt. 28 illustrates a software stack of a programming platform, in accordance with at least one embodiment. In at least one embodiment, a programming platform is a platform for using hardware on a computing system to accelerate computational tasks. In at least one embodiment, a programming platform may be accessible to software developers via libraries, compiler directives, and/or programming language extensions. In at least one embodiment, a programming platform may be, but is not limited to, CUDA, Radeon Open Compute Platform (“ROCm”), OpenCL (OpenCL™ is developed by the Khronos Group), SYCL, or Intel One API.

In mindestens einer Ausführungsform stellt ein Software-Stack 2800 einer Programmierplattform eine Ausführungsumgebung für eine Anwendung 2801 bereit. In mindestens einer Ausführungsform kann die Anwendung 2801 jede beliebige Computersoftware umfassen, die auf dem Software-Stack 2800 gestartet werden kann. In mindestens einer Ausführungsform kann die Anwendung 2801 eine Anwendung für künstliche Intelligenz („KI“)/maschinelles Lernen („ML“), eine Anwendung für Hochleistungsrechnen („HPC“), eine virtuelle Desktop-Infrastruktur („VDI“) oder einen Rechenzentrums-Arbeitslast umfassen, ist aber nicht darauf beschränkt.In at least one embodiment, a software stack 2800 of a programming platform provides an execution environment for an application 2801. In at least one embodiment, application 2801 may include any computer software that can be launched on software stack 2800. In at least one embodiment, the application 2801 may be an artificial intelligence (“AI”)/machine learning (“ML”) application, a high performance computing (“HPC”) application, a virtual desktop infrastructure (“VDI”), or a data center - Workload includes, but is not limited to.

In mindestens einer Ausführungsform laufen die Anwendung 2801 und der Software-Stack 2800 auf Hardware 2807. Die Hardware 2807 kann in mindestens einer Ausführungsform eine oder mehrere GPUs, CPUs, FPGAs, KI-Engines und/oder andere Arten von Rechenvorrichtungen umfassen, die eine Programmierplattform unterstützen. In mindestens einer Ausführungsform, wie beispielsweise bei CUDA, kann der Software-Stack 2800 herstellerspezifisch und nur mit Vorrichtungen bestimmter Hersteller kompatibel sein. In mindestens einer Ausführungsform, wie beispielsweise bei OpenCL, kann der Softwarestack 2800 mit Vorrichtungen verschiedener Hersteller verwendet werden. In mindestens einer Ausführungsform umfasst die Hardware 2807 einen Host, der mit einer oder mehreren Vorrichtungen verbunden ist, auf die zugegriffen werden kann, um Berechnungsaufgaben über API (Application Programming Interface)-Aufrufe durchzuführen. Eine Vorrichtung innerhalb der Hardware 2807 kann eine GPU, ein FPGA, eine KI-Engine oder eine andere Rechenvorrichtung (aber auch eine CPU) und dessen Speicher umfassen, im Gegensatz zu einem Host innerhalb der Hardware 2807, der in mindestens einer Ausführungsform eine CPU (aber auch eine Rechenvorrichtung) und dessen Speicher umfassen kann, aber nicht darauf beschränkt ist.In at least one embodiment, the application 2801 and the software stack 2800 run on hardware 2807. The hardware 2807, in at least one embodiment, may include one or more GPUs, CPUs, FPGAs, AI engines, and/or other types of computing devices that provide a programming platform support. In at least one embodiment, such as CUDA, the software stack 2800 may be manufacturer-specific and compatible only with devices from certain manufacturers. In at least one embodiment, such as OpenCL, the software stack 2800 can be used with devices from different manufacturers. In at least one embodiment, hardware 2807 includes a host connected to one or more devices accessible to perform computational tasks via Application Programming Interface (API) calls. A device within hardware 2807 may include a GPU, an FPGA, an AI engine, or other computing device (but also a CPU) and its memory, as opposed to a host within hardware 2807, which in at least one embodiment includes a CPU ( but also a computing device) and its memory can include, but is not limited to.

In mindestens einer Ausführungsform umfasst der Software-Stack 2800 einer Programmierplattform, ohne Beschränkung darauf, eine Reihe von Bibliotheken 2803, eine Laufzeit 2805 und einen Gerätekerneltreiber 2806. Jede der Bibliotheken 2803 kann in mindestens einer Ausführungsform Daten und Programmiercode enthalten, die von Computerprogrammen verwendet und während der Softwareentwicklung genutzt werden können. In mindestens einer Ausführungsform können die Bibliotheken 2803 vorgefertigten Code und Unterprogramme, Klassen, Werte, Typspezifikationen, Konfigurationsdaten, Dokumentation, Hilfsdaten und/oder Nachrichtenvorlagen enthalten, sind aber nicht darauf beschränkt. In mindestens einer Ausführungsform enthalten die Bibliotheken 2803 Funktionen, die für die Ausführung auf einer oder mehreren Vorrichtungsarten optimiert sind. In mindestens einer Ausführungsform können die Bibliotheken 2803 Funktionen zur Durchführung von mathematischen, Deep-Learning- und/oder anderen Arten von Operationen auf Vorrichtungen enthalten, sind aber nicht darauf beschränkt. In mindestens einer Ausführungsform sind Bibliotheken 2903 entsprechenden APIs 2902 zugeordnet, die eine oder mehrere APIs enthalten können, die in den Bibliotheken 2903 implementierte Funktionen offenlegen.In at least one embodiment, the software stack 2800 of a programming platform includes, but is not limited to, a set of libraries 2803, a runtime 2805, and a device kernel driver 2806. Each of the libraries 2803, in at least one embodiment, may contain data and programming code used by computer programs and can be used during software development. In at least one embodiment, libraries 2803 may include, but are not limited to, pre-built code and subprograms, classes, values, type specifications, configuration data, documentation, auxiliary data, and/or message templates. In at least one embodiment, libraries 2803 contain functions optimized for execution on one or more types of devices. In at least one embodiment, libraries 2803 may include, but are not limited to, functions for performing mathematical, deep learning, and/or other types of operations on devices. In at least one embodiment, libraries ken 2903 associated with corresponding APIs 2902, which may include one or more APIs that expose functions implemented in the libraries 2903.

In mindestens einer Ausführungsform ist die Anwendung 2801 als Quellcode geschrieben, der in ausführbaren Code kompiliert wird, wie nachstehend in Verbindung mit 33 bis 35 näher erläutert wird. In mindestens einer Ausführungsform kann ausführbarer Code der Anwendung 2801 zumindest teilweise auf einer Ausführungsumgebung laufen, die von dem Software-Stack 2800 bereitgestellt wird. In mindestens einer Ausführungsform kann während der Ausführung der Anwendung 2801 Code erreicht werden, der auf einem Gerät bzw. einer Vorrichtung , im Gegensatz zu einem Host, ausgeführt werden muss. In einem solchen Fall kann in mindestens einer Ausführungsform die Laufzeit 2805 aufgerufen werden, um den erforderlichen Code auf das Gerät zu laden und zu starten. In mindestens einer Ausführungsform kann die Laufzeit 2805 jedes technisch machbare Laufzeitsystem umfassen, das die Ausführung der Anwendung S01 unterstützen kann.In at least one embodiment, the application 2801 is written as source code that is compiled into executable code as described in connection with below 33 until 35 is explained in more detail. In at least one embodiment, executable code of the application 2801 may run at least in part on an execution environment provided by the software stack 2800. In at least one embodiment, during execution of the application 2801 code that must be executed on a device, as opposed to a host, may be accessed. In such a case, in at least one embodiment, runtime 2805 may be invoked to load and start the required code on the device. In at least one embodiment, runtime 2805 may include any technically feasible runtime system that can support execution of application S01.

In mindestens einer Ausführungsform ist die Laufzeit 2805 als eine oder mehrere Laufzeitbibliotheken implementiert, die mit entsprechenden APIs verbunden sind, die als API(s) 2804 dargestellt sind. Eine oder mehrere solcher Laufzeitbibliotheken können in mindestens einer Ausführungsform, ohne Beschränkung darauf, Funktionen zur Speicherverwaltung, Ausführungssteuerung, Geräteverwaltung, Fehlerbehandlung und/oder Synchronisation enthalten. In mindestens einer Ausführungsform können die Speicherverwaltungsfunktionen. Ohne Beschränkung darauf, Funktionen zum Zuweisen, Freigeben und Kopieren von Gerätespeicher sowie zum Übertragen von Daten zwischen dem Hostspeicher und dem Gerätespeicher umfassen. In mindestens einer Ausführungsform können Ausführungssteuerungsfunktionen Funktionen zum Starten einer Funktion (manchmal als ein „Kernel“ bezeichnet, wenn eine Funktion eine globale Funktion ist, die von einem Host aus aufgerufen werden kann) auf einem Gerät und zum Festlegen von Attributwerten in einem Puffer, der von einer Laufzeitbibliothek für eine gegebene, auf einem Gerät auszuführende Funktion verwaltet wird, enthalten, sind aber nicht darauf beschränkt.In at least one embodiment, runtime 2805 is implemented as one or more runtime libraries coupled to corresponding APIs, represented as API(s) 2804. One or more such runtime libraries may include, but is not limited to, memory management, execution control, device management, error handling, and/or synchronization functions in at least one embodiment. In at least one embodiment, the memory management functions. Include, without limitation, functions for allocating, freeing, and copying device storage, as well as transferring data between host storage and device storage. In at least one embodiment, execution control functions may include functions for starting a function (sometimes referred to as a "kernel" when a function is a global function that can be called from a host) on a device and for setting attribute values in a buffer that managed by a runtime library for a given function to be executed on a device include, but are not limited to.

In mindestens einer Ausführungsform können Laufzeitbibliotheken und entsprechende API(s) 2804 auf jede technisch machbare Weise implementiert sein. In mindestens einer Ausführungsform kann eine (oder eine beliebige Anzahl von) API(s) einen Low-Level-Satz von Funktionen für eine feinkörnige Steuerung eines Geräts bereitstellen, während eine andere (oder eine beliebige Anzahl von) API(s) einen Higher-Level-Satz solcher Funktionen bereitstellen kann. In mindestens einer Ausführungsform kann eine High-Level-Laufzeit-API auf einer Low-Level-API aufgebaut sein. In mindestens einer Ausführungsform können eine oder mehrere Laufzeit-APIs sprachspezifische APIs sein, die auf eine sprachunabhängige Laufzeit-API aufgesetzt sind.In at least one embodiment, runtime libraries and corresponding API(s) 2804 may be implemented in any technically feasible manner. In at least one embodiment, one (or any number of) API(s) may provide a low-level set of functions for fine-grained control of a device, while another (or any number of) API(s) may provide a higher-level set of functions. Level set of such functions can provide. In at least one embodiment, a high-level runtime API may be built on top of a low-level API. In at least one embodiment, one or more runtime APIs may be language-specific APIs that are layered on top of a language-independent runtime API.

In mindestens einer Ausführungsform ist der Gerätekerneltreiber 2806 so konfiguriert, dass er Kommunikation mit einem zugrunde liegenden Gerät erleichtert. In mindestens einer Ausführungsform kann der Gerätekerneltreiber 2806 Low-Level-Funktionalitäten bereitstellen, auf die sich APIs, wie z.B. die API(s) 2804, und/oder andere Software stützen. In mindestens einer Ausführungsform kann der Gerätekerneltreiber 2806 so konfiguriert sein, dass er zur Laufzeit Intermediate Representation („IR“) Code in Binärcode kompiliert. In mindestens einer Ausführungsform kann für CUDA der Gerätekerneltreiber 2806 IR-Code für parallele Thread-Ausführung („PTX“), der nicht hardwarespezifisch ist, zur Laufzeit in Binärcode für ein bestimmtes Zielgerät kompilieren (mit Zwischenspeicherung kompilierten Binärcodes), was manchmal auch als „finalisierter“ Code bezeichnet wird. Dadurch kann in mindestens einer Ausführungsform finalisierter Code auf einem Zielgerät ausgeführt werden, das möglicherweise nicht existierte, als der Quellcode ursprünglich in PTX-Code kompiliert wurde. Alternativ kann in mindestens einer Ausführungsform der Gerätequellcode offline in Binärcode kompiliert werden, ohne dass der Gerätekerneltreiber 2806 den IR-Code zur Laufzeit kompilieren muss.In at least one embodiment, the device kernel driver 2806 is configured to facilitate communication with an underlying device. In at least one embodiment, the device kernel driver 2806 may provide low-level functionality that APIs, such as the API(s) 2804, and/or other software rely on. In at least one embodiment, the device kernel driver 2806 may be configured to compile intermediate representation (“IR”) code to binary code at runtime. In at least one embodiment, for CUDA, the device kernel driver 2806 may compile parallel thread execution ("PTX") IR code that is not hardware-specific into binary code for a specific target device at runtime (cached compiled binary code), sometimes referred to as " “finalized” code is called. This allows, in at least one embodiment, finalized code to be executed on a target device that may not have existed when the source code was originally compiled into PTX code. Alternatively, in at least one embodiment, the device source code may be compiled into binary code offline without the device kernel driver 2806 having to compile the IR code at runtime.

In mindestens einer Ausführungsform werden ein oder mehrere in 28 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 28 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 28 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 28 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 28 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 28 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 28 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one out leadership form is one or more in 28 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

29 veranschaulicht eine CUDA-Implementierung des Software-Stacks 2800 von 28, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst ein CUDA-Software-Stack 2900, auf dem eine Anwendung 2901 gestartet werden kann, CUDA-Bibliotheken 2903, eine CUDA-Laufzeit 2905, einen CUDA-Treiber 2907 und einen Gerätekerneltreiber 2908. In mindestens einer Ausführungsform wird der CUDA-Software-Stack 2900 auf der Hardware 2909 ausgeführt, die eine GPU umfassen kann, die CUDA unterstützt und von der NVIDIA Corporation in Santa Clara, CA, entwickelt wird. 29 illustrates a CUDA implementation of the 2800 software stack 28 , in accordance with at least one embodiment. In at least one embodiment, a CUDA software stack 2900 on which an application 2901 can be launched includes CUDA libraries 2903, a CUDA runtime 2905, a CUDA driver 2907, and a device kernel driver 2908. In at least one embodiment, the CUDA -Software stack 2900 runs on hardware 2909, which may include a GPU supporting CUDA and is developed by NVIDIA Corporation of Santa Clara, CA.

In mindestens einer Ausführungsform können die Anwendung 2901, die CUDA-Laufzeit 2905 und der Gerätekerneltreiber 2908 ähnliche Funktionalitäten wie die Anwendung 2801, die Laufzeit 2805 bzw. der Gerätekerneltreiber 2806 ausführen, die vorstehend in Verbindung mit 28 beschrieben sind. In mindestens einer Ausführungsform umfasst der CUDA-Treiber 2907 eine Bibliothek (libcuda.so), die eine CUDA-Treiber-API 2906 implementiert. Ähnlich zu einer CUDA-Laufzeit-API 2904, die von einer CUDA-Laufzeitbibliothek (cudart) implementiert wird, kann die CUDA-Treiber-API 2906 in mindestens einer Ausführungsform, ohne darauf beschränkt zu sein, Funktionen für Speicherverwaltung, Ausführungssteuerung, Geräteverwaltung, Fehlerbehandlung, Synchronisierung und/oder Grafik-Interoperabilität bereitstellen. In mindestens einer Ausführungsform unterscheidet sich die CUDA-Treiber-API 2906 von der CUDA-Laufzeit-API 2904 dadurch, dass die CUDA-Laufzeit-API 2904 die Geräte-Codeverwaltung vereinfacht, indem sie eine implizite Initialisierung, eine Kontextverwaltung (analog zu einem Prozess) und eine Modulverwaltung (analog zu dynamisch geladenen Bibliotheken) bereitstellt. Im Gegensatz zu der High-Level-CUDA-Laufzeit-API 2904 ist die CUDA-Treiber-API 2906 eine Low-Level-API, die eine feinkörnigere Steuerung des Geräts ermöglicht, insbesondere in Bezug auf Kontexte und das Laden von Modulen, in mindestens einer Ausführungsform. In mindestens einer Ausführungsform kann die CUDA-Treiber-API 2906 Funktionen zur Kontextverwaltung bereitstellen, die von der CUDA-Laufzeit-API 2904 nicht bereitgestellt werden. In mindestens einer Ausführungsform ist die CUDA-Treiber-API 2906 auch sprachunabhängig und unterstützt z.B. OpenCL zusätzlich zu der CUDA-Laufzeit-API 2904. Ferner können in mindestens einer Ausführungsform die Entwicklungsbibliotheken, einschließlich der CUDA-Laufzeit 2905, als getrennt von den Treiberkomponenten betrachtet werden, einschließlich des Benutzermodus-CUDA-Treibers 2907 und des Kernelmodus-Gerätetreibers 2908 (manchmal auch als „Anzeige“-Treiber bezeichnet).In at least one embodiment, the application 2901, the CUDA runtime 2905, and the device kernel driver 2908 may perform similar functionality to the application 2801, the runtime 2805, and the device kernel driver 2806, respectively, discussed above in connection with 28 are described. In at least one embodiment, the CUDA driver 2907 includes a library (libcuda.so) that implements a CUDA driver API 2906. Similar to a CUDA runtime API 2904 implemented by a CUDA runtime library (cudart), in at least one embodiment, the CUDA driver API 2906 may, but is not limited to, memory management, execution control, device management, error handling functions , synchronization and/or graphics interoperability. In at least one embodiment, the CUDA driver API 2906 differs from the CUDA runtime API 2904 in that the CUDA runtime API 2904 simplifies device code management by providing implicit initialization, context management (analogous to a process ) and provides module management (analogous to dynamically loaded libraries). In contrast to the high-level CUDA runtime API 2904, the CUDA driver API 2906 is a low-level API that allows for finer-grained control of the device, particularly in terms of contexts and module loading, at least one embodiment. In at least one embodiment, the CUDA driver API 2906 may provide context management capabilities that are not provided by the CUDA runtime API 2904. In at least one embodiment, the CUDA driver API 2906 is also language independent and supports, for example, OpenCL in addition to the CUDA runtime API 2904. Further, in at least one embodiment, the development libraries, including the CUDA runtime 2905, may be considered separate from the driver components including the user-mode CUDA driver 2907 and the kernel-mode device driver 2908 (sometimes referred to as the “display” driver).

In mindestens einer Ausführungsform können die CUDA-Bibliotheken 2903 mathematische Bibliotheken, Deep-Learning-Bibliotheken, Bibliotheken paralleler Algorithmen und/oder Bibliotheken für Signal-/Bild-/Videoverarbeitung beinhalten, die von parallelen Rechenanwendungen wie der Anwendung 2901 verwendet werden können, sind aber nicht darauf beschränkt. In mindestens einer Ausführungsform können die CUDA-Bibliotheken 2903 mathematische Bibliotheken wie beispielsweise eine cuBLAS-Bibliothek, die eine Implementierung von Basic Linear Algebra Subprograms („BLAS“) zur Durchführung linearer Algebraoperationen ist, eine cuFFT-Bibliothek zur Berechnung schneller Fourier-Transformationen („FFTs“) und eine cuRAND-Bibliothek zum Erzeugen von Zufallszahlen usw. beinhalten. In mindestens einer Ausführungsform können die CUDA-Bibliotheken 2903 unter anderem Deep-Learning-Bibliotheken wie eine cuDNN-Bibliothek mit Primitiven für tiefe neuronale Netzwerke und eine TensorRT-Plattform für hochleistungsfähige Deep-Learning-Inferenz umfassen.In at least one embodiment, the CUDA libraries 2903 may include, but are not limited to, mathematical libraries, deep learning libraries, parallel algorithm libraries, and/or signal/image/video processing libraries that may be used by parallel computing applications such as application 2901 not limited to that. In at least one embodiment, the CUDA libraries 2903 may include mathematical libraries such as a cuBLAS library, which is an implementation of Basic Linear Algebra Subprograms ("BLAS") for performing linear algebra operations, a cuFFT library for computing fast Fourier transforms (" FFTs”) and a cuRAND library for generating random numbers etc. In at least one embodiment, the CUDA libraries 2903 may include, among others, deep learning libraries such as a cuDNN library with deep neural network primitives and a TensorRT platform for high-performance deep learning inference.

In mindestens einer Ausführungsform werden ein oder mehrere in 29 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 29 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 29 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 29 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 29 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 29 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 29 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 29 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

30 veranschaulicht eine ROCm-Implementierung des Software-Stacks 2800 von 28, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst ein ROCm-Software-Stack 3000, auf dem eine Anwendung 3001 gestartet werden kann, eine Sprachlaufzeit 3003, eine Systemlaufzeit 3005, einen Thunk 3007, und einen ROCm-Kerneltreiber 3008. In mindestens einer Ausführungsform wird der ROCm-Software-Stack 3000 auf der Hardware 3009 ausgeführt, die eine GPU umfassen kann, die ROCm unterstützt und von der AMD Corporation in Santa Clara, CA, entwickelt wird. 30 illustrates a ROCm implementation of the 2800 software stack 28 , in accordance with at least one embodiment. In at least one embodiment, a ROCm software stack 3000 on which an application 3001 can be launched, a language runtime 3003, a system runtime 3005, a thunk 3007, and a ROCm kernel driver 3008. In at least one embodiment, the ROCm software stack 3000 is installed on the hardware 3009, which may include a GPU that supports ROCm and is developed by AMD Corporation of Santa Clara, CA.

In mindestens einer Ausführungsform kann eine Anwendung 3001 ähnliche Funktionalitäten ausführen wie die vorstehend in Verbindung mit 28 besprochene Anwendung 2801. Darüber hinaus können die Sprachlaufzeit 3003 und die Systemlaufzeit 3005 in mindestens einer Ausführungsform ähnliche Funktionalitäten ausführen wie die vorstehend in Verbindung mit 28 beschriebene Laufzeit 2805. In mindestens einer Ausführungsform unterscheiden sich die Sprachlaufzeit 3003 und die Systemlaufzeit 3005 dadurch, dass die Systemlaufzeit 3005 eine sprachunabhängige Laufzeit ist, die eine ROCr-Systemlaufzeit-API 3004 implementiert und eine Heterogeneous System Architecture („HSA“) Laufzeit-API verwendet. Die HSA-Laufzeit-API ist eine schlanke API für den Benutzermodus, die Schnittstellen für den Zugriff auf und die Interaktion mit einer AMD-GPU bereitstellt, einschließlich Funktionen für die Speicherverwaltung, die Ausführungssteuerung über architektonisches Dispatch von Kerneln, die Fehlerbehandlung, System- und Agenteninformationen sowie die Laufzeitinitialisierung und das Herunterfahren, unter anderem, in mindestens einer Ausführungsform. Im Gegensatz zur Systemlaufzeit 3005 ist die Sprachlaufzeit 3003 in mindestens einer Ausführungsform eine Implementierung einer sprachspezifischen Laufzeit-API 3002, die auf der ROCr-Systemlaufzeit-API 3004 aufliegt. In mindestens einer Ausführungsform kann die Sprach-Laufzeit-API unter anderem eine Heterogeneous Compute Interface for Portability („HIP“)-Sprach-Laufzeit-API, eine Heterogeneous Compute Compiler („HCC“)-Sprach-Laufzeit-API oder eine OpenCL-API umfassen, ist aber nicht darauf beschränkt. HIP-Sprache ist insbesondere eine Erweiterung der C++-Programmiersprache mit funktionell ähnlichen Versionen der CUDA-Mechanismen, und in mindestens einer Ausführungsform umfasst eine HIP-Sprach-Laufzeit-API Funktionen, die denen der vorstehend in Verbindung mit 29 besprochenen CUDA-Laufzeit-API 2904 ähnlich sind, wie z.B. Funktionen für die Speicherverwaltung, Ausführungssteuerung, Geräteverwaltung, Fehlerbehandlung und Synchronisierung.In at least one embodiment, an application 3001 may perform similar functionality to that described above in connection with 28 discussed application 2801. Additionally, in at least one embodiment, the language runtime 3003 and the system runtime 3005 may perform similar functionality to that described above in connection with 28 described runtime 2805. In at least one embodiment, the language runtime 3003 and the system runtime 3005 differ in that the system runtime 3005 is a language-independent runtime that implements a ROCr system runtime API 3004 and a Heterogeneous System Architecture ("HSA") runtime API used. The HSA Runtime API is a lightweight user-mode API that provides interfaces for accessing and interacting with an AMD GPU, including functions for memory management, execution control via architectural dispatch of kernels, error handling, system and Agent information and runtime initialization and shutdown, among other things, in at least one embodiment. In contrast to the system runtime 3005, the language runtime 3003 is, in at least one embodiment, an implementation of a language-specific runtime API 3002 that sits on top of the ROCr system runtime API 3004. In at least one embodiment, the language runtime API may include, but is not limited to, a Heterogeneous Compute Interface for Portability ("HIP") language runtime API, a Heterogeneous Compute Compiler ("HCC") language runtime API, or an OpenCL API include, but is not limited to. In particular, HIP language is an extension of the C++ programming language with functionally similar versions of the CUDA mechanisms, and in at least one embodiment, a HIP language runtime API includes functions similar to those described above in connection with 29 CUDA runtime API 2904 discussed, such as functions for memory management, execution control, device management, error handling, and synchronization.

In mindestens einer Ausführungsform ist der Thunk (ROCt) 3007 eine Schnittstelle 3006, die zur Interaktion mit dem zugrunde liegenden ROCm-Treiber 3008 verwendet werden kann. In mindestens einer Ausführungsform ist der ROCm-Treiber 3008 ein ROCk-Treiber, der eine Kombination aus einem AMDGPU-Treiber und einem HSA-Kerneltreiber (amdkfd) ist. In mindestens einer Ausführungsform ist der AMD-GPU-Treiber ein von AMD entwickelter Gerätekerneltreiber für GPUs, der ähnliche Funktionalitäten wie der vorstehend in Verbindung mit 28 besprochene Gerätekerneltreiber 2806 ausführt. In mindestens einer Ausführungsform ist der HSA-Kerneltreiber ein Treiber, der es verschiedenen Typen von Prozessoren ermöglicht, Systemressourcen über Hardwarefunktionen effektiver gemeinsam zu nutzen.In at least one embodiment, the thunk (ROCt) 3007 is an interface 3006 that can be used to interact with the underlying ROCm driver 3008. In at least one embodiment, the ROCm driver 3008 is a ROCk driver that is a combination of an AMDGPU driver and an HSA kernel driver (amdkfd). In at least one embodiment, the AMD GPU driver is a device kernel driver for GPUs developed by AMD that provides similar functionality to that described above in connection with 28 device kernel driver 2806 discussed. In at least one embodiment, the HSA kernel driver is a driver that enables different types of processors to more effectively share system resources via hardware functions.

In mindestens einer Ausführungsform können verschiedene Bibliotheken (nicht gezeigt) in dem ROCm-Software-Stack 3000 oberhalb der Sprachlaufzeit 3003 enthalten sein und eine ähnliche Funktionalität wie die CUDA-Bibliotheken 2903, die vorstehend in Verbindung mit 29 besprochen wurden, bereitstellen. In mindestens einer Ausführungsform können verschiedene Bibliotheken mathematische, Deep-Learning- und/oder andere Bibliotheken enthalten, wie z.B. eine hipBLAS-Bibliothek, die Funktionen ähnlich denen von CUDA cuBLAS implementiert, eine rocFFT-Bibliothek zur Berechnung von FFTs, die CUDA cuFFT ähnlich ist, und andere.In at least one embodiment, various libraries (not shown) may be included in the ROCm software stack 3000 above the language runtime 3003 and provide similar functionality to the CUDA libraries 2903 discussed above in connection with 29 have been discussed. In at least one embodiment, various libraries may include mathematical, deep learning, and/or other libraries, such as a hipBLAS library that implements functions similar to CUDA cuBLAS, a rocFFT library for computing FFTs that is similar to CUDA cuFFT , and other.

In mindestens einer Ausführungsform werden ein oder mehrere in 30 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 30 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 30 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 30 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 30 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 30 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 30 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 30 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

31 veranschaulicht eine OpenCL-Implementierung des Software-Stacks 2800 von 28, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst ein OpenCL-Software-Stack 3100, auf dem eine Anwendung 3101 gestartet werden kann, ein OpenCL-Framework 3110, eine OpenCL-Laufzeit 3106 und einen Treiber 3107. In mindestens einer Ausführungsform wird der OpenCL-Software-Stack 3100 auf der Hardware 2909 ausgeführt, die nicht herstellerspezifisch ist. Da OpenCL von Geräten unterstützt wird, die von verschiedenen Anbietern entwickelt wurden, können in mindestens einer Ausführungsform spezifische OpenCL-Treiber erforderlich sein, um mit Hardware von solchen Anbietern zusammenzuarbeiten. 31 illustrates an OpenCL implementation of the 2800 software stack 28 , in accordance with at least one embodiment. In at least one embodiment, a OpenCL software stack 3100 on which an application 3101 can be started, an OpenCL framework 3110, an OpenCL runtime 3106 and a driver 3107. In at least one embodiment, the OpenCL software stack 3100 is executed on the hardware 2909, which is not manufacturer specific. In at least one embodiment, because OpenCL is supported by devices developed by various vendors, specific OpenCL drivers may be required to interoperate with hardware from such vendors.

In mindestens einer Ausführungsform können die Anwendung 3101, die OpenCL-Laufzeit 3106, der Gerätekerneltreiber 3107 und die Hardware 3108 ähnliche Funktionen ausführen wie die Anwendung 2801, die Laufzeit 2805, der Gerätekerneltreiber 2806 bzw. die Hardware 2807, die vorstehend in Verbindung mit 28 beschrieben sind. In mindestens einer Ausführungsform enthält die Anwendung 3101 außerdem einen OpenCL-Kernel 3102 mit Code, der auf einem Gerät auszuführen ist.In at least one embodiment, the application 3101, the OpenCL runtime 3106, the device kernel driver 3107, and the hardware 3108 may perform similar functions as the application 2801, the runtime 2805, the device kernel driver 2806, and the hardware 2807, respectively, discussed above in connection with 28 are described. In at least one embodiment, the application 3101 also includes an OpenCL kernel 3102 with code to be executed on a device.

In mindestens einer Ausführungsform definiert OpenCL eine „Plattform“, die es einem Host ermöglicht, mit dem Host verbundene Geräte zu steuern. In mindestens einer Ausführungsform stellt ein OpenCL-Framework eine Plattformschicht-API und eine Laufzeit-API, dargestellt als Plattform-API 3103 und Laufzeit-API 3105, bereit. In mindestens einer Ausführungsform verwendet die Laufzeit-API 3105 Kontexte, um die Ausführung von Kerneln auf Geräten zu verwalten. In mindestens einer Ausführungsform kann jedes identifizierte Gerät mit einem entsprechenden Kontext assoziiert sein, den die Laufzeit-API 3105 verwenden kann, um Befehlswarteschlangen, Programmobjekte und Kernelobjekte, gemeinsam genutzte Speicherobjekte usw. für dieses Gerät zu verwalten. In mindestens einer Ausführungsform stellt die Plattform-API 3103 Funktionen zur Verfügung, die es ermöglichen, Gerätekontexte zu verwenden, um Geräte auszuwählen und zu initialisieren, Arbeit über Befehlswarteschlangen an Geräte zu übermitteln und den Datentransfer zu und von Geräten zu ermöglichen, um nur einige Beispiele zu nennen. Darüber hinaus stellt das OpenCL-Framework in mindestens einer Ausführungsform verschiedene integrierte Funktionen (nicht dargestellt), darunter mathematische Funktionen, relationale Funktionen und Bildverarbeitungsfunktionen, bereit.In at least one embodiment, OpenCL defines a “platform” that allows a host to control devices connected to the host. In at least one embodiment, an OpenCL framework provides a platform layer API and a runtime API, represented as platform API 3103 and runtime API 3105. In at least one embodiment, runtime API 3105 uses contexts to manage the execution of kernels on devices. In at least one embodiment, each identified device may be associated with a corresponding context that runtime API 3105 may use to manage instruction queues, program objects and kernel objects, shared memory objects, etc. for that device. In at least one embodiment, the platform API 3103 provides functions that enable using device contexts to select and initialize devices, submit work to devices via command queues, and enable data transfer to and from devices, as just a few examples to call. Additionally, in at least one embodiment, the OpenCL framework provides various built-in functions (not shown), including mathematical functions, relational functions, and image processing functions.

In mindestens einer Ausführungsform ist darüber hinaus ein Compiler 3104 in dem OpenCL-Rahmenwerk 3105 enthalten. Der Quellcode kann in mindestens einer Ausführungsform offline vor der Ausführung einer Anwendung oder online während der Ausführung einer Anwendung kompiliert werden. Im Gegensatz zu CUDA und ROCm können OpenCL-Anwendungen in mindestens einer Ausführungsform online durch den Compiler 3104 kompiliert werden, der stellvertretend für eine beliebige Anzahl von Compilern steht, die zum Kompilieren von Quellcode und/oder IR-Code, wie Standard Portable Intermediate Representation („SPIR-V“) Code, in Binärcode verwendet werden können. Alternativ können in mindestens einer Ausführungsform OpenCL-Anwendungen offline kompiliert werden, bevor solche Anwendungen ausgeführt werden.In at least one embodiment, a compiler 3104 is also included in the OpenCL framework 3105. In at least one embodiment, the source code may be compiled offline prior to executing an application or online during execution of an application. Unlike CUDA and ROCm, in at least one embodiment, OpenCL applications can be compiled online by compiler 3104, which is representative of any number of compilers designed to compile source code and/or IR code, such as Standard Portable Intermediate Representation ( “SPIR-V”) code that can be used in binary code. Alternatively, in at least one embodiment, OpenCL applications may be compiled offline before executing such applications.

In mindestens einer Ausführungsform werden ein oder mehrere in 31 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 31 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 31 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 31 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 31 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 31 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 31 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 31 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

32 veranschaulicht Software, die von einer Programmierplattform unterstützt wird, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist eine Programmierplattform 3204 so konfiguriert, dass sie verschiedene Programmiermodelle 3203, Middlewares und/oder Bibliotheken 3202 und Frameworks 3201 unterstützt, auf die sich eine Anwendung 3200 stützen kann. In mindestens einer Ausführungsform kann die Anwendung 3200 eine KI/ML-Anwendung sein, die unter Verwendung beispielsweise eines Deep-Learning-Frameworks wie MXNet, PyTorch oder TensorFlow implementiert ist, das sich auf Bibliotheken wie cuDNN, NVIDIA Collective Communications Library („NCCL“) und/oder NVIDA Developer Data Loading Library („DALI“) CUDA-Bibliotheken stützen kann, um beschleunigte Berechnungen auf zugrunde liegender Hardware bereitzustellen. 32 illustrates software supported by a programming platform in accordance with at least one embodiment. In at least one embodiment, a programming platform 3204 is configured to support various programming models 3203, middlewares and/or libraries 3202, and frameworks 3201 upon which an application 3200 may rely. In at least one embodiment, the application 3200 may be an AI/ML application implemented using, for example, a deep learning framework such as MXNet, PyTorch, or TensorFlow, relying on libraries such as cuDNN, NVIDIA Collective Communications Library ("NCCL") ) and/or NVIDA Developer Data Loading Library (“DALI”) can support CUDA libraries to provide accelerated computations on underlying hardware.

In mindestens einer Ausführungsform kann die Programmierplattform 3204 eine der vorstehend in Verbindung mit 29, 30 bzw. 31 beschriebenen CUDA, ROCm- oder OpenCL-Plattformen sein. In mindestens einer Ausführungsform unterstützt die Programmierplattform 3204 mehrere Programmiermodelle 3203, die Abstraktionen eines zugrunde liegenden Rechensystems sind, die Ausdrücke von Algorithmen und Datenstrukturen erlauben. In mindestens einer Ausführungsform können Programmiermodelle 3203 Merkmale zugrunde liegender Hardware offenlegen, um die Leistung zu verbessern. In mindestens einer Ausführungsform können die Programmiermodelle 3203 CUDA, HIP, OpenCL, C++ Accelerated Massive Parallelism („C++AMP“), Open Multi-Processing („OpenMP“), Open Accelerators („OpenACC“) und/oder Vulcan Compute umfassen, sind aber nicht darauf beschränkt.In at least one embodiment, the programming platform 3204 may be any of the foregoing in connection with 29 , 30 or. 31 CUDA, ROCm or OpenCL platforms described. In at least one embodiment, the programming platform 3204 supports multiple programming models 3203, which are abstractions of an underlying computing system that allow expressions of algorithms and data structures. In at least one embodiment, programming models 3203 may expose features of underlying hardware to improve performance. In at least one embodiment, the programming models 3203 may include CUDA, HIP, OpenCL, C++ Accelerated Massive Parallelism (“C++AMP”), Open Multi-Processing (“OpenMP”), Open Accelerators (“OpenACC”), and/or Vulcan Compute , but are not limited to.

In mindestens einer Ausführungsform stellen Bibliotheken und/oder Middlewares 3202 Implementierungen von Abstraktionen von Programmiermodellen 3204 bereit. In mindestens einer Ausführungsform enthalten solche Bibliotheken Daten und Programmiercode, die von Computerprogrammen verwendet und während der Softwareentwicklung genutzt werden können. In mindestens einer Ausführungsform umfassen solche Middlewares Software, die Anwendungen Dienste zur Verfügung stellt, die über die von der Programmierplattform 3204 verfügbaren Dienste hinausgehen. In mindestens einer Ausführungsform können die Bibliotheken und/oder Middlewares 3202 cuBLAS, cuFFT, cuRAND und andere CUDA-Bibliotheken oder rocBLAS, rocFFT, rocRAND und andere ROCm-Bibliotheken umfassen, sind aber nicht darauf beschränkt. Darüber hinaus können die Bibliotheken und/oder Middlewares 3202 in mindestens einer Ausführungsform NCCL- und ROCm Communication Collectives Library („RCCL“)-Bibliotheken, die Kommunikationsroutinen für GPUs bereitstellen, eine MIOpen-Bibliothek zur Deep-Learning-Beschleunigung und/oder eine Eigen-Bibliothek für lineare Algebra, Matrix- und Vektoroperationen, geometrische Transformationen, numerische Solver und verwandte Algorithmen umfassen.In at least one embodiment, libraries and/or middlewares 3202 provide implementations of abstractions of programming models 3204. In at least one embodiment, such libraries contain data and programming code that can be used by computer programs and used during software development. In at least one embodiment, such middlewares include software that provides applications with services beyond those available from the programming platform 3204. In at least one embodiment, the libraries and/or middlewares 3202 may include, but are not limited to, cuBLAS, cuFFT, cuRAND, and other CUDA libraries or rocBLAS, rocFFT, rocRAND, and other ROCm libraries. Additionally, in at least one embodiment, the libraries and/or middlewares 3202 may include NCCL and ROCm Communication Collectives Library (“RCCL”) libraries that provide communication routines for GPUs, a MIOpen deep learning acceleration library, and/or a proprietary -Library for linear algebra, matrix and vector operations, geometric transformations, numerical solvers and related algorithms.

In mindestens einer Ausführungsform hängen die Anwendungsframeworks 3201 von Bibliotheken und/oder Middlewares 3202 ab. In mindestens einer Ausführungsform ist jedes der Anwendungsframeworks 3201 ein Softwareframework, das zur Implementierung einer Standardstruktur von Anwendungssoftware verwendet wird. Um auf das vorstehend besprochene KI/ML-Beispiel zurückzukommen, kann eine KI/ML-Anwendung in mindestens einer Ausführungsform unter Verwendung von eines Frameworks wie Caffe, Caffe2, TensorFlow, Keras, PyTorch oder MxNet Deep Learning Frameworks implementiert sein.In at least one embodiment, the application frameworks 3201 depend on libraries and/or middlewares 3202. In at least one embodiment, each of the application frameworks 3201 is a software framework used to implement a standard structure of application software. Returning to the AI/ML example discussed above, in at least one embodiment, an AI/ML application may be implemented using a framework such as Caffe, Caffe2, TensorFlow, Keras, PyTorch, or MxNet Deep Learning Frameworks.

In mindestens einer Ausführungsform werden ein oder mehrere in 32 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 32 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 32 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 32 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 32 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 32 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 32 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 32 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

33 veranschaulicht die Kompilierung von Code zur Ausführung auf einer der Programmierplattformen von 28-31, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform empfängt ein Compiler 3301 Quellcode 3300, der sowohl Host-Code als auch Geräte-Code enthält. In mindestens einer Ausführungsform ist der Compiler 3301 so konfiguriert, dass er den Quellcode 3300 in einen ausführbaren Host-Code 3302 zur Ausführung auf einem Host und einen ausführbaren Geräte-Code 3303 zur Ausführung auf einem Gerät umwandelt. In mindestens einer Ausführungsform kann der Quellcode 3300 entweder offline vor der Ausführung einer Anwendung oder online während der Ausführung einer Anwendung kompiliert werden. 33 demonstrates how to compile code for execution on one of the programming platforms 28-31 , in accordance with at least one embodiment. In at least one embodiment, a compiler 3301 receives source code 3300 that includes both host code and device code. In at least one embodiment, compiler 3301 is configured to convert source code 3300 into host executable code 3302 for execution on a host and device executable code 3303 for execution on a device. In at least one embodiment, source code 3300 may be compiled either offline prior to executing an application or online during execution of an application.

In mindestens einer Ausführungsform kann der Quellcode 3300 Code in einer beliebigen, von dem Compiler 3301 unterstützten Programmiersprache enthalten, wie z.B. C++, C, Fortran usw. In mindestens einer Ausführungsform kann der Quellcode 3300 in einer Einquellen- bzw. Single-Source-Datei enthalten sein, die eine Mischung aus Host-Code und Geräte-Code enthält, wobei Positionen des Geräte-Codes darin angegeben sind. In mindestens einer Ausführungsform kann eine Single-Source-Datei eine .cu-Datei sein, die CUDA-Code enthält, oder eine .hip.cpp-Datei, die HIP-Code enthält. Alternativ kann der Quellcode 3300 in mindestens einer Ausführungsform mehrere Quellcodedateien anstelle einer einzigen Quellcodedatei beinhalten, in denen Host-Code und Geräte-Code getrennt sind.In at least one embodiment, the source code 3300 may include code in any programming language supported by the compiler 3301, such as C++, C, Fortran, etc. In at least one embodiment, the source code 3300 may include in a single-source file which contains a mixture of host code and device code, with locations of the device code specified therein. In at least one embodiment, a single-source file may be a .cu file containing CUDA code or a .hip.cpp file containing HIP code. Alternatively, the source code can be 3300 in at least one embodiment, multiple source code files, instead of a single source code file, in which host code and device code are separated.

In mindestens einer Ausführungsform ist der Compiler 3301 so konfiguriert, dass er den Quellcode 3300 in einen ausführbaren Host-Code 3302 zur Ausführung auf einem Host und einen ausführbaren Geräte-Code 3303 zur Ausführung auf einem Gerät kompiliert. In mindestens einer Ausführungsform führt der Compiler 3301 Operationen durch, darunter ein Parsen des Quellcodes 3300 in einen abstrakten Systembaum (AST), ein Durchführen von Optimierungen und ein Erzeugen von ausführbarem Code. In mindestens einer Ausführungsform, in der der Quellcode 3300 eine Single-Source-Datei enthält, kann der Compiler 3301 den Geräte-Code von dem Host-Code in einer solchen Single-Source-Datei trennen, den Geräte-Code und den Host-Code in den ausführbaren Geräte-Code 3303 bzw. den ausführbaren Host-Code 3302 kompilieren und den ausführbaren Geräte-Code 3303 und den ausführbaren Host-Code 3302 in einer einzigen Datei miteinander verknüpfen, wie nachstehend unter Bezugnahme auf 34 ausführlicher erläutert.In at least one embodiment, compiler 3301 is configured to compile source code 3300 into host executable code 3302 for execution on a host and device executable code 3303 for execution on a device. In at least one embodiment, the compiler 3301 performs operations including parsing the source code 3300 into an abstract system tree (AST), performing optimizations, and generating executable code. In at least one embodiment, where the source code 3300 includes a single-source file, the compiler 3301 may separate the device code from the host code in such single-source file, the device code and the host code into the executable device code 3303 and the executable host code 3302, respectively, and link the executable device code 3303 and the executable host code 3302 together in a single file, as described below with reference to 34 explained in more detail.

In mindestens einer Ausführungsform können der ausführbare Host-Code 3302 und der ausführbare Geräte-Code 3303 in jedem geeigneten Format vorliegen, z.B. als Binärcode und/oder IR-Code. Im Fall von CUDA kann der ausführbare Host-Code 3302 in mindestens einer Ausführungsform nativen Objektcode beinhalten und kann der ausführbare Geräte-Code 3303 Code in PTX-Zwischendarstellung beinhalten. Im Fall von ROCm können sowohl der ausführbare Host-Code 3302 als auch der ausführbare Geräte-Code 3303 in mindestens einer Ausführungsform einen Ziel-Binärcode enthalten.In at least one embodiment, the host executable code 3302 and the device executable code 3303 may be in any suitable format, such as binary code and/or IR code. In the case of CUDA, in at least one embodiment, the host executable code 3302 may include native object code and the device executable code 3303 may include PTX intermediate representation code. In the case of ROCm, both host executable code 3302 and device executable code 3303 may include target binary code in at least one embodiment.

In mindestens einer Ausführungsform werden ein oder mehrere in 33 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 33 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 33 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 33 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 33 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 33 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 33 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 33 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

34 ist eine detailliertere Darstellung der Kompilierung von Code zur Ausführung auf einer der Programmierplattformen von 28-31, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform ist ein Compiler 3401 so konfiguriert, dass er Quellcode 3400 empfängt, Quellcode 3400 kompiliert und eine ausführbare Datei 34108 ausgibt. In mindestens einer Ausführungsform ist der Quellcode 3400 eine Single-Source-Datei, wie z.B. eine .cu-Datei, eine .hip.cpp-Datei oder eine Datei in einem anderen Format, die sowohl Host- als auch Geräte-Code enthält. In mindestens einer Ausführungsform kann der Compiler 3401 ein NVIDIA CUDA Compiler („NVCC“) zum Kompilieren von CUDA-Code in .cu-Dateien oder ein HCC-Compiler zum Kompilieren von HIP-Code in .hip.cpp-Dateien sein, ist aber nicht darauf beschränkt. 34 is a more detailed look at compiling code for execution on one of the programming platforms 28-31 , in accordance with at least one embodiment. In at least one embodiment, a compiler 3401 is configured to receive source code 3400, compile source code 3400, and output an executable file 34108. In at least one embodiment, the source code 3400 is a single-source file, such as a .cu file, a .hip.cpp file, or another format file that contains both host and device code. In at least one embodiment, the compiler 3401 may be an NVIDIA CUDA Compiler (“NVCC”) for compiling CUDA code into .cu files or an HCC compiler for compiling HIP code into .hip.cpp files, but is not limited to that.

In mindestens einer Ausführungsform beinhaltet der Compiler 3401 ein Compiler-Frontend 3402, einen Host-Compiler 3405, einen Geräte-Compiler 3406 und einen Linker 3409. In mindestens einer Ausführungsform ist das Compiler-Frontend 3402 so konfiguriert, dass es den Geräte-Code 3404 von dem Host-Code 3403 in dem Quellcode 3400 trennt. Geräte-Code 3404 wird von dem Gerätecompiler 3406 in ausführbaren Geräte-Code 3408 kompiliert, der, wie beschrieben wurde, in mindestens einer Ausführungsform Binärcode oder IR-Code enthalten kann. In mindestens einer Ausführungsform wird getrennt davon Host-Code 3403 von dem Host-Compiler 3405 in ausführbaren Host-Code 3407 kompiliert. In mindestens einer Ausführungsform kann für NVCC der Host-Compiler 3405, ohne darauf beschränkt zu sein, ein universeller C/C++-Compiler sein, der nativen Objektcode ausgibt, während der Geräte-Compiler 3406, ohne darauf beschränkt zu sein, ein auf einer Low Level Virtual Machine („LLVM“) basierender Compiler sein kann, der eine LLVM-Compiler-Infrastruktur aufspaltet und PTX-Code oder Binärcode ausgibt. In mindestens einer Ausführungsform können für den HCC sowohl der Host-Compiler 3405 als auch der Geräte-Compiler 3406 LLVM-basierte Compiler sein, die Ziel-Binärcode ausgeben, sind aber nicht darauf beschränkt.In at least one embodiment, the compiler 3401 includes a compiler front end 3402, a host compiler 3405, a device compiler 3406, and a linker 3409. In at least one embodiment, the compiler front end 3402 is configured to read the device code 3404 separates from the host code 3403 in the source code 3400. Device code 3404 is compiled by device compiler 3406 into executable device code 3408, which, as described, may include binary code or IR code in at least one embodiment. Separately, in at least one embodiment, host code 3403 is compiled into executable host code 3407 by host compiler 3405. In at least one embodiment, for NVCC, the host compiler 3405 may be, but is not limited to, a general-purpose C/C++ compiler that outputs native object code, while the device compiler 3406 may be, but is not limited to, a on a low Level Virtual Machine (“LLVM”) based compiler that splits an LLVM compiler infrastructure and outputs PTX code or binary code. In at least one embodiment, for the HCC, both the host compiler 3405 and the device compiler 3406 may be, but are not limited to, LLVM-based compilers that output target binary code.

Nach der Kompilierung des Quellcodes 3400 in einen ausführbaren Host-Code 3407 und einen ausführbaren Geräte-Code 3408 verknüpft der Linker 3409 in mindestens einer Ausführungsform den ausführbaren Host- und Geräte-Code 3407 und 3408 in einer ausführbaren Datei 3410. In mindestens einer Ausführungsform können nativer Objektcode für einen Host und PTX- oder Binärcode für ein Gerät in einer Executable and Linkable Format („ELF“)-Datei miteinander verknüpft werden, die ein Containerformat zum Speichern von Objektcode ist.After compiling the source code 3400 into an executable host code 3407 and an executable device code 3408, the linker 3409 links the executable in at least one embodiment ren host and device code 3407 and 3408 in an executable file 3410. In at least one embodiment, native object code for a host and PTX or binary code for a device may be linked together in an Executable and Linkable Format (“ELF”) file , which is a container format for storing object code.

In mindestens einer Ausführungsform werden ein oder mehrere in 34 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 34 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 34 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 34 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 34 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 34 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 34 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 34 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

35 veranschaulicht ein Übersetzen von Quellcode vor der Kompilierung des Quellcodes, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform wird Quellcode 3500 durch ein Übersetzungswerkzeug 3501 geleitet, das den Quellcode 3500 in übersetzten Quellcode 3502 übersetzt. In mindestens einer Ausführungsform wird ein Compiler 3503 verwendet, um den übersetzten Quellcode 3502 in einen ausführbaren Host-Code 3504 und einen ausführbaren Geräte-Code 3505 zu kompilieren, in einem Prozess, der der Kompilierung des Quellcodes 3300 durch den Compiler 3301 in einen ausführbaren Host-Code 3302 und einen ausführbaren Geräte-Code 3303 ähnelt, wie vorstehend in Verbindung mit 33 beschrieben wurde. 35 illustrates translating source code prior to compiling the source code, in accordance with at least one embodiment. In at least one embodiment, source code 3500 is passed through a translation tool 3501 that translates source code 3500 into translated source code 3502. In at least one embodiment, a compiler 3503 is used to compile the translated source code 3502 into a host executable code 3504 and a device executable code 3505, in a process similar to the compiler 3301 compiling the source code 3300 into a host executable -Code 3302 and an executable device code 3303 similar to that in connection with above 33 was described.

In mindestens einer Ausführungsform wird eine von dem Übersetzungswerkzeug 3501 durchgeführte Übersetzung verwendet, um den Quellcode 3500 für die Ausführung in einer anderen Umgebung als der, in der er ursprünglich ausgeführt werden sollte, zu portieren. In mindestens einer Ausführungsform kann das Übersetzungswerkzeug 3501 einen HIP-Übersetzer umfassen, der verwendet wird, um CUDA-Code, der für eine CUDA-Plattform vorgesehen ist, in HIP-Code zu „hipifizieren“, der auf einer ROCm-Plattform kompiliert und ausgeführt werden kann, ist aber nicht darauf beschränkt. In mindestens einer Ausführungsform kann die Übersetzung des Quellcodes 3500 ein Parsen des Quellcodes 3500 und ein Konvertieren von Aufrufen zu API(s), die von einem Programmiermodell (z.B. CUDA) bereitgestellt werden, in entsprechende Aufrufe zu API(s), die von einem anderen Programmiermodell (z.B. HIP) bereitgestellt werden, beinhalten, wie nachstehend in Verbindung mit den 36A bis 37 ausführlicher erläutert wird. Um auf das Beispiel des Hipifying von CUDA-Code zurückzukommen, können in mindestens einer Ausführungsform Aufrufe der CUDA-Laufzeit-API, der CUDA-Treiber-API und/oder der CUDA-Bibliotheken in entsprechende HIP-API-Aufrufe konvertiert werden. In mindestens einer Ausführungsform können automatisierte Übersetzungen, die von dem Übersetzungswerkzeug 3501 durchgeführt werden, manchmal unvollständig sein, so dass zusätzlicher, manueller Aufwand erforderlich ist, um den Quellcode 3500 vollständig zu portieren.In at least one embodiment, translation performed by translation tool 3501 is used to port source code 3500 for execution in a different environment than that in which it was originally intended to be executed. In at least one embodiment, the translation tool 3501 may include a HIP translator that is used to "hipify" CUDA code intended for a CUDA platform into HIP code that compiles and runs on a ROCm platform can be, but is not limited to. In at least one embodiment, translating the source code 3500 may include parsing the source code 3500 and converting calls to API(s) provided by one programming model (e.g., CUDA) into corresponding calls to API(s) provided by another Programming model (e.g. HIP) provided include, as described below in connection with 36A until 37 is explained in more detail. Returning to the example of hipifying CUDA code, in at least one embodiment, calls to the CUDA runtime API, the CUDA driver API, and/or the CUDA libraries may be converted into corresponding HIP API calls. In at least one embodiment, automated translations performed by translation tool 3501 may sometimes be incomplete, requiring additional manual effort to fully port source code 3500.

In mindestens einer Ausführungsform werden ein oder mehrere in 35 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 35 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 35 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 35 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 35 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 35 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 35 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 35 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

KONFIGURIEREN VON GPUS FÜR UNIVERSELLES RECHNENCONFIGURING GPUS FOR UNIVERSAL COMPUTING

Die folgenden Figuren zeigen, ohne Beschränkung darauf, beispielhafte Architekturen für die Kompilierung und Ausführung von Rechen-Quellcode, in Übereinstimmung mit mindestens einer Ausführungsform.The following figures show, but are not limited to, example architectures for compiling and executing computing source code, in accordance with at least one embodiment.

36A veranschaulicht ein System 36A00, das so konfiguriert ist, dass es CUDA-Quellcode 3610 unter Verwendung verschiedener Arten von Verarbeitungseinheiten kompiliert und ausführt, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform umfasst das System 36A00, ohne Beschränkung darauf, CUDA-Quellcode 3610, einen CUDA-Compiler 3650, ausführbaren Host-Code 3670(1), ausführbaren Host-Code 3670(2), ausführbaren CUDA-Geräte-Code 3684, eine CPU 3690, eine CUDA-fähige GPU 3694, eine GPU 3692, ein CUDA-zu-HIP-Übersetzungswerkzeug 3620, HIP-Quellcode 3630, einen HIP-Compilertreiber 3640, einen HCC 3660 und ausführbaren HCC-Geräte-Code 3682. 36A illustrates a system 36A00 configured to compile and execute CUDA source code 3610 using various types of processing units, in accordance with at least one embodiment. In at least one embodiment, the system 36A00 includes, but is not limited to, CUDA source code 3610, a CUDA compiler 3650, host executable code 3670(1), host executable code 3670(2), CUDA device executable code 3684, a CPU 3690, a CUDA-enabled GPU 3694, a GPU 3692, a CUDA to HIP translation tool 3620, HIP source code 3630, a HIP compiler driver 3640, an HCC 3660 and HCC device executable code 3682.

In mindestens einer Ausführungsform ist der CUDA-Quellcode 3610 eine Sammlung von Menschen lesbarer Code in einer CUDA-Programmiersprache. In mindestens einer Ausführungsform ist der CUDA-Code ein von Menschen lesbarer Code in einer CUDA-Programmiersprache. In mindestens einer Ausführungsform ist eine CUDA-Programmiersprache eine Erweiterung der Programmiersprache C++, die, ohne Beschränkung darauf, Mechanismen zur Definition von Geräte-Code und zur Unterscheidung zwischen Geräte-Code und Host-Code beinhaltet. In mindestens einer Ausführungsform ist der Geräte-Code ein Quellcode, der nach der Kompilierung parallel auf einem Gerät ausführbar ist. In mindestens einer Ausführungsform kann ein Gerät ein Prozessor sein, der für parallele Befehlsverarbeitung optimiert ist, wie z.B. eine CUDA-fähige GPU 3690, eine GPU 36192 oder eine andere GPGPU, usw. In mindestens einer Ausführungsform ist der Host-Code ein Quellcode, der nach der Kompilierung auf einem Host ausführbar ist. In mindestens einer Ausführungsform ist ein Host ein Prozessor, der für die sequenzielle Befehlsverarbeitung optimiert ist, wie z.B. die CPU 3690.In at least one embodiment, CUDA source code 3610 is a collection of human-readable code in a CUDA programming language. In at least one embodiment, the CUDA code is human-readable code in a CUDA programming language. In at least one embodiment, a CUDA programming language is an extension of the C++ programming language that includes, but is not limited to, mechanisms for defining device code and distinguishing between device code and host code. In at least one embodiment, the device code is source code that, after compilation, is executable in parallel on a device. In at least one embodiment, a device may be a processor optimized for parallel instruction processing, such as a CUDA-enabled GPU 3690, a GPU 36192, or another GPGPU, etc. In at least one embodiment, the host code is source code that executable on a host after compilation. In at least one embodiment, a host is a processor optimized for sequential instruction processing, such as CPU 3690.

In mindestens einer Ausführungsform enthält der CUDA-Quellcode 3610, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich Null) von globalen Funktionen 3612, eine beliebige Anzahl (einschließlich Null) von Gerätefunktionen 3614, eine beliebige Anzahl (einschließlich Null) von Hostfunktionen 3616 und eine beliebige Anzahl (einschließlich Null) von Host/Geräte-Funktionen 3618. In mindestens einer Ausführungsform können globale Funktionen 3612, Gerätefunktionen 3614, Hostfunktionen 3616 und Host/Geräte-Funktionen 3618 in dem CUDA-Quellcode 3610 gemischt sein. In mindestens einer Ausführungsform ist jede der globalen Funktionen 3612 auf einem Gerät ausführbar und von einem Host aus aufrufbar. In mindestens einer Ausführungsform können daher eine oder mehrere der globalen Funktionen 3612 als Einstiegspunkte zu einem Gerät dienen. In mindestens einer Ausführungsform ist jede der globalen Funktionen 3612 ein Kernel. In mindestens einer Ausführungsform und in einer Technik, die als dynamische Parallelität bekannt ist, definiert eine oder mehrere der globalen Funktionen 3612 einen Kernel, der auf einem Gerät ausführbar ist und von einem solchen Gerät aus aufgerufen werden kann. In mindestens einer Ausführungsform wird ein Kernel während der Ausführung N (wobei N eine beliebige positive ganze Zahl ist) Mal parallel von N verschiedenen Threads auf einem Gerät ausgeführt.In at least one embodiment, the CUDA source code 3610 includes, but is not limited to, any number (including zero) of global functions 3612, any number (including zero) of device functions 3614, any number (including zero) of host functions 3616, and an any number (including zero) of host/device functions 3618. In at least one embodiment, global functions 3612, device functions 3614, host functions 3616, and host/device functions 3618 may be mixed in the CUDA source code 3610. In at least one embodiment, each of the global functions 3612 is executable on a device and callable from a host. Therefore, in at least one embodiment, one or more of the global functions 3612 may serve as entry points to a device. In at least one embodiment, each of the global functions 3612 is a kernel. In at least one embodiment, and in a technique known as dynamic concurrency, one or more of the global functions 3612 defines a kernel that is executable on a device and can be called from such a device. In at least one embodiment, during execution, a kernel is executed N (where N is any positive integer) times in parallel by N different threads on a device.

In mindestens einer Ausführungsform wird jede von Gerätefunktionen 3614 auf einem Gerät ausgeführt und kann nur von einem solchen Gerät aus aufgerufen werden. In mindestens einer Ausführungsform wird jede von Host-Funktionen 3616 auf einem Host ausgeführt und ist nur von einem solchen Host aus aufrufbar. In mindestens einer Ausführungsform definiert jede der Host-/Geräte-Funktionen 3616 sowohl eine Host-Version einer Funktion, die auf einem Host ausführbar und nur von einem solchen Host aufrufbar ist, als auch eine Geräteversion der Funktion, die auf einem Gerät ausführbar und nur von einem solchen Gerät aufrufbar ist.In at least one embodiment, each of device functions 3614 executes on a device and can only be accessed from such a device. In at least one embodiment, each of host functions 3616 executes on a host and is only accessible from such host. In at least one embodiment, each of the host/device functions 3616 defines both a host version of a function executable on a host and callable only by such host and a device version of the function executable on a device and only can be accessed from such a device.

In mindestens einer Ausführungsform kann der CUDA-Quellcode 3610 auch, ohne Beschränkung darauf, eine beliebige Anzahl von Aufrufen zu einer beliebigen Anzahl von Funktionen enthalten, die über eine CUDA-Laufzeit-API 3602 definiert sind. In mindestens einer Ausführungsform kann die CUDA-Laufzeit-API 3602, ohne Beschränkung darauf, eine beliebige Anzahl von Funktionen enthalten, die auf einem Host ausgeführt werden, um Gerätespeicher zuzuweisen und freizugeben, Daten zwischen Hostspeicher und Gerätespeicher zu übertragen, Systeme mit mehreren Geräten zu verwalten usw. In mindestens einer Ausführungsform kann der CUDA-Quellcode 3610 auch eine beliebige Anzahl von Aufrufen zu einer beliebigen Anzahl von Funktionen enthalten, die in einer beliebigen Anzahl von anderen CUDA-APIs angegeben sind. In mindestens einer Ausführungsform kann eine CUDA-API eine beliebige API sein, die für die Verwendung durch CUDA-Code vorgesehen ist. In mindestens einer Ausführungsform umfassen CUDA-APIs, ohne Beschränkung darauf, eine CUDA-Laufzeit-API 3602, eine CUDA-Treiber-API, APIs für eine beliebige Anzahl von CUDA-Bibliotheken, usw. In mindestens einer Ausführungsform und im Vergleich zu der CUDA-Laufzeit-API 3602 ist eine CUDA-Treiber-API eine API auf niedrigerer Ebene, die jedoch eine feinkörnigere Steuerung eines Geräts ermöglicht. In mindestens einer Ausführungsform umfassen Beispiele für CUDA-Bibliotheken, ohne Beschränkung darauf, cuBLAS, cuFFT, cuRAND, cuDNN usw.In at least one embodiment, the CUDA source code 3610 may also include, but is not limited to, any number of calls to any number of functions defined via a CUDA runtime API 3602. In at least one embodiment, the CUDA runtime API 3602 may include, but is not limited to, any number of functions that execute on a host to allocate and free device memory, transfer data between host memory and device memory, and multi-device systems manage, etc. In at least one embodiment, the CUDA source code 3610 may also contain any number of calls to any number of functions specified in any number of other CUDA APIs. In at least one embodiment, a CUDA API may be any API intended for use by CUDA code. In at least one embodiment, CUDA APIs include, but are not limited to, a CUDA runtime API 3602, a CUDA driver API, APIs for any number of CUDA libraries, etc. In at least one embodiment and compared to the CUDA -Runtime API 3602, a CUDA Driver API is a lower level API, but allows for more fine-grained control of a device. In at least one embodiment, examples of CUDA libraries include, but are not limited to, cuBLAS, cuFFT, cuRAND, cuDNN, etc.

In mindestens einer Ausführungsform kompiliert der CUDA-Compiler 3650 den eingegebenen CUDA-Code (z.B. den CUDA-Quellcode 3610), um den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684 zu erzeugen. In mindestens einer Ausführungsform ist der CUDA-Compiler 3650 ein NVCC. In mindestens einer Ausführungsform ist der ausführbare Host-Code 3670(1) eine kompilierte Version des Host-Codes, der in dem Eingabe-Quellcode enthalten ist, der auf der CPU 3690 ausführbar ist. In mindestens einer Ausführungsform kann die CPU 3690 ein beliebiger Prozessor sein, der für die sequenzielle Befehlsverarbeitung optimiert ist.In at least one embodiment, the CUDA compiler 3650 compiles the input CUDA code (e.g., the CUDA source code 3610) to produce the host executable code 3670(1) and the CUDA device executable code 3684. In at least one embodiment, the CUDA compiler 3650 is an NVCC. In at least one embodiment, host executable code 3670(1) is a compiled version of the host code included in the input source code executable on CPU 3690. In at least one embodiment, CPU 3690 may be any processor optimized for sequential instruction processing.

In mindestens einer Ausführungsform ist der ausführbare CUDA-Geräte-Code 3684 eine kompilierte Version des Geräte-Codes, der in dem Eingabe-Quellcode enthalten ist, der auf der CUDA-fähigen GPU 3694 ausführbar ist. In mindestens einer Ausführungsform umfasst der ausführbare CUDA-Geräte-Code 3684, ohne Beschränkung darauf, Binärcode. In mindestens einer Ausführungsform enthält der ausführbare CUDA-Geräte-Code 3684, ohne Beschränkung darauf, IR-Code, wie z.B. PTX-Code, der zur Laufzeit von einem Gerätetreiber weiter in Binärcode für ein bestimmtes Zielgerät (z.B. CUDA-fähige GPU 3694) kompiliert wird. In mindestens einer Ausführungsform kann der CUDA-fähige Grafikprozessor 3694 ein beliebiger Prozessor sein, der für die parallele Befehlsverarbeitung optimiert ist und CUDA unterstützt. In mindestens einer Ausführungsform wird der CUDA-fähige Grafikprozessor 3694 von der NVIDIA Corporation in Santa Clara, CA, entwickelt.In at least one embodiment, the executable CUDA device code 3684 is a compiled version of the device code included in the input source code that is executable on the CUDA-enabled GPU 3694. In at least one embodiment, the executable CUDA device code 3684 includes, but is not limited to, binary code. In at least one embodiment, the executable CUDA device code 3684 includes, but is not limited to, IR code, such as PTX code, that is further compiled at runtime by a device driver into binary code for a particular target device (e.g., CUDA-enabled GPU 3694). becomes. In at least one embodiment, the CUDA-enabled graphics processor 3694 may be any processor that is optimized for parallel instruction processing and supports CUDA. In at least one embodiment, the CUDA-enabled graphics processor 3694 is developed by NVIDIA Corporation of Santa Clara, CA.

In mindestens einer Ausführungsform ist das CUDA-zu-HIP-Übersetzungswerkzeug 3620 so konfiguriert, dass es den CUDA-Quellcode 3610 in einen funktionell ähnlichen HIP-Quellcode 3630 übersetzt. In mindestens einer Ausführungsform ist der HIP-Quellcode 3630 eine Sammlung von von Menschen lesbarem Code in einer HIP-Programmiersprache. In mindestens einer Ausführungsform ist der HIP-Code ein von Menschen lesbarer Code in einer HIP-Programmiersprache. In mindestens einer Ausführungsform ist eine HIP-Programmiersprache eine Erweiterung der C++-Programmiersprache, die, ohne Beschränkung darauf, funktionell ähnliche Versionen von CUDA-Mechanismen enthält, um Geräte-Code zu definieren und zwischen Geräte-Code und Host-Code zu unterscheiden. In mindestens einer Ausführungsform kann eine HIP-Programmiersprache eine Teilmenge der Funktionalität einer CUDA-Programmiersprache enthalten. In mindestens einer Ausführungsform enthält eine HIP-Programmiersprache beispielsweise, ohne Beschränkung darauf, Mechanismen zum Definieren globaler Funktionen 3612, aber einer solchen HIP-Programmiersprache kann die Unterstützung für dynamische Parallelität fehlen, und daher können in dem HIP-Code definierte globale Funktionen 3612 nur von einem Host aus aufrufbar sein.In at least one embodiment, the CUDA to HIP translation tool 3620 is configured to translate the CUDA source code 3610 into a functionally similar HIP source code 3630. In at least one embodiment, the HIP source code 3630 is a collection of human-readable code in a HIP programming language. In at least one embodiment, the HIP code is human-readable code in a HIP programming language. In at least one embodiment, a HIP programming language is an extension of the C++ programming language that includes, but is not limited to, functionally similar versions of CUDA mechanisms to define device code and distinguish between device code and host code. In at least one embodiment, a HIP programming language may include a subset of the functionality of a CUDA programming language. For example, in at least one embodiment, a HIP programming language includes, but is not limited to, mechanisms for defining global functions 3612, but such a HIP programming language may lack support for dynamic parallelism and therefore global functions 3612 defined in the HIP code can only be used by be accessible from a host.

In mindestens einer Ausführungsform enthält der HIP-Quellcode 3630, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich Null) von globalen Funktionen 3612, eine beliebige Anzahl (einschließlich Null) von Gerätefunktionen 3614, eine beliebige Anzahl (einschließlich Null) von Host-Funktionen 3616 und eine beliebige Anzahl (einschließlich Null) von Host/Geräte-Funktionen 3618. In mindestens einer Ausführungsform kann der HIP-Quellcode 3630 auch eine beliebige Anzahl von Aufrufen zu einer beliebigen Anzahl von Funktionen enthalten, die in einer HIP-Laufzeit-API 3632 angegeben sind. In mindestens einer Ausführungsform enthält die HIP-Laufzeit-API 3632, ohne Beschränkung darauf, funktionell ähnliche Versionen einer Teilmenge von Funktionen, die in der CUDA-Laufzeit-API 3602 enthalten sind. In mindestens einer Ausführungsform kann der HIP-Quellcode 3630 auch eine beliebige Anzahl von Aufrufen zu einer beliebigen Anzahl von Funktionen enthalten, die in einer beliebigen Anzahl von anderen HIP-APIs angegeben sind. In mindestens einer Ausführungsform kann eine HIP-API eine beliebige API sein, die für die Verwendung durch HIP-Code und/oder ROCm vorgesehen ist. In mindestens einer Ausführungsform umfassen HIP-APIs, ohne Beschränkung darauf, die HIP-Laufzeit-API 3632, eine HIP-Treiber-API, APIs für eine beliebige Anzahl von HIP-Bibliotheken, APIs für eine beliebige Anzahl von ROCm-Bibliotheken, usw.In at least one embodiment, the HIP source code 3630 includes, but is not limited to, any number (including zero) of global functions 3612, any number (including zero) of device functions 3614, any number (including zero) of host functions 3616 and any number (including zero) of host/device functions 3618. In at least one embodiment, the HIP source code 3630 may also include any number of calls to any number of functions specified in a HIP runtime API 3632 are. In at least one embodiment, the HIP runtime API 3632 includes, but is not limited to, functionally similar versions of a subset of functions included in the CUDA runtime API 3602. In at least one embodiment, the HIP source code 3630 may also contain any number of calls to any number of functions specified in any number of other HIP APIs. In at least one embodiment, a HIP API may be any API intended for use by HIP code and/or ROCm. In at least one embodiment, HIP APIs include, but are not limited to, the HIP runtime API 3632, a HIP driver API, APIs for any number of HIP libraries, APIs for any number of ROCm libraries, etc.

In mindestens einer Ausführungsform konvertiert das CUDA-zu-HIP-Übersetzungswerkzeug 3620 jeden Kernel-Aufruf in dem CUDA-Code von einer CUDA-Syntax in eine HIP-Syntax und konvertiert eine beliebige Anzahl anderer CUDA-Aufrufe in dem CUDA-Code in eine beliebige Anzahl anderer funktionell ähnlicher HIP-Aufrufe. In mindestens einer Ausführungsform ist ein CUDA-Aufruf ein Aufruf einer Funktion, die in einer CUDA-API angegeben ist, und ist ein HIP-Aufruf ein Aufruf einer Funktion, die in einer HIP-API angegeben ist. In mindestens einer Ausführungsform wandelt das CUDA-zu-HIP-Übersetzungswerkzeug 3620 eine beliebige Anzahl von Aufrufen zu Funktionen, die in der CUDA-Laufzeit-API 3602 angegeben sind, in eine beliebige Anzahl von Aufrufen zu Funktionen, die in der HIP-Laufzeit-API 3632 angegeben sind, um.In at least one embodiment, the CUDA to HIP translation tool 3620 converts each kernel call in the CUDA code from a CUDA syntax to a HIP syntax and converts any number of other CUDA calls in the CUDA code to any Number of other functionally similar HIP calls. In at least one embodiment, a CUDA call is a call to a function specified in a CUDA API and a HIP call is a call to a function specified in a HIP API. In at least one embodiment, the CUDA to HIP translation tool 3620 converts any number of calls to functions specified in the CUDA runtime API 3602 into any number of calls to functions specified in the HIP runtime API 3632 are specified.

In mindestens einer Ausführungsform ist das CUDA-zu-HIP-Übersetzungswerkzeug 3620 ein als hipify-perl bekanntes Werkzeug, das einen textbasierten Übersetzungsprozess ausführt. In mindestens einer Ausführungsform ist das CUDA-zu-HIP-Übersetzungswerkzeug 3620 ein als hipify-clang bekanntes Werkzeug, das im Vergleich zu hipify-perl einen komplexeren und robusteren Übersetzungsprozess ausführt, der das Parsen von CUDA-Code unter Verwendung von clang (einem Compiler-Frontend) und die anschließende Übersetzung der resultierenden Symbole umfasst. In mindestens einer Ausführungsform kann die ordnungsgemäße Konvertierung von CUDA-Code in HIP-Code Modifikationen (z.B. manuelle Bearbeitungen) zusätzlich zu denjenigen, die von dem CUDA-zu-HIP-Übersetzungswerkzeug 3620 durchgeführt werden, erfordern.In at least one embodiment, the CUDA to HIP translation tool 3620 is a tool known as hipify-perl that performs a text-based translation process. In at least one In one embodiment, the CUDA to HIP translation tool 3620 is a tool known as hipify-clang, which performs a more complex and robust translation process compared to hipify-perl, which involves parsing CUDA code using clang (a compiler front end). and the subsequent translation of the resulting symbols. In at least one embodiment, proper conversion of CUDA code to HIP code may require modifications (e.g., manual edits) in addition to those performed by the CUDA to HIP translation tool 3620.

In mindestens einer Ausführungsform ist der HIP-Compilertreiber 3640 ein Frontend, das ein Zielgerät 3646 bestimmt und dann einen mit dem Zielgerät 3646 kompatiblen Compiler konfiguriert, um den HIP-Quellcode 3630 zu kompilieren. In mindestens einer Ausführungsform ist das Zielgerät 3646 ein Prozessor, der für die parallele Befehlsverarbeitung optimiert ist. In mindestens einer Ausführungsform kann der HIP-Compilertreiber 3640 das Zielgerät 3646 auf jede technisch machbare Weise bestimmen.In at least one embodiment, the HIP compiler driver 3640 is a front end that determines a target device 3646 and then configures a compiler compatible with the target device 3646 to compile the HIP source code 3630. In at least one embodiment, the target device 3646 is a processor optimized for parallel instruction processing. In at least one embodiment, the HIP compiler driver 3640 may determine the target device 3646 in any technically feasible manner.

In mindestens einer Ausführungsform erzeugt dann, wenn das Zielgerät 3646 mit CUDA kompatibel ist (z.B. die CUDA-fähige GPU 3694), der HIP-Compilertreiber 3640 einen HIP/NVCC-Kompilierungsbefehl 3642. In mindestens einer Ausführungsform und wie in Verbindung mit 36B ausführlicher beschrieben, konfiguriert der HIP/NVCC-Kompilierungsbefehl 3642 den CUDA-Compiler3650 zum Kompilieren des HIP-Quellcodes 3630 unter Verwendung eines HIP-zu-CUDA-Übersetzungsheaders und einer CUDA-Laufzeitbibliothek, ohne darauf beschränkt zu sein. In at least one embodiment, if the target device 3646 is compatible with CUDA (eg, the CUDA-enabled GPU 3694), the HIP compiler driver 3640 generates a HIP/NVCC compile command 3642. In at least one embodiment and as in connection with 36B Described in more detail, the HIP/NVCC compile command 3642 configures the CUDA compiler 3650 to compile the HIP source code 3630 using, but is not limited to, a HIP to CUDA translation header and a CUDA runtime library.

In mindestens einer Ausführungsform und im Ansprechen auf den HIP/NVCC-Kompilierungsbefehl 3642 erzeugt der CUDA-Compiler 3650 den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684.In at least one embodiment, and in response to the HIP/NVCC compile command 3642, the CUDA compiler 3650 generates the host executable code 3670(1) and the CUDA device executable code 3684.

In mindestens einer Ausführungsform erzeugt dann, wenn das Zielgerät 3646 nicht mit CUDA kompatibel ist, der HIP-Compilertreiber 3640 einen HIP/HCC-Kompilierungsbefehl 3644. In mindestens einer Ausführungsform und wie in Verbindung mit 36C ausführlicher beschrieben, konfiguriert der HIP/HCC-Kompilierungsbefehl 3644 den HCC 3660 zum Kompilieren von HIP-Quellcode 3630 unter Verwendung eines HCC-Headers und einer HIP/HCC-Laufzeitbibliothek, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform und im Ansprechen auf den HIP/HCC-Kompilierungsbefehl 3644 erzeugt der HCC 3660 ausführbaren Host-Code 3670(2) und ausführbaren HCC-Geräte-Code 3682. In mindestens einer Ausführungsform ist der ausführbare HCC-Geräte-Code 3682 eine kompilierte Version des in dem HIP-Quellcode 3630 enthaltenen Geräte-Codes, der auf der GPU 3692 ausführbar ist. In mindestens einer Ausführungsform kann die GPU 3692 ein beliebiger Prozessor sein, der für die parallele Befehlsverarbeitung optimiert ist, nicht mit CUDA kompatibel ist und mit dem HCC kompatibel ist. In mindestens einer Ausführungsform wird der Grafikprozessor 3692 von der AMD Corporation in Santa Clara, CA, entwickelt. In mindestens einer Ausführungsform ist GPU, 3692 eine nicht CUDA-fähige GPU 3692.In at least one embodiment, if the target device 3646 is not compatible with CUDA, the HIP compiler driver 3640 generates a HIP/HCC compile command 3644. In at least one embodiment and as in connection with 36C Described in more detail, the HIP/HCC compilation command 3644 configures the HCC 3660 to compile HIP source code 3630 using, but is not limited to, an HCC header and a HIP/HCC runtime library. In at least one embodiment, and in response to the HIP/HCC compile command 3644, the HCC 3660 generates host executable code 3670(2) and HCC device executable code 3682. In at least one embodiment, the HCC device executable code 3682 is a compiled version of the device code contained in the HIP source code 3630, executable on the GPU 3692. In at least one embodiment, GPU 3692 may be any processor optimized for parallel instruction processing, non-CUDA compatible, and HCC compatible. In at least one embodiment, the graphics processor 3692 is developed by AMD Corporation of Santa Clara, CA. In at least one embodiment, GPU 3692 is a non-CUDA capable GPU 3692.

Nur zu Erläuterungszwecken sind in 36A drei verschiedene Abläufe dargestellt, die in mindestens einer Ausführungsform implementiert sein können, um den CUDA-Quellcode 3610 für die Ausführung auf der CPU 3690 und verschiedenen Geräten zu kompilieren. In mindestens einer Ausführungsform kompiliert ein direkter CUDA-Ablauf den CUDA-Quellcode 3610 für die Ausführung auf der CPU 3690 und der CUDA-fähigen GPU 3694, ohne den CUDA-Quellcode 3610 in den HIP-Quellcode 3630 zu übersetzen. In mindestens einer Ausführungsform übersetzt ein indirekter CUDA-Ablauf den CUDA-Quellcode 3610 in den HIP-Quellcode 3630 und kompiliert dann den HIP-Quellcode 3630 zur Ausführung auf der CPU 3690 und der CUDA-fähigen GPU 3694. In mindestens einer Ausführungsform übersetzt ein CUDA/HCC-Ablauf den CUDA-Quellcode 3610 in HIP-Quellcode 3630 und kompiliert dann den HIP-Quellcode 3630 für die Ausführung auf der CPU 3690 und der GPU 3692.For explanatory purposes only, 36A illustrates three different flows that may be implemented in at least one embodiment to compile the CUDA source code 3610 for execution on the CPU 3690 and various devices. In at least one embodiment, a direct CUDA flow compiles the CUDA source code 3610 for execution on the CPU 3690 and the CUDA-enabled GPU 3694 without translating the CUDA source code 3610 into the HIP source code 3630. In at least one embodiment, an indirect CUDA flow translates the CUDA source code 3610 into the HIP source code 3630 and then compiles the HIP source code 3630 for execution on the CPU 3690 and the CUDA-enabled GPU 3694. In at least one embodiment, a CUDA translates /HCC flow converts CUDA source code 3610 into HIP source code 3630 and then compiles HIP source code 3630 for execution on CPU 3690 and GPU 3692.

Ein direkter CUDA-Ablauf, der in mindestens einer Ausführungsform implementiert sein kann, ist durch gestrichelte Linien und eine Reihe von Blasen mit Bezeichnungen A1-A3 dargestellt. In mindestens einer Ausführungsform und wie in der mit A1 bezeichneten Blase dargestellt, empfängt der CUDA-Compiler 3650 den CUDA-Quellcode 3610 und einen CUDA-Kompilierbefehl 3648, der den CUDA-Compiler 3650 für die Kompilierung des CUDA-Quellcodes 3610 konfiguriert. In mindestens einer Ausführungsform ist der CUDA-Quellcode 3610, der in einem direkten CUDA-Ablauf verwendet wird, in einer CUDA-Programmiersprache geschrieben, die auf einer anderen Programmiersprache als C++ (z.B. C, Fortran, Python, Java usw.) basiert. In mindestens einer Ausführungsform und im Ansprechen auf den CUDA-Kompilierbefehl 3648 generiert der CUDA-Compiler 3650 den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684 (dargestellt mit der Blase mit der Bezeichnung A2). In mindestens einer Ausführungsform und wie mit der Blase mit der Bezeichnung A3 dargestellt, können der ausführbare Host-Code 3670(1) und der ausführbare CUDA-Geräte-Code 3684 auf der CPU 3690 bzw. der CUDA-fähigen GPU 3694 ausgeführt werden. In mindestens einer Ausführungsform umfasst der ausführbare CUDA-Geräte-Code 3684 Binärcode, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform enthält der ausführbare CUDA-Geräte-Code 3684, ohne darauf beschränkt zu sein, PTX-Code und wird zur Laufzeit weiter in Binärcode für ein bestimmtes Zielgerät kompiliert.A direct CUDA flow that may be implemented in at least one embodiment is shown by dashed lines and a series of bubbles labeled A1-A3. In at least one embodiment, and as shown in the bubble labeled A1, the CUDA compiler 3650 receives the CUDA source code 3610 and a CUDA compile command 3648 that configures the CUDA compiler 3650 to compile the CUDA source code 3610. In at least one embodiment, the CUDA source code 3610 used in a direct CUDA flow is written in a CUDA programming language based on a programming language other than C++ (e.g., C, Fortran, Python, Java, etc.). In at least one embodiment, and in response to the CUDA compile command 3648, the CUDA compiler 3650 generates the host executable code 3670(1) and the CUDA device executable code 3684 (shown with the bubble labeled A2). In at least one embodiment, and as shown with the bubble labeled A3, the executable host code 3670(1) and the executable CUDA device code 3684 runs on the CPU 3690 or the CUDA-enabled GPU 3694. In at least one embodiment, the CUDA device executable code includes, but is not limited to, 3684 binary code. In at least one embodiment, the executable CUDA device code 3684 includes, but is not limited to, PTX code and is further compiled into binary code at runtime for a particular target device.

Ein indirekter CUDA-Ablauf, der in mindestens einer Ausführungsform implementiert sein kann, ist durch gestrichelte Linien und eine Reihe von Blasen mit der Bezeichnung B1-B6 dargestellt. In mindestens einer Ausführungsform und wie in der mit B1 gekennzeichneten Blase dargestellt, empfängt das CUDA-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610. In mindestens einer Ausführungsform und wie mit der Blase mit der Bezeichnung B2 dargestellt, übersetzt das CUDA-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610 in den HIP-Quellcode 3630. In mindestens einer Ausführungsform und wie in der mit B3 bezeichneten Blase dargestellt, empfängt der HIP-Compilertreiber 3640 den HIP-Quellcode 3630 und bestimmt, dass das Zielgerät 3646 CUDA-fähig ist.An indirect CUDA flow that may be implemented in at least one embodiment is shown by dashed lines and a series of bubbles labeled B1-B6. In at least one embodiment, and as shown in the bubble labeled B1, the CUDA-HIP translation tool 3620 receives the CUDA source code 3610. In at least one embodiment, and as shown in the bubble labeled B2, the CUDA-HIP translation tool translates 3620 the CUDA source code 3610 into the HIP source code 3630. In at least one embodiment, and as shown in the bubble labeled B3, the HIP compiler driver 3640 receives the HIP source code 3630 and determines that the target device 3646 is CUDA capable.

In mindestens einer Ausführungsform und wie mit der mit B4 bezeichneten Blase dargestellt, erzeugt der HIP-Compilertreiber 3640 den HIP/NVCC-Kompilierbefehl 3642 und überträgt sowohl den HIP/NVCC-Kompilierbefehl 3642 als auch den HIP-Quellcode 3630 an den CUDA-Compiler 3650. In mindestens einer Ausführungsform und wie in Verbindung mit 36B ausführlicher beschrieben, konfiguriert der HIP/NVCC-Kompilierungsbefehl 3642 den CUDA-Compiler 3650 zum Kompilieren des HIP-Quellcodes 3630 unter Verwendung eines HIP-zu-CUDA-Übersetzungsheaders und einer CUDA-Laufzeitbibliothek, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform und im Ansprechen auf den HIP/NVCC-Kompilierungsbefehl 3642 erzeugt der CUDA-Compiler 3650 den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684 (dargestellt mit der Blase mit der Bezeichnung B5). In mindestens einer Ausführungsform und wie in der mit B6 bezeichneten Blase dargestellt, können der ausführbare Host-Code 3670(1) und der ausführbare CUDA-Geräte-Code 3684 auf der CPU 3690 bzw. der CUDA-fähigen GPU 3694 ausgeführt werden. In mindestens einer Ausführungsform umfasst der ausführbare CUDA-Geräte-Code 3684 Binärcode, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform enthält der ausführbare CUDA-Geräte-Code 3684, ohne darauf beschränkt zu sein, PTX-Code und wird zur Laufzeit weiter in Binärcode für ein bestimmtes Zielgerät kompiliert.In at least one embodiment, and as shown with the bubble labeled B4, the HIP compiler driver 3640 generates the HIP/NVCC compile command 3642 and transmits both the HIP/NVCC compile command 3642 and the HIP source code 3630 to the CUDA compiler 3650 .In at least one embodiment and as in connection with 36B Described in more detail, the HIP/NVCC compile command 3642 configures the CUDA compiler 3650 to compile the HIP source code 3630 using, but is not limited to, a HIP to CUDA translation header and a CUDA runtime library. In at least one embodiment, and in response to the HIP/NVCC compile command 3642, the CUDA compiler 3650 generates the host executable code 3670(1) and the CUDA device executable code 3684 (shown with the bubble labeled B5). In at least one embodiment, and as shown in the bubble labeled B6, host executable code 3670(1) and CUDA device executable code 3684 may be executed on CPU 3690 and CUDA-enabled GPU 3694, respectively. In at least one embodiment, the CUDA device executable code includes, but is not limited to, 3684 binary code. In at least one embodiment, the executable CUDA device code 3684 includes, but is not limited to, PTX code and is further compiled into binary code at runtime for a particular target device.

Ein CUDA/HCC-Ablauf, der in mindestens einer Ausführungsform implementiert sein kann, wird durch durchgezogene Linien und eine Reihe von Blasen mit der Bezeichnung C1-C6 dargestellt. In mindestens einer Ausführungsform und wie in der Blase mit der Bezeichnung C1 dargestellt, empfängt das CUDA-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610. In mindestens einer Ausführungsform und wie mit der Blase mit der Bezeichnung C2 dargestellt, übersetzt das CUDA-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610 in den HIP-Quellcode 3630. In mindestens einer Ausführungsform und wie mit der Blase C3 dargestellt, empfängt der HIP-Compilertreiber 3640 den HIP-Quellcode 3630 und bestimmt, dass das Zielgerät 3646 nicht CUDA-fähig ist.A CUDA/HCC flow that may be implemented in at least one embodiment is represented by solid lines and a series of bubbles labeled C1-C6. In at least one embodiment, and as shown in the bubble labeled C1, the CUDA-HIP translation tool 3620 receives the CUDA source code 3610. In at least one embodiment, and as shown in the bubble labeled C2, the CUDA-HIP translates Translation tool 3620 converts the CUDA source code 3610 into the HIP source code 3630. In at least one embodiment, and as shown with bubble C3, the HIP compiler driver 3640 receives the HIP source code 3630 and determines that the target device 3646 is not CUDA capable.

In mindestens einer Ausführungsform erzeugt der HIP-Compilertreiber 3640 den HIP/HCC-Kompilierbefehl 3644 und überträgt sowohl den HIP/HCC-Kompilierbefehl 3644 als auch den HIP-Quellcode 3630 an den HCC 3660 (dargestellt durch die mit C4 bezeichnete Blase). In mindestens einer Ausführungsform und wie in Verbindung mit 36C ausführlicher beschrieben, konfiguriert der HIP/HCC-Kompilierungsbefehl 3644 den HCC 3660, um den HIP-Quellcode 3630 zu kompilieren, wobei, ohne Beschränkung darauf, ein HCC-Header und eine HIP/HCC-Laufzeitbibliothek verwendet werden. In mindestens einer Ausführungsform und im Ansprechen auf den HIP/HCC-Kompilierungsbefehl 3644 erzeugt der HCC 3660 einen ausführbaren Host-Code 3670(2) und einen ausführbaren HCC-Geräte-Code 3682 (dargestellt mit einer Blase mit der Bezeichnung C5). In mindestens einer Ausführungsform und wie mit der Blase mit der Bezeichnung C6 dargestellt, können der ausführbare Host-Code 3670(2) und der ausführbare HCC-Geräte-Code 3682 auf der CPU 3690 bzw. der GPU 3692 ausgeführt werden.In at least one embodiment, the HIP compiler driver 3640 generates the HIP/HCC compile command 3644 and transmits both the HIP/HCC compile command 3644 and the HIP source code 3630 to the HCC 3660 (represented by the bubble labeled C4). In at least one embodiment and as in connection with 36C Described in more detail, the HIP/HCC compile command 3644 configures the HCC 3660 to compile the HIP source code 3630 using, but not limited to, an HCC header and a HIP/HCC runtime library. In at least one embodiment, and in response to the HIP/HCC compile command 3644, the HCC 3660 generates host executable code 3670(2) and HCC device executable code 3682 (shown with a bubble labeled C5). In at least one embodiment, and as illustrated by the bubble labeled C6, host executable code 3670(2) and HCC device executable code 3682 may be executed on CPU 3690 and GPU 3692, respectively.

In mindestens einer Ausführungsform kann, nachdem der CUDA-Quellcode 3610 in HIP-Quellcode 3630 übersetzt wurde, der HIP-Compilertreiber 3640 anschließend verwendet werden, um ausführbaren Code entweder für die CUDA-fähige GPU 3694 oder die GPU 3692 zu erzeugen, ohne CUDA-HIP-Übersetzungswerkzeug 3620 erneut auszuführen. In mindestens einer Ausführungsform übersetzt das CUDA-zu-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610 in HIP-Quellcode 3630, der dann im Speicher abgelegt wird. In mindestens einer Ausführungsform konfiguriert der HIP-Compilertreiber 3640 dann den HCC 3660, um den ausführbaren Host-Code 3670(2) und den ausführbaren HCC-Geräte-Code 3682 basierend auf dem HIP-Quellcode 3630 zu erzeugen. In mindestens einer Ausführungsform konfiguriert der HIP-Compilertreiber 3640 anschließend den CUDA-Compiler 3650, um auf der Grundlage des gespeicherten HIP-Quellcodes 3630 den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684 zu erzeugen.In at least one embodiment, after the CUDA source code 3610 is translated into HIP source code 3630, the HIP compiler driver 3640 can then be used to generate executable code for either the CUDA-enabled GPU 3694 or the GPU 3692 without CUDA Run HIP Translation Tool 3620 again. In at least one embodiment, the CUDA to HIP translation tool 3620 translates the CUDA source code 3610 into HIP source code 3630, which is then stored in memory. In at least one embodiment, the HIP compiler driver 3640 then configures the HCC 3660 to generate the host executable code 3670(2) and the HCC device executable code 3682 based on the HIP source code 3630. In at least one embodiment, the HIP configures Compiler driver 3640 then uses the CUDA compiler 3650 to generate host executable code 3670(1) and CUDA device executable code 3684 based on the stored HIP source code 3630.

36B veranschaulicht ein System 3604, das so konfiguriert ist, dass es den CUDA-Quellcode 3610 von 36A unter Verwendung der CPU 3690 und der CUDA-fähigen GPU 3694 in Übereinstimmung mit mindestens einer Ausführungsform kompiliert und ausführt. In mindestens einer Ausführungsform umfasst das System 3604, ohne Beschränkung darauf, den CUDA-Quellcode 3610, das CUDA-HIP-Übersetzungswerkzeug 3620, den HIP-Quellcode 3630, den HIP-Compilertreiber 3640, den CUDA-Compiler 3650, den ausführbaren Host-Code 3670(1), den ausführbaren CUDA-Geräte-Code 3684, die CPU 3690 und die CUDA-fähige GPU 3694. 36B illustrates a system 3604 configured to use the CUDA source code 3610 of 36A compiled and executed using CPU 3690 and CUDA-enabled GPU 3694 in accordance with at least one embodiment. In at least one embodiment, the system 3604 includes, but is not limited to, the CUDA source code 3610, the CUDA-HIP translation tool 3620, the HIP source code 3630, the HIP compiler driver 3640, the CUDA compiler 3650, the host executable code 3670(1), the CUDA device executable code 3684, the CPU 3690 and the CUDA-enabled GPU 3694.

In mindestens einer Ausführungsform und wie zuvor hierin in Verbindung mit 36A beschrieben, enthält der CUDA-Quellcode 3610, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich Null) von globalen Funktionen 3612, eine beliebige Anzahl (einschließlich Null) von Gerätefunktionen 3614, eine beliebige Anzahl (einschließlich Null) von Host-Funktionen 3616 und eine beliebige Anzahl (einschließlich Null) von Host/Geräte-Funktionen 3618. In mindestens einer Ausführungsform enthält der CUDA-Quellcode 3610 auch, ohne Beschränkung darauf, eine beliebige Anzahl von Aufrufen zu einer beliebigen Anzahl von Funktionen, die in einer beliebigen Anzahl von CUDA-APIs spezifiziert sind.In at least one embodiment and as previously described herein in connection with 36A described, the CUDA source code 3610 includes, but is not limited to, any number (including zero) of global functions 3612, any number (including zero) of device functions 3614, any number (including zero) of host functions 3616, and one any number (including zero) of host/device functions 3618. In at least one embodiment, the CUDA source code 3610 also includes, but is not limited to, any number of calls to any number of functions contained in any number of CUDA APIs are specified.

In mindestens einer Ausführungsform übersetzt das CUDA-zu-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610 in den HIP-Quellcode 3630. In mindestens einer Ausführungsform konvertiert das CUDA-zu-HIP-Übersetzungswerkzeug 3620 jeden Kernel-Aufruf in dem CUDA-Quellcode 3610 von einer CUDA-Syntax in eine HIP-Syntax und konvertiert eine beliebige Anzahl anderer CUDA-Aufrufe in dem CUDA-Quellcode 3610 in eine beliebige Anzahl anderer funktionell ähnlicher HIP-Aufrufe.In at least one embodiment, the CUDA to HIP translation tool 3620 translates the CUDA source code 3610 into the HIP source code 3630. In at least one embodiment, the CUDA to HIP translation tool 3620 converts each kernel call in the CUDA source code 3610 from a CUDA syntax to a HIP syntax and converts any number of other CUDA calls in the CUDA source code 3610 to any number of other functionally similar HIP calls.

In mindestens einer Ausführungsform bestimmt HIP-Compilertreiber 3640, dass das Zielgerät 3646 CUDA-fähig ist, und erzeugt den HIP/NVCC-Kompilierungsbefehl 3642. In mindestens einer Ausführungsform konfiguriert der HIP-Compilertreiber 3640 dann den CUDA-Compiler 3650 über den HIP/NVCC-Kompilierbefehl 3642, um den HIP-Quellcode 3630 zu kompilieren. In mindestens einer Ausführungsform stellt der HIP-Compilertreiber 3640 Zugriff auf einen HIP-zu-CUDA-Übersetzungsheader 3652 als Teil der Konfiguration des CUDA-Compilers 3650 bereit. In mindestens einer Ausführungsform übersetzt der HIP-zu-CUDA-Übersetzungsheader 3652 eine beliebige Anzahl von Mechanismen (z.B. Funktionen), die in einer beliebigen Anzahl von HIP-APIs spezifiziert sind, in eine beliebige Anzahl von Mechanismen, die in einer beliebigen Anzahl von CUDA-APIs spezifiziert sind. In mindestens einer Ausführungsform verwendet der CUDA-Compiler 3650 den HIP-zu-CUDA-Übersetzungsheader 3652 in Verbindung mit einer CUDA-Laufzeitbibliothek 3654, die der CUDA-Laufzeit-API 3602 entspricht, um den ausführbaren Host-Code 3670(1) und den ausführbaren CUDA-Geräte-Code 3684 zu erzeugen. In mindestens einer Ausführungsform können der ausführbare Host-Code 3670(1) und der ausführbare CUDA-Geräte-Code 3684 dann auf der CPU 3690 bzw. der CUDA-fähigen GPU 3694 ausgeführt werden. In mindestens einer Ausführungsform umfasst der ausführbare CUDA-Geräte-Code 3684 Binärcode, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform enthält der ausführbare CUDA-Geräte-Code 3684, ohne Beschränkung darauf, PTX-Code und wird zur Laufzeit weiter in Binärcode für ein bestimmtes Zielgerät kompiliert.In at least one embodiment, HIP compiler driver 3640 determines that the target device 3646 is CUDA capable and generates the HIP/NVCC compile command 3642. In at least one embodiment, the HIP compiler driver 3640 then configures the CUDA compiler 3650 via the HIP/NVCC -Compile command 3642 to compile the HIP source code 3630. In at least one embodiment, the HIP compiler driver 3640 provides access to a HIP to CUDA translation header 3652 as part of the CUDA compiler 3650 configuration. In at least one embodiment, the HIP to CUDA translation header 3652 translates any number of mechanisms (e.g., functions) specified in any number of HIP APIs into any number of mechanisms specified in any number of CUDA APIs are specified. In at least one embodiment, the CUDA compiler 3650 uses the HIP to CUDA translation header 3652 in conjunction with a CUDA runtime library 3654 corresponding to the CUDA runtime API 3602 to generate the host executable code 3670(1) and the to generate executable CUDA device code 3684. In at least one embodiment, the host executable code 3670(1) and the CUDA device executable code 3684 may then be executed on the CPU 3690 and the CUDA-enabled GPU 3694, respectively. In at least one embodiment, the CUDA device executable code includes, but is not limited to, 3684 binary code. In at least one embodiment, the executable CUDA device code 3684 includes, but is not limited to, PTX code and is further compiled into binary code at runtime for a particular target device.

36C zeigt ein System 3606, das so konfiguriert ist, dass es den CUDA-Quellcode 3610 von 36A unter Verwendung einer CPU 3690 und einer nicht-CUDA-fähigen GPU 3692 kompiliert und ausführt, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform beinhaltet das System 3606, ohne Beschränkung darauf, den CUDA-Quellcode 3610, das CUDA-zu-HIP-Übersetzungswerkzeug 3620, den HIP-Quellcode 3630, den HIP-Compilertreiber 3640, den HCC 3660, den ausführbaren Host-Code 3670(2), den ausführbaren HCC-Geräte-Code 3682, die CPU 3690 und die GPU 3692. 36C shows a system 3606 configured to read the CUDA source code 3610 from 36A compiled and executed using a CPU 3690 and a non-CUDA capable GPU 3692, in accordance with at least one embodiment. In at least one embodiment, system 3606 includes, but is not limited to, CUDA source code 3610, CUDA to HIP translation tool 3620, HIP source code 3630, HIP compiler driver 3640, HCC 3660, host executable code 3670(2), the HCC device executable code 3682, the CPU 3690 and the GPU 3692.

In mindestens einer Ausführungsform übersetzt das CUDA-zu-HIP-Übersetzungswerkzeug 3620 den CUDA-Quellcode 3610 in den HIP-Quellcode 3630. In mindestens einer Ausführungsform konvertiert das CUDA-zu-HIP-Übersetzungswerkzeug 3620 jeden Kernel-Aufruf in dem CUDA-Quellcode 3610 von einer CUDA-Syntax in eine HIP-Syntax und konvertiert eine beliebige Anzahl anderer CUDA-Aufrufe in dem Quellcode 3610 in eine beliebige Anzahl anderer funktionell ähnlicher HIP-Aufrufe.In at least one embodiment, the CUDA to HIP translation tool 3620 translates the CUDA source code 3610 into the HIP source code 3630. In at least one embodiment, the CUDA to HIP translation tool 3620 converts each kernel call in the CUDA source code 3610 from a CUDA syntax to a HIP syntax and converts any number of other CUDA calls in the source code 3610 to any number of other functionally similar HIP calls.

In mindestens einer Ausführungsform bestimmt der HIP-Compilertreiber 3640 anschließend, dass das Zielgerät 3646 nicht CUDA-fähig ist, und erzeugt den HIP/HCC-Kompilierbefehl 3644. In mindestens einer Ausführungsform konfiguriert der HIP-Compilertreiber 3640 dann den HCC 3660, um den HIP/HCC-Kompilierbefehl 3644 auszuführen, um den HIP-Quellcode 3630 zu kompilieren. In mindestens einer Ausführungsform konfiguriert der HIP/HCC-Kompilierbefehl 3644 den HCC 3660 so, dass er, ohne Beschränkung darauf, eine HIP/HCC-Laufzeitbibliothek 3658 und einen HCC-Header 3656 verwendet, um ausführbaren Host-Code 3670(2) und ausführbaren HCC-Geräte-Code 3682 zu erzeugen. In mindestens einer Ausführungsform entspricht die HIP/HCC-Laufzeitbibliothek 3658 der HIP-Laufzeit-API 3632. In mindestens einer Ausführungsform enthält der HCC-Header 3656, ohne Beschränkung darauf, eine beliebige Anzahl und Art von Interoperabilitätsmechanismen für HIP und HCC. In mindestens einer Ausführungsform können der ausführbare Host-Code 3670(2) und der ausführbare HCC-Geräte-Code 3682 auf der CPU 3690 bzw. der GPU 3692 ausgeführt werden.In at least one embodiment, the HIP compiler driver 3640 then determines that the target device 3646 is not CUDA capable and generates the HIP/HCC compile command 3644. In at least one embodiment, the HIP compiler driver 3640 then configures the HCC 3660 to use the HIP /HCC compile command 3644 to compile the HIP source code 3630. In at least one embodiment, the HIP/HCC compile command 3644 configures the HCC 3660 to use, but is not limited to, a HIP/HCC runtime library 3658 and an HCC header 3656 to generate executable host code 3670(2) and executable Generate HCC device code 3682. In at least one embodiment, the HIP/HCC runtime library 3658 corresponds to the HIP runtime API 3632. In at least one embodiment, the HCC header 3656 includes, but is not limited to, any number and type of interoperability mechanisms for HIP and HCC. In at least one embodiment, host executable code 3670(2) and HCC device executable code 3682 may execute on CPU 3690 and GPU 3692, respectively.

In mindestens einer Ausführungsform werden ein oder mehrere in 36A-36C dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 36A-36C dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 36A-36C dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 36A-36C dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 36A-36C illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 36A-36C illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 36A-36C systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 36A-36C systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

37 veranschaulicht einen beispielhaften Kernel, der von dem CUDA-zu-HIP-Übersetzungswerkzeug 3620 von 36C übersetzt wurde, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform unterteilt der CUDA-Quellcode 3610 ein Gesamtproblem, das ein bestimmter Kernel lösen soll, in relativ grobe Teilprobleme, die unabhängig voneinander unter Verwendung von Thread-Blöcken gelöst werden können. In mindestens einer Ausführungsform umfasst jeder Thread-Block, ohne Beschränkung darauf, eine beliebige Anzahl von Threads. In mindestens einer Ausführungsform wird jedes Teilproblem in relativ feine Teile partitioniert, die kooperativ parallel von Threads innerhalb eines Thread-Blocks gelöst werden können. In mindestens einer Ausführungsform können Threads innerhalb eines Thread-Blocks zusammenarbeiten, indem sie Daten über einen gemeinsam genutzten Speicher gemeinsam nutzen und die Ausführung synchronisieren, um Speicherzugriffe zu koordinieren. 37 illustrates an example kernel provided by the CUDA to HIP translation tool 3620 of 36C has been translated in accordance with at least one embodiment. In at least one embodiment, the CUDA source code 3610 divides an overall problem that a particular kernel is intended to solve into relatively coarse sub-problems that can be solved independently using thread blocks. In at least one embodiment, each thread block includes, but is not limited to, any number of threads. In at least one embodiment, each sub-problem is partitioned into relatively fine pieces that can be solved cooperatively in parallel by threads within a thread block. In at least one embodiment, threads within a thread block may collaborate by sharing data via shared memory and synchronizing execution to coordinate memory accesses.

In mindestens einer Ausführungsform organisiert der CUDA-Quellcode 3610 Thread-Blöcke, die einem bestimmten Kernel zugeordnet sind, in ein eindimensionales, zweidimensionales oder dreidimensionales Gitter von Thread-Blöcken. In mindestens einer Ausführungsform beinhaltet jeder Thread-Block, ohne Beschränkung darauf, eine beliebige Anzahl von Threads, und beinhaltet ein Gitter, ohne Beschränkung darauf, eine beliebige Anzahl von Thread-Blöcken.In at least one embodiment, the CUDA source code 3610 organizes thread blocks associated with a particular kernel into a one-dimensional, two-dimensional, or three-dimensional grid of thread blocks. In at least one embodiment, each thread block includes, but is not limited to, any number of threads, and a grid includes, but is not limited to, any number of thread blocks.

In mindestens einer Ausführungsform ist ein Kernel eine Funktion in dem Geräte-Code, die unter Verwendung eines „_global_“-Deklarationsbezeichners definiert ist. In mindestens einer Ausführungsform werden die Dimension eines Gitters, das einen Kernel für einen bestimmten Kernelaufruf ausführt, und zugehörige Streams unter Verwendung einer CUDA-Kernel-Startsyntax 3710 spezifiziert. In mindestens einer Ausführungsform wird die CUDA-Kernel-Start-Syntax 3710 als „KernelName«<GridSize, BlockSize, SharedMemorySize, Stream>» (KernelArguments);“ spezifiziert. In mindestens einer Ausführungsform ist eine Ausführungskonfigurationssyntax ein „<<< ... >>>“-Konstrukt, das zwischen einem Kernelnamen („KernelName“) und einer eingeklammerten Liste von Kernelargumenten („KernelArguments“) eingefügt wird. In mindestens einer Ausführungsform umfasst die CUDA-Kernel-Startsyntax 3710, ohne Beschränkung darauf, eine CUDA-Startfunktionssyntax anstelle einer Ausführungskonfigurations-syntax.In at least one embodiment, a kernel is a function in the device code that is defined using a "_global_" declaration identifier. In at least one embodiment, the dimension of a grid executing a kernel for a particular kernel call and associated streams are specified using a CUDA kernel startup syntax 3710. In at least one embodiment, the CUDA kernel startup syntax 3710 is specified as “KernelName«<GridSize, BlockSize, SharedMemorySize, Stream>» (KernelArguments);”. In at least one embodiment, an execution configuration syntax is a "<<< ... >>>" construct inserted between a kernel name ("KernelName") and a bracketed list of kernel arguments ("KernelArguments"). In at least one embodiment, the CUDA kernel startup syntax 3710 includes, but is not limited to, a CUDA startup function syntax instead of an execution configuration syntax.

In mindestens einer Ausführungsform ist „GridSize“ von einem Typ dim3 und spezifiziert die Dimension und die Größe eines Gitters. In mindestens einer Ausführungsform ist der Typ dim3 eine CUDA-definierte Struktur, die, ohne Beschränkung darauf, vorzeichenlose Ganzzahlen x, y und z beinhaltet. In mindestens einer Ausführungsform ist z standardmäßig gleich eins, falls z nicht spezifiziert ist. In mindestens einer Ausführungsform ist y standardmäßig gleich eins, falls y nicht spezifiziert ist. In mindestens einer Ausführungsform ist die Anzahl von Thread-Blöcken in einem Gitter gleich dem Produkt aus GridSize.x, GridSize.y und GridSize.z. In mindestens einer Ausführungsform ist „BlockSize“ vom Typ dim3 und gibt die Dimension und die Größe jedes Thread-Blocks an. In mindestens einer Ausführungsform ist die Anzahl der Threads pro Thread-Block gleich dem Produkt aus BlockSize.x, BlockSize.y und BlockSize.z. In mindestens einer Ausführungsform erhält jeder Thread, der einen Kernel ausführt, eine eindeutige Thread-ID, die innerhalb des Kernels über eine eingebaute Variable (z.B. „threadldx“) zugänglich ist.In at least one embodiment, GridSize is of type dim3 and specifies the dimension and size of a grid. In at least one embodiment, type dim3 is a CUDA-defined structure that includes, but is not limited to, unsigned integers x, y, and z. In at least one embodiment, z defaults to one if z is not specified. In at least one embodiment, y defaults to one if y is not specified. In at least one embodiment, the number of thread blocks in a grid is equal to the product of GridSize.x, GridSize.y, and GridSize.z. In at least one embodiment, BlockSize is of type dim3 and indicates the dimension and size of each thread block. In at least one embodiment, the number of threads per thread block is equal to the product of BlockSize.x, BlockSize.y, and BlockSize.z. In at least one embodiment, each thread executing a kernel is assigned a unique thread ID that is accessible within the kernel via a built-in variable (e.g., "threadldx").

In mindestens einer Ausführungsform und in Bezug auf die CUDA-Kernel-Start-Syntax 3710 ist „SharedMemorySize“ ein optionales Argument, das eine Anzahl von Bytes in einem gemeinsam genutzten Speicher spezifiziert, der pro Thread-Block für einen bestimmten Kernel-Aufruf zusätzlich zu statisch zugewiesenem Speicher dynamisch zugewiesen wird. In mindestens einer Ausführungsform und in Bezug auf die CUDA-Kernel-Start-Syntax 3710 ist „SharedMemorySize“ standardmäßig auf null gesetzt. In mindestens einer Ausführungsform und in Bezug auf die CUDA-Kernel-Start-Syntax 3710 ist „Stream“ ein optionales Argument, das einen zugehörigen Stream angibt und standardmäßig auf null gesetzt ist, um einen Standardstream zu spezifizieren. In mindestens einer Ausführungsform ist ein Stream eine Folge von Befehlen (möglicherweise von verschiedenen Host-Threads ausgegeben), die der Reihe nach ausgeführt werden. In mindestens einer Ausführungsform können verschiedene Streams Befehle außerhalb der Reihe in Bezug aufeinander oder gleichzeitig ausführen.In at least one embodiment, and with respect to CUDA kernel startup syntax 3710, "SharedMemorySize" is an optional argument that specifies a number of bytes in shared memory to be allocated per thread block for a particular kernel call in addition to statically allocated memory is dynamically allocated. In at least one embodiment, and with respect to the CUDA kernel startup syntax 3710, SharedMemorySize is set to zero by default. In at least one embodiment, and with respect to the CUDA kernel startup syntax 3710, “stream” is an optional argument that specifies an associated stream and is set to zero by default to specify a default stream. In at least one embodiment, a stream is a sequence of commands (perhaps issued by different host threads) that are executed in order. In at least one embodiment, different streams may execute instructions out of order with respect to each other or simultaneously.

In mindestens einer Ausführungsform enthält der CUDA-Quellcode 3610, ohne Beschränkung darauf, eine Kerneldefinition für einen beispielhaften Kernel „MatAdd“ und eine Hauptfunktion. In mindestens einer Ausführungsform ist die Hauptfunktion ein Host-Code, der auf einem Host ausgeführt wird und, ohne Beschränkung darauf, einen Kernelaufruf enthält, der die Ausführung des Kernels „MatAdd“ auf einem Gerät bewirkt. In mindestens einer Ausführungsform und wie gezeigt, addiert der Kernel MatAdd zwei Matrizen A und B der Größe NxN, wobei N eine positive ganze Zahl ist, und speichert das Ergebnis in einer Matrix C. In mindestens einer Ausführungsform definiert die Hauptfunktion eine Variable threadsPerBlock als 16 mal 16 und eine Variable numBlocks als N/16 mal N/16. In mindestens einer Ausführungsform spezifiziert die Hauptfunktion dann den Kernelaufruf „MatAdd<«numBlocks, threadsPerBlock»(A, B, C);“. In mindestens einer Ausführungsform und gemäß der CUDA-Kernel-Start-Syntax 3710 wird der Kernel MatAdd unter Verwendung eines Gitters von Thread-Blöcken mit einer Dimension N/16 mal N/16 ausgeführt, wobei jeder Thread-Block eine Dimension von 16 mal 16 hat. In mindestens einer Ausführungsform umfasst jeder Thread-Block 256 Threads, wird ein Gitter mit genügend Blöcken erstellt, um einen Thread pro Matrixelement zu haben, und führt jeder Thread in einem solchen Gitter den Kernel MatAdd aus, um eine paarweise Addition durchzuführen.In at least one embodiment, the CUDA source code 3610 includes, but is not limited to, a kernel definition for an example kernel “MatAdd” and a main function. In at least one embodiment, the primary function is host code that executes on a host and includes, but is not limited to, a kernel call that causes the MatAdd kernel to execute on a device. In at least one embodiment and as shown, the MatAdd kernel adds two matrices A and B of size NxN, where N is a positive integer, and stores the result in a matrix C. In at least one embodiment, the main function defines a threadsPerBlock variable as 16 times 16 and a variable numBlocks as N/16 times N/16. In at least one embodiment, the main function then specifies the kernel call “MatAdd<«numBlocks, threadsPerBlock»(A, B, C);”. In at least one embodiment, and according to CUDA kernel startup syntax 3710, the kernel MatAdd is executed using a grid of thread blocks with a dimension N/16 by N/16, where each thread block has a dimension of 16 by 16 has. In at least one embodiment, each thread block includes 256 threads, a grid is created with enough blocks to have one thread per matrix element, and each thread in such grid executes the MatAdd kernel to perform pairwise addition.

In mindestens einer Ausführungsform übersetzt das CUDA-HIP-Übersetzungswerkzeug 3620 während des Übersetzens von CUDA-Quellcode 3610 in HIP-Quellcode 3630jeden Kernelaufruf in dem CUDA-Quellcode 3610 von der CUDA-Kernel-Start-Syntax 3710 in eine HIP-Kernel-Start-Syntax 3720 und konvertiert eine beliebige Anzahl anderer CUDA-Aufrufe in dem Quellcode 3610 in eine beliebige Anzahl anderer funktionell ähnlicher HIP-Aufrufe. In mindestens einer Ausführungsform ist die HIP-Kernel-Start-Syntax 3720 als „hipLaunchKernelGGL(KernelName,GridSize, BlockSize, SharedMemorySize, Stream, KernelArguments);“ spezifiziert. In mindestens einer Ausführungsform hat jeder der Parameter KernelName, GridSize, BlockSize, ShareMemorySize, Stream und KernelArguments in der HIP-Kernel-Start-Syntax 3720 die gleiche Bedeutung wie in der CUDA-Kernel-Start-Syntax 3710 (hierin zuvor beschrieben). In mindestens einer Ausführungsform sind die Argumente SharedMemorySize und Stream in der HIP-Kernel-Startsyntax 3720 erforderlich und in der CUDA-Kernel-Startsyntax 3710 optional.In at least one embodiment, while translating CUDA source code 3610 to HIP source code 3630, the CUDA HIP translation tool 3620 translates each kernel call in the CUDA source code 3610 from the CUDA kernel start syntax 3710 to a HIP kernel start syntax. Syntax 3720 and converts any number of other CUDA calls in the source code 3610 into any number of other functionally similar HIP calls. In at least one embodiment, the HIP kernel launch syntax 3720 is specified as "hipLaunchKernelGGL(KernelName,GridSize, BlockSize, SharedMemorySize, Stream, KernelArguments);". In at least one embodiment, each of the KernelName, GridSize, BlockSize, ShareMemorySize, Stream, and KernelArguments parameters has the same meaning in the HIP kernel startup syntax 3720 as in the CUDA kernel startup syntax 3710 (previously described herein). In at least one embodiment, the SharedMemorySize and Stream arguments are required in the HIP kernel startup syntax 3720 and optional in the CUDA kernel startup syntax 3710.

In mindestens einer Ausführungsform ist ein Teil des in 37 dargestellten HIP-Quellcodes 3630 identisch mit einem Teil des in 37 dargestellten CUDA-Quellcodes 3610, mit Ausnahme eines Kernelaufrufs, der die Ausführung des Kernels MatAdd auf einem Gerät bewirkt. In mindestens einer Ausführungsform ist der Kernel MatAdd in dem HIP-Quellcode 3630 mit demselben Deklarationsbezeichner „_global_“ definiert, mit dem der Kernel MatAdd in dem CUDA-Quellcode 3610 definiert ist. In mindestens einer Ausführungsform lautet ein Kernelaufruf in dem HIP-Quellcode 3630 „hipLaunchKernelGGL(MatAdd, numBlocks, threadsPerBlock, 0, 0, A, B, C);“, während ein entsprechender Kernelaufruf in dem CUDA-Quellcode 3610 „MatAdd«<numBlocks, threadsPerBlock»(A, B, C);“ lautet.In at least one embodiment, part of the in 37 HIP source code 3630 shown is identical to part of the in 37 CUDA source code shown 3610, except for a kernel call that causes the MatAdd kernel to execute on a device. In at least one embodiment, the kernel MatAdd is defined in the HIP source code 3630 with the same declaration identifier “_global_” as the kernel MatAdd is defined in the CUDA source code 3610. In at least one embodiment, a kernel call in the HIP source code 3630 is "hipLaunchKernelGGL(MatAdd, numBlocks, threadsPerBlock, 0, 0, A, B, C);", while a corresponding kernel call in the CUDA source code 3610 is "MatAdd"<numBlocks , threadsPerBlock»(A, B, C);“ is.

In mindestens einer Ausführungsform werden ein oder mehrere in 37 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 37 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 37 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 37 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 37 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 37 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 37 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 37 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

38 veranschaulicht die nicht-CUDA-fähige GPU 3692 von 36C in größerem Detail, in Übereinstimmung mit mindestens einer Ausführungsform. In mindestens einer Ausführungsform wird die GPU 3692 von der AMD Corporation in Santa Clara entwickelt. In mindestens einer Ausführungsform kann die GPU 3692 so konfiguriert sein, dass sie Rechenoperationen hochparallel durchführt. In mindestens einer Ausführungsform ist die GPU 3692 so konfiguriert, dass sie Grafikpipelineoperationen wie Zeichenbefehle, Pixeloperationen, geometrische Berechnungen und andere Operationen ausführt, die mit dem Rendern eines Bilds auf einer Anzeige verbunden sind. In mindestens einer Ausführungsform ist die GPU 3692 so konfiguriert, dass sie Operationen ausführt, die nichts mit Grafik zu tun haben. In mindestens einer Ausführungsform ist die GPU 3692 so konfiguriert, dass sie sowohl grafikbezogene als auch grafikfremde Operationen ausführt. In mindestens einer Ausführungsform kann die GPU 3692 so konfiguriert sein, dass sie Geräte-Code ausführt, der in dem HIP-Quellcode 3630 enthalten ist. 38 illustrates the non-CUDA capable GPU 3692 from 36C in greater detail, in accordance with at least one embodiment. In at least one embodiment, the GPU 3692 is developed by AMD Corporation of Santa Clara. In at least one embodiment, GPU 3692 may be configured to perform computing operations in a highly parallel manner. In at least one embodiment, GPU 3692 is configured to perform graphics pipeline operations such as drawing commands, pixel operations, geometric calculations, and other operations associated with rendering an image on a display. In at least one embodiment, GPU 3692 is configured to perform operations unrelated to graphics. In at least one embodiment, GPU 3692 is configured to perform both graphics-related and non-graphics operations. In at least one embodiment, GPU 3692 may be configured to execute device code included in HIP source code 3630.

In mindestens einer Ausführungsform umfasst die GPU 3692, ohne Beschränkung darauf, eine beliebige Anzahl von programmierbaren Verarbeitungseinheiten 3820, einen Befehlsprozessor 3810, einen L2-Cache 3822, Speichercontroller 3870, DMA-Engines 3880(1), Systemspeichercontroller 3882, DMA-Engines 3880(2) und GPU-Controller 3884. In mindestens einer Ausführungsform beinhaltet jede programmierbare Verarbeitungseinheit 3820, ohne Beschränkung darauf, einen Arbeitslastverwalter 3830 und eine beliebige Anzahl von Recheneinheiten 3840. In mindestens einer Ausführungsform liest der Befehlsprozessor 3810 Befehle aus einer oder mehreren Befehlswarteschlangen (nicht dargestellt) und verteilt die Befehle an Arbeitslastverwalter 3830. In mindestens einer Ausführungsform verteilt der zugehörige Arbeitslastverwalter 3830 für jede programmierbare Verarbeitungseinheit 3820 Arbeit an in der programmierbaren Verarbeitungseinheit 3820 enthaltene Recheneinheiten 3840. In mindestens einer Ausführungsform kann jede Recheneinheit 3840 eine beliebige Anzahl von Thread-Blöcken ausführen, aber jeder Thread-Block wird auf einer einzigen Recheneinheit 3840 ausgeführt. In mindestens einer Ausführungsform ist eine Arbeitsgruppe ein Thread-Block.In at least one embodiment, the GPU 3692 includes, but is not limited to, any number of programmable processing units 3820, an instruction processor 3810, an L2 cache 3822, memory controllers 3870, DMA engines 3880(1), system memory controllers 3882, DMA engines 3880( 2) and GPU controller 3884. In at least one embodiment, each programmable processing unit 3820 includes, but is not limited to, a workload manager 3830 and any number of computing units 3840. In at least one embodiment, the instruction processor 3810 reads instructions from one or more instruction queues (not shown ) and distributes the commands to workload managers 3830. In at least one embodiment, for each programmable processing unit 3820, the associated workload manager 3830 distributes work to computing units 3840 included in the programmable processing unit 3820. In at least one embodiment, each computing unit 3840 can execute any number of thread blocks , but each thread block is executed on a single computing unit 3840. In at least one embodiment, a workgroup is a thread block.

In mindestens einer Ausführungsform beinhaltet jede Recheneinheit 3840, ohne Beschränkung darauf, eine beliebige Anzahl von SIMD-Einheiten 3850 und einen gemeinsamen Speicher 3860. In mindestens einer Ausführungsform implementiert jede SIMD-Einheit 3850 eine SIMD-Architektur und ist zur parallelen Ausführung von Operationen konfiguriert. In mindestens einer Ausführungsform beinhaltet jede SIMD-Einheit 3850, ohne Beschränkung darauf, eine Vektor-ALU 3852 und eine Vektorregisterdatei 3854. In mindestens einer Ausführungsform führt jede SIMD-Einheit 3850 einen anderen Warp aus. In mindestens einer Ausführungsform ist ein Warp eine Gruppe von Threads (z.B. 16 Threads), wobei jeder Thread in dem Warp zu einem einzelnen Thread-Block gehört und so konfiguriert ist, dass er einen anderen Datensatz auf der Grundlage eines einzelnen Satzes von Anweisungen verarbeitet. In mindestens einer Ausführungsform kann Prädikation verwendet werden, um einen oder mehrere Threads in einem Warp zu deaktivieren. In mindestens einer Ausführungsform ist eine Spur ein Thread. In mindestens einer Ausführungsform ist ein Arbeitselement bzw. Workitem ein Thread. In mindestens einer Ausführungsform ist eine Wellenfront ein Thread. In mindestens einer Ausführungsform können verschiedene Wellenfronten in einem Thread-Block miteinander synchronisieren und über den gemeinsam genutzten Speicher 3860 kommunizieren.In at least one embodiment, each computing unit 3840 includes, but is not limited to, any number of SIMD units 3850 and shared memory 3860. In at least one embodiment, each SIMD unit 3850 implements a SIMD architecture and is configured to perform operations in parallel. In at least one embodiment, each SIMD unit 3850 includes, but is not limited to, a vector ALU 3852 and a vector register file 3854. In at least one embodiment, each SIMD unit 3850 performs a different warp. In at least one embodiment, a warp is a group of threads (e.g., 16 threads), where each thread in the warp belongs to a single thread block and is configured to process a different set of data based on a single set of instructions. In at least one embodiment, predication may be used to disable one or more threads in a warp. In at least one embodiment, a track is a thread. In at least one embodiment, a work item is a thread. In at least one embodiment, a wavefront is a thread. In at least one embodiment, different wavefronts in a thread block may synchronize with each other and communicate via shared memory 3860.

In mindestens einer Ausführungsform werden programmierbare Verarbeitungseinheiten 3820 als „Shader-Engines“ bezeichnet. In mindestens einer Ausführungsform umfasst jede programmierbare Verarbeitungseinheit 3820, ohne Beschränkung darauf, eine beliebige Menge an dedizierter Grafikhardware zusätzlich zu Recheneinheiten 3840. In mindestens einer Ausführungsform umfasst jede programmierbare Verarbeitungseinheit 3820, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich null) von Geometrieprozessoren, eine beliebige Anzahl (einschließlich null) von Rasterisierern, eine beliebige Anzahl (einschließlich null) von Render-Backends, einen Arbeitslastverwalter 3830 und eine beliebige Anzahl von Recheneinheiten 3840.In at least one embodiment, programmable processing units 3820 are referred to as “shader engines.” In at least one embodiment, each programmable processing unit 3820 includes, but is not limited to, any amount of dedicated graphics hardware in addition to computing units 3840. In at least one embodiment, each programmable processing unit 3820 includes, but is not limited to, any number (including zero) of geometry processors any number (including zero) of rasterizers, any number (including zero) of render backends, a workload manager 3830 and any number of compute units 3840.

In mindestens einer Ausführungsform teilen sich die Recheneinheiten 3840 einen L2-Cache 3822. In mindestens einer Ausführungsform ist der L2-Cache 3822 partitioniert. In mindestens einer Ausführungsform ist ein GPU-Speicher 3890 für alle Recheneinheiten 3840 in der GPU 3692 zugänglich. In mindestens einer Ausführungsform erleichtern Speichercontroller 3870 und Systemspeichercontroller 3882 die Datenübertragung zwischen der GPU 3692 und einem Host, und ermöglichen die DMA-Engines 3880(1) asynchrone Speicherübertragungen zwischen der GPU 3692 und einem solchen Host. In mindestens einer Ausführungsform erleichtern Speichercontroller 3870 und GPU-Controller 3884 Datenübertragungen zwischen der GPU 3692 und anderen GPUs 3692, und ermöglichen DMA-Engines 3880(2) asynchrone Speicherübertragungen zwischen der GPU 3692 und anderen GPUs 3692.In at least one embodiment, the computing units 3840 share an L2 cache 3822. In at least one embodiment, the L2 cache 3822 is partitioned. In at least one embodiment, GPU memory 3890 is accessible to all computing units 3840 in GPU 3692. In at least one embodiment, memory controller 3870 and system memory controller 3882 facilitate data transfer between GPU 3692 and a host, and DMA engines 3880(1) enable asynchronous memory transfers between GPU 3692 and such host. In at least one embodiment, memory controllers 3870 and GPU controllers 3884 facilitate data transfers between the GPU 3692 and other GPUs 3692, and enable DMA engines 3880(2) to facilitate asynchronous memory transfers between the GPU 3692 and other GPUs 3692.

In mindestens einer Ausführungsform beinhaltet die GPU 3692, ohne Beschränkung darauf, eine beliebige Anzahl und Art von Systemverbindungen, die Daten- und Steuerübertragungen über eine beliebige Anzahl und Art von direkt oder indirekt verbundenen Komponenten, die intern oder extern zur GPU 3692 sein können, hinweg erleichtern. In mindestens einer Ausführungsform beinhaltet die GPU 3692, ohne Beschränkung darauf, eine beliebige Anzahl und Art von E/A-Schnittstellen (z.B. PCIe), die mit einer beliebigen Anzahl und Art von Peripheriegeräten gekoppelt sind. In mindestens einer Ausführungsform kann die GPU 3692, ohne Beschränkung darauf, eine beliebige Anzahl (einschließlich Null) von Display-Engines und eine beliebige Anzahl (einschließlich Null) von Multimedia-Engines enthalten. In mindestens einer Ausführungsform implementiert die GPU 3692 ein Speicher-Subsystem, das, ohne Beschränkung darauf, eine beliebige Anzahl und eine beliebige Art von Speichercontrollern (z.B. Speichercontroller 3870 und Systemspeichercontroller 3882) und Speichervorrichtungen (z.B. gemeinsam genutzte Speicher 3860) umfasst, die einer Komponente zugeordnet oder von mehreren Komponenten gemeinsam genutzt werden können. In mindestens einer Ausführungsform implementiert die GPU 3692 ein Cache-Subsystem, das, ohne Beschränkung darauf, einen oder mehrere Cachespeicher (z.B. L2-Cache 3822) umfasst, die jeweils für eine beliebige Anzahl von Komponenten (z.B. SIMD-Einheiten 3850, Recheneinheiten 3840 und programmierbare Verarbeitungseinheiten 3820) reserviert oder von diesen gemeinsam genutzt werden können.In at least one embodiment, GPU 3692 includes, but is not limited to, any number and type of system connections that transfer data and control across any number and type of directly or indirectly connected components, which may be internal or external to GPU 3692 facilitate. In at least one embodiment, GPU 3692 includes, but is not limited to, any number and type of I/O interfaces (e.g., PCIe) coupled to any number and type of peripheral devices. In at least one embodiment, GPU 3692 may include, but is not limited to, any number (including zero) of display engines and any number (including zero) of multimedia engines. In at least one embodiment, GPU 3692 implements a memory subsystem that includes, but is not limited to, any number and type of memory controllers (e.g., memory controller 3870 and system memory controller 3882) and memory devices (e.g., shared memory 3860) that comprise a component assigned or shared between multiple components. In at least one embodiment, GPU 3692 implements a cache subsystem that includes, but is not limited to, one or more caches (e.g., L2 cache 3822), each for any number of components (e.g., SIMD devices 3850, compute devices 3840, and programmable processing units 3820) can be reserved or shared by them.

In mindestens einer Ausführungsform werden ein oder mehrere in 38 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 38 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 38 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 38 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 38 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 38 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 38 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 38 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

39 veranschaulicht, wie Threads eines beispielhaften CUDA-Grids 3920 in Übereinstimmung mit mindestens einer Ausführungsform auf verschiedene Recheneinheiten 3840 von 38 abgebildet werden. In mindestens einer Ausführungsform und nur zu Erläuterungszwecken hat das Raster 3920 eine Gittergröße bzw. GridSize von BX mal BY mal 1 und eine Blockgröße bzw. BlockSize von TX mal TY mal 1. In mindestens einer Ausführungsform umfasst das Raster 3920 daher, ohne Beschränkung darauf, (BX * BY) Thread-Blöcke 3930 und umfasst jeder Thread-Block 3930, ohne Beschränkung darauf, (TX * TY) Threads 3940. Die Threads 3940 sind in 39 als verschnörkelte Pfeile dargestellt. 39 illustrates how threads of an example CUDA grid 3920 access different computing units 3840 in accordance with at least one embodiment 38 be depicted. In at least one embodiment, and for illustrative purposes only, the grid 3920 has a GridSize of BX times BY times 1 and a BlockSize of TX times TY times 1. Therefore, in at least one embodiment, the grid 3920 includes, but is not limited to, (BX * BY) thread blocks 3930 and each thread block 3930 includes, but is not limited to, (TX * TY) threads 3940. The threads 3940 are in 39 shown as squiggly arrows.

In mindestens einer Ausführungsform wird das Raster 3920 auf die programmierbare Verarbeitungseinheit 3820(1) abgebildet, die, ohne Beschränkung darauf, die Recheneinheiten 3840(1)-3840(C) umfasst. In mindestens einer Ausführungsform und wie gezeigt werden (BJ * BY) Thread-Blöcke 3930 auf die Recheneinheit 3840(1) abgebildet, und werden die restlichen Thread-Blöcke 3930 auf die Recheneinheit 3840(2) abgebildet. In mindestens einer Ausführungsform kann jeder Thread-Block 3930, ohne Beschränkung darauf, eine beliebige Anzahl von Warps enthalten, und ist jeder Warp einer anderen SIMD-Einheit 3850 von 38 zugeordnet.In at least one embodiment, grid 3920 is mapped to programmable processing unit 3820(1), which includes, but is not limited to, computing units 3840(1)-3840(C). In at least one embodiment, and as shown, (BJ * BY) thread blocks 3930 are mapped to computing unit 3840(1), and remaining thread blocks 3930 are mapped to computing unit 3840(2). In at least one embodiment, each thread block 3930 may contain, but is not limited to, any number of warps, and is each warp of a different SIMD unit 3850 38 assigned.

In mindestens einer Ausführungsform können Warps in einem gegebenen Thread-Block 3930 zusammen synchronisieren und über gemeinsam genutzten Speicher 3860 in der zugeordneten Recheneinheit 3840 kommunizieren. Zum Beispiel und in mindestens einer Ausführungsform können Warps in dem Thread-Block 3930(BJ,1) zusammen synchronisieren und über den gemeinsam genutzten Speicher 3860(1) kommunizieren. Zum Beispiel und in mindestens einer Ausführungsform können Warps in dem Thread-Block 3930(BJ+1,1) zusammen synchronisieren und über den gemeinsam genutzten Speicher 3860(2) kommunizieren.In at least one embodiment, warps in a given thread block 3930 may synchronize together and communicate via shared memory 3860 in the associated computing unit 3840. For example, and in at least one embodiment, warps in thread block 3930(BJ,1) may synchronize together and communicate via shared memory 3860(1). For example, and in at least one embodiment, warps in thread block 3930(BJ+1,1) may synchronize together and communicate via shared memory 3860(2).

In mindestens einer Ausführungsform werden ein oder mehrere in 39 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 39 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 39 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 39 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 39 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 39 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 39 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 39 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

40 veranschaulicht, wie bestehender CUDA-Code zu Data Parallel C++-Code zu migrieren ist, in Übereinstimmung mit mindestens einer Ausführungsform. Data Parallel C++ (DPC++) kann sich auf eine offene, auf Standards- basierende Alternative zu proprietären Sprachen mit einer einzigen -Architektur beziehen, die es Entwicklern ermöglicht, Code für verschiedene Hardware-Ziele (CPUs und Beschleuniger wie GPUs und FPGAs) wiederzuverwenden und auch benutzerdefiniertes Tuning für einen bestimmten Beschleuniger durchzuführen. DPC++ verwendet ähnliche und/oder identische C- und C++-Konstrukte in Übereinstimmung mit ISO C++, mit denen Entwickler vertraut sein dürften. DPC++ beinhaltet den Standard SYCL von The Khronos Group zur Unterstützung von Datenparallelität und heterogener Programmierung. SYCL bezieht sich auf eine plattformübergreifende- Abstraktionsschicht, die auf den zugrunde liegenden Konzepten, der Übertragbarkeit und der Effizienz von OpenCL aufbaut und es ermöglicht, Code für heterogene Prozessoren in einem „Single- Source“-Stil mit Standard-C++ zu schreiben. SYCL kann eine Single-Source-Entwicklung ermöglichen, bei der C++-Vorlagenfunktionen sowohl Host- als auch Gerätecode enthalten können, um komplexe Algorithmen zu konstruieren, die die OpenCL-Beschleunigung nutzen, und sie dann in ihrem gesamten Quellcode für verschiedene Datentypen wiederzuverwenden. 40 illustrates how to migrate existing CUDA code to Data Parallel C++ code, in accordance with at least one embodiment. Data Parallel C++ (DPC++) can refer to an open, standards-based alternative to proprietary languages with a single architecture that allows developers to reuse code for different hardware targets (CPUs and accelerators such as GPUs and FPGAs) and also to perform custom tuning for a specific accelerator. DPC++ uses similar and/or identical C and C++ constructs consistent with ISO C++, which developers will be familiar with. DPC++ includes The Khronos Group's SYCL standard to support data parallelism and heterogeneous programming. SYCL refers to a cross-platform abstraction layer that builds on the underlying concepts, portability, and efficiency of OpenCL, allowing code for heterogeneous processors to be written in a “single source” style using standard C++. SYCL can enable single-source development where C++ template functions can contain both host and device code to construct complex algorithms that leverage OpenCL acceleration and then reuse them throughout their source code for different data types.

In mindestens einer Ausführungsform wird ein DPC++-Compiler verwendet, um DPC++-Quellcode zu kompilieren, der auf verschiedenen Hardware-Zielen eingesetzt werden kann. In mindestens einer Ausführungsform wird ein DPC++-Compiler verwendet, um DPC++-Anwendungen zu erzeugen, die auf verschiedenen Hardwarezielen eingesetzt werden können, und kann ein DPC++-Kompatibilitätswerkzeug verwendet werden, um CUDA-Anwendungen in ein Multiplattformprogramm in DPC++ zu migrieren. In mindestens einer Ausführungsform umfasst ein DPC++-Basis-Toolkit einen DPC++-Compiler zum Einsatz von Anwendungen auf verschiedenen Hardwarezielen, eine DPC++-Bibliothek zur Steigerung der Produktivität und Leistung auf CPUs, GPUs und FPGAs, ein DPC++-Kompatibilitätswerkzeug zur Migration von CUDA-Anwendungen in Anwendungen für mehrere- Plattformen und eine beliebige geeignete Kombination davon.In at least one embodiment, a DPC++ compiler is used to compile DPC++ source code that can be deployed on various hardware targets. In at least one embodiment, a DPC++ compiler is used to produce DPC++ applications that can be deployed on various hardware targets, and a DPC++ compatibility tool can be used to migrate CUDA applications into a multiplatform program in DPC++. In at least one embodiment, a DPC++ base toolkit includes a DPC++ compiler for deploying applications on various hardware targets, a DPC++ library for increasing productivity and performance on CPUs, GPUs and FPGAs, a DPC++ compatibility tool for migrating CUDA applications in multi-platform applications and any suitable combination thereof.

In mindestens einer Ausführungsform wird ein DPC++-Programmiermodell verwendet, um einen oder mehrere Aspekte im Zusammenhang mit der Programmierung von CPUs und Beschleunigern zu vereinfachen, indem moderne C++-Funktionen verwendet werden, um Parallelität mit einer Programmiersprache namens Data Parallel C++ auszudrücken. Die DPC++-Programmiersprache kann zur Code-Wiederverwendung für Hosts (z.B. eine CPU) und Beschleuniger (z.B. eine GPU oder FPGA) unter Verwendung einer einzigen Quellsprache verwendet werden, wobei Ausführungs- und Speicherabhängigkeiten klar kommuniziert werden. Mappings innerhalb des DPC++-Codes können verwendet werden, um eine Anwendung auf einer Hardware oder einem Satz von Hardwaregeräten laufen zu lassen, die eine Arbeitslast am besten beschleunigen. Ein Host kann verfügbar sein, um die Entwicklung und das Debugging von Gerätecode zu vereinfachen, auch auf Plattformen, die keinen Beschleuniger zur Verfügung haben.In at least one embodiment, a DPC++ programming model is used to simplify one or more aspects related to programming CPUs and accelerators by using modern C++ functions to express parallelism with a programming language called Data Parallel C++. The DPC++ programming language can be used for code reuse for hosts (e.g. a CPU) and accelerators (e.g. a GPU or FPGA) using a single source language, clearly communicating execution and memory dependencies. Mappings within DPC++ code can be used to run an application on hardware or a set of hardware devices that best accelerate a workload. A host can be available to simplify development and debugging of device code, even on platforms that do not have an accelerator available.

In mindestens einer Ausführungsform wird der CUDA-Quellcode 4000 als Eingabe für ein DPC++-Kompatibilitätswerkzeug 4002 bereitgestellt, um für Menschen lesbares DPC++ 4004 zu erzeugen. In mindestens einer Ausführungsform enthält für Menschen lesbares DPC++ 4004 Inline-Kommentare, die vom DPC++-Kompatibilitätswerkzeug 4002 generiert werden und den Entwickler anleiten, wie und/oder wo er den DPC++-Code modifizieren muss, um die Codierung abzuschließen und auf die gewünschte Leistung 4006 abzustimmen und dadurch den DPC++-Quellcode 4008 zu erzeugen.In at least one embodiment, the CUDA source code 4000 is provided as input to a DPC++ compatibility tool 4002 to produce human-readable DPC++ 4004. In at least one embodiment, human-readable DPC++ 4004 includes inline comments generated by the DPC++ compatibility tool 4002 that guide the developer on how and/or where to use the DPC++ code must be modified to complete the coding and tune to the desired performance 4006 and thereby generate the DPC++ source code 4008.

In mindestens einer Ausführungsform ist oder enthält der CUDA-Quellcode 4000 eine Sammlung von für Menschen lesbarem Quellcode in einer CUDA-Programmiersprache. In mindestens einer Ausführungsform ist der CUDA-Quellcode 4000 von Menschen lesbarer Quellcode in einer CUDA-Programmiersprache. In mindestens einer Ausführungsform ist eine CUDA-Programmiersprache eine Erweiterung der Programmiersprache C++, die, ohne Beschränkung darauf, Mechanismen zur Definition von Gerätecode und zur Unterscheidung zwischen Gerätecode und Hostcode enthält. In mindestens einer Ausführungsform ist Gerätecode ein Quellcode, der nach der Kompilierung auf einem Gerät (z.B. einer GPU oder einem FPGA) ausführbar ist und mehrere parallelisierbare Workflows enthalten kann, die auf einem oder mehreren Prozessorkernen eines Geräts ausgeführt werden können. In mindestens einer Ausführungsform kann ein Gerät ein Prozessor sein, der für die parallele Befehlsverarbeitung optimiert ist, z.B. eine CUDA-fähige GPU, GPU oder eine andere GPGPU usw. In mindestens einer Ausführungsform ist der Hostcode ein Quellcode, der nach der Kompilierung auf einem Host ausführbar ist. In mindestens einer Ausführungsform können ein Teil oder der gesamte Hostcode und Gerätecode parallel auf einer CPU und einer GPU/FPGA ausgeführt werden. In mindestens einer Ausführungsform ist ein Host ein Prozessor, der für sequenzielle Befehlsverarbeitung optimiert ist, wie z.B. eine CPU. Der in Verbindung mit 40 beschriebene CUDA-Quellcode 4000 kann mit den an anderer Stelle in diesem Dokument erörterten Quellcodes übereinstimmen.In at least one embodiment, the CUDA source code 4000 is or includes a collection of human-readable source code in a CUDA programming language. In at least one embodiment, the CUDA source code 4000 is human-readable source code in a CUDA programming language. In at least one embodiment, a CUDA programming language is an extension of the C++ programming language that includes, but is not limited to, mechanisms for defining device code and distinguishing between device code and host code. In at least one embodiment, device code is source code that, once compiled, is executable on a device (e.g., a GPU or an FPGA) and may contain multiple parallelizable workflows that can run on one or more processor cores of a device. In at least one embodiment, a device may be a processor optimized for parallel instruction processing, e.g., a CUDA-enabled GPU, GPU or other GPGPU, etc. In at least one embodiment, the host code is source code that is stored on a host after compilation is executable. In at least one embodiment, some or all of the host code and device code may execute in parallel on a CPU and a GPU/FPGA. In at least one embodiment, a host is a processor optimized for sequential instruction processing, such as a CPU. The one in connection with 40 CUDA source code 4000 described may be consistent with the source codes discussed elsewhere in this document.

In mindestens einer Ausführungsform bezieht sich das DPC++-Kompatibilitätswerkzeug 4002 auf ein ausführbares Werkzeug, ein Programm, eine Anwendung oder eine beliebige andere geeignete Art von Werkzeug, das zur Erleichterung der Migration von CUDA-Quellcode 4000 zu DPC++-Quellcode 4008 verwendet wird. In mindestens einer Ausführungsform ist das DPC++-Kompatibilitätswerkzeug 4002 ein Befehlszeilen- basiertes Code-Migrationswerkzeug, das als Teil eines DPC++-Toolkits verfügbar ist und zur Portierung bestehender CUDA-Quellen auf DPC++ verwendet wird. In mindestens einer Ausführungsform konvertiert das DPC++-Kompatibilitätswerkzeug 4002 einen Teil oder den gesamten Quellcode einer CUDA-Anwendung von CUDA nach DPC++ und erzeugt eine resultierende Datei, die zumindest teilweise in DPC++ geschrieben ist und als für Menschen lesbares DPC++ 4004 bezeichnet wird. In mindestens einer Ausführungsform enthält das für Menschen lesbare DPC++ 4004 Kommentare, die von dem DPC++-Kompatibilitätswerkzeug 4002 erzeugt werden, um anzuzeigen, wo ein Benutzereingriff notwendig sein kann. In mindestens einer Ausführungsform ist ein Benutzereingriff notwendig, wenn der CUDA-Quellcode 4000 eine CUDA-API aufruft, für die es keine analoge DPC++-API gibt; andere Beispiele, bei denen ein Benutzereingriff erforderlich ist, werden später ausführlicher erörtert.In at least one embodiment, DPC++ compatibility tool 4002 refers to an executable tool, program, application, or any other suitable type of tool used to facilitate migration from CUDA source code 4000 to DPC++ source code 4008. In at least one embodiment, the DPC++ compatibility tool 4002 is a command line-based code migration tool available as part of a DPC++ toolkit and used to port existing CUDA sources to DPC++. In at least one embodiment, the DPC++ compatibility tool 4002 converts some or all of the source code of a CUDA application from CUDA to DPC++ and produces a resulting file that is at least partially written in DPC++ and is referred to as human-readable DPC++ 4004. In at least one embodiment, the human-readable DPC++ 4004 includes comments generated by the DPC++ compatibility tool 4002 to indicate where user intervention may be necessary. In at least one embodiment, user intervention is required when the CUDA source code 4000 calls a CUDA API for which there is no analogous DPC++ API; other examples requiring user intervention are discussed in more detail later.

In mindestens einer Ausführungsform umfasst ein Arbeitsablauf zum Migrieren von CUDA-Quellcode 4000 (z.B. einer Anwendung oder eines Teils davon) das Erstellen einer oder mehrerer Kompilierungsdatenbankdateien; das Migrieren von CUDA zu DPC++ unter Verwendung eines DPC++-Kompatibilitätswerkzeugs4002; das Abschließen der Migration und Überprüfen der Korrektheit, wodurch DPC++-Quellcode 4008 erzeugt wird; und das Kompilieren von DPC++-Quellcode 4008 mit einem DPC++-Compiler, um eine DPC++-Anwendung zu erzeugen. In mindestens einer Ausführungsform stellt ein Kompatibilitätswerkzeug ein Dienstprogramm bereit, das Befehle abfängt, die bei der Ausführung von Makefile verwendet werden, und sie in einer Kompilierungsdatenbankdatei speichert. In mindestens einer Ausführungsform wird eine Datei im JSON-Format gespeichert. In mindestens einer Ausführungsform wandelt ein intercept-built-Befehl den Makefile-Befehl in einen DPC-Kompatibilitätsbefehl um.In at least one embodiment, a workflow for migrating CUDA source code 4000 (e.g., an application or a portion thereof) includes creating one or more compilation database files; migrating from CUDA to DPC++ using a DPC++ compatibility tool4002; completing the migration and verifying correctness, producing DPC++ source code 4008; and compiling DPC++ source code 4008 with a DPC++ compiler to produce a DPC++ application. In at least one embodiment, a compatibility tool provides a utility that intercepts commands used in Makefile execution and stores them in a compilation database file. In at least one embodiment, a file is saved in JSON format. In at least one embodiment, an intercept-built command converts the Makefile command into a DPC compatibility command.

In mindestens einer Ausführungsform ist intercept-build ein Hilfsskript, das einen Build-Prozess abfängt, um Kompilierungsoptionen, Makrodefinitionen und Include-Pfade zu erfassen, und diese Daten in eine Kompilierungsdatenbankdatei schreibt. In mindestens einer Ausführungsform handelt es sich bei der Kompilierungsdatenbankdatei um eine JSON-Datei. In mindestens einer Ausführungsform analysiert das DPC++-Kompatibilitätswerkzeug 4002 eine Kompilierungsdatenbank und wendet Optionen an, wenn Eingabequellen migriert werden. In mindestens einer Ausführungsform ist die Verwendung von intercept-build optional, wird aber für Make- oder CMake-basierte Umgebungen dringend empfohlen. In mindestens einer Ausführungsform enthält eine Migrationsdatenbank Befehle, Verzeichnisse und Dateien: Der Befehl kann die erforderlichen Kompilierungsflags enthalten; das Verzeichnis kann Pfade zu Header-Dateien enthalten; die Datei kann Pfade zu CUDA-Dateien enthalten.In at least one embodiment, intercept-build is a helper script that intercepts a build process to capture compilation options, macro definitions, and include paths and writes this data to a compilation database file. In at least one embodiment, the compilation database file is a JSON file. In at least one embodiment, the DPC++ compatibility tool 4002 analyzes a compilation database and applies options when migrating input sources. In at least one embodiment, the use of intercept-build is optional but is strongly recommended for Make or CMake-based environments. In at least one embodiment, a migration database includes commands, directories and files: the command may contain the required compilation flags; the directory may contain paths to header files; the file may contain paths to CUDA files.

In mindestens einer Ausführungsform migriert das DPC++-Kompatibilitätswerkzeug 4002 CUDA-Code (z.B. Anwendungen), der in CUDA geschrieben wurde, nach DPC++, indem es, wo immer möglich, DPC++ generiert. In mindestens einer Ausführungsform ist das DPC++-Kompatibilitätswerkzeug 4002 als Teil eines Toolkits erhältlich. In mindestens einer Ausführungsform umfasst ein DPC++-Toolkit ein intercept-build-Werkzeug. In mindestens einer Ausführungsform erstellt ein intercept-build Werkzeug eine Kompilierungsdatenbank, die Kompilierungsbefehle zur Migration von CUDA-Dateien erfasst. In mindestens einer Ausführungsform wird eine Kompilierungsdatenbank, die von einem intercept-build-Werkzeug erzeugt wird, von dem DPC++ Kompatibilitätswerkzeug 4002 verwendet, um CUDA Code nach DPC++ zu migrieren. In mindestens einer Ausführungsform werden nicht-CUDA C++ Code und Dateien unverändert migriert. In mindestens einer Ausführungsform erzeugt das DPC++-Kompatibilitätswerkzeug 4002 für Menschen lesbares DPC++ 4004, bei dem es sich um DPC++-Code handeln kann, der in der vom DPC++-Kompatibilitätswerkzeug 4002 erzeugten Form nicht vom DPC++-Compiler kompiliert werden kann und zusätzliche Auslotung erfordert, um Teile des Codes, die nicht korrekt migriert wurden, zu überprüfen, und der manuelle Eingriffe, beispielsweise durch einen Entwickler, erfordern kann. In mindestens einer Ausführungsform bietet das DPC++-Kompatibilitätswerkzeug 4002 in den Code eingebettete Hinweise oder Werkzeuge, die dem Entwickler helfen, zusätzlichen Code, der nicht automatisch migriert werden konnte, manuell zu migrieren. In mindestens einer Ausführungsform ist die Migration eine- Zeitaktivität für eine Quelldatei, ein Projekt oder eine Anwendung.In at least one embodiment, the DPC++ compatibility tool 4002 migrates CUDA code (e.g., applications) written in CUDA to DPC++ by generating DPC++ wherever possible. In at least one embodiment, the DPC++ compatibility tool 4002 is as Available as part of a toolkit. In at least one embodiment, a DPC++ toolkit includes an intercept build tool. In at least one embodiment, an intercept-build tool creates a compilation database that captures compilation commands for migrating CUDA files. In at least one embodiment, a compilation database created by an intercept-build tool is used by the DPC++ compatibility tool 4002 to migrate CUDA code to DPC++. In at least one embodiment, non-CUDA C++ code and files are migrated as-is. In at least one embodiment, the DPC++ compatibility tool 4002 produces human-readable DPC++ 4004, which may be DPC++ code that cannot be compiled by the DPC++ compiler in the form generated by the DPC++ compatibility tool 4002 and requires additional exploration, to review portions of code that were not migrated correctly and may require manual intervention, for example by a developer. In at least one embodiment, the DPC++ compatibility tool 4002 provides hints or tools embedded in the code to help the developer manually migrate additional code that could not be automatically migrated. In at least one embodiment, migration is a time activity for a source file, project, or application.

In mindestens einer Ausführungsform ist das DPC++-Kompatibilitätswerkzeug 40002 in der Lage, alle Teile des CUDA-Codes erfolgreich nach DPC++ zu migrieren, und kann es lediglich einen optionalen Schritt zur manuellen Überprüfung und Abstimmung der Leistung des erzeugten DPC++-Quellcodes geben. In mindestens einer Ausführungsform erzeugt das DPC++-Kompatibilitätswerkzeug 4002 direkt DPC++-Quellcode 4008, der von einem DPC++-Compiler kompiliert wird, ohne dass ein menschliches Eingreifen zur Änderung des vom DPC++-Kompatibilitätswerkzeug 4002 erzeugten DPC++-Codes erforderlich ist oder genutzt wird. In mindestens einer Ausführungsform erzeugt das DPC++ Kompatibilitätswerkzeug kompilierbaren DPC++ Code, der optional von einem Entwickler auf Leistung, Lesbarkeit, Wartbarkeit, andere verschiedene Überlegungen oder eine Kombination davon abgestimmt werden kann.In at least one embodiment, the DPC++ compatibility tool 40002 is capable of successfully migrating all portions of CUDA code to DPC++, and there may be only an optional step to manually review and tune the performance of the generated DPC++ source code. In at least one embodiment, the DPC++ compatibility tool 4002 directly generates DPC++ source code 4008 that is compiled by a DPC++ compiler without requiring or using human intervention to modify the DPC++ code generated by the DPC++ compatibility tool 4002. In at least one embodiment, the DPC++ compatibility tool produces compilable DPC++ code that can optionally be tuned by a developer for performance, readability, maintainability, other various considerations, or a combination thereof.

In mindestens einer Ausführungsform werden eine oder mehrere CUDA-Quelldateien zumindest teilweise mit dem DPC++-Kompatibilitätswerkzeug 4002 in DPC++-Quelldateien migriert. In mindestens einer Ausführungsform enthält der CUDA-Quellcode eine oder mehrere Header-Dateien, die auch CUDA-Header-Dateien enthalten können. In mindestens einer Ausführungsform enthält eine CUDA-Quelldatei eine <cuda.h>-Header-Datei und eine <stdio.h>-Header-Datei, die zum Drucken von Text verwendet werden kann. In mindestens einer Ausführungsform kann ein Teil einer CUDA-Quelldatei für einen Vektoradditionskern als oder mit Bezug auf geschrieben werden:

      #include <cuda.h>
      #include <stdio.h> 





      #define VECTOR_SIZE 256

       [] global_void VectorAddKernel(float* A, float* B, float* C)

      {
        A[threadldx.x] = threadldx.x + 1.0f;
        B[threadldx.x] = threadldx.x + 1.0f;

       }C[threadldx.x] = A[threadIdx.x] + B[threadldx.x];
       int main()

      {float *d_A, *d_B, *d_C;
        cudaMalloc(& d_A, VECTOR_SIZE*sizeof(float));
        cudaMalloc(& d_B, VECTOR_SIZE*sizeof(float));
        cudaMalloc(& d_C, VECTOR_SIZE*sizeof(float));
        VectorAddKernel«<1, VECTOR_SIZE» >(d_A, d_B, d_C);
        float Result[VECTOR_SIZE] = { };
        cudaMemcpy(Result, d_C, VECTOR_SIZE*sizeof(float),

       cudaMemcpyDeviceToHost);

        cudaFree(d_A);
        cudaFree(d_B);
        cudaFree(d_C);
        for (int i=0; i<VECTOR_SIZE; i++ {
          if(i % 16 == 0){
        }}printf("\n");
          printf("%f ", Ergebnis[i]); 





       }return 0;

In at least one embodiment, one or more CUDA source files are at least partially migrated to DPC++ source files using the DPC++ compatibility tool 4002. In at least one embodiment, the CUDA source code includes one or more header files, which may also include CUDA header files. In at least one embodiment, a CUDA source file includes a <cuda.h> header file and a <stdio.h> header file that can be used to print text. In at least one embodiment, a portion of a CUDA source file for a vector addition kernel may be written as or with reference to:

 #include <cuda.h>#include<stdio.h>#define VECTOR_SIZE 256

       [] global_void VectorAddKernel(float* A, float* B, float* C)

      {
        A[threadldx.x] = threadldx.x + 1.0f;
        B[threadldx.x] = threadldx.x + 1.0f;

       }C[threadldx.x] = A[threadIdx.x] + B[threadldx.x];
       int main()

      {float *d_A, *d_B, *d_C;
        cudaMalloc(& d_A, VECTOR_SIZE*sizeof(float));
        cudaMalloc(& d_B, VECTOR_SIZE*sizeof(float));
        cudaMalloc(& d_C, VECTOR_SIZE*sizeof(float));
        VectorAddKernel«<1, VECTOR_SIZE» >(d_A, d_B, d_C);
        float Result[VECTOR_SIZE] = { };
        cudaMemcpy(Result, d_C, VECTOR_SIZE*sizeof(float),

cudaMemcpyDeviceToHost);

        cudaFree(d_A);
        cudaFree(d_B);
        cudaFree(d_C);
        for (int i=0; i<VECTOR_SIZE; i++ {
          if(i % 16 == 0){
        }}printf("\n");printf("%f",result[i]); 





       }return 0;

In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei analysiert das DPC++-Kompatibilitätswerkzeug 4002 einen CUDA-Quellcode und ersetzt die Header-Dateien durch geeignete DPC++- und SYCL-Header-Dateien. In mindestens einer Ausführungsform enthalten die DPC++-Headerdateien Hilfsdeklarationen. In CUDA gibt es das Konzept einer Thread-ID, und dementsprechend gibt es in DPC++ oder SYCL für jedes Element einen lokalen Bezeichner.In at least one embodiment, and in conjunction with the CUDA source file presented above, the DPC++ compatibility tool 4002 analyzes a CUDA source code and replaces the header files with appropriate DPC++ and SYCL header files. In at least one embodiment, the DPC++ header files contain auxiliary declarations. In CUDA there is the concept of a thread ID, and accordingly in DPC++ or SYCL there is a local identifier for each element.

In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei gibt es zwei Vektoren A und B, die initialisiert werden, und wird ein Vektoradditionsergebnis als Teil von VectorAddKernel() in den Vektor C gestellt. In mindestens einer Ausführungsform konvertiert das DPC++-Kompatibilitätswerkzeug 4002 CUDA-Thread-IDs, die zur Indizierung von Arbeitselementen verwendet werden, in SYCL-Standardadressierung für Arbeitselemente über eine lokale ID als Teil der Migration von CUDA-Code in DPC++-Code. In mindestens einer Ausführungsform kann der vom DPC++-Kompatibilitätswerkzeug 4002 erzeugte DPC++-Code optimiert werden, beispielsweise durch Verringerung der Dimensionalität eines nd_item, wodurch die Speicher- und/oder Prozessorauslastung erhöht wird.In at least one embodiment, and in conjunction with the CUDA source file presented above, there are two vectors A and B that are initialized and a vector addition result is placed into vector C as part of VectorAddKernel(). In at least one embodiment, the DPC++ compatibility tool 4002 converts CUDA thread IDs used to index work items to standard SYCL addressing for work items via a local ID as part of migrating CUDA code to DPC++ code. In at least one embodiment, the DPC++ code generated by the DPC++ compatibility tool 4002 may be optimized, for example, by reducing the dimensionality of an nd_item, thereby increasing memory and/or processor utilization.

In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei wird die Speicherzuweisung migriert. In mindestens einer Ausführungsform wird cudaMalloc() zu einem einheitlichen SYCL-Aufruf malloc_device() mit gemeinsamem Speicher migriert, dem ein Gerät und ein Kontext übergeben wird, wobei SYCL-Konzepte wie Plattform, Gerät, Kontext und Warteschlange verwendet werden. In mindestens einer Ausführungsform kann eine SYCL-Plattform mehrere Geräte haben (z.B. Host- und GPU-Geräte); kann ein Gerät mehrere Warteschlangen haben, an die Aufträge übermittelt werden können; kann jedes Gerät einen Kontext haben; und kann ein Kontext mehrere Geräte haben und gemeinsam genutzte Speicherobjekte verwalten.In at least one embodiment, and in conjunction with the CUDA source file presented above, the memory allocation is migrated. In at least one embodiment, cudaMalloc() is migrated to a unified shared memory SYCL malloc_device() call that is passed a device and a context using SYCL concepts such as platform, device, context, and queue. In at least one embodiment, a SYCL platform may have multiple devices (e.g., host and GPU devices); a device can have multiple queues to which jobs can be submitted; each device can have a context; and a context can have multiple devices and manage shared storage objects.

In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei ruft eine main()-Funktion VectorAddKernel() auf, um zwei Vektoren A und B zu addieren und das Ergebnis in Vektor C zu speichern. In mindestens einer Ausführungsform wird der CUDA-Code zum Aufrufen von VectorAddKernel() durch DPC++-Code ersetzt, um einen Kernel zur Ausführung an eine Befehlswarteschlange zu übergeben. In mindestens einer Ausführungsform übergibt ein Befehlsgruppen-Handler cgh Daten, Synchronisierung und Berechnungen, die an die Warteschlange übermittelt werden, parallel_for wird für eine Anzahl globaler Elemente und eine Anzahl von Arbeitselementen in dieser Arbeitsgruppe aufgerufen, in der VectorAddKernel() aufgerufen wird.In at least one embodiment, and in conjunction with the CUDA source file presented above, a main() function calls VectorAddKernel() to add two vectors A and B and store the result in vector C. In at least one embodiment, the CUDA code for calling VectorAddKernel() is replaced with DPC++ code to submit a kernel to a command queue for execution. In at least one embodiment, a command group handler cgh passes data, synchronization and computations submitted to the queue, parallel_for is called for a number of global elements and a number of work elements in that workgroup in which VectorAddKernel() is called.

In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei werden CUDA-Aufrufe zum Kopieren von Gerätespeicher und zum anschließenden Freigeben von Speicher für die Vektoren A, B und C in entsprechende DPC++-Aufrufe migriert. In mindestens einer Ausführungsform wird C++-Code (z.B. Standard-ISO-C++-Code zum Drucken eines Vektors von Gleitkommavariablen) unverändert migriert, ohne vom DPC++-Kompatibilitätswerkzeug 4002 geändert zu werden. In mindestens einer Ausführungsform modifiziert das DPC++-Kompatibilitätswerkzeug 4002 die CUDA-APIs für die Speichereinrichtung und/oder Host-Aufrufe, um den Kernel auf dem Beschleunigungsgerät auszuführen. In mindestens einer Ausführungsform und in Verbindung mit der oben vorgestellten CUDA-Quelldatei wird ein entsprechendes, für Menschen lesbares DPC++ 4004 (das z.B. kompiliert werden kann) als oder mit Bezug auf geschrieben:

#include <CL/sycl.hpp>
      #include <dpct/dpct.hpp>
      #define VECTOR_SIZE 256
      void VectorAddKernel(float* A, float* B, float* C,
      {sycl::nd_item<3> item_ct1)
        A[item_ct1.get_local_id(2)] = item_ct1.get_local_id(2) + 1.0f;
        B[item_ct1.get_local_id(2)] = item_ct1.get_local_id(2) + 1.0f;
        C[item_ct1.get_local_id(2)] = 






       }A[item_ct1 .get_local_id(2)] + B[item_ct1.get_local_id(2)];
       int main()

      {float *d_A, *d_B, *d_C;
        d_A = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        d_B = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        d_C = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        dpct::get_default_queue_wait().submit([&](sycl::handler & cgh) {
          cgh.parallel_for(
            sycl::nd_range<3>(sycl::range<3>(1, 1, 1) *
                                           sycl::range<3>(1, 1, VECTOR_SIZE)
       *
                                           sycl::range<3>(1, 1, VEC-
      TOR_SIZE)),
            [=](sycl::nd_items<3> item_ct1) {
        }); });VectorAddKernel(d_A, d_B, d_C, item_ct1);
        float Result[VECTOR_SIZE] = { };
        dpct::get_default_queue_wait()
          .memcpy(Ergebnis, d_C, VECTOR_SIZE * sizeof(float))
          .wait(); 





        sycl::free(d_A, dpct::get_default_context());
        sycl::free(d_B, dpct::get_default_context());
        sycl::free(d_C, dpct::get_default_context());
        for (int i=0; i<VECTOR_SIZE; i++ {
          if(i % 16 == 0){
              printf("\n");
          }
          printf("%f ", Ergebnis[i]);
        }

       }return 0;

In at least one embodiment, and in conjunction with the CUDA source file presented above, CUDA calls to copy device memory and then free memory for vectors A, B, and C are migrated into corresponding DPC++ calls. In at least one embodiment, C++ code (e.g., standard ISO C++ code for printing a vector of floating point variables) is migrated as is, without being modified by the DPC++ compatibility tool 4002. In at least one embodiment, the DPC++ compatibility tool 4002 modifies the CUDA APIs for the storage device and/or host calls to execute the kernel on the accelerator device. In at least one embodiment, and in conjunction with the CUDA source file presented above, a corresponding human-readable DPC++ 4004 (which can be compiled, for example) is written as or with reference to:

 #include <CL/sycl.hpp>#include<dpct/dpct.hpp>#define VECTOR_SIZE 256
      void VectorAddKernel(float* A, float* B, float* C,
      {sycl::nd_item<3> item_ct1)
        A[item_ct1.get_local_id(2)] = item_ct1.get_local_id(2) + 1.0f;
        B[item_ct1.get_local_id(2)] = item_ct1.get_local_id(2) + 1.0f;
        C[item_ct1.get_local_id(2)] = 






       }A[item_ct1 .get_local_id(2)] + B[item_ct1.get_local_id(2)];
       int main()

      {float *d_A, *d_B, *d_C;
        d_A = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        d_B = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        d_C = (float *)sycl::malloc_device(VECTOR_SIZE * sizeof(float),
          dpct::get_current_device(),
          dpct::get_default_context());
        dpct::get_default_queue_wait().submit([&](sycl::handler & cgh) {
          cgh.parallel_for(
            sycl::nd_range<3>(sycl::range<3>(1, 1, 1) *
                                           sycl::range<3>(1, 1, VECTOR_SIZE)
       *
                                           sycl::range<3>(1, 1, VEC-
      GOAL_SIZE)),
            [=](sycl::nd_items<3> item_ct1) {
        }); });VectorAddKernel(d_A, d_B, d_C, item_ct1);
        float Result[VECTOR_SIZE] = { };
        dpct::get_default_queue_wait()
          .memcpy(result, d_C, VECTOR_SIZE * sizeof(float))
          .wait(); 





        sycl::free(d_A, dpct::get_default_context());
        sycl::free(d_B, dpct::get_default_context());
        sycl::free(d_C, dpct::get_default_context());
        for (int i=0; i<VECTOR_SIZE; i++ {
          if(i % 16 == 0){
              printf("\n");
          }
          printf("%f ", result[i]);
        }

       }return 0;

In mindestens einer Ausführungsform bezieht sich das für Menschen lesbare DPC++ 4004 auf die vom DPC++ Kompatibilitätswerkzeug 4002 erzeugte Ausgabe und kann auf die eine oder andere Weise optimiert werden. In mindestens einer Ausführungsform kann das vom DPC++ Kompatibilitätswerkzeug 4002 erzeugte, für Menschen lesbare DPC++ 4004 von einem Entwickler nach der Migration manuell bearbeitet werden, um es wartbarer zu machen, die Leistung zu verbessern oder andere Überlegungen anzustellen. In mindestens einer Ausführungsform kann der vom DPC++-Kompatibilitätswerkzeug 40002 generierte DPC++-Code, wie z.B. DPC++ disclosed, durch Entfernen der wiederholten Aufrufe von get_current_device() und/oder get_default_context() für jeden malloc_device()-Aufruf optimiert werden. In mindestens einer Ausführungsform verwendet der oben erzeugte DPC++-Code einen dreidimensionalen nd_range, der so umgestaltet werden kann, dass er nur eine einzige Dimension verwendet, wodurch die Speichernutzung reduziert wird. In mindestens einer Ausführungsform kann ein Entwickler den vom DPC++-Kompatibilitätswerkzeug 4002 erzeugten DPC++-Code manuell bearbeiten und die Verwendung von gemeinsam genutztem Speicher durch Accessoren ersetzen. In mindestens einer Ausführungsform verfügt das DPC++-Kompatibilitätswerkzeug 4002 über eine Option zum Ändern der Art und Weise, wie es CUDA-Code in DPC++-Code migriert. In mindestens einer Ausführungsform ist das DPC++-Kompatibilitätswerkzeug 4002 sehr ausführlich, da es eine allgemeine Vorlage für die Migration von CUDA-Code in DPC++-Code verwendet, die für eine große Anzahl von Fällen funktioniert.In at least one embodiment, the human readable DPC++ 4004 refers to the output produced by the DPC++ compatibility tool 4002 and may be optimized in one way or another. In at least one embodiment, this can be done by the DPC++ compatibility tool 4002 generated human-readable DPC++ 4004 may be manually edited by a developer after migration to make it more maintainable, improve performance, or for other considerations. In at least one embodiment, the DPC++ code generated by the DPC++ compatibility tool 40002, such as DPC++ disclosed, may be optimized by removing the repeated calls to get_current_device() and/or get_default_context() for each malloc_device() call. In at least one embodiment, the DPC++ code generated above uses a three-dimensional nd_range that can be redesigned to use only a single dimension, thereby reducing memory usage. In at least one embodiment, a developer may manually edit the DPC++ code generated by the DPC++ compatibility tool 4002 and replace the use of shared memory with accessors. In at least one embodiment, the DPC++ compatibility tool 4002 has an option to change the way it migrates CUDA code to DPC++ code. In at least one embodiment, the DPC++ compatibility tool 4002 is very detailed in that it uses a general template for migrating CUDA code to DPC++ code that works for a large number of cases.

In mindestens einer Ausführungsform umfasst ein Arbeitsablauf für die Migration von CUDA zu DPC++ die folgenden Schritte: Vorbereitung der Migration mit Hilfe des Intercept- Build-Skripts; Durchführung der Migration von CUDA-Projekten zu DPC++ mit Hilfe des DPC++-Kompatibilitätswerkzeugs 4002; manuelle Überprüfung und Bearbeitung der migrierten Quelldateien auf Vollständigkeit und Korrektheit; und Kompilierung des endgültigen DPC++-Codes zur Erzeugung einer DPC++-Anwendung. In mindestens einer Ausführungsform kann eine manuelle Überprüfung des DPC++-Quellcodes in einem oder mehreren Szenarien erforderlich sein, einschließlich, aber nicht beschränkt auf: migrierte API gibt keinen Fehlercode zurück (CUDA-Code kann einen Fehlercode zurückgeben, der dann von der Anwendung verwendet werden kann, aber SYCL verwendet Ausnahmen, um Fehler zu melden, und verwendet daher keine Fehlercodes, um Fehler aufzudecken); CUDA-Compute-Capability-abhängige Logik wird von DPC++ nicht unterstützt; Anweisung konnte nicht entfernt werden. In mindestens einer Ausführungsform können Szenarien, in denen DPC++-Code ein manuelles Eingreifen erfordert, ohne Beschränkung Folgendes umfassen: Fehlercode-Logik, die durch (*,0)-Code ersetzt oder auskommentiert wird; äquivalente DPC++-API ist nicht verfügbar; von der CUDA-Berechnungsfähigkeit- abhängige Logik; von der Hardware- abhängige API (clock()); fehlende Funktionen, die nicht von der API unterstützt werden; Logik zur Messung der Ausführungszeit; Handhabung von- in Vektortypkonflikten; Migration der cuBLAS-API; und mehr.In at least one embodiment, a workflow for migrating from CUDA to DPC++ includes the following steps: preparing the migration using the intercept build script; Performed migration of CUDA projects to DPC++ using DPC++ Compatibility Tool 4002; manual checking and editing of the migrated source files for completeness and correctness; and compiling the final DPC++ code to produce a DPC++ application. In at least one embodiment, manual review of the DPC++ source code may be required in one or more scenarios, including, but not limited to: migrated API does not return an error code (CUDA code may return an error code that can then be used by the application , but SYCL uses exceptions to report errors and therefore does not use error codes to detect errors); CUDA Compute Capability dependent logic is not supported by DPC++; Statement could not be removed. In at least one embodiment, scenarios in which DPC++ code requires manual intervention may include, without limitation: error code logic replaced or commented out by (*,0) code; equivalent DPC++ API is not available; logic dependent on CUDA computability; hardware-dependent API (clock()); missing features not supported by the API; Logic to measure execution time; Handling vector type conflicts; Migrating the cuBLAS API; and more.

In mindestens einer Ausführungsform werden ein oder mehrere in 40 dargestellte Systeme zur Durchführung der API verwendet, um eine oder mehrere Datenstrukturen zu erzeugen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 40 dargestellte Systeme zur Durchführung der API verwendet, um die Verwendung von Informationen durch ein Computerprogramm zu steigern, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 40 dargestellte Systeme verwendet, um die API auszuführen, um die Verwendung von Informationen durch ein Computerprogramm zu reduzieren, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden. In mindestens einer Ausführungsform werden ein oder mehrere in 40 dargestellte Systeme verwendet, um ein oder mehrere Systeme und/oder Prozesse zu implementieren, wie sie in Verbindung mit 1 - 8 beschrieben sind.In at least one embodiment, one or more in 40 illustrated systems are used to implement the API to create one or more data structures used to monitor the use of information by a computer program. In at least one embodiment, one or more in 40 illustrated systems are used to implement the API to increase the use of information by a computer program, based at least in part on one or more data structures used to monitor the use of the information. In at least one embodiment, one or more in 40 systems illustrated are used to execute the API to reduce a computer program's use of information, based at least in part on one or more data structures used to monitor use of the information. In at least one embodiment, one or more in 40 systems illustrated are used to implement one or more systems and/or processes as used in connection with 1 - 8th are described.

In mindestens einer Ausführungsform verwenden eine oder mehrere von hierin beschriebenen Techniken ein oneAPI-Programmiermodell. In mindestens einer Ausführungsform bezieht sich ein oneAPI-Programmiermodell auf ein Programmiermodell zum Interagieren mit verschiedenen Rechenbeschleunigerarchitekturen. In mindestens einer Ausführungsform bezieht sich oneAPI auf eine Anwendungsprogrammierschnittstelle (API), die dazu entwickelt wurde, mit verschiedenen Rechenbeschleunigerarchitekturen zu interagieren. In mindestens einer Ausführungsform verwendet ein oneAPI-Programmiermodell eine DPC++-Programmiersprache. In mindestens einer Ausführungsform bezieht sich eine DPC++-Programmiersprache auf eine Hochsprache für Produktivität datenparalleler Programmierung. In mindestens einer Ausführungsform basiert eine DPC++-Programmiersprache zumindest teilweise auf den Programmiersprachen C und/oder C++. In mindestens einer Ausführungsform ist ein oneAPI-Programmiermodell ein Programmiermodell wie beispielsweise diejenigen, die von der Intel Corporation in Santa Clara, CA, entwickelt wurden.In at least one embodiment, one or more techniques described herein utilize a oneAPI programming model. In at least one embodiment, a oneAPI programming model refers to a programming model for interacting with various computing accelerator architectures. In at least one embodiment, oneAPI refers to an application programming interface (API) designed to interact with various computing accelerator architectures. In at least one embodiment, a oneAPI programming model uses a DPC++ programming language. In at least one embodiment, a DPC++ programming language refers to a high-level language for data parallel programming productivity. In at least one embodiment, a DPC++ programming language is based at least partially on the C and/or C++ programming languages. In at least one embodiment, a oneAPI programming model is a programming model such as those developed by Intel Corporation of Santa Clara, CA.

In mindestens einer Ausführungsform wird oneAPI und/oder ein oneAPI-Programmiermodell verwendet, um mit verschiedenen Beschleuniger-, GPU-, Prozessor- und/oder Variationen davon-Architekturen zu interagieren. In mindestens einer Ausführungsform umfasst oneAPI eine Reihe von Bibliotheken, die verschiedene Funktionalitäten implementieren. In mindestens einer Ausführungsform umfasst oneAPI mindestens eine oneAPI-DPC++-Bibliothek, eine oneAPI-Mathematik-Kernel-Bibliothek, eine oneAPI-Datenanalysebibliothek, eine oneAPI-Bibliothek für tiefe neuronale Netzwerke, eine oneAPI-Bibliothek für kollektive Kommunikation, eine oneAPI-Bibliothek für Threading-Bausteine, eine oneAPI-Bibliothek für Videoverarbeitung und/oder Variationen davon.In at least one embodiment, oneAPI and/or a oneAPI programming model is used to interface with various accelerator, GPU, processor, and/or variations thereof architectures to interact. In at least one embodiment, oneAPI includes a set of libraries that implement various functionalities. In at least one embodiment, oneAPI includes at least a oneAPI DPC++ library, a oneAPI math kernel library, a oneAPI data analysis library, a oneAPI deep neural network library, a oneAPI collective communication library, a oneAPI library for Threading building blocks, a oneAPI library for video processing and/or variations thereof.

In mindestens einer Ausführungsform ist eine oneAPI-DPC++-Bibliothek, auch als oneDPL bezeichnet, eine Bibliothek, die Algorithmen und Funktionen zur Beschleunigung der DPC++-Kernelprogrammierung implementiert. In mindestens einer Ausführungsform implementiert oneDPL eine oder mehrere Funktionen der Standard Template Library (STL). In mindestens einer Ausführungsform implementiert oneDPL eine oder mehrere parallele STL-Funktionen. In mindestens einer Ausführungsform stellt oneDPL einen Satz von Bibliotheksklassen und -funktionen wie parallele Algorithmen, Iteratoren, Funktionsobjektklassen, bereichsbasierte API und/oder Variationen davon bereit. In mindestens einer Ausführungsform implementiert oneDPL eine oder mehrere Klassen und/oder Funktionen einer C++-Standardbibliothek. In mindestens einer Ausführungsform implementiert oneDPL eine oder mehrere Zufallszahlengeneratorfunktionen.In at least one embodiment, a oneAPI DPC++ library, also referred to as oneDPL, is a library that implements algorithms and functions to accelerate DPC++ kernel programming. In at least one embodiment, oneDPL implements one or more functions of the Standard Template Library (STL). In at least one embodiment, oneDPL implements one or more parallel STL functions. In at least one embodiment, oneDPL provides a set of library classes and functions such as parallel algorithms, iterators, function object classes, scope-based API, and/or variations thereof. In at least one embodiment, oneDPL implements one or more classes and/or functions of a C++ standard library. In at least one embodiment, oneDPL implements one or more random number generator functions.

In mindestens einer Ausführungsform ist eine oneAPI-Mathematik-Kernel-Bibliothek, auch als oneMKL bezeichnet, eine Bibliothek, die verschiedene optimierte und parallelisierte Routinen für verschiedene mathematische Funktionen und/oder Operationen implementiert. In mindestens einer Ausführungsform implementiert oneMKL ein oder mehrere Basic Linear Algebra Subprograms (BLAS) und/oder Linear Algebra Package (LAPACK) Dense Linear Algebra Routines. In mindestens einer Ausführungsform implementiert oneMKL eine oder mehrere dünn besetzte BLAS-Routinen für lineare Algebra. In mindestens einer Ausführungsform implementiert oneMKL einen oder mehrere Zufallszahlengeneratoren (RNGs). In mindestens einer Ausführungsform implementiert oneMKL eine oder mehrere Vektormathematik (VM)-Routinen für mathematische Operationen mit Vektoren. In mindestens einer Ausführungsform implementiert oneMKL eine oder mehrere Fast-Fourier-Transformationsfunktionen (FFT).In at least one embodiment, a oneAPI math kernel library, also referred to as oneMKL, is a library that implements various optimized and parallelized routines for various mathematical functions and/or operations. In at least one embodiment, oneMKL implements one or more Basic Linear Algebra Subprograms (BLAS) and/or Linear Algebra Package (LAPACK) Dense Linear Algebra Routines. In at least one embodiment, oneMKL implements one or more sparse linear algebra BLAS routines. In at least one embodiment, oneMKL implements one or more random number generators (RNGs). In at least one embodiment, oneMKL implements one or more vector mathematics (VM) routines for mathematical operations on vectors. In at least one embodiment, oneMKL implements one or more Fast Fourier Transform (FFT) functions.

In mindestens einer Ausführungsform ist eine oneAPI-Datenanalysebibliothek, auch als oneDAL bezeichnet, eine Bibliothek, die verschiedene Datenanalyseanwendungen und verteilte Berechnungen implementiert. In mindestens einer Ausführungsform implementiert oneDAL verschiedene Algorithmen für die Vorverarbeitung, Transformation, Analyse, Modellierung, Validierung und Entscheidungsfindung für die Datenanalyse in Stapel-, Online- und verteilten Verarbeitungsmodi der Berechnung. In mindestens einer Ausführungsform implementiert oneDAL verschiedene C++ und/oder Java APIs und verschiedene Konnektoren zu einer oder mehreren Datenquellen. In mindestens einer Ausführungsform implementiert oneDAL DPC++ API-Erweiterungen zu einer herkömmlichen C++-Schnittstelle und ermöglicht die Verwendung von GPUs für verschiedene Algorithmen.In at least one embodiment, a oneAPI data analysis library, also referred to as oneDAL, is a library that implements various data analysis applications and distributed computation. In at least one embodiment, oneDAL implements various algorithms for preprocessing, transformation, analysis, modeling, validation, and decision making for data analysis in batch, online, and distributed processing modes of computation. In at least one embodiment, oneDAL implements various C++ and/or Java APIs and various connectors to one or more data sources. In at least one embodiment, oneDAL DPC++ implements API extensions to a traditional C++ interface and enables the use of GPUs for various algorithms.

In mindestens einer Ausführungsform ist eine oneAPI-Bibliothek für tiefe neuronale Netzwerke, auch als oneDNN bezeichnet, eine Bibliothek, die verschiedene Funktionen des tiefen Lernens implementiert. In mindestens einer Ausführungsform implementiert oneDNN verschiedene neuronale Netzwerk-, maschinelle Lern- und Deep-Learning-Funktionen, Algorithmen und/oder Variationen davon.In at least one embodiment, a oneAPI deep neural network library, also referred to as oneDNN, is a library that implements various deep learning functions. In at least one embodiment, oneDNN implements various neural network, machine learning and deep learning functions, algorithms and/or variations thereof.

In mindestens einer Ausführungsform ist eine OneAPI kollektive Kommunikationsbibliothek, auch als oneCCL bezeichnet, eine Bibliothek, die verschiedene Anwendungen für tiefes Lernen bzw. Deep Learning und maschinelles Lernen implementiert. In mindestens einer Ausführungsform baut oneCCL auf Kommunikations-Middleware auf niedrigerer Ebene auf, wie z. B. Message Passing Interface (MPI) und libfabrics. In mindestens einer Ausführungsform ermöglicht oneCCL eine Reihe von Deep-Learning-spezifischen Optimierungen, wie z. B. Priorisierung, persistente Operationen, Ausführungen außerhalb der Reihenfolge und/oder Variationen davon. In mindestens einer Ausführungsform implementiert oneCCL verschiedene CPU- und GPU-Funktionen.In at least one embodiment, a OneAPI collective communications library, also referred to as oneCCL, is a library that implements various deep learning and machine learning applications. In at least one embodiment, oneCCL is built on lower level communication middleware such as: B. Message Passing Interface (MPI) and libfabrics. In at least one embodiment, oneCCL enables a number of deep learning-specific optimizations, such as: B. Prioritization, persistent operations, out-of-order executions and/or variations thereof. In at least one embodiment, oneCCL implements various CPU and GPU functions.

In mindestens einer Ausführungsform ist eine oneAPI-Threading-Building-Blocks-Bibliothek, auch als oneTBB bezeichnet, eine Bibliothek, die verschiedene parallelisierte Prozesse für verschiedene Anwendungen implementiert. In mindestens einer Ausführungsform wird oneTBB für die aufgabenbasierte, gemeinsame parallele Programmierung auf einem Host verwendet. In mindestens einer Ausführungsform implementiert oneTBB generische parallele Algorithmen. In mindestens einer Ausführungsform implementiert oneTBB nebenläufige Container. In mindestens einer Ausführungsform implementiert oneTBB einen skalierbaren Speicherallokator. In mindestens einer Ausführungsform implementiert oneTBB einen Arbeit stehlenden Aufgabenplaner. In mindestens einer Ausführungsform implementiert oneTBB Synchronisationsprimitive auf niedriger Ebene. In mindestens einer Ausführungsform ist oneTBB compilerunabhängig und kann auf verschiedenen Prozessoren wie GPUs, PPUs, CPUs und/oder Variationen davon eingesetzt werden.In at least one embodiment, a oneAPI threading building blocks library, also referred to as oneTBB, is a library that implements various parallelized processes for various applications. In at least one embodiment, oneTBB is used for task-based, shared parallel programming on a host. In at least one embodiment, oneTBB implements generic parallel algorithms. In at least one embodiment, oneTBB implements concurrent containers. In at least one embodiment, oneTBB implements a scalable memory allocator. In at least one embodiment, oneTBB implements a work-stealing task scheduler. In at least one embodiment, oneTBB implements synchronization primitives low level. In at least one embodiment, oneTBB is compiler independent and can be used on various processors such as GPUs, PPUs, CPUs and/or variations thereof.

In mindestens einer Ausführungsform ist eine oneAPI-Videoverarbeitungsbibliothek, auch als oneVPL bezeichnet, eine Bibliothek, die zur Beschleunigung der Videoverarbeitung in einer oder mehreren Anwendungen eingesetzt wird. In mindestens einer Ausführungsform implementiert oneVPL verschiedene Videodecodierungs-, -codierungs- und -verarbeitungsfunktionen. In mindestens einer Ausführungsform implementiert oneVPL verschiedene Funktionen für Medien-Pipelines auf CPUs, GPUs und anderen Beschleunigern. In mindestens einer Ausführungsform implementiert oneVPL die Geräteerkennung und -auswahl in medienzentrierten und videoanalytischen Workloads. In mindestens einer Ausführungsform implementiert oneVPL API-Primitive für die gemeinsame Verwendung von Null-Kopie-Puffern.In at least one embodiment, a oneAPI video processing library, also referred to as oneVPL, is a library used to accelerate video processing in one or more applications. In at least one embodiment, oneVPL implements various video decoding, encoding and processing functions. In at least one embodiment, oneVPL implements various features for media pipelines on CPUs, GPUs, and other accelerators. In at least one embodiment, oneVPL implements device discovery and selection in media-centric and video analytics workloads. In at least one embodiment, oneVPL implements API primitives for sharing zero-copy buffers.

In mindestens einer Ausführungsform verwendet ein oneAPI-Programmiermodell eine DPC++-Programmiersprache. In mindestens einer Ausführungsform ist eine DPC++-Programmiersprache eine Programmiersprache, die ohne Beschränkung darauf funktional ähnliche Versionen von CUDA-Mechanismen enthält, um Gerätecode zu definieren und zwischen Gerätecode und Hostcode zu unterscheiden. In mindestens einer Ausführungsform kann eine DPC++-Programmiersprache eine Teilmenge der Funktionalität einer CUDA-Programmiersprache enthalten. In mindestens einer Ausführungsform werden eine oder mehrere CUDA-Programmiermodelloperationen unter Verwendung eines oneAPI-Programmiermodells mit einer DPC++-Programmiersprache durchgeführt.In at least one embodiment, a oneAPI programming model uses a DPC++ programming language. In at least one embodiment, a DPC++ programming language is a programming language that includes, but is not limited to, functionally similar versions of CUDA mechanisms to define device code and distinguish between device code and host code. In at least one embodiment, a DPC++ programming language may include a subset of the functionality of a CUDA programming language. In at least one embodiment, one or more CUDA programming model operations are performed using a oneAPI programming model with a DPC++ programming language.

Es wird angemerkt, dass sich hierin beschriebene Ausführungsbeispiele zwar auf ein CUDA-Programmiermodell beziehen können, hierin beschriebene Techniken jedoch mit jedem geeigneten Programmiermodell, wie HIP, oneAPI (z. B. unter Verwendung einer oneAPI-basierten Programmierung zur Durchführung oder Implementierung eines hierin offengelegten Verfahrens) und/oder Variationen davon, verwendet werden können.It is noted that while embodiments described herein may refer to a CUDA programming model, techniques described herein may be used with any suitable programming model, such as HIP, oneAPI (e.g., using oneAPI-based programming to perform or implement any disclosed herein Method) and/or variations thereof can be used.

In mindestens einer Ausführungsform können eine oder mehrere Komponenten von vorstehend offenbarten Systemen und/oder Prozessoren mit einer oder mehreren CPUs, ASICs, GPUs, FPGAs oder anderen Hardware-, Schaltkreis- oder integrierten Schaltkreiskomponenten kommunizieren, die z. B. einen Upscaler oder Upsampler zum Hochskalieren eines Bildes, einen Image Blender oder eine Image Blender-Komponente zum Überblenden, Mischen oder Zusammenfügen von Bildern, einen Sampler zum Abtasten eines Bildes (z. B., als Teil eines DSP), eine neuronale Netzwerkschaltung, die so konfiguriert ist, dass sie einen Upscaler ausführt, um ein Bild hochzuskalieren (z. B. von einem Bild mit niedriger Auflösung zu einem Bild mit hoher Auflösung), oder andere Hardware, um ein Bild, einen Rahmen oder ein Video zu modifizieren oder zu erzeugen, um seine Auflösung, Größe oder Pixel einzustellen; eine oder mehrere Komponenten von Systemen und/oder Prozessoren, die oben offenbart wurden, können Komponenten verwenden, die in dieser Offenbarung beschrieben werden, um Verfahren, Operationen oder Anweisungen auszuführen, die ein Bild erzeugen oder modifizieren.In at least one embodiment, one or more components of systems and/or processors disclosed above may communicate with one or more CPUs, ASICs, GPUs, FPGAs, or other hardware, circuitry, or integrated circuit components, e.g. B. an upscaler or upsampler for upscaling an image, an image blender or an image blender component for blending, mixing or merging images, a sampler for sampling an image (e.g., as part of a DSP), a neural network circuit , which is configured to run an upscaler to upscale an image (e.g., from a low-resolution image to a high-resolution image), or other hardware to modify an image, frame, or video or create to adjust its resolution, size or pixels; One or more components of systems and/or processors disclosed above may use components described in this disclosure to perform methods, operations, or instructions that generate or modify an image.

Mindestens eine Ausführungsform der Offenbarung kann im Hinblick auf die folgenden Abschnitte beschrieben werden:

Abschnitt 1. Prozessor, umfassend:
- eine oder mehrere Schaltungen zum Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Erzeugen einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind.
Abschnitt 2: Prozessor nach Abschnitt 1, wobei die eine oder die mehreren Datenstrukturen zumindest eine Anzahl von Referenzen angeben, die dem Computerprogramm zugeordnet sind.
Abschnitt 3: Prozessor nach Abschnitt 1, wobei die Informationen zumindest einen Speicherbereich umfassen.
Abschnitt 4: Prozessor nach einem der Abschnitte 1-3, wobei die eine oder die mehreren Schaltungen dazu angeordnet sind, die API zumindest teilweise auf der Grundlage eines Parameterwerts durchzuführen, der einen Ort angibt, der der einen oder den mehreren Datenstrukturen entspricht.
Abschnitt 5: Prozessor nach einem der Abschnitte 1-4, wobei die eine oder die mehreren Schaltungen ferner dazu angeordnet sind, eine oder mehrere Funktionen auszuführen, die zumindest teilweise auf der Verwendung der Informationen durch das Computerprogramm basieren.
Abschnitt 6: Der Prozessor nach einem der Abschnitte 1-5, wobei das Computerprogramm von einer oder mehreren Grafikverarbeitungseinheiten (GPUs) ausführbar ist.
Abschnitt 7. System, umfassend:
- einen oder mehrere Computer mit einem oder mehreren Prozessoren zum Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Erzeugen einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind.
Abschnitt 8: System nach Abschnitt 7, wobei der eine oder die mehreren Prozessoren ferner dazu angeordnet sind:
- Code zu erhalten, der zumindest die API angibt; und
- die API durch zumindest Ausführen des Codes durchzuführen.
Abschnitt 9: System nach Abschnitt 7 oder 8, wobei die eine oder die mehreren Datenstrukturen eine Zählung einer oder mehrerer den Informationen zugeordneter Referenzen codieren.
Abschnitt 10: System nach einem der Abschnitte 7-9, wobei die eine oder die mehreren Datenstrukturen eine oder mehrere Destruktorfunktionen angeben.
Abschnitt 11: System nach einem der Abschnitte 7-10, wobei das Computerprogramm von mindestens einer oder mehreren Parallelverarbeitungseinheiten (PPUs) ausführbar ist.
Abschnitt 12: System nach einem der Abschnitte 7-11, wobei die Informationen zumindest Eingabedaten für das Computerprogramm umfassen.
Abschnitt 13: Maschinenlesbares Medium, auf dem ein Satz von Anweisungen gespeichert ist, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen zumindest zum:
- Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Erzeugen einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind.
Abschnitt 14: Maschinenlesbares Medium nach Abschnitt 13, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, die API zumindest teilweise auf der Grundlage eines Parameterwerts durchzuführen, der eine Anzahl von Referenzen angibt.
Abschnitt 15: Maschinenlesbares Medium nach Abschnitt 13 oder 14, wobei die Verwendung der Informationen durch eine oder mehrere Referenzen angegeben wird, die von dem Computerprogramm verwendet werden.
Abschnitt 16: Maschinenlesbares Medium nach einem der Abschnitte 13-15, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren durchgeführt werden, den einen oder die mehreren Prozessoren veranlassen, die eine oder die mehreren Datenstrukturen auf der Grundlage der Verwendung der Informationen durch das Computerprogramm zu modifizieren.
Abschnitt 17: Maschinenlesbares Medium nach einem der Abschnitte 13-16, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren durchgeführt werden, den einen oder die mehreren Prozessoren veranlassen, die eine oder die mehreren Datenstrukturen mit einer oder mehreren Graph-Datenstrukturen zu verknüpfen.
Abschnitt 18: Maschinenlesbares Medium nach einem der Abschnitte 13-17, wobei das Computerprogramm von einer oder mehreren universellen Grafikverarbeitungseinheiten (GPGPUs) ausführbar ist.
Abschnitt 19. Verfahren, umfassend:
- Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Erzeugen einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung von Informationen durch ein Computerprogramm zu verwenden sind.
Abschnitt 20: Verfahren nach Abschnitt 19, ferner umfassend ein Ausführen einer oder mehrerer Funktionen zumindest teilweise auf der Grundlage einer Anzahl von Referenzen, die von der einen oder den mehreren Datenstrukturen angegeben werden.
Abschnitt 21: Verfahren nach Abschnitt 19 oder 20, ferner umfassend ein Durchführen der API zumindest teilweise auf der Grundlage eines oder mehrerer Parameterwerte, die eine oder mehrere Funktionen angeben.
Abschnitt 22: Verfahren nach einem der Abschnitte 19-21, wobei die API eine Laufzeit-API ist.
Abschnitt 23: Verfahren nach einem der Abschnitte 19-22, wobei das Computerprogramm von einer oder mehreren Zentralverarbeitungseinheiten (CPUs) ausführbar ist.
Abschnitt 24: Verfahren nach einem der Abschnitte 19-23, ferner umfassend ein Erhalten einer oder mehrerer Statusangaben als ein Ergebnis des Durchführens der API.
Abschnitt 25. Prozessor, umfassend:
- eine oder mehrere Schaltungen zum Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm gesteigert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 26: Prozessor nach Abschnitt 25, wobei die eine oder die mehreren Schaltungen ferner dazu angeordnet sind, einen Wert der einen oder der mehreren Datenstrukturen zu erhöhen, der eine Anzahl von Referenzen anzeigt, die dem Computerprogramm zugeordnet sind.
Abschnitt 27: Prozessor nach Abschnitt 25 oder 26, wobei der eine oder die mehreren Schaltungen dazu angeordnet sind, die API zumindest teilweise auf der Grundlage eines Parameterwerts durchzuführen, der eine Anzahl von Referenzen angibt.
Abschnitt 28: Prozessor nach einem der Abschnitte 25-27, wobei die Informationen einen Speicherbereich umfassen, der von dem Computerprogramm verwendet wird.
Abschnitt 29: Prozessor nach einem der Abschnitte 25-28, wobei das Computerprogramm von einer oder mehreren Grafikverarbeitungseinheiten (GPUs) ausführbar ist.
Abschnitt 30: Prozessor nach einem der Abschnitte 25-29, wobei die API eine Laufzeit-API ist.
Abschnitt 31. System, umfassend:
- einen oder mehrere Computer mit einem oder mehreren Prozessoren, um eine Anwendungsprogrammierschnittstelle (API) durchzuführen zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm gesteigert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 32: System nach Abschnitt 31, wobei der eine oder die mehreren Prozessoren dazu angeordnet sind, die API zumindest teilweise auf der Grundlage eines Parameterwerts durchzuführen, der die eine oder die mehreren Datenstrukturen angibt.
Abschnitt 33: System nach Abschnitt 31 oder 32, wobei der eine oder die mehreren Prozessoren ferner dazu angeordnet sind, die eine oder die mehreren Datenstrukturen mit einer oder mehreren Graph-Datenstrukturen zu verknüpfen.
Abschnitt 34: System nach einem der Abschnitte 31-33, wobei die Verwendung der Informationen zumindest durch einen Satz von Referenzen angezeigt wird, die dem Computerprogramm zugeordnet sind.
Abschnitt 35: System nach einem der Abschnitte 31-34, wobei die eine oder die mehreren Datenstrukturen eine oder mehrere Funktionen zum Freigeben von Speicher angeben.
Abschnitt 36: System nach einem der Abschnitte 31-35, wobei das Computerprogramm von einer oder mehreren Parallelverarbeitungseinheiten (PPUs) ausführbar ist.
Abschnitt 37. Maschinenlesbares Medium, auf dem ein Satz von Anweisungen gespeichert ist, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen zum:
- Durchführen einer Anwendungsprogrammierschnittstelle (API), um zu veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm gesteigert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 38: Maschinenlesbares Medium nach Abschnitt 37, wobei der Satz von Anweisungen ferner Anweisungen Befehle enthält, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, die Verwendung der Informationen durch das Computerprogramm zu steigern, indem zumindest ein oder mehrere Werte der einen oder mehreren Datenstrukturen, die die Verwendung anzeigen, inkrementiert werden.
Abschnitt 39: Maschinenlesbares Medium nach 37 oder 38, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, die API auf der Grundlage eines Parameterwertes durchzuführen, der eine oder mehrere Graph-Datenstrukturen angibt.
Abschnitt 40: Maschinenlesbares Medium nach einem der Abschnitte 37-39, wobei das Computerprogramm eine oder mehrere Graph-Datenstruktur-Operationen umfasst.
Abschnitt 41: Maschinenlesbares Medium nach einem der Abschnitte 37-40, wobei die Informationen ein oder mehrere Datenobjekte enthalten, die von dem Computerprogramm verwendet werden.
Abschnitt 42: Maschinenlesbares Medium nach einem der Abschnitte 37-41, wobei das Computerprogramm von einer oder mehreren universellen Grafikverarbeitungseinheiten (GPGPUs) ausführbar ist.
Abschnitt 43: Verfahren, umfassend:
- Durchführen einer Anwendungsprogrammierschnittstelle (API), um zu veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm gesteigert wird, zumindest teilweise basierend auf einer oder mehreren Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 44: Verfahren nach Abschnitt 43, ferner umfassend ein Erhalten einer oder mehrerer Statusanzeigen als ein Ergebnis der Durchführung der API.
Abschnitt 45: Verfahren nach Abschnitt 43 oder 44, ferner umfassend:
- Erhalten von Code, der zumindest die API angibt; und
- Durchführen der API durch zumindest Veranlassen der Ausführung des Codes.
Abschnitt 46: Verfahren nach einem der Abschnitte 43-45, ferner umfassend ein Zuordnen der einen oder der mehreren Datenstrukturen zu einer Graph-Datenstruktur, zumindest teilweise auf der Grundlage eines Parameterwerts, der die Zuordnung anzeigt.
Abschnitt 47: Verfahren nach einem der Abschnitte 43-46, wobei die eine oder mehreren Datenstrukturen eine oder mehrere Destruktionsfunktionen angeben.
Abschnitt 48: Verfahren nach einem der Abschnitte 43-47, wobei das Computerprogramm von einer oder mehreren zentralen Verarbeitungseinheiten (CPUs) ausführbar ist.
Abschnitt 49. Prozessor, umfassend:
- eine oder mehrere Schaltungen zum Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 50: Prozessor nach Abschnitt 49, wobei die eine oder die mehreren Schaltungen dazu angeordnet sind, zu veranlassen, dass die Verwendung der Informationen durch das Computerprogramm reduziert wird, indem zumindest eine Anzahl von Verwendungen reduziert wird, die durch die eine oder die mehreren Datenstrukturen angezeigt wird.
Abschnitt 51: Prozessor nach Abschnitt 49 oder 50, wobei die Verwendung der Informationen durch eine oder mehrere den Informationen zugeordnete Referenzen angezeigt wird.
Abschnitt 52: Prozessor nach einem der Abschnitte 49-51, wobei das Computerprogramm von einer oder mehreren Parallelverarbeitungseinheiten (PPUs) ausführbar ist.
Abschnitt 53: Prozessor nach einem der Abschnitte 49-52, wobei die eine oder die mehreren Schaltungen dazu angeordnet sind, die API zumindest teilweise auf der Grundlage eines Parameterwerts auszuführen, der die eine oder die mehreren Datenstrukturen angibt.
Abschnitt 54: Prozessor nach einem der Abschnitte 49-53, wobei die Informationen Speicher umfassen, der von dem Computerprogramm verwendet wird.
Abschnitt 55. System, umfassend:
- einen oder mehrere Computer mit einem oder mehreren Prozessoren zum Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm zumindest teilweise reduziert wird, auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 56: System nach Abschnitt 55, wobei der eine oder die mehreren Prozessoren dazu angeordnet sind, zu veranlassen, dass die Verwendung der Informationen durch das Computerprogramm auf der Grundlage eines Parameterwerts, der eine Anzahl von Referenzen angibt, reduziert wird.
Abschnitt 57: System nach Abschnitt 55 oder 56, wobei die API eine Laufzeit-API ist.
Abschnitt 58: System nach einem der Abschnitte 55-57, wobei der eine oder die mehreren Prozessoren ferner dazu angeordnet sind, eine Zählung von Referenzen, die durch die eine oder die mehreren Datenstrukturen angezeigt wird, zu dekrementieren.
Abschnitt 59: System nach einem der Abschnitte 55-58, wobei das Computerprogramm von einer oder mehreren Grafikverarbeitungseinheiten (GPUs) ausführbar ist.
Abschnitt 60: System nach einem der Abschnitte 55-59, wobei der eine oder die mehreren Prozessoren ferner dazu angeordnet sind, die Ausführung einer oder mehrerer Funktionen zu veranlassen, die durch die eine oder die mehreren Datenstrukturen angegeben werden.
Abschnitt 61 Maschinenlesbares Medium, auf dem ein Satz von Anweisungen gespeichert ist, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen zumindest zum:
- Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 62: Maschinenlesbares Medium nach Abschnitt 61, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, eine oder mehrere Destruktionsfunktionen auszuführen, um zu veranlassen, dass die Verwendung der Informationen durch das Computerprogramm reduziert wird.
Abschnitt 63: Maschinenlesbares Medium nach Abschnitt 61 oder 62, wobei die Verwendung der Informationen durch eine oder mehrere Referenzen angezeigt wird, die von dem Computerprogramm verwendet werden.
Abschnitt 64: Maschinenlesbares Medium nach einem der Abschnitte 61-63, wobei das Computerprogramm einer oder mehreren Graph-Datenstrukturen entspricht.
Abschnitt 65: Maschinenlesbares Medium nach einem der Abschnitte 61-64, wobei der Satz von Anweisungen ferner Anweisungen enthält, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, eine oder mehrere Statusanzeigen als ein Ergebnis der Durchführung der API zu erhalten.
Abschnitt 66: Maschinenlesbares Medium nach einem der Abschnitte 61-65, wobei das Computerprogramm von einer oder mehreren universellen Grafikverarbeitungseinheiten (GPGPUs) ausführbar ist.
Abschnitt 67: Verfahren, umfassend:
- Durchführen einer Anwendungsprogrammierschnittstelle (API) zum Veranlassen, dass die Verwendung von Informationen durch ein Computerprogramm reduziert wird, zumindest teilweise auf der Grundlage einer oder mehrerer Datenstrukturen, die zum Überwachen der Verwendung der Informationen verwendet werden.
Abschnitt 68: Verfahren nach Abschnitt 67, ferner umfassend ein Reduzieren eines oder mehrerer Werte der einen oder mehreren Datenstrukturen auf der Grundlage der Verwendung der Informationen durch das Computerprogramm.
Abschnitt 69: Verfahren nach Abschnitt 67 oder 68, wobei das Durchführen der API die Ausführung einer oder mehrerer Destruktorfunktionen veranlasst, die den Informationen zugeordnet sind.
Abschnitt 70: Verfahren nach einem der Abschnitte 67-69, wobei die Informationen Daten enthalten, auf welchen eine oder mehrere Operationen durch das Computerprogramm durchzuführen sind.
Abschnitt 71: Verfahren nach einem der Abschnitte 67-70, ferner umfassend ein Durchführen der API zumindest teilweise auf der Grundlage eines Parameterwerts, der Graph-Code angibt.
Abschnitt 72: Verfahren nach einem der Abschnitte 67-71, wobei das Computerprogramm von einer oder mehreren zentralen Verarbeitungseinheiten (CPUs) ausführbar ist.

At least one embodiment of the disclosure may be described in terms of the following sections:

Section 1. Processor, comprising:
- one or more circuits for performing an application programming interface (API) for generating one or more data structures to be used for monitoring the use of information by a computer program.
Section 2: Processor according to Section 1, wherein the one or more data structures specify at least a number of references associated with the computer program.
Section 3: Processor according to Section 1, wherein the information includes at least one memory area.
Section 4: Processor according to any of Sections 1-3, wherein the one or more circuits are arranged to perform the API based at least in part on a parameter value indicating a location corresponding to the one or more data structures.
Section 5: The processor of any of Sections 1-4, wherein the one or more circuits are further arranged to perform one or more functions based at least in part on the computer program's use of the information.
Section 6: The processor according to any of Sections 1-5, wherein the computer program is executable by one or more graphics processing units (GPUs).
Section 7. System comprising:
- one or more computers having one or more processors for performing an application programming interface (API) for generating one or more data structures to be used for monitoring the use of information by a computer program.
Section 8: System according to Section 7, wherein the one or more processors are further arranged to:
- to obtain code that at least specifies the API; and
- to perform the API by at least executing the code.
Section 9: System according to Section 7 or 8, wherein the one or more data structures encode a count of one or more references associated with the information.
Section 10: The system of any of Sections 7-9, wherein the one or more data structures specify one or more destructor functions.
Section 11: System according to any of Sections 7-10, wherein the computer program is executable by at least one or more parallel processing units (PPUs).
Section 12: System according to any of Sections 7-11, wherein the information includes at least input data for the computer program.
Section 13: Machine-readable medium storing a set of instructions which, when executed by one or more processors, cause the one or more processors to at least:
- Performing an application programming interface (API) to create one or more data structures to be used to monitor a computer program's use of information.
Section 14: Machine-readable medium according to Section 13, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to perform the API based at least in part on a parameter value , which specifies a number of references.
Section 15: Machine-readable medium referred to in Section 13 or 14, wherein the use of the information is indicated by one or more references used by the computer program.
Section 16: The machine-readable medium of any of Sections 13-15, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to use the one or more data structures based on the computer program's use of the information.
Section 17: The machine-readable medium of any of Sections 13-16, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to use the one or more data structures to link with one or more graph data structures.
Section 18: Machine-readable medium according to any of Sections 13-17, wherein the computer program is executable by one or more general purpose graphics processing units (GPGPUs).
Section 19. Proceedings comprising:
- Performing an application programming interface (API) to create one or more data structures to be used to monitor a computer program's use of information.
Section 20: The method of Section 19, further comprising performing one or more functions based at least in part on a number of references specified by the one or more data structures.
Section 21: Method according to Section 19 or 20, further comprising performing the API based at least in part on one or more parameter values indicating one or more functions.
Section 22: Method according to any of Sections 19-21, wherein the API is a runtime API.
Section 23: Method according to any of Sections 19-22, wherein the computer program is executable by one or more central processing units (CPUs).
Section 24: The method of any of Sections 19-23, further comprising obtaining one or more statuses as a result of performing the API.
Section 25. Processor, comprising:
- one or more circuits for performing an application programming interface (API) for causing a computer program to increase its use of information, based at least in part on one or more data structures used to monitor use of the information.
Section 26: The processor of Section 25, wherein the one or more circuits are further arranged to increment a value of the one or more data structures indicating a number of references associated with the computer program.
Section 27: Processor according to Section 25 or 26, wherein the one or more circuits are arranged to perform the API based at least in part on a parameter value indicating a number of references.
Section 28: Processor according to any of Sections 25-27, wherein the information includes a memory area used by the computer program.
Section 29: Processor according to any of Sections 25-28, wherein the computer program is executable by one or more graphics processing units (GPUs).
Section 30: Processor according to any of Sections 25-29, wherein the API is a runtime API.
Section 31. System comprising:
- one or more computers having one or more processors to perform an application programming interface (API) for causing the use of information by a computer program to be increased, based at least in part on one or more data structures used to monitor the use of the information .
Section 32: The system of Section 31, wherein the one or more processors are arranged to perform the API based at least in part on a parameter value indicating the one or more data structures.
Section 33: The system of Section 31 or 32, wherein the one or more processors are further arranged to associate the one or more data structures with one or more graph data structures.
Section 34: The system of any of Sections 31-33, wherein use of the information is indicated by at least a set of references associated with the computer program.
Section 35: The system of any of Sections 31-34, wherein the one or more data structures specify one or more functions for freeing memory.
Section 36: System according to any of Sections 31-35, wherein the computer program is executable by one or more parallel processing units (PPUs).
Section 37. Machine-readable medium storing a set of instructions which, when executed by one or more processors, cause the one or more processors to:
- Performing an application programming interface (API) to cause a computer program to increase its use of information, based at least in part on one or more data structures used to monitor use of the information.
Section 38: Machine-readable medium as defined in Section 37, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to increase the computer program's use of the information by incrementing at least one or more values of the one or more data structures indicating usage.
Section 39: Machine-readable medium according to 37 or 38, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to perform the API based on a parameter value, which specifies one or more graph data structures.
Section 40: A machine-readable medium according to any one of Sections 37-39, wherein the computer program comprises one or more graph data structure operations.
Section 41: A machine-readable medium as defined in any of Sections 37-40, wherein the information includes one or more data objects used by the computer program.
Section 42: Machine-readable medium according to any of Sections 37-41, wherein the computer program is executable by one or more general purpose graphics processing units (GPGPUs).
Section 43: Procedure comprising:
- Performing an application programming interface (API) to cause a computer program to increase its use of information, based at least in part on one or more data structures used to monitor use of the information.
Section 44: Method according to Section 43, further comprising obtaining one or more status indications as a result of performing the API.
Section 45: Procedure under Section 43 or 44, further comprising:
- Obtain code that at least specifies the API; and
- Performing the API by at least causing the code to execute.
Section 46: The method of any of Sections 43-45, further comprising associating the one or more data structures with a graph data structure based at least in part on a parameter value indicating the association.
Section 47: The method of any of Sections 43-46, wherein the one or more data structures specify one or more destruction functions.
Section 48: Method according to any of Sections 43-47, wherein the computer program is executable by one or more central processing units (CPUs).
Section 49. Processor, comprising:
- one or more circuits for performing an application programming interface (API) for causing a computer program's use of information to be reduced, based at least in part on one or more data structures used to monitor use of the information.
Section 50: Processor according to Section 49, wherein the one or more circuits are arranged to cause the use of the information by the computer program to be reduced by reducing at least a number of uses caused by the one or more data structures is shown.
Section 51: Processor under Section 49 or 50, wherein use of the information is indicated by one or more references associated with the information.
Section 52: Processor according to any of Sections 49-51, wherein the computer program is executable by one or more parallel processing units (PPUs).
Section 53: The processor of any of Sections 49-52, wherein the one or more circuits are arranged to execute the API based at least in part on a parameter value indicating the one or more data structures.
Section 54: Processor according to any of Sections 49-53, wherein the information includes memory used by the computer program.
Section 55. System comprising:
- one or more computers having one or more processors for performing an application programming interface (API) for causing a computer program's use of information to be at least partially reduced based on one or more data structures used to monitor use of the information.
Section 56: The system of Section 55, wherein the one or more processors are arranged to cause the computer program's use of the information to be reduced based on a parameter value indicating a number of references.
Section 57: System under Section 55 or 56, where the API is a runtime API.
Section 58: The system of any of Sections 55-57, wherein the one or more processors are further arranged to decrement a count of references indicated by the one or more data structures.
Section 59: The system of any of Sections 55-58, wherein the computer program is executable by one or more graphics processing units (GPUs).
Section 60: The system of any of Sections 55-59, wherein the one or more processors are further arranged to cause execution of one or more functions specified by the one or more data structures.
Section 61 Machine-readable medium storing a set of instructions which, when executed by one or more processors, cause the one or more processors to at least:
- Performing an application programming interface (API) to cause a computer program's use of information to be reduced, based at least in part on one or more data structures used to monitor use of the information.
Section 62: A machine-readable medium as defined in Section 61, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to perform one or more destruction functions to cause: that the use of the information by the computer program is reduced.
Section 63: Machine-readable medium referred to in Section 61 or 62, wherein the use of the information is indicated by one or more references used by the computer program.
Section 64: A machine-readable medium as defined in any of Sections 61-63, wherein the computer program corresponds to one or more graph data structures.
Section 65: The machine-readable medium of any of Sections 61-64, wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to display one or more status indicators as one Get result of executing the API.
Section 66: A machine-readable medium as defined in any of Sections 61-65, wherein the computer program is executable by one or more general purpose graphics processing units (GPGPUs).
Section 67: Procedure comprising:
- Performing an application programming interface (API) to cause a computer program's use of information to be reduced, based at least in part on one or more data structures used to monitor use of the information.
Section 68: The method of Section 67, further comprising reducing one or more values of the one or more data structures based on the computer program's use of the information.
Section 69: Method under Section 67 or 68, wherein executing the API causes one or more destructor functions associated with the information to be executed.
Section 70: A method according to any of Sections 67-69, wherein the information includes data on which one or more operations are to be performed by the computer program.
Section 71: The method of any of Sections 67-70, further comprising performing the API based at least in part on a parameter value indicating graph code.
Section 72: Method according to any of Sections 67-71, wherein the computer program is executable by one or more central processing units (CPUs).

Andere Variationen sind im Sinne der Erfindung. Während die offenbarten Techniken verschiedenen Modifikationen und alternativen Konstruktionen zugänglich sind, sind bestimmte dargestellte Ausführungsformen derselben in Zeichnungen gezeigt und wurden vorstehend im Detail beschrieben. Es versteht sich jedoch, dass nicht beabsichtigt ist, die Erfindung auf eine bestimmte Form oder bestimmte Formen zu beschränken, sondern dass im Gegenteil beabsichtigt ist, alle Modifikationen, alternativen Konstruktionen und Äquivalente abzudecken, die in den Gedanken und den Rahmen der Erfindung fallen, wie er in den beigefügten Ansprüchen definiert ist.Other variations are within the scope of the invention. While the disclosed techniques are susceptible to various modifications and alternative constructions, certain illustrated embodiments thereof are shown in drawings and have been described in detail above. It is to be understood, however, that the invention is not intended to be limited to any particular form or forms, but on the contrary is intended to cover all modifications, alternative constructions and equivalents that fall within the spirit and scope of the invention, such as it is defined in the appended claims.

Die Verwendung der Begriffe „ein“ und „eine“ und „der“ und ähnlicher Bezeichnungen im Kontext der Beschreibung offenbarter Ausführungsformen (insbesondere im Kontext der nachfolgenden Ansprüche) ist so auszulegen, dass sie sowohl die Einzahl als auch die Mehrzahl umfasst, sofern hierin nicht anders angegeben oder durch Kontext eindeutig widerlegt, und nicht als Definition eines Begriffs. Die Begriffe „umfassend“, „mit“, „beinhaltend“ und „enthaltend“ sind, sofern nicht anders angegeben, als nicht abschließende Begriffe (d.h. „einschließlich, aber nicht beschränkt auf“) zu verstehen. Der Begriff „verbunden“ ist, wenn er unverändert bleibt und sich auf physische Verbindungen bezieht, als teilweise oder ganz in einem Bauteil enthalten, an ihm angebracht oder mit ihm verbunden zu verstehen, auch wenn etwas dazwischen liegt. Die Wiedergabe von Wertebereichen ist lediglich als ein verkürzendes Verfahren des individuellen Bezugnehmens auf jeden einzelnen Wert, der in den Bereich fällt, beabsichtigt, sofern hierin nichts anderes angegeben ist, und jeder einzelne Wert ist in die Spezifikation aufgenommen, als wäre er hierin einzeln aufgeführt. Die Verwendung des Begriffs „Menge“ (z.B. „eine Menge von Gegenständen“) oder „Teilmenge“ ist, sofern nicht anders angegeben oder durch Kontext widerlegt, als eine nicht leere Sammlung zu verstehen, die ein oder mehrere Elemente umfasst. Sofern außerdem nicht anders vermerkt oder durch Kontext widerlegt, bezeichnet der Begriff „Teilmenge“ einer entsprechenden Menge nicht notwendigerweise eine echte Teilmenge der entsprechenden Menge, sondern Teilmenge und entsprechende Menge können gleich sein.The use of the terms "a" and "an" and "the" and similar terms in the context of describing disclosed embodiments (particularly in the context of the following claims) are to be construed to include both the singular and the plural, except as used herein otherwise stated or clearly refuted by context, and not as a definition of a term. The terms “comprising”, “including”, “including” and “including” are to be construed as non-exhaustive terms (i.e. “including, but not limited to”) unless otherwise stated. The term "connected", when left unchanged and referring to physical connections, is to be understood as being partially or wholly contained in, attached to or connected to a component, even if there is something in between. The reproduction of ranges of values is intended solely as a condensed method of individually referring to each individual value that falls within the range, unless otherwise specified herein, and each individual value is incorporated into the specification as if it were individually listed herein. Use of the term "set" (e.g., "a set of items") or "subset" is to be understood, unless otherwise stated or contradicted by context, as a non-empty collection comprising one or more elements. Furthermore, unless otherwise noted or contradicted by context, the term “subset” of a corresponding set does not necessarily mean a true subset of the corresponding set, but subset and corresponding set may be the same.

Konjunktive Sprache, wie z.B. Phrasen der Form „mindestens eines von A, B und C“ oder „mindestens eines von A, B und C“, wird, sofern nicht ausdrücklich anders angegeben oder anderweitig eindeutig durch Kontext widersprochen ist, im Allgemeinen so verstanden, dass damit ausgedrückt wird, dass ein Element, ein Begriff usw. entweder A oder B oder C oder eine beliebige nicht leere Teilmenge der Menge von A und B und C sein kann. So beziehen sich z.B. in dem veranschaulichenden Beispiel einer Menge mit drei Elementen die konjunktiven Ausdrücke „mindestens eines von A, B und C“ und „mindestens eines von A, B und C“ auf eine der folgenden Mengen: {A}, {B}, {C}, {A, B}, {A, C}, {B, C}, {A, B, C}. Eine solche konjunktivische Sprache soll also nicht generell bedeuten, dass bei bestimmten Ausführungsformen jeweils mindestens eines von A, mindestens eines von B und mindestens eines von C vorhanden sein muss. Darüber hinaus, sofern nicht anders angegeben oder durch Kontext widerlegt, zeigt der Begriff „Mehrzahl“ einen Zustand an, in dem er plural ist (z.B. „eine Mehrzahl von Elementen“ zeigt mehrere Elemente an). Die Anzahl der Elemente in einer Mehrzahl ist mindestens zwei, kann aber mehr sein, wenn dies entweder explizit oder durch Kontext angegeben wird. Sofern nicht anders angegeben oder aus Kontext ersichtlich ist, bedeutet „basierend auf“ „zumindest teilweise basierend auf“ und nicht „ausschließlich basierend auf“.Subjunctive language, such as phrases of the form "at least one of A, B and C" or "at least one of A, B and C", unless expressly stated otherwise or otherwise clearly contradicted by context, is generally understood to mean: that it expresses that an element, a concept, etc. can be either A or B or C or any non-empty subset of the set of A and B and C. For example, in the illustrative example of a set with three elements, the conjunctive expressions “at least one of A, B and C” and “at least one of A, B and C” refer to one of the following sets: {A}, {B} , {C}, {A, B}, {A, C}, {B, C}, {A, B, C}. Such a subjunctive language should not generally mean that in certain embodiments at least one of A, at least one of B and at least one of C must be present. Furthermore, unless otherwise stated or refuted by context, the term "plural" indicates a state in which it is plural (e.g., "a plurality of elements" indicates multiple elements). The number of elements in a plurality is at least two, but may be more if specified either explicitly or by context. Unless otherwise stated or apparent from the context, “based on” means “based at least in part on” and not “based solely on.”

Operationen hierin beschriebener Prozesse können in jeder geeigneten Reihenfolge ausgeführt werden, sofern hierin nicht anders angegeben oder durch den Kontext eindeutig widerlegt ist. In mindestens einer Ausführungsform wird ein Prozess wie die hierin beschriebenen Prozesse (oder Variationen und/oder Kombinationen derselben) unter der Steuerung eines oder mehrerer Computersysteme durchgeführt, die mit ausführbaren Anweisungen konfiguriert sind und als Code (z.B. ausführbare Anweisungen, ein oder mehrere Computerprogramme oder eine oder mehrere Anwendungen) implementiert sind, die gemeinsam auf einem oder mehreren Prozessoren, durch Hardware oder Kombinationen davon ausgeführt werden. In mindestens einer Ausführungsform ist der Code auf einem computerlesbaren Speichermedium gespeichert, z.B. in Form eines Computerprogramms, das eine Vielzahl von Anweisungen umfasst, die von einem oder mehreren Prozessoren ausgeführt werden können. In mindestens einer Ausführungsform ist ein computerlesbares Speichermedium ein nicht-transitorisches computerlesbares Speichermedium, das transitorische Signale (z.B. eine sich ausbreitende transiente elektrische oder elektromagnetische Übertragung) ausschließt, aber nicht-transitorische Datenspeicherschaltungen (z.B. Puffer, Cache und Warteschlangen) innerhalb der Transceiver von transitorischen Signalen enthält. In mindestens einer Ausführungsform ist der Code (z.B. ausführbarer Code oder Quellcode) auf einem Satz von einem oder mehreren nicht-transitorischen computerlesbaren Speichermedien gespeichert, auf denen ausführbare Anweisungen (oder ein anderer Speicher zum Speichern von ausführbaren Anweisungen) gespeichert sind, die, wenn sie von einem oder mehreren Prozessoren eines Computersystems ausgeführt werden (d.h. als Ergebnis der Ausführung), das Computersystem veranlassen, hierin beschriebene Operationen durchzuführen. In mindestens einer Ausführungsform umfasst der Satz nicht-transitorischer computerlesbarer Speichermedien mehrere nicht-transitorische computerlesbare Speichermedien, und einem oder mehreren der einzelnen nicht-transitorischen Speichermedien der mehreren nicht-transitorischen computerlesbaren Speichermedien fehlt der gesamte Code, während die mehreren nicht-transitorischen computerlesbaren Speichermedien gemeinsam den gesamten Code speichern. In mindestens einer Ausführungsform werden ausführbare Befehle so ausgeführt, dass verschiedene Befehle von verschiedenen Prozessoren ausgeführt werden - zum Beispiel speichert ein nicht-transitorisches computerlesbares Speichermedium Befehle und führt eine zentrale Verarbeitungseinheit („CPU“) einige der Befehle aus, während eine Grafikverarbeitungseinheit („GPU“) andere Befehle ausführt. In mindestens einer Ausführungsform haben verschiedene Komponenten eines Computersystems separate Prozessoren und verschiedene Prozessoren führen verschiedene Teilmengen von Anweisungen aus.Operations of processes described herein may be performed in any appropriate order unless otherwise specified herein or clearly contradicted by the context. In at least one embodiment, a process such as the processes described herein (or variations and/or combinations thereof) is performed under the control of one or more computer systems configured with executable instructions and as code (e.g., executable instructions, one or more computer programs, or a or multiple applications) implemented together on one or more processors, hardware, or combinations thereof. In at least one embodiment, the code is stored on a computer-readable storage medium, for example in the form of a computer program that includes a plurality of instructions that can be executed by one or more processors. In at least one embodiment, a computer-readable storage medium is a non-transitory computer-readable storage medium that excludes transitory signals (e.g., a propagating transient electrical or electromagnetic transmission) but does not contains transient data storage circuits (e.g. buffers, cache and queues) within the transceivers of transient signals. In at least one embodiment, the code (e.g., executable code or source code) is stored on a set of one or more non-transitory computer-readable storage media on which executable instructions (or other memory for storing executable instructions) are stored, which when executed by one or more processors of a computer system (ie, as a result of execution), cause the computer system to perform operations described herein. In at least one embodiment, the set of non-transitory computer-readable storage media includes a plurality of non-transitory computer-readable storage media, and one or more of the individual non-transitory computer-readable storage media of the plurality of non-transitory computer-readable storage media lacks all of the code while the plurality of non-transitory computer-readable storage media are common save all the code. In at least one embodiment, executable instructions are executed such that different instructions are executed by different processors - for example, a non-transitory computer-readable storage medium stores instructions and a central processing unit ("CPU") executes some of the instructions while a graphics processing unit ("GPU") “) executes other commands. In at least one embodiment, different components of a computer system have separate processors, and different processors execute different subsets of instructions.

Dementsprechend sind in mindestens einer Ausführungsform Computersysteme so konfiguriert, dass sie einen oder mehrere Dienste implementieren, die einzeln oder gemeinsam Operationen der hierin beschriebenen Prozesse durchführen, und sind solche Computersysteme mit anwendbarer Hardware und/oder Software konfiguriert, die die Durchführung der Operationen ermöglichen. Ferner ist ein Computersystem, das mindestens eine Ausführungsform der Erfindung implementiert, eine einzelne Vorrichtung und in einer anderen Ausführungsform ein verteiltes Computersystem, das mehrere Vorrichtungen umfasst, die unterschiedlich arbeiten, so dass das verteilte Computersystem die hierin beschriebenen Operationen durchführt und eine einzelne Vorrichtung nicht alle Operationen durchführt.Accordingly, in at least one embodiment, computer systems are configured to implement one or more services that individually or collectively perform operations of the processes described herein, and such computer systems are configured with applicable hardware and/or software that enable the operations to be performed. Further, a computer system that implements at least one embodiment of the invention is a single device, and in another embodiment, a distributed computer system that includes multiple devices that operate differently such that the distributed computer system performs the operations described herein and a single device does not perform all of them performs operations.

Die Verwendung von Beispielen oder beispielhaften Formulierungen (z.B. „wie beispielsweise“) dient lediglich der besseren Veranschaulichung von Ausführungsformen der Erfindung und stellt keine Beschränkung des Umfangs der Erfindung dar, sofern nicht anders angegeben ist. Keine Formulierung in der Beschreibung ist so auszulegen, dass sie ein nicht beanspruchtes Element als wesentlich für die Praxis der Erfindung anzeigend angesehen wird.The use of examples or exemplary phrases (e.g., “such as”) is intended merely to better illustrate embodiments of the invention and does not constitute a limitation on the scope of the invention unless otherwise indicated. No language in the specification should be construed as indicating any unclaimed element as essential to the practice of the invention.

Bezugnahmen, einschließlich Veröffentlichungen, Patentanmeldungen und Patenten, die hierin zitiert werden, werden hiermit durch Bezugnahme in demselben Umfang einbezogen, als ob jede Referenz einzeln und ausdrücklich als durch Bezugnahme einbezogen angegeben wäre und hierin in ihrer Gesamtheit wiedergegeben würde.References, including publications, patent applications and patents, cited herein are hereby incorporated by reference to the same extent as if each reference were individually and expressly stated to be incorporated by reference and reproduced herein in their entirety.

In der Beschreibung und den Ansprüchen können Begriffe „gekoppelt“ und „verbunden“ sowie deren Ableitungen verwendet sein. Es versteht sich, dass diese Begriffe nicht als Synonyme füreinander gedacht sind. Vielmehr kann in bestimmten Beispielen „verbunden“ oder „gekoppelt“ verwendet werden, um anzuzeigen, dass zwei oder mehr Elemente in direktem oder indirektem physischem oder elektrischem Kontakt zueinander stehen. „Gekoppelt“ kann auch bedeuten, dass zwei oder mehr Elemente nicht in direktem Kontakt zueinander stehen, aber dennoch miteinander kooperieren oder interagieren.The terms “coupled” and “connected” and their derivatives may be used in the description and claims. It is understood that these terms are not intended to be synonymous with each other. Rather, in certain examples, “connected” or “coupled” may be used to indicate that two or more elements are in direct or indirect physical or electrical contact with one another. “Coupled” can also mean that two or more elements are not in direct contact with each other, but still cooperate or interact with each other.

Sofern nicht ausdrücklich anders angegeben ist, beziehen sich Begriffe wie „Verarbeitung“, „Rechnen“, „Berechnen“, „Bestimmen“ oder dergleichen in der gesamten Spezifikation auf Aktionen und/oder Prozesse eines Computers oder eines Rechensystems oder einer ähnlichen elektronischen Rechenvorrichtung, die Daten, die als physikalische, z.B. elektronische, Größen in den Registern und/oder Speichern des Rechensystems repräsentiert sind, manipulieren und/oder in andere Daten umwandeln, die in ähnlicher Weise als physikalische Größen in den Speichern, Registern oder anderen derartigen Informationsspeicher-, -übertragungs- oder -anzeigevorrichtungen des Rechensystems repräsentiert sind.Unless expressly stated otherwise, terms such as "processing", "computing", "computing", "determining" or the like throughout the specification refer to actions and/or processes of a computer or a computing system or similar electronic computing device that Manipulate and/or convert data that is represented as physical, e.g. electronic, quantities in the registers and/or memories of the computing system into other data that are represented in a similar way as physical quantities in the memories, registers or other such information storage, - transmission or display devices of the computing system are represented.

In vergleichbarer Weise kann sich der Begriff „Prozessor“ auf eine beliebige Vorrichtung oder einen Teil einer Vorrichtung beziehen, die elektronische Daten aus Registern und/oder Speichern verarbeitet und diese elektronischen Daten in andere elektronische Daten umwandelt, die in Registern und/oder Speicher gespeichert werden können. Als nicht Beschränkende Beispiele kann ein „Prozessor“ eine CPU oder eine GPU sein. Eine „Datenverarbeitungsplattform“ kann einen oder mehrere Prozessoren umfassen. Wie hierin verwendet, können „Software“-Prozesse z.B. Software- und/oder Hardware-Entitäten umfassen, die im Laufe der Zeit Arbeit verrichten, wie z.B. Aufgaben, Threads und intelligente Agenten. Außerdem kann sich jeder Prozess auf mehrere Prozesse beziehen, um Anweisungen nacheinander oder parallel, kontinuierlich oder intermittierend auszuführen. Die Begriffe „System“ und „Verfahren“ werden hierin insofern austauschbar verwendet, als ein System eine oder mehrere Verfahren verkörpern kann und Verfahren als ein System betrachtet werden können.Similarly, the term “processor” may refer to any device or part of a device that processes electronic data from registers and/or memories and converts that electronic data into other electronic data stored in registers and/or memories can. As non-limiting examples, a “processor” may be a CPU or a GPU. A “computing platform” may include one or more processors. As used herein, "software" processes may include, for example, software and/or hardware entities that perform work over time, such as tasks, threads, and intelligent agents. Besides, everyone can Process refers to multiple processes to execute instructions sequentially or in parallel, continuously or intermittently. The terms “system” and “method” are used interchangeably herein in that a system may embody one or more methods and methods may be considered a system.

In mindestens einer Ausführungsform ist eine Arithmetik-Logik-Einheit ein Satz von kombinatorischen Logikschaltungen, die einen oder mehrere Eingänge verarbeiten, um ein Ergebnis zu erzeugen. In mindestens einer Ausführungsform wird eine Arithmetik-Logik-Einheit von einem Prozessor verwendet, um mathematische Operationen wie beispielsweise Addition, Subtraktion oder Multiplikation durchzuführen. In mindestens einer Ausführungsform wird eine Arithmetik-Logik-Einheit verwendet, um logische Operationen wie logisches UND/ODER oder XOR zu implementieren. In mindestens einer Ausführungsform ist eine Arithmetik-Logik-Einheit zustandslos und besteht aus physikalischen Schaltkomponenten wie Halbleitertransistoren, die zur Bildung logischer Gatter angeordnet sind. In mindestens einer Ausführungsform kann eine Arithmetik-Logik-Einheit intern als zustandsabhängige Logikschaltung mit einem zugehörigen Taktgeber arbeiten. In mindestens einer Ausführungsform kann eine Arithmetik-Logik-Einheit als asynchrone Logikschaltung aufgebaut sein, deren interner Zustand nicht in einem zugehörigen Registersatz gehalten wird. In mindestens einer Ausführungsform wird eine Arithmetik-Logik-Einheit von einem Prozessor verwendet, um in einem oder mehreren Registern des Prozessors gespeicherte Operanden zu kombinieren und eine Ausgabe zu erzeugen, die von dem Prozessor in einem anderen Register oder einem Speicherort gespeichert werden kann.In at least one embodiment, an arithmetic logic unit is a set of combinational logic circuits that process one or more inputs to produce a result. In at least one embodiment, an arithmetic logic unit is used by a processor to perform mathematical operations such as addition, subtraction, or multiplication. In at least one embodiment, an arithmetic logic unit is used to implement logical operations such as logical AND/OR or XOR. In at least one embodiment, an arithmetic-logic unit is stateless and consists of physical switching components such as semiconductor transistors arranged to form logic gates. In at least one embodiment, an arithmetic logic unit may operate internally as a state-dependent logic circuit with an associated clock. In at least one embodiment, an arithmetic logic unit may be constructed as an asynchronous logic circuit whose internal state is not held in an associated register set. In at least one embodiment, an arithmetic logic unit is used by a processor to combine operands stored in one or more registers of the processor and produce an output that can be stored by the processor in another register or memory location.

In mindestens einer Ausführungsform gibt der Prozessor als ein Ergebnis der Verarbeitung einer von dem Prozessor abgerufenen Anweisung einen oder mehrere Eingänge oder Operanden an eine Arithmetik-Logik-Einheit weiter, wodurch die Arithmetik-Logik-Einheit veranlasst wird, ein Ergebnis zu erzeugen, das zumindest teilweise auf einem Anweisungscode basiert, der den Eingängen der Arithmetik-Logik-Einheit bereitgestellt wird. In mindestens einer Ausführungsform basieren die von dem Prozessor an die ALU gelieferten Anweisungscodes zumindest teilweise auf der von dem Prozessor ausgeführten Anweisung. In mindestens einer Ausführungsform verarbeitet die kombinatorische Logik in der ALU die Eingänge und erzeugt einen Ausgang, der auf einen Bus innerhalb des Prozessors gelegt wird. In mindestens einer Ausführungsform wählt der Prozessor ein Zielregister, einen Speicherort, eine Ausgabevorrichtung oder einen Ausgabespeicherort auf dem Ausgangsbus aus, so dass Takten des Prozessors bewirkt, dass die von der ALU erzeugten Ergebnisse an den gewünschten Ort gesendet werden.In at least one embodiment, as a result of processing an instruction fetched by the processor, the processor passes one or more inputs or operands to an arithmetic logic unit, causing the arithmetic logic unit to produce a result that is at least based in part on an instruction code provided to the inputs of the arithmetic-logic unit. In at least one embodiment, the instruction codes provided by the processor to the ALU are based at least in part on the instruction executed by the processor. In at least one embodiment, the combinational logic in the ALU processes the inputs and produces an output that is placed on a bus within the processor. In at least one embodiment, the processor selects a destination register, a memory location, an output device, or an output storage location on the output bus so that clocking the processor causes the results generated by the ALU to be sent to the desired location.

In dem vorliegenden Dokument kann auf das Beschaffen, Erlangen, Empfangen oder Eingeben analoger oder digitaler Daten in ein Subsystem, ein Computersystem oder eine computerimplementierte Maschine Bezug genommen sein. Der Prozess des Beschaffens, Erlangens, Empfangens oder Eingebens analoger und digitaler Daten kann auf verschiedene Weise erfolgen, z.B. durch Empfangen von Daten als Parameter eines Funktionsaufrufs oder eines Aufrufs einer Anwendungsprogrammierschnittstelle. In einigen Implementierungen kann der Prozess des Erhaltens, Erlangens, Empfangens oder Eingebens von analogen oder digitalen Daten durch die Übertragung von Daten über eine serielle oder parallele Schnittstelle durchgeführt werden. In einer anderen Implementierung kann der Prozess des Erhaltens, Erlangens, Empfangens oder Eingebens von analogen oder digitalen Daten durch die Übertragung von Daten über ein Computernetzwerk von der bereitstellenden Entität zu der erlangenden Entität durchgeführt werden. Es kann auch auf das Bereitstellen, Ausgeben, Übertragen, Senden oder Präsentieren analoger oder digitaler Daten Bezug genommen sein. In verschiedenen Beispielen kann der Prozess des Bereitstellens, Ausgebens, Übertragens, Sendens oder Darstellens analoger oder digitaler Daten durch die Übertragung von Daten als Eingabe- oder Ausgabeparameter eines Funktionsaufrufs, eines Parameters einer Anwendungsprogrammierschnittstelle oder eines Interprozess-Kommunikationsmechanismus erfolgen.This document may refer to obtaining, obtaining, receiving, or inputting analog or digital data into a subsystem, computer system, or computer-implemented machine. The process of obtaining, obtaining, receiving, or inputting analog and digital data can be accomplished in various ways, such as receiving data as a parameter of a function call or an application programming interface call. In some implementations, the process of obtaining, obtaining, receiving, or inputting analog or digital data may be accomplished by transmitting data over a serial or parallel interface. In another implementation, the process of obtaining, obtaining, receiving, or inputting analog or digital data may be performed by transmitting data over a computer network from the providing entity to the acquiring entity. It may also refer to providing, outputting, transmitting, sending or presenting analog or digital data. In various examples, the process of providing, outputting, transmitting, sending, or presenting analog or digital data may be accomplished by transmitting data as an input or output parameter of a function call, an application programming interface parameter, or an interprocess communication mechanism.

Obwohl die obige Diskussion Beispielimplementierungen der beschriebenen Techniken darlegt, können auch andere Architekturen verwendet werden, um die beschriebene Funktionalität zu implementieren, und sollen diese in den Anwendungsbereich dieser Erfindung fallen. Obwohl vorstehend zu Diskussionszwecken spezifische Verteilungen von Verantwortlichkeiten definiert sind, können verschiedene Funktionen und Verantwortlichkeiten je nach Umständen auf unterschiedliche Weise verteilt und aufgeteilt sein.Although the above discussion presents example implementations of the techniques described, other architectures may also be used to implement the functionality described and are intended to be within the scope of this invention. Although specific distributions of responsibilities are defined above for discussion purposes, various functions and responsibilities may be distributed and divided in different ways depending on circumstances.

Auch wenn ein Gegenstand in einer Sprache beschrieben wurde, die sich auf strukturelle Merkmale und/oder methodische Handlungen bezieht, versteht sich, dass der in den beigefügten Ansprüchen beanspruchte Gegenstand nicht notwendigerweise auf bestimmte beschriebene Merkmale oder Handlungen beschränkt ist. Vielmehr werden bestimmte Merkmale und Handlungen als beispielhafte Ausführungsformen der Ansprüche offenbart.Even if subject matter has been described in language referring to structural features and/or methodological acts, it is to be understood that the subject matter claimed in the appended claims is not necessarily limited to particular features or acts described. Rather, certain features and acts are disclosed as exemplary embodiments of the claims.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

US 63/174999 [0001]
US 17/720231 [0001]
US 17/720234 [0001]
US 17/720236 [0001]

Claims

Processor comprising: one or more circuits for performing an application programming interface (API) for generating one or more data structures to be used for monitoring the use of information by a computer program.

Processor after Claim 1 , wherein the one or more data structures indicate at least a number of references associated with the computer program.

Processor after Claim 1 , wherein the information includes at least one memory area.

Processor after Claim 1 , wherein the one or more circuits are arranged to perform the API based at least in part on a parameter value indicating a location corresponding to the one or more data structures.

Processor after Claim 1 , wherein the one or more circuits are further arranged to perform one or more functions based at least in part on the computer program's use of the information.

Processor after Claim 1 , wherein the computer program is executable by one or more graphics processing units (GPUs).

System comprising: one or more computers having one or more processors for performing an application programming interface (API) for generating one or more data structures to be used for monitoring the use of information by a computer program.

System after Claim 7 , wherein the one or more processors are further arranged to: maintain code specifying at least the API; and execute the API by at least executing the code.

System after Claim 7 , wherein the one or more data structures encode a count of one or more references associated with the information.

System after Claim 7 , where the one or more data structures specify one or more destructor functions.

System after Claim 7 , wherein the computer program can be executed by at least one or more parallel processing units (PPUs).

System after Claim 7 , wherein the information includes at least input data for the computer program.

A machine-readable medium storing a set of instructions that, when executed by one or more processors, cause the one or more processors to at least: Performing an application programming interface (API) to create one or more data structures to be used to monitor a computer program's use of information.

Machine-readable medium Claim 13 , wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to perform the API based at least in part on a parameter value indicating a number of references.

Machine-readable medium Claim 13 , where the use of the information is indicated by one or more references used by the computer program.

Machine-readable medium Claim 13 , wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to modify the one or more data structures based on the computer program's use of the information .

Machine-readable medium Claim 13 , wherein the set of instructions further includes instructions that, when executed by the one or more processors, cause the one or more processors to associate the one or more data structures with one or more graph data structures.

Machine-readable medium Claim 13 , wherein the computer program is executable by one or more general purpose graphics processing units (GPGPUs).

Method comprising: Performing an application programming interface (API) to create one or more data structures to be used to monitor a computer program's use of information.

Procedure according to Claim 19 , further comprising performing one or more functions based at least in part on a number of references specified by the one or more data structures.

Procedure according to Claim 19 , further comprising performing the API based at least in part on one or more parameter values indicating one or more functions.

Procedure according to Claim 19 , where the API is a runtime API.

Procedure according to Claim 19 , wherein the computer program can be executed by one or more central processing units (CPUs).

Procedure according to Claim 19 , further comprising obtaining one or more statuses as a result of performing the API.