DE102020126011A1

DE102020126011A1 - Hochauflösende interaktive video-segmentierung unter verwendung dichter merkmalszerlegung bei latenter diversität mit grenzverlust

Info

Publication number: DE102020126011A1
Application number: DE102020126011.3A
Authority: DE
Inventors: Anthony Rhodes; Manan Goel
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-11-14
Filing date: 2020-10-05
Publication date: 2021-05-20
Also published as: US11875254B2; US20240104380A1; US20210150329A1

Abstract

Verfahren, Systeme und Einrichtungen können eine Technologie bereitstellen, die ein neuronales Netz durch Eingeben von Videodaten in das neuronale Netz, Bestimmen einer Grenzverlustfunktion für das neuronale Netz und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion trainiert, wobei das neuronale Netz eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte ausgibt. Die Technologie kann außerdem ein neuronales Netz durch Annehmen von Videodaten und einer initialen Merkmalsmenge, Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten, und Ausgeben einer Segmentierung auf Pixelebene eines/von den Videodaten abgebildeten Objekts/Objekten basierend wenigstens teilweise auf der reduzierten Merkmalsmenge betreiben.

Description

TECHNISCHES GEBIET
Ausführungsformen beziehen sich allgemein auf Video-Segmentierung. Insbesondere beziehen sich die Ausführungsformen auf hochauflösende interaktive Video-Segmentierung unter Verwendung dichter Merkmalszerlegung bei latenter Diversität mit Grenzverlust.
HINTERGRUND
Rotoskopie ist ein Prozess für visuelle Effekte (VFX), in dem Inhalt in einem Bild aus einem Standbild oder einer Videosequenz in eine weitere Videosequenz übertragen wird. Die meisten aktuellen Rotoskopie-Pipelines, die im Film und zugehörigen Industrien eingesetzt werden, können teures, arbeitsintensives Editieren und Segmentierung einzelner Videorahmen durch ein Team von Grafikern beinhalten.
Figurenliste
Die verschiedenen Vorteile der Ausführungsformen werden für einen Fachmann offensichtlich durch Lesen der folgenden Spezifikation und der beigefügten Ansprüche und durch Bezugnahme auf die folgenden Zeichnungen; es zeigen:

1 eine Darstellung eines Beispiels eines Rotoskopie-Ergebnisses gemäß einer Ausführungsform;
2 eine Explosionsansicht eines Beispiels eines Faltungsnetzes und einer Hypersäule von Merkmalen gemäß einer Ausführungsform;
3 ein Blockdiagramm eines Beispiels einer Tensorzerlegung gemäß einer Ausführungsform;
4 eine Darstellung eines Beispiels eines Segmentierungsnetz-Schemas gemäß einer Ausführungsform;
5 einen Ablaufplan eines Beispiels für ein Verfahren zum Trainieren eines neuronalen Netzes gemäß einer Ausführungsform;
6 einen Ablaufplan eines Beispiels für ein detaillierteres Verfahren zum Trainieren eines neuronalen Netzes gemäß einer Ausführungsform;
7 einen Ablaufplan eines Beispiels für ein Verfahren zum Betreiben eines neuronalen Netzes gemäß einer Ausführungsform;
8A eine Darstellung eines Beispiels eines Eingaberahmens für ein neuronales Netz gemäß einer Ausführungsform;
8B eine Vergleichsdarstellung eines Beispiels eines herkömmlichen Segmentierungsergebnisses und eines Segmentierungsergebnisses gemäß einer Ausführungsform;
9 ein Blockdiagramm eines Beispiels eines leistungsverbesserten Berechnungssystems gemäß einer Ausführungsform;
10 ein Blockdiagramm eines Beispiels eines Verarbeitungssystems gemäß einer Ausführungsform;
11A-11D Blockdiagramme von Beispielen für Berechnungssysteme und Grafikprozessoren gemäß Ausführungsformen;
12A-12C Blockdiagramme von Beispielen zusätzlicher Grafikprozessor- und Rechenbeschleuniger-Architekturen gemäß Ausführungsformen;
13 ein Blockdiagramm eines Beispiels einer Grafikverarbeitungs-Engine eines Grafikprozessors gemäß einer Ausführungsform;
14A-14B ein Blockdiagramm eines Beispiels von Thread-Ausführungslogik eines Grafikprozessorkerns gemäß einer Ausführungsform;
15 ein Beispiel einer zusätzlichen Ausführungseinheit gemäß einer Ausführungsform;
16 ein Blockdiagramm, das ein Beispiel eines Grafikprozessorbefehlsformats gemäß einer Ausführungsform darstellt;
17 ein Blockdiagramm eines weiteren Beispiels für einen Grafikprozessor gemäß einer Ausführungsform;
18A ein Blockdiagramm, das ein Beispiel eines Grafikprozessorbefehlsformats gemäß einer Ausführungsform darstellt;
18B ein Blockdiagramm, das ein Beispiel einer Grafikprozessorbefehlssequenz gemäß einer Ausführungsform darstellt;
19 eine beispielhafte Grafik-Software-Architektur für ein Datenverarbeitungssystem gemäß einer Ausführungsform;
20A ein Blockdiagramm, das ein Beispiel eines IP-Kern-Entwicklungssystems gemäß einer Ausführungsform darstellt;
20B ein Beispiel einer seitlichen Querschnittsansicht einer Baugruppenanordnung mit integrierter Schaltung gemäß einer Ausführungsform;
20C-20D beispielhafte Baugruppenanordnungen gemäß einer Ausführungsform;
21 ein Blockdiagramm, das ein Beispiel einer integrierten Einchipsystem-Schaltung gemäß einer Ausführungsform darstellt; und
22A-22B Blockdiagramme, die beispielhafte Grafikprozessoren zum Gebrauch mit einem SoC gemäß Ausführungsformen darstellen.

BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
In 1 ist ein Szenario visueller Effekte (z. B. Rotoskopie) gezeigt, in dem ein Objekt 30 (z. B. ein Vogel im Flug), der in einem ersten Video 32 (z. B. einem Clip, einer Sequenz von Videorahmen) abgebildet ist, von dem Hintergrund des ersten Videos 32 segmentiert und auf den Hintergrund eines zweiten Videos 34 überlagert wird. In einem Beispiel ist das erste Video 32 ein relativ hochauflösendes Videosignal (das z. B. eine native Auflösung von 2k Pixel oder mehr aufweist). Wie genauer diskutiert wird, kann ein neuronales Netz das Objekt 30 automatisch von dem ersten Video 32 basierend auf einer minimalen Anwendereingabe (z. B. „Soft“-Kennzeichnung) wie beispielsweise einem „positiven“ Cursor-Klick auf das Objekt 30 und einem „negativen“ Cursor-Klick auf den Hintergrund des ersten Videos 32 segmentieren.
In einer Ausführungsform wird eine relativ dichte Merkmalsmenge (z. B. Bildattribute zum Unterstützen automatisierter Objektdetektion und strukturiert als dreidimensionaler/3D-Tensor) in das neuronale Netz zusammen mit dem ersten Video 32 eingegeben, wobei das neuronale Netz Tensorzerlegung verwendet, um die initiale Merkmalsmenge automatisch auf eine reduzierte Merkmalsmenge zu komprimieren. Die Tensorzerlegung kann ermöglichen, dass das neuronale Netz das Objekt 30 von dem ersten Video 32 mit der nativen Auflösung des ersten Videos 32 während eines Inferenz- (z. B. Echtzeit-) Betriebs segmentiert. Dementsprechend kann die Leistungsfähigkeit des neuronalen Netzes über automatische Verarbeitung des hochauflösenden Videos signifikant verbessert sein (z. B. eher als das arbeitsintensive Editieren und Segmentieren einzelner Videorahmen durch ein Team von Grafikern).
In einer Ausführungsform wird die Leistungsfähigkeit des neuronalen Netzes durch Verwendung einer Grenzverlustfunktion zum Trainieren des neuronalen Netzes weiter verbessert. Insbesondere kann die Trainingsprozedur die Berechnung einer Verlustfunktion für das neuronale Netz während einer Vorwärtspropagierung von Trainings-Videodaten durch das neuronale Netz enthalten, wobei wenigstens ein Abschnitt der Verlustfunktion für Grenzpixel um das Objekt 30 in dem ersten Video 32 dediziert ist. Während eines Rückwärtspropagierungsdurchgangs können Gewichte für das neuronale Netz basierend auf der Grenzverlustfunktion ausgewählt werden. In einem Beispiel werden die Vorwärts- und Rückwärtspropagierungen iterativ wiederholt, bis die Verlustfunktion auf einem annehmbaren Niveau konvergiert. Das Dedizieren der Grenzverlustfunktion für Grenzpixel eliminiert grobe oder treppenartige Kanten um das Objekt 30 und verbessert deshalb die Leistungsfähigkeit durch Verbessern der Segmentierungsergebnisse weiter. Die Trainingsprozedur kann außerdem durch Verwenden eines Trainings-Videos, das Kennzeichen auf Pixel-Ebene (z. B. positive Kennzeichen, negative Kennzeichen) an den Grenzen von Objekten beinhaltet, verbessert werden. Weitere Verbesserungen für das neuronale Netz enthalten die Verwendung vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse, um aktuelle Rahmensegmentierungsergebnisse während des Trainings- und Inferenz-Betriebs des neuronalen Netzes zu erzeugen.
2 zeigt ein Faltungsnetz 40 (z. B. ein neuronales Faltungsnetz/CNN, Segmentierungsnetz f) und eine Hypersäule 42 von Merkmalen für einen Eingaberahmen 44 (z. B. ein aktuelles Abfragebild X_t) eines Videos (z. B. Videodaten). Die Eingabe in das Segmentierungsnetz f kann außerdem das vorhergehende Bild in dem Video, X_t-1, M_t-1 - die ungefähre Segmentierung für den Rahmen t-1 - positive und negative Anwender-Klicks (z. B. S_p und S_n), Abstandstransformationen, die durch die Klicks definiert sind (z. B. p und T_n) und tiefe Merkmale pro Pixel der Hypersäule 42, die aus einer Tensorzerlegung (z. B. Komprimierung) wie beispielsweise einer Tucker-Zerlegung oder einer anderen Singulärwertzerlegung höherer Ordnung (HOSVD), erhalten werden, enthalten. In einer weiteren Ausführungsform ist die initiale Merkmalsmenge eine Merkmalsmenge nach der „Visual Geometry Group“ (VGG, z. B. VGG-19) (z. B. später als φ_T bezeichnet).
Die positiven und negativen Abstandstransformationen können definiert sein als: $T_{p} (p) = min_{q \in S_{p}} {‖ p-q ‖}_{2}$
$T_{n} (p) = min_{q \in S_{n}} {‖ p-q ‖}_{2}$
Wie bereits angemerkt kann das Netz „dichte“ pixelweise VGG-Merkmale verwenden, um die hohe Komplexität des latenten Raums, der der pixelweisen Segmentierungsaufgabe inhärent ist, zu berücksichtigen. In einer Ausführungsform kompensiert die Tensorzerlegung die Speicherkosten der Verwendung dichter Merkmale.
Jetzt weiter zu 3 kann die Tucker-Zerlegung für einen 3D-Tensor als das Problem zum Finden der Zerlegung eines Tensors X ∈ ℝ^I×J×K, mit G ∈ ℝ^P×Q×R, A ∈ ℝ^I×P, B ∈ ℝ^J×Q, C ∈ ℝ^K×R umrahmt sein: $min_{x} ‖ X- \hat{X} ‖ with \hat{X} = \sum_{p = 1}^{P} \sum_{q = 1}^{Q} \sum_{R = 1}^{R} g_{p g r} a_{r} {e b}_{r} {e c}_{r} = G \times_{1} A \times_{2} B \times_{3} C$
Wobei e das Kreuzprodukt bezeichnet, G ein Kerntensor ist und die Faktormatrizen A, B und C Hauptkomponenten in der jeweiligen Tensormode sind. Die Komprimierung ist erreicht, wenn P < I, Q < J, und R < K gelten (z. B. ist der Kerntensor die komprimierte Version des ursprünglichen Tensors). Eine Visualisierung der Tensorzerlegung 50, die als eine Tucker-Zerlegung implementiert ist, ist gezeigt.
Die „Matrix“-Version von X̂ kann ausgedrückt sein als: ${\hat{X}}_{(1)} = {AG}_{(1)} {(C \otimes B)}^{T}$
${\hat{X}}_{(2)} = {BG}_{(1)} {(C \otimes A)}^{T}$
${\hat{X}}_{(3)} = {CG}_{(1)} {(B \otimes A)}^{T}$
Wobei ⊗ das Kronecker-Produkt angibt (z. B. eine Operation auf zwei Matrizen beliebiger Größe, die eine Blockmatrix ergibt). Die Formulierung führt zu der HOSVD-Prozedur.
4 zeigt eine schematische Darstellung 60, in der ein Segmentierungsnetz 62 Videodaten 64 (z. B. den Rahmen X_t), eine initiale Merkmalsmenge (VGG-Merkmale, φ_T), einen vorhergehenden Rahmen 68 (z. B. den Rahmen X_t-1), ein vorhergehendes Rahmensegmentierungsergebnis 70 (z. B. das Ergebnis M_t-1) und Anwenderauswahldaten 72 (72a-72d) annimmt. In einer Ausführungsform enthalten die Anwenderauswahldaten 72 einen oder mehrere positive Klicks 72a (z. B. S_P), eine Abstandstransformation 72b (z. B. τ_p), die dem/den positiven Klick(s) 72a entspricht, einen oder mehrere negative Klicks 72c (z. B. S_n) und eine Abstandstransformation 72d (z. B. τ_n), die dem/den negativen Klick(s) 72c entspricht. Die nachstehende Tabelle zeigt ein Beispiel der Schichten des Segmentierungsnetzes 62. Tabelle I

Schicht 1 2 3 4 5 6 7 8 9

Faltung 1×1 3×3 3×3 3×3 3×3 3×3 33× 3×3 1×1

Dilatation 1 1 4 8 16 32 64 128 1

Tiefe 75 75 75 75 75 75 75 75 75
Die Ausgabe des dargestellten Segmentierungsnetzes 62 ist eine vielfältige Menge von Segmentierungsergebnissen 74 (74a-74n), wobei ein erstes Segmentierungsergebnis 74a typischerweise das höchste Qualitätsniveau (z. B. Genauigkeit, Randglattheit) in der Menge aufweist.
5 zeigt ein Verfahren 80 zum Trainieren eines neuronalen Netzes. Das Verfahren 80 kann als ein oder mehrere Module in einer Menge von Logikbefehlen, die in einem nicht-transitorischen durch eine Maschine oder einen Computer lesbaren Speichermedium wie z. B. Direktzugriffsspeicher (RAM), Festwertspeicher (ROM), programmierbarem ROM (PROM), Firmware, Flash-Speicher, usw., in konfigurierbarer Logik wie beispielsweise programmierbaren Logikanordnungen (PLAs), im Feld programmierbaren Gatter-Arrays (FPGAs), komplexen programmierbaren Logikvorrichtungen (CPLDs), in Hardware-Logik mit fester Funktionalität unter Verwendung von Schaltungstechnologie wie beispielsweise anwendungsspezifischer integrierter Schaltung (ASIC), komplementärer Metalloxid-Halbleiter- (CMOS) oder Transistor-Transistor-Logik- (TTL) Technologie oder irgendeiner Kombination daraus gespeichert sind.
Beispielsweise kann Computerprogrammcode zum Ausführen von in dem Verfahren 80 gezeigten Operationen in irgendeiner Kombination aus einer oder mehreren Programmiersprachen geschrieben sein, die eine objektorientierte Programmiersprache wie z. B. JAVA, SMALLTALK, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie z. B. die „C“-Programmiersprache oder ähnliche Programmiersprachen enthalten. Zusätzlich könnten Logikbefehle Assembler-Befehle, Befehle einer Befehlssatzarchitektur (ISA), Maschinenbefehle, maschinenabhängige Befehle, Mikrocode, Zustandseinstellungsdaten, Konfigurationsdaten für eine integrierte Schaltungsanordnung, Zustandsinformationen, die eine elektronische Schaltungsanordnung und/oder andere Strukturkomponenten, die für eine Hardware (z. B. Host-Prozessor, zentrale Verarbeitungseinheit/CPU, Mikrosteuereinheit usw.) nativ sind, personalisieren, enthalten.
Der dargestellte Verarbeitungsblock 82 stellt das Eingeben von Videodaten in das neuronale Netz bereit. In einem Beispiel enthalten die Videodaten hochauflösendes Video, das eine native Auflösung wie beispielsweise 2k Pixel aufweist. Eine Grenzverlustfunktion wird für das neuronale Netz an dem dargestellten Block 84 bestimmt (z. B. während Vorwärtspropagierungsdurchgängen). Insbesondere kann das Netz f auf der folgenden Gesamtverlustfunktion trainiert werden. $L_{f} (θ_{f}) = \sum_{i} min_{m} {\underset{lockeren Jaccard-Verlust}{\underset{︸}{l (Y_{i}, f_{m} (X_{i}; θ_{f}))}}} + l \underset{Verlust des interaktiven Kontens}{\underset{︸}{_{I C} (S_{p}^{i}, S_{n}^{i}, f_{m} (X_{i}; θ_{f}))}} + \sum_{i} \sum_{m = 1}^{M} \underset{Rangfolgendiversitätsverlust}{\underset{︸}{λ_{m} l (Y_{i}, f_{m} (X_{i}; θ_{f}))}} + \sum_{i} \sum_{m = 1}^{M} \underset{Pseudo-Huber-Grenzverlust}{\underset{︸}{I_{a - P H L} (Y_{i}, f_{m} (X_{i}; θ_{f}))}}$
Der erste Term l(Y_i,f_m (x_i;θ_f )) gibt den „lockeren Jaccard-Verlust“ an, der definiert ist als: $l (Y, f (X_{i}; θ_{f})) = 1 - \frac{\sum_{p} min (Y (p), f (p))}{\sum_{p} max (Y (p), f (p))}$
Es wird darauf hingewiesen, dass Y(p) den Wert der „Ground Truth‟-Segmentierung am Punkt p bezeichnet und f(p) die Segmentierungsnetzausgabe, die am Punkt p bewertet ist, repräsentiert. Der lockere Jaccard-Verlust kann ähnlich IOU-(Schnittmenge über Vereinigung) Berechnungen sein, die gewöhnlich für Objektlokalisierungsaufgaben verwendet werden.
Der zweite Term von Gl. 3 ist der „Verlust des interaktiven Kontexts“, der als eine Einschränkung in Bezug auf Eingabe-Klicks und ihre entsprechenden Abstandstransformationen definiert ist (* ist das Hadamard-Produkt): $l_{I C} (S_{p}, S_{n}, f (X_{i}; θ_{f})) = {‖ S_{p} * (S_{p} - f (X_{i}; θ_{f})) ‖}_{1} + {‖ S_{n} * (S_{n} - (1 - f (X_{i}; θ_{f}))) ‖}_{1}$
Der dritte Term von Gl. 3 ist der „Rangfolgendiversitätsverlust“, der zum Stärken des Segmentierungsnetzes dient, um visuell „diverse“ Segmentierungen zu produzieren und eine intrinsische Rangfolge auf die Segmentierung anzuwenden. Diese Bedingung kann aufgrund der semantischen Segmentierungsproblemen innewohnenden Multi-Modalität vorteilhaft sein. Diese Spezifikation kann direkt auf das Netz angewandt werden durch Wählen der skalaren Menge {λ_m}, um eine beliebige Rangfolge, die durch das Netz selbst aufgelöst wird, zu fördern. Ein solches Beispiel ist {λ_m}@2^m.
In Bezug auf den vierten Term von Gl. 3 kann eine Grenzverlustfunktion basierend auf dem „Pseudo-Huber-Verlust“ definiert sein. $l_{\partial - P H L} (Y, f (X_{i}; θ_{f})) = δ^{2} (\sqrt{1 + ((Y (\partial_{Y} (p)) - f (\partial_{Y} (p))) / {δ)}^{2}} - 1)$
In einer Ausführungsform ist der Effekt der Grenzverlustfunktion, die Grenzpunkte in einer erzeugten Segmentierung stark zu bestärken, so dass sie mit der „Ground-Truth“ übereinstimmen. Der Pseudo-Huber-Verlust kombiniert die Stärken von sowohl L₁- als auch L₂-Verlusten. Der Parameter δ steuert die Steilheit der Verlustfunktion. Etwas ungewöhnlich kann ein relativ großer δ -Wert verwendet werden, um Grenzsegmentierungsfehler streng zu bestrafen. In einem Beispiel wird der Wert von δ über ein Register oder einen entsprechenden Speicherort, das/der für das neuronale Netz zugänglich ist, eingestellt. Der Parameter ∂ gibt die Grenzoperation in dem gezeigten Beispiel an. Insbesondere kann l_∂-PHL (Y,f(x_i;θ_f)) nur in Bezug auf die „Ground Truth“-Grenzpunkte ∂_Y (p) berechnet werden.
Der Block 86 wählt Gewichte für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion aus (z. B. zusätzlich basierend auf dem lockeren Jaccard-Verlust, dem Verlust des interaktiven Kontexts und/oder dem Rangfolgendiversitätsverlust). In dem dargestellten Beispiel gibt das neuronale Netz eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte aus. In einer Ausführungsform wählt der Block 86 die Gewichte für das neuronale Netz an der nativen Auflösung der Videodaten (z. B. 2k Pixel) aus. Dementsprechend kann die Leistungsfähigkeit des neuronalen Netzes über die automatische Verarbeitung des hochauflösenden Videos signifikant verbessert sein (z. B. eher als das arbeitsintensive Editieren und Segmentieren einzelner Videorahmen durch ein Team von Grafikern). Das Verfahren 80 erhöht außerdem die Leistungsfähigkeit durch die Verwendung einer Grenzfunktion, die die Segmentierungsergebnisse verbessert. Das Verfahren 80 kann die Trainingsprozedur ferner durch Verwenden eines Trainings-Videos, das Kennzeichen auf Pixel-Ebene (z. B. positive Kennzeichen, negative Kennzeichen) an den Grenzen von Objekten beinhaltet, verbessern.
6 zeigt ein detaillierteres Verfahren 90 zum Trainieren eines neuronalen Netzes. Das Verfahren 90 kann in einem oder mehreren Modulen als eine Menge von Logikbefehlen, die in einem durch eine Maschine oder einen Computer lesbaren Speichermedium gespeichert ist, wie z. B. RAM, ROM, PROM, Firmware, Flash-Speicher usw., in konfigurierbarer Logik wie beispielsweise PLAs, FPGAs, CPLDs, in Hardware-Logik mit fester Funktionalität unter Verwendung von Schaltungstechnologie wie beispielsweise ASIC-, CMOS-, TTL-Technologie, oder irgendeiner Kombination daraus implementiert sein.
Der dargestellte Verarbeitungsblock 92 gibt Videodaten, eine initiale Merkmalsmenge, vorhergehende Rahmen, vorhergehende Rahmensegmentierungsergebnisse und Anwenderauswahldaten in ein neuronales Netz ein. Die bereits angemerkt können die Videodaten hochauflösendes Video enthalten, das eine native Auflösung wie beispielsweise 2k Pixel und mehr aufweist. Außerdem kann die initiale Merkmalsmenge dichte Pro-Pixel-VGG-Merkmale aufweisen. Zusätzlich könnten die Anwenderauswahldaten eine interaktive Eingabe sein, die einen oder mehrere positive Klicks, eine Abstandstransformation, die den positiven Klick(s) entspricht, einen oder mehrere negative Klicks und eine Abstandstransformation, die dem/den negativen Klick(s) 72c entspricht, enthält.
In einer Ausführurlgsform führt der Block 94 eine Tensorzerlegung auf der initialen Merkmalsmenge durch, um eine reduzierte Merkmalsmenge zu erhalten. Die Tensorzerlegung kann einen Kerntensor annähern, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht. In einem Beispiel ist die Tensorzerlegung eine HOSVD wie z. B. die Tucker-Zerlegung. Der dargestellte Block 96 bestimmt eine Grenzverlustfunktion für das neuronale Netz, wobei die Grenzverlustfunktion für Grenzpixel in dem Videodaten dediziert ist. Zusätzlich kann der Block 98 Gewichte für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion auswählen, wobei das neuronale Netz eine Segmentierung auf Pixelebene eines oder mehrerer Objekte in dem Video ausgeben soll. Wie bereits angemerkt kann die Tensorzerlegung bei Block 94 ermöglichen, dass die Gewichte bei Block 98 mit der nativen Auflösung der Videodaten ausgewählt werden.
Wie bereits angemerkt verbessern die Grenzverlustfunktion und die Tensorzerlegung die Leistungsfähigkeit des neuronalen Netzes wesentlich. Zusätzlich führt die Verwendung vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse zum Erzeugen aktueller Rahmensegmentierungsergebnisse zeitliche Kohärenz zwischen Videorahmen ein. Dementsprechend verbessert ein reduziertes Rahmen-zu-Rahmen-„Zittern“ die Leistungsfähigkeit weiter.
7 zeigt ein Verfahren 91 zum Betreiben eines neuronalen Netzes. Das Verfahren 91 kann in einem oder mehreren Modulen als eine Menge von Logikbefehlen, die in einem durch eine Maschine oder einen Computer lesbaren Speichermedium gespeichert ist, wie z. B. RAM, ROM, PROM, Firmware, Flash-Speicher usw., in konfigurierbarer Logik wie beispielsweise PLAs, FPGAs, CPLDs, in Hardware-Logik mit fester Funktionalität unter Verwendung von Schaltungstechnologie wie beispielsweise ASIC-, CMOS-, TTL-Technologie, oder irgendeiner Kombination daraus implementiert sein.
Der dargestellte Verarbeitungsblock 93 stellt das Annehmen (z. B. als Eingabe) von Videodaten und einer initialen Merkmalsmenge bereit. In einer Ausführungsform enthalten die Videodaten hochauflösendes Video, und die initiale Merkmalsmenge enthält relativ dichte Merkmale pro Pixel. Der Block 93 kann außerdem das Annehmen vorhergehender Rahmen, vorhergehender Rahmensegmentierungsergebnisse und interaktiver Anwenderauswahldaten enthalten. Eine Tensorzerlegung kann bei Block 95 auf der initialen Merkmalsmenge durchgeführt werden, um eine reduzierte Merkmalsmenge zu erhalten. Wie bereits angemerkt kann die Tensorzerlegung einen Kerntensor annähern, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht. In einer Ausführungsform ist die Tensorzerlegung die Tucker-Zerlegung oder eine andere geeignete HOSVD. Der dargestellte Block 97 gibt eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge aus. Außerdem kann der Block 97 die Segmentierung auf Pixelebene mit der nativen Auflösung der Videodaten und ferner basierend auf den vorhergehenden Rahmen, den vorhergehenden Rahmensegmentierungsergebnissen und/oder den Anwenderauswahldaten ausgeben.
Das Verfahren 91 verbessert deshalb die Inferenzleistung über eine Tensorzerlegung, die ermöglicht, dass die Segmentierung auf Pixelebene mit der nativen Auflösung der Videodaten ausgegeben wird. Außerdem führt die Verwendung vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse zum Erzeugen aktueller Rahmensegmentierungsergebnisse zeitliche Kohärenz zwischen Videorahmen ein und reduziert das Rahmen-zu-Rahmen-Zittern.
Jetzt weiter zu den 8A und 8B ist ein Eingaberahmen 52 in Bezug auf mehrere Segmentierungsergebnisse 54 (54a-54c) gezeigt. In dem dargestellten Beispiel ist ein Objekt (z. B. ein Kamel) aus dem Hintergrund des Eingaberahmens 52 segmentiert. Ein erstes Segmentierungsergebnis 54a ist einer Lösung für ein neuronales Netz zugeordnet, die keine Tensorzerlegung, keine Grenzverlustfunktion oder zeitliche Kohärenz (z. B. vorhergehende Rahmen und/oder vorhergehende Rahmensegmentierungsergebnisse) wie hier beschrieben verwendet. Im Gegensatz dazu verwendet das zweite Segmentierungsergebnis 54b Tensorzerlegung, eine Grenzverlustfunktion und zeitliche Kohärenz wie hier beschrieben. Das dargestellte zweite Segmentierungsergebnis 54 ist unerwarteterweise weniger rauschbehaftet als das erste Segmentierungsergebnis 54. Insbesondere ist die Wiedergabetreue der Segmentierung (z. B. Qualität der Grenzen) über die hier beschriebene Grenzverlustfunktionstechnologie in hohem Maße verbessert. Zusätzlich verringert das Aufnehmen von Zeitinformationen in die Modellmerkmale das Rahmen-zu-Rahmen-Zittern.
Zusätzlich repräsentiert ein drittes Segmentierungsergebnis 54c ein neuronales Netz, das eine „zufällige Merkmalsprojektion“ anstelle der hier beschriebenen Tensorzerlegung verwendet. Bei der zufälligen Merkmalsprojektion wurde das neuronale Netz mit einer reduzierten Merkmalsmenge trainiert wobei die reduzierte Merkmalsmenge zufällig ausgewählt und durchgehend durch das Training festgelegt ist (z. B. mit der maximalen Anzahl von Merkmalen, die in einem Grafikprozessor mit 24 GB Speicher gespeichert werden kann). Das Vergleichen des dritten Segmentierungsergebnisses 54c mit dem zweiten Segmentierungsergebnis 54 zeigt, dass das Anwenden einer Tensorzerlegung mit nach statistischen Prinzipien (HOSVD) auf die dichte Merkmalsmenge wie hier beschrieben unerwarteterweise eine bessere Leistungsfähigkeit bereitstellt, selbst wenn beide Modelle eine gleiche Anzahl von Merkmalen beinhalten. Alle Segmentierungsergebnisse 54 wurden auf denselben Daten und Trainingsparametern trainiert.
9 zeigt ein Berechnungssystem 150 mit gesteigerter Leistungsfähigkeit, das allgemein Teil einer/eines elektronischen Vorrichtung/Systems sein kann, die/das Berechnungsfunktionalität (z. B. persönlicher digitaler Assistent/PDA, Notebook-Computer, Tablet-Computer, konvertibles Tablet, Server), Kommunikationsfunktionalität (z. B. Smartphone), Bildaufnahmefunktionalität (z. B. Kamera, Camcoder), Medienwiedergabefunktionalität (z. B. intelligentes Fernsehgerät/TV), am Körper zu tragende Funktionalität (z. B. Uhr, Brille, Kopfbedeckung, Schuhwaren, Schmuck), Fahrzeugfunktonalität (z. B. Auto, Lkw, Motorrad), Roboterfunktionalität (z. B. autonomer Roboter) usw. oder irgendeine Kombination daraus aufweist. In dem dargestellten Beispiel enthält das System 150 einen Grafikprozessor 152 (z.B. eine Grafikverarbeitungseinheit/GPU) und einen Host-Prozessor 154 (z. B. eine CPU), der einen oder mehrere Kerne 156 und eine integrierte Speichersteuereinheit (IMC) 158, die mit einem Systemspeicher 160 gekoppelt ist, aufweist.
Zusätzlich enthält das dargestellte System 150 ein Eingabe-AusgabeModul (IO-Modul) 162, das zusammen mit dem Host-Prozessor 154 implementiert ist, und den Grafikprozessor 152 auf einem Einchipsystem (SoC) 164 (z. B. einem Halbleiterbaustein). In einem Beispiel kommuniziert das IO-Modul mit einer Anzeigevorrichtung 166 (z. B. berührungssensitiver Bildschirm, Flüssigkristallanzeigevorrichtung/LCD, Leuchtdioden/LED-Anzeigevorrichtung), einer Netzsteuereinheit 168 (z. B. drahtgebunden oder drahtlos) und Massenspeicher 170 (z. B. Festkörperlaufwerk/HDD, optische Platte, Festkörperlaufwerk/SSD, Flash-Speicher). In einer Ausführungsform enthält der Grafikprozessor 152 Logik 174 (z. B. Logikbefehle, konfigurierbare Logik, Hardware-Logik mit fester Funktionalität usw. oder irgendeine Kombination daraus), um einen oder mehrere Aspekte des Verfahrens 80 (5), des Verfahrens 90 (6) und/oder des Verfahrens 91 (7), die bereits diskutiert sind, auszuführen. Obwohl die dargestellte Logik 174 in dem Grafikprozessor 152 gezeigt ist, kann sich die Logik 174 an anderer Stelle in dem System 150 befinden.
Somit kann die Logik 174 ein neuronales Netz durch Eingeben von Videodaten in das neuronale Netz, Bestimmen einer Grenzverlustfunktion für das neuronale Netz und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion trainieren, wobei das neuronale Netz eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeten Objekten ausgeben soll. In einer Ausführungsform ist die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert. Außerdem können die Gewichte mit der nativen Auflösung der Videodaten ausgewählt werden.
Somit kann das Berechnungssystem 150 so betrachtet werden, dass seine Leistungsfähigkeit während des Trainings wenigstens in dem Umfang gesteigert wird, wie die Verwendung einer Grenzfunktion die Segmentierungsergebnisse verbessert. Die Logik 174 kann die Trainingsprozedur ferner durch Verwenden eines Trainings-Videos, das Kennzeichen auf Pixel-Ebene (z. B. positive Kennzeichen, negative Kennzeichen) an den Grenzen von Objekten beinhaltet, verbessern. Zusätzlich führt die Verwendung vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse zum Erzeugen aktueller Rahmensegmentierungsergebnisse zeitliche Kohärenz zwischen Videorahmen ein. Dementsprechend verbessert ein reduziertes Rahmen-zu-Rahmen-Zittern die Leistungsfähigkeit weiter.
Die Logik 174 kann außerdem in neuronales Netz betreiben durch Annehmen von Videodaten und einer initialen Merkmalsmenge, Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten, und Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge. In einem Beispiel nähert die Tensorzerlegung einen Kerntensor an, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht. Zusätzlich kann die Segmentierung auf Pixelebene mit der nativen Auflösung der Videodaten ausgegeben werden.
Somit kann das Berechnungssystem 150 so betrachtet werden, dass seine Leistungsfähigkeit wenigstens in dem Umfang, in dem automatische Verarbeitung von hochauflösendem Video erreicht wird, gesteigert wird. Außerdem führt die Verwendung vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse zum Erzeugen aktueller Rahmensegmentierungsergebnisse zeitliche Kohärenz zwischen Videorahmen ein und reduziert das Rahmen-zu-Rahmen-Zittern. Tatsächlich kann das Berechnungssystem 150 eine praktische, klassen-agnostische, interaktive auf tiefem Lernen basierende Lösung zur Objektsegmentierung in Videodaten mit minimaler Anwenderintervention bereitstellen.
Das SoC 164 kann ein oder mehrere Substrate (z.B. Silizium, Saphir, Galliumarsenid) enthalten, wobei die Logik 174 eine Transistoranordnung und/oder andere Komponenten mit integrierter Schaltung/IC ist, die mit dem/den Substrat/en gekoppelt ist. In einem Beispiel enthält die Logik 174 Transistorkanalgebiete, die innerhalb des/der Substrat(e) positioniert (z. B. eingebettet) sind. Somit kann die physikalische Grenzfläche zwischen der Logik 174 und dem/den Substrat(en) kein plötzlicher Übergang sein. Die Logik 174 kann außerdem so betrachtet werden, dass sie eine Epitaxieschicht enthält, die auf einem initialen Wafer des/der Substrat(e) gewachsen ist.
Systemüberblick
10 ist ein Blockdiagramm eines Verarbeitungssystems 100 gemäß einer Ausführungsform. Das System 100 kann in einem Einzelprozessor-Desktop-System, einem Mehrprozessor-Arbeitsplatzrechner-System oder einem Server-System, das eine große Anzahl von Prozessoren 102 oder Prozessorkernen 107 aufweist, verwendet werden. In einer Ausführungsform ist das System 100 eine Verarbeitungsplattform, die in einer integrierten Schaltung eines Einchipsystems (SoC) zum Gebrauch in mobilen, tragbaren oder eingebetteten Systemen wie z. B. innerhalb von Vorrichtungen des Internet-der-Dinge (IoT) mit drahtgebundener oder drahtloser Konnektivität zu einem ein lokalen oder Weitbereichsnetz integriert ist.
In einer Ausführungsform kann das System 100 Folgendes enthalten, damit gekoppelt sein oder darin integriert sein: eine server-basierte Spiele-Plattform; eine Spielekonsole, die eine Spiele- und Medienkonsole enthält; eine mobile Spielekonsole, eine tragbare Spielekonsole oder eine Online-Spielekonsole. In einigen Ausführungsformen ist das System 100 Teil eines Mobiltelefons, eines Smartphones, einer Tablet-Berechnungsvorrichtung oder einer mobilen mit dem Internet verbundenen Vorrichtung wie z. B. eines Laptops mit geringer interner Speicherkapazität. Das Verarbeitungssystem 100 kann außerdem Folgendes enthalten, damit gekoppelt sein oder darin integriert sein: eine am Körper tragbare Vorrichtung, wie z. B. eine am Körper tragbare Smartwatch-Vorrichtung; intelligente Brille oder Kleidung, die mit Merkmalen erweiterter Realität (AR) oder virtueller Realität (VR) erweitert ist, um sichtbare, Audio- oder fühlbare Ausgaben bereitzustellen, um visuelle, Audio- oder fühlbare Wahrnehmungen der realen Welt zu ergänzen oder auf andere Weise Text, Audio, Grafik, Video, holographische Bilder und Video oder fühlbare Rückmeldung bereitzustellen; eine andere Vorrichtung für erweiterte Realität (AR); oder eine andere Vorrichtung für virtuelle Realität (VR). In einigen Ausführungsformen enthält das Verarbeitungssystem 100 ein Fernsehgerät oder eine Set-Top-Box-Vorrichtung oder ist ein Teil davon. In einer Ausführungsform kann das System 100 ein selbstfahrendes Fahrzeug wie z. B. einen Bus, einen Sattelschlepper, ein Auto, ein Motorrad oder elektrisch angetriebenes Fahrrad, ein Flugzeug oder Segelflugzeug (oder irgendeine Kombination daraus) enthalten, damit gekoppelt sein oder darin integriert sein. Das selbstfahrende Fahrzeug kann das System 100 verwenden, um die in der Umgebung des Fahrzeugs erfasste Umwelt zu verarbeiten.
In einigen Ausführungsformen enthalten der eine oder die mehreren Prozessoren 102 jeweils einen oder mehrere Prozessorkerne 107 zum Verarbeiten von Befehlen, die dann, wenn sie ausgeführt werden, Operationen für das System oder für Anwender-Software ausführen. In einigen Ausführungsformen ist wenigstens einer aus dem einen oder den mehreren Prozessorkernen 107 konfiguriert, einen spezifischen Befehlssatz 109 zu verarbeiten. In einigen Ausführungsformen kann der Befehlssatz 109 „Complex Instruction Set Computing“ (CISC), „Reduced Instruction Set Computing“ (RISC) oder Berechnung über „Very Long Instruction Word“ (VLIW) unterstützen. Ein oder mehrere Prozessorkerne 107 können einen anderen Befehlssatz 109 unterstützen, der Befehle enthalten kann, um die Emulation anderer Befehlssätze zu ermöglichen. Der Prozessorkern 107 kann außerdem andere Verarbeitungsvorrichtungen wie z. B. einen digitalen Signalprozessor (DSP) enthalten.
In einigen Ausführungsformen enthält der Prozessor 102 einen Cache-Speicher 104. Abhängig von der Architektur kann der Prozessor 102 einen einzigen internen Cache oder mehrere Ebenen von internem Cache aufweisen. In einigen Ausführungsformen wird der Cache-Speicher von verschiedenen Komponenten des Prozessors 102 gemeinsam verwendet. In einigen Ausführungsformen verwendet der Prozessor 102 außerdem einen externen Cache (z.B. einen Ebene-3- (L3-) Cache oder einen Cache letzter Ebenen (LLC)) (nicht gezeigt), der von den Prozessorkernen 107 unter Verwendung bekannter Cache-Kohärenztechniken gemeinsam verwendet werden kann. Eine Registerdatei 106 kann zusätzlich in dem Prozessor 102 enthalten sein und kann unterschiedliche Typen von Registern zum Speichern unterschiedlicher Typen von Daten enthalten (z. B. Ganzzahlregister, Gleitkommaregister, Statusregister und Befehlszeigerregister). Einige Register können Allzweckregister sein, während andere Register für das Design des Prozessors 102 spezifisch sein können.
In einigen Ausführungsformen ist/sind ein oder mehrere Prozessor(en) 102 mit einem oder mehreren Schnittstellenbus(sen) 110 gekoppelt, um Kommunikationssignale wie z. B. Adressen, Daten oder Steuersignale zwischen dem Prozessor 102 und anderen Komponenten in dem System 100 zu übertragen. Der Schnittstellenbus 110 kann in einer Ausführungsform ein Prozessorbus sein, wie z. B. eine Version des „Direct Media Interface“- (DMI-) Busses. Prozessorbusse sind jedoch nicht auf den DMI-Bus beschränkt und können einen oder mehrere „Peripheral Component Interconnect“-Busse (z. B. PCI, PCI Express), Speicherbusse oder andere Typen von Schnittstellenbussen enthalten. In einer Ausführungsform enthält/enthalten der/die Prozessor(en) eine integrierte Speichersteuereinheit 116 und einen Plattformsteuereinheit-Hub 130. Die Speichersteuereinheit 116 unterstützt die Kommunikation zwischen einer Speichervorrichtung und anderen Komponenten des Systems 100, während der Plattformsteuereinheit-Hub (PCH) 130 Verbindungen zu I/O-Vorrichtungen über einen lokalen I/O-Bus bereitstellt.
Die Speichervorrichtung 120 kann eine Vorrichtung mit dynamischem Direktzugriffsspeicher (DRAM), eine Vorrichtung mit statischem Direktzugriffsspeicher (SRAM), eine Flash-Speichervorrichtung, eine Phasenwechselspeichervorrichtung oder eine andere Speichervorrichtung, die eine geeignete Leistungsfähigkeit aufweist, um als Prozessspeicher zu dienen, sein. In einer Ausführungsform kann die Speichervorrichtung 120 als Systemspeicher für das System 100 arbeiten, um Daten 122 und Befehle 121 zum Gebrauch, wenn der eine oder die mehreren Prozessoren eine Anwendung oder einen Prozess ausführen, zu speichern. Die Speichersteuereinheit 116 koppelt außerdem mit einem optionalen externen Grafikprozessor 118, der mit dem einen oder den mehreren Grafikprozessoren 108 in den Prozessoren 102 kommunizieren kann, um Grafik- und Medienoperationen auszuführen. In einigen Ausführungsformen können Grafik-, Medien und/oder Rechenoperationen durch einen Beschleuniger 112 unterstützt werden, der ein Coprozessor ist, der konfiguriert sein kann, eine spezialisierte Gruppe von Grafik-, Medien- oder Rechenoperationen auszuführen. Beispielsweise ist in einer Ausführungsform der Beschleuniger 112 ein Matrixmultiplikationsbeschleuniger, der verwendet wird, um Maschinenlernen oder Rechenoperationen zu optimieren. In einer Ausführungsform ist der Beschleuniger 112 ein Spurverfolgungsbeschleuniger, der verwendet werden kann, um Spurverfolgungsoperationen in Übereinstimmung mit dem Grafikprozessor 108 auszuführen. In einer Ausführungsform kann ein externer Beschleuniger 119 anstelle des oder in Übereinstimmung mit dem Beschleuniger 112 verwendet werden.
In einigen Ausführungsformen kann eine Anzeigevorrichtung 111 mit dem/den Prozessor(en) 102 verbunden sein. Die Anzeigevorrichtung 111 kann eine oder mehrere aus einer internen Anzeigevorrichtung wie z. B. in einer mobilen elektronischen Vorrichtung oder einer Laptop-Vorrichtung oder eine externe Vorrichtung, die über eine Anzeigeschnittstelle (z. B. DisplayPort usw.) angeschlossen ist, sein. In einer Ausführungsform kann die Anzeigevorrichtung 111 eine am Kopf getragene Anzeigevorrichtung (HMD) sein, wie z. B. eine stereoskopische Anzeigevorrichtung zum Gebrauch in Anwendungen für virtuelle Realität (VR) oder Anwendungen für erweiterte Realität (AR).
In einigen Ausführungsformen ermöglicht der Plattformsteuereinheit-Hub 130, dass sich Peripheriegeräte mit der Speichervorrichtung 120 und dem Prozessor 102 über einen Hochgeschwindigkeits-I/O-Bus verbinden. Die I/O-Peripheriegeräte enthalten, ohne jedoch darauf beschränkt zu sein, eine Audiosteuereinheit 146, eine Netzsteuereinheit 134, eine Firmware-Schnittstelle 128, einen Drahtlos-Sender/Empfänger 126, Berührungssensoren 125, eine Datenspeichervorrichtung 124 (z. B. nichtflüchtigen Speicher, flüchtigen Speicher, Festplattenlaufwerk, Flash-Speicher NAND, 3D-NAND, 3D Point usw.). Die Datenspeichervorrichtung 124 kann über eine Speicherschnittstelle (z. B. SATA) oder über einen Peripherie-Bus wie z. B. einen „Peripheral Component Interconnect“-Bus (z. B. PCI, PCI Express) verbunden sein. Die Berührungssensoren 125 können Sensoren eines berührungssensitiven Bildschirms, Drucksensoren oder Fingerabdrucksensoren enthalten. Der Drahtlos-Sender/Empfänger 126 kann ein Wi-Fi-Sender/Empfänger, ein Bluetooth-Sender/Empfänger oder ein Sender/Empfänger eines Mobilfunknetzes sein, wie z. B. ein 3G-, 4G-, 5G- oder Langzeitentwicklungs- (LTE-) Sender/Empfänger. Die Firmware-Schnittstelle 128 ermöglicht Kommunikation mit der System-Firmware und kann beispielsweise eine vereinheitlichte erweiterbare Firmware-Schnittstelle (UEFI) sein. Die Netzsteuereinheit 134 kann eine Netzverbindung zu einem drahtgebundenen Netz ermöglichen. In einigen Ausführungsformen koppelt eine Hochleistungs-Netzsteuereinheit (nicht gezeigt) mit dem Schnittstellenbus 110. Die Audio-Steuereinheit 146 ist in einer Ausführungsform eine hochauflösende Mehrkanal-Audio-Steuereinheit. In einer Ausführungsform enthält das System 100 eine optionale alte I/O-Steuereinheit 140 zum Koppeln alter (z. B. Personalsystem 2- (PS/2-)) Vorrichtungen mit dem System. Der Plattformsteuereinheit-Hub 130 kann außerdem mit einer oder mehreren Steuereinheiten 142 für den universellen seriellen Bus (USB) verbinden, die Eingabevorrichtungen wie z. B. Tastatur- und Maus-Kombinationen 143, eine Kamera 144 oder anderen USB-Eingabevorrichtungen verbinden.
Es ist zu verstehen, dass das gezeigte System 100 nur beispielhaft und nicht einschränkend ist, da andere Typen von Datenverarbeitungssystemen, die anders konfiguriert sind, ebenfalls verwendet werden können. Beispielsweise können eine Instanz der Speichersteuereinheit 116 und des Plattformsteuereinheit-Hub 130 in einen diskreten externen Grafikprozessor wie z. B. den externen Grafikprozessor 118 integriert sein. In einer Ausführungsform können der Plattformsteuereinheit-Hub 130 und/oder die Speichersteuereinheit 116 zu dem einen oder den mehreren Prozessor(en) 102 extern sein. Beispielsweise kann das System 100 eine externe Speichersteuereinheit 116 und einen Plattformsteuereinheit-Hub 130 enthalten, der als ein Speichersteuereinheit-Hub und Peripheriesteuereinheit-Hub innerhalb eines System-Chipsatzes, der in Kommunikation mit dem/den Prozessor(en) 102 ist, konfiguriert sein kann.
Beispielsweise können Leiterplatten („Sleds“) verwendet sein, auf denen Komponenten wie z. B. CPUs, Speicher und andere Komponenten platziert sind und die für eine erhöhte thermische Leistung konstruiert sind. In einigen Beispielen befinden sich Verarbeitungskomponenten wie z. B. die Prozessoren auf einer Oberseite eines Sied, während sich naher Speicher wie z. B. DIMMs auf einer Unterseite des Sied befindet. Als ein Ergebnis der durch diese Konstruktion verbesserten Luftströmung können die Komponenten mit höheren Frequenzen und Leistungspegeln arbeiten als in typischen Systemen und dadurch die Leistung steigern. Darüber hinaus sind die Sleds konfiguriert, blind mit den Strom- und Datenkommunikationskabeln in einem Rack zusammenzupassen, und verbessern damit ihre Fähigkeit, schnell entfernt, hochgerüstet, neu installiert und/oder ersetzt zu werden. Ähnlich sind individuelle Komponenten, die sich auf den Sleds befinden, wie z. B. Prozessoren, Beschleuniger, Speicher und Datenspeicherlaufwerke, so konfiguriert, dass sie aufgrund ihrer gesteigerten Abstands voneinander leicht hochgerüstet werden können. In der erläuternden Ausführungsform enthalten die Komponenten zusätzlich Hardware-Bestätigungsmerkmale, um ihre Authentizität zu beweisen.
Ein Datenzentrum kann eine einzige Netzarchitektur („Fabric“) benutzen, die mehrere andere Netzarchitekturen, die Ethernet und Omni-Path enthalten, unterstützt. Die Sleds können mit Switches über Lichtleitfasern gekoppelt sein, die eine höhere Bandbreite und geringere Latenz als typische Zweidrahtleitungen (z. B. Kategorie 5, Kategorie 5e, Kategorie 6 usw.) bereitstellen. Aufgrund der Zusammenschaltungen und Netzarchitekturen mit hoher Bandbreite und geringer Latenz kann das Datenzentrum im Gebrauch Betriebsmittel wie z. B. Speicher, Beschleuniger (z. B. GPUs, Grafikbeschleuniger, FPGAs, ASICs, Beschleuniger für neuronale Netze und/oder künstliche Intelligenz usw.) und Datenspeicherlaufwerke, die physikalisch getrennt sind, in Pools zusammenfassen und sie für Rechenbetriebsmittel (z. B. Prozessoren) bei Bedarf bereitstellen, was es den Rechenbetriebsmitteln ermöglicht, auf die Betriebsmittel in Pools so zuzugreifen, als ob sie lokal wären.
Eine Stromversorgung oder -quelle kann Spannung und/oder Strom für das System 100 und irgendein/e hier beschriebene/s Komponente oder System bereitstellen. In einem Beispiel enthält die Stromversorgung einen AC/DC-(Wechselstrom/Gleichstrom-) Adapter, der in eine Steckdose gesteckt werden kann. Eine solche AC-Stromversorgung kann eine Stromquelle aus erneuerbarer Energie (z. B. Solarstromquelle) sein. In einem Beispiel enthält die Stromquelle eine DC-Stromquelle, wie z. B. einen externen AC/DC-Umsetzer. In einem Beispiel enthält die Stromquelle oder Stromversorgung eine Hardware zur drahtlosen Aufladen, um über die Nähe zu einem Aufladefeld zu aufzuladen. In einem Beispiel kann die Stromquelle eine interne Batterie, eine Wechselstromversorgung, eine bewegungsbasierte Stromversorgung, eine Solarstromversorgung oder eine Brennstoffzellenstromversorgung enthalten.
Die 11A-11D stellen Berechnungssysteme und Grafikprozessoren dar, die durch hier beschriebene Ausführungsformen bereitgestellt sind. Die Elemente der 11A-11D, die die gleichen Bezugszeichen (oder Namen) wie die Elemente irgendeiner anderen Figur hier aufweisen, können auf eine Weise ähnlich der an anderer Stelle hier beschriebenen arbeiten oder funktionieren, sind jedoch nicht darauf beschränkt.
11A ist ein Blockdiagramm einer Ausführungsform eines Prozessors 200, der einen oder mehrere Prozessorkerne 202A-202N, eine integrierte Speichersteuereinheit 214 und einen integrierten Grafikprozessor 208 aufweist. Der Prozessor 200 kann zusätzliche Kerne bis zu dem und einschließlich des zusätzlichen Kerns 202N, die durch die gestrichelt umrahmten Kästen repräsentiert sind, enthalten. Jeder der Prozessorkerne 202A-202N enthält eine oder mehrere interne Cache-Einheiten 204A-204N. In einigen Ausführungsformen besitzt jeder Prozessorkern außerdem Zugriff auf eine oder mehrere gemeinsam verwendete Cache-Einheiten 206. Die internen Cache-Einheiten 204A-204N und die gemeinsam verwendeten Cache-Einheiten 206 repräsentieren eine Cache-Speicherhierarchie innerhalb des Prozessors 200. Die Cache-Speicherhierarchie kann wenigstens eine Ebene von Befehls- und Daten-Cache innerhalb jedes Prozessorkerns und eine oder mehrere Ebenen von gemeinsam verwendetem Cache mittlerer Ebene wie z. B. Ebene-2- (L2-), Ebene-3- (L3-), Ebene-4- (L4-) oder andere Ebenen von Cache enthalten, wobei die höchste Ebene des Cache vor dem externen Speicher als der LLC klassifiziert ist. In einigen Ausführungsformen hält die Cache-Kohärenzlogik die Kohärenz zwischen den verschiedenen Cache-Einheiten 206 und 204A-204N aufrecht.
In einigen Ausführungsformen kann der Prozessor 200 außerdem eine Gruppe aus einer oder mehreren Bussteuereinheiten 216 und einen Systemagentenkern 210 enthalten. Die eine oder die mehreren Bussteuereinheiten 216 können eine Gruppe peripherer Busse wie z. B. einen oder mehrere PCI- oder PCI-express-Busse managen. Der Systemagentenkern 210 stellt Managementfunktionalität für die verschiedenen Prozessorkomponenten bereit. In einigen Ausführungsformen enthält der Systemagentenkern 210 eine oder mehrere integrierte Speichersteuereinheiten 214 zum Managen des Zugriffs auf verschiedene externe Speichervorrichtungen (nicht gezeigt).
In einigen Ausführungsformen enthalten einer oder mehrere der Prozessorkerne 202A-202N eine Unterstützung für gleichzeitiges Multi-Threading. In einer solchen Ausführungsform enthält der Systemagentenkern 210 Komponenten zum Koordinieren und Betreiben der Kerne 202A-202N während der Multi-Thread-Verarbeitung. Der Systemagentenkern 210 kann zusätzlich eine Leistungssteuerungseinheit (PCU) enthalten, die Logik und Komponenten zum Regulieren des Leistungszustands der Prozessorkerne 202A-202N und des Grafikprozessors 208 enthält.
In einigen Ausführungsformen enthält der Prozessor 200 zusätzlich den Grafikprozessor 208 zum Ausführen von Grafikverarbeitungsoperationen. In einigen Ausführungsformen ist der Grafikprozessor 208 mit der Gruppe gemeinsam verwendeter Cache-Einheiten 206 und dem Systemagentenkern 210, der die eine oder mehreren integrierten Speichersteuereinheiten 214 enthält, gekoppelt. In einigen Ausführungsformen enthält der Systemagentenkern 210 außerdem eine Anzeigesteuereinheit 211 zum Treiben der Grafikprozessorausgabe zu einer oder mehreren gekoppelten Anzeigevorrichtungen. In einigen Ausführungsformen kann die Anzeigesteuereinheit 211 auch ein separates Modul sein, das mit dem Grafikprozessor über wenigstens eine Zusammenschaltung gekoppelt ist, oder kann in dem Grafikprozessor 208 integriert sein.
In einigen Ausführungsformen ist eine ringbasierte Zusammenschaltungseinheit 212 verwendet, um die internen Komponenten des Prozessors 20 zu koppeln. Es kann jedoch eine alternative Zusammenschaltungseinheit verwendet werden, wie z. B. eine Punkt-zu-Punkt-Zusammenschaltung, eine geschaltete Zusammenschaltung oder andere Techniken, die in der Technik bekannte Techniken enthalten. In einigen Ausführungsformen koppelt der Grafikprozessor 208 mit der Ringzusammenschaltung 212 über eine I/O-Verbindungsstrecke 213.
Die beispielhafte I/O-Verbindungsstrecke 213 repräsentiert wenigstens eine aus mehreren Variationen von I/O-Zusammenschaltungen, die eine baugruppeninterne I/O-Zusammenschaltung enthält, die die Kommunikation zwischen verschiedenen Prozessorkomponenten und einem eingebetteten Hochleistungsspeichermodul 218 wie z. B. einem eDRAM-Modul unterstützt. In einigen Ausführungsformen kann jeder aus den Prozessorkernen 202A-202N und dem Grafikprozessor 208 eingebettete Speichermodule 218 als einen gemeinsam verwendeten Cache der letzten Ebene verwenden.
In einigen Ausführungsformen sind die Prozessorkerne 202A-202N homogene Kerne, die die gleiche Befehlssatzarchitektur ausführen. In einer weiteren Ausführungsform sind die Prozessorkerne 202A-202N hinsichtlich der Befehlssatzarchitektur (ISA) heterogen, wobei einer oder mehrere der Prozessorkerne 202A-202N einen ersten Befehlssatz ausführen, während wenigstens einer der anderen Kerne eine Teilmenge des ersten Befehlssatzes oder einen anderen Befehlssatz ausführt. In einer Ausführungsform sind die Prozessorkerne 202A-202N hinsichtlich der Mikroarchitektur heterogen, wobei ein oder mehrere Kerne, die einen im Vergleich höheren Energieverbrauch aufweisen, mit einem oder mehreren Leistungskernen koppeln, die einen niedrigeren Energieverbrauch aufweisen. In einer Ausführungsform sind die Prozessorkerne 202A-202N hinsichtlich der Rechenfähigkeit heterogen. Zusätzlich kann der Prozessor 200 in einem oder mehreren Chips oder als eine integrierte Schaltung eines SoC implementiert sein, die die dargestellten Komponenten aufweist, zusätzlich zu anderen Komponenten.
11B ist ein Blockdiagramm von Hardware-Logik eines Grafikprozessorkerns 219 gemäß einigen hier beschriebenen Ausführungsformen. Die Elemente der 11B, die die gleichen Bezugszeichen (oder Namen) wie die Elemente irgendeiner anderen Figur hier aufweisen, können auf eine Weise ähnlich der an anderer Stelle hier beschriebenen arbeiten oder funktionieren, sind jedoch nicht darauf beschränkt. Der Grafikprozessorkern 219, manchmal als Kernscheibe bezeichnet, kann ein oder mehrere Grafikkerne innerhalb eines modularen Grafikprozessors sein. Der Grafikprozessorkern 219 ist beispielhaft für eine Grafikkernscheibe, und ein Grafikprozessor wie er hier beschrieben ist kann mehrere Grafikkernscheiben basierend auf Zielleistung und Leistungsfähigkeitshüllkurven enthalten. Jeder Grafikprozessorkern 219 kann einen Block 230 mit fester Funktion aufweisen, der mit mehreren Teilkernen 221A-221F, auch als Teilscheiben bezeichnet, gekoppelt ist, die modulare Blöcke von Allzwecklogik und Logik mit fester Funktion enthalten.
In einigen Ausführungsformen enthält der Block 230 mit fester Funktion eine Pipeline 231 für Geometrie/feste Funktion, die durch alle Teilkerne in dem Grafikprozessorkern 219 gemeinsam verwendet werden kann, beispielsweise in Grafikprozessorimplementierungen mit geringerer Leistungsfähigkeit oder geringerer Leistung. In verschiedenen Ausführungsformen enthält die Pipeline 231 für Geometrie/feste Funktion (z.B. 3D-Pipeline 312 wie in 3 und 13, die nachstehend beschrieben ist) eine Video-Frontend-Einheit, einen Thread-Erzeuger und einen Thread-Verteiler und einen Manager für vereinheitlichte Rückgabepuffer, der vereinheitlichte Rückgabepuffer (z. B. den vereinheitlichten Rückgabepuffer 418 in 13, wie nachstehend beschrieben) managt.
In einer Ausführungsform enthält der Block 230 mit fester Funktion außerdem eine Grafik-SoC-Schnittstelle 232, eine Grafikmikrosteuereinheit 233 und eine Medien-Pipeline 234. Die Grafik-SoC-Schnittstelle 232 stellt eine Schnittstelle zwischen dem Grafikprozessorkern 219 und anderen Prozessorkernen innerhalb einer integrierten Schaltung eines Einchipsystems bereit. Die Grafikmikrosteuereinheit 233 ist ein programmierbarer Teilprozessor, der konfigurierbar ist, verschiedene Funktionen des Grafikprozessorkerns, die Thread-Verteilung, Planung und Vorwegnahme enthalten, zu managen. Die Medien-Pipeline 234 (z. B. die Medien-Pipeline 316 von 3 und 13) enthält Logik zum Unterstützen von Decodieren, Codieren, Vorverarbeiten und/oder Nachverarbeiten von Multimediadaten, die Bild- und Videodaten enthalten. Die Medien-Pipeline 234 implementiert Medienoperationen über Anforderungen an Rechen- und Sampling-Logik innerhalb der Teilkerne 221-221F.
In einer Ausführungsform ermöglicht die SoC-Schnittstelle 232, dass der Grafikprozessorkern 219 mit Allzweckanwendungsprozessorkernen (z.B. CPUs) und/oder anderen Komponenten innerhalb eines SoC, die Speicherhierarchieelemente wie z. B. einen gemeinsam verwendeten Cache-Speicher letzter Ebene, den System-RAM und/oder auf dem Chip oder auf der Baugruppe eingebetteten DRAM enthalten, kommuniziert. Die SoC-Schnittstelle 232 kann außerdem die Kommunikation mit Vorrichtungen mit fester Funktion innerhalb des SoC wie z. B. Kamera-Bildaufnahme-Pipelines ermöglichen und ermöglicht die Verwendung von globalen Speicher-Elementen, die von dem Grafikprozessorkern 219 und den CPUs innerhalb des SoC gemeinsam verwendet werden können, und/oder implementiert sie. Die SoC-Schnittstelle 232 kann außerdem Leistungsmanagementsteuerelemente für den Grafikprozessorkern 219 implementieren und eine Schnittstelle zwischen einer Taktdomäne des Grafikkerns 219 und anderen Taktdomänen innerhalb des SoC ermöglichen. In einer Ausführungsform ermöglicht die SoC-Schnittstelle 232 den Empfang von Befehlspuffern von einem Befehls-Streamer und globalen Thread-Verteiler, die konfiguriert sind, Befehle und Anweisungen für jeden aus dem einen oder den mehreren Grafikkernen innerhalb eines Grafikprozessors bereitzustellen. Die Befehle und Anweisungen können zu der Medien-Pipeline 234, wenn Medienoperationen auszuführen sind, oder eine Pipeline für Geometrie und feste Funktion (z. B. die Pipeline 231 für Geometrie und feste Funktion, die Pipeline 237 für Geometrie und feste Funktion), wenn Grafikverarbeitungsoperationen auszuführen sind, verteilt werden.
Die Grafikmikrosteuereinheit 233 kann konfiguriert sein, verschiedene Planungs- und Managementaufgaben für den Grafikprozessorkern 219 auszuführen. In einer Ausführungsform kann die Grafikmikrosteuereinheit 233 Grafik- und/oder Rechenlastplanung auf den verschiedenen Grafikparallel-Engines innerhalb der Ausführungseinheit- (EU-) Anordnungen 222A-222F, 224A-224F innerhalb der Teilkerne 221A-221F ausführen. In diesem Planungsmodell kann eine Host-Software, die auf einem CPU-Kern eines SoC, das den Grafikprozessorkern 219 enthält, abläuft, Arbeitslasten einer oder mehrerer Grafikprozessor-Klingeln übermitteln, die eine Planungsoperation auf der entsprechenden Grafik-Engine aufrufen. Planungsoperationen enthalten das Bestimmen, welche Arbeitslast als nächstes ablaufen soll, Übermitteln einer Arbeitslast an einen Befehls-Streamer, Vorwegnehmen existierender Arbeitslasten, die auf einer Engine ablaufen, Überwachen des Fortschritts einer Arbeitslast und Benachrichtigen der Host-Software, wenn eine Arbeitslast fertiggestellt ist. In einer Ausführungsform kann die Grafikmikrosteuereinheit 233 außerdem Niederleistungs- oder Leerlaufzustände für den Grafikprozessorkern 219 unterstützen, die den Grafikprozessorkern 219 mit der Fähigkeit ausstatten, Register innerhalb des Grafikprozessorkerns 219 über Niederleistungszustandsübergänge unabhängig von dem Betriebssystem und/oder der Grafiktreiber-Software auf dem System zu sichern und wiederherzustellen.
Der Grafikprozessorkern 219 kann mehr oder weniger als die dargestellten Unterkeme 221A-221F aufweisen, bis zu N modulare Unterkeme. Für jede Gruppe von N Unterkernen kann der Grafikprozessorkern 219 außerdem Logik 235 mit gemeinsam verwendeter Funktion, gemeinsam verwendeten und/oder Cache-Speicher 236, eine Pipeline 237 für Geometrie/feste Funktion und außerdem Logik 238 mit fester Funktion enthalten, um verschiedene Grafik- und Rechenverarbeitungsoperationen zu beschleunigen. Die Logik 235 mit gemeinsam verwendeter Funktion kann Logikeinheiten enthalten, die der Logik 420 mit gemeinsam verwendeter Funktion von 13 zugeordnet sind (z. B. Sampler-, Math- und/oder Inter-Thread-Kommunikations-Logik), die von jedem der N Unterkernen innerhalb des Grafikprozessorkerns 219 gemeinsam verwendet werden können. Der gemeinsam verwendete und/oder Cache-Speicher 236 kann ein Cache letzter Ebene für die Gruppe von N Teilkernen 221A-221F innerhalb des Grafikprozessorkerns 219 sein und kann auch als gemeinsam verwendeter Speicher dienen, der für mehrere Teilkerne zugänglich ist. Die Pipeline 237 für Geometrie/feste Funktion kann anstelle der Pipeline 231 für Geometrie/feste Funktion innerhalb des Blocks 230 mit fester Funktion enthalten sein und kann die gleichen oder ähnliche Logikeinheiten enthalten.
In einer Ausführungsform enthält der Grafikprozessorkern 219 zusätzliche Logik 238 mit fester Funktion, die verschiedene Beschleunigungslogik mit fester Funktion zum Gebrauch durch den Grafikprozessorkern 219 enthalten kann. In einer Ausführungsform enthält die zusätzliche Logik 238 mit fester Funktion eine zusätzliche Geometrie-Pipeline zum Gebrauch für Platzhalter-Shading. Bei der Platzhalter-Shading existieren zwei Geometrie-Pipelines, die vollständige Geometrie-Pipeline innerhalb der Pipeline 238, 231 für Geometrie/feste Funktion und eine Auswahl-Pipeline, die eine zusätzliche Geometrie-Pipeline ist, die in der zusätzlichen Logik 238 mit fester Funktion enthalten sein kann. In einer Ausführungsform ist die Auswahl-Pipeline eine verschlankte Version der vollständigen Geometrie-Pipeline. Die vollständige Pipeline und die Auswahl-Pipeline können unterschiedliche Instanzen derselben Anwendung ausführen, wobei jede Instanz einen separaten Kontext aufweist. Platzhalter-Shading kann lange Auswahl-Läufe verworfener Dreiecke verdecken, was ermöglicht, dass Shading in einigen Fällen früher fertiggestellt wird. Beispielsweise und in einer Ausführungsform kann die Auswahl-Pipeline-Logik innerhalb der zusätzlichen Logik 238 mit fester Funktion Positions-Shader parallel zu der Hauptanwendung ausführen und erzeugt im Allgemeinen kritische Ergebnisse schneller als die vollständige Pipeline, da die Auswahl-Pipeline nur das Positionsattribut von Vertices abholt, ohne Rasterung und Rendern des Pixel zu dem Rahmenpuffer auszuführen. Die Auswahl-Pipeline kann die erzeugten kritischen Ergebnisse verwenden, um Sichtbarkeitsinformationen für alle Dreiecke zu berechnen, ohne zu berücksichtigen, ob diese Dreiecke ausgewählt sind. Die vollständige Pipeline (die in diesem Fall als eine Wiedergabe-Pipeline bezeichnet sein kann) kann die Sichtbarkeitsinformationen verbrauchen, um die ausgewählten Dreiecke zu überspringen, um nur die sichtbaren Dreiecke zu schattieren, die schließlich zu der Rasterungsphase weitergegeben werden.
In einer Ausführungsform kann die zusätzliche Logik 238 mit fester Funktion außerdem Maschinenlernbeschleunigungslogik, wie z. B. Matrixmultiplikationslogik mit fester Funktion, für Implementierungen enthalten, die Optimierungen für Maschinenlemtraining oder Inferenzieren enthalten.
Innerhalb jeder Grafik enthält der Teilkern 221A-221F eine Gruppe von Ausführungsbetriebsmitteln, die verwendet werden können, um Grafik-, Medien- und Berechnungsoperationen in Reaktion auf Anforderungen durch die Grafik-Pipeline, die Medien-Pipeline oder Shader-Programme auszuführen. Die Grafikteilkerne 221A-221F enthalten mehrere EU-Anordnungen 222A-222F, 224A-224F, Logik zur Thread-Verteilung und thread-übergreifende Kommunikation (TD/IC-Logik) 223A-223F, einen 3D- (z. B. Textur-) Sampler 225A-225F, einen Medien-Sampler 206A-206F, einen Shader-Prozessor 227A-227F und einen gemeinsam verwendeten lokalen Speicher (SLM) 228A-228F. Die EU-Anordnungen 222A-222F, 224A-224F enthalten jeweils mehrere Ausführungseinheiten, die Allzweckgrafikverarbeitungseinheiten sind, die zum Ausführen von Gleitkomma- und Ganzzahl/Festkomma-Logikoperationen zum Bedienen von Grafik-, Medien- oder Berechnungsoperationen, die Grafik-, Medien- oder Computer-Shader-Programme enthalten, fähig sind. Die TD/IC-Logik 223A-223F führt lokale Thread-Verteilung und Thread-Steueroperationen für die Ausführungseinheiten innerhalb eines Teilkerns aus und unterstützt Kommunikation zwischen Threads, die auf den Ausführungseinheiten des Teilkerns ablaufen. Der 3D-Sampler 225A-225F kann Textur oder andere 3D-Grafikbezogene Daten in den Speicher lesen. Der 3D-Sampler kann Testurdaten basierend auf einem konfigurierten Musterzustand und dem Texturformat, das einer gegebenen Textur zugeordnet ist, unterschiedlich lesen. Der Medien-Sampler 206A-206F kann ähnliche Leseoperationen basierend auf dem Typ und dem Format, die Mediendaten zugeordnet sind, ausführen. In einer Ausführungsform kann jeder Grafikteilkern 221A-221F alternierend einen vereinheitlichten 3D- und Medien-Sampler enthalten. Threads, die auf dem Ausführungseinheiten innerhalb jedes der Teilkerne 221A-221F ablaufen, können den gemeinsam verwendeten lokalen Speicher 228A-228F innerhalb jedes Teilkerns verwenden, um zu ermöglichen, dass Threads, die innerhalb einer Thread-Gruppe ablaufen, unter Verwendung eines gemeinsamen Pools von chipinternem Speicher ablaufen.
11C stellt eine Grafikverarbeitungseinheit (GPU) 239 dar, die dedizierte Gruppen von Grafikverarbeitungsbetriebsmitteln enthält, die in die Mehrkerngruppen 240A-240N angeordnet sind. Obwohl die Einzelheiten nur einer einzige Mehrkerngruppe 240A bereitgestellt sind, ist zu verstehen, dass die anderen Mehrkerngruppen 240B-240N mit den gleichen oder ähnlichen Gruppen von Grafikverarbeitungsbetriebsmitteln ausgestattet sein können.
Wie dargestellt kann eine Mehrkerngruppe 240A eine Gruppe von Grafikkernen 243, eine Gruppe von Tensorkernen 244 und eine Gruppe von Strahlverfolgungskernen 245 enthalten. Ein Scheduler/Verteiler 241 plant und verteilt die Grafik-Threads zur Ausführung an die verschiedenen Kerne 243, 244, 245. Eine Gruppe von Registerdateien 242 speichert Operandenwerte, die durch die Kerne 243, 244, 245 bei der Ausführung der Grafik-Threads verwendet werden. Diese können beispielsweise Ganzzahlregister zum Speichern von Ganzzahlwerten, Gleitkommaregister zum Speichern von Gleitkommawerten, Vektorregister zum Speichern gepackter Datenelemente (Ganzzahl- und/oder Gleitkommadatenelemente) und Kachelregister zum Speichern von Tensor/Matrixwerten enthalten. In einer Ausführungsform sind die Kachelregister als kombinierte Gruppen von Vektorregistern implementiert.
Ein oder mehrere kombinierte Ebene 1- (L1-) Caches und gemeinsam verwendete Speichereinheiten 247 speichern Grafikdaten wie z. B. Texturdaten, Vertexdaten, Pixeldaten, Strahldaten, Volumenbegrenzungsdaten usw. lokal innerhalb jeder Mehrkerngruppe 240A. Ein oder mehrere Textureinheiten 247 können ebenfalls verwendet sein, um Texturoperationen wie z. B. Textur-Abbildung und Sampling auszuführen. Ein Ebene 2- (L2-) Cache 253, der von allen oder einer Teilmenge der Mehrkerngruppen 240A-240N gemeinsam verwendet wird, speichert Grafikdaten und/oder Befehle für mehrere gleichzeitige Grafik-Threads. Wie dargestellt kann der L2-Cache 253 von mehreren der Mehrkerngruppen 240A-240N gemeinsam verwendet werden. Eine oder mehrere Speichersteuereinheiten 248 koppeln die GPU 239 mit einem Speicher 249, der ein Systemspeicher (z. B. DRAM) und/oder ein dedizierter Grafikspeicher (z. B. GDDR6-Speicher) sein kann.
Die Eingabe/Ausgabe- (I/O-) Schaltungsanordnung 250 koppelt die GPU 239 mit einer oder mehreren I/O-Vorrichtungen 252 wie z. B. digitalen Signalprozessoren (DSPs), Netzsteuereinheiten oder Anwendereingabevorrichtungen. Eine chipinterne Zusammenschaltung kann verwendet werden, um die I/O-Vorrichtungen 252 mit der GPU 239 und dem Speicher 249 zu koppeln. Eine oder mehrere I/O-Speichermanagementeinheiten (IOMMUs) 251 der I/O-Schaltungsanordnung 250 koppeln die I/O-Vorrichtungen 252 direkt mit dem Systemspeicher 249. In einer Ausführungsform managt die IOMMU 251 mehrere Gruppen von Seitentabellen, um virtuelle Adressen auf physikalische Adressen in dem Systemspeicher 249 abzubilden. In dieser Ausführungsform können die I/O-Vorrichtungen 252, die CPU(s) 246 und GPU(s) 239 denselben virtuellen Adressenraum gemeinsam verwenden.
In einer Implementierung unterstützt die IOMMU 251 Virtualisierung. In diesem Fall kann sie eine erste Gruppe von Seitentabellen, um virtuelle Gast/Grafik-Adressen auf physikalische Gast/Grafik-Adressen abzubilden, und eine zweite Gruppe von Seitentabellen, um die physikalischen Gast/Grafik-Adressen auf physikalische System/Host-Adressen (z. B. innerhalb des Systemspeichers 249) abzubilden, managen. Die Basisadressen jeder aus der ersten und der zweiten Gruppe von Seitentabellen kann in Steuerregistern gespeichert und bei einem Kontextumschalten ausgelagert werden (z. B. so dass der neue Kontext mit Zugriff auf die relevante Gruppe von Seitentabellen ausgestattet wird). Obwohl in 11C nicht dargestellt kann jede/r der Kerne 243, 244, 245 und/oder Mehrkerngruppen 240A-240N Übersetzungspuffer (TLBs) enthalten, um Übersetzungen von Gast-virtuell auf Gast-physikalisch, Übersetzungen von Gast-physikalisch auf Host-physikalisch und Übersetzungen von Gast-virtuell auf Host-physikalisch zwischenzuspeichern.
In einer Ausführungsform sind die CPUs 246, GPUs 239 und I/O-Vorrichtungen 252 auf einem/einer einzigen Halbleiterchip und/oder Chip-Baugruppe integriert. Der dargestellte Speicher 249 kann auf demselben Chip integriert sein oder kann mit den Speichersteuereinheiten 248 über eine Schnittstelle außerhalb des Chips gekoppelt sein. In einer Implementierung umfasst der Speicher 249 einen GDDR6-Speicher, der denselben virtuellen Adressenraum mit anderen Systemebenen-Speichern gemeinsam verwendet, obwohl die grundlegenden Prinzipien der Erfindung nicht auf diese spezifische Implementierung beschränkt sind.
In einer Ausführungsform enthalten die Tensorkerne 244 mehrere Ausführungseinheiten, die spezifisch zum Ausführen von Matrixoperationen, die die grundlegenden Rechenoperationen sind, die verwendet werden, um Operationen zum tiefen Lernen auszuführen, konstruiert sind. Beispielsweise können gleichzeitige Matrixmultiplikationsoperationen zum Trainieren neuronaler Netze und Inferenzieren verwendet werden. Die Tensorkerne 244 können Matrixverarbeitung unter Verwendung einer Vielzahl von Operandengenauigkeiten ausführen, die einfach genaues Gleitkomma (z. 32 Bits), halb genaues Gleitkomma (z.B. 16 Bits), Ganzzahlwörter (16 Bits), Bytes (8 Bits) und Halb-Bytes (4 Bits) enthalten. In einer Ausführungsform extrahiert eine Implementierung eines neuronalen Netzes Merkmale jeder gerenderten Szene, die potentiell Einzelheiten aus mehreren Rahmen kombiniert, um ein endgültiges Bild von hoher Qualität zu konstruieren.
Bei Implementierungen für tiefes Lernen kann eine parallele Matrixmultiplikationsaufgabe zur Ausführung auf den Tensorkernen 244 geplant werden. Das Trainieren neuronaler Netze erfordert insbesondere eine signifikante Anzahl von Matrixskalarproduktoperationen. Um eine Skalarprodukt-Formulierung einer N x N x N-Matrixmultiplikation zu verarbeiten, können die Tensorkerne 244 wenigstens N Skalarproduktverarbeitungselemente enthalten. Bevor die Matrixmultiplikation beginnt, wird eine gesamte Matrix in Kachelregister geladen, und wenigstens eine Spalte einer zweiten Matrix wird in jedem Zyklus für N Zyklen geladen. In jedem Zyklus sind N Skalarprodukte vorhanden, die verarbeitet werden.
Matrixelemente können mit unterschiedlicher Genauigkeit gespeichert werden, abhängig von der speziellen Implementierung, die 16-Bit-Wörter, 8-Bit-Bytes (z. B. INT8) und 4-Bit-Halb-Bytes (z. B. INT4) enthält. Modi mit unterschiedlicher Genauigkeit können für die Tensorkerne 244 spezifiziert sein, um sicherzustellen, dass die effizienteste Genauigkeit für unterschiedliche Arbeitslasten verwendet wird (z. B. Inferenz-Arbeitslasten, die Quantisierung auf Bytes und Halb-Bytes tolerieren können).
In einer Ausführungsform beschleunigen die Strahlverfolgungskerne 245 Strahlverfolungsoperationen sowohl für Implementierungen mit Echtzeit-Strahlverfolgung als auch mit Nicht-Echtzeit-Strahlverfolgung. Insbesondere enthalten die Strahlverfolgungskerne 245 eine Strahltraversierungs/Überschneidungs-Schaltungsanordnung zum Ausführen von Strahltraversierung unter Verwendung von Volumenbegrenzungshierarchien (BVHs) und Identifizieren von Überschneidungen zwischen Strahlen und Grundelementen, die in den BHV-Volumen eingeschlossen sind. Die Strahlverfolgungskerne 245 kann außerdem eine Schaltungsanordnung zum Ausführen von tiefem Testen und Auswählen (z. B. unter Verwendung eines Z-Puffers oder einer ähnliche Anordnung) enthalten. In einer Implementierung führen die Strahlverfolgungskerne 245 Traversierung- und Überschneidungs-Operationen in Übereinstimmung mit den hier beschriebenen Bildentrauschungstechniken aus, von denen wenigstens ein Abschnitt auf den Tensorkernen 244 ausgeführt werden kann. Beispielsweise implementieren in einer Ausführungsform die Tensorkerne 244 ein neuronales Netz für tiefes Lernen, um Entrauschen von Rahmen, die durch die Strahlverfolgungskerne 245 erzeugt werden, auszuführen. Die CPU(s) 246, Grafikkerne 243 und/oder Strahlverfolgungskerne 245 können jedoch auch die gesamten Algorithmen für Entrauschen und/oder tiefes Lernen oder einen Abschnitt davon implementieren.
Zusätzlich kann, wie vorstehend beschrieben, eine verteilte Herangehensweise für das Entrauschen eingesetzt sein, in der die GPU 239 in einer Berechnungsvorrichtung ist, die mit anderen Berechnungsvorrichtungen über ein Netz oder eine Hochgeschwindigkeitszusammenschaltung gekoppelt ist. In dieser Ausführungsform verwenden die zusammengeschalteten Berechnungsvorrichtungen Lern/Trainingsdaten für das neuronale Netz gemeinsam, um die Geschwindigkeit zu erhöhen, mit der das gesamte System lernt, Entrauschen für unterschiedliche Typen von Bildrahmen und/oder unterschiedliche Grafikanwendungen auszuführen.
In einer Ausführungsform verarbeiten die Strahlverfolgungskerne 245 alle BVH-Traversierungen- und Strahl-Grundelement-Überschneidungen, was verhindert, dass die Grafikkerne 243 mit Tausenden von Anweisungen pro Strahl überlastet werden. In einer Ausführungsform enthält jeder Strahlverfolgungskern 245 eine erste Gruppe spezialisierter Schaltungsanordnung zum Ausführen von Begrenzungsrahmentests (z. B. für Traversierungsoperationen) und eine zweite Gruppe spezialisierter Schaltungsanordnung zum Ausführen von Strahl-Dreieck-Überschneidungstests (z. B. Überschneidung von Strahlen, die traversiert worden sind). Somit kann in einer Ausführungsform die Mehrkerngruppe 240A einfach eine Strahlsonde starten, und die Strahlverfolgungskerne 245 führen unabhängig Traversierung und Überschneidung aus und geben Trefferdaten (z. B. ein Treffer, kein Treffer, viele Treffer usw.) an den Thread-Kontext zurück. Die anderen Kerne 243, 244 sind frei, um andere Grafik- oder Rechenaufgaben auszuführen, während die Strahlverfolgungskerne 245 die Traversierungs- und Überschneidungsoperationen ausführen.
In einer Ausführungsform enthält jeder Strahlverfolgungskern 245 eine Traversierungseinheit zum Ausführen von BVH-Testoperationen, und eine Überschneidungseinheit, die Strahl-Grundelement-Überschneidungstests ausführt. Die Überschneidungseinheit erzeugt eine „Treffer“-, „kein Treffer“- oder „mehrere Treffer“-Antwort, die sie dem entsprechenden Thread zur Verfügung stellt. Während der Traversierungs- und Überschneidungsoperationen sind die Ausführungsbetriebsmittel der anderen Kernen (z. B. der Grafikkerne 243 und der Tensorkerne 244) frei, um andere Formen von Grafikarbeiten auszuführen.
In einer nachstehend beschriebenen speziellen Ausführungsform wird eine hybride Herangehensweise für Rasterung/Strahlverfolgung verwendet, in der die Arbeit zwischen den Grafikkernen 243 und den Strahlverfolgungskernes 245 verteilt ist.
In einer Ausführungsform enthalten die Strahlverfolgungskerne 245 (und/oder die anderen Kerne 243, 244) sowohl Hardware-Unterstützung für einen Strahlverfolgungs-Befehlssatz wie z. B. „DirectX Ray Tracing“ (DXR) von Microsoft, der DispatchRays-Befehle enthält, als auch Strahlerzeugung, bester-Treffer-, irgendein-Treffer- und Fehlschlag-Shader, die das Zuweisen eindeutiger Gruppen von Shadern und Texturen für jedes Objekt ermöglichen. Eine weitere Strahlverfolgungsplattform, die durch die Strahlverfolgungskerne 245, die Grafikkerne 243 und die Tensorkerne 244 unterstützt werden kann, ist Vulkan 1.1.85. Es wird jedoch darauf hingewiesen, dass die zugrunde liegenden Prinzipien der Erfindung nicht auf irgendeine spezielle Strahlverfolgungs-ISA beschränkt sind.
Im Allgemeinen können die verschiedenen Kerne 245, 244, 243 einen Strahlverfolgungs-Befehlssatz unterstützen, der Befehle/Funktionen zur Strahlerzeugung, bester Treffer, irgendein Treffer, Strahl-Grundelement-Überschneidung, Konstruktion von Begrenzungsrahmen pro Grundelement und hierarchisch, Fehlschlag, Besuch und Ausnahmen enthält. Insbesondere enthält eine Ausführungsform Strahlverfolgungsbefehle zum Ausführen der folgenden Funktionen:
Strahlerzeugung - Strahlerzeugungsbefehle können für jedes Pixel, Probe oder andere durch einen Anwender definierte Zuweisung von Aufgaben ausgeführt werden.
Bester Treffer - ein Befehl für einen besten Treffer kann ausgeführt werden, um den nächstgelegenen Überschneidungspunkt eines Strahls mit Grundelementen innerhalb der Szene zu lokalisieren.
Irgendein Treffer - ein Befehl für irgendeinen Treffer identifiziert mehrere Überschneidungen zwischen einem Strahl und Grundelementen innerhalb einer Szene, um potentiell einen neuen nächstgelegenen Überschneidungspunkt zu identifizieren.
Überschneidung - ein Überschneidungsbefehl führt einen Strahl-Grundelement-Überschneidungstest aus und gibt ein Ergebnis aus.
Pro Grundelement Konstruktion eines Begrenzungsrahmens - dieser Befehl baut einen Begrenzungsrahmen um ein gegebenes Grundelement oder Gruppe von Grundelementen auf (z. B. wenn eine neue BVH oder andere Beschleunigungsdatenstruktur aufgebaut wird).
Fehlschlag - gibt an, dass ein Strahl die gesamte Geometrie innerhalb einer Szene oder eines spezifizierten Gebiets einer Szene verfehlt.
Besuch - gibt die Nachfolgervolumen an, die ein Strahl durchlaufen wird.
Ausnahmen - gibt verschiedene Typen von Ausnahme-Handlern an (die z. B. für verschiedene Fehlerzustände aufgerufen werden).
11D ist ein Blockdiagramm einer Allzweckgrafikverarbeitungseinheit (GPGPU) 270, die als ein Grafikprozessor und/oder Rechenbeschleuniger konfiguriert sein kann, gemäß hier beschriebenen Ausführungsformen. Die GPGPU 270 kann mit den Host-Prozessoren (z. B. einem oder mehreren CPU(s) 246) und dem Speicher 271, 272 über einen oder mehrere System- und/oder Speicherbusse zusammengeschaltet sein. In einer Ausführungsform ist der Speicher 271 ein Systemspeicher, der mit der einen oder den mehreren CPU(s) 246 gemeinsam verwendet werden kann, während der Speicher 272 ein Vorrichtungsspeicher ist, der für die GPGPU 270 dediziert ist. In einer Ausführungsform können Komponenten innerhalb der GPGPU 270 und des Vorrichtungsspeichers 272 in Speicheradressen abgebildet werden, die für die eine oder die mehreren CPU(s) 246 zugänglich sind. Der Zugriff auf den Speicher 271 und 272 kann über eine Speichersteuereinheit 268 unterstützt werden. In einer Ausführungsform enthält die Speichersteuereinheit 268 eine interne Direktspeicherzugriffs- (DMA-) Steuereinheit 269 oder kann Logik zum Ausführen von Operationen enthalten, die andernfalls durch eine DMA-Steuereinheit ausgeführt würden.
Die GPGPU 270 enthält mehrere Cache-Speicher, die einen L2-Cache 253, einen L1-Cache 254, einen Befehls-Cache 255 und einen gemeinsam verwendeten Speicher 256, von dem wenigstens ein Teil ebenfalls als ein Cache-Speicher partitioniert sein kann, enthalten. Die GPGPU 270 enthält außerdem mehreren Recheneinheiten 260A-260N. Jede Recheneinheit 260A-260N enthält eine Gruppe von Vektorregistern 261, Skalarregistern 262, Vektorlogikeinheiten 263 und Skalarlogikeinheiten 264. Die Recheneinheiten 260A-260N können außerdem einen lokalen gemeinsam verwendeten Speicher 265 und einen Programmzähler 266 enthalten. Die Recheneinheiten 260A-260N können mit einem Konstanten-Cache 267 gekoppelt sein, der verwendet werden kann, um konstante Daten, die Daten sind, die sich während des Ablauf des Kernel- oder Shader-Programms, das auf der GPGPU 270 abläuft, nicht ändern werden ,zu speichern. In einer Ausführungsform ist der Konstanten-Cache 267 ein Skalardaten-Cache, und zwischengespeicherte Daten können direkt in die Skalarregister 262 geholt werden.
Während des Betriebs können die eine oder die mehreren CPU(s) 246 Befehle in Register oder den Speicher in der GPGPU 270, der in einen zugänglichen Adressenraum abgebildet worden ist, speichern. Die Befehlsprozessoren 257 können Befehle aus Registern oder dem Speicher lesen und bestimmen, wie diese Befehle innerhalb der GPGPU 270 verarbeitet werden. Ein Thread-Verteiler 258 kann dann verwendet werden, um Threads an die Recheneinheiten 260A-260N zum Ausführen dieser Befehle zu verteilen. Jede Recheneinheit 260A-260N kann Threads unabhängig von den anderen Recheneinheiten ausführen. Zusätzlich kann jede Recheneinheit 260A-260N unabhängig für bedingte Berechnung konfiguriert sein und kann die Ergebnisse der Berechnung bedingt zu dem Speicher ausgeben. Die Befehlsprozessoren 257 können die eine oder die mehreren CPU(s) 246 unterbrechen, wenn die übermittelten Befehle fertiggestellt sind.
Die 12A-12B stellen Blockdiagramme zusätzlicher Grafikprozessor- und Rechenbeschleuniger-Architekturen dar, die durch hier beschriebene Ausführungsformen bereitgestellt sind. Die Elemente der 12A-12B, die die gleichen Bezugszeichen (oder Namen) wie die Elemente irgendeiner anderen Figur hier aufweisen, können auf eine Weise ähnlich der an anderer Stelle hier beschriebenen arbeiten oder funktionieren, sind jedoch nicht darauf beschränkt.
12A ist ein Blockdiagramm eines Grafikprozessors 300, der eine diskrete Grafikverarbeitungseinheit sein kann oder ein Grafikprozessor sein kann, der mit mehreren Verarbeitungskernen oder anderen Halbleitervorrichtungen wie z. B., ohne jedoch darauf beschränkt zu sein, Speichervorrichtungen oder Netzschnittstellen integriert sein kann. In einigen Ausführungsformen kommuniziert der Grafikprozessor über eine speicherabgebildete I/O-Schnittstelle zu Registern auf dem Grafikprozessor und mit Befehlen, die in den Prozessorspeicher platziert sind. In einigen Ausführungsformen enthält der Grafikprozessor 300 eine Speicherschnittstelle 314, um auf den Speicher zuzugreifen. Die Speicherschnittstelle 314 kann eine Schnittstelle zu einem lokalen Speicher, einem oder mehreren internen Caches, einem oder mehreren gemeinsam verwendeten externen Caches und/oder zu dem Systemspeicher sein.
In einigen Ausführungsformen enthält der Grafikprozessor 300 außerdem eine Anzeigesteuereinheit 302 zum Treiben von Anzeigeausgabedaten zu einer Anzeigevorrichtung 318. Die Anzeigesteuereinheit 320 enthält Hardware für eine oder mehrere Überlagerungsebenen für die Anzeige und Zusammenstellung mehrerer Schichten von Video oder Anwenderschnittstellenelementen. Die Anzeigevorrichtung 318 kann eine interne oder eine externe Anzeigevorrichtung sein. In einer Ausführungsform ist die Anzeigevorrichtung 318 eine am Kopf getragene Anzeigevorrichtung, wie z. B. eine Anzeigevorrichtung für virtuelle Realität (VR) oder eine Anzeigevorrichtung für erweiterte Realität (AR). In einigen Ausführungsformen enthält der Grafikprozessor 300 eine Video-Codec-Engine 306 zum Codieren, Decodieren oder Transcodieren von Medien in ein oder mehrere, aus einem oder zwischen einem oder mehreren Mediencodierungsformate/n, die, ohne jedoch nicht darauf beschränkt zu sein, sowohl Formate der „Moving Picture Experts Group“ (MPEG) wie z. B. MPEG-2, „Advanced Video Coding“- (AVC-) Formate wie z. B. H.264/MPEG-4 AVC, H.265/HEVC, „Alliance for Open Media“ (AOMedia) VP8, VP9 als auch Formate der „Society of Motion Picture & Television Engineers“ (SMPTE) 421M/VC-1 und „Joint Photographic Experts Group“ (JPEG) wie z. B. JPEG und Motion JPEG (MJPEG) enthalten.
In einigen Ausführungsformen enthält der Grafikprozessor 300 eine Blockbildübertragungs- (BLIT-) Engine 403 zum Ausführen zweidimensionaler (2D) Rasterisierer-Operationen, die beispielsweise Bitgrenzenblockübertragungen enthalten. In einer Ausführungsform werden 2D-Grafikoperationen jedoch unter Verwendung einer oder mehrerer Komponenten der Grafikverarbeitungs-Engine (GPE) 310 ausgeführt. In einigen Ausführungsformen ist die GPE 310 eine Rechen-Engine zum Ausführen von Grafikoperationen, die dreidimensionale (3D-) Grafikoperationen und Medienoperationen enthalten.
In einigen Ausführungsformen enthält die GPE 310 eine 3D-Pipeline 312 zum Ausführen von 3D-Operationen wie z. B. Rendern dreidimensionaler Bilder und Szenen unter Verwendung von Verarbeitungsfunktionen, die auf 3D-Grundformen (z.B. einem Rechteck, Dreieck usw.) arbeiten. Die 3D-Pipeline 312 enthält programmierbare Elemente und Elemente mit fester Funktion, die verschiedene Aufgaben innerhalb des Elements ausführen und/oder Ausführungs-Threads zu einem 3D/Medienteilsystem 315 erzeugen. Während die 3D-Pipeline 312 verwendet werden kann, um Medienoperationen auszuführen, enthält eine Ausführungsform der GPE 310 außerdem eine Medien-Pipeline 316, die spezifisch verwendet wird, um Medienoperationen wie z. B. Videonachverarbeitung und Bildverbesserung auszuführen.
In einigen Ausführungsformen enthält die Medien-Pipeline 316 Logikeinheiten mit fester Funktion oder programmierbare Logikeinheiten zum Ausführen einer oder mehrerer spezialisierter Medienoperationen wie z. B. Video-Decodierungsbeschleunigung, Video-Entschachtelung und Video-Codierungsbeschleunigung anstelle der oder im Auftrag der Video-Codec-Engine 306. In einigen Ausführungsformen enthält die Medien-Pipeline 316 zusätzlich eine Thread-Erzeugungseinheit zum Erzeugen von Threads zur Ausführung auf dem 3D/Medienteilsystem 315. Die erzeugten Threads führen Berechnungen für die Medienoperationen auf einer oder mehreren Grafikausführungseinheiten, die in dem 3D/Medienteilsystem 315 enthalten sind, aus.
In einigen Ausführungsformen enthält das 3D/Medienteilsystem 315 Logik zum Ausführen von Threads, die durch die 3D-Pipeline 312 und die Medien-Pipeline 316 erzeugt werden. In einer Ausführungsform senden die Pipelines Thread-Ausführungsanforderungen an das 3 D/Medienteilsystem 315, das Thread-Verteilungslogik zum Vermitteln und Verteilen der verschiedenen Anforderungen an verfügbare Thread-Ausführungsbetriebsmittel enthält. Die Ausführungsbetriebsmittel enthalten eine Gruppe von Grafikausführungseinheiten zum Verarbeiten der 3D- und Medien-Threads. In einigen Ausführungsformen enthält das 3D-Medienteilsystem einen oder mehrere interne Caches für Thread-Anweisungen und Daten. In einigen Ausführungsformen enthält das Teilsystem auch gemeinsam verwendeten Speicher, der Register und adressierbaren Speicher enthält, um Daten durch Threads gemeinsam zu verwenden und um Ausgabedaten zu speichern.
12B stellt einen Grafikprozessor 320, der eine gekachelte Architektur aufweist, gemäß hier beschriebenen Ausführungsformen dar. In einer Ausführungsform enthält der Grafikprozessor 320 ein Grafikverarbeitungs-Engine-Cluster 322, das mehrere Instanzen der Grafikverarbeitungs-Engine 310 von 12A innerhalb einer Grafik-Engine-Kachel 310A-310D aufweist. Jede Grafik-Engine-Kachel 310A-310D kann über eine Gruppe von Kachelzusammenschaltungen 323A-323F zusammengeschaltet sein. Jede Grafik-Engine-Kachel 310A-310D kann außerdem mit einem Speichermodul oder einer Speichervorrichtung 326A-326D über Speicherzusammenschaltungen 325A-325D verbunden sein. Die Speichervorrichtungen 326A-326D können irgendeine Grafikspeichertechnologie verwenden. Beispielsweise können die Speichervorrichtungen 326A-326D Grafik-Doppeldatenraten- (GDDR-) Speicher sein. Die Speichervorrichtungen 326A-326D sind in einer Ausführungsform Speichermodule mit hoher Bandbreite (HBM-Module), die mit ihrer jeweiligen Grafik-Engine-Kachel 310A-310D auf einem Baustein sein können. In einer Ausführungsform sind die Speichervorrichtungen 326A-326D gestapelte Speichervorrichtungen, die oben auf ihre jeweilige Grafik-Engine-Kachel 310A-310D gestapelt sein können. In einer Ausführungsform befinden sich jede Grafik-Engine-Kachel 310A-310D und der zugeordnete Speicher 326A-326D auf separaten Chiplets, die an einen Basisbaustein oder ein Basissubstrat gebondet sind, wie mit weiteren Einzelheiten in den 20B-20D beschrieben ist.
Das Grafikverarbeitungs-Engine-Cluster 322 kann mit einer chipinternen oder baugruppeninternen Fabric-Zusammenschaltung 324 verbunden sein. Die Fabric-Zusammenschaltung 324 kann die Kommunikation zwischen Grafik-Engine-Kacheln 310A-310D und Komponenten wie z. B. dem Video-Codec 306 und einer oder mehreren Kopier-Engines 304 ermöglichen. Die Kopier-Engines 304 können verwendet werden, um Daten aus den, in die und zwischen den Speichervorrichtungen 326A-326D und dem Speicher, der außerhalb des Grafikprozessors 320 ist (z. B. dem Systemspeicher) zu verlagern. Die Fabric-Zusammenschaltung 324 kann außerdem verwendet werden, um die Grafik-Engine-Kacheln 310A-310D zusammenzuschalten. Der Grafikprozessor 320 kann optional eine Anzeigesteuereinheit 302 enthalten, um eine Verbindung mit einer externen Anzeigevorrichtung 318 zu ermöglichen. Der Grafikprozessor kann außerdem als ein Grafik- oder Rechenbeschleuniger konfiguriert sein. In der Beschleunigerkonfiguration können die Anzeigesteuereinheit 302 und die Anzeigevorrichtung 318 weggelassen sein.
Der Grafikprozessor 320 kann über eine Host-Schnittstelle 328 mit einem Host-System verbunden sein. Die Host-Schnittstelle 328 kann Kommunikation zwischen dem Grafikprozessor 320, dem Systemspeicher und/oder anderen Systemkomponenten ermöglichen. Die Host-Schnittstelle 328 kann beispielsweise ein PCI-Express-Bus oder ein anderer Typ einer Host-System-Schnittstelle sein.
12C stellt einen Rechenbeschleuniger 330 gemäß hier beschriebenen Ausführungsformen dar. Der Rechenbeschleuniger 330 kann architektonische Ähnlichkeiten mit dem Grafikprozessor 320 von 12B enthalten und ist für Rechenbeschleunigung optimiert. Ein Rechen-Engine-Cluster 332 kann eine Gruppe von Rechen-Engine-Kacheln 340A-340D enthalten, die Ausführungslogik enthalten, die für parallele oder vektorbasierte Allzweckrechenoperationen optimiert ist. In einigen Ausführungsformen enthalten die Rechen-Engine-Kacheln 340A-340D keine Grafikverarbeitungslogik mit fester Funktion, obwohl in einer Ausführungsform eine oder mehrere der Rechen-Engine-Kacheln 340A-340D Logik zum Ausführen von Medienbeschleunigung enthalten können. Die Rechen-Engine-Kacheln 340A-340D können mit dem Speicher 326A-326D über Speicherzusammenschaltungen 325A-325D verbunden sein. Der Speicher 326A-326D und die Speicherzusammenschaltungen 325A-325D können eine ähnliche Technologie wie in dem Grafikprozessor 320 sein oder können unterschiedlich sein. Die Grafikrechen-Engine-Kacheln 340A-340D können außerdem über eine Gruppe von Kachelzusammenschaltungen 323A-323F zusammengeschaltet sein und können mit einer Fabric-Zusammenschaltung 324 verbunden und/oder durch sie zusammengeschaltet sein. In einer Ausführungsform enthält der Rechenbeschleuniger 330 einen großen L3-Cache 336, der als ein vorrichtungsweiter Cache konfiguriert sein kann. Der Rechenbeschleuniger 330 kann außerdem mit einem Host-Prozessor und einem Speicher über eine Host-Schnittstelle 328 auf ähnliche Weise wie der Grafikprozessor 320 von 12B verbunden sein.
Grafikverarbeitungs-Engine
13 ist ein Blockdiagramm einer Grafikverarbeitungs-Engine 410 eines Grafikprozessors in Übereinstimmung mit einigen Ausführungsformen. In einer Ausführungsform ist die Grafikverarbeitungs-Engine (GPE) 410 eine Version der in 12A gezeigten GPE und kann außerdem eine Grafik-Engine-Kachel 310A-310D von 12B repräsentieren. Elemente von 13, die die gleichen Bezugszeichen (oder Namen) wie die Elemente irgendeiner anderen Figur hier aufweisen, können auf eine Weise arbeiten oder funktionieren, die ähnlich derjenigen die, die hier an anderer Stelle beschrieben ist, sind jedoch nicht darauf beschränkt. Beispielsweise sind die 3D-Pipeline 312 und die Medien-Pipeline 316 von 12A dargestellt. Die Medien-Pipeline 316 ist in einigen Ausführungsformen der GPE 410 optional und kann in der GPE 410 nicht ausdrücklich enthalten sein. Beispielsweise und in wenigstens einer Ausführungsform ist ein separater Medien- und/oder Bildprozessor mit der GPE 410 gekoppelt.
In einigen Ausführungsformen ist die GPE 410 mit einem Befehls-Streamer 403, der einen Befehlsstrom zu der 3D-Pipeline 312 und/oder Medien-Pipelines 316 bereitstellt, gekoppelt oder enthält ihn. In einigen Ausführungsformen ist der Befehls-Streamer 403 mit Speicher, der Systemspeicher oder einer oder mehrere aus internem Cache-Speicher und gemeinsam verwendetem Cache-Speicher sein kann, gekoppelt. In einigen Ausführungsformen empfängt der Befehls-Streamer 403 Befehle aus dem Speicher und sendet die Befehle zu der 3D-Pipeline 312 und/oder Medien-Pipeline 316. Die Befehle sind Anweisungen, die aus einem Ringpuffer geholt werden, der Befehle für die 3D-Pipeline 312 und Medien-Pipeline 316 speichert. In einer Ausführungsform kann der Ringpuffer zusätzlich Batch-Befehlspuffer enthalten, die Batches aus mehreren Befehlen speichern. Die Befehle für die 3D-Pipeline 312 können außerdem Referenzen auf im Speicher gespeicherte Daten enthalten, wie z. B., ohne jedoch darauf beschränkt zu sein, Vertex- und Geometriedaten für die 3D-Pipeline 312 und/oder Bilddaten und Speicherobjekte für die Medien-Pipeline 316. Die 3D-Pipeline 312 und die Medien-Pipeline 316 verarbeiten die Befehle und Daten durch Ausführen von Operationen über Logik innerhalb der entsprechenden Pipelines oder durch Verteilen eines oder mehrerer Ausführungs-Threads zu einer Grafikkernanordnung 414. In einer Ausführungsform enthält die Grafikkernanordnung 414 einen oder mehrere Blöcke von Grafikkernen (z. B. Grafikkern(e) 425A, Grafikkern(e) 415B), wobei jeder Block einen oder mehrere Grafikkerne enthält. Jeder Grafikkern enthält eine Gruppe von Grafikausführungsbetriebsmitteln, die sowohl Allzweck- und grafikspezifische Ausführungslogik zum Ausführen von Grafik- und Rechenoperationen als auch Logik für Texturverarbeitung mit fester Funktion und/oder Maschinenlernen und Beschleunigung für künstliche Intelligenz enthält.
In verschiedenen Ausführungsformen kann die 3D-Pipeline 312 Logik mit fester Funktion und programmierbare Logik enthalten, um ein oder mehrere Shader-Programme zu verarbeiten, wie z. B. Vertex-Shader, Geometrie-Shader, Pixel-Shader, Fragment-Shader, Rechen-Shader oder andere Shader-Programme, durch Verarbeiten der Anweisungen und Verteilen von Ausführungs-Threads zu der Grafikkernanordnung 414. Die Grafikkernanordnung 414 stellt einen einheitlichen Block von Ausführungsbetriebsmitteln zum Gebrauch zum Verarbeiten dieser Shader-Programme bereit. Mehrzweck-Ausführungslogik (z. B. Ausführungseinheiten) innerhalb des/der Grafikkern(e) 415A-414B der Grafikkernanordnung 414 enthält Unterstützung für verschiedene 3D-API-Shader-Sprachen und kann mehrere gleichzeitige Ausführungs-Threads, die mehreren Shadern zugeordnet sind, ausführen.
In einigen Ausführungsformen enthält die Grafikkernanordnung 414 Ausführungslogik zum Ausführen von Medienfunktionen wie z. B. Video- und/oder Bildverarbeitung. In einer Ausführungsform enthalten die Ausführungseinheiten Allzwecklogik, die programmierbar ist, um parallele Allzweckberechnungsoperationen auszuführen, zusätzlich zu Grafikverarbeitungsoperationen. Die Allzwecklogik kann Verarbeitungsoperationen parallel oder zusammen mit Allzwecklogik innerhalb des/der Prozessorkern(e) 107 von 10 oder dem Kern 202A-202N wie in 11A ausführen.
Ausgabedaten, die durch Threads erzeugt werden, die auf der Grafikkernanordnung 424 ablaufen, können Daten zum Speicher in einem vereinheitlichten Rückgabepuffer (URB) 418 ausgeben. Der URB 418 kann Daten für mehrere Threads speichern. In einigen Ausführungsformen kann der URB 428 verwendet werden, um Daten zwischen unterschiedlichen Threads, die auf der Grafikkernanordnung 414 ablaufen, zu senden. In einigen Ausführungsformen kann der URB 418 zusätzlich zur Synchronisation zwischen Threads auf der Grafikkernanordnung und der Logik mit fester Funktion innerhalb der Logik 420 mit gemeinsam verwendeter Funktion verwendet werden.
In einigen Ausführungsformen ist die Grafikkernanordnung 414 skalierbar, so dass die Anordnung eine variable Anzahl von Grafikkernen enthält, von denen jeder eine variable Anzahl von Ausführungseinheiten basierend auf der Zielleistung und dem Leistungsfähigkeitsniveau der GPE 410 aufweist. In einer Ausführungsform sind die Ausführungsbetriebsmittel dynamisch skalierbar, so dass Ausführungsbetriebsmittel bei Bedarf aktiviert oder deaktiviert werden können.
Die Grafikkernanordnung 414 ist mit der Logik 420 mit gemeinsam verwendeter Funktion gekoppelt, die mehrere Betriebsmittel enthält, die von den Grafikkernen in der Grafikkernanordnung gemeinsam verwendet werden. Die gemeinsam verwendeten Funktionen innerhalb der Logik 420 mit gemeinsam verwendeter Funktion sind Hardware-Logikeinheiten, die spezialisierte ergänzende Funktionalität für die Grafikkernanordnung 414 bereitstellen. In verschiedenen Ausführungsformen enthält die Logik 420 mit gemeinsam verwendeter Funktion, ohne jedoch darauf beschränkt zu sein, Logik für Sampler 421, Math 422 und Thread-übergreifende Kommunikation (ITC) 423. Zusätzlich implementieren einige Ausführungsformen einen oder mehrere Cache(s) 425 innerhalb der Logik 420 mit gemeinsam verwendeter Funktion.
Eine gemeinsam verwendete Funktion ist wenigstens in einem Fall implementiert, in dem der Bedarf für eine gegebene spezialisierte Funktion zum Aufnehmen in die Grafikkernanordnung 414 nicht ausreichend ist. Stattdessen ist eine einzige Instanziierung dieser spezialisierten Funktion als eine eigenständige Instanziierung in der Logik 420 mit gemeinsam verwendeter Funktion implementiert und wird von den Ausführungsbetriebsmitteln innerhalb der Grafikkernanordnung 414 gemeinsam verwendet. Die genaue Gruppe von Funktionen, die von der Grafikkernanordnung 412 gemeinsam verwendet und in der Grafikkernanordnung 414 enthalten ist, variiert über die Ausführungsformen. In einigen Ausführungsformen können spezifische gemeinsam verwendete Funktionen innerhalb der Logik 420 mit gemeinsam verwendeter Funktion, die durch die Grafikkernanordnung 414 extensiv verwendet werden, in der Logik 416 mit gemeinsam verwendeter Funktion innerhalb der Grafikkernanordnung 414 enthalten sein. In verschiedenen Ausführungsformen kann die Logik 416 mit gemeinsam verwendeter Funktion in der Grafikkernanordnung 414 einen Teil der der oder die gesamte Logik innerhalb der Logik 420 mit gemeinsam verwendeter Funktion enthalten. In einer Ausführungsform können alle Logikelemente innerhalb der Logik 420 mit gemeinsam verwendeter Funktion innerhalb der Logik 416 mit gemeinsam verwendeter Funktion der Grafikkernanordnung 414 dupliziert sein. In einer Ausführungsform ist die Logik 420 mit gemeinsam verwendeter Funktion zugunsten der Logik 416 mit gemeinsam verwendeter Funktion innerhalb der Grafikkernanordnung 414 ausgeschlossen.
Ausführungseinheiten
Die 14A-14B stellen Thread-Ausführungslogik 500, die eine Anordnung von Verarbeitungselementen enthält, die in einem Grafikprozessorkern eingesetzt sind, gemäß hier beschriebenen Ausführungsformen dar. Elemente der 14A-14B, die die gleichen Bezugszeichen (oder Namen) aufweisen wie die Elemente irgendeiner anderen Figur hier, können auf eine Weise arbeiten oder funktionieren, die ähnlich der an anderer Stelle hier beschriebenen ist, sind jedoch nicht darauf beschränkt. Die 14A-14B stellen einen Überblick über die Thread-Ausführungslogik 500 dar, die für die Hardware-Logik, die für jeden Teilkern 221A-221F von 11B dargestellt ist, repräsentativ sein kann. 14A ist für eine Ausführungseinheit innerhalb eines Allzweckgrafikprozessors repräsentativ, während 14B für eine Ausführungseinheit, die innerhalb eines Rechenbeschleunigers verwendet werden kann, repräsentativ ist.
Wie in 14A dargestellt ist, enthält in einigen Ausführungsformen die Thread-Ausführungslogik 500 einen Shader-Prozessor 502, einen Thread-Verteiler 504, einen Befehls-Cache 506, eine skalierbare Ausführungseinheits-Anordnung, die mehrere Ausführungseinheiten 508A-508N enthält, einen Sampler 510, einen gemeinsam verwendeten lokalen Speicher 511, einen Daten-Cache 512 und einen Daten-Port 514. In einer Ausführungsform kann die skalierbare Ausführungseinheits-Anordnung dynamisch durch Aktivieren oder Deaktivieren einer oder mehrerer Ausführungseinheiten (z. B. irgendeiner der Ausführungseinheit 508A, 508B, 508C, 508D bis 508N-1 und 508N) basierend auf den Rechenanforderungen einer Last skaliert werden. In einer Ausführungsform sind die enthaltenen Komponenten über ein Zusammenschaltungs-Fabric, das mit jeder der Komponenten gekoppelt ist, miteinander verbunden. In einigen Ausführungsformen enthält die Thread-Ausführungslogik 500 eine oder mehrere Verbindungen zum Speicher, wie z. B. dem Systemspeicher oder Cache-Speicher, durch einen oder mehrere aus dem Befehls-Cache 506, dem Daten-Port 514, dem Sampler 510 und den Ausführungseinheiten 508A-508N. In einigen Ausführungsformen ist jede Ausführungseinheit (z. B. 508A) eine eigenständige programmierbare Allzweckberechnungseinheit, die zum Ausführen mehrerer gleichzeitiger Hardware-Threads fähig ist, während sie mehrere Datenelemente parallel für jeden Thread verarbeitet. In verschiedenen Ausführungsformen ist die Anordnung von Ausführungseinheiten 508A-508N skalierbar, so dass es irgendeine Anzahl individueller Ausführungseinheiten enthält.
In einigen Ausführungsformen werden die Ausführungseinheiten 508A-508N primär zum Ausführen von Shader-Programmen verwendet. Ein Shader-Prozessor 502 kann die verschiedenen Shader-Programme verarbeiten und Ausführungs-Threads, die den Shader-Programmen zugeordnet sind, über einen Thread-Verteiler 504 verteilen. In einer Ausführungsform enthält der Thread-Verteiler Logik, um Thread-Einleitungsanforderungen aus den Grafik- und Medien-Pipelines zu vermitteln und die angeforderten Threads auf einer oder mehreren Ausführungseinheiten in den Ausführungseinheiten 508A-508N zu instanziieren. Beispielsweise kann eine Geometrie-Pipeline Scheitel-, Parkettierung- oder Geometrie-Shader zur Thread-Ausführungslogik zur Verarbeitung verteilen. In einigen Ausführungsformen kann der Thread-Verteiler 504 außerdem Laufzeit-Thread-Erzeugungsanforderungen aus den ablaufenden Shader-Programmen verarbeiten.
In einigen Ausführungsformen unterstützen die Ausführungseinheiten 508A-508N einen Befehlssatz, der native Unterstützung für viele Standard-3D-Grafik-Shader-Befehle enthält, so dass Shader-Programme aus Grafikbibliotheken (z. B. Direct 3D und OpenGL) mit einer minimalen Übersetzung ausgeführt werden. Die Ausführungseinheiten unterstützen Vertex- und Geometrieverarbeitung (z. B. Vertexprogramme, Geometrieprogramme, Vertex-Shader), Pixelverarbeitung (z. B. Pixel-Shader, Fragment-Shader) und Allzweckverarbeitung (z. B. Berechnen und Medien-Shader). Jede der Ausführungseinheiten 508A-508N ist zur Ausführung von Mehrfachausgabe von Einzelbefehl-Mehrfachdaten (SIMD) fähig, und Mehr-Thread-Operation ermöglicht eine effiziente Ausführungsumgebung angesichts von Speicherzugriffen mit größerer Latenz. Jeder Hardware-Thread innerhalb jeder Ausführungseinheit weist eine dedizierte Registerdatei mit großer Bandbreite und einen zugeordneten unabhängigen Thread-Zustand auf. Die Ausführung ist mit Mehrfachausgabe pro Takt zu Pipelines, die zu Ganzzahl-, einfach und doppelt genauer Gleitkommazahloperationen, SIMD-Verzweigungsfähigkeit, logischen Operationen, transzendenten Operationen und verschiedenen anderen Operationen fähig sind. Während auf Daten aus dem Speicher oder einer der gemeinsam verwendeten Funktionen gewartet wird, veranlasst eine Abhängigkeitslogik innerhalb der Ausführungseinheiten 508A-508N, dass ein wartender Thread schläft, bis die angeforderten Daten zurückgegeben worden sind. Während der wartende Thread schläft, können Hardware-Betriebsmittel dem Verarbeiten anderer Threads gewidmet werden. Beispielsweise kann während einer Verzögerung, die einer Vertex-Shader-Operation zugeordnet ist, eine Ausführungseinheit Operationen für einen Pixel-Shader, Fragment-Shader oder einen andere Typ eines Shader-Programms, das einen anderen Vertex-Shader enthält, ausführen. Verschiedene Ausführungsformen für die Ausführung durch Verwendung von Einzelbefehl-Mehrfach-Threads (SIMT) als eine Alternative für die Verwendung von SIMD oder zusätzlich zur Verwendung von SIMD gelten. Bezugnahme auf eine/n SIMD-Kern oder -Operation kann auch für SIMT gelten oder auf SIMD in Kombination mit SIMT gelten.
Jede Ausführungseinheit in den Ausführungseinheiten 508A-508N arbeitet auf Anordnungen von Datenelementen. Die Anzahl von Datenelementen ist die „Ausführungsgröße“ oder die Anzahl von Kanälen für den Befehl. Ein Ausführungskanal ist eine logische Einheit zum Ausführen für Datenelementzugriff, Maskierung und Ablaufsteuerung innerhalb von Befehlen. Die Anzahl von Kanälen kann von der Anzahl physikalischer Arithmetiklogikeinheiten (ALUs) oder Gleitkommaeinheiten (FPUs) für einen speziellen Grafikprozessor unabhängig sein. In einigen Ausführungsformen unterstützen die Ausführungseinheiten 508A-508N Ganzzahl- und Gleitkomma-Datentypen.
Der Ausführungseinheitenbefehlssatz enthält SIMD-Befehle. Die verschiedenen Datenelemente können als ein gepackter Datentyp in einem Register gespeichert sein, und die Ausführungseinheit wird die verschiedenen Elemente basierend auf der Datengröße der Elemente verarbeiten. Beispielsweise werden, wenn sie auf einem 256-Bit breiten Vektor arbeitet, die 256 Bits des Vektors in einem Register gespeichert, und die Ausführungseinheit arbeitet auf dem Vektor als vier separate gepackte 54-Bit-Datenelemente (Datenelemente der Größe Quad-Wort (QW)), acht separate gepackte 32-Bit-Datenelemente (Datenelemente der Größe Double-Word (DW)), sechzehn separate gepackte 16-Bit-Datenelemente (Datenelemente der Größe Wort (W)) oder zweiunddreißig separate 8-Bit-Datenelemente (Datenelemente der Größe Byte (B)). Es sind jedoch andere Vektorbreiten und Registergrößen möglich.
In einer Ausführungsform können eine oder mehrere Ausführungseinheiten in eine vereinigte Ausführungseinheit 509A-509N kombiniert sein, die eine Thread-Steuerlogik (507A-507N) aufweist, die den vereinigten EUs gemeinsam ist. Mehrere EUs können in eine EU-Gruppe vereinigt sein. Jede EU in der vereinigten EU-Gruppe kann konfiguriert sein, einen separaten SIMD-Hardware-Thread auszuführen. Die Anzahl von EUs in einer vereinigten EU-Gruppe kann gemäß Ausführungsformen variieren. Zusätzlich können verschiedene SIMD-Breiten pro EU ausgeführt werden, die, ohne darauf beschränkt zu sein, SIMD8, SIMD16 und SIMD32 enthalten. Jede vereinigte Grafikausführungseinheit 509A-509N enthält wenigstens zwei Ausführungseinheiten. Beispielsweise enthält die vereinigte Ausführungseinheit 509A eine erste EU 508A, eine zweite EU 508B und die Thread-Steuerlogik 507A, die der ersten EU 508A und der zweite EU 508B gemeinsam ist. Die Thread-Steuerlogik 507A steuert Threads, die auf der vereinigten Grafikausführungseinheit 509A ausgeführt werden, was es jeder EU innerhalb der vereinigten Ausführungseinheiten 509A-509N ermöglicht, unter Verwendung eines gemeinsamen Befehlszeigerregisters abzulaufen.
Ein oder mehrere interne Befehls-Caches (z. B. 506) sind in der Thread-Ausführungslogik 500 enthalten, um Thread-Befehle für die Ausführungseinheiten zwischenzuspeichern. In einigen Ausführungsformen sind ein oder mehrere Daten-Caches (z.B. 512) enthalten, um Thread-Daten während der Thread-Ausführung zwischenzuspeichern. Threads, die auf der Ausführungslogik 500 ablaufen, können außerdem gemanagte Daten explizit in dem gemeinsam verwendeten lokalen Speicher 511 speichern. In einigen Ausführungsformen ist ein Sampler 510 enthalten, um Textur-Sampling für 3D-Operationen und Medien-Sampling für Medienoperationen auszuführen. In einigen Ausführungsformen enthält der Sampler 510 spezialisierte Textur- oder Medien-Sampling-Funktionalität, um Textur- oder Mediendaten während des Sampling-Prozesses zu verarbeiten, bevor die Sampling-Daten für eine Ausführungseinheit bereitgestellt werden.
Während der Ausführung senden die Grafik- und Medien-Pipelines Thread-Initiierungsanforderungen zu der Thread-Ausführungslogik 500 über die Thread-Einführungs- und Verteilungs-Logik. Sobald eine Gruppe geometrischer Objekte verarbeitet und in Pixeldaten gerastert worden ist, wird die Pixelprozessorlogik (z. B. Pixel-Shader-Logik, Fragment-Shader-Logik usw.) innerhalb des Shader-Prozessors 502 aufgerufen, um ausgegebene Informationen weiter zu berechnen und zu veranlassen, dass Ergebnisse in Ausgabeoberflächen (z. B. Farbpuffer, Tiefenpuffer, Schablonenpuffer usw.) geschrieben werden. In einigen Ausführungsformen berechnet ein Pixel-Shader oder Fragment-Shader die Werte der verschiedenen Vertex-Attribute, die über das gerasterte Objekt interpoliert werden sollen. In einigen Ausführungsformen führt dann die Pixel-Prozessorlogik innerhalb des Shader-Prozessors 502 ein über die Anwendungsprogrammierschnittstelle (API) zugeführtes Pixel- oder Fragment-Shader-Programm aus. Um das Shader-Programm auszuführen, verteilt der Shader-Prozessor 502 Threads an eine Ausführungseinheit (z. B. 508A) über den Thread-Verteiler 504. In einigen Ausführungsformen verwendet der Shader-Prozessor 502 Textur- Sampling-Logik in dem Sampler 510, um auf Texturdaten in Textur-Karten, die in dem Speicher gespeichert sind, zuzugreifen. Arithmetikoperationen auf den Texturdaten und der eingegebenen Geometriedaten berechnen Pixel-Farbdaten für jedes geometrische Fragment oder verwerfen ein oder mehrere Pixel aus der weiteren Verarbeitung.
In einigen Ausführungsformen stellt der Daten-Port 514 einen Speicherzugriffsmechanismus für die Thread-Ausführungslogik 500 bereit, um verarbeitete Daten zum Speicher zur weiteren Verarbeitung auf einer Grafikprozessorausgabe-Pipeline auszugeben. In einigen Ausführungsformen enthält der Daten-Port 514 einen oder mehrere Cache-Speicher (z. B. Daten-Cache 512) oder ist mit ihnen gekoppelt, um Daten für Speicherzugriff über den Daten-Port zwischenzuspeichern.
In einer Ausführungsform kann die Ausführungslogik 500 außerdem einen Strahl-Tracer 505 enthalten, der Strahlverfolgungsbeschleunigungsfunktionalität bereitstellen kann. Der Strahl-Tracer 505 kann einen Strahlverfolgungsbefehlssatz unterstützen, der Befehle/Funktionen zur Strahlerzeugung enthält. Der Strahlverfolgungsbefehlssatz kann ähnlich dem durch die Strahlverfolgungskerne 245 in 1 1C unterstützten Strahlverfolgungsbefehlssatz oder von ihm verschieden sein.
14B stellt beispielhafte interne Einzelheiten einer Ausführungseinheit 508 gemäß Ausführungsformen dar. Eine Grafikausführungseinheit 508 kann eine Befehlsabholeinheit 537, ein allgemeines Registerdatei-Array (GRF) 524, ein architektonisches Registerdatei-Array (ARF) 526, einen Thread-Vermittler 522, eine Sendeeinheit 530, eine Verzweigungseinheit 532, eine Gruppe von SIMD-Gleitkommaeinheiten (FPUs) 534 und in einer Ausführungsform eine Gruppe dedizierter Ganzzahl-SIMD-ALUs 535 enthalten. Das GRF 524 und das ARF 526 enthalten die Gruppe allgemeiner Registerdateien und architektonischer Registerdateien, die jedem gleichzeitigen Hardware-Thread, der in der Grafikausführungseinheit 508 aktiv sein kann, zugeordnet sind. In einer Ausführungsform wird ein architektonischer Zustand pro Thread in dem ARF 526 gehalten während Daten, die während der Thread-Ausführung verwendet werden, in dem GRF 524 gespeichert sind. Der Ausführungszustand jedes Threads, der die Befehlszeiger für jeden Thread enthält, kann in Thread-spezifischen Registern in dem ARF 526 gehalten werden.
In einer Ausführungsform weist die Grafikausführungseinheit 508 eine Architektur auf, die eine Kombination aus gleichzeitigem Multi-Threading (SMT) und feingranularem verschachteltem Multi-Threading (IMT) ist. Die Architektur weist eine modulare Konfiguration auf, die zur Zeit der Konstruktion basierend auf einer Zielanzahl gleichzeitiger Threads und der Anzahl von Registern pro Ausführungseinheit feinabgestimmt werden kann, wobei die Ausführungseinheitsbetriebsmittel über Logik verteilt sind, die verwendet wird, um mehrere gleichzeitige Threads auszuführen. Die Anzahl logischer Threads, die durch die Grafikausführungseinheit 508 ausgeführt werden können, ist nicht auf die Anzahl von Hardware-Threads beschränkt und jedem Hardware-Thread können mehrere logische Threads zugewiesen werden.
In einer Ausführungsform kann die Grafikausführungseinheit 508 mehrere Befehle zusammen ausgeben, die jeweils ein unterschiedlicher Befehl sein können. Der Thread-Vermittler 522 des Grafikausführungseinheits-Threads 508 kann die Befehle zu einem aus der Sendeeinheit 530, der Verzweigungseinheit 532 oder der/den SIMD-FPU(s) 534 zur Ausführung verteilen. Jeder Ausführungs-Thread kann auf 128 Allzweckregister innerhalb des GRF 524 zugreifen, wobei jedes Register 32 Bytes speichern kann, die als ein SIMD-8-Elementevektor aus 32-Bit-Datenelementen zugreifbar sind. In einer Ausführungsform besitzt jeder Ausführungseinheit-Thread Zugriff auf 4 KBytes innerhalb des GRF 524, obwohl Ausführungsformen nicht so eingeschränkt sind und mehr oder weniger Registerbetriebsmittel in anderen Ausführungsformen bereitgestellt sein können. In einer Ausführungsform ist die Grafikausführungseinheit 508 in sieben Hardware-Threads partitioniert, die Berechnungsoperationen unabhängig ausführen können, obwohl die Anzahl von Threads pro Ausführungseinheit ebenfalls gemäß Ausführungsformen variieren kann. Beispielsweise werden in einer Ausführungsform bis zu 16 Hardware-Threads unterstützt. In einer Ausführungsform, in der sieben Threads auf 4 KBytes zugreifen können, kann das GRF 524 insgesamt 28 KBytes speichern. Wenn 16 Threads auf 4 KBytes zugreifen können, kann das GRF 524 insgesamt 64 KBytes speichern. Flexible Adressierungsmodi können erlauben, dass Register zusammen adressiert werden, um effektiv breitere Register aufzubauen oder um abgestufte rechteckige Blockdatenstrukturen zu repräsentieren.
In einer Ausführungsform werden Speicheroperationen, Sampler-Operationen und andere Systemkommunikation mit größerer Latenz über „Sende“-Befehle verteilt, die durch die Nachrichtenweitergabesendeeinheit 530 ausgeführt werden. In einer Ausführungsform werden Verzweigungsbefehle zu einer dedizierten Verzweigungseinheit 532 verteilt, um SIMD-Divergenz und letztendlich Konvergenz zu unterstützen.
In einer Ausführungsform enthält die Grafikausführungseinheit 508 eine oder mehrere SIMD-Gleitkommaeinheiten (FPU(s)) 534 zum Ausführen von Gleitkommaoperationen. In einer Ausführungsform können die FPU(s) 534 außerdem Ganzzahlberechnung unterstützen. In einer Ausführungsform können die FPU(s) 534 bis zur Anzahl von M 32-Bit-Gleitkomma-(oder Ganzzahl-) Operationen mit SIMD ausführen oder bis zur 2M 16-Bit-Ganzzahl- oder 16-Bit-Gleitkommaoperationen mit SIMD ausführen. In einer Ausführungsform stellt wenigstens eine der FPU(s) erweiterte Math-Fähigkeiten bereit, um transzendente Math-Operationen mit hohem Durchsatz und doppelt genaue 54-Bit-Gleitkommazahl zu unterstützen. In einigen Ausführungsformen ist außerdem eine Gruppe von 8-Bit-Ganzzahl-SIMD-ALUs 535 vorhanden und kann spezifisch optimiert sein, um Operationen auszuführen, die Maschinenlemberechnungen zugeordnet sind.
In einer Ausführungsform können Anordnungen aus mehreren Instanzen der Grafikausführungseinheit 508 in einer Grafikteilkern-Gruppierung (z. B. einer Teilscheibe) instanziiert werden. Zur Skalierbarkeit können Produktarchitekten die genaue Anzahl von Ausführungseinheiten pro Teilkerngruppierung wählen. In einer Ausführungsform kann die Ausführungseinheit 508 Befehle über mehrere Ausführungskanäle ausführen. In einer weiteren Ausführungsform wird jeder Thread, der auf der Grafikausführungseinheit 508 ausgeführt wird, auf einem anderen Kanal ausgeführt.
15 stellt eine zusätzliche Ausführungseinheit 600 gemäß einer Ausführungsform dar. Die Ausführungseinheit 600 kann eine rechenoptimierte Ausführungseinheit beispielsweise zum Gebrauch in einer Rechen-Engine-Kachel 340A-340D wie in 12C sein, ist jedoch nicht darauf beschränkt. Varianten der Ausführungseinheit 600 können auch in einer Grafik-Engine-Kachel 310A-310D wie in 12B verwendet werden. In einer Ausführungsform enthält die Ausführungseinheit 600 eine Thread-Steuereinheit 601, eine Thread-Zustandseinheit 602, eine Befehlsabhol/vorabholeinheit 603 und eine Befehlsdecodiereinheit 604. Die Ausführungseinheit 600 enthält zusätzlich eine Registerdatei 606, die Register speichert, die Hardware-Threads innerhalb der Ausführungseinheit zugewiesen werden können. Die Ausführungseinheit 600 enthält zusätzlich eine Sendeeinheit 607 und eine Verzweigungseinheit 608. In einer Ausführungsform können die Sendeeinheit 607 und die Verzweigungseinheit 608 ähnlich wie die Sendeeinheit 530 und eine Verzweigungseinheit 532 der Grafikausführungseinheit 508 von 14B arbeiten.
Die Ausführungseinheit 600 enthält außerdem eine Recheneinheit 610, die mehrere unterschiedliche Typen von Funktionseinheiten enthält. In einer Ausführungsform enthält die Recheneinheit 610 eine ALU-Einheit 611, die eine Anordnung von Arithmetiklogikeinheiten enthält. Die ALU-Einheit 611 kann konfiguriert sein, 64-Bit-, 32-Bit- und 16-Bit-Ganzzahl- und Gleitkommaoperationen auszuführen. Ganzzahl- und Gleitkommaoperationen können gleichzeitig ausgeführt werden. Die Recheneinheit 610 kann außerdem ein systolisches Array 612 und eine Math-Einheit 613 enthalten. Das systolische Array 612 enthält ein W breites und D tiefes Netz von Datenverarbeitungseinheiten, die verwendet werden können, um Vektor- oder andere Datenparalleloperationen auf systolische Weise auszuführen. In einer Ausführungsform kann das systolische Array 612 konfiguriert sein, Matrixoperationen wie z. B. Matrixskalarproduktoperationen auszuführen. In einer Ausführungsform unterstützt das systolische Array 612 sowohl 16-Bit-Gleitkommaoperationen als auch 8-Bit- und 4-Bit-Ganzzahloperationen. In einer Ausführungsform kann das systolische Array 612 konfiguriert sein, Maschinenlernoperationen zu beschleunigen. In solchen Ausführungsformen kann das systolische Array 612 mit Unterstützung für das Bfloat-16-Bit-Gleitkommaformat konfiguriert sein. In einer Ausführungsform kann eine Math-Einheit 613 enthalten sein, um eine spezifische Teilmenge mathematischer Operationen auf eine effiziente Weise und mit geringerem Energieverbrauch als die ALU-Einheit 611 auszuführen. Die Math-Einheit 613 kann eine Variante der Math-Logik enthalten, die in der Logik mit gemeinsam verwendeter Funktion einer Grafikverarbeitungs-Engine zu finden ist, die durch andere Ausführungsformen bereitgestellt ist (z. B. die Math-Logik 422 der Logik 420 mit gemeinsam verwendeter Funktion von 13). In einer Ausführungsform kann die Math-Einheit 613 konfiguriert sein, 32-Bit- und 64-Bit-Gleitkommaoperationen auszuführen.
Die Thread-Steuereinheit 601 enthält Logik zum Steuern der Ausführung von Threads innerhalb der Ausführungseinheit. Die Thread-Steuereinheit 601 kann Thread-Vermittlungslogik zum Starten, Anhalten und Vorwegnehmen der Ausführung von Threads innerhalb der Ausführungseinheit 600 enthalten. Die Thread-Zustandseinheit 602 kann verwendet werden, um den Thread-Zustand für Threads, die zur Ausführung auf der Ausführungseinheit 600 zugewiesen sind, zu speichern. Das Speichern des Thread-Zustands innerhalb der Ausführungseinheit 600 ermöglicht schnelle Vorwegnahme von Threads, wenn diese Threads blockiert oder frei werden. Die Befehlsabhol/vorabholeinheit 603 kann Befehle aus einem Befehls-Cache der Ausführungslogik höherer Ebene (z. B. dem Befehls-Cache 506 wie in 14A) abholen. Die Befehlsabhol/vorabholeinheit 603 kann außerdem Vorabholanforderungen für Befehle, die in den Befehls-Cache zu laden sind, basierend auf einer Analyse derzeit ablaufender Threads ausgeben. Die Befehlsdecodiereinheit 604 kann verwendet werden, um Befehle, die durch die Recheneinheiten ausgeführt werden soll, zu decodieren. In einer Ausführungsform kann die Befehlsdecodiereinheit 604 als ein sekundärer Decodierer verwendet werden, um komplexe Befehle in die sie aufbauenden Mikrooperationen zu decodieren.
Die Ausführungseinheit 600 enthält zusätzlich eine Registerdatei 606, die durch Hardware-Threads, die auf der Ausführungseinheit 600 ablaufen, verwendet werden kann. Register in der Registerdatei 606 können über die Logik, die verwendet wird, um mehrere gleichzeitige Threads auszuführen, innerhalb der Recheneinheit 610 der Ausführungseinheit 600 aufgeteilt werden. Die Anzahl logischer Threads, die durch die Grafikausführungseinheit 600 ausgeführt werden können, ist nicht auf die Anzahl von Hardware-Threads beschränk, und jedem Hardware-Thread können mehrere logische Threads zugewiesen werden. Die Größe der Registerdatei 606 kann über Ausführungsformen basierend auf der Anzahl unterstützter Hardware-Threads variieren. In einer Ausführungsform kann Registerumbenennung verwendet werden, um Register dynamisch zu Hardware-Threads zuzuweisen.
16 ist ein Blockdiagramm, das ein Grafikprozessor-Befehlsformat 700 gemäß einigen Ausführungsformen darstellt. In einer oder mehreren Ausführungsformen unterstützen die Grafikprozessorausführungseinheiten einen Befehlssatz, der Befehle in mehreren Formaten aufweist. Die durchgezogen umrandeten Kästen stellen die Komponenten dar, die allgemein in einem Ausführungseinheitenbefehl enthalten sind, während die gestrichelten Linien Komponenten enthalten, die optional sind oder die nur in einer Teilmenge der Befehle enthalten sind. In einigen Ausführungsformen ist das beschriebene und dargestellte Befehlsformat 700 insofern Makro-Befehle, als es Befehle sind, die der Ausführungseinheit zugeführt werden, im Gegensatz zu Mikrooperationen, die aus dem Decodieren von Befehlen resultieren, sobald der Befehl verarbeitet wird.
In einigen Ausführungsformen unterstützen die Grafikprozessorausführungseinheiten nativ Befehle in einem 128-Bit-Befehlsformat 710. Ein kompaktes 64-Bit-Befehlsformat 730 ist für einige Befehle basierend auf dem ausgewählten Befehl, Befehlsoptionen und der Anzahl von Operanden verfügbar. Das native 128-Bit-Befehlsformat 710 stellt Zugriff auf alle Befehlsoptionen bereit, während einige Optionen und Operationen in dem 64-Bit-Format 730 eingeschränkt sind. Die nativen Befehle, die in dem 64-Bit-Format 730 verfügbar sind, variieren je nach Ausführungsform. In einigen Ausführungsformen ist der Befehl unter Verwendung einer Gruppe von Indexwerten in einem Indexfeld 713 teilweise kompaktiert. Die Ausführungseinheit-Hardware referenziert eine Gruppe von Kompaktierungstabellen basierend auf den Indexwerten und verwendet die Kompaktierungstabellenausgaben, um einen nativen Befehl in dem 128-Bit-Befehlsformat 710 zu rekonstruieren. Andere Größen und Formate von Befehlen können verwendet werden.
Für jedes Format definiert der Befehls-Opcode 712 die Operation, die die Ausführungseinheit ausführen soll. Die Ausführungseinheiten führen jeden Befehl parallel über die mehreren Datenelemente jedes Operanden aus. Beispielsweise führt in Reaktion auf einen Add-Befehl die Ausführungseinheit eine gleichzeitige Add-Operation über jeden Farbkanal, der ein Texturelement oder ein Bildelement repräsentiert, aus. Standardmäßig führt die Ausführungseinheit jeden Befehl über alle Datenkanäle der Operanden aus. In einigen Ausführungsformen ermöglicht das Befehlssteuerfeld 714 die Steuerung spezieller Ausführungsoptionen wie z. B. Kanalauswahl (z. B. Voraussage) und Datenkanalreihenfolge (z. B. Swizzle). Für Befehle in dem 128-Bit-Befehlsformat 710 begrenzt ein Exec-Größenfeld 716 die Anzahl von Datenkanälen, die parallel ausgeführt werden. In einigen Ausführungsformen ist das Exec-Größenfeld 716 zum Gebrauch in dem kompakten 64-Bit-Befehlsformat 730 nicht verfügbar.
Einige Anweisungseinheitenbefehle weisen bis zu drei Operanden auf, die zwei Quelloperanden, src0 720, src1 722, und ein Ziel 718 enthalten. In einigen Ausführungsformen unterstützen die Ausführungseinheiten Befehle mit zwei Zielen, wobei eines der Ziele impliziert ist. Datenmanipulationsbefehle können einen dritten Quelloperanden (z. B. SRC2 724) aufweisen, wobei der Befehls-Opcode 712 die Anzahl von Quelloperanden bestimmt. Ein letzter Quelloperand eines Befehls kann ein unmittelbarer (z. B. fest codierter) Wert sein, der mit dem Befehl übergeben wird.
In einigen Ausführungsformen enthält das 128-Bit-Befehlsformat 710 ein Zugriffs/Adressmodusfeld 726, das beispielsweise spezifiziert, ob ein direkter Registeradressierungsmodus oder ein indirekter Registeradressierungsmodus verwendet ist. Wenn der direkte Registeradressierungsmodus verwendet ist, wird die Registeradresse eines oder mehrerer Operanden durch Bits in dem Befehl direkt bereitgestellt.
In einigen Ausführungsformen enthält das 128-Bit-Befehlsformat 710 ein Zugriffs/Adressmodusfeld 726, das einen Adressmodus und/oder einen Zugriffsmodus für den Befehl spezifiziert. In einer Ausführungsform wird der Adressmodus verwendet, um eine Datenzugriffsausrichtung für den Befehl zu definieren. Einige Ausführungsformen unterstützen Zugriffsmodi, die einen 16-Byte-ausgerichteten Zugriffsmodus und einen 1-Byte-ausgerichteten Zugriffsmodus enthalten, wobei eine Byte-Ausrichtung des Adressmodus die Adressausrichtung der Befehlsoperanden bestimmt. Beispielsweise kann in einem ersten Modus der Befehl Byte-ausgerichtete Adressierung für Quell- und Zieloperanden verwenden, und wenn einem zweiten Modus kann der Befehl 16-Byte-ausgerichtete Adressierung für alle Quell- und Zieloperanden verwenden.
In einer Ausführungsform bestimmt der Adressmodusabschnitt des Zugriffs/Adressmodusfelds 726, ob der Befehl direkte oder indirekte Adressierung verwenden soll. Wenn der direkte Registeradressierungsmodus verwendet wird, stellen Bits in dem Befehl die Registeradresse eines oder mehrerer Operationen direkt bereit. Wenn der indirekte Registeradressierungsmodus verwendet wird, kann die Registeradresse eines oder mehrerer Operanden basierend auf einem Adressregisterwert und einem Adressen-Immediate-Feld in dem Befehl berechnet werden.
In einigen Ausführungsformen sind die Befehle basierend auf Opcode-Bit-Feldern 712 gruppiert, um das Opcode-Decodieren 740 zu vereinfachen. Für einen 8-Bit-Opcode ermöglichen die Bits 4, 5 und 6, dass die Ausführungseinheit den Typ des Opcode bestimmt. Die gezeigte genaue Opcode-Gruppierung ist lediglich ein Beispiel. In einigen Ausführungsformen enthält eine Verschiebungs- und Logik-Opcode-Gruppe 742 Datenverschiebungs- und Logik-Befehle (z. B. Verschieben (mov), Vergleichen (cmp)). In einigen Ausführungsformen verwendet die Verschiebungs- und Logik-Gruppe 742 die fünf höchstwertigen Bits (MSB) gemeinsam, wobei Verschiebungs- (mov) Befehle in der Form 0000xxxxb sind und Logik-Befehle in der Form 0001xxxxb sind. Eine Ablaufsteuerungsbefehlsgruppe 744 (z.B. Aufruf (call), Sprung (jmp)) enthält Befehle in der Form 0010xxxxb z. B. 0×20). Eine Verschiedenes-Befehlsgruppe 746 enthält eine Mischung aus Befehlen, die Synchronisationsbefehle (z. B. Warten (wait), Senden (send)) in der Form 0011xxxxb (z.B. 0x30) enthält. Eine Parallel-Math-Befehlsgruppe 748 enthält komponentenweise Arithmetikbefehle (z. B. Addieren (add), Multiplizieren (mul)) in der Form 0100xxxxb (z. B. 0x40). Die Parallel-Math-Gruppe 748 führt Arithmetikoperationen parallel über Datenkanäle aus. Die Vektor-Math-Gruppe 750 enthält Arithmetikbefehle (z.B. dp4) in der Form 0101xxxxb (z.B. 0x50). Die Vektor-Math-Gruppe führt Arithmetik wie z. B. Skalarproduktberechnungen auf Vektoroperanden aus. Das dargestellte Opcode-Decodieren 740 kann in einer Ausführungsform verwendet werden, um zu bestimmen, welcher Abschnitt einer Ausführungseinheit verwendet wird, um einen decodierten Befehl auszuführen. Beispielsweise können einige Befehle als systolische Befehle gekennzeichnet sein, die durch ein systolisches Array ausgeführt werden. Andere Befehle wie z. B. Strahlverfolgungsbefehle (nicht gezeigt) können zu einem Strahlverfolgungskern oder Strahlverfolgungslogik innerhalb einer Scheibe oder Partition der Ausführungslogik geroutet werden.
Grafik-Pipeline
17 ist ein Blockdiagramm einer weiteren Ausführungsform eines Grafikprozessors 800. Elemente von 17, die die gleichen Bezugszeichen (oder Namen) wie die Elemente irgendeiner anderen Figur hier aufweisen, können auf eine Weise arbeiten oder funktionieren, die ähnlich derjenigen die, die hier an anderer Stelle beschrieben ist, sind jedoch nicht darauf beschränkt.
In einigen Ausführungsformen enthält der Grafikprozessor 800 eine Geometrie-Pipeline 820, eine Medien-Pipeline 830, eine Anzeige-Engine 840, Thread-Ausführungslogik 850 und eine Render-Ausgabe-Pipeline 870. In einigen Ausführungsformen ist der Grafikprozessor 800 ein Grafikprozessor innerhalb eines Mehrkern-Verarbeitungssystems, das einen oder mehrere Allzweckverarbeitungskerne enthält. Der Grafikprozessor wird durch Registerschreiben in ein oder mehrere Steuerregister (nicht gezeigt) oder über Befehle, die zu dem Grafikprozessor 800 über eine Ringzusammenschaltung 802 ausgegeben werden, gesteuert. In einigen Ausführungsformen koppelt die Ringzusammenschaltung 802 den Grafikprozessor 800 mit anderen Verarbeitungskomponenten wie z. B. anderen Grafikprozessoren oder Allzweckprozessoren. Befehle aus der Ringzusammenschaltung 802 werden durch einen Befehls-Streamer 803 interpretiert, der Anweisungen zu einzelnen Komponenten der Geometrie-Pipeline 820 oder der Medien-Pipeline 830 zuführt.
In einigen Ausführungsformen lenkt der Befehls-Streamer 803 den Betrieb einer Vertex-Abholeinheit 805, die Vertex-Daten aus dem Speicher liest und Vertex-Verarbeitungsbefehle, die durch den Befehls-Streamer 803 bereitgestellt werden, ausführt. In einigen Ausführungsformen stellt die Vertex-Abholeinheit 805 Vertex-Daten für einen Vertex-Shader 807 bereit, der Koordinatenraumtransformation und Ausleuchtungsoperationen für jeden Vertex ausführt. In einigen Ausführungsformen führen die Vertex-Abholeinheit 805 und der Vertex-Shader 807 Vertex-Verarbeitungsbefehle durch Verteilen von Ausführungs-Threads an die Ausführungseinheiten 852A-852B über einen Thread-Verteiler 831 aus.
In einigen Ausführungsformen sind die Ausführungseinheiten 852A-852B eine Anordnung von Vektorprozessoren, die einen Befehlssatz zum Ausführen von Grafik- und Medienoperationen aufweisen. In einigen Ausführungsformen weisen die Ausführungseinheiten 852A-852B einen zugeordneten L1-Cache 851 auf, der für jede Anordnung spezifisch ist oder von den Anordnungen gemeinsam verwendet wird. Der Cache kann als ein Daten-Cache, ein Befehls-Cache oder ein einzelner Cache, der partitioniert ist, um Daten und Befehle in unterschiedlichen Partitionen zu beinhalten, konfiguriert sein.
In einigen Ausführungsformen enthält die Geometrie-Pipeline 820 Parkettierungskomponenten, um Hardware-beschleunigte Parkettierung von 3D-Objekten auszuführen. In einigen Ausführungsformen konfiguriert ein programmierbarer Hüll-Shader 811 die Parkettierungsoperationen. Ein programmierbarer Domänen-Shader 817 stellt Backend-Auswertung der Parkettierungsausgabe bereit. Ein Parkettierer 813 arbeitet auf Anweisung des Hüll-Shaders 811 und beinhaltet Speziallogik, um eine Gruppe detaillierter geometrischer Objekte basierend auf einem groben geometrischen Modell zu erzeugen, die als Eingabe in die Geometrie-Pipeline 820 bereitgestellt wird. In einigen Ausführungsformen können, falls keine Parkettierung verwendet wird, die Parkettierungskomponenten (z. B. der Hüll-Shader 811, der Parkettierer 813 und der Domänen-Shader 817) umgangen werden.
In einigen Ausführungsformen können vollständige geometrische Objekte durch einen Geometrie-Shader 819 über einen oder mehrere Threads, die an die Ausführungseinheiten 852A-852B verteilt sind, verarbeitet werden oder können direkt zu dem Clipper 819 weitergehen. In einigen Ausführungsformen arbeitet der Geometrie-Shader auf vollständigen geometrischen Objekten anstatt auf Vertices oder Ausschnitten von Vertices wie in früheren Stufen der Grafik-Pipeline. Falls die Parkettierung deaktiviert ist, empfängt der Geometrie-Shader 819 Eingaben aus dem Vertex-Shader 807. In einigen Ausführungsformen ist der Geometrie-Shader 819 durch ein Geometrie-Shader-Programm programmierbar, um Geometrie-Parkettierung auszuführen, falls die Parkettierungseinheiten deaktiviert sind.
Vor der Rasterung verarbeitet ein Clipper 829 die Vertex-Daten. Der Clipper 829 kann ein Clipper mit fester Funktion oder ein programmierbarer Clipper, der Clipping- und Geometrie-Shader-Funktionen aufweist, sein. In einigen Ausführungsformen verteilen eine Rasterungs- und Tiefenprüfungskomponente 873 in der Render-Ausgabe-Pipeline 870 Pixel-Shader, um die geometrischen Objekte in pixelweise Darstellung umzusetzen. In einigen Ausführungsformen ist die Pixel-Shader-Logik in der Thread-Ausführungslogik 850 enthalten. In einigen Ausführungsformen kann eine Anwendung die Rasterierer- und Tiefenprüfungskomponente 873 umgehen und auf nicht gerasterte Vertex-Daten über eine Stream-out-Einheit 823 zugreifen.
Der Grafikprozessor 800 weist einen Zusammenschaltungsbus, ein Zusammenschaltungs-Fabric oder einen anderen Zusammenschaltungsmechanismus auf, der es ermöglicht, dass Daten und Nachrichten zwischen den Hauptkomponenten des Prozessors übergehen. In einigen Ausführungsformen sind die Ausführungseinheiten 852A-852B und zugeordnete Logikeinheiten (z. B. L1-Cache 851, Sampler 854, Textur-Cache 858 usw.) über einen Daten-Port 856 zusammengeschaltet, um Speicherzugriff auszuführen und mit Render-Ausgabe-Pipeline-Komponenten des Prozessors zu kommunizieren. In einigen Ausführungsformen weisen der Sampler 854, die Caches 851, 858 und die Ausführungseinheiten 852A-852B jeweils separate Speicherzugriffspfade auf. In einer Ausführungsform kann der Textur-Cache 858 auch als ein Sampler-Cache konfiguriert sein.
In einigen Ausführungsformen enthält wie Render-Ausgabe-Pipeline 870 eine Rasterierer- und Tiefenprüfungskomponente 873, die vertexbasierte Objekte in eine zugeordnete pixelbasierte Repräsentation umsetzt. In einigen Ausführungsformen enthält die Rasteriererlogik eine Fensterbildungs/Maskierungs-Einheit, um die feste Funktion einer Dreieck- und Linienrasterung auszuführen. Ein zugeordneter Wiedergabe-Cache 878 und Tiefen-Cache 879 sind in einigen Ausführungsformen ebenfalls verfügbar. Eine Pixeloperationskomponente 877 führt pixelbasierte Operationen auf den Daten aus, obwohl in einigen Fällen Pixeloperationen, die 2D-Operationen zugeordnet sind (z. B. Bit-Block-Bildübertragung mit Einblendung) durch die 2D-Engine 841 ausgeführt werden oder zur Zeit der Anzeige durch die Anzeigesteuereinheit 843 unter Verwendung von Überlagerungsanzeigeebenen ersetzt werden. In einigen Ausführungsformen ist ein gemeinsam verwendeter L3-Cache 875 für alle Grafikkomponenten verfügbar, was das gemeinsame Verwenden von Daten ohne die Verwendung des Systemhauptspeichers ermöglicht.
In einigen Ausführungsformen enthält die Grafikprozessor-Medien-Pipeline 830 eine Medien-Engine 837 und ein Video-Frontend 834. In einigen Ausführungsformen empfängt das Video-Frontend 834 Pipeline-Befehle von dem Befehls-Streamer 803. In einigen Ausführungsformen enthält die Medien-Pipeline 830 einen separaten Befehls-Streamer. In einigen Ausführungsformen verarbeitet das Video-Frontend 834 Medien-Befehle vor dem Senden des Befehls an die Medien-Engine 837. In einigen Ausführungsformen enthält die Medien-Engine 837 Thread-Erzeugungsfunktionalität, um Threads zum Verteilen an die Thread-Ausführungslogik 850 über den Thread-Verteiler 831 zu erzeugen.
In einigen Ausführungsformen enthält der Grafikprozessor 800 eine Anzeige-Engine 840. In einigen Ausführungsformen ist die Anzeige-Engine 840 außerhalb des Prozessors 800 und ist mit dem Grafikprozessor über die Ringzusammenschaltung 802 oder ein/en anderen Zusammenschaltungsbus oder Fabric gekoppelt. In einigen Ausführungsformen enthält die Anzeige-Engine 840 eine 2D-Engine 841 und eine Anzeigesteuereinheit 843. In einigen Ausführungsformen beinhaltet die Anzeige-Engine 840 Speziallogik, die zum unabhängigen Betreiben der 3D-Pipeline fähig ist. In einigen Ausführungsformen ist die Anzeigesteuereinheit 843 mit einer Anzeigevorrichtung (nicht gezeigt) gekoppelt, die eine in das System integrierte Anzeigevorrichtung, wie in einem Laptop-Computer, oder eine externe Anzeigevorrichtung, die über ein Verbindungselement für die Anzeigevorrichtung angeschlossen ist, sein kann.
In einigen Ausführungsformen sind die Geometrie-Pipeline 820 und die Medien-Pipeline 830 konfigurierbar, um Operationen basierend auf mehreren Grafik- und Medienprogrammierschnittstellen auszuführen, und sind nicht für irgendeine Anwendungsprogrammierschnittstelle (API) spezifisch. In einigen Ausführungsformen übersetzt Treiber-Software für den Grafikprozessor API-Aufrufe, die für eine spezielle Grafik- oder Medienbibliothek spezifisch sind, in Befehle, die durch den Grafikprozessor verarbeitet werden können. In einigen Ausführungsformen ist Unterstützung für die „Open Graphics Library“ (OpenGL), die „Open Computing Language“ (OpenCL) und Vulkan-Grafik und Berechnungs-API, alle von der Khronos-Gruppe, bereitgestellt. In einigen Ausführungsformen kann auch Unterstützung für die Direct3D-Bibliothek von Microsoft Corporation bereitgestellt sein. In einigen Ausführungsformen kann eine Kombination dieser Bibliotheken unterstützt werden. Es kann auch Unterstützung für die „Open Source Computer Vision Library“ (OpenCV) bereitgestellt sein. Eine zukünftige API mit einer kompatiblen 3D-Pipeline würde ebenfalls unterstützt, falls eine Abbildung von der Pipeline der zukünftigen API auf die Pipeline des Grafikprozessors vorgenommen werden kann.
Grafik-Pipeline-Programmierung
18A ist ein Blockdiagramm, das ein Grafikprozessor-Befehlsformat 900 gemäß einigen Ausführungsformen darstellt. 18B ist ein Blockdiagramm, das eine Grafikprozessor-Befehlsfolge 910 gemäß einer Ausführungsform darstellt. Die durchgezogen umrandeten Kästen in 18A stellen die Komponenten dar, die allgemein in einem Grafikbefehl enthalten sind, während die gestrichelten Linien Komponenten enthalten, die optional sind oder die nur in einer Teilmenge der Grafikbefehle enthalten sind. Das beispielhafte Grafikprozessor-Befehlsformat 900 von 18A enthält Datenfelder, um einen Client 902, einen Befehlsoperationscode (Opcode) 904 und Daten 906 für den Befehl zu identifizieren. Ein Teil-Opcode 905 und eine Befehlsgröße 908 sind ebenfalls in einigen Befehlen enthalten.
In einigen Ausführungsformen spezifiziert der Client 902 die Client-Einheit der Grafikvorrichtung, die die Befehlsdaten verarbeitet. In einigen Ausführungsformen untersucht ein Grafikprozessor-Befehls-Parser das Client-Feld jedes Befehls, um die weitere Verarbeitung des Befehls zu festzusetzen und die Befehlsdaten zu der geeigneten Client-Einheit zu leiten. In einigen Ausführungsformen enthalten die Grafikprozessor-Client-Einheiten eine Speicherschnittstelleneinheit, eine Render-Einheit, eine 2D-Einheit, eine 2D-Einheit und eine Medieneinheit. Jede Client-Einheit weist eine entsprechende Verarbeitungs-Pipeline auf, die die Befehle verarbeitet. Sobald der Befehl durch die Client-Einheit empfangen worden ist, liest die Client-Einheit den Opcode 904 und, falls vorhanden, den Teil-Opcode 905, um die Operation zu bestimmen, die auszuführen ist. Die Client-Einheit führt den Befehl unter Verwendung der Informationen in dem Datenfeld 906 aus. Für einige Befehle wird eine explizite Befehlsgröße 908 erwartet, um die Größe des Befehls zu spezifizieren. In einigen Ausführungsformen bestimmt der Befehls-Parser automatisch die Größe wenigstens einiger der Befehle basierend auf dem Befehls-Opcode. In einigen Ausführungsformen sind Befehle über Vielfache eines Doppelworts ausgerichtet. Andere Befehlsformate können verwendet werden.
Das Ablaufdiagramm in 18B stellt eine beispielhafte Grafikprozessorbefehlssequenz 910 dar. In einigen Ausführungsformen verwendet Software oder Firmware eines Datenverarbeitungssystems, das mit einer Ausführungsform eines Grafikprozessors ausgestattet ist, eine Version der gezeigte Befehlssequenz, um eine Gruppe von Grafikoperationen aufzubauen, auszuführen und zu beenden. Eine Beispiel-Befehlssequenz ist nur zu Beispielzwecken gezeigt und beschrieben, da Ausführungsformen nicht auf diese spezifischen Befehle oder auf diese Befehlssequenz beschränkt sind. Außerdem können die Befehle als ein Stapel von Befehlen in einer Befehlssequenz ausgegeben werden, so dass der Grafikprozessor die Sequenz von Befehlen in wenigstens teilweiser Gleichzeitigkeit ausführen kann.
In einigen Ausführungsformen kann die Grafikprozessorbefehlssequenz 901 mit einem Pipeline-Leerungsbefehl 912 beginnen, um zu bewirken, dass irgendeine aktive Grafik-Pipeline die derzeit anstehenden Befehle für die Pipeline fertigstellt. In einigen Ausführungsformen arbeiten die 3D-Pipeline 922 und die Medien-Pipeline 924 nicht gleichzeitig. Das Leeren der Pipeline wird ausgeführt, um zu bewirken, dass die aktive Grafik-Pipeline irgendwelche anstehenden Befehle fertigstellt. In Reaktion auf ein Leeren der Pipeline wird der Befehls-Parser für den Grafikprozessor die Befehlsverarbeitung pausieren, bis die aktiven Zeichnungs-Engines anstehende Operationen fertigstellen und die relevanten Lese-Caches ungültig gemacht sind. Optional können irgendwelche Daten in dem Render-Cache, die als „schmutzig“ markiert sind, in den Speicher entleert werden. In einigen Ausführungsformen kann der Pipeline-Leerungsbefehl 912 zur Pipeline-Synchronisation oder vor dem Platzieren des Grafikprozessors in einen Niederleistungszustand verwendet werden.
In einigen Ausführungsformen wird ein Pipeline-Auswahlbefehl 913 verwendet, wenn eine Befehlssequenz erfordert, dass der Grafikprozessor explizit zwischen Pipelines umschaltet. In einigen Ausführungsformen ist ein Pipeline-Auswahlbefehl 913 nur einmal in einem Ausführungskontext vor dem Ausgeben von Pipeline-Befehlen erforderlich, sofern der Kontext nicht Befehle für beide Pipelines ausgeben muss. In einigen Ausführungsformen ist ein Pipeline-Leerungsbefehl 912 unmittelbar vor dem Umschalten einer Pipeline über den Pipeline-Auswahlbefehl 913 erforderlich.
In einigen Ausführungsformen konfiguriert ein Pipeline-Steuerbefehl 914 eine Grafik-Pipeline für die Operation und wird verwendet, um die 3D-Pipeline 922 und die Medien-Pipeline 924 zu programmieren. In einigen Ausführungsformen konfiguriert der Pipeline-Steuerbefehl 914 den Pipeline-Zustand für die aktive Pipeline. In einer Ausführungsform wird der Pipeline-Steuerbefehl 914 zur Pipeline-Synchronisation und um Daten aus einem oder mehreren Cache-Speichern innerhalb der aktiven Pipeline vor dem Verarbeiten eines Stapels von Befehlen zu entfernen, verwendet.
In einigen Ausführungsformen werden Rückgabepufferzustandsbefehle 916 verwendet, um eine Gruppe von Rückgabepuffern für die jeweiligen Daten zum Schreiben von Daten zu konfigurieren. Einige Pipeline-Operationen erfordern die Zuweisung, Auswahl oder Konfiguration eines oder mehrerer Rückgabepuffer, in die Operationen während der Verarbeitung Zwischendaten schreiben. In einigen Ausführungsformen verwendet der Grafikprozessor außerdem einen oder mehrere Rückgabepuffer, um Ausgabedaten zu speichern und thread-übergreifende Kommunikation auszuführen. In einigen Ausführungsformen enthält der Rückgabepufferzustand 916 Auswählen der Größe und Anzahl von Rückgabepuffern, die für eine Gruppe von Pipeline-Operationen zu verwenden sind.
Die verbleibenden Befehle in der Befehlssequenz unterscheiden sich basierend auf der aktiven Pipeline für Operationen. Basierend auf einer Pipeline-Bestimmung 920 ist die Befehlssequenz auf die 3D-Pipeline 922 beginnend mit dem 3D-Pipeline-Zustand 930 oder die Medien-Pipeline 924 beginnend an dem Medien-Pipeline-Zustand 940 zugeschnitten.
Die Befehle, um den 3D-Pipeline-Zustand 930 zu konfigurieren, enthalten 3D-Zustandseinstellbefehle für den Vertexpufferzustand, den Vertexelementzustand, den konstanten Farbzustand, den Tiefenpufferzustand und andere Zustandsvariablen, die konfiguriert werden müssen, bevor 3D-Grundelement-Befehle verarbeitet werden. Die Werte dieser Befehle werden wenigstens teilweise basierend auf der speziellen verwendeten 3D-API bestimmt. In einigen Ausführungsformen sind Befehle für den 3D-Pipeline-Zustand 930 außerdem fähig, spezielle Pipeline-Elemente selektiv zu deaktivieren oder zu umgehen, falls diese Elemente nicht verwendet werden.
In einigen Ausführungsformen wird ein Befehl eines 3D-Grundelements verwendet, um 3D-Grundelemente zu übermitteln, die durch die 3D-Pipeline verarbeitet werden sollen. Befehle und zugeordnete Parameter, die über den Befehl für 3D-Grundelemente 932 an den Grafikprozessor übergeben werden, werden zu der Vertexabholfunktion in der Grafik-Pipeline weitergeleitet. Die Vertexabholfunktion verwendet die Befehlsdaten des 3D-Grundelementes 932, um Vertexdatenstrukturen zu erzeugen. Die Vertexdatenstrukturen werden in einem oder mehreren Rückgabepuffern gespeichert. In einigen Ausführungsformen wird ein Befehl für 3D-Grundelemente 932 verwendet, um Vertexoperationen auf 3D-Grundelementen über Vertex-Shader auszuführen. Um Vertex-Shader auszuführen, verteilt die 3D-Pipeline 922 Shader-Ausführungs-Threads an Grafikprozessorausführungseinheiten.
In einigen Ausführungsformen wird die 3D-Pipeline 922 über einen Ausführungs- 934 Befehl oder ein Ereignis getriggert. In einigen Ausführungsformen triggert ein Registerschreiben die Befehlsausführung. In einigen Ausführungsformen wird die Ausführung über einen „Go“- oder „Kick“-Befehl in der Befehlssequenz getriggert. In einer Ausführungsform wird die Befehlsausführung unter Verwendung eines Pipeline-Synchronisationsbefehls getriggert, um die Befehlssequenz über die Grafik-Pipeline zu leeren. Die 3D-Pipeline wird Geometrieverarbeitung für die 3D-Grundelemente ausführen. Sobald die Operationen fertiggestellt sind, werden die resultierenden geometrischen Objekte gerastert, und die Pixel-Engine koloriert die resultierenden Pixel. Zusätzliche Befehle zum Steuern von Pixel-Shading- und Pixel-Backend-Operationen können ebenfalls für diese Operationen enthalten sein.
In einigen Ausführungsformen folgt die Grafikprozessorbefehlssequenz 910 dem Pfad der Medien-Pipeline 924, wenn Medien-Operationen ausgeführt werden. Allgemein hängt die spezifische Verwendung und Art der Programmierung für die Medien-Pipeline 924 von den Medien- oder Berechnungsoperationen ab, die auszuführen sind. Spezifische Mediendecodierungsoperationen können während der Mediendecodierung zu der Medien-Pipeline entladen werden. In einigen Ausführungsformen kann die Medien-Pipeline auch umgangen werden, und Mediendecodierung kann ganz oder teilweise unter Verwendung von Betriebsmitteln ausgeführt werden, die durch einen oder mehrere Allzweckverarbeitungskerne bereitgestellt werden. In einer Ausführungsform enthält die Medien-Pipeline außerdem Elemente für Operationen der Allzweckgrafikprozessoreinheit (GPGPU-Operationen), wobei der Grafikprozessor verwendet wird, um SIMD-Vektoroperationen unter Verwendung von Berechnungs-Shader-Programmen auszuführen, die sich nicht explizit auf das Rendern von Grafik-Grundelementen beziehen.
In einigen Ausführungsformen ist die Medien-Pipeline 924 auf ähnliche Weise wie die 3D-Pipeline 922 konfiguriert. Eine Gruppe von Befehlen zum Konfigurieren des Medien-Pipeline-Zustands 940 wird verteilt oder vor den Medienobjektbefehlen 942 in eine Befehlswarteschlange platziert. In einigen Ausführungsformen enthalten Befehle für den Medien-Pipeline-Zustand 940 Daten zum Konfigurieren der Medien-Pipeline-Elemente, die verwendet werden, um die Medienobjekte zu verarbeiten. Das enthält Daten zum Konfigurieren der Video-Decodier- und Video-Codier-Logik innerhalb der Medien-Pipeline, wie z. B. das Codierungs- oder Decodierungsformat. In einigen Ausführungsformen unterstützen Befehle für den Medien-Pipeline-Zustand 940 außerdem das Verwenden eines oder mehrerer Zeiger auf „indirekte“ Zustandselemente, die einen Stapel von Zustandseinstellungen beinhalten.
In einigen Ausführungsformen führen Medienobjektbefehle 942 Zeiger auf Medienobjekte zum Verarbeiten durch die Medien-Pipeline zu. Die Medienobjekte enthalten Speicherpuffer, die Videodaten, die zu verarbeiten sind, enthalten. In einigen Ausführungsformen müssen alle Medien-Pipeline-Zustände vor dem Ausgeben eines Medienobjektbefehls 942 gültig sein. Sobald der Pipeline-Zustand konfiguriert ist und Medienobjektbefehle 942 in eine Warteschlange eingereiht sind, wird die Medien-Pipeline 924 über einen Ausführungsbefehl 944 oder ein äquivalentes Ausführungsereignis (z. B. Registerschreiben) getriggert. Die Ausgabe aus der Medien-Pipeline 924 kann dann durch Operationen, die durch die 3D-Pipeline 022 oder die Medien-Pipeline 024 bereitgestellt werden, nachverarbeitet werden. In einigen Ausführungsformen werden GPGPU-Operationen auf ähnliche Weise wie Medienoperationen konfiguriert und ausgeführt.
Grafik-Software-Architektur
19 stellt eine beispielhafte Grafik-Software-Architektur für ein Verarbeitungssystem 1000 gemäß einigen Ausführungsformen dar. In einigen Ausführungsformen enthält die Software-Architektur eine 3D-Grafikanwendung 1010, ein Betriebssystem 1020 und wenigstens einen Prozessor 1030. In einigen Ausführungsformen enthält der Prozessor 1030 einen Grafikprozessor 1032 und einen oder mehrere Allzweckprozessorprozessorkern(e) 1034. Die Grafikanwendung 1010 und das Betriebssystem 1020 laufen jeweils in dem Systemspeicher 1050 des Datenverarbeitungssystems ab.
In einigen Ausführungsformen beinhaltet die 3D-Grafikanwendung ein oder mehrere Shader-Programme, die Shader-Befehle 1012 enthalten. Die Shader-Sprachenbefehle können in einer Shader-Hochsprache wie z. B. der „High Level Shader Language“ (HLSL) von Direct3D, der „OpenGL Shader Language“ (GLSL) und so weiter sein. Die Anwendung enthält außerdem ausführbare Befehle 1014 in einer Maschinensprache, die zur Ausführung durch den Allzweckprozessorprozessorkern 1034 geeignet ist. Die Anwendung enthält außerdem durch Vertex-Daten definierte Grafikobjekte 1016.
In einigen Ausführungsformen ist das Betriebssystem 1020 ein Microsoft® Windows®-Betriebssystem von Microsoft Corporation, ein proprietäres UNIX-ähnliches Betriebssystem oder ein UNIX-ähnliches Open-Source-Betriebssystem, das eine Variante des Linux-Kernel verwendet. Das Betriebssystem 1020 kann eine Grafik-API 1022 wie z. B. die Direct3D-API, die OpenGL-API oder die Vulkan-API unterstützen. Wenn die Direct3D-API verwendet wird, verwendet das Betriebssystem 1020 einen Frontend-Shader-Compiler 1024, um irgendwelche Shader-Befehle 1012 in HLSL in eine Shader-Sprache niedrigerer Ebene zu kompilieren. Die Kompilierung kann eine „Just-in-time“- (JIT-) Kompilierung sein, oder die Anwendung kann Shader-Vorkompilierung ausführen. In einigen Ausführungsformen werden Shader hoher Ebene während der Kompilierung der 3D-Grafikanwendung 1010 in Shader niedriger Ebene kompiliert. In einigen Ausführungsformen werden die Shader-Befehle in einer Zwischenform bereitgestellt, wie z. B. in einer Version der „Standard Portable Intermediate Representation“ (SPIR), die durch die Vulkan-API verwendet wird.
In einigen Ausführungsformen beinhaltet ein Anwendermodusgrafiktreiber 1026 einen Backend-Shader-Compiler 1027, um die Shader-Befehle 1012 in eine Hardware-spezifische Repräsentation umzusetzen. Wenn die OpenGL-API verwendet wird, werden Shader-Befehle 1012 in der GLSL-Hochsprache zur Kompilierung an einen Anwendermodusgrafiktreiber 1026 weitergegeben. In einigen Ausführungsformen verwendet der Anwendermodusgrafiktreiber 1026 Betriebssystemkernelmodusfunktionen 1028, um mit einem Kernelmodusgrafiktreiber 1029 zu kommunizieren. In einigen Ausführungsformen kommuniziert der Kernelmodusgrafiktreiber 1029 mit dem Grafikprozessor 1032, um Befehle und Anweisungen zu verteilen.
IP-Kern-Implementierungen
Ein oder mehrere Aspekte wenigstens einer Ausführungsform können durch repräsentativen Code implementiert sein, der auf einem maschinenlesbaren Medium gespeichert ist, das Logik innerhalb einer integrierten Schaltung wie z. B. eines Prozessors repräsentiert und/oder definiert. Beispielsweise kann das maschinenlesbare Medium Befehle enthalten, die verschiedene Logik innerhalb des Prozessors repräsentieren. Wenn sie durch eine Maschine gelesen werden, können die Befehle bewirken, dass die Maschine die Logik zum Ausführen der hier beschriebenen Techniken herstellt. Solche Repräsentationen, die als „IP-Kerne“ bezeichnet werden, sind wiederverwendbare Einheiten von Logik für eine integrierte Schaltung, die auf einem greifbaren, maschinenlesbaren Medium als ein Hardware-Modell, das die Struktur der integrierten Schaltung beschreibt, gespeichert sein können. Das Hardware-Modell kann verschiedenen Kunden oder Produktionsanlagen geliefert werden, die das Hardware-Modell auf Produktionsmaschinen laden, die die integrierte Schaltung herstellen. Die integrierte Schaltung kann so hergestellt werden, dass die Schaltung Operationen ausführt, die im Zusammenhang mit irgendeiner der hier beschriebenen Ausführungsformen beschrieben sind.
20A ist ein Blockdiagramm, das ein IP-Kern-Entwicklungssystem 1100, das verwendet werden kann, um eine integrierte Schaltung zum Ausführen von Operationen herzustellen, gemäß einer Ausführungsform darstellt. Das IP-Kern-Entwicklungssystem 1100 kann verwendet werden, um modulare, wiederverwendbare Konstruktionen zu erzeugen, die in eine größere Konstruktion integriert werden können, oder kann verwendet werden, um eine vollständige integrierte Schaltung (z. B. eine integrierte SOC-Schaltung) zu konstruieren. Eine Konstruktionsanlage 1130 kann eine Software-Simulation 1110 einer IP-Kern-Konstruktion in einer Programmier-Hochsprache (z.B. C/C++) erzeugen. Die Software-Simulation 1110 kann verwendet werden, um das Verhalten des IP-Kerns unter Verwendung eines Simulationsmodells 1112 zu konstruieren, zu testen und zu verifizieren. Das Simulationsmodell 1112 kann Funktions-, Verhaltens- und/oder Zeit-Simulationen enthalten. Eine Konstruktion auf Registerübertragungsebene (RTL-Konstruktion) 1115 kann dann aus dem Simulationsmodell 1112 erzeugt oder synthetisiert werden. Die RTL-Konstruktion 1115 ist eine Abstraktion des Verhaltens der integrierten Schaltung, die den Fluss digitaler Signale zwischen Hardware-Registern modelliert, die die zugeordnete Logik enthält, die unter Verwendung der modellierten digitalen Signale ausgeführt wird. Zusätzlich zu einer RTL-Konstruktion 1115 können auch Konstruktionen niedrigerer Ebene auf Logikebene oder Transistorebene erzeugt, konstruiert oder synthetisiert werden. Somit können die speziellen Einzelheiten der initialen Konstruktion und Simulation variieren.
Die RTL-Konstruktion 1115 oder ein Äquivalent kann ferner durch die Konstruktionsanlage in ein Hardware-Modell 1120, das in einer Hardware-Beschreibungssprache (HDL) sein kann, oder eine andere Repräsentation physikalischer Konstruktionsdaten synthetisiert werden. Die HDL kann ferner simuliert oder getestet werden, um die IP-Kern-Konstruktion zu verifizieren. Die IP-Kern-Konstruktion kann zur Lieferung an eine Produktionsanlage 1165 Dritter unter Verwendung eines nichtflüchtigen Speichers 1140 (z.B. Festplatte, Flash-Speicher oder irgendein nichtflüchtiges Speichermedium) gespeichert werden. Alternativ kann die IP-Kern-Konstruktion über eine drahtgebundene Verbindung 1150 oder eine drahtlose Verbindung 1160 gesendet werden (z.B. über das Internet). Die Produktionsanlage 1165 kann dann eine integrierte Schaltung herstellen, die wenigstens teilweise auf der IP-Kern-Konstruktion basiert. Die hergestellte integrierte Schaltung kann konfiguriert sein, Operationen in Übereinstimmung mit wenigstens einer hier beschriebenen Ausführungsform auszuführen.
20B stellt eine seitliche Querschnittsansicht einer Baugruppe 1170 für eine integrierte Schaltung gemäß einigen hier beschriebenen Ausführungsformen dar. Die Baugruppe 1170 für eine integrierte Schaltung stellt eine Implementierung einer oder mehrerer Prozessor- oder Beschleunigervorrichtungen, wie sie hier beschrieben sind, dar. Die Baugruppe 1170 enthält mehrere Einheiten von Hardware-Logik 1172, 1174, die mit einem Substrat 1180 verbunden sind. Die Logik 1172, 1174 kann wenigstens teilweise in konfigurierbarer Logik oder Hardware-Logik mit fester Funktionalität implementiert sein und kann einen oder mehrere Abschnitte irgendeines aus dem/den Prozessorkern(en), Grafikprozessor(en) oder anderen Beschleunigervorrichtungen, die hier beschrieben sind, enthalten. Jede Einheit der Logik 1172, 1174 kann innerhalb eines Halbleiterbausteins implementiert sein und mit dem Substrat 1180 über eine Zusammenschaltungsstruktur 1173 gekoppelt sein. Die Zusammenschaltungsstruktur 1173 kann konfiguriert sein, elektrische Signale zwischen der Logik 1172, 1174 und dem Substrat 1180 zu lenken und kann Zusammenschaltungen wie z. B. Höcker oder Säulen, ohne jedoch darauf beschränkt zu sein, enthalten. In einigen Ausführungsformen kann die Zusammenschaltungsstruktur 1173 konfiguriert sein, elektrische Signale wie beispielsweise Eingabe/Ausgabe- (I/O-) Signale und/oder Leistungs- oder Massesignale, die dem Betrieb der Logik 1172, 1174 zugeordnet sind, zu lenken. In einigen Ausführungsformen ist das Substrat 1180 ein Epoxid-basiertes Laminatsubstrat. Das Substrat 1180 kann in anderen Ausführungsformen andere geeignete Typen von Substraten enthalten. Die Baugruppe 1170 kann mit anderen elektrischen Vorrichtungen über eine Baugruppenzusammenschaltung 1183 verbunden sein. Die Baugruppenzusammenschaltung 1183 kann mit einer Oberfläche des Substrats 1180 gekoppelt sein, um elektrische Signale zu anderen elektrischen Vorrichtungen wie z. B. einer Hauptplatine, einem anderen Chipsatz oder einem Mehrchipmodul zu lenken.
In einigen Ausführungsformen sind die Einheiten der Logik 1172, 1174 elektrisch mit einer Brücke 1182 gekoppelt, die konfiguriert ist, elektrische Signale zwischen der Logik 1172, 1174 zu lenken. Die Brücke 1182 kann eine kompakte Zusammenschaltungsstruktur sein, die einen Weg für elektrische Signale bereitstellt. Die Brücke 1182 kann ein Brückensubstrat enthalten, das aus Glas oder einem geeigneten Halbleitermaterial zusammengesetzt ist. Merkmale zum elektrischen Lenken können auf dem Brückensubstrat gebildet sein, um eine Chip-zu-Chip-Verbindung zwischen der Logik 1172, 1174 bereitzustellen.
Obwohl zwei Einheiten der Logik 1172, 1174 und eine Brücke 1182 dargestellt sind, können hier beschriebene Ausführungsformen mehr oder weniger Logikeinheiten auf einem oder mehreren Bausteinen enthalten. Der eine oder die mehreren Bausteine können durch null oder mehr Brücken verbunden sein, da die Brücke 1182 ausgeschlossen sein kann, wenn die Logik auf einem einzelnen Baustein enthalten ist. Alternativ können mehrere Bausteine oder Einheiten der Logik durch eine oder mehrere Brücken verbunden sein. Zusätzlich können mehrere Logikeinheiten, Bausteine und Brücken in anderen möglichen Konfigurationen, die dreidimensionale Konfigurationen einschließen, miteinander verbunden sein.
20C stellt eine Baugruppe 1190 dar, die mehrere Einheiten von Hardware-Logik-Chiplets, die mit einem Substrat 1180 (z.B. einen Basisbaustein) verbunden sind, enthält. Ein/e Grafikverarbeitungseinheit, Parallelprozessor und/oder Rechenbeschleuniger wie hier beschrieben kann aus verschiedenen Silizium-Chiplets, die getrennt hergestellt sind, zusammengesetzt sein. In diesem Kontext ist ein Chiplet eine wenigstens teilweise gepackte integrierte Schaltung, die unterscheidbare Einheiten von Logik enthält und die mit anderen Chiplets in eine größere Baugruppe zusammengefügt werden kann. Eine diverse Gruppe von Chiplets mit unterschiedlicher IP-Kern-Logik kann zu einer einzigen Vorrichtung zusammengefügt werden. Zusätzlich können die Chiplets in einen Basisbaustein oder ein Basis-Chiplet unter Verwendung einer aktiven Interposer-Technologie integriert sein. Die hier beschriebenen Konzepte ermöglichen die Zusammenschaltung und Kommunikation zwischen den unterschiedlichen Formen von IP innerhalb der GPU. IP-Kerne können unter Verwendung unterschiedlicher Prozesstechnologien hergestellt und während der Herstellung zusammengestellt werden, was die Komplexität konvergierender mehrerer IPs, insbesondere auf einem großen SoC mit IPs unterschiedlicher Varianten, auf demselben Herstellungsprozess vermeidet. Das Ermöglichen der Verwendung mehrerer Prozesstechnologien verbessert die Zeit bis zur Markteinführung und stellt eine kosteneffektive Art zum Erzeugen mehrerer Produkt-SKUs bereit. Zusätzlich sind die aufgegliederten IPs besser dafür zugänglich, dass sie unabhängig mit Energie versorgt werden, Komponenten, die für eine gegebene Arbeitslast nicht verwendet werden, können abgeschaltet werden, was den Gesamtenergieverbrauch reduziert.
Die Hardware-Logik-Chiplets können Spezial-Hardware-Logik-Chiplets 1172, Logik- oder I/O-Chiplets 1174 und/oder Speicher-Chiplets 1175 enthalten. Die Hardware-Logik-Chiplets 1172 und Logik- oder I/O-Chiplets 1174 können wenigstens teilweise in konfigurierbarer Logik oder Hardware-Logik mit fester Funktionalität implementiert sein und können einen oder mehrere Abschnitte irgendeines aus dem/den Prozessorkern(en), Grafikprozessor(en), Parallelprozessoren oder anderen Beschleunigervorrichtungen, die hier beschrieben sind, enthalten. Die Speicher-Chiplets 1175 können DRAM- (z. B. GDDR, HBM) Speicher oder Cache-(SRAM-) Speicher sein.
Jedes Chiplet kann als ein separater Halbleiterbaustein hergestellt und mit dem Substrat 1180 über eine Zusammenschaltungsstruktur 1173 gekoppelt sein. Die Zusammenschaltungsstruktur 1173 kann konfiguriert sein, elektrische Signale zwischen den verschiedenen Chiplets und Logik innerhalb des Substrats 1180 zu lenken. Die Zusammenschaltungsstruktur 1173 kann Zusammenschaltungen wie z. B., ohne jedoch darauf beschränkt zu sein, Höcker oder Säulen enthalten. In einigen Ausführungsformen kann die Zusammenschaltungsstruktur 1173 konfiguriert sein, elektrische Signale wie beispielsweise Eingabe/Ausgabe- (I/O-) Signale und/oder Leistungs- oder Massesignale, die der Operation der Logik-, I/O- oder Speicher-Chiplets zugeordnet sind, zu lenken.
In einigen Ausführungsformen ist das Substrat 1180 ein Epoxid-basiertes Laminatsubstrat. Das Substrat 1180 kann in anderen Ausführungsformen andere geeignete Typen von Substraten enthalten. Die Baugruppe 1190 kann mit anderen elektrischen Vorrichtungen über eine Baugruppenzusammenschaltung 1183 verbunden sein. Die Baugruppenzusammenschaltung 1183 kann mit einer Oberfläche des Substrats 1180 gekoppelt sein, um elektrische Signale zu anderen elektrischen Vorrichtungen wie z. B. einer Hauptplatine, einem anderen Chipsatz oder einem Mehrchipmodul zu lenken.
In einigen Ausführungsformen können ein Logik- oder I/O-Chiplet 1174 und ein Speicher-Chiplet 1175 über eine Brücke 1187, die konfiguriert ist, elektrische Signale zwischen dem Logik- oder I/O-Chiplet 1174 und dem Speicher-Chiplet 1175 zu lenken, elektrisch gekoppelt sein. Die Brücke 1187 kann eine kompakte Zusammenschaltungsstruktur sein, die einen Weg für elektrische Signale bereitstellt. Die Brücke 1187 kann ein Brückensubstrat enthalten, das aus Glas oder einem geeigneten Halbleitermaterial zusammengesetzt ist. Merkmale für elektrisches Lenken können auf dem Brückensubstrat gebildet sein, um eine Chip-zu-Chip-Verbindung zwischen dem Logik- oder I/O-Chiplet 1174 und einem Speicher-Chiplet 1175 bereitzustellen. Die Brücke 1187 kann auch als eine Siliziumbrücke oder eine Zusammenschaltungsbrücke bezeichnet sein. Beispielsweise ist die Brücke 1187 in einigen Ausführungsformen eine eingebettete Mehrbausteinzusammenschaltungsbrücke (EMIB). In einigen Ausführungsformen kann die Brücke 1187 einfach eine direkte Verbindung von einem Chiplet zu einem weiteren Chiplet sein.
Das Substrat 1180 kann Hardware-Komponenten für I/O 1191, Cache-Speicher 1192 und andere Hardware-Logik 1193 enthalten. Ein Fabric 1185 kann in das Substrat 1180 eingebettet sein, um Kommunikation zwischen den verschiedenen Logik-Chiplets und der Logik 1191, 1193 innerhalb des Substrats 1180 zu ermöglichen. In einer Ausführungsform können I/O 1191, Fabric 1185, Cache, Brücke und andere Hardware-Logik 1193 in einen Basisbaustein integriert sein, der oben auf das Substrat 1180 geschichtet ist.
In verschiedenen Ausführungsformen kann eine Baugruppe 1190 eine kleinere oder größere Anzahl von Komponenten und Chiplets enthalten, die durch ein Fabric 1185 oder eine oder mehrere Brücken 1187 zusammengeschaltet sind. Die Chiplets innerhalb der Baugruppe 1190 können in einer 3D- oder 2,5D-Anordnung angeordnet sein. Im Allgemeinen können Brückenstrukturen 1187 verwendet werden, um eine Punkt-zu-Punkt-Zusammenschaltung zwischen beispielsweise Logik- oder I/O-Chiplets und Speicher-Chiplets zu unterstützen. Das Fabric 1185 kann verwendet werden, um die verschiedenen Logik- und/oder I/O-Chiplets (z. B. die Chiplets 1172, 1174, 1191, 1193) mit anderen Logik- und/oder I/O-Chiplets zusammenzuschalten. In einer Ausführungsform kann der Cache-Speicher 1192 innerhalb des Substrats als ein globaler Cache für die Baugruppe 1190, Teil eines verteilten globalen Cache oder als ein dedizierter Cache für das Fabric 1185 agieren.
20D stellt eine Baugruppe 1194, die austauschbare Chiplets 1195 enthält, gemäß einer Ausführungsform dar. Die austauschbaren Chiplets 1195 können in standardisierte Steckplätze auf einem oder mehreren Basis-Chiplets 1196, 1198 zusammengesetzt werden. Die Basis-Chiplets 1196, 1198 können über eine Brückenzusammenschaltung 1197, die ähnlich den anderen hier beschriebenen Brückenzusammenschaltungen sein kann, gekoppelt sein und können beispielsweise eine EMIB sein. Speicher-Chiplets können ebenfalls mit Logik- oder I/O-Chiplets über eine Brückenzusammenschaltung verbunden sein. I/O- und Logik-Chiplets können über ein Zusammenschaltungs-Fabric kommunizieren. Die Basis-Chiplets können jeweils einen oder mehrere Steckplätze in einem standardisierten Format für eines aus Logik oder I/O oder Speicher/Cache unterstützen.
In einer Ausführungsform könne SRAM und Stromzuleitungsschaltungen in eines oder mehrere der Basis-Chiplets 1196, 1198 hergestellt sein, die unter Verwendung einer unterschiedlichen Prozesstechnologie im Vergleich zu den austauschbaren Chiplets 1195, die oben auf die Basis-Chiplets gestapelt sind, hergestellt werden können. Beispielsweise können die Basis-Chiplets 1196, 1198 unter Verwendung einer größeren Prozesstechnologie hergestellt werden, während die austauschbaren Chiplets unter Verwendung einer kleineren Prozesstechnologie hergestellt werden können. Eines oder mehrere der austauschbaren Chiplets 1195 können Speicher- (z. B. DRAM-) Chiplets sein. Unterschiedliche Speicherdichten können für die Baugruppe 1194 basierend auf der Leistung und/oder Leistungsfähigkeit, die für das Produkt, das die Baugruppe 1194 verwendet, erzielt werden sollen, ausgewählt werden. Zusätzlich können Logik-Chiplets mit einer unterschiedlichen Anzahl von Typen von Funktionseinheiten zur Zeit der Zusammenstellung basierend auf der Leistung und/oder Leistungsfähigkeit, die für das Produkt erzielt werden sollen, ausgewählt werden. Zusätzlich können Chiplets, die IP-Logikkerne unterschiedlicher Typen beinhalten, in die Steckplätze für die austauschbaren Chiplets eingeführt werden, was hybride Prozessor-Designs, die IP-Blöcke unterschiedlicher Technologie mischen und mit ihnen übereinstimmen können, ermöglicht.
Beispielhafte Einchipsystem mit integrierter Schaltung
Die 21-22B stellen beispielhafte integrierte Schaltungen und zugeordnete Grafikprozessoren, die unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein können, gemäß verschiedenen hier beschriebenen Ausführungsformen dar. Zusätzlich zu dem Dargestellten können andere Logik und Schaltungen enthalten sein, die zusätzliche Grafikprozessoren/Kerne, Peripherieschnittstellensteuereinheiten oder Allzweckprozessorprozessorkerne enthalten.
21 ist ein Blockdiagramm, das eine beispielhafte integrierte Schaltung 1200 eines Einchipsystems, die unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein kann, gemäß einer Ausführungsform darstellt. Die beispielhafte integrierte Schaltung 1200 enthält einen oder mehrere Anwendungsprozessor(en) 1205 (z. B. CPUs), wenigstens einen Grafikprozessor 1210, und kann zusätzlich einen Bildprozessor 1215 und/oder einen Videoprozessor 1220 enthalten, von denen jeder ein modularer IP-Kern aus derselben oder mehreren unterschiedlichen Konstruktionsanlagen sein kann. Die integrierte Schaltung 1200 enthält periphere oder Buslogik, die eine USB-Steuereinheit 1225, eine UART-Steuereinheit 12130, eine SPI/SDIO-Steuereinheit 1235 und eine I2S/I2C-Steuereinheit 1240 enthält. Zusätzlich kann die integrierte Schaltung eine Anzeigevorrichtung 1245 enthalten, die mit einer oder mehreren aus einer hochauflösenden Multimediaschnittstellen-(HDMI-) Steuereinheit 1250 und einer „Mobile Industry Processor Interface“- (MIPI- ) Anzeigeschnittstelle 1255 gekoppelt ist. Ein Speicher kann durch ein Flash-Speicherteilsystem 1260 bereitgestellt sein, das Flash-Speicher und eine Flash-Speicher-Steuereinheit enthält. Eine Speicherschnittstelle kann über eine Speichersteuereinheit 1265 zum Zugriff auf SDRAM- oder SRAM-Speichervorrichtungen bereitgestellt sein. Einige integrierte Schaltungen enthalten zusätzlich eine eingebettete Sicherheits-Engine 1270.
Die 22A-22B sind Blockdiagramme, die beispielhafte Grafikprozessoren zum Gebrauch in einem SoC gemäß hier beschriebenen Ausführungsformen darstellen. 22A stellt einen beispielhaften Grafikprozessor 1310 einer integrierten Schaltung eines Einchipsystems, das unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein kann, gemäß einer Ausführungsform dar. 22B stellt einen zusätzlichen beispielhaften Grafikprozessor 1340 einer integrierten Schaltung eines Einchipsystems, das unter Verwendung eines oder mehrerer IP-Kerne hergestellt sein kann, gemäß einer Ausführungsform dar. Der Grafikprozessor 1310 von 22A ist ein Beispiel eines Grafikprozessorkerns mit geringem Energieverbrauch. Der Grafikprozessor 1340 von 22B ist ein Beispiel eines Grafikprozessorkerns mit höherer Leistungsfähigkeit. Jeder der Grafikprozessoren 1310, 1340 kann Varianten des Grafikprozessors 1210 von 21 sein.
Wie in 22A gezeigt ist, enthält der Grafikprozessor einen Vertex-Prozessor 1305 und einen oder mehrere Fragment-Prozessor(en) 1315A-1315N (z. B. 1315A, 1315B, 1315C, 1315D bis 1315N-1 und 1315N). Der Grafikprozessor 1310 kann unterschiedliche Shader-Programme über separate Logik ausführen, so dass der Vertex-Prozessor 1305 optimiert ist, um Operationen für Vertex-Shader-Programme auszuführen, während der eine oder die mehreren Fragment-Prozessor(en) 1315A-1315N Fragment- (z.B. Pixel-) Shading-Operationen für Fragment- oder Pixel-Shader-Programme ausführen. Der Vertex-Prozessor 1305 führt die Vertex-Verarbeitungsstufe der 3D-Grafik-Pipeline aus und erzeugt Grundelemente und Vertex-Daten. Der/die Fragment-Prozessor(en) 1315A-1315N verwenden die Grundelemente und Vertex-Daten, die durch den Vertex-Prozessor 1305 erzeugt werden, um einen Rahmenpuffer zu produzieren, der auf einer Anzeigevorrichtung angezeigt wird. In einer Ausführungsform ist/sind der/die Fragment-Prozessor(en) 1315A-1315N optimiert, um Fragment-Shader-Programme auszuführen, wie sie in der OpenGL-API vorgesehen sind, was verwendet werden kann, um ähnliche Operationen wie ein Pixel-Shader-Programm auszuführen, wie es in der Direct-3D-API vorgesehen ist.
Der Grafikprozessor 1310 enthält zusätzlich eine oder mehrere Speichermanagementeinheiten (MMUs) 1320A-1320B, Cache(s) 1325A-1325B und Schaltungszusammenschaltungen 1330A-1330B. Die eine oder mehreren MMU(s) 1320A-1320B stellen die Abbildung virtueller auf physikalische Adressen für den Grafikprozessor 1310 bereit, einschließlich für den Vertex-Prozessor 1305 und/oder die Fragment-Prozessor(en) 1315A-1315N, die im Speicher gespeicherte Vertex- oder Bild/Texturdaten referenzieren können, zusätzlich zu Vertex- oder Bild/Texturdaten, die in dem einen oder den mehreren Cache(s) 1325A-1325B gespeichert sind. In einer Ausführungsform können die eine oder die mehreren MMU(s) 1320A-1320B mit anderen MMUs innerhalb des Systems synchronisiert sein, die eine oder mehrere MMUs enthalten, die dem einen oder den mehreren Anwendungsprozessor(en), dem Bildprozessor 1215 und/oder dem Videoprozessor 1220 von 21 zugeordnet sind, so dass jeder Prozessor 1205-1220 an einem gemeinsam verwendeten oder vereinheitlichten virtuellen Speichersystem teilhaben kann. Die eine oder die mehreren Schaltungszusammenschaltung(en) 1330A-1330B ermöglichen dem Grafikprozessor 1310 eine Schnittstelle mit anderen IP-Kernen innerhalb des SoC, entweder über einen internen Bus des SoC oder über eine direkte Verbindung gemäß Ausführungsformen.
Wie in 22B gezeigt ist, enthält der Grafikprozessor 1340 die eine oder die mehreren MMU(s) 1320A-1320B, Cache(s) 1325A-1325B und Schaltungszusammenschaltung(en) 1330A-1330B des Grafikprozessors 1310 von 22A. Der Grafikprozessor 1340 enthält einen oder mehrere Shader-Kern(e) 1355A-1355N z.B. 1455A, 1355B, 1355C, 1355D, 1355E, 1355F bis 1355N-1 und 1355N), die eine vereinheitlichte Shader-Kernarchitektur bereitstellen, in der ein einzelner Kern oder Typ oder Kern alle Typen eines programmierbaren Shader-Codes ausführen kann, die Shader-Programmcode enthalten, um Vertex-Shader, Fragment-Shader und/oder Rechen-Shader zu implementieren. Die genaue Anzahl von vorhandenen Shader-Kernen kann unter Ausführungsformen und Implementierungen variieren. Zusätzlich enthält der Grafikprozessor 1340 einen Inter-Kern-Aufgabemanager 1345, der als ein Thread-Verteiler arbeitet, um Ausführungs-Threads zu einem oder mehreren Shader-Kernen 1355A-1355N zu verteilen, und eine Kachelungseinheit 1358, um Kachelungsoperationen für kachelbasiertes Rendern zu beschleunigen, wobei Render-Operationen für eine Szene im Bildraum unterteilt sind, beispielsweise um lokale räumliche Kohärenz innerhalb einer Szene auszunutzen oder die Verwendung interner Caches zu optimieren.
In einem Beispiel implementiert die Anzeige-Engine 840 (17) einen oder mehrere Aspekte des Verfahrens 80 (5), des Verfahrens 90 (6) und/oder des Verfahrens 91 (7), wie bereits diskutiert. Zusätzlich können die Logik 1172 und/oder die Logik 1174 (20B-20C) einen oder mehrere Aspekte des 80 (5), des Verfahrens 90 (6) und/oder des Verfahrens 91 (7) implementieren. Außerdem können in einigen Ausführungsformen die Grafikprozessorbefehlsformate 700 (16) zum Gebrauch in dem System 150 (9) angepasst werden, mit geeigneten Befehlen zum Implementieren eines oder mehrerer Aspekte dieser Ausführungsformen. Die hier beschriebene Technologie verbessert deshalb die Qualität automatisierter Segmentierungsergebnisse in Bezug auf hochauflösenden Videoinhalt. Die Technologie kann in einer großen Vielzahl von Umfeldern wie beispielsweise für visuelle Effekte in der Filmindustrie, mit Anmerkungen versehene medizinische Bilder in der Gesundheitsbranche und so weiter verwendet werden.
Zusätzliche Anmerkungen und Beispiele:
Beispiel 1 enthält eine Halbleitereinrichtung, die ein oder mehrere Substrate und Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, umfasst, wobei die Logik wenigstens teilweise in einer oder mehreren aus konfigurierbarer Logik und Hardware-Logik mit fester Funktionalität implementiert ist, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingeben von Videodaten in ein neuronales Netz, Bestimmen einer Grenzverlustfunktion für das neuronale Netz und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion dient, wobei das neuronale Netz zum Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte dient.
Beispiel 2 enthält die Halbleitereinrichtung von Beispiel 1, wobei die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert sein soll.
Beispiel 3 enthält die Halbleitereinrichtung von Beispiel 1, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingeben einer initialen Merkmalsmenge in das neuronale Netz und Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge dient.
Beispiel 4 enthält die Halbleitereinrichtung von Beispiel 3, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Beispiel 5 enthält die Halbleitereinrichtung von Beispiel 3, wobei die Gewichte mit einer nativen Auflösung der Videodaten ausgewählt werden.
Beispiel 6 enthält die Halbleitereinrichtung von Beispiel 1, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingeben vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse in das neuronale Netz dient.
Beispiel 7 enthält die Halbleitereinrichtung eines der Beispiele 1 bis 6, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingeben von Anwenderauswahldaten in das neuronale Netz dient.
Beispiel 8 enthält wenigstens ein computerlesbares Speichermedium, das eine Gruppe von Befehlen enthält, die dann, wenn sie durch ein Berechnungssystem ausgeführt werden, das Berechnungssystem veranlassen, Videodaten in ein neuronales Netz einzugeben, eine Grenzverlustfunktion für das neuronale Netz zu bestimmen und Gewichte für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion auszuwählen, wobei das neuronale Netz dazu dient, eine Segmentierung auf Pixelebene eines oder mehrerer der in den Videodaten abgebildeten Objekte auszugeben.
Beispiel 9 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 8, wobei die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert sein soll.
Beispiel 10 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 8, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem veranlassen, eine initiale Merkmalsmenge in das neuronale Netz einzugeben und eine Tensorzerlegung auf der initialen Merkmalsmenge durchzuführen.
Beispiel 11 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 10, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Beispiel 12 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 10, wobei die Gewichte mit einer nativen Auflösung der Videodaten ausgewählt werden.
Beispiel 13 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 8, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, vorhergehende Rahmen und vorhergehende Rahmensegmentierungsergebnisse in das neuronale Netz einzugeben.
Beispiel 14 enthält das wenigstens eine computerlesbare Speichermedium eines der Beispiele 8 bis 13, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, Anwenderauswahldaten in das neuronale Netz einzugeben.
Beispiel 15 enthält eine Halbleitereinrichtung, die ein oder mehrere Substrate und Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, umfasst, wobei die Logik wenigstens teilweise in einem oder mehreren aus konfigurierbarer Logik oder Hardware-Logik mit fester Funktionalität implementiert ist, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Annehmen von Videodaten und einer initialen Merkmalsmenge, Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten, und Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge dient.
Beispiel 16 enthält die Halbleitereinrichtung von Beispiel 15, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Beispiel 17 enthält die Halbleitereinrichtung von Beispiel 15, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Annehmen vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse dient und wobei die Segmentierung auf Pixelebene ferner basierend auf den vorhergehenden Rahmen und den vorhergehenden Rahmensegmentierungsergebnissen ausgegeben wird.
Beispiel 18 enthält die Halbleitereinrichtung von Beispiel 15, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Annehmen von Anwenderauswahldaten dient und wobei die Segmentierung auf Pixelebene ferner basierend auf den Anwenderauswahldaten ausgegeben wird.
Beispiel 19 enthält die Halbleitereinrichtung eines der Beispiele 15 bis 18, wobei die Segmentierung auf Pixelebene mit einer nativen Auflösung der Videodaten ausgegeben wird.
Beispiel 20 enthält wenigstens ein computerlesbares Speichermedium, das eine Gruppe von Befehlen enthält, die dann, wenn sie durch ein Berechnungssystem ausgeführt werden, das Berechnungssystem veranlassen, Videodaten und eine initiale Merkmalsmenge anzunehmen, eine Tensorzerlegung auf der initialen Merkmalsmenge durchzuführen, um eine reduzierte Merkmalsmenge zu erhalten, und eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge auszugeben.
Beispiel 21 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 20, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Beispiel 22 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 20, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, vorhergehende Rahmen und vorhergehende Segmentierungsergebnisse anzunehmen, und wobei die Segmentierung auf Pixelebene ferner basierend auf den vorhergehenden Rahmen und den vorhergehenden Rahmensegmentierungsergebnissen ausgegeben wird.
Beispiel 23 enthält das wenigstens eine computerlesbare Speichermedium von Beispiel 20, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, Anwenderauswahldaten anzunehmen, und wobei die Segmentierung auf Pixelebene ferner basierend auf den Anwenderauswahldaten ausgegeben wird.
Beispiel 24 enthält das wenigstens eine computerlesbare Speichermedium eines der Beispiele 20 bis 23, wobei die Segmentierung auf Pixelebene mit einer nativen Auflösung der Videodaten ausgegeben wird.
Beispiel 25 enthält ein Verfahren zum Trainieren eines neuronalen Netzes, wobei das Verfahren Eingeben von Videodaten in das neuronale Netz, Bestimmen einer Grenzverlustfunktion für das neuronale Netz und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion umfasst, wobei das neuronale Netz eine Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildete Objekte ausgibt.
Beispiel 26 enthält das Verfahren von Beispiel 25, wobei die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert ist.
Beispiel 27 enthält das Verfahren von Beispiel 25, das ferner das Eingeben einer initialen Merkmalsmenge in das neuronale Netz und Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge enthält.
Beispiel 28 enthält das Verfahren von Beispiel 27, wobei die Tensorzerlegung einen Kerntensor, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, annähert.
Beispiel 29 enthält das Verfahren von Beispiel 27, wobei die Gewichte mit einer nativen Auflösung der Videodaten ausgewählt werden.
Beispiel 30 enthält das Verfahren von Beispiel 25, das ferner das Eingeben vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse in das neuronale Netz enthält.
Beispiel 31 enthält das Verfahren eines der Beispiele 25 bis 30, das ferner das Eingeben von Anwenderauswahldaten in das neuronale Netz enthält.
Beispiel 32 enthält ein Verfahren zum Betreiben eines neuronalen Netzes, wobei das Verfahren das Annehmen von Videodaten und einer initialen Merkmalsmenge, Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten, und Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge umfasst.
Beispiel 33 enthält das Verfahren von Beispiel 32, wobei die Tensorzerlegung einen Kerntensor, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, annähert.
Beispiel 34 enthält das Verfahren von Beispiel 32, das ferner Annehmen vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse enthält, wobei die Segmentierung auf Pixelebene ferner basierend auf den vorhergehenden Rahmen und den vorhergehenden Rahmensegmentierungsergebnisse ausgegeben wird.
Beispiel 35 enthält das Verfahren von Beispiel 32, das ferner das Annehmen von Anwenderauswahldaten enthält, wobei die Segmentierung auf Pixelebene ferner basierend auf den Anwenderauswahldaten ausgegeben wird.
Beispiel 36 enthält das Verfahren eines der Beispiele 32 bis 35, wobei die Segmentierung auf Pixelebene mit einer nativen Auflösung der Videodaten ausgegeben wird.
Beispiel 37 enthält ein leistungsgesteigertes Berechnungssystem, das eine Netzsteuereinheit, einen Prozessor, der mit der Netzsteuereinheit gekoppelt ist, und einen Speicher, der mit dem Prozessor gekoppelt ist, umfasst, wobei der Speicher eine Gruppe von Befehlen enthält, die dann, wenn sie durch den Prozessor ausgeführt werden, das Berechnungssystem veranlassen, das Verfahren eines der Beispiele 25 bis 35 auszuführen.
Beispiel 38 enthält Mittel zum Ausführen des Verfahrens eines der Beispiele 25 bis 35.
Ausführungsformen sind zum Gebrauch mit allen Typen von HalbleiterChips mit integrierter Schaltung („IC“) anwendbar. Beispiele für diese IC-Chips enthalten, ohne jedoch darauf beschränkt zu sein, Prozessoren, Steuereinheiten, Chipsatz-Komponenten, programmierbare Logik-Arrays (PLAs), Speicherchips, Netzchips, Einchipsysteme (SoCs) SSD/NAND-Steuereinheit-ASICs und dergleichen. Zusätzlich sind in einigen der Zeichnungen Signalleitungen durch Linien repräsentiert. Einige können unterschiedlich sein, um mehr einzelne Signalpfade anzugeben, die eine Nummernbeschriftung aufweisen, um eine Anzahl einzelner Signalpfade anzugeben, und/oder Pfeile an einem oder mehreren Enden aufweisen, um die primäre Datenflussrichtung anzugeben. Das sollte jedoch nicht als einschränkend gedeutet werden. Vielmehr können solche hinzugefügte Einzelheiten zusammen mit einer oder mehreren Ausführungsformen verwendet werden, um ein leichteres Verständnis einer Schaltung zu unterstützen. Irgendwelche repräsentierten Signalleitungen, ob sie nun zusätzliche Informationen aufweisen oder nicht, können tatsächlich ein oder mehrere Signale umfassen, die in mehreren Richtungen laufen, und können mit irgendeinem geeigneten Typ eines Signalschemas implementiert sein, z. B. digitale oder analoge Leitungen, die mit Differenzpaaren, Lichtleitern und/oder unsymmetrischen Leitungen implementiert sind.
Beispiele für Größen/Modelle/Werte/Bereiche können angegeben worden sein, obwohl Ausführungsformen nicht auf diese beschränkt sind. Da sich Herstellungstechniken (z. B. Photolithographie) im Laufe der Zeit weiterentwickeln, ist zu erwarten, dass Vorrichtungen kleinerer Größe hergestellt werden könnten. Zusätzlich können bekannte Stromversorgungs/Masse-Verbindungen mit IC-Chips und anderen Komponenten innerhalb der Figuren gezeigt sein oder nicht, zur Vereinfachung der Darstellung und Diskussion und damit spezielle Aspekte der Ausführungsformen nicht verdeckt werden. Ferner können Anordnungen in Blockdiagrammform gezeigt sein, um das Verdecken von Ausführungsformen zu vermeiden, und auch im Hinblick auf die Tatsache, dass Besonderheiten in Bezug auf die Implementierung solcher Blockdiagrammanordnungen in hohem Maße von der Plattform, in der die Ausführungsform implementiert werden soll, abhängig sind, d. h. solche Besonderheiten sollten im Wissensgebiet eines Fachmanns sein. Wenn spezifische Einzelheiten (z. B. Schaltungen) dargelegt sind, um Beispielausführungsformen zu beschreiben, sollte für einen Fachmann offensichtlich sein, dass Ausführungsformen ohne diese oder mit einer Variation dieser spezifischen Einzelheiten praktiziert werden können. Die Beschreibung ist somit als erläuternd und nicht als einschränkend zu betrachten.
Der Begriff „gekoppelt“ kann hier so verwendet sein, dass er sich auf irgendeinen Typ einer Beziehung, direkt oder indirekt, zwischen den fraglichen Komponenten bezieht, und kann für elektrische, mechanische, fluide, optische, elektromagnetische, elektromechanische oder andere Verbindungen gelten. Zusätzlich können die Begriffe „erster“, „zweiter“ usw. hier nur verwendet sein, um die Diskussion zu unterstützen, und besitzen keine besondere zeitliche oder chronologische Signifikanz, sofern nicht anders angegeben.
Wie sie in dieser Anmeldung und in den Ansprüchen verwendet ist, kann eine Liste von Elementen, die durch den Begriff „eines oder mehrere aus“ verbunden sind, irgendeine Kombination der aufgelisteten Elemente bedeuten. Beispielsweise können der Ausdruck „eines oder mehrere aus A, B, und C“ und der Ausdruck „eines oder mehrere aus A, B oder C“ jeweils A; B; C; A und B; A und C, B und C oder A, B und C bedeuten.
Fachleute werden aus der vorstehenden Beschreibung erkennen, dass die umfassenden Techniken der Ausführungsformen in einer Vielzahl von Formen implementiert sein können. Deshalb sollte, obwohl die Ausführungsformen in Verbindung mit speziellen Ausführungsformen davon beschrieben worden sind, der wahre Schutzbereich der Ausführungsformen nicht so beschränkt ein, da andere Modifikationen für den qualifizierten Praktiker bei Studieren der Zeichnungen, der Spezifikation und der folgenden Ansprüche offensichtlich werden.

Claims

Halbleitereinrichtung, die Folgendes umfasst: ein oder mehrere Substrate; und Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, wobei die Logik wenigstens teilweise in einer oder mehreren aus konfigurierbarer Logik oder Hardware-Logik mit fester Funktionalität implementiert ist, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, dient zum: Eingeben von Videodaten in ein neuronales Netz; Bestimmen einer Grenzverlustfunktion für das neuronale Netz; und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion, wobei das neuronale Netz zum Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte dient.
Halbleitereinrichtung nach Anspruch 1, wobei die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert sein soll.
Halbleitereinrichtung nach Anspruch 1, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, dient zum: Eingeben einer initialen Merkmalsmenge in das neuronale Netz; und Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge.
Halbleitereinrichtung nach Anspruch 3, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Halbleitereinrichtung nach Anspruch 3, wobei die Gewichte mit einer nativen Auflösung der Videodaten ausgewählt werden.
Halbleitereinrichtung nach Anspruch 1, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingaben vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse in das neuronale Netz dient.
Halbleitereinrichtung nach einem der Ansprüche 1-6, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Eingeben von Anwenderauswahldaten in das neuronale Netz dient.
Wenigstens ein computerlesbares Speichermedium, das eine Gruppe von Befehlen enthält, die dann, wenn sie durch ein Berechnungssystem ausgeführt werden, das Berechnungssystem veranlassen zum: Eingeben von Videodaten in ein neuronales Netz; Bestimmen einer Grenzverlustfunktion für das neuronale Netz; und Auswählen von Gewichten für das neuronale Netz basierend wenigstens teilweise auf der Grenzverlustfunktion, wobei das neuronale Netz zum Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte dient.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 8, wobei die Grenzverlustfunktion für Grenzpixel in den Videodaten dediziert sein soll.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 8, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen zum: Eingeben einer initialen Merkmalsmenge in das neuronale Netz; und Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 10, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 10, wobei die Gewichte mit einer nativen Auflösung der Videodaten ausgewählt werden.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 8, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, vorhergehende Rahmen und vorhergehende Rahmensegmentierungsergebnisse in das neuronale Netz einzugeben.
Wenigstens ein computerlesbares Speichermedium nach einem der Ansprüche 8-13, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, Anwenderauswahldaten in das neuronale Netz einzugeben.
Halbleitereinrichtung, die Folgendes umfasst: ein oder mehrere Substrate; und Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, wobei die Logik wenigstens teilweise in einer oder mehreren aus konfigurierbarer Logik oder Hardware-Logik mit fester Funktionalität implementiert ist, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, dient zum: Annehmen von Videodaten und einer initialen Merkmalsmenge; Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten; und Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge.
Halbleitereinrichtung nach Anspruch 15, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Halbleitereinrichtung nach Anspruch 15, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Annehmen vorhergehender Rahmen und vorhergehender Rahmensegmentierungsergebnisse dient und wobei die Segmentierung auf Pixelebene ferner basierend auf den vorhergehenden Rahmen und den vorhergehenden Rahmensegmentierungsergebnissen ausgegeben wird.
Halbleitereinrichtung nach Anspruch 15, wobei die Logik, die mit dem einen oder den mehreren Substraten gekoppelt ist, zum Annehmen von Anwenderauswahldaten dient und wobei die Segmentierung auf Pixelebene ferner basierend auf den Anwenderauswahldaten ausgegeben wird.
Halbleitereinrichtung nach einem der Ansprüche 15-18, wobei die Segmentierung auf Pixelebene mit einer nativen Auflösung der Videodaten ausgegeben wird.
Wenigstens ein computerlesbares Speichermedium, das eine Gruppe von Befehlen enthält, die dann, wenn sie durch ein Berechnungssystem ausgeführt werden, das Berechnungssystem veranlassen zum: Annehmen von Videodaten und einer initialen Merkmalsmenge; Durchführen einer Tensorzerlegung auf der initialen Merkmalsmenge, um eine reduzierte Merkmalsmenge zu erhalten; und Ausgeben einer Segmentierung auf Pixelebene eines oder mehrerer in den Videodaten abgebildeter Objekte basierend wenigstens teilweise auf der reduzierten Merkmalsmenge.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 20, wobei die Tensorzerlegung zum Annähern eines Kerntensors, der kleiner ist als ein ursprünglicher Tensor, der der initialen Merkmalsmenge entspricht, dient.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 20, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, vorhergehende Rahmen und vorhergehende Rahmensegmentierungsergebnisse anzunehmen, und wobei die Segmentierung auf Pixelebene ferner basierend auf den vorhergehenden Rahmen und den vorhergehenden Rahmensegmentierungsergebnissen ausgegeben wird.
Wenigstens ein computerlesbares Speichermedium nach Anspruch 20, wobei die Befehle, wenn sie ausgeführt werden, das Berechnungssystem ferner veranlassen, Anwenderauswahldaten anzunehmen, und wobei die Segmentierung auf Pixelebene ferner basierend auf den Anwenderauswahldaten ausgegeben wird.
Wenigstens ein computerlesbares Speichermedium nach einem der Ansprüche 20-23, wobei die Segmentierung auf Pixelebene mit einer nativen Auflösung der Videodaten ausgegeben wird.
Einrichtung, die Mittel zum Ausführen der Befehlsschritte nach einem der Ansprüche 8-13 umfasst.