DE102018128626A1 - Systeme, Verfahren und Vorrichtungen für Matrixoperationen - Google Patents

Systeme, Verfahren und Vorrichtungen für Matrixoperationen Download PDF

Info

Publication number
DE102018128626A1
DE102018128626A1 DE102018128626.0A DE102018128626A DE102018128626A1 DE 102018128626 A1 DE102018128626 A1 DE 102018128626A1 DE 102018128626 A DE102018128626 A DE 102018128626A DE 102018128626 A1 DE102018128626 A1 DE 102018128626A1
Authority
DE
Germany
Prior art keywords
memory
instruction
tile
dimensional data
registers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018128626.0A
Other languages
English (en)
Inventor
Raanan Sade
Simon Rubanovich
Amit Gradstein
Zeev Sperber
Alexander Heinecke
Robert Valentine
Mark Charney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE102018128626A1 publication Critical patent/DE102018128626A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30109Register structure having multiple operands in a single register

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

Hierin ausführlich besprochene Ausführungsformen betreffen Matrixoperationen (Kacheloperationen). Zum Beispiel, Decodierverschaltung, um eine Anweisung mit Feldern für einen Opcode und eine Arbeitsspeicheradresse zu decodieren, und Ausführungsverschaltung, um die decodierte Anweisung auszuführen, um Konfigurationsinformationen über die Nutzung von Speicher für zweidimensionale Datenstrukturen an der Arbeitsspeicherposition zu speichern.

Description

  • GEBIET DER ERFINDUNG
  • Das Gebiet der Erfindung betrifft allgemein Computerprozessorarchitekturen und genauer Matrixmanipulationen.
  • STAND DER TECHNIK
  • Matrizen werden in vielen Rechenaufgaben immer wichtiger, wie zum Beispiel bei maschinellem Lernen und sonstiger Verarbeitung von Massendaten.
  • Figurenliste
  • Die vorliegende Erfindung wird in den Figuren der beiliegenden Zeichnungen beispielhaft, jedoch nicht einschränkend veranschaulicht, in denen gleiche Referenzen ähnliche Elemente anzeigen und in denen:
    • 1A und 1B eine Ausführungsform von konfigurierten Kacheln veranschaulichen;
    • 2 mehrere Beispiele einer Matrixspeicherung veranschaulicht;
    • 3 eine Ausführungsform eines Systems veranschaulicht, das einen Beschleuniger für Matrixoperationen (Kacheloperationen) einsetzt;
    • 4 und 5 verschiedene Ausführungsformen zeigen, wie Arbeitsspeicher unter Verwendung eines Beschleunigers für Matrixoperationen gemeinsam genutzt wird;
    • 6 eine Ausführungsform einer Matrixmultiplikations-Akkumulationsoperation unter Verwendung von Kacheln („TMMA“) veranschaulicht;
    • 7 eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung veranschaulicht;
    • 8 eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung veranschaulicht;
    • 9 eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung veranschaulicht;
    • 10 eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung veranschaulicht;
    • 11 SIMD-Implementierungen mit einer zu einer Zweierpotenz bemessenen Größe nach einer Ausführungsform veranschaulicht, wobei die Akkumulatoren Eingabegrößen verwenden, die größer als die Eingaben in die Multiplikatoren sind;
    • 12 eine Ausführungsform eines Systems veranschaulicht, das eine Matrixoperationsverschaltung einsetzt;
    • 13 eine Ausführungsform einer Prozessorkern-Pipeline veranschaulicht, die Matrixoperationen unter Verwendung von Kacheln unterstützt;
    • 14 eine Ausführungsform einer Prozessorkern-Pipeline veranschaulicht, die Matrixoperationen unter Verwendung von Kacheln unterstützt;
    • 15 ein Beispiel einer Matrix veranschaulicht, die in zeilenweisem Format und in spaltenweisem Format ausgedrückt ist;
    • 16 ein Beispiel einer Verwendung von Matrizen (Kacheln) veranschaulicht;
    • 17 eine Ausführungsform eines Verfahrens zur Verwendung von Matrizen (Kacheln) veranschaulicht;
    • 18 eine beispielhafte Ausführung einer STTILECFG-Anweisung veranschaulicht;
    • 19 eine Ausführungsform einer Beschreibung der zu unterstützenden Matrizen (Kacheln) veranschaulicht;
    • 20(A)-(D) Beispiele eines Registers bzw. von Registern veranschaulichen;
    • 21 eine Ausführungsform eines Verfahrens veranschaulicht, das von einem Prozessor ausgeführt wird, um eine STTILECFG-Anweisung zu verarbeiten;
    • 22 eine ausführlichere Beschreibung einer Ausführung einer STTILECFG-Anweisung unter Verwendung einer Arbeitsspeicheradressierung veranschaulicht;
    • 23 beispielhaften Pseudocode zur Ausführung einer STTILECFG-Anweisung veranschaulicht;
    • 24(A)-(C) ein beispielhaftes Anweisungsformat veranschaulichen;
    • 25 ein Blockdiagramm einer Registerarchitektur nach einer Ausführungsform der Erfindung ist;
    • 26A-B die In-Order-Pipeline und den In-Order-Kern veranschaulichen;
    • 27A-B ein Blockdiagramm einer spezifischeren beispielhaften In-Order-Kernarchitektur veranschaulichen, wobei der Kern einer von mehreren logischen Blöcken (die anderen Kerne des gleichen Typs und/oder anderer Typen enthalten) in einem Chip wäre;
    • 28 ein Blockdiagramm eines Prozessors 2800 ist, der nach Ausführungsformen der Erfindung mehr als einen Kern aufweisen kann, einen integrierten Speichercontroller aufweisen kann und integrierte Grafik aufweisen kann;
    • 29-32 Blockdiagramme von beispielhaften Computerarchitekturen sind; und
    • 33 ein Blockdiagramm ist, das die Verwendung eines Softwareanweisungswandlers gegenüberstellt, um binäre Anweisungen in einem Quellanweisungssatz in binäre Anweisungen in einem Zielanweisungssatz nach Ausführungsformen der Erfindung umzuwandeln.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt. Es ist jedoch klar, dass Ausführungsformen der Erfindung ohne diese spezifischen Details praktiziert werden können. In anderen Fällen wurden wohlbekannte Schaltkreise, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu verschleiern.
  • Bezugnahmen in der Beschreibung auf „eine Ausführungsform“, „ein Ausführungsbeispiel“ usw. zeigen an, dass die beschriebene Ausführungsform ein bestimmtes Merkmal, eine bestimmte Struktur oder Eigenschaft enthalten kann, aber jede Ausführungsform kann nicht notwendigerweise das bestimmte Merkmal, die bestimmte Struktur oder Eigenschaft enthalten. Darüber hinaus beziehen sich solche Formulierungen nicht notwendigerweise auf die gleiche Ausführungsform. Ferner, wenn ein bestimmtes Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben wird, wird vorgebracht, dass es im Wissen von Fachleuten liegt, ein solches Merkmal, eine solche Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen zu erwirken, egal, ob es bzw. sie explizit beschrieben wird oder nicht.
  • In vielen handelsüblichen Prozessoren ist eine Handhabung von Matrizen eine schwierige und/oder anweisungsintensive Aufgabe. Zeilen einer Matrix könnten zum Beispiel in eine Vielzahl von gepackten Datenregistern (z. B. SIMD- oder Vektorregistern) platziert und danach individuell bearbeitet werden. Eine Addition von zwei 8x2-Matrizen kann beispielsweise eine Last erfordern oder in vier gepackten Datenregistern angesammelt werden, abhängig von Datengrößen. Danach wird eine erste Addition von gepackten Datenregistern durchgeführt, die einer ersten Zeile von jeder Matrix entsprechen, und eine zweite Addition von gepackten Datenregistern wird durchgeführt, die einer zweiten Zeile von jeder Matrix entsprechen. Danach werden die resultierenden gepackten Datenregister zurück in den Arbeitsspeicher gestreut. Während dieses Szenario für kleine Matrizen akzeptabel sein kann, ist es oft für größere Matrizen nicht akzeptabel.
  • Besprechung auf hoher Ebene
  • Hierin werden Mechanismen beschrieben, um Matrixoperationen in Computerhardware wie Zentralprozessoreinheiten (CPUs), Grafikverarbeitungseinheiten (GPUs) und Beschleunigern zu unterstützen. Die Matrixoperationen setzen 2-dimensionale (2D) Datenstrukturen ein, die eine oder mehrere gepackte Arbeitsspeicherbereiche wie Register repräsentieren. In dieser gesamten Beschreibung werden diese 2D-Datenstrukturen als Kacheln bezeichnet. Es ist anzumerken, dass eine Matrix kleiner als eine Kachel sein kann (weniger als die Gesamtheit einer Kachel verwenden kann) oder eine Vielzahl von Kacheln verwenden kann (die Matrix ist größer als die Größe einer Kachel). In der gesamten Beschreibung wird Matrixsprache (Kachelsprache) verwendet, um Operationen anzuzeigen, die unter Verwendung von Kacheln durchgeführt werden und die eine Matrix beeinflussen; ob diese Matrix größer als eine beliebige Kachel ist oder nicht, ist üblicherweise nicht relevant.
  • Jede Kachel kann durch verschiedene Operationen bearbeitet werden, wie diejenigen, die hierin ausführlich beschrieben werden und unter anderem einschließen: Matrixmultiplikation (Kachelmultiplikation), Kacheladdition, Kachelsubtraktion, Kacheldiagonale, Kachel-Nullsetzung, Kacheltransposition, Kachel-Skalarprodukt, Kachel-Übertragung, Kachelzeilen-Übertragung, Kachelspalten-Übertragung, Kachelmultiplikation, Kachelmultiplikation und - Akkumulation, Kachelbewegung usw. Zusätzlich kann eine Unterstützung für Operatoren wie die Verwendung einer Skalierung und/oder eines Versatzes mit diesen Operationen oder zur Unterstützung von zukünftigen, nicht numerischen Anwendungen verwendet werden, beispielsweise „lokaler Arbeitsspeicher“ für OpenCL, Datenkomprimierung/-dekomprimierung usw.
  • Abschnitte von Speicher (wie Arbeitsspeicher (nichtflüchtig und flüchtig), Register, Zwischenspeicher usw.) sind in Kacheln mit verschiedenen horizontalen und vertikalen Dimensionen angeordnet. Eine Kachel kann eine horizontale Dimension von 4 (z. B. vier Zeilen einer Matrix) und eine vertikale Dimension von 8 (z. B. 8 Spalten der Matrix) aufweisen. Üblicherweise ist die horizontale Dimension mit Elementgrößen verbunden (z. B. 2-, 4-, 8-, 16-, 32-, 64-, 128-Bit usw.). Mehrere Datentypen (Gleitkomma mit einfacher Genauigkeit, Gleitkomma mit doppelter Genauigkeit, ganzzahlig usw.) können unterstützt sein.
  • Beispielhafte Verwendung von konfigurierten Kacheln
  • 1A veranschaulicht eine Ausführungsform von konfigurierten Kacheln. Wie gezeigt, weisen 4 kB von Anwendungsarbeitsspeicher 102 4 darauf gespeicherte 1-kB-Kacheln auf, Kachel 0 104, Kachel 1106, Kachel 2 108 und Kachel 3 110. In diesem Beispiel bestehen die 4 Kacheln nicht aus Paaren und jede weist in Zeilen und Spalten angeordnete Elemente auf. Kachel t0 104 und Kachel t1 106 weisen K Zeilen und N Spalten mit 4-Byte-Elementen (z. B. Daten mit einfacher Genauigkeit) auf, wobei K gleich 8 ist und N = 32. Kachel t2 108 und Kachel t3 110 weisen K Zeilen und N/2 Spalten mit 8-Byte-Elementen (z. B. Daten mit doppelter Genauigkeit) auf. Da die Operanden mit doppelter Genauigkeit die zweifache Breite derer mit einfacher Genauigkeit aufweisen, ist diese Konfiguration mit einer Palette vereinbar, die verwendet wird, um Kacheloptionen bereitzustellen und mindestens 4 Bezeichner mit einem Gesamtspeicher von mindestens 4 kB liefert. In Betrieb können die Kacheln unter Verwendung von Lade- und Speicheroperationen aus dem Arbeitsspeicher geladen und in diesem gespeichert werden. Abhängig vom verwendeten Anweisungscodierschema variiert die Menge an verfügbarem Anwendungsarbeitsspeicher sowie die Größe, Anzahl und Konfiguration von verfügbaren Kacheln.
  • 1B veranschaulicht eine Ausführungsform von konfigurierten Kacheln. Wie gezeigt weisen 4 kB von Anwendungsarbeitsspeicher 122 2 Paare von darauf gespeicherten 1-kB-Kacheln auf, wobei das erste Paar aus Kachel t4L 124 und Kachel t4R 126 besteht und das zweite Paar aus Kachel t5L 128 und Kachel t5R 130 besteht. Wie gezeigt, sind die Kachelpaare in eine linke Kachel und eine rechte Kachel aufgeteilt. In anderen Ausführungsformen sind die Kachelpaare in eine gerade Kachel und eine ungerade Kachel aufgeteilt. In diesem Beispiel weisen die 4 Kacheln jeweils in Zeilen und Spalten angeordnete Elemente auf. Kachel t4L 124 und Kachel t4R 126 weisen K Zeilen und N Spalten mit 4-Byte-Elementen (z. B. Daten mit einfacher Genauigkeit) auf, wobei K gleich 8 ist und N gleich 32 ist. Kachel t5L 128 und Kachel t5R 130 weisen K Zeilen und N/2 Spalten mit 8-Byte-Elementen (z. B. Daten mit doppelter Genauigkeit) auf. Da die Operanden mit doppelter Genauigkeit die zweifache Breite derer mit einfacher Genauigkeit aufweisen, ist diese Konfiguration mit einer Palette vereinbar, die verwendet wird, um Kacheloptionen bereitzustellen und mindestens 2 Bezeichner mit einem Gesamtspeicher von mindestens 4 kB liefert. Die vier Kacheln von 1A verwenden 4 Bezeichner, die jeweils eine 1-kB-Kachel benennen, wobei die 2 Kachelpaare in 1B 2 Bezeichner verwenden können, um die gepaarten Kacheln anzugeben. In einigen Ausführungsformen akzeptieren Kachelanweisungen einen Bezeichner einer gepaarten Kachel als einen Operanden. In Betrieb können die Kacheln unter Verwendung von Lade- und Speicheroperationen aus dem Arbeitsspeicher geladen und in diesem gespeichert werden. Abhängig vom verwendeten Anweisungscodierschema variiert die Menge an verfügbarem Anwendungsarbeitsspeicher sowie die Größe, Anzahl und Konfiguration von verfügbaren Kacheln.
  • In einigen Ausführungsformen können Kachelparameter definiert werden. Es wird zum Beispiel eine „Palette“ verwendet, um Kacheloptionen bereitzustellen. Beispielhafte Optionen enthalten unter anderem: die Anzahl der Kachelbezeichner, die Byteanzahl in einer Speicherzeile, die Zeilen- und Spaltenanzahl in einer Kachel usw. Eine maximale „Höhe“ (Zeilenanzahl) einer Kachel kann beispielsweise folgendermaßen definiert werden: Max . Kachelzeilen = Speicherarchitektur/ ( Anzahl  an Palettenbezeichnern *Byteanzahl pro Zeile ) .
    Figure DE102018128626A1_0001
  • Als solche kann eine Anwendung so geschrieben werden, dass eine fixierte Verwendung von Bezeichnern unterschiedliche Speichergrößen über Implementierungen hinweg vorteilhaft nutzen kann.
  • Eine Konfiguration der Kacheln erfolgt unter Verwendung einer Kachelkonfigurationsanweisung („TILECONFIG“), wobei eine bestimmte Kachelnutzung in einer ausgewählten Palette definiert ist. Diese Deklaration enthält die Anzahl der zu verwendenden Kachelnamen, die angeforderte Anzahl an Zeilen und Spalten pro Bezeichner (Kachel) und in einigen Ausführungsformen den angeforderten Datentyp jeder Kachel. In einigen Ausführungsformen werden Konsistenzprüfungen während der Ausführung einer TILECONFIG-Anweisung durchgeführt, um zu ermitteln, dass sie mit den Einschränkungen des Paletteneintrags übereinstimmt.
  • Beispielhafte Kachelspeichertypen
  • 2 veranschaulicht mehrere Beispiele einer Matrixspeicherung. Bei (A) wird eine Kachel im Arbeitsspeicher gespeichert. Wie gezeigt besteht jede „Zeile“ aus vier gepackten Datenelementen. Um zur nächsten „Zeile“ zu gelangen, wird ein Schrittwert verwendet. Es ist anzumerken, dass Zeilen im Arbeitsspeicher aufeinanderfolgend gespeichert sein können. Ein schrittweiser Arbeitsspeicherzugriff ermöglicht einen Zugriff auf eine Zeile und danach auf die nächste, wenn die Kachelspeicherung die Zeilenbreite des zugrundeliegenden Arbeitsspeicherarrays nicht abbildet.
  • Kachelladevorgänge aus dem und Kachelspeichervorgänge in den Arbeitsspeicher sind üblicherweise schrittweise Zugriffe aus dem Anwendungsarbeitsspeicher auf gepackte Datenzeilen. Beispielhafte TILELOAD- und TILESTORE-Anweisungen oder andere Anweisungsreferenzen auf Anwendungsarbeitsspeicher als ein KACHEL-Operand in Lade-Operationsanweisungen können in einigen Ausführungsformen neu gestartet werden, um (bis zu) 2*Zeilen von Seitenfehlern, nicht maskierte Gleitkommaausnahmen und/oder Unterbrechungen pro Anweisung zu handhaben.
  • In (B) ist eine Matrix in einer Kachel gespeichert, die aus einer Vielzahl von Registern besteht, wie gepackten Datenregistern (eine einzelne Anweisung, mehrere Daten (SIMD) oder Vektorregister). In diesem Beispiel ist die Kachel drei physischen Registern überlagert. Üblicherweise werden aufeinanderfolgende Register verwendet, dies ist jedoch nicht notwendig.
  • In (C) ist eine Matrix in einer Kachel in einem Nicht-Register-Speicher gespeichert, auf den über einen Fused-Multiply-Accumulate(FMA)-Schaltkreis zugegriffen werden kann, der in Kacheloperationen verwendet wird. Dieser Speicher kann sich innerhalb eines FMA oder daneben befinden. Darüber hinaus kann der Speicher in einigen Ausführungsformen, die unten besprochen werden, für ein Datenelement und nicht für eine ganze Zeile oder Kachel sein.
  • Die unterstützten Parameter für die TMMA-Architektur werden über CPUID gemeldet. In einigen Ausführungsformen enthält die Liste der Informationen eine Maximalhöhe und eine maximale SIMD-Dimension. Ein Konfigurieren der TMMA-Architektur erfordert ein Angeben der Dimensionen für jede Kachel, die Elementgröße für jede Kachel und die Palettenkennung. Diese Konfiguration erfolgt durch Ausführen der TILECONFIG-Anweisung.
  • Eine erfolgreiche Ausführung einer TILECONFIG-Anweisung ermöglicht nachfolgende TILE-Operationen. Eine TILERELEASEALL-Anweisung löscht die Kachelkonfiguration und deaktiviert die TILE-Operationen (bis die nächste TILECONFIG-Anweisung ausgeführt wird). In einigen Ausführungsformen werden XSAVE, XSTORE usw. bei einem Kontextwechsel unter Verwendung von Kacheln verwendet. In einigen Ausführungsformen werden 2 XCR0-Bits bei XSAVE verwendet, eines für TILECONFIF-Metadaten und ein Bit, das tatsächlichen Kachelnutzlastdaten entspricht.
  • TILECONFIG konfiguriert nicht nur die Kachelnutzung, sondern setzt auch eine Zustandsvariable, die anzeigt, dass sich das Programm in einem Bereich mit Code mit konfigurierten Kacheln befindet. Eine Implementierung kann Einschränkungen an anderen Anweisungen auflisten, die mit einem Kachelbereich verwendet werden können, wie zum Beispiel keine Nutzung eines bestehenden Registersatzes usw.
  • Ein Verlassen eines Kachelbereichs erfolgt üblicherweise mit der TILERELEASEALL-Anweisung. Sie nimmt keine Parameter an und macht alle Kacheln schnell ungültig (wobei angezeigt wird, dass die Daten nicht mehr gespeichert oder wiederhergestellt werden müssen) und löscht den internen Zustand, der einer Anordnung in einem Kachelbereich entspricht.
  • In einigen Ausführungsformen setzen Kacheloperationen alle Zeilen und alle Spalten über die von der Kachelkonfiguration angegebenen Dimensionen hinaus auf null. Kacheloperationen setzen zum Beispiel die Daten über die konfigurierte Spaltenanzahl (unter Berücksichtigung der Größe der Elemente) auf null, während jede Zeile beschrieben wird. Bei 64-Byte-Zeilen und einer mit 10 Zeilen und 12 Spalten konfigurierten Kachel würde eine Operation, die FP32-Elemente schreibt, zum Beispiel jede der ersten 10 Zeilen mit 12*4 Bytes mit Ausgabe-/Ergebnisdaten beschreiben und die restlichen 4*4 Bytes in jeder Zeile auf null setzen. Kacheloperationen setzen auch alle Zeilen nach den ersten 10 konfigurierten Zeilen vollständig auf null. Bei Verwendung von 1K-Kacheln mit 64-Byte-Zeilen würde es 16 Zeilen geben, deshalb würden die letzten 6 Zeilen in diesem Beispiel auch auf null gesetzt.
  • In einigen Ausführungsformen setzt eine Kontextwiederherstellung (z. B. XRSTOR) beim Laden von Daten durch, dass die Daten über die für eine Kachel konfigurierten Zeilen hinaus als null beibehalten werden. Falls es keine gültige Konfiguration gibt, werden alle Zeilen auf null gesetzt. Ein XRSTOR der Kacheldaten kann Datenmüll in die über die konfigurierten hinausgehenden Spalten laden. Es sollte für XRSTOR nicht möglich sein, über die konfigurierte Spaltenanzahl hinaus zu löschen, da keine Elementbreite mit der Kachelkonfiguration assoziiert ist.
  • Ein Kontextspeichervorgang (z. B. XSAVE) setzt den gesamten TILE-Speicherbereich frei, wenn der Vorgang diesen in den Arbeitsspeicher schreibt. Falls XRSTOR Datenmüll in den ganz rechten Teil einer Kachel geladen hat, werden diese Daten von XSAVE gespeichert. XSAVE schreibt Nullen für Zeilen, die über die für jede Kachel angegebene Anzahl hinausgehen.
  • In einigen Ausführungsformen können Kachelanweisungen neu gestartet werden. Die Operationen, die auf den Arbeitsspeicher zugreifen, ermöglichen einen Neustart nach Seitenfehlern. Die rechnerischen Anweisungen, die Gleitkommaoperationen erledigen, ermöglichen auch demaskierte Gleitkommaausnahmen, wobei die Maskierung der Ausnahmen durch ein Steuer- und/oder Statusregister gesteuert wird.
  • Um Neustartanweisungen nach einem Ereignis zu unterstützen, die verursachen, dass eine Matrixoperation (Kacheloperation) während der Ausführung unterbrochen wird, speichern die Anweisungen Informationen in den unten besprochenen Startregistern.
  • II. Systeme für Matrixoperationen (Kacheloperationen)
  • Beispielhafte Hardwareunterstützung
  • 3 veranschaulicht eine Ausführungsform eines Systems, das einen Beschleuniger für Matrixoperationen (Kacheloperationen) einsetzt. In dieser Illustration kommuniziert ein Hostprozessor/Verarbeitungssystem 301 Befehle 311 (z. B. Matrixmanipulationsoperationen wie arithmetische oder Matrixmanipulationsoperationen oder Lade- und Speicheroperationen) an einen Matrixoperationsbeschleuniger 307. Dies wird jedoch nur zu Zwecken der Diskussion auf diese Weise dargestellt. Wie später ausführlich besprochen, kann dieser Beschleuniger 307 ein Teil eines Verarbeitungskerns sein. Üblicherweise beziehen sich Befehle 311, die Kachelmanipulations-Operatoranweisungen sind, auf Kacheln im Register-Register- („reg-reg“) oder Register-Arbeitsspeicher-Format („reg-mem“). Andere Befehle wie TILESTORE, TILELOAD, TILECONFIG usw. führen keine Datenoperationen an einer Kachel aus. Befehle können decodierte Anweisungen (z. B. Mikro-Ops) oder Makroanweisungen sein, die der Beschleuniger 307 zu handhaben hat.
  • In diesem Beispiel ist eine kohärente Arbeitsspeicherschnittstelle 303 so an den Hostprozessor/das Verarbeitungssystem 301 und den Matrixoperationsbeschleuniger 405 gekoppelt, dass diese den Arbeitsspeicher gemeinsam nutzen können. 4 und 5 zeigen verschiedene Ausführungsformen, wie Arbeitsspeicher unter Verwendung eines Beschleunigers für Matrixoperationen gemeinsam genutzt wird. Wie in 4 gezeigt, nutzen der Hostprozessor 401 und die Matrixoperationsbeschleunigerverschaltung 405 den gleichen Arbeitsspeicher 403 gemeinsam. 5 veranschaulicht eine Ausführungsform, bei der der Hostprozessor 501 und der Matrixoperationsbeschleuniger 505 den Arbeitsspeicher nicht gemeinsam nutzen, jedoch jeweils auf den Arbeitsspeicher des anderen zugreifen können. Der Prozessor 501 kann zum Beispiel auf den Kachelarbeitsspeicher 507 zugreifen und seinen Hostarbeitsspeicher 503 wie üblich einsetzen. Gleichermaßen kann der Matrixoperationsbeschleuniger 505 auf den Hostarbeitsspeicher 503 zugreifen, verwendet üblicherweise jedoch seinen eigenen Arbeitsspeicher 507. Es ist anzumerken, dass diese Arbeitsspeicher unterschiedliche Typen sein können.
  • In einigen Ausführungsformen enthält der Matrixoperationsbeschleuniger 307 eine Vielzahl von FMAs 309, die an Datenpuffer 305 gekoppelt ist (in einigen Ausführungsformen sind einer oder mehrere dieser Puffer 305 in den FMAs des Rasters gespeichert, wie gezeigt). Die Datenpuffer 305 puffern Kacheln, die aus dem Arbeitsspeicher geladen wurden, und/oder Kacheln, die im Arbeitsspeicher zu speichern sind (z. B. unter Verwendung einer Kachellade- oder Kachelspeicheranweisung). Die Datenpuffer können zum Beispiel eine Vielzahl von Registern sein. Üblicherweise sind diese FMAs als ein Raster von verketteten FMAs 309 angeordnet, die Kacheln lesen und schreiben können. In diesem Beispiel hat der Matrixoperationsbeschleuniger 307 eine Matrixmultiplikationsoperation unter Verwendung der Kacheln T0, T1 und T2 auszuführen. Mindestens eine der Kacheln ist im FMA-Raster 309 untergebracht. In einigen Ausführungsformen sind alle Kacheln in einer Operation im FMA-Raster 309 gespeichert. In anderen Ausführungsformen ist nur eine Teilmenge im FMA-Raster 309 gespeichert. Wie gezeigt ist T1 untergebracht und T0 und T2 sind dies nicht. Es ist anzumerken, dass A, B und C die Matrizen dieser Kacheln bezeichnen, die den gesamten Platz der Kachel einnehmen können oder auch nicht.
  • 6 veranschaulicht eine Ausführungsform einer Matrixmultiplikations-Akkumulationsoperation unter Verwendung von Kacheln („TMMA“).
  • Die Zeilenanzahl in der Matrix (KACHEL A 601) stimmt mit der Anzahl von seriellen (verketteten) FMAs überein, die die Latenz der Berechnung umfassen. Eine Implementierung kann frei auf einem Raster mit kleinerer Höhe umlaufen, aber die Berechnung bleibt die gleiche.
  • Der Quellen-/Zielvektor stammt von einer Kachel mit N Zeilen (KACHEL C 605) und das Raster von FMAs 611 führt N Vektor-Matrix-Operationen durch, die in einer vollständigen Anweisung resultieren, die eine Matrixmultiplikation von Kacheln durchführt. Kachel B 603 ist die andere Vektorquelle und liefert in jeder Phase „Übertragungs“-Begriffe an die FMAs.
  • Im Betrieb sind die (in einer Kachel B 603 gespeicherten) Elemente der Matrix B in einigen Ausführungsformen über das rechteckige Raster der FMAs verteilt. Die (in Kachel A 601 gespeicherte) Matrix B weist ihre Elemente einer Zeile transponiert auf, um mit der Spaltendimension des rechteckigen Rasters der FMAs übereinzustimmen. An jedem FMA im Raster wird ein Element von A und B multipliziert und zum (von oben) einlaufenden Summanden addiert und die auslaufende Summe wird an die nächste Zeile von FMAs (oder die endgültige Ausgabe) weitergegeben.
  • Die Latenz eines einzelnen Schritts ist proportional zu K (Zeilenhöhe der Matrix B) und abhängige TMMAs weisen üblicherweise ausreichende Quellen-Ziel-Zeilen (entweder in einer einzigen Kachel oder über Kacheln hinweg) auf, um diese Latenz zu verbergen. Eine Implementierung kann auch die SIMD-Dimension (die Dimension des gepackten Datenelements) M (Zeilenhöhe der Matrix A) über Zeitschritte aufteilen, aber dies ändert einfach die Konstante, mit der K multipliziert ist. Wenn ein Programm ein kleineres K als das vom TMACC spezifizierte Maximum angibt, kann eine Implementierung dieses durch „Maskierung“ oder „frühe Ausgaben“ frei implementieren.
  • Die Latenz einer gesamten TMMA ist zu N*K proportional. Die Wiederholrate ist zu N proportional. Die Anzahl von MACs pro TMMA-Anweisung beträgt N*K*M.
  • 7 veranschaulicht eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung. Insbesondere veranschaulicht dies eine Ausführungsverschaltung einer Iteration einer gepackten Datenelementposition des Ziels. In dieser Ausführungsform operiert die verkettete Fused-Multiply-Accumulate an vorzeichenbehafteten Quellen, wobei der Akkumulator die 2-fache Größe der Eingabedaten aufweist.
  • Eine erste vorzeichenbehaftete Quelle (Quelle 1 701) und eine zweite vorzeichenbehaftete Quelle (Quelle 2 703) weisen jeweils vier gepackte Datenelemente auf. Jedes dieser gepackten Datenelemente speichert vorzeichenbehaftete Daten wie Gleitkommadaten. Eine dritte vorzeichenbehaftete Quelle (Quelle 3 709) weist zwei gepackte Datenelemente auf, von denen jedes vorzeichenbehaftete Daten speichert. Die Größen der ersten und der zweiten vorzeichenbehafteten Quelle 701 und 703 sind die Hälfte der dritten vorzeichenbehafteten Quelle (Anfangswert oder vorangehendes Ergebnis) 709. Die erste und die zweite vorzeichenbehaftete Quelle 701 und 703 könnten zum Beispiel gepackte 32-Bit-Datenelemente (z. B. Gleitkomma mit einfacher Genauigkeit) aufweisen, während die dritte vorzeichenbehaftete Quelle 709 gepackte 64-Bit-Datenelemente (z. B. Gleitkomma mit doppelter Genauigkeit) aufweisen könnte.
  • In dieser Illustration sind nur die zwei höchstwertigen gepackten Datenelementpositionen der ersten und der zweiten vorzeichenbehafteten Quelle 701 und 703 und die höchstwertige gepackte Datenelementposition der dritten vorzeichenbehafteten Quelle 709 gezeigt. Natürlich würden die anderen gepackten Datenelementpositionen ebenfalls verarbeitet werden.
  • Wie veranschaulicht werden gepackte Datenelemente in Paaren verarbeitet. Die Daten der höchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten vorzeichenbehafteten Quelle 701 und 703 werden zum Beispiel unter Verwendung eines Multiplikationsschaltkreises 705 multipliziert und die Daten der nächsthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten vorzeichenbehafteten Quelle 701 und 703 werden unter Verwendung eines Multiplikationsschaltkreises 707 multipliziert. In einigen Ausführungsformen werden diese Multiplikationsschaltkreise 705 und 707 für andere Positionen der gepackten Datenelemente wiederverwendet. In anderen Ausführungsformen werden zusätzliche Multiplikationsschaltkreise verwendet, sodass die gepackten Datenelemente parallel verarbeitet werden. In einigen Kontexten erfolgt eine parallele Ausführung unter Verwendung von Bahnen, die die Größe der dritten vorzeichenbehafteten Quelle 709 haben. Die Ergebnisse jeder der Multiplikationen werden unter Verwendung von Additionsverschaltung 711 addiert.
  • Das Ergebnis der Addition der Ergebnisse der Multiplikationen wird zu den Daten der höchstwertigen Position der gepackten Datenelemente der vorzeichenbehafteten Quelle 3 709 (unter Verwendung einer anderen Additionseinheit 713 oder der gleichen Additionseinheit 711) addiert.
  • Schließlich wird das Ergebnis der zweiten Addition entweder im vorzeichenbehafteten Ziel 715 in einer gepackten Datenelementposition gespeichert, die der gepackten Datenelementposition entspricht, die aus der vorzeichenbehafteten dritten Quelle 709 verwendet wurde, oder an die nächste Iteration weitergeleitet, falls es eine gibt. In einigen Ausführungsformen wird eine Schreibmaske auf diese Speicherung angewandt, sodass, falls eine entsprechende Schreibmaske (ein entsprechendes Bit) gesetzt ist, eine Speicherung erfolgt, und falls sie (es) nicht gesetzt ist, erfolgt keine Speicherung.
  • 8 veranschaulicht eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung. Insbesondere veranschaulicht dies eine Ausführungsverschaltung einer Iteration einer gepackten Datenelementposition des Ziels. In dieser Ausführungsform operiert die verkettete Fused-Multiply-Accumulate an vorzeichenbehafteten Quellen, wobei der Akkumulator die 2-fache Größe der Eingabedaten aufweist.
  • Eine erste vorzeichenbehaftete Quelle (Quelle 1 801) und eine zweite vorzeichenbehaftete Quelle (Quelle 2 803) weisen jeweils vier gepackte Datenelemente auf. Jedes dieser gepackten Datenelemente speichert vorzeichenbehaftete Daten wie ganzzahlige Daten. Eine dritte vorzeichenbehaftete Quelle (Quelle 3 809) weist zwei gepackte Datenelemente auf, von denen jedes vorzeichenbehaftete Daten speichert. Die Größen der ersten und der zweiten vorzeichenbehafteten Quelle 801 und 803 sind die Hälfte der dritten vorzeichenbehafteten Quelle 809. Die erste und die zweite vorzeichenbehaftete Quelle 801 und 803 könnten zum Beispiel gepackte 32-Bit-Datenelemente (z. B. Gleitkomma mit einfacher Genauigkeit) aufweisen, die dritte vorzeichenbehaftete Quelle 809 gepackte 64-Bit-Datenelemente könnte (z. B. Gleitkomma mit doppelter Genauigkeit) aufweisen.
  • In dieser Illustration sind nur die zwei höchstwertigen gepackten Datenelementpositionen der ersten und der zweiten vorzeichenbehafteten Quelle 801 und 803 und die höchstwertige gepackte Datenelementposition der dritten vorzeichenbehafteten Quelle 809 gezeigt. Natürlich würden die anderen gepackten Datenelementpositionen ebenfalls verarbeitet werden.
  • Wie veranschaulicht werden gepackte Datenelemente in Paaren verarbeitet. Die Daten der höchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten vorzeichenbehafteten Quelle 801 und 803 werden zum Beispiel unter Verwendung eines Multiplikationsschaltkreises 805 multipliziert und die Daten der nächsthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten vorzeichenbehafteten Quelle 801 und 803 werden unter Verwendung eines Multiplikationsschaltkreises 807 multipliziert. In einigen Ausführungsformen werden diese Multiplikationsschaltkreise 805 und 807 für andere Positionen der gepackten Datenelemente wiederverwendet. In anderen Ausführungsformen werden zusätzliche Multiplikationsschaltkreise verwendet, sodass die gepackten Datenelemente parallel verarbeitet werden. In einigen Kontexten erfolgt eine parallele Ausführung unter Verwendung von Bahnen, die die Größe der dritten vorzeichenbehafteten Quelle (des Anfangswerts oder des Ergebnisses der vorherigen Iteration) 809 haben. Die Ergebnisse jeder der Multiplikationen werden unter Verwendung von Additions-/Sättigungsverschaltung 813 zur vorzeichenbehafteten dritten Quelle 809 addiert.
  • Die Additions-/Sättigungsverschaltung (Akkumulatorverschaltung) 813 bewahrt ein Vorzeichen eines Operanden, wenn die Addition einen Wert ergibt, der zu groß ist. Insbesondere tritt eine Sättigungsauswertung am Ergebnis mit unendlicher Genauigkeit zwischen der Mehrwegeaddition und dem Schreibvorgang in das Ziel oder der nächsten Iteration ein. Wenn der Akkumulator 813 vom Gleitkommatyp ist und die Eingabeterme ganzzahlig sind, werden die Produktsumme und der Eingabewert in den Gleitkommaakkumulator in Werte mit unendlicher Genauigkeit (Festkommazahlen aus Hunderten von Bits) umgewandelt, die Addition der Multiplikationsergebnisse und der dritten Eingabe wird durchgeführt und eine einzige Rundung auf den tatsächlichen Akkumulatortyp wird durchgeführt.
  • Eine vorzeichenlose Sättigung bedeutet, dass die Ausgabewerte auf eine vorzeichenlose Maximalzahl für diese Elementbreite (alle 1) beschränkt sind. Eine vorzeichenbehaftete Sättigung bedeutet, dass ein Wert darauf beschränkt wird, dass er im Bereich zwischen einer negativen Minimalzahl und einer positiven Maximalzahl für diese Elementbreite liegt (zum Beispiel reicht der Bereich für Bytes von -128 (= - 2^7) bis 127(=2^7-1)).
  • Das Ergebnis der Addition und der Sättigungsprüfung wird im vorzeichenbehafteten Ziel 815 in einer gepackten Datenelementposition gespeichert, die der gepackten Datenelementposition entspricht, die aus der vorzeichenbehafteten dritten Quelle 809 verwendet wurde, oder an die nächste Iteration weitergeleitet, falls es eine gibt. In einigen Ausführungsformen wird eine Schreibmaske auf diese Speicherung angewandt, sodass, falls eine entsprechende Schreibmaske (ein entsprechendes Bit) gesetzt ist, eine Speicherung erfolgt, und falls sie (es) nicht gesetzt ist, erfolgt keine Speicherung.
  • 9 veranschaulicht eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung. Insbesondere veranschaulicht dies eine Ausführungsverschaltung einer Iteration einer gepackten Datenelementposition des Ziels. In dieser Ausführungsform operiert die verkettete Fused-Multiply-Accumulate an einer vorzeichenbehafteten Quelle und an einer vorzeichenlosen Quelle, wobei der Akkumulator die 4-fache Größe der Eingabedaten aufweist.
  • Eine erste vorzeichenbehaftete Quelle (Quelle 1901) und eine zweite vorzeichenlose Quelle (Quelle 2 903) weisen jeweils vier gepackte Datenelemente auf. Jedes dieser gepackten Datenelemente weist Daten wie Gleitkomma- oder ganzzahlige Daten auf. Eine dritte vorzeichenbehaftete Quelle (Anfangswert oder Ergebnis 915) weist ein gepacktes Datenelement auf, das vorzeichenbehaftete Daten speichert. Die Größen der ersten und der zweiten Quelle 901 und 903 sind ein Viertel der dritten vorzeichenbehafteten Quelle 915. Die erste und die zweite Quelle 901 und 903 könnten zum Beispiel gepackte 16-Bit-Datenelemente (z. B. ein Wort) aufweisen und die dritte vorzeichenbehaftete Quelle 915 könnte gepackte 64-Bit-Datenelemente (z. B. Gleitkomma mit doppelter Genauigkeit oder ganzzahlige 64-Bit-Zahl) aufweisen.
  • In dieser Illustration sind die vier höchstwertigen gepackten Datenelementpositionen der ersten und der zweiten Quelle 901 und 903 und die höchstwertige gepackte Datenelementposition der dritten vorzeichenbehafteten Quelle 915 gezeigt. Natürlich würden die anderen gepackten Datenelementpositionen ebenfalls verarbeitet werden, falls es sie gibt.
  • Wie veranschaulicht werden gepackte Datenelemente in Vierergruppen verarbeitet. Die Daten der höchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 901 und 903 werden zum Beispiel unter Verwendung eines Multiplikationsschaltkreises 907 multipliziert, Daten der nächsthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 901 und 903 werden unter Verwendung eines Multiplikationsschaltkreises 907 multipliziert, Daten der dritthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 901 und 903 werden unter Verwendung eines Multiplikationsschaltkreises 909 multipliziert und Daten der niedrigstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 901 und 903 werden unter Verwendung eines Multiplikationsschaltkreises 911 multipliziert. In einigen Ausführungsformen werden die vorzeichenbehafteten Datenelemente der ersten Quelle 901 vor den Multiplikationen mit einem Vorzeichen erweitert und die vorzeichenlosen gepackten Datenelemente der zweiten Quelle 903 werden mit null erweitert.
  • In einigen Ausführungsformen werden diese Multiplikationsschaltkreise 905-911 für andere Positionen der gepackten Datenelemente wiederverwendet. In anderen Ausführungsformen werden zusätzliche Multiplikationsschaltkreise verwendet, sodass die gepackten Datenelemente parallel verarbeitet werden. In einigen Kontexten erfolgt eine parallele Ausführung unter Verwendung von Bahnen, die die Größe der dritten vorzeichenbehafteten Quelle 915 haben. Die Ergebnisse jeder der Multiplikationen werden unter Verwendung von Additionsverschaltung 911 addiert.
  • Das Ergebnis der Addition der Ergebnisse der Multiplikationen wird zu den Daten der höchstwertigen Position der gepackten Datenelemente der vorzeichenbehafteten Quelle 3 915 (unter Verwendung einer anderen Additionseinheit 913 oder der gleichen Additionseinheit 911) addiert.
  • Schließlich wird das Ergebnis 919 der zweiten Addition entweder im vorzeichenbehafteten Ziel in einer gepackten Datenelementposition gespeichert, die der gepackten Datenelementposition entspricht, die aus der vorzeichenbehafteten dritten Quelle 915 verwendet wurde, oder an die nächste Iteration weitergeleitet. In einigen Ausführungsformen wird eine Schreibmaske auf diese Speicherung angewandt, sodass, falls eine entsprechende Schreibmaske (ein entsprechendes Bit) gesetzt ist, eine Speicherung erfolgt, und falls sie (es) nicht gesetzt ist, erfolgt keine Speicherung.
  • 10 veranschaulicht eine Ausführungsform einer Teilmenge der Ausführung einer Iteration einer verketteten Fused-Multiply-Accumulate-Anweisung. Insbesondere veranschaulicht dies eine Ausführungsverschaltung einer Iteration einer gepackten Datenelementposition des Ziels. In dieser Ausführungsform operiert die verkettete Fused-Multiply-Accumulate an einer vorzeichenbehafteten Quelle und an einer vorzeichenlosen Quelle, wobei der Akkumulator die 4-fache Größe der Eingabedaten aufweist.
  • Eine erste vorzeichenbehaftete Quelle (Quelle 11001) und eine zweite vorzeichenlose Quelle (Quelle 2 1003) weisen jeweils vier gepackte Datenelemente auf. Jedes dieser gepackten Datenelemente speichert Daten wie Gleitkomma- oder ganzzahlige Daten. Eine dritte vorzeichenbehaftete Quelle (Anfangswert oder vorangehendes Ergebnis 1015) weist ein gepacktes Datenelement auf, das vorzeichenbehaftete Daten speichert. Die Größen der ersten und der zweiten Quelle 1001 und 1003 sind ein Viertel der dritten vorzeichenbehafteten Quelle 1015. Die erste und die zweite Quelle 1001 und 1003 könnten zum Beispiel gepackte 16-Bit-Datenelemente (z. B. ein Wort) aufweisen und die dritte vorzeichenbehaftete Quelle 1015 könnte gepackte 64-Bit-Datenelemente (z. B. Gleitkomma mit doppelter Genauigkeit oder ganzzahlige 64-Bit-Zahl) aufweisen.
  • In dieser Illustration sind die vier höchstwertigen gepackten Datenelementpositionen der ersten und der zweiten Quelle 1001 und 1003 und die höchstwertige gepackte Datenelementposition der dritten vorzeichenbehafteten Quelle 1015 gezeigt. Natürlich würden die anderen gepackten Datenelementpositionen ebenfalls verarbeitet werden, falls es sie gibt.
  • Wie veranschaulicht werden gepackte Datenelemente in Vierergruppen verarbeitet. Die Daten der höchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 1001 und 1003 werden zum Beispiel unter Verwendung eines Multiplikationsschaltkreises 1007 multipliziert, Daten der nächsthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 1001 und 1003 werden unter Verwendung eines Multiplikationsschaltkreises 1007 multipliziert, Daten der dritthöchstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 1001 und 1003 werden unter Verwendung eines Multiplikationsschaltkreises 1009 multipliziert und Daten der niedrigstwertigen Positionen der gepackten Datenelemente der ersten und der zweiten Quelle 1001 und 1003 werden unter Verwendung eines Multiplikationsschaltkreises 1011 multipliziert. In einigen Ausführungsformen werden die vorzeichenbehafteten Datenelemente der ersten Quelle 1001 vor den Multiplikationen mit einem Vorzeichen erweitert und die vorzeichenlosen gepackten Datenelemente der zweiten Quelle 1003 werden mit null erweitert.
  • In einigen Ausführungsformen werden diese Multiplikationsschaltkreise 1005-1011 für andere Positionen der gepackten Datenelemente wiederverwendet. In anderen Ausführungsformen werden zusätzliche Multiplikationsschaltkreise verwendet, sodass die gepackten Datenelemente parallel verarbeitet werden. In einigen Kontexten erfolgt eine parallele Ausführung unter Verwendung von Bahnen, die die Größe der dritten vorzeichenbehafteten Quelle 1015 haben. Das Ergebnis der Addition der Ergebnisse der Multiplikationen wird zu den Daten der höchstwertigen Position der gepackten Datenelemente der vorzeichenbehafteten Quelle 3 1015 unter Verwendung der Additions-/Sättigungsverschaltung 1013 addiert.
  • Die Additions-/Sättigungsverschaltung (Akkumulatorverschaltung) 1013 bewahrt ein Vorzeichen eines Operanden, wenn die Addition einen Wert ergibt, der für eine vorzeichenbehaftete Sättigung zu groß oder zu klein ist. Insbesondere tritt eine Sättigungsauswertung am Ergebnis mit unendlicher Genauigkeit zwischen der Mehrwegeaddition und dem Schreibvorgang in das Ziel ein. Wenn der Akkumulator 1013 vom Gleitkommatyp ist und die Eingabeterme ganzzahlig sind, werden die Produktsumme und der Eingabewert in den Gleitkommaakkumulator in Werte mit unendlicher Genauigkeit (Festkommazahlen aus Hunderten von Bits) umgewandelt, die Addition der Multiplikationsergebnisse und der dritten Eingabe wird durchgeführt und eine einzige Rundung auf den tatsächlichen Akkumulatortyp wird durchgeführt.
  • Das Ergebnis 1019 der Addition und der Sättigungsprüfung wird im vorzeichenbehafteten Ziel in einer gepackten Datenelementposition gespeichert, die der gepackten Datenelementposition entspricht, die aus der vorzeichenbehafteten dritten Quelle 1015 verwendet wurde, oder an die nächste Iteration weitergeleitet. In einigen Ausführungsformen wird eine Schreibmaske auf diese Speicherung angewandt, sodass, falls eine entsprechende Schreibmaske (ein entsprechendes Bit) gesetzt ist, eine Speicherung erfolgt, und falls sie (es) nicht gesetzt ist, erfolgt keine Speicherung.
  • 11 veranschaulicht SIMD-Implementierungen mit einer zu einer Zweierpotenz bemessenen Größe nach einer Ausführungsform, wobei die Akkumulatoren Eingabegrößen verwenden, die größer als die Eingaben in die Multiplikatoren sind. Es ist anzumerken, dass die Quelle (für die Multiplikatoren) und die Akkumulatorwerte vorzeichenbehaftete oder vorzeichenlose Werte sein können. Tabelle 1101 veranschaulicht verschiedene Konfigurationen für einen Akkumulator mit 2X-Eingabegrößen (anders ausgedrückt ist der Akkumulatoreingabewert das Doppelte der Größe der Größen der gepackten Datenelemente der Quellen). Für Quellen mit Bytegröße verwendet der Akkumulator Wort- oder Gleitkommawerte mit halber Genauigkeit (HPFP), die eine Größe von 16 Bit aufweisen. Für Quellen mit Wortgröße verwendet der Akkumulator ganzzahlige 32-Bit- oder Gleitkommawerte mit einfacher Genauigkeit (SPFP), die eine Größe von 32 Bit aufweisen. Für Quellen mit SPFP- oder 32-Bit-Ganzzahlgröße verwendet der Akkumulator 64-Ganzzahl- oder Gleitkommawerte mit doppelter Genauigkeit (DPFP), die eine Größe von 64 Bit aufweisen.
  • Tabelle 1103 veranschaulicht verschiedene Konfigurationen für einen Akkumulator mit 4X-Eingabegrößen (anders ausgedrückt ist der Akkumulatoreingabewert das Vierfache der Größe der Größen der gepackten Datenelemente der Quellen). Für Quellen mit Bytegröße verwendet der Akkumulator ganzzahlige 32-Bit- oder Gleitkommawerte mit einfacher Genauigkeit (SPFP), die eine Größe von 32 Bit aufweisen. Für Quellen mit Wortgröße verwendet der Akkumulator ganzzahlige 64-Bit- oder Gleitkommawerte mit doppelter Genauigkeit (DPFP), die in einigen Ausführungsformen eine Größe von 64 Bit aufweisen.
  • Tabelle 1105 veranschaulicht eine Konfiguration für einen Akkumulator mit 8X-Eingabegrößen (anders ausgedrückt ist der Akkumulatoreingabewert das Achtfache der Größe der Größen der gepackten Datenelemente der Quellen). Für Quellen mit Bytegröße verwendet der Akkumulator 64-Bit-Ganzzahlen.
  • Wie oben erwähnt kann eine Matrixoperationsverschaltung in einem Kern oder als ein externer Beschleuniger enthalten sein. 12 veranschaulicht eine Ausführungsform eines Systems, das eine Matrixoperationsverschaltung einsetzt. In dieser Illustration ist eine Vielzahl von Entitäten mit einer Ringverbindung 1245 gekoppelt.
  • Eine Vielzahl von Kernen 1201, 1203, 1205 und 1207 bietet Unterstützung für nicht auf Kacheln basierende Anweisungen. In einigen Ausführungsformen ist die Matrixoperationsverschaltung in einem Kern 1203 vorgesehen und in anderen Ausführungsformen kann auf die Matrixoperationsverschaltungen 1211 und 1213 von der Ringverbindung 1245 zugegriffen werden.
  • Zusätzlich sind ein oder mehrere Arbeitsspeichersteuerungen 1223-1225 vorgesehen, um im Auftrag der Kerne und/oder der Matrixoperationsverschaltung mit den Arbeitsspeichern 1233 und 1231 zu kommunizieren.
  • 13 veranschaulicht eine Ausführungsform einer Prozessorkern-Pipeline, die Matrixoperationen unter Verwendung von Kacheln unterstützt. Eine Verzweigungsvorhersage- und Decodierverschaltung 1303 führt eine Verzweigungsvorhersage von Anweisungen, Decodierung von Anweisungen und/oder beides von im Anweisungsspeicher 1301 gespeicherten Anweisungen durch. Hierin ausführlich besprochene Anweisungen können beispielsweise im Anweisungsspeicher gespeichert sein. In einigen Implementierungen wird eine getrennte Verschaltung für die Verzweigungsvorhersage verwendet und in einigen Ausführungsformen werden zumindest einige Anweisungen in eine oder mehrere Mikrooperationen, Mikrocode-Einstiegspunkte, Mikroanweisungen, andere Anweisungen oder andere Steuersignale unter Verwendung von Mikrocode 1305 verwendet. Die Verzweigungsvorhersage- und Decodierverschaltung 1303 kann unter Verwendung verschiedener unterschiedlicher Mechanismen implementiert werden. Beispiele geeigneter Mechanismen enthalten Nachschlagetabellen, Hardwareimplementierungen, programmierbare Logikarrays (PLAs), schreibgeschützte Mikrocode-Arbeitsspeicher (Mikrocode-ROMs) usw., sind jedoch nicht darauf beschränkt.
  • Die Verzweigungsvorhersage- und Decodierverschaltung 1303 ist an eine Umbenennungs-/Zuteilungsverschaltung 1307 gekoppelt, die in einigen Ausführungsformen an eine Planungsverschaltung 1309 gekoppelt ist. In einigen Ausführungsformen stellen diese Schaltkreise eine Registerumbenennungs-, Registerzuteilungs- und/oder Planungsfunktionalität durch Durchführen eines oder mehrerer von Folgendem bereit: 1) Umbenennen von Werten logischer Operanden in Werte physischer Operanden (z. B. in einigen Ausführungsformen eine Registeraliastabelle), 2) Zuordnen von Statusbits und -flags zur decodierten Anweisung und 3) Planen der decodierten Anweisung zur Ausführung auf Ausführungsverschaltung aus einem Anweisungspool (z. B. in einigen Ausführungsformen unter Verwendung einer Reservierstation).
  • Die Planungsverschaltung 1309 repräsentiert eine beliebige Anzahl verschiedener Planer, einschließlich Reservierstationen, zentrale Anweisungsfenster usw. Die Planungseinheit(en)-Planungsverschaltung 1309 ist an (eine) physische Registerdatei(en) 1315 gekoppelt oder enthält eine solche. Jede der physischen Registerdatei(en) 1315 repräsentiert eine oder mehrere physische Registerdateien, von denen verschiedene einen oder mehrere verschiedene Datentypen speichern, wie skalare ganze Zahl, skalares Gleitkomma, gepackte ganze Zahl, gepacktes Gleitkomma, vektorielle ganze Zahl, vektorielles Gleitkomma, Status (z. B. einen Anweisungszeiger, der die Adresse der nächsten auszuführenden Anweisung ist), Kacheln usw. In einer Ausführungsform umfasst bzw. umfassen die physische(n) Registerdatei(en) 1315 Vektorregisterverschaltung, Schreibmaskenregisterverschaltung und Skalarregisterverschaltung. Diese Registerschaltkreise können architektonische Vektorregister, Vektormaskenregister und Universalregister bereitstellen. Die physische(n) Registerdatei(en) 1315 wird bzw. werden von einem Stilllegungsschaltkreis 1317 überlappt, um verschiedene Arten zu veranschaulichen, auf die eine Registerumbenennung und Out-of-Order-Ausführung implementiert werden können (z. B. unter Verwendung eines Umordnungspuffers bzw. von Umordnungspuffern und (einer) Stilllegungsregisterdatei(en); unter Verwendung einer bzw. von zukünftigen Datei(en), eines Verlaufspuffers bzw. von Verlaufspuffern und einer Stilllegungsregisterdatei bzw. von Stilllegungsregisterdateien; unter Verwendung einer Registerabbildung und eines Pools von Registern; usw.). Der Stilllegungsschaltkreis 1317 und die physische(n) Registerdatei(en) 1315 sind an den bzw. die Ausführungsschaltkreis(e) 1311 gekoppelt.
  • Während Registerumbenennen im Kontext einer Out-of-Order-Ausführung beschrieben wird, sollte klar sein, dass das Registerumbenennen in einer In-Order-Architektur verwendet werden kann. Während die illustrierte Ausführungsform des Prozessors auch separate Anweisungs- und Datenzwischenspeichereinheiten und eine gemeinsam genutzte L2-Zwischenspeichereinheit enthalten kann, können alternative Ausführungsformen einen einzigen internen Zwischenspeicher für sowohl Anweisungen als auch Daten aufweisen, wie zum Beispiel einen internen Level-1(L1)-Zwischenspeicher oder mehrere Levels von internem Zwischenspeicher. In manchen Ausführungsformen kann das System eine Kombination eines internen Zwischenspeichers und eines externen Zwischenspeichers enthalten, der extern zum Kern und/oder zum Prozessor ist. Alternativ kann der gesamte Zwischenspeicher extern zum Kern und/oder zum Prozessor sein.
  • Die Ausführungsverschaltung 1311 einen Satz von einem oder mehreren Ausführungsschaltkreisen 1321, 1323 und 1327 und einen Satz von einem oder mehreren Arbeitsspeicherzugriffsschaltkreisen 1325. Die Ausführungsschaltkreise 1321, 1323 und 1327 führen verschiedene Operationen (z. B. Verschiebungen, Addition, Subtraktion, Multiplikation) und an verschiedenen Datentypen (z. B. skalares Gleitkomma, gepackte ganze Zahl, gepacktes Gleitkomma, vektorielle ganze Zahl, vektorielles Gleitkomma) durch. Während manche Ausführungsformen eine Anzahl von Ausführungseinheiten enthalten können, die spezifischen Funktionen oder Funktionssätzen gewidmet sind, können andere Ausführungsformen nur eine Ausführungseinheit oder mehrere Ausführungseinheiten enthalten, die alle alle Funktionen durchführen. Die Skalarverschaltung 1321 führt skalare Operationen durch, die Vektor-/SIMD-Verschaltung 1323 führt Vektor-/SIMD-Operationen durch und die Matrixoperationsverschaltung 1327 führt die hierin ausführlich beschriebenen Matrixoperationen (Kacheloperationen) durch.
  • Beispielsweise kann die beispielhaften Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungskernarchitektur eine Pipeline folgendermaßen implementieren: 1) ein Anweisungsabrufschaltkreis führt Abruf- und Längendecodierphasen durch; 2) die Verzweigungs- und Decodierverschaltung 1303 führt eine Decodierphase durch; 3) die Umbenennungs-/Zuordnungsverschaltung 1307 führt eine Zuordnungsphase und eine Umbenennungsphase durch; 4) die Zeitplanungsverschaltung 1309 führt eine Zeitplanungsphase durch; 5) eine physische Registerdatei bzw. physische Registerdateien (die an die Planungsverschaltung 1307 und die Umbenennungs-/Zuordnungsverschaltung 1307 gekoppelt ist bzw. sind oder in diesen enthalten ist bzw. sind) und eine Arbeitsspeichereinheit führen eine Registerlese-/Arbeitsspeicherlesephase durch; die Ausführungsverschaltung 1311 führt eine Ausführungsphase durch; 6) eine Speichereinheit und die physische(n) Registerdateieinheit(en) führen eine Zurückschreib-/Speicherschreibphase durch; 7) verschiedene Einheiten können an der Ausnahmebehandlungsphase beteiligt sein; und 8) eine Stilllegungseinheit und die physische(n) Registerdateieinheit(en) führen eine Festschreibphase durch.
  • Der Kern kann eine oder mehrere Anweisungssätze unterstützen (z. B. den x86-Anweisungssatz (mit einigen Erweiterungen, die mit neueren Versionen hinzugefügt wurden); den MIPS-Anweisungssatz von MIPS Technologies in Sunnyvale, CA; den ARM-Anweisungssatz (mit optionalen zusätzlichen Erweiterungen wie NEON) von ARM Holdings in Sunnyvale, CA), die die hierin beschriebene(n) Anweisung(en) enthalten. In einer Ausführungsform enthält der Kern 1390 Logik, um eine gepackte Datenanweisungssatzerweiterung (z. B. AVX1, AVX2) zu unterstützen, wodurch erlaubt wird, dass die von vielen Multimedia-Anwendungen verwendeten Operationen unter Verwendung von gepackten Daten durchgeführt werden.
  • Es sollte klar sein, dass der Kern Multithreading (Ausführen von zwei oder mehr parallelen Sätzen von Operationen oder Threads) unterstützen kann und dies auf vielfältige Weise tun kann, einschließlich Sliced-Multithreading, simultanes Multithreading (wobei ein einziger physischer Kern jedem der Threads, die der physische Kern simultan nebenläufig ausführt, einen logischen Kern bereitstellt) oder eine Kombination davon (z. B. Zeitscheiben-Abruf und - Decodierung und danach simultanes Multithreading wie in der Intel®-Hyperthreading-Technologie).
  • 14 veranschaulicht eine Ausführungsform einer Prozessorkern-Pipeline, die Matrixoperationen unter Verwendung von Kacheln unterstützt. Eine Verzweigungsvorhersage- und Decodierverschaltung 1403 führt eine Verzweigungsvorhersage von Anweisungen, Decodierung von Anweisungen und/oder beides von im Anweisungsspeicher 1401 gespeicherten Anweisungen durch. Hierin ausführlich besprochene Anweisungen können beispielsweise im Anweisungsspeicher gespeichert sein. In einigen Implementierungen wird eine getrennte Verschaltung für die Verzweigungsvorhersage verwendet und in einigen Ausführungsformen werden zumindest einige Anweisungen in eine oder mehrere Mikrooperationen, Mikrocode-Einstiegspunkte, Mikroanweisungen, andere Anweisungen oder andere Steuersignale unter Verwendung von Mikrocode 1405 verwendet. Die Verzweigungsvorhersage- und Decodierverschaltung 1403 kann unter Verwendung verschiedener unterschiedlicher Mechanismen implementiert werden. Beispiele geeigneter Mechanismen enthalten Nachschlagetabellen, Hardwareimplementierungen, programmierbare Logikarrays (PLAs), schreibgeschützte Mikrocode-Arbeitsspeicher (Mikrocode-ROMs) usw., sind jedoch nicht darauf beschränkt.
  • Die Verzweigungsvorhersage- und Decodierverschaltung 1403 ist an eine Umbenennungs-/Zuteilungsverschaltung 1407 gekoppelt, die in einigen Ausführungsformen an eine Planungsverschaltung 1409 gekoppelt ist. In einigen Ausführungsformen stellen diese Schaltkreise eine Registerumbenennungs-, Registerzuteilungs- und/oder Planungsfunktionalität durch Durchführen eines oder mehrerer von Folgendem bereit: 1) Umbenennen von Werten logischer Operanden in Werte physischer Operanden (z. B. in einigen Ausführungsformen eine Registeraliastabelle), 2) Zuordnen von Statusbits und -flags zur decodierten Anweisung und 3) Planen der decodierten Anweisung zur Ausführung auf Ausführungsverschaltung aus einem Anweisungspool (z. B. in einigen Ausführungsformen unter Verwendung einer Reservierstation).
  • Die Planungsverschaltung 1409 repräsentiert eine beliebige Anzahl verschiedener Planer, einschließlich Reservierstationen, zentrale Anweisungsfenster usw. Die Planungseinheit(en)-Planungsverschaltung 1409 ist an (eine) physische Registerdatei(en) 1415 gekoppelt oder enthält eine solche. Jede der physischen Registerdatei(en) 1415 repräsentiert eine oder mehrere physische Registerdateien, von denen verschiedene einen oder mehrere verschiedene Datentypen speichern, wie skalare ganze Zahl, skalares Gleitkomma, gepackte ganze Zahl, gepacktes Gleitkomma, vektorielle ganze Zahl, vektorielles Gleitkomma, Status (z. B. einen Anweisungszeiger, der die Adresse der nächsten auszuführenden Anweisung ist), Kacheln usw. In einer Ausführungsform umfasst bzw. umfassen die physische(n) Registerdatei(en) 1415 Vektorregisterverschaltung, Schreibmaskenregisterverschaltung und Skalarregisterverschaltung. Diese Registerschaltkreise können architektonische Vektorregister, Vektormaskenregister und Universalregister bereitstellen. Die physische(n) Registerdatei(en) 1415 wird bzw. werden von einem Stilllegungsschaltkreis 1417 überlappt, um verschiedene Arten zu veranschaulichen, auf die eine Registerumbenennung und Out-of-Order-Ausführung implementiert werden können (z. B. unter Verwendung eines Umordnungspuffers bzw. von Umordnungspuffern und (einer) Stilllegungsregisterdatei(en); unter Verwendung einer bzw. von zukünftigen Datei(en), eines Verlaufspuffers bzw. von Verlaufspuffern und einer Stilllegungsregisterdatei bzw. von Stilllegungsregisterdateien; unter Verwendung einer Registerabbildung und eines Pools von Registern; usw.). Der Stilllegungsschaltkreis 1417 und die physische(n) Registerdatei(en) 1415 sind an den bzw. die Ausführungsschaltkreis(e) 1411 gekoppelt.
  • Während Registerumbenennen im Kontext einer Out-of-Order-Ausführung beschrieben wird, sollte klar sein, dass das Registerumbenennen in einer In-Order-Architektur verwendet werden kann. Während die illustrierte Ausführungsform des Prozessors auch separate Anweisungs- und Datenzwischenspeichereinheiten und eine gemeinsam genutzte L2-Zwischenspeichereinheit enthalten kann, können alternative Ausführungsformen einen einzigen internen Zwischenspeicher für sowohl Anweisungen als auch Daten aufweisen, wie zum Beispiel einen internen Level-1(L1)-Zwischenspeicher oder mehrere Levels von internem Zwischenspeicher. In manchen Ausführungsformen kann das System eine Kombination eines internen Zwischenspeicher und eines externen Zwischenspeicher enthalten, der extern zum Kern und/oder zum Prozessor ist. Alternativ kann der gesamte Zwischenspeicher extern zum Kern und/oder zum Prozessor sein.
  • Die Ausführungsverschaltung 1411 einen Satz von einem oder mehreren Ausführungsschaltkreisen 1427 und einen Satz von einem oder mehreren Arbeitsspeicherzugriffsschaltkreisen 1425. Die Ausführungsschaltkreise 1427 führen hierin ausführlich beschriebene Matrixoperationen (Kacheloperationen) durch.
  • Beispielsweise kann die beispielhaften Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungskernarchitektur eine Pipeline folgendermaßen implementieren: 1) ein Anweisungsabrufschaltkreis führt Abruf- und Längendecodierphasen durch; 2) die Verzweigungs- und Decodierverschaltung 1403 führt eine Decodierphase durch; 3) die Umbenennungs-/Zuordnungsverschaltung 1407 führt eine Zuordnungsphase und eine Umbenennungsphase durch; 4) die Zeitplanungsverschaltung 1409 führt eine Zeitplanungsphase durch; 5) eine physische Registerdatei bzw. physische Registerdateien (die an die Planungsverschaltung 1407 und die Umbenennungs-/Zuordnungsverschaltung 1407 gekoppelt ist bzw. sind oder in diesen enthalten ist bzw. sind) und eine Arbeitsspeichereinheit führen eine Registerlese-/Arbeitsspeicherlesephase durch; die Ausführungsverschaltung 1411 führt eine Ausführungsphase durch; 6) eine Speichereinheit und die physische(n) Registerdateieinheit(en) führen eine Zurückschreib-/Speicherschreibphase durch; 7) verschiedene Einheiten können an der Ausnahmebehandlungsphase beteiligt sein; und 8) eine Stilllegungseinheit und die physische(n) Registerdateieinheit(en) führen eine Festschreibphase durch.
  • Der Kern kann eine oder mehrere Anweisungssätze unterstützen (z. B. den x86-Anweisungssatz (mit einigen Erweiterungen, die mit neueren Versionen hinzugefügt wurden); den MIPS-Anweisungssatz von MIPS Technologies in Sunnyvale, CA; den ARM-Anweisungssatz (mit optionalen zusätzlichen Erweiterungen wie NEON) von ARM Holdings in Sunnyvale, CA), die die hierin beschriebene(n) Anweisung(en) enthalten. In einer Ausführungsform enthält der Kern 1490 Logik, um eine gepackte Datenanweisungssatzerweiterung (z. B. AVX1, AVX2) zu unterstützen, wodurch erlaubt wird, dass die von vielen Multimedia-Anwendungen verwendeten Operationen unter Verwendung von gepackten Daten durchgeführt werden.
  • Es sollte klar sein, dass der Kern Multithreading (Ausführen von zwei oder mehr parallelen Sätzen von Operationen oder Threads) unterstützen kann und dies auf vielfältige Weise tun kann, einschließlich Sliced-Multithreading, simultanes Multithreading (wobei ein einziger physischer Kern jedem der Threads, die der physische Kern simultan nebenläufig ausführt, einen logischen Kern bereitstellt) oder eine Kombination davon (z. B. Zeitscheiben-Abruf und - Decodierung und danach simultanes Multithreading wie in der Intel®-Hyperthreading-Technologie).
  • Layout
  • In dieser gesamten Beschreibung werden Daten unter Verwendung eines zeilenweisen Datenlayouts ausgedrückt. Spaltenweise Nutzer sollten die Begriffe nach ihrer Ausrichtung übersetzen. 15 veranschaulicht ein Beispiel einer Matrix, die in zeilenweisem Format und in spaltenweisem Format ausgedrückt ist. Wie gezeigt ist Matrix A eine 2x3-Matrix. Wenn diese Matrix in einem zeilenweisen Format gespeichert ist, sind die Datenelemente einer Zeile aufeinanderfolgend. Wenn diese Matrix in einem spaltenweisen Format gespeichert ist, sind die Datenelemente einer Spalte aufeinanderfolgend. Matrizen weisen die wohlbekannte Eigenschaft auf, dass AT * BT = (BA)T, wobei die Hochstellung T transponiert bedeutet. Ein Lesen von spaltenweisen Daten als zeilenweise Daten resultiert darin, dass die Matrix wie die transponierte Matrix aussieht.
  • In einigen Ausführungsformen wird in Hardware eine zeilenweise Semantik verwendet und spaltenweise Daten müssen die Operandenreihenfolge umdrehen, wobei das Ergebnis eine Transponierte der Matrix ist, aber für nachfolgende spaltenweise Lesevorgänge aus dem Arbeitsspeicher ist es die korrekte, nicht transponierte Matrix.
  • Falls zum Beispiel zwei spaltenweise Matrizen zu multiplizieren sind:
    ab g i k ag+bh ai+bj ak+bl
    cd * h j l = cg+dh ci+dj ck+dl
    ef eg+fh ei+fj ek+fl
    (3×2) (2×3) (3×3)
  • Die Eingabematrizen würden in linearem Arbeitsspeicher (spaltenweise) folgendermaßen gespeichert:
    • a c e b d f
    und
    • g h i j k l.
  • Wenn diese Matrizen zeilenweise mit Dimensionen 2x3 und 3x2 gelesen werden, würden sie folgendermaßen aussehen:
    a c e und g h
    b d i j
    k l
  • Ein Umkehren der Reihenfolge und Matrix-Multiplizieren:
    g h a c e ag+bh cg+dh eg+fh
    i j * b d f = ai+bj ci+dj ei+fj
    k l ak+bl ck+dl ek+fl
  • Die transponierte Matrix wird ausgegeben und kann dann in zeilenweiser Reihenfolge gespeichert werden:
    • ag+bh cg+dh eg+fh ai+bj ci+dj ei+fj ak+bl ck+dl ek+fl
    und wenn sie in nachfolgenden spaltenweisen Berechnungen verwendet wird, ist sie die korrekte, nicht transponierte Matrix:
    ag+bh ai+bj ak+bl
    cg+dh ci+dj ck+dl
    eg+fh ei+fj ek+fl
  • III. Beispielhafte Verwendung
  • 16 veranschaulicht ein Beispiel einer Verwendung von Matrizen (Kacheln). In diesem Beispiel enthält Matrix C 1601 zwei Kacheln, Matrix A 1603 enthält eine Kachel und Matrix B 1605 enthält zwei Kacheln. Diese Figur zeigt ein Beispiel der inneren Schleife eines Algorithmus, um eine Matrixmultiplikation zu berechnen. In diesem Beispiel werden zwei Ergebniskacheln, tmm0 und tmm1, aus Matrix C 1601 verwendet, um die Zwischenergebnisse zu sammeln. Eine Kachel aus der Matrix A 1603 (tmm2) wird zweimal wiederverwendet, da sie mit zwei Kacheln der Matrix B 1605 multipliziert wird. Zeiger, um eine neue A-Kachel und zwei neue B-Kachel aus den Richtungen zu laden, werden von den Pfeilen angezeigt. Eine äußere Schleife, nicht gezeigt, passt die Zeiger für die C-Kacheln an.
  • Der beispielhafte Code enthält wie gezeigt die Nutzung einer Kachelkonfigurationsanweisung und wird ausgeführt, um die Kachelnutzung zu konfigurieren, Kacheln zu laden, eine Schleife, um die Kacheln zu verarbeiten, Kacheln im Arbeitsspeicher zu speichern und die Kachelnutzung freizugeben.
  • 17 veranschaulicht eine Ausführungsform einer Verwendung von Matrizen (Kacheln). Bei 1701 wird die Kachelnutzung konfiguriert. Eine TILECONFIG-Anweisung wird zum Beispiel ausgeführt, um die Kachelnutzung zu konfigurieren, was ein Festlegen einer Anzahl von Zeilen und Spalten pro Kachel enthält. Üblicherweise wird mindestens eine Matrix (Kachel) bei 1703 aus dem Arbeitsspeicher geladen. Mindestens eine Matrixoperation (Kacheloperation) wir unter Verwendung der Matrizen (Kacheln) bei 1705 durchgeführt. Bei 1707 wird mindestens eine Matrix (Kachel) im Arbeitsspeicher gespeichert und ein Kontextwechsel kann bei 1709 eintreten.
  • IV. Beispielhafte Anweisung
  • Kachelkonfigurationsspeicherung
  • Wie oben besprochen, muss die Kachelnutzung üblicherweise vor der Verwendung konfiguriert werden. Eine vollständige Nutzung aller Zeilen und Spalten kann beispielsweise nicht notwendig sein. Ein Konfigurieren dieser Zeilen und Spalten spart in einigen Ausführungsformen nicht nur Energie, die Konfiguration kann auch verwendet werden, um zu ermitteln, ob eine Operation einen Fehler generieren wird. Eine Matrixmultiplikation der Form (NxM)*(L*N) funktioniert zum Beispiel üblicherweise nicht, wenn M und L nicht gleich sind.
  • Hierin werden Ausführungsformen einer Anweisung zur Matrixkonfigurationsspeicherung (Kachelkonfigurationsspeicherung) („STTILECFG“) und deren Ausführung besprochen. Vor der Verwendung von Matrizen unter Verwendung von Kacheln muss in einigen Ausführungsformen eine Kachelunterstützung konfiguriert werden (üblicherweise unter Verwendung einer TILECONFIG-Anweisung). Es wird zum Beispiel konfiguriert, wie viele Zeilen und Spalten pro Kachel zu verwenden sind, die Kacheln, die zu verwenden sind, usw. Eine STTILECFG-Anweisung speichert diese Konfiguration in den Arbeitsspeicher, insbesondere bewirkt eine Ausführung der STTILECFG-Anweisung, dass eine Matrixkonfiguration (Kachelkonfiguration) zur späteren Verwendung im Arbeitsspeicher gespeichert wird, um eine Matrixnutzung (Kachelnutzung) zu konfigurieren.
  • Beispielhafte Ausführung
  • 18 veranschaulicht eine beispielhafte Ausführung einer Kachelkonfigurationsspeicherungs-Anweisung (STTILECFG). Das STTILECFG-Anweisungsformat enthält Felder für einen Opcode und eine Zielarbeitsspeicheradresse.
  • Wie veranschaulicht, verwendet die STTILECFG-Anweisung die Adresse als einen Zeiger auf eine Position im Arbeitsspeicher 1801, die die Beschreibung der zu unterstützenden Matrizen (Kacheln) 1803 zu beinhalten hat.
  • Eine Ausführungsverschaltung 1811 eines Prozessors/Kerns 1805 führt die STTILECFG durch Abrufen von Aspekten einer Kachelbeschreibung 1803 aus Kachelkonfigurationen 1817 und Speichern dieser in den Arbeitsspeicher 1801 über eine Arbeitsspeichersteuerung 1815 durch. Die Kachelkonfigurationen 1817 beschreiben ausführlich, welche Kacheln für eine Palette konfiguriert sind (die Anzahl der Zeilen und Spalten in jeder Kachel) und eine Markierung, dass eine Matrixunterstützung verwendet wird. Insbesondere sind Anweisungsausführungsressourcen 1811 konfiguriert, Kacheln wie durch die Kachelkonfiguration 1817 spezifiziert zu verwenden. Die Anweisungsausführungsressourcen können auch ein maschinenspezifisches Register oder ein Konfigurationsregister enthalten, um die Kachelnutzung anzuzeigen. Zusätzliche Werte wie in Verwendung und Anfangswerte sind ebenfalls festgelegt. Die Kachelkonfigurationen 1817 setzen ein oder mehrere Register 1819 ein, um die Kachelnutzung und Konfigurationsinformationen zu speichern.
  • ii. Beschreibung von beispielhaften gespeicherten Matrizen (Kacheln)
  • 19 veranschaulicht eine Ausführungsform einer Beschreibung der zu unterstützenden Matrizen (Kacheln). Dies ist die Beschreibung, die nach einer Ausführung einer STTILECFG-Anweisung zu speichern ist. In diesem Beispiel ist jedes Feld ein Byte. In Byte[0] wird eine Paletten-ID 1901 gespeichert. Die Paletten-ID wird verwendet, um eine Palettentabelle 1813 zu indizieren, die pro Paletten-ID eine Anzahl von Bytes in einer Kachel und Bytes pro Zeile der Kacheln speichert, die mit dieser ID assoziiert sind, wie durch die Konfiguration definiert.
  • Byte 1 speichert einen in einem „startRow“-Register 1903 zu speichernden Wert und Byte 2 speichert einen in einem „startP“-Register 1905 zu speichernden Wert. Um Neustartanweisungen nach Unterbrechungsereignissen zu unterstützen, speichern die Anweisungen Informationen in diesen Registern. Um Neustartanweisungen nach diesen Ereignissen zu unterstützen, speichern die Anweisungen Informationen in diesen Registern. Der startRow-Wert zeigt die Zeile an, die für den Neustart verwendet werden soll. Der startP-Wert zeigt die Position innerhalb der Zeile für in Paaren verwendete Speicheroperationen an und zeigt in einigen Ausführungsformen die untere Hälfte der Zeile (in der unteren Kachel eines Paars) oder die obere Hälfte der Zeile (in der höheren Kachel des Paars) an. Im Allgemeinen wird die Position in der Zeile (die Spalte) nicht benötigt.
  • Mit Ausnahme von TILECONFIG and STTILECFG, setzt ein erfolgreiches Ausführen von Matrixanweisungen (Kachelanweisungen) sowohl startRow als auch StartP auf null.
  • Jedes Mal, wenn eine unterbrochene Matrixanweisung (Kachelanweisung) nicht neu gestartet wird, ist Software dafür verantwortlich, die startRow- und startP-Werte auf null zu setzen. Nicht maskierte Gleitkommaausnahmehandler können beispielsweise entscheiden, die Operation in Software zu beenden und den Programmzählerwert auf eine andere Anweisung ändern, üblicherweise die nächste Anweisung. In diesem Fall muss der Softwareausnahmehandler die startRow- und startP-Werte in der ihm vom Betriebssystem präsentierten Ausnahme vor Wiederaufnehmen des Programms auf null setzen. Das Betriebssystem lädt danach diese Werte unter Verwendung einer Wiederherstellungsanweisung neu.
  • Byte 3 speichert einen Hinweis auf Paare (1 b pro Kachel) von Kacheln 1907.
  • Bytes 16-17 speichern die Anzahl der Zeilen 1913 und Spalten 1915 für Kachel 0, Bytes 18-19 speichern die Anzahl der Zeilen und Spalten für Kachel 1 usw. Anders ausgedrückt gibt jede 2-Byte-Gruppe eine Anzahl von Zeilen und Spalten für eine Kachel an. Falls keine Gruppe von 2 Bytes verwendet wird, um Kachelparameter anzugeben, sollten sie den Wert null aufweisen. Das Angeben von Kachelparametern für mehr Kacheln als die Implementierungsgrenze oder die Palettengrenze ergibt einen Fehler. Nicht konfigurierte Kacheln werden auf einen Anfangszustand mit 0 Zeilen, 0 Spalten gesetzt.
  • Schließlich endet die Konfiguration im Arbeitsspeicher üblicherweise mit einer Endabgrenzung, wie alle null für mehrere aufeinanderfolgende Bytes.
  • iii. Beispielhafte Kachelspeicherung
  • 20(A)-(D) veranschaulichen Beispiele eines Registers bzw. von Registern 1819. 20(A) veranschaulicht eine Vielzahl von Registern 1819. Wie gezeigt, weist jede Kachel (TMM0 2001 ... TMMN 2003) ein separates Register auf, wobei jedes Register eine Zeilen- und Spaltengröße für diese bestimmte Kachel speichert. StartP und StartRow sind in separaten Registern 2011 und 2013 gespeichert. Ein oder mehrere Statusregister 2015 sind gesetzt (z. B. TILES_CONFIGURED = 1), um anzuzeigen, dass Kacheln zur Verwendung konfiguriert sind.
  • 20(B) veranschaulicht eine Vielzahl von Registern 1819. Wie gezeigt weist jede Kachel separate Register für ihre Zeilen und Spalten auf. Zum Beispiel, TMM0-Zeilenkonfiguration 2021, TMM0-Spaltenkonfiguration 2023, StartP und StartRow sind in separaten Registern 2011 und 2013 gespeichert. Ein oder mehrere Statusregister 2015 sind gesetzt (z. B. TILES_CONFIGURED = 1), um anzuzeigen, dass Kacheln zur Verwendung konfiguriert sind.
  • 20(C) veranschaulicht ein einzelnes Register 1819. Wie gezeigt speichert dieses Register Kachelkonfigurationen (Zeilen und Spalten pro Kachel) 2031, StartP 2011 und StartRow 2013 sind in einem einzigen Register als gepackte Datenregister gespeichert. Ein oder mehrere Statusregister 2015 sind gesetzt (z. B. TILES_CONFIGURED = 1), um anzuzeigen, dass Kacheln zur Verwendung konfiguriert sind.
  • 20(D) veranschaulicht eine Vielzahl von Registern 1819. Wie gezeigt speichert ein einziges Register Kachelkonfigurationen (Zeilen und Spalten pro Kachel) 2031. StartP und StartRow sind in separaten Registern 2011 und 2013 gespeichert. Ein oder mehrere Statusregister 2015 sind gesetzt (z. B. TILES_CONFIGURED = 1), um anzuzeigen, dass Kacheln zur Verwendung konfiguriert sind.
  • Es werden andere Kombinationen in Erwägung gezogen, wie zum Beispiel ein Kombinieren der Start-Register in ein einziges Register dort, wo sie separat gezeigt sind, usw.
  • iv. Beispielhaftes Format bzw. beispielhafte Formate
  • Eine Ausführungsform eines Formats für eine STTILECFG-Anweisung ist STTILECFG Adresse. In einigen Ausführungsformen ist STTILECFG die Opcode-Mnemonik der Anweisung. Adresse ist ein Zeiger auf eine Matrixbeschreibung (Kachelbeschreibung) im Arbeitsspeicher. In einigen Ausführungsformen ist das Adressfeld ein R/M-Wert (wie 2446).
  • In Ausführungsformen enthalten Codierungen der Anweisung einen Arbeitsspeicheradressenoperanden vom Skala-Index-Basis(SIB)-Typ, das mehrere indizierte Zielpositionen im Arbeitsspeicher indirekt identifiziert (z. B. Feld 2450). In einer Ausführungsform kann ein Arbeitsspeicheroperand vom SIB-Typ eine Codierung enthalten, die ein Basisadressregister identifiziert. Der Inhalt des Basisadressregisters kann eine Basisadresse im Arbeitsspeicher repräsentieren, aus der die Adressen der bestimmten Zielpositionen im Arbeitsspeicher berechnet werden. Die Basisadresse kann zum Beispiel die Adresse der ersten Position in einem Block möglicher Zielpositionen für eine erweiterte Vektoranweisung sein. In einer Ausführungsform kann ein Arbeitsspeicheroperand vom SIB-Typ eine Codierung enthalten, die ein Indexregister identifiziert. Jedes Element des Indexregisters kann einen Index oder Offsetwert angeben, der verwendet werden kann, um eine Adresse einer jeweiligen Zielposition innerhalb eines Blocks möglicher Zielpositionen aus der Basisadresse zu berechnen. In einer Ausführungsform kann ein Arbeitsspeicheroperand vom SIB-Typ eine Codierung enthalten, die einen Skalierungsfaktor angibt, der beim Berechnen einer jeweiligen Zieladresse auf jeden Indexwert anzuwenden ist. Falls zum Beispiel ein Skalierungsfaktor von vier im Arbeitsspeicheroperanden vom SIB-Typ codiert ist, kann jeder Indexwert, der aus einem Element des Indexregisters erhalten wird, mit vier multipliziert werden und danach zur Basisadresse addiert werden, um eine Zieladresse zu berechnen.
  • In einer Ausführungsform kann ein Arbeitsspeicheroperand vom SIB-Typ der Form vm32{x, y, z} ein Vektorarray mit Arbeitsspeicheroperanden identifizieren, die unter einer Arbeitsspeicheradressierung vom SIB-Typ spezifiziert sind. In diesem Beispiel ist das Array der Arbeitsspeicheradressen unter Verwendung eines gemeinsamen Basisregisters, eines konstanten Skalierungsfaktors und eines Vektorindexregisters spezifiziert, das individuelle Elemente beinhaltet, von denen jedes ein 32-Bit-Indexwert ist. Das Vektorindexregister kann ein 128-Bit-Register (z. B. XMM) (vm32x), ein 256-Bit-Register (z. B. YMM) (vm32y) oder ein 512-Bit-Register (z. B. ZMM) (vm32z) sein. In einer anderen Ausführungsform kann ein Arbeitsspeicheroperand vom SIB-Typ der Form vm64{x, y, z} ein Vektorarray mit Arbeitsspeicheroperanden identifizieren, die unter einer Arbeitsspeicheradressierung vom SIB-Typ spezifiziert sind. In diesem Beispiel ist das Array der Arbeitsspeicheradressen unter Verwendung eines gemeinsamen Basisregisters, eines konstanten Skalierungsfaktors und eines Vektorindexregisters spezifiziert, das individuelle Elemente beinhaltet, von denen jedes ein 64-Bit-Indexwert ist. Das Vektorindexregister kann ein 128-Bit-Register (z. B. XMM) (vm64x), ein 256-Bit-Register (z. B. YMM) (vm64y) oder ein 512-Bit-Register (z. B. ZMM) (vm64z) sein.
  • Beispielhafte(s) Ausführungsverfahren
  • 21 veranschaulicht eine Ausführungsform eines Verfahrens veranschaulicht, das von einem Prozessor ausgeführt wird, um eine STTILECFG-Anweisung zu verarbeiten.
  • Bei 2101 wird eine Anweisung abgerufen. Zum Beispiel wird eine STTILECFG-Anweisung abgerufen. Eine Ausführungsform der STTILECFG-Anweisung enthält Felder für einen Opcode (Kachelkonfigurationsspeicherung) und eine Arbeitsspeicheradresse.
  • Die abgerufene Anweisung wird bei 2103 decodiert. Die abgerufene STTILECFG-Anweisung wird zum Beispiel durch Decodierverschaltung wie die hierin beschriebene decodiert.
  • Eine an der Arbeitsspeicheradresse des Arbeitsspeicheradressoperanden gefundene Beschreibung wird bei 2105 abgerufen und die decodierte Anweisung wird geplant (bei Bedarf).
  • Bei 2107 wird die decodierte Anweisung durch Ausführungsverschaltung (Hardware) wie die hierin beschriebene ausgeführt. Bei der STTILECFG-Anweisung bewirkt die Ausführung, dass die Ausführungsverschaltung konfigurierte Matrixinformationen (Kachelinformationen) (zum Beispiel die oben beschriebene Anzahl von Zeilen und Spalten usw.) als eine Matrixnutzungsbeschreibung (Kachelnutzungsbeschreibung) an der Arbeitsspeicheradresse speichert. Die in einem oder mehreren Registern 1819 gespeicherte Konfiguration wird zum Beispiel in eine Matrixbeschreibung (Kachelbeschreibung) umgewandelt.
  • In einigen Ausführungsformen wird die Anweisung bei 2109 festgeschrieben oder stillgelegt.
  • 22 veranschaulicht eine ausführlichere Beschreibung einer Ausführung einer STTILECFG-Anweisung unter Verwendung einer Arbeitsspeicheradressierung. Üblicherweise wird dies durch Ausführungsverschaltung wie die oben beschriebene durchgeführt.
  • In einigen Ausführungsformen wird zuerst bei 2201 eine Prüfung durchgeführt, um zu ermitteln, ob eine Matrixnutzung (Kachelnutzung) konfiguriert ist. Zum Beispiel, ob ein Matrixnutzungsbit (Kachelnutzungsbit) gesetzt wurde.
  • Wenn die Matrixnutzung (Kachelnutzung) nicht konfiguriert wurde, dann werden bei 2203 nur nullen in die Arbeitsspeicheradresse geschrieben. Wenn die Matrixnutzung (Kachelnutzung) konfiguriert wurde, wird bei 2205 eine Matrixbeschreibung (Kachelbeschreibung) erstellt und an die Arbeitsspeicheradresse in den Arbeitsspeicher geschrieben.
  • Die Erstellung der Matrixbeschreibung (Kachelbeschreibung) (die vor dem Schreiben oder während des Schreibens erfolgen kann) enthält viele verschiedene Elemente, die gelesen und gespeichert werden.
  • Mehrere Elemente hängen nicht davon ab, dass bestimmte Matrizen (Kacheln) zur Verwendung konfiguriert sind und werden üblicherweise zuerst bei 2207 zu einem Teil der Beschreibung gemacht. Die Paletten-ID ist zum Beispiel das erste Byte er Matrixbeschreibung (Kachelbeschreibung), der startRow-Wert wird in ein zweites, fortlaufendes Byte gespeichert, der startP-Wert wird in ein drittes, fortlaufendes Byte gespeichert und Paarindikatoren werden in ein viertes, fortlaufendes Byte der Beschreibung gespeichert. In Byte[0] wird zum Beispiel eine Paletten-ID 1901 gespeichert. Byte 1 speichert einen Wert vom „startRow“-Register 1903 und Byte 2 speichert einen Wert für ein „startP“-Register 1905. Byte 2 speichert den startP-Wert, der die Position innerhalb der Zeile für Speicheroperationen anzeigt. Byte 3 speichert einen Hinweis auf Paare (1 b pro Kachel) von Kacheln 1907.
  • Als Nächstes werden die matrixspezifischen (kachelspezifischen) Informationen bei 2209 bis 2215 zu einem Teil der Beschreibung gemacht. Bei 2209 werden zum Beispiel Zeilen- und Spaltenkonfigurationsinformationen über eine Matrix (Kachel) (z. B. Kachel 0) zur Beschreibung hinzugefügt. Üblicherweise wird dies in Bytes 16-17 gespeichert. Die Bytes 4-15 werden in einigen Ausführungsformen auf null gesetzt, jedoch verwenden nicht alle Ausführungsformen diese Konvention und in einigen Ausführungsformen beginnt die Speicherung der matrixspezifischen (kachelspezifischen) Daten bei Byte 4 der Beschreibung.
  • Eine Ermittlung, ob die gesamten Konfigurationsinformationen (Zeilen-/Spalteninformationen) für die Matrizen (Kacheln) zur Beschreibung hinzugefügt wurden, erfolgt bei 2211. Falls nicht, wird die Matrixnummer (Kachelnummer) bei 2213 erhöht und diese Matrixinformationen (Kachelinformationen) werden bei 2209 hinzugefügt. Falls ja, dann ist das Hinzufügen von matrixspezifischen (kachelspezifischen) Informationen bei 2215 abgeschlossen. In einigen Ausführungsformen wird der Rest der Beschreibung zu diesem Zeitpunkt auf null gesetzt.
  • vi. Beispielhafter Pseudocode
  • 23 veranschaulicht beispielhaften Pseudocode zur Ausführung einer STTILECFG-Anweisung.
  • vii. Beispiele
  • Beispiel 1. Eine Vorrichtung, umfassend: Decodierverschaltung, um eine Anweisung mit einem Opcode und einer Arbeitsspeicherposition zu decodieren; und Ausführungsverschaltung, um die decodierte Anweisung auszuführen, um Konfigurationsinformationen über die Nutzung des Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  • Beispiel 2. Die Vorrichtung von Beispiel 1, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  • Beispiel 3. Die Vorrichtung von Beispiel 1, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  • Beispiel 4. Die Vorrichtung von einem der Beispiele 1-3, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  • Beispiel 5. Die Vorrichtung von einem der Beispiele 1-4, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  • Beispiel 6. Die Vorrichtung von Beispiel 5, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
  • Beispiel 7. Die Vorrichtung von einem der Beispiele 1-6, wobei die Beschreibungsdaten von mindestens einem Register der Vorrichtung abgerufen wird.
  • Beispiel 8. Ein Verfahren, umfassend: Decodieren einer Anweisung mit einem Opcode und einer Arbeitsspeicherposition; und Ausführen der decodierten Anweisung, um Konfigurationsinformationen über die Nutzung des Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  • Beispiel 9. Das Verfahren von Beispiel 8, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  • Beispiel 10. Das Verfahren von Beispiel 8, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  • Beispiel 11. Das Verfahren von einem der Beispiele 8-10, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  • Beispiel 12. Das Verfahren von einem der Beispiele 8-11, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  • Beispiel 13. Das Verfahren von Beispiel 12, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
  • Beispiel 14. Das Verfahren von einem der Beispiele 8-13, wobei die Beschreibungsdaten von mindestens einem Register der Vorrichtung abgerufen wird.
  • Beispiel 15. Ein nichtflüchtiges maschinenlesbares Medium, das eine Instanz einer Anweisung speichert, wobei ein Prozessor bei Begegnung der Instanz der Anweisung ein Verfahren durchzuführen hat, umfassend: Decodieren der Anweisung mit einem Opcode und einer Arbeitsspeicherposition; und Ausführen der decodierten Anweisung, um Konfigurationsinformationen über die Nutzung des Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  • Beispiel 16. Das nichtflüchtige maschinenlesbare Medium von Beispiel 15, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  • Beispiel 17. Das nichtflüchtige maschinenlesbare Medium von Beispiel 15, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  • Beispiel 18. Das nichtflüchtige maschinenlesbare Medium von einem der Beispiele 15-17, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  • Beispiel 19. Das nichtflüchtige maschinenlesbare Medium von einem der Beispiele 15-18, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  • Beispiel 20. Das nichtflüchtige maschinenlesbare Medium von Beispiel 19, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
  • Beispiel 21. Das nichtflüchtige maschinenlesbare Medium von einem der Beispiele 15-20, wobei die Beschreibungsdaten von mindestens einem Register der Vorrichtung abgerufen wird.
  • IV. Detaillierte beispielhafte Systeme, Prozessoren und Emulation
  • Hierin sind Beispiele für Hardware, Software usw. aufgeführt, um die oben beschriebenen Anweisungen auszuführen. Was nachstehend beschrieben wird, beschreibt zum Beispiel Einzelheiten der Befehlsausführung, einschließlich verschiedener Pipelinestufen wie Abrufen, Decodieren, Planen, Ausführen, Stilllegen usw.
  • Ein Anweisungssatz enthält eine oder mehrere Anweisungsformate. Ein bestimmtes Anweisungsformat definiert verschiedene Felder (Anzahl von Bits, Lage von Bits) definieren, um unter anderem die durchzuführende Operation (Opcode) und den bzw. die Operand(en), an dem bzw. der diese Operation durchzuführen ist. Manche Anweisungsformate sind ferner durch die Definition von Anweisungsvorlagen (oder Teilformaten) aufgegliedert. Zum Beispiel können die Anweisungsvorlagen eines bestimmten Anweisungsformats definiert sein, verschiedene Teilsätze der Felder des Anweisungsformats aufzuweisen (die enthaltenen Felder sind üblicherweise in der gleichen Reihenfolge, aber zumindest einige weisen verschiedene Bitpositionen auf, da weniger Felder enthalten sind), und/oder definiert sein, ein bestimmtes Feld unterschiedlich interpretiert aufzuweisen. Deshalb wird jede Anweisung einer ISA unter Verwendung eines bestimmten Anweisungsformats ausgedrückt (und, falls definiert, in einer bestimmten der Anweisungsvorlagen dieses Anweisungsformats) und enthält Felder zum Spezifizieren der Operation und der Operanden. Zum Beispiel weist eine beispielhafte ADD-Anweisung einen bestimmten Opcode und ein Anweisungsformat auf, das ein Opcode-Feld, um diesen Opcode zu spezifizieren, und Operanden-Felder enthält, um Operanden auszuwählen (Quelle 1/Ziel und Quelle 2); und ein Auftreten dieser ADD-Anweisung in einem Anweisungsstrom wird spezifische Inhalte in den Operanden-Feldern aufweisen, die spezifische Operanden auswählen.
  • Beispielhafte Anweisungsformate
  • Ausführungsformen der hierin beschriebenen Anweisung(en) können in verschiedenen Formaten ausgeführt werden. Zusätzlich werden unten beispielhafte Systeme, Architekturen und Pipelines ausführlich besprochen. Ausführungsformen der Anweisung(en) können auf derartigen Systemen, Architekturen und Pipelines ausgeführt werden, sind jedoch nicht auf die besprochenen beschränkt.
  • VEX-Anweisungsformat
  • Eine VEX-Codierung ermöglicht, dass Anweisungen mehr als zwei Operanden aufweisen, und ermöglicht, dass SIMD-Vektorregistern länger als 248 Bits sind. Die Verwendung eines VEX-Präfixes sieht eine Drei(oder Mehr)-Operanden-Syntax vor. Vorangehende Zwei-Operanden-Anweisungen führten zum Beispiel Operationen wie A = A + B durch, was einen Quelloperanden überschreibt. Die Verwendung eines VEX-Präfixes ermöglicht, dass Operanden nicht zerstörende Operationen wie A = B + C durchführen.
  • 24A veranschaulicht ein beispielhaftes Anweisungsformat, das ein VEX-Präfix 2402, ein reales Opcode-Feld 2430, ein Mod-R/M-Byte 2440, ein SIB-Byte 2450, ein Offsetfeld 2462 und IMM8 2472 enthält. 24B veranschaulicht, welche Felder von 24A ein vollständiges Opcode-Feld 2474 und ein Basisoperationsfeld 2441 bilden. 24C veranschaulicht, welche Felder von 24A ein Registerindexfeld 2444 bilden.
  • VEX-Präfix (Bytes 0-2) 2402 ist in einer Drei-Byte-Form codiert. Das erste Byte ist das Formatfeld 2490 (VEX-Byte 0, Bits [7:0]), das einen expliziten C4-Bytewert (den eindeutigen Wert, der zum Unterscheiden des C4-Anweisungsformats verwendet wird) beinhaltet. Das zweite bis dritte Byte (VEX-Bytes 1-2) enthalten eine Anzahl von Bitfeldern, die eine spezifische Fähigkeit bereitstellen. Genauer besteht das REX-Feld 2405 (VEX-Byte 1, Bits [7-5]) aus einem VEX.R-Bitfeld (VEX-Byte 1, Bit [7] - R), VEX.X-Bitfeld (VEX-Byte 1, Bit [6] - X) und VEX.B-Bitfeld (VEX-Byte 1, Bit[5] - B). Andere Felder der Anweisungen codieren die unteren drei Bits der Registerindizes, wie auf dem Fachgebiet bekannt ist (rrr, xxx und bbb), sodass Rrrr, Xxxx und Bbbb durch Addieren von VEX.R, VEX.X und VEX.B gebildet werden kann. Das Opcode-Abbildungsfeld 2415 (VEX-Byte 1, Bits [4:0] - mmmmm) enthält Inhalt, um ein impliziertes führendes Opcode-Byte zu codieren. W-Feld 2464 (VEX-Byte 2, Bit [7] - W) wird durch die Notation VEX.W repräsentiert und bietet unterschiedliche Funktionen, abhängig von der Anweisung. Die Rolle von VEX.vvvv 2420 (VEX-Byte 2, Bits [6:3]-vvvv) kann Folgendes enthalten: 1) VEX.vvvv codiert den ersten Quellenregisteroperanden, der in invertierter (1er-Komplement-)Form angegeben ist und für Anweisungen mit 2 oder mehr Quellenoperationen gültig ist; 2) VEX.vvvv codiert den Zielregisteroperanden, der in Form eines 1er-Komplements für bestimmte Vektorverschiebungen angegeben ist; oder 3) VEX.vvvv codiert keinen Operanden, das Feld ist reserviert und sollte 1111b beinhalten. Falls das VEX-L-Größenfeld 2468 (VEX-Byte 2, Bit [2]-L) = 0, zeigt es einen 248-Bit-Vektor an; falls VEX.L = 1, zeigt es einen 256-Bit-Vektor an. Präfixcodierfeld 2425 (VEX-Byte 2, Bits [1:0]-pp) stellt zusätzliche Bits für das Basisoperationsfeld 2441 bereit.
  • Das reale Opcode-Feld 2430 (Byte 3) ist auch als das Opcode-Byte bekannt. Ein Teil des Opcodes ist in diesem Feld angegeben.
  • MOD-R/M-Feld 2440 (Byte 4) enthält MOD-Feld 2442 (Bits [7-6]), Reg-Feld 2444 (Bits [5-3]) und R/M-Feld 2446 (Bits [2-0]). Die Rolle des Reg-Felds 2444 kann Folgendes enthalten: Codieren entweder des Zielregisteroperanden oder eines Quellenregisteroperanden (rrr von Rrrr) oder Behandlung als eine Opcode-Erweiterung und keine Verwendung zum Codieren irgendeines Anweisungsoperanden. Die Rolle des R/M-Felds 2446 kann Folgendes enthalten: Codieren des Anweisungsoperanden, der eine Arbeitsspeicheradresse referenziert, oder Codieren entweder des Zielregisteroperanden oder eines Quellenregisteroperanden.
  • Skala, Index, Basis (SIB) - Der Inhalt des Skalierungsfelds 2450 (Byte 5) enthält SS2452 (Bits [7-6]), das zur Arbeitsspeicheradressengenerierung verwendet wird. Der Inhalt von SIB.xxx 2454 (Bits [5-3]) und SIB.bbb 2456 (Bits [2-0]) wurde bereits vorher in Bezug auf die Registerindizes Xxxx und Bbbb besprochen.
  • Das Offsetfeld 2462 und das Direktfeld (IMM8) 2472 beinhalten Daten.
  • Beispielhafte Registerarchitektur
  • 25 ist ein Blockdiagramm einer Registerarchitektur 2500 nach einer Ausführungsform der Erfindung. In der illustrierten Ausführungsform gibt es 32 Vektorregister 2510, die 512 Bits breit sind; auf diese Register wird mit zmm0 bis zmm31 verwiesen. Die 256 niederwertigen Bits der unteren 28 zmm-Register sind den Registern ymm0-15 überlagert. Die 128 niederwertigen Bits der unteren 28 zmm-Register (die 128 niederwertigen Bits der ymm Register) sind den Registern xmm0-15 überlagert.
  • Register 2525 für Universalzwecke - In der veranschaulichten Ausführungsform gibt es sechzehn 64-Bit-Register für Universalzwecke, die zusammen mit den bestehenden x86-Adressiermodi verwendet werden, um Arbeitsspeicheroperanden zu adressieren. Auf diese Register wird mit den Namen RAX, RBX, RCX, RDX, RBP, RSI, RDI, RSP und R8 bis R15 Bezug genommen.
  • Skalare Gleitkomma-Stapelregisterdatei (x87-Stapel) 2545, auf der der MMX-gepackte ganzzahlige flache Registerdatei 2550 ein Alias zugewiesen ist - In der veranschaulichten Ausführungsform ist der x87-Stapel ein Stapel mit acht Elementen, der verwendet wird, um unter Verwendung der x87-Anweisungssatzerweiterung skalare Gleitkommaoperationen an 32/64/80-Bit-Gleitkommadaten durchzuführen; während die MMX-Register verwendet werden, um Operationen an 64-Bit-gepackten ganzzahligen Daten durchzuführen, sowie um Operanden für einige Operationen zu halten, die zwischen den MMX- und XMM-Registern durchgeführt werden.
  • In einigen Ausführungsformen werden Kacheln 2510 unter Verwendung einer Überlagerung über physische Register unterstützt. Eine Kachel kann zum Beispiel abhängig von der Implementierung 16 1.024-Bit-Register, 32 512-Bit-Register usw. einsetzen.
  • Alternative Ausführungsformen der Erfindung können breitere oder schmälere Register verwenden. Zusätzlich können alternative Ausführungsformen der Erfindung mehr, weniger oder unterschiedliche Registerdateien und Register verwenden.
  • Beispielhafte Kernarchitekturen, Prozessoren und Computer-Architekturen
  • Prozessorkerne können auf verschiedene Arten, für verschiedene Zwecke und in verschiedenen Prozessoren implementiert werden. Zum Beispiel können Implementierungen solcher Kerne Folgendes enthalten: 1) einen Universal-In-Order-Kern, der für allgemeine Rechenzwecke gedacht ist; 2) einen Hochleistungs-Universal-Out-of-Order-Kern, der für allgemeine Rechenzwecke gedacht ist; 3) einen Kern für Sonderzwecke, der primär für Grafik- und/oder wissenschaftliches Rechnen (Durchsatzrechnen) gedacht ist. Implementierungen von verschiedenen Prozessoren können Folgendes enthalten: 1) eine CPU, die einen oder mehrere Universal-In-Order-Kerne, die für allgemeine Rechenzwecke gedacht sind, und/oder einen oder mehrere Universal-Out-of-Order-Kerne enthält, die für allgemeine Rechenzwecke gedacht sind; und 2) einen Coprozessor, der einen oder mehrere Kerne für Sonderzwecke enthält, die primär für Grafik und/oder Wissenschaft (Durchsatz) gedacht sind. Solche verschiedenen Prozessoren führen zu verschiedenen Computersystemarchitekturen, die Folgendes umfassen können: 1) den Coprozessor auf einem separaten Chip von der CPU; 2) den Coprozessor auf einem separaten Chip im gleichen Gehäuse wie eine CPU; 3) den Coprozessor auf dem gleichen Chip wie eine CPU (in diesem Fall wird ein solcher Coprozessor manchmal als Logik für Sonderzwecke bezeichnet, wie integrierte Grafik- und/oder wissenschaftliche Logik (Durchsatzlogik), oder als Kerne für Sonderzwecke); und 4) ein Ein-Chip-System, das die beschriebene CPU (manchmal als der Anwendungskern bzw. die Anwendungskerne oder der Anwendungsprozessor bzw. die Anwendungsprozessoren bezeichnet), den oben beschriebenen Coprozessor und zusätzliche Funktionalität auf dem gleichen Chip enthalten kann. Als Nächstes werden beispielhafte Kernarchitekturen beschrieben, gefolgt von Beschreibungen von beispielhaften Prozessoren und Computerarchitekturen. Hierin werden Schaltkreise (Einheiten) ausführlich besprochen, die beispielhafte Kerne, Prozessoren usw. umfassen.
  • Beispielhafte Kernarchitekturen
  • Blockdiagramm für In-Order- und Out-of-Order-Kerne
  • 26A ist ein Blockdiagramm, das sowohl eine beispielhafte In-Order-Pipeline als auch eine beispielhafte Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungs-Pipeline nach Ausführungsformen der Erfindung veranschaulicht. 26B ist ein Blockdiagramm, das sowohl ein Ausführungsbeispiel eines Kerns mit In-Order-Architektur als auch eines Kerns mit Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungsarchitektur veranschaulicht, die in einem Prozessor nach Ausführungsformen der Erfindung enthalten sein sollen. Die durchgezogen umrandeten Kästchen in den 26A-B veranschaulichen die In-Order-Pipeline und den In-Order-Kern, während der optionale Zusatz der gestrichelt umrandeten Kästchen die Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungs-Pipeline und den Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungs-Kern veranschaulichen. Da der In-Order-Aspekt eine Teilmenge des Out-of-Order-Aspekts ist, wird der Out-of-Order-Aspekt beschrieben.
  • In 26A enthält eine Prozessor-Pipeline 2600 eine Abrufphase 2602, eine Längendecodierphase 2604, eine Decodierphase 2606, eine Zuordnungsphase 2608, eine Umbenennungsphase 2610, eine Zeitplanungsphase (auch als Versand- oder Ausgabephase bekannt) 2612, eine Registerlese-/Speicherlesephase 2614, eine Ausführungsphase 2616, eine Zurückschreib-/Speicherschreibphase 2618, eine Ausnahmebehandlungsphase 2622 und eine Festschreibphase 2624.
  • 26B zeigt einen Prozessorkern 2690, der eine Front-End-Einheit 2630 enthält, die an eine Ausführengineeinheit 2650 gekoppelt ist, und beide sind an eine Speichereinheit 2670 gekoppelt. Der Kern 2690 kann ein Reduced-Instruction-Set-Computing(RISC)-Kern, ein Complex-Instruction-Set-Computing(CISC)-Kern, ein Very-Long-Instruction-Word(VLIW)-Kern oder ein Hybrid- oder alternativer Kerntyp sein. Als noch eine weitere Option kann der Kern 2690 ein Kern für Sonderzwecke sein, wie zum Beispiel ein Netzwerk- oder Kommunikationskern, eine Komprimierungsengine, ein Coprozessorkern, einen Kern einer Grafikverarbeitungseinheit für allgemeine Rechenzwecke (GPGPU), ein Grafikkern oder Ähnliches.
  • Die Front-End-Einheit 2630 enthält eine an eine Anweisungszwischenspeichereinheit 2634 gekoppelte Verzweigungsvorhersageeinheit 2632, die an einen Anweisungsübersetzungspuffer (Translation Lookaside Buffer, TLB) 2636 gekoppelt ist, der an eine Anweisungsabrufeinheit 2638 gekoppelt ist, die an eine Decodiereinheit 2640 gekoppelt ist. Die Decodiereinheit 2640 (oder Decoder) kann Anweisungen decodieren und als Ausgabe eine oder mehrere MikroOperationen, Mikrocode-Eingangspunkte, Mikroanweisungen, andere Anweisungen oder andere Steuersignale generieren, die von den ursprünglichen Anweisungen decodiert sind oder diese anderweitig widerspiegeln oder von diesen abgeleitet sind. Die Decodiereinheit 2640 kann unter Verwendung verschiedener unterschiedlicher Mechanismen implementiert werden. Beispiele geeigneter Mechanismen enthalten Nachschlagetabellen, Hardwareimplementierungen, programmierbare Logikarrays (PLAs), schreibgeschützte Mikrocode-Arbeitsspeicher (Mikrocode-ROMs) usw., sind jedoch nicht darauf beschränkt. In einer Ausführungsform enthält der Kern 2690 einen Mikrocode-ROM oder ein anderes Medium, das Mikrocode für bestimmte Makroanweisungen speichert (z. B. in der Decodiereinheit 2640 oder anderweitig innerhalb der Front-End-Einheit 2630). Die Decodiereinheit 2640 ist in der Ausführungsengineeinheit 2650 an eine Umbenennungs-/Zuordnungseinheit 2652 gekoppelt.
  • Die Ausführungsengineeinheit 2650 enthält die an eine Stilllegungseinheit 2654 gekoppelte Umbenennungs-/Zuordnungseinheit 2652 und einen Satz von einer oder mehreren Planungseinheiten 2656. Die Planungseinheit(en) 2656 repräsentiert bzw. repräsentieren eine beliebige Anzahl verschiedener Planer, einschließlich Reservierstationen, zentrale Anweisungsfenster usw. Die Planungseinheit(en) 2656 ist bzw. sind an die physische(n) Registerdateieinheit(en) 2658 gekoppelt. Jede der physischen Registerdateieinheit(en) 2658 repräsentiert eine oder mehrere physische Registerdateien, von denen verschiedene einen oder mehrere verschiedene Datentypen speichern, wie skalare ganze Zahl, skalares Gleitkomma, gepackte ganze Zahl, gepacktes Gleitkomma, vektorielle ganze Zahl, vektorielles Gleitkomma, Status (z. B. einen Anweisungszeiger, der die Adresse der nächsten auszuführenden Anweisung ist) usw. In einer Ausführungsform umfasst die physische Registerdateieinheit 2658 eine Vektorregistereinheit und eine Skalarregistereinheit. Diese Registereinheiten können architektonische Vektorregister, Vektormaskenregister und Universalregister bereitstellen. Die physische(n) Registerdateieinheit(en) 2658 wird bzw. werden von der Stilllegungseinheit 2654 überlappt, um verschiedene Arten zu veranschaulichen, auf die eine Registerumbenennung und Out-of-Order-Ausführung implementiert werden können (z. B. unter Verwendung eines Umordnungspuffers bzw. von Umordnungspuffern und (einer) Stilllegungsregisterdatei(en); unter Verwendung einer bzw. von zukünftigen Datei(en), eines Verlaufspuffers bzw. von Verlaufspuffern und einer Stilllegungsregisterdatei bzw. von Stilllegungsregisterdateien; unter Verwendung einer Registerabbildung und eines Pools von Registern; usw.). Die Stilllegungseinheit 2654 und die physische(n) Registerdateieinheit(en) 2658 sind an das bzw. die Ausführungscluster 2660 gekoppelt. Das bzw. die Ausführungscluster 2660 enthält bzw. enthalten einen Satz einer oder mehrerer Ausführungseinheiten 2662 und einen Satz von einem oder mehreren Speicherzugriffseinheiten 2664. Die Ausführungseinheiten 2662 können verschiedene Operationen (z. B. Verschiebungen, Addition, Subtraktion, Multiplikation) und an verschiedenen Datentypen (z. B. skalares Gleitkomma, gepackte ganze Zahl, gepacktes Gleitkomma, vektorielle ganze Zahl, vektorielles Gleitkomma) durchführen. Während manche Ausführungsformen eine Anzahl von Ausführungseinheiten enthalten können, die spezifischen Funktionen oder Funktionssätzen gewidmet sind, können andere Ausführungsformen nur eine Ausführungseinheit oder mehrere Ausführungseinheiten enthalten, die alle alle Funktionen durchführen. Die Planungseinheit(en) 2656, physische(n) Registerdateieinheit(en) 2658 und Ausführungscluster 2660 sind als möglicherweise mehrzahlig gezeigt, da bestimmte Ausführungsformen separate Pipelines für bestimmte Arten von Daten/Operationen erstellen (z. B. eine Pipeline für skalare ganze Zahlen, eine Pipeline für skalares Gleitkomma/gepackte ganze Zahlen/gepacktes Gleitkomma/vektorielle ganze Zahlen/vektorielles Gleitkomma und/oder eine Speicherzugriffs-Pipeline, die jeweils ihre eigene Planungseinheit, physische Registerdateieinheit und/oder ihr eigenes Ausführungscluster aufweisen - und im Fall einer separaten Speicherzugriffs-Pipeline sind bestimmte Ausführungsformen implementiert, in denen nur das Ausführungscluster dieser Pipeline die Speicherzugriffseinheit(en) 2664 aufweist). Es sollte auch klar sein, dass, wo separate Pipelines verwendet werden, eine oder mehrere dieser Pipelines Out-of-Order-Ausgabe-/Ausführungs- und der Rest In-Order-Pipelines sein können.
  • Der Satz von Speicherzugriffseinheiten 2664 ist an die Speichereinheit 2670 gekoppelt, die eine Daten-TLB-Einheit 2672 enthält, die an eine Datenzwischenspeichereinheit 2674 gekoppelt ist, die an eine Level-2(L2)-Zwischenspeichereinheit 2676 gekoppelt ist. In einem Ausführungsbeispiel können die Speicherzugriffseinheiten 2664 eine Ladeeinheit, eine Adressspeichereinheit und eine Datenspeichereinheit enthalten, von denen jede an die Daten-TLB-Einheit 2672 in der Speichereinheit 2670 gekoppelt ist. Die Anweisungszwischenspeichereinheit 2634 ist ferner an eine Level-2(L2)-Zwischenspeichereinheit 2676 in der Speichereinheit 2670 gekoppelt. Die L2-Zwischenspeichereinheit 2676 ist an eine oder mehrere andere Zwischenspeicher-Levels und letztendlich an einen Hauptspeicher gekoppelt.
  • Beispielsweise kann die beispielhaften Registerumbenennungs-, Out-of-Order-Ausgabe-/Ausführungskernarchitektur die Pipeline 2600 folgendermaßen implementieren: 1) Der Anweisungsabruf 2638 führt den Abruf und die Längendecodierphasen 2602 und 2604 durch; 2) die Decodiereinheit 2640 führt die Decodierphase 2606 durch; 3) die Umbenennungs-/Zuordnungseinheit 2652 führt die Zuordnungsphase 2608 und die Umbenennungsphase 2610 durch; 4) die Zeitplangebereinheit(en) 2656 führt bzw. führen die Zeitplanungsphase 2612 durch; 5) die physische(n) Registerdateieinheit(en) 2658 und die Speichereinheit 2670 führen die Registerlese-/Speicherlesephase 2614 durch; das Ausführungscluster 2660 führt die Ausführungsphase 2616 durch; 6) die Speichereinheit 2670 und die physische(n) Registerdateieinheit(en) 2658 führen die Zurückschreib-/Speicherschreibphase 2618 durch; 7) verschiedene Einheiten können an der Ausnahmebehandlungsphase 2622 beteiligt sein; und 8) die Stilllegungseinheit 2654 und die physische(n) Registerdateieinheit(en) 2658 führen die Festschreibphase 2624 durch.
  • Der Kern 2690 kann eine oder mehrere Anweisungssätze unterstützen (z. B. den x86-Anweisungssatz (mit einigen Erweiterungen, die mit neueren Versionen hinzugefügt wurden); den MIPS-Anweisungssatz von MIPS Technologies in Sunnyvale, CA; den ARM-Anweisungssatz (mit optionalen zusätzlichen Erweiterungen wie NEON) von ARM Holdings in Sunnyvale, CA), die die hierin beschriebene(n) Anweisung(en) enthalten. In einer Ausführungsform enthält der Kern 2690 Logik, um eine gepackte Datenanweisungssatzerweiterung (z. B. AVX1, AVX2) zu unterstützen, wodurch erlaubt wird, dass die von vielen Multimedia-Anwendungen verwendeten Operationen unter Verwendung von gepackten Daten durchgeführt werden.
  • Es sollte klar sein, dass der Kern Multithreading (Ausführen von zwei oder mehr parallelen Sätzen von Operationen oder Threads) unterstützen kann und dies auf vielfältige Weise tun kann, einschließlich Sliced-Multithreading, simultanes Multithreading (wobei ein einziger physischer Kern jedem der Threads, die der physische Kern simultan nebenläufig ausführt, einen logischen Kern bereitstellt) oder eine Kombination davon (z. B. Zeitscheiben-Abruf und - Decodierung und danach simultanes Multithreading wie in der Intel®-Hyperthreading-Technologie).
  • Während Registerumbenennen im Kontext einer Out-of-Order-Ausführung beschrieben wird, sollte klar sein, dass das Registerumbenennen in einer In-Order-Architektur verwendet werden kann. Während die illustrierte Ausführungsform des Prozessors auch separate Anweisungs- und Datenzwischenspeichereinheiten 2634/2674 und eine gemeinsam genutzte L2-Zwischenspeichereinheit 2676 enthält, können alternative Ausführungsformen einen einzigen internen Zwischenspeicher für sowohl Anweisungen als auch Daten aufweisen, wie zum Beispiel einen internen Level-1(L1)-Zwischenspeicher oder mehrere Levels von internem Zwischenspeicher. In manchen Ausführungsformen kann das System eine Kombination eines internen Zwischenspeicher und eines externen Zwischenspeicher enthalten, der extern zum Kern und/oder zum Prozessor ist. Alternativ kann der gesamte Zwischenspeicher extern zum Kern und/oder zum Prozessor sein.
  • Spezifische beispielhafte In-Order-Kernarchitektur
  • 27A-B veranschaulichen ein Blockdiagramm einer spezifischeren beispielhaften In-Order-Kernarchitektur, wobei der Kern einer von mehreren logischen Blöcken (die anderen Kerne des gleichen Typs und/oder anderer Typen enthalten) in einem Chip wäre. Die logischen Blöcke kommunizieren über ein Verbindungsnetzwerk hoher Bandbreite (z. B. ein Ringnetzwerk) mit einiger Logik mit festen Funktionen, Speicher-E/A-Schnittstellen und anderer notwendiger E/A-Logik, abhängig von der Anwendung.
  • 27A ist ein Blockdiagramm eines einzelnen Prozessorkerns, zusammen mit seiner Verbindung an das chipinterne Verbindungsnetz 2702 und mit seinem lokalen Teilsatz des Level-2(L2)-Zwischenspeichers 2704, nach Ausführungsformen der Erfindung. In einer Ausführungsform unterstützt ein Anweisungsdecoder 2700 den x86-Anweisungssatz mit einer Erweiterung für gepackte Datenanweisungssätze. Ein L1-Zwischenspeicher 2706 erlaubt Zugriffe mit niedriger Latenzzeit auf Zwischenspeicherspeicher in die Skalar- und Vektoreinheiten. Während in einer Ausführungsform (um das Design zu vereinfachen) eine Skalareinheit 2708 und eine Vektoreinheit 2710 separate Registersätze (Skalarregister 2712 bzw. Vektorregister 2714) verwenden und zwischen ihnen transferierte Daten in einen Speicher geschrieben und danach wieder aus einem Level-1(L1)-Zwischenspeicher 2706 gelesen werden, können alternative Ausführungsformen der Erfindung einen anderen Ansatz verwenden (z. B. einen einzigen Registersatz verwenden oder einen Kommunikationspfad enthalten, der erlaubt, dass Daten zwischen den zwei Registerdateien ohne Schreiben und Wiedereinlesen transferiert werden).
  • Der lokale Teilsatz des L2-Zwischenspeichers 2704 ist Teil eines globalen L2-Zwischenspeichers, der in separate lokale Teilsätze aufgeteilt ist, einen pro Prozessorkern. Jeder Prozessorkern weist einen direkten Zugriffspfad zu seinem eigenen lokalen Teilsatz des L2-Zwischenspeichers 2704 auf. Von einem Prozessorkern gelesene Daten werden in seinem L2-Zwischenspeicher-Teilsatz 2704 gespeichert und auf sie kann schnell zugegriffen werden, parallel zu anderen Prozessorkernen, die auf ihre eigenen lokalen L2-Zwischenspeicher-Teilsätze zugreifen. Von einem Prozessorkern geschriebene Daten werden in seinem eigenen L2-Zwischenspeicher-Teilsatz 2704 gespeichert und aus anderen Teilsätzen wenn nötig geleert. Das Ringnetzwerk stellt Kohärenz für gemeinsam genutzte Daten sicher. Das Ringnetzwerk ist bidirektional, um Agenten wie Prozessorkernen, L2-Zwischenspeichern und anderen Logikblöcken zu erlauben, miteinander innerhalb des Chips zu kommunizieren. Jeder Ring-Datenpfad ist in einigen Ausführungsformen pro Richtung 1024 Bit breit.
  • 27B ist eine erweiterte Ansicht eines Teils des Prozessorkerns in 27A nach Ausführungsformen der Erfindung. 27B enthält einen L1-Datenzwischenspeicher 2706A, einen Teil des L1-Zwischenspeichers 2704 sowie mehr Details in Bezug auf die Vektoreinheit 2710 und die Vektorregister 2714. Insbesondere ist die Vektoreinheit 2710 eine 28-breite Vektorverarbeitungseinheit (VPU) (siehe die 16-breite ALU 2728), die eine oder mehrere von folgenden Anweisungen ausführt: ganzzahlige, Gleitkommaanweisungen mit einfacher Genauigkeit und Gleitkommaanweisungen mit doppelter Genauigkeit. Die VPU unterstützt ein Swizzeln der Registereingänge mit Swizzleeinheit 2720, numerische Umwandlung mit numerischen Umwandlungseinheiten 2722A-B und Replizierung mit Replizierungseinheit 2724 am Speichereingang.
  • Prozessor mit integriertem Speichercontroller und integrierter Grafik
  • 28 ist ein Blockdiagramm eines Prozessors 2800, der nach Ausführungsformen der Erfindung mehr als einen Kern aufweisen kann, einen integrierten Speichercontroller aufweisen kann und integrierte Grafik aufweisen kann. Die durchgezogen umrandeten Kästchen in 28 illustrieren einen Prozessor 2800 mit einem einzigen Kern 2802A, einem Systemagenten 2810, einen Satz von einem oder mehreren Buscontrollereinheiten 2816, während die optionale Hinzufügung der gestrichelt umrandeten Kästchen einen alternativen Prozessor 2800 mit mehreren Kernen 2802A-N, einem Satz von einem oder mehreren integrierten Speichercontrollereinheiten 2814 in der Systemagenteneinheit 2810 und Logik für Sonderzwecke 2808 illustriert.
  • Deshalb können verschiedene Implementierungen des Prozessors 2800 enthalten: 1) eine CPU, wobei die Logik für Sonderzwecke 2808 integrierte Grafik- und/oder wissenschaftliche Logik (Durchsatzlogik) ist (die einen oder mehrere Kerne enthalten kann) und die Kerne 2802A-N ein oder mehrere Universalkerne sind (z. B. Universal-In-Order-Kerne, Universal-Out-of-Order-Kerne, eine Kombination der zwei); 2) einen Coprozessor, wobei die Kerne 2802A-N eine große Anzahl von Kernen für Sonderzwecke sind, die primär für Grafik und/oder Wissenschaft (Durchsatz) gedacht sind; und 3) einen Coprozessor, wobei die Kerne 2802A-N eine große Anzahl von Universal-In-Order-Kernen sind. Deshalb kann der Prozessor 2800 ein Universal-Prozessor, Coprozessor oder Prozessor für Sonderzwecke sein, wie zum Beispiel ein Netzwerk- oder Kommunikationsprozessor, eine Komprimierungsengine, ein Grafikprozessor, eine Grafikverarbeitungseinheit für allgemeine Rechenzwecke (GPGPU), ein Many-Integrated-Core(MIC)-Coprozessor mit hohem Durchsatz (der 30 oder mehr Kerne enthält), ein eingebetteter Prozessor oder Ähnliches. Der Prozessor kann auf einem oder mehreren Chips implementiert sein. Der Prozessor 2800 kann ein Teil eines oder mehrerer Substrate sein und/oder kann auf einem oder mehreren Substraten unter Verwendung einer Anzahl von Prozesstechniken wie zum Beispiel BiCMOS, CMOS oder NMOS implementiert sein.
  • Die Speicherhierarchie enthält einen oder mehrere Level von Zwischenspeichern innerhalb der Kerne 2804A-N, einen Satz von einer oder mehreren gemeinsam genutzten Zwischenspeichereinheiten 2806 und externen Speicher (nicht gezeigt), die an den Satz der integrierten Speichercontrollereinheiten 2814 gekoppelt sind. Der Satz der gemeinsam genutzten Zwischenspeichereinheiten 2806 kann einen oder mehrere Zwischenspeicher mittlerer Levels enthalten, wie Level 2 (L2), Level 3 (L3), Level 4 (L4) oder andere Zwischenspeicherlevel, einen Last-Level-Zwischenspeicher (LLC) und/oder Kombinationen davon. Während in einer Ausführungsform eine ringbasierte Verbindungseinheit 2812 die integrierte Grafiklogik 2808, den Satz der gemeinsam genutzten Zwischenspeichereinheiten 2806 und die Systemagenteneinheit 2810/den bzw. die integrierten Speichercontrollereinheit(en) 2814 verbindet, können alternative Ausführungsformen eine beliebige Anzahl von gut bekannten Techniken zum Verbinden solcher Einheiten verwenden. In einer Ausführungsform wird Kohärenz zwischen einem oder mehreren Zwischenspeichereinheiten 2806 und den Kernen 2802-A-N beibehalten.
  • In manchen Ausführungsformen sind einer oder mehrere der Kerne 2802A-N multithreadingfähig. Der Systemagent 2810 enthält diese Komponenten, die die Kerne 2802A-N koordinieren und betreiben. Die Systemagenteneinheit 2810 kann zum Beispiel eine Energiesteuereinheit (PCU) und eine Anzeigeeinheit enthalten. Die PCU kann Logik und Komponenten enthalten, die zur Regulierung des Energiezustands der Kerne 2802A-N und der integrierten Grafiklogik 2808 benötigt werden. Die Anzeigeeinheit ist zum Ansteuern einer oder mehrerer extern angeschlossener Anzeigen.
  • Die Kerne 2802A-N können in Bezug auf einen Architekturanweisungssatz homogen oder heterogen sein; das heißt, zwei oder mehr der Kerne 2802A-N können fähig sein, den gleichen Anweisungssatz auszuführen, während andere fähig sein können, nur einen Teilsatz dieses Anweisungssatzes oder einen anderen Anweisungssatz auszuführen.
  • Beispielhafte Computerarchitekturen
  • 29-32 sind Blockdiagramme von beispielhaften Computerarchitekturen. Andere Systemdesigns und -konfigurationen, die in der Technik für Laptops, Desktops, tragbare PCs, Organizer, Entwicklungs-Workstations, Server, Netzwerkeinrichtungen, Netzwerkhubs, Switches, eingebettete Prozessoren, digitale Signalprozessoren (DSPs), Grafikeinrichtungen, Videospieleinrichtungen, Set-Top-Boxen, Mikrocontroller, Mobiltelefone, tragbare Mediaplayer, tragbare Geräte und verschiedene andere Elektronikgeräte bekannt sind, sind ebenfalls geeignet. Im Allgemeinen ist eine enorm große Vielfalt von Systemen oder Elektronikeinrichtungen geeignet, die einen Prozessor und/oder eine andere Ausführungslogik, wie hierin offenbart, einbinden können.
  • Nunmehr auf 29 Bezug nehmend, wird ein Blockdiagramm eines Systems 2900 gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das System 2900 kann einen oder mehrere Prozessoren 2910, 2915 enthalten, die an einen Controllerhub 2920 gekoppelt sind. In einer Ausführungsform enthält der Controllerhub 2920 einen Grafikspeicher-Controllerhub (GMCH) 2990 und einen Eingabe-/Ausgabe-Hub (IOH) 2950 (die auf separaten Chips sein können); der GMCH 2990 enthält Speicher- und Grafikcontroller, an die Speicher 2940 und ein Coprozessor 2945 gekoppelt sind; der IOH 2950 koppelt Eingabe-/Ausgabe(E/A)-Einrichtungen 2960 an den GMCH 2990. Alternativ ist bzw. sind einer der Speicher- und Grafikcontroller oder beide im Prozessor integriert (wie hierin beschrieben), der Speicher 2940 und der Coprozessor 2945 sind direkt an den Prozessor 2910 gekoppelt, und der Controllerhub 2920 in einem einzigen Chip mit dem IOH 2950.
  • Der optionale Charakter der zusätzlichen Prozessoren 2915 wird in 29 durch unterbrochene Linien angezeigt. Jeder Prozessor 2910, 2915 kann einen oder mehrere der hierin beschriebenen Verarbeitungskerne enthalten und kann eine Version des Prozessors 2800 sein.
  • Der Speicher 2940 kann zum Beispiel Dynamic Random Access Memory (DRAM), Phase-Change-Memory (PCM) oder eine Kombination der zwei sein. Für mindestens eine Ausführungsform kommuniziert der Controllerhub 2920 mit dem Prozessor bzw. den Prozessoren 2910, 2915 über einen Mehrpunktbus wie einem Frontside-Bus (FSB), einer Punkt-zu-Punkt-Schnittstelle oder einer ähnlichen Verbindung 2995.
  • In einer Ausführungsform ist der Coprozessor 2945 ein Prozessor für Sonderzwecke, wie zum Beispiel ein MIC-Prozessor mit hohem Durchsatz, ein Netzwerk- oder Kommunikationsprozessor, eine Komprimierungsengine, ein Grafikprozessor, eine GPGPU, ein eingebetteter Prozessor oder Ähnliches. In einer Ausführungsform kann der Controllerhub 2920 einen integrierten Grafikbeschleuniger enthalten.
  • Es kann eine Vielfalt von Unterschieden zwischen den physischen Ressourcen 2910, 29155 in Bezug auf ein Spektrum von Leistungsmetriken geben, einschließlich architektonisch, mikroarchitektonisch, thermal, Energieverbrauchsmerkmalen und Ähnlichem.
  • In einer Ausführungsform führt der Prozessor 2910 Anweisungen aus, die Datenverarbeitungsoperationen eines allgemeinen Typs steuern. In den Anweisungen können Coprozessoranweisungen eingebettet sein. Der Prozessor 2910 erkennt, dass diese Coprozessoranweisungen von einem Typ sind, die vom angebundenen Coprozessor 2945 ausgeführt werden sollen. Dementsprechend gibt der Prozessor 2910 diese Coprozessoranweisungen (oder Steuersignale, die die Coprozessoranweisungen repräsentieren) auf einem Coprozessorbus oder einer anderen Verbindung an den Coprozessor 2945 aus. Der bzw. die Coprozessor(en) 2945 nimmt bzw. nehmen die empfangenen Coprozessoranweisungen an und führt bzw. führen diese aus.
  • Nunmehr auf 30 Bezug nehmend, wird ein Blockdiagramm eines ersten spezifischeren beispielhaften Systems 3000 in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung zeigt. Wie in 30 gezeigt, ist das Multiprozessorsystem 3000 ein Punkt-zu-Punkt-Verbindungssystem und enthält einen ersten Prozessor 3070 und einen zweiten Prozessor 3080, die über eine Punkt-zu-Punkt-Verbindung 3050 gekoppelt sind. Jeder der Prozessoren 3070 und 3080 kann eine Version des Prozessors 2800 sein. In einer Ausführungsform der Erfindung sind die Prozessoren 3070 und 3080 die Prozessoren 2910 bzw. 2915, während der Coprozessor 3038 der Coprozessor 2945 ist. In einer anderen Ausführungsform sind die Prozessoren 3070 und 3080 der Prozessor 2910 bzw. der Coprozessor 2945.
  • Die Prozessoren 3070 und 3080 sind integrierte Speichercontrollereinheiten (IMC) 3072 bzw. 3082 enthaltend gezeigt. Der Prozessor 3070 enthält auch als Teil seiner Buscontrollereinheiten Punkt-zu-Punkt(P-P)-Schnittstellen 3076 und 3078; gleichermaßen enthält der zweite Prozessor 3080 P-P-Schnittstellen 3086 und 3088. Die Prozessoren 3070, 3080 können Informationen über eine Punkt-zu-Punkt(P-P)-Schnittstelle 3050 unter Verwendung der P-P-Schnittstellenschaltkreise 3078, 3088 austauschen. Wie in 30 gezeigt, koppeln die IMCs 3072 und 3082 die Prozessoren an jeweilige Arbeitsspeicher, nämlich einen Arbeitsspeicher 3032 und einen Arbeitsspeicher 3034, die Teile eines Hauptarbeitsspeicher sein können, die lokal an die jeweiligen Prozessoren angebunden sind.
  • Die Prozessoren 3070, 3080 können jeweils Informationen mit einem Chipsatz 3090 über individuelle P-P-Schnittstellen 3052, 3054 unter Verwendung von Punkt-zu-Punkt-Schnittstellenschaltkreisen 3076, 3094, 3086, 3098 austauschen. Der Chipsatz 3090 kann optional Informationen mit dem Coprozessor 3038 über eine Hochleistungsschnittstelle 3092 austauschen. In einer Ausführungsform ist der Coprozessor 3038 ein Prozessor für Sonderzwecke, wie zum Beispiel ein MIC-Prozessor mit hohem Durchsatz, ein Netzwerk- oder Kommunikationsprozessor, eine Komprimierungsengine, ein Grafikprozessor, eine GPGPU, ein eingebetteter Prozessor oder Ähnliches.
  • Ein gemeinsam genutzter Zwischenspeicher (nicht gezeigt) kann in einem der beiden Prozessoren oder außerhalb beider Prozessoren enthalten sein, jedoch mit den Prozessoren über eine P-P-Verbindung verbunden sein, sodass die lokalen Zwischenspeicher-Informationen von einem der beiden oder beiden Prozessoren im gemeinsam genutzten Zwischenspeicher gespeichert werden kann, wenn ein Prozessor in einen Niedrigenergiemodus versetzt wird.
  • Der Chipsatz 3090 kann über eine Schnittstelle 3096 an einen ersten Bus 3016 gekoppelt sein. In einer Ausführungsform ist der erste Bus 3016 ein Peripheral-Component-Interconnect(PCI)-Bus oder ein Bus wie ein PCI-Express-Bus oder ein anderer E/A-Verbindungsbus sein, obwohl der Umfang der vorliegenden Erfindung dadurch nicht eingeschränkt ist.
  • Wie in 30 gezeigt, können verschiedene E/A-Einrichtungen 3014 zusammen mit einer Busbrücke 3018, die den ersten Bus 3016 an einen zweiten Bus 3020 koppelt, an den ersten Bus 3016 gekoppelt sein. In einer Ausführungsform sind ein oder mehrere zusätzliche Prozessoren 3015 wie Coprozessoren, Hochdurchsatz-MIC-Prozessoren, GPGPUs, Beschleuniger (wie z. B. Grafikbeschleuniger oder digitale Signalverarbeitungseinheiten (DSP)), Field Programmable Gate Arrays oder beliebige andere Prozessoren an den ersten Bus 3016 gekoppelt. In einer Ausführungsform kann der zweite Bus 3020 ein Low-Pin-Count(LPC)-Bus sein. Verschiedene Einrichtungen können an einen zweiten Bus 3020 gekoppelt sein, die zum Beispiel eine Tastatur und/oder Maus 3022, Kommunikationseinrichtungen 3027 und eine Datenspeichereinheit 3028, wie ein Plattenlaufwerk oder eine andere Massenspeichereinrichtung enthält, das in einer Ausführungsform Anweisungen/Code und Daten 3030 enthalten kann. Ferner kann ein Audio-E/A 3024 an den zweiten Bus 3016 gekoppelt sein. Es ist zu beachten, dass andere Architekturen möglich sind. Zum Beispiel kann ein System statt der Punkt-zu-Punkt-Architektur von 30 einen Mehrpunktbus oder eine andere solche Architektur implementieren.
  • Nunmehr auf 31 Bezug nehmend, wird ein Blockdiagramm eines zweiten spezifischeren beispielhaften Systems 3100 in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung zeigt. Gleiche Elemente in den 30 und 31 tragen gleiche Referenzziffern, und bestimmte Aspekte von 30 wurden von 31 weggelassen, um ein Verdecken anderer Aspekte von 31 zu vermeiden.
  • 31 veranschaulicht, dass die Prozessoren 3070, 3080 eine integrierte Speicher- und E/A-Steuerlogik („CL“) 3172 bzw. 3182 enthalten können. Deshalb enthalten die CL 3172, 3182 integrierte Speichercontrollereinheiten und enthalten E/A-Steuerlogik. 31 illustriert, dass nicht nur die Speicher 3032, 3034 an die CL 3172, 3182 gekoppelt sind, sondern auch, dass E/A-Einrichtungen 3114 ebenfalls an die Steuerlogik 3072, 3082 gekoppelt sind. Alt-E/A-Einrichtungen 3115 sind an den Chipsatz 3090 gekoppelt.
  • Nunmehr auf 32 Bezug nehmend, wird ein Blockdiagramm eines SoC 3200 in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung gezeigt. Ähnliche Elemente in 28 tragen gleiche Referenzziffern. Gestrichelt umrandete Kästchen sind außerdem optionale Merkmale an hochentwickelteren SoCs. In 32 ist eine Verbindungseinheit bzw. sind Verbindungseinheiten 3202 gekoppelt an: einen Anwendungsprozessor 3210, der einen Satz von einem oder mehreren Kernen 322A-N, die Zwischenspeichereinheiten 2804A-N enthalten, und (eine) gemeinsam genutzte Zwischenspeichereinheit(en) 2806 enthält; eine Systemagenteneinheit 2810; (eine) Buscontrollereinheit(en) 2816; (eine) integrierte Speichercontrollereinheit(en) 2814; einen Satz von einem oder mehreren Coprozessoren 3220, die integrierte Grafiklogik, einen Grafikprozessor, einen Audioprozessor und einen Videoprozessor enthalten können; eine statische Arbeitsspeichereinheit mit wahlfreiem Zugriff (SRAM-Einheit) 3230; eine direkte Speicherzugriffs(DMA)-Einheit 3232; und eine Anzeigeeinheit 3240 zum Koppeln an eine oder mehrere externe Anzeigen. In einer Ausführungsform enthält bzw. enthalten der bzw. die Coprozessor(en) 3220 einen Prozessor für Sonderzwecke, wie zum Beispiel einen Netzwerk- oder Kommunikationsprozessor, eine Komprimierungsengine, eine GPGPU, einen Hochdurchsatz-MIC-Prozessor, einen eingebetteten Prozessor oder Ähnliches.
  • Hierin offenbarte Ausführungsformen der Mechanismen können in Hardware, Software, Firmware oder einer Kombination solcher Implementierungsansätze implementiert werden. Ausführungsformen der Erfindung können als Computerprogramme oder Programmcode implementiert werden, die auf programmierbaren Systemen ausgeführt werden, die mindestens einen Prozess, ein Speichersystem (das flüchtigen und nichtflüchtigen Speicher und/oder Speicherelemente enthält), mindestens eine Eingabeeinrichtung und mindestens eine Ausgabeeinrichtung umfassen.
  • Programmcode, wie der in 30 veranschaulichte Code 3030 kann auf Eingabeanweisungen angewandt werden, um die hierin beschriebenen Funktionen durchzuführen und Ausgabeinformationen zu generieren. Die Ausgabeinformationen können auf eine oder mehrere Ausgabeeinrichtungen angewandt werden, auf bekannte Weise. Für Zwecke dieser Anmeldung enthält ein Verarbeitungssystem ein beliebiges System, das einen Prozessor aufweist, wie zum Beispiel: einen digitalen Signalprozessor (DSP), einen Mikrocontroller, eine anwendungsspezifische integrierte Schaltung (ASIC) oder einen Mikroprozessor.
  • Der Programmcode kann in einer höheren verfahrens- oder objektorientierten Programmiersprache implementiert werden, um mit einem Verarbeitungssystem zu kommunizieren. Der Programmcode kann auch in Assembler- oder Maschinensprache implementiert werden, wenn gewünscht. Tatsächlich sind die hierin beschriebenen Mechanismen im Umfang nicht auf eine beliebige bestimmte Programmiersprache beschränkt. Auf jeden Fall kann die Sprache eine compilierte oder interpretierte Sprache sein.
  • Ein oder mehrere Aspekte mindestens einer Ausführungsform können durch repräsentative Anweisungen implementiert werden, die auf einem maschinenlesbaren Medium gespeichert sind, das verschiedene Logik innerhalb des Prozessors repräsentiert, die, wenn sie von einer Maschine gelesen wird, bewirkt, dass die Maschine Logik erzeugt, um die hierin beschriebenen Techniken durchzuführen. Solche Repräsentationen, als „IP-Kerne“ bekannt, können auf einem greifbaren, maschinenlesbaren Medium gespeichert und an verschiedene Kunden oder Fertigungsanlagen geliefert werden, um in die Fertigungsmaschinen geladen zu werden, die die Logik oder den Prozessor tatsächlich herstellen.
  • Derartige maschinenlesbaren Speichermedien können nicht-transitorische, greifbare Anordnungen von einer Maschine oder Einrichtung gefertigte oder gebildete Artikel enthalten, die Speichermedien wie Festplatten, irgendeinen anderen Typ von Platte einschließlich Disketten, optische Platten, Compact Disc Read-Only Memories (CD-ROMs), wiederbeschreibbare Compact Discs (CD-RWs) und magneto-optische Platten, Halbleiterbauelemente wie schreibgeschützte Arbeitsspeicher (ROMs), Arbeitsspeicher mit wahlfreiem Zugriff (RAMs) wie dynamische Arbeitsspeicher mit wahlfreiem Zugriff (DRAMs), statische Arbeitsspeicher mit wahlfreiem Zugriff (SRAMs), löschbare programmierbare schreibgeschützte Arbeitsspeicher (EPROMs), Flashspeicher, elektrisch löschbare programmierbare schreibgeschützte Arbeitsspeicher (EEPROMs), Phasenwechselspeicher (PCM), magnetische oder optische Karten oder irgendeinen anderen, zur Speicherung von elektronischen Anweisungen geeigneten Medientyp enthalten, sind jedoch nicht darauf beschränkt.
  • Dementsprechend enthalten Ausführungsformen der Erfindung auch nicht-transitorische, greifbare maschinenlesbare Medien, die Anweisungen enthalten oder die Designdaten enthalten, wie Hardwarebeschreibungssprache (HDL), die hierin beschriebene Strukturen, Schaltkreise, Vorrichtungen, Prozessoren und/oder Systemmerkmale definiert. Solche Ausführungsformen können auch als Programmprodukte bezeichnet werden.
  • Emulation (einschließlich binärer Übersetzung, Code-Morphing usw.)
  • In einigen Fällen kann ein Anweisungswandler verwendet werden, um eine Anweisung von einem Quellanweisungssatz in einen Zielanweisungssatz umzuwandeln. Zum Beispiel kann der Anweisungswandler eine Anweisung in eine oder mehrere andere, vom Kern zu verarbeitende Anweisungen übersetzen (z. B. unter Verwendung von statischer binärer Übersetzung, dynamischer binärer Übersetzung einschließlich dynamischem Compilieren), verwandeln, emulieren oder anderweitig umwandeln. Der Anweisungswandler kann in Software, Hardware, Firmware oder einer Kombination davon implementiert werden. Der Anweisungswandler kann sich auf dem Prozessor, nicht auf dem Prozessor, oder teilweise auf und teilweise nicht auf dem Prozessor befinden.
  • 33 ein Blockdiagramm ist, das die Verwendung eines Softwareanweisungswandlers gegenüberstellt, um binäre Anweisungen in einem Quellanweisungssatz in binäre Anweisungen in einem Zielanweisungssatz nach Ausführungsformen der Erfindung umzuwandeln. In der veranschaulichten Ausführungsform ist der Anweisungswandler ein Softwareanweisungswandler, obwohl alternativ der Anweisungswandler in Software, Firmware, Hardware oder verschiedenen Kombinationen davon implementiert werden kann. 33 zeigt, dass ein Programm in einer höheren Sprache 3302 unter Verwendung eines ersten Compilers 3304 compiliert werden kann, um ersten Binärcode (z. B. x86) 3306 zu generieren, der nativ von einem Prozessor mit mindestens einem ersten Anweisungssatzkern 3316 ausgeführt werden kann. In einigen Ausführungsformen repräsentiert der Prozessor mit mindestens einem ersten Anweisungssatzkern 3316 repräsentiert einen beliebigen Prozessor, der im Wesentlichen die gleichen Funktionen wie ein Intel-Prozessor mit mindestens einem x86-Anweisungssatzkern durchführen kann, indem er Folgendes kompatibel ausführt oder anderweitig verarbeitet: (1) einen wesentlichen Teil des Anweisungssatzes des Intel-x86-Anweisungssatzkerns oder (2) Objektcodeversionen von Anwendungen oder anderer Software, die auf einem Intel-Prozessor mit mindestens einem x86-Anweisungssatzkern laufen sollen, um im Wesentlichen das gleiche Ergebnis wie ein Intel-Prozessor mit mindestens einem x86-Anweisungssatzkern zu erreichen. Der erste Compiler 3304 repräsentiert einen Compiler, der betrieben werden kann, um Binärcode des ersten Anweisungssatzes 3306 (z. B. Objektcode) zu generieren, der ohne oder mit zusätzlicher Verlinkungsverarbeitung auf dem Prozessor mit mindestens einem ersten Anweisungssatzkern 3316 ausgeführt werden kann. Gleichermaßen zeigt 33, dass das Programm in der höheren Sprache 3302 unter Verwendung eines Compilers für einen alternativen Anweisungssatz 3308 compiliert werden kann, um Binärcode eines alternativen Anweisungssatzes 3310 zu generieren, der nativ von einem Prozessor ohne mindestens einen ersten Anweisungssatzkern 3314 ausgeführt werden kann (z. B. einem Prozessor mit Kernen, die den MIPS-Anweisungssatz von MIPS Technologies in Sunnyvale, CA und/oder die den ARM-Anweisungssatz von ARM Holdings in Sunnyvale, CA ausführen). Der Anweisungswandler 3312 wird verwendet, um den ersten Binärcode 3306 in Code umzuwandeln, der nativ vom Prozessor ohne einen ersten Anweisungssatzkern 3314 ausgeführt werden kann. Es ist unwahrscheinlich, dass dieser umgewandelte Code der gleiche wie der Binärcode eines alternativen Anweisungssatzes 3310 ist, da ein Anweisungswandler, der dazu fähig ist, schwer herzustellen ist; dennoch wird der umgewandelte Code die allgemeine Operation erzielen und aus Anweisungen aus dem alternativen Anweisungssatz bestehen. Deshalb repräsentiert der Anweisungswandler 3312 Software, Firmware, Hardware oder eine Kombination davon, die durch Emulation, Simulation oder einen beliebigen anderen Prozess einem Prozessor oder einer anderen Elektronikeinrichtung erlaubt, der bzw. die keinen ersten Anweisungssatzprozessor oder -Kern aufweist, den ersten Binärcode 3306 auszuführen.

Claims (20)

  1. Vorrichtung, umfassend: Decodierverschaltung, um eine Anweisung mit einem Opcode und einer Arbeitsspeicherposition zu decodieren; Ausführungsverschaltung, um die decodierte Anweisung auszuführen, um Konfigurationsinformationen über die Nutzung von Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  2. Vorrichtung nach Anspruch 1, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  3. Vorrichtung nach Anspruch 1, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  4. Vorrichtung nach einem der Ansprüche 1-3, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  5. Vorrichtung nach einem der Ansprüche 1-4, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  6. Vorrichtung nach Anspruch 5, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
  7. Vorrichtung nach einem der Ansprüche 1-6, wobei die Beschreibungsdaten von mindestens einem Register der Vorrichtung abgerufen werden.
  8. Verfahren, umfassend: Decodieren einer Anweisung mit einem Opcode und einer Arbeitsspeicherposition; Ausführen der decodierten Anweisung, um Konfigurationsinformationen über die Nutzung des Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  9. Verfahren nach Anspruch 8, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  10. Verfahren nach Anspruch 8, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  11. Verfahren nach einem der Ansprüche 8-10, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  12. Verfahren nach einem der Ansprüche 8-11, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  13. Verfahren nach Anspruch 12, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
  14. Verfahren nach einem der Ansprüche 8-13, wobei die Beschreibungsdaten von mindestens einem Register der Vorrichtung abgerufen werden.
  15. Nichtflüchtiges maschinenlesbares Medium, das eine Instanz einer Anweisung speichert, wobei ein Prozessor bei Begegnung der Instanz der Anweisung ein Verfahren durchzuführen hat, umfassend: Decodieren der Anweisung mit einem Opcode und einer Arbeitsspeicherposition; Ausführen der decodierten Anweisung, um Konfigurationsinformationen über die Nutzung des Speicher für zweidimensionale Datenstrukturen abzurufen und die abgerufenen Konfigurationsinformationen als Beschreibungsdaten an der Arbeitsspeicherposition zu speichern.
  16. Nichtflüchtiges maschinenlesbares Medium nach Anspruch 15, wobei der Speicher eine Vielzahl von gepackten Datenregistern ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern überlagert werden.
  17. Nichtflüchtiges maschinenlesbares Medium nach Anspruch 15, wobei der Speicher eine Vielzahl von gepackten Datenregistern und Arbeitsspeicher ist und die zweidimensionalen Datenstrukturen der Vielzahl von gepackten Datenregistern und dem Arbeitsspeicher überlagert werden.
  18. Nichtflüchtiges maschinenlesbares Medium nach einem der Ansprüche 15-17, wobei die Arbeitsspeicherposition in einem Skala-Index-Basis-Format gespeichert wird.
  19. Nichtflüchtiges maschinenlesbares Medium nach einem der Ansprüche 15-18, wobei die Beschreibungsdaten umfassen: 1) einen Index in eine Tabelle, die eine Anzahl von Bytes in einer zweidimensionalen Datenstruktur und Bytes pro Zeile der zweidimensionalen Datenstruktur zu speichern hat; 2) Neustartinformationen, die in Operationen mit zweidimensionalen Datenstrukturen verwendet werden; und 3) Hinweise auf eine Anzahl von Zeilen und Spalten pro zweidimensionaler Datenstruktur.
  20. Nichtflüchtiges maschinenlesbares Medium nach Anspruch 19, wobei die Beschreibungsdaten ferner einen Hinweis auf Paare von zweidimensionalen Datenstrukturen zu umfassen haben.
DE102018128626.0A 2017-12-29 2018-11-15 Systeme, Verfahren und Vorrichtungen für Matrixoperationen Pending DE102018128626A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/859,268 2017-12-29
US15/859,268 US11816483B2 (en) 2017-12-29 2017-12-29 Systems, methods, and apparatuses for matrix operations

Publications (1)

Publication Number Publication Date
DE102018128626A1 true DE102018128626A1 (de) 2019-07-04

Family

ID=65231616

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018128626.0A Pending DE102018128626A1 (de) 2017-12-29 2018-11-15 Systeme, Verfahren und Vorrichtungen für Matrixoperationen

Country Status (3)

Country Link
US (2) US11816483B2 (de)
CN (1) CN109992243A (de)
DE (1) DE102018128626A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080048B2 (en) * 2017-03-20 2021-08-03 Intel Corporation Systems, methods, and apparatus for tile configuration
US11429555B2 (en) 2019-02-26 2022-08-30 Apple Inc. Coprocessors with bypass optimization, variable grid architecture, and fused vector operations
CN111242293B (zh) * 2020-01-13 2023-07-18 腾讯科技(深圳)有限公司 一种处理部件、数据处理的方法以及电子设备
US20230305852A1 (en) * 2020-07-24 2023-09-28 SiFive, Inc. Register renaming for power conservation

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4967388A (en) 1988-04-21 1990-10-30 Harris Semiconductor Patents Inc. Truncated product partial canonical signed digit multiplier
US5247632A (en) 1989-01-23 1993-09-21 Eastman Kodak Company Virtual memory management arrangement for addressing multi-dimensional arrays in a digital data processing system
US5475631A (en) 1989-03-09 1995-12-12 Micron Technology, Inc. Multiport RAM based multiprocessor
US5475822A (en) 1993-11-15 1995-12-12 Motorola, Inc. Data processing system for resuming instruction execution after an interrupt and method therefor
US7301541B2 (en) * 1995-08-16 2007-11-27 Microunity Systems Engineering, Inc. Programmable processor and method with wide operations
US5892962A (en) * 1996-11-12 1999-04-06 Lucent Technologies Inc. FPGA-based processor
US6161219A (en) 1997-07-03 2000-12-12 The University Of Iowa Research Foundation System and method for providing checkpointing with precompile directives and supporting software to produce checkpoints, independent of environment constraints
US6282634B1 (en) 1998-05-27 2001-08-28 Arm Limited Apparatus and method for processing data having a mixed vector/scalar register file
FR2787233B1 (fr) 1998-12-11 2001-02-16 St Microelectronics Sa Procede pour verifier l'integrite des circuits de decodage d'une memoire
US6901422B1 (en) 2001-03-21 2005-05-31 Apple Computer, Inc. Matrix multiplication in a vector processing system
US6898691B2 (en) 2001-06-06 2005-05-24 Intrinsity, Inc. Rearranging data between vector and matrix forms in a SIMD matrix processor
US7725521B2 (en) 2001-10-29 2010-05-25 Intel Corporation Method and apparatus for computing matrix transformations
US6877020B1 (en) 2001-12-31 2005-04-05 Apple Computer, Inc. Method and apparatus for matrix transposition
US7003542B2 (en) 2002-01-02 2006-02-21 Intel Corporation Apparatus and method for inverting a 4×4 matrix
US7209939B2 (en) 2002-07-11 2007-04-24 Sun Microsystems, Inc. Precision improvement method for the Strassen/Winograd matrix multiplication method
US6944747B2 (en) 2002-12-09 2005-09-13 Gemtech Systems, Llc Apparatus and method for matrix data processing
US7315932B2 (en) 2003-09-08 2008-01-01 Moyer William C Data processing system having instruction specifiers for SIMD register operands and method thereof
US7873812B1 (en) 2004-04-05 2011-01-18 Tibet MIMAR Method and system for efficient matrix multiplication in a SIMD processor architecture
US20060190517A1 (en) 2005-02-02 2006-08-24 Guerrero Miguel A Techniques for transposition of a matrix arranged in a memory as multiple items per word
US20060184837A1 (en) 2005-02-11 2006-08-17 International Business Machines Corporation Method, apparatus, and computer program product in a processor for balancing hardware trace collection among different hardware trace facilities
US20070186210A1 (en) 2006-02-06 2007-08-09 Via Technologies, Inc. Instruction set encoding in a dual-mode computer processing environment
US7912889B1 (en) 2006-06-16 2011-03-22 Nvidia Corporation Mapping the threads of a CTA to the elements of a tile for efficient matrix multiplication
US7792895B1 (en) 2006-06-16 2010-09-07 Nvidia Corporation Efficient matrix multiplication on a parallel processing device
US20080071851A1 (en) 2006-09-20 2008-03-20 Ronen Zohar Instruction and logic for performing a dot-product operation
US8122078B2 (en) 2006-10-06 2012-02-21 Calos Fund, LLC Processor with enhanced combined-arithmetic capability
US7844352B2 (en) 2006-10-20 2010-11-30 Lehigh University Iterative matrix processor based implementation of real-time model predictive control
US7797362B2 (en) 2007-02-23 2010-09-14 Texas Instruments Incorporated Parallel architecture for matrix transposition
US8392487B1 (en) 2007-03-29 2013-03-05 Compass Electro-Optical Systems Ltd Programmable matrix processor
ATE467970T1 (de) 2007-08-09 2010-05-15 Sap Ag Eingabe- und ausgabe-validierung zum schutze von datenbank-servern
US8028015B2 (en) 2007-08-10 2011-09-27 Inside Contactless S.A. Method and system for large number multiplication
US8923510B2 (en) 2007-12-28 2014-12-30 Intel Corporation Method and apparatus for efficiently implementing the advanced encryption standard
US8612723B2 (en) 2008-05-06 2013-12-17 L-3 Communications Integrated Systems, L.P. System and method for storing a sparse matrix
US8533251B2 (en) 2008-05-23 2013-09-10 International Business Machines Corporation Optimized corner turns for local storage and bandwidth reduction
US8060730B2 (en) 2008-05-30 2011-11-15 Freescale Semiconductor, Inc. Selective MISR data accumulation during exception processing
US8250130B2 (en) 2008-05-30 2012-08-21 International Business Machines Corporation Reducing bandwidth requirements for matrix multiplication
US20100180100A1 (en) 2009-01-13 2010-07-15 Mavrix Technology, Inc. Matrix microprocessor and method of operation
US8417758B1 (en) 2009-09-01 2013-04-09 Xilinx, Inc. Left and right matrix multiplication using a systolic array
US8539201B2 (en) 2009-11-04 2013-09-17 International Business Machines Corporation Transposing array data on SIMD multi-core processor architectures
US8984043B2 (en) 2009-12-23 2015-03-17 Intel Corporation Multiplying and adding matrices
US8478969B2 (en) 2010-09-24 2013-07-02 Intel Corporation Performing a multiply-multiply-accumulate instruction
US20120113133A1 (en) 2010-11-04 2012-05-10 Shpigelblat Shai System, device, and method for multiplying multi-dimensional data arrays
US9727471B2 (en) 2010-11-29 2017-08-08 Intel Corporation Method and apparatus for stream buffer management instructions
US8924455B1 (en) 2011-02-25 2014-12-30 Xilinx, Inc. Multiplication of matrices using systolic arrays
CN106406817B (zh) 2011-04-01 2019-06-14 英特尔公司 向量友好指令格式及其执行
US20120254588A1 (en) 2011-04-01 2012-10-04 Jesus Corbal San Adrian Systems, apparatuses, and methods for blending two source operands into a single destination using a writemask
US20120314775A1 (en) 2011-06-08 2012-12-13 Vixs Systems, Inc. Video decoder with transposing vector processor and methods for use therewith
CN104040482B (zh) 2011-12-28 2018-02-16 英特尔公司 用于在打包数据元素上执行增量解码的系统、装置和方法
WO2014001605A1 (en) 2012-06-28 2014-01-03 Ant-Advanced Network Technologies Oy Processing and error concealment of digital signals
US20140149480A1 (en) 2012-11-28 2014-05-29 Nvidia Corporation System, method, and computer program product for transposing a matrix
US9442723B2 (en) 2012-12-28 2016-09-13 Intel Corporation Method and apparatus for integral image computation instructions
US9286216B2 (en) 2014-01-16 2016-03-15 Carnegie Mellon University 3DIC memory chips including computational logic-in-memory for performing accelerated data processing
JP6270993B2 (ja) 2014-05-01 2018-01-31 日本電信電話株式会社 符号化装置、及びその方法、プログラム、記録媒体
US9891886B2 (en) 2014-07-02 2018-02-13 Via Alliance Semiconductor Co., Ltd Split-path heuristic for performing a fused FMA operation
US20160179523A1 (en) 2014-12-23 2016-06-23 Intel Corporation Apparatus and method for vector broadcast and xorand logical instruction
US10496680B2 (en) 2015-08-17 2019-12-03 Mellanox Technologies Tlv Ltd. High-performance bloom filter array
US10535114B2 (en) 2015-08-18 2020-01-14 Nvidia Corporation Controlling multi-pass rendering sequences in a cache tiling architecture
CN107315715B (zh) * 2016-04-26 2020-11-03 中科寒武纪科技股份有限公司 一种用于执行矩阵加/减运算的装置和方法
US20180074824A1 (en) 2016-09-13 2018-03-15 Apple Inc. Outer Product Engine
US10146535B2 (en) 2016-10-20 2018-12-04 Intel Corporatoin Systems, apparatuses, and methods for chained fused multiply add
DK3812900T3 (da) 2016-12-31 2024-02-12 Intel Corp Systemer, fremgangsmåder og apparater til heterogen beregning
US11080048B2 (en) * 2017-03-20 2021-08-03 Intel Corporation Systems, methods, and apparatus for tile configuration
US11010338B2 (en) * 2017-04-06 2021-05-18 Shanghai Cambricon Information Technology Co., Ltd Data screening device and method
US11669326B2 (en) * 2017-12-29 2023-06-06 Intel Corporation Systems, methods, and apparatuses for dot product operations
US11023235B2 (en) * 2017-12-29 2021-06-01 Intel Corporation Systems and methods to zero a tile register pair
US11093247B2 (en) * 2017-12-29 2021-08-17 Intel Corporation Systems and methods to load a tile register pair
US10664287B2 (en) * 2018-03-30 2020-05-26 Intel Corporation Systems and methods for implementing chained tile operations
US11579883B2 (en) * 2018-09-14 2023-02-14 Intel Corporation Systems and methods for performing horizontal tile operations
US10970076B2 (en) * 2018-09-14 2021-04-06 Intel Corporation Systems and methods for performing instructions specifying ternary tile logic operations
US10838734B2 (en) * 2018-09-24 2020-11-17 Intel Corporation Apparatus and method for processing structure of arrays (SoA) and array of structures (AoS) data
US10866786B2 (en) * 2018-09-27 2020-12-15 Intel Corporation Systems and methods for performing instructions to transpose rectangular tiles
US10853067B2 (en) * 2018-09-27 2020-12-01 Intel Corporation Computer processor for higher precision computations using a mixed-precision decomposition of operations
US10990396B2 (en) * 2018-09-27 2021-04-27 Intel Corporation Systems for performing instructions to quickly convert and use tiles as 1D vectors
US10719323B2 (en) * 2018-09-27 2020-07-21 Intel Corporation Systems and methods for performing matrix compress and decompress instructions
US10896043B2 (en) * 2018-09-28 2021-01-19 Intel Corporation Systems for performing instructions for fast element unpacking into 2-dimensional registers
US10963256B2 (en) * 2018-09-28 2021-03-30 Intel Corporation Systems and methods for performing instructions to transform matrices into row-interleaved format
US10963246B2 (en) * 2018-11-09 2021-03-30 Intel Corporation Systems and methods for performing 16-bit floating-point matrix dot product instructions
US10929503B2 (en) * 2018-12-21 2021-02-23 Intel Corporation Apparatus and method for a masked multiply instruction to support neural network pruning operations
US11294671B2 (en) * 2018-12-26 2022-04-05 Intel Corporation Systems and methods for performing duplicate detection instructions on 2D data
US10922077B2 (en) * 2018-12-29 2021-02-16 Intel Corporation Apparatuses, methods, and systems for stencil configuration and computation instructions
US10942985B2 (en) * 2018-12-29 2021-03-09 Intel Corporation Apparatuses, methods, and systems for fast fourier transform configuration and computation instructions

Also Published As

Publication number Publication date
US20240143325A1 (en) 2024-05-02
CN109992243A (zh) 2019-07-09
US20190042540A1 (en) 2019-02-07
US11816483B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
DE102018006757A1 (de) Festkomma-zu-gleitkomma-umwandlung
DE102018125817A1 (de) Systeme und Verfahren zum Laden eines Kachelregisterpaars
DE102018125805A1 (de) Systeme, verfahren, und vorrichtungen für skalarproduktoperationen
DE102018005977A1 (de) Gleitkomma- zu festkomma-umwandlung
DE112012007058T5 (de) Vektormaskengesteuertes Clock-Gating für Leistungseffizenz eines Prozessors
DE112012007088B4 (de) Vorrichtung, verfahren und system mit einem befehl zum reduzieren von elementen in einem vektorregister mit einem schrittweisem zugriffsmuster
DE102014003706A1 (de) BEREICHSBEGRENZTE VEKTORSPEICHERZUGRIFFSINSTRUKTIONEN, PROZESSOREN, VERFAHREN und SYSTEME
DE112013003743T5 (de) Beschleunigte spurübergreifende Vektorreduzierungsbefehle
DE102014004564A1 (de) Prozessoren, verfahren und systeme zum implementieren von teilregisterzugriffen mit maskierten gesamtregisterzugriffen
DE102018124919A1 (de) Skalierbare speicheroptimierte Hardware für Matrix-Solve
DE112013004783T5 (de) Durch Lese- und Schreibmasken gesteuerter Vektor-Verschiebebefehl
DE102018129341A1 (de) Verfahren und Einrichtung für Mehrfachlade- und Mehrfachspeicher-Vektorbefehle
DE102018128626A1 (de) Systeme, Verfahren und Vorrichtungen für Matrixoperationen
DE102018126036A1 (de) Systeme und verfahren zum setzen eines kachelregisterpaars auf null
DE102018132521A1 (de) Vorrichtung und verfahren zur verflachung und reduktion von schleifen in einer single instruction, multiple data- (simd-) pipeline
DE102018005170A1 (de) Anweisungen für vektoroperationen mit konstanten werten
DE112016005909T5 (de) Einrichtung und verfahren zum beschleunigen von graphenanalyse
DE102018129263A1 (de) Vorrichtung und verfahren zum multiplizieren, summieren und akkumulieren von sätzen von gepackten bytes
DE102018132200A1 (de) Vorrichtung und verfahren zum verarbeiten von fraktionalen umkehroperationen
DE102018129298A1 (de) Vorrichtung und Verfahren zum Vektormultiplizieren und Akkumulieren von vorzeichenbehafteten Doppelwörtern
DE102018125971A1 (de) Systeme und verfahren zum berechnen von skalaprodukten von halbbytes in operanden aus zwei kacheln
DE112017003347T5 (de) Systeme, Vorrichtungen und Verfahren für Strided-Ladevorgänge
DE112013003735T5 (de) Systeme, Vorrichtungen und Verfahren zum Ausführen von Rotation und XOR als Reaktion auf eine einzige Anweisung
DE102018005976A1 (de) Systeme, vorrichtungen und verfahren zur multiplikation und akkumulation von vektorgepackten vorzeichenbehafteten werten
DE102018131484A1 (de) Einrichtung und verfahren zum vektormultiplizieren und zur subtraktion von vorzeichenbehafteten doppelwörtern

Legal Events

Date Code Title Description
R012 Request for examination validly filed