DE10297581T5

DE10297581T5 - Lade/Übertrage- und Duplizier-Anweisungen für einen Prozessor

Info

Publication number: DE10297581T5
Application number: DE10297581T
Authority: DE
Inventors: Patrice Portland Roussel
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-12-20
Filing date: 2002-12-12
Publication date: 2004-11-11
Also published as: US8539202B2; KR100806408B1; US8200941B2; US20130013896A1; RU2004122101A; CN101520723B; US20110258418A1; JP2006502464A; KR20040068333A; JP5960115B2; US9043583B2; JP2010152919A; AU2002357263A1; JP2014089730A; US20120317401A1; US20110047361A1; US8650382B2; CN100492281C; RU2292581C2; CN1605062A

Abstract

Computeranweisung, die folgendes umfaßt: eine Übertrage- und Duplizieranweisung, die bewirkt, daß ein Prozessor einen ersten Teil von Bits einer Quelle in einen ersten Teil eines Zielregisters lädt und diesen ersten Teil der Bits in einem nachfolgenden Teil des Zielregisters dupliziert.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft Lade-/Übertragungs- und Duplikationsanweisungen für einen Prozessor.
Allgemeiner Stand der Technik
Eine Systemarchitektur beschreibt die Betriebsart eines Prozessors und Mechanismen, die vorgesehen werden, um Betriebssysteme zu unterstützen, und in denen systemorientierte Register und Datenstrukturen und systemorientierte Anweisungen enthalten sind. Die Systemarchitektur stellt außerdem die notwendigen Mechanismen für den Wechsel zwischen Realadressen- und geschützten Betriebsarten bereit.
Die Einführung von SIMD-Technologie (single-instruction, multiple-data) in eine Systemarchitektur ermöglicht parallele Berechnungen an gepackten Integer-Daten, die in 64-Bit-Registern enthalten sind. SIMD ermöglicht einem Prozessor verbesserte Leistung zum Bei spiel in Anwendungen für erweiterte Medien, Bildverarbeitung und Datenkompression.
Beschreibung der Zeichnungen
1 ist ein Blockschaltbild eines Prozessors.
2 ist ein Blockschaltbild einer Ausführungsumgebung.
3 ist ein Diagramm eines Byteordnungs-Fundamentaldatentyps.
4 zeigt ein Fließkommaformat.
5 zeigt eine Tabelle, die die verschiedenen SIMD-Erweiterungen und -Datentypen, und wie die Datentypen in Registern gepackt werden, zusammenfaßt.
Ausführliche Beschreibung
Mit Bezug auf 1 ist ein Prozessor 10 gezeigt. Der Prozessor 10 ist eine Dreiweg-Superscaler-Pipeline-Architektur. Durch Verwendung paralleler Verarbeitungstechniken kann der Prozessor 10 im Mittel die Ausführung (retire) von drei Anweisungen pro Taktzyklus decodieren, abfertigen und abschließen. Um mit diesem Grad an Anweisungsdurchsatz fertig zu werden, verwendet der Prozessor 10 eine entkoppelte, zwölfstufige Pipeline, die Out-of-order-Anweisungsausfihrung unterstützt. Die Mikroarchitektur-Pipeline des Prozessors 10 ist in vier Abschnitte unterteilt, nämlich einen Cache 12 der ersten Ebene und einen Cache 14 der zweiten Ebene, ein Frontend 16, einen Out-of-order-Ausführungskern 18 und einen Retire-Abschnitt 20. Anweisungen und Daten werden diesen Einheiten durch eine Busschnittstelle 22 zugeführt, die an einen Systembus 24 angeschaltet ist. Das Frontend 16 führt dem Out-of-order-Kern 18, der eine sehr große Ausführungsbandbreite aufweist und grundlegende Integer-Operationen mit einer Latenz von einem halben Taktzyklus ausführen kann, in Pro- grammreihenfolge Anweisungen zu. Das Frontend 16 holt Anweisungen und decodiert diese zu einfachen, als Mikroops (μ-ops) bezeichneten Operationen. Dann kann das Frontend 16 in der ursprünglichen Programmreihenfolge mehrfache μ-ops pro Zyklus an den Out-of-order-Kern 18 ausgeben. Das Frontend 16 führt mehrere grundlegende Funktionen durch. Zum Beispiel führt das Frontend 16 Vorabrufanweisungen durch, die wahrscheinlich ausgeführt werden, sowie Abrufanweisungen, die noch nicht vorabgerufen wurden, und Decodieranweisungen zu Mikrooperationen, erzeugt Mikrocode für komplexe Anweisungen und Spezialcode, liefert decodierte Anweisungen von einem Ausführungs-Trace-Cache 26 ab und sagt unter Verwendung erweiterter Algorithmen in einer Zweigvorhersageeinheit 28 Verzweigungen voraus.
Das Frontend 16 des Prozessors 10 ist so ausgelegt, daß es bestimmte häufig anzutreffende Probleme in schnellen Mikroprozessoren mit Pipeline behandelt. Zum Beispiel tragen zwei dieser Probleme zu wesentlichen Quellen von Verzögerungen bei, und zwar die Zeit zum Decodieren von aus dem Ziel abgerufenen Anweisungen und verschwendete Decodierbandbreite aufgrund von Verzweigungen oder eines Zweigziels mitten in Cache-Linien.
Der Ausführungs-Trace-Cache 26 behandelt beide Probleme, indem er decodierte Anweisungen speichert. Anweisungen werden durch eine (nicht gezeigte) Übersetzungs-Engine abgerufen und decodiert und zu Sequenzen von als Traces bezeichneten μ-ops aufgebaut. Diese Traces von μ-ops werden in dem Trace-Cache 26 gespeichert. Die Anweisungen von dem wahrscheinlichsten Ziel einer Verzweigung folgen unmittelbar der Verzweigung ohne Rücksicht auf Kontinuität von Anweisungsadressen. Nachdem ein Trace aufgebaut wurde, wird der Trace-Cache 26 nach der Anweisung durchsucht, die diesem Trace folgt. Wenn diese Anweisung als die erste Anweisung in einem existierenden Trace erscheint, hört das Abrufen und Decodieren von Anweisungen 30 aus der Speicherhierarchie auf und der Trace-Cache 26 wird die neue Quelle von Anweisungen.
Der Ausführungs-Trace-Cache 18 und die (nicht gezeigte) Übersetzungs-Engine weisen kooperierende Zweigvorhersagehardware auf. Verzweigungsziele werden unter Verwendung von Zweigzielpuffern (BTBS) 28 auf der Basis ihrer linearen Adresse vorhergesagt und so bald wie möglich abgerufen. Die Zweigziele werden aus dem Trace-Cache 26 abgerufen, wenn sie tatsächlich dort cache-gespeichert sind. Andernfalls werden sie aus der Speicherhierarchie abgerufen. Mit den Zweigvorhersageinformationen der Übersetzungs-Engine werden Traces entlang den wahrscheinlichsten Wegen gebildet.
Der Kern 18 führt Anweisungen außerhalb der Reihenfolge ("out of order") aus, wodurch der Prozessor 10 Anweisungen umordnen kann, so daß, wenn eine μ-op verzögert wird, während auf Daten oder ein Ausführungsbetriebsmittel, um das konkurriert wird, gewartet wird, andere μ-ops, die später in der Programmreihenfolge kommen, um sie herum voranschreiten können. Der Prozessor 10 verwendet mehrere Puffer zum Glätten des Flusses von T-ops. Das hat zur Folge, daß, wenn es in einem Teil der Pipeline zu einer Verzögerung kommt, diese Verzögerung durch andere, parallel ausgeführte Operationen oder durch die Ausführung von μ-ops, die zuvor in einem Puffer in eine Warteschlange eingereiht wurden, abgedeckt werden kann.
Der Kern 18 ist dafür ausgelegt, parallele Ausführung zu unterstützen. Der Kern 18 kann bis zu sechs μ-ops pro Zyklus abfertigen. Man beachte, daß dies die μ-op-Bandbreite des Trace-Cache und des Retirement 20 übersteigt. Die meisten Pipelines können mit jedem Zyklus mit dem Ausführen einer neuen μ-op beginnen, so daß mehrere Anweisungen zu beliebiger Zeit für jede Pipeline verarbeitet werden können. Eine Anzahl von Anweisungen der Arithmetik-Logik-Einheit (ALU) können zwei pro Zyklus starten, und viele Fließkommaanweisungen können eine jeden zweiten Zyklus starten. Schließlich können μ-ops mit dem Ausführen außerhalb der Reihenfolge beginnen, sobald ihre Dateneingaben bereit und Betriebsmittel verfügbar sind.
Der Retirement-Abschnitt 20 empfängt die Ergebnisse der ausgeführten μ-ops aus dem Ausführungskern 18 und verarbeitet die Ergebnisse, so daß der ordnungsgemäße Architekturzustand gemäß der ursprünglichen Programmreihenfolge aktualisiert wird. Für eine semantisch korrekte Ausführung werden die Ergebnisse von Anweisungen in der ursprünglichen Programmreihenfolge übergeben, bevor sie ausgeschieden wird. Programmausnahmen können erhoben werden, während Anweisungen ausgeschieden werden. Somit können Programmausnahmen nicht spekulativ erfolgen. Sie erfolgen in der korrekten Reihenfolge und der Prozessor 10 kann nach der Ausführung korrekt neugestartet werden.
Wenn eine μ-op abgeschlossen ist und ihr Ergebnis in das Ziel schreibt, wird sie ausgeschieden ("retired"). Es können bis zu drei μ-ops pro Zyklus ausgeschieden werden. Ein (nicht gezeigter) ReOrder-Puffer (ROB) in dem Ausscheideabschnitt 20 ist die Einheit in dem Prozessor 10, die abgeschlossene μ-ops puffert, den Architekturzustand in der Reihenfolge aktualisiert und das Anordnen von Programmausnahmen verwaltet.
Der Ausscheideabschnitt 20 verfolgt auch Verzweigungen und sendet aktualisierte Verzweigungszielinformationen zu dem BTB 28, um die Verzweigungsvorgeschichte zu aktualisieren.
Auf diese Weise können Traces, die nicht mehr benötigt werden, aus dem Trace-Cache 26 ausgeräumt werden und es können auf der Basis aktualisierter Zweigvorgeschichteinformationen neue Zweigwege abgerufen werden.
Mit Bezug auf 2 ist eine Ausführungsumgebung 50 gezeigt. Jedem Programm oder jeder Task, das bzw. die auf dem Prozessor 10 (von 1) abläuft, wird ein Satz Betriebsmittel zum Ausführen von Anweisungen und zum Speichern von Code, Daten und Zustandsinformationen gegeben. Diese Betriebsmittel bilden die Ausführungsumgebung 50 des Prozessors 10. Auf dem Prozessor 10 ablaufende Anwendungsprogramme und das Betriebssystem bzw. die Betriebsexekutive verwenden gemeinsam die Ausführungsumgebung 50. Die Ausführungsumgebung 50 enthält grundlegende Programmausführungsregister 52, einen Adressenraum 54, Register 56 der Fließkommaeinheit (FPU), Multimedia-Erweiterungsregister (MMX) 58 und Register 60 der SIMD-Erweiterung (SSE und SSE2).
Jede auf dem Prozessor 10 ablaufende Task oder jedes auf dem Prozessor 10 ablaufende Programm kann eine lineare Adressenbasis 54 von bis zu vier Gigabyte (2³² Byte) und einen physikalischen Adressenraum von bis zu 64 Gigabyte (2³⁶ Byte) adressieren. Der Adressenraum 54 kann flach oder segmentiert sein. Durch Verwendung eines Erweiterungsmechanismus für physikalische Adressen kann ein physikalischer Adressenraum von 2^36-1 adressiert werden.
Zu den grundlegenden Programmausführungsregistern 52 gehören acht Vielzweckregister 62, sechs Segmentregister 64, ein EFLAGS-Register 66 und ein Register 68 für den Anweisungszeiger (EIP). Die grundlegenden Programmausführungsregister 52 liefern eine grundlegende Ausführungsumgebung, in der ein Satz Vielzweckanweisungen ausgeführt werden soll. Diese Anweisungen führen eine grundlegende Integer-Arithmetik an Byte-, Wort- und Doppelwort-Integers durch, wickeln die Programmflußsteuerung ab, operieren an Bit- und Byte-Stärken und an Adressenspeicher.
Die FPU-Register 56 umfassen acht FPU-Datenregister 70, ein FPU-Steuerregister 72, ein Statusregister 74, ein FPU-Anweisungszeigerregister 76, ein Zeigerregister 78 für FPU-Operanden (Daten), ein FPU-Tag-Register 80 und ein FPU-op-Code-Register 82. Die FPU-Register 56 liefern eine Ausführungsumgebung zum Operieren an Fließkommawerten mit einfacher Präzision, doppelter Präzision und doppelter erweiterter Präzision und an Wort-, Doppelwort- und Quadwort-Integers und binär codierten (BCD-) Dezimalwerten.
Die acht Multimedia-Erweiterungsregister 58 unterstützen die Ausführung von Einzelanweisungs-/Mehrfachdatenoperationen (SIMD-Operationen) an gepackten 64-Byte-, Wort- und -Doppelwort-Integers.
Die Register 60 der SIMD-Erweiterung (SSE und SSE2) umfassen acht erweiterte Multimedia- (XMM-) Datenregister 84 und ein MXCSR-Register 86. Die Register 60 der SIMD-Erweiterung (SSE und SSE2) unterstützen die Ausführung von SIMD-Operationen an gepackten 128-Bit-Fließkommawerten mit einfacher Präzision und doppelter Präzision und an gepackten 128-Bit-Byte-, Wort-, Doppelwort- und Quadwort-Integers.
Ein (nicht gezeigter) Stapel unterstützt Prozedur- oder Subroutinenaufrufe und das Weiterleiten von Parametern zwischen Prozeduren oder Subroutinen.
Die Vielzweckregister 62 sind für das Speichern von Operanden und Zeigern verfügbar. Die Segmentregister 64 halten bis zu sechs Segmentselektoren. Die EFLAGS-Register 66 (Programmstatus und Steuerung) melden den Status eines Programms, das ausgeführt wird, und ermöglicht eine begrenzte Steuerung (auf Anwendungsprogrammebene) des Prozessors. Das Register 68 für den Anweisungszeiger (EIP) enthält einen 32-Bit-Zeiger auf die nächste auszuführende Anweisung.
Die 32-Bit-Vielzweckregister 62 werden zum Halten von Operanden für logische und arithmetische Operationen, Operanden für Adressenberechnungen und Speicherzeiger vorgesehen. Die Segmentregister 64 halten 16-Bit-Segmentselektoren. Ein Segmentselektor ist ein spezieller Zeiger, der ein Segment im Speicher identifiziert. Um auf ein bestimmtes Segment im Speicher zuzugreifen, muß der Segmentselektor für dieses Segment in dem entsprechenden Segmentregister 64 vorhanden sein.
Beim Schreiben von Anwendungscode erzeugen Programmierer im allgemeinen Segmentselektoren mit Assembler-Direktiven und -Symbolen. Der Assembler und andere Tools erzeugen dann die tatsächlichen Segmentselektorwerte, die diesen Direktiven und Symbolen zugeordnet sind. Wenn sie Systemcode schreiben, müssen Programmierer möglicherweise Segmentselektoren direkt generieren.
Wie die Segmentregister 64 benutzt werden, hängt von der Art des Speicherverwaltungsmodells ab, das das Betriebssystem oder die Exekutive verwendet. Bei Verwendung eines flachen (unsegmentierten) Speichermodells werden die Segmentregister 64 mit Segmentselektoren geladen, die auf sich überlappende Segmente zeigen, von denen jedes an einer Adresse Null im linearen Adressenraum beginnt. Diese sich überlappenden Segmente enthalten dann den linearen Adressenraum für das Programm. In der Regel werden zwei sich überlappende Segmente definiert: eines für Code und ein weiteres für Daten und Stapel. Das (nicht gezeigte) CS-Segmentregister der Segmentregister 64 zeigt auf das Codesegment, und alle anderen Segmentregister zeigen auf das Daten- und Stapelsegment.
Bei Verwendung eines segmentierten Speichermodells wird jedes Segmentregister 64 gewöhnlich mit einem anderen Segmentselektor geladen, so daß jedes Segmentregister 64 auf ein anderes Segment in dem linearen Adressenraum zeigt. Zu jedem beliebigen Zeitpunkt kann ein Programm somit auf bis zu sechs Segmente in dem linearen Adressenraum zugreifen. Um auf ein Segment zuzugreifen, auf das keines der Segmentregister 64 zeigt, lädt ein Programm zuerst den Segmentselektor, auf den zugegriffen werden soll, in ein Segmentregister 64.
Das 32-Bit-EFLAGS-Register 66 enthält eine Gruppe von Statusflags, ein Steuerflag und eine Gruppe von Systemflags. Einige der Flags in den EFLAGS-Registern 66 können unter Verwendung besonderer Anweisungen direkt modifiziert werden. Es gibt keine Anweisungen, mit denen das ganze Register 66 direkt untersucht oder modifiziert werden kann. Mit den folgenden Anweisungen können jedoch Gruppen von Flags zu und von den Prozedurstapeln oder dem Vielzweckregister übertragen werden: LAHF, SAHF, push-F, push-FD, pop-F und pop-FD. Nachdem der Inhalt des EFLAGS-Registers 66 zu dem Prozedurstapel oder einem Vielzweckregister transferiert wurde, können die Flags unter Verwendung der 10-Bit-Manipulationsanweisungen des Prozessors untersucht und modifiziert werden.
Beim Suspendieren einer Task sichert der Prozessor 10 automatisch den Zustand des EFLAGS-Registers 66 in dem (nicht gezeigten) Task-Zustandssegement (TSS) für die Task, die suspendiert wird. Wenn sich der Prozessor 10 an eine neue Task bindet, lädt er das EFLAGS-Register 66 mit Daten aus dem (nicht gezeigten) Neue-Tasks-Programmzustandsregister (PSS).
Wenn ein Interrupt-Handler oder eine Programmausnahmeprozedur aufgerufen wird, sichert der Prozessor 10 automatisch den Zustand des EFLAGS-Registers 66 auf dem Prozedurstapel. Wenn ein Interrupt oder eine Programmausnahme mit einem Task-Wechsel abgewickelt wird, wird der Zustand des EFLAGS-Registers 66 für die Task, die suspendiert wird, auf dem TSS gesichert.
Die in dem Prozessor 10 verwendeten Fundamentaldatentypen sind Bytes, Wörter, Doppelwörter, Quadwörter und Doppelquadwörter. Ein Byte sind acht Bit, ein Wort sind zwei Byte (16 Bit), ein Doppelwort sind vier Byte (32 Bit), ein Quadwort sind acht Byte (64 Bit) und ein Doppelquadwort sind sechzehn Byte (128 Bit).
Mit Bezug auf 3 ist eine Bytereihenfolge jedes der Fundamentaldatentypen bei Referenzierung als Operanden im Speicher gezeigt. Das niedrige Byte (Bit 0-7) jedes Datentyps nimmt die niedrigste Adresse im Speicher ein, und diese Adresse ist auch die Adresse des Operanden.
Wörter, Doppelwörter und Quadwörter müssen im Speicher nicht an natürlichen Grenzen ausgerichtet sein. Die natürlichen Grenzen für Wörter, Doppelwörter und Quadwörter sind geradzahlige Adressen, gerade durch 4 teilbare Adressen bzw. gerade durch 8 teilbare Adres- sen. Um jedoch die Leistung von Programmen zu verbessern, sollten Datenstrukturen (insbesondere Stapel) immer, wenn es möglich ist, an natürlichen Grenzen ausgerichtet sein. Der Grund dafür besteht darin, daß der Prozessor 10 zwei Speicherzugriffe benötigt, um einen unausgerichteten Speicherzugriff durchzuführen, während ausgerichtete Zugriffe einen Speicherzugriff erfordern. Ein Wort- oder Doppelwortoperand, der eine 4-Byte-Grenze überschreitet, oder ein Quadwortoperand, der eine 8-Byte-Grenze überschreitet, wird als unausgerichtet betrachtet, und es sind zwei getrennte Speicherbuszyklen erforderlich, um auf ihn zuzugreifen. Ein Wort, das an einer ungeraden Adresse beginnt, aber keine Wortgrenze überschreitet, wird als ausgerichtet betrachtet, und es kann in einem Buszyklus auf es zugegriffen werden.
Bestimmte Anweisungen, die an Doppelquadwörtern operieren, erfordern, daß Speicheroperanden an einer natürlichen Grenze ausgerichtet sind. Diese Anweisungen generieren eine allgemeine Schutzprogrammausnahme (#GP), wenn ein unausgerichteter Operand spezifiziert wird. Eine natürliche Grenze für ein Doppelquadwort ist jede gerade durch 16 teilbare Adresse. Andere Anweisungen, die an Doppelquadwörtern operieren, gestatten einen unausgerichteten Zugriff, ohne eine allgemeine Schutzprogrammausnahme zu generieren. Es sind aber zusätzliche Speicherbuszyklen erforderlich, um auf unausgerichtete Daten aus dem Speicher zuzugreifen.
Obwohl Byte, Wörter und Doppelwörter die Fundamentaldatentypen des Prozessors 10 sind, unterstützen bestimmte Anweisungen eine zusätzliche Interpretation dieser Datentypen, um eine Durchführung von Operationen an numerischen Datentypen zu erlauben. Zum Beispiel definiert der Prozessor 10 zwei Integer-Typen: vorzeichenlos und vorzeichenbehaftet. Vorzeichenlose Integers sind gewöhnliche Binärwerte im Bereich von null bis zu der maximalen positiven Zahl, die in der gewählten Operandengröße codiert werden kann. Vorzeichenbehaftete Integers sind Zweierkomplement-Binärwerte, mit denen sowohl positive als auch negative ganzzahlige Werte repräsentiert werden können.
Der Prozessor 10 definiert drei Fließkommadatentypen und operiert an diesen: Fließkomma mit einfacher Präzision, Fließkomma mit doppelter Präzision und Fließkomma mit doppelter erweiterter Präzision. Die Datenformate für diese Datentypen entsprechen direkt dem in dem IEEE-Standard 754 definierten Format für Binär-Fließkommaarithmetik.
Zeiger sind Adressen von Speicherstellen im Speicher. Der Prozessor 10 definiert zwei Zeigertypen: einen Nah-Zeiger (32 Bit) und einen Fern-Zeiger (48 Bit). Ein Nah-Zeiger ist ein 32-Bit-Offset (das auch als eine effektive Adresse bezeichnet wird) in einem Segment. Nah-Zeiger werden für alle Speicherreferenzen in einem Flach-Speichermodell oder für Referenzen in einem segmentierten Modell verwendet, wenn die Identität des Segments, auf das zugegriffen wird, implizit ist. Ein Fern-Zeiger ist eine logische 48-Bit-Adresse, die aus einem 16-Bit-Selektor und einem 32-Bit-Offset besteht. Fern-Zeiger werden für Speicherreferenzen und ein segmentiertes Datenmodell verwendet, bei dem die Identität eines Segments, auf das zugegriffen wird, explizit spezifiziert werden muß.
Ein Bitfeld ist eine kontinuierliche Bitsequenz. Es kann an einer beliebigen Bitposition eines beliebigen Byte im Speicher beginnen und kann bis zu 32 Bit enthalten. Ketten sind kontinuierliche Sequenzen von Bit, Byte, Wörtern oder Doppelwörtern. Eine Bitkette kann an einer beliebigen Bitposition eines beliebigen Byte beginnen und kann bis zu 2^32-1 Bit enthalten. Eine Bytekette kann Byte, Wörter oder Doppelwörter enthalten und kann im Bereich von null bis 2^32-1 Byte (vier Gigabyte) liegen.
Binär codierte Dezimal-Integers (BCD-Integers) sind vorzeichenlose Vier-Bit-Integers mit einem Bereich gültiger Werte von 0 bis 9. Der Prozessor 10 definiert Operationen an BCD-Integers, die sich in einem oder mehreren Vielzweckregistern 62 oder in einem oder mehreren FPU-Registern 56 befinden.
Mit Bezug auf 4 werden reelle Zahlen in einem Fließkommaformat 100 in den FPU-56-Fließkommaregistern 70 repräsentiert. Das Fließkommaformat enthält drei Teile, nämlich ein Vorzeichen 102, einen Signifikanden 104 und einen Exponenten 106. Das Vorzeichen 102 ist ein binärer Wert, der angibt, ob die Zahl positiv (0) oder negativ (1) ist. Der Signifikand 104 enthält zwei Teile: einen 1-Bit-Binär-Integer (der auch als ein J-Bit bezeichnet wird) 108 und einen Binär-Bruchteil 110. Das Integer-Bit 108 wird häufig nicht repräsentiert, sondern ist stattdessen ein impliziter Wert. Der Exponent 106 ist ein Binär-Integer, der eine Potenz zur Basis 2 repräsentiert, mit der der Signifikand 104 multipliziert wird.
Der Prozessor 10 definiert einen Satz gepackter 64-Bit- und 128-Bit-Datentypen zur Verwendung in SIMD-Operationen und operiert an ihnen. Diese Datentypen umfassen Fundamentaldatentypen (gepackte Byte, Wörter, Doppelwörter und Quadwörter) und numerische Interpretationen von Fundamentaldatentypen zur Verwendung in gepackten Integer- und gepackten Fließkommaoperationen.
An den 64-Bit-SIMD-Datentypen wird hauptsächlich in den 64-Bit-Multimedia-Erweiterungsregistern 58 operiert. Die fundamentalen gepackten 64-Bit-Datentypen sind gepackte Byte, gepackte Wörter und gepackte Doppelwörter. Bei der Durchführung numerischer SIMD-Operationen an diesen Datentypen in den Multimedia-Erweiterungsregistern 58 werden diese Datentypen als Byte, Wörter oder Doppelwort-Integer-Werte enthaltend interpretiert.
An den gepackten 128-Bit-SIMD-Datentypen wird hauptsächlich in den erweiterten Multimedia-Registern (XMM) 84 und in dem Speicher 54 operiert. Die fundamentalen gepackten 128-Bit-Datentypen sind gepackte Byte, gepackte Wörter, gepackte Doppelwörter und gepackte Quadwörter. Bei der Durchführung von SIMD-Operationen an diesen fundamentalen Datentypen in den erweiterten Multimedia- (XMM-) Registern 84 werden diese Datentypen als gepackte oder Skalar-Fließkommawerte mit einfacher Präzision oder doppelter Präzision oder gepackte Byte, Wörter, Doppelwort- oder Quadwort-Integer-Werte enthaltend interpretiert.
Mit Bezug auf 5 zeigt eine Tabelle 120, die verschiedenen SIMD-Erweiterungen, die Datentypen, an denen operiert wird, und wie die Datentypen in die Multimedia-Erweiterungsregister 58 und in die erweiterten Multimedia- (XMM-) Register 84 gepackt werden, zusammenfaßt.
Wie oben beschrieben operieren Multimedia-Erweiterungsanweisungen an gepackten Byte-, Wort-, Doppelwort- oder Quadwort-Integer-Operanden, die in dem Speicher 54, in den Multimedia-Erweiterungsregistern 58 und/oder in den Vielzweckregistern 62 enthalten sind.
Die Multimedia-Erweiterungsanweisungen umfassen Datentransferanweisungen, Konvertie- rungsanweisungen, Gepackt-Arithmetikanweisungen, Vergleichsanweisungen, logische Anweisungen, Schiebe- und Rotationsanweisungen und Zustandsverwaltungsanweisungen.
Anweisungen der SIMD-Erweiterung (SSE und SSE2) werden in eine Anzahl von z.B. vier Gruppen aufgeteilt: SIMD-Fließkommaanweisungen mit einfacher Präzision, die an den erweiterten Multimedia- (XMM-) Registern 84 operieren, MXSCR-Anweisungen, die an dem MXSCR-Register 86 operieren, 64-Bit-SIMD-Integer-Anweisungen, die an den MMX-Registern 58 operieren, und Cachebarkeits-Steuer-, Vorabruf- und Anweisungsordnungsanweisungen.
Eine Klasse von Anweisungen sind Anweisungen des Lade-/Übertragungs- und Duplikationstyps. Diese Anweisungen werden insofern als "kombinierte" Anweisungen bezeichnet, als durch sie überflüssig wird, eine explizite Operation an dem geladenen Wert durchzuführen, um zum Beispiel eine Duplikation von Bit zu erhalten. Die vorliegende Architektur enthält eine MOVDDUP-Anweisung, eine MOVSHDUP-Anweisung und eine MOVSLDUP-Anweisung. Diese Anweisungen werden vorgesehen, um komplexe Arithmetik mit gepackten Fließkommadatentypen mit einfacher und mit doppelter Präzision zu unterstützen. Diese Anweisungen können in vielfältigen Anwendungen verwendet werden. Zum Beispiel können diese Anweisungen die Effizienz von Signalverarbeitungsanwendungen und Anwendungen, bei denen natürliche Datentypen verarbeitet werden, verbessern.
Die MOVDDUP-Anweisung ist eine Übertrage ein Doppel-Fließkomma und Dupliziere-SSE2-Anweisung, die 64 Bit (die Bit [63-0], wenn die Quelle ein Register ist) lädt/überträgt. Die Ausführung der MOVDDUP-Anweisung gibt sowohl in der unteren als auch in der oberen Hälfte desselben Ergebnisregisters dieselben 64 Bit zurück, das heißt, Duplikation der 64 Bit aus der Quelle. Wenn die Quelle Einträge 1/0 aufweist, hat das Ziel also Einträge 1/0/1/0. Die MOVEDDUP-Anweisung hat das folgende Format:
MOVEDDUP Ziel, Quelle
wobei der Quellenoperand eine Speicherstelle 54 oder ein zweites erweitertes Multimedia-(XMM-) Register 84 und der Zieloperand ein erstes erweitertes Multimedia- (XMM-) Register 84 ist. Die Quelle enthält einen Doppel-Fließkommadatentyp.
Im Betrieb werden, wenn der Quellenoperand eine Speicheradresse ist, die Bit [63-0] des ersten erweiterten Multimedia- (XMM-) Registers mit den Bit [63-0] der Speicheradresse geladen, und die Bit [127-64] des ersten erweiterten Multimedia- (XMM-) Registers werden mit den Bit [63-0] der Speicheradresse geladen. Wenn der Quellenoperand ein zweites erweitertes Multimedia- (XMM-) Register ist, werden die Bit [63-0] des ersten erweiterten Multimedia-(XMM-) Registers gleich den Bit [63-0] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt, und die Bit [127-64] des ersten erweiterten Multimedia- (XMM-) Registers gleich den Bit [63-0] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt.
Die lineare Adresse entspricht der Adresse des niedrigstwertigen Byte der referenzierten Speicherdaten. Wenn eine Speicheradresse angegeben ist, werden die 16 Datenbyte an der Speicherstelle geladen oder gespeichert. Wenn die Register-Register-Form der Operation verwendet wird, wird der Inhalt des 128-Bit-Quellenregisters in das 128-Bit-Zielregister kopiert.
Die MOVSHDUP-Anweisung ist eine Übertrage gepacktes Einfach-Fließkomma high und, Dupliziere-SSE2-Anweisung, die 128 Bit lädt/überträgt und die Einträge 1 und 3 in dem resultierenden Register dupliziert. Bei dem Beispiel einer 128-Bit-Quellenregisterbreite beträgt jeder Eintrag 32 Bit. Genauer gesagt speichert, wenn es sich bei einer Quelle um Einträge 3/2/1/0 handelt (wobei 0 der niedrige Eintrag mit einfacher Präzision und 3 der hohe Eintrag mit einfacher Präzision ist), ein Ergebnisregister nach der Ausführung der MOVSHDUP-Anweisung Einträge 3 und 1 und dupliziert, um Einträge 3/3/1/1 zu ergeben. MOVSHDUP hat das folgende Format:
MOVSHDUP Ziel, Quelle
wobei der Quellenoperand eine Speicherstelle 54 oder ein zweites erweitertes Multimedia-(XMM-) Register 84 und der Zieloperand ein erstes erweitertes Multimedia- (XMM-) Register 84 ist. Die Quelle hat einen gepackten Einfach-Fließkommadatentyp.
Im Betrieb werden, wenn der Quellenoperand eine Speicheradresse ist, die Bit [31-0] des ersten erweiterten Multimedia- (XMM-) Registers mit den Bit [63-32] der Speicheradresse geladen, die Bit 63-32 des ersten erweiterten Multimedia- (XMM-) Registers werden mit den Bit [63-32] der Speicheradresse geladen, die Bit 95-64 des ersten erweiterten Multimedia-(XMM-) Registers werden mit den Bit [127-96] der Speicheradresse geladen und die Bit 127-96 des ersten erweiterten Multimedia- (XMM-) Registers werden mit den Bit [127-96] der Speicheradresse geladen.
Wenn der Quellenoperand ein zweites erweitertes Multimedia- (XMM-) Register ist, werden die Bit [31-0] des ersten erweiterten Multimedia- (XMM-) Registers gleich den Bit [63-32] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt, die Bit [63-32] des ersten erweiterten Multimedia- (XMM-) Registers werden gleich den Bit [83-32] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt, die Bit [95-64] des ersten erweiterten Multimedia- (XMM-) Registers werden gleich den Bit [127-96] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt und die Bit [127-96] des ersten erweiterten Multimedia-(XMM-) Registers werden gleich den Bit [127-96] des zweiten erweiterten Multimedia-(XMM-) Registers gesetzt.
Die lineare Adresse entspricht der Adresse des niedrigstwertigen Byte der referenzierten Speicherdaten. Wenn eine Speicheradresse angegeben ist, werden die 16 Datenbyte an der Speicherstelle geladen oder gespeichert. Wenn die Register-Register-Form der Operation verwendet wird, wird der Inhalt des 128-Bit-Quellenregisters in das 128-Bit-Zielregister kopiert.
Die MOVSLDUP-Anweisung ist eine Übertrage gepacktes Einfach-Fließkomma low und Dupliziere-SSE2-Anweisung, die 128 Bit lädt/überträgt und die Einträge 0 und 2 dupliziert. Genauer gesagt speichert, wenn es sich bei einer Quelle um 3/2/1/0 handelt (wobei 0 der niedrigere Eintrag mit einfacher Präzision ist), ein Ergebnisregister Einträge 2/2/0/0. Die MOVSLDUP-Anweisung hat das folgende Format:
MOVSLDUP Ziel, Quelle
wobei der Quellenoperand eine Speicherstelle 54 oder ein zweites erweitertes Multimedia-(XMM-) Register 84 und der Zieloperand ein erstes erweitertes Multimedia- (XMM-) Register 84 ist. Der Quellenoperand enthält einen gepackten Einfach-Fließkommadatentyp.
Im Betrieb werden, wenn der Quellenoperand eine Speicheradresse ist, die Bit [31-0] des ersten erweiterten Multimedia- (XMM-) Registers mit den Bit [31-0] der Speicheradresse geladen, die Bit [63-32] des ersten erweiterten Multimedia- (XMM-) Registers werden mit den Bit [31-0] der Speicheradresse geladen, die Bit [95-64] des ersten erweiterten Multimedia-(XMM-) Registers werden mit den Bit [95-64] der Speicheradresse geladen und die Bit [127-96] des ersten erweiterten Multimedia- (XMM-) Registers werden mit den Bit [95-64] der Speicheradresse geladen. Wenn der Quellenoperand ein Register ist, werden die Bit [31-0] des ersten erweiterten Multimedia- (XMM-) Registers gleich den Bit [31-0] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt, die Bit [63-32] des ersten erweiterten Multimedia- (XMM-) Registers werden gleich den Bit [31-0] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt, die Bit [95-64] des ersten erweiterten Multimedia- (XMM-) Registers werden gleich den Bit [95-64] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt und die Bit [127-96] des ersten erweiterten Multimedia- (XMM-) Registers werden gleich den Bit [95-64] des zweiten erweiterten Multimedia- (XMM-) Registers gesetzt.
Die lineare Adresse entspricht der Adresse des niedrigstwertigen Byte der referenzierten Speicherdaten. Wenn eine Speicheradresse angegeben ist, werden die 16 Datenbyte an der Speicherstelle geladen oder gespeichert. Wenn die Register-Register-Form der Operation verwendet wird, wird der Inhalt des 128-Bit-Quellenregisters in das 128-Bit-Zielregister kopiert.
Folglich liegen andere Ausführungsformen innerhalb des Schutzumfangs der folgenden Ansprüche.
Zusammenfassung
Ein Verfahren in einem Prozessor beinhaltet das Laden/Übertragen eines ersten Teils von Bits einer Quelle in einen ersten Teil eines Zielregisters und das Duplizieren dieses ersten Teils der Bits in einem nachfolgenden Teil des Zielregisters.

Claims

Computeranweisung, die folgendes umfaßt: eine Übertrage- und Duplizieranweisung, die bewirkt, daß ein Prozessor einen ersten Teil von Bits einer Quelle in einen ersten Teil eines Zielregisters lädt und diesen ersten Teil der Bits in einem nachfolgenden Teil des Zielregisters dupliziert.
Anweisung nach Anspruch 1, bei der es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einer Speicherstelle repräsentieren.
Anweisung nach Anspruch 1, bei der es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einem Quellenregister repräsentieren.
Anweisung nach Anspruch 1, bei der der erste Teil des Zielregisters mit Bits [63-0] des ersten Teils der Quelle und der nachfolgende Teil des Zielregisters mit Bit [63-0] des ersten Teils der Quelle geladen wird.
Verfahren mit den folgenden Schritten: – Laden eines ersten Teils von Bits einer Quelle in einen ersten Teil eines Zielregisters in einem Prozessor; und – Duplizieren des ersten Teils von Bit in einem nachfolgenden Teil des Zielregisters.
Verfahren nach Anspruch 5, bei dem es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einer Speicherstelle repräsentieren.
Verfahren nach Anspruch 5, bei dem es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einem Quellenregister repräsentieren.
Verfahren nach Anspruch 5, bei dem der erste Teil des Zielregisters mit Bits [63-0] des ersten Teils der Quelle und der nachfolgende Teil des Zielregisters mit Bits [63-0] des ersten Teils der Quelle geladen wird.
Computerprogrammprodukt auf einem computerlesbaren Medium, auf dem Anweisungen gespeichert sind, die, wenn sie durch den Prozessor ausgeführt werden, die folgenden Aktionen des Prozessors bewirken: Laden eines ersten Teils von Bits einer Quelle in einen ersten Teil eines Zielregisters; und Duplizieren des ersten Teils von Bits in einem nachfolgenden Teil des Zielregisters.
Computerprogrammprodukt nach Anspruch 9, bei dem es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einer Speicherstelle repräsentieren.
Computerprogrammprodukt nach Anspruch 9, bei dem es sich bei dem ersten Teil der Quelle um 64 Bit handelt, die einen Doppel-Fließkommadatentyp in einem Quellenregister repräsentieren.
Computerprogrammprodukt nach Anspruch 9, bei dem der erste Teil des Zielregisters mit Bits [63-0] des ersten Teils der Quelle und der nachfolgende Teil des Zielregisters mit Bits [63-0] des ersten Teils der Quelle geladen wird.
Computeranweisung, die folgendes umfaßt: eine Übertrage ein Doppel-Fließkomma und Dupliziere-Anweisung, die bewirkt, daß ein Prozessor 64 Bit einer Quelle lädt und die 64 Bit in einer unteren Hälfte eines Ziels und einer oberen Hälfte eines Ziels zurückgibt.
Anweisung nach Anspruch 13, weiterhin umfassend: einen Quellenoperanden; und einen Zieloperanden.
Anweisung nach Anspruch 13, bei der der Quellenoperand eine Speicherstelle ist.
Anweisung nach Anspruch 15, bei der die Speicherstelle einen 128-Bit-Wert aufweist, der einen Doppel-Fließkommadatentyp repräsentiert.
Anweisung nach Anspruch 13, bei der der Quellenoperand ein 128-Bit-Quellenregister ist.
Anweisung nach Anspruch 17, bei der das Quellenregister einen 128-Bit-Wert aufweist, der einen Doppel-Fließkommadatentyp repräsentiert.
In einem Prozessor ausgeführtes Verfahren mit dem folgenden Schritt: Laden einer ersten Anzahl N Bits aus einer Quelle in eine untere Hälfte eines 2N breiten Bit-Zielregisters und in eine obere Hälfte des 2N breiten Bit-Zielregisters.
Verfahren nach Anspruch 19, bei dem die Quelle eine Speicherstelle ist und N 64 Bit beträgt.
Verfahren nach Anspruch 20, bei dem die Speicherstelle einen Doppel-Fließkommadatentyp enthält.
Verfahren nach Anspruch 19, bei dem die Quelle ein 128-Bit-Quellenregister ist und N 64 Bit beträgt.
Verfahren nach Anspruch 19, bei dem das 128-Bit-Quellenregister einen Doppel-Fließkommadatentyp enthält.
Computerprogrammprodukt auf einem computerlesbaren Medium, auf dem Anweisungen gespeichert sind, die, wenn sie durch den Prozessor ausgeführt werden, die folgenden Aktionen des Prozessors bewirken: Laden von 64 Bit aus einer Quelle in eine untere Hälfte eines 128-Bit-Zielregisters und in eine obere Hälfte des 128-Bit-Zielregisters.
Computerprogrammprodukt nach Anspruch 24, bei dem die Quelle eine Speicherstelle ist, die einen 128-Bit-Doppel-Fließkommadatentyp enthält.
Computerprogrammprodukt nach Anspruch 24, bei dem die Quelle ein 128-Quellenregister ist, das einen 128-Bit-Doppel-Fließkommadatentyp enthält.
Computeranweisung, die folgendes umfaßt: eine Übertrage gepacktes Einfach-Fließkomma high und Dupliziere-Anweisung, die bewirkt, daß ein Prozessor Bits [127-0] einer Quelle lädt und Bits [63-32] der Quelle in den Bits [31-0] eines 128-Bit-Zielregisters, Bits [63-32] der Quelle in den Bits [63-32] des Zielregisters, Bits [127-96] der Quelle in den Bits [95-64] des Zielregisters und Bits [127-96] der Quelle in den Bits [127-96] des Zielregisters zurückgibt.
Anweisung nach Anspruch 27, weiterhin umfassend: ein Quellenoperandenfeld; und ein Zieloperandenfeld.
Anweisung nach Anspruch 27, bei der der Quellenoperand eine Speicherstelle ist.
Anweisung nach Anspruch 29, bei der die Speicherstelle 128 Bit aufweist, die einen gepackten Einfach-Fließkommadatentyp repräsentieren.
Anweisung nach Anspruch 27, bei der der Quellenoperand ein ein 128-Bit-Quellenregister ist.
Anweisung nach Anspruch 31, bei der das Quellenregister 128 Bit aufweist, die einen gepackten Einfach-Fließkommadatentyp repräsentieren.
In einem Prozessor ausgeführtes Verfahren mit den folgenden Schritten: – Zugreifen auf Bits [127-0] einer Quelle; und – Zurückgeben von Bits [63-32] der Quelle in Bits [31-0] und in Bits [63-32] des Zielregisters; und – Bits [127-96] der Quelle in Bits [95-64] und in Bits [127-96] des Zielregisters.
Verfahren nach Anspruch 33, bei dem die Quelle eine Speicherstelle ist.
Verfahren nach Anspruch 34, bei dem die Speicherstelle einen gepackten Einfach-Fließkommadatentyp enthält.
Verfahren nach Anspruch 33, bei dem die Quelle ein 128-Bit-Quellenregister ist.
Verfahren nach Anspruch 36, bei dem das 128-Bit-Quellenregister einen gepackten Einfach-Fließkommadatentyp enthält.
Computerprogrammprodukt auf einem computerlesbaren Medium, auf dem Anweisungen gespeichert sind, die, wenn sie durch den Prozessor ausgeführt werden, die folgenden Aktionen des Prozessors bewirken: Laden von Bits [127-0] einer Quelle; Zurückgeben von Bits [63-32] der Quelle in Bits [31-0] eines 128-Bit-Zielregisters; Zurückgeben von Bits [63-32] der Quelle in Bits [63-32] des Zielregisters; Zurückgeben von Bits [127-96] der Quelle in Bits [95-64] des Zielregisters; und Zurückgeben von Bits [127-96] der Quelle in Bits [127-96] des Zielregisters.
Computerprogrammprodukt nach Anspruch 38, bei dem die Quelle eine Speicherstelle ist.
Computerprogrammprodukt nach Anspruch 39, bei dem die Speicherstelle einen gepackten Einfach-Fließkommadatentyp enthält.
Computerprogrammprodukt nach Anspruch 38, bei dem ein 128-Bit-Quellenregister ist.
Computerprogrammprodukt nach Anspruch 41, bei dem das 128-Bit-Quellenregister einen gepackten Einfach-Fließkommadatentyp enthält.
Computeranweisung, die folgendes umfaßt: eine Übertrage gepacktes Einfach-Fließkomma low und Dupliziere-Anweisung, die bewirkt, daß ein Prozessor Bits [127-0] einer Quelle lädt und Bits [31-0] der Quelle in Bits [31-0] eines 128-Bit-Zielregisters, Bits [31-0] der Quelle in den Bits [63-32] des Zielregisters, Bits [95-64] der Quelle in Bits [95-64] des Zielregisters und Bits [95-64] der Quelle in Bits [127-96] des Zielregisters zurückgibt.
Anweisung nach Anspruch 43, weiterhin umfassend: ein Quellenadressfeld; und ein Zielregister.
Anweisung nach Anspruch 44, bei der die Quelle eine Speicherstelle ist.
Anweisung nach Anspruch 45, bei der die Speicherstelle 128 Bit enthält, die einen gepackten Einfach-Fließkommadatentyp repräsentieren.
Anweisung nach Anspruch 43, bei der die Quelle ein 128-Bit-Quellenregister ist.
Anweisung nach Anspruch 47, bei der das Quellenregister 128 Bit enthält, die einen gepackten Einfach-Fließkommadatentyp repräsentieren.
Verfahren mit den folgenden Schritten: – Laden von Bits [127-0] einer Quelle in einem Prozessor; – Zurückgeben von Bits [31-0] der Quelle in Bits [31-0] eines 128-Bit-Zielregisters; – Zurückgeben von Bits [31-0] der Quelle in Bits [63-32] des Zielregisters; – Zurückgeben von Bits [95-64] der Quelle in Bits [95-64] des Zielregisters; und – Zurückgeben von Bits [95-64] der Quelle in Bits [127-96] des Zielregisters.
Verfahren nach Anspruch 49, bei dem die Quelle eine Speicherstelle ist.
Verfahren nach Anspruch 50, bei dem die Speicherstelle einen gepackten Einfach-Fließkommadatentyp enthält.
Verfahren nach Anspruch 51, bei dem die Quelle ein 128-Bit-Quellenregister ist.
Verfahren nach Anspruch 52, bei dem das 128-Bit-Quellenregister einen gepackten Einfach-Fließkommadatentyp enthält.
Computerprogrammprodukt auf einem computerlesbaren Medium, auf dem Anweisungen gespeichert sind, die, wenn sie durch den Prozessor ausgeführt werden, die folgenden Aktionen des Prozessors bewirken: Laden von Bits [127-0] einer Quelle; Zurückgeben von Bits [31-0] der Quelle in Bits [31-0] eines 128-Bit-Zielregisters; Zurückgeben von Bits [31-0] der Quelle in Bits [63-32] des Zielregisters; Zurückgeben von Bits [95-64] der Quelle in Bits [95-64] des Zielregisters; und Zurückgeben von Bits [95-64] der Quelle in Bits [127-96] des Zielregisters.
Computerprogrammprodukt nach Anspruch 54, bei dem die Quelle eine Speicherstelle ist.
Computerprogrammprodukt nach Anspruch 55, bei dem die Speicherstelle einen gepackten Einfach-Fließkommadatentyp enthält.
Computerprogrammprodukt nach Anspruch 54, bei dem die Quelle ein 128-Bit-Quellenregister ist.
Computerprogrammprodukt nach Anspruch 57, bei dem das 128-Bit-Quellenregister einen gepackten Einfach-Fließkommadatentyp enthält.