DE102009051388A1

DE102009051388A1 - Technik zur Förderung effizienter Befehlsfusion

Info

Publication number: DE102009051388A1
Application number: DE102009051388A
Authority: DE
Inventors: Ido Ouziel; Lihu Rappoport; Robert Valentine; Ron Gabor; Pankaj Hillsboro Raghuvanshi
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2008-10-30
Filing date: 2009-10-30
Publication date: 2010-05-06
Also published as: TWI455023B; US20100115248A1; WO2010056511A2; KR101258762B1; CN103870243A; BRPI0920782B1; BRPI0920782A2; US20170003965A1; US20160246600A1; BRPI0904287A2; WO2010056511A3; US20160378487A1; CN103870243B; JP2012507794A; CN101901128A; US9690591B2; CN101901128B; JP5902285B2; KR20110050715A; TW201032129A

Abstract

Eine Technik, um eine wirksame Befehlsfusion innerhalb eines Computersystems zu ermöglichen. Bei einer Ausführungsform verzögert eine Prozessorlogik die Verarbeitung eines zweiten Befehls für eine begrenzte Zeit, wenn ein erster Befehl innerhalb einer Befehlswarteschlange mit dem zweiten Befehl fusionierbar ist.

Description

Gebiet der Erfindung
Erfindungsgemäße Ausführungsformen betreffen im Allgemeinen das Gebiet der Datenverarbeitung und spezieller das Gebiet der Befehlsfusion in Computersystemen und Mikroprozessoren.
Hintergrund
Befehlsfusion ist ein Prozess, der zwei Befehle zu einem einzigen Befehl kombiniert, der zu einer Sequenz mit nur einer Operation (oder Mikrooperation, „uOP”) innerhalb eines Prozessors führt. Befehle, die in einer Befehlswarteschlange (Instruction Queue, IQ) eines Prozessors gespeichert sind, können „fusioniert” werden, nachdem sie aus der IQ ausgelesen wurden und bevor sie an Befehlsdecoder gesendet werden oder nachdem sie von den Befehlsdecodern decodiert wurden. Typischerweise wird eine Befehlsfusion, die auftritt, bevor der Befehl decodiert wird, als „Makro-Fusion” bezeichnet, wobei eine Befehlsfusion, die auftritt, nachdem der Befehl decodiert wurde (in uOPs beispielsweise), als „Mikro-Fusion” bezeichnet wird. Ein Beispiel einer Makro-Fusion ist die Kombination eines Vergleichsbefehls („CMP”) oder eines Testbefehls („TEST”) („CMP/TEST”) mit einem bedingten Sprungbefehl („JCC”). CMP/TEST und JCC Befehlspaare können regelmäßig in Programmen am Ende von Schleifen auftreten, beispielsweise dort, wo ein Vergleich durchgeführt wird und, basierend auf dem Ergebnis eines Vergleichs, ein Zweig genommen oder nicht genommen wird. Da Makro-Fusion den Befehlsdurchsatz wirksam steigern kann, kann es wünschenswert sein, so viele Gelegenheiten zur Befehlsfusion zu finden wie möglich.
Damit Befehlsfusionsgelegenheiten in einigen Prozessor-Mikroarchitekturen nach Stand der Technik gefunden werden, müssen sowohl die CMP/TEST als auch die JCC Befehle gleichzeitig in der IQ verbleiben, sodass sie fusioniert werden können, wenn die Befehle aus der IQ ausgelesen werden. Wenn es jedoch einen fusionierbaren CMP/TEST Befehl in der IQ gibt und keine weiteren Befehle in die IQ geschrieben wurden (d. h. der CMP/TEST Befehl ist der letzte Befehl in der IQ), kann der CMP/TEST Befehl aus der IQ ausgelesen werden und ohne fusioniert zu werden an den Decoder gesendet werden, auch wenn der nächste Befehl im Programmablauf ein JCC Befehl ist. Ein Beispiel, wo eine verfehlte Fusionsgelegenheit auftreten kann, ist, wenn der CMP/TEST und der JCC zufällig über eine Speichergrenze gehen (z. B. 16-Byte-Grenze), was dazu führt, dass der CMP/TEST in einem Zyklus in die IQ geschrieben wird und der JCC im darauffolgenden Zyklus geschrieben wird. Wenn es in diesem Fall keine blockierenden Bedingungen gibt, wird der JCC zur gleichen Zeit in die IQ geschrieben oder nachdem der CMP/TEST aus der IQ ausgelesen wurde, wodurch eine Fusionsgelegenheit verfehlt wird, was zu vielfachen unnötigen Lesezugriffen der IQ, verringertem Befehlsdurchsatz und übermäßigem Energieverbrauch führt.
Kurze Beschreibung der Zeichnungen
Erfindungsgemäße Ausführungsformen werden exemplarisch und in keiner Weise einschränkend in den Figuren der begleitenden Zeichnungen dargestellt, wobei gleiche Bezugsnummern zum Verweis auf ähnliche Elemente verwendet werden und in denen:
1 ein Blockdiagramm eines Mikroprozessors zeigt, bei dem mindestens eine erfindungsgemäße Ausführungsform verwendet werden kann;
2 ein Blockdiagramm eines gemeinsam genutzten Computer-Bussystems zeigt, bei dem mindestens eine erfindungsgemäße Ausführungsform verwendet werden kann;
3 ein Blockdiagramm einer Punkt-zu-Punkt-Kopplungsstruktur eines Computersystems zeigt, bei der mindestens eine erfindungsgemäße Ausführungsform verwendet werden kann;
4 ein Blockdiagramm einer Zustandsmaschine zeigt, die zur Implementierung mindestens einer erfindungsgemäßen Ausführungsform verwendet werden kann;
5 ein Ablaufdiagramm von Operationen ist, die zur Ausführung von mindestens einer erfindungsgemäßen Ausführungsform verwendet werden können.
6 ein Ablaufdiagramm von Operationen ist, die in mindestens einer erfindungsgemäßen Ausführungsform ausgeführt werden können.
Ausführliche Beschreibung
Erfindungsgemäße Ausführungsformen können verwendet werden, um den Befehlsdurchsatz in einem Prozessor zu verbessern und/oder den Energieverbrauch des Prozessors zu verringern. Was bei einer Ausführungsform sonst verfehlte Gelegenheiten zur Befehlsfusion wären, werden gefunden, und als Ergebnis kann eine Befehlsfusion auftreten. Bei einer Ausführungsform werden vermeintlich verfehlte Befehlsfusionsgelegenheiten gefunden, indem der Lesezugriff eines letzten Befehls aus einer Befehlswarteschlange (IQ) oder die Ausgabe des Lesezugriffs des letzten Befehls von der IQ an eine Decodierungsphase für eine begrenzte Anzahl von Zyklen verzögert wird, sodass jegliche darauffolgende fusionierbaren Befehle abgerufen und in der IQ gespeichert werden können (oder zumindest identifiziert werden können, ohne notwendigerweise in der IQ gespeichert zu werden) und daraufhin mit dem letzten fusionierbaren Befehl fusioniert werden können. Bei einer Ausführungsform kann die Verzögerung des Lesezugriffs oder Ausgabe eines ersten fusionierbaren Befehls durch eine begrenzte Anzahl von Zyklen die Prozessorleistung verbessern, da dies zwei ansonsten fusionierbare Befehle vermeiden kann, die anstatt als ein einziger Befehl, getrennt decodiert und verarbeitet werden.
Die Auswahl des Grenzwertes für die Anzahl von Wartezyklen kann von der Mikroarchitektur abhängen, in der eine spezielle Ausführungsform verwendet wird. Bei einer Ausführungsform beispielsweise kann der Grenzwert für die Anzahl von Zyklen zwei sein, wobei der Grenzwert für die Anzahl von Zyklen bei anderen Ausführungsformen mehr oder weniger als zwei betragen kann. Bei einer Ausführungsform stellt der Grenzwert für die Anzahl von Wartezyklen die maximale Wartezeit auf einen darauffolgenden fusionierbaren Befehl bereit, der in die IQ gespeichert werden soll, während ein allgemeiner Latenz-/Leistungsvorteil beim Warten auf den darauffolgenden fusionierbaren Befehl gegenüber der Verarbeitung der fusionierbaren Befehle als individuelle Befehle aufrechterhalten wird. Bei anderen Ausführungsformen, bei denen die Leistung entscheidender ist, könnte beispielsweise der Grenzwert für die Anzahl von Wartezyklen höher sein, um sicherzustellen, dass zusätzliche Leistung nicht verwendet wird, um die beiden fusionierbaren Befehle getrennt zu verarbeiten, auch wenn die Anzahl von Wartezyklen zu einer Verringerung (sei es auch nur vorübergehend) beim Befehlsdurchsatz führen kann.
1 zeigt einen Mikroprozessor, bei dem mindestens eine erfindungsgemäße Ausführungsform verwendet werden kann. Insbesondere zeigt 1 einen Mikroprozessor 100, der einen oder mehrere Prozessorkerne 105 und 110 besitzt, von denen jeder mit einem lokalen Cache 107 bzw. 113 verbunden ist. 1 zeigt auch einen gemeinsam genutzten Cache-Speicher 115, der Versionen von mindestens einem Teil der Informationen speichern kann, die in jedem der lokalen Caches 107 und 113 gespeichert sind. Bei einigen Ausführungsformen kann Mikroprozessor 100 auch andere Logik umfassen, die nicht in 1 gezeigt wird, wie z. B. einen integrierten Memory-Controller, einen integrierten Grafikcontroller, sowie weitere Logik, um andere Funktionen innerhalb eines Computersystems, wie z. B. die Eingangs/Ausgangs-(I/O- Input/Output)-Steuerung, auszuführen. Bei einer Ausführungsform kann jeder Mikroprozessor in einem Mehrprozessorsystem oder jeder Prozessorkern in einem Mehrkernprozessor Logik 119 enthalten oder anderweitig damit in Verbindung stehen, um Interrupt-Kommunikationstechniken in Übereinstimmung mit mindestens einer Ausführungsform zu ermöglichen. Die Logik kann Schaltungen, Software oder beides beinhalten, um eine wirksamere Fusion von Befehlen zu ermöglichen als in einigen Implementierungen nach Stand der Technik.
Bei einer Ausführungsform kann Logik 119 Logik beinhalten, um die Wahrscheinlichkeit von verfehlten Befehlsfusionsgelegenheiten zu verringern. Bei einer Ausführungsform verzögert Logik 119 den Lesezugriff eines ersten Befehls (z. B. CMP) aus der IQ, wenn es keinen darauffolgenden, in der IQ gespeicherten Befehl oder eine andere abgerufene Befehlsspeicherstruktur gibt. Bei einer Ausführungsform löst die Logik 119 den Lesezugriff oder die Ausgabe eines ersten fusionierbaren Befehls für eine begrenzte Anzahl von Zyklen (z. B. zwei Zyklen) aus, bevor die IQ gelesen oder der erste fusionierbare Befehl an einen Decoder oder andere verarbeitende Logik ausgegeben wird, derart, dass die Gelegenheit, die beiden fusionierbaren Befehle zu fusionieren, wenn es einen zweiten fusionierbaren Befehl gibt, der mit dem ersten Befehl, der noch nicht in der IQ gespeichert ist (beispielsweise aufgrund der zwei fusionierbaren Befehle, die in einem Speicher oder Cache in verschiedenen Speichergrenzen gespeichert sind), fusioniert werden kann, nicht verfehlt werden kann. Bei einigen Ausführungsformen kann der Grenzwert unveränderlich sein, während er bei anderen Ausführungsformen variabel, von einem Benutzer oder gemäß einem benutzerunabhängigen Algorithmus modifizierbar sein kann. Bei einer Ausführungsform ist der erste fusionierbare Befehl ein CMP Befehl und der zweite fusionierbare Befehl ist ein JCC Befehl. Bei anderen Ausführungsformen können entweder der erste oder der zweite Befehl oder beide kein CMP oder JCC Befehl sein, sondern irgendwelche fusionierbare Befehle. Außerdem können erfindungsqgemäße Ausführungsformen zur Fusion von mehr als zwei Befehlen angewendet werden.
2 zeigt beispielsweise ein Front-Side-Bus-(FSB)-Computersystem, bei dem eine erfindungsgemäße Ausführungsform verwendet werden kann. Jeder Prozessor 201, 205, 210 oder 215 kann auf Informationen von jedem lokalen Level Eins-(L1)-Cache-Speicher 220, 225, 230, 235, 240, 245, 250, 255 innerhalb oder anderweitig in Verbindung mit einem der Prozessorkerne 223, 227, 233, 237, 243, 247, 253, 257 stehend zugreifen. Außerdem kann jeder Prozessor 201, 205, 210 oder 215 auf Informationen von jedem der gemeinsam genutzten Level Zwei-(L2)-Caches 203, 207, 213, 217 oder vom Systemspeicher 260 über den Chipsatz 265 zugreifen. Ein Prozessor oder mehrere der Prozessoren in 2 können Logik 219 beinhalten oder anderweitig damit in Verbindung stehen, um eine verbesserte Wirksamkeit von Befehlsfusion in Übereinstimmung mit mindestens einer Ausführungsform zu ermöglichen.
Zusätzlich zu dem in 2 gezeigten FSB-Computersystem können andere Systemkonfigurationen in Verbindung mit verschiedenen erfindungsgemäßen Ausführungsformen, einschließlich Punkt-zu-Punkt-(P2P)-Kopplungssysteme und Ringkopplungssysteme, verwendet werden. Das P2P-System nach 3 kann beispielsweise mehrere Prozessoren umfassen, von denen nur zwei, nämlich Prozessor 370, 380, exemplarisch gezeigt werden. Die Prozessoren 370, 380 können je einen lokalen Memory-Controller-Hub (MCH) 372, 382 für die Verbindung mit dem Speicher 32, 34 enthalten. Die Prozessoren 370, 380 können über eine Punkt-zu-Punkt-(PtP)-Schnittstelle 350 unter Verwendung von PtP-Schnittstellenschaltungen 378, 388 Daten austauschen. Die Prozessoren 370, 380 können mit einem Chipsatz 390 über einzelne PtP-Schnittstellen 352, 354 Daten austauschen, wobei die Punkt-zu-Punkt-Schnittstellenschaltungen 376, 394, 386, 398 verwendet werden. Der Chipsatz 390 kann auch mit einer Hochleistungsgrafikschaltung 338 über eine Hochleistungsgrafikschnittstelle 339 Daten austauschen. Erfindungsgemäße Ausführungsformen können innerhalb jedes Prozessors mit beliebiger Anzahl an Prozessorkernen oder innerhalb jedes PtP-Bus-Agenten von 3 angeordnet sein. Bei einer Ausführungsform kann jeder Prozessorkern einen lokalen Cache-Speicher (nicht abgebildet) enthalten oder anderweitig damit in Verbindung stehen. Außerdem kann in jedem Prozessor ein gemeinsam genutzter Cache (nicht abgebildet) außerhalb von den beiden Prozessoren enthalten sein, der jedoch mit den Prozessoren über die P2P-Kopplungsstruktur derart verbunden ist, dass eine oder beide der lokalen Cache-Informationen der Prozessoren im gemeinsam genutzten Cache gespeichert werden können, wenn ein Prozessor in einen Energiesparmodus versetzt wird. Ein Prozessor oder mehrere der Prozessoren oder Kerne in 3 können Logik 319 enthalten oder anderweitig damit in Verbindung stehen, um eine verbesserte Wirksamkeit von Befehlsfusion in Übereinstimmung mit mindestens einer Ausführungsform zu ermöglichen.
Bei mindestens einer Ausführungsform kann ein zweiter fusionierbarer Befehl nicht in eine IQ gespeichert werden, bevor eine Zwischenoperation eintritt (die zwischen einem ersten und zweiten fusionierbaren Befehl eintritt), wie beispielsweise eine IQ Leerungsoperation, die eine verfehlte Gelegenheit veranlasst, die beiden ansonsten fusionierbaren Befehle zu fusionieren. Bei einer Ausführungsform bei der ein Cache (oder ein Puffer) verwandte Sequenzen decodierter Befehle (nachdem sie aus der IQ ausgelesen und decodiert wurden) oder uOPs (z. B. „decoded stream buffer – Puffer für den decodierten Datenstrom” oder „DSB”, „Trace-Cache” oder „TC”), die für die Ausführung durch den Prozessor gescheduled werden müssen (eventuell mehrfach), speichert, kann eine erste fusionierbare uOP (z. B. CMP) in dem Cache ohne eine fusionierbare zweite uOP (z. B. JCC) innerhalb desselben adressierbaren Bereichs (z. B. gleicher Cache-Weg) gespeichert werden. Dies kann beispielsweise eintreten, wo ein JCC eine Cache-Line kreuzt (aufgrund eines Cache-Miss) oder wo er eine Seitengrenze kreuzt (aufgrund eines Translation Lookaside Buffer Miss), wobei in diesem Fall der Cache den CMP ohne den JCC speichern kann. Wenn anschließend die Prozessorkernpipeline geleert ist (beispielsweise aufgrund eines zugesicherten „Leerungs”-Signals) nachdem der CMP gespeichert wurde, aber bevor der JCC in dem Cache gespeichert wird, speichert der Cache nur den CMP auf eine Art ohne den JCC.
Bei darauffolgenden Lookups in der den CMP speichernden Cache-Line kann der Cache den fehlenden JCC als einen verfehlten Zugriff interpretieren und der JCC kann als der Anfügepunkt für die nächste Operation zum Füllen des Caches markiert werden. Dieser Anfügepunkt kann jedoch nicht gefunden werden, da der CMP + JCC als fusioniert aus der IQ ausgelesen werden können. Daher kann der angefragte JCC keiner zu füllenden uOP entsprechen, die von der IQ kommt und somit ist der Cache nicht in der Lage, den fehlenden JCC zu füllen, sondern verfehlt ständig auf der Linie, auf der der fusionierte CMP + JCC erwartet wird. Außerdem kann bei einer Ausführungsform, bei der eine ausstehende Füllanfragewarteschlange (PFRQ) zur Speicherung von uOP-Cachefüllanfragen verwendet wird, ein Eintrag, der für eine spezielle fusionierte Befehlsfüllung reserviert war, nicht freigegeben werden (da die erwartete fusionierte Befehlsfüllung niemals stattfindet) und er kann bis zur nächsten Leerungsoperation nutzlos bleiben. Bei einer Ausführungsform kann eine Sperre eines PFRQ Eintrags jedes Mal auftreten, wenn auf den verfehlten fusionierten Befehlseintrag zugegriffen wird, und kann daher jegliche darauffolgenden Füllungen derselben Stelle verhindern.
Um eine fehlerhafte oder unerwünschte Sperre des PFRQ Eintrags zu verhindern, kann bei einer Ausführungsform eine Zustandsmaschine verwendet werden, um die uOPs zu überwachen, die aus der IQ ausgelesen werden, um Fälle aufzudecken, in denen eine Region, die einen entsprechenden PFRQ Eintrag aufweist (z. B. eine für eine Füllung markierte Region), aufgrund von beispielsweise der letzten uOP des Eintrags, die erreicht wurde, ohne dass der Füllstartpunkt aufgedeckt wurde, vollständig verfehlt wurde. Bei einer Ausführungsform kann die Zustandsmaschine zu einer Freigabe des PFRQ Eintrags führen, wenn diese Bedingung erfüllt wird. Bei anderen Ausführungsformen kann eine unerwünschte Sperre des PFRQ Eintrags vermieden werden, indem innerhalb des Caches kein fusionierbarer Befehl erzeugt wird, der aus der IQ ausgelesen werden kann, ohne dass beide fusionierbaren Befehle anstehen. Wenn beispielsweise ein nicht-JCC Befehl auf einen CMP folgt, kann ein fusionierter Befehlseintrag in dem Cache erzeugt werden, aber nur, wenn der CMP aus der IQ alleine ausgelesen wird (nachdem beispielsweise der Grenzwert für die Wartezeit überschritten wird), wird der fusionierte Befehlseintrag nicht in den Cache gefüllt. Bei anderen Ausführungsformen kann gezählt werden, wie oft die Zustandsmaschine eine Füllregion entdeckt hat, die übersprungen wurde, ein Cache-Flush oder eine Entwertungsoperation kann ausgeführt werden, nachdem die Füllregion begrenzt oft übersprungen wurde. Die Füllregion kann dann aus dem Cache entfernt werden und der fusionierte Befehl kann dann erneut gefüllt werden.
4 zeigt eine Zustandsmaschine gemäß einer Ausführungsform, die verwendet werden kann, um unerwünschte PFRQ-Eintragssperrbedingungen aufgrund eines verfehlten fusionierbaren Befehls in der IQ zu verhindern. In Zustand 401, in dem die Befehle in der IQ sich nicht in einer Region befinden, die zur Füllung markiert ist, gibt ein „Füllregion Start”-Signal an, dass die IQ bereit ist, einen Befehl zu verarbeiten, der einer Füllregion zugeordnet ist (ein Befehl von der Füllregion gemäß dem Cache-Hashing), aber sie fängt nicht an dem in der PFRQ 405 gespeicherten linearen Befehlszeiger („LIP”) an. Dies kann dazu führen, dass die Zustandsmaschine zu Zustand 410 übergeht. Wenn der nächste Befehl in der IQ (der bald decodiert wird) eine Füllregion beendet (z. B. eine Linie beendet, wie vom Cache gehashed, oder ein genommener Zweig ist), dann veranlasst die Zustandsmaschine die Freigabe 415 des entsprechenden PFRQ Eintrags und die Zustandsmaschine kehrt zu Zustand 401 zurück. Wenn jedoch der Füllzeiger dem Füllregions-LIP 430 entspricht, während er sich entweder im Zustand 401 oder im Zustand 410 befindet, tritt die Zustandsmaschine in Zustand 420 ein, in dem der Zugriff innerhalb der Füllregion und nach dem Füllstartpunkt ist. Von Zustand 420 bringt eine letzte uOP in der Füllregionanzeige 425 die Zustandsmaschine zu Zustand 401 zurück, ohne den entsprechenden PFRQ Eintrag frei zu geben. Die Zustandsmaschine in 4 kann in Hardwarelogik, Software oder einer Kombination davon implementiert sein. Bei anderen Ausführungsformen können andere Zustandsmaschinen oder Logik verwendet werden.
5 zeigt ein Ablaufdiagramm von Operationen, die in Verbindung mit mindestens einer erfindungsgemäßen Ausführungsform verwendet werden können. Bei Operation 501 wird ermittelt, ob der Befehl in der IQ, auf den gerade zugegriffen wird, mit irgendeinem darauffolgenden Befehl fusionierbar ist. Ist dies nicht der Fall, dann wird bei Operation 505 von der IQ auf den nächsten Befehl zugegriffen und der Verzögerungszähler wird zurückgesetzt. Ist dies der Fall, dann wird bei Operation 510 ein Verzögerungszähler hochgezählt und bei Operation 515 wird ermittelt, ob ein Grenzwert für die Anzahl der Verzögerungen erreicht ist. Wenn nicht, dann wird bei Operation 520 keine Befehlsfusion des Befehls ausgeführt, auf den gerade zugegriffen wird. Wenn ja, dann wird auf den nächsten Befehl von der IQ zugegriffen und der Verzögerungszähler wird bei Operation 505 zurückgesetzt. Bei anderen Ausführungsformen können andere Operationen ausgeführt werden, um die Wirksamkeit der Befehlsfusion zu verbessern.
6 zeigt ein Ablaufdiagramm von Operationen, die in Verbindung mit mindestens einer Ausführungsform ausgeführt werden können. Um eine Ausführungsform in Prozessoren mit einer Vielzahl an Decoderschaltungen auszuführen, kann es hilfreich sein, sicher zu stellen, dass der erste fusionierbare Befehl auf einer bestimmten Decoderschaltung decodiert wird, die in der Lage ist, den fusionierten Befehl zu decodieren. In 6 wird ermittelt, ob ein bestimmter Befehl ein erster Befehl eines fusionierten Befehlspaares bei Operation 601 sein kann. Wenn nicht, dann werden die fusionierten Befehle bei Operation 605 ausgegeben. Wenn ja, dann wird ermittelt, ob auf den ersten fusionierbaren Befehl ein gültiger Befehl in der IQ bei Operation 610 folgt. Wenn ja, dann werden die fusionierten Befehle bei Operation 610 ausgegeben. Wenn nicht, dann wird bei Operation 615 ermittelt, ob der erste fusionierbare Befehl an einen Decoder ausgegeben werden soll, der in der Lage ist, den fusionierten Befehl zu unterstützen. Bei einer Ausführungsform ist Decoder-0 in der Lage, die fusionierten Befehle zu decodieren. Wenn der erste fusionierbare Befehl nicht an Decoder-0 ausgegeben wurde, dann wird bei Operation 620 der erste fusionierbare Befehl an einen anderen Decoder weitergegeben oder „genuked”, bis er mit Decoder-0 übereinstimmt. Bei Operation 625 wird ein Zähler auf einen Ausgangswert N gesetzt und bei Operation 630 werden dann, wenn auf den Befehl ein gültiger Befehl folgt oder der Zähler Null ist, die fusionierten Befehle bei Operation 635 ausgegeben. Ansonsten wird bei Operation 640 der Zähler heruntergezählt und der ungültige Befehl wird genuked. Bei anderen Ausführungsformen kann der Zähler bis zu einem Endwert hochzählen. Bei anderen Ausführungsformen können andere Operationen außer einer Nuke-Operation den ungültigen Befehl löschen.
Einer oder mehrere Aspekte mindestens einer Ausführungsform können implementiert werden, indem die hier beschriebenen Techniken durch repräsentative Daten ausgeführt werden, die auf einem maschinenlesbaren Datenträger gespeichert sind, welcher verschiedene Logiken innerhalb des Prozessors repräsentiert, die beim Lesezugriff durch eine Maschine die Maschine veranlassen, die Logik zu fabrizieren. Solche Repräsentationen, auch als „IP-Kerne” bekannt, können auf einem konkreten, maschinenlesbaren Datenträger („Band”) gespeichert und an verschiedene Kunden oder Fertigungsanlagen geliefert werden, wo sie in Fabrikationsmaschinen geladen werden, welche eigentlich die Logik oder den Prozessor herstellen.
Somit wurden hier ein Verfahren und eine Vorrichtung für die Leitung von Zugriffen auf Mikroarchitektur-Speicherregionen beschrieben. Es ist offenbar, dass die vorstehende Beschreibung rein illustrativ und in keiner Weise einschränkend ist. Viele andere Ausführungsformen sind für Fachleute offenkundig, nachdem sie die vorstehende Beschreibung gelesen und verstanden haben. Der Umfang der Erfindung ist deshalb mit Verweis auf die angehängten Ansprüche festgelegt, zusammen mit dem vollen Umfang von gleichwertigen Ausführungen, zu denen die Ansprüche berechtigen.

Claims

Vorrichtung, die aufweist: eine Befehlswarteschlange (IQ); Logik zur Verzögerung der Verarbeitung eines ersten fusionierbaren Befehls für eine begrenzte Zeit, derart, dass ein zweiter fusionierbarer Befehl, der mit dem ersten fusionierbaren Befehl fusionierbar ist, mit dem ersten fusionierbaren Befehl fusioniert werden kann, wenn der zweite fusionierbare Befehl innerhalb der IQ innerhalb der begrenzten Zeit gespeichert ist.
Vorrichtung nach Anspruch 1, wobei der erste fusionierbare und der zweite fusionierbare Befehl über eine Abrufgrenze gespeichert sind, bevor sie in der IQ gespeichert werden.
Vorrichtung nach Anspruch 1, wobei die Logik die Verarbeitung des ersten fusionierbaren Befehls nur verzögern soll, wenn der erste fusionierbare Befehl der letzte Befehl ist, der in der IQ gespeichert ist.
Vorrichtung nach Anspruch 1, wobei die Logik einen Zähler beinhaltet, der einmal für jeden Zyklus hochgezählt werden soll, nachdem der erste fusionierbare Befehl in der IQ gespeichert wurde und er der letzte Befehl in der IQ ist, bis ein Grenzwert für die Anzahl von Zyklen entsprechend des zeitlichen Grenzwertes erreicht ist.
Vorrichtung nach Anspruch 1, weiter umfassend eine Zustandsmaschine, um zu verhindern, dass eine Füllpufferanfragewarteschlange (FBRQ) einen Eintrag sperrt, der dem ersten und zweiten fusionierbaren Befehl entspricht, wenn ein Zwischenbefehl zwischen dem ersten in der IQ gespeicherten Befehl und dem zweiten in der IQ gespeicherten Befehl ausgeführt wird.
Vorrichtung nach Anspruch 5, wobei der Zwischenbefehl dafür sorgen soll, dass die IQ geleert wird.
Verfahren, umfassend: zu ermitteln, ob der Befehl innerhalb einer Befehlswarteschlange (IQ), auf den gerade zugegriffen wird, mit irgendeinem darauffolgenden Befehl, der in die IQ gespeichert werden soll, fusionierbar ist; auf einen nächsten Befehl aus der IQ zuzugreifen und den Verzögerungszähler zurückzusetzen, wenn der Befehl, auf den gerade zugegriffen wird, nicht mit einem darauffolgenden Befehl fusioniert werden kann, der in der IQ gespeichert werden soll; den Verzögerungszähler hochzuzählen, wenn ein Befehl, auf den gerade zugegriffen wird, fusionierbar ist und dieser der letzte Befehl in der IQ ist.
Verfahren nach Anspruch 7, weiter umfassend das Fusionieren des Befehls auf den gerade zugegriffen wird, mit dem darauffolgenden Befehl, wenn der erste und zweite Befehl fusionierbar sind und der Verzögerungszähler noch keinen Grenzwert erreicht hat.
Verfahren nach Anspruch 8, weiter umfassend das Verarbeiten des Befehls auf den gerade zugegriffen wird, getrennt von dem darauffolgenden Befehl, wenn der erste und zweite Befehl nicht fusionierbar sind.
Verfahren nach Anspruch 8, weiter umfassend das Verarbeiten des Befehls auf den gerade zugegriffen wird, getrennt von dem darauffolgenden Befehl, wenn der Verzögerungszähler den Grenzwert erreicht hat.
Verfahren nach Anspruch 7, weiter umfassend zu verhindern, dass eine Füllpufferanfragewarteschlange (FBRQ) einen Eintrag sperrt, der dem Befehl, auf den gerade zugegriffen wird, und den darauffolgenden Befehlen entspricht, wenn sie fusionierbar sind und ein Zwischenevent ausgeführt wird, bevor der darauffolgende Befehl in einem Cache gespeichert wird und nachdem der Befehl, auf den gerade zugegriffen wird, in dem Cache gespeichert ist.
System, umfassend: einen Speicher zum Speichern eines ersten und zweiten fusionierbaren Befehls innerhalb einer ersten bzw. zweiten Zugriffsgrenze; einen Prozessor mit Abruflogik zum Abrufen des ersten und zweiten fusionierbaren Befehls in eine Befehlswarteschlange (IQ); Verzögerungslogik zum Verzögern der Lesezugriffe des ersten fusionierbaren Befehls von der IQ für eine begrenzte Anzahl von Zyklen; Befehlsfusionslogik zum Fusionieren des ersten und zweiten fusionierbaren Befehls, wenn der zweite fusionierbare Befehl nach dem ersten fusionierbaren Befehl in der IQ gespeichert wird und bevor der Grenzwert für die Anzahl von Zyklen erreicht wurde.
System nach Anspruch 12, weiter umfassend einen Zähler zum Hochzählen, wenn der erste fusionierbare Befehl der einzige Befehl in der IQ ist und zum Stoppen des Zählens, wenn der Grenzwert für die Anzahl von Zyklen erreicht wurde.
System nach Anspruch 13, wobei der Zähler zurückgesetzt werden muss, wenn der zweite fusionierbare Befehl in der IQ gespeichert wird, bevor der Grenzwert für die Anzahl von Zyklen erreicht wurde.
System nach Anspruch 13, wobei der Zähler zurückgesetzt werden muss, wenn der zweite fusionierbare Befehl in der IQ gespeichert wird, bevor der Grenzwert für die Anzahl von Zyklen erreicht wurde.
System nach Anspruch 12, wobei der Speicher einen Befehls-Cache beinhaltet und die Größenordnungen der ersten und zweiten Grenze jeweils 64 Byte betragen.
System nach Anspruch 12, wobei der Speicher einen dynamischen Random-Access Speicher beinhaltet und die Größenordnungen der ersten und zweiten Grenze jeweils 4096 Byte betragen.
System nach Anspruch 12, wobei der erste fusionierbare Befehl ein CMP/TEST Befehl ist und der zweite fusionierbare Befehl ein JCC Befehl ist.
System nach Anspruch 18, wobei der Grenzwert für die Anzahl von Zyklen zwei beträgt.
System nach Anspruch 12, weiter beinhaltend eine Zustandsmaschine, um zu verhindern, dass eine Füllpufferanfragewarteschlange (FBRQ) einen Eintrag sperrt, der dem ersten und zweiten Befehl entspricht, wenn ein Zwischenevent zwischen dem ersten fusionierbaren Befehl, der in dem Cache gespeichert ist, und dem zweiten fusionierbaren Befehl, der in dem Cache gespeichert ist, ausgeführt wird.