DE112015004983T5

DE112015004983T5 - Parallel-Slice-Prozessor mit einer Lade-Speicher-Umlaufwarteschlange für eine schnelle Freigabe von Einträgen in einer Ausgabewarteschlange

Info

Publication number: DE112015004983T5
Application number: DE112015004983.5T
Authority: DE
Inventors: Sundeep Chadha; David Allen Hrusecky; Dung Quoc Nguyen; Hung Qui Le; Brian William Thompto; Robert Allen Cordes; Salma Ayub
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-01-13
Filing date: 2015-12-29
Publication date: 2017-09-07
Also published as: US20210406023A1; US11150907B2; GB201712270D0; US11734010B2; GB2549907A; GB2549907B; JP2018501564A; US20160202988A1; JP6628801B2; US20160202986A1; US20180336036A1; WO2016113105A1; US20230273793A1; US10133576B2

Abstract

Eine Ausführungseinheitsschaltung zur Verwendung in einem Prozessorkern stellt eine effiziente Nutzung von Chipfläche und Energie bereit, indem die Speicheranforderung der einzelnen Einträge in einer Ausgabewarteschlange einer Lade-Speicher-Einheit verringert wird. Die Ausführungseinheitsschaltung beinhaltet eine Umlaufwarteschlange, welche die effektive Adresse der Lade- und Speicher-Operationen sowie die Werte speichert, die durch die Speicher-Operationen gespeichert werden sollen. Eine Warteschlangen-Steuerungslogik steuert die Umlaufwarteschlange und die Ausgabewarteschlange, so dass, nachdem die effektive Adresse einer Lade- oder Speicher-Operation berechnet wurde, die effektive Adresse der Lade-Operation oder der Speicher-Operation in die Umlaufwarteschlange geschrieben wird und die Operation aus der Ausgabewarteschlange entfernt wird, so dass Adressoperanden und andere Werte, die sich in der Ausgabewarteschlange befunden haben, nicht mehr gespeichert werden müssen. Wenn eine Lade- oder Speicher-Operation durch die Cache-Einheit zurückgewiesen wird, wird sie daraufhin aus der Umlaufwarteschlange erneut ausgegeben.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf Verarbeitungssysteme und Prozessoren und im Besonderen auf einen mit Prozessorkern mit Pipelines, der Ausführungs-Slices mit einer Lade-Speicher-Umlaufwarteschlange beinhaltet.
Beschreibung der verwandten Technik
Bei heutigen Prozessorkernen dienen Pipelines dazu, mehrere Hardwarethreads auszuführen, die mehreren Instruktionsströmen entsprechen, so dass eine effizientere Nutzung von Prozessorressourcen bereitgestellt werden kann, indem Ressourcen gemeinsam genutzt werden und indem eine Ausführung auch dann gestattet ist, während ein oder mehrere Hardwarethreads auf ein Ereignis warten.
Bei vorhandenen Prozessorkernen und im Besonderen bei Prozessorkernen, die in mehrere Ausführungs-Slices aufgeteilt sind, werden Instruktionen dem/den Ausführungs-Slice/s zugeteilt und verbleiben so lange in der Ausgabewarteschlange, bis sie an eine Ausführungseinheit ausgegeben werden. Sobald eine Ausgabewarteschlange voll ist, können einem Slice normalerweise keine zusätzlichen Operationen mehr zugeteilt werden. Da die Ausgabewarteschlange nicht nur Operationen, sondern auch Operanden und Status-/Steuerungsdaten enthält, haben Ausgabewarteschlangen einen hohen Ressourcenbedarf und benötigen für ihre Realisierung ein erhebliches Maß an Energie und Chipfläche.
Somit wäre es wünschenswert, einen Prozessorkern mit geringeren Anforderungen der Ausgabewarteschlange bereitzustellen.
KURZDARSTELLUNG DER ERFINDUNG
Bevorzugte Ausführungsformen der Erfindung sind in einer Ausführungseinheitsschaltung, einem Prozessorkern, der die Ausführungseinheit beinhaltet, und einem Verfahren zum Betrieb des Prozessorkerns enthalten.
Die Ausführungseinheitsschaltung beinhaltet eine Ausgabewarteschlange, die einen Strom von Instruktionen wie z. B. Funktionsoperationen und Lade-Speicher-Operationen sowie mehrere Ausführungspipelines wie z. B. eine Lade-Speicher-Pipeline beinhaltet, die effektive Adressen von Lade-Operationen und Speicher-Operationen berechnet und die Lade-Operationen und Speicher-Operationen an eine Cache-Einheit ausgibt. Die Ausführungseinheitsschaltung beinhaltet zudem eine Umlaufwarteschlange, die Einträge, welche den Lade-Operationen und den Speicher-Operationen entsprechen, sowie eine Steuerungslogik zum Steuern der Ausgabewarteschlange, der Lade-Speicher-Pipeline und der Umlaufwarteschlange speichert. Die Steuerungslogik funktioniert dergestalt, dass, nachdem die Lade-Speicher-Pipeline die effektive Adresse einer Lade-Operation oder einer Speicher-Operation berechnet hat, die effektive Adresse der Lade-Operation oder der Speicher-Operation in die Umlaufwarteschlange geschrieben wird und die Lade-Operation oder die Speicher-Operation aus der Ausgabewarteschlange entfernt wird, so dass, wenn eine der Lade-Operationen oder Speicher-Operationen durch die Cache-Einheit zurückgewiesen wird, diese daraufhin aus der Umlaufwarteschlange an die Cache-Einheit erneut ausgegeben wird.
Die obigen und andere Zielsetzungen, Merkmale und Vorteile der Erfindung werden aus der folgenden genaueren Beschreibung der bevorzugten Ausführungsform der Erfindung offensichtlich, wie sie in den beigefügten Zeichnungen dargestellt ist.
KURZBESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNG
In den beigefügten Ansprüchen werden die als kennzeichnend für die Erfindung betrachteten neuartigen Merkmale dargelegt. Die Erfindung selbst jedoch, sowie eine bevorzugte Art der Verwendung, ihre weiteren Zielsetzungen und Vorteile, werden am deutlichsten unter Verweis auf die folgende ausführliche Beschreibung in Verbindung mit den beigefügten Figuren, bei denen gleichlautende Bezugszeichen für gleiche Komponenten stehen und:
1 ein Blockschaubild ist, das ein Datenverarbeitungssystem veranschaulicht, in dem Methoden gemäß einer Ausführungsform der vorliegenden Erfindung realisiert werden;
2 ein Blockschaubild ist, das Einzelheiten eines Prozessorkerns 20 veranschaulicht, der verwendet werden kann, um Prozessorkerne 204 und 20B aus 1 zu realisieren.
3 ein Blockschaubild ist, das Einzelheiten des Prozessorkerns 20 veranschaulicht.
4 ein Blockschaubild ist, das ein Verfahren zum Betreiben des Prozessorkerns 20 veranschaulicht.
5 ein Blockschaubild ist, das Einzelheiten eines Instruktionsausführungs-Slice 42AA veranschaulicht, der verwendet werden kann, um Instruktionsausführungs-Slices ES0 bis ES7 aus den 2 und 3 zu realisieren.
6 ein Blockschaubild ist, das Einzelheiten eines Lade-Speicher-Slice 44 und eines Cache-Slice 46 veranschaulicht, die verwendet werden können, um Lade-Speicher-Slices LS0 bis LS7 und Cache-Slices CS0 bis CS7 aus den 2 und 3 zu realisieren.
DETAILBESCHREIBUNG DER ERFINDUNG
Ein Beispiel der vorliegenden Erfindung bezieht sich auf einen Ausführungs-Slice, der in einem Prozessorkern enthalten ist und eine interne Ausgabewarteschlange verwaltet, indem Lade-Speicher-(LS-)Operationseinträge in eine Umlaufwarteschlange verschoben werden, nachdem die effektive Adresse (EA) der LS-Operation berechnet wurde. Die LS-Operationen werden an eine Cache-Einheit ausgegeben, und wenn sie zurückgewiesen werden, werden die LS-Operationen daraufhin nicht aus dem ursprünglichen Eintrag in der Ausgabewarteschlange, sondern aus der Umlaufwarteschlange erneut ausgegeben. Da die Einträge in der Umlaufwarteschlange bei Lade-Operationen nur eine Speicherung der EA und bei Speicher-Operationen nur eine Speicherung der EA und des Speicherwerts erfordern, verringert sich der Bedarf an Speicheroperationen, Energie und Chipfläche für eine gegebene Anzahl von ausstehenden Einträgen in der LS-Ausgabewarteschlange in dem Prozessor. Im Gegensatz hierzu haben die Einträge in der Ausgabewarteschlange einen hohen Chipflächen- und Energiebedarf, da Operanden, relative Adressen und andere Felder wie bedingte Flags gespeichert werden müssen, die für eine Ausführung der LS-Operationen nach Auflösung der EA nicht benötigt werden.
Mit Blick auf 1 wird ein Verarbeitungssystem gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das dargestellte Verarbeitungssystem beinhaltet eine Anzahl von Prozessoren 10A bis 10D, die alle einer Ausführungsform der vorliegenden Erfindung entsprechen. Das dargestellte Mehrprozessorsystem dient zur Veranschaulichung, und ein Verarbeitungssystem gemäß anderen Ausführungsformen der vorliegenden Erfindung beinhaltet Einprozessorsysteme mit Multithread-Kernen. Die Prozessoren 10A bis 10D weisen eine identische Struktur auf und beinhalten die Kerne 20A und 20B sowie einen lokalen Speicher 12, bei dem es sich um eine Cache-Ebene oder eine Ebene eines internen Systemarbeitsspeichers handeln kann. Die Prozessoren 10A und 10B sind verbunden mit einem Haupt-Systemarbeitsspeicher 14, einem Speicherteilsystem 16, das nicht entfernbare Laufwerke und optische Laufwerke beinhaltet, um Medien wie beispielsweise einen CD-ROM 17 zu betreiben, das ein Computerprogrammprodukt bildet und Programminstruktionen enthält, die im Allgemeinen mindestens ein Betriebssystem, zugehörige Anwendungsprogramme und optional einen Hypervisor realisieren, um die Partitionen mehrerer Betriebssysteme zur Ausführung durch die Prozessoren 10A bis 10D zu steuern. Das veranschaulichte Verarbeitungssystem beinhaltet zudem Eingabe/Ausgabe-(E/A-)Schnittstellen und Eingabe/Ausgabe-Einheiten 18 wie z. B. Mäuse und Tastaturen, um eine Benutzereingabe zu empfangen, sowie Grafikanzeigen zum Anzeigen von Informationen. Obwohl mit dem System aus 1 ein System veranschaulicht wird, in dem die Prozessorarchitektur der vorliegenden Erfindung realisiert wird, dürfte klar sein, dass die dargestellte Architektur nicht als Beschränkung zu verstehen ist und lediglich ein Beispiel für ein geeignetes Computersystem bereitstellen soll, in dem die Methoden der vorliegenden Erfindung angewendet werden.
Mit Blick auf 2 werden Einzelheiten eines beispielhaften Prozessorkerns 20 veranschaulicht, der verwendet werden kann, um die Prozessorkerne 20A und 20B aus 1 zu realisieren. Der Prozessorkern 20 beinhaltet einen Instruktionscache (ICache) 54 und einen Instruktionspuffer (IBUF) 31, die mehrere Instruktionsströme speichern, welche aus dem Cache oder dem Systemarbeitsspeicher abgerufen werden, und den Instruktionsstrom bzw. die Instruktionsströme über einen Bus 32 innerhalb von zwei Clustern CLA und CLB einer Mehrzahl von Zuteilungswarteschlangen Disp0 bis Disp7 bereitstellen. Die Steuerungslogik in dem Prozessorkern 20 steuert die Zuteilung von Instruktionen aus den Zuteilungswarteschlangen Disp0 bis Disp7 an eine Mehrzahl von Instruktionsausführungs-Slices ES0 bis ES7 über ein Zuteilungs-Routing-Netzwerk 36, das Instruktionen von jeder der Zuteilungswarteschlangen Disp0 bis Disp7 an jeden der Instruktionsausführungs-Slices ES0 bis ES7 in jedem der Cluster CLA und CLB gestattet, obwohl ein vollständiges Crosspoint-Routing, d. h. ein Routing von jeder Zuteilungswarteschlange zu jedem Slice, keine Anforderung der Erfindung darstellt. Bei bestimmten, weiter unten beschriebenen Konfigurationen wird die Zuteilung von Instruktionen aus den Zuteilungswarteschlangen Disp0 bis Disp3 in dem Cluster CLA auf die Ausführungs-Slices ES0 bis ES3 in dem Cluster CLA beschränkt, und entsprechend wird die Zuteilung von Instruktionen aus den Zuteilungswarteschlangen Disp4 bis Disp7 in dem Cluster CLB auf die Ausführungs-Slices ES4 bis ES7 beschränkt. Die Instruktionsausführungs-Slices ES0 bis ES7 führen nach Bedarf eine Sequenzierung und Ausführung von logischen, mathematischen und anderen Operationen durch, um den Ausführungszyklus-Teil von Instruktionszyklen für Instruktionen in den Instruktionsströmen durchzuführen, und können identische Universal-Instruktionsausführungs-Slices ES0 bis ES7 sein, oder der Prozessorkern 20 kann Spezial-Ausführungs-Slices ES0 bis ES7 beinhalten. Andere Spezial-Einheiten wie z. B. Verschlüsselungsprozessoren 34A und 34B, dezimale Gleitkommaeinheiten (Decimal Floating Point Units, DFUs) 33A und 33B sowie separate Verzweigungsausführungseinheiten (Branch Execution Units, BRU) 35A und 35B können ebenfalls enthalten sein, um die Universal-Ausführungs-Slices ES0 bis ES7 zum Durchführen anderer Aufgaben freizugeben. Die Instruktionsausführungs-Slices ES0 bis ES7 können mehrere interne Pipelines zum Ausführen mehrerer Instruktionen und/oder Teile von Instruktionen beinhalten.
Der Lade-Speicher-Teil des Instruktionsausführungszyklus (d. h. die Operationen, die zum Aufrechterhalten der Cachekonsistenz durchgeführt werden, im Gegensatz zu Lese/Schreib-Vorgängen in internen Registern) wird durch eine Mehrzahl von Lade-Speicher-Slices (LS-Slices) LS0 bis LS7 durchgeführt, die Lade- und Speicher-Operationen z. B. zwischen den Instruktionsausführungs-Slices ES0 bis ES7 und einem Cachespeicher verwalten, der durch eine Mehrzahl von Cache-Slices CS0 bis CS7 gebildet wird, bei denen es sich um Partitionen eines Cachespeichers der niedrigsten Ordnung handelt. In der abgebildeten Ausführungsform sind die Cache-Slices CS0 bis CS3 der Partition CLA und die Cache-Slices CS4 bis CS7 der Partition CLB zugewiesen, und jeder der Lade-Speicher-Slices LS0 bis LS7 verwaltet über einen entsprechenden Bus von dedizierten Speicherbussen 40 einen Zugriff auf einen entsprechenden Cache-Slice der Cache-Slices CS0 bis CS7. Bei anderen Ausführungsformen gibt es unter Umständen keine feste Aufteilung des Caches, und einzelne Cache-Slices CS0 bis CS7 oder Teilgruppen des gesamten Satzes von Cache-Slices können mit mehreren Lade-Speicher-Slices LS0 bis LS7 verbunden sein, indem die Speicherbusse 40 als ein gemeinsam genutzter Speicherbus bzw. als gemeinsam genutzte Speicherbusse verwendet werden. Die Lade-Speicher-Slices LS0 bis LS7 sind durch ein Rückschreib-(Ergebnis-)Routing-Netzwerk 37 mit den Instruktionsausführungs-Slices ES0 bis ES7 verbunden, um z. B. als Reaktion auf Lade-Operationen Ergebnisdaten von den entsprechenden Cache-Slices CS0 bis CS7 zurückzuschreiben. Das Rückschreib-Routing-Netzwerk 37 stellt auch eine Übertragung von Rückschreibergebnissen zwischen den Instruktionsausführungs-Slices ES0 bis ES7 bereit. Weitere Einzelheiten zur Handhabung von Lade-Speicher-(LS-)Operationen zwischen den Instruktionsausführungs-Slices ES0 bis ES7, den Lade-Speicher-Slices LS0 bis LS7 und den Cache-Slices CS0 bis CS7 werden weiter unten mit Blick auf die 4 bis 6 beschrieben. Ein Adresserzeugungsbus (AGEN-Bus) 38 und ein Speicherdatenbus 39 stellen eine Übertragung von Lade- und Speicher-Operationen bereit, die an die Lade-Speicher-Slices LS0 bis LS7 übertragen werden sollen. So übertragen der AGEN-Bus 38 und der Speicherdatenbus 39 zum Beispiel Speicher-Operationen, die letztlich in einen der Cache-Slices CS0 bis CS7 geschrieben werden, über einen der Speicherbusse 40 oder an eine Speicherstelle in einer höheren Ebene der Arbeitsspeicherhierarchie, mit der die Cache-Slices CS0 bis CS7 über einen E/A-Bus 41 verbunden sind, sofern die Speicher-Operation nicht gelöscht oder ungültig gemacht wird. Lade-Operationen, die einen der Cache-Slices CS0 bis CS7 verfehlen, nachdem sie durch einen der Lade-Speicher-Slices LS0 bis LS7 an den betreffenden Cache-Slice CS0 bis CS7 ausgegeben wurden, werden über den E/A-Bus 41 bedient, indem der angeforderte Wert in den betreffenden Cache-Slice CS0 bis CS7 oder direkt durch den Cache-Slice CS0 bis CS7 und den Speicherbus 40 in den Lade-Speicher-Slice LS0 bis LS7 geladen wird, der die Anforderung ausgegeben hat. In der abgebildeten Ausführungsform kann jeder der Lade-Speicher-Slices LS0 bis LS7 verwendet werden, um für jeden der Instruktionsausführungs-Slices ES0 bis ES7 einen Lade-Speicher-Operationsteil einer Instruktion durchzuführen, ohne dass dies jedoch eine Anforderung der Erfindung darstellt. Des Weiteren erfolgt bei manchen Ausführungsformen die Ermittlung, welcher der Cache-Slices CS0 bis CS7 eine gegebene Lade-Speicher-Operation durchführt, auf Grundlage der Operandenadresse der Lade-Speicher-Operation zusammen mit der Operandenbreite und der Zuweisung des adressierbaren Bytes des Caches zu jedem der Cache-Slices CS0 bis CS7.
Die Instruktionsausführungs-Slices ES0 bis ES7 können interne Instruktionen gleichzeitig an mehrere Pipelines ausgeben, so dass z. B. ein Instruktionsausführungs-Slice unter Verwendung mehrerer interner Pipelines simultan eine Ausführungsoperation und eine Lade-Speicher-Operation durchführen kann und/oder simultan mehrere arithmetische oder logische Operationen ausführen kann. Die internen Pipelines können identisch oder von unterschiedlicher Art sein, z. B. Gleitkomma-, Skalar-, Lade-Speicher-Pipelines usw. Des Weiteren kann ein gegebener Ausführungs-Slice mehrere Port-Verbindungen zu dem Rückschreib-Routing-Netzwerk 37 haben, so dass zum Beispiel eine Port-Verbindung für Lade-Speicher-Verbindungen zu den Lade-Speicher-Slices LS0 bis LS7 vorgesehen sein kann oder die Funktion des AGEN-Busses 38 und/oder des Datenbusses 39 bereitstellen kann, während eine weiterer Port dazu dienen kann, Werte an andere und von anderen Slices wie z. B. Spezial-Slices oder anderen Instruktionsausführungs-Slices zu übertragen. Rückschreibergebnisse werden von den verschiedenen internen Pipelines der Instruktionsausführungs-Slices ES0 bis ES7 an den/die Rückschreib-Port/s zeitlich geplant, welche die Instruktionsausführungs-Slices ES0 bis ES7 mit dem Rückschreib-Routing-Netzwerk 37 verbinden. Die Cache-Slices CS0 bis CS7 sind über den E/A-Bus 41, der innerhalb oder außerhalb des Prozessorkerns 20 integriert sein kann, mit einem Cache oder Systemarbeitsspeicher der nächsthöheren Ordnung verbunden. Während das veranschaulichte Beispiel eine übereinstimmende Anzahl von Lade-Speicher-Slices LS0 bis LS7 und Ausführungs-Slices ES0 bis ES7 zeigt, kann in der Praxis, abhängig von den Ressourcenerfordernissen für eine bestimmte Realisierung, eine unterschiedliche Anzahl der einzelnen Slice-Arten bereitgestellt werden.
Innerhalb des Prozessorkerns 20 beinhaltet eine Instruktionssequenzierungseinheit (Instruction Sequencer Unit, ISU) 30 einen Instruktionsfluss- und Netzwerksteuerungsblock 57, der das Zuteilungs-Routing-Netzwerk 36, das Rückschreib-Routing-Netzwerk 37, den AGEN-Bus 38 und den Speicherdatenbus 39 steuert. Der Netzwerksteuerungsblock 57 koordiniert zudem mit der Zuteilung von Instruktionen aus den Zuteilungswarteschlangen Disp0 bis Disp7 den Betrieb der Ausführungs-Slices ES0 bis ES7 und der Lade-Speicher-Slices LS0 bis LS7. Im Besonderen wählt der Instruktionsfluss- und Netzwerksteuerungsblock 57 zwischen Konfigurationen der Ausführungs-Slices ES0 bis ES7 und Lade-Speicher-Slices LS0 bis LS7 innerhalb des Prozessorkerns 20 gemäß einem oder mehreren Betriebsart-Steuerungssignalen, welche die Verwendung der Ausführungs-Slices ES0 bis ES7 und der Lade-Speicher-Slices LS0 bis LS7 in einer oder mehreren Singlethread-(ST-)Betriebsarten durch einen einzelnen Thread und in einer oder mehreren Multithread-(MT-)Betriebsarten durch mehrere Threads zuweist/zuweisen, wobei es sich bei letzteren um Betriebsarten mit simultanem Multithreading (SMT) handeln kann. So kann in der Konfiguration aus 2 der Cluster CLA zum Beispiel einem oder mehreren Hardwarethreads zugewiesen sein, die einen ersten Thread-Satz in einer SMT-Betriebsart bilden, so dass die Zuteilungswarteschlangen Disp0 bis Disp3 nur Instruktionen von Instruktionsströmen für den ersten Thread-Satz empfangen, die Ausführungs-Slices ES0 bis ES3 und die Lade-Speicher-Slices LS0 bis LS3 nur Operationen für den ersten Thread-Satz durchführen und die Cache-Slices CS0 bis CS3 einen kombinierten Cachespeicher bilden, der nur Werte enthält, auf die durch den ersten Thread-Satz zugegriffen wird. Auf ähnliche Weise ist in einer derartigen Betriebsart der Cluster CLB einem zweiten Hardwarethread-Satz zugewiesen, und die Zuteilungswarteschlangen Disp4 bis Disp7 empfangen nur Instruktionen von Instruktionsströmen für den zweiten Threadsatz, die Ausführungs-Slices ES4 bis ES7 und die LS-Slices LS4 bis LS7 führen nur Operationen für den zweiten Thread-Satz aus, und die Cache-Slices CS4 bis CS7 enthalten nur Werte, auf die durch den zweiten Thread-Satz zugegriffen wird. Wenn keine Cluster-übergreifende Übertragung notwendig ist, kann das Rückschreib-Routing-Netzwerk 37 aufgeteilt werden, indem Transceiver oder Switches sw, welche die Teile des Rückschreib-Routing-Netzwerks 37, des Clusters CLA und des Clusters CLB verbinden, deaktiviert werden. Ein Abtrennen der Teile des Rückschreib-Routing-Netzwerks 37 stellt einen größeren Durchsatz innerhalb eines jeden Clusters bereit und ermöglicht, dass die Teile des Rückschreib-Routing-Netzwerks 37 für Ergebnisse von den Ausführungs-Slices ES0 bis ES7 und den LS-Slices LS0 bis LS7 bei derselben Anzahl von Leitungen in dem Rückschreib-Routing-Netzwerk 37 separate simultane Routen bereitstellen. Somit können in dem aufgeteilten Rückschreib-Routing-Netzwerk 37 bei offenen Switches sw doppelt so viele Transaktionen unterstützt werden. Andere Ausführungsformen der Erfindung können die Sätze von Zuteilungswarteschlangen Disp0 bis Disp7, Ausführungs-Slices ES0 bis ES7, LS-Slices LS0 bis LS7 und Cache-Slices CS0 bis CS7 unterteilen, so dass eine Anzahl von Clustern gebildet werden, die jeweils einen bestimmten Satz von Hardwarethreads verarbeiten. Auf ähnliche Weise können die Threads innerhalb eines Satzes weiter in Teilsätze aufgeteilt und bestimmten Zuteilungswarteschlangen Disp0 bis Disp7, Ausführungs-Slices ES0 bis ES7, LS-Slices LS0 bis LS7 und Cache-Slices CS0 bis CS7 zugewiesen werden. Allerdings muss sich eine Aufteilung nicht auf alle oben genannten Ressourcen erstrecken. So können die Cluster CLA und CLB zum Beispiel zwei verschiedenen Hardwarethread-Sätzen zugewiesen werden, und die Ausführungs-Slices ES0 bis ES2 sowie die LS-Slices LS0 und LS1 können einem ersten Teilsatz des ersten Hardwarethread-Satzes zugewiesen werden, während der Ausführungs-Slice ES3 und die LS-Slices LS2 und LS3 einem zweiten Teilsatz des ersten Hardwarethread-Satzes zugewiesen werden und die Cache-Slices CS0 bis CS3 durch alle Threads innerhalb des ersten Hardwarethread-Satzes gemeinsam genutzt werden. In einer bestimmten Ausführungsform gemäß dem obigen Beispiel können Switches enthalten sein, um das Rückschreib-Routing-Netzwerk 37 zwischen den Ausführungs-Slices ES0 bis ES7 weiter aufzuteilen, so dass Verbindungen zwischen Teilgruppen der Ausführungs-Slices ES0 bis ES7, die verschiedenen Thread-Sätzen zugewiesen sind, isoliert werden, um die Anzahl der innerhalb einer jeden Teilgruppe verarbeiteten Transaktionen zu erhöhen. Das obige Beispiel zeigt die Flexibilität der Ressourcenzuteilung, wie sie von der über einen Bus verbundenen Slice-Architektur aus 2 bereitgestellt wird, und ist keine Einschränkung auf wie auch immer geartete Konfigurationen, die unterstützt werden könnten, um Sätze von Threads oder einzelne Threads auf Ressourcen wie z. B. die Zuteilungswarteschlangen Disp0 bis Disp7, die Ausführungs-Slices ES0 bis ES7, die LS-Slices LS0 bis LS7 und die Cache-Slices CS0 bis CS7 abzubilden.
Mit Blick auf 3 werden weitere Einzelheiten des Prozessorkerns 20 veranschaulicht. Der Prozessorkern 20 enthält eine Verzweigungsausführungseinheit 52, die Verzweigungsinstruktionen beurteilt, und eine Instruktionsabrufeinheit (Instruction Fetch Unit, IFetch) 53, die das Abrufen von Instruktionen wie z. B. von Instruktionen aus dem (Cache 54 steuert. Die Instruktionssequenzierungseinheit (ISU) 30 steuert die Sequenzierung von Instruktionen. Ein Eingabeinstruktionspuffer (Input Instruction Buffer, IB) 51 puffert Instruktionen, um die Instruktionen gemäß den Ausführungs-Slice-Ressourcen, die für die einzelnen Threads definiert sind, sowie gemäß etwaiger definierter Super-Slice-Konfigurationen abzubilden. Ein weiterer Instruktionspuffer (IBUF) 31 ist aufgeteilt, um die Zuteilungswarteschlangen (Disp0 bis Disp7 aus den 2 und 3) zu enthalten, und das Zuteilungs-Routing-Netzwerk 32 verbindet den IBUF 31 mit den segmentierten Ausführungs- und Lade-Speicher-Slices 50, die mit den Cache-Slices 46 verbunden sind. Der Instruktionsfluss- und Netzwerksteuerungsblock 57 führt eine Steuerung der segmentierten Ausführungs- und Lade-Speicher-Slices 50, der Cache-Slices 46 und des Zuteilungs-Routing-Netzwerks 32 durch, um die Slices gemäß einer Betriebsart-/Thread-Steuerungslogik 59 wie in den 2 und 3 veranschaulicht zu konfigurieren. Zudem wird eine Instruktionsabschlusseinheit 58 bereitgestellt, um den Abschluss von Instruktionen zu überwachen, die durch die ISU 30 sequenziert werden. Die ISU 30 beinhaltet außerdem Logik, um Rückschreiboperationen durch die Lade-Speicher-Slices LS0 bis LS7 innerhalb der segmentierten Ausführungs- und Lade-Speicher-Slices 50 zu steuern. Darüber hinaus kann eine Energiemanagementeinheit 56 eine Stromeinsparung bereitstellen, indem sie die Anzahl aktiver Slices innerhalb der segmentierten Ausführungs- und Cache-Slices 50 verringert oder erhöht. Obwohl die ISU 30 und der Instruktionsfluss- und Netzwerksteuerungsblock 57 als eine einzige Einheit gezeigt werden, kann die Steuerung der segmentierten Ausführung innerhalb und zwischen den Ausführungs-Slices ES0 bis ES7 und den Lade-Speicher-Slices LS0 bis LS7 auf die Slices aufgeteilt werden, so dass jeder der Ausführungs-Slices ES0 bis ES7 und der Lade-Speicher-Slices LS0 bis LS7 seinen eigenen Ausführungsablauf und seine eigene Sequenzierung steuert, während er eine Datenübertragung mit anderen Slices durchführt.
Mit Blick auf 4 wird ein Verfahren zum Betreiben des Prozessorkerns 20 gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Eine Instruktion wird von dem Zuteilungs-Routing-Netzwerk 32 in einem der Ausführungs-Slices ES0 bis ES7 empfangen (Schritt 60), und wenn die Instruktion keine LS-Instruktion ist, d. h. wenn sie eine VS-/FX-Instruktion ist (Entscheidung 61), wird die FX-/VS-Instruktion an die FX-/VS-Pipeline/s ausgegeben (Schritt 62). Wenn die Instruktion eine LS-Instruktion ist (Entscheidung 61), wird die EA berechnet (Schritt 63) und in einer Umlaufwarteschlange (DARQ) gespeichert (Schritt 64). Wenn die Instruktion keine Speicher-Instruktion ist (Entscheidung 65), wird der Eintrag aus der ausgegebenen Warteschlange entfernt (Schritt 67), nachdem die Instruktion in der DARQ gespeichert wurde. Wenn die Instruktion eine Speicher-Instruktion ist (Entscheidung 65), wird auch der Speicherwert in der DARQ gespeichert (Schritt 66), und nachdem sowohl die EA der Speicher-Instruktion als auch der Speicherwert in der DARQ gespeichert wurden, wird der Eintrag aus der ausgegebenen Warteschlange entfernt (Schritt 67), und die Instruktion wird aus der DARQ ausgegeben (Schritt 68). Wenn die Instruktion zurückgewiesen wird (Entscheidung 69), wird Schritt 68 wiederholt, um daraufhin die zurückgewiesene Instruktion erneut auszugeben. Wenn die Instruktion nicht zurückgewiesen wird (Entscheidung 69), wird der Eintrag aus der DARQ entfernt (Schritt 70). Der aus den Schritten 60 bis 70 bestehende Prozess wird so lange wiederholt, bis das System heruntergefahren wird (Entscheidung 71). Bei alternativen Verfahren gemäß anderen Ausführungsformen der Erfindung kann Schritt 67 nur durchgeführt werden, nachdem versucht wurde, die Instruktion auszugeben, und bei einer weiteren Alternative können die Schritte 64 und 66 nur durchgeführt werden, nachdem die Instruktion einmal zurückgewiesen wurde, wobei es darüber hinaus noch andere Variationen gibt, die ebenfalls den Vorteil des geringeren Speicherbedarfs eines Eintrags in der DARQ anstelle eines Eintrags in der Ausgabewarteschlange bereitstellen.
Mit Blick auf 5 wird ein Beispiel für einen Ausführungs-Slice (Execution Slice, ES) 42AA gezeigt, der verwendet werden kann, um die Instruktionsausführungs-Slices ES0 bis ES7 aus den 2 und 3 zu realisieren. Eingaben von den Zuteilungswarteschlangen werden über das Zuteilungs-Routing-Netzwerk 32 durch eine Registeranordung 70 empfangen, so dass Operanden und die Instruktionen in Ausführungsreservierungsstationen (Execution Reservation stations, ER) 73 einer Ausgabewarteschlange 75 gestellt werden können. Die Registeranordnung 70 ist architektonisch so realisiert, dass sie unabhängige Registersätze für unabhängige Instruktionsströme bzw. für die Stellen aufweist, an denen der Ausführungs-Slice 42AA mit einem Super-Slice verbunden ist, der mehrere Teile einer SIMD-Instruktion ausführt, während abhängige Registersätze, die Clone in Super-Slices sind, z. B. dort architektonisch realisiert sind, wo der Super-Slice Nicht-SIMD-Instruktionen ausführt. Ein Alias-Mapper 71 bildet die Werte in der Registeranordnung 70 auf etwaige externe Referenzen ab, wie z. B. Rückschreibwerte, die über das Rückschreib-Routing-Netzwerk 37 mit anderen Slices ausgetauscht werden. Ein Protokollpuffer (History Buffer, HB) 76 stellt eine Wiederherstellungsfunktion für Registerziele von Instruktionen bereit, die durch den ES 42AA ausgeführt werden. Als Reaktion auf ein Betriebsart-Steuerungssignal können Register unter Verwendung des Rückschreib-Routing-Netzwerks 37 zwischen Super-Slices kopiert oder verschoben werden, so dass die Zuweisung von Slices zu einem Satz von Threads oder die Zuweisung von Slices, um auf eine gemeinsame Art und Weise zu funktionieren und so zusammen mit anderen Ausführungs-Slices als ein Super-Slice ausgeführt zu werden, neu konfiguriert werden kann. Der Ausführungs-Slice 42AA wird neben einem weiteren Ausführungs-Slice 42BB veranschaulicht, um eine Ausführungssperrsteuerung zu veranschaulichen, die zwischen Paaren von Ausführungs-Slices innerhalb der Ausführungs-Slices ES0 bis ES7 aus den 2 und 3 bereitgestellt werden kann und einen Super-Slice bilden kann. Die Ausführungssperrsteuerung stellt eine Koordination zwischen den Ausführungs-Slices 42AA und 42BB bereit, wodurch eine Ausführung eines einzelnen Ausführungsstroms unterstützt wird, da andernfalls die Ausführungs-Slices ES0 bis ES7 eine Ausführung ihrer betreffenden Ausführungsströme unabhängig verwalten.
Der Ausführungs-Slice 42AA beinhaltet mehrere interne Ausführungspipelines 74A bis 74C und 72, die eine unsortierte und simultane Ausführung von Instruktionen für den Instruktionsstrom unterstützen, der dem Ausführungs-Slice 42AA entspricht. Die durch die Ausführungspipelines 74A bis 74C und 72 ausgeführten Instruktionen können interne Instruktionen sein, die Teile von Instruktionen realisieren, welche über das Zuteilungs-Routing-Netzwerk 32 empfangen werden, oder sie können Instruktionen sein, die direkt über das Zuteilungs-Routing-Netzwerk 32 empfangen werden, d. h. das Pipelining der Instruktionen kann durch den Instruktionsstrom selbst unterstützt werden, oder die Decodierung von Instruktionen kann im Vorfeld von Ausführungs-Slice 42AA erfolgen. Die Ausführungspipeline 72 ist eine Lade-Speicher-(LS-)Pipeline, die LS-Instruktionen ausführt, d. h. sie berechnet effektive Adressen (EAs) aus einem oder mehreren Operanden. Eine Umlaufwarteschlange (DARQ) 78 wird gemäß einer weiter oben mit Blick auf 4 veranschaulichten Logik gesteuert, so dass die Ausführungspipeline 72 die EA einer in der DARQ 78 gespeicherten Instruktion nicht berechnen muss, da der Eintrag in der DARQ 78 aus der EA zusammen mit einem Speicherwert für Speicher-Operationen besteht. Sobald ein Eintrag in der DARQ 78 vorhanden ist, kann der betreffende Eintrag, wie oben beschrieben, aus einer Ausgabewarteschlange 75 entfernt werden. Die DARQ 78 kann eine größere Anzahl von Einträgen aufweisen, wodurch in der Ausgabewarteschlange 75 Speicherplatz für zusätzliche FX-/VS-Operationen sowie für andere LS-Operationen freigegeben wird. Abhängig von der Art der Instruktionen, die durch den Ausführungs-Slice 42AA ausgeführt werden, können sich FX-/VS-Pipelines 74A bis 74C hinsichtlich Entwurf und Funktion unterscheiden, oder manche bzw. alle Pipelines können identisch sein. So können zum Beispiel spezifische Pipelines für eine Adressberechnung, für Skalar- oder Vektor-Operationen, Gleitkomma-Operationen usw. bereitgestellt werden. Multiplexer 77A bis 77C stellen ein Routing von Ausführungsergebnissen zu dem/von dem Protokollpuffer 76 und ein Routing von Rückschreibergebnissen an das Rückschreib-Routing-Netzwerk 37, das E/A-Routing-Netzwerk 39 und das/die AGEN-Routing-Netzwerk/e 38 bereit, die bereitgestellt werden können, um spezifische Daten für eine gemeinsame Nutzung zwischen Slices oder Operationen oder aber Adressen und/oder Daten, die an einen oder mehrere der Lade-Speicher-Slices LS0 bis LS7 gesendet werden, weiterzuleiten. Die Daten-, Adress- und Umlaufwarteschlange (Data, Address and Recirculation Queue, DARQ) 78 enthält Ausführungsergebnisse oder -teilergebnisse wie z. B. Lade-Speicher-Adressen oder Speicherdaten, die nicht zwingend sofort durch den nächsten verbrauchenden Lade-Speicher-Slice LS0 bis LS7 oder Ausführungs-Slice ES0 bis ES7 angenommen werden. Die in der DARQ 78 gespeicherten Ergebnisse oder Teilergebnisse können in einem künftigen Zyklus z. B. an einen der Lade-Speicher-Slices LS0 bis LS7 oder an Spezial-Ausführungseinheiten wie z. B. einen der Verschlüsselungsprozessoren 34A und 34B gesendet werden. In der DARQ 78 gespeicherte Daten können dann durch die Multiplexer 77B bzw. 77C gebündelt auf den AGEN-Bus 38 oder den Speicherdatenbus 39 gegeben werden.
Mit Blick auf 6 wird ein Beispiel für einen Lade-Speicher-(LS)Slice 44 gezeigt, der verwendet werden kann, um die Lade-Speicher-Slices LS0 bis LS7 aus 2 zu realisieren. Eine Lade-Speicher-Zugriffswarteschlange (Load/Store Access Queue, LSAQ) 80 ist mit dem AG EN-Bus 38 verbunden, und die direkte Verbindung mit dem AGEN-Bus 38 und der LSAQ 80 wird durch einen Multiplexer 81 ausgewählt, der über den Speicherbus 40 eine Eingabe in ein Cacheverzeichnis 83 eines Datencaches 82 in einem Cache-Slice 46 bereitstellt. Wie oben beschrieben, steuert eine Logik innerhalb der LSAQ 80 die Annahme oder Zurückweisung von LS-Operationen, zum Beispiel, wenn in dem Verzeichnis 83 ein Flag gesetzt wird, der eine Modifizierung eines entsprechenden Werts in dem Datencache 82 erst dann zulässt, wenn andere Operationen abgeschlossen wurden. Die Ausgabe des Multiplexers 81 kann auch eine Eingabe an eine Lade-Neuordnungswarteschlange (Load Reorder Queue, LRQ) 87 oder Speicher-Neuordnungswarteschlange (Store Reorder Queue, SRQ) 88 entweder von der LSAQ 80 oder von dem AGEN-Bus 38 oder an andere Ausführungseinrichtungen innerhalb des Lade-Speicher-Slice 44 bereitstellen, die hier nicht gezeigt werden. Der Lade-Speicher-Slice 44 kann eine oder mehrere Instanzen einer Lade-Speicher-Einheit beinhalten, die Lade-Speicher-Operationen und andere zugehörige Cache-Operationen ausführen. Um die Ausführung von Cache-Operationen zu überwachen, die an den LS-Slice 44 ausgegeben wurden, beinhalten die LRQ 87 und die SRQ 88 Einträge, mit denen die Cache-Operationen entsprechend den durch die Prozessorarchitektur gestellten Anforderungen auf sequenzielle Konsistenz und/oder andere Attribute überwacht werden. Obwohl der LS-Slice 44 unter Umständen von einem oder mehreren der Ausführungs-Slices ES0 bis ES7 über den AGEN-Bus 38 mehrere Operationen pro Zyklus empfangen kann, sind aufgrund von Beschränkungen des LS-Slice 44 womöglich nicht alle Zugriffe in einem gegebenen Ausführungszyklus gleichzeitig ausführbar. In derartigen Fällen speichert die LSAQ 80 Einträge, die bis dahin noch nicht ausgeführten Operationen entsprechen. Die SRQ 88 empfängt von dem Speicherdatenbus 39 Daten für Speicher-Operationen, die mit Operationsdaten wie z. B. der berechnen Speicheradresse gebündelt werden. Während der Operationsausführung können in der Lade-Speicher-Pipeline, die durch den LS-Slice 44 und den Cache-Slice 46 gebildet wird, Probleme auftreten, wie z. B. Cachefehler, Adressumsetzungsfehler, Cache-Lese/Schreib-Konflikte, fehlende Daten oder andere Fehler, die erfordern, dass die Ausführung solcher Operationen zurückgestellt oder erneut versucht wird. Bei manchen Ausführungsformen sind die LRQ 87 und die SRQ 88 so konfiguriert, dass sie die Operationen in der Lade-Speicher-Pipeline erneut für eine Ausführung ausgeben und damit eine Operation bereitstellen, die unabhängig von der Steuerung und Operation der Ausführungs-Slices ES0 bis ES7 ist. Eine solche Anordnung setzt Ressourcen in den Ausführungs-Slices ES0 bis ES7 frei, sobald eine oder mehrere der Lade-Speicher-Slices LS0 bis LS7 die Operationen und/oder Daten empfangen hat, die eine Bedingung für die Ressourcenfreigabe sind. Die LSAQ 80 kann Ressourcen freigeben, sobald Operationen ausgeführt werden oder nachdem Einträge für die Operationen und/oder Daten in der LRQ 87 oder SRQ 88 gespeichert wurden. Eine Steuerungslogik innerhalb des LS-Slice 44 tauscht Daten mit der DARQ 78 in dem bestimmten Ausführungs-Slice ES0 bis ES7 aus, der die Lade-Speicher-Operation/en ausgibt, um die Annahme von Operanden, Adressen und Daten zu koordinieren. Verbindungen zu anderen Lade-Speicher-Slices werden durch den AGEN-Bus 38 und durch das Rückschreib-Routing-Netzwerk 37 bereitgestellt, das so verbunden ist, dass es Daten von dem Datencache 82 des Cache-Slice 46 empfängt und Daten an einen Block 84 zur Datenausrichtungsaufhebung eines weiteren Slice bereitstellt. Eine Datenformatierungseinheit 85 verbindet den Cache-Slice 44 über einen Puffer 86 mit dem Rückschreib-Routing-Netzwerk 37, so dass Rückschreibergebnisse aus einem Ausführungs-Slice in die Ressourcen eines weiteren Ausführungs-Slice geschrieben werden können. Der Datencache 82 des Cache-Slice 46 ist zudem mit dem E/A-Routing-Netzwerk 41 verbunden, um Werte aus einem Cache/Systemarbeitsspeicher höherer Ordnung zu laden und Werte aus dem Datencache 82 zu löschen oder zu entfernen. Die in dieser Offenbarung genannten Beispielen gehen davon aus, dass es sich bei den Instruktionen, die den Ausführungs-Slices ES0 bis ES7 zugeteilt werden, um vollständige externe Instruktionen oder um Teile von externen Instruktionen, d. h. um decodierte „interne Instruktionen”, handeln kann. in einem gegebenen Zyklus kann des Weiteren die Anzahl von internen Instruktionen, die einem der Instruktionsausführungs-Slices ES0 bis ES7 zugeteilt werden, größer eins sein, und nicht jeder Instruktionsausführungs-Slice ES0 bis ES7 muss notwendigerweise in einem gegebenen Zyklus eine interne Instruktion empfangen.
Obwohl die Erfindung im Besonderen mit Blick auf ihre bevorzugten Ausführungsformen gezeigt und beschrieben wurde, sollte dem Fachmann klar sein, dass die obigen und andere Änderungen an Form und Einzelheiten daran vorgenommen werden können, ohne vom gedanklichen Wesensgehalt und inhaltlichen Umfang der Erfindung abzuweichen.

Claims

Ausführungseinheitsschaltung für einen Prozessorkern, aufweisend: eine Zuteilungswarteschlange zum Empfangen eines Stroms von Instruktionen wie z. B. Funktionsoperationen und Lade-Speicher-Operationen; eine Mehrzahl von internen Ausführungspipelines wie z. B. eine Lade-Speicher-Pipeline zum Berechnen effektiver Adressen von Lade-Operationen und Speicher-Operationen und zum Ausgeben der Lade-Operationen und Speicher-Operationen an eine Cache-Einheit; eine Umlaufwarteschlange zum Speichern von Einträgen, die den Lade-Operationen und den Speicher-Operationen entsprechen; und Steuerungslogik zum Steuern der Ausgabewarteschlange, der Lade-Speicher-Pipeline und der Umlaufwarteschlange, so dass, nachdem die Lade-Speicher-Einheit die effektive Adresse einer Lade-Operation oder einer Speicher-Operation berechnet hat, die effektive Adresse der Lade-Operation oder der Speicher-Operation in die Umlaufwarteschlange geschrieben wird und die Lade-Operation oder die Speicher-Operation aus der Ausgabewarteschlange entfernt wird, und die zurückgewiesene Lade-Operation oder Speicher-Operation daraufhin aus der Umlaufwarteschlange an die Cache-Einheit erneut ausgegeben wird.
Ausführungseinheitsschaltung nach Anspruch 1, wobei die Umlaufwarteschlange nur die effektive Adresse der Lade-Operationen und Speicher-Operationen sowie, für Speicher-Operationen, den Wert speichert, der durch die Speicher-Operation gespeichert werden soll.
Ausführungseinheitsschaltung nach Anspruch 2, wobei die Steuerungslogik Lade-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde, und Speicher-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse und die Werte, die durch die Speicher-Operationen gespeichert werden sollen, in die Umlaufwarteschlange geschrieben wurden.
Ausführungseinheitsschaltung nach Anspruch 1, wobei die Steuerungslogik Lade-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde, und wobei die Steuerungslogik die Speicher-Operationen und die Werte, die durch die Speicher-Operationen gespeichert werden sollen, an die Cache-Einheit ausgibt, bevor sie die gespeicherten Daten aus der Ausgabewarteschlange entfernt.
Ausführungseinheitsschaltung nach Anspruch 1, wobei die Steuerungslogik die Lade-Operationen und Speicher-Operationen in demselben Prozessorzyklus an die Cache-Einheit ausgibt, in dem die effektive Adresse der Lade-Operationen und der Speicher-Operationen in die Umlaufwarteschlange geschrieben wird.
Ausführungseinheitsschaltung nach Anspruch 1, wobei die Cache-Einheit als eine Mehrzahl von Cache-Slices realisiert wird, an welche die Lade-Operationen und die Speicher-Operationen über einen Bus weitergeleitet werden, und wobei die erneute Ausgabe der zurückgewiesenen Lade-Operation oder Speicher-Operationen an einen anderen Cache-Slice als einen weiteren Cache-Slice geleitet wird, der zuvor die zurückgewiesene Lade-Operation oder Speicher-Operation zurückgewiesen hat.
Ausführungseinheitsschaltung nach Anspruch 1, wobei die Steuerungslogik die Ausgabe von Lade-Instruktionen und Speicher-Instruktionen aus der Zuteilungswarteschlange anhält, wenn die Umlaufwarteschlange voll ist.
Prozessorkern, aufweisend: eine Mehrzahl von Zuteilungswarteschlangen zum Empfangen von Instruktionen einer entsprechenden Mehrzahl von Instruktionsströmen; ein Zuteilungs-Routing-Netzwerk zum Weiterleiten der Ausgabe der Zuteilungswarteschlangen an die Instruktionsausführungs-Slices; eine Zuteilungssteuerungslogik, welche die Instruktionen der Mehrzahl von Instruktionsströmen über das Zuteilungs-Routing-Netzwerk zuteilt, um Warteschlangen der Mehrzahl von Slices für eine parallele Instruktionsausführung auszugeben; und eine Mehrzahl von Slices für eine parallele Instruktionsausführung zum parallelen Ausführen der Mehrzahl von Instruktionsströmen, wobei die Instruktionsausführungs-Slices eine Ausgabewarteschlange zum Empfangen eines Stroms von Instruktionen wie z. B. Funktionsoperationen und Lade-Speicher-Operationen, eine Mehrzahl von internen Ausführungspipelines wie z. B. eine Lade-Speicher-Pipeline zum Berechnen der effektiven Adressen von Lade-Operationen und Speicher-Operationen und zum Ausgeben der Lade-Operationen und Speicher-Operationen an eine Cache-Einheit, eine Umlaufwarteschlange zum Speichern von Einträgen, die den Lade-Operationen und den Speicher-Operationen entsprechen, sowie Warteschlangen-Steuerungslogik zum Steuern der Ausgabewarteschlange, der Lade-Speicher-Pipeline und der Umlaufwarteschlange aufweisen, so dass, nachdem die Lade-Speicher-Pipeline die effektive Adresse einer Lade-Operation oder einer Speicher-Operation berechnet hat, die effektive Adresse der Lade-Operation oder der Speicher-Operation in die Umlaufwarteschlange geschrieben wird und die Lade-Operation oder die Speicher-Operation aus der Ausgabewarteschlange entfernt wird, wobei, wenn eine der Lade-Operationen oder Speicher-Operationen durch die Cache-Einheit zurückgewiesen wird, die zurückgewiesene Lade-Operation oder Speicher-Operation daraufhin aus der Umlaufwarteschlange an die Cache-Einheit erneut ausgegeben wird.
Prozessorkern nach Anspruch 8, wobei die Umlaufwarteschlange nur die effektiven Adressen der Lade-Operationen oder Speicher-Operationen sowie, für Speicher-Operationen, die Werte speichert, die durch die Speicher-Operation gespeichert werden sollen.
Prozessorkern nach Anspruch 9, wobei die Warteschlangen-Steuerungslogik Lade-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde, und Speicher-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse und die Werte, die durch die Speicher-Operationen gespeichert werden sollen, in die Umlaufwarteschlange geschrieben wurden.
Prozessorkern nach Anspruch 8, wobei die Warteschlangen-Steuerungslogik Lade-Operationen aus der Ausgabewarteschlange entfernt, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde, und wobei die Warteschlangen-Steuerungslogik die Speicher-Operationen und die Werte, die durch die Speicher-Operationen gespeichert werden sollen, an die Cache-Einheit ausgibt, bevor sie die gespeicherten Daten aus der Ausgabewarteschlange entfernt.
Prozessorkern nach Anspruch 8, wobei die Warteschlangen-Steuerungslogik die Lade-Operationen oder Speicher-Operationen in demselben Prozessorzyklus an die Cache-Einheit ausgibt, in dem die effektive Adresse der Lade-Operationen und der Speicher-Operationen in die Umlaufwarteschlange geschrieben wird.
Prozessorkern nach Anspruch 8, wobei der Prozessorkern des Weiteren eine Mehrzahl von Cache-Slices aufweist, an welche die Lade-Operationen und Speicher-Operationen über einen Bus weitergeleitet werden, und die Cache-Einheit realisiert, und wobei die erneute Ausgabe der zurückgewiesenen Lade-Operation oder Speicher-Operation an einen anderen Cache-Slice als einen weiteren Cache-Slice geleitet wird, das zuvor die zurückgewiesene Lade-Operation oder Speicher-Operation zurückgewiesen hat.
Prozessorkern nach Anspruch 8, wobei die Warteschlangen-Steuerungslogik die Ausgabe von Lade-Instruktionen und Speicher-Instruktionen aus der Zuteilungswarteschlange anhält, wenn die Umlaufwarteschlange voll ist.
Verfahren zum Ausführen von Programminstruktionen in einem Prozessorkern, wobei das Verfahren aufweist: Empfangen eines Stroms von Instruktionen wie z. B. Funktionsoperationen und Lade-Speicher-Operationen in einer Ausgabewarteschlange; Berechnen der effektiven Adressen von Lade-Operationen und Speicher-Operationen; Ausgeben der Lade-Operationen und Speicher-Operationen an eine Cache-Einheit; Speichern von Einträgen, die den Lade-Operationen und den Speicher-Operationen entsprechen, in einer Umlaufwarteschlange; Entfernen der Lade-Operationen und Speicher-Operationen aus der Ausgabewarteschlange; und daraufhin erfolgendes erneutes Ausgeben einer der Lade-Operationen oder Speicher-Operationen aus der Umlaufwarteschlange an die Cache-Einheit, wenn die eine der Lade-Operationen oder Speicher-Operationen durch die Cache-Einheit zurückgewiesen wird.
Verfahren nach Anspruch 15, wobei das Speichern von Einträgen nur die effektiven Adressen der Lade-Operationen oder Speicher-Operationen sowie, für Speicher-Operationen, den Wert speichert, der durch die Speicher-Operation gespeichert werden soll.
Verfahren nach Anspruch 16, des Weiteren aufweisend: Entfernen von Lade-Operationen aus der Ausgabewarteschlange, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde; und Entfernen von Speicher-Operationen aus der Ausgabewarteschlange, nachdem die effektive Adresse und die Werte, die durch die Speicher-Operationen gespeichert werden sollen, in die Umlaufwarteschlange geschrieben wurden.
Verfahren nach Anspruch 15, des Weiteren aufweisend: Entfernen von Lade-Operationen aus der Ausgabewarteschlange, nachdem die effektive Adresse in die Umlaufwarteschlange geschrieben wurde; und Ausgeben der Speicher-Operationen und der Werte, die durch die Speicher-Operationen gespeichert werden sollen, an die Cache-Einheit, bevor die gespeicherten Daten aus der Ausgabewarteschlange entfernt werden.
Verfahren nach Anspruch 15, wobei das Ausgeben die Lade-Operationen und Speicher-Operationen in demselben Prozessorzyklus an die Cache-Einheit ausgibt, in dem das Speichern die effektive Adresse der Lade- oder Speicher-Operation in die Umlaufwarteschlange schreibt.
Verfahren nach Anspruch 15, wobei die Cache-Einheit als eine Mehrzahl von Cache-Slices realisiert wird, an welche die Lade- und Speicher-Operationen über einen Bus weitergeleitet werden können, und wobei das erneute Ausgeben der Lade-Operationen oder der Speicher-Operationen an einen anderen Cache-Slice als einen weiteren Cache-Slice geleitet wird, das zuvor die Lade-Operation oder die Speicher-Operation zurückgewiesen hat.