DE10297597T5

DE10297597T5 - Suspendieren der Ausführung eines Threads in einem Mehrfach-Thread-Prozessor

Info

Publication number: DE10297597T5
Application number: DE10297597T
Authority: DE
Inventors: Deborah Portland Marr; Scott Hillsboro Rodgers; David Cornelius Hill; Shivananden Portland Kaushik; James Banks Crossland; David Portland Koufaty
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-12-31
Filing date: 2002-12-11
Publication date: 2005-01-05
Also published as: WO2003058434A1; CN1287272C; KR100617417B1; US20030126416A1; AU2002364559A1; HK1075109A1; CN1608246A; TW200403588A; JP2005514698A; KR20040069352A

Abstract

Prozessor, umfassend:
mehrere Thread-partitionierbare Betriebsmittel, die jeweils zwischen mehreren Threads partitionierbar sind;
Logik zum Empfangen einer Programmanweisung aus einem ersten Thread der mehreren Threads, und die als Reaktion auf die Programmanweisung bewirken soll, daß der Prozessor die Ausführung des ersten Threads suspendiert und Teile der mehreren Thread-partitionierbaren Betriebsmittel, die dem ersten Thread assoziiert sind, zur Verwendung durch andere der mehreren Threads freigibt.

Description

VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung ist mit den folgenden verwandt: Anmeldung Nr.
mit dem Titel „A Method and Apparatus for Suspending Execution of a Thread Until a Specified Memory Access Occurs"; Anmeldung Nr.
mit dem Titel "Coherency Techniques for Suspending Execution of a Thread Until a Specified Memory Access Occurs"; Anmeldung Nr.
mit dem Titel "Instruction Sequences for Suspending Execution of a Thread Until a Specified Memory Access Occurs", die alle am selben Datum wie die vorliegende Anmeldung registriert wurden.
ALLGEMEINER STAND DER TECHNIK 1. Technisches Gebiet
Die vorliegende Offenlegung betrifft das Gebiet der Prozessoren und insbesondere Mehrfach-Thread-Prozessoren und Techniken zum vorübergehenden Suspendieren der Verarbeitung eines Threads in einem Mehrfach-Thread-Prozessor.
2. Allgemeiner Stand der Technik
Ein Mehrfach-Thread-Prozessor kann gleichzeitig mehrere verschiedene Anweisungssequenzen verarbeiten. Ein Hauptmotivierungsfaktor für die Ausführung mehrerer Anweisungsströme in einem einzigen Prozessor ist die resultierende Verbesserung der Prozessorausnutzung. Über die Jahre haben sich hochparallele Architekturen entwickelt, es ist aber häufig schwierig, genug Parallelität aus einem einzigen Anweisungsstrom zu extrahieren, um die mehrfachen Ausführungseinheiten auszunutzen. Durch Prozessoren mit gleichzeitigen Mehrfach-Threads können mehrere Anweisungsströme gleichzeitig in den verschiedenen Ausführungsbetriebsmitteln ausgeführt werden, um zu versuchen, diese Betriebsmittel besser auszunutzen. Mehrfach-Threads können besonders für solche Programme vorteilhaft sein, bei denen es zu Verzögerungen hoher Latenz kommt oder die häufig auf das Eintreten von Ereignissen warten. Wenn ein Thread darauf wartet, daß eine Task mit hoher Latenz fertig wird, oder auf ein bestimmtes Ereignis, kann ein anderer Thread verarbeitet werden.
Es wurden viele verschiedene Techniken vorgeschlagen, um zu steuern, wann ein Prozessor zwischen Threads wechselt. Zum Beispiel erkennen bestimmte Prozessoren bestimmte Ereignisse mit langer Latenz, wie zum Beispiel L2-Cache-Fehlspeicherungen und wechseln als Reaktion auf diese erkannten Ereignisse mit langer Latenz Threads. Obwohl die Erkennung solcher Ereignisse mit langer Latenz in bestimmten Umständen effektiv sein kann, erkennt eine solche Ereigniserkennung nur unwahrscheinlich alle Punkte, an denen es effizient sein kann, Threads zu wechseln. Insbesondere kann es sein, daß das Thread-Wechseln auf Ereignisbasis Punkte in einem Programm, an denen Verzögerungen vom Programmierer beabsichtigt sind, nicht erkennt.
Tatsächlich ist häufig der Programmierer am besten in der Lage, zu bestimmen, wann es effizient wäre, Threads zu wechseln, um verschwenderische Spin-Wait-Schleifen oder andere Betriebsmittel verbrauchende Verzögerungstechniken zu vermeiden. Indem Programmen erlaubt wird, den Thread-Wechsel zu steuern, können Programme also effizienter operieren. Zu diesem Zweck können explizite Programmanweisungen vorteilhaft sein, die sich auf die Thread-Auswahl auswirken. Zum Beispiel wird in der US-Patentanmeldung Nr. 09/489 130, registriert am 21.1.2000, eine „Pause"-Anweisung beschrieben. Durch die Pause-Anweisung kann ein Ausführungs-Thread vorübergehend suspendiert werden, bis entweder ein Zählwert erreicht wird oder bis eine Anweisung die Prozessor-Pipeline durchlaufen hat. Die in der oben zitierten Anmeldung beschriebene Pause-Anweisung spezifiziert jedoch nicht, daß thread-partitionierbare Betriebsmittel freigegeben werden sollen. Verschiedene Techniken können nützlich sein, indem Programmierern erlaubt wird, die Betriebsmittel eines Mehrfach-Thread-Prozessors effizienter einzuspannen.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird in den Figuren der beigefügten Zeichnungen als Beispiel und nicht als Beschränkung veranschaulicht.
1 zeigt eine Ausführungsform eines Mehrfach-Thread-Prozessors mit Logik zum Suspendieren eines Threads als Reaktion auf eine Anweisung und zum Freigeben von diesem Thread zugeordneten Betriebsmitteln.
2 ist ein Flußdiagramm der Funktionsweise des Mehrfach-Thread-Prozessors von 1 gemäß einer Ausführungsform.
3a zeigt verschiedene Optionen zum Spezifizieren einer Zeitdauer, für die ein Mehrfach-Thread-Prozessor suspendiert werden kann.
3b zeigt ein Flußdiagramm, in dem aus dem Suspendiert-Zustand entweder durch das Vergehen einer gewählten Zeitdauer oder das Auftreten eines Ereignisses ausgetreten werden kann.
4 zeigt Betriebsmittel-Partitionierung-Sharing und -Duplikation gemäß einer Ausführungsform.
5 zeigt verschiedene Entwurfsrepräsentationen oder Formate zur Simulation, Emulation und Herstellung eines Entwurfs unter Verwendung der offengelegten Techniken.
Ausführliche Beschreibung
Die folgende Beschreibung beschreibt Techniken zum Suspendieren der Ausführung eines Threads in einem Mehrfach-Thread-Prozessor. In der folgenden Beschreibung werden zahlreiche spezifische Einzelheiten, wie zum Beispiel logische Implementierungen, Opcodes, Mittel zum Spezifizieren von Operanden, Implementierungen für Betriebsmittel-Partitionierung/-Sharing/-Duplikation, Typen und Beziehungen von Systemkomponenten und Wahlmöglichkeiten für logische Partitionierung/Integration dargelegt, um ein besseres Verständnis der vorliegenden Erfindung zu ermöglichen. Für Fachleute ist jedoch erkennbar, daß die Erfindung ohne solche spezifischen Einzelheiten ausgeübt werden kann. In anderen Fällen wurden Steuerstrukturen, Schaltung auf Gatterebene und volle Softwareanweisungssequenzen nicht im einzelnen gezeigt, um die Erfindung nicht zu verdecken. Anhand der angegebenen Beschreibungen werden Durchschnittsfachleute in der Lage sein, ohne übermäßiges Experimentieren geeignete Funktionalität zu implementieren.
Die offengelegten Techniken können es einem Programmierer erlauben, einen Suspendierungsmechanismus in einem Thread zu implementieren, während zugelassen wird, daß andere Threads Verarbeitungsbetriebsmittel einspannen. Partitionen, die zuvor dem suspendierten Thread fest zugeordnet waren, können also freigegeben werden, während der Thread suspendiert ist. Diese und/oder andere offengelegten Techniken können vorteilhafterweise den Gesamtprozessordurchsatz verbessern.
1 zeigt eine Ausführungsform eines Mehrfach-Thread-Prozessors 100 mit Suspendierungslogik 110, um die Suspendierung eines Threads als Reaktion auf eine Anweisung zu ermöglichen. Bei bestimmten Ausführungsformen kann ein „Prozessor" als eine einzige integrierte Schaltung gebildet werden. Bei anderen Ausführungsformen können mehrere integrierte Schaltungen zusammen einen Prozessor bilden, und bei noch anderen Ausführungsformen können Hardware- und Softwareroutinen (z.B. binäre Übersetzungsroutinen) zusammen den Prozessor bilden. Bei der Suspendierungslogik kann es sich um Mikrocode, verschiedene Formen von Steuerlogik oder eine andere Implementierung der beschriebenen Funktionalität, möglicherweise einschließlich Übersetzung, Software usw., handeln.
Der Prozessor 100 ist an einen Speicher 195 angekoppelt, damit der Prozessor Anweisungen aus dem Speicher 195 abrufen und diese Anweisungen ausführen kann. Der Speicher und der Prozessor können Punkt-zu-Punkt, über Busbrücken, über eine Speichersteuerung oder über andere bekannte oder anderweitig verfügbare Techniken gekoppelt sein. Der Speicher 195 speichert verschiedene Programm-Threads, darunter einen ersten Thread 196 und einen zweiten Thread 198. Der erste Thread 196 enthält eine SUSPEND-Anweisung.
Bei der Ausführungsform von 1 führt eine Bus-/Speichersteuerung 120 einem Frontend 130 auszuführende Anweisungen zu. Das Frontend 130 lenkt das Abrufen von Anweisungen von verschiedenen Threads gemäß Anweisungszeigern 170. Anweisungszeigerlogik ist vervielfältigt, um mehrere Threads zu unterstützen. Das Frontend 130 leitet Anweisungen in thread-partitionierbare Betriebsmittel 140 zur weiteren Verarbeitung. Die thread-partitionierbaren Betriebsmittel 140 enthalten logisch getrennte Partitionen, die fest bestimmten Threads zugeordnet sind, wenn mehrere Threads in dem Prozessor 100 aktiv sind. Bei einer Ausführungsform enthält jede getrennte Partition nur Anweisungen aus dem Thread, dem dieser Teil fest zugeordnet ist. Die thread-partitionierbaren Betriebsmittel 140 können zum Beispiel Anweisungswarteschlangen enthalten. In einem Einzel-Thread-Modus können die Partitionen der thread-partitionierbaren Betriebsmittel 140 kombiniert werden, um eine einzige große Partition zu bilden, die dem einen Thread fest zugeordnet ist.
Außerdem enthält der Prozessor 100 den vervielfältigten Zustand 180. Der vervielfältigte Zustand 180 enthält Zustandsvariablen, die ausreichen, um den Kontext für einen logischen Prozessor zu halten. Mit dem vervielfältigten Zustand 180 können mehrere Threads ausgeführt werden, ohne um Zustandsvariablenspeicherung zu konkurrieren. Zusätzlich kann für jeden Thread Registerzuteilungslogik vervielfältigt sein. Die vervielfältigte zustandsbezogene Logik operiert mit den entsprechenden Betriebsmittelpartitionen, um ankommende Anweisungen für die Ausführung vorzubereiten.
Die thread-partitionierbaren Betriebsmittel 140 leiten Anweisungen zu gemeinsam benutzten Betriebsmitteln 150 weiter. Die gemeinsam benutzten Betriebsmittel 150 operieren an Anweisungen ungeachtet ihres Ursprungs. Zum Beispiel können Scheduler- und Ausführungseinheiten Thread-unbewußte gemeinsam benutzte Betriebsmittel sein. Die partitionierbaren Betriebsmittel 140 können den gemeinsam benutzten Betriebsmitteln 150 Anweisungen aus mehreren Threads zuführen, indem zwischen den Threads auf eine faire Weise alterniert wird, die einen fortgesetzten Fortschritt an jedem aktiven Thread bereitstellt. Somit können die gemeinsam benutzten Betriebsmittel die bereitgestellten Anweisungen an dem entsprechenden Zustand ohne Sorge um die Thread-Mischung ausführen.
Den gemeinsam benutzten Betriebsmitteln 150 kann eine weitere Menge von thread-partitionierbaren Betriebsmitteln 160 folgen. Die Thread- partitionierbaren Betriebsmittel 160 können Ausscheidungsbetriebsmittel wie zum Beispiel ein Umordnungspuffer und dergleichen enthalten. Folglich können die thread-partitionierbaren Betriebsmittel 160 sicherstellen, daß die Ausführung von Anweisungen aus jedem Thread ordnungsgemäß endet, und daß der entsprechende Zustand für diesen Thread entsprechend aktualisiert wird.
Wie bereits erwähnt, kann es wünschenswert sein, Programmierern eine Technik zur Implementierung einer Verzögerung bereitzustellen, ohne daß ein konstantes Abfragen einer Speicherstelle oder sogar eine Ausführung einer Schleife von Anweisungen erforderlich ist. Somit enthält der Prozessor 100 von 1 die Suspendierungslogik 110. Die Suspendierungslogik 110 kann programmierbar sein, um eine bestimmte Dauer bereitzustellen, für die der Thread suspendiert werden soll, oder um eine feste Verzögerung bereitzustellen. Die Suspendierungslogik 110 enthält Pipeline-Ausräumlogik 112 und Partitionier-Verschmelzungslogik 114.
Die Operationen der Ausführungsform von 1 können mit Bezug auf das Flußdiagramm von 2 weiter erläutert werden. Bei einer Ausführungsform enthält der Anweisungssatz des Prozessors 100 einen SUSPEND-Opcode (eine Anweisung), um die Thread-Suspendierung zu bewirken. Im Block 200 wird der SUSPEND-Opcode als Teil der Anweisungssequenz eines ersten Threads (T1) empfangen. Die Ausführung von Thread T1 wird suspendiert, wie im Block 210 angegeben. Die Thread-Suspendierungslogik 110 enthält Pipeline-Ausräumlogik 112, die die Prozessorpipeline entleert, um alle Anweisungen zu löschen, wie im Block 220 angegeben. Bei einer Ausführungsform bewirkt die Partitionier-Verschmelzungslogik 114, nachdem die Pipeline ausgeräumt wurde, daß etwaige partitionierte Betriebsmittel, die ausschließlich Thread T1 zugeordnet sind, zur Verwendung durch andere Threads freigegeben werden, wie im Block 230 angegeben. Diese freigegebenen Betriebsmittel werden verschmolzen, um eine Menge größerer Betriebsmittel zur Verwendung durch die übrigen aktiven Threads zu bilden.
Wie im Block 235 angegeben, können andere Threads ausgeführt werden (vorausgesetzt daß Anweisungen zur Ausführung verfügbar sind) während Thread T1 suspendiert ist. Somit können Prozessorbetriebsmittel im wesentlichen ohne Störungen aus dem Thread T1 weiter verwendet werden. Eine vollständigere feste Zuordnung der Prozessorbetriebsmittel zu anderen Threads kann vorteilhafterweise die Verarbeitung anderer nützlicher Ausführungsströme vorantreiben, wenn Thread T1 nur wenig oder keine nützliche Arbeit zu verrichten hat, oder wenn ein Programm urteilt, daß das Abschließen von Tasks in Thread T1 keine Priorität ist.
Mit suspendiertem Thread T1 tritt der Prozessor im allgemeinen in einen implementierungsabhängigen Zustand ein, der es anderen Threads erlaubt, die Prozessorbetriebsmittel vollständiger auszunutzen. Bei bestimmten Ausführungsformen kann der Prozessor einen Teil der Partitionen der partitionierbaren Betriebsmittel 140 und 160, die fest T1 zugeordnet waren, oder alle dieser freigeben. Bei anderen Ausführungsformen können verschiedene Permutationen des SUSPEND-Opcodes oder von diesem zugeordneten Einstellungen angeben, welche etwaigen Betriebsmittel freigegeben werden sollen. Wenn zum Beispiel ein Programmierer ein kürzeres Warten antizipiert, kann der Thread suspendiert werden, aber die meisten Betriebsmittelpartitionen behalten. Der Durchsatz ist immer noch verbessert, da die gemeinsam benutzten Betriebsmittel während der Threadsuspendierungsperiode ausschließlich von anderen Threads verwendet werden können. Wenn ein längeres Warten antizipiert wird, erlaubt eine Freigabe aller dem suspendierten Thread zugeordneter Partitionen anderen Threads, über zusätzliche Betriebsmittel zur verfügen, wodurch der Durchsatz der anderen Threads potentiell vergrößert wird. Der zusätzliche Durchsatz kommt jedoch zu Lasten des Overheads, das dem Entfernen und Hinzufügen von Partitionen zugeordnet ist, wenn Threads suspendiert bzw. wiederaufgenommen werden.
Im Block 240 wird geprüft, ob aus dem Suspendierungszustand ausgetreten werden soll. Wenn die spezifizierte Verzögerung aufgetreten ist (d.h. es ist genügend Zeit vergangen), dann kann der Thread wiederaufgenommen werden. Wie lange der Thread suspendiert wird, kann auf vielerei Weisen spezifiziert werden, wie in 3a gezeigt. Zum Beispiel kann ein Prozessor 300 eine durch eine Routine des Mikrocodes 310 spezifizierte Verzögerungszeit (D1) enthalten. Ein Timer oder Zähler 312 kann die Verzögerung implementieren und dem Mikrocode signalisieren, wann die spezifizierte Zeitdauer vergangen ist. Alternativ dazu kann mit einer oder mehreren Schmelzverbindungen 330 (fuses) eine Verzögerung (D2) spezifiziert werden, oder ein Register 340 kann eine Verzögerung (D3) speichern. Eine Verzögerung (D4) kann durch ein Register oder durch eine Speicherstelle spezifiziert werden, wie zum Beispiel ein Konfigurationsregister in einer Brücke oder Speichersteuerung 302, die an den Prozessor angekoppelt ist. Eine Verzögerung (D5) kann außerdem durch das grundlegende Eingangs-/Ausgangssystem (BIOS) 322 spezifiziert werden. Als weitere Alternative könnte die Verzögerung (D6) in einem an die Speichersteuerung 302 angekoppelten Speicher 304 gespeichert werden. Der Prozessor 300 kann den Verzögerungswert als einen impliziten oder expliziten Operanden für den SUSPEND-Opcode abrufen, während er durch eine Ausführungseinheit 320 ausgeführt wird. Außerdem kann die Verzögerung mit anderen bekannten oder anderweitig verfügbaren oder zweckmäßigen Techniken zum Spezifizieren eines Werts spezifiziert werden.
Wieder mit Bezug auf 2 verfolgt der Timer, der Zähler oder der andere verwendete Verzögerungsmeßmechanismus, wenn die Verzögerungszeit nicht abgelaufen ist, weiter die Verzögerung und der Thread bleibt suspendiert, wie durch die Rückkehr zum Block 240 angegeben. Wenn die Verzögerungszeit abgelaufen ist, beginnt die Wiederaufnahme des Threads T1 im Block 250. Wie im Block 250 angegeben wird die Pipeline ausgeräumt, um Betriebsmittel für Thread T1 zu befreien. Im Block 260 werden Betriebsmittel umpartitio niert, so daß Thread T1 Teile der thread-partitionierbaren Betriebsmittel besitzt, mit denen er Operationen durchführen kann. Schließlich startet Thread T1 die Ausführung neu, wie im Block 270 angegeben.
Also liefern die Ausführungsformen von 1 und 2 Techniken, durch die ein Thread durch ein Programm für eine bestimmte Dauer suspendiert werden kann. Bei einer Ausführungsform können auch andere Ereignisse bewirken, daß T1 wiederaufgenommen wird. Zum Beispiel kann ein Interrupt bewirken, daß T1 wiederaufgenommen wird. 3b zeigt ein Flußdiagramm für eine Ausführungsform, die es anderen Ereignissen erlaubt, zu bewirken, daß aus dem Suspendierungszustand ausgetreten wird. Im Block 360 ist der Thread gemäß vorherigen Operationen bereits suspendiert. Im Block 370 wird geprüft, ob genug Zeit vergangen ist (wie zuvor mit Bezug auf 2 besprochen). Falls genug Zeit vergangen ist, wird Thread T1 wiederaufgenommen, wie im Block 380 angegeben.
Wenn jedoch im Block 365 nicht genug Zeit vergangen ist, dann werden in den Blöcken 370 und 375 etwaige Suspendierungszustand-Break-Ereignisse erkannt. Bei bestimmten Ausführungsformen kann es Operanden, Konfigurationseinstellungen, Permutationen der SUSPEND-Anweisung usw. geben, die spezifizieren, welche etwaigen Ereignisse bewirken, daß aus dem Suspendierungszustand ausgetreten wird. Somit prüft Block 370, ob etwaige (und in bestimmten Ausführungsformen welche) Ereignisse freigegeben sind, ein Break des Suspendierungszustands zu bewirken. Wenn keine Ereignisse freigegeben sind, ein Break des Suspendierungszustands zu bewirken, dann kehrt der Prozeß zum 365 zurück. Wenn beliebige der freigegebenen Ereignisse auftreten, was im Block 375 geprüft wird, dann wird Thread T1 wiederaufgenommen, wie im Block 380 angegeben. Andernfalls verbleibt der Prozessor mit dem Thread T1 in dem Suspendiert-Zustand und der Prozeß kehrt zum Block 365 zurück.
4 zeigt das Partitionieren, Duplizieren und gemeinsame Benutzen von Betriebsmitteln gemäß einer Ausführungsform. Partitionierte Betriebsmittel können gemäß dem Auf und Ab aktiver Threads in der Maschine partitioniert und verschmolzen (zur Wiederverwendung durch andere Threads wieder zusammengeschmolzen) werden. Bei der Ausführungsform von 4 umfassen duplizierte Betriebsmittel Anweisungszeigerlogik in dem Anweisungsabrufteil der Pipeline, Registerumbenennungslogik in dem Umbenennungsteil der Pipeline, (nicht gezeigte, aber in verschiedenen Stufen in der Pipeline erwähnte) Zustandsvariablen und eine Interrupt-Steuerung (nicht gezeigt, im allgemeinen asynchron zur Pipeline). Gemein benutzte Betriebsmittel in der Ausführungsform von 4 umfassen Scheduler in der Schedule-Stufe der Pipeline, ein Registerpool in den Register-Lese- und -schreibteilen der Pipeline und Ausführungsbetriebsmittel im Ausführungsteil der Pipeline. Zusätzlich können ein Trace-Cache und ein L1-Daten-Cache gemeinsam benutzte Betriebsmittel sein, die gemäß Speicherzugriffen ungeachtet des Thread-Kontexts aufgefüllt werden. Bei anderen Ausführungsformen kann bei Cache-Speicherungsentscheidungen Thread-Kontext berücksichtigt werden. Partitionierte Betriebsmittel in der Ausführungsform von 4 umfassen zwei Warteschlangen in Warteschlangenstufen der Pipeline, einen Umordnungspuffer in einer Ausscheidungsstufe der Pipeline und einen Speicherpuffer. Thread-Auswahlmultiplexlogik alterniert zwischen den verschiedenen duplizierten und partitionierten Betriebsmitteln, um beiden Threads einen sinnvollen Zugriff zu gewähren.
Bei der Ausführungsform von 4 werden, wenn ein Thread suspendiert ist, alle mit Thread 1 zusammenhängenden Anweisungen aus beiden Warteschlangen entleert. Jedes Paar von Warteschlangen wird dann kombiniert, um dem zweiten Thread eine größere Warteschlange bereitzustellen. Ähnlich werden weitere Register aus dem Registerpool dem zweiten Thread zur Verfügung gestellt, weitere Einträge aus dem Speicherpuffer werden für den zweiten Thread befreit und weitere Einträge in dem Umordnungspuffer werden dem zweiten Thread zur Verfügung gestellt. Im wesentlichen werden diese Strukturen wieder in einzelne fest zugeordnete Strukturen der doppelten Größe verwandelt. Natürlich können sich aus Implementierungen, die verschieden viele Threads verwenden, verschiedene Proportionen ergeben.
Bei bestimmten Ausführungsformen können die thread-partitionierbaren Betriebsmittel, die vervielfältigten Betriebsmittel und die gemeinsam benutzten Betriebsmittel verschieden angeordnet sein. Bei bestimmten Ausführungsformen liegen möglicherweise nicht an beiden Enden der gemeinsam benutzten Betriebsmittel partitionierbare Betriebsmittel vor. Bei bestimmten Ausführungsformen können die partitionierbaren Betriebsmittel möglicherweise nicht strikt partitioniert sein, sondern statt dessen bestimmten Anweisungen ermöglichen, Partitionen zu überschreiten, oder Partitionen ermöglichen, eine verschiedene Größe aufzuweisen, abhängig von dem in dieser Partition ausgeführten Thread oder von der Gesamtzahl von ausgeführten Threads. Außerdem können verschiedene Mischungen von Betriebsmitteln als gemeinsam benutzte, duplizierte und partitionierte Betriebsmittel ausgewiesen werden.
5 zeigt verschiedene Entwurfsrepräsentationen oder -formate zur Simulation, Emulation und Herstellung eines Entwurfs unter Verwendung der offengelegten Techniken. Daten; die einen Entwurf repräsentieren, können den Entwurf auf vielerlei Weise repräsentieren. Erstens ist es in Simulationen nützlich, daß die Hardware mit einer Hardwarebeschreibungssprache oder einer anderen funktionalen Beschreibungssprache repräsentiert wird, die im wesentlichen ein computerisiertes Modell dafür liefert, wie die entworfene Hardware erwartungsgemäß arbeiten wird. Das Hardwaremodell 1110 kann in einem Speichermedium 1100, wie zum Beispiel einem Computerspeicher, gespeichert werden, so daß das Modell unter Verwendung von Simulationssoftware 1120 simuliert werden kann, die eine bestimmte Prüfsuite 1130 auf das Hardwaremodell 1110 anwendet, um zu bestimmen, ob es tatsächlich wie beabsichtigt funktioniert. Bei bestimmten Ausführungsformen wird die Simulationssoftware nicht aufgezeichnet, erfaßt oder in dem Medium gehalten.
Zusätzlich kann ein Modell auf Schaltungsebene mit Logik und/oder Transistorgattern in einer bestimmten Phase des Entwurfsprozesses erzeugt werden. Dieses Modell kann ähnlich simuliert werden, und zwar manchmal durch eigene Hardwaresimulatoren, die das Modell unter Verwendung programmierbarer Logik bilden. Diese An von Simulation kann, wenn sie etwas weiter geführt wird, eine Emulationstechnik sein. In jedem Fall ist umkonfigurierbare Hardware eine weitere Ausführungsform, die ein maschinenlesbares Medium beteiligen kann, das ein Modell speichert, das die offengelegten Techniken verwendet.
Außerdem erreichen die meisten Entwürfe in einer bestimmten Phase eine Ebene von Werten, die die physikalische Plazierung verschiedener Geräte in dem Hardwaremodell repräsentieren. Falls herkömmliche Halbleiterherstellungstechniken verwendet werden, können die das Hardwaremodell repräsentierenden Daten die Daten sein, die die Anwesenheit oder Abwesenheit verschiedener Merkmale auf verschiedenen Maskenschichten für zur Herstellung der integrierten Schaltung verwendete Masken spezifizieren. Wiederum realisieren diese die integrierte Schaltung repräsentierenden Daten insofern die offengelegten Techniken, als die Schaltkreise oder Logik in den Daten simuliert oder hergestellt werden, um diese Techniken durchzuführen.
Bei jeder Repräsentation des Entwurfs können die Daten in jeder beliebigen Form eines computerlesbaren Mediums gespeichert werden. Eine optische oder elektrische Welle 1160, die moduliert oder anderweitig erzeugt wird, um solche Informationen zu senden, ein Speicher 1150 oder eine magnetische oder optische Speicherung 1140, zum Beispiel eine Platte, können das Medium sein. Die Menge von Bits, die den Entwurf oder den bestimmten Teil des Entwurfs beschreiben, sind ein Artikel, der an und für sich von anderen zum weiteren Entwurf oder zur weiteren Herstellung verkauft oder benutzt werden kann.
Es werden also Techniken zum Suspendieren der Ausführung eines Threads, bis ein spezifizierter Speicherzugriff auftritt, offengelegt. Obwohl bestimmte Ausführungsbeispiele beschrieben und in den beigefügten Zeichnungen gezeigt wurden, versteht sich, daß solche Ausführungsformen die allgemeine Erfindung lediglich veranschaulichen und nicht einschränken, und daß die vorliegende Erfindung nicht auf die spezifisch gezeigten und beschriebenen Konstruktionen und Anordnungen beschränkt ist, da Durchschnittsfachleuten bei Durchsicht der vorliegenden Offenlegung verschiedene andere Modifikationen einfallen können.
Zusammenfassung
Techniken zum Suspendieren der Ausführung eines Threads in einem Mehrfach-Thread-Prozessor. Bei einer Ausführungsform enthält ein Prozessor Betriebsmittel, die zwischen mehreren Threads partitioniert werden können. Prozessorlogik empfängt eine Anweisung in einem ersten Ausführungsthread und gibt als Reaktion auf diese Anweisung Teile der portionierten Betriebsmittel zur Verwendung durch andere Threads frei.

Claims

Prozessor, umfassend: mehrere Thread-partitionierbare Betriebsmittel, die jeweils zwischen mehreren Threads partitionierbar sind; Logik zum Empfangen einer Programmanweisung aus einem ersten Thread der mehreren Threads, und die als Reaktion auf die Programmanweisung bewirken soll, daß der Prozessor die Ausführung des ersten Threads suspendiert und Teile der mehreren Thread-partitionierbaren Betriebsmittel, die dem ersten Thread assoziiert sind, zur Verwendung durch andere der mehreren Threads freigibt.
Prozessor nach Anspruch 1, wobei die Programmanweisung eine Suspendierungsanweisung ist.
Prozessor nach Anspruch 1, wobei die Logik bewirken soll, daß der Prozessor den ersten Thread für eine gewählte Zeitdauer suspendiert.
Prozessor nach Anspruch 3, wobei die gewählte Zeitdauer eine feste Zeitdauer ist.
Prozessor nach Anspruch 3, wobei der Prozessor Anweisungen aus einem zweiten Thread ausführen soll, während der erste Thread suspendiert ist.
Prozessor nach Anspruch 3, wobei die gewählte Zeitdauer durch mindestens eine Technik programmierbar ist, die aus der folgenden Menge gewählt wird: Bereitstellen eines Operanden in Verbindung mit der Programmanweisung; Durchbrennen von Schmelzverbindungen zum Setzen der gewählten Dauer; Programmieren der gewählten Dauer in einer Speicherstelle vor dem Decodieren der Programmanweisung; Setzen der gewählten Dauer in Mikrocode.
Prozessor nach Anspruch 1, wobei die mehreren thread-partitionierbaren Betriebsmittel folgendes umfassen: eine Anweisungswarteschlange; ein Registerpool.
Prozessor nach Anspruch 7, weiterhin umfassend: mehrere gemeinsam benutzte Betriebsmittel, wobei die mehreren gemeinsam benutzten Betriebsmittel folgendes umfassen: mehrere Ausführungseinheiten; einen Cache; einen Scheduler; mehrere duplizierte Betriebsmittel, wobei die mehreren duplizierten Betriebsmittel folgendes umfassen: mehrere Prozessorzustandsvariablen; einen Anweisungszeiger; Registerumbenennungslogik.
Prozessor nach Anspruch 8, wobei die mehreren thread-partitionierbaren Betriebsmittel weiterhin folgendes umfassen: mehrere Umordnungspuffer; mehrere Speicherpuffereinträge.
Prozessor nach Anspruch 1, wobei die Logik weiterhin bewirken soll, daß der Prozessor die Ausführung des ersten Threads als Reaktion auf ein Ereignis wiederaufnimmt.
Prozessor nach Anspruch 3, wobei die Logik weiterhin bewirken soll, daß der Prozessor Ereignisse ignoriert, bis die gewählte Zeitdauer vergangen ist.
Prozessor nach Anspruch 1, wobei der Prozessor in digitalem Format auf einem computerlesbaren Medium realisiert ist.
Verfahren mit den folgenden Schritten: Empfangen eines ersten Opcodes in einem ersten Ausführungsthread; Suspendieren des ersten Threads für eine gewählte Zeitdauer als Reaktion auf den ersten Opcode; Freigeben mehrerer thread-partitionierbarer Betriebsmittel als Reaktion auf den ersten Opcode.
Verfahren nach Anspruch 13, wobei das Freigeben folgendes umfaßt: Verschmelzen der mehreren thread-partitionierbaren Betriebsmittel, damit sie größere Strukturen werden, die von weniger Threads verwendbar sind.
Verfahren nach Anspruch 14, wobei das Freigeben der mehreren thread-partitionierbaren Betriebsmittel folgendes umfaßt: Freigeben einer Partition einer Anweisungswarteschlange; Freigeben mehrerer Register aus einem Registerpool.
Verfahren nach Anspruch 15, wobei das Freigeben der mehreren thread-partitionierbaren Betriebsmittel weiterhin folgendes umfaßt: Freigeben mehrerer Speicherpuffereinträge; Freigeben mehrerer Umordnungspuffereinträge.
Verfahren nach Anspruch 13, wobei die gewählte Zeitdauer durch mindestens eine Technik programmierbar ist, die aus der folgenden Menge gewählt wird: Bereitstellen eines Operanden in Verbindung mit dem ersten Opcode; Durchbrennen von Schmelzverbindungen zum Setzen der gewählten Zeitdauer; Einprogrammieren der gewählten Zeitdauer in eine Speicherstelle vor dem Dekodieren der Programmanweisung; Setzen der gewählten Zeitdauer in Mikrocode.
System, umfassend: einen Speicher zum Speichern mehrerer Programm-Threads, einschließlich eines ersten Threads und eines zweiten Threads, wobei der erste Thread eine erste Anweisung enthält; einen mit dem Speicher gekoppelten Prozessor, wobei der Prozessor mehrere thread-partitionierbare Betriebsmittel und mehrere gemeinsam benutzte Betriebsmittel enthält, wobei der Prozessor Anweisungen aus dem Speicher ausführen soll, wobei der Prozes sor als Reaktion auf die Ausführung der ersten Anweisung den ersten Thread suspendieren und Teile der mehreren thread-partitionierbaren Betriebsmittel freigeben soll.
System nach Anspruch 18, wobei der Prozessor den zweiten Thread aus dem Speicher ausführen soll, während der erste Thread suspendiert ist.
System nach Anspruch 19, wobei der Prozessor die Ausführung des ersten Threads als Reaktion auf die erste Anweisung für eine gewählte Zeitdauer suspendieren soll, wobei die gewählte Zeitdauer durch mindestens eine Technik gewählt wird, die aus einer folgenden Menge gewählt wird: Bereitstellen eines Operanden in Verbindung mit der Programmanweisung; Durchbrennen von Schmelzverbindungen, um die gewählte Zeitdauer zu setzen; Einprogrammieren der gewählten Zeitdauer in eine Speicherstelle vor dem Decodieren der Programmanweisung; Setzen der gewählten Zeitdauer in Mikrocode.
System nach Anspruch 18, wobei die mehreren thread-partitionierbaren Betriebsmittel folgendes umfassen: eine Anweisungswarteschlange; ein Registerpool.
System nach Anspruch 21, wobei der Prozessor weiterhin folgendes umfaßt: mehrere gemeinsam benutzte Betriebsmittel, wobei die mehreren gemeinsam benutzten Betriebsmittel folgendes umfassen: mehrere Ausführungseinheiten; einen Cache; einen Scheduler; mehrere duplizierte Betriebsmittel, wobei die mehreren duplizierten Betriebsmittel folgendes umfassen: mehrere Prozessorzustandsvariablen; einen Anweisungszeiger; Registerumbenennungslogik.
System nach Anspruch 22, wobei die mehreren thread-partitionierbaren Betriebsmittel weiterhin folgendes umfassen: mehrere Umordnungspuffer; mehrere Speicherpuffereinträge.
Vorrichtung, umfassend: Mittel zum Empfangen einer ersten Anweisung aus einem ersten Thread; Mittel zum Suspendieren des ersten Threads als Reaktion auf die erste Anweisung; Mittel zum Freigeben mehrerer Partitionen mehrerer Betriebsmittel; Mittel zum Umpartitionieren der mehreren Betriebsmittel nach einer gewählten Zeitdauer.
Vorrichtung nach Anspruch 24, wobei die erste Anweisung eine Makroanweisung aus einem benutzer-ausführbaren Programm ist.
Vorrichtung nach Anspruch 25, wobei die mehreren Betriebsmittel ein Registerpool und eine Anweisungswarteschlange umfassen.