DE10297166T5

DE10297166T5 - Mechanismus zur Interrupt-Abwicklung in Computersystemen, welche die gleichzeitige Ausführung mehrerer Threads unterstützen

Info

Publication number: DE10297166T5
Application number: DE10297166T
Authority: DE
Inventors: Scott Chandler Bobholz; Keshavram Phoenix Murty
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-08-31
Filing date: 2002-08-01
Publication date: 2004-07-22
Also published as: GB0401390D0; JP2005502119A; US20030046464A1; GB2394099B; US6779065B2; KR100578437B1; GB2394099A; RU2280272C2; KR20040023692A; CN1549968A; TWI223771B; CN1267822C; RU2004109581A; HK1060784A1; WO2003021438A1

Abstract

Prozessor, welcher umfaßt:
eine erste Interrupt-Einheit zum Lenken eines ersten logischen Prozessors zu einem Interrupt-Handler als Reaktion auf einen Interrupt;
eine zweite Interrupt-Einheit zum Lenken eines zweiten logischen Prozessors zu dem Interrupt-Handler als Reaktion auf den Interrupt; und
ein Interrupt-Anspruch-Register zum Speichern eines Werts, der angibt, ob der erste oder der zweite logische Prozessor den Interrupt abwickeln soll.

Description

Hintergrund der Erfindung
Technisches Gebiet
Die vorliegende Erfindung betrifft Computersysteme und insbesondere Mechanismen zur Abwicklung von Interrupts in Computersystemen, welche die gleichzeitige Ausführung mehrerer Threads unterstützen.
Allgemeiner Stand der Technik
Moderne Hochleistungsprozessoren sind dafür ausgelegt, in jedem Taktzyklus mehrere Anweisungen auszuführen. Zu diesem Zweck enthalten sie in der Regel umfangreiche Ausführungsbetriebsmittel zur Ermöglichung einer parallelen Verarbeitung der Anweisungen. Die effiziente Benutzung dieser Betriebsmittel kann durch die Verfügbarkeit von parallel ausführbaren Anweisungen begrenzt werden. Die Verfügbarkeit von Anweisungen für parallele Ausführung wird als Anweisungsebenenparallelität (ILP) bezeichnet. Anweisungsabhängigkeiten begrenzen die in einem einzelnen Ausführungsthread verfügbare ILP. Wenn nur ein Ausführungsthread auf einmal verarbeitet werden kann, wird auch der Anweisungsdurchsatz reduziert.
Ein Ansatz zur Erhöhung des Anweisungsdurchsatzes besteht darin, Prozessoren zu entwerfen, die Anweisungen von zwei oder mehr Anweisungsthreads gleichzeitig ausführen können. Da Anweisungen von verschiedenen Threads unabhängig sind, vergrößert die gleichzeitige Ausführung von zwei oder mehr Anweisungsthreads den Anweisungsdurchsatz.
Es wurden vielfältige Entwürfe implementiert, um die gleichzeitige Ausführung mehrerer Threads in einem einzigen Prozessorbaustein zu unterstützen. Zum Beispiel enthalten Mehrkernprozessoren mehrere Ausführungskerne auf einem einzigen Prozessorchip. Jeder Ausführungskern kann einem verschiedenen Anweisungsthread zugeteilt werden, obwohl verschiedene Betriebsmittel gemeinsam benutzt werden können, um Chipfläche zu sparen oder eine gewisse Kommunikation zwischen den ausgeführten Threads zu ermöglichen. Es können auch mehrere Prozessorchips in ein Multichipmodul integriert werden, das eine einzige Schnittstelle zu dem Rest des Systems bereitstellt.
Mehrthreadprozessoren enthalten Betriebsmittel zur Verwaltung der Ausführung mehrerer Anweisungsthreads auf einem einzigen Ausführungskern. Thread-Managementeinheiten ermöglichen Onchip-Speicherung von Zustandsdaten für mehrere Threads und aktualisieren die Daten, während Anweisungen von verschiedenen Threads durch den gemeinsam benutzten Kern verarbeitet werden.
Ein grobkörniger Mehrthreadprozessor führt Anweisungen von nur einem Thread auf einmal aus, aber die Onchipspeicherung von Zustandsdaten für mehrere Threads verringert den Overhead, der dem Wechseln der Anweisungsausführung zwischen den verschiedenen Threads (Kontextwechseln) zugeordnet ist. Threadwechsel können ausgelöst werden, wenn der zur Zeit ausgeführte Thread auf ein Ereignis mit langer Latenz stößt (Switch-On-Event Multi-Threading oder SOEMT).
Ein feinkörniger Mehrthreadprozessor ermöglicht die gleichzeitige Ausführung von Anweisungen von den mehreren Threads. Zum Beispiel können Anweisungen bei jedem Taktzyklus von mehreren Threads oder von verschiedenen Threads bei verschiedenen Taktzyklen ausgegeben werden. In beiden Fällen können Anweisungen von mehreren Threads in dem Ausführungskern zur selben Zeit gerade bearbeitet werden.
Im allgemeinen ermöglichen sowohl Mehrthreadprozessoren als auch Mehrkernprozessoren, daß der Kontext von mehr als einem Thread gleichzeitig in dem Pro zessor aktiv ist. Bei Mehrkernprozessoren können ein Teil der Kerne oder alle mehrere Threads aufweisen. Kontext bedeutet hierbei die Register, die den Architekturzustand eines Threads für eine bestimmte Prozessorarchitektur speichern, und dazu können allgemeine, Steuer- und Anwendungsregister gehören. Die Leistungsvorteile dieser und anderer Prozessoren, die mehrere Threadkontexte unterstützen („Mehrfachkontextprozessoren"), hängen teilweise von der Fähigkeit dieser Prozessoren ab, als mehrere, äquivalente logische Prozessoren zu erscheinen. Diese Äquivalenz erleichtert sehr den Ausgleich von Arbeitslasten zwischen den logischen Prozessoren und vereinfacht die Verwaltung der Threads durch das Betriebssystem. Das Ziel besteht effektiv darin, daß ein Mehrfachkontextprozessor als ein symmetrisches Mehrprozessorsystem (SMP) erscheint.
Um die Symmetrie zwischen den mehreren Threads zu vergrößern, werden bestimmte Betriebsmittel für jeden logischen Prozessor des Mehrfachkontextprozessors dupliziert. Zum Beispiel ist in der Regel jedem logischen Prozessor eine Interrupt-Einheit zugeordnet, um eine Schnittstelle zwischen dem logischen Prozessor und Betriebsmitteln auf Systemebene oder gemeinsam benutzten Betriebsmitteln des Mehrfachkontextprozessors bereitzustellen. Die Interrupt-Einheit bestimmt, ob ein Interrupt abgewickelt werden soll, und liefert einen Zeiger auf den Interrupt-Abwicklungscode, wenn der Interrupt angenommen wird.
Ein Nachteil der Bereitstellung einer Interrupt-Einheit für jeden logischen Prozessor besteht darin, daß Interrupts, insbesondere diejenigen, die gemeinsam von den logischen Prozessoren benutzten Betriebsmitteln zugeordnet sind, häufig von allen logischen Prozessoren gesehen werden. Zum Beispiel kann ein Mehrfachkontextprozessor einen einzigen Interrupt-Anschluß bereitstellen, um Kompatibilität mit Einthreadentwürfen auf Bausteinebene aufrechtzuerhalten. Auf dem Anschluß gesetzte Interrupts werden von den Interrupt-Einheiten aller logischen Prozessoren gesehen. Ein Lüfterausfall in dem System kann einen solchen Interrupt auslösen. Aufgrund ihrer Äquivalenz registriert jede Interrupt-Einheit den Interrupt und ihr zugeordneter logischer Prozessor führt den Interrupt-Handler aus. Interrupts, die durch gemeinsam benutzte Onchipbetriebsmittel erzeugt oder auf System- oder eigenen Interrupt-Bussen empfangen werden, können auf ähnliche Weise gesehen und verarbeitet werden. In vielen Fällen hätte der Interrupt durch einen der logi schen Prozessoren abgewickelt werden können, aber die symmetrische Konfiguration der logischen Prozessoren verpflichtet jeden, den Interrupt-Code auszuführen.
Die vorliegende Erfindung behandelt diese und andere Probleme, die mit der Interrupt-Abwicklung in Prozessoren, die gleichzeitige Ausführung mehrerer Threads unterstützen, verbunden sind.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird durch Bezugnahme auf die folgenden Zeichnungen, in denen gleiche Elemente durch gleiche Zahlen bezeichnet werden, verständlich. Diese Zeichnungen werden bereitgestellt, um gewählte Ausführungsformen der vorliegenden Erfindung zu veranschaulichen, und sollen den Schutzumfang der Erfindung nicht einschränken.
1 ist ein Blockschaltbild eines Computersystems, in dem die vorliegende Erfindung implementiert werden kann.
2 ist ein Blockschaltbild eines Mehrkernprozessors gemäß der vorliegenden Erfindung.
3 ist ein Blockschaltbild eines Mehrthreadprozessors gemäß der vorliegenden Erfindung.
4 ist. ein Flußdiagramm einer Ausführungsform eines Verfahrens zur Abwicklung von Interrupts gemäß der vorliegenden Erfindung.
5 ist ein Flußdiagramm einer weiteren Ausführungsform eines Verfahrens zur Abwicklung von Interrupts gemäß der vorliegenden Erfindung.
Ausführliche Beschreibung der Erfindung
Im folgenden werden zahlreiche spezifische Einzelheiten dargelegt, um ein umfassendes Verständnis der Erfindung bereitzustellen. Für Durchschnittsfachleute ist jedoch anhand der vorliegenden Offenlegung erkennbar, daß die Erfindung ohne diese spezifischen Einzelheiten ausgeübt werden kann. Zusätzlich wurden verschiedene wohlbekannte Verfahren, Prozeduren, Komponenten und Schaltungen nicht ausführlich beschrieben, um die Aufmerksamkeit auf die Merkmale der vorliegenden Erfindung zu konzentrieren.
1 ist ein Blockschaltbild einer Ausführungsform eines Computersystems 100, in dem die vorliegende Erfindung implementiert werden kann. Das Computersystem 100 enthält einen Mehrfachkontextprozessor 110 zur Ausführung von in einem Speicher 160 gespeicherten Anweisungen. Zwischen dem Prozessor 110 und dem Speicher 160 werden durch einen Kanal 180 Daten und Anweisungen gekoppelt. Der Kanal 180 kann einen oder mehrere Busse enthalten, die durch einen Chipsatz oder eine Systemlogik gesteuert werden (nicht gezeigt).
Für das System 100 speichert der Speicher 160 einen Interrupt-Handler 170, der durch Betriebsmittel auf dem Mehrfachkontextprozessor 110 als Reaktion auf einen Interrupt ausgeführt wird. Der Speicher 160 kann flüchtige Speicherstrukturen darstellen, wie zum Beispiel Cache- und Hauptspeicher, sowie nichtflüchtige Speicherstrukturen, wie zum Beispiel Flash-Speicher, Festplatten- und Soft-Laufwerke und dergleichen. Bei einer Ausführungsform der Erfindung kann ein Teil des Interrupt-Handlers 170 in Firmware implementiert werden, während andere Teile in einem Hauptspeicher gespeichert werden können.
Die Logik des Mehrfachkontextprozessors 110 wird als logische Prozessoren 120(1)–120(n) (generisch logischer Prozessor 120) repräsentiert, einschließlich ihrer jeweiligen zugeordneten Interrupt-Einheiten 130(1)–130(n) (generisch Interrupt-Einheit 130) und gemeinsam benutzter Betriebsmittel 140. Zum Beispiel kann jeder logische Prozessor 120 Betriebsmittel darstellen, die einem bestimmten Thread zugeteilt werden, und die gemeinsam benutzten Betriebsmittel 140 können diejenigen Betriebsmittel des Prozessors 110 darstellen, die Threads auf allen logischen Prozessoren 120 verfügbar sind.
Bei der gezeigten Ausführungsform des Systems 100 enthalten die gemeinsam benutzten Betriebsmittel 140 ein Interrupt-Anspruch-Register (interrupt claim regi ster/ICR) 150, das jedem logischen Prozessor 120 zugänglich ist. Wie später ausführlicher beschrieben wird, liefert das ICR 150 einen Mechanismus, durch den ein logischer Prozessor 120 den übrigen logischen Prozessoren signalisiert, daß er einen Interrupt abwickeln wird. Die gemeinsam benutzten Betriebsmittel 140 können außerdem einen Cache-Speicher auf höherer Ebene oder Buslogik enthalten, womit mit dem Speicher 160 oder Peripheriegeräten (nicht gezeigt) kommuniziert wird.
Die Interrupt-Einheit 130 stellt einen dem logischen Prozessor 120 zur Verarbeitung von Interrupts zugeordneten Funktionsblock dar. Bestimmte Interrupts können von jedem der logischen Prozessoren 120 abgewickelt werden. Zum Beispiel können in der Regel bestimmte Interrupts, die aus den gemeinsam benutzten Betriebsmitteln 140 auf dem Prozessor und System stammen, oder Interrupts auf Plattformebene, die durch Betriebsmittel außerhalb des Prozessorbausteins erzeugt werden, durch einen beliebigen logischen Prozessor 120 abgewickelt werden. Sie können durch einen externen Anschluß 104 an dem Prozessorbaustein, einen Bus oder durch interne Schaltkreise des Prozessors 110 übermittelt werden. In der folgenden Erörterung werden Interrupts wie diese als gewöhnliche Interrupts bezeichnet, um sie von Interrupts, die auf einen spezifischen logischen Prozessor abgezielt sind, zu unterscheiden.
Die Interrupt-Einheiten 130(1)–130(n) registrieren gewöhnliche Interrupts jeweils für die logischen Prozessoren 120(1)–120(n). Zum Beispiel bewertet jede Interrupt-Einheit 130 die einem Interrupt zugewiesene Priorität zusammen mit etwaigen Maskenbedingungen, um zu bestimmen, ob es der Interrupt verdient, sofort abgewickelt zu werden, z.B. ob das Ereignis, das den Interrupt ausgelöst hat, gegenüber dem zur Zeit ausgeführten Thread Priorität haben sollte. Wenn die Interrupt-Einheit 130 bestimmt, daß der Interrupt Priorität hat, lenkt sie ihren zugeordneten logischen Prozessor 120 zu einer entsprechenden Interrupt-Abwicklungsroutine. Die vorliegende Erfindung liefert einen Mechanismus, der es einem logischen Prozessor 120 gestattet, die volle Interrupt-Abwicklungsroutine für einen Interrupt, der durch alle logischen Prozessoren 120 registriert wird, auszuführen. Dabei erlegt er den logischen Prozessoren 120 keine Asymmetrien auf, wie zum Beispiel das willkürliche Zuweisen von Interrupts zu logischen Prozessoren 120.
Bei einer Ausführungsform des Systems 100 registrieren die Interrupt-Einheiten 130(1)–130(n) einen gewöhnlichen Interrupt für die logischen Prozessoren 120(1)–120(n). Wenn der Interrupt Priorität hat, lenken die Interrupt-Einheiten 130(1)–130(n) die logischen Prozessoren 120(1)–120(n) jeweils zu dem Interrupt-Handler 170. Jeder der logischen Prozessoren 120(1)–120(n) führt ein erstes Codesegment des Interrupt-Handlers 170 aus, das ihn anweist, auf das ICR 150 zuzugreifen. Der erste der logischen Prozessoren 120, der erfolgreich auf das ICR 150 zugreift, schließt die Verarbeitung des Interrupts ab und die übrigen logischen Prozessoren 120 nehmen die Ausführung ihrer Threads wieder auf.
Bei einer Ausführungsform der Erfindung wird das ICR 150 auf einen ersten Wert initialisiert und nach einem gewöhnlichen Interrupt auf den ersten Wert zurückgesetzt. Das Anfangs-Codesegment des Interrupt-Handlers 160 weist jeden logischen Prozessor 120 an, den gerade in dem ICR 150 befindlichen Wert zu lesen und einen zweiten Wert in das ICR 150 zu schreiben. Vorausgesetzt, daß der zweite Wert von dem ersten Wert verschieden ist, sieht der erste logische Prozessor 120, der das ICR 150 liest, den ersten Wert. Alle anderen logischen Prozessoren 120 sehen den zweiten Wert. Der logische Prozessor, der den ersten Wert liest, setzt die Ausführung des Interrupt-Handlers fort. Die übrigen logischen Prozessoren lesen den zweiten Wert, der ihnen signalisiert, aus dem Interrupt zurückzukehren, z.B. um die Ausführung ihrer unterbrochenen Threads wiederaufzunehmen.
Die logischen Prozessoren 120 reagieren auf einen gewöhnlichen Interrupt nicht unbedingt synchron miteinander. Die Art von Thread, der ausgeführt wird, wenn der Interrupt auftritt, seine Priorität oder sogar die Art der gerade bearbeiteten Anweisungen können bestimmen, wie schnell der logische Prozessor 120 auf das ICR 150 zugreift. Abhängig von der Ausführungsform kann der Interrupt-Handler 170 nur durch einen Prozessor auf einmal ausführbar sein, und in diesem Fall ist der erste logische Prozessor, der den Interrupt-Handler 170 ausführt, der erste, der auf das ICR 150 zugreift.
Verschiedene Ausführungsformen des Mehrfachkontextprozessors 110 implementieren die logischen Prozessoren 120 auf verschiedene Weise. Bei einer Mehr kernausführungsform des Mehrfachkontextprozessors 110 entspricht jeder logische Prozessor 120 einem Ausführungskern. Eine Mehrkernausführungsform des Mehrfachkontextprozessors 110 wird in Verbindung mit 2 besprochen. Bei einer Mehrfachthreadausführungsform des Mehrfachkontextprozessors 110 entspricht jeder logische Prozessor 120 den Betriebsmitteln eines einzigen Ausführungskerns, die einem bestimmten Thread zugeteilt werden. Eine Mehrfachthreadausführungsform des Mehrfachkontextprozessors 110 wird in Verbindung mit 3 besprochen. Andere Ausführungsformen des Mehrfachkontextprozessors 110 können zum Beispiel mehrere Kerne enthalten, von denen alle oder einige mehrere Threads aufweisen. Die vorliegende Erfindung hängt nicht von der genauen Art und Weise der Implementierung der logischen Prozessoren in dem Prozessor ab.
2 ist ein Blockschaltbild einer Mehrkernausführungsform 210 eines Mehrfachkontextprozessors 110. Der Mehrkernprozessor 210 stellt die Ausführungskerne 220(1)–220(n) und ihre jeweiligen Interrupt-Einheiten 230(1)–230(n) bereit, um die gleichzeitige Ausführung von bis zu n Threads zu unterstützen. Außerdem sind gemeinsam benutzte Betriebsmittel 240 gezeigt, zu denen ein Interrupt-Anspruch-Register (ICR) 250 gehört. Bei der offengelegten Ausführungsform des Mehrkernprozessors 210 greifen die Ausführungskerne 220(1)–220(n) durch einen Bus 254 auf das ICR 250 zu.
Als Reaktion auf einen gewöhnlichen Interrupt bestimmt jede Interrupt-Einheit 230, ob der Interrupt Priorität hat, und wenn dies der Fall ist, lenkt sie ihren entsprechenden Ausführungskern 220 zu einem Interrupt-Handler. Unter der Kontrolle eines ersten Teils des Interrupt-Handlers konkurrieren die Ausführungskerne 220 um den Zugriff auf das ICR 250. Der erste, der auf das ICR 250 zugreift, schließt den Interrupt-Handler ab. Die übrigen Ausführungskerne nehmen ihre unterbrochenen Threads wieder auf. Bei einer anderen Ausführungsform des Mehrkernprozessors 210 können einer oder mehrere der Ausführungskerne 220(1)–220(n) ebenfalls mehrere Threads aufweisen, und in diesem Fall versucht jeder Thread auf jedem Kern, zuerst auf das ICR 250 zuzugreifen.
Bei einer Ausführungsform der Erfindung bewirkt das erste Codesegment, daß jeder logische Prozessor 220 das ICR 250 liest. Wenn der logische Prozessor 220 einen ersten Wert in dem ICR 250 liest, fährt er fort, den Rest des Interrupt-Handlers auszuführen. Wenn der logische Prozessor 220 einen zweiten Wert in dem ICR 250 liest, kann er die Ausführung der Anweisungen des Threads, den er vor dem Interrupt ausgeführt hat, wiederaufnehmen. Um sicherzustellen, daß nur ein logischer Prozessor 220 den ersten Wert liest, kann das anfängliche Codesegment eine atomische Lese-Modifizier-Schreib-Operation, wie zum Beispiel eine Operation des Typs „Test-and-Set" verwenden. Wenn zum Beispiel der erste Wert in dem ICR 250 Null ist, kann der Interrupt-Handler 170 den Wert in dem ICR 250 lesen und atomisch eine Eins in das ICR 250 schreiben. Das heißt, die Lese-Modifizier-Schreiboperationen werden ausgeführt, ohne das ICR 250 einem anderen logischen Prozessor zu überlassen. Bei dieser Ausführungsform liest nur der erste logische Prozessor, der das ICR 250 erreicht, den Nullwert. Alle anderen logischen Prozessoren lesen die durch den ersten logischen Prozessor, der auf das ICR 250 zugegriffen hat, in das ICR 250 geschriebene Eins.
Die obenbeschriebene Ausführungsform ist ein Beispiel für einen Mechanismus des Typs „Race-to-Flag" zur Bestimmung, welcher logische Prozessor einen gewöhnlichen Interrupt abwickeln wird. Das Flag kann in einem Register, einer Verriegelungsvariablen oder in einem ähnlich gespeicherten Bit oder Bits enthalten sein, worauf durch jeden logischen Prozessor zugegriffen werden kann. Die für ein solches Flag geltenden Lese-/Schreibregeln ermöglichen es jedem logischen Prozessor, der unabhängig handelt, zu bestimmen, ob er für das Abwickeln des gewöhnlichen Interrupt verantwortlich ist oder nicht.
3 ist ein Blockschaltbild einer Mehrthreadausführungsform 310 des Mehrfachkontextprozessors 110. Der Mehrthreadprozessor 310 enthält einen Ausführungskern 304, der die gleichzeitige Verarbeitung von Anweisungen von bis zu n verschiedenen Threads ermöglicht. Der Ausführungskern 304 wird als eine Pipeline dargestellt, in der verschiedene Stufen entweder einem der n Threads (Blöcke 324(1)–324(n), 326(1)–326(n), 328(1)–328(n), 330(1)–330(n)) zugeteilt oder gemeinsam von den n Threads (Blöcke 340(a)–340(c) und ICR 350) benutzt werden. Zum Beispiel können die Blöcke 340(a), 340(b) und 340(c) einen gemeinsam benutzten Anweisungs-Cache-Speicher, eine gemeinsam benutzte Register-Umbenennungseinheit und einen gemeinsam benutzten Daten-Cache-Speicher re präsentieren. Die Blöcke 324(1)–324(n), die Blöcke 326(1)–326(n), die Blöcke 328(1)–328(n) und die Blöcke 330(1)–330(n) können Teile einer Abrufeinheit, einer Decodiereinheit, einer Ausführungseinheit bzw. einer Interrupt-Einheit darstellen, die den Threads 1-n zugeteilt werden. Die einem gegebenen logischen Prozessor zugeteilten Betriebsmittel sind nur zur Vereinfachung von 3 in vertikaler Ausrichtung gezeigt. Es ist nicht beabsichtigt, eine bestimmte Anordnung der einem Thread zugeteilten Betriebsmittel anzugeben.
Bei der dargelegten Ausführungsform des Prozessors 310 wird der logische Prozessor 320(1) durch zugeteilte Betriebsmittel 324(1), 326(1), 328(1) und 330(1) dargestellt, und der logische Prozessor 320(n) durch zugeteilte Betriebsmittel 324(n), 326(n), 328(n) und 330(n). Dies geschieht lediglich zur Veranschaulichung. Andere Darstellungen können Teile der gemeinsam benutzten Betriebsmittel 340(a)–340(c) enthalten, die gerade von dem entsprechenden Thread benutzt werden.
Die Interrupt-Einheiten 330 müssen wie andere zugeteilte Betriebsmittel in dem Prozessor 310 nicht physisch verschiedene Einheiten sein. Zum Beispiel können sie Teile einer einzigen Interrupt-Einheit darstellen, die einzelnen, auf dem Prozessor 310 ausgeführten Threads zugeteilt wird. Als Reaktion auf einen gewöhnlichen Interrupt registrieren die Interrupt-Einheiten 330(1)–330(n) den Interrupt, und bestimmen, ob er verarbeitet werden soll. Wenn der Interrupt Priorität hat, weisen die Interrupt-Einheiten 330(1)–330(n) die logischen Prozessoren 320(1)–320(n) an, eine Interrupt-Abwicklungsroutine, z.B. den Interrupt-Handler 170, auszuführen. Jeder logische Prozessor 320 führt ein erstes Codesegment der Interrupt-Abwicklungsroutine aus, das bewirkt, daß er auf das ICR 350 zugreift. Der erste logische Prozessor 320, der auf das ICR 350 zugreift, führt den Rest der Interrupt-Abwicklungsroutine aus. Die anderen logischen Prozessoren 320 kehren zu ihren unterbrochenen Threads zurück.
Die Konfigurationen des Mehrkernprozessors 210 und des Mehrthreadprozessors 310 werden lediglich zur Veranschaulichung angegeben. Andere Ausführungsformen von Mehrfachkontextprozessoren, die sich zur Verwendung bei der vorliegenden Erfindung eignen, können andere Konfigurationen verwenden. Zum Bei spiel können die Threads eines Mehrthreadprozessors ein Frontend und Ausführungsbetriebsmittel gemeinsam benutzen und nur Registerfiles duplizieren. Fachleute auf dem Gebiet des Prozessorentwurfs werden anhand der vorliegenden Offenbarung andere Konfigurationen von Mehrfachkontextprozessoren erkennen, die in Verbindung mit der vorliegenden Erfindung verwendet werden können.
4 ist ein Floßdiagramm einer Ausführungsform des Verfahrens 400, das von jedem logischen Prozessor in einem Mehrfachkontextprozessor als Reaktion auf einen gewöhnlichen Interrupt ausgeführt wird.
Ein gewöhnlicher Interrupt wird erkannt 410 und der logische Prozessor bestimmt 420, ob der Interrupt abgewickelt werden soll. Zum Beispiel kann eine Interrupt-Einheit des logischen Prozessors Prioritäts- und Maskierbits untersuchen, um zu bestimmen, ob der erkannte Interrupt gegenüber dem gerade ausgeführten Anweisungsthread Vorrang erhält. Wenn der Interrupt keine Priorität hat, endet das Verfahren 400 470. Wenn der Interrupt Priorität hat 420, werden bestimmte Zustandsinformationen an einem entsprechenden Punkt in dem gerade ausgeführten Thread gesichert 430 und der logische Prozessor wird zu der Interrupt-Abwicklungsroutine an einer angegebenen Adresse gelenkt 440. Eine Interrupt-Einheit stellt die Interrupt-Handler-Adresse in der Regel bereit, wenn sie bestimmt, daß der Interrupt Priorität hat.
Die vor dem Transfer der Steuerung zu einem Interrupt-Handler gesicherten Zustandsinformationen sind gewöhnlich die kleinste Menge an Zustandsinformationen, die den logischen Prozessor nach Abschluß des Interrupt-Handlers zu dem unterbrochenen Anweisungsthread zurückführen kann. Dadurch wird das mit der Ausführung des Interrupt-Handlers verbundene Overhead verringert.
Nach dem Eintritt in die Interrupt-Routine führt der logische Prozessor ein erstes Codesegment aus, das ihn anweist, auf ein Interrupt-Anspruch-Register (ICR) zuzugreifen 450 und einen in dem ICR gespeicherten Wert mit einem ersten Wert zu vergleichen 460. Wenn der gelesene Wert gleich dem ersten Wert ist, fährt der logische Prozessor mit der Interrupt-Abwicklungsroutine fort 470. Wenn der gespei cherte Wert nicht gleich dem ersten Wert ist, kehrt der logische Prozessor aus dem Interrupt zurück 480.
Um sicherzustellen, daß nur ein Prozessor auf einmal auf das ICR zugreift, können Ausführungsformen der vorliegenden Erfindung das ICR oder das zum Zugriff auf das ICR verwendete Codesegment schützen. Im ersten Fall kann der Interrupt-Handler eine atomische Lese-Modifizier-Schreib-Operation verwenden, um das ICR zu modifizieren. Wenn bei dieser Ausführungsform der logische Prozessor einen ersten Wert in dem ICR liest, schreibt er dann einen zweiten Wert in das ICR, ohne die Kontrolle des ICR zwischen Lese- und Schreiboperationen aufzugeben. Sofern das ICR zwischen Interrupts auf den ersten Wert zurückgesetzt ist, liest der erste logische Prozessor, der das ICR liest, den ersten Wert in dem ICR und ersetzt ihn mit dem zweiten Wert. Jeder logische Prozessor, der das ICR nach dem ersten logischen Prozessor liest (als Reaktion auf denselben Interrupt), liest den zweiten Wert und nimmt seine Aktivitäten vor der Unterbrechung wieder auf.
Für den zweiten Fall wird der Zugriff auf das erste Codesegment des Interrupt-Handlers durch ein Kritischer-Teil-Bit (critical section bit) torgeschaltet. Der erste logische Prozessor, der das erste Codesegment erreicht, führt eine atomische Lese-Modifizier-Schreiboperation eines Kritischer-Teil-Bit durch, wobei er den Wert des Bit liest und einen zweiten Wert in das Bit schreibt, ohne das Bit zwischen der Lese- und Schreiboperation freizugeben. Wenn der gelesene Wert anzeigt, daß das erste Codesegment unverriegelt ist, führt der logische Prozessor den Code zum Lesen des Werts in dem ICR aus. Der zweite in das Kritischer-Teil-Bit geschriebene Wert stellt sicher, daß kein anderer logischer Prozessor das erste Codesegment in der Zwischenzeit ausführen kann. Wenn der gelesene Wert anzeigt, daß das erste Codesegment verriegelt ist, kann der logische Prozessor zu dem Thread zurückkehren, den er ausgeführt hatte. Da nur ein logischer Prozessor auf einmal das erste Codesegment ausführen kann, erfordert das Lesen und Beschreiben des ICR keine atomische Operation. Fachleute werden anhand der vorliegenden Offenbarung verschiedene andere Mechanismen erkennen, die sicherstellen, daß nur ein logischer Prozessor die Eigentümerschaft des gewöhnlichen Interrupt beansprucht.
Nachdem alle logischen Prozessoren als Reaktion auf einen gewöhnlichen Interrupt auf das Flag (ICR, Verriegelungsvariable usw.) zugegriffen haben, sollte das Flag für den nächsten gewöhnlichen Interrupt auf den ersten Wert zurückgesetzt werden. Bei einer Ausführungsform der Erfindung setzt der letzte logische Prozessor, der das Flag als Reaktion auf einen gewöhnlichen Interrupt liest, es auf den ersten Wert zurück. Zum Beispiel kann das Flag so definiert werden, daß es ein Bit für jeden durch den Mehrfachkontextprozessor unterstützten logischen Prozessor enthält. Während jeder logische Prozessor auf das Flag zugreift, setzt er das entsprechende Flag-Bit. Der letzte logische Prozessor setzt sein entsprechendes Flag-Bit und setzt alle Bit in dem Flag auf den ersten Wert zurück.
Bei einer anderen Ausführungsform kann das anfängliche Codesegment des Interrupt-Handlers einen logischen Prozessor anweisen, einen Zählwert (d.h. ein Flag) zu erhöhen und den erhöhten Zählwert zu lesen. Wenn der erhöhte Zählwert gleich der Anzahl gerade auf dem Prozessor aktiver logischer Prozessoren ist, setzt der logische Prozessor den Zählwert auf den ersten Wert zurück. Wenn der erhöhte Zählwert kleiner als die Anzahl logischer Prozessoren, die gerade aktiv sind, ist, kehrt der logische Prozessor aus dem Interrupt zurück.
Bei diesen Mechanismen zum Rücksetzen des Flag wird angenommen, daß die Zeit zwischen gewöhnlichen Interrupts in der Regel größer als die Zeit ist, die alle logischen Prozessoren benötigen, um den Interrupt-Handler (oder Teile davon) auszuführen und auf das Flag zuzugreifen. Fachleute auf dem Gebiet des Prozessorentwurfs werden anhand der vorliegenden Offenbarung andere Mechanismen zum Rücksetzen des Flag, nachdem die Eigentümerschaft eines gewöhnlichen Interrupts bestimmt wurde, erkennen.
5 ist ein Floßdiagramm einer Ausführungsform eines Verfahrens 500 gemäß der vorliegenden Erfindung zum Abwickeln von Interrupts. Das Verfahren 500 ermöglicht es, eine duplizierte Abwicklung gewöhnlicher Interrupts freizugeben oder zu sperren. Zum Beispiel kann es notwendig sein, daß alle logischen Prozessoren auf einen gewöhnlichen Interrupt, wie zum Beispiel einen Maschinen-Check oder ein thermisches Ereignis, reagieren. Für diese und andere gewöhnliche Interrupts, die von allen logischen Prozessoren eine Reaktion erfordern, kann eine du plizierte Abwicklung von Interrupts durch Bezugnahme auf das Bit ECH (enable common handling/Freigabe der gemeinsamen Abwicklung) freigegeben werden. Dieses Bit kann für ausgewählte gewöhnliche Interrupts gesetzt werden, wenn das System das erste Mal gebootet wird, oder später zur Anpassung einer bestimmten Systemumgebung verändert werden.
Des Verfahren 500 wird als Reaktion auf die Erkennung eines gewöhnlichen Interrupts eingeleitet 510. Ein logischer Prozessor prüft 520 ein Bit, um zu bestimmen, ob duplizierte Interruptabwicklung freigegeben ist. Wenn sie freigegeben ist, fährt der logische Prozessor mit dem Interrupt-Handler fort 530, ungeachtet dessen, was andere logische Prozessoren durchführen. Wenn das Bit anzeigt 520, daß duplizierte Interruptabwicklung gesperrt ist, prüft 540 der logische Prozessor das ICR, um zu bestimmen, ob Eigentümerschaft des Interrupts beansprucht wurde. Wenn der Interrupt nicht beansprucht wurde 550, fährt der logische Prozessor mit dem Interrupt-Handler fort 530. Die obenbesprochenen Mechanismen zur Regelung des Zugriffs auf das ICR sind auf das Verfahren 500 anwendbar. Wenn der Interrupt beansprucht wurde 550, bestimmt 560 der logische Prozessor, ob es der letzte Thread ist, der auf den gewöhnlichen Interrupt reagiert. Wenn dem so ist, setzt der logische Prozessor das ICR auf den ersten Wert zurück 570 und kehrt aus dem Interrupt-Handler zurück 580, um die Ausführung des Threads, den er abgewickelt hat, als der Interrupt auftrat, wiederaufzunehmen. Wenn es nicht der letzte Thread ist, der auf den gewöhnlichen Interrupt reagiert, kehrt er aus dem Interrupt-Handler zurück 580, ohne das ICR zurückzusetzen. Die obenbesprochenen Mechanismen des Verfahrens 400 zur Bestimmung, ob der logische Prozessor der letzte Thread ist, der auf den gewöhnlichen Interrupt reagiert, und zum entsprechenden Zurücksetzen des ICR (d.h. Flag) sind auf das Verfahren 500 anwendbar.
Es wurde also ein Mechanismus zum Abwickeln bestimmter Interrupts in Computersystemen mit Mehrfachkontextprozessoren offengelegt. Die logischen Prozessoren auf einem Mehrfachkontextprozessor konkurrieren um den Zugriff auf ein gemeinsam benutztes Register als Reaktion auf einen gewöhnlichen Interrupt. Der erste der logischen Prozessoren, der auf das gemeinsam benutzte Register zugreift, wickelt den Interrupt ab. Die übrigen logischen Prozessoren erkennen, daß der Interrupt beansprucht wurde, und kehren aus dem Interrupt-Handler zurück. Bei ei ner Ausführungsform der Erfindung enthält der Interrupt-Handler einen ersten Codeteil, der von allen logischen Prozessoren auf dem Baustein als Reaktion auf den gewöhnlichen Interrupt ausgeführt wird. Das gemeinsam benutzte Register wird auf einen ersten Wert initialisiert und der erste Codeteil weist jeden logischen Prozessor an, das gemeinsam benutzte Register zu lesen. Der erste logische Prozessor, der nach einem gewöhnlichen Interrupt auf das gemeinsam benutzte Register zugreift, liest den ersten Wert, schreibt einen zweiten Wert und setzt die Ausführung des Interrupt-Handlers fort. Die übrigen logischen Prozessoren lesen den zweiten Wert, der sie anweist, aus dem Interrupt-Handler auszutreten.
Bei einer anderen Ausführungsform der Erfindung wird ein Freigabe-/Sperrbit vorgesehen, um zu signalisieren, ob gewöhnliche Interrupts redundant verarbeitet werden oder nicht. Wenn das Bit der Sperrzustand ist, wird der Interrupt von dem ersten logischen Prozessor beansprucht, der auf das gemeinsam benutzte Register zugreift, indem er ein erstes Segment einer Interrupt-Abwicklungsroutine ausführt. Wenn sich das Bit in dem Freigabezustand befindet, wird das erste Codesegment umgangen und alle logischen Prozessoren führen die Interrupt-Handler-Routine bis zum Schluß aus.
Die offenbarten Ausführungsformen wurden angegeben, um verschiedene Merkmale der vorliegenden Erfindung zu veranschaulichen. Die vorliegende Erfindung kann in Computern und anderen prozessorgestützten Systemen, die Mehrfachkontextprozessoren verwenden, Anwendung finden. Fachleute werden anhand der vorliegenden Offenlegung Varianten und Modifikationen der offengelegten Ausführungsformen erkennen, die dennoch in den Gedanken und Schutzumfang der angefügten Ansprüche fallen.
Zusammenfassung
Die vorliegende Erfindung liefert einen Mechanismus zum Abwickeln von Interrupts auf einem Prozessor, der mehrere Threads gleichzeitig unterstützt. Die Betriebsmittel des Prozessors werden zugeteilt, um mehrere logische Prozessoren bereitzustellen. Als Reaktion auf einen gewöhnlichen Interrupt konkurrieren die logischen Prozessoren um den Zugriff auf ein gemeinsam benutztes Register. Der erste logische Prozessor, der auf das gemeinsam benutzte Register zugreift, wickelt den gewöhnlichen Interrupt ab. Die übrigen logischen Prozessoren kehren aus dem Interrupt zurück.

Claims

Prozessor, welcher umfaßt: eine erste Interrupt-Einheit zum Lenken eines ersten logischen Prozessors zu einem Interrupt-Handler als Reaktion auf einen Interrupt; eine zweite Interrupt-Einheit zum Lenken eines zweiten logischen Prozessors zu dem Interrupt-Handler als Reaktion auf den Interrupt; und ein Interrupt-Anspruch-Register zum Speichern eines Werts, der angibt, ob der erste oder der zweite logische Prozessor den Interrupt abwickeln soll.
Prozessor nach Anspruch 1, wobei der erste und der zweite logische Prozessor einen Wert in dem Interrupt-Anspruch-Register unter der Kontrolle des Interrupt-Handlers lesen.
Prozessor nach Anspruch 2, wobei der erste logische Prozessor den Interrupt abwickelt, wenn er das Interrupt-Anspruch-Register zuerst liest.
Prozessor nach Anspruch 3, wobei der zweite logische Prozessor den Interrupt-Handler verläßt, wenn der erste logische Prozessor den Interrupt abwickelt.
Prozessor nach Anspruch 4, wobei der zweite logische Prozessor feststellt, daß der erste logische Prozessor den Interrupt abwickelt, indem er einen Wert in dem Interrupt-Anspruch-Register liest, der durch den ersten logischen Prozessor geschrieben wird.
System, welches umfaßt: einen Prozessor mit einem Interrupt-Anspruch-Register und einer Mehrzahl von Thread-Betriebsmitteln zur Verarbeitung von Anweisungen jeweils für eine entsprechende Mehrzahl von Anweisungsthreads; und einen Speicher zum Speichern eines Interrupt-Handlers, der Anweisungen enthält, die als Reaktion auf einen Interrupt durch jedes der Mehrzahl von Thread-Betriebsmitteln ausführbar sind, um folgendes auszuführen: Lesen eines Werts in dem Interrupt-Anspruch-Register; und Verarbeiten des Interrupts oder Wiederaufnahme der Anweisungsausführung als Reaktion auf den gelesenen Wert.
System nach Anspruch 6, wobei die Mehrzahl von Thread-Betriebsmitteln eine Mehrzahl von Ausführungskernen des Prozessors umfaßt.
System nach Anspruch 6, wobei die Mehrzahl von Thread-Betriebsmitteln mehrere Betriebsmittel eines Ausführungskerns umfaßt, die mehreren Anweisungsthreads zugeordnet sind.
System nach Anspruch 6, wobei der Interrupt-Handler Anweisungen enthält, die weiter durch jedes Thread-Betriebsmittel ausführbar sind, um nach dem Lesen des Werts in dem Interrupt-Anspruch-Register einen zweiten Wert in das Interrupt-Anspruch-Register zu schreiben.
System nach Anspruch 9, wobei das Interrupt-Anspruch-Register so initialisiert wird, daß er einen ersten Wert speichert, und das erste Thread-Betriebsmittel, das den ersten Wert liest, diesen mit einem zweiten Wert ersetzt und den Interrupt abwickelt.
System nach Anspruch 10, wobei ein Rest der Mehrzahl von Thread-Betriebsmitteln als Reaktion auf das Lesen des zweiten Werts in dem Interrupt-Anspruch-Register einen Rücksprung aus dem Interrupt ausführen.
System, welches umfaßt: einen Speicher, in dem ein Interrupt-Handler gespeichert ist; und einen Prozessor mit einem Interrupt-Anspruch-Register und Ausführungsbetriebsmitteln zur Unterstützung mehrerer logischer Prozessoren, wobei jeder der logischen Prozessoren als Reaktion auf ein Interrupt-Signal unter Verwendung des Interrupt-Handlers um den Zugriff auf das Interrupt-Anspruch-Register konkurriert.
System der Anspruchsvorrichtung nach Anspruch 12, wobei die Ausführungsbetriebsmittel zur Unterstützung mehrerer logischer Prozessoren mehrere Ausführungskerne umfassen.
System nach Anspruch 13, wobei jeder Ausführungskern eine Interrupt-Einheit zur direkten Lenkung des Ausführungskerns zu dem Interrupt-Handler als Reaktion auf das Interrupt-Signal enthält.
System nach Anspruch 13, wobei jeder der Ausführungskerne Anweisungen des Interrupt-Handlers zum Lesen des Interrupt-Anspruch-Registers und zum Fortsetzen der Ausführung des Interrupt-Handlers oder zum Rückkehren aus dem Interrupt-Handler als Reaktion auf den in dem Interrupt-Anspruch-Register gelesenen Wert verarbeitet.
System nach Anspruch 15, wobei ein erster der Ausführungskerne, der als Reaktion auf das Interrupt-Signal das Interrupt-Anspruch-Register liest, die Ausführung des Interrupt-Handlers abschließt und andere Ausführungskerne den Interrupt-Handler verlassen.
System nach Anspruch 12, wobei ein erster der logischen Prozessoren, der auf das Interrupt-Anspruch-Register zugreift, die Ausführung des Interrupt-Handlers abschließt.
System nach Anspruch 17, wobei die logischen Prozessoren, die nach dem ersten logischen Prozessor auf das Interrupt-Anspruch-Register zugreifen, den Interrupt-Handler verlassen.
System nach Anspruch 12, wobei die Ausführungsbetriebsmittel zur Unterstützung mehrerer logischer Prozessoren mehrere Ausführungskerne umfassen, von denen mindestens einer Mehrfachthreads unterstützt.
Verfahren, das als Reaktion auf einen Interrupt durch jeden Thread, der gerade auf einem Mehrfachkontextprozessor ausgeführt wird, implementiert wird, mit den folgenden Schritten: Zugreifen auf einen Interrupt-Handler an einer angegebenen Speicherstelle; Ausführen des Interrupt-Handlers, um einen Wert in einem Interrupt-Anspruch-Register zu lesen; und Abschließen der Ausführung des Interrupt-Handlers, wenn der aus dem In#terrupt-Anspruch-Register gelesene Wert ein erster Wert ist.
Verfahren nach Anspruch 20, wobei die Ausführung des Interrupt-Handlers das Lesen des Werts in dem Interrupt-Anspruch-Register und das Schreiben eines zweiten Werts in das Register, ohne die Kontrolle über das Register aufzugeben, umfaßt.
Verfahren nach Anspruch 20, bei dem weiterhin die Ausführung des Interrupt-Handlers beendet wird, wenn der aus dem Interrupt-Anspruch-Register gelesene Wert der zweite Wert ist.