DE102008016178B4

DE102008016178B4 - Verfahren und System zum spekulativen Vorabruf in einer Mehrprozessor-/Mehrkern-Nachrichtenübermittlungsmaschine

Info

Publication number: DE102008016178B4
Application number: DE102008016178A
Authority: DE
Inventors: Aaron Portland Kunze; Erik Portland Johnson; Hermann Portland Gartler
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2007-03-30
Filing date: 2008-03-28
Publication date: 2011-03-03
Anticipated expiration: 2028-03-29
Also published as: CN101311894A; CN101311894B; DE102008016178A1; TWI354230B; US7937532B2; TW200901027A; US20080244231A1

Abstract

System zum spekulativen Vorabruf in einer Mehrkern-Nachrichtenübermittlungsplattform (300), umfassend:
mindestens einen Prozessor (310, 310a, 310b), wobei jeder der Mindestanzahl von einem Prozessor (310, 310a, 310b) mindestens einen Kern (311a, 311b, 311c, 311d) aufweist, wobei das System eine Mehrzahl von Kernen (311a, 311b, 311c, 311d) umfaßt,
einen Empfangskern (105) unter der Mehrzahl von Kernen, der einen lokalen Cache (113), mindestens eine Nachrichtenwarteschlange (107) zum Speichern von empfangenen Nachrichten und einen Nachrichtenübermittlungs-Prefetcher (109), der kommunikativ an einen gemeinsam benutzten Cache und/oder einen gemeinsam benutzten Speicher (111) gekoppelt ist und auch an den lokalen Cache (113) gekoppelt ist, aufweist,
eine Zusammenschaltung zur Nachrichtenübermittlung unter der Mehrzahl von Kernen, und
einen Sendekern (103) unter der Mehrzahl von Kernen zum Senden einer Nachricht an den Empfangskern, wobei eine Nachricht, die eine Speicherreferenz aufweist, sowohl an die mindestens eine Nachrichtenwarteschlange (107) als auch an den Nachrichtenübermittlungs-Prefetcher (109) des Empfangskerns (105) gesendet wird,...

Description

Gebiet der Erfindung
Eine Ausführungsform der vorliegenden Erfindung betrifft im allgemeinen die Nachrichtenübermittlung in einer Mehrprozessor-/Mehrkernplattform und genauer eine neuartige Kombination aus Techniken zum Vorabruf (Prefetching) von Daten und Übermitteln von Nachrichten zwischen und unter Kernen.
AUSGANGSSITUATION DER ERFINDUNG
In Mehrprozessor- und/oder Mehrkernsystemen gibt es verschiedene Hardware-Mechanismen, die es einzelnen Kernen ermöglichen, Nachrichten zwischen den einzelnen Kernen zu senden. So hat zum Beispiel die Intel-IXP2xxx-Reihe von Netzwerkprozessoren mehrere Hardware-Mechanismen zum Senden von 32-Bit-Nachrichten von einem Kern zu einem anderen. Viele Mikroprozessorkerne haben auch Hardware zum spekulativen Vorabruf, die Daten von einer Ebene der Speicherhierarchie eine oder mehrere Ebenen weiter nach oben abruft. Wenn zum Beispiel ein Prozessor feststellt, dass die auf ihm laufende Software in einem konstanten Schritt wiederholt auf Daten zugreift, kann der Prozessor spekulativ diejenigen Daten abrufen, von denen der Prozessor erwartet, dass die Software sie als nächstes anfordern wird.
Eine Nachricht, die zwischen Kernen übermittelt wird, enthält oft eine Adressreferenz/einen Zeiger. In bestehenden Systemen dereferenziert die Ausführungs-Pipeline eines Empfangskerns den Zeiger und ruft die Daten nach Bedarf von dem Speicherplatz ab. Beim Warten auf den Abruf der Daten können merkliche Verzögerungen auftreten, bevor der in der Ausführungs-Pipeline befindliche Befehl ausführbar ist. Eine Implementierung der Nachrichtenübermittlung wird in „IXP2400/2800 Programming: The Complete Microengine Coding Guide” von Erik J. Johnson und Aaron R. Kurze (INTEL PRESS 2003) beschrieben. Kapitel 10 beschreibt die Nachrichtenübermittlung.
Weitere Verfahren und Vorrichtungen zur Nachrichtenübermittlung sind beispielsweise aus der US 2006/0085602 A1 , der US 2007/0005909 A1 , der US 2004/0260883 A1 , der US 2006/0179239 A1 und der US 6 738 836 B1 bekannt.
Es ist eine Aufgabe der Erfindung, ein verbessertes System in einer Mehrkern-Nachrichtenübermittlungsplattform und ein verbessertes Verfahren zur Verfügung zu stellen. Diese Aufgabe wird durch ein System gemäß Anspruch 1, ein System gemäß Anspruch 12, ein maschinenimplementiertes Verfahren gemäß Anspruch 20 und einen maschinenlesbaren Datenträger gemäß Anspruch 24 gelöst. Die anderen Ansprüche betreffen besonders vorteilhafte Ausführungsformen des Systems, des Verfahrens oder des Datenträgers.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung der vorliegenden Erfindung deutlich, in der:
1 ein Blockdiagramm eines Mehrkernprozessors, der die Nachrichtenübermittlungsvorabruf-Funktion verwendet, gemäß einer Ausführungsform der Erfindung ist;
2 ein Ablaufdiagramm eines beispielhaften Verfahrens zum Vorabruf von Daten, die in einer übermittelten Nachricht referenziert werden, gemäß einer Ausführungsform der Erfindung ist;
3 ein Blockdiagramm eines Mehrkernprozessors ist, auf dem Ausführungsformen der Erfindung implementiert werden können;
4 ein Blockdiagramm einer Protokollarchitektur ist, die von einer Ausführungsform verwendet wird;
5 ein Blockdiagramm einer Vorrichtung für eine physische Zusammenschaltung ist, die gemäß dem beanspruchten Gegenstand verwendet wird;
6A bis 6C mehrere Ausführungsformen eines Systems sind, das von mehreren Ausführungsformen verwendet wird; und
7 ein Viersockel-Mehrkernsystem gemäß Ausführungsformen der Erfindung veranschaulicht.
AUSFÜHRLICHE BESCHREIBUNG
Eine Ausführungsform der vorliegenden Erfindung ist ein System und ein Verfahren, die das Integrieren der Vorabruffunktion mit der Übermittlung von Nachrichten unter Kernen betreffen. Ausführungsformen der vorliegenden Erfindung vermeiden das bei bestehenden Systemen vorkommende unzeitige Abrufen von Informationen aus einem entfernten physischen Speicher oder dem Cache eines anderen Prozessors. In Ausführungsformen der vorliegenden Erfindung ist es viel wahrscheinlicher, dass sich die Daten bereits in dem lokalen Cache befinden oder auf dem Weg dorthin sind, wenn ein Zeiger dereferenziert wird.
Wenn in der Patentbeschreibung auf „eine Ausführungsform” der vorliegenden Erfindung verwiesen wird, so bedeutet das, dass ein/e besondere/s Merkmal, Struktur oder Eigenschaft, das bzw. die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung eingeschlossen ist. Somit bezieht sich die Wendung „in einer Ausführungsform”, die an verschiedenen Stellen der Patentbeschreibung vorkommt, nicht notwendigerweise jedes Mal auf dieselbe Ausführungsform.
Zum Zwecke der Erläuterung sind spezifische Konfigurationen und Einzelheiten dargelegt, um ein umfassendes Verständnis der vorliegenden Erfindung zu schaffen. Einem Fachmann wird jedoch einleuchten, dass Ausführungsformen der vorliegenden Erfindung auch ohne die hierin dargestellten spezifischen Einzelheiten ausgeführt werden können. Außerdem können wohlbekannte Merkmale ausgelassen oder vereinfacht sein, um die vorliegende Erfindung nicht unverständlich zu machen. Im Laufe dieser Beschreibung können verschiedene Beispiele angegeben sein. Diese sind lediglich Beschreibungen spezifischer Ausführungsformen der Erfindung. Der Schutzbereich der Erfindung ist nicht auf die angegebenen Beispiele beschränkt.
Ausführungsformen der vorliegenden Erfindung ermöglichen es einer Software, sich auf einen Prozessorkern zu spezifizieren, den eine oder mehrere Interkernnachrichten als physische Adresse spezifizieren. Wenn eine Nachricht, die eine physische Adresse enthält, empfangen wird, wird die Nachricht in eine Hardware-Warteschlange eingereiht, die darauf wartet, von einer Software auf dem Empfangskern verarbeitet zu werden. Während die Nachricht in der Warteschlange eingereiht ist, wird die Adresse in der Nachricht an einen Hardware-Prefetcher (Hardware-Vorabruffunktion) gesendet, um in der Annahme, dass der auf dem Empfangsprozessor laufende Code bald auf diese Daten zugreifen wird, einen spekulativen Vorabruf der Daten zu ermöglichen. Optional kann die Nachricht auch die Anzahl der Bytes, die im voraus abzurufen sind, spezifizieren. Die Anwendung ist nach dem Abruf der Nachricht typischerweise dazu fähig, sofort auf die mit der Nachricht verknüpften Daten zuzugreifen.
In einem bestehenden System können Hardware-Prefetcher zusammen mit der Ausführungs-Pipeline verwendet werden. Befehle, die sich in der Pipeline befinden, können Daten im voraus abrufen lassen, so dass die Daten sofort zur Verfügung stehen, wenn der Befehl zur Ausführung bereit ist. Diese Prefetcher erfordern jedoch die Eingabe eines Befehls in die Ausführungs-Pipeline, bevor der Vorabruf versucht wird. Im Gegensatz dazu weisen Ausführungsformen der vorliegenden Erfindung einen Prefetcher auf, der in den Kern-zu-Kern-Nachrichtenübermittlungsmechanismus integriert ist, so dass Daten, die aus einem Speicher oder dem Cache eines anderen Kerns angefordert werden, eher zur Verfügung stehen können, als dies bei ausschließlicher Verwendung von Prefetchern der Ausführungs-Pipeline möglich wäre.
Heutzutage gibt es zwei Architekturtypen für Nachrichtenübermittlungs-Hardware. In der ersten Hardware-Architektur für die Nachrichtenübermittlung werden die Nachrichten über eine Zusammenschaltung, zum Beispiel eine weiter unten beschriebene Punkt-zu-Punkt-(pTp)-Zusammenschaltung, an den/die Empfangskern/e gesendet und auf dem Empfangskern in eine oder mehrere Hardware-Warteschlangen eingereiht. In der zweiten Architektur werden die Nachrichten an eine separate Hardware-Einheit gesendet, wo sie in Hardware-Warteschlangen eingereiht werden, die von mehreren Kernen gemeinsam benutzt werden. Die IXP2xxx-Prozessoren enthalten zum Beispiel eine Hardware-Warteschlangeneinheit, auf die alle Kerne zugreifen können und die zum Senden von Nachrichten innerhalb einer beliebigen Gruppe von Kernen verwendbar ist. Diese Erfindung ist in der ersten Architektur äußerst nützlich, da das Koppeln von Hardware-Warteschlangen und Prefetchern dann am einfachsten erfolgt, wenn die beiden physisch nahe beieinander liegen, jedoch könnten beide Architekturen darauf eingestellt werden, Ausführungsformen der offenbarten Erfindung zu verwenden. Für die erste Architekturoption wird eine beispielhafte Ausführungsform in 1 gezeigt. Die eingekreisten Zahlen in dem Diagramm stellen eine mögliche Reihenfolge für ein Verfahren zum Senden einer Zeigernachricht von einem Kern zu einem anderen dar.
Zum Zwecke der Beschreibung kann ein Nachrichtenübermittlungsmechanismus als „Zusammenschaltung” zur Nachrichtenübermittlung bezeichnet werden. Die Zusammenschaltung kann, wie beschrieben, ein Hardware-, Firmware- oder Software-Konstrukt oder eine beliebige Kombination aus diesen drei Konstrukten sein. Es versteht sich, dass die Plattformarchitektur oft die Konfiguration der Zusammenschaltung diktiert.
2 ist ein Ablaufdiagramm, das das in 1 veranschaulichte beispielhafte Verfahren zeigt. Die 1 und 2 werden im folgenden im Zusammenhang miteinander erörtert. In einer Ausführungsform, die auf einer Plattform mit einer Prozessor/Kern-Zusammenschaltung 101, zum Beispiel eine Punkt-zu-Punkt-(pTp)-Zusammenschaltungsarchitektur, implementiert wird, sendet (1) der Sendekern 103 unter Verwendung eines Hardware-Nachrichtenübermittlungsmechanismus eine Nachricht an den Empfangskern 105 (Block 201). Es versteht sich, dass verschiedene Mechanismen und Topologien zur Kernnachrichtenübermittlung verwendet werden können. (2) Wenn die Nachricht durch den Empfangskern 105 empfangen wird, wird die Nachricht in die Warteschlange 107 eingereiht und gleichzeitig an den Prefetcher 109 gesendet (Block 203). Eine Warteschlange 107 kann eine Register- oder Speichergruppe auf dem Kern sein, die nahe an dem Prefetcher liegt. (3) Der Prefetcher 109 gibt eine Speicherreferenz entweder an einen gemeinsam benutzten Cache oder einen gemeinsam benutzten Speicher 111 (je nach Architektur) aus (Block 205). Der Cache ist hierarchisch, also können bei Bedarf Daten aus einem Cache einer niedrigeren Ebene oder einem gemeinsam benutzten Speicher abgerufen werden. Die Nachricht kann optional die Menge der Daten, die im voraus abgerufen werden sollten, einschließen. (4) Die durch den Zeiger referenzierten Daten werden in einem lokalen Cache 113 des Empfangskerns 105 abgelegt (Block 207). (5) Der Empfangskern 105 entnimmt die Nachricht aus der Warteschlange 107 (Block 209). (6) Der Zeiger wird dereferenziert, und die Daten werden in dem Cache 113 gefunden, um in der Ausführungs-Pipeline 115 verwendet zu werden (Block 211). In Ausführungsformen kann Software als Mechanismus zum Entnehmen von Nachrichten aus einer Warteschlange und zum Dereferenzieren von Zeigern verwendet werden.
In bestehenden Systemen, zum Beispiel ein Doppelkernprozessor wie der Prozessor Intel^® Core^TM 2 Duo, hat jeder Kern seinen eigenen L1-Cache und einen gemeinsam benutzten L2-Cache. Die L1-Caches haben ihren eigenen Hardware-Prefetcher. Der L1-Prefetcher ruft Daten im voraus aus dem L2-Cache in den L1-Cache ab. Der Cache-Prefetcher versucht abzuschätzen, welche Daten wahrscheinlich benötigt werden. Wenn der Vorabruf fehlschlägt, das heißt, wenn sich die Daten nicht in dem L2-Cache befinden, ruft der Cache-Prefetcher die Daten aus dem Speicher ab. Der L2-Cache hat einen Hardware-Prefetcher, der Daten direkt aus dem Speicher abruft. In bestehenden Systemen arbeiten diese Cache-Prefetcher jedoch nur zusammen mit der Ausführungs-Pipeline.
Die Warteschlange 107 kann durch die Ausführungs-Pipeline 115 zyklisch abgefragt werden oder ein Unterbrechungs-Steuerungsprogramm (Unterbrechungs-Dienstprogramm) initiieren, um die Pipeline dahingehend zu warnen, dass eine Nachricht empfangen worden ist. In Ausführungsformen kann mehr als eine Warteschlange verwendet werden. Einige Nachrichten können zum Beispiel ausführbare Befehle enthalten. Andere Nachrichten können Ergebnisdaten aus Operationen, die auf dem Sendekern ausgeführt wurden, enthalten. Wieder andere Nachrichten können Warnungen (oder Unterbrechungen) enthalten, die die Ausführung einer Tätigkeit auf dem Empfangsprozessor anfordern oder die Fertigstellung einer durch den Sendeprozessor ausgeführten Tätigkeit anzeigen. Eine Nachricht kann eine im voraus abzurufende Adressreferenz einschließen oder auch nicht. Es können spezialisierte Warteschlangen implementiert werden, um verschiedenen Nachrichtenarten zu entsprechen. Es kann eine einzige Warteschlange implementiert werden, um alle Nachrichtenarten aufzunehmen. Es versteht sich, dass für eine einzige Warteschlange verschiedene Verfahren verwendet werden können, um die Art der durch die Ausführungs-Pipeline zu verarbeitenden Nachricht anzuzeigen.
Um Speicherzeiger- und Nichtzeigernachrichten flexibel zu unterstützen, braucht die Software einen Mechanismus, um der Hardware anzuzeigen, ob die Nachricht einen Zeiger enthält oder nicht. Das kann für jede Nachricht erfolgen, wobei die sendende Software, wenn sie eine Nachricht sendet, ein Flag setzt, um anzuzeigen, dass die Nachricht einen Zeiger enthält. Die Zeigerkennzeichnung kann auch als Attribut der Warteschlange selbst implementiert werden. So kann zum Beispiel eine bestimmte Warteschlange nur solche Nachrichten enthalten, die Zeiger aufweisen.
Ausführungsformen der Erfindung funktionieren dann effizienter, wenn der Sender der Nachricht Grund zu der Annahme hat, dass sich die Daten, die sich zum Zeitpunkt des Sendens in dem physischen Speicher befinden, immer noch an derselben Stelle in dem physischen Speicher befinden, wenn die Nachricht empfangen wird. Somit funktioniert diese Erfindung dann am besten, wenn die Daten, die durch Zeiger referenziert werden, die zwischen Kernen übermittelt werden, langfristig in dem physischen Speicher abgebildet sind. Auch muss die Software, die diese Funktion verwendet, gewährleisten, dass sich die Daten, die durch den Zeiger referenziert werden, in einem Speicher befinden, der in den Cache kopierbar ist. Diese Beschränkungen sind in vielen Umgebungen, einschließlich Betriebssystem-Datenstrukturen und Netzwerkpakete, vernünftig.
Wie weiter oben erörtert, können Cache-Prefetcher in einer Plattform implementiert werden. In einer Ausführungsform verwenden eine oder mehrere Kern-zu-Kern-Nachrichtenwarteschlangen 107 einen zusätzlichen Prefetcher 109, um mit der Ausführungs-Pipeline zu kommunizieren. In einer anderen Ausführungsform kann ein bestehender Hardware-Prefetcher so modifiziert werden, dass er die Kern-zu-Kern-Nachrichtenübermittlungsvorabruf-Funktion einschließt. Ein Mechanismus kann ähnlich dem implementiert werden, was in bestehenden Systemen für einen direkten Cache-Zugriff (Direct Cache Access) erfolgt. In bestehenden Systemen kann ein Prefetcher eine Pending-Warteschlange von abgehenden Vorabrufanforderungen aufweisen, die an die Cache-Hierarchie zu senden sind. Die spezifischen Implementierungen sind je nach Plattform verschieden. Ein Verfahren zum Verbinden eines bestehenden Prefetchers mit der Nachrichtenwarteschlange schließt einen einfachen Multiplexer ein. Konkret würde sich die physische Adresse der Nachricht, die in die Nachrichtenwarteschlange eingeschrieben ist, einfach (über dedizierte Leitungen) zu der Pending-Warteschlange des Prefetchers weiterbewegen. Ein Multiplexer entscheidet zwischen normalen Prefetcher-Anforderungen und diesen „Hinweisen” von der Nachrichtenwarteschlange. Da die Pending-Warteschlange des Prefetchers physische Adressanforderungen enthält, wird die physische Adresse des Hinweises einfach zu einer Vorabrufanforderung an die Cache-Hierarchie.
Es versteht sich, dass es viele Wege gibt, eine Schnittstelle Software auszusetzen, um es der Software zu ermöglichen, diese Kernnachrichtenvorabruf-Funktion zu konfigurieren und/oder zu verwenden. Wenn die Entscheidung zwischen Zeigernachrichten und Nichtzeigernachrichten ein Attribut der Warteschlangen-Hardware ist, kann die Schnittstelle unter Verwendung von Steuerregistern oder Registern, die in dem Speicher oder E/A-Raum des Kerns abgebildet sind, gehandhabt werden. Wenn die Entscheidung, ob eine Nachricht eine Zeigernachricht oder eine Nichtzeigernachricht ist, für jede gesendete Nachricht getroffen wird, kann die Schnittstelle zu der Software an die Schnittstelle zu der Warteschlangenfunktion selbst gekoppelt werden. Wenn zum Beispiel Nachrichten mittels eines Befehls in dem Befehlsvorrat gesendet werden, kann ein Flag als zusätzlicher Operand des Befehls spezifiziert werden. Andere Implementierungsoptionen schließen die Verwendung eines lokalen Steuerregisters des Sendekerns ein.
In bestehenden Mehrkern/-prozessorsystemen tritt, wenn Nachrichten, die Adresszeiger enthalten, zwischen Kernen gesendet werden und der Empfangskern den Zeiger dereferenziert, oft eine Blockierung der Pipeline infolge einer Überlastung auf, weil die Daten entweder aus dem physischen Speicher oder aus dem kohärenten Cache des Sendeprozessors abgerufen werden müssen. Ausführungsformen der vorliegenden Erfindung ermöglichen eine schnellere Pipeline-Ausführung auf dem Empfangskern, weil das Integrieren der Vorabruffunktion mit der Kernnachrichtenübermittlung es wahrscheinlicher macht, dass sich die Daten bereits in dem lokalen Cache befinden oder auf dem Weg dorthin sind, wenn der Zeiger dereferenziert wird.
Es ist zu beachten, dass es bereits viele unterschiedliche Verfahren zum Implementieren der Nachrichtenübermittlung (sowohl Hardware als auch Software) und der Vorabruffunktion (oft Hardware) im allgemeinen gibt, und diese Erfindung kann mit einer beliebigen Auswahl an Nachrichtenübermittlungs- und Vorabrufkonfigurationen implementiert werden. Der Stand der Technik kennt keine Kombination dieser Verfahren, um die oben erörterten Vorteile bereitzustellen.
Eine Ausführungsform der Erfindung kann auf einer Plattform implementiert werden (siehe 3). Die Plattform 300 kann einen oder mehrere Prozessoren 310 aufweisen. Eine beispielhafte Plattform 300 ist mit zwei Prozessoren 310a–b dargestellt. Es versteht sich jedoch, dass eine beliebige Anzahl von Prozessoren 1–n auf der Plattform vorhanden sein kann. Wie zu sehen ist, umfassen die Prozessoren 310a–b jeweils zwei Kerne 311a–b und 311c–d, aber es versteht sich, dass die Prozessoren jeweils mehr als zwei Kerne aufweisen können. In einer anderen Ausführungsform kann ein einziger Prozessor mit mehreren Kernen verwendet werden. Die Prozessoren 310a–b können über den Front-Side-Bus 301 mit einem Speicher-Controller-Hub (MCH) 314, auch unter der Bezeichnung North bridge bekannt, kommunizieren. Der MCH 314 kommuniziert über einen Speicherbus 303 mit dem Systemspeicher 312. Der MCH 314 kann auch über einen Grafikbus 305 mit einem Advanced Graphics Port (AGP) 316 kommunizieren. Der MCH 314 kann über einen Direct-Module-Interface-Bus (DMI-Bus) 307 mit einem E/A-Controller-Hub (ICH) 320, auch unter der Bezeichnung South bridge bekannt, kommunizieren. Einige ältere Plattformen können einen PCI-Bus (periphere Komponentenverbindung) zur Kommunikation zwischen dem MCH 314 und dem ICH 320 verwenden. Der ICH 320 kann über einen Low-Pin-Count-Bus (LPC-Bus) 309 an ein oder mehrere Bauelemente, zum Beispiel PCI-Festplatten (nicht gezeigt), Legacy-Bauelemente, zum Beispiel IDE 322, USB 324, LAN 326 und Audio 328, und einen Super-E/A-Controller (SIO-Controller) 356 gekoppelt sein.
Der Prozessor 310 kann ein beliebiger zur Ausführung von Software fähiger Mehrkernprozessortyp sein, zum Beispiel ein Mikroprozessor, ein DSP-Chip, ein Mikrokontroller oder dergleichen.
Der Speicher 312 kann eine Festplatte, eine Diskette, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein Flash-Speicher oder jeder andere durch den Prozessor 310 lesbare Datenträgertyp sein. Der Speicher 312 kann Befehle zur Ausführung von Verfahrensausführungsformen der vorliegenden Erfindung speichern.
Ein nichtflüchtiger Speicher, zum Beispiel der Flash-Speicher 352, kann über einen Low-Pin-Count-Bus (LPC-Bus) 309 an den E/A-Controller gekoppelt sein. Die BIOS-Firmware 354 ist typischerweise in dem Flash-Speicher 352 gespeichert, und während des Hochfahrens werden Befehle des Flash-Speichers oder der Firmware ausgeführt.
In einigen Ausführungsformen ist die Plattform 300 ein Server, der Server-Management-Tasks aktiviert. Diese Plattformausführungsform kann einen Baseboard-Management-Controller (BMC) 350 aufweisen, der über den LPC 309 an den ICH 320 gekoppelt ist.
In anderen Ausführungsformen kann eine Plattform, die einer Punkt-zu-Punkt-(pTp)-Zusammenschaltungsarchitektur entspricht, verwendet werden. Ein Gebiet der gegenwärtigen technologischen Entwicklung betrifft die Zuverlässigkeit, die Verfügbarkeit und die Wartungsfreundlichkeit (RAS). Gegenwärtige Systeme, die auf der Front-Side-Bus-Architektur (FSB-Architektur) beruhen, gestatten kein An- oder Abkoppeln eines einzelnen Bus-Bauelementes im laufenden Betrieb (Hot-Plug). Desgleichen leiden die gegenwärtigen Systeme aufgrund der Übertragung von Initialisierungswerten unter Anschlussstiftbeschränkungen und aufgrund falscher anfänglicher Power-On-Konfigurationswerte (POC-Werte) auch unter der Durchführung mehrfacher warmer Resets.
In einer Ausführungsform unterstützt eine Punkt-zu-Punkt-(pTp)-Architekturplattform eine in Schichten aufgebaute Protokollkonfiguration, die weiter unten ausführlicher erörtert wird. 4 veranschaulicht ein Beispiel für eine abstrakte Ansicht eines Cache-Kohärenz-Protokolls des zugrundeliegenden Netzwerkes.
4 ist eine Protokollarchitektur, die von einer Ausführungsform verwendet wird. Die Architektur stellt eine Mehrzahl von Caching-Agenten und Home-Agenten dar, die an eine Netzwerkstruktur gekoppelt sind. Die Netzwerkstruktur folgt zum Beispiel einer in Schichten aufgebauten Protokollkonfiguration und kann eine Sicherungsschicht und/oder eine Bitübertragungsschicht und/oder eine Protokollschicht und/oder eine Routing-Schicht und/oder eine Transportschicht umfassen. Die Struktur erleichtert den Transport von Nachrichten von einem Protokoll (Home- oder Caching-Agent) zu einem anderen Protokoll bei einem Punkt-zu-Punkt-Netzwerk. Unter einem Aspekt stellt die Figur eine abstrakte Ansicht eines Cache-Kohärenz-Protokolls des zugrundeliegenden Netzwerkes dar.
5 ist ein Blockdiagramm einer Vorrichtung für eine physische Zusammenschaltung, die gemäß Ausführungsformen der hierin beschriebenen Erfindung verwendet wird. Unter einem Aspekt stellt die Vorrichtung eine Bitübertragungsschicht für eine cachekohärente, linkbasierte Zusammenschaltungskonfiguration für einen Prozessor, einen Chipsatz und/oder E/A-Brückenbauelemente dar. Die physische Zusammenschaltung kann zum Beispiel durch jede Bitübertragungsschicht eines integrierten Bauelementes ausgeführt werden. Konkret stellt die Bitübertragungsschicht eine Kommunikation zwischen zwei Ports über eine physische Zusammenschaltung, die zwei unidirektionale Links umfasst, bereit. Konkret gibt es einen unidirektionalen Link 504 von einem ersten Sendeport 550a eines ersten integrierten Bauelementes zu einem ersten Empfangsport 550b eines zweiten integrierten Bauelementes. Desgleichen gibt es einen zweiten unidirektionalen Link 506 von einem ersten Sendeport 550b des zweiten integrierten Bauelementes zu einem ersten Empfangsport 550a des ersten integrierten Bauelementes. Der beanspruchte Gegenstand ist jedoch nicht auf zwei unidirektionale Links beschränkt. Ein Fachmann wird erkennen, dass der beanspruchte Gegenstand alle bekannten Signalisierverfahren, zum Beispiel bidirektionale Links usw., unterstützt.
Die 6A–C stellen verschiedene Punkt-zu-Punkt-Systeme mit einem oder mehreren Prozessoren dar. Der beanspruchte Gegenstand kann mehrere Ausführungsformen umfassen, zum Beispiel eine mit einem Prozessor 606 (6A), eine mit zwei Prozessoren (P) 602 (6B) und eine mit vier Prozessoren (P) 604 (6C). In den Ausführungsformen 602 und 604 ist jeder Prozessor an einen Speicher (M) 621 gekoppelt und mit jedem Prozessor 623 über eine Netzwerkstruktur verbunden, wobei die Netzwerkstruktur eine Sicherungsschicht und/oder eine Protokollschicht und/oder eine Routing-Schicht und/oder eine Transportschicht und/oder eine Bitübertragungsschicht umfassen kann. Die Struktur erleichtert den Transport von Nachrichten von einem Protokoll (Home- oder Caching-Agent) zu einem anderen Protokoll bei einem Punkt-zu-Punkt-Netzwerk. Wie bereits beschrieben, unterstützt das System einer Netzwerkstruktur jede der im Zusammenhang mit den 4–6 dargestellten Ausführungsformen.
In der Ausführungsform 606 ist der einzige Prozessor (uni-processor) P 623 über einen Netzwerkstruktur-Link, der einer in Schichten aufgebauten Protokollkonfiguration entspricht, an die Grafik- und Speichersteuerung 625 (dargestellt als IO + M + F) gekoppelt. Die Grafik- und Speichersteuerung ist an einen Speicher gekoppelt und zum Empfangen und Senden über PCI-Express-Links fähig. Desgleichen ist die Grafik- und Speichersteuerung an den Ein-/Ausgabe-Controller-Hub (ICH) 627 gekoppelt. Außerdem ist der ICH 627 über einen Low-Pin-Count-Bus (LPC-Bus) an einen Firmware-Hub (FWH) 629 gekoppelt. Auch würde der Prozessor in einer anderen Einzelprozessor(uni-processor)-Ausführungsform externe Netzwerkstruktur-Links aufweisen. Der Prozessor kann mehrere Kerne mit getrennten oder gemeinsam benutzten Caches aufweisen, wobei jeder Kern an einen X-Bar-Router und eine Global-Links-Schnittstelle ohne Routing-Funktion gekoppelt ist. Ein X-Bar-Router ist eine pTp-Zusammenschaltung zwischen Kernen in einem Sockel. Eine X-Bar ist eine „Kreuzschiene”, was bedeutet, dass jedes Element eine Kreuzverbindung mit jedem anderen Element oder einen Anschluss an jedes andere Element aufweist. Das ist typischerweise schneller als ein pTp-Zusammenschaltungs-Link und wird direkt auf dem Chip implementiert, was die Parallelübertragung fördert. Somit sind die externen Netzwerkstruktur-Links an den X-Bar-Router und eine Global-Links-Schnittstelle ohne Routing-Funktion gekoppelt.
Eine Ausführungsform eines Mehrprozessorsystems umfasst eine Mehrzahl von Verarbeitungsknoten 623, die über ein Punkt-zu-Punkt-Netzwerk 631 (angegeben durch dicke Linien zwischen den Verarbeitungsknoten) zusammengeschaltet sind. Im Sinne dieser Erörterung werden die Begriffe „Verarbeitungsknoten” und „Rechenknoten” als gegeneinander austauschbare Begriffe verwendet. Links zwischen Prozessoren weisen typischerweise die volle oder maximale Breite und Links von Prozessoren zu einem E/A-Hub-Chipsatz (IOH-CS) typischerweise die halbe Breite auf. Jeder Verarbeitungsknoten 623 schließt einen oder mehrere zentrale Prozessoren 623 ein, die an einen zugehörigen Speicher 621, der den Hauptspeicher des Systems bildet, gekoppelt sind. In alternativen Ausführungsformen kann der Speicher 621 physisch kombiniert werden, um einen Hauptspeicher zu bilden, auf den alle Verarbeitungsknoten 623 zugreifen können. Jeder Verarbeitungsknoten 623 kann auch einen Speicher-Controller 625 zum Anschluss an den Speicher 621 einschließen.
Jeder Verarbeitungsknoten 623 einschließlich seines zugehörigen Speicher-Controllers 625 kann auf demselben Chip implementiert sein. In alternativen Ausführungsformen kann jeder Speicher-Controller 625 auf einem Chip, der von seinem zugehörigen Verarbeitungsknoten 623 getrennt ist, implementiert sein.
Jeder Speicher 621 kann einen oder mehrere Typen von Speicherelementen umfassen, zum Beispiel Dual-in-line-Speicherbausteine (DIMM), dynamische Direktzugriffsspeicherelemente (DRAM), synchrone dynamische Direktzugriffsspeicherelemente (SDRAM), SDRAM-Elemente mit doppelter Datenrate (DDR-SDRAM) oder andere flüchtige oder nichtflüchtige Speicherelemente, die für Server- oder allgemeine Anwendungen geeignet sind.
Das System kann auch einen oder mehrere Ein-/Ausgabe-Controller (E/A-Controller) 627 einschließen, um den Verarbeitungsknoten 623 und anderen Bauelementen des Systems eine Schnittstelle zum Zugriff auf E/A-Geräte, zum Beispiel ein Flash-Speicher oder Firmware-Hub (FWH) 629, bereitzustellen. In einer Ausführungsform kann jeder E/A-Controller 627 an einen oder mehrere Verarbeitungsknoten gekoppelt sein. Die Links zwischen den E/A-Controllern 627 und ihren jeweiligen Verarbeitungsknoten 623 werden als E/A-Links bezeichnet. Die E/A-Geräte können einschließen: ISA-Geräte (ISA = Industry Standard Architecture), PCI-Geräte (periphere Komponentenverbindung), PCI-Express-Geräte, USB-Geräte (universeller serieller Bus), Geräte mit einer Systemschnittstelle für Kleinrechner (SCSI-Geräte) oder andere Standard- oder proprietäre E/A-Geräte, die für Server- oder allgemeine Anwendungen geeignet sind. Die E/A-Geräte können drahtgebunden oder drahtlos sein. In einer Ausführungsform können die E/A-Geräte einen drahtlosen Sender und einen drahtlosen Sender-Empfänger einschließen.
Das System kann ein Server, ein Mehrprozessor-Desktop-Rechengerät, ein integriertes System, ein Netzwerkgerät oder ein verteiltes Rechengerät, bei dem die Verarbeitungsknoten über ein Weitbereichsnetz fernverbunden sind, sein.
In der in 6C gezeigten Ausführungsform stellt das Netzwerk 631 eine Teilvernetzung für die Verarbeitungsknoten 623 bereit. Somit ist jeder Verarbeitungsknoten 623 direkt mit einigen, aber vielleicht nicht mit allen, der anderen Verarbeitungsknoten verbunden. Ein Verarbeitungsknoten 623 ist mit einem anderen Verarbeitungsknoten über einen direkten Link oder über eine indirekte Verbindung (zum Beispiel unter Verwendung eines anderen Prozessors als Vermittler) verbunden.
Eine Nachrichtenart, die durch das Netzwerk 631 übertragen wird, ist eine Snoop-Nachricht, die Informationen über eine Speichertransaktion enthält, die den Kohärenzzustand eines Datenelementes in Caches (nicht gezeigt) beeinflussen kann. Eine Speichertransaktion betrifft eine Transaktion, die den Zugriff auf irgendein Speicherelement 621 oder irgendeinen Cache erfordert. Wenn irgendein Verarbeitungsknoten eine Speichertransaktion ausführt, gibt der Verarbeitungsknoten eine Snoop-Nachricht (oder als Äquivalent dazu eine Snoop-Anforderung) an das Netzwerk 631 aus, um alle anderen Verarbeitungsknoten dazu aufzufordern, die Kohärenzzustände der Datenelemente in ihren jeweiligen lokalen Caches zu verifizieren oder zu aktualisieren. Die E/A-Controller 627 geben ebenfalls Snoop-Nachrichten aus und empfangen solche, wenn sie einen direkten Speicherzugriff (DMA) ausführen. Somit kann jeder der Verarbeitungsknoten 623 und E/A-Controller 627 ein Anforderungsknoten für eine Snoop-Nachricht und ein Zielknoten für eine andere Snoop-Nachricht sein.
Wenn ein erster Verarbeitungsknoten eine Snoop-Nachricht an einen zweiten Verarbeitungsknoten sendet, der nicht direkt mit dem ersten Verarbeitungsknoten verbunden ist, verwenden der erste und der zweite Verarbeitungsknoten einen dritten Verarbeitungsknoten als Weiterleitungsknoten. In diesem Szenario dient ein dritter Verarbeitungsknoten als Weiterleitungsknoten, der die Snoop-Nachricht sowohl an den ersten als auch an den zweiten Verarbeitungsknoten weiterleitet. Die Weiterleitung kann durch einen Fan-out-Mechanismus erfolgen, der die ankommende Snoop-Nachricht repliziert und die replizierten Nachrichten zu unterschiedlichen Zielen weiterleitet.
7 veranschaulicht ein Viersockelsystem 700 gemäß Ausführungsformen der Erfindung. Die Prozessoren 710, 720, 730 und 740 können eine beliebige Anzahl von Kernen einschließen. An jeden der Prozessoren 710, 720, 730 und 740 ist ein Speicher 715, 725, 735 bzw. 745 gekoppelt. Die punktierten Linien zwischen den Prozessoren kennzeichnen einen pTp-Zusammenschaltungsbus. Die fetten Linien zwischen einem Prozessor und seinem Speicher kennzeichnen eine FBD-Verbindung. Einige der Prozessoren, in diesem Beispiel 710 und 730, können über den pTp-Zusammenschaltungsbus an einen Ein-/Ausgabe-Hub (IOH) 750 angeschlossen sein. Der IOH 750 kann über eine Reihe von PCI-e-Bussen (periphere Komponentenverbindung-Express) an eine Reihe von Geräten (nicht gezeigt) gekoppelt sein (gekennzeichnet durch graue Linien). Der IOH 750 ist über einen Direct-Media-Interface-Bus (DMI-Bus) an den Ein-/Ausgabe-Controller-Hub (ICH) 760 gekoppelt (siehe gestrichelte Linien). Der ICH 760 kann an einen Firmware-Hub (FWH) 770 und einen Video-Graphics-Adapter (VGA) 780 gekoppelt sein.
Die hierin beschriebenen Techniken sind auf keine besondere Hardware- oder Software-Konfiguration beschränkt; sie können in einer beliebigen Rechen-, Konsumelektronik- oder Verarbeitungsumgebung anwendbar sein. Die Verfahren können in Hardware, Software oder einer Kombination aus beiden implementiert werden.
Für Simulationen kann ein Programmcode Hardware darstellen, wobei eine Hardware-Beschreibungssprache oder eine andere funktionelle Beschreibungssprache verwendet wird, die im wesentlichen ein Modell des erwarteten Funktionierens einer entworfenen Hardware bereitstellt. Der Programmcode kann eine Assembler- oder Maschinensprache sein oder Daten darstellen, die kompiliert und/oder interpretiert werden können. Außerdem ist es auf diesem Fachgebiet üblich, in der einen oder anderen Form von Software als Durchführung einer Aktion oder Herbeiführung eines Ergebnisses zu sprechen. Solche Ausdrücke sind lediglich eine kurzgefasste Form der Feststellung der Ausführung eines Programmcodes durch ein Verarbeitungssystem, das bewirkt, dass ein Prozessor eine Aktion durchführt oder ein Ergebnis herbeiführt.
Jedes Programm kann in einer höheren prozeduralen oder objektorientierten Programmiersprache implementiert werden, um mit einem Verarbeitungssystem zu kommunizieren. Falls gewünscht, können Programme jedoch in einer Assembler- oder Maschinensprache implementiert werden. In jedem Fall kann die Sprache kompiliert oder interpretiert werden.
Es können Programmbefehle verwendet werden, um zu bewirken, dass ein Universal- oder Spezialverarbeitungssystem, das mit den Befehlen programmiert ist, die hierin beschriebenen Operationen ausführt. Als Alternative dazu können die Operationen durch spezifische Hardware-Bauelemente, die eine festverdrahtete Logik zur Ausführen der Operationen enthalten, oder durch eine beliebige Kombination aus programmierten Rechnerbauelementen und anwenderspezifischen Hardware-Bauelementen ausgeführt werden. Die hierin beschriebenen Verfahren können als ein Rechnerprogrammprodukt bereitgestellt werden, das einen Datenträger einschließen kann, auf den eine Maschine zugreifen kann und auf dem Befehle gespeichert sind, die dazu verwendet werden können, ein Verarbeitungssystem oder ein anderes elektronisches Gerät so zu programmieren, dass es die Verfahren ausführt.
Der Programmcode oder die Befehle können zum Beispiel in einem flüchtigen und/oder nichtflüchtigen Speicher gespeichert werden, zum Beispiel Speichergeräte und/oder ein zugehöriger maschinenlesbarer Datenträger oder Datenträger, auf den eine Maschine zugreifen kann, die integrierte Speicherbausteine, Festplatten, Disketten, optische Speicher, Bänder, Flash-Speicher, Speichersticks, digitale Bildplatten, mehrseitige Digitalplatten (DVD) usw. sowie außergewöhnlichere Datenträger wie biologische zustandserhaltende Speicher, auf die eine Maschine zugreifen kann, einschließen. Ein maschinenlesbarer Datenträger kann einen beliebigen Mechanismus zum Speichern, Senden oder Empfangen von Informationen in einer maschinenlesbaren Form einschließen, und der Datenträger kann ein greifbares Mittel einschließen, durch das elektrische, optische, akustische oder andere Formen von sich fortpflanzenden Signalen oder Trägerwellen, die den Programmcode codieren, gelangen können, zum Beispiel Antennen, Glasfasern, Datenübertragungsschnittstellen usw. Der Programmcode kann in Form von Paketen, seriellen Daten, parallelen Daten, sich fortpflanzenden Signalen usw. gesendet und in einem komprimierten oder verschlüsselten Format verwendet werden.
Der Programmcode kann in Programmen implementiert werden, die auf programmierbaren Maschinen ausgeführt werden, zum Beispiel mobile oder stationäre Rechner, persönliche digitale Assistenten (personal digital assistants), Set-Top-Boxen, Mobiltelefone und Funkrufempfänger, Konsumelektronikgeräte (einschließlich DVD-Wiedergabegeräte, private Videoaufnahmegeräte, private Videowiedergabegeräte, Satellitenempfänger, Stereoempfänger, Kabelfernsehempfänger) und andere elektronische Geräte, die jeweils einen Prozessor, einen flüchtigen und/oder nichtflüchtigen Speicher, der durch den Prozessor lesbar ist, mindestens ein Eingabegerät und/oder ein oder mehrere Ausgabegeräte einschließen. Der Programmcode kann auf die unter Verwendung des Eingabegerätes eingegebenen Daten angewendet werden, um die beschriebenen Ausführungsformen auszuführen und Ausgabeinformationen zu generieren. Die Ausgabeinformationen können einem oder mehreren Ausgabegeräten zugeführt werden. Ein Fachmann mag erkennen, dass Ausführungsformen des beanspruchten Gegenstandes mit verschiedenen Rechnersystemkonfigurationen ausführbar sind, einschließlich Mehrkern-Mehrprozessorsysteme, Minirechner, Großrechner sowie überall vorhandene oder Miniaturrechner oder -prozessoren, die in praktisch jedes Gerät integriert werden können.
Zwar können Operationen als ein sequentieller Prozess beschrieben werden, doch können einige der Operationen tatsächlich parallel, gleichzeitig und/oder in einer verteilten Umgebung und mit einem für den Zugriff durch Einzel- oder Mehrprozessormaschinen lokal und/oder entfernt gespeicherten Programmcode ausgeführt werden. Außerdem kann in einigen Ausführungsformen die Reihenfolge der Operationen geändert werden, ohne dabei vom Sinn des beanspruchten Gegenstandes abzuweichen. Der Programmcode kann durch oder zusammen mit integrierten Controller verwendet werden.
Zwar ist diese Erfindung hinsichtlich veranschaulichender Ausführungsformen beschrieben worden, doch soll diese Beschreibung nicht als einschränkend aufgefasst werden. Verschiedene Modifizierungen der veranschaulichenden Ausführungsformen sowie andere Ausführungsformen der Erfindung, die für Fachleute auf dem Gebiet, auf das sich die Erfindung bezieht, offensichtlich sind, werden als innerhalb des Sinnes und Schutzbereiches der Erfindung liegend betrachtet.

Claims

System zum spekulativen Vorabruf in einer Mehrkern-Nachrichtenübermittlungsplattform (300), umfassend: mindestens einen Prozessor (310, 310a, 310b), wobei jeder der Mindestanzahl von einem Prozessor (310, 310a, 310b) mindestens einen Kern (311a, 311b, 311c, 311d) aufweist, wobei das System eine Mehrzahl von Kernen (311a, 311b, 311c, 311d) umfaßt, einen Empfangskern (105) unter der Mehrzahl von Kernen, der einen lokalen Cache (113), mindestens eine Nachrichtenwarteschlange (107) zum Speichern von empfangenen Nachrichten und einen Nachrichtenübermittlungs-Prefetcher (109), der kommunikativ an einen gemeinsam benutzten Cache und/oder einen gemeinsam benutzten Speicher (111) gekoppelt ist und auch an den lokalen Cache (113) gekoppelt ist, aufweist, eine Zusammenschaltung zur Nachrichtenübermittlung unter der Mehrzahl von Kernen, und einen Sendekern (103) unter der Mehrzahl von Kernen zum Senden einer Nachricht an den Empfangskern, wobei eine Nachricht, die eine Speicherreferenz aufweist, sowohl an die mindestens eine Nachrichtenwarteschlange (107) als auch an den Nachrichtenübermittlungs-Prefetcher (109) des Empfangskerns (105) gesendet wird, und wobei der Nachrichtenübermittlungs-Prefetcher (109) so konfiguriert ist, daß er Daten, die in einer empfangenen Nachricht referenziert sind, spekulativ abruft, wobei sich die abgerufenen Daten in einem lokalen Cache (113) oder einem gemeinsam benutzten Cache (111) oder einem lokalen Cache eines Kerns, der nicht der Empfangskern ist, oder einem gemeinsam benutzten Speicher (111) befinden.
System nach Anspruch 1, dadurch gekennzeichnet, daß mindestens ein Kern unter der Mehrzahl von Kernen (311a, 311b, 311c, 311d) ferner mindestens einen Ausführungs-Pipeline-Prefetcher, der von dem Nachrichtenübermittlungs-Prefetcher getrennt ist, umfaßt.
System nach Anspruch 1, dadurch gekennzeichnet, daß mindestens ein Kern unter der Mehrzahl von Kernen (311a, 311b, 311c, 311d) ferner einen Ausführungs-Pipeline-Prefetcher umfaßt, der sich in derselben Prefetcher-Einheit wie der Nachrichtenübermittlungs-Prefetcher befindet, wobei ein Multiplexer zwischen Ausführungs-Pipeline-Vorabrufanforderungen und Nachrichtenwarteschlangen-Vorabrufanforderungen entscheidet.
System nach Anspruch 1, dadurch gekennzeichnet, daß die Plattform eine Punkt-zu-Punkt-Zusammenschaltungsarchitektur umfaßt, wobei über eine Zusammenschaltung eine Nachricht an den Empfangskern (105) gesendet wird und die Nachricht in eine oder mehrere Hardware-Warteschlangen auf dem Empfangskern (105) eingereiht wird.
System nach Anspruch 4, ferner umfassend eine Ausführungs-Pipeline, um den Zeitpunkt des Empfangs einer neuen Nachricht festzustellen, wobei entweder die Ausführungs-Pipeline die mindestens eine Nachrichtenwarteschlange zyklisch abfragt, um festzustellen, ob eine neue Nachricht eingetroffen ist, oder auf den Empfang einer Nachricht in der mindestens einen Nachrichtenwarteschlange hin eine Unterbrechung initiiert wird, um der Ausführungs-Pipeline anzuzeigen, daß eine neue Nachricht eingetroffen ist.
System nach Anspruch 1, dadurch gekennzeichnet, daß die Nachricht ferner eine Anzahl von Bytes, die im voraus abzurufen sind, umfaßt.
System nach Anspruch 1, dadurch gekennzeichnet, daß eine erste Nachrichtenwarteschlange zum Speichern von Nachrichten, die eine Speicherreferenz aufweisen, verwendet werden soll und mindestens eine andere Nachrichtenwarteschlange Nachrichten, die keine Speicherreferenz aufweisen, speichern soll.
System nach Anspruch 7, ferner umfassend Mittel zum Auswählen einer Nachrichtenwarteschlange zum Speichern von Nachrichten, die eine Speicherreferenz aufweisen.
System nach Anspruch 1, dadurch gekennzeichnet, daß eine einzige Warteschlange zum Speichern sowohl von Nachrichten, die eine Speicherreferenz aufweisen, als auch von Nachrichten, die keine Speicherreferenz aufweisen, verwendet wird, ferner umfassend ein Mittel zum Kennzeichnen der Art der gespeicherten Nachricht.
System nach Anspruch 9, dadurch gekennzeichnet, daß das Mittel zum Kennzeichnen der Art der gespeicherten Nachricht ferner ein der Nachricht entsprechendes Flag umfasst, wobei das Flag die Nachrichtenart anzeigen soll, wobei das Flag in der Nachricht oder einem Steuerregister gespeichert ist.
System nach Anspruch 9, dadurch gekennzeichnet, daß das Mittel zum Kennzeichnen der Art der gespeicherten Nachricht ferner ein mit der Nachrichtenwarteschlange verknüpftes Warteschlangenattribut zum Anzeigen der Nachrichtenart aller Nachrichten in der Warteschlange umfasst.
System zum spekulativen Vorabruf in einer Mehrkern-Nachrichtenübermittlungsplattform (300), umfassend: mindestens einen Prozessor (310, 310a, 310b), wobei jeder der Mindestanzahl von einem Prozessor (310, 310a, 31Ob) mindestens einen Kern aufweist, wobei das System eine Mehrzahl von Kernen (311a, 311b, 311c, 311d) umfaßt, einen Empfangskern (105) unter der Mehrzahl von Kernen (311a, 311b, 311c, 311d), der einen lokalen Cache (113) aufweist, eine separate Hardware-Einheit, die von der Mehrzahl von Kernen gemeinsam benutzt wird, zum Einreihen von Nachrichten in mindestens eine Hardware-Nachrichtenwarteschlange (107), wobei die mindestens eine Hardware-Nachrichtenwarteschlange (107) empfangene Nachrichten für den Empfangskern (105) speichern soll, einen Nachrichtenübermittlungs-Prefetcher (109), der kommunikativ an die separate Hardware-Einheit, an einen gemeinsam benutzten Cache und/oder einen gemeinsam benutzten Speicher und an den Empfangskern (105) gekoppelt ist, eine Zusammenschaltung zur Nachrichtenübermittlung unter der Mehrzahl von Kernen über die separate Hardware-Einheit, und einen Sendekern (103) unter der Mehrzahl von Kernen zum Senden einer Nachricht an den Empfangskern (105) über die separate Hardware-Einheit, wobei eine Nachricht, die eine Speicherreferenz aufweist, sowohl an die mindestens eine Hardware-Nachrichtenwarteschlange als auch an den Nachrichtenübermittlungs-Prefetcher des Empfangskerns gesendet wird, wobei der Nachrichtenübermittlungs-Prefetcher (109) so konfiguriert ist, daß er Daten, die in einer empfangenen Nachricht referenziert sind, spekulativ abruft, wobei die abgerufenen-Daten in einem lokalen Cache (113) oder einem gemeinsam benutzten Cache oder einem lokalen Cache eines Kerns, der nicht der Empfangskern ist, oder einem gemeinsam benutzten Speicher gespeichert sind.
System nach Anspruch 12, dadurch gekennzeichnet, daß mindestens ein Kern unter der Mehrzahl von Kernen ferner mindestens einen Ausführungs-Pipeline-Prefetcher, der von dem Nachrichtenübermittlungs-Prefetcher getrennt ist, umfaßt.
System nach Anspruch 12, dadurch gekennzeichnet, daß mindestens ein Kern unter der Mehrzahl von Kernen ferner einen Ausführungs-Pipeline-Prefetcher umfaßt, der sich in derselben Prefetcher-Einheit wie der Nachrichtenübermittlungs-Prefetcher (109) befindet, wobei ein Multiplexer zwischen Ausführungs-Pipeline-Vorabrufanforderungen und Nachrichtenwarteschlangen-Vorabrufanforderungen entscheidet.
System nach Anspruch 14, ferner umfassend eine Ausführungs-Pipeline, um den Zeitpunkt des Empfangs einer neuen Nachricht festzustellen, wobei entweder die Ausführungs-Pipeline die mindestens eine Nachrichtenwarteschlange zyklisch abfragt, um festzustellen, ob eine neue Nachricht eingetroffen ist, oder auf den Empfang einer Nachricht in der mindestens einen Nachrichtenwarteschlange hin eine Unterbrechung initiiert wird, um der Ausführungs-Pipeline anzuzeigen, daß eine neue Nachricht eingetroffen ist.
System nach Anspruch 12, dadurch gekennzeichnet, daß eine erste Nachrichtenwarteschlange zum Speichern von Nachrichten, die eine Speicherreferenz aufweisen, verwendet werden soll und mindestens eine andere Nachrichtenwarteschlange Nachrichten, die keine Speicherreferenz aufweisen, speichern soll.
System nach Anspruch 16, ferner umfassend ein Mittel zum Auswählen einer Nachrichtenwarteschlange zum Speichern von Nachrichten, die eine Speicherreferenz aufweisen.
System nach Anspruch 12, dadurch gekennzeichnet, daß eine einzige Warteschlange zum Speichern sowohl von Nachrichten, die eine Speicherreferenz aufweisen, als auch von Nachrichten, die keine Speicherreferenz aufweisen, verwendet wird, ferner umfassend ein Mittel zum Kennzeichnen der Art der gespeicherten Nachricht.
System nach Anspruch 18, dadurch gekennzeichnet, daß das Mittel zum Kennzeichnen der Art der gespeicherten Nachricht ferner ein der Nachricht entsprechendes Flag umfasst, wobei das Flag die Nachrichtenart anzeigen soll, wobei das Flag in der Nachricht oder einem Steuerregister gespeichert ist.
Maschinenimplementiertes Verfahren zum spekulativen Vorabruf in einer Mehrkern-Nachrichtenübermittlungsplattform (300), umfassend: Senden einer Nachricht durch einen Sendekern (103), wobei die Nachricht einen Speicherreferenzzeiger aufweist und an einen Empfangskern (105) gesendet wird, Empfangen der Nachricht durch den Empfangskern (105), Einreihen der Nachricht in eine Nachrichtenwarteschlange (107) und gleichzeitiges Weiterleiten der Nachricht an einen Nachrichten-Prefetcher (109), Ausgeben einer Speicherreferenz durch den Nachrichten-Prefetcher (109) auf der Grundlage des Speicherreferenzzeigers zum Abruf eines referenzierten Speichers, Speichern der entsprechend der Speicherreferenz abgerufenen Daten in einem lokalen Cache (113) des Empfangskerns (105), Entnehmen der Nachricht aus der Nachrichtenwarteschlange durch den Empfangskern, und Dereferenzieren des Speicherreferenzzeigers, und Abrufen der in dem lokalen Cache des Empfangskerns (105) gespeicherten Daten.
Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß die Daten aus einem lokalen Cache (113) oder einem gemeinsam benutzten Cache (111) oder einem lokalen Cache eines Kerns, der nicht der Empfangskern ist, oder einem gemeinsam benutzten Speicher (111) abgerufen werden.
Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß die Nachricht ferner eine Anzahl von Bytes, die im voraus abzurufen sind, umfaßt.
Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß der Nachrichten-Prefetcher (109) ein Prefetcher, der auch von einer Ausführungs-Pipeline (115) verwendet wird, oder ein getrennter Prefetcher, der nicht von der Ausführungs-Pipeline verwendet wird, ist.
Maschinenlesbarer Datenträger mit Befehlen zum spekulativen Vorabruf in einer Mehrkern-Nachrichtenübermittlungsplattform, wobei die Befehle darauf gespeichert sind und, wenn sie durch eine Maschine ausgeführt werden, bewirken, daß die Maschine die folgenden Schritte ausführt: Senden einer Nachricht durch einen Sendekern (103), wobei die Nachricht einen Speicherreferenzzeiger aufweist und an einen Empfangskern (105) gesendet wird, Empfangen der Nachricht durch den Empfangskern (105), Einreihen der Nachricht in eine Nachrichtenwarteschlange (107) und gleichzeitiges Weiterleiten der Nachricht an einen Nachrichten-Prefetcher (109), Ausgeben einer Speicherreferenz durch den Nachrichten-Prefetcher (109) auf der Grundlage des Speicherreferenzzeigers zum Abruf eines referenzierten Speichers, Speichern der entsprechend der Speicherreferenz abgerufenen Daten in einem lokalen Cache (113) des Empfangskerns (105), Entnehmen der Nachricht aus der Nachrichtenwarteschlange (107) durch den Empfangskern (105), und Dereferenzieren des Speicherreferenzzeigers, und Abrufen der in dem lokalen Cache (113) des Empfangskerns (100) gespeicherten Daten.
Datenträger nach Anspruch 24, dadurch gekennzeichnet, daß die Daten aus einem lokalen Cache (113) oder einem gemeinsam benutzten Cache (111) oder einem lokalen Cache eines Kerns, der nicht der Empfangskern ist, oder einem gemeinsam benutzten Speicher (111) abgerufen werden.
Datenträger nach Anspruch 25, dadurch gekennzeichnet, daß die Nachricht ferner eine Anzahl von Bytes, die im voraus abzurufen sind, umfaßt.
Datenträger nach Anspruch 25, dadurch gekennzeichnet, daß der Nachrichten-Prefetcher (109) ein Prefetcher, der auch von einer Ausführungs-Pipeline (115) verwendet wird, oder ein getrennter Prefetcher, der nicht von der Ausführungs-Pipeline verwendet wird, ist.