DE112013005086T5

DE112013005086T5 - Kohärenzprotokoll für Hochleistungszwischenverbindung

Info

Publication number: DE112013005086T5
Application number: DE112013005086.2T
Authority: DE
Inventors: Robert Beers; Robert G. Blankenship; Robert J. Safranek; Robert A. Maddox; Aaron T. Spink; Jeff Willey
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-10-22
Filing date: 2013-03-15
Publication date: 2015-09-03
Also published as: KR20180018853A; CN107102960A; KR101700261B1; DE112013004094B4; KR20170012581A; US9626321B2; CN106815151A; KR20150063044A; EP3410304A1; CN108614783B; WO2014065883A1; DE112013005104T5; US20170109315A1; CN108132892A; KR20170081728A; KR20170042379A; CN106681938A; CN108055214A; KR101847943B1; KR101861312B1

Abstract

Es wird eine Kohärenzprotokollnachricht gesendet, die einer bestimmten Cache-Zeile entspricht. Ein potenzieller Konflikt, der die bestimmte Cache-Zeile einbezieht, wird identifiziert, und eine Weiterleitungsanforderung wird an einen Home-Agenten gesendet, um den potenziellen Konflikt zu identifizieren. Eine Weiterleitungsantwort wird in Reaktion auf die Weiterleitungsanforderung vom Home-Agenten empfangen, und es kann eine Antwort für den Konflikt bestimmt werden.

Description

GEBIET
Die vorliegende Offenbarung betrifft im Allgemeinen das Gebiet der Computerentwicklung und insbesondere die Softwareentwicklung unter Einbeziehung der Koordination von sich gegenseitig bedingenden beschränkten Systemen.
HINTERGRUND
Fortschritte in der Halbleiterverarbeitung und im Logikentwurf haben eine Zunahme der Menge von Logik ermöglicht, die auf integrierten Schaltungseinrichtungen vorhanden sein kann. Als Begleiterscheinung entwickelten sich Computersystemkonfigurationen von einer einzigen oder mehreren integrierten Schaltungen in einem System zu mehreren Kernen, mehreren Hardwarethreads und mehreren logischen Prozessoren, die auf einzelnen integrierten Schaltungen vorhanden sind, sowie anderen Schnittstellen, die in solche Prozessoren integriert sind. Ein Prozessor oder eine integrierte Schaltung umfasst typischerweise einen einzigen physikalischen Prozessorchip, wobei der Prozessorchip eine beliebige Anzahl von Kernen, Hardwarethreads, logischen Prozessoren, Schnittstellen, Speichern, Controllerhubs usw. umfassen kann.
Infolge der größeren Fähigkeit zur Unterbringung von mehr Verarbeitungsleistung in kleineren Packungen sind kleinere Computereinrichtungen beliebter geworden. Smartphones, Tablets, ultradünne Notebooks und andere Benutzergeräte haben exponentiell zugenommen. Diese kleineren Einrichtungen hängen jedoch sowohl für die Datenspeicherung als auch komplexe Verarbeitung, die den Formfaktor überschreitet, von Server ab. Folglich ist auch die Nachfrage auf dem Hochleistungs-Computermarkt (d. h. im Serverbereich) gestiegen. Zum Beispiel gibt es in modernen Servern typischerweise nicht nur einen einzigen Prozessor mit mehreren Kernen, sondern auch mehrere physikalische Prozessoren (auch als mehrere Sockel bezeichnet), um die Rechenleistung zu erhöhen. Da jedoch die Verarbeitungsleistung zusammen mit der Anzahl von Einrichtungen in einem Computersystem zunimmt, wird die Kommunikation zwischen Sockeln und anderen Einrichtungen kritischer.
In der Tat haben sich Zwischenverbindungen von traditionelleren Mehrpunktverbindungsbussen, die in erster Linie elektrische Kommunikationen abwickelten, zu kompletten Zwischenverbindungsarchitekturen entwickelt, welche schnelle Kommunikation ermöglichen. Unglücklicherweise wird als Anforderung an zukünftige Prozessoren für Verbrauch bei noch höheren Geschwindigkeiten eine entsprechende Anforderung an die Fähigkeiten von bestehenden Zwischenverbindungsarchitekturen gestellt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht ein vereinfachtes Blockdiagramm eines Systems, das eine Punkt-zu-Punkt-Zwischenverbindung zum Verbinden von E-/A-Einrichtungen in einem Computersystem gemäß einer Ausführungsform umfasst;
2 veranschaulicht ein vereinfachtes Blockdiagramm eines Schichtprotokollstapels gemäß einer Ausführungsform;
3 veranschaulicht eine Ausführungsform eines Transaktionsdeskriptors;
4 veranschaulicht eine Ausführungsform eines seriellen Punkt-zu-Punkt-Links;
5 veranschaulicht Ausführungsformen von potenziellen Hochleistungszwischenverbindungs(HPI)-Systemkonfigurationen;
6 veranschaulicht einen mit HPI assoziierten Schichtprotokollstapel.
7 veranschaulicht ein Flussdiagramm einer beispielhaften Kohärenzprotokollkonflikthandhabung;
8 veranschaulicht ein Flussdiagramm einer anderen beispielhaften Kohärenzprotokollkonflikthandhabung;
9 veranschaulicht ein Flussdiagramm einer anderen beispielhaften Kohärenzprotokollkonflikthandhabung;
10 veranschaulicht eine Ausführungsform eines Blockdiagramms für ein Computersystem, das einen Mehrkernprozessor umfasst.
Gleiche Bezugszeichen und Benennungen in den verschiedenen Zeichnungen bezeichnen gleiche Elemente.
AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung werden zahlreiche spezifische Einzelheiten dargelegt, wie etwa Beispiele von spezifischen Typen von Prozessoren und Systemkonfigurationen, spezifischen Hardwarestrukturen, spezifischen architektonischen und mikroarchitektonischen Einzelheiten, spezifischen Registerkonfigurationen, spezifischen Anweisungstypen, spezifischen Systemkomponenten, spezifischen Prozessor-Pipelinestufen, spezifischen Zwischenverbindungsschichten, spezifischen Paket-/Transaktionskonfigurationen, spezifischen Transaktionsnamen, spezifischen Protokollaustauschvorgängen, spezifischen Linkbreiten, spezifischen Implementierungen und spezifischem Betrieb usw., um ein umfassendes Verständnis der vorliegenden Erfindung zu vermitteln. Für einen Fachmann ist jedoch möglicherweise zu erkennen, dass diese spezifischen Einzelheiten nicht unbedingt eingesetzt werden müssen, um den Gegenstand der vorliegenden Offenbarung in die Praxis umzusetzen. In anderen Fällen wurde eine ausführliche Beschreibung von bekannten Komponenten und Verfahren, wie beispielsweise spezifischen und alternativen Prozessorarchitekturen, spezifischen Logikschaltungen bzw. spezifischem Logikcode für beschriebene Algorithmen, spezifischem Firmwarecode, Zwischenverbindungsbetrieb auf niedriger Ebene, spezifischen logischen Konfigurationen, spezifischen Herstellungstechniken und -materialien, spezifischen Compiler-Implementierungen, spezifischem Ausdruck von Algorithmen in Code, spezifischen Abschalt- und Gattersteuerungstechniken bzw. spezifischer Abschalt- und Gattersteuerungslogik, und anderen spezifischen betrieblichen Einzelheiten eines Computersystems, vermieden, um eine unnötige Verkomplizierung der vorliegenden Offenbarung zu vermeiden.
Obwohl die folgenden Ausführungsformen unter Bezugnahme auf Energieersparnis, Energieeffizienz, Verarbeitungseffizienz usw. in spezifischen integrierten Schaltungen, wie beispielsweise Computerplattformen oder Mikroprozessoren, beschrieben sein können, sind andere Ausführungsformen auf andere Typen von integrierten Schaltungen und Logikbausteinen anwendbar. Ähnliche Techniken und Lehren von Ausführungsformen, die hierin beschrieben werden, können auf andere Typen von Schaltungen oder Halbleiterbauelementen angewendet werden, die ebenfalls von solchen Merkmalen profitieren. Zum Beispiel sind die offenbarten Ausführungsformen nicht auf Server-Computersysteme, Tischcomputersysteme, Laptops, Ultrabooks^TM beschränkt, sondern können auch in anderen Einrichtungen, wie beispielsweise tragbaren Einrichtungen, Smartphones, Tablets, anderen dünnen Notebooks, Systemchip(SOC)-Bauelementen und eingebetteten Anwendungen, verwendet werden. Einige Beispiele von tragbaren Einrichtungen umfassen Zellulartelefone, Internetprotokoll-Einrichtungen, Digitalkameras, persönliche digitale Assistenten (PDAs) und tragbare PCs. Hierbei können ähnliche Techniken für eine Hochleistungszwischenverbindung angewendet werden, um die Leistung in einer leistungsarmen Zwischenverbindung zu erhöhen (oder sogar Energie einzusparen). Eingebettete Anwendungen umfassen typischerweise einen Mikrocontroller, einen Digitalsignalprozessor (DSP), einen Systemchip, Netzcomputer (NetPC), Set-Top-Boxen, Netzwerkhubs, Weitverkehrsnetz(WAN für engl. wide area network)-Switches oder jedes andere System, das die im Folgenden gelehrten Funktionen und Operationen ausführen kann. Außerdem sind die hierin beschriebenen Vorrichtungen, Verfahren und Systeme nicht auf physikalische Computervorrichtungen beschränkt, sondern können sich auch auf Softwareoptimierungen zur Energieersparnis und -effizienz beziehen. Wie möglicherweise aus der folgenden Beschreibung hervorgeht, können die hierin beschriebenen Ausführungsformen von Verfahren, Vorrichtungen und Systemen (einerlei, ob in Bezug auf Hardware, Firmware, Software oder eine Kombination davon) als unerlässlich für eine Zukunft angesehen werden, in welcher umweltfreundliche Technik und Leistungsüberlegungen im Gleichgewicht sind.
Mit zunehmendem Fortschritt von Computersystemen werden die Komponenten darin komplexer. Die Zwischenverbindungsarchitektur zum Koppeln von und Kommunizieren zwischen den Komponenten hat ebenfalls an Komplexität zugenommen, um zu gewährleisten, dass der Bandbreitenbedarf für optimalen Komponentenbetrieb gedeckt wird. Außerdem verlangen verschiedene Marktsegmente eine Anpassung verschiedener Aspekte von Zwischenverbindungsarchitekturen an den jeweiligen Markt. Zum Beispiel benötigen Server eine höhere Leistung, während das mobile Ökosystem manchmal imstande ist, für Energieeinsparungen Gesamtleistung zu opfern. Dennoch ist es ein besonderes Ziel der meisten Fabrics, die höchstmögliche Leistung bei maximaler Energieeinsparung bereitzustellen. Ferner kann eine Vielzahl von verschiedenen Zwischenverbindungen potenziell von dem hierin beschriebenen Gegenstand profitieren. Zum Beispiel können unter anderen Beispielen die PCIe(Peripheral Component Interconnect (PCI) Express)-Zwischenverbindungs-Fabric-Architektur und die QPI(QuickPath Interconnect)-Fabric-Architektur u. a. gemäß einem oder mehreren der hierin beschriebenen Prinzipien potenziell verbessert werden.
1 veranschaulicht eine Ausführungsform einer Fabric, die aus Punkt-zu-Punkt-Links besteht, welche einen Satz von Komponenten miteinander verbinden. Ein System 100 umfasst einen Prozessor 105 und einen Systemspeicher 110, der mit einem Controllerhub 115 gekoppelt ist. Der Prozessor 105 kann ein beliebiges Verarbeitungselement, wie beispielsweise einen Mikroprozessor, einen Hostprozessor, einen eingebetteten Prozessor, einen Coprozessor oder einen anderen Prozessor, umfassen. Der Prozessor 105 ist mit dem Controllerhub 115 durch einen Frontside-Bus (FSB) 106 gekoppelt. In einer Ausführungsform ist der FSB 106 eine serielle Punkt-zu-Punkt-Zwischenverbindung, wie im Folgenden beschrieben. In einer anderen Ausführungsform umfasst der Link 106 eine serielle, differenzielle Zwischenverbindungsarchitektur, die mit einem anderen Zwischenverbindungsstandard kompatibel ist.
Der Systemspeicher 110 umfasst eine beliebige Speichereinrichtung, wie beispielsweise einen Direktzugriffsspeicher (RAM), einen nichtflüchtigen (NV) Speicher oder einen anderen Speicher, auf den durch Einrichtungen im System 100 zugegriffen werden kann. Der Systemspeicher 110 ist mit dem Controllerhub 115 durch eine Speicherschnittstelle 116 gekoppelt. Beispiele einer Speicherschnittstelle umfassen eine Doppeldatenraten(DDR)-Speicherschnittstelle, eine Zweikanal-DDR-Speicherschnittstelle und eine DRAM(dynamischer RAM)-Speicherschnittstelle.
In einer Ausführungsform kann der Controllerhub 115 einen Stammhub, Stammkomplex oder Stammcontroller umfassen, wie beispielsweise in einer PCIe-Zwischenverbindungshierarchie. Beispiele des Controllerhubs 115 umfassen einen Chipsatz, einen Speicher-Controllerhub (MCH für engl. memory controller hub), eine Northbridge, einen Zwischenverbindungs-Controllerhub (ICH für engl. interconnect controller hub), eine Southbridge und einen Stammcontroller/-hub. Der Begriff Chipsatz bezieht sich häufig auf zwei physisch getrennte Controllerhubs, z. B. einen Speicher-Controllerhub (MCH), der mit einem Zwischenverbindungs-Controllerhub (ICH) gekoppelt ist. Es ist zu erwähnen, dass aktuelle Systeme den MCH oft in den Prozessor 105 integriert aufweisen, während der Controller 115 zum Kommunizieren mit E-/A-Einrichtungen in ähnlicher Weise dient, wie im Folgenden beschrieben. In einigen Ausführungsformen wird Partner-zu-Partner-Routing optional durch den Stammkomplex 115 unterstützt.
Hierbei ist der Controllerhub 115 durch einen seriellen Link 119 mit einem Switch bzw. einer Brücke 120 gekoppelt. Eingangs-/Ausgangsmodule 117 und 121, die auch als Schnittstellen/Ports 117 und 121 bezeichnet werden können, können einen Schichtprotokollstapel umfassen/implementieren, um Kommunikation zwischen dem Controllerhub 115 und dem Switch 120 bereitzustellen. In einer Ausführungsform sind mehrere Einrichtungen imstande, mit dem Switch 120 gekoppelt zu werden.
Der Switch bzw. die Brücke 120 leitet Pakete/Nachrichten von einer Einrichtung 125 stromaufwärts, d. h. eine Hierarchie nach oben zu einem Stammkomplex, zum Controllerhub 115, und stromabwärts, d. h. eine Hierarchie nach unten weg von einem Stammcontroller, vom Prozessor 105 oder dem Systemspeicher 110 zur Einrichtung 125. Der Switch 120 wird in einer Ausführungsform als logische Anordnung von mehreren virtuellen PCI-zu-PCI-Brückeneinrichtungen bezeichnet. Die Einrichtung 125 umfasst eine beliebige interne oder externe Einrichtung oder Komponente, die mit einem elektronischen System gekoppelt werden soll, wie beispielsweise eine E-/A-Einrichtung, einen Netzschnittstellencontroller (NIC für engl. Network Interface Controller), eine Add-in-Karte, einen Audioprozessor, einen Netzwerkprozessor, ein Festplattenlaufwerk, eine Speichereinrichtung, eine CD-/DVD-ROM, einen Monitor, einen Drucker, eine Maus, eine Tastatur, einen Router, eine tragbare Speichereinrichtung, eine Firewire-Einrichtung, eine USB(Universal Serial Bus)-Einrichtung, einen Scanner und andere Eingabe-/Ausgabe-Einrichtungen. In der PCIe-Sprache wird solch eine Vorrichtung häufig als Endpunkt bezeichnet. Obwohl nicht spezifisch dargestellt, kann die Einrichtung 125 eine Brücke (z. B. eine PCIe-zu-PCI/PCI-X-Brücke) umfassen, um Legacy- oder andere Versionen von Einrichtungen oder Zwischenverbindungs-Fabrics zu unterstützen, die von solchen Einrichtungen unterstützt werden.
Auch ein Grafikbeschleuniger 130 kann durch einen seriellen Link 132 mit dem Controllerhub 115 gekoppelt sein. In einer Ausführungsform ist der Grafikbeschleuniger 130 mit einem MCH gekoppelt, der mit einem ICH gekoppelt ist. Der Switch 120 und demgemäß die E-/A-Einrichtung 125 sind dann mit dem ICH gekoppelt. Außerdem dienen E-/A-Module 131 und 118 zum Implementieren eines Schichtprotokollstapels und von zugehöriger Logik, um zwischen dem Grafikbeschleuniger 130 und dem Controllerhub 115 zu kommunizieren. Ähnlich der vorstehenden MCH-Erörterung kann ein Grafikcontroller oder der Grafikbeschleuniger 130 selbst in den Prozessor 105 integriert sein.
Unter Hinwendung zu 2 ist eine Ausführungsform eines Schichtprotokollstapels veranschaulicht. Der Schichtprotokollstapel 200 kann jede Form von geschichtetem Kommunikationsstapel, wie beispielsweise einen QPI-Stapel, einen PCIe-Stapel, einen Hochleistungs-Computerzwischenverbindungs(HPI)-Stapel der nächsten Generation oder einen anderen geschichteten Stapel, umfassen. In einer Ausführungsform kann der Protokollstapel 200 eine Transaktionsschicht 205, eine Linkschicht 210 und eine physikalische Schicht 220 umfassen. Eine Schnittstelle, wie beispielsweise die Schnittstellen 117, 118, 121, 122, 126 und 131 in 1, kann als ein Kommunikationsprotokollstapel 200 dargestellt werden. Die Darstellung als Kommunikationsprotokollstapel kann auch als Modul oder Schnittstelle bezeichnet werden, das/die einen Protokollstapel implementiert/umfasst.
Pakete können zum Kommunizieren von Informationen zwischen Komponenten verwendet werden. Pakete können in der Transaktionsschicht 205 und der Data-Link-Schicht 210 gebildet werden, um die Informationen von der sendenden Komponente an die empfangende Komponente zu übertragen. Während die gesendeten Pakete durch die anderen Schichten laufen, werden sie mit zusätzlichen Informationen erweitert, die zur Handhabung der Pakete auf diesen Schichten verwendet werden. Auf der Empfangsseite findet der umgekehrte Prozess statt, und die Pakete werden aus ihrer Darstellung der physikalischen Schicht 220 in die Darstellung der Data-Link-Schicht 210 und schließlich (für Transaktionsschichtpakete) in die Form umgewandelt, die von der Transaktionsschicht 205 der Empfangseinrichtung verarbeitet werden kann.
In einer Ausführungsform kann die Transaktionsschicht 205 eine Schnittstelle zwischen einem Verarbeitungskern einer Einrichtung und der Zwischenverbindungsarchitektur bereitstellen, wie beispielsweise die Data-Link-Schicht 210 und die physikalische Schicht 220. In dieser Hinsicht kann eine Hauptverantwortung der Transaktionsschicht 205 die Paketierung und Depaketierung von Paketen (d. h. Transaktionsschichtpaketen oder TLPs) umfassen. Die Transaktionsschicht 205 kann außerdem kreditbasierte Flusskontrolle für TLPs steuern. In einigen Implementierungen können geteilte Transaktionen, d. h. Transaktionen mit zeitlich getrennter Anforderung und Antwort, verwendet werden, die es einem Link u. a. ermöglichen, anderen Verkehr zu übertragen, während die Zieleinrichtung Daten für die Antwort sammelt.
Kreditbasierte Flusskontrolle kann verwendet werden, um virtuelle Kanäle und Netze zu realisieren, welche die Zwischenverbindungs-Fabric verwenden. In einem Beispiel kann eine Einrichtung eine anfängliche Menge von Krediten für jeden der Empfangspuffer in der Transaktionsschicht 205 anzeigen. Eine externe Einrichtung am gegenüberliegenden Ende des Links, wie beispielsweise der Controllerhub 115 in 1, kann die Anzahl von Krediten zählen, die von jedem TLP verbraucht werden. Eine Transaktion kann gesendet werden, wenn die Transaktion eine Kreditgrenze nicht überschreitet. Bei Empfang einer Antwort wird eine Kreditmenge wiederhergestellt. Ein Beispiel eines Vorteils unter anderen potenziellen Vorteilen solch eines Kreditschemas ist, dass die Latenzzeit der Kreditrückgabe die Leistung nicht beeinträchtigt, vorausgesetzt, dass die Kreditgrenze nicht erreicht wird.
In einer Ausführungsform können vier Transaktionsadressräume einen Konfigurationsadressraum, einen Speicheradressraum, einen Eingabe-/Ausgabe-Adressraum und einen Nachrichtenadressraum umfassen. Speicherraumtransaktionen umfassen eine oder mehrere von Leseanforderungen und Schreibanforderungen, um Daten an einen bzw. von einem im Speicher zugeordneten Speicherort zu übertragen. In einer Ausführungsform sind Speicherraumtransaktionen imstande, zwei verschiedene Adressformate, z. B. ein kurzes Adressformat, wie beispielsweise eine 32-Bit-Adresse, oder ein langes Adressformat, wie beispielsweise eine 64-Bit-Adresse, zu verwenden. Konfigurationsraumtransaktionen können zum Zugreifen auf den Konfigurationsraum von verschiedenen Einrichtungen verwendet werden, die mit der Zwischenverbindung verbunden sind. Transaktionen für den Konfigurationsraum können Leseanforderungen und Schreibanforderungen umfassen. Nachrichtenraumtransaktionen (oder einfach Nachrichten) können ebenfalls definiert werden, um Inband-Kommunikation zwischen Zwischenverbindungsagenten zu unterstützen. Daher kann die Transaktionsschicht 205 in einer beispielhaften Ausführungsform Paketheader/Nutzdaten 206 paketieren.
Kurz unter Bezugnahme auf 3 ist eine beispielhafte Ausführungsform eines Deskriptors eines Transaktionsschichtpakets veranschaulicht. In einer Ausführungsform kann der Transaktionsdeskriptor 300 ein Mechanismus zum Übertragen von Transaktionsinformationen sein. In dieser Hinsicht unterstützt der Transaktionsdeskriptor 300 die Identifikation von Transaktionen in einem System. Andere potenzielle Verwendungsmöglichkeiten umfassen ein Verfolgen von Modifikationen der Standardtransaktionsreihenfolge und Transaktionsassoziation mit Kanälen. Zum Beispiel kann der Transaktionsdeskriptor 300 ein globales Kennungsfeld 302, ein Attributfeld 304 und ein Kanalkennungsfeld 306 umfassen. Im veranschaulichten Beispiel ist das globale Kennungsfeld 302 so dargestellt, dass es ein lokales Transaktionskennungsfeld 308 und ein Quellenkennungsfeld 310 umfasst. In einer Ausführungsform ist die globale Transaktionskennung 302 für alle unerledigten Anforderungen eindeutig.
Gemäß einer Implementierung ist das lokale Transaktionskennungsfeld 308 ein Feld, das durch einen anfordernden Agenten erzeugt wird, und kann für alle unerledigten Anforderungen eindeutig sein, die eine Fertigstellung für diesen anfordernden Agenten erfordern. Außerdem identifiziert in diesem Beispiel die Quellenkennung 310 den Requester-Agenten innerhalb der Zwischenverbindungshierarchie eindeutig. Demgemäß stellt das lokale Transaktionskennungsfeld 308 zusammen mit der Quellen-ID 310 eine globale Identifikation einer Transaktion innerhalb eines Hierarchiebereichs bereit.
Das Attributfeld 304 spezifiziert Charakteristiken und Beziehungen der Transaktion. In dieser Hinsicht wird das Attributfeld 304 potenziell verwendet, um zusätzliche Informationen bereitzustellen, welche eine Modifikation der Standardhandhabung von Transaktionen ermöglichen. In einer Ausführungsform umfasst das Attributfeld 304 ein Prioritätsfeld 312, ein reserviertes Feld 314, ein Reihenfolge-Feld 316 und ein Nicht-Schnüffel-Feld 318. Hierbei kann das Prioritäts-Teilfeld 312 durch einen Initiator modifiziert werden, um der Transaktion eine Priorität zuzuordnen. Das reservierte Attributfeld 314 wird zur zukünftigen oder anbieterdefinierten Nutzung reserviert gelassen. Mögliche Nutzungsmodelle, welche Prioritäts- und Sicherheitsattribute verwenden, können unter Verwendung des reservierten Attributfelds implementiert werden.
In diesem Beispiel wird das Reihenfolge-Attributfeld 316 verwendet, um optionale Informationen zu liefern, die den Reihenfolgetyp übertragen, welcher Standardreihenfolgeregeln modifizieren kann. Gemäß einer beispielhaften Implementierung bedeutet ein Reihenfolgeattribut von „0”, dass Standardreihenfolgeregeln angewendet werden sollen, wobei ein Reihenfolgeattribut von „1” eine zwanglose Reihenfolge bedeutet, wobei Schreiboperationen Schreiboperationen in der gleichen Richtung überholen können und Lesefertigstellungen Schreiboperationen in der gleichen Richtung überholen können. Das Schnüffel-Attributfeld 318 wird verwendet, um zu bestimmen, ob Transaktionen beschnüffelt werden. Wie dargestellt, identifiziert das Kanal-ID-Feld 306 einen Kanal, mit dem eine Transaktion assoziiert ist.
Zurück zur Erörterung von 2 kann eine Linkschicht 210, die auch als Data-Link-Schicht 210 bezeichnet wird, als eine Zwischenstufe zwischen der Transaktionsschicht 205 und der physikalischen Schicht 220 fungieren. In einer Ausführungsform ist eine Zuständigkeit der Data-Link-Schicht 210 die Bereitstellung eines zuverlässigen Mechanismus zum Austauschen von Transaktionsschichtpaketen (TLPs für engl. Transaction Layer Packets) zwischen zwei Komponenten auf einem Link. Eine Seite der Data-Link-Schicht 210 akzeptiert von der Transaktionsschicht 205 paketierte TLPs, wendet eine Paketsequenzkennung 211, d. h. eine Identifikationsnummer oder Paketnummer an, berechnet einen Fehlererkennungscode, d. h. CRC 212, und wendet diesen an und übermittelt die modifizierten TLPs an die physikalische Schicht 220 zur Übertragung über eine physikalische an eine externe Einrichtung.
In einem Beispiel umfasst die physikalische Schicht 220 einen logischen Teilblock 221 und einen elektrischen Teilblock 222, um ein Paket physikalisch an eine externe Einrichtung zu senden. Hierbei ist der logische Teilblock 221 für die „digitalen” Funktionen der physikalischen Schicht 221 zuständig. In dieser Hinsicht kann der logische Teilblock einen Sendeabschnitt zum Vorbereiten von abgehenden Informationen zur Übertragung durch den physikalischen Teilblock 222 und einen Empfangsabschnitt zum Identifizieren und Vorbereiten von empfangenen Informationen vor ihrer Weitergabe an die Linkschicht 210 umfassen.
Der physikalische Block 222 umfasst einen Sender und einen Empfänger. Der Sender wird durch den logischen Teilblock 221 mit Symbolen versorgt, welche der Sender serialisiert und an eine externe Einrichtung weitersendet. Der Empfänger wird mit serialisierten Symbolen von einer externen Einrichtung versorgt und wandelt die empfangenen Signale in einen Bitstrom um. Der Bitstrom wird deserialisiert und an den logischen Teilblock 221 geliefert. In einer beispielhaften Ausführungsform wird ein 8b/10b-Übertragungscode eingesetzt, wobei Zehn-Bit-Symbole gesendet/empfangen werden. Hierbei werden spezielle Symbole zum Einrahmen eines Pakets mit Rahmen 223 verwendet. Außerdem stellt der Empfänger in einem Beispiel auch einen Symboltakt bereit, der aus dem ankommenden seriellen Strom rückgewonnen wird.
Obwohl, wie bereits erwähnt, die Transaktionsschicht 205, die Linkschicht 210 und die physikalische Schicht 220 in Bezug auf eine spezifische Ausführungsform eines Protokollstapels (wie beispielsweise eines PCIe-Protokollstapels) erörtert werden, ist ein Schichtprotokollstapel nicht darauf beschränkt. In Wirklichkeit kann jedes Schichtprotokoll enthalten sein bzw. implementiert werden und die hierin erörterten Merkmale übernehmen. Als ein Beispiel kann ein Port bzw. eine Schnittstelle, der/die als ein Schichtprotokoll dargestellt ist, umfassen: (1) eine erste Schicht zum Paketieren von Paketen, d. h. eine Transaktionsschicht; eine zweite Schicht zum Sequenzieren von Paketen, d. h. eine Linkschicht; und eine dritte Schicht zum Senden der Pakete, d. h. eine physikalische Schicht. Als ein spezifisches Beispiel wird ein Hochleistungszwischenverbindungs-Schichtprotokoll, wie hierin beschrieben, verwendet.
Als Nächstes ist unter Bezugnahme auf 4 ist eine beispielhafte Ausführungsform einer seriellen Punkt-zu-Punkt-Fabric veranschaulicht. Ein serieller Punkt-zu-Punkt-Link kann jeden Übertragungspfad zum Senden von seriellen Daten umfassen. In der dargestellten Ausführungsform kann ein Link zwei differenziell gesteuerte Niederspannungssignalpaare umfassen: ein Sendepaar 406/411 und ein Empfangspaar 412/407. Demgemäß umfasst eine Einrichtung 405 Übertragungslogik 406, um Daten an eine Einrichtung 410 zu senden, und Empfangslogik 407, um Daten von der Einrichtung 410 zu empfangen. Mit anderen Worten sind in einigen Implementierungen eines Links zwei Sendepfade, d. h. Pfade 416, 417, und zwei Empfangsfade, d. h. Pfade 418 und 419, enthalten.
„Übertragungspfad” bezieht sich auf jeden Pfad zum Senden von Daten, wie beispielsweise eine Übertragungsleitung, eine Kupferleitung, eine optische Leitung, einen drahtlosen Kommunikationskanal, einen Infrarotkommunikationslink oder einen anderen Kommunikationspfad. Eine Verbindung zwischen zwei Einrichtungen, wie beispielsweise Einrichtung 405 und Einrichtung 410, wird als Link, wie beispielsweise Link 415, bezeichnet. Ein Link kann eine Lane unterstützen – wobei jede Lane einen Satz von differenziellen Signalpaaren (ein Paar zum Senden, ein Paar zum Empfangen) darstellt. Zum Skalieren der Bandbreite kann ein Link mehrere Lanes aggregieren, die mit xN bezeichnet werden, wobei N jede unterstützte Linkbreite ist, wie beispielsweise 1, 2, 4, 8, 12, 16, 32, 64 oder breiter.
„Differenzielles Paar” kann sich auf zwei Übertragungspfade, wie beispielsweise die Leitungen 416 und 417, zum Senden von differenziellen Signalen beziehen. Als ein Beispiel steuert die Leitung 417 von einem logischen H-Pegel auf einen logischen L-Pegel, d. h. abfallende Flanke, wenn die Leitung 416 von einem Niederspannungspegel auf einen Hochspannungspegel umschaltet, d. h. ansteigende Flanke. Differenzielle Signale weisen potenziell bessere elektrische Charakteristiken, wie beispielsweise eine bessere Signalintegrität, d. h. Kreuzkopplung, Spannungsüberschreitung/-unterschreitung, Nachschwingen, unter anderen beispielhaften Vorteilen auf. Dies ermöglicht ein besseres Taktfenster, welches schnellere Übertragungsfrequenzen ermöglicht.
In einer Ausführungsform wird eine neue Hochleistungszwischenverbindung (HPI für engl. High Performance Interconnect) bereitgestellt. HPI kann eine cache-kohärente, linkbasierte Zwischenverbindung der nächsten Generation umfassen. Als ein Beispiel kann HPI in Hochleistungs-Computerplattformen, wie beispielsweise Workstations oder Servern, verwendet werden, einschließlich Systemen, in welchen typischerweise PCIe oder ein anderes Zwischenverbindungsprotokoll zum Verbinden von Prozessoren, Beschleunigern, E-/A-Einrichtungen und dergleichen verwendet wird. HPI ist jedoch nicht darauf beschränkt. Stattdessen kann HPI in jedem bzw. jeder der hierin beschriebenen Systeme oder Plattformen verwendet werden. Außerdem können die einzelnen entwickelten Ideen auf andere Zwischenverbindungen und Plattformen, wie beispielsweise PCIe, MIPI, QPI usw. angewendet werden.
Um mehrere Einrichtungen zu unterstützen, kann HPI in einer beispielhaften Ausführungsform eine Anweisungssatz-Architektur (ISA für engl. Instruction Set Architecture) agnostisch umfassen (d. h. die HPI kann in mehreren verschiedenen Einrichtungen implementiert werden). In einem anderen Szenario kann HPI auch zum Verbinden von Hochleistungs-E-/A-Einrichtungen und nicht nur Prozessoren oder Beschleunigern verwendet werden. Zum Beispiel kann eine Hochleistungs-PCIe-Einrichtung durch eine entsprechende Übersetzungsbrücke (d. h. HPI zu PCIe) mit HPI gekoppelt werden. Darüber hinaus können die HPI-Links durch viele HPI-basierte Einrichtungen, wie beispielsweise Prozessoren, auf verschiedene Arten und Weisen (z. B. Sterne, Ringe, Maschen usw.) verwendet werden. 5 veranschaulicht beispielhafte Implementierungen von mehreren potenziellen Mehrsockelkonfigurationen. Eine Zwei-Sockel-Konfiguration 505, wie dargestellt, kann zwei HPI-Links umfassen; in anderen Implementierungen kann jedoch ein HPI-Link verwendet werden. Für größere Topologien kann jede Konfiguration verwendet werden, solange neben anderen zusätzlichen oder Ersatzmerkmalen eine Kennung (ID) zugeordnet werden kann und es eine gewisse Form von virtuellem Pfad gibt. Wie dargestellt, weist in einem Beispiel eine Vier-Sockel-Konfiguration 510 einen HPI-Link von jedem Prozessor zu einem anderen auf. Aber in der Acht-Sockel-Implementierung, die in Konfiguration 515 dargestellt ist, sind nicht alle Sockel durch einen HPI-Link direkt miteinander verbunden. Wenn jedoch ein virtueller Pfad oder Kanal zwischen den Prozessoren vorhanden ist, wird die Konfiguration unterstützt. Ein Bereich von unterstützen Prozessoren umfasst 2 bis 32 in einer systemeigenen Domäne. Höhere Anzahlen von Prozessoren können u. a. durch die Verwendung von mehreren Domänen oder anderen Zwischenverbindungen zwischen Knotencontrollern erreicht werden.
Die HPI-Architektur umfasst eine Definition einer Schichtprotokollarchitektur, die in einigen Beispielen Protokollschichten (kohärente, nichtkohärente und optional speicherbasierte Protokolle), eine Routingschicht, eine Linkschicht und eine physikalische Schicht mit zugehöriger E-/A-Logik umfasst. Außerdem kann HPI ferner Erweiterungen in Bezug auf Leistungsverwalter (wie beispielsweise Leistungssteuereinheiten (PCUs für engl. power control units)), Entwurf für Test und Fehler (DFT für engl. design for test and debug), Störungsbehandlung, Register, Sicherheit u. a. umfassen. 6 veranschaulicht eine Ausführungsform eines beispielhaften HPI-Schichtprotokollstapels. In einigen Implementierungen kann mindestens eine der in 6 veranschaulichten Schichten optional sein. Jede Schicht hat mit ihrem eigenen Granularitätsgrad oder Informationsquantum zu tun (die Protokollschicht 605a, b mit Paketen 630, die Linkschicht 610a, b mit Flits 635 und die physikalische Schicht 605a, b mit Phits 640). Es ist zu erwähnen, dass ein Paket in einigen Ausführungsformen basierend auf der Implementierung Teilflits, ein einziges Flit oder mehrere Flits umfassen kann.
Als ein erstes Beispiel umfasst eine Breite eines Phits 640 eine 1-zu-1-Zuordnung von Linkbreite zu Bits (z. B. umfasst eine 20-Bit-Lenkbreite ein Phit von 20 Bits usw.). Flits können eine größere Größe, wie beispielsweise 184, 192 oder 200 Bits, aufweisen. Es ist zu erwähnen, dass dann, wenn ein Phit 640 20 Bits breit ist, und die Größe eines Flits 635 184 Bits ist, eine Bruchzahl von Phits 640 nötig ist, um ein Flit 635 zu senden (unter anderen Beispielen z. B. 9,2 Phits bei 20 Bits, um ein 184-Bit-Flit 635 zu senden, oder 9,6 bei 20 Bits, um ein 192-Bit-Flit zu senden). Es ist zu erwähnen, dass Breiten des Basislinks auf der physikalischen Schicht variieren können. Die Anzahl von Lanes pro Richtung kann zum Beispiel 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24 usw. umfassen. In einer Ausführungsform ist die Linkschicht 610a, b imstande, mehrere Teile von verschiedenen Transaktionen in ein einziges Flit einzubetten, und es können ein oder mehrere Header (z. B. 1, 2, 3, 4) in das Flit eingebettet sein. In einem Beispiel teilt HPI die Header in entsprechende Schlitze, um mehrere Nachrichten im Flit zu ermöglichen, die für verschiedene Knoten bestimmt sind.
Die physikalische Schicht 605a, b kann in einer Ausführungsform für die schnelle Übertragung von Informationen auf dem physikalischen Medium (elektrisch oder optisch usw.) zuständig sein. Der physikalische Link kann zwischen zwei Linkschichtinstanzen, wie beispielsweise Schicht 605a und 650b, von Punkt zu Punkt sein. Die Linkschicht 610a, b kann die physikalische Schicht 605a, b von den oberen Schichten abstrahieren und stellt die Fähigkeit zur zuverlässigen Übertragung von Daten (sowie Anforderungen) und Steuerung der Flusskontrolle zwischen zwei direkt verbundenen Instanzen bereit. Die Linkschicht kann außerdem für das Virtualisieren des physikalischen Kanals zu mehreren virtuellen Kanälen und Nachrichtenklassen zuständig sein. Die Protokollschicht 620a, b ist auf die Linkschicht 610a, b angewiesen, um Protokollnachrichten vor ihrer Übergabe an die physikalische Schicht 605a, b zur Übertragung über die physikalischen Links entsprechenden Nachrichtenklassen und virtuellen Kanälen zuzuordnen. Die Linkschicht 610a, b kann mehrere Nachrichten unterstützen, wie beispielsweise Anforderung, Schnüffeln, Antwort, Rückschreiben, nichtkohärente Daten u. a.
Die physikalische Schicht 605a, b (oder PHY) der HPI kann über der elektrischen Schicht (d. h. den elektrischen Verbindern, die zwei Komponenten verbinden) und unter der Linkschicht 610a, b implementiert sein, wie in 6 veranschaulicht. Die physikalische Schicht und entsprechende Logik können sich auf jedem Agenten befinden und verbinden die Linkschichten auf zwei Agenten (A und B), die voneinander getrennt sind (z. B. auf Einrichtungen auf jeder Seite von einem Link). Die lokalen und abgesetzten elektrischen Schichten sind durch physikalische Medien (z. B. Drähte, Leiter, optisch usw.) verbunden. Die physikalische Schicht 605a, b weist in einer Ausführungsform zwei Hauptphasen, Initialisierung und Betrieb, auf. Während der Initialisierung ist die Verbindung opak für die Linkschicht, und die Signalisierung kann eine Kombination von zeitlich gesteuerten Zuständen und Handshake-Ereignissen umfassen. Während des Betriebs ist die Verbindung transparent für die Linkschicht, und die Signalisierung ist bei einer Geschwindigkeit, wobei alle Lanes zusammen als ein einziger Link funktionieren. Während der Betriebsphase transportiert die physikalische Schicht Flits von Agent A zu Agent B und von Agent B zu Agent A. Die Verbindung wird auch als Link bezeichnet und abstrahiert einige physikalische Aspekte, einschließlich Medien, Breite und Geschwindigkeit, von den Linkschichten während des Austausches von Flits und Kontrolle/Status der aktuellen Konfiguration (z. B. Breite) mit der Linkschicht. Die Initialisierungsphase umfasst kleinere Phasen, z. B. Abfrage, Konfiguration. Auch die Betriebsphase umfasst kleinere Phasen (z. B. Link-Energieverwaltungsstatus).
In einer Ausführungsform kann die Linkschicht 610a, b so implementiert sein, dass sie zuverlässige Datenübertragung zwischen zwei Protokoll- oder Routing-Instanzen bereitstellt. Die Linkschicht kann die physikalische Schicht 605a, b von der Protokollschicht 620a, b abstrahieren, und sie kann für die Flusskontrolle zwischen zwei Protokoll-Agenten (A, B) zuständig sein und Dienste virtueller Kanäle für die Protokollschicht (Nachrichtenklassen) und Routingschicht (virtuelle Netze) bereitstellen. Die Schnittstelle zwischen der Protokollschicht 620a, b und der Linkschicht 610a, b kann typischerweise auf der Paketebene sein. In einer Ausführungsform wird die kleinste Übertragungseinheit auf der Linkschicht als Flit, wobei es sich um eine spezifizierte Anzahl von Bits, wie beispielsweise 192 Bits, handelt, oder mit einer anderen Benennung bezeichnet. Die Linkschicht 610a, b ist auf die physikalische Schicht 605a, b angewiesen, um die Übertragungseinheit (Phit) der physikalischen Schicht 605a, b in die Übertragungseinheit (Flit) der Linkschicht 610a, b einzurahmen. Außerdem kann die Linkschicht 610a, b logisch in zwei Teile, einen Sender und einen Empfänger, zerlegt werden. Ein Sender/Empfänger-Paar auf einer Instanz kann mit einem Sender/Empfänger-Paar auf einer anderen Instanz verbunden werden. Flusskontrolle erfolgt häufig sowohl auf einer Flit- als auch einer Paketbasis. Die Erkennung und die Korrektur von Fehlern werden ebenfalls potenziell auf einer Flit-Ebenen-Basis durchgeführt.
In einer Ausführungsform kann die Routingschicht 615a, b ein flexibles und verteiltes Verfahren zum Leiten von HPI-Transaktionen von einem Ursprung zu einem Ziel bereitstellen. Das Schema ist flexibel, da Routing-Algorithmen für mehrere Topologien durch programmierbare Routingtabellen an jedem Router spezifiziert sein können (die Programmierung erfolgt in einer Ausführungsform durch Firmware, Software oder eine Kombination davon). Die Routingfunktionalität kann verteilt sein: das Routing kann durch eine Reihe von Routingschritten erfolgen, wobei jeder Routingschritt durch ein Nachschlagen einer Tabelle an jedem Ursprungs-, Zwischen- oder Zielrouter definiert ist. Das Nachschlagen an einem Ursprung kann verwendet werden, um ein HPI-Paket in die HPI-Fabric zu injizieren. Das Nachschlagen an einem Zwischenrouter kann verwendet werden, um ein HPI-Paket von einem Eingangsport zu einem Ausgangsport zu leiten. Das Nachschlagen an einem Zielport kann verwendet werden, um den Ziel-HPI-Protokoll-Agenten vorherzubestimmen. Es ist zu erwähnen, dass die Routingschicht in einigen Implementierungen dünn sein kann, da die Routingtabellen und infolgedessen die Routing-Algorithmen nicht speziell durch Spezifikation definiert sind. Dies ermöglicht Flexibilität und, dass eine Vielzahl von Nutzungsmodellen, einschließlich flexibler architektonischer Plattformtopologien, durch die Systemimplementierung definiert wird. Die Routingschicht 615a, b ist auf die Linkschicht 610a, b angewiesen, um die Verwendung von bis zu drei (oder mehr) virtuellen Netzen (VNs) – in einem Beispiel zwei blockierungsfreien VNs, VN0 und VN1, mit verschiedenen Nachrichtenklassen, die in jedem virtuellen Netz definiert sind – bereitzustellen. Ein gemeinsam genutztes virtuelles Netz (VNA für engl. adaptive virtual network) kann in der Linkschicht definiert sein, aber dieses adaptive Netz kann nicht direkt in Routingkonzepten dargelegt werden, da jede Nachrichtenklasse und jedes virtuelle Netz unter anderen Merkmalen und Beispielen dedizierte Ressourcen und garantierten Weiterleitungsfortschritt aufweisen können.
In einer Ausführungsform kann HPI eine Kohärenzprotokollschicht 620a, b umfassen, um Agenten zu unterstützen, welche Zeilen von Daten aus einem Speicher zwischenspeichern. Ein Agent, der Speicherdaten zwischenzuspeichern wünscht, kann das Kohärenzprotokoll verwenden, um die Zeile von Daten auszulesen und in seinen Cache zu laden. Ein Agent, der eine Zeile von Daten in seinem Cache zu modifizieren wünscht, kann das Kohärenzprotokoll verwenden, um das Eigentum an der Zeile vor dem Modifizieren der Daten zu erwerben. Nach dem Modifizieren einer Zeile kann ein Agent sie entsprechend Protokollvorgaben in seinem Cache halten, bis er die Zeile entweder in den Speicher zurückschreibt oder die Zeile in eine Antwort auf eine externe Anforderung aufnimmt. Schließlich kann ein Agent externe Anforderungen zum Annullieren einer Zeile in seinem Cache erfüllen. Das Protokoll stellt die Kohärenz der Daten durch Vorschreiben der Regeln sicher, die alle Caching-Agenten befolgen können. Es stellt außerdem die Mittel für Agenten ohne Caches zum kohärenten Lesen und Schreiben von Speicherdaten bereit.
Zwei Bedingungen können zum Unterstützen von Transaktionen unter Verwendung des HPI-Kohärenzprotokolls durchgesetzt werden. Erstens kann das Protokoll als ein Beispiel die Datenkonsistenz auf einer Pro-Adresse-Basis unter den Daten in den Caches von Agenten und zwischen diesen Daten und den Daten im Speicher aufrechterhalten. Informell ausgedrückt kann sich Datenkonsistenz auf jede gültige Zeile von Daten in einem Cache eines Agenten beziehen, die einen aktuellsten Wert der Daten darstellt, und Daten, die in einem Kohärenzprotokollpaket gesendet werden, können den aktuellsten Wert der Daten zum Zeitpunkt ihres Versands darstellen. Wenn keine gültige Kopie von Daten in Caches vorhanden ist oder übertragen wird, kann das Protokoll den aktuellsten Wert der Daten gewährleisten, die sich im Speicher befinden. Zweitens kann das Protokoll gut definierte Verpflichtungspunkte für Anforderungen bereitstellen. Verpflichtungspunkte für Leseoperationen können anzeigen, wann die Daten verwendbar sind; und für Schreiboperationen können sie anzeigen, wann die geschriebenen Daten global beobachtbar sind und durch anschließende Leseoperationen geladen werden. Das Protokoll kann diese Verpflichtungspunkte sowohl für zwischenspeicherbare als auch nicht zwischenspeicherbare (UC für engl. uncacheable) Anforderungen im kohärenten Speicherbereich unterstützen.
Das HPI-Kohärenzprotokoll kann außerdem den Weiterleitungsfortschritt von Kohärenzanforderungen gewährleisten, die von einem Agenten für eine Adresse im kohärenten Speicherbereich gestellt werden. Transaktionen können schließlich zuverlässig erfüllt und für einen korrekten Systembetrieb ausgemustert werden. Das HPI-Kohärenzprotokoll hat in einigen Ausführungsformen möglicherweise keine Ahnung von einem Wiederholungsversuch zum Lösen von Ressourcenzuweisungskonflikten. Daher kann das Protokoll selbst so definiert werden, dass es keine zyklischen Ressourcenabhängigkeiten enthält, und Implementierungen können in ihren Entwürfen darauf achten, dass keine Abhängigkeiten eingeführt werden, die zu Blockierungen führen können. Außerdem kann das Protokoll darauf hinweisen, wenn Entwürfe imstande sind, fairen Zugriff auf Protokollressourcen bereitzustellen.
Logisch kann das HPI-Kohärenzprotokoll in einer Ausführungsform drei Elemente umfassen: Kohärenz(oder Zwischenspeicher)-Agenten, Home-Agenten und die HPI-Zwischenverbindungs-Fabric, welche die Agenten verbindet. Kohärenzagenten und Home-Agenten können zusammenarbeiten, um Datenkonsistenz durch Austauschen von Nachrichten über die Zwischenverbindung zu erreichen. Die Linkschicht 610a, b und ihre zugehörige Beschreibung können die Einzelheiten der Zwischenverbindungs-Fabric bereitstellen, einschließlich dessen, wie es die Vorgaben des hierin erörterten Kohärenzprotokolls befolgt. (Es ist zu erwähnen, dass die Teilung in Kohärenzagenten und Home-Agenten der Klarheit halber erfolgt. Ein Entwurf kann u. a. mehrere Agenten von beiden Typen innerhalb eines Sockels enthalten oder sogar das Verhalten von Agenten zu einer einzigen Entwurfseinheit kombinieren.)
In einer Ausführungsform können Home-Agenten so konfiguriert sein, dass sie physikalischen Speicher schützen. Jeder Home-Agent kann für eine Region des kohärenten Speicherbereichs zuständig sein. Regionen können nichtüberlappend sein, insofern als eine einzige Adresse durch einen Home-Agenten geschützt wird, und zusammen umfassen die Home-Agent-Regionen in einem System den kohärenten Speicherbereich. Zum Beispiel kann jede Adresse durch mindestens einen Home-Agenten geschützt werden. Daher kann in einer Ausführungsform jede Adresse in einem kohärenten Speicherbereich eines HPI-Systems genau einem Home-Agenten zugeordnet werden.
Home-Agenten im HPI-Kohärenzprotokoll können in einer Ausführungsform für das Bearbeiten von Anforderungen für den kohärenten Speicherbereich zuständig sein. Für Lese(Rd)-Anforderungen können Home-Agenten Schnüffler (Snp für engl. snoop) erzeugen, ihre Antworten verarbeiten, eine Datenantwort senden und eine Fertigstellungsantwort senden. Für Annullierungs(Inv)-Anforderungen können Home-Agenten notwendige Schnüffler erzeugen, ihre Antworten verarbeiten und eine Fertigstellungsantwort senden. Für Schreibanforderungen können Home-Agenten die Daten in den Speicher schreiben und eine Fertigstellungsantwort senden.
Home-Agenten können Schnüffler im HPI-Kohärenzprotokoll bereitstellen und Schnüfflerantworten von Kohärenzagenten verarbeiten. Home-Agenten können auch Weiterleitungsanforderungen, bei welchen es sich um eine spezielle Schnüfflerantwort handelt, von Kohärenzagenten zur Konfliktlösung verarbeiten. Wenn ein Home-Agent eine Weiterleitungsanforderung empfängt, kann er eine Weiterleitungsantwort an den Kohärenzagenten senden, der die Weiterleitungsanforderung erzeugte (d. h. den Agenten, der eine in Konflikt stehende Schnüffelanforderung erkannte). Kohärenzagenten können die Reihenfolge dieser Weiterleitungsantworten und Fertigstellungsantworten vom Home-Agenten verwenden, um Konflikte zu lösen.
Ein Kohärenzagent kann unterstützte Kohärenzprotokollanforderungen ausgeben. Anforderungen können an eine Adresse im kohärenten Speicherbereich ausgegeben werden. Daten, die für Leseanforderungen (Rd) empfangen werden, können mit Ausnahme von RdCur konsistent sein. Daten für RdCur-Anforderungen können konsistent gewesen sein, als das Datenpaket erzeugt wurde (obwohl sie während der Lieferung abgelaufen sein können).

Tabelle 1 stellt eine beispielhafte, nicht erschöpfende Liste von potenziellen unterstützten Anforderungen dar: TABELLE 1

Name	Semantik	Cache-Zustand
RdCode	Anfordern einer Cache-Zeile im F- oder S-Zustand.	F oder S
RdData	Anfordern einer Cache-Zeile im E-, F- oder S-Zustand.	F oder S
RdMigr	Anfordern einer Cache-Zeile im M-, E-, F- oder S-Zustand.	M und (F oder S)
RdInv	Anfordern einer Cache-Zeile im E-Zustand. Wenn eine Zeile vorher im M-Zustand zwischengespeichert wurde, wird die Zeile vor der Lieferung von E-Daten in den Speicher geschrieben.	E
RdInvOwn	Anfordern einer Cache-Zeile im M- oder E-Zustand.	M
RdCur	Anfordern eines nicht zwischenspeicherbaren Schnappschusses einer Cache-Zeile.
InvItoE	Anfordern von exklusivem Eigentum an einer Cache-Zeile ohne Empfang von Daten.	M oder E
InvItoM	Anfordern von exklusivem Eigentum an einer Cache-Zeile ohne Empfang von Daten und mit der Absicht, kurz danach Rückschreiben durchzuführen.	M oder E
InvXtoI	Entleeren einer Cache-Zeile aus allen Caches. Der anfordernde Agent hat die Zeile in seinem Cache zu annullieren, bevor er diese Anforderung ausgibt.
WbMtoI	Rückschreiben einer Cache-Zeile im M-Zustand in den Speicher und Annullieren der Zeile im Cache.	M
WbMtoS	Rückschreiben einer Cache-Zeile im M-Zustand in den Speicher und Überführen der Zeile in den S-Zustand.	M und S
WbMtoE	Rückschreiben einer Cache-Zeile im M-Zustand in den Speicher und Überführen der Zeile in den E-Zustand.	M und E
WbMtoIPtl	Rückschreiben einer Cache-Zeile im M-Zustand in den Speicher gemäß einer Byte-Aktivierungsmaske und Überführen der Zeile in den I-Zustand.	M
WbMtoEPtl	Rückschreiben einer Cache-Zeile im M-Zustand in den Speicher gemäß einer Byte-Aktivierungsmaske, Überführen der Zeile in den E-Zustand und Löschen der Maske der Zeile im Cache.	M und E
EvctCln	Meldung an einen Home-Agenten, dass eine Cache-Zeile im E-Zustand im Cache annulliert wurde.	E
WbPushMtoI	Senden einer Zeile im M-Zustand an einen Home-Agenten und Annullieren der Zeile im Cache; der Home-Agent kann entweder die Zeile in den Speicher zurückschreiben oder sie an einen lokalen Cache-Agenten mit M-Zustand senden.	M
WbFlush	Anfordern, dass Home Schreiboperation in implementierungsspezifische Adressen in seiner Speicherhierarchie entleeren. Es werden keine Daten mit der Anforderung gesendet.

Die HPI kann ein Kohärenzprotokoll unterstützen, das von Prinzipien des MESI-Protokolls Gebrauch macht. Jede Cache-Zeile kann mit einem oder mehreren unterstützten Zuständen markiert (z. B. in der Cache-Zeile codiert) werden. Ein Zustand „M” oder „modifiziert” kann anzeigen, dass der Cache-Zeilenwert von dem Wert modifiziert wurde, der im Hauptspeicher ist. Eine Zeile im M-Zustand ist nur im Besonderen vorhanden, und der entsprechende Cache-Agent kann aufgefordert werden, die modifizierten Daten zu einem gewissen Zeitpunkt in der Zukunft, zum Beispiel vor dem Ermöglichen jeder anderen Leseoperation des (nicht mehr gültigen) Hauptspeicherzustands, in den Speicher zurückzuschreiben. Ein Rückschreiben kann die Zeile vom M-Zustand in den E-Zustand überführen. Der Zustand „E” oder „exklusiv” kann anzeigen, dass die Cache-Zeile nur im aktuellen Cache vorhanden ist, dass aber ihr Wert dem im Hauptspeicher entspricht. Die Cache-Zeile im E-Zustand kann in Reaktion auf eine Leseanforderung jederzeit in den S-Zustand übergehen, oder sie kann durch Schreiben in die Zeile in den M-Zustand gewechselt werden. Der Zustand „S” (für engl. shared) oder „gemeinsam/geteilt” kann anzeigen, dass die Cache-Zeile in anderen Caches der Maschine gespeichert sein kann und einen Wert aufweist, der dem des Hauptspeichers entspricht. Die Zeile kann jederzeit verworfen (in den I-Zustand gewechselt) werden. Der Zustand „I” (für engl. invalid) oder „ungültig” kann anzeigen, dass eine Cache-Zeile ungültig oder ungenutzt ist. Es können auch andere Zustände in HPI unterstützt werden, wie u. a. beispielsweise ein gemeinsamer Zustand „F” (für engl. forward) oder „Weiterleitung”, der anzeigt, dass der jeweilige gemeinsame Zeilenwert an andere Caches weitergeleitet werden soll, welche sich ebenfalls die Zeile teilen sollen.

Tabelle 2 umfasst beispielhafte Informationen, die in einige Kohärenzprotokollnachrichten aufgenommen werden können und u. a. Schnüffel-, Lese- und Schreibanforderungen umfassen: TABELLE 2

Feld	Verwendung
cmd	Nachrichtenbefehl (oder Name oder Opcode).
addr	Adresse einer kohärenten Cache-Zeile.
destNID	Knoten-ID (NID) eines Ziel(Heim- oder Kohärenz)-Agenten.
reqNID	ND eines anfordernden Kohärenzagenten.
peerNID	NID eines Kohärenzagenten, der die (Weiterleitungsanforderungs-)Nachricht sandte.
reqTID	ID der Ressource, die durch den anfordernden Agenten für die Transaktion zugewiesen wird, auch bekannt als RTID (oder Anforderungstransaktionskennung).
homeTID	ID der Ressource, die durch den Home-Agenten zum Verarbeiten der Transaktion zugewiesen wird, auch bekannt als HTID (oder Home-Transaktionskennung).
data	Eine Cache-Zeile von Daten.
mask	Byte-Maske zum Qualifizieren der Daten.

Schnüffelnachrichten können durch Home-Agenten erzeugt und zu Kohärenzagenten geleitet werden. Ein virtueller Schnüffel(SNP)-Kanal kann für Schnüffler verwendet werden, und in einer Ausführungsform sind es die einzigen Nachrichten, die den virtuellen SNP-Kanal verwenden. Schnüffler können die NID des anfordernden Agenten und die RTID umfassen, die er Anforderung zuwies, falls die Schnüffelergebnisse in Daten direkt an den anfordernden Agenten gesendet werden. Schnüffler können in einer Ausführungsform auch die HTID umfassen, die durch den Home-Agenten zum Verarbeiten der Anforderung zugewiesen wurde. Der Kohärenzagent, der den Schnüffler verarbeitet, kann die HTID in die Schnüfflerantwort aufnehmen, die er an den Home-Agenten zurücksendet. Schnüffler umfassen die NID des Home-Agenten in einigen Fällen möglicherweise nicht, da sie aus der enthaltenen Adresse abgeleitet werden kann, was der Ziel-Kohärenzagent macht, wenn er seine Antwort sendet. Fanout-Schnüffler (jene mit dem Präfix „SnpF”) enthalten möglicherweise keine Ziel-NID, da die Routing-Schicht für das Erzeugen der entsprechenden Schnüffelnachrichten an alle Partner in der Fanout-Region zuständig ist. Eine beispielhafte Liste von Schnüffelkanalnachrichten ist in Tabelle 3 aufgeführt: TABELLE 3

Befehl	Semantik	Felder
SnpCode	Schnüffeln, um Daten im F- oder S-Zustand zu erhalten.	cmd, addr, destNID, reqNID, reqTID, homeTID
SnpData	Schnüffeln, um Daten im E-, F- oder S-Zustand zu erhalten.
SnpMigr	Schnüffeln, um Daten im M-, E-, F- oder S-Zustand zu erhalten.
SnpInv	Schnüffeln, um den Cache des Partners zu annullieren, Entleeren jeglicher M-Kopien in Speicher.
SnpInvOwn	Schnüffeln, um Daten im M- oder E-Zustand zu erhalten.
SnpCur	Schnüffeln, um einen nicht zwischenspeicherbaren Schnappschuss einer Cache-Zeile zu erhalten.
SnpFCode	Schnüffeln, um Daten im F- oder S-Zustand zu erhalten; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.	cmd, addr, reqNID, reqTID, homeTID
SnpFData	Schnüffeln, um Daten im E-, F- oder S-Zustand zu erhalten; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.
SnpFMigr	Schnüffeln, um Daten im M-, E-, F- oder S-Zustand zu erhalten; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.
SnpFInvOwn	Schnüffeln, um Daten im M- oder E-Zustand zu erhalten; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.
SnpFInv	Schnüffeln, um den Cache des Partners zu annullieren, Entleeren jeglicher M-Kopien in Speicher; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.
SnpCur	Schnüffeln, um einen nicht zwischenspeicherbaren Schnappschuss einer Cache-Zeile zu erhalten; Routingschicht wickelt Verteilung an alle Fanout-Partner ab.

Die HPI kann außerdem Nicht-Schnüffel-Anforderungen unterstützen, die sie an eine Adresse ausgeben können, wie beispielsweise jene, die als nichtkohärente Anforderungen implementiert werden. Beispiele solcher Anforderungen können unter anderen potenziellen Beispielen eine Nicht-Schnüffel-Leseoperation zum Anfordern einer Nur-Lese-Zeile aus dem Speicher, eine Nicht-Schnüffel-Schreiboperation zum Schreiben einer Zeile in den Speicher und ein Schreiben einer Zeile in den Speicher gemäß einer Maske umfassen.
In einem Beispiel können vier allgemeine Typen von Antwortnachrichten im HPI-Kohärenzprotokoll definiert sein: Daten, Fertigstellung, Schnüffeln und Weiterleitung. Bestimmte Datennachrichten können eine zusätzliche Fertigstellungsanzeige übertragen, und bestimmte Schnüfflerantworten können Daten übertragen. Antwortnachrichten können den virtuellen RSP-Kanal verwenden, und die Kommunikations-Fabric kann eine korrekte Nachrichtenlieferreihenfolge unter geordneten Fertigstellungsantworten und Weiterleitungsantworten aufrechterhalten.

Tabelle 4 umfasst eine Liste mindestens einiger potenzieller Antwortnachrichten, die durch ein beispielhaftes HPI-Kohärenzprotokoll unterstützt werden: TABELLE 4

Name	Semantik	Felder
Data_M	Daten sind im M-Zustand.	cmd, destNID, reqTID, data
Data_E	Daten sind im E-Zustand.
Data_F	Daten sind im F-Zustand.
Data_SI	Je nach der Anforderung sind Daten im S-Zustand oder nicht zwischenspeicherbare „Schnappschuss”-Daten.
Data_M	Daten sind im M-Zustand mit einer geordneten Fertigstellungsantwort.
Data_E	Daten sind im E-Zustand mit einer geordneten Fertigstellungsantwort.
Data_F	Daten sind im F-Zustand mit einer geordneten Fertigstellungsantwort.
Data_SI:	Je nach der Anforderung sind Daten im S-Zustand oder nicht zwischenspeicherbare „Schnappschuss”-Daten mit einer geordneten Fertigstellungsantwort.
CmpU	Fertigstellungsnachricht ohne Reihenfolgevorgaben.	cmd, destNID, reqTID
CmpO	Fertigstellungsantwort, die mit Weiterleitungsantworten geordnet werden soll.	cmd, destNID, reqTID
RspI	Cache ist im I-Zustand.	cmd, destNID, homeTID
RspS	Cache ist im S-Zustand.
RspFwd	Kopie von Cache-Zeile wurde an einen anfordernden Agenten gesendet, Cache-Zustand hat sich nicht geändert.
RspFwdI	Kopie von Cache-Zeile wurde an einen anfordernden Agenten gesendet, Cache geht in I-Zustand über.
RspFwdS	Kopie von Cache-Zeile wurde an einen anfordernden Agenten gesendet, Cache geht in S-Zustand über.
RspIWb	Modifizierte Zeile wird implizit in den Speicher zurückgeschrieben, Cache wurde in I-Zustand übergeführt.	cmd, destNID, homeTID, data
RspSWb	Modifizierte Zeile wird implizit in den Speicher zurückgeschrieben, Cache wurde in S-Zustand übergeführt.
RspFwdIWb	Modifizierte Zeile wird implizit in den Speicher zurückgeschrieben, Kopie von Cache-Zeile wurde an einen anfordernden Agenten gesendet, Cache wurde in I-Zustand übergeführt.
RspFwdSWb	Modifizierte Zeile wird implizit in den Speicher zurückgeschrieben, Kopie von Cache-Zeile wurde an einen anfordernden Agenten gesendet, Cache wurde in S-Zustand übergeführt.
RspCnflt	Partner hat eine unerledigte Anforderung für die gleiche Adresse, fordert eine geordnete Weiterleitungsantwort an und hat eine Ressource für die Weiterleitung zugewiesen.	cmd, destNID, homeTID, peerNID

In einem Beispiel können Datenantworten an einen anfordernden Kohärenzagenten gerichtet sein. Ein Home-Agent kann jede der Datenantworten senden. Ein Kohärenzagent kann nur Datenantworten senden, die keine geordnete Fertigstellungsanzeige enthalten. Außerdem können Kohärenzagenten darauf beschränkt sein, Datenantworten nur als Ergebnis der Verarbeitung einer Schnüffelanforderung zu senden. Kombinierte Daten- und Fertigstellungsantworten können immer vom Typ geordneter Fertigstellung sein und mit Weiterleitungsantworten durch die Kommunikations-Fabric geordnet gehalten werden.
Das HPI-Kohärenzprotokoll kann die allgemeine ungeordnete Fertigstellungsnachricht und eine kohärenzspezifische geordnete Fertigstellungsnachricht verwenden. Ein Home-Agent kann Fertigstellungsantworten auf kohärente Anforderungen senden, und Fertigstellungsantworten können typischerweise für einen Kohärenzagenten bestimmt sein. Die geordnete Fertigstellungsantwort kann mit Weiterleitungsantworten durch die Kommunikations-Fabric geordnet gehalten werden.
Schnüfflerantworten können durch Kohärenzagenten insbesondere in Reaktion auf das Verarbeiten einer Schnüffelanforderung gesendet werden und richten sich an den Home-Agenten, der die Schnüffelanforderung bearbeitet. Die destNID ist üblicherweise ein Home-Agent (bestimmt aus der Adresse in der Schnüffelanforderung), und die enthaltene TID ist für die Ressource des Home-Agenten, die zum Verarbeiten der Anforderung zugewiesen ist. Schnüfflerantworten mit „Wb” im Befehl sind für implizite Rückschreiboperationen von modifizierten Cache-Zeilen, und sie übertragen die Cache-Zeilendaten. (Implizite Rückschreiboperationen können jene umfassen, die ein Kohärenzagent infolge einer Anforderung eines anderen Agenten ausführt, während die anderen Anforderungen vom Kohärenzagenten unter Verwendung seiner Anforderungsressourcen explizit gestellt werden.)
Kohärenzagenten können eine Weiterleitungsanforderung erzeugen, wenn eine Schnüffelanforderung mit einer unerledigten Anforderung in Konflikt gerät. Weiterleitungsanforderungen richten sich an den Home-Agenten, der den Schnüffler erzeugte und der aus der Adresse in der Schnüfflerantwort bestimmt wird. Demnach ist die destNID ein Home-Agent. Die Weiterleitungsanforderung kann außerdem die TID für die Ressource des Home-Agenten, die zum Verarbeiten der Originalanforderung zugewiesen ist, und die NID des Kohärenzagenten umfassen, der die Weiterleitungsanforderung erzeugt.
Das HPI-Kohärenzprotokoll kann eine einzige Weiterleitungsantwort, FwdCnfltO, unterstützen. Home-Agenten können eine Weiterleitungsantwort für jede empfangene Weiterleitungsanforderung und an den Kohärenzagenten im peerNID-Feld der Weiterleitungsanforderung senden. Weiterleitungsantworten übertragen die Cache-Zeilenadresse, so dass der Kohärenzagent die Nachricht mit der Weiterleitungsressource vergleichen kann, die er zuwies. Eine Weiterleitungsantwortnachricht kann die NID des anfordernden Agenten übertragen, aber in einigen Fällen möglicherweise nicht die TID des anfordernden Agenten. Wenn ein Kohärenzagent Cache-zu-Cache-Übertragungen für Weiterleitungsantworten unterstützen möchte, kann er die TID des anfordernden Agenten speichern, wenn er den Schnüffler verarbeitet, und eine Weiterleitungsanforderung senden. Um Konfliktlösung zu unterstützen, kann die Kommunikations-Fabric eine Reihenfolge zwischen der Weiterleitungsantwort und allen geordneten Fertigstellungen aufrechterhalten, die davor an den gleichen Ziel-Kohärenzagenten gesendet wurden.
In einigen Systemen werden Home-Agent-Ressourcen im Voraus zugewiesen, insofern als „RTIDs” Ressourcen in den Home-Agenten darstellen und die Caching-Agenten RTIDs aus systemkonfigurierten Pools zuweisen, wenn sie neue Kohärenzanforderungen erzeugen. Solche Schemata können die Anzahl von aktiven Anforderungen, die jeder Caching-Agent für einen Home-Agenten haben kann, auf die Anzahl von RTIDs begrenzen, die ihm vom System verliehen wurden, wodurch Home-Ressourcen unter Caching-Agenten effektiv statisch aufgeteilt werden. Solche Schemata können zu einer ineffizienten Zuweisung von Ressourcen führen, und unter anderen potenziellen Problemen kann das korrekte Bemessen eines Home-Agenten zum Unterstützen von Anforderungsdurchsatz für große Systeme unpraktisch werden. Solche Schemata können zum Beispiel RTID-Poolverwaltung an den Caching-Agenten erzwingen. Außerdem verwendet in einigen Systemen ein Caching-Agent die RTID möglicherweise nicht wieder, bis der Home-Agent die Transaktion vollständig verarbeitet hat. Das Warten, bis ein Home-Agent die gesamte Verarbeitung abschließt, kann Caching-Agenten jedoch unnötig drosseln. Außerdem können bestimmte Flüsse im Protokoll u. a. mit sich bringen, dass Caching-Agenten RTIDs über die Benachrichtigung der Freigabe des Home-Agenten hinaus festhalten, wodurch ihre Leistung weiter gedrosselt wird.
In einer Implementierung kann es Home-Agenten erlaubt werden, ihre Ressourcen zuzuweisen, wenn Anforderungen von Cache-Agenten ankommen. In solchen Fällen kann die Home-Agent-Ressourcenverwaltung von der Kohärenzagentenlogik getrennt gehalten werden. In einigen Implementierungen können Home-Ressourcenverwaltung und Kohärenzagentenlogik wenigstens teilweise vermischt sein. In einigen Fällen können Kohärenzagenten mehr unerledigte Anforderungen für einen Home-Agenten haben, als der Home-Agent gleichzeitig bearbeiten kann. Zum Beispiel kann die HPI erlauben, dass Anforderungen in der Kommunikations-Fabric eine Warteschlange bilden. Das HPI-Kohärenzprotokoll kann ferner so konfiguriert sein, dass es zum Vermeiden von Blockierungen, die dadurch verursacht werden, dass der Home-Agent eingehende Anforderungen blockiert, bis Ressourcen verfügbar werden, sicherstellt, dass andere Nachrichten um die blockierten Anforderungen herum fortschreiten können, um zu gewährleisten, dass aktive Transaktionen Fertigstellung erreichen.
In einem Beispiel kann Ressourcenverwaltung unterstützt werden, indem einem Agenten, der eine Anforderung empfängt, erlaubt wird, Ressourcen zu ihrer Verarbeitung zuzuweisen, wobei der Agent die Anforderung unter Zuweisung entsprechender Ressourcen für alle Antworten auf die Anforderung sendet. Die RTID kann die Ressource darstellen, die ein Home-Agent für eine bestimmte Anforderung zuweist, die in einigen Protokollnachrichten enthalten ist. Die RTID (zusammen mit der RNID/RTID) in Schnüffelanforderungen und Weiterleitungsantworten kann u. a. verwendet werden, um Antworten für einen Home-Agenten sowie Datenweiterleitung an einen anfordernden Agenten zu unterstützen. Ferner kann HPI die Fähigkeit eines Agenten unterstützen, eine geordnete Fertigstellung (CmpO) früh, d. h. bevor der Home-Agent die Verarbeitung der Anforderung abgeschlossen hat, zu senden, wenn bestimmt wird, dass es für einen anfordernden Agenten sicher ist, seine RTID-Ressource wiederzuverwenden. Die allgemeine Handhabung von Schnüfflern mit ähnlicher RNID/RTID kann ebenfalls durch das Protokoll definiert werden.
In einem veranschaulichenden Beispiel kann, wenn ein Tracker-Zustand einer bestimmten Anforderung „beschäftigt” ist, ein Verzeichniszustand verwendet werden, um zu bestimmen, wann der Home-Agent eine Antwort senden kann. Zum Beispiel kann ein Verzeichniszustand „Ungültig” das Senden einer Antwort mit Ausnahme für RdCur-Anforderungen erlauben, was anzeigt, dass es keine unerledigten Schnüfflerantworten gibt. Ein Verzeichniszustand „Unbekannt” kann vorschreiben, dass alle Partner-Agenten beschnüffelt und alle ihre Antworten gesammelt wurden, bevor eine Antwort gesendet werden kann. Der Verzeichniszustand „Exklusiv” kann vorschreiben, dass der Eigentümer beschnüffelt wird und alle Antworten gesammelt werden, bevor eine Antwort gesendet wird, oder dass dann, wenn der anfordernde Agent der Eigentümer ist, unverzüglich eine Antwort gesendet werden kann. Der Verzeichniszustand „Gemeinsam/Geteilt” kann spezifizieren, dass eine annullierende Anforderung (z. B. RdInv* oder Inv*) alle Partner-Agenten beschnüffelt und alle Schnüfflerantworten gesammelt hat. Wenn ein Tracker-Zustand einer bestimmten Anforderung „rückschreibgepuffert” (WbBuffered) ist, kann der Home-Agent eine Datenantwort senden. Wenn der Tracker-Zustand der Anforderung „DataSent” (was anzeigt, dass der Home-Agent bereits eine Datenantwort gesendet hat) oder „DataXfrd” (was anzeigt, dass ein Partner eine Kopie der Zeile übertragen hat) ist, kann der Home-Agent die Fertigstellungsantwort senden.
In solchen Fällen, wie den zuvor beschriebenen, kann ein Home-Agent Daten- und Fertigstellungsantworten senden, bevor alle Schnüfflerantworten gesammelt wurden. Die HPI-Schnittstelle ermöglicht diese „frühen” Antworten. Wenn Daten und Fertigstellungen früh gesendet werden, kann der Home-Agent alle unerledigten Schnüfflerantworten sammeln, bevor er die Ressource freigibt, die er für die Anforderung zuwies. Der Home-Agent kann außerdem fortfahren, weitere Standardanforderungen an die gleiche Adresse zu blockieren, bis alle Schnüfflerantworten gesammelt wurden, und dann die Ressource freigeben. Ein Home-Agent, der eine Antwortnachricht aus einem Zustand „Busy” (beschäftigt) oder „WbBuffered” (rückschreibgepuffert) sendet, kann u. a. eine Teilaktionstabelle (die z. B. in einem Satz von Protokolltabellen enthalten ist, welche die formelle Spezifikation des HPI-Kohärenzprotokolls verkörpern) dafür verwenden, welche Nachricht gesendet werden soll, und eine Teilaktionstabelle dafür verwenden, wie der Verzeichnungszustand aktualisiert werden soll. In einigen Fällen kann eine frühe Fertigstellung ohne Vorauszuweisung durch einen Home-Knoten durchgeführt werden.
In einer Ausführungsform kann das HPI-Kohärenzprotokoll entweder die Verwendung von im Voraus zugewiesenen Home-Ressourcen oder geordneten Anforderungskanälen oder sowohl als auch weglassen. In solchen Implementierungen können bestimmte Nachrichten auf dem HPI-RSP-Kommunikationskanal geordnet sein. Zum Beispiel können insbesondere „geordnete Fertigstellungs”- und „Weiterleitungsantwort”-Nachrichten bereitgestellt werden, die vom Home-Agenten an den Kohärenzagenten gesendet werden können. Home-Agenten können eine geordnete Fertigstellung (CmpO oder Data_*_CmpO) für alle kohärenten Lese- und Annullierungsanforderungen (sowie andere Anforderungen, wie beispielsweise NonSnpRd-Anforderungen, die nicht an Cache-Kohärenzkonflikten beteiligt sind) senden.
Home-Agenten können Weiterleitungsantworten (FwdCnfltO) an Kohärenzagenten senden, welche Weiterleitungsanforderungen (RspCnflt) senden, um Konflikte anzuzeigen. Ein Kohärenzagent kann eine Weiterleitungsanforderung erzeugen, wann immer er eine unerledigte Lese- oder Annullierungsanforderung aufweist und eine eingehende Schnüffelanforderung für die gleiche Cache-Zeile wie die Anforderung erkennt. Wenn der Kohärenzagent die Weiterleitungsantwort empfängt, überprüft er den aktuellen Zustand der unerledigten Anforderung, um zu bestimmen, wie der Originalschnüffler verarbeitet werden soll. Der Home-Agent kann die Weiterleitungsantwort so senden, dass sie mit einer Fertigstellung (z. B. CmpO oder Data_*_CmpO) geordnet wird. Der Kohärenzagent kann Informationen verwenden, die im Schnüffler enthalten sind, um dem Kohärenzagenten beim Verarbeiten einer Weiterleitungsantwort zu helfen. Zum Beispiel kann eine Weiterleitungsantwort jeden „Typ” von Information und keine RTID umfassen. Die Beschaffenheit der Weiterleitungsantwort kann von Informationen abgeleitet werden, die aus dem bzw. den vorhergehenden Schnüffler(n) erhalten werden. Ferner kann ein Kohärenzagent unerledigte Schnüffelanforderungen blockieren, wenn alle seine „Weiterleitungsressourcen” auf Weiterleitungsantworten warten. In einigen Implementierungen kann jeder Kohärenzagent so ausgelegt sein, dass er mindestens eine Weiterleitungsressource aufweist.
In einigen Implementierungen können Kommunikations-Fabric-Vorgaben auf der Routingschicht sein. In einer Ausführungsform kann das HPI-Kohärenzprotokoll eine Kommunikations-Fabric-Vorgabe aufweisen, die für die Routingschicht spezifisch ist. Das Kohärenzprotokoll kann von der Routingschicht abhängen, um einen Fanout-Schnüffler (SnpF* Opcodes – Schnüffel(SNP)-Kanalnachrichten”) in die entsprechenden Schnüffler für alle Partner der Anforderung im Fanout-Satz von Kohärenzagenten umzuwandeln. Der Fanout-Satz ist ein Konfigurationsparamater der Routingschicht, der mit der Protokollschicht gemeinsam benutzt wird. In dieser Kohärenzprotokollspezifikation wird er als Home-Agent-Konfigurationsparameter beschrieben.
In einigen vorstehenden Implementierungen kann das HPI-Kohärenzprotokoll vier der virtuellen Kanäle verwenden: REQ, WB, SNP und RSP. Die virtuellen Kanäle können verwendet werden, um Abhängigkeitszyklen rückgängig zu machen und Blockierungen zu vermeiden. In einer Ausführungsform kann jede Nachricht ohne Duplizierung auf allen virtuellen Kanälen und Reihenfolgevorgaben auf dem virtuellen RSP-Kanal geliefert werden.
In einigen Ausführungsformen kann die Kommunikations-Fabric so konfiguriert sein, dass sie eine Reihenfolge unter bestimmten Fertigstellungsnachrichten und der FwdCnfltO-Nachricht bewahrt. Die Fertigstellungsnachrichten sind die CmpO-Nachricht und jede Datennachricht mit CmpO angehängt (Data_*_CmpO). Zusammen sind alle dieser Nachrichten die „geordneten Fertigstellungsantworten”. Die konzeptionelle Vorgabe zwischen geordneten Fertigstellungsantworten und der FwdCnfltO-Nachricht ist, dass eine FwdCnfltO eine geordnete Fertigstellung nicht „überholt”. Genauer gesagt liefert die Kommunikations-Fabric unter anderen potenziellen Beispielen die geordnete Fertigstellungsantwort vor der FwdCnfltO, wenn ein Home-Agent eine geordnete Fertigstellungsantwort sendet, auf die eine FwdCnfltO-Nachricht folgt, und beide Nachrichten für den gleichen Kohärenzagenten bestimmt sind.
Es versteht sich von selbst, dass, obwohl einige Beispiele des Protokollflusses hierin offenbart werden, die beschriebenen Beispiele lediglich dazu dienen, ein intuitives Gefühl für das Protokoll zu vermitteln, und nicht unbedingt alle möglichen Szenarios und Verhaltensmöglichkeiten erfassen, die das Protokoll aufweisen kann.
Ein Konflikt kann auftreten, wenn Anforderungen an die gleiche Cache-Zeilenadresse von mehr als einem Kohärenzagenten etwa um dieselbe Zeit stattfinden. Als ein spezifisches Beispiel kann ein Konflikt auftreten, wenn ein Schnüffler für eine Standardanforderung eines Kohärenzagenten bei einem Partner-Kohärenzagenten mit einer unerledigten Anforderung für die gleiche Adresse ankommt. Da jeder Schnüffler zu einem Konflikt führen kann, kann eine einzige Anforderung mehrere Konflikte aufweisen. Das Lösen von Konflikten kann eine koordinierte Bemühung zwischen dem Home-Agenten, den Kohärenzagenten und der Kommunikations-Fabric sein. Die Hauptverantwortung liegt jedoch bei den Kohärenzagenten, welche in Konflikt stehende Schnüffler erkennen.
In einer Ausführungsform können Home-Agenten, Kohärenzagenten und die Kommunikations-Fabric so konfiguriert sein, dass sie zum erfolgreichen Lösen von Konflikten beitragen. Zum Beispiel können Home-Agenten unerledigte Schnüffler für nur jeweils eine Anforderung pro Adresse haben, derart dass ein Home-Agent für eine bestimmte Adresse möglicherweise nur für eine Anforderung unerledigte Schnüffler aufweist. Dies kann dazu dienen, die Möglichkeit von Wettlaufsituationen auszuschließen, in welche zwei miteinander in Konflikt stehende Anforderungen verwickelt werden. Es kann außerdem sicherstellen, dass ein Kohärenzagent keinen anderen Schnüffler für die gleiche Adresse sieht, nachdem er einen Konflikt zwar erkannt, aber noch nicht gelöst hat.
In einem anderen Beispiel kann ein Kohärenzagent, wenn er einen Schnüffler mit einer Adresse verarbeitet, die einer aktiven Standardanforderung entspricht, eine Weiterleitungsressource zuweisen und sendet eine Weiterleitungsanforderung an den Home-Agenten. Ein Kohärenzagent mit einer unerledigten Standardanforderung, der einen Schnüffler für die gleiche Adresse empfängt, kann mit einer RspCnflt-Schnüfflerantwort antworten. Diese Antwort kann eine Weiterleitungsanforderung an den Home-Agenten sein. Da die Nachricht eine Anforderung ist, kann der Kohärenzagent, bevor er sie sendet, eine Ressource zum Verarbeiten der Antwort zuweisen, die der Home-Agent sendet. (Das Kohärenzprotokoll erlaubt in einigen Fällen ein Blockieren von in Konflikt stehenden Schnüfflern, wenn der Kohärenzagent keine Weiterleitungsressourcen mehr hat.) Der Kohärenzagent kann Informationen über den in Konflikt stehenden Schnüffler speichern, um sie beim Verarbeiten der Weiterleitungsantwort zu verwenden. Es kann garantiert werden, dass ein Kohärenzagent nach dem Erkennen eines Konflikts und bis zur Verarbeitung der Weiterleitungsantwort keinen anderen Schnüffler für die gleiche Adresse sieht.
In einigen Beispielen zeichnet ein Home-Agent die Schnüfflerantwort nicht auf, wenn er eine Weiterleitungsantwort empfängt. Stattdessen kann der Home-Agent eine Weiterleitungsantwort an den in Konflikt stehenden Kohärenzagenten senden. Eine Weiterleitungsanforderung (RspCnflt) sieht in einem Beispiel wie eine Schnüfflerantwort aus, aber der Home-Agent behandelt sie nicht als solche. Er zeichnet die Nachricht nicht als eine Schnüfflerantwort auf, sondern sendet stattdessen eine Weiterleitungsantwort. Insbesondere sendet der Home-Agent für jede Weiterleitungsanforderung (RspCnflt), die er empfängt, eine Weiterleitungsantwort (FwdCnfltO) an den anfordernden Kohärenzagenten.
Die HPI-Kommunikations-Fabric ordnet Weiterleitungsantworten und geordnete Fertigstellungen zwischen dem Home-Agenten und dem Ziel-Kohärenzagenten. Die Fabric kann dadurch dazu dienen, einen frühen Konflikt von einem späten Konflikt an dem in Konflikt stehenden Kohärenzagenten zu unterscheiden. Aus der Perspektive der Systemebene tritt ein früher Konflikt auf, wenn ein Schnüffler eine Anforderung findet, die der Home-Agent noch nicht verarbeitet hat, und ein später Konflikt tritt auf, wenn ein Schnüffler eine Anforderung findet, die der Home-Agent bereits verarbeitet hat. Aus der Perspektive eines Home-Agenten ist ein früher Konflikt, wenn ein Schnüffler für die gegenwärtig aktive Anforderung eine Anforderung findet, die der Home-Agent noch nicht empfangen oder zu verarbeiten begonnen hat, und ein später Konflikt ist, wenn ein Schnüffler eine Anforderung findet, die er bereits verarbeitet hat. Mit anderen Worten weist ein später Konflikt eine Anforderung auf, für welche der Home-Agent bereits eine Fertigstellungsantwort gesendet hat. Wenn daher ein Home-Agent eine Weiterleitungsanforderung für einen späten Konflikt empfängt, hat er bereits die Fertigstellungsantwort für die unerledigte Anforderung des in Konflikt stehenden Agenten gesendet. Durch Ordnen der Weiterleitungsantworten und geordneten Fertigstellungsantworten vom Home-Agenten an den Kohärenzagenten kann der Kohärenzagent durch den Verarbeitungszustand seiner in Konflikt stehenden Anforderung bestimmen, ob der Konflikt früh oder spät war.
Wenn ein Kohärenzagent eine Weiterleitungsantwort empfängt, verwendet er den Zustand seiner in Konflikt stehenden Anforderung, um zu bestimmen, ob der Konflikt früh oder spät war und wann der Originalschnüffler verarbeitet werden soll. Aufgrund der Reihenfolgevorgabe der Kommunikations-Fabric zeigt der Zustand der in Konflikt stehenden Anforderung an, ob der Konflikt früh oder spät war. Wenn der Anforderungszustand anzeigt, dass die Fertigstellung empfangen wurde, dann war es ein später Konflikt, andernfalls war es ein früher Konflikt. Wenn dagegen der Anforderungszustand anzeigt, dass die Anforderung noch auf ihre Antwort(en) wartet, dann war es ein früher Konflikt, andernfalls war es ein später Konflikt. Der Konflikttyp bestimmt, wann der Schnüffler verarbeitet werden soll: Aus der Perspektive eines Kohärenzagenten bedeutet ein früher Konflikt, dass der Schnüffler für eine Anforderung ist, die vor der in Konflikt stehenden Anforderung des Agenten verarbeitet wird, und ein später Konflikt bedeutet, dass der Schnüffler für eine Anforderung ist, die nach der in Konflikt stehenden Anforderung des Agenten verarbeitet wird. Angesichts dieser Reihenfolge verarbeitet der Kohärenzagent für einen frühen Konflikt den Originalschnüffler unverzüglich; und für einen späten Konflikt wartet der Kohärenzagent, bis die in Konflikt stehende Anforderung ihre Daten (für Leseoperationen) empfangen hat und sein Prozessor eine Gelegenheit hatte, auf die abgeschlossene Anforderung vor der Verarbeitung des Schnüfflers einzuwirken. Wenn der in Konflikt stehende Schnüffler verarbeitet wird, erzeugt der Kohärenzagent eine Schnüfflerantwort für den Home-Agenten zum endgültigen Aufzeichnen.
Alle Konflikte mit Rückschreibanforderungen können späte Konflikte sein. Ein später Konflikt aus der Perspektive des Kohärenzagenten ist, wenn die Anforderung des Agenten vor der Anforderung des Schnüfflers verarbeitet wird. Durch diese Definition können alle Konflikte mit Rückschreibanforderungen als späte Konflikte behandelt werden, da die Rückschreiboperation zuerst verarbeitet wird. Andernfalls könnten Datenkonsistenz und -kohärenz verletzt werden, wenn der Home-Agent die Anforderung verarbeiten würde, bevor das Rückschreiben in den Speicher erfolgt. Da alle Konflikte mit Rückschreiboperationen als späte Konflikte gelten, können Kohärenzagenten so konfiguriert sein, dass sie in Konflikt stehende Schnüffler blockieren, bis eine unerledigte Rückschreibanforderung fertiggestellt ist. Ferner können Rückschreiboperationen auch die Verarbeitung von Weiterleitungen blockieren. Das Blockieren von Weiterleitungen durch eine aktive Rückschreiboperation kann u. a. auch als eine Protokollvorgabe zum Unterstützen von nicht zwischenspeicherbaren Speicherungen implementiert werden.
Wenn ein Kohärenzagent eine Anforderung zum Beschnüffeln seines Caches empfängt, kann er zuerst überprüfen, ob das Kohärenzprotokoll es erlaubt, und dann den Schnüffler verarbeiten und eine Antwort erzeugen. Eine oder mehrere Zustandstabellen können innerhalb eines Satzes von Zustandstabellen definiert werden, der die Protokollspezifikation definiert. Eine oder mehrere Zustandstabellen können spezifizieren, wann ein Kohärenzagent einen Schnüffler verarbeiten kann und ob er den Cache beschnüffelt oder stattdessen eine in Konflikt stehende Weiterleitungsanforderung erzeugt. In einem Beispiel gibt es zwei Bedingungen, unter welchen ein Kohärenzagent einen Schnüffler verarbeitet. Die erste Bedingung ist, wenn der Kohärenzagent eine REQ-Anforderung (Rd* oder Inv*) für die Schnüffeladresse hat, und er eine verfügbare Weiterleitungsressource aufweist. In diesem Fall muss der Kohärenzagent eine Weiterleitungsanforderung (RspCnflt) erzeugen. Die zweite Bedingung ist, dass der Kohärenzagent keine REQ-, Wb*- oder EvctCln-Anforderung für die Schnüffeladresse hat. Eine Zustandstabelle kann definieren, wie ein Kohärenzagent den Schnüffler gemäß diesen jeweiligen Bedingungen verarbeiten soll. In einem Beispiel unter anderen Bedingungen kann der Kohärenzagent den Schnüffler blockieren, bis entweder eine Weiterleitungsressource verfügbar wird (erste Bedingung) oder die blockierende Wb* oder EvctCln ihre CmpU-Antwort empfängt (zweite Bedingung). Es ist zu erwähnen, dass NonSnp*-Anforderungen die Schnüfflerverarbeitung möglicherweise nicht beeinflussen, und ein Kohärenzagent NonSnp*-Einträge außer Acht lassen kann, wenn er bestimmt, wie ein Schnüffler verarbeitet oder blockiert werden soll.
Beim Erzeugen einer Weiterleitungsanforderung kann ein Kohärenzagent eine Ressource für die Weiterleitungsantwort reservieren. Das HPI-Kohärenzprotokoll erfordert in einem Beispiel möglicherweise keine Mindestanzahl von Weiterleitungsantwortressourcen (über das Aufweisen mindestens einer hinaus), und kann es einem Kohärenzagenten erlauben, Schnüffler zu blockieren, wenn er keine Weiterleitungsantwortressourcen verfügbar hat.
Wie ein Kohärenzagent einen Schnüffler in seinem Cache verarbeitet, kann vom Schnüfflertyp und dem aktuellen Cache-Zustand abhängen. Für einen bestimmten Schnüfflertyp und Cache-Zustand kann es jedoch viele erlaubte Antworten geben. Zum Beispiel kann ein Kohärenzagent mit einer voll modifizierten Zeile, der eine nicht in Konflikt stehende SnpMigr empfängt (oder nach einer SnpMigr eine Weiterleitungsantwort verarbeitet), unter anderen potenziellen Beispielen beliebiges von Folgendem durchführen: Herunterstufen auf S, Senden von impliziter Rückschreiboperation an Home und Data_F an Requester; Herunterstufen auf S, Senden von impliziter Rückschreiboperation an Home; Herunterstufen auf I, Senden von Data_M an Requester; Herunterstufen auf I, Senden von impliziter Rückschreiboperation an Home und Data_E an Requester; Herunterstufen auf I, Senden von impliziter Rückschreiboperation an Home.
Das HPI-Kohärenzprotokoll erlaubt es einem Kohärenzagenten, modifizierte Zeilen mit partiellen Masken in seinem Cache zu speichern. Alle Reihen für M-Kopien können eine volle oder leere Maske erfordern. Das HPI-Kohärenzprotokoll kann in einem Beispiel implizites Rückschreiben von partiellen Zeilen beschränken. Ein Kohärenzagent, der eine partielle M-Zeile infolge einer Schnüffelanforderung (oder einer Weiterleitungsantwort) entfernen möchte, kann zuerst eine explizite Rückschreiboperation initiieren und den Schnüffler (oder die Weiterleitung) blockieren, bis die explizite Rückschreiboperation fertiggestellt ist.
Speichern von Informationen für Weiterleitungsantworten: Das HPI-Kohärenzprotokoll erlaubt es einem Kohärenzagenten in einem Beispiel, Weiterleitungsantwortinformationen getrennt vom Puffer für abgehende Anforderungen (ORB für engl. outgoing request buffer) zu speichern. Das Trennen von Informationen ermöglicht es dem ORB, ORB-Ressourcen und RTID freizugeben, wenn alle Antworten gesammelt sind, ungeachtet des Eintrags, der an einem Konflikt beteiligt ist. Zustandstabellen können verwendet werden, um zu spezifizieren, welche Informationen für Weiterleitungsantworten und unter welchen Bedingungen gespeichert werden sollen.
Weiterleitungsantworten im HPI-Kohärenzprotokoll können die Adresse, die NID des anfordernden Agenten und die Home-TID enthalten. Sie enthält weder den Originalschnüfflertyp noch die RTID. Ein Kohärenzagent kann den Weiterleitungstyp und die RTID speichern, wenn er wünscht, sie mit der Weiterleitungsantwort zu verwenden, und er kann die Adresse verwenden, um die eingehende Weiterleitungsantwort mit dem passenden Weiterleitungseintrag zu vergleichen (und die Home-NID zu erzeugen). Das Speichern des Weiterleitungstyps kann optional sein. Wenn kein Typ gespeichert ist, kann der Kohärenzagent eine Weiterleitungsantwort als einen FwdInv-Typ aufweisend behandeln. Gleichermaßen kann das Speichern der RTID optional sein und nur dann erfolgen, wenn der Kohärenzagent beim Verarbeiten von Weiterleitungsantworten Cache-zu-Cache-Übertragungen unterstützen soll.
Wie bereits erwähnt, können Kohärenzagenten eine Weiterleitungsanforderung erzeugen, wenn eine Schnüffelanforderung mit einer unerledigten Anforderung in Konflikt gerät. Weiterleitungsanforderungen richten sich an den Home-Agenten, der den Schnüffler erzeugte und der aus der Adresse in der Schnüfflerantwort bestimmt werden kann. Demnach kann die destNID einen Home-Agenten identifizieren. Die Weiterleitungsanforderung kann außerdem die TID für die Ressource des Home-Agenten, die zum Verarbeiten der Originalanforderung zugewiesen ist, und die NID des Kohärenzagenten umfassen, der die Weiterleitungsanforderung erzeugt.
In einer Ausführungsform kann ein Kohärenzagent Weiterleitungen für Rückschreibanforderungen blockieren, um die Datenkonsistenz aufrechtzuerhalten. Kohärenzagenten können eine Rückschreibanforderung auch verwenden, um einen Commit für nicht zwischenspeicherbare (UC) Daten vor dem Verarbeiten einer Weiterleitung auszuführen, und dem Kohärenzagenten erlauben, partielle Cache-Zeilen statt des Protokolls zurückzuschreiben, das eine partielle implizite Rückschreiboperation für Weiterleitungen unterstützt. In der Tat kann es einem Kohärenzagenten in einer Ausführungsform erlaubt werden, modifizierte Zeilen mit partiellen Masken in seinem Cache zu speichern (obwohl M-Kopien eine volle oder leere Maske umfassen sollen).
In einem Beispiel können frühe Konflikte durch eine Weiterleitungsantwort gelöst werden, die auf eine unerledigte Standardanforderung trifft, bevor sie irgendeine Antwort empfangen hat. Eine entsprechende Protokollzustandstabelle kann in einem Beispiel spezifizieren, dass eine Weiterleitungsantwort verarbeitet werden kann, solange der Standardanforderungseintrag noch im ReqSent-Zustand ist. Späte Konflikte können durch eine Weiterleitungsantwort gelöst werden, die ankommt, nachdem die unerledigte Anforderung ihre Fertigstellungsantwort empfangen hat. Wenn dies geschieht, ist entweder die Anforderung abgeschlossen (hat bereits ihre Daten empfangen oder war eine Inv*-Anforderung) oder der Eintrag ist in seinem RcvdCmp-Zustand. Wenn die Anforderung noch auf ihre Daten wartet, dann muss der Kohärenzagent die Weiterleitung blockieren, bis die Daten empfangen (und verwendet) werden. Wenn die in Konflikt stehende Rd*- oder Inv*-Anforderung abgeschlossen ist, dann kann die Weiterleitungsantwort verarbeitet werden, solange der Kohärenzagent kein explizites Rückschreiben der Cache-Zeile initiiert hat. Es kann für einen Kohärenzagenten zulässig sein, eine explizite Rückschreiboperation zu initiieren, während er eine Weiterleitungsantwort (oder Schnüffelanforderung) für die gleiche Adresse hat, wodurch ermöglicht wird, dass partielle Zeilen (z. B. Schnüffelanforderungen für teilweise modifizierte Zeilen) oder nicht zwischenspeicherbare Speicherungen korrekt in den Speicher geschrieben werden.
Unter Hinwendung zu 7 ist ein erstes Beispiel eines beispielhaften Konflikthandhabungsschemas veranschaulicht. Ein erster Cache(oder Kohärenz)-Agent 705 kann eine Leseanforderung für eine bestimmte Zeile von Daten an einen Home-Agenten 710 senden, was zu einem Lesen von Speicher 715 führt. Kurz nach der Leseanforderung durch den Cache-Agenten 705 stellt ein anderer Cache-Agent 720 eine Anforderung auf Eigentum (RFO für engl. request for ownership) an der gleichen Zeile. Der Home-Agent 710 hat die Data_S_CmpO jedoch vor Empfang der RFO vom Cache-Agenten 720 an den ersten Cache-Agenten 705 gesendet. Die RFO kann dazu führen, dass ein Schnüffler (SnpFO) an den Cache-Agenten 705 (sowie an andere Cache-Agenten) gesendet wird, wobei der Schnüffler durch den ersten Cache-Agenten 705 vor dem Empfangen der Fertigstellungsnachricht Data_S_CmpO empfangen wird. Der Cache-Agent 705 kann bei Empfang des Schnüfflers SnpO einen potenziellen Konflikt identifizieren, der die in seiner Original-Leseanforderung angeforderte Speicherzeile einbezieht, und den Home-Agenten 710 durch Antworten auf den SnpO mit einer Weiterleitungsantwortkonfliktnachricht (RspCnflt) von dem Konflikt benachrichtigen. Der Home-Agent 710 kann auf die Weiterleitungsantwort RspCnflt durch Senden einer Weiterleitungsantwort (FwdCnfltO) antworten. Der Cache-Agent 705 kann dann die Geteilte-Daten-Fertig-Nachricht Data_S_CmpO empfangen und von einem I-Zustand in einen S-Zustand übergehen. Die Weiterleitungsantwort FwdCnfltO kann dann durch den Cache-Agenten 705 empfangen werden, und der Cache-Agent 705 kann basierend auf dem Schnüffler SnpFO, der das Senden der Weiterleitungsantwort RspCnflt ausgelöst hat, bestimmen, wie auf die Weiterleitungsantwortnachricht FwdClfltO geantwortet werden soll. In diesem Beispiel kann der Cache-Agent 705 zum Beispiel eine Protokollzustandstabelle konsultieren, um eine Antwort auf die Weiterleitungsantwortnachricht FwdClftO zu bestimmen. In dem konkreten Beispiel von 7 kann der Cache-Agent 705 in einen F-Zustand übergehen und die S-Kopie der Daten, die er vom Home-Agenten 710 in der Data_S_CmpO-Nachricht empfangen hat, in einer Data_F-Nachricht an den zweiten Cache-Agenten 720 senden. Der erste Cache-Agent 705 kann außerdem eine Antwortnachricht RspFwdS an den Home-Agenten 710 senden, die den Home-Agenten 710 benachrichtigt, dass der erste Cache-Agent seine Kopie der Daten mit dem zweiten Cache-Agenten geteilt hat.
In einem anderen veranschaulichenden Beispiel, das im vereinfachten Flussdiagramm von 8 dargestellt ist, kann der erste Cache-Agent 705 eine Anforderung auf Eigentum (RFO) an einer bestimmten Zeile des Speichers an den Home-Agenten 710 senden. Kurz danach kann ein zweiter Agent eine RdInvOwn-Nachricht als eine Anforderung für die gleiche Zeile des Speichers in einem M-Zustand an den Home-Agenten 710 senden. In Verbindung mit der RFO-Nachricht vom ersten Cache-Agenten 705 kann der Home-Agent 710 einen Schnüffler (SnpFO) an den zweiten Cache-Agenten 720 senden, den der zweite Cache-Agent 720 als möglichen Konflikt identifizieren kann, der die Speicherzeile einbezieht, die sowohl den RFO- als auch RdInvOwn-Anforderungen ausgesetzt ist. Demgemäß kann der zweite Cache-Agent 720 eine Weiterleitungsanforderung RspCnflt an den Home-Agenten 720 senden. Der Home-Agent 720 antwortet auf die Weiterleitungsanforderung des zweiten Cache-Agenten 720 mit einer Weiterleitungsantwort. Der zweite Cache-Agent 720 bestimmt eine Antwort auf die Weiterleitungsantwort basierend auf Informationen, die im Originalschnüffler SnpFO enthalten sind. In diesem Beispiel antwortet der zweite Cache-Agent 720 mit einer Schnüfflerantwort RspI, welche anzeigt, dass der zweite Cache-Agent 720 in einem I-Zustand ist. Der Home-Agent 710 empfängt die Schnüfflerantwort RspI und bestimmt, dass es angebracht ist, die Daten-Fertig-Exklusiv-Nachricht (Data_E_CmpO) an den ersten Cache-Agenten 705 zu senden, was bewirkt, dass der erste Cache-Agent in einen E-Zustand übergeht. Nach dem Senden der Fertigstellung kann der Home-Agent 710 dann mit dem Beantworten der RdInvOwn-Anforderung des zweiten Cache-Agenten beginnen, wobei er mit einer Schnüffelanforderung SnpInvO des ersten Cache-Agenten 705 beginnt. Der erste Cache-Agent 705 kann identifizieren, dass der Schnüffler zu einer Anforderung durch den zweiten Cache-Agenten 720 führt, um eine exklusive M-Zustands-Kopie der Zeile zu erhalten. Folglich geht der erste Cache-Agent 705 in den M-Zustand über, um seine Kopie der Zeile als eine M-Zustands-Kopie (mit einer Data_M-Nachricht) an den zweiten Cache-Agenten 720 zu senden. Außerdem sendet der erste Cache-Agent 705 auch eine Antwortnachricht RspFwdI, um anzuzeigen, dass die Kopie der Zeile an den zweiten Cache-Agenten 720 gesendet wurde und dass der erste Cache-Agent in einen I-Zustand übergegangen ist (und das Eigentum an der Kopie an den zweiten Cache-Agenten 720 abgegeben hat).
Als Nächstes ist unter Hinwendung zu 9 ein anderes vereinfachtes Flussdiagramm dargestellt. In diesem Beispiel versucht ein Cache-Agent 720, exklusives Eigentum an einer nicht zwischenspeicherbaren (UC) Zeile ohne Empfangen von Daten (z. B. durch eine InvItoE-Nachricht) anzufordern. Ein erster Cache-Agent 705 sendet eine konkurrierende Nachricht (RdInv) für die Cache-Zeile im E-Zustand. Das HPI-Kohärenzprotokoll kann spezifizieren, dass, wenn die angeforderte Zeile vorher im M-Zustand zwischengespeichert wurde, die Zeile in den Speicher geschrieben wird, bevor E-Daten in Reaktion auf die RDInv des ersten Cache-Agenten 705 geliefert werden. Der Home-Agent 710 kann eine Fertigstellungsnachricht (CmpO) an die InvItoE-Anforderung senden und einen Schnüffler (SnpInv) basierend auf der RdInv-Anforderung an den Cache-Agenten 720 senden. Wenn der Cache-Agent 720 den Schnüffler vor der Fertigstellungsnachricht empfängt, kann der Cache-Agent 720 identifizieren, dass der Schnüffler die gleiche Cache-Zeile betrifft wie seine Anforderung des exklusiven Eigentums, und durch eine Weiterleitungsanforderung RspCnflt einen Konflikt anzeigen. Wie in vorherigen Beispielen kann der Home-Agent 710 so konfiguriert sein, dass er auf die Weiterleitungsanforderung mit einer Weiterleitungsantwort (FwdCnfltO) antwortet. Es können mehrere zulässige Antworten für die Weiterleitungsantwort möglich sein. Zum Beispiel kann der Cache-Agent 720 eine explizite Rückschreiboperation (z. B. WbMtoI) initiieren und den Schnüffler (oder die Weiterleitung) blockieren, bis die explizite Rückschreiboperation fertiggestellt ist (z. B. CmpU), wie im Beispiel von 9 dargestellt. Der Cache-Agent kann dann die Schnüfflerantwort (RspI) fertigstellen. Unter anderen Beispielen kann der Home-Agent 710 die RdInv-Anforderung des erste Cache-Agenten 705 verarbeiten und eine Fertigstellungsnachricht Data_E_CmpO zurücksenden.
In Beispielen, wie beispielsweise dem Beispiel von 9, in denen ein Cache-Agent einen Schnüffler empfängt, wenn der Agent eine unerledigte Lese- oder Annullierungsanforderung für die gleiche Adresse aufweist und eine teilweise modifizierte Zeile zwischengespeichert hat (häufig als „vergraben-M” bezeichnet), erlaubt das HPI-Kohärenzprotokoll dem Agenten in einer Implementierung, entweder 1) ein explizites Rückschreiben (partiell) der Zeile während des Blockierens des Schnüfflers auszuführen, oder 2) eine Weiterleitungsanforderung (RspCnflt) an den Home-Agenten zu senden. Wenn (1) gewählt wird, verarbeitet der Agent den Schnüffler nach dem Empfang der Fertigstellungsnachricht für die Rückschreiboperation. Wenn (2) gewählt wird, ist es möglich, dass der Agent eine Weiterleitungsantwort (FwdCnfltO) empfängt, während seine unerledigte Lese- oder Annullierungsanforderung noch auf Antworten wartet, und der Agent noch eine teilweise modifizierte Zeile hat. Wenn dies der Fall ist, erlaubt das Protokoll es dem Agenten, die Weiterleitung während des Ausführens eines expliziten Rückschreibens (partiell) der Zeile zu blockieren. Das Protokoll garantiert, dass der Agent während des Rückschreibens keine Antworten für unerledigte Lese- oder Annullierungsanforderungen empfängt. Der zuvor beschrieben Mechanismus (der es Kohärenzagenten erlaubt, explizite Rückschreiboperationen auszugeben und Schnüffler und Weiterleitungen zu blockieren, selbst wenn der Agent eine unerledigte Lese- oder Annullierungsanforderung aufweist) wird auch verwendet, um sicherzustellen, dass partielle oder UC-Schreiboperationen in den Speicher getätigt werden, bevor der Schreiber globale Beobachtbarkeit erwirbt.
Kohärenzagenten verwenden einen zweistufigen Prozess für partielle bzw. UC-Schreiboperationen. Erstens überprüfen sie, ob sie Eigentum an der Cache-Zeile haben, und geben eine Eigentums(Annullierungs)-Anforderung im Protokoll aus, wenn dies nicht der Fall ist. Zweitens führen sie die Schreiboperation aus. Wenn sie im ersten Schritt eine Eigentumsanforderung durchführten, ist es möglich, dass die Anforderung mit Anforderungen anderer Agenten für die Zeile in Konflikt gerät, was bedeutet, dass der Agent einen Schnüffler empfangen könnte, während die Eigentumsanforderung unerledigt ist. Gemäß Kohärenzprotokollvorgaben gibt der Agent eine Weiterleitungsanforderung für den in Konflikt stehenden Schnüffler aus. Während der Agent auf die Weiterleitungsantwort wartet, kann er die Fertigstellung der Eigentumsanforderung empfangen, welche dem Agenten das Eigentum an der Zeile erteilt und es dem Agenten ermöglicht, das Rückschreiben für die partielle bzw. UC-Schreiboperation zu initiieren. Während dies geschieht, könnte der Agent die Weiterleitungsantwort empfangen, die er ebenfalls verarbeiten muss. Der Kohärenzagent kann die beiden Aktivitäten nicht kombinieren. Der Kohärenzagent soll stattdessen die partiellen bzw. UC-Schreibdaten getrennt von der Verarbeitung der Weiterleitung zurückschreiben und die Rückschreiboperation zuerst ausführen. Zum Beispiel kann ein Cache-Agent unter anderen Beispielen und Merkmalen eine Rückschreibanforderung verwenden, um einen Commit für UC-Daten vor dem Verarbeiten von Weiterleitung und Zurückschreiben von partiellen Cache-Zeilen auszuführen.
Die HPI kann in eine Vielzahl von Computereinrichtungen und -systemen, welche Mainframes, Serversysteme, Personalcomputer, mobile Computer (wie beispielsweise Tablets, Smartphones, persönliche digitale Systeme usw.), intelligente Geräte, Spiel- und Unterhaltungskonsolen sowie Set-Top-Boxen u. a. umfassen. Zum Beispiel ist unter Bezugnahme auf 10 eine Ausführungsform eines Blockdiagramms für ein Computersystem dargestellt, dass einen Mehrkernprozessor umfasst. Der Prozessor 1000 umfasst einen beliebigen Prozessor oder eine beliebige Verarbeitungseinrichtung wie beispielsweise einen Mikroprozessor, einen eingebetteten Prozessor, einen Digitalsignalprozessor (DSP), einen Netzwerkprozessor, einen Handprozessor, einen Anwendungsprozessor, einen Coprozessor, einen Systemchip (SOC) oder eine andere Einrichtung zum Ausführen von Code. Der Prozessor 1000 umfasst in einer Ausführungsform mindestens zwei Kerne, Kern 1001 und 1002, welche asymmetrische Kerne oder symmetrische Kerne (die veranschaulichte Ausführungsform) umfassen können. Der Prozessor 1000 kann jedoch eine beliebige Anzahl von Verarbeitungselementen umfassen, die symmetrisch oder asymmetrisch sein können.
In einer Ausführungsform bezieht sich ein Verarbeitungselement auf Hardware oder Logik, um einen Softwarethread zu unterstützen. Beispiele für Hardware-Verarbeitungselemente umfassen: eine Thread-Einheit, einen Threadslot, eine Prozesseinheit, einen Kontext, eine Kontexteinheit, einen logischen Prozessor, einen Hardwarethread, einen Kern und/oder jedes beliebige andere Element, das zum Halten eines Zustands für einen Prozessor, wie beispielsweise einen Ausführungszustand oder einen architektonischen Zustand, imstande ist. Mit anderen Worten bezieht sich ein Verarbeitungselement in einer Ausführungsform auf eine beliebige Hardware, die mit Code, wie beispielsweise einem Softwarethread, einem Betriebssystem, einer Anwendung, oder einem anderen Code unabhängig assoziiert sein kann. Ein physikalischer Prozessor (oder Prozessorsockel) bezieht sich typischerweise auf eine integrierte Schaltung, die potenziell eine beliebige Anzahl von anderen Verarbeitungselementen, wie beispielsweise Kernen oder Hardwarethreads, umfasst.
Ein Kern bezieht sich häufig auf Logik, die sich auf einer integrierten Schaltung befindet und zum Aufrechterhalten eines unabhängigen architektonischen Zustands imstande ist, wobei jeder unabhängig aufrechterhaltene architektonische Zustand mindestens mit einigen dedizierten Ausführungsressourcen assoziiert ist. Im Gegensatz zu Kernen bezieht sich ein Hardwarethread typischerweise auf eine beliebige Logik, die sich auf einer integrierten Schaltung befindet und zum Aufrechterhalten eines unabhängigen architektonischen Zustands imstande ist, wobei sich die unabhängig aufrechterhaltenen architektonischen Zustände Zugriff auf Ausführungsressourcen teilen. Wie zu sehen ist, überschneidet sich die Linie zwischen der Nomenklatur eines Hardwarethreads und eines Kerns, wenn bestimmte Ressourcen gemeinsam genutzt werden und andere fest einem architektonischen Zustand zugeordnet sind. Dennoch werden ein Kern und ein Hardwarethread von einem Betriebssystem oft als individuelle logische Prozessoren angesehen, wobei das Betriebssystem imstande ist, Operationen auf jedem logischen Prozessor individuell zu planen.
Der physikalische Prozessor 1000 umfasst, wie in 10 veranschaulicht, zwei Kerne, Kern 1001 und 1002. Hierbei werden Kern 1001 und 1002 als symmetrische Kerne, d. h. Kerne mit den gleichen Konfigurationen, Funktionseinheiten und/oder der gleichen Logik, angesehen. In einer anderen Ausführungsform umfasst der Kern 1001 einen Out-of-Order-Prozessorkern, während der Kern 1002 einen In-Order-Prozessorkern umfasst. Die Kerne 1001 und 1002 können jedoch individuell aus jedem beliebigen Kerntyp, wie beispielsweise einem nativen Kern, einem softwaregesteuerten Kern, einem zum Ausführen einer nativen Anweisungssatz-Architektur (ISA für engl. Instruction Set Architecture) ausgelegten Kern, einem zum Ausführen einer übersetzten Anweisungssatz-Architektur (ISA) ausgelegten Kern, einem in Kooperation entwickelten Kern oder einem anderen bekannten Kern, ausgewählt sein. In einer heterogenen Kernumgebung (d. h. bei asymmetrischen Kernen) kann eine gewisse Form von Übersetzung, wie beispielsweise eine binäre Übersetzung verwendet werden, um Code auf einem oder beiden Kernen zu disponieren oder auszuführen. Um die Erörterung noch weiter zu führen, werden die in Kern 1001 veranschaulichten Funktionseinheiten im Folgenden ausführlicher beschrieben, da die Einheiten in Kern 1002 in der dargestellten Ausführungsform auf ähnliche Weise funktionieren.
Wie dargestellt, umfasst der Kern 1001 zwei Hardwarethreads 1001a und 1001b, die auch als Hardware-Threadslots 1001a und 1001b bezeichnet werden können. Daher sehen Softwareinstanzen, wie beispielsweise ein Betriebssystem, in einer Ausführungsform den Prozessor 1000 potenziell als vier separate Prozessoren, d. h. vier logische Prozessoren oder Verarbeitungselemente, an, die zum gleichzeitigen Ausführen von vier Softwarethreads imstande sind. Wie zuvor angesprochen, ist ein erster Thread mit Architekturzustandsregistern 1001a assoziiert, ein zweiter Thread ist mit Architekturzustandsregistern 1001b assoziiert, ein dritter Thread kann mit Architekturzustandsregistern 1002a assoziiert sein, und ein vierter Thread kann mit Architekturzustandsregistern 1002b assoziiert sein. Hierbei kann jedes der Architekturzustandsregister (1001a, 1001b, 1002a und 1002b) als Verarbeitungselement, Threadslot oder Thread-Einheit bezeichnet werden, wie zuvor beschrieben. Wie veranschaulicht, sind die Architekturzustandsregister 1001a in den Architekturzustandsregistern 1001b repliziert, so dass einzelne Architekturzustände/-kontexte für den logischen Prozessor 1001a und den logischen Prozessor 1001b gespeichert werden können. In Kern 1001 können außerdem andere, kleinere Ressourcen, wie beispielsweise Anweisungszeiger und Umbenennungslogik in einem Zuweisungs- und Umbenennungsblock 1030, für Thread 1001a und 1001b repliziert sein. Einige Ressourcen, wie beispielsweise Neuordnungspuffer in einer Neuordnungs-/Ausmusterungseinheit 1035, ILTB 1020, Lade-/Speicherpuffer und Warteschlangen, können durch Partitionierung gemeinsam genutzt werden. Andere Ressourcen, wie beispielsweise interne Universalregister, seitentabellenbasierte Register, ein untergeordneter Datencache und Daten-TLB 1051, Ausführungseinheit(en) 1040 und Teile einer Out-of-Order-Einheit 1035, werden potenziell zur Gänze gemeinsam genutzt.
Der Prozessor 1000 umfasst häufig Ressourcen, die zur Gänze gemeinsam genutzt werden können, durch Partitionierung gemeinsam genutzt werden können oder von/für Verarbeitungselemente(n) dediziert sein können. In 10 ist eine Veranschaulichungsform eines rein beispielhaften Prozessors mit veranschaulichenden logischen Einheiten/Ressourcen eines Prozessors veranschaulicht. Es ist zu erwähnen, dass ein Prozessor jede dieser Funktionseinheiten umfassen oder weglassen kann sowie er jede andere nicht dargestellte bekannte Funktionseinheit, Logik oder Firmware umfassen kann. Wie veranschaulicht, umfasst der Kern 1001 einen vereinfachten repräsentativen Out-of-Order(OOO)-Prozessorkern. Aber in verschiedenen Ausführungsformen kann ein In-Order-Prozessor verwendet werden. Der OOO-Kern umfasst einen Verzweigungszielpuffer (BTB für engl. branch target buffer) 1020, um Verzweigungen vorherzusagen, die ausgeführt/genommen werden sollen, und einen Anweisungsübersetzungspuffer (I-TLB für engl. Instruction-translation buffer) 1020 zum Speichern von Adressübersetzungseinträgen für Anweisungen.
Der Kern 1001 umfasst ferner ein Decodiermodul 1025, das mit einer Abrufeinheit 1020 gekoppelt ist, um abgerufene Elemente zu decodieren. Die Abruflogik umfasst in einer Ausführungsform einzelne Sequencer, die mit den Threadslots 1001a bzw. 1001b assoziiert sind. Üblicherweise ist der Kern 1001 mit einer ersten ISA assoziiert, die auf dem Prozessor 1000 ausführbare Anweisungen definiert/spezifiziert. Hierbei umfassen Maschinencodeanweisungen, die Teil der ersten ISA sind, oft einen Teil der Anweisung (als Opcode bezeichnet), die eine auszuführende Anweisung oder Operation referenziert/spezifiziert. Die Decodierlogik 1025 umfasst eine Schaltungsanordnung, die diese Anweisungen an ihren Opcodes erkennt und die decodierten Anweisungen auf der Pipeline weiterleitet, um sie zu verarbeiten, wie durch die erste ISA definiert. Wie im Folgenden ausführlicher erläutert, weisen die Decoder 1025 zum Beispiel in einer Ausführungsform Logik auf, die so konzipiert oder ausgelegt ist, dass sie spezifische Anweisungen, wie beispielweise eine Transaktionsanweisung, erkennt. Als Ergebnis der Erkennung durch die Decoder 1025 nimmt die Architektur oder der Kern 1001 spezifische vordefinierte Aktionen vor, um Aufgaben auszuführen, die mit der entsprechenden Anweisung assoziiert sind. Es ist wichtig, zu erwähnen, dass alle hierin beschriebenen Aufgaben, Blöcke, Operationen und Verfahren in Reaktion auf eine einzige oder mehrere Anweisungen, von welchen einige neue oder alte Anweisungen sein können, ausgeführt werden können. Es ist zu erwähnen, dass die Decoder 1026 in einer Ausführungsform die gleiche ISA (oder einen Teilsatz davon) erkennen. Alternativ können die Decoder 1026 in einer heterogenen Kernumgebung eine zweite ISA (entweder einen Teilsatz der ersten ISA oder eine andere ISA) erkennen.
In einem Beispiel umfasst der Zuweisungs- und Umbenennungsblock 1030 einen Zuweiser zum Reservieren von Ressourcen, wie beispielsweise Registerdateien zum Speichern von Ergebnissen der Bearbeitung von Anweisungen. Die Threads 1001a und 1001b sind jedoch potentiell zu einer Out-of-Order-Ausführung imstande, wobei der Zuweisungs- und Umbenennungsblock 1030 auch andere Ressourcen reserviert, wie beispielsweise einen Neuordnungspuffer zum Nachverfolgen von Anweisungsergebnissen. Die Einheit 1030 kann außerdem einen Registerumbenenner aufweisen, um Programm-/Anweisungsreferenzregister in andere, dem Prozessor 1000 interne Register umzubenennen. Eine Neuordnungs-/Ausmusterungseinheit 1035 umfasst Komponenten, wie beispielsweise die zuvor erwähnten Neuordnungspuffer, Ladepuffer und Speicherpuffer, um Out-of-Order-Ausführung und später In-Order-Ausmusterung von Out-of-Order-ausgeführten Anweisungen zu unterstützen.
Ein Scheduler- und Ausführungseinheit(en)-Block 1040 umfasst in einer Ausführungsform eine Scheduler-Einheit zum Disponieren von Anweisungen/Operationen auf Ausführungseinheiten. Zum Beispiel wird eine Gleitkomma-Anweisung an einem Port einer Ausführungseinheit disponiert, die eine verfügbare Gleitkomma-Ausführungseinheit aufweist. Registerdateien, welche mit den Ausführungseinheiten assoziiert sind, werden ebenfalls einbezogen, um Ergebnisse der Verarbeitung von Informationsanweisungen zu speichern. Beispielhafte Ausführungseinheiten umfassen eine Gleitkomma-Ausführungseinheit, eine Ganzzahl-Ausführungseinheit, eine Sprungausführungseinheit, eine Ladeausführungseinheit, eine Speicherausführungseinheit und andere bekannte Ausführungseinheiten.
Ein Datencache und Datenübersetzungspuffer (D-TLB) 1050 auf niedrigerer Ebene sind mit der bzw. den Ausführungseinheit(en) 1040 gekoppelt. Der Datencache dient zum Speichern der zuletzt verwendeten/bearbeiteten Elemente, wie beispielsweise Datenoperanden, die potentiell in Speicherkohärenzzuständen gehalten werden. Der D-TLB dient zum Speichern der letzten Übersetzungen von virtuellen/linearen in physikalische Adressen. Als ein spezifisches Beispiel kann ein Prozessor eine Seitentabellenstruktur zum Aufgliedern eines physikalischen Speichers in eine Mehrzahl von virtuellen Seiten umfassen.
Hierbei teilen sich die Kerne 1001 und 1002 den Zugriff auf Caches auf höhere Ebene oder weiter entfernte Caches, wie beispielsweise einen Cache der zweiten Ebene, der mit einer chipinternen Schnittstelle 1010 assoziiert ist. Es ist zu erwähnen, dass sich „auf höherer Ebene” oder „weiter entfernt” auf Cache-Ebenen bezieht, die höher werden oder sich von der bzw. den Ausführungseinheit(en) weiter entfernen. In einer Ausführungsform ist der Cache auf höherer Ebene ein Datencache auf einer letzten Ebene – ein letzter Cache in der Speicherhierarchie auf dem Prozessor 1000 – wie beispielsweise ein Datencache auf der zweiten oder dritten Ebene. Der Cache auf höherer Ebene ist jedoch nicht darauf beschränkt, da er mit einem Anweisungscache assoziiert sein kann oder einen solchen umfassen kann. Ein Ablaufverfolgungscache – ein Typ von Anweisungscache – kann stattdessen nach dem Decoder 1025 zum Speichern der letzten decodierten Ablaufverfolgungen gekoppelt sein. Hierbei bezieht sich eine Anweisung potenziell auf eine Makroanweisung (d. h. eine allgemeine Anweisung, die von den Decoder erkannt wird), welche in eine Anzahl von Mikroanweisungen (Mikrooperationen) decodieren kann.
In der dargestellten Konfiguration umfasst der Prozessor 1000 außerdem ein chipinternes Schnittstellenmodul 1010. Historisch war ein Speichercontroller, der im Folgenden ausführlicher beschrieben wird, in einem Computersystem außerhalb des Prozessors 1000 enthalten. In diesem Szenario dient die chipinterne Schnittstelle 1010 zum Kommunizieren mit Einrichtungen außerhalb des Prozessors 1000, wie beispielsweise einem Systemspeicher 1075, einem Chipsatz (der häufig einen Speicher-Controllerhub zum Verbinden mit dem Speicher 1075 und einen E-/A-Controllerhub zum Anschließen von Peripherieeinrichtungen umfasst), einem Speicher-Controllerhub, einer Northbridge oder einer anderen integrierten Schaltung. Und in diesem Szenario kann der Bus 1005 jede bekannte Zwischenverbindung, wie beispielsweise einen Mehrpunktverbindungsbus, eine Punkt-zu-Punkt-Zwischenverbindung, eine serielle Zwischenverbindung, einen parallelen Bus, einen kohärenten (z. B. cache-kohärenten) Bus, eine Schichtprotokollarchitektur, einen differenziellen Bus und einen GTL-Bus, umfassen.
Der Speicher 1075 kann dem Prozessor 1000 fest zugeordnet sein oder mit anderen Einrichtungen in einem System gemeinsam genutzt werden. Übliche Beispiele von Typen von Speichern 1075 umfassen DRAM, SRAM, nichtflüchtigen Speicher (NV-Speicher) und andere bekannte Speichereinrichtungen. Es ist zu erwähnen, dass die Einrichtung 1080 einen Grafikbeschleuniger, einen Grafikprozessor oder eine Grafikkarte, der/die mit einem Speicher-Controllerhub gekoppelt ist, einen Datenspeicher, der mit einem E-/A-Controllerhub gekoppelt ist, einen drahtlosen Sendeempfänger, eine Flash-Einrichtung, einen Audiocontroller, einen Netzwerkcontroller oder andere bekannte Einrichtungen umfassen kann.
Seit einiger Zeit jedoch kann jede dieser Einrichtungen in einen Prozessor 1000 integriert werden, da mehr Logik und Einrichtungen in einen Einzelchip wie beispielsweise SOC, integriert werden. Zum Beispiel ist ein Speicher-Controllerhub in einer Ausführungsform auf der gleichen Packung und/oder dem gleichen Chip mit dem Prozessor 1000. Hierbei umfasst ein Teil des Kerns (ein kerninterner Teil) 1010 einen oder mehrere Controller zum Herstellen einer Verbindung mit anderen Einrichtungen, wie beispielsweise dem Speicher 1075 oder einer Grafikeinrichtung 1080, über eine Schnittstelle. Die Konfiguration, die eine Zwischenverbindung und Controller zum Herstellen einer Verbindung mit solchen Einrichtungen über eine Schnittstelle umfasst, wird oft als kernintern (oder kernexterne Konfiguration) bezeichnet. Als ein Beispiel umfasst die chipinterne Schnittstelle 1010 eine Ring-Zwischenverbindung für chipinterne Kommunikation und einen seriellen Punkt-zu-Punkt-Hochgeschwindigkeitslink 1005 für chipexterne Kommunikation. In der SOC-Umgebung können jedoch noch mehr Einrichtungen, wie beispielsweise die Netzschnittstelle, Coprozessoren, der Speicher 1075, der Grafikprozessor 1080 und andere bekannte Computereinrichtungen/-schnittstellen, in einen Einzelchip oder eine integrierte Schaltung integriert werden, um einen kleinen Formfaktor mit hoher Funktionalität und niedrigem Energieverbrauch bereitzustellen.
In einer Ausführungsform ist der Prozessor 1000 zum Ausführen eines Compilers, einer Optimierung und/oder eines Übersetzercodes 1077 zum Kompilieren, Übersetzen und/oder Optimieren von Anwendungscode 1076 imstande, um die hierin beschriebenen Vorrichtungen und Verfahren zu unterstützen oder über eine Schnittstelle eine Verbindung damit herzustellen. Ein Compiler umfasst oft ein Programm oder einen Satz von Programmen zum Übersetzen von Quelltext/-code in Zieltext/-code. Üblicherweise erfolgt die Kompilierung von Programm-/Anwendungscode mit einem Compiler in mehreren Phasen und Durchgängen, um eine höhere Programmiersprache in einen maschinenorientierten Maschinen- oder Assemblersprachcode umzuwandeln. Für einfache Kompilierungen können dennoch noch Compiler mit einem einzigen Durchgang verwendet werden. Ein Compiler kann jede bekannte Kompiliertechnik verwenden und alle bekannten Compiler-Operationen ausführen, wie beispielsweise lexikalische Analyse, Vorverarbeitung, syntaktische Analyse, semantische Analyse, Codeerzeugung, Codeumwandlung und Codeoptimierung.
Größere Compiler umfassen oft mehrere Phasen, aber am häufigsten sind diese Phasen in zwei Hauptphasen enthalten: (1) Frontend, d. h. wo im Allgemeinen die syntaktische Verarbeitung, semantische Verarbeitung und eine gewisse Umwandlung/Optimierung stattfinden kann, und (2) Backend, d. h. wo im Allgemeinen Analyse, Umwandlungen, Optimierungen und Codeerzeugung stattfinden. Einige Compiler beziehen sich auf eine Mitte, welche die Verwischung der Abgrenzung zwischen einem Frontend und einem Backend eines Compilers veranschaulicht. Als Ergebnis kann die Bezugnahme auf Einfügung, Assoziierung, Erzeugung oder andere Operationen eines Compilers in jeder der zuvor erwähnten Phasen oder in jedem der zuvor erwähnten Durchgänge sowie in allen anderen bekannten Phasen oder Durchgangen eines Compilers erfolgen. Als ein veranschaulichendes Beispiel fügt ein Compiler potenziell Operationen, Aufrufe, Funktionen usw. in einer oder mehreren Kompilierphasen ein, wie beispielsweise eine Einfügung von Aufrufen/Operationen in einer Frontend-Kompilierphase und anschließend Umwandlung der Aufrufe/Operationen in Code auf niedrigerer Ebene während einer Umwandlungsphase. Es ist zu erwähnen, dass während dynamischer Kompilierung Compilercode oder dynamischer Optimierungscode solche Operationen/Aufrufe einfügen sowie den Code zur Ausführung während der Laufzeit optimieren kann. Als ein spezifisches Beispiel kann Binärcode (bereits kompilierter Code) während der Laufzeit dynamisch optimiert werden. Hierbei kann der Programmcode den dynamischen Optimierungscode, den Binärcode oder eine Kombination davon umfassen.
Ähnlich einem Compiler übersetzt ein Übersetzer, wie beispielsweise ein Binärübersetzer, Code entweder statisch oder dynamisch, um Code zu optimieren und/oder zu übersetzen. Daher kann sich die Bezugnahme auf die Ausführung von Code, Anwendungscode, Programmcode oder andere Softwareumgebung auf Folgendes beziehen: (1) entweder dynamische oder statische Ausführung von Compilerprogramm(en), Optimierungscode-Optimierern oder Übersetzern zum Kompilieren von Programmcode, Pflegen von Softwarestrukturen, Ausführen von anderen Operationen, Optimieren von Code oder Übersetzen von Code; (2) Ausführung von Hauptprogrammcode, der Operationen/Aufrufe umfasst, wie beispielsweise Anwendungscode, der optimiert/kompiliert wurde; (3) Ausführung von anderem Programmcode, wie beispielsweise Bibliotheken, der mit dem Hauptprogrammcode assoziiert ist, um Softwarestrukturen zu pflegen, andere softwarebezogene Operationen auszufahren oder Code zu optimieren; oder (4) eine Kombination davon.
Obwohl die vorliegende Erfindung in Bezug auf eine begrenzte Anzahl von Ausführungsformen beschrieben wurde, sind für Fachleute zahlreiche Modifikationen und Abwandlungen davon zu erkennen. Es ist beabsichtigt, dass die angehängten Ansprüche alle solche Modifikationen Abwandlungen erfassen, die unter das wahre Wesen und in den Schutzbereich dieser vorliegenden Erfindung fallen.
Ein Entwurf kann von der Schaffung über die Simulation zur Herstellung verschiedene Stufen durchlaufen. Daten, die einen Entwurf darstellen, können den Entwurf in einer Anzahl von Arten und Weisen darstellen. Zunächst kann, wie in Simulationen verwendbar, die Hardware unter Verwendung einer Hardware-Beschreibungssprache oder einer anderen Funktionsbeschreibungssprache dargestellt werden. Außerdem kann ein Modell auf Schaltungsebene mit Logik- und/oder Transistorgattern auf einigen Stufen des Entwurfsprozesses erzeugt werden. Ferner erreichen die meisten Entwürfe auf einer bestimmten Stufe eine Ebene von Daten, welche die physikalische Anordnung von verschiedenen Einrichtungen im Hardwaremodell darstellen. Falls herkömmliche Halbleiterfertigungstechniken angewendet werden, können die Daten, die das Hardwaremodell darstellen, die Daten sein, die das Vorhandensein oder Nichtvorhandensein von verschiedenen Merkmalen auf verschiedenen Maskenschichten für Masken spezifizieren, die zum Erzeugen der integrierten Schaltung verwendet werden. Bei jeder Darstellung des Entwurfs können die Daten in jeder Form eines maschinenlesbaren Mediums gespeichert werden. Ein Arbeitsspeicher oder ein magnetischer oder optischer Speicher, so wie beispielsweise eine Platte, kann das maschinenlesbare Medium zum Speichern von Informationen sein, die über optische oder elektrische Wellen übertragen werden, die moduliert oder anderweitig zum Senden solcher Informationen erzeugt werden. Wenn eine elektrische Trägerwelle, die den Code oder den Entwurf anzeigt oder überträgt, gesendet wird, wird insofern, als Kopieren, Puffern oder Wiederholungssendung des elektrischen Signals durchgeführt wird, eine neue Kopie erstellt. Demnach kann ein Kommunikationsanbieter oder ein Netzanbieter einen Gegenstand, wie beispielsweise in eine Trägerwelle codierte Informationen, unter Realisierung von Techniken von Ausführungsformen der vorliegenden Erfindung wenigstens vorübergehend auf einem dinglichen maschinenlesbaren Medium speichern.
Ein Modul, wie hierin verwendet, bezieht sich auf jede Kombination von Hardware, Software und/oder Firmware. Als ein Beispiel umfasst ein Modul Hardware, wie beispielsweise einen Mikrocontroller, der mit einem nicht-transitorischen Medium zum Speichern von Code assoziiert ist, der so ausgelegt ist, dass er durch den Mikrocontroller ausgeführt wird. Daher bezieht sich die Bezugnahme auf ein Modul in einer Ausführungsform auf die Hardware, welche speziell so konfiguriert ist, dass sie den Code, der auf einem nicht-transitorischen Medium gespeichert werden soll, erkennt und/oder ausführt. Außerdem bezieht sich die Verwendung eines Moduls in einer anderen Ausführungsform auf das nicht-transitorische Medium, das den Code umfasst, der speziell so ausgelegt ist, dass er durch den Mikrocontroller ausgeführt werden soll, um vorbestimmte Operationen durchzuführen. Und folglich kann sich der Begriff „Modul” (in diesem Beispiel) in noch einer anderen Ausführungsform auf die Kombination des Mikrocontrollers und des nicht-transitorischen Mediums beziehen. Modulgrenzen, die als getrennt veranschaulicht sind, variieren üblicherweise häufig und überschneiden sich potenziell. Zum Beispiel können ein erstes und ein zweites Modul Hardware, Software, Firmware oder eine Kombination davon miteinander teilen, während sie eine gewisse unabhängige Hardware, Software oder Firmware potenziell für sich behalten. In einer Ausführungsform umfasst der Begriff „Logik” Hardware, wie beispielsweise Transistoren, Register oder andere Hardware, wie beispielsweise programmierbare Logikbausteine.
Die Verwendung des Ausdrucks „konfiguriert zum/um zu/dass” bezieht sich in einer Ausführungsform auf Auslegen, Zusammenstellen, Herstellen, Zum-Verkauf-anbieten, Importieren und/oder Entwerfen einer Vorrichtung, Hardware, Logik oder eines Elements zum Ausführen einer vorgesehenen oder bestimmten Aufgabe. In diesem Beispiel ist eine Vorrichtung oder ein Element, die/das nicht in Betrieb ist, dennoch so „konfiguriert, dass” sie/es eine vorgesehene Aufgabe ausführt, wenn sie/es zum Ausführen der vorgesehenen Aufgabe konzipiert, gekoppelt und/oder verbunden ist. Als rein veranschaulichendes Beispiel kann ein Logikgatter während des Betriebs eine 0 oder eine 1 bereitstellen. Aber ein Logikgatter, das „konfiguriert ist, um” ein Freigabesignal für einen Takt bereitzustellen, umfasst nicht jedes potenzielle Logikgatter, das eine 1 oder eine 0 bereitstellen kann. Stattdessen ist ein Logikgatter eines, das derart gekoppelt ist, dass die Ausgabe von 1 oder 0 während des Betriebs zum Freigeben des Taktes ist. Es ist abermals zu erwähnen, dass der Begriff „konfiguriert zum/um zu/dass” keinen Betrieb erfordert, sondern stattdessen den Akzent auf den latenten Zustand einer Vorrichtung, einer Hardware und/oder eines Elements setzt, wobei die Vorrichtung, die Hardware und/oder das Element im latenten Zustand so konzipiert ist, dass sie/es eine bestimmte Aufgabe ausführt, wenn die Vorrichtung, die Hardware und/oder das Element in Betrieb ist.
Außerdem beziehen sich die Ausdrücke „zu”, „imstande zu” und/oder „ausgelegt zu” in einer Ausführungsform auf eine Vorrichtung, eine Logik, eine Hardware und/oder ein Element, die/das derart konzipiert ist, dass sie/es die Verwendung der Vorrichtung, der Logik, der Hardware und/oder des Elements in einer spezifizierten Art und Weise ermöglicht. Es ist zu erwähnen, dass, wie zuvor, die Verwendung von „zu”, „imstande zu” oder „ausgelegt zu” sich auf den latenten Zustand einer Vorrichtung, einer Logik, einer Hardware und/oder eines Elements bezieht, wobei die Vorrichtung, die Logik, die Hardware und/oder das Element nicht in Betrieb, aber derart konzipiert ist, dass sie/es die Verwendung einer Vorrichtung in einer spezifizierten Art und Weise ermöglicht.
Ein Wert, wie hierin verwendet, umfasst jede bekannte Darstellung einer Zahl, eines Zustands, eines logischen Zustands oder eines logischen Binärzustands. Die Verwendung von logischen Pegeln, logischen Werten oder Logikwerten bezieht sich häufig auch auf 1sen und 0en, welche einfach logische Binärzustände darstellen. Zum Beispiel bezieht sich eine 1 auf den logischen Zustand H, und 0 bezieht sich auf den logischen Zustand L. In einer Ausführungsform kann eine Speicherzelle, wie beispielsweise eine Transistor- oder Flash-Zelle, imstande sein, einen einzigen logischen Wert oder mehrere logische Werte zu halten. Es wurden jedoch andere Darstellungen von Werten in Computersystemen verwendet. Zum Beispiel kann die Dezimalzahl zehn auch als ein Binärwert von 1010 und ein hexadezimaler Buchstabe A dargestellt werden. Daher umfasst ein Wert jede Darstellung von Informationen, die in einem Computersystem gehalten werden kann.
Darüber hinaus können Zustände durch Werte oder Teile von Werten dargestellt werden. Als ein Beispiel kann ein erster Wert, wie beispielsweise eine logische Eins, einen Standard- oder Anfangszustand darstellen, während ein zweiter Wert, wie beispielsweise eine logische Null, einen Nicht-Standardwert darstellen kann. Außerdem beziehen sich die Begriffe „rückgesetzt” und „gesetzt” in einer Ausführungsform auf einen Standard- und einen aktualisierten Wert bzw. Zustand. Zum Beispiel umfasst ein Standardwert potenziell einen logischen H-Wert, d. h. rückgesetzt, während ein aktualisierter Wert potenziell einen logischen L-Wert umfasst, d. h. gesetzt. Es ist zu erwähnen, dass jede Kombination von Werten verwendet werden kann, um eine beliebige Anzahl von Zuständen darzustellen.
Die vorstehend dargelegten Ausführungsformen von Verfahren, Hardware, Software, Firmware oder Code können über Anweisungen oder Code implementiert werden, die auf einem maschinenzugreifbaren, maschinenlesbaren, computerzugreifbaren oder computerlesbaren Medium gespeichert sind und die von einem Verarbeitungselement ausgeführt werden können. Ein nicht-transitorisches, maschinenzugreifbares/-lesbares Medium umfasst jeden Mechanismus, der Informationen in einer Form bereitstellt (d. h. speichert und/oder sendet), die von einer Maschine, wie beispielsweise einem Computer- oder elektronischen System, gelesen werden können. Ein nicht-transitorisches maschinenzugreifbares Medium umfasst zum Beispiel einen Direktzugriffsspeicher (RAM für engl. random-access memory), wie beispielsweise einen statischen RAM (SRAM) oder einen dynamischen RAM (DRAM); ROM; ein magnetisches oder optisches Speichermedium; Flash-Speichereinrichtungen; elektrische Speichereinrichtungen; optische Speichereinrichtungen; akustische Speichereinrichtungen; eine andere Form von Speichereinrichtungen, die von den nicht-transitorischen Medien zu unterscheiden sind, die Informationen davon empfangen können, zum Halten von Informationen, die von transitorischen (ausgebreiteten) Signalen (z. B. Trägerwellen, Infrarotsignalen, Digitalsignalen) empfangen werden, usw.
Anweisungen, die verwendet werden, um Logik zum Durchführen von Ausführungen der Erfindung zu programmieren, können in einem Speicher im System, wie beispielsweise einem DRAM, Cache, Flash-Speicher oder anderen Speicher, gespeichert werden. Außerdem können die Anweisungen über ein Netz oder durch andere computerlesbare Medien verteilt werden. Demnach kann ein maschinenlesbares Medium jeden Mechanismus zum Speichern oder Senden von Informationen in einer Form, die von einer Maschine (z. B. einem Computer) gelesen werden kann, umfassen, wie beispielsweise, ohne darauf beschränkt zu sein, Floppy-Disks, optische Platten, CD-Festwertspeicher (CD-ROMs) und magnetooptische Platten, Festwertspeicher (ROMs), Direktzugriffspeicher (RAM), löschbare programmierbare Festwertspeicher (EPROM), elektrisch löschbare programmierbare Festwertspeicher (EEPROM), magnetische oder optische Karten, Flash-Speicher oder einen dinglichen maschinenlesbaren Speicher, der bei der Übertragung von Informationen über das Internet durch elektrische, optische, akustische oder andere Formen von ausgebreiteten Signalen (z. B. Trägerwellen, Infrarotsignalen, Digitalsignalen usw.) verwendet wird. Demgemäß umfasst das computerlesbare Medium alle Typen von dinglichen maschinenlesbaren Medien, die zum Speichern oder Senden von elektronischen Anweisungen oder Informationen in einer Form geeignet sind, die von einer Maschine (z. B. einem Computer) gelesen werden kann.
Die folgenden Beispiele betreffen Ausführungsformen gemäß dieser Spezifikation. Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren zum Senden einer Kohärenzprotokollnachricht, die einer bestimmten Cache-Zeile entspricht, Identifizieren eines potenziellen Konflikts, der die bestimmte Cache-Zeile einbezieht, und Senden einer Weiterleitungsanforderung an einen Home-Agenten zum Identifizieren des potenziellen Konflikts bereitstellen.
Ein oder mehrere Beispiele können ferner ein Empfangen eines Schnüfflers bereitstellen, welcher der bestimmten Cache-Zeile entspricht.
Ein oder mehrere Beispiele können ferner ein Identifizieren bereitstellen, dass der Schnüffler empfangen wird, während eine Anforderung unerledigt ist, und der potenzielle Konflikt wird basierend auf dem Identifizieren identifiziert, dass der Schnüffler empfangen wird, während die Anforderung unerledigt ist.
Ein oder mehrere Beispiele können ferner ein Empfangen einer Weiterleitungsantwort vom Home-Agenten bereitstellen, die auf der Weiterleitungsanforderung basiert.
Ein oder mehrere Beispiele können ferner ein Bestimmen einer Antwort auf die Weiterleitungsantwort basierend wenigstens zum Teil auf Attributen des Schnüfflers bereitstellen.
In mindestens einem Beispiel entspricht der Schnüffler einer anderen Kohärenzprotokollnachricht durch einen anderen Agenten, welche der bestimmten Cache-Zeile entspricht, und die Attribute des Schnüfflers umfassen eine Identifikation des anderen Agenten, eine Identifikation eines Befehls, der in der anderen Kohärenzprotokollnachricht enthalten ist, und eine Transaktionskennung der anderen Kohärenzprotokollnachricht.
In mindestens einem Beispiel umfasst die Antwort auf die Weiterleitungsantwort eine Schnüfflerantwort, und die Protokollschichtlogik dient ferner zum Senden der Schnüfflerantwort an den Home-Agenten nach dem Empfang einer Fertigstellung der Kohärenzprotokollnachricht.
In mindestens einem Beispiel umfasst die Antwort ein Durchführen eines Rückschreibens in den Speicher vor dem Senden einer Schnüfflerantwort an den Home-Agenten.
In mindestens einem Beispiel wird die bestimmte Cache-Zeile am Agenten teilweise modifiziert.
Ein oder mehrere Beispiele können ferner ein Empfangen einer Fertigstellung nach dem Empfang der Weiterleitungsantwort bereitstellen.
Ein oder mehrere Beispiele können ferner ein Empfangen einer Fertigstellung vor dem Empfang der Weiterleitungsantwort bereitstellen.
Ein oder mehrere Beispiele können ferner ein Zuweisen einer Ressource für Antworten auf die Anforderung bereitstellen.
Ein oder mehrere Beispiele können ferner ein Zuweisen einer Weiterleitungsressource für eine Weiterleitungsantwort auf die Weiterleitungsanforderung bereitstellen.
Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren zum Empfangen einer ersten Kohärenzprotokollanforderung von einem ersten Cache-Agenten, Senden einer Schnüffelanforderung an einen zweiten Cache-Agenten, wobei die Schnüffelanforderung der ersten Kohärenzprotokollanforderung entspricht, Empfangen einer Weiterleitungsanforderung vom zweiten Cache-Agenten, die der Schnüffelanforderung entspricht, wobei die Weiterleitungsanforderung einen potenziellen Konflikt mit der ersten Kohärenzprotokollanforderung identifiziert, und Senden einer Weiterleitungsantwort an den zweiten Cache-Agenten in Reaktion auf die Weiterleitungsanforderung bereitstellen.
Ein oder mehrere Beispiele können ferner ein Empfangen einer anderen Kohärenzprotokollanforderung vom zweiten Cache-Agenten bereitstellen, wobei die erste Kohärenzprotokollanforderung und die andere Kohärenzprotokollanforderung jeweils eine gemeinsame Cache-Zeile betreffen.
In mindestens einem Beispiel wird die andere Kohärenzprotokollanforderung durch den Agenten vor der ersten Kohärenzprotokollanforderung empfangen, und die Protokollschichtlogik dient ferner zum Verarbeiten der anderen Kohärenzprotokollanforderung und Zurücksenden einer Fertigstellungsnachricht für die andere Kohärenzprotokollanforderung.
Ein oder mehrere Beispiele können ferner ein Empfangen einer Antwort vom zweiten Agenten auf die Weiterleitungsantwort und Erzeugen einer Fertigstellung für die erste Kohärenzprotokollanforderung bei Empfang der Antwort auf die Weiterleitungsantwort bereitstellen.
In mindestens einem Beispiel umfasst der Agent einen Home-Agenten.
Ein oder mehrere Beispiele können ferner ein System mit einer Zwischenverbindungs-Fabric, einem Home-Agenten zum Bearbeiten von Anforderungen für einen kohärenten Speicherbereich, und einen Cache-Agenten bereitstellen, der über die Zwischenverbindungs-Fabric kommunikativ mit dem Home-Agenten gekoppelt ist. Die Zwischenverbindungs-Fabric kann eine Reihenfolge der Antwort auf den Schnüffler und der Fertigstellung für die andere Kohärenzprotokollanforderung sicherstellen. Der Home-Agent kann einen Satz von Ressourcen aufweisen, und der Satz von Ressourcen ist Cache-Agenten im System nicht im Voraus zugewiesen.
Ein oder mehrere Beispiele können ferner einen Agenten mit einem Schichtprotokollstapel bereitstellen, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Initiieren einer Zuweisung von Ressourcen ohne Eingriff seitens des Home-Agenten dient, zum Verarbeiten der ersten Anforderung in Reaktion darauf dient, dass der Agent die erste Anforderung empfängt, und zum Initiieren einer Zuweisung von Ressourcen ohne Eingriff seitens des Home-Agenten dient, um Antworten auf eine zweite Anforderung in Reaktion darauf zu verarbeiten, dass der Agent die zweite Anforderung sendet.
In mindestens einem Beispiel umfasst die Zuweisung von Ressourcen eine von HTID, RNID, RTID oder einer Kombination davon.
In mindestens einem Beispiel umfasst die Zuweisung von Ressourcen eine von Ressourcen zum Verarbeiten von Schnüffelanforderungen und Weiterleitungsanforderungen.
Ein oder mehrere Beispiele können ferner einen Agenten mit einem Schichtprotokollstapel bereitstellen, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Imitieren der Verwendung eines geordneten Antwortkanals zum Durchführen von Konfliktlösung dient.
Ein oder mehrere Beispiele können ferner einen Kohärenzagenten mit einem Schichtprotokollstapel bereitstellen, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Blockieren einer Weiterleitung für eine Rückschreibanforderung dient, um Datenkonsistenz aufrechtzuerhalten.
In mindestens einem Beispiel dient die Protokollschicht zum Initiieren einer Rückschreibanforderung, um einen Commit für nicht zwischenspeicherbare Daten vor dem Verarbeiten der Weiterleitung auszuführen.
In mindestens einem Beispiel dient die Protokollschicht ferner zum Unterstützen von explizitem Rückschreiben von partiellen Cache-Zeilen.
Die Bezugnahme auf „eine bestimmte Ausführungsform” oder „eine beliebige Ausführungsform” bedeutet die gesamte Spezifikation hindurch, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Charakteristik, die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Demnach bezieht sich das Vorkommen der Ausdrücke „in einer bestimmten Ausführungsform” oder „in einer beliebigen Ausführungsform” an verschiedenen Stellen in der gesamten Spezifikation nicht unbedingt immer auf die gleiche Ausführungsform. Außerdem können die jeweiligen Merkmale, Strukturen oder Charakteristiken in einer oder mehreren Ausführungsformen in geeigneter Weise kombiniert werden.
In der vorstehenden Spezifikation erfolgte eine ausführliche Beschreibung unter Bezugnahme auf spezifische beispielhafte Ausführungsformen. Es ist jedoch offensichtlich, dass verschiedene Modifikationen und Änderungen daran vorgenommen werden können, ohne vom weiter gefassten Wesen und Schutzbereich der Erfindung, wie in den angehängten Ansprüchen dargelegt, abzuweichen. Demgemäß sind die Spezifikation und die Zeichnungen vielmehr in einem veranschaulichenden Sinn als einem einschränkenden Sinn zu betrachten. Außerdem bezieht sich die vorstehende Verwendung von „Ausführungsform” und anderer exemplarischer Ausdrucksweise nicht unbedingt auf die gleiche Ausführungsform oder das gleiche Beispiel, sondern kann sich auf andere und unterschiedliche Ausführungsformen sowie potenziell auf die gleiche Ausführungsform beziehen.

Claims

Vorrichtung, umfassend: einen Agenten, der eine Protokollschichtlogik umfasst zum: Senden einer Kohärenzprotokollnachricht, die einer bestimmten Cache-Zeile entspricht; Identifizieren eines potenziellen Konflikts, der die bestimmte Cache-Zeile einbezieht; und Senden einer Weiterleitungsanforderung an einen Home-Agenten, um den potenziellen Konflikt zu identifizieren.
Vorrichtung nach Anspruch 1, wobei die Protokollschichtlogik ferner zum Empfangen eines Schnüfflers dient, welcher der bestimmten Cache-Zeile entspricht.
Vorrichtung nach Anspruch 2, wobei die Nachricht eine Anforderung umfasst, welche die bestimmte Cache-Zeile einbezieht, die Protokollschichtlogik zum Identifizieren dient, dass der Schnüffler empfangen wird, während die Anforderung unerledigt ist, und der potenzielle Konflikt basierend auf dem Identifizieren, dass der Schnüffler empfangen wird, während die Anforderung unerledigt ist, identifiziert wird.
Vorrichtung nach Anspruch 2, wobei die Protokollschichtlogik ferner zum Empfangen einer Weiterleitungsantwort vom Home-Agenten dient, die auf der Weiterleitungsanforderung basiert.
Vorrichtung nach Anspruch 4, wobei die Protokollschichtlogik ferner zum Bestimmen einer Antwort auf die Weiterleitungsantwort wenigstens zum Teil basierend auf Attributen des Schnüfflers dient.
Vorrichtung nach Anspruch 5, wobei der Schnüffler einer anderen Kohärenzprotokollnachricht durch einen anderen Agenten entspricht, welche der bestimmten Cache-Zeile entspricht, und die Attribute des Schnüfflers eine Identifikation des anderen Agenten, eine Identifikation eines Befehls, der in der anderen Kohärenzprotokollnachricht enthalten ist, und eine Transaktionskennung der anderen Kohärenzprotokollnachricht umfassen.
Vorrichtung nach Anspruch 5, wobei die Antwort auf die Weiterleitungsantwort eine Schnüfflerantwort umfasst, und die Protokollschichtlogik ferner zum Senden der Schnüfflerantwort an den Home-Agenten nach dem Empfang einer Fertigstellung der Kohärenzprotokollnachricht dient.
Vorrichtung nach Anspruch 5, wobei die Antwort ein Durchführen eines Rückschreibens in den Speicher vor dem Senden einer Schnüfflerantwort an den Home-Agenten umfasst.
Vorrichtung nach Anspruch 8, wobei die bestimmte Cache-Zeile am Agenten teilweise modifiziert wird.
Vorrichtung nach Anspruch 4, wobei die Protokollschichtlogik ferner zum Empfangen einer Fertigstellung nach dem Empfang der Weiterleitungsantwort dient.
Vorrichtung nach Anspruch 4, wobei die Protokollschichtlogik ferner zum Empfangen einer Fertigstellung vor dem Empfang der Weiterleitungsantwort dient.
Vorrichtung nach Anspruch 1, wobei die Protokollschichtlogik ferner zum Zuweisen einer Ressource für Antworten auf die Anforderung dient.
Vorrichtung nach Anspruch 12, wobei die Protokollschichtlogik ferner zum Zuweisen einer Weiterleitungsressource für Weiterleitungsantworten auf die Weiterleitungsanforderung dient.
Vorrichtung, umfassend: einen Agenten, der eine Protokollschichtlogik umfasst zum: Empfangen einer ersten Kohärenzprotokollanforderung von einem ersten Cache-Agenten; Senden einer Schnüffelanforderung an einen zweiten Cache-Agenten, wobei die Schnüffelanforderung der ersten Kohärenzprotokollanforderung entspricht; Empfangen einer Weiterleitungsanforderung vom zweiten Cache-Agenten, die der Schnüffelanforderung entspricht, wobei die Weiterleitungsanforderung einen potenziellen Konflikt mit der ersten Kohärenzprotokollanforderung identifiziert; und Senden einer Weiterleitungsantwort an den zweiten Cache-Agenten in Reaktion auf die Weiterleitungsanforderung.
Vorrichtung nach Anspruch 14, wobei die Protokollschichtlogik ferner zum Empfangen einer anderen Kohärenzprotokollanforderung vom zweiten Cache-Agenten dient, wobei die erste Kohärenzprotokollanforderung und die andere Kohärenzprotokollanforderung jeweils eine gemeinsame Cache-Zeile betreffen.
Vorrichtung nach Anspruch 15, wobei die andere Kohärenzprotokollanforderung durch den Agenten vor der ersten Kohärenzprotokollanforderung empfangen wird, und die Protokollschichtlogik ferner zum Verarbeiten der anderen Kohärenzprotokollanforderung und Zurücksenden einer Fertigstellungsnachricht für die andere Kohärenzprotokollanforderung dient.
Vorrichtung nach Anspruch 15, wobei die Protokollschichtlogik ferner zum Empfangen einer Antwort vom zweiten Agenten auf die Weiterleitungsantwort und Erzeugen einer Fertigstellung für die erste Kohärenzprotokollanforderung bei Empfang der Antwort auf die Weiterleitungsantwort dient.
Vorrichtung nach Anspruch 14, wobei der Agent einen Home-Agenten umfasst.
Vorrichtung nach Anspruch 14, wobei die Protokollschichtlogik ferner zum Zuweisen einer Ressource für Antworten auf die Anforderung und Zuweisen einer Weiterleitungsressource für die Weiterleitungsantwort basierend auf der empfangenen Weiterleitungsanforderung dient.
Verfahren, umfassend: Empfangen einer ersten Kohärenzprotokollanforderung von einem ersten Cache-Agenten; Senden einer Schnüffelanforderung an einen zweiten Cache-Agenten, wobei die Schnüffelanforderung der ersten Kohärenzprotokollanforderung entspricht; Empfangen einer Weiterleitungsanforderung vom zweiten Cache-Agenten, die der Schnüffelanforderung entspricht, wobei die Weiterleitungsanforderung einen potenziellen Konflikt mit der ersten Kohärenzprotokollanforderung identifiziert; und Senden einer Weiterleitungsantwort an den zweiten Cache-Agenten in Reaktion auf die Weiterleitungsanforderung.
Verfahren nach Anspruch 20, ferner umfassend ein Empfangen einer anderen Kohärenzprotokollanforderung vom zweiten Cache-Agenten, wobei die erste Kohärenzprotokollanforderung und die andere Kohärenzprotokollanforderung jeweils eine gemeinsame Cache-Zeile betreffen.
Verfahren nach Anspruch 21, wobei die andere Kohärenzprotokollanforderung vor der ersten Kohärenzprotokollanforderung empfangen wird, wobei das Verfahren ferner umfasst: Verarbeiten der anderen Kohärenzprotokollanforderung; und Zurücksenden einer Fertigstellungsnachricht für die andere Kohärenzprotokollanforderung.
Verfahren nach Anspruch 21, ferner umfassend: Empfangen einer Antwort vom zweiten Agenten auf die Weiterleitungsantwort; und Erzeugen einer Fertigstellung für die erste Kohärenzprotokollanforderung in Reaktion auf den Empfang der Antwort auf die Weiterleitungsantwort.
System, umfassend: eine Zwischenverbindungs-Fabric; einen Home-Agenten, der Anforderungen für einen kohärenten Speicherbereich bearbeitet; einen Cache-Agenten, der über die Zwischenverbindungs-Fabric kommunikativ mit dem Home-Agenten gekoppelt ist, wobei der Cache-Agent dient zum: Senden einer Kohärenzprotokollnachricht, die einer bestimmten Cache-Zeile entspricht; und Empfangen eines Schnüfflers von einem Home-Agenten, welcher der bestimmten Cache-Zeile entspricht, basierend wenigstens zum Teil auf dem Schnüffler; Identifizieren eines potenziellen Konflikts, der die bestimmte Cache-Zeile einbezieht; und Senden einer Weiterleitungsanforderung an einen Home-Agenten, um den potenziellen Konflikt zu identifizieren.
System nach Anspruch 24, wobei der Home-Agent dient zum: Empfangen einer anderen Kohärenzprotokollanforderung von einem anderen Cache-Agenten; Senden des Schnüfflers, wobei der Schnüffler der Kohärenzprotokollanforderung entspricht; Empfangen der Weiterleitungsanforderung; Senden einer Weiterleitungsantwort an den Cache-Agenten in Reaktion auf die Weiterleitungsanforderung; Erzeugen einer Fertigstellung für die Kohärenzprotokollanforderung; und Erzeugen einer Fertigstellung für die andere Kohärenzprotokollanforderung.
System nach Anspruch 25, wobei der Cache-Agent ferner zum Bestimmen einer Antwort auf die Weiterleitungsantwort dient, wobei die Antwort auf die Weiterleitungsantwort so ist, dass sie ein Senden einer Antwort auf den Schnüffler an den Home-Agenten umfasst.
System nach Anspruch 26, wobei die Zwischenverbindungs-Fabric zum Sicherstellen der Reihenfolge der Antwort auf den Schnüffler und der Fertigstellung für die andere Kohärenzprotokollanforderung dient.
System nach Anspruch 24, wobei der Home-Agent einen Satz von Ressourcen aufweist, und der Satz von Ressourcen Cache-Agenten im System nicht im Voraus zugewiesen ist.
Vorrichtung, umfassend: einen Agenten mit einem Schichtprotokollstapel, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Initiieren einer Zuweisung von Ressourcen ohne Eingriff seitens des Home-Agenten dient zum Verarbeiten einer ersten Anforderung in Reaktion darauf, dass der Agent die erste Anforderung empfängt, und zum Initiieren einer Zuweisung von Ressourcen ohne Eingriff seitens des Home-Agenten dient, um Antworten auf eine zweite Anforderung in Reaktion darauf zu verarbeiten, dass der Agent die zweite Anforderung sendet.
Vorrichtung nach Anspruch 29, wobei die Zuweisung von Ressourcen eine von HTID, RNID, RTID oder einer Kombination davon umfasst.
Vorrichtung nach Anspruch 29, wobei die Zuweisung von Ressourcen eine von Ressourcen zum Verarbeiten von Schnüffelanforderungen und Weiterleitungsanforderungen umfasst.
Vorrichtung, umfassend: einen Agenten mit einem Schichtprotokollstapel, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Imitieren der Verwendung eines geordneten Antwortkanals zum Durchführen von Konfliktlösung dient.
Vorrichtung, umfassend: einen Kohärenzagenten mit einem Schichtprotokollstapel, der eine Protokollschicht umfasst, wobei die Protokollschicht zum Blockieren einer Weiterleitung für eine Rückschreibanforderung ist, um Datenkonsistenz aufrechtzuerhalten.
Vorrichtung nach Anspruch 33, wobei die Protokollschicht zum Initiieren einer Rückschreibanforderung dient, um einen Commit für nicht zwischenspeicherbare Daten vor dem Verarbeiten der Weiterleitung auszuführen.
Vorrichtung nach Anspruch 33, wobei die Protokollschicht ferner zum Unterstützen von explizitem Rückschreiben von partiellen Cache-Zeilen ist.