-
TECHNISCHES GEBIET
-
Die vorliegende Erfindung betrifft Vorrichtungen und Systeme zur verbesserten Nutzung von Datenverbindungen..
-
HINTERGRUND
-
Fortschritte bei Halbleiterverarbeitung und Logikdesign haben eine Zunahme der Menge an Logik erlaubt, die bei Geräten mit integrierten Schaltungen vorhanden sein kann. Demzufolge haben sich Konfigurationen von Computersystemen von einer einzelnen oder von mehreren integrierten Schaltungen in einem System zu mehreren Kernen, mehreren Hardware-Threads und mehreren logischen Prozessoren, die bei individuellen integrierten Schaltungen vorhanden sind, sowie zu anderen Schnittstellen, die innerhalb von solchen Prozessoren integriert sind, entwickelt. Ein Prozessor oder eine integrierte Schaltung umfasst typischerweise eine einzelne physikalische Prozessor-Chiplage, wobei die Prozessor-Chiplage jegliche Anzahl an Kernen, Hardware-Threads oder logischen Prozessoren, Schnittstellen, Speicher, Controller-Hubs usw. einschließen kann.
-
Infolge der größeren Fähigkeit, mehr Rechenleistung in kleinere Pakete hineinzubringen, haben kleinere Computergeräte an Popularität zugenommen. Smartphones, Tablets, ultraflache Notebooks und andere Teilnehmerendgeräte haben exponentiell zugenommen. Diese kleineren Geräte sind jedoch sowohl für Datenspeicherung als auch für komplexe Verarbeitung, die den Formfaktor überschreitet, von Servern abhängig. Daher hat die Nachfrage auf dem Hochleistungsrechnermarkt (d. h., Serverspeicherplatz) ebenfalls zugenommen. Zum Beispiel gibt es in modernen Servern normalerweise nicht nur einen einzelnen Prozessor mit mehreren Kernen, sondern auch mehrere physische Prozessoren (die auch als Mehrfachsockel bezeichnet werden), um die Rechenleistung zu erhöhen. Aber während die Rechenleistung zusammen mit der Anzahl an Geräten in einem Computersystem zunimmt, wird die Kommunikation zwischen Sockeln und anderen Bauelementen kritischer.
-
Tatsächlich sind Kopplungsstrukturen von traditionelleren Mehrpunktverbindungsbussen, die hauptsächlich elektrische Kommunikationen behandeln, zu voll ausgereiften Kopplungsstruktur-Architekturen gewachsen, die eine schnelle Kommunikation erleichtern. Unglücklicherweise werden die entsprechenden Anforderungen auf die Fähigkeiten von vorhandenen Kopplungsstruktur-Architekturen platziert, während die Nachfrage nach zukünftigen Prozessoren mit noch höheren Verbrauchsraten zunimmt.CN 101 867 452 A offenbart einen Point-to-Multipoint-Kommunikationsmodus, in dem Daten in Form von Frames übertragen werden. Ein Taktsignal wird in eine Datendarstellung eingebunden, bevor diese übertragen wird. Die Übertragung erfolgt mittels eines Kanals mit vierfacher Unterteilung.
-
Der Erfindung liegt die Aufgabe zugrunde, eine Datenverbindung effizient auszunutzen. Diese Aufgabe wird durch den Gegenstand der nebengeordneten beigefügten Ansprüche gelöst.
-
Figurenliste
-
- 1 veranschaulicht ein vereinfachtes Blockdiagramm eines Systems, das eine serielle Punkt-zu-Punkt-Kopplungsstruktur einschließt, um I/O-Geräte in einem Computersystem gemäß einer Ausführungsform zu verbinden;
- 2 veranschaulicht ein vereinfachtes Blockdiagramm eines Schichtenprotokollstapels gemäß einer Ausführungsform;
- 3 veranschaulicht eine Ausführungsform eines seriellen Punkt-zu-Punkt-Links.
- 4 veranschaulicht Ausführungsformen von potenziellen Hochleistungs-Kopplungsstruktur- (HPI) -Systemkonfigurationen.
- 5 veranschaulicht eine Ausführungsform eines mit einer HPI verbundenen Schichtenprotokollstapels.
- 6 veranschaulicht eine Repräsentation eines beispielhaften Mehrslot-Flits.
- 7 veranschaulicht eine Darstellung eines beispielhaften Flits, das über einen beispielhaften Datenlink mit acht Bahnen gesendet wird.
- 8 veranschaulicht eine Darstellung eines beispielhaften Flits, das über einen beispielhaften Datenlink mit acht Bahnen gesendet wird.
- 9 veranschaulicht eine Repräsentation eines beispielhaften Flits, das über einen beispielhaften Datenlink mit zwanzig Bahnen gesendet wird.
- 10 veranschaulicht eine Repräsentation der Verwendung eines beispielhaften gleitenden Nutzdatenfeldes eines beispielhaften Mehrslot-Flits.
- 11 veranschaulicht eine Ausführungsform eines Blocks für ein beispielhaftes Computersystem.
-
Gleiche Bezugsnummern und Bezeichnungen in den verschiedenen Zeichnungen verweisen auf ähnliche Elemente.
-
AUSFÜHRLICHE BESCHREIBUNG
-
In der folgenden Beschreibung sind zahlreiche konkrete Angaben dargelegt, wie Beispiele von bestimmten Typen von Prozessoren und Systemkonfigurationen, bestimmte Hardware-Anordnungen, bestimmte Details über Architektur und Mikroarchitektur, spezielle Registerkonfigurationen, spezielle Befehlstypen, spezielle Systemkomponenten, spezielle Prozessor-Pipeline-Stufen, spezielle Kopplungsstrukturschichten, spezielle Paket-/Transaktionskonfigurationen, spezielle Transaktionsnamen, spezielle Protokoll-Austauschvorgänge, spezielle Linkbreiten, spezielle Implementierungen und Operation usw., um ein gründliches Verständnis der vorliegenden Erfindung zu gewährleisten. Für einen Fachmann ist es jedoch offensichtlich, dass diese spezifischen Details nicht notwendigerweise eingesetzt werden müssen, um den Gegenstand der vorliegenden Offenbarung umzusetzen. In anderen Fällen wurde die gut detailliert Beschreibung von bekannten Komponenten oder Verfahren, wie z. B. spezielle und alternative Prozessorarchitekturen, spezielle Logikschaltungen/spezieller Code für beschriebene Algorithmen, spezieller Firmware-Code, spezielle Verbindungsoperationen auf niedriger Ebene, spezielle Logikkonfigurationen, spezielle Herstellungstechniken und Materialien, spezielle Compiler-Implementierungen, spezielle Umsetzung von Algorithmen in Code, spezielle Abschaltvorgangs- und Gating-Techniken/Logik und andere spezielle Betriebseinzelheiten von Computersystemen nicht ausführlich beschrieben, um eine unnötige Verschleierung der vorliegenden Erfindung zu vermeiden.
-
Obwohl die folgenden Ausführungsformen unter Bezugnahme auf Energieeinsparung, Energieeffizienz, Verarbeitungseffizienz und so weiter bei speziellen integrierten Schaltungen wie bei Computerplattformen oder Mikroprozessoren beschrieben sein können, sind andere Ausführungsformen auf andere Arten von integrierten Schaltungen und Logikbaugruppen anwendbar. Ähnliche Techniken und Lehren von hier beschriebenen Ausführungsformen können auf andere Arten von Schaltungen oder Halbleiterbauelementen angewandt werden, die auch aus diesen Merkmalen Nutzen ziehen können. Beispielsweise sind die offenbarten Ausführungsformen nicht auf Server-Computersysteme, Desktop-Computer-Systeme, Laptops, Ultrabooks™ begrenzt, sondern können auch in anderen Geräten, wie Handgeräten, Smartphones, Tablets, anderen dünnen Notebooks, Systemen auf einem Chip- (SOC) -Geräten und Embedded-Anwendungen verwendet werden. Einige Beispiele von Handheld-Geräten sind u. a. Mobiltelefone, Internet-Protokollgeräte, Digitalkameras, Personal Digital Assistants (PDAs) und Handheld-PCs. Hier können ähnliche Techniken für eine Hochleistungs-Kopplungsstruktur angewandt werden, um die Leistung bei einer Niedrigenergie-Kopplungsstruktur zu erhöhen (oder gar Energie zu sparen). Eingebettete Anwendungen schließen normalerweise u. a. einen Mikrocontroller, digitalen Signalprozessor (DSP), ein System auf einem Chip, Netzwerkcomputer (NetPC), Settop-Boxen, Netzwerkhubs, Wide Area Network- (WAN) -Switches oder andere Systeme ein, welche die nachstehend gelehrten Funktionen und Operationen durchführen können. Des Weiteren sind die hier beschriebenen Vorrichtungen, Verfahren und Systeme nicht auf physische Computergeräte begrenzt, sondern können auch Softwareoptimierungen für Energieeinsparung und -effizienz betreffen. Wie ohne Weiteres offensichtlich in der nachfolgenden Beschreibung, können die Ausführungsformen von hier beschriebenen Verfahren, Vorrichtungen und Systemen (ob unter Bezugnahme auf Hardware, Firmware, Software oder eine Kombination davon) ausgeglichen mit Leistungsüberlegungen als für eine „grüne Technologie“-Zukunft entscheidend angesehen werden.
-
Während Computersysteme sich weiterentwickeln, werden die Komponenten darin komplexer. Die Kopplungsstruktur-Architektur, um zwischen den Komponenten zu koppeln und zu kommunizieren, hat auch an Komplexität zugenommen, um sicherzustellen, dass die Nachfrage nach Bandbreite für einen optimalen Komponentenbetrieb befriedigt wird. Des Weiteren erfordern unterschiedliche Marktsegmente unterschiedliche Aspekte von Kopplungsstruktur-Architekturen, sodass sie sich für den entsprechenden Markt eignen. Beispielsweise erfordern Server eine höhere Leistung, während das mobile Ökosystem manchmal in der Lage ist, die Gesamtleistung für Energieeinsparungen zu opfern. Und doch ist es ein singulärer Zweck von den meisten Gefügen, die höchstmögliche Leistung mit maximaler Energieeinsparung bereitzustellen. Weiter kann eine Vielzahl von unterschiedlichen Kopplungsstrukturen potenziell aus dem hier beschriebenen Gegenstand einen Nutzen ziehen. Die Peripheral Component Interconnect (PCI) Express (PCIe)-Kopplungsstrukturgefüge-Architektur und die QuickPath Interconnect- (QPI) -Gefüge-Architektur können beispielsweise neben anderen Beispielen potenziell gemäß einem oder mehreren hier beschriebenen Prinzipien neben anderen Beispielen verbessert werden.
-
1 veranschaulicht eine Ausführungsform eines Gefüges bestehend aus Punkt-zu-Punkt-Links, die einen Satz von Komponenten verbinden. Das System 100 schließt Prozessor 105 und Systemspeicher 110 gekoppelt mit dem Controller-Hub 115 ein. Der Prozessor 105 kann beliebige Verarbeitungselemente, wie z. B. einen Mikroprozessor, einen Hostprozessor, einen eingebetteten Prozessor, einen Koprozessor oder anderen Prozessor einschließen. Der Prozessor 105 ist über den Front-Side-Bus (FSB) 106 mit dem Controller-Hub 115 gekoppelt. Bei einer Ausführungsform ist der FSB 106 eine serielle Punkt-zu-Punkt-Kopplungsstruktur, wie sie nachfolgend beschrieben wird. Bei einer weiteren Ausführungsform schließt der Link 106 eine serielle, differenzielle Kopplungsstruktur-Architektur ein, die einem unterschiedlichen Kopplungsstruktur-Standard entspricht.
-
Der Systemspeicher 110 umfasst eine beliebige Speichereinheit, wie einen Random Access Memory (RAM), nichtflüchtigen (NV) Speicher oder einen anderen Speicher, der für die Komponenten des Systems 100 zugänglich ist. Der Systemspeicher 110 ist über die Speicherschnittstelle 116 mit dem Controller-Hub 115 gekoppelt. Beispiele einer Speicherschnittstelle schließen eine Doppel-Datenrate- (DDR) -Speicherschnittstelle, eine zweikanalige DDR-Speicherschnittstelle und eine dynamischer RAM- (DRAM) - Speicherschnittstelle ein.
-
Bei einer Ausführungsform kann der Controller-Hub 115 einen Root-Hub, Root-Komplex oder Root-Controller wie in einer PCIe-Verbindungshierarchie einschließen. Beispiele eines Controller-Hubs 115 schließen einen Chipsatz, Memory-Controller-Hub (MCH), eine Northbridge, einen Kopplungsstruktur-Controller-Hub (ICH), eine Southbridge und einen Root-Controller/-Hub ein. Häufig verweist der Begriff Chipsatz auf zwei physikalisch getrennte Controller-Hubs, wie beispielsweise einen Memory-Controller-Hub (MCH), der mit einem Kopplungsstruktur-Controller-Hub (ICH) gekoppelt ist. Zu beachten ist, dass gegenwärtige Systeme häufig den MCH integriert im Prozessor 105 einschließen, während der Controller 115 mit I/O-Geräten in ähnlicher Weise wie nachfolgend beschrieben kommuniziert. Bei einigen Ausführungsformen wird das Peer-To-Peer-Routing optional durch Root-Komplex 115 unterstützt.
-
Hier ist der Controller-Hub 115 durch den seriellen Link 119 mit Switch/Brücke 120 gekoppelt. Die I/O-Module 117 und 121, die auch als Schnittstellen/Ports 117 und 121 bezeichnet werden können, können einen Schichtenprotokollstapel zum Bereitstellen der Kommunikation zwischen dem Controller-Hub 115 und Switch 120 einschließen/implementieren. Bei einer Ausführungsform sind mehrere Geräte fähig, mit dem Switch 120 gekoppelt zu werden.
-
Switch/Brücke 120 routet Pakete/Nachrichten von Gerät 125 Upstream, d. h., eine Hierarchie in Richtung auf einen Root-Komplex nach oben zum Controller-Hub 115, und Downstream, d. h., eine Hierarchie nach unten weg von einem Root-Controller von Prozessor 105 oder Systemspeicher 110 zum Gerät 125. Der Switch 120 wird bei einer Ausführungsform als eine logische Baugruppe von mehreren virtuellen PCI-zu-PCI-Brücken-Geräten bezeichnet. Das Gerät 125 umfasst jedes interne oder externe Gerät oder jede Komponente, die an ein elektronisches System gekoppelt wird, wie z. B. an ein I/O-Gerät, einen Netzwerk-Interface-Controller (NIC), eine Add-in-Karte, einen Audioprozessor, einen Netzwerkprozessor, ein Festplattenlaufwerk, ein Speichergerät, ein CD-/DVD-ROM, einen Monitor, einen Drucker, eine Maus, eine Tastatur, einen Router, ein tragbares Speichergerät, ein Firewire-Gerät, ein Universal Serial Bus- (USB) -Gerät, einen Scanner und andere Eingabe-/Ausgabegeräte. Häufig wird im PCIe-Fachjargon ein solches Gerät als ein Endpunkt bezeichnet. Obwohl nicht speziell gezeigt, kann das Gerät 125 eine Brücke (z. B. eine PCIe-zu-PCI/PCI-X-Brücke) einschließen, um Legacy- oder andere Versionen von Geräten oder von solchen Geräten unterstützte Kopplungsstrukturgefüge zu unterstützen.
-
Ein Grafikbeschleuniger 130 kann ebenfalls durch einen seriellen Link 132 mit dem Controller-Hub 115 gekoppelt sein. Bei einer Ausführungsform ist der Grafikbeschleuniger 130 mit einem MCH gekoppelt, der mit einem ICH gekoppelt ist. Der Switch 120 und demgemäß I/O-Gerät 125 ist dann mit dem ICH gekoppelt. Die I/O-Module 131 und 118 implementieren auch einen mehrschichtigen Protokollstapel und verbundene Logik zum Kommunizieren zwischen dem Grafikbeschleuniger 130 und dem Controller-Hub 115. Ähnlich der vorstehenden MCH-Erörterung kann ein Grafikcontroller oder der Grafikbeschleuniger 130 selbst im Prozessor 105 integriert sein.
-
Unter jetziger Bezugnahme auf 2 ist eine Ausführungsform eines Schichtenprotokollstapels veranschaulicht. Der Schichtenprotokollstapel 200 kann jede Form eines Schichtenkommunikationsstapels wie einen QPI-Stapel, einen PCIe-Stapel, einen HPI-Stapel der nächsten Generation oder einen anderen Schichtstapel einschließen. Bei einer Ausführungsform kann der Protokollstapel 200 die Transaktionsschicht 205, die Linkschicht 210 und die physikalische Schicht 220 einschließen. Eine Schnittstelle wie die Schnittstellen 117, 118, 121, 122, 126 und 131 in 1 kann als Kommunikationsprotokollstapel 200 dargestellt sein. Die Darstellung als ein Kommunikationsprotokollstapel kann auch als ein Modul oder eine Schnittstelle bezeichnet werden, die einen Protokollstapel implementiert/einschließt.
-
Pakete können verwendet werden, um Informationen zwischen Komponenten zu kommunizieren. Pakete können in der Transaktionsschicht 205 und der Datenlinkschicht 210 gebildet sein, um die Informationen von der Sendekomponente zur Empfangskomponente zu transportieren. Während die übertragenen Pakete durch die anderen Schichten fließen, werden sie durch zusätzliche Informationen erweitert, die nötig sind, um Pakete auf diesen Schichten zu behandeln. Auf der Empfangsseite erfolgt der umgekehrte Prozess und die Pakete werden von der Darstellung ihrer physikalischen Schicht 220 zur Darstellung der Datenlinkschicht 210 und schließlich (für Transaktionsschichtpakete) in die Form umgewandelt, die von der Transaktionsschicht 205 des Empfangsgeräts verarbeitet werden kann.
-
Bei einer Ausführungsform kann die Transaktionsschicht 205 eine Schnittstelle zwischen einem Prozessorkern eines Gerätes und der Kopplungsstruktur-Architektur wie der Datenlinkschicht 210 und der physikalischen Schicht 220 bereitstellen. In dieser Hinsicht kann eine Hauptverantwortung der Transaktionsschicht 205 das Zusammenfügen und Zerlegen von Paketen (d. h., Transaktionsschichtpaketen oder TLPs) einschließen. Die Übersetzungsschicht 205 kann auch kreditbasierte Flusssteuerung für TLPs verwalten. Bei einigen Implementierungen können Aufteilungstransaktionen, d. h., Transaktionen, wo Anfrage und Antwort durch Zeit getrennt sind, verwendet werden, die einem Link ermöglichen, anderen Verkehr zu transportieren, während das Zielgerät u. a. Daten für die Antwort sammelt.
-
Kreditbasierte Flusssteuerung kann verwendet werden, um virtuelle Kanäle und Netzwerke zu realisieren, die das Kopplungsstrukturgefüge verwenden. Bei einem Beispiel kann ein Gerät eine Anfangsmenge von Krediten für jeden der Empfangspuffer in der Transaktionsschicht 205 anbieten. Ein externes Gerät am entgegengesetzten Ende des Links, wie Controller-Hub 115 in 1, kann die Anzahl der von jedem TLP verbrauchten Kredite zählen. Eine Transaktion kann gesendet werden, wenn die Transaktion keine Kreditgrenze überschreitet. Nach dem Empfangen einer Antwort wird eine Kreditmenge wiederhergestellt. Ein Beispiel eines Vorteils neben anderen potenziellen Vorteilen solch eines Kreditschemas ist, dass die Latenzzeit der Kreditrückgabe die Leistung nicht beeinträchtigt, vorausgesetzt, dass die Kreditgrenze nicht erreicht wird.
-
Bei einer Ausführungsform können vier Transaktionsadressbereiche einen Konfigurationsadressbereich, einen Speicheradressbereich, einen Ein-/Ausgabe-Adressbereich und einen Nachrichtenadressbereich einschließen. Speicherplatztransaktionen schließen ein oder mehrere aus Leseanfragen und Schreibanfragen ein, um Daten an einen/von einem speicherzugeordneten Ort zu übertragen. Bei einer Ausführungsform sind Speicherplatztransaktionen fähig, zwei unterschiedliche Befehlstypen, wie beispielsweise, ein kurzes Adressformat wie eine 32-Bit-Adresse oder ein langes Adressformat wie eine 64-Bit-Adresse zu verwenden. Konfigurationsraumtransaktionen können verwendet werden, um auf Konfigurationsraum von verschiedenen mit der Kopplungsstruktur verbundenen Geräten zuzugreifen. Transaktionen bezüglich des Konfigurationsraums können Leseanfragen und Schreibanfragen einschließen. Nachrichtenraumtransaktionen (oder einfach Nachrichten) können auch definiert sein, um In-Band-Kommunikation zwischen Kopplungsstruktur-Agenten zu unterstützen. Deshalb kann bei einer beispielhaften Ausführungsform die Transaktionsschicht 205 Paketheader/-nutzdaten 206 zusammenfügen.
-
Eine Linkschicht 210, die auch als Datenlinkschicht 210 bezeichnet wird, kann als eine Zwischenstufe zwischen der Transaktionsschicht 205 und der physikalischen Schicht 220 agieren. Bei einer Ausführungsform liegt eine Verantwortung der Datenlinkschicht 210 darin, einen zuverlässigen Mechanismus bereitzustellen, um Transaktionsschichtpakete (TLPs) zwischen zwei Komponenten bei einem Link auszutauschen. Eine Seite der Datenlinkschicht 210 akzeptiert TLPs, die von der Transaktionsschicht 205 zusammengefügt sind, wendet die Paketsequenzkennung 211, d. h., eine Identifikationsnummer oder Paketnummer, an, berechnet einen Fehlererkennungscode und wendet ihn an, d. h., CRC 212, und unterbreitet die modifizierten TLPs der physikalischen Schicht 220 zur Übertragung über eine physikalische zu einem externen Gerät.
-
Bei einem Beispiel schließt die physikalische Schicht 220 den logischen Unterblock 221 und den elektrischen Unterblock 222 ein, um ein Paket physikalisch zu einem externen Gerät zu senden. Hier ist der logische Unterblock 221 für die „digitalen“ Funktionen der physikalischen Schicht 221 verantwortlich. In dieser Hinsicht kann der logische Unterblock einen Sendeteil einschließen, um ausgehende Informationen für die Übertragung durch den physikalischen Unterblock 222 vorzubereiten, und einen Empfängerteil, um empfangene Informationen vor dem Weitergeben an die Linkschicht 210 zu bestimmen und vorzubereiten.
-
Der physikalische Block 222 schließt einen Sender und einen Empfänger ein. Der Sender wird durch den logischen Unterblock 221 mit Symbolen versorgt, die der Sender serialisiert und zu einem Peripheriegerät sendet. Der Empfänger wird mit serialisierten Symbolen von einem Peripheriegerät versorgt und transformiert die empfangenen Signale in einen Bitstrom. Der Bitstrom wird deserialisiert und an den logischen Unterblock 221 bereitgestellt. Bei einer beispielhaften Ausführungsform wird ein 8b/10b-Übertragungscode eingesetzt, wobei Zehn-Bit-Symbole gesendet/empfangen werden. Hier werden spezielle Symbole verwendet, um ein Paket mit den Frames 223 zu bilden. Außerdem stellt bei einem Beispiel der Empfänger auch einen Symboltakt bereit, der vom eingehenden seriellen Strom wiedergewonnen wurde.
-
Obwohl die Transaktionsschicht 205, Linkschicht 210 und physikalische Schicht 220 wie vorstehend angegeben unter Bezugnahme auf eine spezielle Ausführungsform eines Protokollstapels (wie ein PCle-Protokoll-Stapel) beschrieben wird, ist ein Schichtenprotokollstapel in dieser Hinsicht nicht eingeschränkt. Tatsächlich kann jedes Schichtenprotokoll eingeschlossen/implementiert sein und hier beschriebene Merkmale übernehmen. Als ein Beispiel kann ein Port/eine Schnittstelle, der/die als ein Schichtenprotokoll dargestellt ist, Folgendes einschließen: (1) eine erste Schicht, um Pakete zusammenzufügen, d. h., eine Transaktionsschicht; eine zweite Schicht, um Pakete zu sequentialisieren, d. h., eine Linkschicht; und eine dritte Schicht, um die Pakete zu senden, d. h., eine physikalische Schicht. Als ein spezielles Beispiel wird ein HPI-Schichtenprotokoll wie hiernach beschrieben verwendet.
-
Unter jetziger Bezugnahme auf 3 ist eine beispielhafte Ausführungsform eines seriellen Punkt-zu-Punkt-Gefüges veranschaulicht. Ein serieller Punkt-zu-Punkt-Link kann jeden Übertragungsweg für das Senden von seriellen Daten einschließen. Bei der gezeigten Ausführungsform kann ein Link zwei differenziell angesteuerte Niederspannungssignalpaare einschließen: ein Sendepaar 306/311 und ein Empfangspaar 312/307. Dementsprechend schließt das Gerät 305 die Sendelogik 306 ein, um Daten zum Gerät 310 zu senden, und die Empfangslogik 307, um Daten vom Gerät 310 zu empfangen. Es sind mit anderen Worten zwei Sendepfade, d. h., die Pfade 316 und 317, und zwei Empfangspfade, d. h., die Pfade 318 und 319, bei einigen Implementierungen eines Links eingeschlossen.
-
Ein Übertragungsweg verweist auf jeden Pfad für das Senden von Daten, wie eine Sendeleitung, eine Kupferleitung, eine optische Leitung, ein drahtloser Kommunikationskanal, ein Infrarotkommunikationslink oder ein anderer Kommunikationspfad. Eine Verbindung zwischen zwei Geräten, wie Gerät 305 und Gerät 310, wird als ein Link bezeichnet, wie beispielsweise Link 315. Ein Link kann eine Bahn unterstützen - jede Bahn stellt einen Satz von Differenzsignalpaaren (ein Paar für Senden, ein Paar für Empfangen) dar. Um Bandbreite zu skalieren, kann ein Link mehrere durch xN bezeichnete Bahnen ansammeln, wobei N jede unterstützte Linkbreite ist wie 1, 2, 4, 8, 12, 16, 32, 64 oder breiter.
-
Ein Differenzpaar kann auf zwei Übertragungspfade, wie die Leitungen 316 und 317 verweisen, um Differenzsignale zu senden. Wenn beispielsweise die Leitung 316 von einem niedrigen Spannungspegel zu einem hohen Spannungspegel umschaltet, d. h., eine ansteigende Flanke, geht Leitung 317 von einem hohen Logikpegel zu einem niedrigen Logikpegel über, d. h., eine fallende Flanke. Differenzsignale weisen neben anderen beispielhaften Vorteilen potenziell bessere elektrische Eigenschaften auf, wie bessere Signalintegrität, d. h., Kreuzkopplung, Spannungsüberschreitung/-unterschreitung, Klingeln. Dies erlaubt ein besseres Zeitfenster, das schnellere Sendefrequenzen ermöglicht.
-
Bei einer Ausführungsform wird eine neue HPI bereitgestellt. Die HPI kann eine cachekohärente, linkbasierte Kopplungsstruktur der nächsten Generation einschließen. Als ein Beispiel kann die HPI in Hochleistungs-Computing-Plattformen wie Workstations oder Servern verwendet werden einschließlich in Systemen, bei denen PCIe oder ein anderes Kopplungsstruktur-Protokoll normalerweise verwendet wird, um Prozessoren, Beschleuniger, I/O-Geräte und dergleichen zu verbinden. Die HPI ist jedoch dahin gehend nicht eingeschränkt. Statt dessen kann die HPI in jeglichen der hier beschriebenen Systemen oder Plattformen verwendet werden. Des Weiteren können die individuellen entwickelten Ideen auf andere Kopplungsstrukturen und Plattformen wie PCIe, MIPI, QPI usw. angewandt werden.
-
Um mehrere Geräte bei einer beispielhaften Implementierung zu unterstützen, kann die HPI eine Befehlssatzarchitektur- (ISA) -Agnostik einschließen (d. h., HPI kann bei mehreren unterschiedlichen Geräten implementiert sein). Bei einem weiteren Szenarium kann die HPI auch verwendet werden, um hochleistungsfähige I/O-Geräte und nicht nur Prozessoren oder Beschleuniger zu verbinden. Beispielsweise kann ein hochleistungsfähiges PCIe-Gerät mit der HPI durch eine geeignete Übersetzungsbrücke (d. h., HPI zu PCIe) gekoppelt werden. Des Weiteren können die HPI-Links von vielen HPI-basierten Geräten wie Prozessoren auf verschiedene Arten und Weisen verwendet werden (z. B. Sterne, Ringe, Maschen usw.). 4 veranschaulicht beispielhafte Implementierungen von mehreren potenziellen Multi-Sockel-Konfigurationen. Eine Zwei-Sockel-Konfiguration 405 kann wie dargestellt zwei HPI-Links einschließen; Bei anderen Implementierungen, kann jedoch ein HPI-Link verwendet sein. Für größere Topologien kann jede Konfiguration verwendet werden, solange ein Identifikator (ID) zuweisbar ist und es eine Form von einen virtuellen Pfad gibt, neben anderen zusätzlichen Merkmalen oder Ersatzmerkmalen. Wie bei einem Beispiel gezeigt, weist eine Vier-Sockel-Konfiguration 410 einen HPI-Link von jedem Prozessor zu einem anderen auf. Aber bei der Acht-Sockel-Implementierung, die in der Konfiguration 415 gezeigt ist, ist nicht jeder Sockel direkt miteinander durch einen HPI-Link verbunden. Wenn jedoch ein virtueller Pfad oder Kanal zwischen den Prozessoren existiert, wird die Konfiguration unterstützt. Ein Bereich von unterstützten Prozessoren schließt 2-32 in einer nativen Domäne ein. Höhere Anzahlen an Prozessoren können neben anderen Beispielen durch Verwenden von mehreren Domains oder anderen Kopplungsstrukturen zwischen Knoten-Controllern erreicht werden.
-
Die HPI Architektur schließt eine Definition einer Schichtenprotokoll-Architektur ein, die bei einigen Beispielen Protokollschichten (kohärente, inkohärente und optional andere speicherbasierte Protokolle), eine Routing-Schicht, eine Linkschicht und eine physikalische Schicht einschließt. Darüber hinaus kann die HPI weiter Erweiterungen einschließen, die neben anderen Beispielen mit Power Managern (wie Power Control Units (PCUs)), Design für Prüfung und Debug (DFT), Fehlerbehandlung, Registern, Sicherheit in Zusammenhang stehen. 5 veranschaulicht eine Ausführungsform eines beispielhaften HPI-Schichtenprotokollstapels. Bei einigen Implementierungen können wenigstens einige der in 5 veranschaulichten Schichten optional sein. Jede Schicht befasst sich mit seiner eigenen Granularitätsebene oder Menge an Informationen (die Protokollschicht 505a,b mit den Paketen 530, die Linkschicht 510a,b mit den Flits 535 und die physikalische Schicht 505a,b mit den Phits 540). Zu beachten ist, dass ein Paket bei einigen Ausführungsformen partielle Flits, ein einzelnes Flit oder mehrere Flits basierend auf der Implementierung einschließen kann.
-
Als ein erstes Beispiel schließt eine Breite einer Phit 540 eine 1-zu-1-Zuordnung der Linkbreite zu Bits ein (z. B. eine 20-Bit-Linkbreite schließt eine Phit von 20 Bits ein usw.). Flits können eine größere Größe wie 184, 192 oder 200 Bits aufweisen. Zu beachten ist, dass, wenn die Phit 540 20 Bit breit ist und die Größe von Flit 535 184 Bit beträgt, dann benötigt es eine Bruchzahl der Phits 540, um ein Flit 535 zu senden (z. B. 9,2 Phits bei 20 Bits, um ein 184 Bit-Flit 535 zu senden, oder 9,6 bei 20 Bits, um ein 192-Bit-Flit zu senden, neben anderen Beispielen). Zu beachten ist, dass die Breiten des elementaren Links auf der physikalischen Schicht variieren können. Beispielsweise kann die Anzahl an Bahnen pro Anweisung 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24 usw. einschließen. Bei einer Ausführungsform ist die Linkschicht 510a,b fähig, mehrere Teile von unterschiedlichen Transaktionen in einem einzelnen Flit einzubetten, und ein oder mehrere Header (z. B. 1, 2, 3, 4) können innerhalb des Flits eingebettet sein. Bei einem Beispiel teilt die HPI die Header in entsprechende Slots auf, um mehrfache Nachrichten in dem für unterschiedliche Knoten bestimmten Flit zu ermöglichen.
-
Die physikalische Schicht 505a,b kann bei einer Ausführungsform für die schnelle Informationsübertragung auf dem physikalischen Medium (elektrisch oder optisch usw.) verantwortlich sein. Der physikalische Link kann zwischen zwei Linkschicht-Entitäten, wie Schicht 505a und 505b, Punkt-zu-Punkt sein. Die Linkschicht 510a,b kann die physikalische Schicht 505a,b von den oberen Schichten abstrahieren und stellt das Vermögen bereit, Daten (sowie Anfragen) zuverlässig zu übertragen und die Flusssteuerung zwischen zwei direkt verbundenen Entitäten zu verwalten. Die Linkschicht kann auch für das Virtualisieren des physikalischen Kanals in mehrere virtuelle Kanäle und Nachrichtenklassen verantwortlich sein. Die Protokollschicht 520a,b vertraut auf die Linkschicht 510a,b, um Protokollnachrichten in die geeigneten Nachrichtenklassen und virtuellen Kanäle zuzuordnen, bevor sie an die physikalische Schicht 505a,b zur Übertragung über die physikalischen Links übergeben werden. Die Linkschicht 510a,b kann neben anderen Beispielen mehrfache Nachrichten wie eine Anfrage, Snoop-Antwort, ein Rückschreiben, inkohärente Daten unterstützen.
-
Die physikalische Schicht 505a,b (oder PHY) der HPI kann über der elektrischen Schicht (d. h., elektrische Leiter, die zwei Komponenten verbinden) und unter der Linkschicht 510a,b implementiert sein, wie veranschaulicht in 5. Die physikalische Schicht und entsprechende Logik können sich bei jedem Agenten befinden und die Linkschichten bei zwei Agenten (A und B) getrennt voneinander (z. B. bei Geräten auf beiden Seiten eines Links) verbinden. Die lokalen und entfernten elektrischen Schichten sind durch physikalische Medien (z. B. Drähte, Leiter, optisch usw.) verbunden. Die physikalische Schicht 505a,b hat bei einer Ausführungsform zwei wesentliche Phasen, Initialisierung und Betrieb. Während der Initialisierung ist die Verbindung zur Linkschicht undurchsichtig und Signalisierung kann eine Kombination von getimten Zuständen und Handshake-Ereignissen einbeziehen. Während des Betriebs ist die Verbindung zur Linkschicht durchsichtig und die Signalisierung erfolgt bei einer Geschwindigkeit, wobei alle Bahnen zusammen als ein einzelner Link arbeiten. Während der Betriebsphase transportiert die physikalische Schicht Flits vom Agenten A zum Agenten B und vom Agenten B zum Agenten A. Die Verbindung wird auch als ein Link bezeichnet und abstrahiert einige physikalische Aspekte, die Medien, Breite und Geschwindigkeit von den Linkschichten einschließen, während Flits und Steuerung/Status der gegenwärtigen Konfiguration (z. B. Breite) mit der Linkschicht ausgetauscht werden. Die Initialisierungsphase schließt untergeordnete Phasen, wie z. B. Abfrage, Konfiguration, ein. Die Betriebsphase schließt untergeordnete Phasen (z. B. Link-Power-Management-Zustände) ein.
-
Bei einer Ausführungsform kann die Linkschicht 510a,b implementiert sein, um eine zuverlässige Datenübertragung zwischen zwei Protokoll- oder Rounting-Entitäten bereitzustellen. Die Linkschicht kann die physikalische Schicht 505a,b von der Protokollschicht 520a,b abstrahieren und kann für die Flusssteuerung zwischen zwei Protokoll-Agenten (A, B) verantwortlich sein und virtuelle Kanal-Dienste an die Protokollschicht (Nachrichtenklassen) und Routing-Schicht (Virtuelle Netzwerke) bereitstellen. Die Schnittstelle zwischen der Protokollschicht 520a,b und der Linkschicht 510a,b kann sich normalerweise auf der Paketebene befinden. Bei einer Ausführungsform wird die kleinste Transfereinheit auf der Linkschicht als ein Flit mit einer bestimmten Anzahl von Bits bezeichnet, wie 192 Bits, oder mit einer anderen Bezeichnung. Die Linkschicht 510a,b vertraut auf die physikalische Schicht 505a,b um die Übertragungseinheit der physikalischen Schicht 505a,b (Phit) in die Übertragungseinheit der Linkschicht 510a,b (Flit) zu bilden. Außerdem kann die Linkschicht 510a,b logisch in zwei Teile, einen Sender und einen Empfänger, aufgebrochen sein. Ein Sender/Empfänger-Paar bei einer Entität kann mit einem Empfänger/Sender-Paar bei einer anderen Entität verbunden sein. Flusssteuerung wird häufig sowohl auf einer Flit- als auch auf einer Paketbasis ausgeführt. Fehlererkennung und -korrektur wird auch potenziell auf einer Flitebenen-Basis ausgeführt.
-
Bei einer Ausführungsform kann die Routing-Schicht 515a,b ein flexibles und verteiltes Verfahren bereitstellen, um HPI-Transaktionen von einer Quelle zu einem Ziel zu routen. Das Schema ist flexibel, da Routing-Algorithmen für mehrere Topologien durch programmierbare Routing-Tabellen bei jedem Router spezifiziert sein können (die Programmierung wird bei einer Ausführungsform durch Firmware, Software oder eine Kombination davon ausgeführt). Die Routing-Funktionalität kann verteilt sein; das Routing kann durch eine Serie von Routing-Schritten erfolgen, wobei jeder Routing-Schritt durch ein Nachschlagen einer Tabelle entweder bei den Quell-, Zwischen- oder Ziel-Routern definiert ist. Das Nachschlagen bei einer Quelle kann verwendet werden, um ein HPI-Paket in das HPI-Gefüge einzuführen. Das Nachschlagen bei einem Zwischenrouter kann verwendet werden, um ein HPI-Paket von einem Eingabeport zu einem Ausgabeport zu routen. Das Nachschlagen bei einem Ziel-Port kann verwendet werden, um den Ziel-HPI-Protokoll-Agent zu adressieren. Zu beachten ist, dass die Routing-Schicht bei einigen Implementierungen dünn sein kann, da die Routingtabellen und deshalb die Routing-Algorithmen nicht speziell durch Spezifikation definiert sind. Dies ermöglicht Flexibilität und eine Vielzahl von Verwendungsmodellen einschließlich flexibler architektonischer Plattformtopologien, die durch die Systemimplementierung zu definieren sind. Die Routing-Schicht 515a,b verlässt sich auf die Linkschicht 510a,b, um die Verwendung von bis zu drei (oder mehr) virtuellen Netzwerken (VNs) bereitzustellen - bei einem Beispiel zwei VNs ohne Deadlocks, VN0 und VN1 mit mehreren in jedem virtuellen Netzwerk definierten Nachrichtenklassen. Ein gemeinsam benutztes adaptives virtuelles Netzwerk (VNA) kann in der Linkschicht definiert sein, aber dieses adaptive Netzwerk mag nicht direkt in Routing-Konzepten exponiert sein, da jede Nachrichtenklasse und jedes virtuelle Netzwerk fest zugeordnete Ressourcen und einen garantierten Fortschritt aufweisen kann, neben anderen Merkmalen und Beispielen.
-
Bei einer Ausführungsform kann die HPI eine Kohärenz-Protokollschicht 520a,b einschließen, unterstützt Agenten Caching-Leitungen von Daten vom Speicher. Ein Agent, der Speicherdaten zwischenspeichern möchte, kann das Kohärenz-Protokoll verwenden, um die Datenzeile zu lesen und sie in seinen Cache zu laden. Ein Agent, der eine Datenzeile in seinem Cache modifizieren möchte, kann das Kohärenz-Protokoll verwenden, um die Eigentümerschaft der Zeile vor dem Ändern der Daten zu erwerben. Nach dem Ändern einer Zeile kann ein Agent Protokollanforderungen folgen, sie in seinem Cache zu halten, bis er entweder die Zeile zurück zum Speicher schreibt oder sie in einer Antwort zu einer externen Anforderung einschließt. Schließlich kann ein Agent externe Anforderungen erfüllen, um eine Zeile in seinem Cache ungültig zu machen. Das Protokoll stellt die Kohärenz der Daten durch das Diktieren der Regeln sicher, die alle Caching-Agenten befolgen müssen. Es stellt auch die Mittel für Agenten ohne Caches bereit, um Speicherdaten zusammenhängend zu lesen und zu schreiben.
-
Zwei Bedingungen können erzwungen werden, um Transaktionen zu unterstützen, die das HPI-Kohärenz-Protokoll verwenden. Zuerst kann das Protokoll Datenkonsistenz als ein Beispiel auf einer Pro-Adresse-Basis neben Daten in den Caches des Agenten und zwischen diesen Daten und Daten im Speicher aufrechterhalten. Formlos kann Datenkonsistenz auf jede gültige Datenzeile in einem Cache eines Agenten verweisen, der einen aktuellsten Wert der Daten darstellt, und in einem Kohärenz-Protokollpaket gesendete Daten können den aktuellsten Wert der Daten zu dem Zeitpunkt darstellen, an dem sie gesendet wurden. Wenn keine gültige Kopie der Daten in Caches oder bei der Übertragung existiert, kann das Protokoll sicherstellen, dass der aktuellste Wert der Daten sich im Speicher befindet. Zweitens kann das Protokoll wohldefinierte Verpflichtungspunkte für Anfragen bereitstellen. Verpflichtungspunkte für Lesevorgänge können anzeigen, wann die Daten verwendbar sind; und für Schreibvorgänge können sie anzeigen, wann die geschriebenen Daten global feststellbar sind und durch nachfolgende Lesevorgänge geladen werden. Das Protokoll kann diese Verpflichtungspunkte sowohl für zwischenspeicherbare als auch für nicht zwischenspeicherbare (UC) Anfragen im kohärenten Speicherplatz unterstützen.
-
Das HPI-Kohärenz-Protokoll kann auch den Fortschritt von Kohärenz-Anfragen sicherstellen, die von einem Agenten zu einer Adresse im kohärenten Speicherplatz erfolgen. Sicherlich können Transaktionen letztendlich zufriedengestellt und für einen richtigen Systembetrieb rückgeordnet werden. Das HPI-Kohärenz-Protokoll kann bei einigen Ausführungsformen kein Ahnung von der Wiederholung haben, um Ressourcenzuordnungskonflikte zu lösen. Deshalb kann das Protokoll selbst definiert sein, keine zirkulären Ressource-Abhängigkeiten zu enthalten, und Implementierungen können in ihren Designs darauf achten, keine Abhängigkeiten einzuführen, die in Deadlocks resultieren können. Zusätzlich kann das Protokoll anzeigen, wo Designs , angemessenen Zugriff auf Protokollressourcen bereitstellen können.
-
Logisch kann das HPI-Kohärenz-Protokoll bei einer Ausführungsform drei Elemente einschließen: Kohärenz- (oder Caching) -Agenten, Home-Agenten und das HPI-Kopplungsstrukturgefüge, das die Agenten verbindet. Kohärenz-Agenten und Home-Agenten können zusammenarbeiten, um Datenkonsistenz durch Austauschen von Nachrichten über die Kopplungsstruktur zu erreichen. Die Linkschicht 510a,b und ihre damit in Zusammenhang stehende Beschreibung kann die Details des Kopplungsstrukturgefüges bereitstellen, einschließlich wie es an den den Kohärenz-Protokollanforderungen festhält, die hierin beschrieben werden. (Es ist zu beachten, dass die Unterteilung in Kohärenz-Agenten und Home-Agenten zur Übersichtlichkeit dient. Ein Design kann neben anderen Beispielen mehrere Agenten von beiden Arten innerhalb eines Sockels enthalten oder auch Agentenverhalten in eine einzelne Designeinheit kombinieren.)
-
Bei einigen Implementierungen kann HPI einen eingebetteten Takt verwenden. Ein Taktsignal kann in Daten eingebettet sein, die unter Verwendung der Kopplungsstruktur gesendet werden. Mit dem in den Daten eingebetteten Taktsignal können ausgeprägte und zugehörige Taktbahnen ausgelassen werden. Dies kann zum Beispiel nützlich sein, da es erlauben kann, dass mehr Pins eines Gerätes zur Datenübertragung zugeordnet werden, insbesondere bei Systemen, wo der Raum für Pins heiß begehrt ist.
-
Die Linkschicht kann die zuverlässige Datenübertragung zwischen zwei Protokoll- oder Routing-Entitäten garantieren. Die Linkschicht kann die physikalische Schicht von der Protokollschicht abstrahieren, die Flusskontrolle zwischen zwei Protokoll-Agenten behandeln und virtuelle Kanal-Dienste an die Protokollschicht (Nachrichtenklassen) und Routing-Schicht (virtuelle Netzwerke) bereitstellen.
-
Bei einigen Implementierungen kann sich die Linkschicht mit einer festen Menge von Informationen genannt ein Flit befassen. Bei einem Beispiel kann das Flit definiert sein, 192 Bit in der Länge zu sein. Es kann jedoch jeder Bereich von Bits wie 81-256 (oder mehr) in unterschiedlichen Variationen verwendet werden. Eine große Flit-Größe wie 192 Bits, kann Format, Cyclic Redundancy Check (CRC) und andere Änderungen einschließen. Zum Beispiel kann eine größere Flit-Länge auch erlauben, dass das CRC-Feld erweitert wird (z. B. auf 16 Bits), um die größeren Flit-Nutzdaten zu behandeln. Die Anzahl an Phits oder Einheitsintervallen (UI) (z. B. die verwendete Zeit, um ein einzelnes Bit oder Phit zu übertragen usw.), um ein einzelnes Flit zu übertragen, kann mit der Linkbreite variieren. Zum Beispiel kann eine 20-Bahn- oder-Bit-Linkbreite ein einzelnes 192-Bit-Flit in 9,6 UI übertragen, während eine 8-Bahn-Linkbreite das gleiche Flit in 24 UI überträgt, neben anderen potenziellen Beispielen. Linkschicht-Kreditierung und Protokoll-Paketieren kann auch auf einem Flit basieren.
-
6 veranschaulicht eine Darstellung 600 eines generalisierten Flits für eine 8-Bahn-Linkbreite. Jede Spalte der Darstellung 600 kann eine Linkbahn und jede Reihe eine entsprechende UI symbolisieren. Bei einigen Implementierungen kann ein einzelnes Flit in zwei oder mehr Slots unterteilt sein. Individuelle Nachrichten oder Linkschicht-Header können in jedem Slot eingeschlossen sein, was mehrere individuelle und in einigen Fällen unabhängige Nachrichten erlaubt, die potenziell unterschiedlichen Transaktionen entsprechen, die in einem einzelnen Flit gesendet werden sollen. Weiter können die in Slots eines einzelnen Flits eingeschlossenen Mehrfachnachrichten neben anderen Beispielen auch für unterschiedliche Zielknoten bestimmt sein. Zum Beispiel veranschaulicht das Beispiel von 6 ein Flit-Format mit drei Slots. Die schattierten Teile können den Teil des in einem entsprechenden Slot eingeschlossenen Flits darstellen.
-
Im Beispiel von 6, sind drei Slots, Slot 0, 1 und 2, bereitgestellt. Slot 0 kann 72 Bits des Flit-Raums bereitgestellt sein, von dem 22 Bits zu Nachrichten-Header-Feldern und 50 Bits zu Nachrichten-Nutzraum zugeordnet sind. Slot 1 kann 70 Bits des Flit-Raums bereitgestellt sein, von dem 20 Bits zu Nachrichten-Header-Feldern und 50 Bits zu Nachrichten-Nutzraum zugeordnet sind. Die Differenz im Nachrichten-Header-Feldraum dazwischen kann optimiert werden, um bereitzustellen, dass bestimmte Nachrichtentypen für die Einbindung in Slot 0 vorgesehen werden (z. B., wo mehr Nachrichten-Header-Codierung verwendet wird). Ein dritter Slot, Slot 2, kann bereitgestellt werden, der im Wesentlichen weniger Raum als die Slots 0 und 1 einnimmt und in diesem Fall 18 Bits des Flit-Raums verwendet. Slot 2 kann optimiert werden, um solchne Nachrichten wie Bestätigungen, Kreditrückgaben und dergleichen zu behandeln, die keine größeren Nachrichten-Nutzdaten verwenden. Zusätzlich kann ein gleitendes Nutzdatenfeld bereitgestellt werden, das ermöglicht, dass zusätzliche 11 Bits alternativ zur Ergänzung das Nutzdatenfeldes von entweder Slot 0 oder Slot 1 verwendet werden.
-
Mit dem speziellen Beispiel von 6 fortfahrend können andere Felder für ein Flit global sein (d. h., über das Flit und nicht auf einen speziellen Slot Anwendung finden). Zum Beispiel kann ein Kopfbit zusammen mit einem 4-Bit-Steuerfeld des Flits bereitgestellt werden, das neben anderen Beispielen dazu verwendet werden kann, um solche Informationen wie ein virtuelles Netzwerk des Flits zu bezeichnen und zu bestimmen, wie das Flit codiert sein soll. Zusätzlich kann unter anderen potenziellen Beispielen Fehlerüberwachungsfunktionalität wie durch ein zyklisches 16-Bit-CRC-Feld bereitgestellt werden.
-
Ein Flit-Format kann definiert werden, um den Durchsatz von Nachrichten auf der Linkschicht zu optimieren. Einige traditionelle Protokolle haben kleinere Flits ohne Slots verwendet. Zum Beispiel wurde in QPI ein 80-Bit-Flit verwendet. Während der Flit-Durchsatz eines größeren (z. B. 192-Bit-Flit) vielleicht niedrigeren Nachrichten- oder Paketdurchsatzes durch die Optimierung der Verwendung der Flit-Daten vergrößert werden kann. Bei einigen Implementierungen von QPI wurde beispielsweise der gesamte 80-Bit-Raum des Flits unabhängig von der Nachrichtengröße oder -art verwendet. Durch Aufteilen eines größeren Flits in Slots von vorbestimmten Längen und Feldern kann die Flit-Länge 192 optimiert und höhere Effizienz in Fällen realisiert werden, wenn ein oder mehrere der verfügbaren Slots manchmal unbenutzt sind. In der Tat kann vom Linkschichtverkehr angenommen werden, dass er viele unterschiedliche Arten von Nachrichten und Verkehr einschließt, einschließlich Nachrichten und Pakete mit variierenden Header-Längen und -Feldern. Die entsprechenden Längen und die Organisation von in einem Flit definierten Slots können so definiert sein, dass sie der statistischen oder erwarteten Häufigkeit von verschiedenen Nachrichten und den Notwendigkeiten dieser Nachrichten entsprechen. Zum Beispiel können zwei größere Slots für jeden kleinen Slot definiert sein, um neben anderen Beispielen eine erwartete statistische Häufigkeit des Messagings unter Verwendung dieser größeren Nachrichtentypen und Header-Längen aufzunehmen. Weiter kann auch Flexibilität bereitgestellt werden, um weiter den unterschiedlichen Verkehr aufzunehmen, wie durch ein gleitendes Nutzdatenfeld wie im Beispiel von 6. In einigen Fällen kann ein Flit-Format fest sein und die Bits, die zu speziellen Slots im Flit zugeordnet sind, einschließen.
-
Im Beispiel von 6 kann ein „Hdr“-Feld für das Flit generell bereitgestellt werden und einen Header-Hinweis für das Flit darstellen. In einigen Fällen kann das Hdr-Feld anzeigen, ob das Flit ein Header-Flit oder ein Daten-Flit ist. Bei Daten-Flits kann das Flit immer noch unterteilt bleiben, aber die Verwendung von bestimmten Feldern auslassen oder sie mit Nutzdaten ersetzen. In einigen Fällen können Datenfelder einen Befehlscode und Nutzdaten einschließen. Im Fall von Header-Flits kann eine Vielzahl von Header-Feldern bereitgestellt werden. Im Beispiel von 6 können „Oc“-Felder für jeden Slot bereitgestellt sein, wobei das Oc-Feld einen Befehlscode darstellt. Ähnlich können ein oder mehrere Slots ein entsprechendes „msg“-Feld aufweisen, das einen Nachrichtentyp des entsprechenden im Slot einzuschließenden Paketes darstellt, vorausgesetzt, dass der Slot konzipiert ist, solche Pakettypen zu behandeln usw. „DNID“-Felder können eine Zielknoten-ID darstellen, ein „TID“-Feld kann eine Transaktions-ID darstellen, ein „RHTID“-Feld kann entweder eine Knoten-ID eines anfragenden Agenten oder eine Home-Tracker-ID darstellen, neben anderen potenziellen Feldern. Weiter können ein oder mehrere Slots mit Nutzdatenfeldern ausgestattet sein. Zusätzlich kann neben anderen Beispielen ein CRC-Feld innerhalb eines Flits eingeschlossen sein, um einen CRC-Wert für das Flit bereitzustellen.
-
Bei einigen Implementierungen kann die Linkbreite während der Lebensdauer des Links variieren. Zum Beispiel kann die physikalische Schicht zwischen Linkbreiten-Zuständen, wie zu und von einer vollen oder ursprünglichen Bahnbreite und einer unterschiedlichen oder partiellen Bahnbreite übergehen. Bei einigen Implementierungen, kann beispielsweise ein Link initialisiert sein, um Daten über 20 Bahnen zu übertragen. Später kann neben vielen anderen potenziellen Beispielen der Link zu einem Partialbreite-Senden-Zustand übergehen, wo nur 8 Bahnen aktiv verwendet werden. Die Bahnbreiten-Übergänge können zum Beispiel in Verbindung mit Power-Management-Tasks verwendet werden, die durch eine oder mehrere Power Control Units (PCU) geregelt sind, neben anderen Beispielen.
-
Wie bereits erwähnt kann die Linkbreite den Flit-Durchsatz beeinflussen. 7 ist eine Darstellung eines beispielhaften über einen 8-Bahn-Link gesendeten 192-Bit-Flits, was in einem Durchsatz des Flits von 24 UI resultiert. Weiter können wie gezeigt im Beispiel von 7 Bits des Flits in einigen Fällen nicht in Reihenfolge gesendet werden, um beispielsweise zeitsensitivere Felder früher in der Übertragung zu senden (z. B. Flit-artige Felder (z. B. Daten- oder Header-Flit), Befehlscodes usw.), spezielle Fehlererkennung oder andere Funktionalität zu bewahren oder zu erleichtern, die im Flit verkörpert sind, neben anderen Beispielen. Im Beispiel von 7 werden beispielsweise die Bits 191, 167, 143, 119, 95, 71, 47 und 23 parallel auf den Bahnen L7 bis L0 während eines ersten UI (d. h., UI0) der Übertragung gesendet, während die Bits 168, 144, 120, 96, 72, 48, 24 und 0 während der 24 (oder abschließenden) UI der Flit-Übertragung (d. h., UI23) gesendet werden. Es ist zu verstehen, dass andere Ordnungsschemen, Flit-Längen, Bahnbreiten usw. bei anderen Implementierungen und Beispielen verwendet werden können.
-
In einigen Fällen kann die Flit-Länge ein Vielfaches der Anzahl an aktiven Bahnen sein. In solchen Fällen kann das Flit gleichmäßig auf allen aktiven Bahnen gesendet werden und die Übertragung des Flits kann im Wesentlichen gleichzeitig an einer sauberen (d. h., nicht überlappenden) Begrenzung enden. Beispielsweise können wie gezeigt in der Repräsentation von 8 Bits eines Flits als in aufeinanderfolgenden Gruppierungen von 4 Bits oder „4-Bit-Einheiten“ gesendet werden. Bei diesem Beispiel ist ein 192-Bit-Flit über einen 8-Bahn-Link zu übertragen. Da 192 ein Vielfaches von 8 ist, kann das gesamte Flit sauber über den 8-Bahn-Link in 24 UI übertragen werden. In anderen Fällen kann die Breite des Flits kein Vielfaches der Anzahl an aktiven Bahnen sein. Zum Beispiel zeigt 9 eine andere Repräsentation eines Beispiels von 192 Bits, die über 20 Bahnen übertragen werden. Da 192 nicht durch 20 teilbar ist, würde die Übertragung des vollen Flits eine Nicht-Integerzahl von Intervallen (z. B. 9,6 UI) erfordern. In solchen Fällen kann, anstatt „zusätzliche“ Bahnen zu verschwenden, die nicht während der 10. UI der Übertragung verwendet werden, ein zweites überlappendes Flit mit den abschließenden Bits eines vorhergehenden Flits übertragen werden. Ein solches Überlappen oder Swizzling der Flits kann in einigen Implementierungen in gezackten Flit-Grenzen und Flit-Bits, die nicht in Reihenfolge gesendet werden, resultieren. Das für die Übertragung verwendete Muster kann konfiguriert sein, um zu erlauben, dass neben anderen Überlegungen zeitsensitivere Felder des Flits früher im Flit übertragen werden, Konservierung von Fehlererkennung und Korrektur. Logik kann in einem oder beiden der physikalischen und Linkschichten bereitgestellt sein, um Flit-Bits gemäß solchen Mustern zu übertragen und basierend auf der gegenwärtigen Linkbreite dynamisch zwischen Mustern zu wechseln. Weiter kann neben anderen Beispielen Logik bereitgestellt werden, um Flits von solchen geswizzleten oder geordneten Bitströmen neu zu ordnen und zu rekonstruieren.
-
Bei einigen Implementierungen können Flits als Header-Flits (z. B. mit Paketheader-Daten) oder Daten-Flits (z. B. mit Paketnutzdaten) charakterisiert sein. Unter erneuter Bezugnahme auf 6 kann ein Flit-Format definiert sein, das drei (3) individuelle Slots (z. B. 0, 1 und 2) einschließt, was ermöglicht, dass bis zu drei Header in einem einzelnen Flit (z. B. ein Header in jedem Slot) übertragen werden. Dementsprechend kann jeder Slot Steuerfelder und ein Nutzdatenfeld aufweisen. Zusätzlich dazu können Nutzdatenfelder für jeden Header (und Slot) definiert sein. Weiter kann ein gleitendes Nutzdatenfeld definiert sein, das flexibel als zusätzliche Nutzdatenlänge für zwei oder mehr der Slots (z. B. entweder von Slot 0 oder Slot 1) basierend auf den Header-Arten in diesen Slots verwendet werden kann. Das gleitende Feld kann bei einer Implementierung 11 Zusatzbits von Nutzdaten entweder für Slot 0 oder für Slot 1 ermöglichen. Zu beachten ist, dass bei Implementierungen, die ein größeres Flit definieren, mehr gleitende Bits verwendet werden können und in kleineren Flits weniger gleitende Bits bereitgestellt werden können.
-
Bei einigen Implementierungen können Zusatzbits nach Bedarf für bestimmte Nachrichten bereitgestellt werden, während immer noch innerhalb einer vordefinierten Flit-Länge (z. B. 192 Bits) verblieben und die Verwendung der Bandbreite maximiert wird, indem einem Feld ermöglicht wird, zwischen den zwei Slots zu gleiten. Unter jetziger Bezugnahme auf die Beispiele von 10 sind zwei Instanzen 1005, 1010 eines beispielhaften 192-Bit-Flits auf einem 8-Bahn-Datenlink gezeigt. In einem Fall kann ein Flit (z. B. 1005) drei Slots einschließen, die Slots 0, 1 und 2. Jeder der Slots 0 und 1 kann 50-Bit-Nutzdatenfelder einschließen. Das gleitende Feld kann bereitgestellt werden, um alternativ das Nutzdatenfeld von entweder Slot 0 oder Slot 1 durch die Feldlänge (z. B. 11 Bits) des gleitenden Feldes zu erweitern. Die Verwendung eines gleitenden Feldes kann weiter die Effizienzgewinne erhöhen, die durch ein definiertes Mehrslot-Flit-Format bereitgestellt werden. Die Dimensionierung der Slots innerhalb des Flits und die Arten von Nachrichten, die in jeden Slot platziert werden können, können potenziell selbst mit einer reduzierten Flit-Rate eine erhöhte Bandbreite bereitstellen.
-
Im konkreten Beispiel von 6 können die Nachrichten, welche die Slots 1 und 2 verwenden, optimiert werden, indem die Anzahl von Bits vermindert wird, die außer Acht gelassen werden, um die Befehlscodes dieser Slots zu codieren. Wenn ein Header, der mehr Bits aufweist, als Slot 0 bereitstellen kann, in die Linkschicht eintritt, können Algorithmen bereitgestellt werden, um ihm zu ermöglichen Slot 1-Nutzdatenbits für zusätzlichen Raum zu übernehmen. Spezielle Steuerungs- (z. B. LLCTRL) -Flits können auch bereitgestellt werden, die alle drei Slots an Bits für ihre Bedürfnisse verbrauchen. Es können auch Slot-Algorithmen existieren, um zu ermöglichen, dass für Fälle wo der Link teilweise beschäftigt ist individuelle Slots eingesetzt werden, während andere Slots keine Informationen transportieren.
-
Im speziellen Beispiel von 10 ist die beispielhafte Verwendung von einem gleitenden Flit-Feld gezeigt. Im Fall von Standard Address Snoop- (SA-S) -Headers kann nur eine einzelne SA-S-Nachricht (und Header) erlaubt sein, die im gleichen Flit gesendet werden soll (um z. B. Konflikte zu verhindern, oder wo die SA-S-Nutzdaten mehr als 50 Bit Nutzdaten verwenden usw.). Daher kann bei solchen Beispielen ein SA-S nur entweder in Slot 0 oder in Slot 1 des gleichen Flits in solchen Fällen gesendet werden. Im Beispiel von Flit 1005 ist ein SA-S-Header in Slot 0 eingeschlossen und macht vom gleitenden Feld Gebrauch. Daher ist im Beispiel von Flit 1005, die Verwendung des gleitenden Feldes zugeordnet, um die Nutzdaten der Nutzdaten von Slot 0 zu erweitern. Bei einem weiteren Beispiel von Flit 1010 nimmt der SA-S-Header Slot 1 ein. Im Beispiel von Flit 1010 ist stattdessen das gleitende Feld zugeordnet, um die Nutzdaten von Slot 1 zu erweitern. Andere potenzielle Beispiele können auch von der Flexibilität Gebrauch machen, die durch ein gleitendes Nutzdatenfeld eines mit Slots versehenen Flits bereitgestellt wird, indem die Prinzipien verwendet werden, die in den speziellen Beispielen der 6 und 10 veranschaulicht sind.
-
Bei einer Ausführungsform, wie diejenige die in Verbindung mit 6 veranschaulicht ist, können zwei Slots, Slot 0 und 1, als gleich dimensionierte Nutzdatenfelder aufweisend definiert sein, während Slot 2 ein viel kleineres Nutzdatenfeld für die Verwendung durch einen speziellen Teilsatz von Headern aufweist, die beispielsweise die Verwendung von solchen größeren Nutzdatenfeldern vermissen lassen. Bei einem Beispiel können die Steuerfelder von Slot 1 und 2 nicht die volle Nachrichtenklassen-Verschlüsselungen (im Gegensatz zu Slot 0) transportieren und Slot 2 kann keine volle Befehlscode-Codierung transportieren, neben anderen potenziellen Implementierungen.
-
Wie bereits erwähnt können bei einigen Implementierungen die Slots 1 und 2 nicht die volle Nachrichtenklassen-Verschlüsselungen transportieren, da aufgrund von Slot-Beschränkungen nicht alle Bits verwendet werden. Slot 1 kann eine Nachrichtenklasse Bit 0 transportieren. Hier sind Anfrage- (REQ) und Snoop- (SNP) -Pakete erlaubt. Bei dieser Implementierung werden REQ- und SNP-Nachrichtenklassen-Verschlüsselungen durch Bit 0 differenziert. Wenn ein Entwickler unterschiedliche Nachrichtenklassen im partiellen Nachrichtenklassenfeld ermöglichen möchte, könnte er als Resultat davon entweder eine unterschiedliche Bitposition auswählen (d. h., ein oberes Bit, das zwei unterschiedliche Arten von Nachrichten differenziert) oder unterschiedliche Nachrichtentypen zum niederwertigen Bit zuweisen. Hier sind die oberen zwei Bits jedoch als 0-en impliziert, wobei das untere Bit zwischen einem REQ und einem SNP unterscheidet. Bei diesem Beispiel transportiert Slot 2 keine Nachrichtenklassen-Bits, da nur Antwort- (RSP) (Codierung 2) -Pakete erlaubt sind. Deshalb ist die Nachrichtenklassen-Codierung für Slot 2 ein RSP-2. Slot 2 kann auch einen partiellen Befehlscode transportieren. Wie vorstehend kann von einem oder mehreren der Befehlscode-Bits angenommen werden, dass sie 0 sind. Als Resultat können partielle Nachrichtenklassen-Felder und partielle Befehlscodefelder verwendet werden, die einen Teilsatz von Nachrichten und Befehlscodes definieren, die verwendet werden können. Zu beachten ist, dass mehrere Sätze von Befehlscodes und Nachrichtenklassen definiert sein können. Hier ist ein Teilsatz von Nachrichtentypen (d. h., MSG Typ 1/MSG Typ 2) verfügbar, wenn ein niederwertiges Bit der Nachrichtenklasse verwendet wird. Wenn jedoch 2 Bits verwendet werden, dann wird neben anderen Beispielen ein größerer Teilsatz (z. B. Nachrichtentyp 1/Nachrichtentyp 2/Nachrichtentyp 3/Nachrichtentyp 4) bereitgestellt.
-
Nachrichtenklassen-Verschlüsselungen können speziellen Arten von Headern entsprechen, die in einem oder mehreren definierten Slots in einem Flit einzuschließen (oder zu verwenden) sind. Zum Beispiel kann ein Header mehrere Größen aufweisen. Bei einem Beispiel kann ein Drei-Slot-Flit definiert sein, um potenziell vier Größen von Headern basierend auf der Art des Headers zu unterstützen. Tabelle 1 schließt eine beispielhafte Liste von potenziellen Header-Formaten und damit verbundenen Größen ein: TABELLE 1
Header-Format | Kopfzeilengröße | Beschreibung |
SA | Einzelner Slot | Anforderung |
SA-S | Einzel-Slot | Snoops (bindet gleitendes Nutzdatenfeld ein) |
SA-D | Einzel-Slot | Daten-Header |
SR-U | Kleiner Slot | Abschluss ohne Daten |
SR-O | Einzel-Slot | Ordnung |
SR-C | Einzel-Slot | Konfliktlösung |
SR D | Einzel-Slot | Daten-Header |
PW | Doppel-Slot | Partielles Schreiben |
PR | Doppel-Slot | Partielles Lesen |
P2P | Doppel-Slot | Peer-to-Peer |
NCM | Doppel-Slot | Inkohärentes Messaging |
Slot-NULL | Einzelner Slot (oder nur Befehlscode) | Steuerungsflit |
LLCRD | Kleiner Slot | Steuerungsflit |
LLCTRL | Volles Flit | Steuerungsflit |
-
Kleine (oder einzelne) Slot-Header können für diejenige Nachricht sein, die klein genug ist, um in Slot 2 zu passen, und die keine Protokoll-Ordnungsanforderungen aufweist, die sie in Slot 0 zwingen. Ein kleiner Slot-Header kann auch in Slot 0 platziert werden, wenn die Slot-Beschränkungen für das Flit es anfordern. Der einzelne Slot-Header kann für diejenigen Nachrichten mit Nutzdaten sein, die in Slot 0 oder Slot 1 passen. Einige Einzel-Slot-Header können auch vom gleitenden Nutzdatenfeld Gebrauch machen. Beispielsweise werden SA-S-Header bei einer Ausführungsform nicht sowohl in Slot 0 als auch in Slot 1 des gleichen Flits in dem Beispiel, wo nur ein HTID oder gleitendes Feld existiert, gesendet. Bestimmte Einzel-Slot-Header können Slot 0 basierend auf Protokoll-Ordnungsanforderungen verwenden. Der Doppel-Slot-Header kann für diejenigen Nachrichten ausreichend groß sein, die sowohl die Nutzdatenfelder von Slot 0 als auch Slot 1 zusätzlich zum gleitenden Nutzdatenfeld verbrauchen, neben anderen Beispielen.
-
Ein Slot-NULL-Befehlscode kann einen speziellen Befehlscode einschließen, der bei einem Beispiel entweder in Slot 0 oder in Slot 1 verwendet werden kann. Für Slot 0 kann Slot_NULL verwendet werden, wenn die Linkschicht keinen Header aufweist, der in Slot 0 zu senden ist, aber einen Header aufweist, der in Slot 1 oder 2 zu senden ist. Wenn Slot_NULL in Slot 0 verwendet wird, werden die Slot 0-Nutzdaten als reserviert betrachtet (RSVD), neben anderen Beispielen. Bei einigen Implementierungen kann Slot_NULL in Slot 1 potenziell unter zwei Bedingungen verwendet werden. Erstens, wenn Slot 0 einen doppelten Slot oder speziellen Steuerungsheader codiert und deshalb die Slot 1-Nutzdaten verbraucht. In solchen Fällen kann der Slot 1-Befehlscode auf Slot_NULL gesetzt werden. Zweitens, wenn die Linkschicht nichts in Slot 1 zu senden hat, aber einen gültigen Einzel-Slot-Header für Slot 0 oder einen kleinen Slot-Header für Slot 2 aufweist. Unter dieser Bedingung kann der Slot 1-Befehlscode auf Slot_NULL gesetzt werden und die Slot 1-Nutzdaten können als reserviert betrachtet werden, neben anderen potenziellen Beispielen.
-
Bei einigen Implementierungen kann der kleine Slot 2 eine verminderte Anzahl von Befehlscode-Bits einschließen. Wenn die Linkschicht nichts in Slot 2 zu senden hat, kann sie eine „Implizite NULL“ senden, indem sie einen speziellen Befehlscode wie einen Linkschichtkredit-Befehlscode codiert und das Slot 2-Nutzdatenfeld komplett auf Nullen setzt. Der Empfänger dieser Slot 2-Codierung kann das als eine Linkschichtkredit-Nachricht verarbeiten (außer im Fall von den speziellen Steuerungsflits), aber die Alle-Null-Codierung hat keine Auswirkung auf den Kredit- und Bestätigungszustand. Im Fall von speziellen Steuerungsflits können die Slot 2-Nutzdaten als RSVD betrachtet werden, und die Implizite NULL wird ignoriert, da sie das gesamte Flit verbrauchen können. Wo die Linkschicht nichts in irgendeinem der drei Slots und den CRD/ACK-Feldern zu senden hat, kann die Linkschicht neben anderen Beispielen eine spezielle Steuerungs-Null-Nachricht senden.
-
Slot-Beschränkungen können für ein oder mehrere der definierten Slots eines Flits definiert sein. Bei einer Ausführungsform können Doppel-Slot-Header nur ihre Nachrichtenklasse und ihren Befehlscode in den Slot 0 platziert haben. Wenn Slot 0 einen Doppel-Slot-Header enthält, kann Slot 1 einen Slot_NULL-Befehlscode codieren, da das Slot 1-Nutzdatenfeld durch den Slot 0-Header verbraucht wird. Wenn Slot 0 einen Slot_NULL-Einzelslot oder einen kleinen Slot-Header enthält, können die Slots 1 und 2 beide einen Nicht-NULL-Header codieren. In diesem speziellen Beispiel sind nur kleine Slot-Header im Slot 2 erlaubt (z. B. veranschaulicht in 6). Wenn sowohl Slot 0 als auch Slot 1 Einzel-Slot-Header enthalten, kann einer von einer Art sein, die das gleitende Nutzdatenfeld verbraucht. Wenn kein Slot 0 oder Slot 1 eine Art von Header enthält, die das gleitende Nutzdatenfeld verbraucht, kann das Feld als RSVD betrachtet werden.
-
Zusätzlich kann bei einigen Implementierungen die Linkschicht mehrere unterschiedliche Arten von virtuellen Netzwerken oder virtuelle Kanal-Kredite verwenden. Bei einem Beispiel können zusammengefasste adaptive virtuelle Netzwerk- (VNA) -Kredite unterstützt und ein VNA-Feld bereitgestellt werden. Bei einer beispielhaften Implementierung, wenn das VNA-Feld ein Nicht-VNA Flit anzeigt (z. B. ein Flit, das einen unterschiedlichen Kredit-Pool verwendet), kann der Header für die Platzierung in den Slot 0 vorgesehen sein. Weiter kann der Slot 2-Befehlscode in diesem Fall einen Slot_2-Kredit einschließen. Wenn Slot 0 einen speziellen Steuerungsheader codiert, können weiter sowohl Slot 1- als auch Slot 2-Steuerfelder auf Fixwerte gesetzt werden und keine Header können in diese Slots platziert werden, neben anderen potenziellen Implementierungen.
-
Wie bereits erwähnt, kann in Header-Flits eine Vielzahl von unterschiedlichen Feldern bereitgestellt werden, die in entsprechenden Flit-Slots eingebunden werden sollen, wie es im speziellen Beispiel von 6 veranschaulicht ist. Zu beachten ist, dass die veranschaulichten und beschriebenen Felder als Beispiel bereitgestellt sind und zusätzliche oder Ersatzfelder auch eingebunden werden können. In der Tat können einige der beschriebenen Felder optional sein und neben anderen Beispielen bei einigen Implementierungen ausgelassen werden.
-
Bei einem Beispiel kann ein Nachrichtenklassen- (MC) -Feld, sowie andere Felder bereitgestellt sein. Bei einigen Beispielen kann die Protokollschicht das Nachrichtenklassen-Feld verwenden, um die Protokollklasse zu definieren, die auch als das Hauptbefehlscodefeld agiert. Die Linkschicht kann das Nachrichtenklassen-Feld als Teil der virtuellen Kanal- (VC) -Definition verwenden. Einige Protokollklassen/VC können neben anderen Beispielen Mehrfachnachrichtenklassen-Verschlüsselungen aufgrund der Anzahl an Befehlscodes verwenden, die zu codieren sind. Beispielsweise können Anfragen (REQ), Snoops (SNP), Antwort (RSP), Rückschreiben, inkohärenter Bypass und inkohärente Standardtypen unterstützt werden. Wenn jede Art sechzehn Operationen codieren würde, dann gäbe es einen Befehlscode-Raum von 96 Operationen. Und wenn ein anderes Modus-Bit oder ein anderer Befehlscode-Raum für jede Art definiert wäre, dann könnten weitere 96 Operationen bereitgestellt werden; und so weiter.
-
Bei einem Beispiel kann ein Befehlscode-Feld zusätzlich bereitgestellt werden. Die Protokollschicht kann den Befehlscode in Verbindung mit der Nachrichtenklasse verwenden, um einen kompletten Befehlscode zu bilden (d. h., die Nachrichtenklassen-Art und die Operation innerhalb definieren). Als ein Beispiel kann der gleiche Befehlscode mit einem REQ-Nachrichtentyp eine erste Anfrageoperation definieren, während der gleiche Befehlscode mit einer SNP-Nachrichtenklasse eine zweite, unterschiedliche SNP-Operation definieren kann, neben anderen Beispielen. Die Linkschicht kann den Befehlscode verwenden, um beispielsweise zwischen einem Home-Agent-Ziel oder einem Caching-Agent-Ziel für Pakete zu unterscheiden, wenn ein Home-Agent und ein Caching-Agent die gleiche Knoten-ID gemeinsam benutzen. Zusätzlich kann die Linkschicht neben anderen möglichen Verwendungen den Befehlscode auch verwenden, um eine Paketgröße zu bestimmen.
-
Wie bereits erwähnt können Flit-Header weiter ein VNA-Feld einschließen. Bei einem Beispiel kann das Feld anzeigen, dass das Flit VNA-Kredite verwendet, wenn ein VNA-Feld auf einen ersten Wert gesetzt ist. Wenn es auf einen zweiten Wert gesetzt ist, verwendet das Flit VN0-oder VN1-Kredite, neben anderen potenziellen Implementierungen. Bei einer Ausführungsform kann ein Wert anzeigen, dass das Flit ein Einzel-Slot-Flit ist, und die Slot 1- und 2-Codes können als NULL definiert sein.
-
Ein virtuelles Netzwerk- (VN) -Feld kann auch bereitgestellt werden und kann für ein Flit anzeigen, ob der bzw. die Header im Flit ein spezielles virtuelles Netzwerk, wie ein virtuelles Netzwerk VN0 oder VN1 verwenden. Dies kann sowohl für Kreditierungszwecke verwendet werden als auch um anzuzeigen, zu welchem virtuellen Netzwerk eine Nachricht abfließen sollte, wenn es VNA verwendet. Wenn ein VN-Bit für das gesamte Flit bereitgestellt wird, kann jedes VNA-Flit, das mehrere Header enthält, sicherstellen, dass alle zu VN0 abfließen oder alle zu VN1 abfließen. Alternativ können mehrere VN-Bits bereitgestellt sein. Für Nicht-VNA Flits kann nur Slot 0 erlaubt sein, einen Nicht-Steuerungsbefehlscode zu haben, sodass das VN das Netzwerk des Headers anzeigen kann.
-
Bei einigen Implementierungen können Slots in einem Flit unter anderem für kleine Nutzdaten-Nachrichten wie Kreditrückgaben, ACKs, NAKs verwendet werden. Bei einem Beispiel kann ein Kanalfeld bereitgestellt werden, das für die Verwendung bei Kreditrückgaben codiert sein kann. Das Codieren in Kombination mit dem VN-Feld kann den virtuellen Kanal bereitstellen, zu dem eine Kreditrückgabe zugeordnet ist. Wo eine Nachrichtenklasse mehrere Codierungen aufweist, können sie alle zu einem einzelnen Kanalwert für Kreditierung zugeordnet sein. Wenn der Kreditrückgabetyp VNA ist, kann der Kanalwert ignoriert werden. Die Verwendung von RSVD-Verschlüsselungen kann von der Empfangskomponente als ein Fehler behandelt werden. Tabelle 2 schließt Beispiele von unterschiedlichen Kanaloptionen ein, die codiert sein können. Zu beachten ist, dass jede Kombination von Bits (oder Bits, die einen Hexadezimalwert darstellen), verwendet werden kann. Als ein Beispiel kann ein niederwertiges von 3 Bits für das Codieren verwendet werden. TABELLE 2
Kanal |
REQ: Anfrage |
SNP: Snoop |
RSP: Antwort |
RSVD: Reserviert |
WB: Zurückschreiben |
NCB: Inkohärenter Bypass |
NCS: Inkohärenter Standard |
-
Bestätigungs- oder ACK-Felder können auch als in einem Flit-Slot einzuschließende Header-Felder bereitgestellt werden. Ein ACK-Feld kann von der Linkschicht verwendet werden, um von einem Empfänger zu einem Sender den fehlerfreien Empfang von Flits zu kommunizieren. Eine ACK, die einen ersten Wert aufweist, zeigt an, dass eine Anzahl von Flits wie 4, 8 oder 12 ohne Fehler empfangen worden sind. Wenn ein Sender eine ACK empfängt, kann er die entsprechenden Flits von der Linkschicht-Wiederholungwarteschlange freigeben. Ack und Ack-Felder können in Kreditrückgabe-Steuerungsflits verwendet werden (z. B. LLCRD), wobei die Gesamtzahl der Bestätigungen bestimmt durch das Erstellen des vollen Bestätigungsrückgabewertes (Bestätigen ersten Teil, Ack, Bestätigung zweiten Teil) zurückgegeben wird, neben anderen Beispielen.
-
Wie bereits erwähnt kann ein Header-Anzeigebit (Hdr) auch bei einigen Implementierungen bereitgestellt und für einen oder mehrere Zwecke verwendet werden. Zum Beispiel kann ein Hdr-Paket bestimmen, ob das Paket ein Header- oder Daten-Flit ist, kann anzeigen, dass das Flit der Beginn eines neuen Paketes ist, wie auch den Beginn eines verschachtelten Linkschicht-Steuerungsflits anzeigen. Der Hdr kann für das erste Flit von allen Paketen gesetzt werden. Weiter kann ein Adressfeld bereitgestellt werden, um eine globale Systemadresse zu bestimmen. Alle kohärenten Transaktionen können eine Anzahl von ausgerichteten Bytes sein und können die Anzahl an Datenbytes zurückgeben, was die Notwendigkeit von einem Teil der Adressbits eliminiert (z. B. können bei 64 Bytes die unteren 6 Bits ausgelassen werden). Für gewisse andere Pakete muss eine volle Byte-Level-Adresse verwendet werden. Ein Längenfeld kann bei einigen Beispielen bereitgestellt werden, um eine Länge der angeforderten Daten in Bytes für jede Transaktion anzuzeigen, die ein teilweises Lesen ausführt. Das teilweise Lesen spezifiziert den Offset (z. B. der untere Teil der Adressbits, die oben ausgelassen wurden) und die Länge. Gültige Längen sind 0 bis zur Anzahl an Bytes, zu denen die Transaktionen ausgerichtet sind, weniger eins, neben anderen Beispielen.
-
Zusätzliche Felder können eingeschlossen sein. Ein Byte-Freigabe-Feld kann in einigen Fällen bereitgestellt sein, um die gültigen Bytes für jede Transaktion anzuzeigen, die ein partielles Schreiben durchführt. Ein Byte-Freigabe-Feld kann jegliche Anzahl von 0 bis zur Anzahl an Bytes aufweisen, zu denen die Transaktionen ausgerichtet sind, weniger eins. Ein Anfrage-TID- (RTID) -Feld kann verwendet werden, um die unterschiedlichen Anfragen von einem einzelnen Protokoll-Agenten eindeutig zu bestimmen. Ein Home-Tracker-ID- (HTID) - Feld kann in Snoop-Paketen und Snoop-Antwortpaketen verwendet werden, um die Home-Tracker-ID der Transaktion anzuzeigen, mit der der Snoop und dessen Antwort verbunden ist. Ein RHTID-Feld kann auch bei einigen Implementierungen bereitgestellt werden und abhängig vom Befehlscode flexibel eine RTID oder eine HTID verkörpern. Zum Beispiel kann für einen Snoop RHTID als RTID interpretiert werden, da Snoops ein explizites HTID Feld aufweisen. Für Antwortpakete kann andererseits beim Adressieren eines Home-Agenten RHTID als HTID interpretiert werden. Zusätzlich kann RHTID für Antwortpakete, die einen Cache-Agenten adressieren, für Befehlscodes außer FwdCnfltO als RTID interpretiert werden, neben anderen Beispielen. Bei einigen Implementierungen können andere Nachrichtentypen standardmäßig als RTID interpretiert werden.
-
Bei einigen Implementierungen können zusätzliche Felder wie ein Ziel-Knoten-ID- (DNID) -Feld, Anfrager-Knoten-ID- (RNID) -Feld, Konflikt-Knoten ID- (CNID) -Feld und ein Quellen-Knoten-ID- (SNID) -Feld bereitgestellt werden. Die DNID kann das Ziel eines Paketes bestimmen. Sie kann durch die Protokollschicht bereitgestellt und vom Link und den Routing-Schichten verwendet werden, um Pakete zu ihren Zielen zu lenken. Das RNID-Feld kann den ursprünglichen anfragenden Agenten/Initiator einer Transaktion bestimmen und von der Protokollschicht bereitgestellt werden. Die CNID kann in RspCnflt-Paketen verwendet werden, um die Knoten-ID (NID) des Agenten anzuzeigen, wo der Snoop einen Konflikt erfahren hat und der FwdCnfltO gesendet werden sollte. Ein SNID-Feld kann in SR-D-Paketen verwendet werden, um die Knoten-ID des Agenten anzuzeigen, der das SR-D-Paket sendet.
-
Zusätzlich kann ein Prior Cache Line State- (PCLS) -Feld bereitgestellt werden, um den Zustand der Cachezeile zu codieren, wo sie gefunden wurde entweder bei einem Peer Caching-Agenten oder in einem Heim-Knoten. Wenn beispielsweise die Cachezeile von einem Peer-Knoten im F-Zustand bereitgestellt wurde, sollte das Feld auf einen ersten Wert gesetzt werden. Wenn die Cachezeile durch einen Heim-Knoten gesendet wurde, sollte der Heim-Knoten das Feld setzen, um entweder den I-Zustand oder den S Zustand abhängig von den Snoop-Antworten, die er empfangen hat, widerzuspiegeln. Wenn ein Agent dieses Feld nicht unterstützt, sollte es immer als ein Standardwert codiert sein. Zu beachten ist, dass das PCLS-Feld für die Leistungsüberwachung /-anpassung verwendet werden kann. Ein inkohärentes geschütztes Feld kann bezeichnen, ob eine Anfrage für normalen oder geschützten Raum ist. Siehe die nachfolgende Tabelle bezüglich den Verschlüsselungen.
-
Bei einigen Implementierungen kann die HPI-Linkschicht ein Mehrslot-Flit mit expliziten Feldern, wie denjenigen, die oben beschrieben sind, sowie implizite Felder unterstützen. Zum Beispiel können Slot-Nachrichtencodierungen und Befehlscodes als implizit betrachtet werden. Zum Beispiel können die Slots 1 und 2 nicht die volle Nachrichtenklassen-Verschlüsselungen transportieren, da in einigen Fällen nicht alle Bits aufgrund von Slot-Beschränkungen erforderlich sind. Slot 1 transportiert nur Nachrichtenklasse-Bit 0, und nur REQ- und SNP-Pakete können in diesem Slot erlaubt sein. REQ- und SNP-Nachrichtenklassen-Verschlüsselungen können durch das Bit 0 differenziert werden und die oberen zwei Bits können als 0-en impliziert sein. Slot 2 kann keine Nachrichtenklassen-Bits transportieren, da nur RSP- (Codierung 2) -Pakete in diesem Slot erlaubt sind. Deshalb kann die Nachrichtenklassen-Codierung für Slot 2 RSP-2 sein. Slot 2 kann auch nur einen Teil eines Befehlscodes mit einem zweiten Teil eines Befehlscodes transportieren, von dem angenommen wird, dass er ein Standardwert ist. Dies bedeutet, dass RSP-2-Pakete mit dem zweiten Teil, der den Standardwert enthält, in Slot 2 erlaubt sind. Weiter kann das komplette Befehlscode-Feld bei einer Ausführungsform durch das Kombinieren der vollen Nachrichtenklasse mit dem vollen Befehlscodefeld erstellt werden, was einen kompletten Befehlscode bildet.
-
Zusätzliche Beispiele von impliziten Feldern können die Paketlänge einschließen, die durch den Befehlscode impliziert werden kann. Weiter kann die globale Unique Transaction-ID (UTID) durch Kombinieren der Anfrager-Knoten-ID mit der Anfrager-Transaktions-ID gebildet werden. Zu beachten ist, dass es ein Überlappen im RTID-Raum zwischen P2P- und Nicht-P2P-Transaktionen geben kann. Zum Beispiel kann die globale P2P Unique Transaction ID (P2PUTID) durch Kombinieren von Anfrager-Knoten-ID mit Anfrager-Transaktions-ID gebildet werden.
-
Bei einigen Implementierungen, wie die in den Beispielen von 6 veranschaulichte, kann die Struktur des Flits Transaktions-IDs (TIDs) erlauben, die 11 Bits an Flit-Raum verwenden. Als Resultat können Vorbelegung und die Aktivierung von verteilten Home-Agenten entfernt werden. Das Verwenden von 11 Bits erlaubt des Weiteren bei einigen Implementierungen, dass die TID verwendet wird, ohne Nutzen für einen erweiterten TID-Modus zu haben.
-
Linkschicht-Logik kann bei jedem Agenten auf jeder Seite eines Links bereitgestellt werden. Ein Sender eines Agenten oder Gerätes kann Daten von höheren Schichten (z. B. einer Protokoll- oder Routing-Schicht) empfangen und ein oder mehrere Flits generieren, um die Daten zu einem Empfänger eines Remote-Agenten zu übertragen. Der Agent kann ein Flit mit zwei oder mehr Slots generieren. In einigen Fällen kann der Agent versuchen, Mehrfachnachrichten oder Pakete innerhalb eines einzelnen Flits zu kombinieren, indem er die definierten Slots verwendet.
-
Linkschicht-Logik, kann bei einigen Implementierungen zugeordnete Pfade einschließen, die jedem definierten Slot entsprechen. Die Pfade können sowohl in Hardware oder Software als auch in beidem verkörpert sein. Ein Empfänger eines Agenten kann ein Flit empfangen (wie rekonstruiert unter Verwendung der physikalischen Schicht) und Linkschicht-Logik kann jeden der Slots bestimmen und die Slots unter Verwendung des jeweiligen Pfades des Slots verarbeiten. Die Linkschicht kann die Flits und die Daten, die in jedem Slot eingeschlossen sind, gemäß einem oder mehreren codierten Feldern des Flits verarbeiten, wie beispielsweise ein Steuerfeld, Header-Feld, CRC-Feld usw.
-
In einem veranschaulichende Beispiel kann ein Sender eine Schreibanfrage empfangen, die mit einer ersten Transaktion verbunden ist, eine Snooping-Anfrage, die mit einer anderen zweiten Transaktion verbunden ist, und eine oder mehrere Bestätigungen oder Kreditrückgaben, die er zu einem (oder durch) ein anderes Gerät senden kann. Der Sender kann ein einzelnes Flit zu dem anderen Gerät über einen seriellen Datenlink einer Kopplungsstruktur senden, wobei das einzelne Flit Header für jedes aus Schreibanfrage, Snoop und Bestätigung (z. B. ein Abschluss) einschließt, wobei jeder Header einen entsprechenden Flit-Slot einnimmt (wie in der 3-Slot-Implementierung, die im Beispiel von 6 veranschaulicht ist). Der Sender kann Daten puffern, die er empfängt, und Möglichkeiten bestimmen, um Mehrfachnachrichten in einem einzelnen Flit zu senden. Der Empfänger kann das kompilierte Flit empfangen und jeden Slot parallel verarbeiten, um jede der drei Nachrichten zu bestimmen und zu verarbeiten, neben vielen anderen potenziellen Beispielen.
-
Bei einigen Implementierungen können mehrere Header in einem Mehrslot-Flit eingeschlossen sein, um Mehrfachnachrichten unter Verwendung eines einzelnen Flits zu senden. Bei einigen Beispielen können sich die entsprechenden Header jeweils auf vollständig unabhängige Transaktionen beziehen. Bei einigen Implementierungen kann die Flexibilität des Flits eingeschränkt sein, sodass jedes Flit nur Nachrichten enthält, die zu einem speziellen virtuellen Netzwerk geleitet werden. Andere Implementierungen können auf solch eine Bedingung verzichten.
-
In Fällen, bei denen Slot-Nachrichten alle auf ein gemeinsames einer Vielzahl von virtuellen Netzwerken Anwendung findet, können Bits, die traditionell für die Identifikation eines entsprechenden virtuellen Netzwerkes eines Slots reserviert worden wären, zu anderen Verwendungen zugeordnet sein, die bei einigen Implementierungen, die Effizienzgewinne, die durch das Flit-Format eingeführt sind, weiter erhöhen, neben potenziell anderen Vorteilen. Bei einem Beispiel können alle Slots in einem Mehrslot-Header-Flit mit einem einzelnen virtuellen Netzwerk wie nur VNA, nur VN0 oder nur VN1 usw. ausgerichtet sein. Durch Erzwingen dessen können Pro-Slot-Bits, die ein virtuelles Netzwerk anzeigen, entfernt werden. Dies vergrößert die Effizienz der Flit-Bit-Verwendung und ermöglicht potenziell solch andere Merkmale, wie das Erweitern von 10-Bit-TIDs auf 11-Bit-TIDs, neben anderen Beispielen. Die Erweiterung auf ein 11-Bit-TID kann bei einigen Implementierungen ermöglichen, dass das TID verwendet wird, ohne Nutzen für einen erweiterten TID-Modus zu haben.
-
In der HPI kann eine große CRC-Baseline verwendet werden, um Fehlererkennung bei einem größeren Mehrslot-Flit bereitzustellen. In einigen Fällen kann die CRC-Baseline selbst Fehlererkennung über die traditionelle Fehlererkennung hinaus verbessern, einschließlich anderer CRC, Implementierung. Bei einem Beispiel, wie gezeigt im beispielhaften Mehrslot-Flit von 6, können 16 Bits pro Flit zum CRC zugeordnet werden. Infolge des größeren CRC können auch größere Nutzdaten verwendet werden. Die 16 Bits des CRC in Kombination mit einem Polynom, das mit diesen Bits verwendet wird, verbessert die Fehlererkennung.
-
Der Wert eines CRC-Feldes eines Flits kann von einer Bit-Datenmaske generiert werden, die die Nutzdaten des Flits darstellt. Der CRC-Wert kann basierend auf einem bestimmten Polynom generiert werden. Bei einem Beispiel, wie das Beispiel von 6, kann ein 192-Bit-Flit ein 16-Bit-CRC-Feld einschließen. Dementsprechend können 176- (Nicht-CRC) -Bit-Datenmasken mit einem XOR-Baum (basierend auf dem ausgewählten Polynom) verwendet werden, um die 16 CRC-Bits zu erzeugen. Zu beachten ist, dass die Flit-Nutzbits vertikal über UI innerhalb von Bahnen zugeordnet sein können. Dies kann Bündelfehlerschutz aufrechterhalten.
-
Die Linkschicht-Logik eines Agenten kann verwendet werden, um den CRC-Wert für ein Flit zu generieren. Der generierte CRC-Wert kann im CRC-Feld seines entsprechenden Flits codiert sein. Das Flit kann dann über einen seriellen Datenlink zu einem Empfänger gesendet werden. Die Linkschicht-Logik des Empfängers kann das gleiche Polynom anwenden, das verwendet wird, um den CRC-Wert zum im CRC-Feld eines empfangenen Flits bestimmten CRC-Wertes zu generieren. Der Empfänger kann eine Checksumme vom CRC-Wert generieren und das Resultat gegen die verbleibenden Nicht-CRC-Daten des Flits vergleichen, um zu bestimmen, ob sich irgendwelche Bitfehler aus der Übertragung des Flits über den Link ergaben. Wenn ein Fehler auf einer Bahn existiert, sollte die Checksumme ein fehlangepasstes Resultat erzeugen, das einen oder mehrere Bitfehler anzeigt, neben anderen Beispielen. Zusätzlich kann bei einigen Implementierungen der CRC-Code nach der Generierung beim Sender invertiert werden und erneut vor dem Überprüfen beim Empfänger invertiert werden, um zum Beispiel zu verhindern, dass bei einem Flit potenziell alle 0-en oder alle 1-en die CRC-Prüfung bestehen.
-
Die Genauigkeit eines CRC kann auf der Länge des CRC-Wertes und der Anzahl an Bahnen, die verwendet werden, um das Flit zu senden, basieren. Zum Beispiel kann die potenzielle Rate der Fehlerhäufung zunehmen, während sich die Anzahl an im Link verwendeten Bahnen verringert. Dies kann zusätzliche Komplexität in HPI-Systeme einführen, die beispielsweise Partialbreite-Senden-Zustände unterstützen.
-
In einigen Fällen kann das CRC-Polynom basierend auf der maximalen Gesamtlänge des zu schützenden Blocks (Daten + CRC-Bits), den gewünschten Fehlersicherungsmerkmalen und der Art von Ressourcen für das Implementieren des CRC sowie der gewünschten Leistung konzipiert sein. Bei einigen Beispielen kann ein CRC-Polynom entweder von einem nicht reduzierbaren Polynom oder einem nicht reduzierbaren Polynom mal dem Faktor, um alle Fehler zu erkennen, die eine ungerade Zahl von Bits beeinträchtigen, abgeleitet sein. In einigen Fällen kann jedoch das Auswählen eines reduzierbaren Polynoms aufgrund dessen, dass Ringe Nullteiler usw. aufweisen, in verpassten Fehlern resultieren.
-
Bei einer beispielhaften Implementierung kann ein einfaches Polynom als der Generator für einen CRC-Code verwendet werden, um einen resultierenden CRC-Code mit der maximalen gesamten Blocklänge auszustatten. Wenn zum Beispiel r der Grad des einfachen Generatorpolynoms ist, dann kann die maximale Blocklänge (2r - 1) sein und der damit verbundene Code kann in der Lage sein, jegliche Einzelbit- oder Doppelbitfehler zu erkennen. Bei weiteren Implementierungen kann ein Generatorpolynom g(x) = p(x)(1+x) verwendet werden, wobei p(x) ein einfaches Polynom des Grades (r- 1) ist, eine maximale Blocklänge (2r-1 - 1) ist und der resultierende Code fähig ist, Einzel-, Doppel- und Dreifachfehler zu erkennen, neben anderen Beispielen.
-
Ein Polynom g(x), das andere Faktorenzerlegungen zulässt, kann verwendet werden, um die maximale gesamte Blocklänge mit einer gewünschten Fehlererkennungsleistung auszugleichen. Zum Beispiel sind BCH-Codes eine leistungsstarke Klasse von solchen Polynomen. Unabhängig von den Reduzierbarkeitseigenschaften eines Generatorpolynoms des Grades r, wenn es den Begriff „+1“ einschließt, kann der Code in der Lage sein, Fehlerbilder zu erkennen, die auf ein Fenster von r angrenzenden Bits beschränkt sind. Diese Muster können als „Fehlerhäufungen“ bezeichnet werden. Solche Fehlerhäufungen können zum Beispiel resultieren, wenn ein Fehler eine der Bahnen eines Links beeinträchtigt.
-
Bei einem speziellen Beispiel kann ein 192-Bit-Flit ein 16-Bit-CRC-Feld einschließen. Ein 16-Bit-CRC-Polynom kann in der Linkschicht-Logik implementiert sein, um Werte des CRC-Feldes zu generieren. Bei einer Ausführungsform kann das Polynom die Erkennung von 1-Bit-, 2-Bit-, 3-Bit- und 4-Bit-Fehlern, die Erkennung von Fehlern der Burstlänge 16 oder weniger erlauben, wobei nur 1:216 von allen anderen Fehlerzuständen unbemerkt bleiben. Bei einem speziellen Beispiel kann das verwendete 16-Bit-CRC-Polynom 0x1b7db (x16 + x15 + x13 + x12 + x10 + x9 + x8 + x7 + x6 + x4 + x3 + x1+ 1) sein, um eine XOR-Tiefe von 93, 4-Bit-Erkennung des statistischen Fehlers und 16-Bit-Burstschutz neben anderen potenziellen Implementierungen und Alternativen bereitzustellen.
-
Wie bereits erwähnt, können die Fehlererkennungseigenschaften eines CRC auf der Länge des CRC basieren. Zum Beispiel kann im Fall von einem 16-Bit-CRC, das ein 192-Bit-Flit schützt, die Fehlererkennung Fehler der Burstlänge 16 oder weniger erfassen. Solch eine Implementierung kann effektiv im Wesentlichen alle Einbahn-Fehler erfassen, die bei einem Link auftreten könnten, das 12 oder mehr Bahnen einsetzt, um das Flit zu senden. Bei Links oder Link-Zuständen, die weniger Bahnen verwenden, um das Flit zu senden, kann ein 16-Bit-CRC jedoch unzureichend sein. Zum Beispiel kann ein Ausfallen oder Fehler auf einer einzelnen Bahn eines 8-Bahn-Links in Fehlern mit Burstlängen von bis zu 24 Bits resultieren.
-
Bei einigen Implementierungen kann ein rollender CRC eingesetzt werden, um die Fehlererkennungseigenschaften zu erweitern, die durch ein Flit-Format bereitgestellt werden, das eine feste Anzahl von Bits zu einem CRC zuordnet. Bei einer Ausführungsform kann ein rollender CRC, der auf zwei oder mehr CRC-Polynomen und zwei oder mehr entsprechenden XOR-Bäumen basiert, bereitgestellt werden (wenigstens bei einigen HPIkonformen Geräten). Für eine Sequenz von zwei oder mehr Flits kann ein erster CRC-Code durch das erste Polynom für ein erstes Flit generiert werden. Für das zweite Flit kann das zweite CRC-Polynom verwendet werden, um einen zweiten CRC-Code und so weiter zu generieren. Der erste durch das erste Polynom generierte CRC-Code kann mit dem zweiten CRC-Code eine XOR-Operation ausführen, der durch das zweite Polynom generiert ist, um einen rollenden CRC-Wert zu erzeugen. Der rollende CRC-Wert kann an den Empfänger (z. B. im CRC-Feld eines Flits) bereitgestellt werden. Der rollende CRC-Wert kann effektiv den Wert von mehreren Flits von Daten reflektieren, die die Fähigkeit des Systems verbessern, Bitfehler von höheren Burstlängen zu erkennen, während keine zusätzlichen Nutzdaten für zusätzliche CRC-Bits geopfert werden, neben anderen Beispielen.
-
Bei einer Ausführungsform, wird ein rollender CRC, der auf zwei CRC-16-Gleichungen basiert, verwendet. Zwei 16-Bit-Polynome, können verwendet werden, das Polynom vom HPI CRC-16 und ein zweites Polynom. Das zweite Polynom hat die kleinste Anzahl an Gates, um einen rollenden 32-Bit-CRC-Algorithmus zu implementieren, der die Eigenschaften von 1) der Erkennung von allen 1-7 Bitfehlern; 2) pro Bahn-Burstschutz bei x8 Linkbreiten (um 24 UI in einer 8-Bahn-Länge abzudecken); 3) Erkennen von allen Fehlern der Burstlänge 16 oder weniger; und 4) nur 1:232 von allen anderen Fehlerzuständen bleiben unbemerkt, realisiert. Bei einem Beispiel kann das zweite Polynom 0x10147 (x16+ x8+ x6+ x2+ x1+1) umfassen. Andere beispielhafte Implementierungen können die oben veranschaulichten Prinzipien wie Implementierungen, die auf Flits einer unterschiedlichen Länge maßgeschneidert sind, oder Systeme mit Links, die eine unterschiedliche (höhere oder niedrigere) minimale Bahnbreite mit entsprechenden definierten Polynomen und CRC-Feldlängen gemäß den speziellen Designs der Implementierungen unterstützen, einsetzen.
-
Die HPI kann in jede Vielzahl von Computergeräten und Systemen eingebunden sein, die neben anderen Beispielen Mainframes, Serversysteme, PersonalComputer, tragbare Rechner (wie Tablets, Smartphones, persönliche Digitalsysteme usw.), intelligente Apparate, Spiele- oder Unterhaltungskonsolen und Set-Top-Boxen einschließen. Zum Beispiel veranschaulicht 11 ein beispielhaftes Computersystem 1100 gemäß einigen Implementierungen. Wie in 11 gezeigt, ist das Mehrprozessorsystem 1100 ein System mit einem Punkt-zu-Punkt-Kopplungsstruktursystem und umfasst einen ersten Prozessor 1170 und einen zweiten Prozessor 1180, die über eine Punkt-zu-Punkt-Kopplungsstruktur 1150 gekoppelt sind. Jeder der Prozessoren 1170 und 1180 kann eine Variante eines Prozessors sein. Bei einer Ausführungsform sind 1152 und 1154 Teil eines seriellen, kohärenten Punkt-zu-Punkt-Kopplungsstrukturgefüges, wie eine hochleistungsfähige Architektur. Als Resultat kann die Erfindung innerhalb der QPI-Architektur implementiert sein.
-
Obwohl nur zwei Prozessoren 1170, 1180 gezeigt sind, versteht es sich, dass der Umfang der vorliegenden Erfindung nicht derart beschränkt ist. Bei anderen Ausführungsformen können ein oder mehrere zusätzliche Prozessoren in einem gegebenen Prozessor vorhanden sein.
-
Die Prozessoren 1170 und 1180 sind jeweils mit integrierten Speichercontroller-Einheiten 1172 und 1182 gezeigt. Der Prozessor 1170 schließt außerdem als Teil seiner Bus-Controller-Einheiten Punkt-zu-Punkt-Schnittstellen (P-P) 1176 und 1178 ein; ähnlich schließt der zweite Prozessor 1180 die P-P-Schnittstellen 1186 und 1188 ein. Die Prozessoren 1170, 1180 können Informationen über eine P-P-Schnittstelle 1150 unter Verwendung der P-P-Schnittstellenschaltungen 1178, 1188 austauschen. Wie in 11 gezeigt, koppeln die IMCs 1172 und 1182 die Prozessoren an die jeweiligen Speicher, namentlich an einen Speicher 1132 und einen Speicher 1134, die Teile eines Hauptspeichers sein können, der lokal an den jeweiligen Prozessoren angeschlossen ist.
-
Die Prozessoren 1170, 1180 tauschen jeweils Daten mit einem Chipsatz 1190 über einzelne P-P-Schnittstellen 1152, 1154 aus, wobei die P-P-Schnittstellenschaltungen 1176, 1194, 1186, 1198 verwendet werden. Der Chipsatz 1190 tauscht auch Informationen mit einer hochleistungsfähigen Grafikschaltung 1138 über eine Schnittstellenschaltung 1192 entlang einer hochleistungsfähigen Grafikkopplungsstruktur 1139 aus.
-
In jedem Prozessor kann ein gemeinsam genutzter Cache (nicht abgebildet) in jedem Prozessor oder außerhalb von den beiden Prozessoren eingeschlossen sein, der jedoch mit den Prozessoren über eine P-P-Kopplungsstruktur derart verbunden ist, dass eine (oder beide) der lokalen Cache-Informationen der Prozessoren im gemeinsam benutzten Cache gespeichert werden können, wenn ein Prozessor in einen Energiesparmodus versetzt wird.
-
Der Chipsatz 1190 kann über die Schnittstelle 1196 mit einem ersten Bus 1116 gekoppelt sein. Bei einer Ausführungsform kann erster Bus 1116 ein Peripheral Component Interconnect- (PCI) -Bus sein, oder ein Bus, wie z. B. PCI Express-Bus oder ein anderer IO-Interconnect-Bus der 3. Generation sein, obwohl der Umfang der vorliegenden Erfindung nicht derart beschränkt ist.
-
Wie in 11 gezeigt, sind verschiedene I/O-Geräte 1114 mit dem ersten Bus 1116 gekoppelt zusammen mit einer Busbrücke 1118, die den ersten Bus 1116 mit einem zweiten Bus 1120 koppelt. Bei einer Ausführungsform schließt der zweite Bus 1120 einen Low Pin Count- (LPC) -Bus ein. Verschiedene Geräte sind mit dem zweiten Bus 1120 gekoppelt einschließlich beispielsweise eine Tastatur und/oder Maus 1122, Kommunikationsgeräte 1127 und eine Speichereinheit 1128 wie ein Plattenlaufwerk oder ein anderes Massenspeichergerät, das häufig Befehle/Code und Daten 1130 bei einer Ausführungsform einschließt. Des Weiteren ist ein Audio-I/O 1124 gekoppelt mit dem zweiten Bus 1120 gezeigt. Zu beachten ist, dass andere Architekturen möglich sind, bei denen die eingeschlossenen Komponenten und Kopplungsstruktur-Architekturen variieren. Ein System kann beispielsweise statt der Punkt-zu-Punkt-Architektur von 11 einen Multidrop-Bus oder eine andere solche Architektur implementieren.
-
Obwohl die vorliegende Erfindung im Hinblick auf eine begrenzte Anzahl von Ausführungsformen beschrieben wurde, sind sich Fachleute bewusst, dass viele weitere Modifikationen und Varianten davon möglich sind. Die beigefügten Ansprüche sollen alle solchen Modifikationen und Varianten abdecken, die dem Sinn und Schutzbereich der vorliegenden Erfindung entsprechen.
-
Ein Design kann verschiedene Stufen durchlaufen, von der Erstellung zur Simulation zur Fertigung. Daten, die ein Design repräsentieren, können das Design auf mehrere Weise repräsentieren. Zuerst einmal, wie es bei Simulationen nützlich ist, kann die Hardware unter Benutzen einer Hardware-Beschreibungssprache oder einer anderen Funktionsbeschreibungssprache dargestellt werden. Außerdem kann ein Modell auf Schaltungsebene mit Logik- und/oder Transistor-Gattern auf einigen Stufen des Design-Verfahrens hergestellt werden. Zudem erreichen die meisten Designs irgendwann eine Datenebene, die die physische Anordnung verschiedener Geräte in dem Hardware-Modell darstellt. Wenn herkömmliche Halbleiter-Fertigungstechniken benutzt werden, können die Daten, die das Hardware-Modell darstellen, diejenigen Daten sein, die die Anwesenheit oder Abwesenheit verschiedener Merkmale auf unterschiedlichen Maskenschichten für Masken spezifizieren, die zum Herstellen des integrierten Schaltkreises benutzt werden. Bei einer Darstellung des Designs können die Daten in Form eines maschinenlesbaren Mediums gespeichert sein. Ein Speicher oder ein magnetisches oder optisches Speichermedium, wie beispielsweise eine Disc, kann das maschinenlesbare Medium sein, um Informationen zu speichern, die mittels einer optischen oder elektrischen Welle übertragen werden, die moduliert oder auf andere Weise erzeugt wird, um solche Informationen zu übertragen. Wenn eine elektrische Trägerwelle, die den Code oder das Design anzeigt oder trägt, zu einem Ausmaß übertragen wird, dass das Kopieren, Puffern oder die Weiterübertragung des elektrischen Signals durchgeführt wird, wird eine neue Kopie erstellt. So kann ein Kommunikationsdienstanbieter oder ein Netzwerkdienstanbieter auf einem konkreten maschinenlesbaren Medium zumindest zeitweise einen Artikel speichern, wie z. B. Informationen, die in eine Trägerwelle codiert sind, die Techniken von Ausführungsformen der vorliegenden Erfindung verkörpern.
-
Ein Modul wie hierin verwendet bezieht sich auf jede Kombination von Hardware, Software und/oder Firmware. Als ein Beispiel schließt ein Modul Hardware, wie einen Mikrocontroller ein, der mit einem nicht flüchtigen Medium verbunden ist, um Code zu speichern, der angepasst ist, um von dem Mikrocontroller ausgeführt zu werden. Deshalb verweist die Bezugnahme auf ein Modul bei einer Ausführungsform auf die Hardware, die speziell konfiguriert ist, um den Code zu erkennen und/oder auszuführen, der auf einem nicht flüchtigen Medium gespeichert wird. Bei einer weiteren Ausführungsform verweist des Weiteren die Verwendung von einem Modul auf das nicht flüchtige Medium, das den Code einschließt, der speziell angepasst ist, um durch den Mikrocontroller ausgeführt zu werden, um vorbestimmte Operationen auszuführen. Und wie bei noch einer weiteren Ausführungsform gefolgert werden kann, kann der Begriff Modul (in diesem Beispiel) auf die Kombination aus Mikrocontroller und nicht flüchtigem Medium verweisen. Modulgrenzen, die als getrennt veranschaulicht sind, variieren herkömmlicherweise oftmals und können potenziell überlappen. Beispielsweise können ein erstes und ein zweites Modul Hardware, Software, Firmware oder eine Kombination davon gemeinsam benutzen, während einige unabhängige Hardware, Software oder Firmware potenziell zurückgehalten wird. Bei einer Ausführungsform beinhaltet eine Verwendung des Begriffes Logik Hardware, wie z. B. Transistoren, Register oder andere Hardware, wie z. B. programmierbare Logikbaugruppen.
-
Die Verwendung des Ausdrucks „konfiguriert ist“ bei einer Ausführungsform, verweist auf das Anordnen, Zusammensetzen, Herstellen, zum Verkauf anbieten, Importieren und/oder Konstruieren einer Vorrichtung, Hardware, Logik oder Element, um eine vorgesehene oder bestimmte Aufgabe auszuführen. Bei diesem Beispiel ist eine Vorrichtung oder ein Element davon, das nicht arbeitet, immer noch „konfiguriert“, um eine vorgesehene Aufgabe auszuführen, wenn es konzipiert, gekoppelt, und/oder verbunden ist, um diese vorgesehene Aufgabe auszuführen. Als ein rein veranschaulichendes Beispiel kann ein Logikgatter eine 0 oder 1 während des Betriebs bereitstellen. Aber ein Logikgatter, das „konfiguriert ist“, ein Freigabesignal an einen Takt bereitzustellen, schließt nicht jedes potenzielle Logikgatter ein, das 1 oder 0 bereitstellen kann. Statt dessen ist das Logikgatter eines, das in einer Weise gekoppelt ist, sodass während des Betriebs der 1- oder 0-Ausgang den Takt ermöglicht. Einmal mehr ist zu beachten, dass die Verwendung des Begriffs „konfiguriert ist“ keinen Betrieb erfordert, sondern sich stattdessen auf den latenten Zustand einer Vorrichtung, Hardware und/oder eines Elementes konzentriert, wo im latenten Zustand die Vorrichtung, die Hardware und/oder das Element konzipiert ist, eine bestimmte Aufgabe auszuführen, wenn die Vorrichtung, die Hardware, und/oder das Element arbeiten.
-
Des Weiteren verweist die Verwendung der Ausdrücke „zu“, „fähig zu“ und oder „betriebsfähig zu“ bei einer Ausführungsform auf eine Vorrichtung, Logik, Hardware und/oder ein Element, das auf solche Art und Weise konzipiert ist, um die Verwendung der Vorrichtung, Logik, Hardware, und/oder des Elements in einer spezifizierten Weise zu ermöglichen. Wie vorstehend ist zu beachten dass die Verwendung von „zu“, „fähig zu“ und oder „betriebsfähig zu“ bei einer Ausführungsform auf den latenten Zustand einer Vorrichtung, Logik, Hardware, und/oder eines Elements verweist, wo die Vorrichtung, Logik, Hardware und/oder das Element nicht arbeitet, aber auf solche Art und Weise konzipiert ist, die Verwendung einer Vorrichtung in einer spezifizierten Weise zu ermöglichen.
-
Ein Wert wie hierin verwendet beinhaltet jede bekannte Darstellung einer Anzahl, eines Zustands, eines logischen Zustands oder eines binären logischen Zustands. Die Verwendung von Logikpegeln, Logikwerten oder logischen Werten wird ebenfalls als 1-en und 0-en bezeichnet, was einfach binäre logische Zustände darstellt. Beispielweise bezieht sich eine 1 auf einen hohen Logikpegel und 0 bezieht sich auf einen niedrigen Logikpegel. Bei einer Ausführungsform kann eine Speicherzelle, wie z. B. ein Transistor oder eine Flash-Zelle, einen einzelnen logischen Wert oder mehrere logische Werte enthalten. Es wurden jedoch andere Darstellungen von Werten bei Computersystemen verwendet. Die Dezimalzahl Zehn beispielsweise kann ebenfalls als ein binärer Wert 1010 und ein hexadezimaler Buchstabe A dargestellt werden. Deshalb beinhaltet ein Wert jede Darstellung von Informationen, die in einem Computersystem enthalten sein können.
-
Außerdem können Zustände durch Werte oder Teile von Werten dargestellt sein. Als Beispiel kann ein erster Wert, wie z. B. eine logische Eins, einen Standard- oder Anfangszustand darstellen, während ein zweiter Wert, wie z. B. eine logische Null, einen nicht standardmäßigen Zustand darstellen kann. Zusätzlich beziehen sich bei einer Ausführungsform die Begriffe Zurücksetzen und Setzen auf einen Standard- und einen aktualisierten Wert bzw. Zustand. Ein Standwert beinhaltet beispielsweise potenziell einen hohen logischen Wert, d. h. Zurücksetzen, während ein aktualisierter Wert potenziell einen niedrigen logischen Wert beinhaltet, d. h. Setzen. Es ist zu beachten, dass jegliche Kombination von Werten eingesetzt werden kann, um eine beliebige Anzahl an Zuständen darzustellen.
-
Die Ausführungsformen von vorstehend angeführten Verfahren, Hardware, Software, Firmware oder Code können durch Befehle oder Code implementiert sein, der auf einem maschinenzugänglichen, maschinenlesbaren oder computerlesbaren Medium gespeichert ist und durch ein Verarbeitungselement ausgeführt werden kann. Ein nicht flüchtiges maschinenzugängliches/-lesbares Medium schließt jeden Mechanismus ein, der Informationen in einer von einer Maschine wie einem Computer oder einer Elektronik lesbaren Form bereitstellt (d. h. speichert und/oder überträgt). Ein nicht flüchtiges maschinenzugängliches Medium beispielsweise beinhaltet Direktzugriffsspeicher (RAM), wie z. B. statischen RAM (SRAM) oder dynamischen RAM (DRAM); ROM; ein magnetisches oder optisches Speichermedium; Flash-Memory-Geräte; ein elektrisches Speichergerät, optische Speichergeräte, akustische Speichergeräte; eine andere Form von Speichergeräten, um Informationen, die von flüchtigen (propagierten) Signalen (z. B. Trägerwellen, Infrarotsignale, digitale Signale) usw. empfangen wurden, zu halten, die von den nicht flüchtigen Medien zu unterscheiden sind, die Informationen davon empfangen können.
-
Befehle, die zum Programmieren von Logik verwendet werden, damit sie Ausführungsformen der Erfindung ausführt, können in einem Speicher in dem System wie DRAM, Cache, Flash-Speicher oder anderen Speichern gespeichert sein. Außerdem können die Befehle über ein Netzwerk oder mithilfe von anderen computerlesbaren Medien verbreitet werden. Somit kann ein maschinenlesbares Medium einen beliebigen Mechanismus zum Speichern oder Übermitteln von Informationen in einer (z. B. einem Computer) maschinenlesbaren Form umfassen, ist aber nicht beschränkt auf Disketten, optische Laufwerke, CDs, Nur-Lese-Speicher (CD-ROMs), magnetooptische Disketten, Festwertspeicher (ROM), Direktzugriffsspeicher (RAM), Erasable Programmable Read-Only Memory (EPROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), magnetische oder optische Karten, Flash-Speicher oder einen nichtflüchtigen, maschinenlesbaren Speicher, der bei der Übertragung von Informationen über das Internet mithilfe von von elektrischen, optischen, akustischen oder anderen Formen von sich ausbreitenden Signalen (z. B. Trägerwellen, Infrarotsignalen, digitalen Signalen usw.) verwendet wird. Dementsprechend umfasst das computerlesbare Medium eine beliebige Art von nichtflüchtigem, maschinenlesbaren Medium, das zum Speichern oder Übermitteln elektronischer Befehle oder Informationen in einer von einer Maschine (z. B. einem Computer) lesbaren Form geeignet ist.
-
Die folgenden Beispiele betreffen Ausführungsformen gemäß dieser Spezifikation. Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren bereitstellen, um Transaktionsdaten zu bestimmen, ein Flit zu generieren, um drei oder mehr Slots und ein gleitendes Feld einzuschließen, das als eine Erweiterung von irgendwelchen von zwei oder mehr der Slots verwendet wird, und das Flit zu senden, um das Flit zu übertragen.
-
Bei wenigstens einem Beispiel umfasst I/O-Logik einen Schichtstapel, der physikalische Schicht-Logik, Linkschicht-Logik und Protokollschicht-Logik umfasst.
-
Bei wenigstens einem Beispiel bestehen die drei oder mehr Slots aus drei definierten Slots.
-
Bei wenigstens einem Beispiel umfasst das Flit 192 Bits.
-
Bei wenigstens einem Beispiel umfasst der erste von den drei Slots 72 Bits, der zweite von den drei Slots umfasst 70 Bits und der dritte Slot umfasst 18 Bits
-
Bei wenigstens einem Beispiel schließen der erste Slot und der zweite Slot jeweils ein entsprechendes 50-Bit-Nutzdatenfeld ein.
-
Bei wenigstens einem Beispiel erweitert das gleitende Feld das Nutzdatenfeld entweder des ersten Slots oder des zweiten Slots durch elf Bits.
-
Bei wenigstens einem Beispiel ist der dritte Slot angepasst, um mit ein oder mehr aus Bestätigungen und Kreditrückgaben codiert zu sein.
-
Bei wenigstens einem Beispiel umfasst das Flit weiter ein 16-Bit-Cyclic Redundancy Check- (CRC) -Feld.
-
Bei wenigstens einem Beispiel umfasst das Flit weiter ein 11-Bit-Transaktionskennungs- (TID) -Feld.
-
Bei wenigstens einem Beispiel schließt jeder Slot einen Header einer individuellen Nachricht ein.
-
Bei wenigstens einem Beispiel ist jede Nachricht mit einer entsprechenden Transaktion innerhalb eines speziellen virtuellen Netzwerkes verbunden.
-
Bei wenigstens einem Beispiel umfasst das Flit weiter eine virtuelle Netzwerk-Kennung, um das spezielle virtuelle Netzwerk zu bestimmen.
-
Bei wenigstens einem Beispiel sind Nachrichten-Header, die mit Transaktionen in unterschiedlichen virtuellen Netzwerken verbunden sind, in ausgeprägten Flits eingeschlossen.
-
Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren bereitstellen, um ein Flit zu empfangen, wobei das Flit drei oder mehr Slots einschließt, die im Flit einzuschließen sind, und ein gleitendes Feld, das als eine Erweiterung von irgendwelchen von zwei oder mehr der Slots verwendet wird, und jeden Slot zu verarbeiten, um einen oder mehrere Header in Zusammenhang mit einer oder mehreren Transaktionen zu bestimmen.
-
Bei wenigstens einem Beispiel umfassen der eine oder die mehreren Header drei oder mehr Header.
-
Bei wenigstens einem Beispiel entspricht jeder der Header einer entsprechenden mit einer unterschiedlichen, entsprechenden Transaktion verbundenen Nachricht.
-
Bei wenigstens einem Beispiel ist jede der Transaktionen in einem speziellen virtuellen Netzwerk eingeschlossen.
-
Bei wenigstens einem Beispiel kann bestimmt werden, welchen von den ersten und zweiten Slots das gleitende Feld erweitert.
-
Bei wenigstens einem Beispiel ist der dritte Slot angepasst, um mit ein oder mehr aus Bestätigungen und Kreditrückgaben codiert zu sein.
-
Bei wenigstens einem Beispiel kann das Flit von einem ersten Gerät zu einem zweiten Gerät über den Datenlink gesendet werden. Die ersten zweiten Geräte können Mikroprozessoren, Grafikbeschleuniger und andere Geräte einschließen.
-
Ein oder mehrere Beispiele können weiter einen Schichtenprotokollstapel bereitstellen, der wenigstens eine Linkschicht und eine physikalische Schicht einschließt, wobei der Schichtenprotokollstapel konfiguriert ist, mit einem seriellen Differenzlink gekoppelt zu werden, und wobei der Schichtenprotokollstapel weiter konfiguriert ist, ein 192-Bit-Flit über den seriellen Differenzlink zu senden.
-
Bei wenigstens einem Beispiel schließt das 192-Bit-Flit einen 16-Bit-CRC ein
-
Ein oder mehrere Beispiele können weiter einen Schichtenprotokollstapel bereitstellen, der wenigstens eine Linkschicht und eine physikalische Schicht einschließt, wobei der Schichtenprotokollstapel konfiguriert ist, mit einem seriellen Differenzlink gekoppelt zu werden, und wobei der Schichtenprotokollstapel weiter konfiguriert ist, ein Flit über den seriellen Differenzlink zu senden, wobei das Flit ein 11-Bit-Transaktionskennungsfeld einschließt.
-
Ein oder mehr Beispiele können weiter einen Schichtenprotokollstapel bereitstellen, der wenigstens eine Linkschicht und eine physikalische Schicht einschließt, wobei der Schichtenprotokollstapel konfiguriert ist, mit einem seriellen Differenzlink gekoppelt zu werden, und wobei der Schichtenprotokollstapel weiter konfiguriert ist, ein Header-Flit zusammenzufügen, das eine Vielzahl von Slots einschließt.
-
Bei wenigstens einem Beispiel schließt die Vielzahl von Nutzdaten-Slots 3 Slots ein.
-
Bei wenigstens einem Beispiel sind die ersten und zweiten Slots der 3 Slots in der Größe gleich und der dritte Slot der 3 Slots ist kleiner als der erste Slot.
-
Bei wenigstens einem Beispiel können spezielle Steuerungsflits alle 3 Slots verbrauchen.
-
Bei wenigstens einem Beispiel schließt das Flit einen 16-Bit-CRC ein.
-
Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren bereitstellen, um Transaktionsdaten zu bestimmen, ein Flit von den Transaktionsdaten zu generieren, wobei das Flit zwei oder mehr Slots, Nutzdaten und ein CRC-Feld einschließt, das mit einem 16-Bit-CRC-Wert codiert ist, der basierend auf den Nutzdaten generiert ist, und das Flit zum Gerät über den seriellen Datenlink zu senden.
-
Bei wenigstens einem Beispiel umfasst die I/O-Logik einen Schichtstapel, der physikalische Schicht-Logik, Linkschicht-Logik und Protokollschicht-Logik umfasst.
-
Bei wenigstens einem Beispiel bestehen die zwei oder mehr Slots aus drei definierten Slots.
-
Bei wenigstens einem Beispiel umfasst das Flit 192 Bits.
-
Bei wenigstens einem Beispiel umfasst der erste von den drei Slots 72 Bits, der zweite von den drei Slots umfasst 70 Bits und der dritte Slot umfasst 18 Bits
-
Bei wenigstens einem Beispiel ist der dritte Slot angepasst, um mit ein oder mehr aus Bestätigungen und Kreditrückgaben codiert zu sein.
-
Bei wenigstens einem Beispiel umfassen die Flit-Nutzdaten 176 Bits.
-
Bei wenigstens einem Beispiel wird der CRC-Wert unter Verwendung eines XOR-Baums generiert und der XOR-Baum verkörpert ein Generatorpolynom. Das Polynom kann g(x) = (x16 + x15 + x13 + x12 + x10 + x9 + x8 + x7 + x6 + x4 + x3 + x1 + 1) umfassen. Der CRC-Wert kann ein rollender CRC-Wert sein.
-
Bei wenigstens einem Beispiel umfasst der Datenlink wenigstens 8 Bahnen in einem ersten Zustand und das Flit umfasst 192 Bits.
-
Bei wenigstens einem Beispiel umfasst der erste Zustand einen Partialbreite-Senden-Zustand, und ein Volle-Breite-Senden-Zustand umfasst einen 20-Bahn-Link.
-
Eine oder mehrere Ausführungsformen können eine Vorrichtung, ein System, einen maschinenlesbaren Speicher, ein maschinenlesbares Medium und ein Verfahren bereitstellen, um ein Flit zu empfangen, wobei das Flit zwei oder mehr Slots, Nutzdaten und ein CRC-Feld einschließt, das mit einem 16-Bit-CRC-Wert codiert ist, der basierend auf den Nutzdaten generiert ist, einen Vergleichs-CRC-Wert von den Nutzdaten zu bestimmen und den Vergleichs-CRC-Wert mit dem im Flit eingeschlossenen CRC-Wert zu vergleichen.
-
Bei wenigstens einem Beispiel können ein oder mehrere Fehler bei einem Datenlink basierend auf dem Vergleich erkannt werden.
-
Bei wenigstens einem Beispiel umfasst das Flit 192 Bits, ein erster von den Slots umfasst 72 Bits, ein zweiter von den Slots umfasst 70 Bits und ein dritter von Slots umfasst 18 Bits.
-
Bei wenigstens einem Beispiel kann der CRC-Wert unter Verwendung eines XOR-Baums abgeleitet werden, der ein Generatorpolynom verkörpert. Das Generatorpolynom kann g(x) = (x16 + x15 + x13 + x12 + x10 + x9 + x8 + x7 + x6 + x4 + x3 + x1 + 1) umfassen.
-
Bei wenigstens einem Beispiel ist das Generatorpolynom das gleiche, das verwendet wird, um den im Flit eingeschlossenen CRC-Wert zu generieren.
-
Bei wenigstens einem Beispiel umfasst der CRC-Wert einen rollenden CRC-Wert.
-
Bei wenigstens einem Beispiel kann das Flit zwischen einem ersten und zweiten Gerät gesendet werden. Die ersten und zweiten Geräte können Mikroprozessoren, grafische Beschleuniger oder andere Geräte sein.
-
Ein oder mehrere Beispiele können weiter einen Schichtenprotokollstapel bereitstellen, der wenigstens eine Linkschicht und eine physikalische Schicht einschließt, wobei der Schichtenprotokollstapel konfiguriert ist, mit einem seriellen Differenzlink gekoppelt zu werden, wobei der Schichtenprotokollstapel weiter konfiguriert ist, einen rollenden CRC für ein Flit zu berechnen, das auf dem Link zu senden ist, wobei der rollende CRC auf wenigstens zwei Polynomgleichungen basiert.
-
Bei wenigstens einem Beispiel bestimmt das zweite Polynom der zwei, ob alle von 1-7 Bitfehlern pro Bahn-Burstschutz bestimmt sind und Fehler der Burstlänge 16 oder weniger erkannt wurden.
-
Ein oder mehrere Beispiele können weiter einen Schichtenprotokollstapel bereitstellen, der wenigstens eine Linkschicht und eine physikalische Schicht einschließt, wobei der Schichtenprotokollstapel konfiguriert ist, mit einem seriellen Differenzlink gekoppelt zu werden, und wobei der Schichtenprotokollstapel weiter konfiguriert ist, ein Header-Flit zusammenzufügen, das eine Vielzahl von Slots einschließt.
-
Bei wenigstens einem Beispiel schließt die Vielzahl von Nutzdaten-Slots 3 Slots ein.
-
Bei wenigstens einem Beispiel sind die ersten und zweiten Slots der 3 Slots in der Größe gleich und der dritte Slot der 3 Slots ist kleiner als der erste Slot.
-
Bei wenigstens einem Beispiel können die speziellen Steuerungsflits alle 3 Slots verbrauchen.
-
Bei wenigstens einem Beispiel schließt das Flit einen 16-Bit-CRC ein.
-
Verweise in dieser Beschreibung auf „eine Ausführungsform“ bedeuten, dass ein bestimmtes Merkmal, eine Struktur oder ein Charakteristikum, das/die in Verbindung mit der Ausführungsform beschrieben wird, zumindest in einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Verwendungen des Ausdrucks „in einer Ausführungsform“ an verschiedenen Stellen in dieser gesamten Beschreibung nicht notwendigerweise alle auf dieselbe Ausführungsform. Des Weiteren können die bestimmten Merkmale, Strukturen oder Charakteristika auf jegliche geeignete Weise in einer oder mehreren Ausführungsformen kombiniert sein.