DE102018006849A1

DE102018006849A1 - Verfahren, Vorrichtung, System für frühe granulare Seitenhinweise anhand einer PCIE-Vorrichtung

Info

Publication number: DE102018006849A1
Application number: DE102018006849.9A
Authority: DE
Inventors: Rajesh M. Sankaran; Ishwar AGARWAL; Rupin H. Vakharwala; Stephen R. Van Doren
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-09-30
Filing date: 2018-08-29
Publication date: 2019-04-04
Also published as: US11726927B2; US20190102326A1; US20220365887A1; US11347662B2

Abstract

Aspekte der Ausführungsformen sind auf Systeme und Verfahren zum Bereitstellen und Verwenden von Hinweisen in Datenpaketen zum Durchführen von Speichertransaktionsoptimierungsprozessen vor dem Empfangen von einem oder mehreren Datenpaketen, die auf Speichertransaktionen beruhen, gerichtet. Die Systeme und Verfahren können das Empfangen von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung eines Datenpakets; das Kennzeichnen anhand der empfangenen Vorrichtung eines Speichertransaktionshinweisbits; das Bestimmen einer Speichertransaktion anhand des Speichertransaktionshinweisbits; und das Durchführen eines Optimierungsprozesses auf Grundlage zumindest zum Teil der bestimmten Speichertransaktion beinhalten.

Description

HINTERGRUND
Moderne Server- und Client-Verarbeitungseinheiten können eine große Anzahl an Kern- & Eingabe-/Ausgabe (E/A) -Agenten unterstützen. Jeder Kern- und E/A-Agent kann um eine geringen Latenz und einen hohen Bandbreitenzugriff auf gemeinsame Ressourcen konkurrieren, um bessere Leistungsmerkmale zu erzielen. Solche gemeinsamen Ressourcen können einen Cache-Speicher und eine Speicherung beinhalten.
Figurenliste

1 veranschaulicht eine Ausführungsform eines Blockdiagramms für ein Computersystem, das einen Multicore-Prozessor aufweist.
2 ist ein schematisches Diagramm einer Systemarchitektur 200 gemäß Ausführungsformen der vorliegenden Offenbarung.
3 ist ein schematisches Diagramm eines Datenpakets, das mit Hinweisbits konfiguriert ist, gemäß Ausführungsformen der vorliegenden Offenbarung.
4 ist ein Prozessflussdiagramm für eine Vorrichtung zum Konfigurieren eines Datenpakets mit Hinweisbits gemäß Ausführungsformen der vorliegenden Offenbarung.
5 ist ein Prozessflussdiagramm für einen Root-Complex zum Verarbeiten eines empfangenen Datenpakets gemäß Ausführungsformen der vorliegenden Offenbarung.
6 veranschaulicht eine Ausführungsform eines Computersystems, das eine Verschaltungsarchitektur aufweist.
7 veranschaulicht eine Ausführungsform einer Verschaltungsarchitektur, die einen geschichteten Stapel aufweist.
8 veranschaulicht eine Ausführungsform einer Anfrage oder eines Pakets, die/das innerhalb einer Verschaltungsarchitektur erzeugt oder empfangen werden soll.
9 veranschaulicht eine Ausführungsform eines Sender-Empfänger-Paares für eine Verschaltungsarchitektur.
10 veranschaulicht eine Ausführungsform eines Multicore-Prozessors.
11 veranschaulicht eine andere Ausführungsform eines Blockdiagramms für ein Computersystem.
12 veranschaulicht eine Ausführungsform eines Blocks für ein Computersystem, das mehrere Prozessor-Sockets beinhaltet.

Die Figuren sind möglicherweise nicht maßstabsgetreu. Gleiche Bezugszeichen bezeichnen gleiche Elemente in allen verschiedenen Figuren.
AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt, wie etwa Beispiele spezifischer Prozessorarten und Systemkonfigurationen, spezifische Hardware-Strukturen, spezifische architekturelle und mikroarchitekturelle Details, spezifische Registerkonfigurationen, spezifische Anweisungsarten, spezifische Systemkomponenten, spezifische Messungen/Höhen, spezifische(r) Prozessor-Pipelinestufen und -betrieb, usw., um ein gründliches Verständnis der vorliegenden Erfindung bereitzustellen. Es wird allerdings für den Fachmann ersichtlich sein, dass diese spezifischen Details nicht eingesetzt werden müssen, um die vorliegende Erfindung auszuüben. In anderen Fällen wurden gut bekannte Komponenten oder Verfahren, wie etwa spezifische und alternative Prozessorarchitekturen, spezifische(r) Logikschaltungen/-code für beschriebene Algorithmen, spezifischer Firmwarecode, spezifischer Verschaltungsbetrieb, spezifische Logikkonfigurationen, spezifische Herstellungstechniken und - materialien, spezifische Compilerimplementierungen, spezifische Ausdrücke von Algorithmen in Code, spezifische Herunterfahr- und Gate-Techniken/-Logik und andere spezifische Betriebsdetails von Computersystemen nicht detailliert beschrieben, um unnötiges Verschleiern der vorliegenden Erfindung zu vermeiden.
Obwohl die folgenden Ausführungsformen unter Bezugnahme auf Energieerhaltung und Energieeffizienz in spezifischen integrierten Schaltungen, wie zum Beispiel in Computerplattformen oder Mikroprozessoren, beschrieben sein können, sind andere Ausführungsformen auf andere Arten von integrierten Schaltungen und Logikgeräten anwendbar. Ähnliche Techniken und Lehren von hier beschriebenen Ausführungsformen können auf andere Arten von Schaltungen oder Halbleiterbauelementen angewandt werden, die auch von besserer Energieeffizienz und Energieerhaltung profitieren können. Beispielsweise sind die offenbarten Ausführungsformen nicht auf Desktop-Computersysteme oder Ultrabooks™ beschränkt. Und können auch in anderen Geräten, wie zum Beispiel handgehaltene Vorrichtungen, Tablets, anderen dünnen Notebooks, Ein-Chip-System(SoC) -Geräten und anderen eingebetteten Anwendungen, verwendet werden. Manche Beispiele für handgehaltene Vorrichtungen weisen Mobiltelefone, Internetprotokollvorrichtungen, Digitalkameras, Personal-Digital-Assistants (PDAs) und handgehaltene PCs auf. Eingebettete Anwendungen weisen typischerweise einen Mikrocontroller, einen digitalen Signalprozessor (DSP), ein Ein-Chip-System, Netzwerkcomputer (NetPC), Set-Top-Boxen, Network-Hubs, Wide-Area-Network (WAN)-Schalter oder ein beliebiges anderes System, das die nachfolgend gelehrten Funktionen und Vorgänge ausführen kann, auf. Außerdem sind die hier beschriebenen Vorrichtungen, Verfahren und Systeme nicht auf physikalische Computergeräte beschränkt, sondern können sich auch auf Softwareoptimierungen zur Energieerhaltung und -Effizienz beziehen.
Unter Bezugnahme auf 1, ist eine Ausführungsform eines Blockdiagramms für ein Computersystem, das einen Multicore-Prozessor aufweist, abgebildet. Ein Prozessor 100 weist einen beliebigen Prozessor oder beliebige Verarbeitungsbauteile auf, wie einen Mikroprozessor, einen eingebetteten Prozessor, einen digitalen Signalprozessor (DSP), einen Netzwerkprozessor, einen handgehaltenen Prozessor, einen Anwendungsprozessor, einen Coprozessor, ein Ein-Chip-System (SOC) oder andere Bauteile zum Ausführen von Code. Der Prozessor 100 weist bei einer Ausführungsform mindestens zwei Kerne, nämlich Kern 101 und 102 auf, die asymmetrische Kerne oder symmetrische Kerne (die veranschaulichte Ausführungsform) aufweisen können. Jedoch kann der Prozessor 100 jegliche Anzahl an Verarbeitungselementen, die symmetrisch oder asymmetrisch sein können, beinhalten.
In einer Ausführungsform bezieht sich ein Verarbeitungselement auf Hardware oder Logik zum Unterstützen eines Software-Threads. Beispiele für Hardware-Verarbeitungselemente beinhalten: eine Thread-Einheit, einen Thread-Slot, einen Thread, eine Verarbeitungseinheit, einen Kontext, eine Kontexteinheit, einen Logikprozessor, einen Hardware-Thread, einen Kern und/oder jegliches andere Element, das geeignet ist, einen Zustand für einen Prozessor, wie etwa einen Ausführungszustand oder einen Architekturzustand, zu halten. Anders ausgedrückt, bezieht sich ein Verarbeitungselement in einer Ausführungsform auf jegliche Hardware, die geeignet ist, einem Code, wie etwa einem Software-Thread, einem Betriebssystem, einer Anwendung oder anderem Code, unabhängig zugeordnet zu werden. Ein physikalischer Prozessor (oder Prozessor-Socket) bezieht sich üblicherweise auf eine integrierte Schaltung, die gegebenenfalls jegliche Anzahl anderer Verarbeitungselemente, wie zum Beispiel Kerne oder Hardware-Threads, beinhaltet.
Ein Kern bezieht sich oft auf Logik, die auf einer integrierten Schaltung angeordnet und geeignet ist, einen unabhängigen Architekturzustand aufrechtzuerhalten, wobei jeder unabhängig aufrechterhaltene Architekturzustand mindestens einigen zugeordneten Ausführungsressourcen zugeordnet ist. Im Gegensatz dazu bezieht sich ein Hardware-Thread typischerweise auf jegliche Logik, die auf einer integrierten Schaltung angeordnet und geeignet ist, einen unabhängigen Architekturzustand aufrechtzuerhalten, wobei die unabhängig aufrechterhaltenen Architekturzustände den Zugriff auf Ausführungsressourcen teilen. Wie ersichtlich ist, überlappt die Grenze zwischen der Nomenklatur eines Hardware-Threads und eines Kerns, wenn bestimmte Ressourcen geteilt werden und andere einem Architekturzustand zugeordnet sind. Dennoch werden ein Kern und ein Hardware-Thread durch ein Betriebssystem häufig als einzelne Logikprozessoren angesehen, wobei das Betriebssystem geeignet ist, Vorgänge auf jedem Logikprozessor einzeln zu planen.
Der physikalische Prozessor 100, wie in 1 veranschaulicht, beinhaltet zwei Kerne - die Kerne 101 und 102. Hier werden die Kerne 101 und 102 als symmetrische Kerne, das heißt Kerne mit denselben Konfigurationen, Funktionseinheiten und/oder Logik, betrachtet. In einer anderen Ausführungsform beinhaltet der Kern 101 einen Prozessorkern außerhalb der Reihenfolge, während der Kern 102 einen Prozessorkern in der Reihenfolge beinhaltet. Die Kerne 101 und 102 können jedoch individuell aus jeglichem Kerntyp, wie zum Beispiel einem nativen Kern, einem softwaregemanagten Kern, einem Kern, der zum Ausführen einer nativen Instruction-Set-Architecture (ISA) angepasst ist, einem Kern, der zum Ausführen einer übersetzten Instruction-Set-Architecture (ISA) angepasst ist, einem mitentwickelten Kern oder anderem bekannten Kern, ausgewählt werden. In einer heterogenen Kernumgebung (das heißt asymmetrische Kerne) kann eine Form der Übersetzung, wie zum Beispiel eine binäre Übersetzung, verwendet werden, um Code auf einem oder beiden Kernen zu planen oder auszuführen. Um die Diskussion weiter anzuregen, werden die in dem Kern 101 veranschaulichten Funktionseinheiten unten eingehend beschrieben, da die Einheiten in dem Kern 102 in der dargestellten Ausführungsform in ähnlicher Weise arbeiten.
Wie abgebildet, weist der Kern 101 zwei Hardware-Threads 101a und 101b auf, die auch Hardware-Thread-Slots 101a und 101b genannt werden können. Software-Entitäten, wie ein Betriebssystem, sehen folglich den Prozessor 100 bei einer Ausführungsform potentiell als vier separate Prozessoren, das heißt vier logische Prozessoren oder Verarbeitungselemente, die fähig sind, vier Software-Threads gleichzeitig auszuführen. Wie oben erwähnt, ist ein erster Thread den Architekturzustandsregistern 101a zugeordnet, ein zweiter Thread ist den Architekturzustandsregistern 101b zugeordnet, ein dritter Thread kann Architekturzustandsregistern 102a zugeordnet sein, und ein vierter Thread kann Architekturzustandsregistern 102b zugeordnet sein. Hier kann jedes der Architekturzustandsregister (101a, 101b, 102a und 102b) Verarbeitungselemente, Thread-Slots oder Thread-Einheiten, wie oben beschrieben, genannt werden. Wie veranschaulicht, werden die Architekturzustandsregister 101a in Architekturzustandsregistern 101b derart repliziert, dass individuelle Architekturzustände/Kontexte für den logischen Prozessor 101a und den logischen Prozessor 101b gespeichert werden können. In dem Kern 101 können andere kleinere Ressourcen, wie Anweisungszeiger und Umbenennungslogik in einem Zuweiser- und Umbenennungsblock 130 auch für die Threads 101a und 101b repliziert werden. Einige Ressourcen, wie zum Beispiel Neuordnungspuffer in Neuordnungs-/Rückstellungseinheit 135, ILTB 120, Lade-/Speicher-Puffer und Warteschlangen können durch Partitionieren geteilt werden. Andere Ressourcen, wie zum Beispiel interne Allzweckregister, Seitentabellenbasisregister, Datencache und Daten-TLB 115 niedriger Ebene, Ausführungseinheit(en) 140 und Teile der Einheit außerhalb der Reihenfolge 135 werden potentiell vollständig geteilt.
Der Prozessor 100 beinhaltet oft andere Ressourcen, die vollständig geteilt, durch Partitionierung geteilt oder von/an Verarbeitungselemente(n) zugewiesen werden können. In 1 ist eine Ausführungsform eines rein beispielhaften Prozessors mit veranschaulichenden logischen Einheiten/Ressourcen eines Prozessors veranschaulicht. Es ist zu beachten, dass ein Prozessor jegliche dieser Funktionseinheiten beinhalten oder weglassen kann, sowie andere nicht dargestellte bekannte Funktionseinheiten, Logik oder Firmware beinhalten kann. Wie veranschaulicht, beinhaltet der Kern 101 einen vereinfachten, repräsentativen Out-of-Order (OOO) -Prozessorkern. Ein In-Order-Prozessor kann jedoch in verschiedenen Ausführungsformen verwendet werden. Der OOO-Kern beinhaltet einen Branch-Target-Buffer 120, um auszuführende/zu nehmende Verzweigungen vorherzusagen, und einen Instruction-Translation-Buffer (I-TLB) 120, um Adressenübersetzungseinträge für Anweisungen zu speichern.
Der Kern 101 beinhaltet ferner Dekodiermodul 125, das mit der Abrufeinheit 120 gekoppelt ist, um abgerufene Elemente zu dekodieren. Fetch-Logik weist bei einer Ausführungsform individuelle Sequenzierer auf, die jeweils mit den Thread-Slots 101a, 101b assoziiert sind. Üblicherweise ist der Kern 101 mit einer ersten ISA assoziiert, die Anweisungen, die auf dem Prozessor 100 ausführbar sind, definiert/spezifiziert. Oft weisen Maschinencodeanweisungen, die zu der ersten ISA gehören, einen Abschnitt der Anweisung (ein Opcode genannt) auf, der eine Anweisung oder einen Vorgang, die/der auszuführen ist, referenziert/spezifiziert. Die Decodierlogik 125 weist Schaltungen auf, die diese Anweisungen aus ihren Opcodes erkennen und die decodierten Anweisungen in die Pipeline zum Verarbeiten wie von der ersten ISA definiert, weitergeben. Wie unten ausführlicher besprochen, weisen Decoder 125 bei einer Ausführungsform Logik auf, die ausgelegt oder angepasst ist, um spezifische Anweisungen, wie eine Transaktionsanweisung, zu erkennen. Als ein Resultat des Erkennens durch die Decoder 125, führt die Architektur oder der Kern 101 spezifische, vordefinierte Aktionen aus, um Aufgaben, die mit der entsprechenden Anweisung assoziiert sind, auszuführen. Es ist wichtig, zu beachten, dass jegliche der hierin beschriebenen Aufgaben, Blöcke, Operationen und Verfahren als Reaktion auf eine einzelne oder mehrere Anweisungen ausgeführt werden können; einige davon können neue oder alte Anweisungen sein. Hinweisdecoder 126 erkennen in einer Ausführungsform die gleiche ISA (oder einen Untersatz davon). Alternativ erkennen die Decoder 126 in einer heterogenen Kernumgebung eine zweite ISA (entweder einen Untersatz der ersten ISA oder eine unterschiedliche ISA).
In einem Beispiel enthält der Zuweisungs- und Umbenennungsblock 130 eine Zuweisung zum Reservieren von Ressourcen, wie zum Beispiel Registerdateien zum Speichern von Anweisungsverarbeitungsergebnissen. Die Threads 101a und 101b können jedoch potentiell außerhalb der Reihenfolge ausgeführt werden, wobei der Zuweisungs- und Umbenennungsblock 130 auch andere Ressourcen, wie zum Beispiel Neuordnungspuffer, reserviert, um Anweisungsergebnisse zu verfolgen. Die Einheit 130 kann auch einen Register-Renamer aufweisen, um Programm-/Anweisungsreferenzregister in andere Register intern zu dem Prozessor 100 umzubenennen. Die Neuordnungs-/Retirement-Einheit 135 weist Komponenten wie die Neuordnungspuffer, die oben erwähnt sind, Ladepuffer und Speicherpuffer auf, um Out-Of-Order-Ausführung zu und später In-Order-Retirement von Anweisungen, die Out-Of-Order ausgeführt wurden, zu unterstützen.
Ein Scheduler- und Ausführungseinheit(en)-Block 140 weist bei einer Ausführungsform eine Schedulereinheit auf, um Anweisungen/Vorgang auf Ausführungseinheiten zu planen. Zum Beispiel wird eine Floating-Point-Anweisung an einem Port einer Ausführungseinheit, die eine verfügbare Floating-Point-Ausführungseinheit hat, geplant. Registerdateien, die den Ausführungseinheiten zugeordnet sind, sind ebenfalls enthalten, um Informationsanweisungsverarbeitungsergebnisse zu speichern. Beispielhafte Ausführungseinheiten beinhalten eine Floating-Point-Ausführungseinheit, eine Ganzzahlausführungseinheit, eine Sprungausführungseinheit, eine Ladeausführungseinheit, eine Speicherausführungseinheit und andere bekannte Ausführungseinheiten.
Datencache und Data-Translation-Buffer(D-TLB) 150 der unteren Ebene sind mit der/den Ausführungseinheit(en) 140 gekoppelt. Der Datencache soll kürzlich verwendete/betriebene Elemente, wie zum Beispiel Datenoperanden, die potentiell in Speicherkohärenzzuständen gehalten werden, speichern. Der D-TLB soll kürzliche virtuelle/lineare zu physikalischen Adressübersetzungen speichern. Als ein spezifisches Beispiel kann ein Prozessor eine Seitentabellenstruktur beinhalten, um den physikalischen Speicher in mehrere virtuelle Seiten zu zerteilen.
Hier teilen die Kerne 101 und 102 Zugriff auf einen Higher-Level- oder Further-Out-Cache, wie zum Beispiel einen Cache der zweiten Ebene, der On-Chip-Schnittstelle 110 zugeordnet ist. Es ist zu beachten, dass sich Higher-Level oder Further-Out auf Cache-Ebenen bezieht, die von der/den Ausführungseinheit(en) zunehmen oder weiter davon entfernt sind. In einer Ausführungsform ist der Higher-Level-Cache ein Last-Level-Datencache - letzter Cache in der Speicherhierarchie auf dem Prozessor 100 - wie zum Beispiel ein Datencache der zweiten oder dritten Ebene. Der Higher-Level-Cache ist jedoch nicht so beschränkt, da er einem Anweisungscache zugeordnet sein oder einen solchen beinhalten kann. Ein Trace-Cache - ein Typ von Anweisungscache - kann stattdessen nach dem Decoder 125 gekoppelt werden, um kürzlich dekodierte Spuren zu speichern. Hier bezieht sich eine Anweisung potentiell auf eine Makroanweisung (das heißt eine von den Decodern erkannte allgemeine Anweisung), die in eine Anzahl von Mikroanweisungen (Mikrooperationen) dekodieren kann.
In der dargestellten Konfiguration beinhaltet der Prozessor 100 auch das On-Chip-Schnittstellenmodul 110. Historisch wurde eine Speichersteuerung, die unten detaillierter beschrieben wird, in ein Computersystem außerhalb des Prozessors 100 integriert. In diesem Szenario kommuniziert die On-Chip-Schnittstelle 11 mit Geräten außerhalb des Prozessors 100, wie zum Beispiel Systemspeicher 175, einem Chipsatz (oft einschließlich eines Speicher-Controller-Hub zum Verbinden mit dem Speicher 175 und eines I/O-Controller-Hub zum Verbinden von Peripheriegeräten), einem Speicher-Controller-Hub, einer Northbridge oder einer anderen integrierten Schaltung. Und bei diesem Szenario kann der Bus 105 eine bekannte Verschaltung aufweisen, wie einen Multi-Drop-Bus, eine Punkt-zu-Punkt-Verschaltung, eine serielle Verschaltung, einen parallelen Bus, einen kohärenten (zum Beispiel Cache-kohärenten) Bus, eine geschichtete Protokollarchitektur, einen differenziellen Bus und einen GTL-Bus.
Der Speicher 175 kann für den Prozessor 100 allein bestimmt sein oder gemeinsam mit anderen Bauteilen in einem System genutzt werden. Herkömmliche Beispiele dieser Typen von Speicher 175 weisen DRAM, SRAM, nichtflüchtigen Speicher (NV-Speicher) und andere bekannte Speichervorrichtungen auf. Das Bauteil 180 kann einen Grafikbeschleuniger, einen Prozessor oder eine Karte, der/die mit einem Speichercontrollerhub gekoppelt ist, Datenspeicher, der mit einem E/A-Controllerhub gekoppelt ist, einen drahtlosen Sender/Empfänger, ein Flash-Bauteil, einen Audiocontroller, einen Netzwerkcontroller oder ein anderes bekanntes Bauteil aufweisen.
Da mehr Logik und Bauteile auf einem einzigen Die, wie einem SOC, integriert werden, kann jedes dieser Bauteile auf einem Prozessor 100 integriert werden. Bei einer Ausführungsform befindet sich zum Beispiel ein Speichercontrollerhub auf demselben Package und/oder Die mit dem Prozessor 100. Hier weist ein Abschnitt des Kerns (ein „On-Core“-Abschnitt) 110 einen oder mehr Controller zur Schnittstellenbildung mit anderen Bauteilen, wie dem Speicher 175 oder einem Grafikbauteil 180, auf. Die Konfiguration, die eine Verschaltung und Controller zur Schnittstellenbildung mit solchen Bauteilen aufweist, wird oft ein „On-Core“ (oder eine On-Core-Konfiguration) genannt. Als ein Beispiel weist eine On-Chip-Schnittfläche 110 eine Ringverschaltung für On-Chip-Kommunikation und einen seriellen Hochgeschwindigkeits-Punkt-zu-Punkt-Link 105 für Off-Chip-Kommunikation auf. In der SOC-Umgebung können sogar noch mehr Bauteile, wie eine Netzwerkschnittstelle, Co-Prozessoren, Speicher 175, Grafikprozessor 180 und beliebige andere bekannte Computerbauteile/- schnittstellen auf einem einzigen Die oder einer einzigen integrierten Schaltung integriert werden, um kleinen Formfaktor mit hoher Funktionalität und geringem Stromverbrauch bereitzustellen.
Bei einer Ausführungsform ist der Prozessor 100 fähig, einen Compiler-, Optimierungs- und/oder Übersetzercode 177 auszuführen, um Anwendungscode 176 zu kompilieren, übersetzen und/oder optimieren, um das Gerät und die Verfahren, die hier beschrieben sind, zu unterstützen oder eine Schnittstelle mit ihnen zu bilden. Ein Compiler weist oft ein Programm oder einen Satz von Programmen zum Übersetzen von Quelltext/Code in Zieltext/Code auf. Gewöhnlich erfolgt eine Kompilation von Programm-/Anwendungscode mit einem Compiler in mehreren Phasen und Durchgängen, um Hi-Level-Programmiersprachencode in Low-Level-Maschinen- oder Assembliersprachcode umzuwandeln. Compiler mit einem einzigen Durchgang können jedoch noch für einfache Kompilation eingesetzt werden. Ein Compiler kann beliebige bekannte Kompilationstechniken einsetzen und beliebige bekannte Compilervorgänge ausführen, wie lexikalische Analyse, Vorverarbeitung, Parsen, semantische Analyse, Code-Erzeugung, Code-Umwandlung und Code-Optimierung.
Größere Compiler weisen oft mehrfache Phasen auf, diese Phasen sind jedoch meistens innerhalb von zwei Hauptphasen enthalten: (1) ein Frontend, das heißt im Allgemeinen wo syntaktische Verarbeitung, semantische Verarbeitung und etwas Umwandlung/Optimierung stattfinden können, und (2) ein Backend, das heißt im Allgemeinen wo Analyse, Umformungen, Optimierungen und Codeerzeugung stattfinden. Einige Compiler verweisen auf eine Mitte, die das Verwischen von klarer Trennung zwischen einem Frontend und einem Backend eines Compilers veranschaulicht. Daraus resultiert, dass Verweis auf Einfügen, Assoziation, Erzeugung oder ein anderer Vorgang eines Compilers in einer beliebigen der oben erwähnten Phasen oder Durchgänge sowie in beliebigen anderen bekannten Phasen oder Durchgängen eines Compilers stattfinden kann. Als ein veranschaulichendes Beispiel fügt ein Compiler potentiell Vorgänge, Abrufe, Funktionen usw. in eine oder mehr Kompilationsphasen ein, wie das Einfügen von Abrufen/Vorgängen in einer Frontendphase der Kompilation, und dann das Umwandeln der Abrufe/Vorgänge in Low-Level-Code während einer Umformungsphase. Zu bemerken ist, dass während dynamischer Kompilation Compiler-Code oder dynamischer Optimierungscode solche Vorgänge/Abrufe einfügen sowie den Code zur Ausführung während der Laufzeit optimieren kann. Als ein spezifisches veranschaulichendes Beispiel kann Binärcode (bereits kompilierter Code) dynamisch während der Laufzeit optimiert werden. Hier kann der Programmcode den dynamischen Optimierungscode, den Binärcode oder eine Kombination dieser aufweisen.
Ähnlich wie ein Compiler, übersetzt ein Übersetzer, wie ein binärer Übersetzer, Code entweder statisch oder dynamisch, um Code zu optimieren und/oder übersetzen. Der Verweis auf Ausführung von Code, Anwendungscode, Programmcode oder andere Softwareumgebung kann daher auf Folgendes verweisen: (1) Ausführen eines oder mehrerer Compilerprogramm(e)s, Optimierungscodeoptimierer oder Übersetzer, dynamisch oder statisch, um Programmcode zu kompilieren, Softwarestrukturen zu warten, andere Vorgänge auszuführen, Code zu optimieren oder Code zu übersetzen; (2) Ausführung eines Hauptprogrammcodes, der Vorgänge/Abrufe aufweist, wie Anwendungscode, der optimiert/kompiliert wurde; (3) Ausführung eines anderen Programmcodes, wie Bibliotheken, assoziiert mit dem Hauptprogrammcode, um Softwarestrukturen zu warten, andere Software in Zusammenhang mit Vorgängen auszuführen oder Code zu optimieren, oder (4) eine Kombination dieser.
Gemeinsame Prozessorkernstrukturen versuchen, Verkehr von E/A-Agenten auszugleichen und beruhen auf diversen Techniken zum Optimieren dieser konkurrierenden Zugriffe. Um die Kernleistung zu verbessern, verwendet die Struktur diverse Verfahren einschließlich eines Cache-Vorabrufs, einer differentierten Caching-Richtlinie und Speicherbandbreitennutzungsoptimierungen, welche jeweils auf dem Vorhersagen von zukünftigen Kernzugriffen auf Grundlage eines aktuellen Verkehrsmusters basieren können.
Hardware-Vorabruf-Engines können dabei helfen, Muster zu bestimmen und in einem dedizierten oder einem gemeinsamen Cache (Mid-Level-Cache oder L2-Cache oder Last-Level-Cache (LLC) -Vorabruf) vorabzurufen. Ein Hinweis oder eine Anzeige von dem Kern selbst bezüglich der Verkehrsart kann verwendet werden, um dabei zu helfen, die Konkurrenz in Bezug auf gemeinsame Ressourcen auszugleichen. Beispiele solcher Hinweise von dem Kern beinhalten Dead Block Predictor, nicht-temporäre Hinweise usw.
Die Charakterisierung von E/A-Verkehr in vorhersagbare Muster kann schwierig sein, da der E/A-Verkehr dazu neigt, eine große Varianz je nach der Art von Vorrichtung, Anwendung und Plattform aufzuweisen. Der E/A-Verkehr neigt auch dazu, keine ungleichmäßige Speicherzugriffs- (NUMA) -Affinität aufgrund von E/A- und Plattformkonnektivitätsbeschränkungen aufzuweisen. Somit kann eine Hardware-Vorabruf-Engine an einer Ineffizienz für E/A-Verkehr leiden. Im Gegensatz zu dem Kern weisen E/A-Vorrichtungen auch keinen Standardmechanismus zum Senden von Hinweisen zu der Struktur zum Optimieren für verschiedene Verkehrsarten auf. Als ein Ergebnis sind traditionelle Verfahren zur Optimierung der Cache- und Speicherbandbreitenlatenz für Kerne nicht umfassend bei E/A anwendbar gewesen.
Diese Offenbarung beschreibt Systeme, Verfahren und Vorrichtungen, um E/A-Vorrichtungen zu ermöglichen, eine Vorabnachricht bezüglich des Wesens, das von der Vorrichtung bezogen werden wird, zu dem Root-Complex senden. Der Root-Complex kann dann diese Informationen verwenden, um diverse Entscheidungen zu treffen und Optimierungen hinsichtlich des Verkehrs vorzunehmen, den er erwartet, zu erhalten. Eine PCIe-verbundene Vorrichtung kann dem Prozessorkern einen „Hinweis“ hinsichtlich des Wesens des Verkehrs bereitstellen, der von der Vorrichtung bezogen werden wird. Der Prozessorkern kann den Hinweis verwenden, um die Transaktion der Vorrichtung mit der gemeinsamen Ressource zu optimieren.
2 ist ein schematisches Diagramm einer Systemarchitektur 200 gemäß Ausführungsformen der vorliegenden Offenbarung. Die Systemarchitektur 200 kann ein Host-System 201 und mehrere Vorrichtungen 220a-c, die durch eine PCIe-konforme Schaltstruktur 230 mit dem Host-System 201 verbunden sind, beinhalten. Die Systemarchitektur 200 kann einen oder mehrere Prozessoren 202 aufweisen. Die Prozessoren 202 können mit dem Root-Complex durch eine Verbindung, wie zum Beispiel einem vorderseitigen Bus, gekoppelt sein. Die Prozessoren 202 können den Cache-Speicher 204 aufweisen. Der Cache-Speicher 204 kann vorübergehend Daten von der Speicherung 206 speichern.
Das Host-System 201 kann auch einen Root-Complex 210 aufweisen. Der Root-Complex 210 kann als ein Controller-Hub für PCIe-konforme Systeme und Vorrichtungen agieren. Der Root-Complex 210 verbindet den Prozessor 202 und die Speicherung 206 mit der PCIe-konformen Schaltstruktur 230, die aus einer oder mehreren Schaltvorrichtungen zusammengesetzt ist. Der Root-Complex 210 verbindet auch die Vorrichtungen 220a-c mit dem Host-System 201 durch die Schaltstruktur 230.
In Ausführungsformen können die Vorrichtungen 220a-c um die Verarbeitung und Speicherressourcen, die von dem Host-System 201 gehostet werden, konkurrieren. Die Vorrichtungen 220a-c können die vorhandene PCIe-Paketarchitektur ausnutzen, um Hinweise oder Vorabinformationen zu dem Root-Complex 210 zu übertragen, um dem Root-Complex zu ermöglichen, bestimmte Optimierungsprozesse vor dem Empfangen von weiteren Datenpaketen von den Vorrichtungen 220a-c auszuführen. Die Vorrichtungen 220a-c können auf das Host-System 201 für Speicherlesevorgänge, Schreibvorgänge, Streaming-Schreibvorgänge, cachebare Operationen, atomare Operationen, partielle Operationen, Data Direct E/A usw. zugreifen. Andere Nutzungsfälle beinhalten die Caching-Richtlinien-Bestimmung (einschließlich des Cache-Vorabrufs), Seiteninitialisierung und Sicherheitsrichtlinienfestlegung sowie andere Prozesse. Die PCIe-konforme Paketarchitektur ist in 3 ausführlicher gezeigt.
3 ist ein beispielhaftes PCIe-konformes Datenpaket 300 gemäß Ausführungsformen der vorliegenden Offenbarung. Durch Verwenden des Datenpakets 300 zum Übertragen eines Hinweises offenbart die Vorrichtung dem Root-Complex die Seiten, auf die sie beabsichtigt, vorab zuzugreifen.
Das beispielhafte Paket 300, das in 3 gezeigt ist, ist ein Adressübersetzungsdienst- (ATS) -Paket. ATS-Pakete erlauben einer Vorrichtung, eine virtuelle Adresse (VA)/physikalische Gastadresse (GPA) zur physikalischen Hostadressen- (HPA) - Übersetzungsanfrage zu dem Root-Complex bei einer Seitengranularität vor der tatsächlichen Speicherzugriffsanfrage (z. B. DMA-Anfrage) zu senden. Das ATS-Paket ist besonders zum Bereitstellen von Hinweisen hinsichtlich zukünftiger Speicherzugriffe durch die Vorrichtung nützlich, da das ATS-Paket vor Datenlese-/schreibvorgängen übertragen wird. Es können andere Arten von Datenpaketen übertragen werden, um ähnliche Ergebnisse zu erzielen. Zum Beispiel kann ein Null-Längen-Schreibvorgang für das Verarbeiten von Hinweisbits durch Verwenden von ungenutzten oder reservierten Bits in dem Null-Längen-Schreibvorgang-Datenpaket verwendet werden.

Das Datenpaket 300 kann reservierte Bits bei diversen doppelten Wörtern des Pakets aufweisen. Die reservierten Bits können ausgenutzt werden, um Hinweise der Speicherzugriffe aufzunehmen, die die Vorrichtung versucht, durchzuführen. Die Tabelle 1 stellt ein Beispiel dahingehend bereit, wie reservierte Bits und ungenutzte Bits verwendet werden können, um dem Root-Complex Hinweise bereitzustellen. Tabelle 1. Beispielhafte Zuordnung von reservierten Bits für Hinweise

	ATS	Null-Längen-
Opcode	Speicherlesevorga	Speicherschreib
AT	01	00 oder 10
Transakt ion	DW0.byte1[0] (aktuell reserviert)	0
BE	0xFF	0x00
Länge	0X2 (Mehrfaches	0x1
8-Bit-Vektor	DW3.byte2[3:0], DW3.byte3[7:4] (aktuell reserviert)	Addr[11:4]
Hinweis (2 Bits)	DW3.byte3[2:1] (aktuell reserviert)	Addr[2:1]
1 Bit für zukünftige Erweiterung	DW3.byte3[3 ] (aktuell reserviert)	Addr[3]

Beim Verknüpfen von Tabelle 1 mit 3 belegt das Transaktionshinweis- (TH) -Bit 304 DW 0, Byte 1, Bit 0 des Datenpakets 300. Das TH-Bit 304 kann verwendet werden, um dem Root-Complex anzuzeigen, dass das Datenpaket einen Hinweis bezüglich eines anstehenden Speicherzugriffs überträgt. Die Hinweisbits 302 können DW 3, Byte 3, Bits [2:1] belegen. Für ATS-Pakete belegen die Hinweisbits 302 Bits, die zuvor reserviert waren.
Ähnlich werden für einen Null-Längen-Schreibvorgang, wie in Tabelle 1 definiert ist, die unteren Adressbits, welche ungenutzt sind, verwendet, um dieselben Hinweise wie eine Übersetzungsanfrage bereitzustellen.
Die Hinweisbits 302 werden verwendet, um die beabsichtigte Nutzung aus der Perspektive der Vorrichtung zu übertragen. Die Hinweisbits 302 sind optional und werden aktiviert, wenn die Vorrichtung das Transaktionshinweis- (TH) -Bit 304 festlegt. Es können andere reservierte Bits (z. B. die reservierten Bits 306) verwendet werden, um eine Unterseitengranularität bereitzustellen. (Es ist zu beachten, dass selbst dann, wenn Hinweise aktiviert werden, die Hinweise von dem Root-Complex ignoriert werden können).
4 ist ein Prozessflussdiagramm 400 für eine Vorrichtung zum Konfigurieren eines Datenpakets mit Hinweisbits gemäß Ausführungsformen der vorliegenden Offenbarung. Die Vorrichtung kann eine bevorstehende Speichertransaktion bestimmen (402). Die Speichertransaktion kann ein Speicherlese- oder -schreibvorgang oder eine andere Art von Speichertransaktion sein. Die Bestimmung der bevorstehenden Speichertransaktion kann bezüglich einer bestimmten Seite in dem Speicher erfolgen, auf die die Vorrichtung versucht, zuzugreifen. Das Bevorstehen der Speichertransaktion kann eine Speichertransaktion beinhalten, die für den Datenstrom erfolgen wird, den die Vorrichtung verarbeitet. Die Vorrichtung kann ein Datenpaket programmieren, das zu einem Root-Complex eines Host-Systems mit einem Transaktionshinweis- (TH) -Bit zu senden ist (404). Das TH-Bit kann ein reserviertes Bit des Datenpakets oder einen ersten Teil eines reservierten Bit-Felds des Datenpakets belegen. Zum Beispiel kann in einem ATS-Paket das TH-Bit DW0.byte 1.bit 0 belegen, wobei DW0.byte 1.bits [1:0] reservierte Bits sind. Die Vorrichtung kann das Datenpaket mit Verarbeitungshinweisbits programmieren (und kann in einigen Ausführungsformen Unterseitengranularitätsbits festlegen), die das Wesen der bevorstehenden Speichertransaktion anzeigen (406). Die Verarbeitungshinweisbits können ein oder mehrere reservierte Bits des Datenpakets belegen. Zum Beispiel können die Verarbeitungshinweisbits 2 Bits beinhalten und DW3.byte 3.bits [2:1] belegen. Die Codierungen für die Hinweisbits können wie folgt sein:

00 Streaming-Schreibvorgänge
01 Lesevorgänge
10 Atomare/Partielle/DDIO
11 Cachebare Operationen (für kohärente Vorrichtungen)

Es können auch andere reservierte Bits verwendet werden, um eine Unterseitengranularität bereitzustellen. Zum Beispiel werden acht Bits (DW3, Byte 3, Bits [7:3] und DW3, Byte 2, Bits [2:0]) verwendet, um eine Unterseitengranularität bereitzustellen. Somit stellen für eine 4KB-Seite diese 8 Bits einen One-Hot-Vektor bereit, welcher dann eine 512B-Granularität für die Hinweise bereitstellt. Die Verarbeitungshinweisbits können eine Seitengranularität des Speicheradressenraums anzeigen, auf den zugegriffen werden wird. Innerhalb einer großen Seite können die Verarbeitungshinweise zu einem Untergruppenbereich einer Seite des Speicheradressenraums gehören, auf den zugegriffen werden wird.
Die Vorrichtung kann dann das Paket zu dem Root-Complex übertragen (408).
5 ist ein Prozessflussdiagramm 500 für einen Root-Complex zum Verarbeiten eines empfangenen Datenpakets gemäß Ausführungsformen der vorliegenden Offenbarung. Der Root-Complex kann ein Datenpaket von einer Vorrichtung über eine PCIe-konforme Verbindung empfangen (502). Der Root-Complex kann bestimmen, dass ein Transaktionshinweisbit in einem ersten Teil eines reservierten Bit-Felds des empfangenen Datenpakets festgelegt wird (504). Zum Beispiel kann der Root-Complex ein TH-Bit kennzeichnen, das in einem reservierten Bit-Feld festgelegt ist. Das Vorhandensein eines festgelegten Bits in einem spezifizierten Bit oder Bit-Feld kann den Root-Complex dazu bringen, andere vorbestimmte reservierte Teile des empfangenen Datenpakets zu untersuchen. Zum Beispiel kann das Vorhandensein eines festgelegten Bits an einem vorab definierten Bitort bewirken, dass der Root-Complex ein Hinweisbit kennzeichnet, das an einem anderen vorab definierten Bitort des Datenpakets festgelegt ist (506). Der Root-Complex kann anhand der Hinweisbits einen Optimierungsprozess zum Durchführen zum Vorbereiten für eine bevorstehende Speichertransaktion für die Vorrichtung kennzeichnen (508).
Wenn der Root-Complex Vorabinformationen dahingehend, wie eine Vorrichtung beabsichtigt, einen gegebenen Adressenbereich oder eine gegebene Seite in dem Speicher zu verwenden, kennzeichnet, kann er diverse Optimierungen auf eine CPU-spezifische Art vornehmen. Einige Beispiele dieser Optimierungen sind nachstehend gegeben, jedoch ist die keine umfassende Liste.
Cachingverhalten
Es können diverse Caching-Optimierungen vorhanden sein, die der Root-Complex zum Aktivieren wählen kann, je nach der Art von Vorrichtung und der Art von Hinweis, der in dem Datenpaket erhalten wird. Zum Beispiel kann der Root-Complex wählen, die Eigentümerschaft als Reaktion auf das Empfangen eines Hinweises für „Streaming-Schreibvorgänge“ vorabzurufen. In Ausführungsformen kann der Root-Complex Daten als Reaktion auf einen Hinweis für „Lesevorgänge“ vorabrufen und cachen. In Ausführungsformen kann der Root-Complex die Eigentümerschaft und Daten für „atomare/partielle“ oder „cachebare Operationen“ vorabrufen.
Neben dem Vorabruf kann der Root-Complex je nach der Art von Vorrichtung wählen, Optimierungen bezüglich der Cache-Zuordnung und Ersetzungsrichtlinien vorzunehmen. Zum Beispiel kann der Root-Complex wählen, DDIO nicht für Streaming-Schreibvorgänge zu aktivieren (was Cache-Flattern hervorrufen kann), oder kann der Root-Complex eine differentierte Ersetzungsrichtlinie in anderen Fällen (unter Verwendung eines niedrigeren/höheren LRU-Werts) wählen.
Metadatenaktualisierung & Seiteninitialisierung
Je nach dem Hinweis, der in dem empfangenen Datenpaket erhalten wird, kann der Root-Complex wählen, eine gegebene Seite mit spezifischen Merkmalen zu initialisieren. Diese Initialisierung kann das Aktualisieren von Metadaten beinhalten, die mit der Seite in dem Speicher gespeichert sind. Diese Metadatenaktualisierung kann zusätzliche Fähigkeiten, wie zum Beispiel das Einrichten von Sicherheitsbereichen für die Vorrichtung, bereitstellen.
Der Root-Complex kann dann ein Datenpaket für die Speichertransaktion empfangen (510) und die Speichertransaktion unter Verwendung der Optimierungsprozesse, die anhand des Hinweises durchgeführt werden, bearbeiten (512).
Eine Verschaltungsstrukturarchitektur weist die Peripheral-Component-Interconnect(PCI)-Express(PCIe)-Architektur auf. Ein Hauptziel von PCIe ist es, es Komponenten und Geräten verschiedener Hersteller zu ermöglichen, in einer offenen Architektur, die mehrere Marktsegmente umspannt, zu interagieren; Clients (Desktops und Mobile), Server (Standard und Enterprise) sowie Embedded- und Kommunikationsgeräte. PCIe ist ein universelles Hochleistungs-E/A-Verbindungsprotokoll, das für eine Vielzahl von zukünftigen Computer- und Kommunikationsplattformen definiert ist. Einige PCI-Attribute, wie zum Beispiel das Nutzungsmodell, die Ladespeicherarchitektur und Software-Schnittstellen, wurden durch ihre Überarbeitungen beibehalten, während frühere Parallel-Bus-Implementierungen durch eine hoch skalierbare, vollkommen serielle Schnittstelle ersetzt wurden. Die neueren Versionen von PCI Express nutzen die Vorteile von Fortschritten bei Punkt-zu-Punkt-Verschaltungen, der schalterbasierten Technologie und des paketierten Protokolls, um neue Leistungs- und Merkmalniveaus zu liefern. Energie-Management, Qualityof-Service (QoS), Hot-Plug-/Hot-Swap-Unterstützung, Datenintegrität und Fehlerbehandlung gehören zu den erweiterten Funktionen, die von PCI Express unterstützt werden.
Unter Bezugnahme auf 6 ist eine Ausführungsform einer Struktur veranschaulicht, die aus Punkt-zu-Punkt-Verbindungen besteht, die einen Satz von Komponenten verschalten. Ein System 600 weist einen Prozessor 605 und einen Systemspeicher 610 auf, die mit einem Controller-Hub 615 gekoppelt sind. Der Prozessor 605 weist ein beliebiges Verarbeitungselement, wie zum Beispiel einen Mikroprozessor, einen Host-Prozessor, einen eingebetteten Prozessor, einen Co-Prozessor oder anderen Prozessor auf. Der Prozessor 605 ist durch einen Front-Side-Bus (FSB) 606 mit dem Controller-Hub 615 gekoppelt. Bei einer Ausführungsform ist eine FSB 606 eine serielle Punkt-zu-Punkt-Verschaltung, wie unten beschrieben. Bei einer anderen Ausführungsform weist die Verbindung 606 eine serielle, differentielle Verschaltungsarchitektur, die mit unterschiedlichen Verschaltungsstandards übereinstimmt, auf.
Der Systemspeicher 610 weist ein beliebiges Speichergerät, wie zum Beispiel Random-Access-Memory (RAM), nichtflüchtigen Speicher (NV-Speicher) oder anderen Speicher, auf den Geräte in dem System 600 zugreifen können, auf. Der Systemspeicher 610 ist durch Speicherschnittstelle 616 mit einem Controller-Hub 615 gekoppelt. Beispiele einer Speicherschnittstelle weisen eine Double-Data-Rate(DDR)-Speicherschnittstelle, eine Dual-Channel-DDR-Speicherschnittstelle und eine Dynamic-RAM (DRAM)-Speicherschnittstelle auf.
In einer Ausführungsform ist der Controller-Hub 615 ein Root-Hub, Root-Complex oder Root-Controller in einer Peripheral Component Interconnect Express(PCIe) - Verschaltungshierarchie. Beispiele des Controller-Hub 615 weisen einen Chipsatz, einen Memory-Controller-Hub (MCH), eine Northbridge, einen Interconnect-Controller-Hub (ICH), eine Southbridge und einen Root-Controller/-Hub auf. Oft bezieht sich der Begriff Chipsatz auf zwei physisch getrennte Controller-Hubs, das heißt einen Memory-Controller-Hub (MCH), der mit einem Interconnect-Controller-Hub (ICH) gekoppelt ist. Es ist zu beachten, dass aktuelle Systeme oft den in dem Prozessor 605 integrierten MCH aufweisen, während der Controller 615 auf ähnliche Weise wie unten beschrieben mit E/A-Geräten kommunizieren soll. In manchen Ausführungsformen wird Peer-to-Peer-Routing optional durch den Root-Complex 615 unterstützt.
Der Root-Complex 615 kann ein Datenpaket von einer angeschlossenen Vorrichtung, wie zum Beispiel einem E/A-Gerät 625, empfangen. Das Datenpaket kann eine Hinweisbitgruppe aufweisen, welche den Root-Complex dazu auffordert, ein oder mehrere reservierte Bits auszuwerten, um zu bestimmen, ob ein Hinweisbit in dem Datenpaket vorhanden ist. Das Hinweisbit kann einen Hinweis oder Vorabinformationen dahingehend, wie das E/A-Gerät 625 beabsichtigt, einen gekennzeichneten Adressenbereich bzw. Seite in dem Speicher zu verwenden, dem Root-Complex bereitstellen. Der Root-Complex 615 kann diverse Optimierungen im Auftrag eines Prozessorkerns durchführen, wie zuvor beschrieben wurde.
Hier ist der Controller-Hub 615 durch serielle Verbindung 619 mit einem Schalter/einer Brücke 620 gekoppelt. Eingabe-/Ausgabemodule 617 und 621, die auch Schnittstellen/Ports 617 und 621 genannt werden können, umfassen/implementieren einen geschichteten Protokollstapel, um Kommunikation zwischen dem Controller-Hub 615 und dem Schalter 620 bereitzustellen. In einer Ausführungsform können mehrere Geräte mit dem Schalter 620 gekoppelt sein.
Der Schalter/die Brücke 620 leitet Pakete/Nachrichten von Gerät 625 upstream, das heißt eine Hierarchie aufwärts in Richtung eines Root-Complex (z. B. Controller-Hub 615) und downstream, das heißt eine Hierarchie nach unten weg von einem Root-Controller, von dem Prozessor 605 oder dem Systemspeicher 610 zu dem Gerät 625. Der Schalter 620 wird in einer Ausführungsform eine logische Anordnung mehrerer virtueller PCI-zu-PCI-Brückengeräte genannt. Das Gerät 625 weist ein beliebiges internes oder externes Gerät oder eine Komponente auf, die mit einem elektronischen System, wie zum Beispiel einem E/A-Gerät, einem Network-Interface-Controller (NIC), einer Erweiterungskarte, einem Audioprozessor, einem Netzwerkprozessor, einer Festplatte, einem Speichergerät, einer CD/DVD-ROM, einem Monitor, einem Drucker, einer Maus, einer Tastatur, einem Router, einem tragbaren Speichergerät, einem Firewire-Gerät, einem Universal-Serial-Bus(USB) -Gerät, einem Scanner und anderen Eingabe-/Ausgabegeräten, gekoppelt werden sollen. Oft wird in der PCIe-Umgangssprache, wie zum Beispiel Gerät, ein Endpunkt genannt. Obwohl nicht speziell gezeigt, kann das Gerät 625 eine PCIe-zu-PCI/PCI-X Brücke aufweisen, um etablierte PCI-Geräte oder PCI-Geräte anderer Ausführung zu unterstützen. Endpunktgeräte in PCIe werden häufig als etablierte PCIe- oder Root-Complex-Integrated-Endpunkte klassifiziert. Das Gerät 625 kann mit dem Schalter 620 durch eine serielle Verbindung 623 gekoppelt sein.
Ein Grafikbeschleuniger 630 ist über die serielle Verbindung 632 auch mit dem Controller-Hub 615 gekoppelt. In einer Ausführungsform ist der Grafikbeschleuniger 630 mit einem MCH gekoppelt, der mit einem ICH gekoppelt ist. Der Schalter 620 und dementsprechend das E/A-Gerät 625 ist dann mit dem ICH gekoppelt. E/A-Module 631 und 618 sollen auch einen geschichteten Protokollstapel implementieren, um zwischen dem Grafikbeschleuniger 630 und dem Controller-Hub 615 zu kommunizieren. Ähnlich wie bei der MCH-Diskussion oben kann ein Grafik-Controller oder der Grafikbeschleuniger 630 selbst in den Prozessor 605 integriert sein.
Unter Bezugnahme auf 7 ist eine Ausführungsform eines geschichteten Protokollstapels veranschaulicht. Ein geschichteter Protokollstapel 700 enthält jegliche Form eines geschichteten Kommunikationsstapels, wie zum Beispiel einen Quick-Path-Interconnect(QPI)-Stapel, einen PCIe-Stapel, einen Hochleistungs-Computerverbindungsstapel der nächsten Generation oder einen anderen Schichtstapel. Obwohl die Diskussion unmittelbar unten unter Bezugnahme auf 6-12 in Bezug zu einem PCIe-Stapel steht, können die gleichen Konzepte auf andere Verschaltungsstapel angewendet werden. In einer Ausführungsform ist der Protokollstapel 700 ein PCIe-Protokollstapel, der eine Transaktionsschicht 705, eine Verbindungsschicht 710 und eine physische Schicht 720 aufweist. Eine Schnittstelle, wie zum Beispiel Schnittstellen 617, 618, 621, 622, 626 und 631 in 6, kann als Kommunikationsprotokollstapel 700 dargestellt werden. Die Darstellung als ein Kommunikationsprotokollstapel kann auch als ein Modul oder eine Schnittstelle bezeichnet werden, die einen Protokollstapel implementiert/beinhaltet.
PCI-Express verwendet Pakete, um Informationen zwischen Komponenten zu kommunizieren. Pakete werden in der Transaktionsschicht 705 und der Datenverbindungsschicht 710 gebildet, um die Informationen von der übertragenden Komponente zu der empfangenden Komponente zu tragen. Wenn die übertragenen Pakete durch die anderen Schichten fließen, werden sie mit zusätzlichen Informationen, die notwendig sind, um Pakete in diesen Schichten zu handhaben, erweitert. Auf der empfangenden Seite tritt der umgekehrte Prozess auf, und Pakete werden von ihrer Darstellung der physischen Schicht 720 in die Darstellung der Datenverbindungsschicht 710 und schließlich (für Transaktionsschichtpakete) in die Form umgewandelt, die von der Transaktionsschicht 705 des empfangenden Geräts verarbeitet werden kann.
Transaktionsschicht
Bei einer Ausführungsform soll die Transaktionsschicht 705 eine Schnittstelle zwischen einem Verarbeitungskern eines Bauteils und der Verschaltungsarchitektur, wie zum Beispiel der Datenverbindungsschicht 710 und der physischen Schicht 720, bereitstellen. In diesem Hinblick sind eine Hauptverantwortung der Transaktionsschicht 705 das Assemblieren und Deassemblieren von Paketen (das heißt Transaktionsschichtpakete oder TLPs). Die Transaktionsschicht 705 verwaltet typischerweise auf Kredit basierende Flusssteuerung für TLPs. Eine PCIe setzt Spalttransaktionen um, das heißt Transaktionen mit Anforderung und Antwort getrennt durch Zeit, was es einem Link erlaubt, anderen Verkehr zu tragen, während das Zielbauteil Daten für die Antwort sammelt.
Außerdem setzt PCIe Führungssteuerung auf Kreditbasis ein. Bei diesem System sagt ein Bauteil eine anfängliche Kreditmenge für jeden der Empfangspuffer in der Transaktionsschicht 705 an. Eine externes Bauteil an dem entgegengesetzten Ende des Links, wie der Controller-Hub 115 in 1, zählt die Anzahl von Krediten, die von jedem TLP verbraucht werden. Eine Transaktion kann übertragen werden, falls die Transaktion ein Kreditlimit nicht überschreitet. Beim Empfangen einer Antwort wird eine Kreditmenge wiederhergestellt. Ein Vorteil des Kreditsystems ist, dass sich die Latenz der Kreditrückkehr nicht auf die Leistung auswirkt, vorausgesetzt, dass das Kreditlimit nicht erreicht wird.
Bei einer Ausführungsform weisen vier Transaktionsadressräume einen Konfigurationsadressraum, einen Speicheradressraum, einen Eingabe-/Ausgabe-Adressraum und einen Nachrichtadressraum auf. Speicherraumtransaktionen weisen eine oder mehr Lese- und Schreibanfragen zum Übertragen von Daten zu/von einer Memory-Mapped-Lage auf. Bei einer Ausführungsform sind die Speicherraumtransaktionen fähig, zwei unterschiedliche Adressformate zu verwenden, zum Beispiel ein kurzes Adressformat, wie eine 32-Bit-Adresse, oder ein langes Adressformat, wie eine 64-Bit-Adresse. Konfigurationsraumtransaktionen werden verwendet, um auf Konfigurationsraum der PCIe-Bauteile zuzugreifen. Transaktionen zu dem Konfigurationsraum weisen Lese- und Schreibanfragen auf. Nachrichtenraumtransaktionen (oder einfach Nachrichten) sind dazu definiert, die In-Band-Kommunikation zwischen PCIe-Agenten zu unterstützen.
Deshalb ordnet die Transaktionsschicht 705 in einer Ausführungsform Paketkopfzeile/Nutzlast 706 an. Format für aktuelle Paketkopfzeilen/Nutzlasten kann in der PCIe-Spezifikation auf der PCIe-Spezifikations-Website gefunden werden.
Unter rascher Bezugnahme auf 8 ist eine Ausführungsform eines PCIe-Transaktionsdeskriptors veranschaulicht. Bei einer Ausführungsform ist der Transaktionsdeskriptor 800 ein Mechanismus zum Tragen von Transaktionsinformationen. In diesem Hinblick unterstützt der Transaktionsdeskriptor 800 die Identifikation von Transaktionen in einem System. Andere potentielle Nutzungen weisen das Überwachen von Änderungen von Standardtransaktionsordnen und Assoziationen von Transaktionen mit Kanälen auf.
Der Transaktionsdeskriptor 800 weist ein globales Identifikatorfeld 802, ein Attributefeld 1004 und ein Kanalidentifikatorfeld 806 auf. Bei dem veranschaulichten Beispiel ist ein globales Identifikatorfeld 802 abgebildet, das ein lokales Transaktionsidentifikatorfeld 808 und ein Source-Identifikatorfeld 810 umfasst. Bei einer Ausführungsform ist der globale Transaktionsidentifikator 802 für alle ausstehenden Anfragen derselbe.
Gemäß einer Umsetzung ist das lokale Transaktionsidentifikatorfeld 808 ein Feld, das von einem anfragenden Agenten erzeugt wird, und es steht für alle ausstehenden Anfragen, die einen Abschluss für diesen anfragenden Agenten erfordern. Des Weiteren identifiziert bei diesem Beispiel der Source-Identifikator 810 den anfragenden Agenten innerhalb einer PCIe-Hierarchie eindeutig. Gemeinsam mit der Source-ID 810 stellt das lokale Transaktionsidentifikatorfeld 808 folglich globale Identifikation einer Transaktion innerhalb einer Hierarchie-Domäne bereit.
Das Attributefeld 804 spezifiziert Merkmale und Beziehungen der Transaktion. In diesem Hinblick wird das Attributefeld 804 potentiell verwendet, um zusätzliche Informationen bereitzustellen, die eine Änderung der Standardverarbeitung von Transaktionen erlaubt. Bei einer Ausführungsform weist das Attributefeld 804 ein Prioritätsfeld 812, ein reserviertes Feld 814, ein Ordnungsfeld 816 und ein No-Snoop-Feld 818 auf. Hier kann das Prioritätssubfeld 812 durch einen Initiator geändert werden, um der Transaktion eine Priorität zuzuweisen. Ein reserviertes Attributfeld 814 wird für die Zukunft oder für verkäuferdefinierte Nutzung reserviert. Mögliche Nutzungsmodelle, die Prioritäts- oder Sicherheitsattribute verwenden, können unter Verwenden des reservierten Attributfelds umgesetzt werden.
Bei diesem Beispiel wird das Ordnen des Attributfelds 816 verwendet, um optionale Informationen zu liefern, die den Ordnungstyp vermitteln, der Standardordnungsregeln modifizieren kann. Gemäß einer beispielhaften Umsetzung bedeutet ein Ordnungsattribut „0“, dass Standardordnungsregeln anzuwenden sind, wobei ein Ordnungsattribut „1“ gelockertes Ordnen bezeichnet, wobei Schreiben Schreiben in dieselbe Richtung weitergeben können und Leseabschlüsse Schreiben in dieselbe Richtung weitergeben können. Das Snoopattributfeld 818 wird eingesetzt, um zu bestimmen, ob Transaktionen gesnoopt werden. Wie gezeigt, identifiziert das Kanal-ID-Feld 806 einen Kanal, mit dem eine Transaktion zusammenhängt.
Übertragungsschicht
Unter Bezugnahme auf 7 agiert die Verbindungsschicht 710, die auch Datenverbindungsschicht 710 genannt wird, als eine Zwischenstufe zwischen der Transaktionsschicht 705 und der physischen Schicht 720. Bei einer Ausführungsform ist eine Verantwortung der Datenübertragungsschicht 710 das Bereitstellen eines zuverlässigen Mechanismus zum Austauschen von Transaktionsschichtpaketen (TLPs) zwischen zwei Komponenten eines Links. Eine Seite der Datenübertragungsschicht 710 akzeptiert TLPs, die von der Transaktionsschicht 705 assembliert werden, wendet den einen Paketsequenzidentifikator 710 an, das heißt eine Identifikationsnummer oder Paketnummer, berechnet einen Fehlererfassungscode und wendet ihn an, das heißt CRC 712, und unterbreitet die modifizierten TLPs der physischen Schicht 720 für Übertragung über ein physisches zu einem externen Bauteil.
Bitübertragungsschicht (physische Schicht)
Bei einer Ausführungsform weist die Bitübertragungsschicht 720 einen logischen Subblock 721 und einen elektrischen Subblock 722 auf, um ein Paket physisch zu einem externen Bauteil zu übertragen. Hier ist der logische Subblock 721 für die „digitalen“ Funktionen der Bitübertragungsschicht 721 zuständig. In diesem Hinblick weist ein logischer Subblock einen Übertragungsabschnitt auf, um ausgehende Informationen zur Übertragung durch den physischen Subblock 722 vorzubereiten, und einen Empfängerabschnitt, um empfangene Informationen zu identifizieren und vorzubereiten, bevor sie zu der Übertragungsschicht 1110 weitergegeben werden.
Der physische Block 722 weist einen Sender und einen Empfänger auf. Der Sender wird von dem logischen Subblock 721 mit Symbolen versorgt, die der Sender serialisiert und auf ein externes Bauteil überträgt. Der Empfänger wird mit serialisierten Symbolen aus einem externen Bauteil versorgt und wandelt die empfangenen Signale in einen Bitstrom um. Der Bitstrom wird de-serialisiert und zu dem logischen Subblock 721 geliefert. Bei einer Ausführungsform wird ein 8b/10b-Übertragungscode eingesetzt, bei dem Zehn-Bit-Symbole übertragen/empfangen werden. Hier werden spezielle Symbole für das Framing eines Pakets mit Frames 723 verwendet. Zusätzlich stellt der Empfänger bei einem Beispiel auch einen Symboltaktgeber bereit, der aus dem eingehenden seriellen Strom zurückgewonnen wird.
Wie oben angegeben, ist, obwohl die Transaktionsschicht 705, die Verbindungsschicht 710 und die physikalische Schicht 1020 in Bezug auf eine spezifische Ausführungsform eines PCIe-Protokollstapels diskutiert werden, ein geschichteter Protokollstapel nicht so beschränkt. Tatsächlich kann jedes geschichtete Protokoll eingeschlossen/implementiert werden. Als ein Beispiel beinhaltet ein Port/eine Schnittstelle, die als ein geschichtetes Protokoll dargestellt wird: (1) eine erste Schicht, um Pakete anzuordnen, das heißt, eine Transaktionsschicht; eine zweite Schicht, um Pakete zu sequenzieren, das heißt eine Verbindungsschicht; und eine dritte Schicht, um Pakete zu übertragen, das heißt eine physikalische Schicht. Als ein spezifisches Beispiel wird ein Common-Standard-Interface (CSI) -Schichtprotokoll verwendet.
Als nächstes bezugnehmend auf 9, ist eine Ausführungsform einer seriellen PCIe-Punkt-zu-Punkt-Struktur veranschaulicht. Obwohl eine Ausführungsform einer seriellen PCIe-Punkt-zu-Punkt-Verbindung veranschaulicht ist, ist eine serielle Punkt-zu-Punkt-Verbindung nicht so beschränkt, da sie jeglichen Übertragungspfad zum Übertragen serieller Daten beinhaltet. In der gezeigten Ausführungsform beinhaltet eine Basis-PCIe-Verbindung zwei differenziell betriebene Niedrigspannungs-Signalpaare: ein Übertragungspaar 906/911 und ein Empfangspaar 912/907. Dementsprechend beinhaltet Gerät 905 Übertragungslogik 906, um Daten an Gerät 910 zu übertragen, und Empfangslogik 907, um Daten von dem Gerät 910 zu empfangen. Mit anderen Worten sind zwei Übertragungspfade, das heißt Pfade 916 und 917, und zwei Empfangspfade, das heißt Pfade 918 und 919, in einer PCIe-Verbindung enthalten.
Ein Übertragungspfad bezieht sich auf jeglichen Pfad zum Übertragen von Daten, wie zum Beispiel eine Übertragungsleitung, eine Kupferleitung, eine optische Leitung, einen drahtlosen Kommunikationskanal, eine Infrarotkommunikationsverbindung oder anderen Kommunikationspfad. Eine Verbindung zwischen zwei Geräten, wie zum Beispiel dem Gerät 905 und dem Gerät 910, wird als eine Verbindung bezeichnet, wie etwa Verbindung 915. Eine Verbindung kann eine Spur unterstützen - wobei jede Spur eine Gruppe von differenziellen Signalpaaren (ein Paar für Übertragung, ein Paar für Empfang) repräsentiert. Zum Skalieren der Bandbreite kann ein Link mehrere Bahnen aggregieren, die mit xN benannt sind, wobei N eine beliebige unterstützte Linkbreite ist, wie 1, 2, 4, 8, 12, 16, 32, 64 oder breiter.
Ein Differenzialpaar betrifft zwei Übertragungspfade, wie Leitungen 916 und 917, um Differentialsignale zu übertragen. Als ein Beispiel, wenn die Leitung 916 von einem Niederspannungspegel zu einem Hochspannungspegel übergeht, das heißt eine steigende Flanke, steuert die Leitung 917 von einem hohen Logikpegel zu einem niedrigen Logikpegel, das heißt einer sinkenden Flanke. Differentialsignale demonstrieren potentiell bessere elektrische Eigenschaften, wie zum Beispiel bessere Signalintegrität, das heißt Kreuzkopplung, Spannungs-Überschwingen/-Unterschwingen, Schallen, usw. Dies erlaubt ein besseres Zeitfenster, das schnellere Übertragungsfrequenzen ermöglicht.
Es sei angemerkt, dass die oben beschriebenen Geräte, Verfahren und Systeme in einem beliebigen elektronischen Bauteil oder System, wie oben erwähnt, implementiert werden können. Als spezifische Darstellungen stellen die nachfolgenden Figuren beispielhafte Systeme für den Einsatz der Erfindung, wie sie hier beschrieben ist, bereit. Da die nachfolgenden Systeme detaillierter beschrieben werden, wird eine Anzahl unterschiedlicher Verschaltungen offenbart, beschrieben und aus der oben stehenden Erörterung wieder aufgegriffen. Und wie ohne Weiteres ersichtlich ist, können die oben beschriebenen Fortschritte auf beliebige jener Verschaltungen, Strukturen oder Architekturen angewandt werden.
Nun unter Bezugnahme auf 10 ist ein Blockdiagramm einer Ausführungsform eines Multicore-Prozessors gezeigt. Wie in der Ausführungsform von 10 gezeigt ist, weist der Prozessor 1000 mehrere Domänen auf. Insbesondere weist eine Kerndomäne 1030 mehrere Kerne 1030A-1030N auf, weist eine Grafikdomäne 1060 eine oder mehrere Grafik-Engines, die eine Medien-Engine 1065 aufweisen, und eine Systemagentendomäne 1010 auf.
In diversen Ausführungsformen bearbeitet die Systemagentendomäne 1010 Leistungssteuerungsereignisse und Leistungsverwaltung derart, dass einzelne Einheiten der Domänen 1030 und 1060 (z. B. Kerne und/oder Grafik-Engines) unabhängig gesteuert werden können, um dynamisch in einem geeigneten Leistungsmodus/-Level (z. B. aktivem Turbo-, Schlaf-, Ruhe-, Tiefschlaf- oder sonstigem fortgeschrittenen konfigurationsleistungsschnittstellenartigen Zustand) im Lichte der Aktivität (oder Inaktivität), die in der gegebenen Einheit auftritt, zu arbeiten. Jede der Domänen 1030 und 1060 kann mit einer anderen Spannung und/oder Leistung arbeiten und ferner arbeiten die einzelnen Einheiten innerhalb der Domänen jeweils potentiell mit einer unabhängigen Frequenz und Spannung. Es ist zu beachten, dass, wenngleich er nur mit drei Domänen gezeigt ist, der Umfang der vorliegenden Erfindung nicht diesbezüglich beschränkt ist und zusätzliche Domänen in anderen Ausführungsformen vorhanden sein können.
Wie gezeigt ist, beinhaltet jeder Kern 1030 ferner Low-Level-Caches zusätzlich zu diversen Ausführungseinheiten und zusätzlichen Verarbeitungselementen. Hier sind die diversen Kerne miteinander und mit einem gemeinsamen Cache-Speicher, der aus mehreren Einheiten oder Stücken eines Last-Level-Caches (LLC) 1040A-1040N gebildet ist, gekoppelt; diese LLCs beinhalten oft Speicherungs- und Cache-Controller-Funktionalität und werden unter den Kernen sowie potentiell auch unter der Grafik-Engine geteilt.
Wie zu sehen ist, koppelt eine Ringverschaltung 1050 die Kerne zusammen und stellt eine Verschaltung zwischen der Kerndomäne 1030, der Grafikdomäne 1060 und den Systemagentenschaltungen 1010 über mehrere Ring-Stopps 1052A-1052N jeweils an einer Kopplung zwischen einem Kern und einem LLC-Stück bereit. Wie in 10 zu sehen ist, wird die Verschaltung 1050 verwendet, um diverse Informationen einschließlich Adressinformationen, Dateninformationen, Bestätigungsinformationen und Snoop-/ungültig-Informationen zu tragen. Wenngleich eine Ringverschaltung veranschaulicht ist, kann eine beliebige bekannte On-Die-Verschaltung oder Struktur verwendet werden. Als veranschaulichendes Beispiel können einige der zuvor diskutierten Strukturen (z. B. eine andere On-Die-Verschaltung, Intel On-Chip System Fabric (IOSD), eine Advanced Microcontroller Bus Architecture (AMBA) -Verschaltung, eine mehrdimensionale Gitterstruktur oder sonstige bekannte Verschaltungsarchitektur) auf eine ähnliche Art verwendet werden.
Wie weiter abgebildet ist, weist die Systemagentendomäne 1010 eine Display-Engine 1012 auf, welche eine Steuerung von und eine Schnittstelle zu einem zugehörigen Display bereitstellen soll. Die Systemagentendomäne 1010 kann andere Einheiten aufweisen, wie zum Beispiel: einen integrierten Speicher-Controller 1020, der eine Schnittstelle einem Systemspeicher (z. B. einem DRAM, der mit mehreren DIMMs implementiert ist; eine Kohärenz-Logik 1022 zum Durchführen von Speicherkohärenzoperationen) bereitstellt. Es können mehrere Schnittstellen vorhanden sein, um eine Verschaltung zwischen dem Prozessor und anderen Schaltungen zu ermöglichen. Zum Beispiel sind in einer Ausführungsform mindestens eine Direct Media Interface (DMI) 1016 -Schnittstelle sowie eine oder mehrere PCIe™ -Schnittstellen 1014 bereitgestellt. Die Display-Engine und diese Schnittstellen sind typischerweise über eine PCIe™ -Brücke 1018 gekoppelt. Ferner können zum Bereitstellen von Kommunikationen zwischen anderen Agenten, wie zum Beispiel zusätzlichen Prozessoren oder anderen Schaltungen eine oder mehrere andere Schnittstellen (z. B. eine Intel® Quick Path Interconnect (QPI) -Struktur) bereitgestellt werden.
Wendet man sich als nächstes 11 zu, ist eine Ausführungsform eines System-On-Chip (SOC) -Designs gemäß den Erfindungen dargestellt. Als ein spezifisches veranschaulichendes Beispiel ist SOC 1100 in einem Benutzergerät (User Equipment - UE) enthalten. In einer Ausführungsform bezieht sich UE auf jegliches Gerät, das von einem Endverbraucher zum Kommunizieren verwendet wird, wie zum Beispiel ein tragbares Telefon, Smartphone, Tablet, ultradünnes Notebook, Notebook mit Breitbandadapter oder jegliches andere ähnliche Kommunikationsgerät. Oft verbindet sich ein UE mit einer Basisstation oder einem Knoten, der potentiell in seiner Natur einer Mobilstation (MS) in einem GSM-Netzwerk entspricht.
Hier beinhaltet der SOC 1100 zwei Kerne - 1106 und 1107. Ähnlich der Diskussion oben können die Kerne 1106 und 1107 einer Anweisungssatzarchitektur entsprechen, wie zum Beispiel einem Intel®-Architecture-Core™ -basierten Prozessor, einem Advanced-Micro-Devices, Inc. (AMD) -Prozessor, einem MIPS-basierten Prozessor, einem ARM-basierten Prozessor-Design oder einem Kunden davon, sowie ihren Lizenznehmern oder Anwendern. Die Kerne 1106 und 1107 sind mit Cache-Steuerung 1108 gekoppelt, die Busschnittstelleneinheit 1109 und L2-Cache-Speicher 1110 zugeordnet ist, um mit anderen Teilen des Systems 1100 zu kommunizieren. Die Verschaltung 1110 beinhaltet eine On-Chip-Verschaltung, wie zum Beispiel eine IOSF, AMBA oder andere oben diskutierte Verschaltung, die potentiell einen oder mehrere Aspekte der beschriebenen Erfindung implementiert.
Die Schnittstelle 1110 stellt Kommunikationskanäle zu den anderen Komponenten bereit, wie zum Beispiel Subscriber-Identity-Module (SIM) 1130 zum Verknüpfen mit einer SIM-Karte, Boot-ROM 1135 zum Halten von Boot-Code zur Ausführung durch die Kerne 1106 und 1107 zum Initialisieren und Starten des SOC 1100, SDRAM-Controller 1140 zum Verknüpfen mit externem Speicher (zum Beispiel DRAM 1160), Flash-Controller 1145 zum Verbinden mit nichtflüchtigem Speicher (zum Beispiel Flash 1165), periphere Steuerung 1150 (zum Beispiel Serial Peripheral Interface) zum Verknüpfen mit Peripheriegeräten, Video-Codecs 1120 und Videoschnittstelle 1125 zum Anzeigen und Empfangen von Eingaben (zum Beispiel berührungsaktivierte Eingaben), GPU 1115 zum Ausführen grafikbezogener Berechnungen, usw. Jegliche dieser Schnittstellen kann Aspekte der hierin beschriebenen Erfindung enthalten.
Zusätzlich veranschaulicht das System Peripheriegeräte zur Kommunikation, wie zum Beispiel Bluetooth-Modul 1170, 3G-Modem 1175, GPS 1185 und WiFi 1185. Es ist zu beachten, wie oben erwähnt, dass ein UE ein Funkgerät zur Kommunikation beinhaltet. Als ein Ergebnis sind diese peripheren Kommunikationsmodule nicht alle erforderlich. In einem UE soll jedoch eine Form eines Funkgeräts zur externen Kommunikation enthalten sein.
Unter Bezugnahme nunmehr auf 12 ist ein Blockdiagramm eines zweiten Systems 1200 gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Wie in 12 gezeigt, ist das Mehrfachprozessorsystem 1200 ein Punkt-zu-Punkt-Verschaltungssystem und weist einen ersten Prozessor 1270 und einen zweiten Prozessor 1280, der über eine Punkt-zu-Punkt-Zwischenverbindung 1250 gekoppelt ist, auf. Jeder der Prozessoren 1270 und 1280 kann eine beliebige Version eines Prozessors sein. Bei einer Ausführungsform sind 1252 und 1254 Teil einer kohärenten seriellen Punkt-zu-Punkt-Verschaltungsfabric, wie die Quick Path Interconnect (QPI)-Architektur von Intel. Als ein Resultat, kann die Erfindung innerhalb der QPI-Architektur implementiert werden.
Obwohl sie nur mit zwei Prozessoren 1270, 1280 gezeigt ist, muss man verstehen, dass der Schutzbereich der vorliegenden Erfindung nicht darauf beschränkt ist. Bei anderen Ausführungsformen können in einem gegebenen Prozessor ein oder mehr zusätzliche Prozessoren vorliegen.
Die Prozessoren 1270 und 1280 sind jeweils integrierte Speichercontrollereinheiten 1272 und 1282 aufweisend gezeigt. Der Prozessor 1270 weist als Teil seiner Buscontrollereinheiten Punkt-zu-Punkt(P-P)-Schnittstellen 1276 und 1278 auf; der zweite Prozessor 1280 weist ähnlich P-P-Schnittstellen 1286 und 1288 auf. Die Prozessoren 1270 und 1280 können Daten über eine Punkt-zu-Punkt(P-P)-Schnittstelle 1250 unter Verwendung von P-P-Schnittstellenschaltungen 1278, 1288 austauschen. Wie in 12 gezeigt, koppeln IMCs 1272 und 1282 die Prozessoren mit jeweiligen Speichern, nämlich einem Speicher 1232 und einem Speicher 1234, die Teile eines Hauptspeichers sein können, die lokal an den jeweiligen Prozessoren angebracht sind.
Die Prozessoren 1270, 1280 können jeweils Informationen über individuelle P-P-Schnittstellen 1252, 1254 mit einem Chipsatz 1290 unter Verwenden von Punkt-zu-Punkt-Schnittstellenschaltkreisen 1276, 1294, 1286, 1298 austauschen. Der Chipsatz 1290 tauscht auch Informationen mit einer Hochleistungs-Grafikschaltung 1238 über eine Schnittstellenschaltung 1292 entlang einer Hochleistungs-Grafikverschaltung 1239 aus.
Ein gemeinsamer Cache (nicht gezeigt) kann in beiden Prozessoren oder außerhalb von beiden Prozessoren enthalten sein, aber mit den Prozessoren derart über eine P-P Verbindung verbunden sein, dass die lokalen Cache-Informationen von einem oder beiden Prozessoren in dem gemeinsamen Cache gespeichert sind, wenn ein Prozessor in einen Modus mit niedrigem Stromverbrauch gebracht wird.
Der Chipsatz 1290 kann über eine Schnittstelle 1296 mit einem ersten Bus 1216 gekoppelt werden. Bei einer Ausführungsform kann der erste Bus 1216 ein PCI-Bus (PCI: Peripheral Component Interconnect) oder ein Bus, wie etwa ein PCI-Express-Bus oder ein anderer E/A-Verschaltungsbus der dritten Generation, sein, obwohl der Schutzumfang der vorliegenden Erfindung nicht darauf beschränkt ist.
Wie in 12 gezeigt, können diverse E/A-Vorrichtungen 1214 zusammen mit einer Busbrücke 1218, die den ersten Bus 1216 mit einem zweiten Bus 1220 koppelt, mit dem ersten Bus 1216 gekoppelt sein. Bei einer Ausführungsform weist der zweite Bus 1220 einen LPC-Bus (Low Pin Count) auf. Diverse Vorrichtungen sind bei einer Ausführungsform mit einem zweiten Bus 1220 gekoppelt, der zum Beispiel eine Tastatur und/oder Maus 1222, Kommunikationsvorrichtungen 1227 und eine Speichereinheit 1228, wie ein Plattenlaufwerk oder eine andere Massenspeichervorrichtung, die oft Anweisungen/Code und Daten 1230 aufweist, gekoppelt. Ferner ist ein Audio-E/A 1224 mit dem zweiten Bus 1220 gekoppelt gezeigt. Zu bemerken ist, dass andere Architekturen möglich sind, wobei die enthaltenen Komponenten und Verschaltungsarchitekturen variieren. Zum Beispiel kann ein System an Stelle der Punkt-zu-Punkt-Architektur der 12 einen Multi-Drop-Bus oder eine andere solche Architektur implementieren.
Obwohl die vorliegende Erfindung mit Bezug auf eine begrenzte Anzahl von Ausführungsformen beschrieben wurde, wird der Fachmann zahlreiche Modifikationen und Varianten davon zu würdigen wissen. Es wird beabsichtigt, dass die anliegenden Ansprüche alle solche Modifikationen und Varianten, wie sie in den wahren Geist und den Schutzumfang dieser vorliegenden Erfindung fallen, decken.
Ein Design kann durch verschiedene Stufen gehen, von Gestaltung zur Simulation zur Herstellung. Daten, die ein Design repräsentieren, können das Design in einer Anzahl von Weisen repräsentieren. Zunächst kann die Hardware, was in Simulationen sinnvoll ist, unter Verwendung einer Hardware-Beschreibungssprache oder einer anderen funktionalen Beschreibungssprache repräsentiert werden. Zusätzlich kann in manchen Stufen des Designprozesses ein Schaltungsebenenmodell mit Logik und/oder Transistor-Gates erstellt werden. Darüber hinaus erreichen die meisten Designs zu einem Zeitpunkt ein Datenniveau, das die physikalische Platzierung verschiedener Geräte in dem Hardware-Modell repräsentiert. In dem Fall, bei dem herkömmliche Halbleiterherstellungstechniken verwendet werden, können die Daten, die das Hardware-Modell repräsentieren, die Daten sein, die das Vorhandensein oder das Nichtvorhandensein verschiedener Merkmale auf unterschiedlichen Maskenschichten für Masken, die zum Herstellen der integrierten Schaltung verwendet werden, spezifizieren. In jeglicher Repräsentation des Designs können die Daten in jeglicher Form eines maschinenlesbaren Mediums gespeichert werden. Ein Speicher oder eine magnetische oder optische Speicherung, wie eine Disk, kann das maschinenlesbare Medium zum Speichern von Informationen sein, die über optische oder elektrische Wellen übertragen werden, die moduliert oder anderweitig erzeugt werden, um solche Informationen zu übertragen. Wenn eine elektrische Trägerwelle, die den Code oder das Design anzeigt oder trägt, in dem Ausmaß, in dem Kopieren, Puffern oder Neuübermittlung des elektrischen Signals ausgeführt wird, übertragen wird, wird eine neue Kopie erstellt. Somit kann ein Kommunikationsanbieter oder ein Netzanbieter auf einem greifbaren, maschinenlesbaren Medium, zumindest zeitweise einen Gegenstand, wie zum Beispiel in eine Trägerwelle codierte Informationen, unter Ausführung von Techniken von Ausführungsformen der vorliegenden Erfindung speichern.
Ein Modul, so wie es hier verwendet wird, bezieht sich auf jegliche Kombination von Hardware, Software und/oder Firmware. Ein Modul weist beispielsweise Hardware, wie einen Mikrocontroller, auf, der mit einem nichtflüchtigen Medium assoziiert ist, um Code zu speichern, der dafür ausgelegt ist, durch den Mikrocontroller ausgeführt zu werden. Eine Bezugnahme auf ein Modul betrifft folglich bei einer Ausführungsform die Hardware, die besonders konfiguriert ist, um den Code, der auf einem nichtflüchtigen Medium zu halten ist, zu erkennen und/oder auszuführen. Des Weiteren betrifft der Gebrauch eines Moduls bei einer Ausführungsform das nichtflüchtige Medium, das den Code aufweist, der spezifisch angepasst ist, um von dem Mikrocontroller ausgeführt zu werden, um vorbestimmte Vorgänge auszuführen. Wie man folgern kann, kann sich der Begriff Modul (bei diesem Beispiel) bei noch einer weiteren Ausführungsform auf die Kombination des Mikrocontrollers und des nichtflüchtigen Mediums beziehen. Häufig variieren Modulgrenzen, die als separat dargestellt sind, allgemein und überlappen sich potentiell. Beispielsweise können ein erstes und ein zweites Modul Hardware, Software, Firmware oder eine Kombination davon gemeinsam verwenden, während potentiell etwas unabhängige Hardware, Software oder Firmware behalten wird. Bei einer Ausführungsform schließt die Verwendung des Begriffs ,Logik‘ Hardware, wie etwa Transistoren, Register oder andere Hardware, wie etwa programmierbare Logikvorrichtungen, ein.
Verwendung der Phrase „zum“ oder „ausgelegt zum“ in einer Ausführungsform betrifft das Anordnen, Zusammenstellen, Herstellen, Anbieten zum Verkauf, Importieren und/oder Konzipieren eines Geräts, von Hardware, Logik oder einem Element, um eine designierte oder bestimmte Aufgabe durchzuführen. Bei diesem Beispiel ist ein Gerät oder ein Element davon, die/das nicht arbeitet, immer noch „ausgelegt“, um eine designierte Aufgabe auszuführen, wenn es konzipiert, gekoppelt und/oder verschaltet ist, um die designierte Aufgabe auszuführen. Als rein veranschaulichendes Beispiel kann ein Logik-Gate während des Betriebs eine 0 oder eine 1 bereitstellen. Aber ein Logik-Gate, das „ausgelegt ist“, um ein Freischaltsignal zu einem Taktgeber bereitzustellen, weist nicht jedes potentielle Logik-Gate auf, das möglicherweise eine 1 oder 0 bereitstellt. Stattdessen ist das Logik-Gatter eines, das auf irgendeine Weise gekoppelt ist, bei der während des Betriebs die ausgegebene 1 oder 0 den Taktgeber freischalten soll. Es sei noch einmal angemerkt, dass Verwendung des Begriffs „ausgelegt zum“ keinen Betrieb erfordert, sondern sich stattdessen auf den latenten Zustand eines Geräts, von Hardware und/oder eines Elements fokussiert, wobei der latente Zustand des Geräts, der Hardware und/oder des Elements ausgelegt ist, um eine besondere Aufgabe durchzuführen, wenn das Gerät, die Hardware und/oder das Element in Betrieb ist.
Ferner betrifft der Gebrauch der Phrasen „fähig zum“ und/oder „betreibbar zum“ bei einer Ausführungsform irgendeine Einrichtung, Logik, Hardware und/oder ein Element, die derart ausgelegt sind, dass sie den Gebrauch des Geräts, der Logik, der Hardware und/oder des Elements auf eine spezifizierte Art ermöglichen. Es sei wie oben angemerkt, dass sich eine Verwendung von „fähig zum“ oder „betreibbar zum“ in einer Ausführungsform auf den latenten Zustand des Geräts, der Logik, Hardware und/oder des Elements bezieht, wobei die Einrichtung, Logik, Hardware und/oder das Element nicht in Betrieb ist, aber auf eine solche Weise ausgelegt ist, dass Gebrauch eines Geräts auf eine spezifizierte Art ermöglicht wird.
Wie hier verwendet, weist ein Wert eine beliebige bekannte Darstellung einer Zahl, eines Zustands, eines logischen Zustands oder eines binären logischen Zustands auf. Häufig wird die Verwendung von Logikpegeln, Logikwerten oder von logischen Werten auch als 1-en und 0-en bezeichnet, was einfach binäre Logikzustände darstellt. Beispielsweise bezieht sich 1 auf einen hohen Logikpegel und 0 bezieht sich auf einen tiefen Logikpegel. Bei einer Ausführungsform kann eine Speicherzelle, wie etwa eine Transistor- oder Flash-Zelle, in der Lage sein, einen einzigen logischen Wert oder mehrere logische Werte zu halten. Allerdings wurden andere Darstellungen von Werten in Computersystemen verwendet. Zum Beispiel kann die Dezimalzahl zehn auch als ein Binärwert von 1010 und ein hexadezimaler Buchstabe A dargestellt werden. Deshalb beinhaltet ein Wert jegliche Darstellung von Information, die in einem Computersystem gehalten werden kann.
Darüber hinaus können Zustände durch Werte oder Abschnitte von Werten repräsentiert werden. Beispielsweise kann ein erster Wert, wie etwa eine logische Eins, einen Standard- oder Anfangszustand repräsentieren, wohingegen ein zweiter Wert, wie etwa eine logische Null, einen Nichtstandardzustand repräsentieren kann. Zusätzlich beziehen sich die Terme Reset und Set in einer Ausführungsform jeweils auf einen Standard- bzw. einen aktualisierten Wert oder Zustand. Beispielsweise beinhaltet ein Standardwert potentiell einen hohen logischen Wert, das heißt Reset, wohingegen ein aktualisierter Wert potentiell einen tiefen logischen Wert, das heißt Set, beinhaltet. Es ist zu beachten, dass jegliche Kombination von Werten verwendet werden kann, um jegliche Anzahl von Zuständen zu repräsentieren.
Die oben dargelegten Ausführungsformen von Verfahren, Hardware, Software, Firmware oder Code können über auf einem maschinenzugreifbaren, maschinenlesbaren, computerzugreifbaren oder computerlesbaren Medium gespeicherte Instruktionen oder Code implementiert sein, welche durch ein Verarbeitungselement ausführbar sind. Ein nichtflüchtiges maschinenzugreifbares/-lesbares Medium beinhaltet jeglichen Mechanismus, der Informationen in einer durch eine Maschine, wie zum Beispiel einen Computer oder ein elektronisches System, lesbaren Form bereitstellt (das heißt speichert und/oder überträgt). Beispielsweise beinhaltet ein nichttransitorisches, maschinenzugreifbares Medium Direktzugriffsspeicher (RAM - Random Access Memory), wie etwa statisches RAM (SRAM) oder dynamisches RAM (DRAM); ROM; ein magnetisches oder optisches Speicherungsmedium; Flash-Speichervorrichtungen; elektrische Speicherungsvorrichtungen; optische Speicherungsvorrichtungen; akustische Speicherungsvorrichtungen; andere Formen von Speicherungsvorrichtungen zum Halten von Informationen, die von transitorischen (propagierten) Signalen (z. B. Trägerwellen, Infrarotsignale, Digitalsignale) usw. empfangen werden; die von den nichttransitorischen unterschieden werden müssen, die Informationen davon empfangen können.
Zum Programmieren von Logik verwendete Instruktionen, um Ausführungsformen der Erfindung auszuführen, können innerhalb eines Speichers, wie zum Beispiel DRAM, Cache, Flash-Speicher oder andere Speicherung, in dem System gespeichert werden. Darüber hinaus können die Instruktionen über ein Netzwerk oder mittels anderer computerlesbarer Medien verteilt werden. Somit kann ein maschinenlesbares Medium unter anderem jeglichen Mechanismus zum Speichern oder Übermitteln von Informationen in einer Form, die durch eine Maschine (zum Beispiel einen Computer) gelesen werden kann, beinhalten, wie etwa: Floppy Disks, optische Disks, Compact Disk, Read-Only-Memory (CD-ROM) und magneto-optische Disks, Read-Only-Memory (ROM), Random-Access-Memory (RAM), Erasable-Programmable-Read-Only-Memory (EPROM), Electrically-Erasable-Programmable-Read-Only-Memory (EEPROM), magnetische oder optische Karten, Flash-Speicher oder eine greifbare, maschinenlesbare Speicherung, die bei der Informationsübermittlung über das Internet über elektrische, optische, akustische oder andere Formen von propagierten Signalen (z. B. Trägerwellen, Infrarotsignale, Digitalsignale usw.) verwendet werden. Dementsprechend beinhaltet das computerlesbare Medium jegliche Art von greifbarem maschinenlesbaren Medium, das zum Speichern oder Übertragen elektronischer Instruktionen oder Informationen in einer durch eine Maschine (zum Beispiel einen Computer) lesbaren Form geeignet ist.
Durchgehend bedeutet in dieser Spezifikation Bezugnahme auf „(genau) eine Ausführungsform“ oder „eine Ausführungsform“, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Techniken enthalten ist. Das Erscheinen der Phrasen „bei (genau) einer Ausführungsform“ oder „bei einer Ausführungsform“ an diversen Stellen über die gesamte Spezifikation hinweg bezieht sich also nicht immer notwendigerweise auf dieselbe Ausführungsform. Darüber hinaus können die bestimmten Merkmale, Strukturen oder Charakteristika in einer oder mehreren Ausführungsformen auf jegliche geeignete Weise kombiniert werden.
In der vorhergehenden Spezifikation wurde unter Bezugnahme auf spezifische beispielhafte Ausführungsformen eine detaillierte Beschreibung gegeben. Es ist jedoch offensichtlich, dass diverse Modifikationen und Änderungen daran vorgenommen werden können, ohne vom breiteren Geist und Schutzumfang der Erfindung, wie sie in den beigefügten Ansprüchen dargelegt ist, abzuweichen. Die Spezifikation und die Zeichnungen sind demnach eher in einem veranschaulichenden Sinne als in einem einschränkenden Sinne zu betrachten. Darüber hinaus betrifft der vorhergegangene Gebrauch von Ausführungsform und anderer beispielhafter Sprache nicht notwendigerweise dieselbe Ausführungsform oder dasselbe Beispiel, sondern kann andere und unterschiedliche Ausführungsformen sowie potentiell dieselbe Ausführungsform betreffen.
Der folgende Abschnitt stellt Beispiele für verschiedene der hier offenbarten Ausführungsformen bereit.
Beispiel 1 ist ein Verfahren zum Durchführen eines Datenvorabrufs bei einem Cache-Speicher, wobei das Verfahren von einem Root-Complex durchgeführt wird, der mit einem Peripheral Component Interconnect Express (PCIe) -Protokoll konform ist, wobei das Verfahren das Empfangen von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung eines Datenpakets; das Kennzeichnen anhand der empfangenen Vorrichtung eines Speichertransaktionshinweisbits; das Bestimmen einer Speichertransaktion anhand des Speichertransaktionshinweisbits; und das Durchführen eines Optimierungsprozesses auf Grundlage zumindest zum Teil der bestimmten Speichertransaktion beinhaltet.
Beispiel 2 kann den Gegenstand von Beispiel 1 oder Beispiel 5 beinhalten und weist ferner das Kennzeichnen eines Hinweisanzeigebits in dem Datenpaket auf, wobei das Hinweisanzeigebit anzeigt, dass ein Hinweisbit in dem Datenpaket festgelegt ist.
Beispiel 3 kann den Gegenstand von Beispiel 2 beinhalten, wobei das Kennzeichnen eines Hinweisanzeigebits in dem Datenpaket das Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits und das Bestimmen, dass das vorbestimmte Bit anzeigt, dass ein Hinweisbit festgelegt ist, umfasst.
Beispiel 4 kann den Gegenstand von einem der Beispiele 1-3 beinhalten, wobei das Kennzeichnen eines Speichertransaktionshinweisbits das Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits; und das Bestimmen, dass das vorbestimmte Bit eine bevorstehende Speichertransaktion anzeigt, umfasst.
Beispiel 5 kann den Gegenstand von einem der Beispiele 1-4 beinhalten, wobei das empfangene Datenpaket ein Adressübersetzungsdienstanfragepaket aufweist.
Beispiel 6 kann den Gegenstand von Beispiel 5 beinhalten, wobei das Speichertransaktionshinweisbit einen Paketort, der durch DW0.byte3.bits[2:0] definiert ist, belegt.
Beispiel 7 kann den Gegenstand von einem der Beispiele 5-6 beinhalten und weist ferner das Kennzeichnen von Speicheradressenortsinformationen anhand des empfangenen Datenpakets auf, wobei die Speicheradressenortsinformationen eine Gruppe von reservierten Bits belegen, die durch DW3, Byte 3, Bits [7:3] und DW3, Byte 2, Bits [2:0] definiert ist.
Beispiel 8 kann den Gegenstand von einem der Beispiele 1-4 beinhalten, wobei das empfangene Datenpaket ein Null-Längen-Schreibvorgang-Paket aufweist.
Beispiel 9 kann den Gegenstand von Beispiel 8 beinhalten, wobei das Speichertransaktionshinweisbit ungenutzte untere Adressbits des Null-Längen-Schreibvorgang-Datenpakets belegt.
Beispiel 10 kann den Gegenstand von einem der Beispiele 1-9 beinhalten, wobei das Durchführen des Optimierungsprozesses das Durchführen eines Cachingverhaltensoptimierungsprozesses umfasst.
Beispiel 11 kann den Gegenstand von einem der Beispiele 1-10 beinhalten, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft als Reaktion auf den Speichertransaktionshinweis, der einen Streaming-Schreibvorgang anzeigt, aufweist.
Beispiel 12 kann den Gegenstand von einem der Beispiele 1-10 beinhalten, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs von Daten und das Laden der Daten in einen Cache-Speicher als Reaktion auf den Speichertransaktionshinweis, der eine Lesevorgangstransaktion anzeigt, aufweist.
Beispiel 13 kann den Gegenstand von einem der Beispiele 1-10 beinhalten, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft und von Daten als Reaktion auf den Speichertransaktionshinweis, der eine atomare Operation oder eine cachebare Operation anzeigt, aufweist.
Beispiel 14 kann den Gegenstand von einem der Beispiele 1-10 beinhalten, wobei das Durchführen des Optimierungsprozesses das Initialisieren einer gekennzeichneten Speicherseite aufweist, die vorbestimmte Merkmale umfasst.
Beispiel 15 kann den Gegenstand von Beispiel 14 beinhalten, wobei das Initialisieren der gekennzeichneten Speicherseite das Aktualisieren von Metadaten, die mit der Seite in dem Speicher gespeichert sind, umfasst.
Beispiel 16 kann den Gegenstand von Beispiel 15 beinhalten, wobei das Aktualisieren von Metadaten das Hinzufügen von Fähigkeiten zu der Seite umfasst, wobei die Fähigkeiten Sicherheitsfunktionen für die Speichertransaktion umfassen.
Beispiel 17 ist ein Computerprogrammprodukt, das greifbar in nichtflüchtigen computerlesbaren Medien verkörpert ist, wobei das Computerprogrammprodukt Code aufweist, der, wenn er ausgeführt wird, bewirkt, dass ein Root-Complex-Hardware-Element von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung ein Datenpaket empfängt; anhand der empfangenen Vorrichtung ein Speichertransaktionshinweisbit kennzeichnet; eine Speichertransaktion anhand des Speichertransaktionshinweisbits bestimmt und einen Optimierungsprozess durchführt, der zumindest zum Teil auf der bestimmten Speichertransaktion beruht.
Beispiel 18 kann den Gegenstand von Beispiel 17 beinhalten, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Hinweisanzeigebit in dem Datenpaket kennzeichnet, wobei das Hinweisanzeigebit anzeigt, dass ein Hinweisbit in dem Datenpaket festgelegt ist.
Beispiel 19 kann den Gegenstand von einem der Beispiele 17-18 beinhalten, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Speichertransaktionshinweisbit durch Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits kennzeichnet; und bestimmt, dass das vorbestimmte Bit eine bevorstehende Speichertransaktion anzeigt.
Beispiel 20 kann den Gegenstand von einem der Beispiele 17-19 beinhalten, wobei der Optimierungsprozess das Durchführen eines Cachingverhaltensoptimierungsprozesses aufweist.
Beispiel 21 kann den Gegenstand von Beispiel 20 beinhalten, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft als Reaktion auf den Speichertransaktionshinweis, der einen Streaming-Schreibvorgang anzeigt, das Durchführen eines Vorabrufs von Daten und Laden der Daten in einen Cache-Speicher als Reaktion auf den Speichertransaktionshinweis, der eine Lesevorgangstransaktion anzeigt, das Durchführen eines Vorabrufs der Eigentümerschaft und von Daten als Reaktion auf den Speichertransaktionshinweis, der eine atomare Operation oder eine cachebare Operation anzeigt, aufweist.
Beispiel 22 kann den Gegenstand von einem der Beispiele 17-21 beinhalten, wobei der Optimierungsprozess das Initialisieren einer gekennzeichneten Speicherseite aufweist, die vorbestimmte Merkmale aufweist.
Beispiel 23 kann den Gegenstand von Beispiel 22 beinhalten, wobei das Initialisieren der gekennzeichneten Speicherseite das Aktualisieren von Metadaten, die mit der Seite in dem Speicher gespeichert sind, umfasst.
Beispiel 24 kann den Gegenstand von Beispiel 23 beinhalten, wobei das Aktualisieren von Metadaten das Hinzufügen von Fähigkeiten zu der Seite umfasst, wobei die Fähigkeiten Sicherheitsfunktionen für die Speichertransaktion umfassen.
Beispiel 25 ist ein Verfahren, das bei einer Vorrichtung durchgeführt wird, die durch eine Peripheral Component Interconnect Express (PCIe)-konforme Verbindung an einen Root-Complex angeschlossen ist, wobei das Verfahren das Bestimmen einer bevorstehenden Speichertransaktion unter Verwendung eines Speichers, der an den Root-Complex angeschlossen ist; das Festlegen eines Hinweisanzeigebits in einem ersten reservierten Bit eines Datenpakets; das Festlegen eines Speichertransaktionsbits in einem zweiten reservierten Bit des Datenpakets; das Übertragen des Datenpakets zu dem Root-Complex über die PCIe-konforme Verbindung umfasst.
Beispiel 26 kann den Gegenstand von Beispiel 25 beinhalten und kann auch das Festlegen von anderen reservierten Bits zum Hinzufügen von Granularität zu der Speichertransaktionsanzeige beinhalten.
Beispiel 27 ist eine Root-Complex-Struktur, wobei die Root-Complex-Struktur mit einem Prozessor und einem Speicher gekoppelt ist, wobei die Root-Complex-Struktur an mehrere angeschlossene Vorrichtungen durch eine Schaltstruktur, die mit dem PCIe-Protokoll konform ist, angeschlossen ist. Der Root-Complex kann eine Logik beinhalten, die zumindest zum Teil in Hardware implementiert ist, um von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung ein Datenpaket zu empfangen; anhand der empfangenen Vorrichtung ein Speichertransaktionshinweisbit zu kennzeichnen; eine Speichertransaktion anhand des Speichertransaktionshinweisbits zu bestimmen; und einen Optimierungsprozess auf Grundlage zumindest zum Teil der bestimmten Speichertransaktion durchzuführen.
Beispiel 28 kann den Gegenstand von Beispiel 27 beinhalten, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Hinweisanzeigebit in dem Datenpaket kennzeichnet, wobei das Hinweisanzeigebit anzeigt, dass ein Hinweisbit in dem Datenpaket festgelegt ist.
Beispiel 29 kann den Gegenstand von einem der Beispiele 27-28 beinhalten, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Speichertransaktionshinweisbit durch Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits kennzeichnet; und bestimmt, dass das vorbestimmte Bit eine bevorstehende Speichertransaktion anzeigt.
Beispiel 30 kann den Gegenstand von einem der Beispiele 27-29 beinhalten, wobei der Optimierungsprozess das Durchführen eines Cachingverhaltensoptimierungsprozesses aufweist.
Beispiel 31 kann den Gegenstand von Beispiel 30 beinhalten, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft als Reaktion auf den Speichertransaktionshinweis, der einen Streaming-Schreibvorgang anzeigt, das Durchführen eines Vorabrufs von Daten und Laden der Daten in einen Cache-Speicher als Reaktion auf den Speichertransaktionshinweis, der eine Lesevorgangstransaktion anzeigt, das Durchführen eines Vorabrufs der Eigentümerschaft und von Daten als Reaktion auf den Speichertransaktionshinweis, der eine atomare Operation oder eine cachebare Operation anzeigt, aufweist.
Beispiel 32 kann den Gegenstand von einem der Beispiele 27-31 beinhalten, wobei der Optimierungsprozess das Initialisieren einer gekennzeichneten Speicherseite aufweist, die vorbestimmte Merkmale aufweist.
Beispiel 33 kann den Gegenstand von Beispiel 32 beinhalten, wobei das Initialisieren der gekennzeichneten Speicherseite das Aktualisieren von Metadaten, die mit der Seite in dem Speicher gespeichert sind, umfasst.
Beispiel 34 kann den Gegenstand von Beispiel 33 beinhalten, wobei das Aktualisieren von Metadaten das Hinzufügen von Fähigkeiten zu der Seite umfasst, wobei die Fähigkeiten Sicherheitsfunktionen für die Speichertransaktion umfassen.

Claims

Verfahren zum Durchführen eines Datenvorabrufs bei einem Cache-Speicher, wobei das Verfahren von einem Root-Complex durchgeführt wird, der mit einem Peripheral Component Interconnect Express (PCIe) -Protokoll konform ist, wobei das Verfahren Folgendes umfasst: Empfangen von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung eines Datenpakets; Kennzeichnen anhand des empfangenen Datenpakets eines Speichertransaktionshinweisbits; Bestimmen einer Speichertransaktion anhand des Speichertransaktionshinweisbits; und Durchführen eines Optimierungsprozesses auf Grundlage zumindest zum Teil der bestimmten Speichertransaktion.
Verfahren nach Anspruch 1, ferner umfassend das Kennzeichnen eines Hinweisanzeigebits in dem Datenpaket, wobei das Hinweisanzeigebit anzeigt, dass ein Hinweisbit in dem Datenpaket festgelegt ist.
Verfahren nach Anspruch 2, wobei das Kennzeichnen eines Hinweisanzeigebits in dem Datenpaket das Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits und das Bestimmen, dass das vorbestimmte Bit anzeigt, dass ein Hinweisbit festgelegt ist, umfasst.
Verfahren nach Anspruch 1, wobei das Kennzeichnen eines Speichertransaktionshinweisbits das Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits; und das Bestimmen, dass das vorbestimmte Bit eine bevorstehende Speichertransaktion anzeigt, umfasst.
Verfahren nach Anspruch 1, wobei das empfangene Datenpaket ein Adressübersetzungsdienstanfragepaket aufweist.
Verfahren nach Anspruch 5, wobei das Speichertransaktionshinweisbit einen Paketort, der durch DW0.byte3.bits[2:0] definiert ist, belegt.
Verfahren nach Anspruch 5, ferner umfassend das Kennzeichnen von Speicheradressenortsinformationen anhand des empfangenen Datenpakets, wobei die Speicheradressenortsinformationen eine Gruppe von reservierten Bits belegen, die durch DW3, Byte 3, Bits [7:3] und DW3, Byte 2, Bits [2:0] definiert ist.
Verfahren nach Anspruch 1, wobei das empfangene Datenpaket ein Null-Längen-Schreibvorgang-Paket aufweist.
Verfahren nach Anspruch 8, wobei das Speichertransaktionshinweisbit ungenutzte untere Adressbits des Null-Längen-Schreibvorgang-Datenpakets belegt.
Verfahren nach Anspruch 1, wobei das Durchführen des Optimierungsprozesses das Durchführen eines Cachingverhaltensoptimierungsprozesses umfasst.
Verfahren nach Anspruch 10, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft als Reaktion auf den Speichertransaktionshinweis, der einen Streaming-Schreibvorgang anzeigt, aufweist.
Verfahren nach Anspruch 10, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs von Daten und Laden der Daten in einen Cache-Speicher als Reaktion auf den Speichertransaktionshinweis, der eine Lesevorgangstransaktion anzeigt, aufweist.
Verfahren nach Anspruch 10, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft und von Daten als Reaktion auf den Speichertransaktionshinweis, der eine atomare Operation oder eine cachebare Operation anzeigt, aufweist.
Verfahren nach Anspruch 10, wobei das Durchführen des Optimierungsprozesses das Initialisieren einer gekennzeichneten Speicherseite umfasst, die vorbestimmte Merkmale aufweist.
Verfahren nach Anspruch 14, wobei das Initialisieren der gekennzeichneten Speicherseite das Aktualisieren von Metadaten, die mit der Seite in dem Speicher gespeichert sind, umfasst.
Verfahren nach Anspruch 15, wobei das Aktualisieren von Metadaten das Hinzufügen von Fähigkeiten zu der Speicherseite umfasst, wobei die Fähigkeiten Sicherheitsfunktionen für die Speichertransaktion umfassen.
Computerprogramm, das greifbar in nichtflüchtigen computerlesbaren Medien verkörpert ist, wobei das Computerprogrammprodukt Code aufweist, der, wenn er ausgeführt wird, bewirkt, dass ein Root-Complex-Hardware-Element Folgendes durchführt: Empfangen von einer Vorrichtung, die an den Root-Complex angeschlossen ist, über eine PCIe-konforme Verbindung eines Datenpakets; Kennzeichnen anhand des empfangenen Datenpakets eines Speichertransaktionshinweisbits; Bestimmen einer Speichertransaktion anhand des Speichertransaktionshinweisbits; und Durchführen eines Optimierungsprozesses auf Grundlage zumindest zum Teil der bestimmten Speichertransaktion.
Computerprogrammprodukt nach Anspruch 17, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Hinweisanzeigebit in dem Datenpaket kennzeichnet, wobei das Hinweisanzeigebit anzeigt, dass ein Hinweisbit in dem Datenpaket festgelegt ist.
Computerprogrammprodukt nach Anspruch 17, wobei der Code, wenn er ausgeführt wird, bewirkt, dass der Root-Complex ein Speichertransaktionshinweisbit durch Lesen eines vorbestimmten Bits aus einer Gruppe von reservierten Bits kennzeichnet; und bestimmt, dass das vorbestimmte Bit eine bevorstehende Speichertransaktion anzeigt.
Computerprogrammprodukt nach Anspruch 17, wobei der Optimierungsprozess das Durchführen eines Cachingverhaltensoptimierungsprozesses umfasst.
Computerprogrammprodukt nach Anspruch 20, wobei der Cachingverhaltensoptimierungsprozess das Durchführen eines Vorabrufs der Eigentümerschaft als Reaktion auf den Speichertransaktionshinweis, der einen Streaming-Lesevorgang anzeigt, das Durchführen eines Vorabrufs von Daten und Laden der Daten in einen Cache-Speicher als Reaktion auf den Speichertransaktionshinweis, der eine Lesevorgangstransaktion anzeigt, das Durchführen eines Vorabrufs der Eigentümerschaft und von Daten als Reaktion auf den Speichertransaktionshinweis, der eine atomare Operation oder eine cachebare Operation anzeigt, aufweist.
Computerprogrammprodukt nach Anspruch 17, wobei der Optimierungsprozess das Initialisieren einer gekennzeichneten Speicherseite aufweist, die vorbestimmte Merkmale aufweist.
Computerprogrammprodukt nach Anspruch 22, wobei das Initialisieren der gekennzeichneten Speicherseite das Aktualisieren von Metadaten, die mit der Seite in dem Speicher gespeichert sind, umfasst.
Computerprogrammprodukt nach Anspruch 23, wobei das Aktualisieren von Metadaten das Hinzufügen von Fähigkeiten zu der Seite umfasst, wobei die Fähigkeiten Sicherheitsfunktionen für die Speichertransaktion umfassen.
Verfahren, das bei einer Vorrichtung durchgeführt wird, die durch eine Peripheral Component Interconnect Express (PCIe)-konforme Verbindung an einen Root-Complex angeschlossen ist, wobei das Verfahren Folgendes umfasst: Bestimmen einer bevorstehenden Speichertransaktion unter Verwendung eines Speichers, der an den Root-Complex angeschlossen ist; Festlegen eines Hinweisanzeigebits in einem ersten reservierten Bit eines Datenpakets; Festlegen eines Speichertransaktionsbits in einem zweiten reservierten Bit des Datenpakets; und Übertragen des Datenpakets zu dem Root-Complex über die PCIe-konforme Verbindung.