DE102009061252B3 - Vorrichtung, Verfahren und System zur Verarbeitung einer Transaktion auf einem PCI-Bus mittels eines Root-Komplexes - Google Patents

Vorrichtung, Verfahren und System zur Verarbeitung einer Transaktion auf einem PCI-Bus mittels eines Root-Komplexes Download PDF

Info

Publication number
DE102009061252B3
DE102009061252B3 DE102009061252.1A DE102009061252A DE102009061252B3 DE 102009061252 B3 DE102009061252 B3 DE 102009061252B3 DE 102009061252 A DE102009061252 A DE 102009061252A DE 102009061252 B3 DE102009061252 B3 DE 102009061252B3
Authority
DE
Germany
Prior art keywords
execution
ordering
request
particular transaction
relaxed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102009061252.1A
Other languages
English (en)
Inventor
David Harriman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Application granted granted Critical
Publication of DE102009061252B3 publication Critical patent/DE102009061252B3/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1605Handling requests for interconnection or transfer for access to memory bus based on arbitration
    • G06F13/161Handling requests for interconnection or transfer for access to memory bus based on arbitration with latency improvement
    • G06F13/1626Handling requests for interconnection or transfer for access to memory bus based on arbitration with latency improvement by reordering requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Systems (AREA)
  • Multi Processors (AREA)
  • Memory System (AREA)
  • Bus Control (AREA)
  • Power Sources (AREA)

Abstract

Vorrichtung, umfassend:einen ersten in einem Root-Complex integrierten Endpunkt (root complex integrated endpoint, RCIE), wobei der erste RCIE in dem Root-Complex integriert ist, und wobei der erste RCIE eingerichtet ist zum:Empfangen einer Anfrage in einer bestimmten Transaktion über einen Interconnect mit einer oder mehreren seriellen Punkt-zu-Punkt-Verbindungen, wobei die Anfrage einen Header mit einem oder mehreren Feldern zum Identifizieren eines Anfragers umfasst;Identifizieren, ob ein Ordnungsattribut in der Anfrage gesetzt wurde, um anzuzeigen, dass gelockerte Ordnung auf die bestimmte Transaktion angewendet werden soll; undBestimmen einer Gelegenheit zum Anwenden von gelockerter Ordnung auf die Ausführung der bestimmten Transaktion, wobei die bestimmte Transaktion einen Lesezugriff enthält und die gelockerte Ordnung ermöglicht, dass bei der Ausführung ein Schreibzugriff übergeben wird, der einen zweiten RCIE enthält, der in dem Root-Complex integriert ist; undErzeugen einer Ausführung für die bestimmte Transaktion.

Description

  • Technisches Gebiet
  • Die Erfindung liegt auf dem Gebiet der Verarbeitung von Transaktionen auf einem PCI-Bus mittels eines Root-Komplexes.
  • Hintergrund
  • Peripheral Component Interconnect (PCI) ist eine parallele Busarchitektur der zweiten Generation, die 1992 als Ersatz für den Industry Standard Architecture-Bus (ISA-Bus) entwickelt wurde. Beim PCI-Standard teilen sich alle Geräte denselben bidirektionalen, parallelen 32-Bit-Signalweg (oder 64-Bit-Signalweg). Der PCI-Bus bietet Vorteile gegenüber dem ISA-Bus, darunter Prozessorunabhängigkeit, gepufferte Isolation, Bus-Mastering sowie echten Plug-and-Play-Betrieb. PCI Express (PCIe) ist eine universelle serielle Ein-/Ausgabe-(I/O - Input/Output)-Verbindung der dritten Generation, die dafür konzipiert ist, den PCI-Bus zu ersetzen. PCIe ist weniger als ein Bus zu sehen, sondern ist eher um serielle Punkt-zu-Punkt-Verbindungen herum strukturiert, die als „Lanes“ bezeichnet werden.
  • Die serielle Punkt-zu-Punkt-Verbindungsarchitektur von PCIe eignet sich gut für verteilte Datenverarbeitung mittels eines verteilten Mehrprozessor-Architektur-Modells. Verteilte Prozessoren sind im Allgemeinen dafür optimiert, Datenpaket-Verarbeitungsfunktionen zu realisieren. Anders als bei universellen Zentralprozessoren (Central Processing Units, CPUs), die zur Leistungssteigerung sehr auf Caching angewiesen sind, fehlt bei verteilten Prozessoren der lokale Aspekt bei der Paketverarbeitung sowie der Bedarf an leistungsstarker Ein-/Ausgabe (I/O), der Designer dazu motiviert hat, innovative Architekturen zu entwickeln, um die Verarbeitungslatenz bei gleichzeitiger Paketverarbeitung mit hohen Datenraten zu reduzieren.
  • Derzeit müssen Transaktionsordnungsattribute in einem PCIe und ähnlichen Verbindungen von dem Anfrager gesetzt werden. Da die Host-CPUs eine allgemeine Ressource sind, sind sie typischerweise nicht in der Lage, Ordnungsattribute gemäß den spezifischen Anforderungen der geleisteten Aktivität zu setzen und müssen auf den kleinsten gemeinsamen Nenner zurückgreifen, was zu geringer Leistung führt. Lesezugriffe von der CPU auf die I/O sind oftmals die kritischsten Systemtransaktionen bezüglich der Leistung, da ein CPU-Kern blockieren kann, während er auf das Ergebnis wartet. Eine Leistungssteigerung solcher Lesezugriffe führt daher direkt zu einer Steigerung der Gesamtleistung des Systems, indem CPU-Ressourcen für andere, nützlichere Arbeiten freigegeben werden.
  • In „PCI-SIG: Engineering Change Notice ,ID-Based Orderung`,29. Mai 2008“ wird die Übergabe einer ausgelösten Anforderung (Posted Request), falls sich eine Abschluss-ID (Completer ID) von einer Anfrage-ID (Requester ID) der Anforderung unterscheidet, offenbart. Ferner sind Abschluss-Kopfinformationen (Completion headers) offenbart, die die gleichen Attributwerte aufweisen wie diejenigen einer entsprechenden Anforderung. Eine Verarbeitungseinheit (Completer) setzt einen bestimmten Parameter IDO, wenn wenn ein entsprechendes Bit gesetzt ist. Der Parameter IDO gibt an, ob die Attributwerte der Abschluss-Kopfinformationen mit denen der Anforderung identisch sein müssen.
  • Der hier offenbarten Erfindung liegt die Aufgabe zugrunde, Lesezugriffe auf einem Bussystem zu optimieren. Diese Aufgabe wird durch die nebengeordneten Ansprüche gelöst.
  • Figurenliste
  • Am besten ist die Erfindung zu verstehen, wenn auf die folgende Beschreibung und die sie begleitenden Zeichnungen, die die Ausführungsformen der Erfindung veranschaulichen, Bezug genommen wird.
    • 1 ist eine schematische Veranschaulichung eines PCIe Request Header, die das Attribut für die gelockerte Ordnung veranschaulicht.
    • 2 ist eine schematische Veranschaulichung eines PCIe Completion Header, die das Attribut für die gelockerte Ordnung veranschaulicht.
    • 3 ist eine schematische Veranschaulichung einer erfindungsgemäßen Ausführungsform.
    • 4 ist eine schematische Veranschaulichung einer weiteren erfindungsgemäßen Ausführungsform.
  • Ausführliche Beschreibung
  • Werden in der Beschreibung und den Ansprüchen die Singularformen „ein“, „eine“ und „der“, „die“, „das“ verwendet, schließen diese den Plural mit ein, sofern der Kontext nicht ausdrücklich etwas anderes vorgibt. Ein „Root-Complex“ („RC“) ist ein PCI-Express-Baugruppe, die einen Zentralprozessor („CPU“ oder „Prozessor“) und einen Speicher mit der PCI Express-Switch-Fabric verbindet. Der Root-Complex erzeugt für den Prozessor Transaktionsanfragen. Ein „Anfrager“ ist jedes Gerät, das eine Anfrage stellt. Ein „Ausführer“ ist jede Einheit, die eine Anfrage bedient. Ein „Intermediate“ ist jedes Gerät, wie beispielsweise ein Switch, zwischen dem Anfrager und dem Ausführer. Typischerweise leiten Intermediates die Anfrage lediglich weiter. „Upstream“ wie in der Beschreibung und den Ansprüchen verwendet, zeigt einen Fluss in Richtung des Root-Complexes an. „Downstream“ zeigt einen Fluss weg von dem Root-Complex an. Eine „Region“ ist ein Teil des Speichers, der durch eine Adresse oder viele verschiedene Adressen definiert ist. Ein Gerät könnte beispielsweise verschiedene Verhalten für Regionen verlangen, wobei die eine Region zur Speicherung von Anweisungen an das Gerät verwendet wird, und die andere Region für Daten verwendet wird, die von dem Gerät erzeugt oder verarbeitet werden.
  • Erfindungsgemäße Ausführungsformen beschreiben, wie ein Teil der Leistung, die aufgrund einer unnötig strikten Ordnung verloren ging, für Lesezugriffe von der CPU auf das I/O-Gerät zurückgewonnen werden kann, indem das I/O-Gerät die Ordnungsattribute der Ausführung basierend auf dem Verstehen des Geräts der Transaktions-spezifischen Anforderungen modifiziert. Als Beispiel für das Problem der strikten Ordnung muss man berücksichtigen, dass wenn ein Lesezugriff, dessen Ausführung anfangs 2 µs dauert, auf 1 µs verbessert werden kann, die Differenz von 1 µs an den Kern „zurückgegeben“ werden kann, um nützliche Arbeit zu erledigen - genug Zeit, um viele Tausend Anweisungen auszuführen. Derzeit treten häufig Latenzzeiten bei Lesezugriffen von der CPU auf das I/O-Gerät von 0,6 µs bis zu mehreren µs auf. Bei großen Systemen können Latenzzeiten für herkömmlich geordnete Lesezugriffe von der CPU auf das I/O-Gerät von 4 µs auftreten. Ein Großteil dieser Verzögerung wird durch die herkömmliche Ordnungsanforderung hervorgerufen, die es Ausführungen verbietet, Schreibzugriffe zu umgehen. Da der Schreibzugriff Traffic von I/O-Geräten zum Hauptspeicher oft sehr hoch ist, sind Lesezugriffsausführungen zu der CPU oft einfach durch die Warteschlangenverzögerungen, die durch diese vielen Schreibzugriffe verursacht werden, verzögert.
  • PCIe und ähnliche Kopplungsstrukturen assoziieren Ordnungsattribute mit Transaktionen, um eine optimierte Handhabung zu ermöglichen. Im Falle des PCI/PCIe beispielsweise erfordern die Standardregeln für die Ordnung als Korrektheitsanforderung des PCI Erzeuger/Verbraucher-Ordnungsmodells, dass Lesezugriffsausführungen auf alle vorher ausgegebenen Schreibzugriffe warten, die in die gleiche Richtung fließen. Dieses Modell ist jedoch zumeist allzu konservativ. Im Allgemeinen ist es beispielsweise notwendig, die Schreibzugriffe des I/O-Geräts in den Hauptspeicher zu flushen, bevor eine Datenstruktur gelesen wird, die den Status eines I/O-Geräts beschreibt. Das Flushen des Schreibzugriffs eines Gerätes wird oft durchgeführt, indem die CPU aus dem Gerät liest. Sobald jedoch der Lesezugriff zum Flushen ausgeführt ist, müssen zusätzliche Lesezugriffe bezüglich des Gerätestatus typischerweise nicht gegen Upstream-Schreibzugriffe geordnet sein. Ferner ist es im Allgemeinen nicht notwendig, den Lesezugriff der CPU gegen Upstream-Schreibzugriffe von Geräten ohne Beziehung zueinander zu ordnen, auch wenn die PCI/PCIe-Standardregeln für die Ordnung dieses Verhalten erfordern.
  • Typischerweise gibt es für die Host-CPU keine Möglichkeit zu wissen, wie sie Lesezugriffsanfragen markieren soll, um die erforderlichen Ordnungsattribute anzugeben. Typischerweise weiß das I/O-Gerät jedoch, welche Regionen eine herkömmliche Ordnung erfordern und welche nicht. Die Ordnungsanforderungen können stark von Gerät zu Gerät variieren, von einem Register innerhalb eines Gerätes zu einem anderen Register in dem gleichen Gerät und sogar für ein Register, je nachdem, wie auf das Register zugegriffen wird. Das Wissen der Ordnungsanforderungen könnte theoretisch über auf dem Host laufende Gerätetreibersoftware weitergegeben werden, aber die meisten aktuellen Architektur-CPUs stellen keinen Mechanismus dafür bereit. Typischerweise besitzt das I/O-Gerät selbst jedoch das Wissen der Ordnungsanforderungen. Das I/O-Gerät kann die CPU jedoch nicht auf Geräteanfrage markieren - dieser Teil der Transaktion muss durchgeführt werden unter der Annahme, dass die konservativsten Ordnungsanforderungen gelten, falls nicht ein anderer Mechanismus für eine anderweitige Anzeige verwendet wird.
  • In vielen Fällen verursachen die auf der Ausführung angeordneten Ordnungsanforderungen signifikante Blockierungen. Mit den erfindungsgemäßen Systemen und Verfahren kann jedoch die Ordnungsanforderung durch das I/O-Gerät markiert werden, um gegebenenfalls die Ordnungsanforderung zu lockern. Die Ordnungsanforderung hängt von der implementierenden Architektur ab. Bei einer erfindungsgemäßen Ausführungsform ist die Architektur PCIe. PCIe-Geräte haben bereits Zugriff auf ein Ordnungsattribut namens „gelockerte Ordnung“ (Relaxed Ordering - RO).
  • 1 zeigt die Position des RO-Bits in dem PCIe Request Header. Das RO-Bit in der Anfrage ist typischerweise auf 0 gesetzt, es sei denn, es gibt einen Mechanismus, der Informationen für die CPU bereitstellt, damit diese nachvollziehen kann, welche Anfragen es ermöglichen könnten, das RO-Bit zu setzen. Gemäß vorliegender PCIe-Regeln, werden das RO-Bit (und damit verbundene Ordnungsimplikationen) einfach durch den Ausführer von der Anfrage- in die Antwortnachricht kopiert. 2 zeigt das entsprechende RO-Bit in dem PCIe Completion Header.
  • Beim heutigen PCI-x/PCIe wird das RO-Bit nur in dem Completion Header gesetzt, wenn es in der entsprechenden Anfrage gesetzt war. Diese Richtlinie ist für Lesezugriffe des Gerätes auf den Hauptspeicher sinnvoll, da man annimmt, dass das Gerät „weiß“, welche Anfragen mit RO markiert werden können und welche nicht. Erfindungsgemäße Ausführungsformen erkennen, dass CPU-Lesezugriffe von einem Gerät für die von dem Gerät zurückgeschickte Antwortnachricht mit RO markiert werden können. Dies ermöglicht es der Ausführung, Schreibzugriffe von Geräten ohne Beziehung zueinander auf den Speicher zu umgehen.
  • 3 zeigt ein Beispiel, wie ein Attribut für die gelockerte Ordnung (in diesem Fall das RO-Bit einer PCI/PCIe-Ausführung) von einem I/O-Gerät gesetzt werden kann. Bei diesem Beispiel beinhaltet das System 100 drei PCI/PCIe-Endpunkte 1, 2, 3. Das System 100 kann jedoch jede beliebige Anzahl an PCI/PCIe-Endpunkten aufweisen. Die ersten beiden PCI/PCIe-Endpunkte 1, 2 verbinden sich mit einem Switch 108 über PCIe-Verbindungen 122. Der Switch 108 verbindet sich mit dem Root-Complex 110 über eine weitere PCIe-Verbindung 122. Der dritte PCI/PCIe-Endpunkt 3 verbindet sich direkt mit dem Root-Complex 110 über eine PCIe-Verbindung 122. Der Root-Complex 110 umfasst einen Ein-/Ausgabe Controller-Hub-Controller (input/output controller hub controller - ICH) 112, einen Speicher-Controller-Hub (memory controller hub - MCH) 114, Hauptspeicher 116 und eine CPU 118. Der Ein-/Ausgabe Controller-Hub-Controller (input/output controller hub controller - ICH) 112 verbindet sich mit dem Speicher-Controller-Hub (memory controller hub - MCH) 114 über ein Desktop Management Interface (DMI) 120.
  • Bei dieser Ausführungsform schreiben die Endpunkte 2 und 3 Daten auf den Hauptspeicher 116. Diese Schreibzugriffe betreffen die Aktivitäten von Endpunkt 1 nicht. Ein CPU-Kern 118 liest von Endpunkt 1. Herkömmliche PCI-Regeln für die Ordnung verbieten es der Ausführung, die Schreibzugriffe auf den Speicher zu umgehen, unter der (allzu konservativen) Annahme, dass diese Schreibzugriffe die gelesenen Daten betreffen könnten. Dieses Verhalten ist von dem PCI Erzeuger/Verbraucher-Modell vorgesehen. Typischerweise „weiß“ Endpunkt 1, ob die von der CPU gelesenen Daten die ausstehenden Schreibzugriffe auf den Speicher betreffen und zeigt RO für die gelesene Ausführung nicht an, wenn es eine Beziehung zu den ausstehenden Schreibzugriffen gibt. In den meisten Fällen „weiß“ Endpunkt 1 jedoch, dass der Lesezugriff keinerlei ausstehende Schreibzugriffe betrifft und in diesem Fall kann Endpunkt 1 die Ausführung sicher für RO markieren.
  • 4 veranschaulicht eine weitere erfindungsgemäße Ausführungsform, bei der die adressierenden Geräte in einen Root-Complex 110 integriert sind. Das System 200 umfasst zwei integrierte Endpunkte 124, 126, die mit einem Ein-/Ausgabe Controller-Hub-Controller (input/output controller hub controller - ICH) 112 verbunden sind. Der Ein-/Ausgabe Controller-Hub-Controller (input/output controller hub controller - ICH) 11 verbindet sich mit einem Speicher-Controller-Hub (memory controller hub - MCH) 114 über ein Desktop Management Interface (DMI) 120. Der Speicher-Controller-Hub (memory controller hub - MCH) 114 verbindet sich mit einer CPU 118 und einem Hauptspeicher 116. Diese Ausführungsform beinhaltet einen einzigen PCI/PCIe-Endpunkt 1. Das System 100 kann jedoch jede beliebige Anzahl an integrierten adressierenden Geräten 124, 126 oder PCI/PCIe-Endpunkten 1 aufweisen.
  • In vielen Fällen werden die integrierten adressierenden Geräte 124, 126 auf sehr wohldefinierte Weise verwendet, und es ist möglich, die Mechanismen zu vereinfachen, die verwendet werden, um zu bestimmen, wann eine Lockerung der Ausführungsordnung zulässig ist. Man beachte, dass die spezifische Handhabung der Ausführungsordnung den PCIe-RO-Anforderungen nicht Folge leisten muss. Dies bedeutet, dass weitere erfindungsgemäße Ausführungsformen einfacher oder differenzierter gestaltet werden können, je nach den/dem gewünschten Kosten/Nutzen.
  • 4 zeigt ein System mit Root-Complex-integrierten Geräten, das an einem Schema zur Lockerung der Ausführungsordnung beteiligt ist. In dem in 4 veranschaulichten System der folgenden Richtlinien oder anderer ähnlicher Richtlinien kann folgendes implementiert werden:
    • • Erkennen, dass CPU-Lesezugriffe von einem integrierten Gerät niemals Ordnungsanforderungen gegen Schreibzugriffe auf den Hauptspeicher von anderen integrierten Geräten haben können
    • • Erkennen, dass CPU-Lesezugriffe von einem integrierten Gerät niemals Ordnungsanforderungen gegen Schreibzugriffe auf den Hauptspeicher von nicht integrierten Geräten haben können
    • • Erkennen, dass CPU-Lesezugriffe von einem nicht integrierten Gerät niemals Ordnungsanforderungen gegen Schreibzugriffe auf den Hauptspeicher von anderen integrierten Geräten haben können
    • • Erkennen, dass CPU-Lesezugriffe von einem nicht integrierten Gerät niemals Ordnungsanforderungen gegen Schreibzugriffe auf den Hauptspeicher von anderen nicht integrierten Geräten haben können
  • Die vorstehenden Beispiele wurden mit dem PCI/PCIe-RO-Attribut veranschaulicht. Die Erfindung ist jedoch nicht auf PCI/PCIe-RO beschränkt. Im allgemeineren Fall kann sich das Ordnungsattribut von der RO unterscheiden. Ferner kann die Art und Weise, wie das Ordnungsattribut ausgedrückt ist, variieren. Es ist ausreichend, dass der Ausführer das Wissen besitzt, zu bestimmen, ob die Ausführungsordnung sicher von dem Standardverhalten modifiziert werden kann. Zusätzlich wurden die vorstehenden Beispiele bezüglich einer Ordnung gegen Upstream-Schreibzugriffe veranschaulicht. Das System ist jedoch symmetrisch. Das heißt, dass das Ordnungsattribut gelockert werden kann, um die Ordnung auch gegen Downstream-Schreibzugriffe zu ändern.
  • Die erfindungsgemäßen Ausführungsformen können eine Leistungssteigerung bereitstellen, die für eine große Anzahl von Computersystemen wünschenswert ist. PCkompatible Architektursysteme sind besonders eingeschränkt, da es Anforderungen hinsichtlich der Unterstützung von Legacy-Hardware und -Software erschweren, Ordnungslockerungen zu implementieren. Der vorstehend beschriebene Mechanismus ist jedoch für PC-Umgebungen gut geeignet.

Claims (29)

  1. Vorrichtung, umfassend: einen ersten in einem Root-Complex integrierten Endpunkt (root complex integrated endpoint, RCIE), wobei der erste RCIE in dem Root-Complex integriert ist, und wobei der erste RCIE eingerichtet ist zum: Empfangen einer Anfrage in einer bestimmten Transaktion über einen Interconnect mit einer oder mehreren seriellen Punkt-zu-Punkt-Verbindungen, wobei die Anfrage einen Header mit einem oder mehreren Feldern zum Identifizieren eines Anfragers umfasst; Identifizieren, ob ein Ordnungsattribut in der Anfrage gesetzt wurde, um anzuzeigen, dass gelockerte Ordnung auf die bestimmte Transaktion angewendet werden soll; und Bestimmen einer Gelegenheit zum Anwenden von gelockerter Ordnung auf die Ausführung der bestimmten Transaktion, wobei die bestimmte Transaktion einen Lesezugriff enthält und die gelockerte Ordnung ermöglicht, dass bei der Ausführung ein Schreibzugriff übergeben wird, der einen zweiten RCIE enthält, der in dem Root-Complex integriert ist; und Erzeugen einer Ausführung für die bestimmte Transaktion.
  2. Vorrichtung nach Anspruch 1, wobei der erste RCIE ein Ordnungsattribut in der Ausführung setzt, um anzuzeigen, dass gelockerte Ordnung auf die Ausführung angewendet werden soll.
  3. Vorrichtung nach Anspruch 1, wobei der Interconnect eine physikalische Schicht zum Unterstützen einer Peripheral Component Interconnect Express (PCIe)-Protokollschicht und/oder eine physikalische Schicht, die eine oder mehrere andere Protokolle enthält, umfasst.
  4. Vorrichtung nach Anspruch 1, wobei der erste RCIE ferner konfiguriert ist, um das Ordnungsattribut zu setzen.
  5. Vorrichtung nach Anspruch 4, wobei die bestimmte Transaktion eine von einer Vielzahl von Transaktionen in einem System ist und vor dem Setzen des Ordnungsattributs die Vielzahl von Transaktionen gemäß einer ersten Reihenfolge auszuführen ist, wobei die bestimmte Transaktion nach einer zweiten Transaktion in der Vielzahl von Transaktionen gemäß der ersten Reihenfolge auszuführen ist, wobei der Schreibzugriff der zweiten Transaktion entspricht, und Anwendung der gelockerten Ordnung auf die bestimmte Transaktion bewirkt, dass die bestimmte Transaktion vor der zweiten Transaktion ausgeführt wird.
  6. Vorrichtung nach Anspruch 5, wobei die bestimmte Transaktion eine Lesetransaktion umfasst und die zweite Transaktion eine Schreibtransaktion umfasst.
  7. Vorrichtung nach Anspruch 6, wobei die bestimmte Transaktion mit einem Lesen von Speicher eines ersten Geräts und Schreiben in Speicher eines anderen I/O-Geräts verbunden ist.
  8. Vorrichtung nach Anspruch 5, wobei die bestimmte Transaktion von dem ersten RCIE ausgeführt wird und die zweite Transaktion von dem zweiten RCIE ausgeführt wird.
  9. Vorrichtung nach Anspruch 1, wobei das Ordnungsattribut ein Feld enthält, das in dem Header der Anfrage enthalten ist.
  10. Vorrichtung nach Anspruch 9, wobei das Ordnungsattributfeld mindestens zwei Bits umfasst.
  11. Vorrichtung nach Anspruch 1, wobei die Anfrage anzeigt, dass die gelockerte Ordnung nicht gesetzt worden ist.
  12. Vorrichtung nach Anspruch 1, wobei der erste RCIE ferner konfiguriert ist, um eine Ausführung zu erzeugen, wobei das Ordnungsattribut gesetzt ist, um anzuzeigen, dass gelockerte Ordnung auf die Ausführung der bestimmte Transaktion anzuwenden ist; und die Ausführung zum Anfrager über den Interconnect zu senden.
  13. Vorrichtung nach Anspruch 12, wobei die Ausführung einen Header mit einem Feld eines gelockerten Ordnungsattributs enthält.
  14. Vorrichtung nach Anspruch 13, wobei der Ausführungs-Header ein Routing-Identifier-Feld enthält, das den Anfrager identifiziert.
  15. Vorrichtung nach Anspruch 14, wobei Werte des Routing-Identifier-Feldes im Wesentlichen mit Werten übereinstimmen, die in dem Header der Anfrage enthalten sind.
  16. Vorrichtung nach Anspruch 13, wobei der Ausführungs-Header ferner einen Completer-Identifier, der dem Gerät entspricht, und einen Ausführungsstatusidentifizierer enthält.
  17. Vorrichtung nach Anspruch 1, wobei die bestimmte Transaktion eine von einer Vielzahl von Transaktionen in einem System ist und Bestimmen einer Gelegenheit zum Setzen des Ordnungsattributs Bestimmen, dass die Ausführung der bestimmten Transaktion die Ausführung von anderen Transaktionen in der Vielzahl von Transaktionen nicht stören würde, enthält.
  18. Vorrichtung, umfassend: einen in einem Root-Complex integrierten Endpunkt (root complex integrated endpoint, RCIE), eingerichtet zum: Bestimmen aus einer Anfrage in einer bestimmten Transaktion, dass gelockerte Ordnung auf eine Ausführung angewendet werden soll, die der Anfrage entspricht, wobei die Ausführung eine Ausführung für eine Leseanfrage enthält und die gelockerte Ordnung ermöglicht, dass die Ausführung eine Ausführung von Schreibausführungen eines anderen RCIE übergibt; Zusammensetzen der Ausführung mit einem Header, wobei der Header ein Gelockerte-Ordnung-Feld, ein Completer-Identifier-Feld und ein Ausführungsstatusfeld enthält; und Senden der Ausführung zu einem Gerät über einen Interconnect, wobei die Ausführung einer mit dem Gerät verbundenen Anfrage entspricht.
  19. Vorrichtung nach Anspruch 18, wobei der Interconnect eine physikalische Schicht zum Unterstützen einer Peripheral Component Interconnect Express (PCIe)-Protokollschicht und/oder einer physikalischen Schicht, die ein oder mehrere andere Protokolle enthält, umfasst.
  20. Vorrichtung nach Anspruch 18, wobei der Interconnect einen PCIe-konformen Interconnect umfasst.
  21. Vorrichtung, umfassend: einen ersten Root Complex Integrated Endpunkt (RCIE) zum: Empfangen einer Anfrage von einem Anfrager über einen Interconnect, wobei die Anfrage eine I/O-Leseanfrage umfasst; Identifizieren anhand eines Ordnungsattributfelds eines Headers der Anfrage, ob gelockerte Ordnung auf die Ausführung der Anfrage anzuwenden ist; und Erzeugen einer Ausführung für die bestimmte Transaktion, wobei die Ausführung einen Ausführungs-Header, der ein Ordnungsattributfeld, das gesetzt ist, um anzuzeigen, dass gelockerte Ordnung auf die Ausführung anzuwenden ist, einen Completer Identifier, einen Ausführungsstatusidentifizierer und einen Routing Identifier enthält; wobei die besondere Transaktion in einer Vielzahl von Transaktionen enthalten ist und Anwenden von gelockerter Ordnung auf die Ausführung der bestimmten Transaktion bewirkt, dass die Ausführung der bestimmten Transaktion vor mindestens einer in der Vielzahl von Transaktionen enthaltenen Speicherlesetransaktion ausgeführt wird.
  22. Verfahren, umfassend: Empfangen einer Anfrage einer bestimmten Transaktion über einen Interconnect, wobei die bestimmte Transaktion eine Anfrage und die Anfrage von einem Anfrager ist; Identifizieren anhand der Anfrage, dass ein Ordnungsattribut in der Anfrage anzeigt, dass gelockerte Ordnung nicht auf die besondere Transaktion anzuwenden ist; und Bestimmen einer Gelegenheit, um das Ordnungsattribut zu setzen, um gelockerte Ordnung auf die bestimmte Transaktion anzuwenden anhand einer Bestimmung, ob wenigstens eines von ein oder mehreren Geräten einen in einem Root-Complex integrierten Endpunkt (root complex integrated endpoint, RCIE) umfasst, und ferner anhand einer Bestimmung, ob die bestimmte Transaktion einen Lesezugriff umfasst; und Erzeugen einer Ausführung, wobei das Ordnungsattribut gesetzt ist, um anzuzeigen, dass gelockerte Ordnung auf die bestimmte Transaktion, anzuwenden ist, basierend zumindest teilweise auf der Gelegenheit, wobei Ordnungsregeln des Interconnects Schreibausführungen vor Leseausführungen ordnen und wobei gelockerte Ordnung einer Ausführung des Lesezugriffs ermöglicht, eine Ausführung eines oder mehrerer Schreibzugriffe durch wenigstens einen anderen RCIE zu übergeben.
  23. Verfahren nach Anspruch 22, wobei die bestimmte Transaktion eine von einer Vielzahl von Transaktionen in einem System ist und Bestimmen einer Gelegenheit zum Setzen des Ordnungsattributs Bestimmen, dass die Ausführung der bestimmten Transaktion nicht die Ausführung anderer Transaktionen in der Vielzahl von Transaktionen stören würde, enthält.
  24. Verfahren nach Anspruch 23, wobei ohne gelockerte Ordnung der bestimmten Transaktion die Vielzahl von Transaktionen gemäß einer ersten Reihenfolge auszuführen ist, und Anwenden von gelockerter Ordnung auf die bestimmte Transaktion bewirkt, dass die Vielzahl von Transaktionen in einer anderen zweiten Reihenfolge ausgeführt wird.
  25. Verfahren nach Anspruch 22, wobei Erzeugen der Ausführung Zusammenfügen eines Headers enthält, der ein Ordnungsattributfeld enthält, das gesetzt ist, um anzuzeigen, dass gelockerte Ordnung auf die bestimmte Transaktion anzuwenden ist.
  26. Verfahren nach Anspruch 22, ferner umfassend Senden der Ausführung zum Anfrager über den Interconnect.
  27. System, umfassend: ein erstes Gerät; ein zweites Gerät, das einen in einem Root-Complex integrierten Endpunkt (root complex endpoint, RCIE) enthält, wobei der RCIE ein I/O-Modul enthält, das von mindestens einem Prozessor ausgeführt wird, um: eine Anfrage von dem ersten Gerät über einen Interconnect zu empfangen, wobei die Anfrage einer Lesetransaktion entspricht; anhand der Anfrage zu bestimmen, ob ein Ordnungsattribut in der Anfrage gesetzt wurde, um anzuzeigen, dass gelockerte Ordnung auf eine Ausführung der Anfrage anzuwenden ist, wobei die gelockerte Ordnung der Ausführung ermöglicht, wenigstens eine Schreibausführung durch einen anderen RCIE zu ermöglichen, der in dem Root-Complex integriert ist; die Ausführung zu erzeugen, wobei die Ausführung ein Ordnungsattribut enthält, das gesetzt ist, um anzuzeigen, dass gelockerte Ordnung auf die Ausführung anzuwenden ist; und die Ausführung zum ersten Gerät über den Interconnect zu senden.
  28. System nach Anspruch 27, wobei die Anfrage anzeigt, dass gelockerte Ordnung nicht gesetzt worden ist.
  29. System nach Anspruch 27, ferner umfassend einen Root-Complex.
DE102009061252.1A 2008-10-15 2009-10-12 Vorrichtung, Verfahren und System zur Verarbeitung einer Transaktion auf einem PCI-Bus mittels eines Root-Komplexes Active DE102009061252B3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/252,303 US8108584B2 (en) 2008-10-15 2008-10-15 Use of completer knowledge of memory region ordering requirements to modify transaction attributes
US12/252,303 2008-10-15

Publications (1)

Publication Number Publication Date
DE102009061252B3 true DE102009061252B3 (de) 2023-04-20

Family

ID=41462384

Family Applications (2)

Application Number Title Priority Date Filing Date
DE102009049078.7A Active DE102009049078B4 (de) 2008-10-15 2009-10-12 Verwendung von Ausführer-Wissen über Speicherregion-Ordnungsanforderungen zum Modifizieren von Transaktionsattributen
DE102009061252.1A Active DE102009061252B3 (de) 2008-10-15 2009-10-12 Vorrichtung, Verfahren und System zur Verarbeitung einer Transaktion auf einem PCI-Bus mittels eines Root-Komplexes

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE102009049078.7A Active DE102009049078B4 (de) 2008-10-15 2009-10-12 Verwendung von Ausführer-Wissen über Speicherregion-Ordnungsanforderungen zum Modifizieren von Transaktionsattributen

Country Status (6)

Country Link
US (2) US8108584B2 (de)
JP (3) JP5479020B2 (de)
CN (2) CN101727413B (de)
DE (2) DE102009049078B4 (de)
GB (1) GB2464403B (de)
TW (2) TWI548997B (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108584B2 (en) * 2008-10-15 2012-01-31 Intel Corporation Use of completer knowledge of memory region ordering requirements to modify transaction attributes
US8402195B2 (en) * 2009-10-27 2013-03-19 Hitachi, Ltd. Storage system mounted with plurality of processors
CN104081722B (zh) * 2012-01-13 2018-05-22 英特尔公司 SoC构造中的高效对等通信支持
US9129071B2 (en) * 2012-10-24 2015-09-08 Texas Instruments Incorporated Coherence controller slot architecture allowing zero latency write commit
KR102065664B1 (ko) 2013-08-09 2020-01-13 삼성전자 주식회사 메모리 장치의 열화 상태 추정 방법 및 이를 이용한 메모리 시스템에서의 웨어 레벨링 방법
US9569362B2 (en) * 2014-11-13 2017-02-14 Cavium, Inc. Programmable ordering and prefetch
US10013385B2 (en) 2014-11-13 2018-07-03 Cavium, Inc. Programmable validation of transaction requests
US10007619B2 (en) * 2015-05-29 2018-06-26 Qualcomm Incorporated Multi-threaded translation and transaction re-ordering for memory management units
US10127968B2 (en) * 2015-08-03 2018-11-13 Intel Corporation Method and apparatus for completing pending write requests to volatile memory prior to transitioning to self-refresh mode
US10223307B2 (en) * 2017-06-15 2019-03-05 International Business Machines Corporation Management of data transaction from I/O devices
US10353833B2 (en) * 2017-07-11 2019-07-16 International Business Machines Corporation Configurable ordering controller for coupling transactions
CN110688332B (zh) * 2019-09-12 2021-01-15 无锡江南计算技术研究所 一种面向高速消息传输的pcie数据传输系统及计算机
US11762785B2 (en) * 2021-05-03 2023-09-19 Mellanox Technologies, Ltd. Peripheral component interconnect attributes shared using address bits

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3255908B2 (ja) * 1988-06-30 2002-02-12 エルジー・セミコン・カンパニー・リミテッド メモリー制御ユニット
GB2230120B (en) * 1989-04-07 1992-12-02 Intel Corp Read/write ordering apparatus and method for a microprocessor
US5418940A (en) * 1993-08-04 1995-05-23 International Business Machines Corporation Method and means for detecting partial page writes and avoiding initializing new pages on DASD in a transaction management system environment
US5530933A (en) * 1994-02-24 1996-06-25 Hewlett-Packard Company Multiprocessor system for maintaining cache coherency by checking the coherency in the order of the transactions being issued on the bus
US5657472A (en) * 1995-03-31 1997-08-12 Sun Microsystems, Inc. Memory transaction execution system and method for multiprocessor system having independent parallel transaction queues associated with each processor
US5790870A (en) * 1995-12-15 1998-08-04 Compaq Computer Corporation Bus error handler for PERR# and SERR# on dual PCI bus system
US6272600B1 (en) * 1996-11-15 2001-08-07 Hyundai Electronics America Memory request reordering in a data processing system
US5860126A (en) * 1996-12-17 1999-01-12 Intel Corporation Controlling shared memory access ordering in a multi-processing system using an acquire/release consistency model
US5878237A (en) * 1997-07-11 1999-03-02 Compaq Computer Corp. Apparatus, method and system for a comuter CPU and memory to PCI bridge having a pluarlity of physical PCI buses
US6145052A (en) * 1997-11-04 2000-11-07 Western Digital Corporation Disk drive with adaptive pooling for command reordering
US6038646A (en) * 1998-01-23 2000-03-14 Sun Microsystems, Inc. Method and apparatus for enforcing ordered execution of reads and writes across a memory interface
US6816934B2 (en) * 2000-12-22 2004-11-09 Hewlett-Packard Development Company, L.P. Computer system with registered peripheral component interconnect device for processing extended commands and attributes according to a registered peripheral component interconnect protocol
US6175889B1 (en) * 1998-10-21 2001-01-16 Compaq Computer Corporation Apparatus, method and system for a computer CPU and memory to high speed peripheral interconnect bridge having a plurality of physical buses with a single logical bus number
US6625683B1 (en) * 1999-08-23 2003-09-23 Advanced Micro Devices, Inc. Automatic early PCI transaction retry
US6490635B1 (en) * 2000-04-28 2002-12-03 Western Digital Technologies, Inc. Conflict detection for queued command handling in disk drive controller
JP2002043544A (ja) * 2000-07-21 2002-02-08 Mitsubishi Electric Corp 半導体装置およびその製造方法
US6615295B2 (en) * 2000-12-26 2003-09-02 Hewlett-Packard Development Company, L.P. Relaxed read completion ordering in a system using transaction order queue
US6757768B1 (en) * 2001-05-17 2004-06-29 Cisco Technology, Inc. Apparatus and technique for maintaining order among requests issued over an external bus of an intermediate network node
US7177971B2 (en) 2001-08-24 2007-02-13 Intel Corporation General input/output architecture, protocol and related methods to provide isochronous channels
US6801970B2 (en) * 2001-09-30 2004-10-05 Hewlett-Packard Development Company, L.P. Priority transaction support on the PCI-X bus
US6754737B2 (en) * 2001-12-24 2004-06-22 Hewlett-Packard Development Company, L.P. Method and apparatus to allow dynamic variation of ordering enforcement between transactions in a strongly ordered computer interconnect
US7184399B2 (en) * 2001-12-28 2007-02-27 Intel Corporation Method for handling completion packets with a non-successful completion status
US20030145136A1 (en) * 2002-01-31 2003-07-31 Tierney Gregory E. Method and apparatus for implementing a relaxed ordering model in a computer system
US20040022094A1 (en) * 2002-02-25 2004-02-05 Sivakumar Radhakrishnan Cache usage for concurrent multiple streams
US20050289306A1 (en) * 2004-06-28 2005-12-29 Sridhar Muthrasanallur Memory read requests passing memory writes
JP4410190B2 (ja) * 2005-03-24 2010-02-03 富士通株式会社 PCI−Express通信システム
US8516165B2 (en) * 2005-10-19 2013-08-20 Nvidia Corporation System and method for encoding packet header to enable higher bandwidth efficiency across bus links
US7721023B2 (en) * 2005-11-15 2010-05-18 International Business Machines Corporation I/O address translation method for specifying a relaxed ordering for I/O accesses
US7698498B2 (en) * 2005-12-29 2010-04-13 Intel Corporation Memory controller with bank sorting and scheduling
US7461210B1 (en) * 2006-04-14 2008-12-02 Tilera Corporation Managing set associative cache memory according to entry type
US7949794B2 (en) * 2006-11-02 2011-05-24 Intel Corporation PCI express enhancements and extensions
KR100823171B1 (ko) * 2007-02-01 2008-04-18 삼성전자주식회사 파티션된 플래시 변환 계층을 갖는 컴퓨터 시스템 및플래시 변환 계층의 파티션 방법
US8108584B2 (en) * 2008-10-15 2012-01-31 Intel Corporation Use of completer knowledge of memory region ordering requirements to modify transaction attributes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PCI-SIG: Engineering Change Notice „ID-Based Ordering". 29.05.2008

Also Published As

Publication number Publication date
JP5824488B2 (ja) 2015-11-25
US8307144B2 (en) 2012-11-06
JP2014041618A (ja) 2014-03-06
GB0918065D0 (en) 2009-12-02
US20100095032A1 (en) 2010-04-15
US20120096212A1 (en) 2012-04-19
TW201019128A (en) 2010-05-16
CN102981984A (zh) 2013-03-20
JP2010097615A (ja) 2010-04-30
GB2464403A (en) 2010-04-21
JP5479020B2 (ja) 2014-04-23
DE102009049078B4 (de) 2015-03-05
GB2464403B (en) 2011-08-24
DE102009049078A1 (de) 2010-05-20
CN101727413A (zh) 2010-06-09
TWI548997B (zh) 2016-09-11
CN101727413B (zh) 2013-09-11
TW201329732A (zh) 2013-07-16
CN102981984B (zh) 2016-04-06
TWI420319B (zh) 2013-12-21
JP2016033823A (ja) 2016-03-10
JP6141379B2 (ja) 2017-06-07
US8108584B2 (en) 2012-01-31

Similar Documents

Publication Publication Date Title
DE102009061252B3 (de) Vorrichtung, Verfahren und System zur Verarbeitung einer Transaktion auf einem PCI-Bus mittels eines Root-Komplexes
DE112005002298B4 (de) Leistungssteigerung einer Adreßübersetzung unter Verwendung von Übersetzungstabellen, die große Adreßräume umfassen
DE112010003595B4 (de) Verfahren, Systeme und maschinenverarbeitbares Medium zur Bereitstellung einer verteiltenPrädikatvorhersage
DE69727856T2 (de) Multiprozessorsystem mit Konsistenzfehler-Registrierung mit entsprechendem Verfahren
DE69132652T2 (de) Rechnerdatenleitweglenkungssystem
DE19580990C2 (de) Verfahren und Einrichtung zum Ausführen verzögerter Transaktionen
DE69701078T2 (de) Mikroprozessorarchitektur mit der Möglichkeit zur Unterstützung mehrerer verschiedener Prozessoren
DE3685876T2 (de) Meister-sklave-mikroprozessorsystem mit einem virtuellen speicher.
DE102019122363A1 (de) Programmierbare doppelreihige arbeitsspeichermodul-beschleunigerkarte (dimm-beschleunigerkarte)
DE102007046947B4 (de) System und Verfahren zum Verwalten von Systemmanagement-Interrupts in einem Mehrprozessor-Computersystem
DE112005002420T5 (de) Verfahren und Vorrichtung zum Pushen von Daten in den Cache eines Prozessors
DE3606211A1 (de) Multiprozessor-computersystem
DE10234991A1 (de) Hostcontrollerdiagnose für einen seriellen Bus
DE112005002304T5 (de) Adreßumsetzung für Eingabe/Ausgabe- Vorrichtungen mittels hierarchischer Umsetzungstabellen
DE112011104329T5 (de) Mehrkernsystem und Verfahren zum Lesen der Kerndaten
DE69219848T2 (de) Verfahren zur Behandlung von Datenübertragungen in einen Computersystem mit einem Zweibusbau
DE112017005063T5 (de) Verwalten eines Speichers mit niedrigstem Kohärenzpunkt (LPC) mithilfe eines Dienstschichtadapters
DE112012004551T5 (de) Mehrkernverknüpfung in einem Netzprozessor
DE10211054A1 (de) USB-Hostcontroller
DE602004008060T2 (de) Usb host controller mit speicher für transferdeskriptoren
DE112014000340T5 (de) Vorablesezugriff auf Daten für einen Chip mit einem übergeordneten Kern und einem Scout-Kern
DE112007003722B4 (de) Modifizieren von Systemroutinginformationen in linkbasierenden Systemen
DE102018213428A1 (de) Techniken zum Reduzieren von Beschleuniger-Speicherzugriffskosten in Plattformen mit mehreren Speicherkanälen
DE102013209643A1 (de) Mechanismus für optimierte Nachrichtenaustauschdatenübertragung zwischen Nodelets innerhalb eines Plättchens
DE69230483T2 (de) Quadraturbusprotokoll zum Ausführen von Transaktionen in einer Rechneranordnung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R129 Divisional application from

Ref document number: 102009049078

Country of ref document: DE

Effective date: 20130102

R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final