DE112008001957T5

DE112008001957T5 - Systeme und Verfahren zum Verbessern der Leistungsfähigkeit eines routfähigen Netzwerks

Info

Publication number: DE112008001957T5
Application number: DE112008001957T
Authority: DE
Inventors: Brian T. Houston Purcell; Melvin K. Houston Benedict
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2007-07-25
Filing date: 2008-05-27
Publication date: 2010-06-02
Anticipated expiration: 2028-05-28
Also published as: CN101765838A; US20090031070A1; CN101765838B; US7783822B2; DE112008001957B4; GB2464074A; WO2009014576A1; GB2464074B; GB201002400D0

Abstract

Ein System mit (100):
einer Mehrzahl von Rechenknoten (110);
einem routfähigen Netzwerk (150); und
einer Mehrzahl von Chipsätzen (160), die durch das routfähige Netzwerk mit der Mehrzahl von Rechenknoten (110) verknüpft sind, wobei die Chipsätze (160) Bereichsregister aufweisen, die Verkehr dynamisch von einer beliebigen Vorrichtung über das routfähige Netzwerk (150) zu einem beliebigen der Mehrzahl von Rechenknoten (110) lenken.

Description

HINTERGRUND
Datenzentrumsumgebungen stellen enorme Anforderungen an Rechensysteme (z. B. Server, Blades usw.), um einen beträchtlichen Umfang an I/O-Bandbreite zu liefern. Üblicherweise liefert ein Server den benötigten Bedarf an I/O-Bandbreite, indem er Vorkehrungen zum Hinzufügen mehrerer I/O-Karten/Vorrichtungen (auch als „Adapter” bezeichnet) und/oder zum direkten Integrieren eingebetteter Vorrichtungen in dem Server unterstützt. Die eingebetteten Vorrichtungen und/oder Zusatzadapterschnittstellen sind üblicherweise PCI-Express, PCI/PCI-X und HyperTransport, sind jedoch nicht hierauf beschränkt. Die Adapter stellen eine Vielzahl von Vorrichtungsklassen dar, einschließlich Speicherung (SCSI, SATA, SAS, RAID, Datensicherung usw.), Vernetzung (Ethernet, ATM), Clusterbildung (Infiniband, ServerNet), Multimedia (Video, Audio) und Sonstiger.
Oft ist es aufgrund der großen Zahl von Komponentenanschlussstiften, die erforderlich wären, unpraktisch (z. B. aufgrund von Zuverlässigkeit, Kosten und Komponentenausbeute), viele I/O-Vorrichtungen direkt an einen Rechenknoten oder ein sonstiges Verarbeitungselement anzuschließen. Verkäufer von Prozessoren, Chipsätzen und Komponenten haben sich diesen Problemen bereits zugewandt, indem sie die verschiedenen Funktionen und Schnittstellen (z. B. Rechen-, Speicher- und I/O-Schnittstellen) in mehrere Vorrichtungen unterteilen. Das Architektur- und Partitionierungsschema liefert eine generische und einfache Art und Weise, mehrere Plattformen zu erstellen, die von kleinen, einfachen Systemen, die eine oder zwei Komponenten aufweisen, bis zu großen Systemen mit einem oder mehreren Auftretensfällen jeder Komponente reichen.
Größere Systeme (z. B. auf Opteron basierende Systeme) können mehrere Prozessorkerne/-buchsen, mehrere Chipsatzkomponenten und viele I/O-Erweiterungssteckplätze umfassen. Diese Systeme sind dazu entworfen, die CPU-CPU- und CPU-Speicher-Bandbreite zu optimieren. Demgemäß sind die meisten der Busse/Zwischenträgeren des Rechenknotens (oder des Prozessors) dafür reserviert, Speicher, Speichersteuerungen und/oder andere Prozessoren aneinander anzuschließen. Je nach der Komplexität des Systems können einem oder mehreren Prozessoren entweder keine zusätzlichen Schnittstellen zur Verfügung stehen, oder eine (vielleicht in Bezug auf die Bandbreite) sehr begrenzte/eingeschränkte Schnittstelle kann ihm bzw. ihnen zur Verfügung stehen, um sich mit dem I/O-Teilsystem (oder anderen Teilen des Rechengitters in einer Mehrrechenknoten-Umgebung) zu verbinden. Dieses Szenario kann die I/O- oder Erweiterungschipsätze („Chipsatz”) in die „Ecken” oder in die Peripherie der Verarbeitungselemente in dem Rechenknoten treiben.
Ein weiterer Nebeneffekt einer verringerten/begrenzten Anschließbarkeit zwischen dem Chipsatz und den Prozessor-/Speicherelementen besteht darin, dass ein großes Missverhältnis zwischen dem Umfang an Bandbreite auf beiden Seiten des Protokollumsetzers (oder „Chipsatzes”) vorliegen kann. Beispielsweise kann eine Systemkonfiguration eine Chipsatzkomponente aufweisen, die über zweiunddreißig Bahnen von PCI-Express (PCIe) unterstützt, während die Chipsatz-Zu-Prozessor/Speicher-Schnittstelle lediglich höchstens acht Bahnen aufweist. Verkäufer von Chipsätzen haben sich im Auftrag von Systemverkäufern dafür entschieden, zusätzliche Schnittstellen (z. B. HyperTransport) zwischen den Chipsatz- und Prozessor/Speicher-Komponenten einzufügen. Die zusätzlichen Schnittstellen liefern nicht nur zusätzliche Bandbreite, sondern liefern auch eine bessere Ausgewogenheit zwischen den verschiedenen Schnittstellen (Chipsätze, Protokolle usw.). Die Einfügung zusätzlicher Schnittstellen in den Chipsatz kann die Anzahl von Chipsatzkomponenten, die für einen gegebenen Entwurf benötigt werden, verringern, was zu Kostenersparnissen führt.
Chipsätze können eine sehr unterschiedliche „Ansicht” der Knoten (z. B. der Prozessor- und Speicherkomponenten) aufweisen. Wie zuvor erwähnt wurde, kann die Optimierung des CPU-CPU- und CPU-Speicher-Zwischenträgers nicht nur ermöglichen, dass der Chipsatz direkt an jeden Knoten angeschlossen wird. Chipsatztransaktionen zu/von Knoten müssen von einem Knoten zu einem anderen Knoten schreiten, bis der Zielknoten erreicht ist. Jeder Link bzw. jede Verbindung zwischen Knoten und/oder dem Chipsatz stellt einen „Sprung” (einen „Hop”) dar. Aus der Perspektive des Chipsatzes können verschiedene Knoten in der Rechenumgebung eine unterschiedliche Anzahl von Sprüngen entfernt sein. Knoten, die weniger Sprünge aufweisen, sind „näher”, wohingegen Knoten mit einer höheren Anzahl von Sprüngen von dem Chipsatz „ferner” sind. Die Systemleistungsfähigkeit ist direkt auf den Umfang an aktiver Chipsatzbandbreite (z. B. I/O-Bandbreite) und die Anzahl von Sprüngen, die der Chipsatz-Zu-Ziel-Knoten- bezogen. Die Chipsatztransaktionen werden an jedem Knoten entlang des Chipsatz-Zu-Ziel-Knoten-Pfades reproduziert. Die Chipsatztransaktionen nehmen Bandbreite von der verfügbaren Bandbreite (z. B. Speicher) jedes lokalen Knotens ein und begrenzen somit den Umfang an Bandbreite des Prozessors bzw. der Prozessoren und sonstiger Vorrichtungen in diesem Knoten.
Wenn der Chipsatz mehrere Verbindungen in die Rechenknotenumgebung hinein unterstützt, steht zusätzliche Chipsatzbandbreite zur Verfügung. Derzeit geplante Chipsatzarchitekturen liefern entweder eine weiche oder eine harte Partitionierung zwischen den in Verarbeitungsrichtung vorgelagerten (Rechenknoten-)Schnittstellen und den in Verarbeitungsrichtung nachgelagerten (Rechenknoten-, Netzwerk- oder I/O-)Schnittstellen. Verkehr (DMA, Unterbrechungen, Nachrichten, Verwaltung/usw.) wird von einer nachgelagerten Schnittstelle an lediglich eine vorgelagerte Schnittstelle angeheftet. Dieses Anheften (über eine Software- und/oder Hardware-Konfiguration/Verkopplung) einer nachgelagerten Schnittstelle an eine einzelne vorgelagerte Schnittstelle liefert aufgrund der Anzahl von Sprüngen, auf die ein bestimmter Verkehr zwischen dem Chipsatz und dem Zielknoten trifft, eventuell nicht die optimale Systemleistungsfähigkeit.
Das Problem ist sehr offensichtlich, wenn der Betriebssystem-Disponierer Aufgaben/Prozesse (z. B. Treiber, Anwendungen) von einem Knoten zu einem anderen innerhalb der Rechenumgebung verschiebt. Die dynamische Verschiebung dieser Prozesse kann die Systemleistungsfähigkeit je nach dem Verkehrsprofil (z. B. der Anzahl von Sprüngen) des Chipsatzes entweder verbessern oder behindern.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein schematisches Diagramm eines exemplarischen Verarbeitungssystems, das ein routfähiges bzw. in den Verbindungen steuerbares (engl. routable) Netzwerk (engl. fabric) aufweist.
1a und 1b veranschaulichen eine exemplarische Adressumsetzung.
2 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 2S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt.
3 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 4S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt.
4 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 8S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt.
5 ist ein Flussdiagramm, das exemplarische Operationen zum Verbessern der Leistungsfähigkeit eines routfähigen Netzwerks veranschaulicht.
AUSFÜHRLICHE BESCHREIBUNG
Es ist vorteilhaft, in der bzw. den Chipsatzvorrichtung(en) ein zusätzliches Niveau an Intelligenz bereitzustellen, um ihren Verkehr unter Verwendung des direktesten Pfades (z. B. der geringsten Anzahl von Sprüngen) zu dem Zielknoten zu routen bzw. leiten. Ein Versehen des CPU-Komplexes mit mehreren Pfaden kann die Anzahl von Sprüngen verringern, wodurch die Reproduktion von Daten auf den CPU-Bussen verringert oder gänzlich eliminiert wird. Exemplarische Ausführungsbeispiele erhöhen die I/O-Bandbreitenanschließbarkeit und nutzen alle verfügbaren I/O-Verbindungen. Dies ist besonders für Vorrichtungen mit hoher Bandbreite wünschenswert (z. B. GPUs, NICs mit 10 Gbps und RAID-Adapter).
Exemplarisches System
1 ist ein schematisches Diagramm eines exemplarischen Verarbeitungssystems 100, das ein routfähiges Netzwerk 150 aufweist. Bei einem exemplarischen Ausführungsbeispiel kann das Verarbeitungssystem 100 eine Mehrzahl von Rechenknoten 110 und 110' umfassen. Der Rechenknoten 110 kann einen oder mehrere CPU-Kern 122a–b, Cache 114a–d und/oder Systemanforderungsschnittstelle(n) 116 aufweisen. Ein Kreuzschienenschalter 118 kann vorgesehen sein, um die CPU-Kerne 112a–b über eine integrierte Speichersteuerung 122 mit den gemeinsam genutzten Speicherressourcen 120a–b zu verknüpfen. Obwohl dies hierin nicht explizit angegeben ist, sind gleiche Komponenten auch in 1 für den Rechenknoten 110' gezeigt und sind mit dem „Hochstellungs”-Symbol bezeichnet. Selbstverständlich können bei dem Verarbeitungssystem 100 auch mehr als zwei Rechenknoten 110 und 110' vorgesehen sein, wie aus der folgenden Beschreibung ohne weiteres hervorgeht.
Jeder Rechenknoten 110 und 110' kann auch eine oder mehr Schnittstellen zu dem routfähigen Netzwerk umfassen. Bei dem exemplarischen Ausführungsbeispiel können diese Schnittstellen aus einer oder mehreren HT-Schnittstellen 130 bzw. 130' bestehen. Allgemein können HT-Schnittstellen 130 und 130' eine Schaltungsanordnung und einen Programmcode (z. B. Firmware) umfassen, um eine Mehrzahl von Vorrichtungen 140a–f (direkt oder über eine oder mehrere geeignete Zwischenträgerumsetzungsvorrichtungen (z. B. Brückenvorrichtungen)) über das routfähige Netzwerk 150 mit einem oder mehreren der Rechenknoten 110 und 110' zu verknüpfen. Selbstverständlich können auch andere Punkt-zu-Punkt-Verbindungen implementiert werden, und diese sind nicht auf die HT-Verbindung beschränkt (die HT-Verbindung ist bei diesem Ausführungsbeispiel lediglich beispielhaft). Die Vorrichtungen können Speichermedien (z. B. RAID), Netzschnittstellenkarten (NICs – network interface cards), Multimedia-Vorrichtungen, PCIe-Karten, sowohl eingebettete als auch nicht-eingebettete Vorrichtungen und/oder andere Vorrichtungen, die derzeit bekannt sind oder später entwickelt werden, umfassen.
Beliebige der Vorrichtungen 140a–f können sich über einen Chipsatz 160 oder 160' über einen direkten Pfad 155a–e durch das routfähige Netzwerk 150 mit einem beliebigen der Rechenknoten 110 und 110' verknüpfen. Obwohl sich alle Vorrichtungen 140a–f gleichzeitig mit getrennten Computerknoten 110 und 110' verknüpfen können und (sich) mehrere Vorrichtungen 140a–f gleichzeitig über das routfähige Netzwerk verknüpfen/kommunizieren können.
Bei dem exemplarischen Ausführungsbeispiel können Vorrichtungen, die mit dem routfähigen Netzwerk verknüpft sind, eine oder mehrere logische und/oder physische Netzwerkschnittstellen enthalten. Eine einzelne physische Schnittstelle kann in mehrere logische Schnittstellen unterteilt sein, von denen jede eindeutige „Tore” oder „Pfade” in das routfähige Netzwerk liefert. Bei exemplarischen Ausführungsbeispielen können mehrere Pfade 155a–e unter Verwendung von HyperTransport-Verbindungen eingerichtet werden. Die HyperTransport3.0-Spezifikation ermöglicht, dass Verbindungen in mehrere unabhängige Verknüpfungen unterteilt (z. B. gegabelt) werden. Dies ermöglicht eine HT-basierte Vorrichtung mit der Fähigkeit, sich mit mehreren/anderen HT-Vorrichtungen zu verknüpfen. Beispielsweise kann eine 16x-HT-Verbindung in zwei logische 8x-HT-Verbindungen geteilt oder unterteilt (z. B. gegabelt) werden. Das heißt, dass ein einzelnes HT-Tor von einem Prozessor in logische Tore (z. B. HT0, HT1, HT2 etc.) geteilt werden kann, um mehrere Pfade 155a und 155b zu liefern. Eine weitere einzelne HT-Verbindung von dem Chipsatz 160' kann ebenfalls in logische Tore HT0 und HT1 geteilt (z. B. gegabelt) werden, um Pfade 155c und 155d zu liefern. Es wird darauf hingewiesen, dass bei der exemplarischen Implementierung jeder Chipsatz 160, 160' zwei unabhängige HT-Verbindungen aufweist. Bei anderen Ausführungsbeispielen kann jedoch eine gegabelte Verbindung verwendet werden. Es wird darauf hingewiesen, dass die gegabelte HT-Verbindung in der Lage ist, entweder als zwei 8x-HT-Verbindungen oder als eine einzelne 16x-HT-Verbindung zu operieren, je nach Bandbreitenanforderungen.
Doppel-HT-Schnittstellen ermöglichen, dass jeder Chipsatz 160 und 160' bei dem in 1 gezeigten 2S-Entwurf mit beiden Rechenknoten 110 und 110' verknüpft ist und dass Verkehr zwischen beiden Rechenknoten 110 und 110' geleitet wird. Bei 4S-(siehe 3) und 8S-(siehe 4)Entwürfen ermöglicht eine Gabelung (und/oder mehrere HT-Schnittstellen) eine Verwendung desselben I/O-Teilsystems zwischen den zwei Plattformen. Beispielsweise ist bei dem 4S-Entwurf jede Chipsatzkomponente über unabhängige 8x-Verbindungen mit zwei Prozessoren verknüpft, was dem Chipsatz die doppelte Anzahl an Verknüpfungen mit dem Rechenknoten 110 ermöglicht oder eine gleichzeitige Verknüpfung zwischen mehreren Rechenknoten 110 und 110' ermöglicht.
Es wird darauf hingewiesen, dass es keine theoretische Begrenzung der Anzahl von Pfaden gibt, die in einem routfähigen Netzwerk enthalten sein können, und dass Gabelung lediglich als exemplarisches Ausführungsbeispiel gezeigt ist. Die Anzahl von Pfaden wird vorwiegend durch die Verknüpfbarkeit begrenzt, die in dem routfähigen Netzwerk und in Vorrichtungen, die eine Schnittstelle mit dem routfähigen Netzwerk bilden, implementiert ist. Außerdem wird darauf hingewiesen, dass das Verarbeitungssystem nicht auf 1S-, 2S-, 4S- oder 8S-Entwürfe beschränkt ist und auch bezüglich anderer Verarbeitungsumgebungen erweitert werden kann.
Es wird ferner darauf hingewiesen, dass eine Gabelung und Doppel-HT-Verbindungen lediglich beschrieben werden, um ein Beispiel eines repräsentativen Chipsatzes und einer repräsentativen Prozessorarchitektur, der bzw. die implementiert werden kann, zu veranschaulichen. Bei anderen Ausführungsbeispielen kann auch in Betracht gezogen werden, zu ermöglichen, dass der Chipsatz direkt mit 2+-Rechenknoten (CPUs) verknüpft ist.
Bei exemplarischen Ausführungsbeispielen kann eine Bereichsregistrierung 170 als physische Registrierung implementiert sein, die in dem Schnittstellenstapel jedes Chipsatzes 160 und 160' eingerichtet ist, um Verkehr dynamisch durch die mehreren Pfade 155a–e in dem routfähigen Netzwerk 150 zu lenken. Das BIOS oder die Software kann die Chipset-Leitwegtabellen einrichten. Beispielsweise kann das BIOS Erweiterungen einer Leitwegtabelle liefern, um eine „gewichtete” Ansicht einer Affinität von CPU/Speicher zu Chipsatz und Endpunkt zu liefern. Dies liefert einen Mechanismus, dem Betriebssystem und der Software mitzuteilen, wie viele Sprünge für eine bestimmte I/O-Vorrichtung zur Verfügung stehen, wodurch das Betriebssystem und die Treiber in die Lage versetzt werden, den I/O-Vorrichtungs-(oder Rechenknoten-)Verkehr auf der Basis des direktesten Pfades mit dem anderen Netzwerkendpunkt (DRAM-Speicher oder sonstige Vorrichtung) zu affinisieren.
Außerdem lenkt die Bereichsregistrierung 170 und eine zugeordnete Logik/Schaltungsanordnung Verkehr (DMA-Anforderungen, Nachrichten usw.) von Vorrichtungstoren B1–Bn zu einem oder mehreren der Netzwerkzwischenträgertore 155. Die Bereichsregistrierung lenkt den Verkehr, um den Pfad des Verkehrs zu optimieren (indem sie die Anzahl von Sprüngen minimiert).
Bei einem exemplarischen Ausführungsbeispiel umfasst jeder Leitwegtabelleneintrag einen Deskriptor, der die physische Basisadresse, eine Physische-Adresse-Grenze (oder Aperturgröße) definiert, und konfigurierbare Zugriffsparameter einschließlich Lesen, Schreiben, vorheriges Abrufen und Schreib-Posten. Jeder Leitwegtabelleneintrag kann auch einen Konfigurationsmechanismus enthalten, der den Deskriptor einem spezifischen vorgelagerten Tor zuordnet/den Deskriptor an ein solches bindet. Jeder Deskriptor kann zu einem vorgelagerten Tor (aber nicht zu beiden) geroutet werden. Es stehen mehrere Deskriptoren zur Verfügung, um zu ermöglichen, dass mehrere Adressbereiche zwischen den zwei vorgelagerten Toren abgebildet werden.
Wenn eine Bus-Master-(DMA-)Anforderung auftritt, führt der Leitwegmittler 180 bei Bedarf eine Virtuelle-Zu-Physischer-Adresse-Umsetzung durch. Bei einem exemplarischen Ausführungsbeispiel kann der Leitwegmittler eine IO-Speicher-Abgebildete-Einheit (IOMMU, I/O-Memory-Mapped-Unit) sein. Der Leitwegmittler (IOMMU) ist verantwortlich für eine Virtuelle-Zu-Physischer-Adresse-Umsetzung und/oder Sicherheits-/Authentifizierungsaufgaben. In Fällen, bei denen mehrere Umsetzungen erforderlich sein können, um die abschließende physische Adresse zu bestimmen, kann der Leitwegmittler auch eine Virtuelle-Zu-Virtueller-Adresse-Umsetzung durchführen. In jedem Fall wird dann die umgesetzte (falls erforderlich) Adresse mit den Leitwegtabelleneinträgen verglichen, um zu bestimmen, an welches vorgelagerte Tor der Zyklus über den Kreuzschienenschalter 185 weitergeleitet werden sollte. Das vorgelagerte Tor leitet anschließend die Transaktion an den Routfähiges-Netzwerk-Zwischenträger 155 weiter.
Adressumsetzung wird unter Bezugnahme auf 1a und 1b besser verständlich. 1a zeigt eine exemplarische physische Speicherabbildung aus der Perspektive jedes Rechenknotens. Bei diesem Beispiel entspricht eine Rechenabbildung 190 einem Rechenknoten 1, und eine Rechenabbildung 192 entspricht einem Rechenknoten 2 (obwohl beliebig viele Rechenknoten vorliegen können). Der Rechenknoten 1 kann ohne eine gewisse Adressumsetzung nicht direkt auf den Speicher/die Ressourcen des Rechenknotens 2 zugreifen. Der Rechenknoten 1 hat nicht die Fähigkeit, direkt auf einen Speicher an dem Rechenknoten 2 zuzugreifen (am oberen Ende des adressierbaren Raums gezeigt), sondern es ist eine gewisse Adressumsetzung nötig, um eine Rückabbildung in den physischen Bereich (z. B. verfügbarer DRAM) an dem Rechenknoten 2 vorzunehmen.
1b zeigt eine exemplarische Systemarchitektur mit zwei Rechenknoten (wie in 1 gezeigt ist), von denen jeder seinen eigenen lokalen Speicher und seine eigene Ansicht von Systemressourcen aufweist (wie in 1a gezeigt ist). Die Schalter 195a–b (z. B. HT-Brücken/-Schalter, PCIe oder ein sonstiger Netzwerkzwischenträger) dienen als Netzwerkzwischenträger.
Der Netzwerkzwischenträger liefert Adressumsetzungsdienste (falls erforderlich) und lenkt Verkehr zu den entsprechenden Toren oder Pfaden in dem Netzwerk. Bei dem in 1b gezeigten Beispiel veranschaulichen die Pfeile und der Text, welche Art von Adressumsetzungen in den verschiedenen Stufen auftreten können. Bei diesem Beispiel wird lediglich die Vorrichtung 170 (z. B. Speicherungs- und/oder Netzsteuerung) zum Anvisieren eines Rechenknotenzugriffs im Detail dargelegt.
Vor weiteren Ausführungen wird darauf hingewiesen, dass ein dynamisches Lenken von Verkehr durch die mehreren Pfade 155a–e in dem routfähigen Netzwerk 150, wie es eben beschrieben wurde, Veranschaulichungszwecken dient und keine Einschränkung darstellen soll. Außerdem können auch andere funktionelle Komponenten vorgesehen sein, und sie sind nicht auf die hierin gezeigten und beschriebenen beschränkt.
Auch wird darauf hingewiesen, dass die hierin beschriebenen exemplarischen Ausführungsbeispiele besonders für eine Verwendung innerhalb des PCI-Konfigurationsraums gut geeignet sind. Auf den Konfigurationsraum kann über standardmäßige PCI-Konfigurationszyklen, speicherabgebildete Zyklen oder eine andere Art von Nachrichtenübermittlungs- oder Verwaltungsprotokoll zugegriffen werden. Jede vorgelagerte Verbindung (z. B. HT0 und HT1) ist mit einem eindeutigen Tor an einem oder mehreren Prozessoren (z. B. Rechenknoten) verknüpft. Durch übliche architektonische Implementierungen (z. B. PCI-basierte Systeme) enthält jede I/O-Verbindung ihren eigenen Satz von eindeutigen PCI-Busnummern. Die integrierten Vorrichtungen (z. B. PCI-Express-Brücken, P2P-Brücken, eingebettete Vorrichtungen) können bezüglich jedes Tores, aber nicht für beide konfiguriert („angeheftet”) sein (um üblichen Softwarevorrichtungsentdeckungsalgorithmen zu entsprechen). Einzelne Vorrichtungen müssen lediglich einmal in dem PCI-Konfigurationsraum erscheinen (es sei denn, Software/Hardware ist enthalten, um Vorrichtungen zu handhaben, die durch eine oder mehrere netzwerkverknüpfte Vorrichtungen mehrmals entdeckt würden). Es wird darauf hingewiesen, dass jede CPU eine eindeutige PCI-Konfigurationsleitwegtabelle aufweisen kann, um das Leiten von PCI- Konfigurationszyklen zu dem Chipsatz zu optimieren. Dies ermöglicht mehrere Eintrittspunkte für Konfigurationszyklen (z. B. kann ein PCI-Konfigurationszyklus zu einem Bus 0xYY von jeglichem der beiden Routfähiges-Netzwerk-Tore in eine Vorrichtung eintreten, je nachdem, welche Vorrichtung den Konfigurationszyklus einleitete/weiterleitete) und liefert den direktesten (z. B. kürzesten) Leitpfad zwischen den Initiator- und Zielvorrichtungen.
Außerdem wird darauf hingewiesen, dass die hierin beschriebenen exemplarischen Ausführungsbeispiele ermöglichen, dass die gesamte I/O in allen Produktnummern (oder SKUs) verfügbar ist. Bei 4S- und 8S-Entwürfen ermöglicht eine Gabelung eine Verwendung desselben I/O-Teilsystems seitens der zwei Plattformen. Beispielsweise kann das 4S-System entweder als 2S oder 4S konfiguriert sein (jede Chipsatzkomponente ist über eine eindeutige 8x-Verbindung mit zwei Prozessoren verknüpft, was eine vollständige I/O-Verknüpfbarkeit entweder in einer 2S- oder in einer 4S-Konfiguration ermöglicht). Das 8S-System kann entweder als 4S oder 8S konfiguriert sein (die ersten vier Prozessoren haken anhand von 8x-Verbindungen in die vier Chipsatzkomponenten ein, und die verbleibenden 4 Prozessoren werden über 8x-Verbindungen in dieselben Chipsatzkomponenten eingehakt).
Die hierin beschriebenen exemplarischen Ausführungsbeispiele ermöglichen ferner eine höhere Gleichzeitigkeit zwischen I/O (Chipsatz) und Systemspeicher (d. h. es gibt mehrere aktive HT-Verbindungen). Alle Verbindungen können innerhalb eines Systems verwendet werden, ohne Chipsatzkomponenten hinzufügen zu müssen.
Ferner kann die durchschnittliche Anzahl von „Sprüngen”, die die Daten zwischen I/O (Chipsatz) und Systemspeicher-2S-Entwurf nehmen, verringert werden, falls die Vorrichtungen (z. B. Chipsätze) in dem routfähigen Netzwerk Verkehr zu dem nächstgelegenen und/oder optimalsten Tor lenken. Beispielsweise liegt die durchschnittliche Anzahl von Sprüngen bei einem 2S-Entwurf zwischen 1,5 und 1,0 (eine Verbesserung von 33%). Die durchschnittliche Anzahl von Sprüngen liegt bei einem 4S-Entwurf zwischen 1,75 und 1,5 (eine Verbesserung von 14%). Und die durchschnittliche Anzahl von Sprüngen liegt bei einem 8S-Entwurf zwischen 1,875 und 1,75 (eine Verbesserung von 6,7%), wie durch Bezugnahme auf die in 2–4 gezeigten Veranschaulichungen besser verständlich wird.
2 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 2S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt. Bei einem traditionellen 2S-Zwischenträger 200 ist die gesamte I/O über 16x-HT-Verbindungen mit CPU1 verknüpft. Die Kreuzschienenfähigkeiten der CPU-Buchse 2 sind nicht vollständig verwirklicht, und es sind durchschnittlich 1,5 Sprünge von dem Chipsatz erforderlich, um die Speicherressourcen an einer der beiden CPUs zu erreichen.
Bei einem gegabelten 2S-Entwurf 250 ist jedoch jeder Prozessor über eine 8x-HT-Verbindung mit einem Chipsatz verknüpft. Die gesamte I/O ist sowohl in der 1S- als auch in der 2S-Konfiguration verfügbar, und I/O ist über alle Kreuzschienen hinweg ausgeglichen. Dementsprechend sind durchschnittlich 1,0 Sprünge erforderlich, um die Speicherressourcen an einer der CPUs zu erreichen, was zu einer 33%igen Verringerung der Anzahl von Sprüngen im Vergleich zu dem traditionellen 2S-Zwischenträger 200 führt.
3 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 4S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt. Bei einem traditionellen 4S-Zwischenträger 300 ist die gesamte I/O über 16x-HT-Verbindungen mit CPU1 verknüpft, und alle CPUs sind über 16x-HT-Verbindungen miteinander verknüpft. Es sind durchschnittlich 1,75 Sprünge von dem Chipset erforderlich, um die Speicherressourcen an einer der beiden CPUs zu erreichen.
Bei einem gegabelten 4S-Entwurf 350 ist jedoch jeder Prozessor über eine 8x-HT-Verbindung mit einem Chipsatz verknüpft, und alle CPUs sind über 16x-HT-Verbindungen miteinander verknüpft. Die gesamte I/O ist sowohl in der 2S- als auch in der 4S-Konfiguration verfügbar, und I/O ist über alle Kreuzschienen hinweg ausgeglichen. Dementsprechend sind durchschnittlich 1,5 Sprünge erforderlich, um die Speicherressourcen an einer der CPUs zu erreichen, was zu einer 14%igen Verringerung der Anzahl von Sprüngen im Vergleich zu dem traditionellen 4S-Zwischenträger 300 führt.
4 ist ein Diagramm, auf hoher Ebene, eines exemplarischen 8S-Entwurfs, das eine verbesserte Leistungsfähigkeit unter Verwendung eines sich gabelnden Entwurfs in einem routfähigen Netzwerk zeigt. Bei einem traditionellen 8S-Zwischenträger 400 ist die gesamte I/O über 8x-HT-Verbindungen mit CPU1 verknüpft, und alle CPUs sind über 8x-HT-Verbindungen miteinander verknüpft. Jedoch steht der I/O im Vergleich zu einem traditionellen 4S-Entwurf lediglich 50% der HT-Bandbreite zur Verfügung. Das heißt, es liegen vier ungenutzte HT-Verbindungen (CPU5-CPU8) vor. Es werden durchschnittlich 1,875 Sprünge von dem Chipsatz benötigt, um die Speicherressourcen an einer der beiden CPUs zu erreichen.
Bei einem gegabelten 8S-Entwurf 450 ist jedoch jeder Prozessor über eine 8x-HT-Verbindung mit einem Chipsatz verknüpft, und alle CPUs sind über 8x-HT-Verbindungen miteinander verknüpft. Die gesamte I/O-Teilsystem ist sowohl in der 4S- als auch in der 8S-Konfiguration verfügbar, und alle HT-Verbindungen werden genutzt (d. h. es liegen 8 Verbindungen zu der I/O vor). Dementsprechend sind durchschnittlich 1,75 Sprünge erforderlich, um die Speicherressourcen an einer der CPUs zu erreichen, was zu einer 6,7%igen Verringerung der Anzahl von Sprüngen im Vergleich zu dem traditionellen 8S-Zwischenträger 400 führt.
Es wird darauf hingewiesen, dass die oben erörterten exemplarischen Systeme zu Veranschaulichungszwecken bereitgestellt werden. Wieder andere Implementierungen werden ebenfalls in Betracht gezogen.
Exemplarische Operationen
5 ist ein Flussdiagramm, das exemplarische Operationen zum Verbessern der Leistungsfähigkeit eines routfähigen Netzwerks veranschaulicht. Operationen 500 können als Logik und/oder Logikanweisungen auf einem oder mehreren computerlesbaren Medien verkörpert sein. Wenn sie ausgeführt werden, bewirken die Logikanweisungen, dass eine oder mehrere Vorrichtungen bezüglich eines Implementierens der beschriebenen Operationen programmiert wird bzw. werden. Bei einem exemplarischen Ausführungsbeispiel können die in den Figuren gezeigten Komponenten und Verknüpfungen dazu verwendet werden, die Leistungsfähigkeit eines routfähigen Netzwerks zu verbessern.
Bei der Operation 510 werden Datenpakete (beispielsweise, jedoch nicht beschränkt auf, DMA-Anforderungen, Verwaltung, Konfiguration, Unterbrechung und Nachrichten) von beliebigen einer Mehrzahl von Vorrichtungen, die mit einem Rechenkomplex verknüpft sind, empfangen. Der Rechenkomplex kann eine beliebige Kombination von Prozessoren, Chipsätzen, Speicher, Routfähiges-Netzwerk-Schnittstellen und/oder Vorrichtungen enthalten. Bei der Operation 520 wird ein verfügbarer Pfad für die Datenpakete durch ein routfähiges Netzwerk auf der Basis von Daten, die in einer Mehrzahl von Bereichsregistern gespeichert sind, identifiziert. Beispielsweise können die Bereichsregister oder der Virtualisierungsmittler (z. B. IOMMU) dahin gehend implementiert sein, Adressen der Datenpakete umzusetzen, um den effizientesten und/oder direkten Pfad durch das routfähige Netzwerk zu identifizieren. Bei der Operation 530 werden die Datenpakete dynamisch zu jeglichem einer Mehrzahl von Rechenknoten in dem Rechenkomplex gelenkt.
Ein dynamisches Lenken der Datenpakete zu beliebigen einer Mehrzahl von Rechenknoten in dem Rechenkomplex verringert die Anzahl von CPU-CPU- oder CPU-I/O-Sprüngen. Ein dynamisches Lenken der Datenpakete zu beliebigen einer Mehrzahl von Rechenknoten in dem Rechenkomplex verringert auch eine Datenreproduktion auf CPU-Bussen. Dies ermöglicht außerdem, dass die Skalierbarkeit/Erweiterbarkeit/Expandierbarkeit des Netzwerks mehrere Rechenknoten einschließt.
Die hierin gezeigten und beschriebenen Operationen sind vorgesehen, um exemplarische Ausführungsbeispiele zum Verbessern der Leistungsfähigkeit eines routfahigen Netzwerks zu veranschaulichen. Es wird darauf hingewiesen, dass die Operationen nicht auf die gezeigte und beschriebene Reihenfolge beschränkt sind. Außerdem können noch weitere Operationen implementiert werden.
Beispielsweise können Operationen eine Physisch-Zu-Virtuell-, Physisch-Zu-Physisch- und/oder Virtuell-Zu-Virtuell-Adressumsetzung implementieren (z. B. auf der Basis von Daten, die in den Bereichsregistern und/oder in dem Virtualisierungsmittler wie z. B. der IOMMU gespeichert sind). Die Umsetzungsmerkmale können durch eine oder mehrere I/O-Speicherverwaltungseinheiten (IOMMUs), die IOMMU-Einträge verwenden, gehandhabt werden. Die anfänglichen Umsetzungsdienste und Zugriffsprivilegien (z. B. Sicherheit) werden durch die IOMMU ausgeführt. Die umgesetzte Adresse (entweder virtuell zu physisch oder virtuell zu virtuell) wird auf der Basis der resultierenden umgesetzten Adresse an das geeignete „Netzwerktor” gesendet.
Zusätzlich zu den hierin explizit dargelegten spezifischen Ausführungsbeispielen werden Fachleuten ausgehend von der Betrachtung der hierin offenbarten Spezifikation andere Aspekte und Implementierungen einleuchten. Es ist beabsichtigt, dass die Spezifikation und die veranschaulichten Implementierungen lediglich als Beispiele angesehen werden, mit einem wahren Schutzumfang und einer wahren Wesensart der folgenden Patentansprüche.
ZUSAMMENFASSUNG
Es werden Systeme und Verfahren zum Verbessern der Leistungsfähigkeit eines routfähigen Netzwerks offenbart. Bei einem exemplarischen Ausführungsbeispiel kann ein System eine Mehrzahl von Rechenknoten, ein routfähiges Netzwerk und eine Mehrzahl von Chipsätzen umfassen, die durch das routfähige Netzwerk mit der Mehrzahl von Rechenknoten verknüpft sind. Die Chipsätze weisen Bereichsregister auf, die Verkehr dynamisch von einer beliebigen Vorrichtung über das routfähige Netzwerk zu beliebigen der Mehrzahl von Rechenknoten lenken.

Claims

Ein System mit (100): einer Mehrzahl von Rechenknoten (110); einem routfähigen Netzwerk (150); und einer Mehrzahl von Chipsätzen (160), die durch das routfähige Netzwerk mit der Mehrzahl von Rechenknoten (110) verknüpft sind, wobei die Chipsätze (160) Bereichsregister aufweisen, die Verkehr dynamisch von einer beliebigen Vorrichtung über das routfähige Netzwerk (150) zu einem beliebigen der Mehrzahl von Rechenknoten (110) lenken.
Das System (100) gemäß Anspruch 1, ferner mit: zumindest einer Tabelle und Logik, um physische Adressen umzusetzen, um Verkehr von einer beliebigen Vorrichtung über das routfähige Netzwerk (150) zu einem beliebigen der Mehrzahl von Rechenknoten (110) zu lenken; oder zumindest einer Tabelle und Logik, um virtuelle Adressen umzusetzen, um Verkehr von einer beliebigen Vorrichtung über das routfähige Netzwerk (150) zu einem beliebigen der Mehrzahl von Rechenknoten (110) zu lenken.
Das System (100) gemäß Anspruch 1, bei dem das routfähige Netzwerk (150) zumindest eines der Folgenden umfasst: Punkt-zu-Punkt-Verbindung-Verbindungen, HT-Verbindungen, geteilte HT-Verbindungen und gegabelte geteilte HT-Verbindungen.
Das System (100) gemäß Anspruch 1, bei dem die Mehrzahl von Chipsätzen (160) Brücken umfasst und die Brücken zumindest eines der Folgenden umfassen: PCI-Steuerungen, PCIe-Steuerungen, Speicherungssteuerungen, Videosteuerungen, Audiosteuerungen, I/O-Speicherverwaltungseinheiten (IOMMUs) und Netzschnittstellensteuerungen.
Das System (100) gemäß Anspruch 1, bei dem die Mehrzahl von Chipsätzen (160) Endpunktvorrichtungen umfassen und die Endpunktvorrichtungen zumindest eines der Folgenden umfassen: einen Zusatzadapter oder eine eingebettete Komponente, Speichermedien, Netzsteuerungen, Speichervorrichtungen, Videovorrichtungen und Audiovorrichtungen.
Ein Verfahren (500) zum Verbessern der Leistungsfähigkeit eines leitfähigen Netzwerks, umfassend: Empfangen (510) von Datenpaketen von beliebigen einer Mehrzahl von Vorrichtungen, die mit einem Rechenkomplex verknüpft sind; Identifizieren (520) eines verfügbaren Pfades für die Datenpakete durch ein routfähiges Netzwerk (150) auf der Basis von Daten, die in einer Mehrzahl von Bereichsregistern gespeichert sind; und dynamisches (530) Lenken der Datenpakete zu beliebigen einer Mehrzahl von Rechenknoten (110) in dem Rechenkomplex.
Das Verfahren (500) gemäß Anspruch 7, bei dem das dynamische Lenken der Datenpakete zu beliebigen einer Mehrzahl von Rechenknoten (110) in dem Rechenkomplex die Anzahl von CPU-CPU- oder CPU-I/O-Sprüngen verringert.
Das Verfahren (500) gemäß Anspruch 7, bei dem das Verringern der Anzahl von CPU-CPU- oder CPU-I/O-Sprüngen die Datenreproduktion auf CPU-Bussen verringert.
Das Verfahren (500) gemäß Anspruch 7, bei dem das routfähige Netzwerk (150) eine geteilte Punkt-zu-Punkt-Verbindung, Punkt-zu-Punkt-Verbindungen oder eine Geteilte-Punkt-zu-Punkt-Gegabelte-HT-Verbindung umfasst.