DE112020002490T5

DE112020002490T5 - Verfahren und system zur gewährleistung der fairness beim netzaustritt zwischen anwendungen

Info

Publication number: DE112020002490T5
Application number: DE112020002490.3T
Authority: DE
Inventors: David Charles Hewson; Timothy J. Johnson; Abdulla M. Bataineh
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2019-05-23
Filing date: 2020-03-23
Publication date: 2022-04-28
Also published as: WO2020236290A1; US20220210054A1; WO2020236297A1; US11792114B2; US20220200923A1; US11876702B2; US20220197845A1; US20220214934A1; WO2020236282A1; CN113767601A; US20240121181A1; DE112020002497T5; WO2020236270A1; CN113748652A; WO2020236271A1; US20240160584A1; US20220232111A1; US11757763B2; US20220200913A1; CN113728592A

Abstract

Es werden Verfahren und Systeme bereitgestellt, um die Fairness zwischen Anwendungen am Netzwerkausgang zu erleichtern. An einem Ausgangs-Port eines Netzwerks kann ein Arbitrator fairness-basiertes Traffic Shaping für Daten bereitstellen, die mit Anwendungen verbunden sind. Das gewünschte Fairness-basierte Traffic Shaping kann auf Basis von Bandbreite, Verkehrsklassen oder anderen Parametern erfolgen. Folglich kann die Bandbreite der Ausgangsverbindung fair unter den Anwendungen aufgeteilt werden.

Description

HINTERGRUND
Feld
Dies bezieht sich allgemein auf den technischen Bereich der Vernetzung. Genauer gesagt bezieht sich diese Offenlegung auf Methoden und Systeme zur Erleichterung der Fairness beim Netzwerkeintritt zwischen Anwendungen.
Verwandte Kunst
Da netzwerkfähige Geräte und Anwendungen immer allgegenwärtiger werden, erfordern verschiedene Arten von Datenverkehr sowie die ständig steigende Netzwerklast immer mehr Leistung von der zugrunde liegenden Netzwerkarchitektur. So können beispielsweise Anwendungen wie High-Performance Computing (HPC), Medien-Streaming und Internet of Things (IOT) verschiedene Arten von Datenverkehr mit unterschiedlichen Merkmalen erzeugen. Infolgedessen stehen Netzwerkarchitekten zusätzlich zu den herkömmlichen Netzwerkleistungskennzahlen wie Bandbreite und Verzögerung weiterhin vor Herausforderungen wie Skalierbarkeit, Vielseitigkeit und Effizienz.
ZUSAMMENFASSUNG
Es werden Verfahren und Systeme bereitgestellt, um die Fairness zwischen Anwendungen am Netzwerkausgang zu erleichtern. An einem Ausgangs-Port eines Netzwerks kann ein Arbitrator fairness-basiertes Traffic Shaping für Daten bereitstellen, die mit Anwendungen verbunden sind. Das gewünschte Faimess-basierte Traffic Shaping kann auf der Grundlage von Bandbreite, Verkehr Klassen oder andere Parameter. Folglich kann die Bandbreite des Egress-Links unter den Anwendungen gerecht aufgeteilt werden.
KURZBESCHREIBUNG DER ZAHLEN

zeigt ein beispielhaftes Netz, das Fließkanäle erleichtert.
zeigt einen beispielhaften Schalter, der die Fließkanäle erleichtert.
zeigt ein Beispiel dafür, wie Schalter entlang eines Datenpfads Informationen über den Flusszustand aufrechterhalten können.
zeigt einen beispielhaften Fabric-Header für ein Datenpaket.
zeigt ein beispielhaftes Format eines Bestätigungspakets (ACK).
zeigt die Beziehung zwischen verschiedenen Variablen, die zur Ableitung und Aufrechterhaltung von Zustandsinformationen eines Flusses verwendet werden.
zeigt ein Beispiel dafür, wie Fließkanaltabellen verwendet werden können, um einen Fluss zu liefern.
zeigt ein Beispiel für eine Kantenflusskanaltabelle (EFCT).
zeigt ein Beispiel für eine Eingangsflusskanaltabelle (IFCT).
zeigt ein Beispiel für eine Ausgangsflusskanaltabelle (OFCT).
zeigt eine beispielhafte Schalterarchitektur.
zeigt eine beispielhafte Matrix von Kreuzschienen-Schaltfeldern.
zeigt einen beispielhaften Kreuzschienenschalter mit virtueller Ausgangswarteschlange und Kreuzschienen-Warteschlange.
zeigt beispielhafte Alterswarteschlangen für die Speicherung von Anfragen.
zeigt eine beispielhafte Konfiguration von Token-Buckets für die Arbitrierung zwischen den Shaping-Warteschlangen.
zeigt ein Flussdiagramm eines beispielhaften Schlichtungsprozesses, der die Fairness beim Austritt erleichtert.
zeigt einen beispielhaften Mechanismus für die Arbitrierung zwischen Anfragen zur Paketweiterleitung.
zeigt ein Beispiel, bei dem eine unfaire Aufteilung der Verbindungsbandbreite in einem Netz auftreten kann.
zeigt ein Beispiel für eine Überlastung des Endpunkts.
zeigt ein Flussdiagramm eines beispielhaften Verfahrens zur Erzeugung einer expliziten Endpunkt-Stau-Benachrichtigung ACK.
zeigt einen beispielhaften Logikblock für das Staumanagement am Endpunkt.
zeigt ein Flussdiagramm eines beispielhaften Prozesses zur Erzeugung eines ACK als Reaktion auf ein Paket, das aus der Warteschlange eines Ausgangspuffers entfernt wurde.
zeigt ein Flussdiagramm eines beispielhaften Feinkomflusssteuerungsverfahrens (FGFC).
zeigt ein Beispiel für einen FGFC-fähigen Netzschnittstellen-Controller.
zeigt ein Beispiel für eine Überlastung der Netzverbindung.
zeigt ein Flussdiagramm eines Beispiels für die Anwendung einer kreditbasierten Flusskontrolle auf einer überlasteten Fabric-Verbindung.
zeigt ein beispielhaftes Kantenschaltsystem, das Fließkanäle erleichtert.
zeigt ein beispielhaftes Zwischenschaltsystem, das Fließkanäle erleichtert.

In den Abbildungen beziehen sich gleiche Ziffern auf die gleichen Elemente der Abbildung.
AUSFÜHRLICHE BESCHREIBUNG
Verschiedene Modifikationen der offengelegten Ausführungsformen sind für den Fachmann ohne weiteres ersichtlich, und die hierin definierten allgemeinen Grundsätze können auf andere Ausführungsformen und Anwendungen angewandt werden, ohne vom Geist und Umfang der vorliegenden Offenbarung abzuweichen. Daher ist die vorliegende Erfindung nicht auf die gezeigten Ausführungsformen beschränkt.
Übersicht
Die vorliegende Offenlegung beschreibt Systeme und Verfahren, die die Fairness bei Netzwerkausgängen erleichtern können. Insbesondere kann ein Switch die Weiterleitung empfangener Pakete auf der Grundlage ihrer Verkehrsklasse planen und bei der Planung der Paketübertragung eine faire Arbitrierung durchführen. Shaping-Warteschlangen können verwendet werden, um die gewünschte Bandbreitenzuweisung zwischen verschiedenen Verkehrsklassen und virtuellen Kanälen zu erreichen.
In dieser Offenlegung können Paketströme auch als „Paketflüsse“ oder einfach als „Flüsse“ bezeichnet werden. Der Datenpfad, den ein Datenstrom durchläuft, kann zusammen mit seinen Konfigurationsinformationen, die von Vermittlungsstellen verwaltet werden, als „Datenstromkanal“ bezeichnet werden. „Darüber hinaus werden die Begriffe „Puffer“ und „Warteschlange“ in dieser Offenlegung austauschbar verwendet.
zeigt ein beispielhaftes Netzwerk, das Flusskanäle ermöglicht. In diesem Beispiel kann ein Netzwerk 100 von Switches, das auch als „Switch-Fabric“ bezeichnet werden kann, Switches 102, 104, 106, 108 und 110 umfassen. Jeder Switch kann eine eindeutige Adresse oder ID innerhalb der Switch-Fabric 100 haben. Verschiedene Arten von Geräten und Netzwerken können mit einer Switch-Fabric verbunden werden. Beispielsweise kann ein Speicherarray 112 über den Switch 110 mit der Switch-Fabric 100 verbunden werden; ein InfiniBand (IB) basiertes HPC-Netzwerk 114 kann über den Switch 108 mit der Switch-Fabric 100 verbunden werden; eine Reihe von Endhosts, wie z. B. Host 116, kann über den Switch 104 mit der Switch-Fabric 100 verbunden werden; und ein IP/Ethernet-Netzwerk 118 kann über den Switch 102 mit der Switch-Fabric 100 verbunden werden. Im Allgemeinen kann ein Switch Edge-Ports und Fabric-Ports haben. Ein Edge-Port kann mit einem Gerät verbunden werden, das sich außerhalb der Fabric befindet. Ein Fabric-Port kann über eine Fabric-Verbindung mit einem anderen Switch innerhalb der Fabric verbunden werden.
Normalerweise kann der Verkehr über einen Eingangsport eines Edge-Switches in die Switch-Fabric 100 eingespeist werden und die Switch-Fabric 100 über einen Ausgangsport eines anderen (oder desselben) Edge-Switches verlassen. Ein Ingress-Edge-Switch kann injizierte Datenpakete in Flows gruppieren, die durch Flow-IDs identifiziert werden können. Das Konzept eines Datenflusses ist nicht auf ein bestimmtes Protokoll oder eine bestimmte Schicht (wie Schicht-2 oder Schicht-3 im OSI-Referenzmodell) beschränkt. Ein Datenfluss kann z. B. dem Datenverkehr mit einer bestimmten Quell-Ethernet-Adresse, dem Datenverkehr zwischen einer Quell-IP-Adresse und einer Ziel-IP-Adresse, dem Datenverkehr, der einem TCP- oder UDP-Port/IP-5-Tupel entspricht (Quell- und Ziel-IP-Adresse, Quell- und Ziel-TCP- oder -UDP-Portnummer und IP-Protokollnummer), oder dem Datenverkehr, der von einem auf einem Endhost laufenden Prozess oder Thread erzeugt wird, zugeordnet werden. Mit anderen Worten: Ein Fluss kann so konfiguriert werden, dass er Daten zwischen beliebigen physischen oder logischen Einheiten zuordnet. Die Konfiguration dieser Zuordnung kann per Fernzugriff oder lokal am Ingress Edge Switch vorgenommen werden.
Beim Empfang von injizierten Datenpaketen kann der Ingress Edge Switch dem Datenfluss eine Fluss-ID zuweisen. Diese Flow-ID kann in einem speziellen Header enthalten sein, den der Ingress Edge Switch zur Verkapselung der injizierten Pakete verwenden kann. Darüber hinaus kann der Ingress-Edge-Switch auch die ursprünglichen Header-Felder eines injizierten Pakets untersuchen, um die entsprechende Adresse des Egress-Edge-Switch zu ermitteln, und diese Adresse als Zieladresse in den Einkapselungs-Header aufnehmen. Beachten Sie, dass die Flow-ID ein lokal signifikanter Wert sein kann, der für eine Verbindung spezifisch ist, und dass dieser Wert nur für einen bestimmten Eingangsport auf einem Switch eindeutig sein kann. Wenn das Paket an den Next-Hop-Switch weitergeleitet wird, tritt das Paket in eine andere Verbindung ein, und die Flow-ID kann entsprechend aktualisiert werden. Da die Pakete eines Flusses mehrere Verbindungen und Switches durchlaufen, können die diesem Fluss entsprechenden Flow-IDs eine eindeutige Kette bilden. Das heißt, dass an jedem Switch, bevor ein Paket den Switch verlässt, die Flow-ID des Pakets auf eine Flow-ID aktualisiert werden kann, die von der ausgehenden Verbindung verwendet wird. Diese Eins-zu-Eins-Zuordnung zwischen den Fluss-IDs kann am Ingress-Edge-Switch beginnen und am Egress-Edge-Switch enden. Da die Fluss-IDs nur innerhalb einer eingehenden Verbindung eindeutig sein müssen, kann ein Switch eine große Anzahl von Flüssen aufnehmen. Wenn eine Fluss-ID beispielsweise 11 Bits lang ist, kann ein Eingangsanschluss bis zu 2048 Flüsse unterstützen. Darüber hinaus kann das Match-Muster (ein oder mehrere Header-Felder eines Pakets), das zur Zuordnung zu einem Datenfluss verwendet wird, eine größere Anzahl von Bits enthalten. Ein 32-Bit langes Abgleichmuster, das mehrere Felder in einem Paketkopf enthalten kann, kann beispielsweise 2^32 verschiedene Kopffeldmuster abbilden. Wenn eine Fabric über N Ingress-Edge-Ports verfügt, kann eine Gesamtzahl von N*2^32 identifizierbaren Flows unterstützt werden.
Ein Switch kann jedem Datenfluss eine eigene, dedizierte Eingangswarteschlange zuweisen. Diese Konfiguration ermöglicht es dem Switch, den Grad der Überlastung einzelner Datenströme zu überwachen und zu verwalten und eine Blockierung der Warteschlange zu verhindern, die auftreten könnte, wenn ein gemeinsamer Puffer für mehrere Datenströme verwendet wird. Wenn ein Paket an den Ziel-Egress-Switch geliefert wird, kann der Egress-Switch eine Bestätigung (ACK) in Upstream-Richtung über denselben Datenpfad an den Ingress-Edge-Switch zurücksenden. Da dieses ACK-Paket denselben Datenpfad durchläuft, können die Switches entlang des Pfades die Zustandsinformationen erhalten, die mit der Zustellung des entsprechenden Datenflusses verbunden sind, indem sie die Menge der ausstehenden, unbestätigten Daten überwachen. Diese Zustandsinformationen können dann verwendet werden, um ein flussspezifisches Verkehrsmanagement durchzuführen, um den Zustand des gesamten Netzes und eine faire Behandlung der Flüsse zu gewährleisten. Wie weiter unten näher erläutert, kann die Switch Fabric durch diese Warteschlangenbildung pro Datenfluss in Kombination mit flussspezifischen Zustellungsbestätigungen eine effektive, schnelle und genaue Staukontrolle implementieren. Im Gegenzug kann die Switch Fabric den Datenverkehr mit einer deutlich verbesserten Netzwerkauslastung bereitstellen, ohne dass es zu Überlastungen kommt.
Flows können dynamisch oder „on the fly“ je nach Bedarf eingerichtet und freigegeben werden. Insbesondere kann ein Fluss von einem Edge-Switch eingerichtet werden (z. B. wird die Zuordnung von Fluss-ID zu Paketkopf hergestellt), wenn ein Datenpaket am Switch ankommt und diesem Paket zuvor keine Fluss-ID zugewiesen wurde. Während dieses Paket das Netz durchläuft, können Flow-IDs an jedem Switch, den das Paket durchläuft, zugewiesen werden, und es kann eine Kette von Flow-IDs vom Eingang bis zum Ausgang gebildet werden. Nachfolgende Pakete, die zum selben Fluss gehören, können auf dem Datenpfad dieselben Fluss-IDs verwenden. Wenn Pakete an den Ziel-Egress-Switch zugestellt und ACK-Pakete von den Switches entlang des Datenpfads empfangen werden, kann jeder Switch seine Statusinformationen in Bezug auf die Menge der ausstehenden, nicht bestätigten Daten für diesen Fluss aktualisieren. Wenn die Eingangswarteschlange eines Switches für diesen Datenfluss leer ist und es keine weiteren unbestätigten Daten gibt, kann der Switch die Fluss-ID freigeben (d. h. diesen Flusskanal freigeben) und die Fluss-ID für andere Flüsse wiederverwenden. Durch diesen datengesteuerten dynamischen Mechanismus für die Einrichtung und den Abbau von Datenflüssen wird eine zentrale Verwaltung der Datenflüsse überflüssig, und das Netz kann schnell auf Änderungen der Verkehrsmuster reagieren.
Beachten Sie, dass sich die hier beschriebene Netzwerkarchitektur von Softwaredefinierten Netzwerken (SDN) unterscheidet, die in der Regel das OpenFlow-Protokoll verwenden. In SDN werden Switches von einem zentralen Netzwerk-Controller konfiguriert, und Pakete werden auf der Grundlage eines oder mehrerer Felder in den Headern der Schicht 2 (Datenverbindungsschicht, z. B. Ethernet), Schicht 3 (Netzwerkschicht, z. B. IP) oder Schicht 4 (Transportschicht, z. B. TCP oder UDP) weitergeleitet. Im SDN wird eine solche Header-FeldSuche an jedem Switch im Netzwerk durchgeführt, und es gibt keine schnelle, auf der Flow-ID basierende Weiterleitung, wie sie in den hier beschriebenen Netzwerken erfolgt. Da die OpenFlow-Header-Feldsuche mit ternärem inhaltsadressierbarem Speicher (TCAM) durchgeführt wird, können die Kosten für solche Suchen hoch sein. Da die Konfiguration der Header-Feld-Zuordnung von der zentralen Steuereinheit vorgenommen wird, ist der Auf- und Abbau jeder Zuordnungsbeziehung relativ langsam und kann eine beträchtliche Menge an Steuerverkehr erfordern. Infolgedessen kann die Reaktion eines SDN-Netzwerks auf verschiedene Netzwerksituationen, wie z. B. eine Überlastung, langsam sein. Im Gegensatz dazu können in dem hier beschriebenen Netzwerk die Flows dynamisch auf der Grundlage der Verkehrsnachfrage auf- und abgebaut werden, und die Pakete können mit einer Flow-ID fester Länge weitergeleitet werden. Mit anderen Worten: Flusskanäle können datengesteuert und dezentral verwaltet (d. h. eingerichtet, überwacht und abgebaut) werden, ohne dass ein zentraler Controller eingreifen muss. Darüber hinaus kann die auf der Fluss-ID basierende Weiterleitung die Menge des verwendeten TCAM-Speicherplatzes reduzieren, so dass eine viel größere Anzahl von Flüssen untergebracht werden kann.
Nehmen wir an, dass die Speichermatrix 112 Daten über TCP/IP an den Host 116 senden soll (siehe das Beispiel in ). Während des Betriebs kann die Speichermatrix 112 das erste Paket mit der IP-Adresse des Hosts 116 als Zieladresse und einem vorbestimmten TCP-Port, der im TCP-Header angegeben ist, senden. Wenn dieses Paket die Vermittlungsstelle 110 erreicht, kann der Paketprozessor am Eingangsport der Vermittlungsstelle 110 ein TCP/IP-5-Tupel dieses Pakets identifizieren. Der Paketprozessor der Vermittlungsstelle 110 kann auch feststellen, dass dieses 5-Tupel derzeit keiner Fluss-ID zugeordnet ist, und kann diesem 5-Tupel eine neue Fluss-ID zuweisen. Darüber hinaus kann die Vermittlungsstelle 110 den Ausgangs-Switch, d. h. den Switch 104, für dieses Paket anhand der IP-Adresse des Ziels (d. h. des Hosts 116) bestimmen (vorausgesetzt, die Vermittlungsstelle 110 weiß, dass der Host 116 mit dem Switch 104 verbunden ist). Anschließend kann der Switch 110 das empfangene Paket mit einem Fabric-Header einkapseln, der die neu zugewiesene Flow-ID und die Fabric-Adresse des Switches 104 angibt. Switch 110 kann dann die Weiterleitung des eingekapselten Pakets an Switch 104 auf der Grundlage einer Fabric-Weiterleitungstabelle planen, die von allen Switches in Fabric 100 unter Verwendung eines Routing-Algorithmus wie Link State oder Distance Vector berechnet werden kann.
Beachten Sie, dass die oben beschriebenen Vorgänge im Wesentlichen mit Leitungsgeschwindigkeit und mit geringer Pufferung und Verzögerung durchgeführt werden können, wenn das erste Paket empfangen wird. Nachdem das erste Paket verarbeitet und für die Übertragung eingeplant wurde, können nachfolgende Pakete desselben Datenflusses von der Vermittlungsstelle 110 noch schneller verarbeitet werden, da dieselbe Datenfluss-ID verwendet wird. Darüber hinaus können die Flusskanäle so gestaltet werden, dass die Zuweisung, der Abgleich und die Freigabe von Flusskanälen im Wesentlichen die gleichen Kosten verursachen. So können beispielsweise eine bedingte Zuweisung eines Flusskanals auf der Grundlage einer Nachschlageübereinstimmung und eine separate, unabhängige Freigabe eines anderen Flusskanals fast in jedem Taktzyklus gleichzeitig durchgeführt werden. Das bedeutet, dass die Erzeugung und Kontrolle der Flusskanäle fast keinen zusätzlichen Overhead zur regulären Weiterleitung von Paketen verursachen. Der Staukontrollmechanismus hingegen kann die Leistung einiger Anwendungen um mehr als drei Größenordnungen verbessern.
An jeder Vermittlungsstelle entlang des Datenpfads (einschließlich der Vermittlungsstellen 110, 106 und 104) kann ein dedizierter Eingangspuffer für diesen Datenfluss bereitgestellt werden, und die Menge der übertragenen, aber nicht quittierten Daten kann verfolgt werden. Wenn das erste Paket den Switch 104 erreicht, kann der Switch 104 feststellen, dass die Fabric-Zieladresse im Fabric-Header des Pakets mit seiner eigenen Adresse übereinstimmt. Daraufhin kann der Switch 104 das Paket aus dem Fabric-Header entkapseln und das entkapselte Paket an den Host 116 weiterleiten. Außerdem kann der Switch 104 ein ACK-Paket erzeugen und dieses ACK-Paket an den Switch 110 zurücksenden. Da dieses ACK-Paket denselben Datenpfad durchläuft, können die Switches 106 und 110 jeweils ihre eigenen Statusinformationen für die unbestätigten Daten für diesen Fluss aktualisieren.
Im Allgemeinen kann eine Überlastung des Netzes dazu führen, dass sich die Netzpuffer füllen. Wenn ein Netzpuffer voll ist, sollte der Verkehr, der den Puffer passieren will, idealerweise verlangsamt oder gestoppt werden. Andernfalls könnte der Puffer überlaufen, und die Pakete könnten verworfen werden. In herkömmlichen Netzen erfolgt die Staukontrolle in der Regel von Ende zu Ende am Rand. Es wird davon ausgegangen, dass der Kern des Netzes nur als „dumme Röhre“ fungiert, deren Hauptzweck die Weiterleitung des Datenverkehrs ist. Ein solches Netzdesign leidet oft unter langsamen Reaktionen auf Überlastungen, da Überlastungsinformationen oft nicht schnell an die Edge-Geräte gesendet werden können und die daraus resultierenden Maßnahmen, die von den Edge-Geräten ergriffen werden, nicht immer effektiv zur Beseitigung der Überlastung sind. Diese langsame Reaktion schränkt wiederum die Auslastung des Netzes ein, denn um das Netz staufrei zu halten, muss der Netzbetreiber häufig die Gesamtmenge des in das Netz eingespeisten Verkehrs begrenzen. Außerdem ist eine Endezu-Ende-Überlastungskontrolle in der Regel nur dann wirksam, wenn das Netz nicht bereits überlastet ist. Sobald das Netz stark überlastet ist, würde eine Ende-zu-Ende-Überlastungssteuerung nicht mehr funktionieren, da die Überlastungsmeldungen selbst überlastet sein können (es sei denn, für das Senden von Überlastungssteuerungsmeldungen wird ein separates Netz der Steuerungsebene verwendet, das sich vom Netz der Datenebene unterscheidet).
Im Gegensatz dazu können die Flusskanäle verhindern, dass eine solche Überlastung innerhalb der Switch-Fabric entsteht. Der Flow-Channel-Mechanismus kann erkennen, wenn ein Fluss einen gewissen Grad an Überlastung erfährt, und als Reaktion darauf neue Pakete desselben Flusses verlangsamen oder daran hindern, in die Fabric zu gelangen. Im Gegenzug können diese neuen Pakete in einer Flow-Channel-Warteschlange am Edge-Port zwischengespeichert werden und werden erst dann in die Fabric gelassen, wenn Pakete für denselben Flow die Fabric am Edge-Zielport verlassen. Durch diesen Prozess kann der Gesamtpufferbedarf dieses Flusses innerhalb der Fabric auf eine Menge begrenzt werden, die nicht dazu führt, dass die Fabric-Puffer zu voll werden.
Mit Flow Channels verfügen die Switches über relativ genaue Statusinformationen über die Menge der ausstehenden Daten, die sich innerhalb der Fabric im Transit befinden. Diese Zustandsinformationen können für alle Flows an einem Ingress-Edge-Port zusammengefasst werden. Das bedeutet, dass die gesamte Datenmenge, die von einem Ingress-Edge-Port eingespeist wird, bekannt sein kann. Folglich kann der Flow-Channel-Mechanismus eine Grenze für die Gesamtdatenmenge in der Fabric festlegen. Wenn alle Edge-Ports diese Begrenzung anwenden, kann die Gesamtmenge der Paketdaten in der gesamten Fabric gut kontrolliert werden, was wiederum verhindern kann, dass die gesamte Fabric gesättigt wird. Die Flusskanäle können auch den Fortschritt eines einzelnen überlasteten Flusses innerhalb der Fabric verlangsamen, ohne andere Flüsse zu verlangsamen. Mit dieser Funktion können Pakete von einem Stau-Hotspot ferngehalten werden, während gleichzeitig verhindert wird, dass die Puffer voll werden, und freier Pufferplatz für nicht zusammenhängenden Verkehr gewährleistet wird.
Betrieb des Strömungskanals
Im Allgemeinen können Flusskanäle einen Pfad für jede Kommunikationssitzung über die Switch-Fabric definieren. Der Pfad und die Datenmenge, die zu jedem Fluss gehören, können in einer Reihe von dynamisch verbundenen Flusstabellen beschrieben werden, die mit jeder Verbindung der Switch-Fabric verbunden sind. An jedem Eingangsport, Edge und Fabric kann eine Reihe von Flow-Channel-Warteschlangen definiert werden. Es kann eine Warteschlange für jeden Flusskanal geben. Wenn Pakete ankommen, können sie entweder einem Flusskanal an einem Edge-Port zugewiesen werden oder sie wurden einem Flusskanal durch den Egress-Fabric-Port des Link-Partners an einem Fabric-Eingangs-Port zugewiesen. Die Flow-Channel-Informationen können verwendet werden, um die Pakete in die entsprechende Flow-Channel-Warteschlange zu leiten.
zeigt einen beispielhaften Schalter, der Fließkanäle erleichtert. In diesem Beispiel kann der Schalter einen Kreuzschienenschalter 202 umfassen. Der Kreuzschienenschalter 202 kann eine Reihe von Eingangsanschlüssen, wie z. B. Eingangsanschluss 204, und eine Reihe von Ausgangsanschlüssen, wie z. B. Ausgang 208, haben. Der Kreuzschienenschalter 202 kann Pakete von einem Eingangsanschluss zu einem Ausgangsanschluss weiterleiten. Jeder Eingangsanschluss kann mit einer Reihe von Eingangswarteschlangen verbunden sein, die jeweils einem anderen ankommenden Datenstrom zugewiesen sind, der an diesem Eingangsanschluss ankommt. Beispielsweise können Daten, die an einem bestimmten Port des Switches ankommen, zunächst auf der Grundlage ihrer einzelnen Ströme getrennt und in strömungsspezifischen Eingangswarteschlangen, wie der Eingangswarteschlange 206, gespeichert werden. Die in den Eingangswarteschlangen gespeicherten Pakete können auf der Grundlage von Planungsalgorithmen zur Staukontrolle (die in späteren Abschnitten ausführlicher beschrieben werden) aus der Warteschlange genommen und an den Crossbar Switch 202 gesendet werden. Auf der Ausgangsseite kann ein Paket, sobald es den Crossbar-Switch 202 passiert hat, vorübergehend in einer Ausgangsübertragungswarteschlange gespeichert werden, z. B. in der Ausgangsübertragungswarteschlange 210, die von allen Strömen gemeinsam genutzt werden kann, die über denselben Ausgangsanschluss abgehen. Bevor ein Paket aus der Warteschlange für die Ausgangsübertragung entfernt und auf der abgehenden Verbindung übertragen wird, kann der Paketkopf mit der Fluss-ID für die abgehende Verbindung aktualisiert werden. Beachten Sie, dass diese Hop-by-Hop-Flow-ID-Zuordnung vorgenommen werden kann, wenn das erste Paket im Fluss das Netzwerk durchläuft. Wenn das Paket den Next-Hop-Switch erreicht, kann das Paket erneut in einer flussspezifischen Eingangswarteschlange gespeichert werden, und der gleiche Prozess kann wiederholt werden. Beachten Sie, dass eine Flow-ID verwendet wird, um zwischen Flüssen zu unterscheiden, die über dieselbe Fabric-Verbindung laufen, und dass sie in der Regel von der Senderseite dieser Verbindung zugewiesen werden kann, d. h. vom Ausgangsport des Switches, der auf dieser Verbindung sendet.
Durch die Bereitstellung flussspezifischer Eingangswarteschlangen kann der Switch jedem Fluss erlauben, sich unabhängig von allen anderen Flüssen zu bewegen. Der Switch kann das Head-of-Queue-Blocking-Problem vermeiden, das bei gemeinsamen Eingangspuffern häufig auftritt. Die flussspezifische Eingabewarteschlange ermöglicht es außerdem, die Pakete innerhalb eines einzelnen Flusses in der richtigen Reihenfolge zu halten. Wenn ein Datenfluss die Switches durchläuft, kann für diesen Fluss eine flussspezifische Eingangswarteschlange an jedem Eingangsanschluss zugewiesen werden, und diese Eingangswarteschlangen werden verknüpft, so dass sie effektiv eine lange Warteschlange bilden, die sich über die gesamte Fabric für diesen Fluss erstreckt, und die Pakete dieses Flusses können in der richtigen Reihenfolge gehalten werden.
Der Fortschritt der erfolgreichen Zustellung von Paketen, die zu einem Fluss gehören, kann durch eine Folge von ACKs gemeldet werden, die vom Edge-Port eines Egress-Switches erzeugt werden. Die ACK-Pakete können sich in umgekehrter Richtung entlang des von den Datenpaketen durchlaufenen Datenpfads bewegen und von den Vermittlungsstellen gemäß den in den Datenflusstabellen gespeicherten Weiterleitungsinformationen weitergeleitet werden. Während sich die ACK-Pakete stromaufwärts bewegen, können sie vom Eingangswarteschlangen-Manager jedes Switches verarbeitet werden, der die Zustandsinformationen des entsprechenden Flusses auf der Grundlage der in den ACK-Paketen enthaltenen Informationen aktualisieren kann. Die ACK-Pakete können ein Typ-Feld enthalten, um erweiterte Informationen über den nachgelagerten Datenpfad, z. B. eine Überlastung, bereitzustellen. Der Eingangswarteschlangen-Manager eines Switches kann diese Informationen nutzen, um Entscheidungen über die anstehenden Datenpakete, die derzeit in seinen Eingangswarteschlangen gepuffert sind, zu treffen, z. B. die Drosselung der Übertragungsrate oder die Änderung des Weiterleitungspfads. Darüber hinaus kann der Eingangswarteschlangenmanager die in einem ACK-Paket enthaltenen Informationen auf der Grundlage der Zustandsinformationen eines gepufferten Datenflusses aktualisieren, so dass die vorgelagerten Vermittlungsstellen die richtigen Entscheidungen treffen können. Wenn beispielsweise eine Eingangswarteschlange für einen bestimmten Datenfluss überlastet ist (z. B. wenn die Datenmenge in der Warteschlange einen vorgegebenen Schwellenwert überschreitet), kann der Eingangswarteschlangen-Manager ein ACK-Paket, das an die nächste vorgelagerte Vermittlungsstelle weitergeleitet wird, so aktualisieren, dass es diese Überlastungsinformationen enthält.
Wenn ein ACK dem letzten Paket eines Flusses entspricht, kann ein Switch feststellen, dass es keine weiteren unbestätigten Daten für diesen Fluss gibt. Dementsprechend kann der Switch den Flow-Kanal freigeben, indem er den entsprechenden Eintrag in der Flow-Tabelle entfernt.
Wie bereits erwähnt, kann der Eingangswarteschlangen-Manager an jeder Vermittlungsstelle Informationen über übertragene, aber nicht quittierte Daten eines bestimmten Datenflusses speichern. zeigt ein Beispiel dafür, wie Schalter entlang eines Datenpfads Informationen über den Status des Datenflusses speichern können. In diesem Beispiel kann der Datenpfad, der von einem Datenfluss durchlaufen wird, die Schalter 222, 224 und 226 umfassen. Die Menge der übertragenen, aber nicht bestätigten Flussdaten kann durch eine Variable „flow_extent“ angegeben werden, die in der Anzahl der Dateneinheiten fester Länge, z. B. 256 Byte, gemessen werden kann. Darüber hinaus können der „flow extent“ und andere Informationen über den Zustand des Datenflusses von der Warteschlangenverwaltung einer Vermittlungsstelle verwaltet werden, die alle flussspezifischen Warteschlangen kontinuierlich überwachen kann.
Im Beispiel in ist der Wert von flow extent am Eingangswarteschlangenmanager des Switches 1, da eine Dateneinheit aus der Eingangswarteschlange gesendet und über den Crossbar-Switch weitergeleitet wurde. Beachten Sie, dass ein von einer Eingangswarteschlange gesendetes Datenpaket aufgrund der Planung aller über eine Ausgangsverbindung zu übertragenden Datenpakete vorübergehend im Ausgangsübertragungspuffer zwischengespeichert werden kann. Wenn ein solches Paket im Sendepuffer des Ausgangsport gepuffert wird, kann das Paket von der Eingangswarteschlange zum Zweck der Aktualisierung des flow_extent-Wertes weiterhin als übertragen betrachtet werden.
Da die Eingabewarteschlange für den gegebenen Datenfluss am Schalter 226 sechs Dateneinheiten in der Warteschlange enthält und sich zwei zusätzliche Dateneinheiten im Transit zwischen den Schaltern 224 und 226 befinden, beträgt der flow_extent-Wert am Schalter 224 9. Entsprechend beträgt der flow extent-Wert am Schalter 222 13, da sich drei Dateneinheiten in der Eingabewarteschlange am Schalter 224 befinden und eine Dateneinheit im Transit zwischen den Schaltern 222 und 224.
Im Allgemeinen kann ein Flusskanal einem einzelnen Fluss zugewiesen bleiben, bis alle ACKs für alle über den Flusskanal gesendeten Pakete zurückgegeben wurden. Das bedeutet, dass Flow-Channel-Tabelleneinträge in der Nähe des Ingress-Edge-Ports des Netzes länger aktiv bleiben können als in der Nähe des Egress-Edge-Ports. Wenn ein einzelnes Paket in das Netz eingespeist wird, kann ein Flusskanal für den Eingangs-Edge-Port zugewiesen werden und dann ein weiterer Flusskanal für den nächsten Fabric-Link, den das Paket durchläuft, und so weiter, bis der letzte Flusskanal zugewiesen ist, wenn das Paket den letzten Fabric-Link erreicht. Jede Zuweisung kann eine Flow-ID erzeugen, die als Variable „flow_id“ bezeichnet wird, um die Einträge in den Flow-Tabellen des Fabric Link zu identifizieren. (Weitere Einzelheiten zu den Flusskanaltabellen sind in der nachfolgenden Beschreibung in Verbindung mit enthalten. ) Dieses erste Paket kann die Zuweisung einer anderen flow_id auf jeder der Fabric-Verbindungen verursachen, die das Paket über die Switch-Fabric durchläuft.
In der Eingangswarteschlange jedes Switches können die Flow-Channel-Tabelleneinträge die Zustandsinformationen jedes Flows, einschließlich des flow_extent-Werts, von diesem Punkt aus stromabwärts bis zum Egress-Ziel-Edge-Port des Flows angeben. Am lokalen Eingangsport empfangene Pakete können diesen flow extent-Wert um die Menge der eingehenden Daten erhöhen, und ACKs können den flow_extent-Wert um die Menge der bestätigten, zugestellten Daten verringern.
Wenn ein Paket den endgültigen Ziel-Egress-Port erreicht, kann ein ACK-Paket für dieses Paket erzeugt und zurückgeschickt werden. Dieses ACK-Paket kann unter Verwendung der Datenpfadinformationen weitergeleitet werden, die in dem entsprechenden Eintrag der Flusskanaltabellen an jedem Switch entlang des Datenpfads gespeichert sind. Optional muss das ACK-Paket selbst keine Pfadinformationen enthalten und kann daher klein und leicht sein. Wenn kein anderes Datenpaket auf dem Datenfluss gesendet wird, kann das ACK jeden Flusskanal in umgekehrter Reihenfolge freigeben. Nach der Freigabe kann der Flusskanal an jedem Switch einem anderen Fluss zugewiesen werden.
Folgt auf das erste Paket im gleichen Fluss ein weiteres Paket, müsste das ACK für das zweite Paket empfangen werden, bevor der Flusskanal an einem bestimmten Schalter freigegeben werden kann. In einer Ausführungsform kann der Flusskanal erst freigegeben werden, wenn ACKs für alle übertragenen Pakete desselben Flusses zurückgegeben wurden.
In der Regel erfordern verschiedene Protokolle eine geordnete Zustellung der Pakete. Die Flusskanäle können verwendet werden, um diese Zustellungsreihenfolge zu gewährleisten, selbst wenn die Fabric adaptives Routing für den Lastausgleich über mehrere Datenpfade verwendet. Wenn Pakete zwischen einem Ingress-Edge-Port und einem Egress-Edge-Port, vielleicht in einem anderen Switch auf der anderen Seite der Fabric, mit einer sehr niedrigen Rate eingespeist werden, dann könnte jedes eingespeiste Paket sein Ziel erreichen und ein ACK zurück an die Quelle senden, bevor das nächste Paket eingespeist wird. In diesem Fall kann jedes Paket ein Lead-Paket sein und jeden beliebigen Weg über die Fabric nehmen, wobei die beste verfügbare dynamische adaptive Routing-Auswahl verwendet wird. Dies ist möglich, weil das erste Paket den Weg des Datenflusses durch die Fabric bestimmen kann.
Nehmen wir nun an, dass die Paketinjektionsrate leicht erhöht wird, so dass das nächste Paket desselben Datenflusses injiziert wird, bevor das ACK des aktuellen Pakets zur Quelle zurückgekehrt ist. Das zweite Paket kann das ACK des ersten Pakets irgendwo auf dem Datenpfad des Flusses passieren. Jenseits dieses Übergabepunkts hat das ACK die dem ersten Paket zugewiesenen Flusskanäle freigegeben, da der mit dem ersten Paket verbundene flow_extent-Wert auf Null zurückgesetzt wird, wenn das ACK von der Logik des Flusskanals verarbeitet wird. In der Zwischenzeit kann das zweite Paket nun einen neuen Fluss definieren, da es erneut die Zuweisung von Flusskanälen auf jeder der nachfolgenden Fabric Links verursacht. Dieses zweite Paket kann, während es die Zuweisung von Flusskanälen über den Übergabepunkt hinaus bewirkt, auf der Grundlage des dynamischen adaptiven Routings an einen anderen Pfad weitergeleitet werden. Andererseits kann das zweite Paket vor dem Übergabepunkt den ausstehenden Fluss, der durch das erste Paket erzeugt wurde, um das zweite Paket erweitern. Das bedeutet, dass die ACK des ersten Pakets den Wert von flow extent nicht auf Null reduzieren kann und die Flusskanäle vor dem Übergabepunkt aktiv bleiben können. Es bedeutet auch, dass das zweite Paket genau dem Weg folgen kann, den das erste Paket bis zum Übergabepunkt genommen hat. Beachten Sie, dass das zweite Paket, während es dem vorherigen Paket folgt, nicht vor dem ersten Paket am Egress-Edge-Port ankommen kann, so dass die korrekte Reihenfolge der Pakete beibehalten werden kann.
Wenn die Injektionsrate für diesen Fluss weiter erhöht wird, wird das zweite Paket das ACK des ersten Pakets an einer Stelle passieren, die näher am Ziel-Edge-Port liegt. Es ist auch möglich, dass ein drittes, viertes, fünftes oder zusätzliches Paket in das Netz gelangt, bevor das ACK des ersten Pakets an den Quell-Edge-Port zurückgesendet wird, abhängig von der Datenpaket-Injektionsrate dieses Flusses und der Datenpaket-ACK-Roundtrip-Verzögerung. Die maximale Paketrate kann von der Größe der Pakete und der Bandbreite der Verbindungen abhängen. Die Round-Trip-Verzögerung des Datenpakets und des ACK kann ein wichtiger Parameter für eine Fabric-Implementierung sein und kann zusammen mit der maximalen Paketrate verwendet werden, um die maximal erforderliche Anzahl von Flusskanälen für jede Verbindung zu berechnen. Im Idealfall kann ein Entwurf unabhängig vom Verkehrsmuster eine angemessene Anzahl von nicht zugewiesenen Flusskanälen bereitstellen. Der Bedarf an Flow Channels kann hoch sein, wenn eine große Anzahl von Paketen mit unterschiedlichen Zielen an einem Ingress-Edge-Port eintrifft und diese Pakete kleine Größen und hohe Injektionsraten haben. Im extremsten Fall könnte jedem Paket ein anderer Datenflusskanal zugewiesen werden. Diese Flusskanäle werden freigegeben, wenn die ACKs der Pakete zurückgegeben werden. Dementsprechend kann die Anzahl der benötigten Flusskanäle berechnet werden als ((Paketrate) * (durchschnittliche Paket-zu-ACK-Latenzzeit)).
Beachten Sie, dass die Paketrate auf einem einzelnen Flusskanal nicht mit der Paketrate auf einer Verbindung verwechselt werden darf. Wenn das Verkehrsmuster so beschaffen ist, dass viele kleine Pakete an verschiedene Ziele gesendet werden, dann können aufeinanderfolgende Pakete, die auf der Verbindung gesendet werden, verschiedene Ziele haben. Das bedeutet, dass jedes Paket zu einem anderen Fluss gehören könnte und das einzige Paket sein könnte, das den entsprechenden Flusskanal nutzt. In diesem Beispiel kann die Verbindung eine hohe Paketrate aufweisen, aber die Paketrate der einzelnen Flüsse kann niedrig sein. Optional kann eine Anzahl von ACKs (z. B. 48 ACKs) für die Übertragung über eine Verbindung zu einem einzigen ACK-Rahmen zusammengefasst und durch eine Rahmenprüfsequenz (z. B. eine 32-Bit-FCS) geschützt werden. Die ACKs können z. B. jeweils 25 Bit belegen, und der Rahmen kann einen Overhead von 9 Byte enthalten. Das heißt, der Overhead pro ACK bei einem Rahmen voller Größe beträgt ungefähr 9/(25/8 * 48) * 100% = 6%. Die Logik kann die Anzahl der ACKs pro Frame optimieren, so dass eine ACK nicht zu lange warten muss, um aggregiert zu werden, wenn die ACKs langsam eintreffen. Der Logikblock für die ACK-Aggregation kann z. B. drei Zeitgeber verwenden, um die ACK-Übertragung auf der Grundlage der Aktivität einer ausgehenden Verbindung zu steuern. Diese Zeitgeber können gestartet werden, wenn ein neues ACK beim ACK-Aggregationslogikblock eintrifft. Wenn die ausgehende Verbindung im Leerlauf ist, kann ein erster Zeitgeber, der beispielsweise auf 30 ns eingestellt werden kann, verwendet werden, um die ACK zu halten, während auf das Eintreffen weiterer ACKs gewartet wird. Wenn dieser Timer abläuft, können alle innerhalb des entsprechenden Zeitfensters empfangenen ACK zu einem Rahmen zusammengefasst und auf die abgehende Verbindung übertragen werden. Ist die ausgehende Verbindung ausgelastet, kann ein zweiter Timer, der z. B. auf 60ns eingestellt werden kann, verwendet werden, um auf weitere ACKs zu warten. Durch die Verwendung dieses zweiten Timers können mehr ACKs in einem einzigen Frame zusammengefasst werden, und dieser Frame kann nur übertragen werden, wenn eine vorher festgelegte Anzahl von ACKs gesammelt wurde. Es ist zu beachten, dass aufgrund der Beschränkungen des Ethernet-Rahmens eine bestimmte Anzahl von ACKs in einem einzigen Rahmen weniger Leitungsbandbreite pro ACKs beanspruchen kann als eine andere Anzahl von ACKs. Wenn keine effiziente Anzahl von ACKs gesammelt wird und die ausgehende Verbindung weiterhin mit dem Senden normaler Datenpakete beschäftigt ist, kann ein dritter Timer verwendet werden, der z. B. auf 90ns eingestellt werden kann. Sobald dieser dritte Zeitgeber abläuft, können alle gesammelten ACKs in einem Rahmen zusammengefasst und auf die Verbindung übertragen werden. Durch die Verwendung dieser drei Zeitgeber kann das System den Overhead für das Senden von ACKs auf der abgehenden Verbindung erheblich reduzieren.
In einigen Beispielen kann der Eingangs-Edge-Port eines Switches ein empfangenes Datenpaket mit einem Fabric-Header einkapseln, was die Weiterleitung des Pakets über Flow-Channels ermöglicht. zeigt einen beispielhaften Fabric-Header für ein Datenpaket. Der Fabric-Header kann ein flow_id-Feld enthalten, das den Flusskanal identifizieren kann, und ein „data_flow“-Feld, das den Verlauf des gesamten Flusses angeben kann.
Wenn ein Datenpaket an sein Ziel zugestellt wird, kann mindestens ein ACK erzeugt werden. zeigt ein beispielhaftes ACK-Paketformat. Ein ACK-Paket kann ein „flow_id“-Feld, ein „ack_flow“-Feld, ein „ACK type“-Feld und ein CRC-Feld (cyclic redundancy check) enthalten. Das „flow_id“-Feld kann den Fluss angeben, zu dem dieses ACK-Paket gehört. Das „ack_flow“-Feld kann dem „data_flow“-Wert entsprechen, der zu dem Datenpaket gehört, das dieses ACK-Paket bestätigt. Es sei daran erinnert, dass jeder Switch einen flow_ extent-Wert beibehalten kann, der die Menge der übertragenen, aber nicht quittierten Daten angibt. Der Wert von flow_extent kann wie folgt abgeleitet werden flow extent = data flow - ack_ flow, wobei der data_ flow-Wert dem zuletzt übertragenen Datenpaket entnommen wird.
Das Feld ACK-Typ kann verschiedene Arten von ACKs angeben. Wie bereits erwähnt, kann im Normalbetrieb, wenn ein Datenpaket an den Ziel-Edge-Port geliefert wird, ein normales ACK-Paket erzeugt und an die Quelle zurückgeschickt werden. Dementsprechend kann das ACK-Typ-Feld im ACK-Paket ein normales ACK anzeigen. Wenn eine Überlastung auftritt, kann das ACK-Typ-Feld verwendet werden, um verschiedene Arten und Schweregrade von Überlastungen anzuzeigen, z. B. eine neue Überlastung eines Flusses, eine anhaltende Überlastung eines Flusses, eine schwere Überlastung am Ausgangs-Edge-Port oder eine lokale Überlastung in der Mitte der Fabric, die eine Umleitung des Flusses erfordert, um die Last über die gesamte Fabric auszugleichen. Darüber hinaus kann unter besonderen Umständen, wie z. B. bei einer stark überlasteten Fabric-Verbindung, verworfenen Paketen oder Verbindungsfehlern, ein ACK auch von einem Zwischen-Switch erzeugt werden, der nicht das endgültige Ziel ist, und das ACK-Typ-Feld kann verwendet werden, um Upstream-Switches über verschiedene Arten von Netzwerkbedingungen zu informieren. Auch andere zusätzliche Felder können in ein ACK-Paket aufgenommen werden.
zeigt die Beziehung zwischen verschiedenen Variablen, die zur Ableitung und Aufrechterhaltung von Zustandsinformationen eines Flusses verwendet werden. In diesem Beispiel kann eine Vermittlungsstelle die Variable „total_extent“ verwenden, um die Gesamtmenge der unbestätigten übertragenen Daten und der Daten, die sich derzeit in der Warteschlange der Vermittlungsstelle befinden, zu verfolgen. Der Wert von „total extent“ kann der Summe von „flow_ extent“, d. h. der Menge der übertragenen und unbestätigten Daten, und „queue_extent“, d. h. der Menge der in der Eingangswarteschlange für den entsprechenden Fluss gespeicherten Daten, entsprechen. Die Variable „ack_flow“ kann die Datenposition angeben, die dem letzten ACK für diesen Datenfluss entspricht. Die Variable „data_flow“ kann die Position des nächsten zu übertragenden Datenpakets angeben, die ebenfalls dem Datenpaket entspricht, das am Anfang der Eingangswarteschlange gespeichert ist. Die Variable „next_data_flow“ kann die Position des nächsten Datenpakets angeben, das der Switch vom Upstream-Switch erwarten kann. Es ist zu beachten, dass queue extent = next data flow - data flow, und flow_extent = data_ flow - ack_flow.
In einigen Beispielen können Flow-Channel-Tabellen verwendet werden, um Flow-Channels in einer Fabric zu erleichtern. Flusskanaltabellen sind Datenstrukturen, die die Weiterleitungs- und Statusinformationen für einen bestimmten Fluss am Anschluss eines Switches speichern. zeigt ein Beispiel dafür, wie Flow-Channel-Tabellen verwendet werden können, um Statusinformationen zu speichern, die mit mehreren Flows verbunden sind. Diese Zustandsinformationen können für jeden Fluss spezifisch sein und effizient in einer Tabelle gespeichert werden. Angenommen, ein Quellhost 402 sendet Datenpakete über eine Fabric an einen Zielhost 404. Der Datenpfad, den die Datenpakete durchlaufen, kann einen Eingangs-Edge-Switch 406, Zwischen-Switches 408 und 430 sowie einen Ausgangs-Edge-Switch 432 umfassen.
Wenn ein Paket auf einer Eingangs-Edge-Verbindung 403 des Switches 406 ankommt, kann der Header des Pakets von einem Adressübersetzungslogikblock 410 analysiert werden. Der Adressübersetzungslogikblock 410 kann die Fabric-Zieladresse des Ausgangsschalters (in diesem Fall Schalter 432) auf der Grundlage der Ethernet-, IP- oder HPC-Kopfinformationen des Pakets bestimmen. Beachten Sie, dass Header-Informationen, die mit anderen Protokollen oder einer Kombination verschiedener Protokolle verbunden sind, auch vom Adressübersetzungslogikblock 410 verwendet werden können. Die vom Adressübersetzungslogikblock 410 ermittelte Fabric-Zieladresse kann dann verwendet werden, um eine Suche in einer Edge-Flow-Channel-Tabelle (EFCT) 412 durchzuführen. Die EFCT 412 kann eine Nachschlageoperation für das Paket durchführen, wobei die Fabric-Zieladresse des Pakets und optional zusätzliche Werte verwendet werden, die aus dem Header des Pakets extrahiert werden, was als Übereinstimmungsmuster bezeichnet werden kann. EFCT 412 kann das Übereinstimmungsmuster des Pakets mit den gespeicherten Übereinstimmungsmustern aller vorhandenen zugewiesenen Flüsse vergleichen. Wird eine Übereinstimmung gefunden, dann ist dieses Paket Teil eines bestehenden Flusses und die zuvor zugewiesene Fluss-ID kann für dieses Paket zurückgegeben werden. Wird keine Übereinstimmung gefunden, kann für dieses Paket eine neue Fluss-ID zugewiesen und ein Übereinstimmungsmuster zu EFCT 412 hinzugefügt werden. Mit anderen Worten: EFCT 412 kann verwendet werden, um festzustellen, ob für das eingehende Paket bereits ein Flusskanal existiert oder ob ein neuer Flusskanal zugewiesen werden muss. Neben der Fabric-Zieladresse können auch andere Paketkopfinformationen wie Verkehrsklasse, TCP- oder UDP-Portnummer und Prozess- oder Thread-ID verwendet werden, um Flow-IDs zuzuordnen oder zuzuweisen.
Die von der EFCT 412 erhaltene Fluss-ID kann dann als Index für die Zuordnung zu einem Eintrag in einer Eingangsflusskanaltabelle (IFCT) 414 verwendet werden. Jeder Eintrag in der IFCT 414 kann durch eine Fluss-ID indiziert werden und Zustandsinformationen für den entsprechenden Fluss speichern. Ein Eintrag in der IFCT 414 kann die Werte von next_data_flow, data_ flow und ack_flow (siehe ) speichern, die mit einem Datenfluss verbunden sind. Darüber hinaus kann ein IFCT-Eintrag andere Parameter für die Staukontrolle und das dynamische Routing für einen Datenfluss speichern.
Die Fluss-ID kann auch zur Identifizierung oder Zuweisung einer flussspezifischen Eingangswarteschlange verwendet werden, in der das eingehende Paket vorübergehend gespeichert werden kann. Die Zustandsinformationen für eine bestimmte Warteschlange sowie Parameter für die Überwachung und Steuerung der Warteschlange (z. B. Schwellenwert für die Erkennung einer Überlastung) können in dem entsprechenden Eintrag in IFCT 414 gespeichert werden. Ein Logikblock für die Verwaltung der Eingangswarteschlange kann auf der Grundlage von Flusssteuerungsparametern, die in dem Eintrag in IFCT 414 gespeichert sind, bestimmen, wann ein Paket aus der Eingangswarteschlange entfernt und an einen Datenkreuzschienenschalter 413 gesendet werden kann.
Wenn ein Paket aus der Eingangswarteschlange entfernt und über den Crossbar-Switch 413 an einen Ausgangsport gesendet wird, wird das Paket mit der Nummer des Eingangsports gesendet, an dem es am Switch 406 angekommen ist. Wenn das Paket den Sendepuffer eines Ausgangsports erreicht, kann der Kopf des Pakets auf der Grundlage der Fluss-ID und der Eingangsportnummer des Pakets mit einer neuen Fluss-ID aktualisiert werden, die von der nächsten Vermittlungsstelle (d. h. Vermittlungsstelle 408) für denselben Fluss verwendet wird. Dies liegt daran, dass jede Verbindung in jeder Richtung über eine eigene Gruppe von Flusskanälen verfügen kann, die durch ihre jeweiligen Fluss-IDs identifiziert werden. Die Zuordnung von der eingehenden Flow-ID zur ausgehenden Flow-ID, die auf der nächsten Verbindung verwendet wird, kann durch Nachschlagen in einer Output Flow Channel Table (OFCT) 416 erfolgen. Die OFCT 416 kann eine Suche anhand eines Übereinstimmungsmusters durchführen, das eine Kombination aus der lokalen Eingangsanschlussnummer, die der Verbindung 403 entspricht, und der Fluss-ID des Pakets ist, die von der EFCT 412 erzeugt wird. Wird eine Übereinstimmung gefunden, so wurde der Fluss bereits definiert, und die Fluss-ID des Pakets wird mit dem Wert aktualisiert, der dem Übereinstimmungsmuster entspricht (diese neue ausgehende Fluss-ID wird vom nachgeschalteten Next-Hop-Switch 408 verwendet). Wird keine Übereinstimmung gefunden, kann ein neuer Datenflusskanal mit einer neuen, ausgehenden Datenfluss-ID zugewiesen werden, die auf die Eingangsanschlussnummer und die vorherige, eingehende Datenfluss-ID abgebildet werden kann. Ein Eintrag mit der Kennung des ausgehenden Verkehrsflusses, der Nummer des Eingangsanschlusses und der Kennung des eingehenden Verkehrsflusses kann im OFCT 416 gespeichert werden.
In dem Fall, dass das Paket das erste Paket im Fluss ist, würde ein Nachschlagen in OFCT 416 keine Zuordnung ergeben. Im Gegenzug kann OFCT 416 dem Paket einen Flusskanal mit einer Fluss-ID zuweisen, der vom Eingangsanschluss und IFCT 418 am Switch 408 verwendet wird. Dieser neue Flusskanal, der durch seine Fluss-ID identifiziert wird, kann dem Paketkopf für die Übertragung auf der Verbindung 417 hinzugefügt werden und kann von der IFCT 418 des Verbindungspartners (d. h. des Switches 408) verwendet werden, um auf die Überlastungsinformationen des Flusskanals zuzugreifen. Wie zuvor kann OFCT 424 einen neuen Flusskanal generieren, wenn keine Übereinstimmung gefunden wird, indem es das Übereinstimmungsmuster seiner unmittelbaren Upstream-Eingangsportnummer und der mit der Verbindung 417 verbundenen Fluss-ID verwendet. OFCT 424 kann dann einen neuen Flusskanal zuweisen, der durch eine neue Fluss-ID identifiziert wird. Beachten Sie, dass OFCT 416 auch als Weiterleitungstabelle für ACKs dieses Flusses in Upstream-Richtung fungieren kann. Nachdem das ACK-Paket vom Switch 408 an den Switch 406 weitergeleitet wurde, kann es mit der dem Edge Link 403 zugeordneten Flow-ID aktualisiert und an den entsprechenden Eingangsport des Switches 406 weitergeleitet werden, wie durch den entsprechenden Eintrag in OFCT 416 angegeben. Die ACK-Pakete können von einem ACK-Crossbar-Switch 415 in Upstream-Richtung an den Eingangsport weitergeleitet werden.
Wenn das Paket dann bei der Vermittlungsstelle 408 ankommt, kann seine Fluss-ID verwendet werden, um eine zu verwendende Eingangswarteschlange zu identifizieren und einen Eintrag in IFCT 418 zu bestimmen. Wenn die Fluss-ID des Pakets nicht zuvor von der Vermittlungsstelle 408 zugewiesen wurde, kann eine neue Eingangswarteschlange bereitgestellt und ein neuer Eintrag in IFCT 418 erstellt werden. Von diesem Punkt an kann ein ähnlicher Prozess durchgeführt werden, um das Paket über die Vermittlungsstellen 408 und 430 weiterzuleiten, bis das Paket die Ausgangsvermittlung 432 erreicht.
Wenn das Paket den Switch 432 erreicht, nachdem es von einem Daten-Crossbar-Switch 423 weitergeleitet wurde, kann ein ACK-Generator-Logikblock 420 ein ACK-Paket auf der Grundlage der Flow-ID des Pakets und der Eingangsportnummer erzeugen. Dieses ACK-Paket kann dann durch einen ACK-Crossbar-Switch 422 in die Upstream-Richtung weitergeleitet werden. Gleichzeitig kann ein IFCT 421 auf der Grundlage des ACK-Pakets die Zustandsinformationen für den Fluss in dem entsprechenden Tabelleneintrag aktualisieren. Wenn das ACK-Paket den Switch 430 erreicht, kann ein OFCT 419 nachgeschlagen werden, um die Upstream-Flow-ID und den Upstream-Eingangsport zu bestimmen, an den das ACK-Paket weitergeleitet werden soll. Die Fluss-ID des ACK-Pakets kann dann aktualisiert und an den entsprechenden Eingangsanschluss in Upstream-Richtung weitergeleitet werden. Während das ACK-Paket den Datenpfad stromaufwärts auf ähnliche Weise durchläuft, kann der IFCT an jedem Switch seinen Tabelleneintrag für den Fluss auf der Grundlage des ACK aktualisieren.
Beachten Sie, dass die Variable flow_extent ein wichtiger Parameter sein kann, da sie die Gesamtmenge der nachgelagerten Paketdaten für einen Fluss darstellt. Ein Flow-Kanal gilt als frei, um einem anderen Flow neu zugewiesen zu werden, wenn der flow_ extent eines Eintrags Null ist. Im Allgemeinen kann die Eingangslogik beim Empfang eines neuen Pakets eine Anforderung zum Senden von Daten an einen Ausgangsanschluss stellen. Der ausgewählte Ausgangsport kann eine Funktion des im IFCT gespeicherten flow_ extent sein. Wenn flow_ extent gleich Null ist, gibt es keine Pakete, die im Fluss zum Ziel-Egress-Edge-Port nachgelagert sind. Infolgedessen kann der Switch eine lastbasierte adaptive Routenauswahl verwenden, um einen beliebigen gültigen Pfad zu wählen, der zum Ziel führt. In einem Netz mit mehreren Pfaden kann das dynamische adaptive Routing durchgeführt werden, ohne dass die Pakete neu geordnet werden müssen. Ist flow_ extent ungleich Null und ist eine ordnungsgemäße Zustellung erforderlich, kann das Paket denselben Weg benutzen, den die vorherigen Pakete genommen haben. Der IFCT kann ein Feld haben, das die Nummer eines früheren Ausgangsportes speichert, die geladen wird, wenn eine Paketanforderung an einen Ausgangsport gestellt wird, und die verwendet werden kann, um eine Verbindung mit dem zuvor verwendeten Ausgangsport sicherzustellen.
Wie bereits erwähnt, können die Flow Channels eine Match-Funktion verwenden, um Pakete zu erkennen, die zu einem bestehenden Flow gehören. Empfangene Ethernet-Rahmen oder andere Arten von Paketen können in Echtzeit analysiert werden, wenn der Rahmen oder das Paket an einem Eingangs-Edge-Port empfangen wird, und einige Felder des Paketkopfes können für eine Suche in einem CAM oder Ternary Content Addressable Memory (TCAM) verwendet werden. Wenn es eine Übereinstimmung gibt, kann die Übereinstimmungsadresse die Fluss-ID werden, die zur Auswahl eines Flusskanals verwendet wird. Wenn keine Übereinstimmung vorliegt, kann die Switch-Hardware das Muster, das nicht übereinstimmt, direkt in eine freie Zeile des CAM laden, was ohne zusätzliche Verzögerung erfolgen kann. Infolgedessen kann jedes nachfolgende Paket an diesen neuen Eintrag angepasst werden, ohne dass ein erheblicher Pufferbedarf entsteht. Der gewählte freie Eintrag wird die neue Fluss-ID für den neuen Flusskanaleintrag. Beachten Sie, dass für das Laden des neuen Eintrags kein externer Softwareeingriff erforderlich ist. Der Prozess kann autonom von der Switch-Hardware durchgeführt werden.
Die Aufhebung der Zuweisung von Fluss-IDs und entsprechenden CAM-Match-Linien kann auch automatisch von der Hardware vorgenommen werden, wenn das letzte ACK für den Fluss zurückgegeben wird. Die Aufhebung der Zuweisung kann in Bezug auf potenziell passende neue Pakete in der Hardware erfolgen, ohne dass externe Software eingreift.
In einigen Beispielen kann der Eingangs-Edge-Switch 406 einen Fine-Grain-Flusssteuerungslogikblock 434 enthalten, der mit einem Netzwerkschnittstellen-Controller (NIC) 401 auf dem Host 402 kommunizieren kann, um die Flusssteuerung auf einer Einzelflussbasis anzuwenden. Weitere Einzelheiten zur Flusssteuerung nach dem Feinkornprinzip werden weiter unten in Verbindung mit der Beschreibung des Überlastungsmanagements erläutert.
zeigt ein Beispiel für einen EFCT. In diesem Beispiel kann ein EFCT ein data_flow-Feld 454, ein ACK_flow-Feld 456 und optional zusätzliche Felder enthalten. Der EFCT kann mit einem Eingangsanschluss verbunden sein, und die Einträge im EFCT können durch flow_ID-Werte, wie flow_ID 452, indiziert werden. In einer Ausführungsform kann sich das Abgleichsmusterfeld im Abgleichsfunktionslogikblock befinden, der ein CAM oder TCAM enthalten kann. Der Abgleichsfunktionslogikblock kann das Abgleichsmuster verwenden, um den flow_ID-Wert zu erzeugen, der wiederum als Index für den entsprechenden EFCT-Eintrag verwendet werden kann. Aus der Sicht dieser EFCT kann der flow_ extent (d. h. data flow - ack_flow) alle unbestätigten Daten nach dieser Tabelle umfassen, was die lokale flow_queue plus den flow_extent-Wert der entsprechenden IFCT einschließen kann.
zeigt ein Beispiel für einen IFCT. In diesem Beispiel kann ein IFCT einem Eingangsanschluss zugeordnet sein und ein follow_port-Feld 466, ein next_data_flow-Feld 468, ein data_ flow-Feld 470, ein ACK_ flow-Feld 472, ein epcongestion-Feld 474, ein upstream metering (UM)-Flag-Feld 477, ein downstream metering (DM)-Flag-Feld 478 und optional zusätzliche Felder enthalten. Der flow_ID-Wert eines eingehenden Pakets, z. B. flow_ID 464, kann als Index verwendet werden, um die Nummer des Ausgangsportes, die durch das follow_port-Feld 466 angegeben wird, und die mit dem entsprechenden Fluss verbundenen Zustandsinformationen nachzuschlagen. Staukontrollinformationen im Zusammenhang mit Endpunktstau (z. B. ep_congestion-Feld 474) und (hop-by-hop credit-based flow control) (z. B. UM-Flag-Feld 477 und DM-Feld 478), die später in diesem Dokument ausführlicher beschrieben werden, können ebenfalls im IFCT gespeichert werden. Die IFCT kann ferner Informationen über die dynamische Leitweglenkung in Verbindung mit verschiedenen Strömen speichern.
zeigt ein Beispiel für einen OFCT. In diesem Beispiel kann ein OFCT einem Ausgangsport zugeordnet sein und ein input_port-Feld 482, ein input_port_flow_ID-Feld 484 (das der bestehenden flow_ID eines Pakets bei dessen Ankunft an einem Eingangsport entspricht), ein data_flow-Feld 486, ein ACK_flow-Feld 488 und optional zusätzliche Felder enthalten. Das data_ flow-Feld 486 und das ACK_ flow-Feld 488 können verwendet werden, um den Wert von flow_ extent ab diesem OFCT zu bestimmen. Die Kombination aus input_port-Feld 482 und input_port_flow_ID-Feld 484 (das auch als „incoming tlow_ID“ bezeichnet werden kann) kann verwendet werden, um die outgoing flow_ID eines Pakets zu bestimmen oder zuzuweisen, das für die Übertragung auf der diesem OFCT entsprechenden abgehenden Verbindung bereit ist. In einer Ausführungsform können die abgehenden flow_ ID-Werte, wie flow ID 486, als Index zum Nachschlagen von Einträgen in der OFCT verwendet werden.
Im Allgemeinen ist es wünschenswert, eine logische Partitionierung des Netzes zu implementieren, so dass verschiedene Endhosts und Anwendungen getrennt werden können. Der VLAN-Mechanismus im Ethernet ist ein solches Beispiel. Die Implementierung eines logischen Partitionierungsschemas basiert auf der Fähigkeit, den Verkehr als zu einer bestimmten Partition gehörig zu identifizieren und zu verhindern, dass der Verkehr fälschlicherweise an ein Zielsegment geliefert wird, das nicht zu dieser Partition gehört. Um dies zu erreichen, kann der Switch im vorliegenden System in einer Ausführungsform ein eindeutiges Header-Feld namens Virtual Network Identifier (VNI) verwenden, das in jedem Frame im Fabric-Format L2-Header enthalten ist. Der VNI kann zum Beispiel 16 Bits lang sein. Die Definition der Bits im VNI-Feld kann je nach ausgedrücktem Protokoll unterschiedlich sein.
Für Datenverkehr, der benutzerdefinierte Protokolle wie Portale oder das Anfrage/Antwort-Protokoll der Fabric nutzt, kann das 16-Bit-VNI-Feld beispielsweise in ein 8-Bit-Partitionsfeld und ein 8-Bit-JobID- oder Anwendungs-ID-Feld unterteilt werden. Das Partitionsfeld kann verwendet werden, um einen physischen Port als Mitglied einer bestimmten Partition zu identifizieren. Das JobID-Feld kann ein Schutzkennzeichen enthalten, das HPC-Anwendungen Zugriff auf ein bestimmtes Speichersegment gewährt. In einer Ausführungsform kann die JobID von einem Betriebssystemdienst bereitgestellt und von der NIC an der Quelle sicher hinzugefügt werden. Am Zielort wird die JobID überprüft, bevor auf das Speichersegment zugegriffen wird, das zuvor als zu einem bestimmten Auftrag oder Dienst gehörig identifiziert worden sein muss.
Für den Ethernet-Verkehr kann das Partitionierungsschema des Netzes auf der VLAN-Architektur basieren, wie sie in der IEEE 802. I Q-Spezifikation beschrieben ist, obwohl es Unterschiede in der Art und Weise geben kann, wie die Header-Felder in Bezug auf die Partitionierung definiert und eingesetzt werden.
Alle Rahmen, die das Netz über die Switch-Fabric durchqueren, können einen Fabric-Header enthalten. Dieser Header kann das VNI-Feld enthalten. Die Zugehörigkeit zu einer bestimmten Partition kann von einem Partitionsmanager zugewiesen werden. Je nach dem im Netz implementierten Vertrauensmodell gibt es zwei Mechanismen zum Einfügen des VNI-Werts. In einer Ausführungsform ist ein vertrauenswürdiges Betriebssystem ein Betriebssystem, dem die Zuweisung der Mitgliedschaft in einer Partition zugetraut werden kann; ein nicht vertrauenswürdiges Betriebssystem ist ein Betriebssystem, dem dies nicht zugetraut werden kann. Im letzteren Fall kann der VNI-Wert von einem vertrauenswürdigen Akteur zugewiesen werden.
In Fällen, in denen das Betriebssystem des Endknotens nicht vertrauenswürdig ist, kann der Switch den VNI-Wert am Ingress-Edge-Port zuweisen und dabei jedes VLAN-Feld im vorhandenen Ethernet-L2-Header ignorieren. In diesem Modus kann die minimale Granularität die Zuweisung des Edge-Ports zu einer bestimmten Partition sein. In einer Ausführungsform ist die Aufteilung des Verkehrs von diesem Port in verschiedene Partitionen nicht zulässig.
In Fällen, in denen das Betriebssystem des Endknotens vertrauenswürdig ist, kann der Switch am Ingress-Edge-Port das VLAN-Feld des Frames verwenden, um den VNI-Wert zuzuweisen. Dies bedeutet, dass Ressourcen innerhalb des Endknotens verschiedenen Partitionen zugewiesen werden können, selbst wenn diese Ressourcen denselben Anschluss nutzen. Dies hat zur Folge, dass man sich darauf verlassen kann, dass das Betriebssystem das richtige VLAN für eine bestimmte Art von Datenverkehr verwendet. In diesem Fall stellt der Switch sicher, dass nur die autorisierte Gruppe von VLANs von jedem Port in die Fabric zugelassen wird.
In beiden Fällen kann die Partitionserzwingung vom Switch durchgeführt werden, wenn ein Paket die Fabric über einen Edge-Port verlässt und entweder für einen NIC-Port oder ein anderes Ethernet-Gerät bestimmt ist.
Bei einer NIC, die den VNI-Mechanismus kennt, kann die NIC das VNI-Feld direkt in den Paketkopf einfügen, wenn das Paket in die Fabric injiziert wird. Dadurch kann die Partitionierung bis zum Endknoten erweitert werden.
Die unteren Bits der VNI können auch dazu verwendet werden, die Trennung der Warteschlangen von Anwendungen beim Eintritt in die Fabric und beim Austritt aus ihr zu steuern. Auf diese Weise können verschiedene Anwendungen unabhängig von den von ihnen verursachten Verkehrsmustern beim Zugriff auf die Fabric auf faire Weise getrennt werden. Wenn diese Trennung erwünscht ist, kann das System die Zuweisung von VNI-Nummern einschränken, und es kann eine einzige globale VNI-Nummernzuweisungsrichtlinie verwendet werden.
Exemplarische Schalterarchitektur
In einer Ausführungsform kann ein Switch-Chip, der die vorgenannten Merkmale unterstützt, 64 Netzwerkanschlüsse bereitstellen, von denen jeder mit 100 oder 200 Gbit/s arbeiten kann, mit einem Gesamtdurchsatz von 12,8 Tbit/s. Andere Anzahlen von Anschlüssen und Datenraten sind ebenfalls möglich. Jeder Netzwerk-Edge-Port kann verschiedene Arten von Protokollen unterstützen, z. B. IEEE 802.3 Ethernet, optimierte IP-basierte Protokolle und HPC-Portal-Protokoll. Ethernet-Frames können auf der Grundlage ihrer Layer-2-Adressen überbrückt oder auf der Grundlage ihrer Layer-3-Adressen (IPv4/IPv6) geroutet werden. Optimized-IP-Frames haben nur einen Layer-3-Header (IPv4/IPv6) und werden daher in der Regel auf der Grundlage von Layer-3-Adressen geroutet. Die erweiterten Portals-Format-Frames verwenden in der Regel spezielle NICs und können direkt auf das erweiterte Fabric-Format des Switches abgebildet werden.
Wenn ein Switch-Chip mit einem anderen Switch-Chip verbunden ist, können sie über das erweiterte Fabric-Frame-Format kommunizieren, das zusätzliche Steuer- und Statusfelder zur Unterstützung einer Multi-Chip-Fabric bereitstellt. Eines der Unterscheidungsmerkmale der gegenwärtigen Switch-Architektur im Vergleich zu Ethernet-Switches oder alternativen Technologien wie InfiniBand besteht darin, dass der gegenwärtige Switch eine Flow-Channel-basierte Staukontrolle bieten kann. Das erweiterte Fabric-Frame-Format, das zwischen den Switch-Chips arbeitet, kann eine Vorwärts- und Rückwärtspfad-Signalisierung des Zustands von Flüssen ermöglichen.
In einer Ausführungsform kann der Switch-Chip auf der Grundlage einer Crossbar-Architektur mit kombinierter virtueller Ausgangswarteschlange und Crossbar-Warteschlange implementiert werden. Die Pufferung und Weiterleitung von Datenpaketen kann mit einem kreditbasierten Anforderungs- und Gewährungsmechanismus erfolgen.
zeigt eine beispielhafte Schalterarchitektur. In einer Ausführungsform kann der Switch-Chip einen Empfänger (RX)-Block 502 und einen Sender (TX)-Block 504 umfassen. Wenn der Datenverkehr vom RX-Block 502 empfangen wird und der Switch-Chip als Edge-Switch konfiguriert ist, können die Datenpakete an einen Ethernet-Look-Up-Block (ELU) 506 gesendet werden. Der ELU-Block 506 kann eine Adressübersetzung (Lookup) von einer externen MAC- oder IP-Adresse (hauptsächlich, aber es können auch andere Header-Felder verwendet werden) in die interne Fabric-Adresse (FA) vornehmen. ELU-Block 506 kann auch eine Zuordnung von der eigenen Verkehrsklassenkennung eines Pakets (z. B. Ethernet-Verkehrsklasse) zu einer Fabric-Verkehrsklassenkennung vornehmen, die durch ein Fabric-Tag (FTAG) in einem Fabric-Header identifiziert werden kann.
In einer Ausführungsform können Pakete im IEEE 802.3- und Optimized-IP-Format durch den ELU-Block 506 geleitet werden. Der ELU-Block 506 kann geeignete Kopfzeilen zur Verwendung im Suchprozess extrahieren und ein Suchergebnis an einen Ethernet-Eingangs-Warteschlangen (EIQ)-Block 508 zurückgeben, der Kopfzeilen für die Flusskanalzuweisung im EFCT-Block 510 in eine Warteschlange stellt. Der EIQ-Block 508 kann auch die Adressen von Paketen, die im Eingangspuffer (IBUF) Block 512 gespeichert sind, mit ihrem übersetzten Header verknüpfen. Bei IEEE 802.3- und optimierten IP-Paketen kann der ELU-Block 506 einen Lookup durchführen, um Felder für die Weiterleitung der Pakete innerhalb der Fabric zu erstellen.
Für einen Edge-Port am Eingang kann der EIQ-Block 508 die Paketköpfe in eine Warteschlange stellen und darauf warten, dass der EFCT-Block 510 einen Flusskanal zuweist. Wenn dem EFCT-Block 510 die Flusskanäle ausgehen, kann sich die FIFO-Warteschlange im EIQ-Block 508 füllen, und bei Überschreiten konfigurierbarer Schwellenwerte können Pausenpakete erzeugt werden. Für Pakete, die von einem Fabric-Port empfangen werden, ist keine Zuweisung eines Flusskanals erforderlich, und daher werden ihre Kopfzeilen nicht in die Warteschlange des EIQ-Blocks 508 gestellt.
Ein mit dem IBUF-Block 512 gekoppelter Input-Header-Block (IHDR) 514 kann Änderungen an einem empfangenen Paket vornehmen und die Fabric-Header-Felder eines Pakets aktualisieren. Der IHDR-Block 514 kann Paketdaten, Eingangszeitstempel und Grant-Header (die Änderungsdaten und Anweisungen enthalten können) vom IBUF-Block 512 empfangen. Solche Modifikationen können das Entfernen verschiedener Ethernet-Schicht-2-Kopffelder und das Hinzufügen eines Fabric-Headers umfassen. Der IHDR-Block 514 kann Pakete „on the fly“ modifizieren, wenn sie aus dem IBUF-Block 512 ausgelesen und an die Datenkreuzschiene 516 gesendet werden.
Der IBUF-Block 512 kann unveränderte Pakete speichern, wenn sie vom Switch-Chip empfangen werden, und kann verschiedene Formate unterstützen. Die gespeicherte Paketadresse, bei der es sich um einen Zeiger mit der Bezeichnung sop_ptr handelt, und der Index des Pakets können vom IBUF-Block 512 an den EIQ-Block 508 gesendet werden, der das Paket mit dem Header-Lookup-Ergebnis des ELU-Blocks 506 abgleichen kann.
Zu einem bestimmten Zeitpunkt wird jedes im IBUF-Block 512 gespeicherte Paket entweder auf der Grundlage einer über eine Grant-Kreuzschiene 518 und einen Input Queues (INQ)-Block 520 (siehe unten) gesendeten Genehmigung über die Daten-Kreuzschiene 516 an einen Zielanschluss gesendet oder verworfen. Beide Vorgänge können auf der Grundlage eines Verweises auf sop_ptr durchgeführt werden. Ein Grant kann auch andere Felder aus ELU-Block 506 und EFCT 510 enthalten, die mit dem Paket an IHDR-Block 514 gesendet werden können. Der IHDR-Block 514 kann seinerseits die Steuerinformationen aus dem Grant-Header verwenden, um geeignete Paketänderungen vorzunehmen, bevor das Paket über die Datenkreuzschiene 516 an den Zielport weitergeleitet wird. Wenn der Puffer im IBUF-Block 512 voll ist, können konfigurierbare Schwellenwerte überschritten werden, die verschiedene Flusskontroll- und Überlastungsmanagementmechanismen auslösen können.
EFCT 510 kann Paketen abhängig von der FTAG, der Zieladresse und der VNI Flusskanäle zuweisen. Das Übereinstimmungsmuster kann die Trennung zwischen Flüssen mit separaten Ordnungs- und Prioritätseinschränkungen zwischen denselben Quell- und Ziel-Fabric-Ports ermöglichen. Typischerweise können verschiedene Kerne auf einem Knoten mit unterschiedlichen VNI betrieben werden, und diese Trennung der Flüsse ermöglicht die Entkopplung der verschiedenen Kerne.
Wenn der Übereinstimmungswert derzeit eindeutig ist, kann ein neuer Flusskanal zugewiesen werden. Wenn der Übereinstimmungswert mit dem Übereinstimmungswert eines bereits zugewiesenen Flusskanals identisch ist, wird das Paket dem entsprechenden bestehenden Fluss zugewiesen. Die Größe des Pakets kann verwendet werden, um den data_flow-Wert des Flusses zu erhöhen. In einer Ausführungsform kann für einen Edge Port ein OFCT 522 als EFCT verwendet werden. Die Bestätigungen, die von nachgelagerten Flusskanaltabellen zurückgegeben werden, werden verwendet, um den ack_ flow-Wert eines Flusses zu erhöhen. Wenn dieser Wert mit dem data flow-Wert übereinstimmt, kann der Flusskanal automatisch freigegeben und sein Übereinstimmungsmuster ungültig gemacht werden.
Der INQ-Block 520 kann die Header-Anforderungen vom EIQ-Block 508 und bei einem Ingress Edge Port auch vom EFCT 510 empfangen. Der INQ-Block 520 kann die Suchergebnis-Kopfzeile in seinen Kopfzeilen-RAMs speichern. Der Zeiger auf jeden Header kann in einer von mehreren Warteschlangen gespeichert werden, die auf dem entsprechenden Flusskanal des Headers basieren. An den Edge-Ports können die Paketköpfe für die Weiterleitung in einer Art und Weise arbitriert werden, die durch Anwendungsgruppen (APPGs) fair ist, die dazu verwendet werden können, Anwendungen in verschiedene Verkehrsklassen einzuteilen. An Fabric-Ports können Header auf der Grundlage ihrer Flusskanäle arbitriert werden. Wenn ein Header für das Routing in Frage kommt, kann er an einen Fabric Routing Function (FRF)-Block 524 und anschließend auch an einen IFCT 526 weitergeleitet werden.
Der FRF-Block 524 kann die Routing-Funktion auf der Grundlage der Netztopologie ausführen und den Ausgangsport (oder die Ports für Multicast) auswählen, an den ein Paket weitergeleitet werden soll. Dieses Routing-Ergebnis kann an IFCT 526 weitergeleitet werden, wo es mit dem Rest des Headers kombiniert wird, und IFCT 526 kann entweder das Ergebnis von FRF-Block 524 verwenden oder sich dafür entscheiden, die vorherige Route für einen bestimmten Fluss zu verwenden, wenn die Einhaltung der Paketreihenfolge wichtig ist. IFCT 526 kann dann das Weiterleitungsergebnis (d. h. die Ausgangsanschlussinformationen für ein bestimmtes Paket) als neue Anforderung an den INQ-Block 520 zurückgeben. Diese Anforderung kann dann verwendet werden, um das Paket so zu planen, dass es die Datenkreuzschiene 516 in Richtung des gewünschten Ausgangsports durchläuft.
Die Anforderung kann dann in eine Anforderungs-Warteschlange (oder - Warteschlangen) im INQ-Block 520 auf der Grundlage einer Formgebungsfunktion, die dem Flusskanal entspricht, einer Kennung für einen virtuellen Kanal (VC) und dem Ausgangsanschluss eingeordnet werden. (Man beachte, dass VCs verwendet werden können, um eine physische Verbindung in Gruppen virtueller Verbindungen zu unterteilen, um Deadlocks zu vermeiden). Nach der Arbitrierung kann die Anforderung über eine Anforderungskreuzschiene 528 an einen Alterswarteschlangenblock (AGEQ) 530 gesendet werden. Später kann über die Grant-Kreuzschiene 518 ein entsprechender Grant zurückgegeben werden. Wenn die Gewährung zurückgegeben wird, kann der INQ-Block 520 den entsprechenden Header abrufen und ihn an den IBUF-Block 512 zurücksenden, wo der Header wieder mit seiner Nutzlast verbunden wird, bevor er an den IHDR-Block 514 und anschließend an die Datenkreuzschiene 516 weitergeleitet wird.
Wie bereits beschrieben, kann IFCT 526 die Menge der in den lokalen Warteschlangen für den Datenfluss gepufferten Daten messen. Es kann auch die Menge der unbestätigten Daten messen, die dem Datenstrom nachgelagert sind. IFCT 526 kann auch zurückgegebene Quittungscodewerte in seinen Tabellen speichern und diese flussspezifischen Zustandsinformationen zusammen mit den durch den FTAG-Wert eines Pakets indizierten Konfigurationsinformationen verwenden, um zu bestimmen, ob der Kopf der empfangenen Pakete weitergeleitet, verworfen oder länger gewartet werden soll. Der Fall „warten lassen“ kann realisiert werden, indem der Header nicht aus der Warteschlange des Datenflusses entfernt wird. Der Header kann schließlich aus der Warteschlange entfernt werden, und die Entscheidung über Weiterleitung, Verwerfen oder Wartenlassen kann erneut getroffen werden. In einer Ausführungsform kann IFCT 516 eine „Discard“-Schnittstelle zum IBUF-Block 512 haben, die es ermöglicht, den sop_ptr-Wert an den IBUF-Block 512 zu übergeben, wenn ein Paket verworfen werden soll. Daraufhin kann der Kopf des Pakets verworfen werden, bevor es in eine Anforderungswarteschlange aufgenommen wird. IFCT 516 kann außerdem die entsprechenden Statistiken für verworfene Pakete inkrementieren.
Der FRF-Block 524 kann für jedes empfangene Paket Routing-Anforderungen vom INQ-Block 520 empfangen und für jede Routing-Anforderung eine Routing-Antwort an den IFCT 526 zurücksenden. Die Routing-Antwort kann angeben, an welchen Port oder welche Ports das Paket weitergeleitet werden soll und an welchen VC es weitergeleitet werden soll. Bei Nicht-Multicast-Anfragen kann die Antwort sowohl einen bevorzugten Port als auch einen Satz akzeptabler Ports angeben, an die das Paket weitergeleitet werden kann, wodurch IFCT 526 die Möglichkeit erhält, den bevorzugten Port für einen neuen Fluss oder einen umgeleiteten Fluss zu verwenden oder für einen bestehenden Fluss den aktuellen Pfad über einen Port beizubehalten, der möglicherweise nicht die aktuelle bevorzugte Wahl des FRF-Blocks 524 ist. Im Falle von Fehlern kann der FRF dem IFCT auch mitteilen, dass es keinen legalen Port gibt, an den das Paket weitergeleitet werden kann. Wenn dies der Fall ist, wird das Paket verworfen.
Die Routing-Entscheidungen des FRF-Blocks 524 können auf einer Kombination aus softwarekonfigurierbaren, tabellenbasierten Regeln, dynamischen Lastinformationen und Pseudo-Zufallsauswahl beruhen. Die Regeln können Faktoren wie das Ziel des Pakets, die Position auf seinem Weg (z. B. Quellgruppe, Zwischengruppe, Zielgruppe, Zielschalter), den VC, auf dem es empfangen wird, und die Art des Ports (Edge, lokal oder global), an dem es empfangen wird, berücksichtigen. AGEQ-Block 530 kann den FRF-Block 524 mit der aktuellen Last versorgen, die an der Ausgangsseite des einer bestimmten FRF-Instanz zugeordneten Ports vorliegt. Jede FRF-Instanz kann mit jeder anderen FRF-Instanz innerhalb des Switch-Chips kommunizieren, um die aktuelle Last an jedem Ausgangsport und den Status der Verbindung nach oben/unten für jeden Port zu erfahren. FRF-Instanzen können auch mit FRF-Instanzen in benachbarten Switch-Chips kommunizieren, um den lastbezogenen Status der benachbarten Geräte zu erfahren. In einer Ausführungsform kann der FRF-Block 524 so konfiguriert werden, dass er mehrere Netztopologien unterstützt.
Der AGEQ-Block 530 kann Anfragen von allen Eingangsanschlüssen über die Anforderungsquerleiste 528 entgegennehmen, sie zwischenspeichern, zwischen ihnen nach Verkehrsklassen unter Verwendung eines Traffic Shapers entscheiden und sie an den OFCT-Block 522 weiterleiten, damit ihnen die Grant-Querleiste 518 gewährt wird. Die Pufferung von Anfragen innerhalb des AGEQ-Blocks 530 kann so verwaltet werden, dass jeder Eingang genügend Platz zum Senden von Anfragen hat, während ein Eingang mit mehreren Strömen, die auf einen bestimmten Ausgang abzielen, mehr Platz benötigt. Der AGEQ-Block 530 kann auch für die Verwaltung des Zugriffs auf die Verbindung verantwortlich sein, indem er entweder eine kreditbasierte Flusskontrolle für den IBUF-Block eines benachbarten Switch-Chips oder eine pausenbasierte Flusskontrolle für Nicht-Fabric-Links verwendet. Wenn ein Paket von AGEQ-Block 530 freigegeben wird (d. h. für das Paket, das im IBUF-Block 512 wartet, wird eine entsprechende Erlaubnis erteilt), muss das Paket auf die abgehende Verbindung gelegt werden. Darüber hinaus kann der AGEQ-Block 530 einen Pfad aufweisen, der es Paketen, die an einem bestimmten Anschluss initiiert werden (z. B. Wartungs- oder Verkleinerungspakete), ermöglicht, sich um Ressourcen an diesem Anschluss zu bemühen.
OFCT 522 kann so programmiert werden, dass er entweder als EFCT für einen Egress Edge Port oder als OFCT für einen Fabric Port arbeitet. Wenn der Block als EFCT für einen Egress-Edge-Port programmiert ist, können die vom AGEQ-Block 530 empfangenen Header weitgehend unverändert durch den EFCT zur Grant-Crossbar 518 geleitet werden. Der EFCT kann auch neue ACKs von einem Ausgangspuffer (OBUF) Block 532 empfangen, um Pakete zu bestätigen, die die Fabric verlassen. Diese ACKs können an die ACK-Kreuzschiene 534 zurückgesendet werden und werden die ACKs sein, die die Flüsse in den vorgelagerten Flusstabellen schließen. Der EFCT kann auch Überlastungsmeldungen erzeugen, wenn der AGEQ-Block 530 eine Überlastung meldet. Dieser Stau an einem Egress-Edge-Port stellt in der Regel ein Incast-Forming dar und wird dazu verwendet, den Fluss am Ingress-Edge-Port zu verlangsamen.
Für den Fabric-Port-Betrieb kann OFCT 522 die Zuweisung der Flusskanäle für den nächsten Hop-Switch über eine abgehende Verbindung verwalten. Es kann mit dem IFCT des Fabric-Link-Partners zusammenarbeiten und Erweiterungen für die Flows erstellen, die das IFCT des Link-Partners zur Verwaltung des Vorwärtsfortschritts der Pakete verwenden kann.
OFCT 522 kann auch die von der Fabric-Verbindung empfangenen ACKs verwalten und diese ACKs über die ACK-Kreuzschiene 534 stromaufwärts zurücksenden. Nachdem ein bestehender Fluss erstellt oder erweitert wurde, kann OFCT 522 die flow ID- und data_flow-Werte generieren, die durch den IHDR-Block 514 zum Next-Hop-Fabric-Header hinzugefügt werden können, und diese Werte dem Grant hinzufügen, der mit anderen Header-Werten an die Grant-Crossbar 518 zurückgegeben wird.
Der Ausgangspuffer (OBUF) Block 532 kann Pakete erfassen, die über die Datenkreuzschiene 516 an den entsprechenden Ausgangsanschluss gesendet wurden. Die Pakete können z. B. auf vier verschiedenen Spaltenbussen ankommen und werden z. B. in vier separate FIFO-Warteschlangen eingereiht (ausführlicher erläutert in Verbindung mit ). Der OBUF-Block 532 kann zwischen diesen FIFO-Warteschlangen vermitteln, indem er prüft, ob jedes Paket ein Datenreduktionspaket ist. Jedes Datenreduktionspaket, das mit einem Deskriptor im RED-Block 534 übereinstimmt, kann vom RED-Block 534 verbraucht werden. Alle anderen Pakete können in die elastische FIFO-Warteschlange eingereiht werden, wo sie darauf warten, zur ausgehenden Verbindung übertragen zu werden. Der OBUF-Block 532 kann einen Ausgangs-Arbiter enthalten, der Pakete aus der elastischen FIFO-Warteschlange, abgeschlossene Reduktionspakete aus dem RED-Block 534, Steuerpakete aus einem Control Packet Transmitter (CFTX)-Block 536 und injizierte Pakete von einer Management-Schnittstelle zur Übertragung an die ausgehende Verbindung auswählen kann.
Der OBUF-Block 532 kann auch ACK-Werte erzeugen, um eine Überlastung in der Mitte des Netzes anzuzeigen, wenn der AGEQ-Block 530 beginnt, sich zu füllen oder ACKs zu verwerfen, wenn der AGEQ-Block 530 ein Paket verworfen hat.
In einer Ausführungsform kann ein Kontrollpaket-Empfänger (CFRX) Block 538 alle kontrollbezogenen Pakete verarbeiten, die aus dem IBUF-Block 512 extrahiert werden können. Diese steuerungsrelevanten Pakete können u. a. Überlastungssignalisierungspakete, Pakete zur Vergabe von Flusssteuerungskrediten und Flusskanal-ACKs umfassen. Die Überlastungssignalisierungsinformationen können an den FRF-Block 524 gesendet und für Routing-Entscheidungen verwendet werden. Die kreditbasierten Flusssteuerungsinformationen können an den AGEQ-Block 530 gesendet werden, um die Weiterleitung von Paketen an den nachgeschalteten Switch zu planen. ACKs können an OFCT 522 gesendet werden, der wiederum den Eingangsanschluss identifizieren kann, an den die ACK weitergeleitet werden soll, und anschließend an die ACK-Kreuzschiene 534 gesendet werden.
Dementsprechend kann der CFTX-Block 536 die ACKs (auf der Grundlage von IFCT 526), die kreditbasierten Flusskontrollpakete (auf der Grundlage des Zustands des IBUF-Blocks 512) und die Überlastungssignalisierungspakete an den entsprechenden Ausgangsport senden.
OBUF-Block 532 kann auch eine Kreditrückmeldung an AGEQ-Block 530 erzeugen, die den für ausgehende Datenpakete verfügbaren Landeplatz angibt (zu beachten ist, dass dieser Kredit für die Crossbar-Planung zwischen Eingängen und Ausgängen der Crossbar verwendet wird und sich von den Krediten unterscheidet, die für die Flusssteuerung zwischen den Vermittlungsstellen verwendet werden). Diese Kreditinformationen werden vom AGEQ-Block 530, gegebenenfalls über eine Kredit-Kreuzschiene 540, an den INQ-Block 520 weitergeleitet, der diese Kreditinformationen zur Planung der Paketentnahme aus dem IBUF-Block 512 verwendet.
Wie bereits erwähnt, kann es in einem Switch-Chip fünf Crossbars geben: Request Crossbar 528, Grant Crossbar 518, Credit Crossbar 540, ACK Crossbar 534 und Data Crossbar 516.
Die Anforderungskreuzschiene 528 kann Anforderungen von einem Eingang an den AGEQ-Block des Zielausgangs senden. Ein Kreditprotokoll kann verwendet werden, um zu gewährleisten, dass am Ausgang ein Landeplatz für eine Anforderung vorhanden ist. Jede Anforderung kann einen Zeiger (sop_ptr) auf den Speicherort des Pakets im IBUF-Block 512 enthalten.
Die Grant-Kreuzschiene 518 kann einen Grant an den Eingang zurückgeben, der eine Anforderung erfüllt. Die Gewährung kann den Zeiger (sop_ptr) zurückgeben. Ein Grant wird nur zurückgegeben, wenn im OBUF-Block 532 Platz für das entsprechende Paket vorhanden ist. Die Gewährung kann optional auch ein Guthaben für den angeforderten Speicherplatz im OBUF-Block 532 zurückgeben.
Die Guthaben-Kreuzschiene 540 kann Guthaben für angeforderten Speicherplatz im OBUF-Block 532 zurückgeben. Die ACK-Kreuzschiene 534 kann ACK-Pakete auf der Grundlage von OFCT 522 von den Ausgangsanschlüssen zu den Eingangsanschlüssen weiterleiten. Die Daten-Kreuzschiene 516 kann bewilligte Pakete vom IBUF-Block 512 in den Ziel-OBUF-Block 532 übertragen. Bewilligungen werden nur zurückgegeben, wenn ein garantierter Landeplatz für das Paket am Ausgang vorhanden ist, so dass Pakete nicht blockiert werden können.
zeigt eine beispielhafte Kreuzschiene. In diesem Beispiel kann eine Kreuzschienen-Kachelmatrix 550 für die Weiterleitung von Daten, ACKs, Anforderungen, Zuschüssen und Gutschriften verwendet werden. Die Daten-Crossbar kann Multitakt-Pakete mit Headern und Datennutzlast weiterleiten, während die anderen vier Crossbars nur Header von Paketen mit einem Takt weiterleiten. Alle fünf Crossbars können dieselbe Grundarchitektur verwenden. Wie in gezeigt, kann die Kreuzschienen-Kachelmatrix 550 ein 64x64-Gerät sein, das aus einer 8x4-Matrix von 32 Kreuzschienen-Kacheln besteht. Jede Kachel kann ein 16x8-Kreuzschienenschalter mit 16 Eingängen sein, einer für jeden Anschluss in der entsprechenden Zeile (z. B. Zeile 552), und 8 Ausgängen, einer für jeden Anschluss in der entsprechenden Spalte (z. B. Spalte 554).
zeigt eine beispielhafte Architektur einer Crossbar-Kachel. In diesem Beispiel kann eine Crossbar-Kachel 570 16 Eingangsanschlüsse und 8 Ausgangsanschlüsse haben. Der Eingangspuffer eines jeweiligen Eingangsanschlusses, z. B. Eingang 0, kann in separate virtuelle Ausgangswarteschlangen, z. B. Warteschlange 572, unterteilt werden. Jede virtuelle Ausgangswarteschlange entspricht einem entsprechenden Ausgangsanschluss. Durch die Anordnung der virtuellen Ausgangswarteschlangen kann eine Blockierung der Eingangswarteschlangen vermieden werden. Darüber hinaus gibt es an jedem Kreuzschienen-Schaltpunkt eine Kreuzschienen-Warteschlange, wie z. B. Warteschlange 574, die ein Paket aufnehmen kann, das von einem entsprechenden Eingang auf einem Zeilenbus an den entsprechenden Spaltenbus gesendet wird. Durch die Kreuzschienen-Warteschlangen können Blockierungen auf den Ausgangsbussen (Spaltenbussen) vermieden werden, und die Spaltenbusse können in einem viel größeren Umfang genutzt werden. Während des Betriebs erfolgt die Übertragung eines Pakets von einem Eingang zu einem Ausgang mit einem „requestgrant“-Mechanismus. In der ersten Runde der Arbitrierung kann jede virtuelle Ausgangswarteschlange eine Anfrage zum Senden ihres gespeicherten Pakets (falls vorhanden) stellen. Die Übertragung der Anforderungen aller virtuellen Ausgangswarteschlangen von einem Eingang aus erfolgt durch einen Eingangs-Arbiter, z. B. den Arbiter 576. Sobald diese Anforderungen gestellt sind, werden die entsprechenden Bewilligungen von einem Output-Scheduler erteilt. Nachdem die Zuweisungen an den Eingangsanschlüssen eingegangen sind, werden die entsprechenden Datenpakete aus der Warteschlange der virtuellen Ausgangswarteschlangen entfernt und über den Crossbar-Switch weitergeleitet. Die Pakete werden dann in den Crossbar-Warteschlangen für den entsprechenden Ausgangsbus (Spalte) zwischengespeichert. Ein zweiter Arbiter, z. B. der Arbiter 578, kann verwendet werden, um die Entnahme von Paketen aus den mehreren Crossbar-Warteschlangen, die einem bestimmten Spaltenbus entsprechen, zu planen.
Zurück zu : Jede Zeile kann 16 Zeilenbusse (z. B. Zeilenbus 553) haben, die Eingangsdaten an alle Kacheln in dieser Zeile weiterleiten. Jede Spalte kann über 8 Spaltenbusse (z. B. Spaltenbus 555) verfügen, die die weitergeleiteten Daten an die entsprechenden Ausgangsports liefern. Zeilenbusse können von jeder Quelle in einer Zeile zu allen 8 Kreuzschienen-Kacheln in dieser Zeile geleitet werden. Jede Reihe kann identische Verbindungen mit den One-to-All-Reihenbusverbindungen für eine einzelne Reihe haben. Die Arbitrierung kann an der Kreuzschiene von den 16 Zeilenbussen in dieser Zeile zu den 8 Spaltenbussen in einer bestimmten Spalte erfolgen. An jeder 16x8-Kreuzschienenkachel für jeden der Zeilenbusse ist eine Pufferung vorgesehen, um Pakete während der Zeiten aufzufangen, in denen es zu einem Wettbewerb um einen Spaltenbus kommt. In einer Ausführungsform wird ein Nicht-Jumbo-Paket nur dann auf einen Zeilenbus gelegt, wenn im Eingangspuffer der Ziel-Crossbar Platz für das gesamte Paket ist. Um Platz auf dem Chip zu sparen, können Jumbo-Pakete auf einem Zeilenbus platziert werden, auch wenn der Platz nicht ausreicht, wobei der Zeilenbus blockiert wird, bis das Paket die Arbitrierung gewinnt und Platz frei wird, wenn es auf einen Spaltenbus verschoben wird (d.h. der Eingangspuffer kann nur so groß sein, dass er ein Nicht-Jumbo-Paket aufnehmen kann). Spaltenbusse können von einer bestimmten Kreuzschiene zu jedem Zielport innerhalb einer Spalte geführt werden. Jeder Zielport führt eine weitere Arbitrationsebene zwischen den Spaltenbussen der 4 Zeilen durch. Mit 16 Zeilenbussen, die 8 Kreuzschienen ansteuern, von denen jede 8 Spaltenbusse speist, kann eine 4-fache Beschleunigung zwischen Zeilen und Spalten erreicht werden.
In einer Ausführungsform können sowohl Zeilen- als auch Spaltenbusse ein kreditbasiertes Protokoll verwenden, um zu bestimmen, wann sie senden können (siehe Arbiters 576 und 578 in ). Im Falle von Zeilenbussen kann der Quellanschluss die Anzahl der Guthaben für die Eingangspuffer der Kreuzschienen in dieser Zeile verwalten. Bei der Datenkreuzschiene hängt es von der Konfiguration und dem Zustand der Warteschlange ab, wann ein Paket auf einen Reihenbus gelangen darf. Wenn Zuweisungen, die auf einen bestimmten Eingangspuffer einer Kreuzschiene abzielen, alle über eine einzige Warteschlange laufen, wird vor Beginn der Paketübertragung Platz für das Paket am Kopf der Warteschlange benötigt. Wenn die Zuweisungen über mehrere Warteschlangen verteilt sind, wird eine Paketübertragung erst dann gestartet, wenn im Puffer Platz für das größte Paket ist, um zu verhindern, dass kleine Pakete große Pakete verdrängen. Auf diese Weise wird eine einmal begonnene Paketübertragung auf einem Zeilenbus erst dann beendet, wenn das gesamte Paket übertragen wurde. Dementsprechend sind die Eingangspuffer der Crossbars groß genug, um die maximale Paketgröße plus zusätzlichen Platz für den schlimmsten Fall eines Roundtrips (vom Senden des Pakets bis zur Rückgabe des Guthabens) zu verarbeiten. Bei Jumbo-Paketen ist dies jedoch möglicherweise nicht der Fall. Um bei Jumbo-Paketen Pufferfläche zu sparen, können die Crossbar-Eingangspuffer so eingestellt werden, dass sie gerade genug Platz haben, um ein Paket ohne Jumbo-Größe mit maximaler Übertragungseinheit (MTU, z. B. ca. 1500 Byte) zu verarbeiten, wobei ein Jumbo-Paket einen Zeilenbus blockieren darf, während es darauf wartet, Zugang zum Zielspaltenbus zu erhalten.
Bei Spaltenbussen kann jede Kreuzschienenkachel die Anzahl der Guthaben für die Eingangspuffer an jedem Zielanschluss in dieser Spalte speichern. Im Gegensatz zu Zeilenbussen ist es nicht erforderlich, dass für das größte Paket Kreditpunkte verfügbar sind, bevor die Übertragung dieses Pakets auf einem Spaltenbus beginnt. Einzelne Wörter des Pakets können verschoben werden, wenn Guthaben verfügbar wird. Daher muss der Eingangspuffer am Ziel für jeden Spaltenbus nur so groß sein, dass er im schlimmsten Fall den Hin- und Rückweg abdeckt (z. B. vom Senden des Pakets bis zur Rückgabe des Guthabens).
Wie in und kann jede Kreuzschienen-Kachel 16 Zeilenbus-Eingangspuffer und 8 mögliche Ziele haben. Zwischen den 16 Quellen für jedes Ziel kann ein Round-Robin-Schiedsverfahren verwendet werden. Bei der Datenkreuzschiene kann eine Quelle, sobald sie die Arbitrierung gewonnen hat, die Kontrolle über den Zielspaltenbus behalten, bis das gesamte Paket gesendet worden ist.
In einer Ausführungsform kann ein Ausgangskontrollblock dafür verantwortlich sein, Anforderungen von allen Eingangsanschlüssen über die Anforderungsquerleiste anzunehmen, sie zu puffern und sie an den OFCT weiterzuleiten, damit sie über die Erteilungsquerleiste gewährt werden. Der AGEQ-Raum kann vom Ausgangskontrollblock verwaltet werden, damit ein einzelner Eingang mit mehreren Flüssen, die auf einen bestimmten Ausgang abzielen, seine Anforderungen in den AGEQ verschieben kann. Der Ausgangskontrollblock kann auch für die Verwaltung des Platzes im Eingangspuffer eines nachgelagerten benachbarten Switches (d. h. des Verbindungspartners, der einem Ausgangsport entspricht) und die Zuweisung von Flusskanälen zuständig sein. Darüber hinaus kann der Ausgangskontrollblock über einen Pfad verfügen, der es ermöglicht, dass Pakete, die an einem bestimmten Anschluss initiiert werden, wie z. B. Wartungs- oder Verkleinerungspakete, für Ressourcen an diesem Anschluss entschieden werden.
Anfragen können über einen Spaltenbus von jeder Zeile der Matrix in den Ausgangskontrollblock gelangen. Jeder Spaltenbus kann eine unabhängige FIFO-Warteschlange speisen, wobei der Platz in der FIFO-Warteschlange über Kredite verwaltet wird. Diese FIFO-Warteschlangen können ausreichend tief dimensioniert werden, um die maximale Umlaufverzögerung abzudecken und zusätzlich etwas Platz zu schaffen, damit die Anfragen aus den Kreuzschienen herausgeschoben werden können und um ein Blockieren der Kopfzeile zu verhindern. Bevor die Anforderung in eine FIFO-Warteschlange geschrieben wird, kann sie auf einen gültigen Fehlerprüfcode (ECC) geprüft werden. Wird ein Fehler festgestellt, kann das Paket mit einer Fehlermarkierung verworfen werden.
In einer Ausführungsform kann die LRU-Arbitrierung (Least Recently Used) zwischen den FIFO-Warteschlangen des Spaltenbusses verwendet werden, um zu entscheiden, welche FIFO-Warteschlange ausgewählt und die entsprechende Anfrage an den AGEQ-Block weitergeleitet wird. Wenn Anforderungen aus jeder FIFO-Warteschlange entfernt werden, können Guthaben an die entsprechende Kreuzschiene zurückgegeben werden.
Der Ausgangspuffer kann an den Ausgangskontrollblock Anforderungen für das Senden von Reduzierungs- und Wartungspaketen über die entsprechende ausgehende Verbindung stellen. Diesen Anforderungen kann eine höhere Priorität eingeräumt werden. In einer Ausführungsform verwenden Reduktionspakete keine Flusskanäle und Wartungspakete können Loopback verwenden, um einen Fluss zu erzeugen, so dass es nicht notwendig ist, die Verfügbarkeit von Flusskanälen zu prüfen oder den OFCT zu verwenden, um einen Grant zu erzeugen. Sie verbrauchen auch keinen Platz im Ausgangspuffer, so dass eine Überprüfung des Platzes nicht erforderlich ist.
Die Größe der nächsten zu verarbeitenden Anfrage aus dem Ausgabepuffer kann mit der maximalen Paketgröße verglichen werden. Überschreitet sie diesen Wert, wird der Auftrag nicht verarbeitet und es kann ein Fehlerflag gesetzt werden. Dies kann dazu führen, dass der Auftragspfad für den Ausgangspuffer blockiert wird, bis ein Warm-Reset durchgeführt wird.
In einer Ausführungsform kann jedem Eingangsanschluss ein fester Betrag an AGEQ-Speicherplatz zugewiesen werden, der als fixed_alloc bezeichnet wird. Dieser Platz kann ausreichend groß sein, um jede dem jeweiligen Eingangsanschluss zugeordnete Verkehrsklasse unterzubringen, wobei genügend zusätzlicher Platz vorhanden sein muss, um den Hin- und Rückweg zwischen Anfrage und Guthaben abzudecken. Die Aufteilung dieses festen Platzes auf verschiedene Verkehrsklassen innerhalb desselben Eingangsanschlusses kann konfiguriert werden. Eine Verkehrsklasse kann durch eine Kombination aus der Kennung der Shaping-Queue (SQ) und der Kennung des virtuellen Kanals (VC) identifiziert werden. In einer Ausführungsform kann die AGEQ 8k Plätze haben, wobei jeder Platz einer Verkehrseinheit entspricht. Die Gesamtmenge des fest zugewiesenen Platzes kann (64*fixed_alloc) betragen, und der verbleibende Platz kann 8k-64*fixed_{_} alloc sein. Dieser verbleibende Platz kann auf alle Eingänge aufgeteilt werden.
Der Shared Space kann von der Ausgabe verwaltet werden. Eingehende Anfragen können bei ihrem Eintreffen vom statischen in den Shared Space verschoben werden, wenn im Shared Space Platz vorhanden ist, vorbehaltlich der Grenzen pro Eingabe. Wenn eine Anfrage in den Shared Space verschoben wird, kann sofort ein Guthaben über die Guthaben-Kreuzschiene zurückgegeben werden, wobei die Anfrage in der AGEQ als im Shared Space befindlich markiert wird. Wird die Anfrage bewilligt und ist sie als im Shared Space befindlich gekennzeichnet, wird der Shared Space gutgeschrieben. Wenn sie nicht als gemeinsam genutzter Speicherplatz gekennzeichnet ist, wird davon ausgegangen, dass sie den statischen Speicherplatz genutzt hat, und ein Guthaben wird mit der Gewährung an den Eingang zurückgegeben.
Aufgrund von Konflikten in der Credit-Crossbar ist es möglich, dass Credits nicht in jeder Taktperiode gesendet werden können. Eine FIFO-Warteschlange kann verwendet werden, um diese vorübergehenden Störungen zu puffern. In einer Ausführungsform kann eine Anforderung von der Anforderungs-Kreuzschiene nur angenommen werden, wenn in dieser FIFO-Warteschlange Platz ist. Eine FIFO-Warteschlange mit einer Tiefe von z. B. 32 Plätzen kann verwendet werden, um die Möglichkeit eines Rückstaus in die Anforderungskreuzschiene zu begrenzen.
Der gemeinsam genutzte Speicherplatz in AGEQ kann Grenzen dafür setzen, wie viel Platz eine einzelne Eingabe beanspruchen kann. Diese Grenzen können als Prozentsatz des verfügbaren Speicherplatzes festgelegt werden. Ist die Grenze beispielsweise auf 50 % festgelegt und ist nur ein Eingang aktiv, kann dieser auf 50 % des gemeinsam genutzten Speicherplatzes zugreifen. Bei zwei aktiven Eingängen kann jeder Eingang auf 37,5 % des gemeinsam genutzten Platzes zugreifen, was sich wie folgt berechnet: (space _used_by_1 + space_left*0.5)/2 = (50%+50%*0.5)/2 = 37,5%. Bei drei aktiven Eingängen kann jeder Eingang auf 29,2 % des gemeinsam genutzten Bereichs zugreifen, was sich wie folgt berechnet: (space_used_by_2 + space_left*0.5)/3 = (75%+25%*0.5)/3 = 29,2 %, usw. Der gesamte gemeinsam genutzte Speicherplatz, der von allen aktiven Eingängen genutzt werden kann, ist auf die Gesamtzahl begrenzt, die in diesen drei Beispielen jeweils 50%, 75% und 87,5% beträgt. Bei dieser Konfiguration kann der jedem Eingang zugewiesene gemeinsame Speicherplatz dynamisch variieren, je nachdem, wie viele Eingänge gerade aktiv sind. Das Hinzufügen eines aktiven Eingangs kann dazu führen, dass andere aktive Eingänge ihren gemeinsam genutzten Speicherplatz aufgeben, der dann dem neuen Eingang zugewiesen wird.
Da die Hardware-Implementierung der Teilung kostspielig sein kann, kann diese dynamische Zuweisungsfunktion des gemeinsam genutzten AGEQ-Raums als Nachschlagetabelle mit z. B. 64 Einträgen implementiert werden, wobei jeder Eintrag einer Anzahl aktiver Eingangsanschlüsse entspricht. Die Anzahl der aktiven Eingangsanschlüsse kann als Index für die Tabelle verwendet werden. Die Werte in der Tabelle können die Obergrenze des gemeinsam genutzten Speicherplatzes darstellen, auf den jeder Eingang zugreifen kann, sowie den gesamten Speicherplatz, den sie insgesamt beanspruchen können. Mit einer softwarebasierten Funktion können die Werte in der Tabelle entsprechend der Gesamtmenge des gemeinsam genutzten Speicherplatzes und dem Prozentsatz, den jeder Eingang nutzen darf, programmiert werden. Je mehr Eingänge aktiv werden, desto weniger Platz wird jedem Eingang zugestanden, und der insgesamt verfügbare Platz nimmt zu. Eingehende Anfragen von Eingängen, die über diesem Grenzwert oder insgesamt über dem Grenzwert für den Gesamtspeicherplatz liegen, dürfen keinen weiteren gemeinsamen Speicherplatz beanspruchen.
Um die Anzahl der aktiven Eingänge in AGEQ zu verfolgen, kann ein Satz von 64 Zählern (einer für jeden Eingang) verwendet werden. Diese Zähler können aufwärts zählen, wenn eine Anfrage in AGEQ gestellt wird, und abwärts zählen, wenn sie herausgenommen (gewährt) werden. Ein zweiter Zähler, der die Anzahl der von Null abweichenden Zählungen zählt, kann als Index in der Nachschlagetabelle für die gemeinsame Speicherplatzzuweisung verwendet werden. Zur Verwaltung des gemeinsam genutzten Speicherplatzes kann außerdem ein zusätzlicher Satz von 64 Zählern verwendet werden, um die aktuelle Nutzung des gemeinsam genutzten Speicherplatzes durch jeden Eingang zu verfolgen. Es kann auch ein einziger Zähler vorhanden sein, der die Gesamtnutzung des gemeinsam genutzten Speicherplatzes erfasst. Diese Zähler können mit den aktuellen Quoten verglichen werden, um festzustellen, ob eine Anfrage den gemeinsam genutzten Speicherplatz nutzen darf. In einer Ausführungsform können alle Zähler 13 Bit breit sein, was ausreicht, um z. B. die 8K Speicherplätze in AGEQ abzudecken.
zeigt eine beispielhafte Implementierung der Alterswarteschlangen. In diesem Beispiel können die Alterungswarteschlangen einen Anforderungs-RAM 580 verwenden, der z. B. 8K Speicherplätze hat. Diese Speicherplätze können dynamisch einer Anzahl separater Warteschlangen 582 zugewiesen werden, die der Gesamtzahl der Kombinationen aus Verkehrsklasse (identifiziert durch den SQ-Wert) und virtuellem Kanal (identifiziert durch den VC-Wert) entsprechen können. In einer Ausführungsform kann eine physische Verbindung in vier VCs unterteilt werden, und das System kann 8 Verkehrsklassen unterstützen. Dementsprechend gibt es insgesamt 32 (d. h. 4*8) separate Warteschlangen, jede für eine eindeutige SQ/VC-Kombination. Jede Warteschlange kann eine verknüpfte Liste von Speicherplätzen innerhalb des Speichers sein. Dies gibt jeder SQ/VC-Kombination die Möglichkeit, bei Bedarf mehr Speicherplatz zu belegen.
Wie in dargestellt, kann jede Warteschlange einen vorderen Zeiger enthalten, der auf den Anfang der verknüpften Liste zeigt. Jedes Element in der verknüpften Liste enthält auch einen Zeiger, der auf das nächste Element in der verknüpften Liste verweist. In einer Ausführungsform können die Zeiger, die auf das nächste Element zeigen, in einem nächsten Zeiger-RAM gespeichert werden. Die letzte Position in der Warteschlange kann durch einen Rückwärtszeiger angezeigt werden. Jede Position in einer Warteschlange kann eine Anfrage aufnehmen. Anfragen können vom Anfang der Warteschlange entfernt und am Ende der Warteschlange eingefügt werden.
Zusätzlich zu der Datenstruktur mit verknüpften Listen kann jede Warteschlange auch eine FIFO-Warteschlange, wie die FIFO-Warteschlange 584 der Anforderungen, an ihrem Kopf haben. Diese FIFO-Warteschlangen können verwendet werden, um sicherzustellen, dass eine Warteschlange bei jedem Takt eine Anforderung mit einer Lesezugriffszeit von mehreren Takten aus dem Anforderungs-RAM erhalten kann. Wenn eine neue Anforderung eintrifft und die FIFO-Warteschlange am Kopf der Warteschlange nicht voll ist, kann die Anforderung das Anforderungs-RAM umgehen und direkt in die FIFO-Warteschlange am Kopf geschrieben werden. Sobald Anforderungen für eine bestimmte Warteschlange in den Anforderungs-RAM geschrieben werden, werden auch nachfolgende Anforderungen in den Anforderungs-RAM geschrieben, um die Ordnung aufrechtzuerhalten. Der Bypass-Pfad kann wieder verwendet werden, sobald sich keine Anfragen mehr für diese Warteschlange im Anforderungs-RAM befinden und im entsprechenden Kopf-FIFO Platz ist.
Wenn eine Anforderung aus einer Kopf-FIFO-Warteschlange gelesen wird und sich entsprechende Anforderungen im Anforderungs-RAM in der Warteschlange befinden, kann eine Dequeue-Operation eingeleitet werden. Da jeweils nur eine Head-FIFO-Warteschlange gelesen wird, kann nur ein einziger Dequeue-Vorgang pro Taktperiode eingeleitet werden. Es kann eine Logik eingebaut werden, um die verschiedenen Wettlaufbedingungen zwischen einer laufenden oder bevorstehenden Enqueue-Operation und einer gelesenen Head-FIFO-Warteschlange zu behandeln.
Die Freie Liste RAM kann eine einfache FIFO-Warteschlange sein, die bei jedem Reset mit Zeigern auf alle Einträge (z.B. 8k Einträge) initialisiert wird. Eine Zählung kann beibehalten werden, um zu verfolgen, wie viele Einträge im Free List RAM gültig sind. Wenn Einträge entnommen werden, werden sie von der Vorderseite des Fl FO gepoppt und verwendet. Wenn Einträge zurückgegeben werden, werden sie an die Rückseite einer FIFO-Warteschlange 585 geschoben. Eine Anzahl von Einträgen (z. B. 3) am Anfang der Freien Liste RAM kann in Flops gehalten werden, damit sie für einen schnellen Zugriff verfügbar sind.
Um die volle Leistung für kleine Pakete zu unterstützen, müssen die Alter-Warteschlangen in jeder Taktperiode sowohl eine Enqueue-Operation als auch eine Dequeue-Operation unterstützen. Die Operationen an den Datenstrukturen für eine Enqueue-Operation sind unten aufgeführt. Sie unterscheiden sich je nachdem, ob die zu schreibende Warteschlange leer ist oder nicht. In den meisten Fällen kann ein gleichzeitiger Enqueue- und Dequeue-Vorgang in einer bestimmten Warteschlange gehandhabt werden, da sie separate Felder verwenden und aktualisieren. Ein Sonderfall wäre der, bei dem die Warteschlange durch die Dequeue-Operation geleert wird. Um diesen Fall zu behandeln, kann die Dequeue-Operation logischerweise zuerst stattfinden, gefolgt von der Enqueue-Operation. Dies kann durch die Verwendung eines Leer-Flags für die Warteschlange ermöglicht werden, das gesetzt werden kann, wenn die Warteschlange durch die Dequeue-Operation geleert wird, und dann aufgrund der Enqueue-Operation gelöscht wird.
Fairness beim Austritt
Ein Switch kann bei der Weiterleitung von Paketen über seine Ausgangsports eine Traffic-Shaping-Funktion bereitstellen. Eine solche Egress-Fairness-Funktion kann mit Hilfe von Shaping-Queues im AGEQ implementiert werden. Wie bereits erwähnt, können Pakete klassifiziert werden, um die SQ auszuwählen, an die ihre Anfrage weitergeleitet wird. Dadurch kann der mit einer Anwendung verbundene Verkehr anders gestaltet werden als der Verkehr einer anderen Anwendung oder einer anderen Verkehrsklasse. Diese Funktion ist vor allem an den Edge-Ports wichtig, die mit einer Netzwerkkarte verbunden sind, da die Anwendungen in der Regel so konfiguriert sind, dass sie einen Teil der Ressourcen des Knotens nutzen und ihnen auch ein Teil der Netzwerkbandbreite zugewiesen wird. In einer Ausführungsform kann diese Klassifizierung auf dem FTAG- und VNI-Wert des Pakets im Fabric-Header basieren, der zugewiesen wird, wenn das Paket in die Fabric eintritt. FTAG und VNI können auch zur Auswahl der Shaping-Warteschlange verwendet werden, wenn das Paket die Fabric verlässt. Ein Konfigurationsregister kann verwendet werden, um FTAGs auf SQs abzubilden.
In einer Ausführungsform kann die AGEQ eine Anzahl von Shaping-Warteschlangen haben, die durch {SQ, VC} adressiert werden. Wenn beispielsweise 8 SQs und 4 VCs vorhanden sind, kann es insgesamt 32 individuelle Shaping-Warteschlangen geben. Der entsprechende 3-Bit-SQ-Index kann eine Shaping-Funktion sein, und der VC-Wert kann einer von vier Warteschlangen (entsprechend den 4 VCs) innerhalb dieser Shaping-Funktion zugeordnet werden.
Die Zuteilung kann unter den Anforderungen erfolgen, die unter Berücksichtigung der Verwaltung des Eingangspuffers, des Ausgangspuffers und der Flusskanalquoten gewährt werden dürfen. Die Zuteilung kann auch gestoppt werden, wenn keine Guthaben für die OFCT-FIFO-Warteschlange vorhanden sind. In einer Ausführungsform kann die Arbitrierung in zwei Stufen erfolgen, eine für die SQs und eine für die VCs. Für die Arbitrierung zwischen den SQs kann eine Traffic-Shaping-Arbitrierung verwendet werden. In einer Ausführungsform kann ein Deficit Round-Robin (DRR) Arbitrierungsschema verwendet werden, um zwischen VCs innerhalb einer gegebenen SQ zu arbitrieren.
In einer Ausführungsform kann die Schlichtung zur Verkehrsgestaltung eine Reihe von Token-Buckets verwenden, um die Bandbreite jeder SQ zu steuern. Wenn beispielsweise 8 SQs vorhanden sind, kann es 8 „leaf buckets“ (einen für jede SQ), bis zu 4 „branch buckets“ und einen „head bucket“ geben. zeigt eine beispielhafte Token-Bucket-Anordnung für die Arbitrierung zwischen 8 SQs.
Buckets können mit einer bestimmten Rate mit einer bestimmten Anzahl von Token gefüllt werden, um die Bandbreite dieses Buckets darzustellen. Wenn Pakete die Arbitrierung gewinnen, werden Token aus den entsprechenden Buckets genommen, um die beanspruchte Bandbreite darzustellen. Es wird erwartet, dass in einem Bucket eine maximale Framegröße (MAX FRAME _SIZE) zur Verfügung steht, um die Entnahme von Token aus diesem Bucket zu ermöglichen. Buckets werden zur Konfiguration verwendet:

Zugesicherte Bandbreite - Die reservierte Bandbreite für diesen Bucket
Maximalbandbreite - Die maximale Bandbreite für diesen Bereich
Priorität - Die Priorität dieses Bereiches (0=niedrigste, 7=höchste)

Die Bucket-Größe definiert die Zeitspanne, über die die gemeinsame Nutzung der Bandbreite verteilt werden kann. Bei 25-Bit-Buckets in Einheiten von 8B ergibt dies ein Maximum von 256 MB an Guthaben. In einer Ausführungsform würde die Annahme, dass nur ein SQ aktiv ist, bedeuten, dass bei voller Leitungsrate mindestens ~10 ms Guthaben vorhanden sind. Der tatsächliche Wert kann größer sein, da dem Bucket weiterhin Token hinzugefügt werden können, während sie verbraucht werden.
Zu den allgemeinen Einstellungen, die für alle Buckets verwendet werden können, gehören:

MAX_FRAME_SIZE - Die maximale Rahmengröße. Ein Bucket sollte größer oder gleich dieser Anzahl von Token sein, damit ein Paket Token aus diesem Bucket verwenden kann.
ARB_FILL_RATE - Die Anzahl der Takte, die zwischen jedem Hinzufügen von Token zu allen Buckets gezählt wird. Wird dieser Wert auf 0 gesetzt, wird das Füllen aller Buckets deaktiviert.

Leaf Bucket Configuration - jeder Leaf Bucket hat die unten aufgeführten Werte:

BUFCLASS - Die diesem SQ zugewiesene Linkpartner-Eingangspufferklasse.
VCSET - Der diesem SQ zugewiesene VC-Satz.
VC_QUANTA - Quanta-Wert für die VC Deficit Round-robin (DRR) Arbitrierung in diesem SQ.
PRI - Die diesem Bucket zugewiesene Priorität (0=niedrigste, 7=höchste).
PARENT - Der übergeordnete Bereich des Blattbereichs, der entweder einer der 4 Zweigbereiche oder der Hauptbereich sein kann.
FILL_QTY (für zugesicherte Bandbreite) - Die Anzahl der 16-Byte-Token, die dem zugesicherten Bucket bei jedem fill_rate-Takt hinzugefügt werden.
LIMIT (für zugesicherte Bandbreite) - Die Obergrenze für die Anzahl der Token, die im zugesicherten Bucket enthalten sein können, in Einheiten von 1K-Byte.
FILL_QTY (für ceiling bandwidth) - Die Anzahl der 16-Byte-Token, die dem ceiling bucket pro fill_rate clocks hinzugefügt werden.
LIMIT (für Ceiling-Bandbreite) - Die Obergrenze für die Anzahl der Token, die im Ceiling-Bucket enthalten sein können, in Einheiten von 1K-Byte.
ENABLE - Deckenfreigabe. Wenn diese Option gesetzt ist, wird anhand von climit/ctokens geprüft, ob in diesem Bucket noch Platz ist. Ist diese Option nicht gesetzt, ist diese Prüfung deaktiviert und es wird angenommen, dass unbegrenzter Speicherplatz zur Verfügung steht.

In einer Ausführungsform kann die AGEQ die folgenden Register für die Leaf-Buckets verwalten: rtokens[24:0] - Aktuelle Anzahl zugesicherter Token in Einheiten von 8 Bytes. Dieser Bereich wird in jedem fill_rate-Takt mit rfill-Tokens gefüllt und durch Paketgrößen-Tokens geleert, wenn eine Arbitration diesen Bereich verwendet. Dieser Bereich ist bei rlimit-Tokens begrenzt.
ctokens[24:0] - Aktuelle Anzahl von Ceiling-Token in Einheiten von 8 Bytes. Dieser Bereich wird alle fill_rate-Takte mit cfill-Tokens gefüllt und durch packet-size-Tokens geleert, wenn eine Arbitration diesen Bereich verwendet. Dieser Bucket ist auf climit-Token begrenzt.
Konfiguration der Verzweigungseimer - Verzweigungseimer haben den Haupteimer als übergeordneten Bereich. Jeder Verzweigungsbereich hat die folgenden Werte:

PRI - Die diesem Bucket zugewiesene Priorität (0=niedrigste, 7=höchste).
FILL_QTY (für zugesicherte Bandbreite) - Die Anzahl der 16-Byte-Token, die dem zugesicherten Bucket bei jedem fill _rate-Takt hinzugefügt werden.
LIMIT (für zugesicherte Bandbreite) - Die Obergrenze für die Anzahl der Token, die im zugesicherten Bucket enthalten sein können, in Einheiten von 1K-Byte.
FILL_QTY (für ceiling bandwidth) - Die Anzahl der 16-Byte-Token, die dem ceiling bucket pro fill_rate clocks hinzugefügt werden.
LIMIT (für ceiling bandwidth) - Die Obergrenze für die Anzahl der Token, die im ceiling bucket in Einheiten von 1K-Byte enthalten sein können.
ENABLE - Deckenfreigabe. Wenn diese Option gesetzt ist, wird anhand von climit/ctokens ermittelt, ob in diesem Eimer Deckenplatz vorhanden ist. Ist die Option deaktiviert, ist diese Prüfung nicht möglich, und es wird von einem unbegrenzten Deckenplatz ausgegangen.

In einer Ausführungsform kann die AGEQ-Logik die folgenden Register für die Verzweigungseimer verwalten:

rtokens[24:0] - Aktuelle Anzahl zugesicherter Token in Einheiten von 8 Bytes. Dieser Bereich wird alle fill_rate-Takte mit rfill-Tokens gefüllt und um Paketgrößen-Tokens geleert, wenn eine Arbitrierung diesen Bereich verwendet. Dieser Bereich ist auf rlimit-Token begrenzt.
ctokens[24:0] - Aktuelle Anzahl von Ceiling-Token in Einheiten von 8 Bytes. Dieser Bereich wird alle fill_rate-Takte mit cfill-Tokens gefüllt und um Paketgrößen-Tokens geleert, wenn eine Arbitration diesen Bereich verwendet. Dieser Bucket ist auf climit-Token begrenzt.

Head Bucket-Konfiguration: Der Head Bucket verfügt über keine Einstellungen für die zugesicherte Bandbreite. Er verwaltet die Höchstbandbreite und hat die folgenden Werte: FILL_QTY - Die Anzahl der 16-Byte-Token, die dem Ceiling Bucket bei jedem fill _rate-Takt hinzugefügt werden. LIMIT - Die Obergrenze für die Anzahl der Token, die im Ceiling Bucket enthalten sein können, in Einheiten von 1K-Byte. ENABLE - Freigabe des Ceilings. Wenn gesetzt, wird climit/ctokens verwendet, um festzustellen, ob in diesem Bucket noch Platz ist. Ist diese Option nicht gesetzt, ist diese Prüfung deaktiviert und es wird von einem unbegrenzten Speicherplatz ausgegangen.
In einer Ausführungsform kann die AGEQ-Logik die folgenden Steuerregister für den Kopfeimer verwalten:

ctokens[24:0] - Aktuelle Anzahl von Ceiling Tokens in Einheiten von 8 Bytes. Dieser Bereich wird alle fill_rate-Takte mit cfill-Token gefüllt und um Paketgrößen-Token geleert, wenn eine Arbitrierung diesen Bereich verwendet. Dieser Bucket ist auf climit-Token begrenzt.

Die Schlichtung kann in drei Gruppen unterteilt werden: Gruppe 1 kann die höchste Priorität haben, gefolgt von Gruppe 2 und dann Gruppe 3. Für die Gruppen 1 und 2 kann die Schlichtung unter den in Frage kommenden SQs auf die gleiche Weise erfolgen. Zwischen den SQs kann für jede der 8 Prioritätsstufen eine x8-Round-robin-Schlichtung durchgeführt werden (8 parallele Round-robin-Schlichtungsvorgänge). Zwischen den Prioritätsebenen kann eine feste Arbitrierung durchgeführt werden. Die Arbitrierung der Gruppe 3 hat keine Prioritäten und kann eine einzelne x8-Round-robin-Arbitrierung sein.
Die Anforderungen für die Aufnahme in Gruppe 1 sind:

-Blatteimer hat eine gesicherte und eine maximale Bandbreite zur Verfügung; Verzweigungsbereich (falls der Flügel einen hat) hat zugesicherte und maximale Bandbreite zur Verfügung; und Der Kopfbereich verfügt über eine Höchstbandbreite.

Die Anforderungen für die Aufnahme in die Gruppe 2 sind:

-Leaf Bucket hat eine Höchstbandbreite zur Verfügung; Abzweigeimer hat gesicherte und maximale Bandbreite zur Verfügung; und Der Kopfbereich verfügt über eine Höchstbandbreite.

Die Anforderungen für die Aufnahme in Gruppe 3 sind:

-Leaf Bucket hat eine Höchstbandbreite zur Verfügung; Der Abzweigbereich verfügt über eine Höchstbandbreite; und Der Kopfbereich verfügt über eine Höchstbandbreite.

Bei einer Schlichtung der Gruppe 1 ergibt sich die Priorität für jeden aus der Einstellung in den Blatt-Eimern. Bei der Gruppe 2 ergibt sich die Priorität aus der Einstellung in den Zweigbereichen. In allen Fällen sind die Bereiche, die für diese Gruppe in Frage kommen, auch die Bereiche, aus denen Paketgrößen-Token entnommen werden, wenn diese Anfrage die Schlichtung gewinnt.
Beachten Sie, dass durch die Einstellung von ARB_FILL_RATE auf 0 (was das Füllen der Eimer deaktiviert) und die Einstellung des Ceiling-Enable-Flags für das Blatt, die Verzweigung (falls verwendet) und den Kopf auf 0, die Arbitrierung zu einem einfachen Round-Robin zwischen den 8 SQs degradiert wird.
Ein einfaches Beispiel mit den sich ergebenden Bandbreiten für jeden SQ ist in dargestellt. In diesem Beispiel entsprechen SQ0, SQ1 und SQ2 den Blatteimern 590-6, 590-8 bzw. 590-10. Die Blattbecher 590-6 und
590-8 befinden sich unter dem Abzweigbecher 590-4, der mit dem Kopfeimer 590-2 verbunden ist. Die Blattschaufel ist direkt mit der Hauptschaufel 590-2 verbunden, ohne irgendwelche Abzweigschaufeln. Wie in zu sehen ist, können alle drei SQs die zugesicherte Bandbreite erhalten, die ihren Blatteimern zugeordnet ist. SQ 0 und 1 teilen sich zu gleichen Teilen die zugesicherte Bandbreite ihres Verzweigungseimers 590-4. Alle drei SQs teilen sich gleichermaßen die verbleibende Bandbreite am Kopf. In diesem Fall schränken die Einstellungen für die Höchstbandbreite keine der SQs ein.
Eine defizitäre Round-Robin-Arbitration kann zwischen VCs durchgeführt werden, um die Arbitrationsbandbreite fair zu gestalten. Dies wird dadurch erreicht, dass jeder VC einen Zähler hat. Alle Zähler beginnen mit einem programmierbaren Quantenwert (VC_QUANTA). Wenn ein VC die Arbitrierung gewinnt, wird sein Zähler um die Paketgröße erhöht. Der Zählerwert wird mit dem Quantenwert verglichen. Ist der Zählerwert kleiner als der Quantenwert, darf diese Anfrage an der Schlichtung teilnehmen. Wenn es gültige Anfragen gibt und keine davon zugelassen werden kann, weil ihr Zählwert zu hoch ist, wird ein Quanta von allen Zählwerten abgezogen (der Wert darf nicht unter 0 sinken). Dadurch werden alle Anfragen freigegeben und der Vorgang kann wiederholt werden. Mit dieser Arbitrierung wird ein VC mit kleinen Paketen häufiger die Arbitrierung gewinnen als ein VC mit großen Paketen, vorausgesetzt, es gibt einen stetigen Strom von Paketen.
zeigt ein Flussdiagramm eines beispielhaften Alterswarteschlangen-Arbitrierungsprozesses, der die Fairness beim Ausgang erleichtert. Während des Betriebs kann der Switch zunächst ein empfangenes Paket in seinem Eingangspuffer speichern (Vorgang 590-102). Das System kann dann die Shaping-Warteschlange auf der Grundlage der FTAG und VNI des Pakets bestimmen (Vorgang 590-104). Als Nächstes kann der Eingangswarteschlangen-Logikblock (siehe z. B. INQ-Block 520 in ) eine Anfrage an den AGEQ zur Weiterleitung des Pakets senden (Vorgang 509-106). Auf der AGEQ-Seite kann ein Scheduler-Logikblock eine Arbitrierung der im AGEQ gespeicherten Anfragen auf der Grundlage ihrer zugehörigen SQs und VCs durchführen (Vorgang 509-108). In einer Ausführungsform kann die Arbitrierung auf der Grundlage eines Token-Bucket-Schemas wie oben beschrieben erfolgen. Anschließend kann der Anforderung stattgegeben werden (Vorgang 509-110), und der Eingangspuffer kann das entsprechende Paket zur Übertragung an den Ausgangspuffer weiterleiten (Vorgang 509-112).
zeigt einen beispielhaften AGEQ-Arbitrierungsmechanismus, der die Fairness beim Austritt erleichtert. Der in gezeigte Teil eines Switches kann ein Teil der in gezeigten Gesamtarchitektur sein. In diesem Beispiel ist ein Scheduler-Logikblock 590-204 mit AGEQ 590-202 gekoppelt und kann die Token-Bucket-basierte Arbitrierung zwischen allen SQs und VCs durchführen, um die Gewährung von in den Alterswarteschlangen gespeicherten Anforderungen zu planen. Ein Ausgabepuffer 590-204 kann die Guthaben für die Erteilung von Genehmigungen auf der Grundlage des verfügbaren Platzes bereitstellen.
Staumanagement
Wie oben beschrieben, kann jeder Fluss an einem bestimmten Switch seine eigene private Warteschlange mit Paketen haben. Diese Konfiguration ermöglicht eine separate Flusskontrolle für jeden Fluss. Infolgedessen kann das Netz weitgehend verlustfrei bleiben, und ein Fluss, der eine Verbindung nutzt, kann blockiert werden, ohne dass ein anderer Fluss, der dieselbe Verbindung nutzt, blockiert wird. Im Gegensatz zu einem herkömmlichen paketvermittelten Netz kann sich eine Überlastung in einem Teil des Netzes nur auf die Datenströme auswirken, die zu der Überlastung beitragen. In einem herkömmlichen Netz können sich zum Beispiel die Puffer vor einer überlasteten Verbindung schnell mit den Paketen füllen, die die Überlastung verursachen. Dies wiederum kann den Switch dazu zwingen, einen Pausenbefehl zu erteilen oder eine andere Methode der Flusskontrolle anzuwenden, um benachbarte Switches daran zu hindern, Pakete an die überlastete Verbindung zu senden. Infolgedessen können die Pakete, die die Überlastung verursachen, gestoppt oder verlangsamt werden, und alle anderen Pakete, die nicht für die überlastete Verbindung bestimmt sind, können ebenfalls gestoppt oder verlangsamt werden. Infolgedessen kann sich die Überlastung seitwärts ausbreiten und den Sättigungsbaum aus topologischer Sicht vergrößern.
Im Gegensatz dazu kann bei Flusskanälen die Last der zur Überlastung beitragenden Flüsse auf den zur Überlastung führenden Verbindungen reduziert werden. Diese Verringerung der Last kann es anderen Flüssen, die diese Verbindungen gemeinsam nutzen, ermöglichen, mehr Verbindungsbandbreite zu verwenden und ihre Nutzlast schneller zu liefern, während nur die Pakete, die zu der überlasteten Verbindung beitragen, verlangsamt werden.
Herkömmliche Netze können in der Regel normal arbeiten, solange die Netzlast nicht die volle Kapazität erreicht oder annähernd erreicht. Dies ist bei kleinen oder mittelgroßen Netzen meistens der Fall. Bei großen oder sehr großen Netzen, die mit mehreren bandbreitenintensiven Anwendungen betrieben werden, kann jedoch jederzeit ein Teil des Netzes mit der Verkehrslast gesättigt sein. Unter diesen Umständen kann es zu einer unfairen Paketzustellung kommen, selbst wenn einzelne Switches lokal faire Richtlinien implementieren.
zeigt ein Beispiel, bei dem eine unfaire Aufteilung der Verbindungsbandbreite in einem Netz auftreten kann. In diesem Beispiel versucht jede der Quellen A bis K, einen Paketstrom an das Ziel L zu senden, wodurch ein Incast-Szenario entsteht, in dem mehrere Quellen Pakete an ein einziges Ziel senden. Die Quellknoten A, B und C sind mit dem Switch 602 verbunden; die Quellknoten D, E und F sind mit dem Switch 604 verbunden; die Quellknoten G, H und I sind mit dem Switch 606 verbunden; die Quellknoten J und K sowie der Zielknoten L sind mit dem Switch 608 verbunden. Nehmen wir an, dass jeder Switch eine faire Arbitrierungspolitik verfolgt, indem er eine gleiche Anzahl von Paketen von jedem seiner Eingangsports zu einem bestimmten Ausgangsport auswählt. Wie jedoch in zu sehen ist, können Quellen, die näher am Ziel liegen, einen viel höheren Anteil der endgültigen Verbindungsbandbreite erhalten als Quellen, deren Verkehr mehrere Vermittlungsstufen durchlaufen muss. Die Vermittlungsstelle 608 verfügt über drei Quellen eingehender Daten von den Knoten J, K und der Vermittlungsstelle 606 und kann die Bandbreite auf der abgehenden Verbindung zum Knoten L gleichmäßig auf die einzelnen Quellen aufteilen. Somit können die Knoten J und K jeweils 33,3 % der Bandbreite auf der abgehenden Verbindung zum Zielknoten L nutzen.
Der nächstgelegene Schalter, Schalter 606, kann dasselbe tun und so weiter. In diesem Beispiel mit nur vier Vermittlungsstufen und nur drei oder vier Eingängen auf jeder Stufe und mit insgesamt 11 Eingängen, die versuchen, an den Zielknoten L zu senden, beanspruchen drei Eingangsquellen (Knoten A, B und C) nur 1/48 der Bandbreite, die von zwei anderen Eingangsquellen (Knoten J und K) auf der abgehenden Verbindung zum Zielknoten L belegt wird. Eine realistischere Netztopologie kann mehr Vermittlungsstufen, eine größere Anzahl von Vermittlungseingängen und mehr Quellen umfassen, die versuchen, an ein einziges Ziel zu senden. Ein mittelgroßer Incast könnte zu einem Unterschied von sechs Größenordnungen zwischen den zugewiesenen Bandbreiten der verschiedenen Quellen führen.
Das oben beschriebene Problem der Unfairness wird häufig dadurch verursacht, dass die von einem Switch implementierten Arbitrierungsrichtlinien auf den Eingangsports basieren. Das heißt, die Bandbreitendrosselung erfolgt mit einer Granularität pro Port. Im Gegensatz dazu kann ein Netzwerk durch die Erleichterung von Flusskanälen und die Implementierung von flussspezifischer Drosselung das Ausmaß an Unfairness zwischen verschiedenen Flüssen erheblich reduzieren. Wenn die Switches beispielsweise in dem in dargestellten Szenario eine faire Bandbreitenzuweisung pro Fluss implementieren, können alle acht Quellknoten einen im Wesentlichen gleichen Anteil an der Bandbreite der Randverbindung zwischen Switch 608 und Zielknoten L nutzen. Bei großen Systeminstallationen ist die Beherrschung der maximalen Latenzzeiten durch ein Netzwerk oft ein wichtiges Anliegen der Architekten. Oft kann dies nur erreicht werden, indem die Eingangsbandbreite in ein Netz auf einen kleinen Prozentsatz der Spitzenbandbreite begrenzt wird. Beispielsweise ist eine Begrenzung der Eingangsbandbreite auf 20 % der Spitzenbandbreite typisch für große Rechenzentren. Mit Flow Channels und geeigneten Kontrollmechanismen ist es dagegen jetzt möglich, ein Netz aufzubauen, das keine derartigen Beschränkungen auferlegt.
Neben der Fairness ist eine weitere Herausforderung für die Netzarchitekten die Überlastung. Im Allgemeinen können zwei Arten von Überlastungen in einem Netz auftreten. Bei der ersten Art handelt es sich um eine Überlastung des Endpunkts, bei der ein mit einem Zielgerät verbundener Egress-Edge-Link überlastet ist. Bei der zweiten Art handelt es sich um eine Überlastung der Fabric-Verbindung, bei der eine zwischengeschaltete Fabric-Verbindung überlastet ist.
zeigt ein Beispiel für eine Überlastung des Endpunkts. In diesem Beispiel senden zwei Quellhosts 612 und 614 Daten an einen Zielhost 616. Der Verkehr von den Quell-Hosts 612 und 614 konvergiert am Edge-Switch 620, und eine Egress-Edge-Verbindung 618 zwischen Switch 620 und Host 616 kann überlastet werden. Dieses Überlastungsszenario kann typischerweise bei Incast auftreten, wenn mehrere Quellen Datenverkehr an ein einziges Ziel senden. Eine Überlastung kann auftreten, wenn die Ausgangsrandverbindung ihre volle Datenübertragungskapazität erreicht oder wenn der Zielhost 616 nicht alle eingehenden Pakete mit ausreichender Geschwindigkeit verarbeiten kann. In jedem Fall kann der Ausgangsübertragungspuffer des Switches 620, der mit der Verbindung 618 gekoppelt ist, einen Anstieg der gespeicherten Datenmenge verzeichnen, wenn ein Stau am Endpunkt auftritt.
Ein Switch kann eine Überlastung des Endpunkts erkennen und abmildern, indem er den Ausgangspuffer auf einem Egress Edge Link überwacht und ACKs mit Überlastungsinformationen an Upstream-Switches und Quellknoten sendet. Genauer gesagt kann der mit einem Egress-Edge-Link verbundene Ausgangspuffer den Zustand des Puffers überwachen und eine Überlastung erkennen, wenn bestimmte Kriterien erfüllt sind. Wenn ein Paket bei einem Ausgangspuffer ankommt oder diesen verlässt, kann der Ausgangspuffer drei Parameter zur Stauerkennung berechnen, wie z. B.: (1) die Menge der im Puffer gespeicherten Daten, (2) die Anzahl der im Puffer gespeicherten Pakete und (3) die Änderungsrate der Puffertiefe (Menge der im Puffer gespeicherten Daten). Für diese drei überwachten Parameter können jeweils drei Schwellenwerte festgelegt werden, wobei auch mehr oder weniger festgelegt werden können. Eine Überlastung gilt als gegeben, wenn mindestens einer dieser Parameter den entsprechenden Schwellenwert überschreitet.
Wenn eine Überlastung festgestellt wird, kann der Switch eine Endpunkt-Überlastungsbenachrichtigung (ACK) für das Paket, das gerade in den Ausgangspuffer gelangt ist, generieren und übertragen. Die ACK kann einen Wert enthalten, der den Schweregrad der Überlastung angibt. Es ist zu beachten, dass diese Endpunkt-Stau-Benachrichtigung (ACK) nicht dazu gedacht ist, die vorgelagerten Vermittlungsstellen über die erfolgreiche Zustellung des Pakets zu informieren, sondern um sie über das Vorhandensein und den Grad des Staus an der Ausgangsverbindung zu informieren. (Wenn diese ACK-Benachrichtigung für den Endpunkt gesendet wird, befindet sich das Paket möglicherweise noch im Ausgangspuffer und wartet darauf, auf den Egress-Edge-Link übertragen zu werden). Dieser schnelle, explizite Staumelde-Mechanismus ermöglicht es den Vermittlungsstellen, schnell auf einen bestimmten Fluss zu reagieren, der zur Überlastung beiträgt.
Außerdem kann der Ausgangspuffer die Überlastungserkennungsparameter aktualisieren, wenn ein Paket aus der Warteschlange genommen und an den Egress Edge Link übertragen wird. Wenn keine Überlastung vorliegt, wird ein reguläres ACK generiert und gesendet, das alle früheren Überlastungsmeldungen löschen kann, die von den vorgelagerten Vermittlungsstellen für den entsprechenden Fluss empfangen wurden. Liegt ein Stau vor, kann das ACK mit einer Markierung versehen werden, die es ermöglicht, die Vermittlungsstellen über einen anhaltenden Stau auf dem Egress-Edge-Link sowie über die erfolgreiche Zustellung des Pakets zu informieren.
zeigt ein Flussdiagramm eines beispielhaften Prozesses der Erzeugung einer expliziten Endpunkt-Stau-Benachrichtigung ACK. Während des Betriebs kann das System den Ausgangspuffer eines Egress Edge Link kontinuierlich überwachen. Das System kann dann ein Paket am Ausgangspuffer empfangen (Vorgang 702). Nach Empfang des Pakets kann das System die drei Überlastungsparameter (Gesamtdatenmenge, Gesamtzahl der Pakete und Änderungsrate der Puffertiefe) für den Ausgangspuffer berechnen (Vorgang 704). Das System kann ferner feststellen, ob einer der Parameter einen entsprechenden Schwellenwert überschreitet (Vorgang 706). Wenn mindestens ein Parameter den Schwellenwert überschreitet, wird davon ausgegangen, dass eine Überlastung vorliegt. Dementsprechend kann das System ein explizites Endpunkt-Stau-Benachrichtigungs-ACK-Paket erzeugen und an die vorgelagerten Vermittlungsstellen senden, das dem Paketfluss entspricht (Vorgang 708). Wenn keine Überlastung festgestellt wird, kann das System zum Normalbetrieb zurückkehren.
zeigt einen beispielhaften Endpunkt-Stauverwaltungslogikblock. In diesem Beispiel kann ein Endpunkt-Überlastungsmanagement-Logikblock 730 einen Ausgangspuffer-Monitor 732, einen Logikblock 734 zur Berechnung von Überlastungsparametern und einen Logikblock 736 zur Erzeugung von ACKs für die Endpunkt-Überlastungsbenachrichtigung umfassen. Während des Betriebs kann der Ausgangspuffer-Monitor 732 den Zustand eines Ausgangspuffers überwachen, der mit einem Egress Edge Link verbunden ist. Basierend auf dem Zustand des überwachten Ausgangspuffers kann der Logikblock 734 zur Berechnung der Überlastungsparameter die drei Überlastungsparameter berechnen (siehe Vorgang 704 im Flussdiagramm in ). Wenn einer dieser Parameter den entsprechenden Schwellenwert überschreitet, kann der Logikblock 736 zur Erzeugung einer Endpunkt-Überlastungsbenachrichtigung (ACK) eine Endpunkt-Überlastungsbenachrichtigung (ACK) erzeugen und die ACK an den vorgelagerten Switch übertragen.
zeigt ein Flussdiagramm eines beispielhaften Prozesses zur Erzeugung einer ACK als Reaktion auf ein Paket, das aus der Warteschlange eines Ausgangspuffers entfernt wurde. In diesem Beispiel nimmt das System zunächst ein Paket aus der Warteschlange des Ausgangspuffers (Vorgang 802). Anschließend kann das System die drei Überlastungsparameter (Gesamtdatenmenge, Gesamtzahl der Pakete und Änderungsrate der Puffertiefe) für den Ausgangspuffer berechnen (Vorgang 804). Das System kann feststellen, ob einer der Parameter einen entsprechenden Schwellenwert überschreitet (Vorgang 806). Wenn mindestens ein Parameter den Schwellenwert überschreitet, wird davon ausgegangen, dass eine Überlastung vorliegt. Dementsprechend kann das System ein ACK-Paket mit einem markierten Flag erzeugen, das eine anhaltende Überlastung anzeigt (Vorgang 808). Wenn keine Überlastung festgestellt wird, kann das System ein reguläres ACK-Paket erzeugen (Vorgang 809). Das System kann anschließend das ACK-Paket an die vorgelagerten Vermittlungsstellen senden (Vorgang 810) und das Datenpaket aus der Warteschlange auf die Ausgangsrandverbindung übertragen (Vorgang 812).
Beachten Sie, dass der in gezeigte Endpunkt-Überlastungsmanagement-Logikblock auch die im Flussdiagramm in beschriebenen Operationen durchführen kann. Mit anderen Worten, der Logikblock 730 für das Endpunkt-Staumanagement kann potenziell allgemeine ACKs für die Endpunkt-Staumeldung beim Eintreffen eines Pakets im Ausgangspuffer sowie beim Verlassen des Pakets aus dem Ausgangspuffer ausgeben.
Wenn eine ACK-Benachrichtigung über eine Überlastung des Endpunkts die Fabric durchläuft, können die IFCTs der Switches entlang des Pfads Bandbreitenbeschränkungen auf den der ACK entsprechenden Fluss anwenden. Dadurch kann die Fabric die Zustellung dieses Datenflusses an jedem Switch entlang des Datenpfads auf verteilte Weise verlangsamen. Wenn ein Endpunkt-Stau-Benachrichtigungs-ACK einen IFCT passiert, kann sein Wert im Tabelleneintrag des Flusses als ep_congestion-Wert gespeichert werden, der zur Auswahl einer gewünschten maximalen Bandbreite für den Fluss verwendet werden kann. Jeder Wert von ep_congestion kann einen entsprechenden Satz von Hoch-, Ziel- und Abfall-Wasserzeichenwerten haben. Bei hoher Überlastung, wenn ep _congestion einen hohen Wert hat, können die Wasserzeichenwerte niedrigere Werte haben, so dass die Überlastung aggressiver gemildert werden kann. Bei geringer Überlastung, wenn ep _congestion einen niedrigen Wert hat, kann ein anderer Satz größerer Hoch-, Ziel- und Abwurf-Wasserzeichenwerte für eine höhere Durchsatzbandbreite verwendet werden. So kann beispielsweise eine Tabelle verwendet werden, die durch den ep_congestion-Wert indiziert ist. Für jeden ep _congestion-Wert kann die Tabelle einen entsprechenden Satz von Hoch-, Ziel- und Abwurf-Wasserzeichenwerten angeben. Die Einträge dieser Tabelle können im Voraus festgelegt werden, so dass die Vermittlungsstelle beim Empfang einer Endpunkt-Stau-Benachrichtigung (ACK) den ep _congestion-Wert verwenden kann, um in dieser Tabelle nachzuschlagen und die drei entsprechenden Wasserzeichenwerte auf den identifizierten Fluss anzuwenden.
Wenn die Quelle Daten auf gierige Weise einspeist, reicht es in manchen Fällen nicht aus, die Weiterleitung innerhalb des Netzwerks zu verlangsamen, um die Überlastung vollständig zu beseitigen. Um dieses Problem zu lösen, kann ein Ingress-Edge-Switch so konfiguriert werden, dass er das Quellgerät (das sich in der Regel außerhalb der Fabric befindet) anweist, die Dateneinspeisung auf einer feinkörnigen, flussbezogenen Basis zu begrenzen. Dieser Switch-to-Host-Flusskontrollmechanismus kann als Fine Gran Flow Control (FGFC) bezeichnet werden.
Insbesondere in einer HPC-Umgebung kann ein Endhost oder Rechenknoten über eine große Anzahl von Kernen verfügen, auf denen zahlreiche Threads, Prozesse oder virtuelle Maschinen ausgeführt werden, von denen jede ihren eigenen Datenstrom über einen gemeinsamen physischen Netzwerkschnittstellen-Controller (NIC) in das Netz einspeist. Wenn eine Überlastung vorliegt, kann eine portbasierte Flusskontrolle nur die Gesamtdatenrate über einen einzelnen Port der Netzwerkkarte drosseln, die 40 Gbit/s oder mehr betragen kann. Die Drosselung der Gesamtdatenrate auf dem gesamten Port kann zu einer unfairen Behandlung von Flüssen führen, die nicht zur Überlastung beitragen. FGFC kann das Konzept der einzelnen Ströme oder der Gruppe verbundener Ströme auf ihre ultimative Quelle ausweiten, die ein einzelner Thread sein kann, der auf einem der Kerne ausgeführt wird.
Um die Dateneinspeisung von der Quelle zu verlangsamen, kann ein FGFC-Logikblock an einem Eingangs-Edge-Switch (z. B. der FGFC-Logikblock 434 im Edge-Switch 406 in ) eine hybride Methode aus Pause und Kredit verwenden, um eingehende Daten zu drosseln, die einem bestimmten Fluss oder einer Gruppe von Flüssen zugeordnet sind. Bei einer pausenbasierten Methode gibt das empfangende Ende in der Regel einen Pausenbefehl an das sendende Ende aus, das daraufhin die Übertragung bis auf weiteres stoppen kann. Bei einer auf Guthaben basierenden Methode kann die empfangende Seite der sendenden Seite Übertragungsguthaben erteilen, die es der sendenden Seite ermöglichen, mehr Daten zu senden, jedoch nur bis zu der durch den Guthabenwert festgelegten Menge. Mit diesem Mechanismus kann die empfangende Seite die Tiefe des Eingangspuffers genauer steuern, um einen Überlauf zu vermeiden, während die Übertragung fortgesetzt werden kann. FGFC kann ein hybrides Verfahren verwenden, bei dem der Eingangs-Edge-Switch bei Erkennung einer Überlastung ein FGFC-Paket für einen oder mehrere Ströme mit einem festgelegten Zeitwert an die NIC des EndHosts (z. B. NIC 401 auf dem End-Host 402 in ) senden kann. Nach dem Empfang des FGFC-Pakets kann der Ingress-Edge-Switch einen kreditbasierten Flusskontrollmodus einschalten. Daraufhin kann der NIC die Übertragungsdatenrate für den/die entsprechenden Datenfluss/e auf der Grundlage des empfangenen Guthabens drosseln, während andere Datenflüsse mit der normalen Datenrate übertragen werden können. Nach Ablauf des vorbestimmten Zeitgebers kann der NIC des Endhosts für den/die gedrosselten Datenfluss/e zur normalen Übertragung zurückkehren, sofern kein weiterer Pausenbefehl empfangen wird. Ein gedrosselter Datenfluss kann durch ein beliebiges Feld aus einem Paket identifiziert werden. Ein gedrosselter Datenfluss kann sich auf einen einzelnen Prozess oder Thread beziehen, der auf dem Endhost ausgeführt wird.
FGFC kann die Steuerkommunikation zwischen einem Edge-Switch und einer End-Host-NIC unter Verwendung eines Ethernet-Frames mit einem um einen Organizationally Unique Identifier (OUI) erweiterten Ether_ Type-Feld implementieren. Diese Rahmen können eine oder mehrere der folgenden Angaben enthalten: (1) das Protokoll, das von dem zu kontrollierenden Datenfluss verwendet wird; (2) einen Identifikator, der die Quelle (z. B. Anwendung, Prozess oder Thread) angibt, die die zu drosselnden Pakete erzeugt; (3) einen Wert für die Pausenzeit, für die die Datenflusskontrolle gelten soll (was eine Blockierung verhindern kann, wenn nachfolgende FGFC-Frames aufgrund von Fehlern verloren gehen), und (4) einen Guthabenwert, der Null sein kann, um die Anzahl der Frames oder die Datenmenge anzugeben, die während der Pausenzeit gesendet werden können.
Beachten Sie, dass die Kennung zur Angabe des Quellflusses, der der Flusskontrolle unterliegt, je nach dem mit dem Fluss verbundenen Protokoll unterschiedlich sein kann. Beim Schicht-2-Ethernet-VLAN-Verkehr kann der Bezeichner die VLAN-Nummer enthalten. Beim IPv4-Verkehr kann der Bezeichner ein IP-Adressenpaar für Quelle und Ziel, ein UDP- oder TCP/IP-5-Tupel mit UDP- oder TCP-Portnummern oder ein optionales Flusslabel enthalten. Bei IPv6-Verkehr kann der Bezeichner eine oder mehrere IPv6-Adressen oder ein IPv6-Flow-Label enthalten. Bei proprietärem HPC-Protokollverkehr kann der Bezeichner eine Prozess- oder Thread-ID enthalten. Im Allgemeinen wird dieser Bezeichner auch in der EFCT des Edge-Switch gespeichert, da er verwendet wird, um den entsprechenden Verkehr einer Flusskennung zuzuordnen.
Um FGFC auszulösen, kann der IFCT eines Ingress Edge Switches seine flussspezifischen Eingangswarteschlangen überwachen. Für jede Warteschlange kann der entsprechende IFCT-Eintrag drei Wasserzeichenwerte angeben: Hoch, Ziel und Abwurf, die zur Messung der Warteschlangentiefe verwendet werden können. In einigen Beispielen können diese Wasserzeichenwerte als zusätzliche Felder in die IFCT aufgenommen werden, wie in gezeigt, oder sie können in einer separaten Tabelle gespeichert und durch ein Feld in der IFCT verknüpft werden. Wenn die Warteschlangentiefe unter dem Zielwert liegt, ist keine FGFC erforderlich. Wenn die Warteschlangentiefe den Zielwert für das Wasserzeichen erreicht, kann der IFCT mit einem FGFC-Logikblock kommunizieren, um FGFC mit dem NIC eines Endhosts zu initiieren. Wenn die Warteschlangentiefe unter den Wasserzeichenwert sinkt, kann die FGFC gestoppt und die normale Übertragung des Datenstroms wieder aufgenommen werden.
zeigt ein Flussdiagramm eines beispielhaften FGFC-Prozesses. Während des Betriebs kann das System an einem Eingangsrandschalter die flussspezifischen Eingangswarteschlangen überwachen (Vorgang 902). Das System kann außerdem für einen bestimmten Fluss feststellen, ob FGFC gerade eingeschaltet ist (Vorgang 904). Wenn FGFC für diese Bewegung eingeschaltet ist, kann das System feststellen, ob die Warteschlangentiefe unter der Drop-Watermark liegt (Operation 906). Wenn die Warteschlangentiefe nicht unter die Drop-Watermarke gesunken ist, kann das System die kreditbasierte Übertragung im FGFC-Modus fortsetzen (Vorgang 912). Wenn die Warteschlangentiefe unter die Drop-Watermarke gesunken ist, kann das System zur normalen Übertragung für den Fluss zurückkehren (Vorgang 914). Zurück zu Vorgang 904: Wenn FGFC derzeit nicht eingeschaltet ist, kann das System feststellen, ob die Warteschlangentiefe größer als die Zielwasserstandsmarke ist (Vorgang 908). Ist dies der Fall, kann das System FGFC für den Fluss einleiten (Vorgang 910). Der FGFC-Logikblock im Edge-Switch kann flussidentifizierende Informationen (z. B. VLAN-Tag, TCP/IP-5-Tupel, Thread-ID usw.) aus dem EFCT-Eintrag, der dem Fluss entspricht, abrufen und einen FGFC-Ethernet-Frame an die NIC auf dem Endhost senden. Anschließend kann das System mit der Überwachung der Eingangswarteschlangen fortfahren (Vorgang 902). Ist die Warteschlangentiefe nicht größer als das Zielwasserzeichen, kann das System die reguläre Datenübertragung fortsetzen (Vorgang 914)
Zur Erleichterung von FGFC kann ein NIC so konfiguriert werden, dass er den FGFC-Ethernet-Frame verarbeitet, so dass der NIC mit der Anwendung oder dem Prozess auf einem Endhost, der die Daten erzeugt, kommunizieren kann. Das Parsing des FGFC-Ethernet-Frames und die Kommunikation mit der Anwendung oder dem Prozess kann in Software, Hardware oder einer Kombination aus beidem erfolgen. zeigt ein Beispiel für eine FGFC-fähige NIC. In diesem Beispiel kann ein NIC 930 einen Prozessor 932, einen Speicher 934, einen Sender 936, einen Empfänger 938, einen FGFC-Logikblock 940 und einen Kommunikationslogikblock 942 umfassen. Während des Betriebs können der Sender 936 und der Empfänger 938 eine Kommunikation zu und von einem Flankenschalter über eine Flankenverbindung durchführen. Der Kommunikationslogikblock 942 kann über einen Datenbus (z. B. einen Peripheral Component Interconnect Express (PCIe)-Bus) mit der zentralen Verarbeitungseinheit des Endhosts kommunizieren, in dem sich die NIC 930 befindet. Der Prozessor 932 und der Speicher 934, die in der NIC 930 integriert sind, können die Daten lokal verarbeiten. Während des Betriebs kann der FGFC-Logikblock 940 mit einem Edge-Switch zusammenarbeiten, um FGFC auf einer Pro-Flow-Basis anzuwenden. Darüber hinaus kann der FGFC-Logikblock 940 über den Kommunikationslogikblock 942 mit der zentralen Verarbeitungseinheit des Endhosts kommunizieren, um die Dateneinspeisung einer einzelnen Anwendung oder eines einzelnen Prozesses zu drosseln, die bzw. der dem spezifischen, der FGFC unterliegenden Fluss entspricht, und so die Menge der in die Fabric eingespeisten Daten zu steuern.
Wie bereits erwähnt, können in einem Netz zwei Arten von Überlastungen auftreten. Die erste Art ist die Überlastung der Endpunkte und die zweite Art ist die Überlastung der Netzverbindung. zeigt ein Beispiel für eine Fabric-Link-Überlastung. In diesem Beispiel stehen zwei Zwischen-Switches 1002 und 1006 über eine Fabric-Verbindung 1004 in Verbindung. Mehrere Quell-/Zielpaare können Verkehr über die Fabric Link 1004 senden. Infolgedessen kann die Fabric-Verbindung 1004 überlastet sein, obwohl die Verbindungen, die zu und von der Fabric-Verbindung 1004 führen, möglicherweise nicht überlastet sind. Fabric Link 1004 kann als „Hot Spot“ erscheinen, wenn eine solche Überlastung auftritt.
Um eine Überlastung der Fabric-Links abzumildern, kann ein Switch eine dynamische kreditbasierte Flusskontrolle pro Fluss anwenden. Wenn sich in einem Switch eine Eingangswarteschlange zu füllen beginnt und der queue _extent-Wert für diesen Fluss einen vorbestimmten Schwellenwert erreicht, kann der Switch ein spezielles ACK erzeugen, um den IFCT des Upstream-Switches über die Überlastung zu informieren. Dieses spezielle ACK pro Hop kann als „HeadroomACK“ bezeichnet werden. Nach Erhalt des HeadroomACK kann das IFCT des Upstream-Switch eine kreditbasierte Flusskontrolle mit dem Downstream-Switch starten. Im Downstream-IFCT-Eintrag kann ein Flag Upstream Metering (UM) gesetzt werden, um anzuzeigen, dass die Datenübertragung vom Upstream-Switch nun auf der Grundlage der Credits gemessen wird. Das HeadroomACK-Paket kann auch einen Guthabenwert enthalten.
Wenn die vorgelagerte Vermittlungsstelle ein HeadroomACK empfängt, kann im entsprechenden Eintrag des IFCT ein Kennzeichen namens Downstream Metered (DM) gesetzt werden. Der IFCT kann auch ein signiertes Headroom-Feld im IFCT-Eintrag mit dem von der HeadroomACK übertragenen Credit-Wert speichern (d. h., der Headroom-Wert gibt die Anzahl der Credits an). Dieses Headroom-Feld kann die Datenmenge darstellen, die an den nachgeschalteten Switch weitergeleitet werden kann. Dadurch wird eine kreditbasierte Flusskontrolle für den entsprechenden Fluss eingerichtet. Wenn der vorgelagerte IFCT ein HeadroomACK empfängt, während das DM-Flag im Eintrag des Flusses bereits gesetzt ist, kann der im HeadroomACK enthaltene Kreditwert zum bestehenden Headroom-Wert addiert werden.
Neue Pakete, die vom vorgelagerten IFCT empfangen werden, können blockiert werden, wenn der Headroom-Wert nicht größer als Null ist (d. h. kein Guthaben verfügbar ist). Diese Pakete können die Eingangswarteschlange dieses Datenflusses Rillen und können wiederum dazu führen, dass der IFCT mit seinem vorgelagerten IFCT eine auf Guthaben basierende Datenflusskontrolle pro Datenfluss einleitet, usw. Wenn der Headroom-Wert größer als Null ist, kann ein in der Eingangswarteschlange gespeichertes Paket aus der Warteschlange genommen und an die nachgelagerte Vermittlungsstelle weitergeleitet werden, und der Headroom-Wert kann um die Größe des weitergeleiteten Pakets verringert werden, was dazu führen kann, dass der Headroom-Wert Null oder negativ wird.
Da der Datenfluss nicht mehr in der Lage ist, neue Pakete an den nachgelagerten IFCT zu senden, kann sich die Eingangswarteschlange des nachgelagerten IFCT in Abhängigkeit von der Überlastung des nachgelagerten IFCT mit einer gewissen Geschwindigkeit leeren. Wie oben beschrieben, kann die Eingangswarteschlange jedes Datenflusses drei Wasserzeichenwerte für die Warteschlangentiefe haben, nämlich „hoch“, „Ziel“ und „Abfall“, die für die kreditbasierte Datenflusskontrolle verwendet werden können. Das Ziel-Wasserzeichen kann annähernd die ideale Warteschlangentiefe für die gewünschte Flussbandbreite sein. Sie zeigt an, dass genügend Puffer für die Übertragung von Daten im Downstream vorhanden ist. Bei Überlastung kann der Mechanismus der kreditbasierten Flusssteuerung versuchen, den queue extent-Wert des Flusses annähernd bei dieser Zielwassermarke zu halten.
Liegt der queue _extent-Wert zwischen der High-Watermark und der Drop-Watermark und ist größer als die Target-Watermark, kann bei der Weiterleitung eines Pakets etwas weniger als die Kreditgröße dieses Pakets mit einem HeadroomACK an den Upstream-Switch zurückgegeben werden. Wenn der queue_extent-Wert die Ziel-Wassermarke nicht überschreitet, kann bei der Weiterleitung eines Pakets etwas mehr als die Kreditgröße dieses Pakets mit dem HeadroomACK an die vorgelagerte Vermittlungsstelle zurückgegeben werden.
Ist die queue extent depth größer als die High Watermark, wird bei der Weiterleitung von Paketen keine Gutschrift erteilt. Dieser Mechanismus kann den queue _extent-Wert schneller senken und wird in der Regel verwendet, wenn eine Überlastung zum ersten Mal festgestellt wird. Wenn sich der Stau auflöst, kann sich die Eingangswarteschlange des Datenstroms schneller leeren. Wenn die Warteschlangentiefe kleiner ist als die Drop-Watermark, kann die kreditbasierte Flusskontrolle abgeschaltet werden. Dazu wird das UM-Flag im IFCT-Eintrag gelöscht und ein HeadroomACK mit dem maximalen Credit-Wert an die vorgelagerte Vermittlungsstelle zurückgesendet. Wenn die HeadroomACK von der vorgelagerten IFCT empfangen wird, wird das DM-Flag des Eintrags gelöscht und die Flusskontrolle in Bezug auf den Headroom-Wert wird ausgeschaltet.
Beachten Sie, dass es in einer typischen Netztopologie eine Reihe von Switches geben kann und zwischen zwei Endpunkten mehrere Datenpfade bestehen können. In einem Netz mit mehreren Pfaden ist es möglich, verschiedene Methoden zur Kontrolle der Überlastung von Fabric Links einzusetzen. Zum Beispiel können die später in diesem Dokument beschriebenen Injektionsgrenzen die maximale Gesamtdatenmenge im gesamten Fabric kontrollieren. Das bedeutet, dass ein Datenfluss bei Überlastung einer bestimmten Fabric-Verbindung einen anderen Datenpfad verwenden kann, der nicht über die überlastete Verbindung führt. Es ist möglich, eine überlastete Verbindung zu erkennen und „Reroute“-ACKs für eine Reihe von Flüssen zu erzeugen. Die Reroute-ACKs können den Datenfluss in einem vorgelagerten Switch vorübergehend blockieren. Wenn alle ACKs für diesen Datenfluss zurückgegeben wurden, kann der Datenfluss wieder freigegeben werden und einen anderen Pfad über die Fabric nutzen. Ein dynamischer, lastbasierter, adaptiver Routing-Mechanismus kann dann das führende Paket auf einen anderen, nicht überlasteten Fabric-Link leiten. Dadurch kann die Last über die gesamte Fabric ausgeglichener werden.
zeigt ein Flussdiagramm eines Beispiels für die Anwendung einer kreditbasierten Flusskontrolle auf einer überlasteten Fabric-Verbindung. Während des Betriebs kann ein Vermittlungssystem seine flussspezifischen Eingangswarteschlangen überwachen (Vorgang 1102). Das System kann feststellen, ob ein Eintrag in seiner IFCT ein UM-Flag gesetzt hat (Vorgang 1104). Wenn das UM-Flag gesetzt ist, was bedeutet, dass die kreditbasierte Flusskontrolle eingeschaltet ist, kann das System ferner feststellen, ob der queue_extent-Wert kleiner als der drop watermark-Wert ist (Vorgang 1106). Wenn der queue _extent-Wert kleiner als der drop watermark-Wert ist, kann das System das UM-Flag löschen, die kreditbasierte Flusskontrolle ausschalten und die normale Datenübertragung wieder aufnehmen (Vorgang 1014). Wenn der queue_extent-Wert größer ist als der drop watermark-Wert, kann das System die kreditbasierte Flusskontrolle fortsetzen (Vorgang 1106). Zurück zu Vorgang 1104: Wenn das UM-Flag nicht gesetzt ist, was bedeutet, dass sich das System im regulären Übertragungsmodus befindet, kann das System feststellen, ob der queue_extent-Wert größer ist als der target watermark-Wert (Vorgang 1108). Ist dies der Fall, kann das System eine kreditbasierte Flusskontrolle einleiten und eine HeadroomACK an die vorgelagerte Vermittlungsstelle senden (Vorgang 1110). Ist der queue _extent-Wert nicht größer als der Zielwasserzeichenwert, kann das System mit der regulären Datenübertragung fortfahren (Vorgang 1112).
Im Allgemeinen kann ein Flow-Channel-Switch eine Kombination aus mehreren Überlastungserkennungs- und Kontrollmechanismen verwenden. Beispielsweise können verschiedene Grade der Endpunktüberlastung mit Hilfe des ACKs „endpoint-congestionnotification“ gemeldet werden, das vom endgültigen Fabric-Egress-Edge-Port zurückgegeben werden kann. Dieser ACK-Typ kann verwendet werden, um die Bandbreite von Flüssen in einen stark überlasteten Egress-Edge-Port zu verwalten. Das System kann auch eine auf Guthaben basierende Flusssteuerung pro Hop verwenden, um eine Überlastung der Fabric-Verbindung zu verwalten. Dieser Per-Hop-Überlastungsmanagement-Mechanismus kann bei geringer bis mittlerer Überlastung wirksam sein, da die Reaktionszeit viel kürzer sein kann als die netzweite Round-Trip-Verzögerung.
Wenn die Überlastung schwerwiegend ist, z. B. durch einen großen Incast, kann das System auch ein Limit für die Injektion pro Fluss anwenden. Das Injektionslimit eines Flusses kann auf der Grundlage des ep_congestion-Wertes bestimmt werden. Die Injektionsgrenze kann mit dem tlow_extent-Wert in allen IFCTs verglichen werden, die der Fluss durchläuft. Ist der tlow_extent-Wert größer als dieser Grenzwert, kann die IFCT die Weiterleitung von Paketen aus der Eingangswarteschlange für diesen Fluss blockieren. Dieser Mechanismus kann die Weiterleitungsrate von Paketen über einen gesamten Fluss auf ein einziges Paket reduzieren.
Das System kann auch nicht zusammenhängenden Verkehr vor extremen Überlastungen schützen, die durch Überschneidungen mit einer großen Anzahl von Teilnehmern verursacht werden. In diesem Fall kann der ep_congestion-Wert auf einen hohen Wert gesetzt und die durchschnittliche Datenmenge eines Flusses auf einen kleinen Bruchteil eines Pakets reduziert werden. Dies kann dadurch erreicht werden, dass das nächste Paket eines einzelnen Datenflusses erst dann vom IFCT des Eingangs-Edge-Ports in die Fabric freigegeben wird, wenn eine programmierbare Verzögerung seit dem Empfang des ACK des vorherigen Pakets verstrichen ist.
Zusätzlich zu den Grenzwerten für die Injektion pro Fluss kann das System die Datenmenge messen, die pro Ingress-Port in die Fabric eingespeist wurde, und Grenzwerte für die Injektion festlegen, um eine Obergrenze für die Gesamtdatenmenge festzulegen, die ein Port in die Fabric einspeisen kann. Da jeder Eingangsport dieses Injektionslimit anwenden kann, kann das System die maximal zulässige Datenmenge innerhalb der Fabric kontrollieren. Durch die Begrenzung der Gesamtdatenmenge, die in die Fabric eingespeist wird, kann sichergestellt werden, dass bei knapper Bandbreite keine Puffererschöpfung eintritt. Dadurch wird der Verkehr, der nicht die Pfade mit reduzierter Bandbreite nutzt, nicht beeinträchtigt.
Um die Begrenzung der Einspeisung pro Port zu erleichtern, kann ein IFCT eine Gesamtzahl des Datenverkehrs verwalten. Jedes Mal, wenn ein Paket vom Edge-Port in die Fabric eingespeist wird, kann die Gesamtzahl erhöht werden. Wenn das ACK eines Datenflusses zurückgegeben wird, kann die Gesamtzahl des Datenverkehrs verringert werden. Sobald alle ACKs aller Ströme eines Eingangsports zurückgegeben wurden (d. h. wenn die Summe der tlow_extent-Werte für alle Ströme Null wird), kann die Gesamtverkehrszahl auf Null gesetzt werden.
zeigt ein beispielhaftes Edge-Switching-System, das Flusskanäle ermöglicht (was z. B. dem Schalter 406 in entsprechen kann). In diesem Beispiel kann ein Schalter 1202 eine Reihe von Kommunikationsanschlüssen, wie z. B. Anschluss 1220, umfassen. Jeder Anschluss kann einen Sender und einen Empfänger enthalten. Der Schalter 1202 kann auch einen Prozessor 1204, eine Speichervorrichtung 1206 und einen Logikblock 1208 zur Flusskanalumschaltung enthalten. Das Flusskanalvermittlungsmodul 1208 kann mit allen Kommunikationsanschlüssen gekoppelt werden und kann außerdem einen Kreuzschienenschalter 1210, einen EFCT-Logikblock 1212, einen IFCT-Logikblock 1214 und einen OFCT-Logikblock 1216 umfassen.
Crossbar-Switch 1210 kann einen oder mehrere Crossbar-Switch-Chips enthalten, die so konfiguriert werden können, dass sie Datenpakete und Steuerpakete (wie ACK-Pakete) zwischen den Kommunikationsanschlüssen weiterleiten. Der EFCT-Logikblock 1212 kann von einem Edge-Link empfangene Pakete verarbeiten und die empfangenen Pakete auf der Grundlage eines oder mehrerer Header-Felder in den Paketen entsprechenden Flüssen zuordnen. Darüber hinaus kann der EFCT-Logikblock 1212 FGFC-Ethernet-Frames zusammenstellen, die an einen Endhost übermittelt werden können, um die von einzelnen Prozessen oder Threads eingespeiste Datenmenge zu steuern. Der IFCT-Logikblock 1214 kann den IFCT enthalten und verschiedene Flusssteuerungsmethoden als Reaktion auf Steuerpakete durchführen, wie z. B. ACKs zur Endpunkt-Stau-Benachrichtigung und auf Fabric-Link-Credits basierende Flusssteuerungs-ACKs. Der OFCT-Logikblock 1216 kann eine Speichereinheit enthalten, die die OFCT speichert und mit dem IFCT-Logikblock eines anderen Switches kommuniziert, um die Fluss-ID eines Pakets zu aktualisieren, wenn das Paket an einen Next-Hop-Switch weitergeleitet wird.
zeigt ein beispielhaftes Vermittlungssystem, das Flusskanäle ermöglicht (die beispielsweise den Schaltern 408 und 430 in entsprechen können). In diesem Beispiel kann ein Schalter 1302 eine Reihe von Kommunikationsanschlüssen, wie z. B. Anschluss 1320, umfassen. Jeder Anschluss kann einen Sender und einen Empfänger enthalten. Der Schalter 1302 kann auch einen Prozessor 1304, eine Speichervorrichtung 1306 und einen Logikblock 1308 zur Flusskanalumschaltung enthalten. Das Flusskanalvermittlungsmodul 1308 kann mit allen Kommunikationsanschlüssen gekoppelt werden und kann außerdem einen Kreuzschienenschalter 1310, einen EFCT-Logikblock 1312, einen IFCT-Logikblock 1314 und einen OFCT-Logikblock 1316 umfassen.
Crossbar-Switch 1310 kann einen oder mehrere Crossbar-Switch-Chips enthalten, die so konfiguriert werden können, dass sie Datenpakete und Steuerpakete (wie ACK-Pakete) zwischen den Kommunikationsanschlüssen weiterleiten. Der EFCT-Logikblock 1312 kann von einem Edge-Link empfangene Pakete verarbeiten und die empfangenen Pakete auf der Grundlage eines oder mehrerer Header-Felder in den Paketen entsprechenden Flüssen zuordnen. Darüber hinaus kann der EFCT-Logikblock 1312 FGFC-Ethernet-Frames zusammenstellen, die an einen Endhost übermittelt werden können, um die von einzelnen Prozessen oder Threads eingespeiste Datenmenge zu steuern. Der IFCT-Logikblock 1314 kann den IFCT enthalten und verschiedene Flusssteuerungsmethoden als Reaktion auf Steuerpakete durchführen, wie z. B. ACKs zur Endpunkt-Stau-Benachrichtigung und auf Fabric-Link-Credits basierende Flusssteuerungs-ACKs. Der OFCT-Logikblock 1316 kann eine Speichereinheit enthalten, die die OFCT speichert und mit dem IFCT-Logikblock eines anderen Switches kommuniziert, um die Fluss-ID eines Pakets zu aktualisieren, wenn das Paket an einen Next-Hop-Switch weitergeleitet wird.
Zusammenfassend beschreibt die vorliegende Offenlegung Systeme und Verfahren, die die Fairness bei Netzwerkausgängen erleichtern können. Insbesondere kann ein Switch die Weiterleitung empfangener Pakete auf der Grundlage ihrer Verkehrsklasse planen und bei der Planung der Paketübertragung eine faire Arbitrierung durchführen. Shaping-Warteschlangen können verwendet werden, um die gewünschte Bandbreitenzuweisung zwischen verschiedenen Verkehrsklassen und virtuellen Kanälen zu erreichen.
Die oben beschriebenen Methoden und Prozesse können von Hardware-Logikblöcken, Modulen oder Geräten ausgeführt werden. Zu den Hardware-Logikblöcken, - Modulen oder -Vorrichtungen können unter anderem anwendungsspezifische integrierte Schaltungen (ASIC), feldprogrammierbare Gate-Arrays (FPGAs), dedizierte oder gemeinsam genutzte Prozessoren, die einen Code zu einem bestimmten Zeitpunkt ausführen, und andere bekannte oder später entwickelte programmierbare Logikgeräte gehören. Wenn die Hardware-Logikblöcke, -Module oder -Geräte aktiviert werden, führen sie die darin enthaltenen Methoden und Prozesse aus.
Die hier beschriebenen Methoden und Prozesse können auch als Code oder Daten verkörpert werden, die in einem Speichergerät oder computerlesbaren Speichermedium gespeichert werden können. Wenn ein Prozessor den gespeicherten Code oder die Daten liest und ausführt, kann der Prozessor diese Methoden und Prozesse durchführen.
Die vorstehenden Beschreibungen von Ausführungsformen der vorliegenden Erfindung wurden nur zur Veranschaulichung und Beschreibung vorgelegt. Sie erheben keinen Anspruch auf Vollständigkeit und beschränken die vorliegende Erfindung nicht auf die dargestellten Formen. Dementsprechend werden viele Modifikationen und Variationen für den Fachmann auf dem Gebiet der Technik offensichtlich sein. Außerdem soll die vorliegende Erfindung durch die obige Offenbarung nicht eingeschränkt werden. Der Umfang der vorliegenden Erfindung wird durch die beigefügten Ansprüche definiert.

Claims

Vermittlungsstelle, die Folgendes umfasst: einen Eingangspuffer zum Speichern empfangener Pakete; einen Ausgangspuffer zum Speichern von über einen Ausgangsanschluss zu übertragenden Paketen; einen Satz von Alterswarteschlangen zum Speichern interner Anforderungen für die Weiterleitung empfangener Pakete vom Eingangspuffer zum Ausgangspuffer; und einen Scheduler-Logikblock, der mit den Alterswarteschlangen gekoppelt ist und unter Verwendung eines Satzes von Formungswarteschlangen eine Verkehrsformung für die in den Alterswarteschlangen gespeicherten Anforderungen durchführt, wodurch die Arbitrierung der Bandbreite unter den Paketen erleichtert wird, während eine Ausgangsgerechtigkeit bereitgestellt wird.
Vermittlungsstelle nach Anspruch 1, wobei der Scheduler-Logikblock während der Durchführung des Traffic Shaping ferner eine Shaping-Warteschlange für ein Paket auf der Grundlage eines Fabric-Tags und einer virtuellen Netzwerkkennung, die dem Paket zugeordnet sind, bestimmt; wobei das Fabric-Tag einer Verkehrsklasse für das Paket entspricht; und wobei die virtuelle Netzwerkkennung einer logischen Partition eines Netzwerks entspricht, mit dem der Switch verbunden ist.
Vermittlungsstelle nach Anspruch 1, wobei der Scheduler-Logikblock während der Durchführung des Traffic Shaping eine Arbitrierung zwischen den Shaping-Warteschlangen unter Verwendung einer Reihe von Token-Buckets durchführt, die in drei Ebenen angeordnet sind, die einen oder mehrere Leaf-Buckets, einen oder mehrere Branch-Buckets und einen Head-Bucket umfassen; wobei jede Shaping-Warteschlange einem Leaf-Bucket entspricht; und wobei die Token-Buckets verwendet werden, um eine zugesicherte Bandbreite, eine Höchstbandbreite und eine Priorität für jede Shaping-Warteschlange zu bestimmen.
Vermittlungsstelle nach Anspruch 3, wobei der Scheduler-Logikblock während der Durchführung der Arbitrierung ferner: die Arbitrierung in drei Gruppen mit hoher, mittlerer bzw. niedriger Priorität unterteilt; für die Gruppe mit hoher Priorität und die Gruppe mit mittlerer Priorität eine Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen innerhalb jeder Prioritätsstufe und eine feste Arbitrierung zwischen Prioritätsstufen durchführt; und für die Gruppe mit niedriger Priorität eine Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen durchführt.
Vermittlungsstelle nach Anspruch 4, wobei eine Bedingung dafür, dass eine entsprechende Shaping-Warteschlange in die Gruppe mit hoher Priorität aufgenommen wird, Folgendes umfasst: ein entsprechender Leaf-Bucket hat sowohl zugesicherte als auch maximale Bandbreite zur Verfügung; ein entsprechender Branch-Bucket über eine zugesicherte und eine Ceiling-Bandbreite verfügt; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; wobei eine Bedingung dafür, dass eine jeweilige Shaping-Queue in der Gruppe mittlerer Priorität enthalten ist, Folgendes umfasst: ein entsprechender Blatt-Bucket hat eine verfügbare Höchstbandbreite; ein entsprechender Branch-Bucket eine gesicherte und eine Ceiling-Bandbreite zur Verfügung hat; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; und wobei eine Bedingung dafür, dass eine entsprechende Shaping-Warteschlange in der Gruppe mit niedriger Priorität enthalten ist, Folgendes umfasst: ein entsprechender Leaf-Bucket hat eine verfügbare Plafond-Bandbreite; ein entsprechender Zweigbereich über eine verfügbare Höchstbandbreite verfügt; und der Head-Bucket über eine verfügbare Höchstbandbreite verfügt.
Vermittlungsstelle nach Anspruch 1, wobei eine entsprechende Shaping-Warteschlange Pakete aufnehmen kann, die zu einem Satz virtueller Kanäle gehören, die verwendet werden können, um Netzwerk-Sackgassen zu vermeiden oder eine Verkehrstrennung unter Verwendung virtueller Netzwerkkennungen bereitzustellen.
Vermittlungsstelle nach Anspruch 6, wobei der Scheduler-Logikblock während der Durchführung des Traffic Shaping weiterhin eine Deficit-Round-Robin-Arbitrierung zwischen VCs durchführt, die einer entsprechenden Shaping-Warteschlange zugeordnet sind.
Verfahren, das Folgendes umfasst: Speichern von empfangenen Paketen in einem Eingangspuffer; Speichern von Paketen, die über einen Ausgangsanschluss übertragen werden sollen, in einem Ausgangspuffer. Speichern interner Anforderungen zum Weiterleiten empfangener Pakete von dem Eingangspuffer zu dem Ausgangspuffer in einem Satz von Alterswarteschlangen; und Durchführen einer Verkehrsformung für die in den Alterswarteschlangen gespeicherten Anforderungen unter Verwendung eines Satzes von Formungswarteschlangen, wodurch eine Aufteilung der Bandbreite zwischen den Paketen erleichtert wird, während eine Ausgangsgerechtigkeit bereitgestellt wird.
Verfahren nach Anspruch 8, wobei die Durchführung von Traffic Shaping das Bestimmen einer Shaping-Warteschlange für ein Paket auf der Grundlage eines Fabric-Tags und einer virtuellen Netzwerkkennung, die dem Paket zugeordnet sind, umfasst; wobei das Fabric-Tag einer Verkehrsklasse für das Paket entspricht; und wobei die virtuelle Netzwerkkennung einer logischen Partition eines Netzwerks entspricht, mit dem der Switch verbunden ist.
Verfahren nach Anspruch 8, wobei während der Durchführung der Verkehrsformung eine Arbitrierung zwischen den Formungswarteschlangen unter Verwendung einer Reihe von Token-Buckets durchgeführt wird, die in drei Ebenen angeordnet sind, welche einen oder mehrere Blatt-Buckets, einen oder mehrere BrSTOREanch-Buckets und einen Head-Bucket umfassen; wobei jede Formungswarteschlange einem Blatt-Bucket entspricht; und wobei die Token-Buckets verwendet werden, um eine zugesicherte Bandbreite, eine Höchstbandbreite und eine Priorität für jede Formungswarteschlange zu bestimmen.
Verfahren nach Anspruch 10, wobei die Durchführung der Arbitrierung Folgendes umfasst: Aufteilen der Arbitrierung in drei Gruppen mit hoher, mittlerer bzw. niedriger Priorität; für die Gruppe mit hoher Priorität und die Gruppe mit mittlerer Priorität, Durchführen einer Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen innerhalb jeder Prioritätsstufe und Durchführen einer festen Arbitrierung zwischen Prioritätsstufen; und für die Gruppe mit niedriger Priorität, Durchführen einer Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen.
Verfahren nach Anspruch 10, wobei eine Bedingung dafür, dass eine entsprechende Shaping-Warteschlange in die Gruppe mit hoher Priorität aufgenommen wird, Folgendes umfasst: eine entsprechende Blatt-Warteschlange hat sowohl gesicherte als auch maximale Bandbreite zur Verfügung; ein entsprechender Branch-Bucket sowohl eine zugesicherte als auch eine Ceiling-Bandbreite zur Verfügung hat; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; wobei eine Bedingung dafür, dass eine jeweilige Shaping-Queue in der Gruppe mittlerer Priorität enthalten ist, Folgendes umfasst: ein entsprechender Blatt-Bucket hat eine verfügbare Höchstbandbreite; ein entsprechender Branch-Bucket eine zugesicherte und eine Ceiling-Bandbreite zur Verfügung hat; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; und wobei eine Bedingung dafür, dass eine entsprechende Shaping-Queue in der Gruppe mit niedriger Priorität enthalten ist, Folgendes umfasst: ein entsprechender Leaf-Bucket hat eine verfügbare Plafond-Bandbreite; ein entsprechender Zweigbereich über eine verfügbare Höchstbandbreite verfügt; und der Head-Bucket über eine verfügbare Höchstbandbreite verfügt.
Verfahren nach Anspruch 8, wobei eine entsprechende Shaping-Warteschlange Pakete aufnehmen kann, die zu einem Satz virtueller Kanäle gehören, die verwendet werden können, um Netzsperren zu vermeiden oder eine Verkehrstrennung unter Verwendung virtueller Netzkennungen bereitzustellen.
Verfahren nach Anspruch 13, wobei die Durchführung von Traffic Shaping die Durchführung von Deficit-Round-Robin-Arbitration zwischen VCs umfasst, die mit einer jeweiligen Shaping-Warteschlange verbunden sind.
Netzwerksystem, das Folgendes umfasst: eine Anzahl miteinander verbundener Switches, wobei ein jeweiliger Switch Folgendes umfasst: einen Eingangspuffer zum Speichern empfangener Pakete; einen Ausgangspuffer zum Speichern von über einen Ausgangsanschluss zu übertragenden Paketen; einen Satz von Alterswarteschlangen zum Speichern interner Anforderungen zum Weiterleiten empfangener Pakete vom Eingangspuffer zum Ausgangspuffer; und einen Scheduler-Logikblock, der mit den Alterswarteschlangen gekoppelt ist und zum Durchführen einer Verkehrsformung für die in den Alterswarteschlangen gespeicherten Anforderungen unter Verwendung eines Satzes von Formungswarteschlangen dient, wodurch die Aufteilung der Bandbreite unter den Paketen erleichtert wird, während eine Ausgangsgerechtigkeit bereitgestellt wird.
Netzwerksystem nach Anspruch 15, wobei der Scheduler-Logikblock während der Durchführung der Verkehrsformung ferner eine Formungswarteschlange für ein Paket auf der Grundlage eines Fabric-Tags und einer virtuellen Netzwerkkennung, die dem Paket zugeordnet sind, bestimmt; wobei das Fabric-Tag einer Verkehrsklasse für das Paket entspricht; und wobei die virtuelle Netzwerkkennung einer logischen Partition eines Netzwerks entspricht, mit dem der Switch verbunden ist.
Netzwerksystem nach Anspruch 15, wobei der Scheduler-Logikblock während der Durchführung des Traffic Shaping eine Arbitrierung zwischen den Shaping-Warteschlangen unter Verwendung einer Reihe von Token-Buckets durchführt, die in drei Ebenen angeordnet sind, die einen oder mehrere Leaf-Buckets, einen oder mehrere Branch-Buckets und einen Head-Bucket umfassen; wobei jede Shaping-Warteschlange einem Leaf-Bucket entspricht; und wobei die Token-Buckets verwendet werden, um eine zugesicherte Bandbreite, eine Höchstbandbreite und eine Priorität für jede Shaping-Warteschlange zu bestimmen.
Netzwerksystem nach Anspruch 17, wobei der Scheduler-Logikblock während der Durchführung der Arbitrierung ferner: die Arbitrierung in drei Gruppen mit hoher, mittlerer bzw. niedriger Priorität unterteilt; für die Gruppe mit hoher Priorität und die Gruppe mit mittlerer Priorität eine Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen innerhalb jeder Prioritätsstufe und eine feste Arbitrierung zwischen Prioritätsstufen durchführt; und für die Gruppe mit niedriger Priorität eine Round-Robin-Arbitrierung zwischen Shaping-Warteschlangen durchführt.
Netzwerksystem nach Anspruch 18, wobei eine Bedingung dafür, dass eine entsprechende Shaping-Warteschlange in die Gruppe mit hoher Priorität aufgenommen wird, Folgendes umfasst: ein entsprechender Blatt-Bucket hat sowohl zugesicherte als auch maximale Bandbreite verfügbar; ein entsprechender Branch-Bucket sowohl eine zugesicherte als auch eine Ceiling-Bandbreite zur Verfügung hat; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; wobei eine Bedingung dafür, dass eine jeweilige Shaping-Queue in der Gruppe mittlerer Priorität enthalten ist, Folgendes umfasst: ein entsprechender Blatt-Bucket hat eine verfügbare Höchstbandbreite; ein entsprechender Branch-Bucket eine zugesicherte und eine Ceiling-Bandbreite zur Verfügung hat; und der Head-Bucket über eine verfügbare Plafond-Bandbreite verfügt; und wobei eine Bedingung dafür, dass eine entsprechende Shaping-Warteschlange in der Gruppe mit niedriger Priorität enthalten ist, Folgendes umfasst: ein entsprechender Leaf-Bucket hat eine verfügbare Plafond-Bandbreite; ein entsprechender Zweigbereich über eine verfügbare Höchstbandbreite verfügt; und der Head-Bucket über eine verfügbare Höchstbandbreite verfügt.
Netzwerksystem nach Anspruch 15, wobei eine entsprechende Shaping-Warteschlange Pakete aufnehmen kann, die zu einem Satz virtueller Kanäle gehören, die verwendet werden können, um Netzwerk-Sackgassen zu vermeiden oder eine Verkehrstrennung unter Verwendung virtueller Netzwerkkennungen bereitzustellen.
Netzwerksystem nach Anspruch 20, wobei der Scheduler-Logikblock während der Durchführung des Traffic Shaping weiterhin eine Deficit-Round-Robin-Arbitrierung zwischen VCs durchführt, die mit einer entsprechenden Shaping-Warteschlange verbunden sind.