DE112005003204T5

DE112005003204T5 - Verfahren und Vorrichtung zum Unterstützen mehrerer Speicherbänke mit einem Speicherblock

Info

Publication number: DE112005003204T5
Application number: DE112005003204T
Authority: DE
Inventors: Sanjeev Shrewsbury Jain; Gilbert Framingham WOLRICH; Mark Uxbridge Rosenbluth; Debra Sudbury BERNSTEIN
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-12-21
Filing date: 2005-12-20
Publication date: 2007-11-15
Also published as: US20060136681A1; WO2006069126A2; CN1809025A; WO2006069126A3

Abstract

Speichersteuerungssystem, welches folgendes umfaßt:
ein Speicherbefehl-Speichermodul, um Befehle für eine Mehrzahl von Speicherbänken zu speichern, wobei das Speicherbefehl-Speichersystem eine Mehrzahl von Orten umfaßt, die jeweils ein Befehlsspeicherfeld und ein Nächster-Ort-Feld aufweisen; und
eine Mehrzahl von Steuereinrichtungen, welche mit dem Speicherbefehl-Speichermodul gekoppelt sind, wobei jede der Mehrzahl von Steuereinrichtungen zu einem entsprechenden einer Mehrzahl von Speicherbänken gehört und jede der Steuereinrichtungen einen ersten Zeiger und einen zweiten Zeiger aufweist, wobei der erste Zeiger, der zweite Zeiger und das Nächster-Ort-Feld eine verkettete Liste von Befehlen für eine gegebene der Mehrzahl von Speicherbänken bereitstellen.

Description

KREUZVERWEIS AUF VERWANDTE ANMELDUNGEN

Nicht zutreffend.

ERKLÄRUNG BEZÜGLICH STAATLICH GEFÖRDERTER FORSCHUNG

Nicht zutreffend.

HINTERGRUND
Wie auf dem Fachgebiet bekannt ist, können Netzwerkvorrichtungen, wie etwa Router und Switches, Netzwerkprozessoren umfassen, um das Empfangen und Senden von Daten zu ermöglichen. Bei bestimmten Netzwerkprozessoren, wie etwa den Mehrkern-, Einzelchip-Prozessoren vom Typ IXP-Network-Processor der Intel Corporation, werden Hochgeschwindigkeits-Warteschlangen- und FIFO(First-In-First-Out)-Strukturen durch eine Deskriptorstruktur unterstützt, welche Zeiger auf den Speicher verwendet. Die U.S. Patentanmeldung mit der Nr. US 2003/0140196 A1 offenbart beispielhafte Warteschlangensteuerungs-Datenstrukturen. Paketdeskriptoren, die durch Zeigerstrukturen adressieren werden, können beispielsweise 32 Bits oder weniger aufweisen.
Wie auch im Gebiet bekannt ist, steigen Speicherkapazitätsanforderungen für Steuerspeicher stetig mit der Erhöhung der Anzahl von Warteschlangen, die von Netzwerksystemen unterstützt werden. Übliche SRAM(statischer Arbeitsspeicher)-Lösungen, wie etwa QDR(Quad-Datenrate)-Speichertechnologien, sind bezüglich der Speicherkapazität begrenzt. Wie bekannt ist, sind SRAM-Implementierungen teuer und verbrauchen ein hohes Maß an nutzbarer Fläche, verglichen mit DRAM(dynamischer Arbeitsspeicher)-Lösungen. Manche bekannten DRAM-Implementierungen, wie etwa RLDRAM(Verringerte-Latenzzeit-DRAM), weisen jedoch Speicher auf, der die Speicherbefehle für die unterschiedlichen Speicherbänke sortiert, um die Speicherbandbreitennutzung zu maximieren. Bestehende Speichersteuerungsdesigns verwenden eine separate FIFO für jede der Speicherbänke, was zu großen Mengen von Speichereinheiten, wie etwa FIFOs(First-In-First-Out), führt. Beispielsweise für 8 Bank-Designs werden 8 FIFOs verwendet, und für 16 Bank-Designs werden 16 FIFOs verwendet.
Die 1 zeigt eine bankgestützte Speichersteuerung 1 aus dem Stand der Technik, die eine Haupt-Befehls-FIFO 2 umfaßt, um Befehle zu speichern, und ein Bank-Steuermodul 4 umfaßt, um die Befehle, abhängig davon, welche der Speicherbänke 5a–h den Befehl bearbeiten wird, zu sortieren. Eine Pin-Schnittstelle 7 liegt zwischen den Speicherbänken 5a–h und den FIFOs 6a–h. Eine Kopf/Schwanz-Struktur 8a–h für jede der FIFOs kann den Dateneingang und -ausgang von jeder der FIFOs 6a–h steuern. Zusätzlich kann eine Vorgriffstruktur 9a–h für jede der FIFOs 6a–h die Datenübertragung zu der Pin-Schnittstelle 7 erleichtern.
Bei dieser Anordnung ist eine Zahl von FIFOs nötig, die gleich der Anzahl von Speicherbänken ist, was ein relativ großes Maß an Chipfläche erfordert. Zusätzlich kann, wenn eine Bank-FIFO unterausgelastet ist, nicht benötigter Speicher nicht der FIFO abgegeben werden, die momentan aufgrund eines Übermaßes an Befehlen für eine bestimmte Speicherbank überbeansprucht ist. Wenn eine Bank-FIFO sich auffüllt, wird ein Gegendruck-Signal an das Haupt-Befehls-FIFO gesandt, welches seinerseits das gesamte System in Gegendruck versetzt, damit keine Befehle verloren gehen. Gegendruck-Signale verringern den Durchsatz und verschlechtern allgemein die Systemleistung. Des weiteren sind, da jedes der Speichermodule eine separate Voll-, Leer-, Kopfzeiger- und Schwanzzeiger-Struktur aufweist, acht Sätze dieser Strukturen für einen Acht-Bank-Speicher nötig usw.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungen, die hier enthalten sind, werden besser durch die folgende detaillierte Beschreibung verstanden, zusammengenommen mit den beigefügten Zeichnungen, bei denen:
1 eine Implementierung einer Speichersteuerung aus dem Stand der Technik ist;
2 ein Diagramm eines beispielhaften Systems ist, welches eine Netzwerkvorrichtung aufweist, die einen Netzwerkprozessor mit einer bankgestützten Speichersteuerung umfaßt;
2A ein Diagramm eines beispielhaften Netzwerkprozessors mit Prozessorelementen ist, die eine bankgestützte Speichersteuerung unterstützen;
3 ein Diagramm eines beispielhaften Prozessorelements (PE) ist, welches Mikrocode laufen läßt;
4 ein Diagramm ist, welches eine beispielhafte Implementierung einer Speichersteuerung zeigt;
5A–5D eine Abfolge von Speicherung und Verwendung von Befehlen bei einer Speichersteuerung zeigt; und
6 eine schematische Abbildung einer beispielhaften Implementierung einer Speicherbank und einer Schnittstellenlogik ist.
DETAILLIERTE BESCHREIBUNG
Die 2 zeigt eine beispielhafte Netzwerkvorrichtung 2, welche Netzwerkprozessoreinheiten (NPUs) umfaßt, die einen Assoziativspeicher mit einer verketteten Liste einer zu bearbeitenden Warteschlange aufweisen, um Speicherbefehle zu ordnen, wenn sie von der Datenquelle 6 eingehende Pakete verarbeiten und die verarbeiteten Daten an eine Zielvorrichtung 8 übertragen. Die Netzwerkvorrichtung 2 kann beispielsweise einen Router, einen Switch und ähnliches umfassen. Die Datenquelle 6 und die Zielvorrichtung 8 können verschiedene Netzwerkvorrichtungen umfassen, die jetzt bekannt sind oder noch entwickelt werden und über einen Übertragungsweg, wie etwa einen optischen Weg mit einer OC-192(10 Gbps)-Übertragungsgeschwindigkeit, verbunden werden können.
Die dargestellte Netzwerkvorrichtung 2 kann Warteschlangen steuern und auf Speicher zugreifen, wie unten im Detail beschrieben ist. Die Vorrichtung 2 umfaßt eine Gruppe von Leitungskarten LC1–LC4 („Blades"), die durch eine Switch-Fabric SF (z. B. eine Kreuzschienen- oder Geteilter-Speicher-Switch-Fabric) untereinander verbunden sind. Die Switch-Fabric SF kann beispielsweise CSIX (Common Switch Interface) oder anderen Schalttechnologien, wie etwa HyperTransport, Infiniband, PCI (Peripheral Component Interconnect), Packet-Over-SONET, RapidIO und/oder UTOPIA (Universal Test and Operation PHY Interface for ATM (Asynchronous Transfer Mode)) entsprechen.
Einzelne Leitungskarten (z. B. LC1) können eine oder mehrere Vorrichtungen PD1, PD2 der physischen Schicht (PHY) umfassen (z. B. optische, verdrahtete und drahtlose PHYs), welche die Übertragung über Netzwerkverbindungen abwickeln. Die PDs der PHYs übersetzen zwischen den physischen Signalen, die von den verschiedenen Netzwerkträgern übertragen werden, und den Bits (d. h. den „0"-en und „1"-en), die von digitalen Systemen verwendet werden. Die Leitungskarten LC können auch Framer-Vorrichtungen (z. B. Ethernet, Synchronous Optic Network (SONET), High-Level Data Link (HDLC) Framer oder andere „Level 2"-Vorrichtungen) FD1, FD2 umfassen, die Operationen auf Rahmen, wie etwa Fehlerdetektion und/oder -korrektur durchführen können. Die gezeigten Leitungskarten LC können auch einen oder mehrere Netzwerkprozessoren NP1, NP2 umfassen, die Paketverarbeitungs-Vorgänge für Pakete durchführen, die über die PHY(s) empfangen wurden, und die Pakete über die Switch-Fabric SF zu einer Leitungskarte LC zu leiten, welche eine Ausgabeschnittstelle bereitstellt, um das Paket weiterzuleiten. Potentiell kann/können der oder die Netzwerkprozessor/Netzwerkprozessoren NP Aufgaben vom „Lager 2" anstatt der Framer-Vorrichtung FD ausführen.
Die 2A zeigt ein beispielhaftes System 10, welches einen Prozessor 12 aufweist, der als ein Netzwerkprozessor vorgesehen sein kann. Der Prozessor 12 ist mit einem oder mehreren I/O-Vorrichtungen gekoppelt, beispielsweise Netzwerkvorrichtungen 14 und 16, sowie mit einem Speichersystem 18. Der Prozessor 12 umfaßt eine Mehrzahl von Prozessoren („Processing Engines" oder „PEs") 20, jeder mit mehreren hardwaregesteuerten Ausführungs-Threads 22. In dem gezeigten Beispiel gibt es „n" Verarbeitungselemente 20, und jedes der Verarbeitungselemente 20 ist in der Lage, eine Mehrzahl von Threads 22 zu verarbeiten, wie unten ausführlicher beschrieben wird. In der beschriebenen Ausführung beträgt die maximale Zahl „N" von Threads, die von der Hardware unterstützt werden, acht. Jedes der Verarbeitungselemente 20 ist mit den angrenzenden Verarbeitungselementen verbunden und kann mit diesen kommunizieren.
In einer Ausführung umfaßt der Prozessor 12 auch einen Mehrzweckprozessor 24, der dazu beiträgt, Mikrocode-Steuerung für die Verarbeitungselemente 20 und andere Ressourcen des Prozessors 12 zu laden, und andere rechnerartige Funktionen auszuführen, wie etwa die Handhabung von Protokollen und Ausnahmen. Bei Netzwerk-Verarbeitungsanwendungen kann der Prozessor 24 auch Unterstützung für Netzwerk-Verarbeitungsaufgaben höherer Schichten bereitstellen, die nicht von den Verarbeitungselementen 20 gehandhabt werden können.
Jedes der Verarbeitungselemente 20 arbeitet mit geteilten Ressourcen, die beispielsweise das Speichersystem 18, eine externe Busschnittstelle 26, eine I/O-Schnittstelle 28 und Steuerungs- und Statusregister (CSRs) 32 umfassen. Die I/O-Schnittstelle 28 ist dafür verantwortlich, den Prozessor 12 zu steuern und ihn an die I/O-Vorrichtungen 14, 16 anzuschließen. Das Speichersystem 18 umfaßt einen dynamischen Arbeitsspeicher (DRAM) 34, auf den mittels einer DRAM-Steuerung 36 zugegriffen wird, und einen statischen Arbeitsspeicher (SRAM) 38, auf den mittels einer SRAM-Steuerung 40 zugegriffen wird. Obwohl nicht gezeigt, würde der Prozessor 12 auch einen Festspeicher umfassen, um Boot-Vorgänge zu unterstützen. Die DRAM-Steuerung 34 und SRAM-Steuerung 36 werden üblicherweise zur Verarbeitung von großen Datenvolumen verwendet, z. B. zur Verarbeitung von Nutzlasten von Netzwerkpaketen bei Netzwerkanwendungen. Bei einer Netzwerkimplementierung werden die SRAM-Steuerung 38 und die SRAM-Steuerung 40 für Aufgaben mit niedriger Latenzzeit und schnellem Zugriff verwendet, z. B. für den Zugriff auf Nachschlagetabellen und so weiter.
Die Vorrichtungen 14, 16 können alle Netzwerkvorrichtungen sein, die zur Übertragung und/oder dem Empfang von Netzwerkverkehrsdaten fähig sind, wie etwa Rahmenverarbeitung/MAC(Media Access Control)-Vorrichtung, z. B. zur Verbindung mit 10/100BaseT-Ethernet-, Gigabit-Ethernet-, ATM- oder anderen Arten von Netzwerken, oder Vorrichtungen zur Verbindung mit einer Switch-Fabric. Zum Beispiel kann in einer Anordnung die Netzwerkvorrichtung 14 eine Ethernet-MAC-Vorrichtung sein (die mit einem Ethernet-Netzwerk verbunden ist, das nicht gezeigt ist), welche Daten zu dem Prozessor 12 überträgt, und die Vorrichtung 16 kann eine Switch-Fabric-Vorrichtung sein, welche verarbeitete Daten vom Prozessor 12 zur Übertragung zu einer Switch-Fabric empfängt.
Zusätzlich kann jede der Netzwerkvorrichtungen 14, 16 eine Mehrzahl von Ports umfassen, die von dem Prozessor 12 bedient werden. Die I/O-Schnittstelle 28 unterstützt demnach eine oder mehrere Arten von Schnittstellen, wie etwa eine Schnittstelle für Paket- und Zellen-Transfer zwischen einer PHY-Vorrichtung und einer Schicht eines höheren Protokolls (z. B. der Sicherungsschicht), oder eine Schnittstelle zwischen einer Verkehrssteuerung und einer Switch-Fabric für Asynchronous Transfer Mode (ATM), Internet-Protocol (IP), Ethernet und ähnliche Datenübertragungsanwendungen. Die I/O-Schnittstelle 28 kann getrennte Empfangs- und Übertragungsblöcke umfassen, und diese können jeder für eine bestimmte Schnittstelle, die von dem Prozessor 12 unterstützt wird, getrennt konfigurierbar sein.
Andere Vorrichtungen, wie etwa ein Hostrechner und/oder Bus-Peripheriegeräte (nicht gezeigt), die mit einer externen Bus-Steuerung, welche von der externen Busschnittstelle 26 gesteuert wird, gekoppelt werden können, können auch von dem Prozessor 12 bedient werden.
Im allgemeinen kann der Prozessor 12, als ein Netzwerkprozessor, an verschiedene Arten von Übertragungsvorrichtungen oder -schnittstellen, welche Daten empfangen/senden, ankoppeln. Der Prozessor 12, welcher als ein Netzwerkprozessor arbeitet, kann Informationseinheiten von einer Netzwerkvorrichtung, wie der Netzwerkvorrichtung 14, empfangen und diese Einheiten in einer parallelen Weise verarbeiten. Die Informationseinheit kann ein ganzes Netzwerkpaket (z. B. ein Ethernet-Paket) oder einen Teil eines solchen Pakets, z. B. eine Zelle, wie etwa eine Common-Switch-Interface(oder „CSIX")-Zelle oder eine ATM-Zelle oder ein ATM-Paketsegment, umfassen. Andere Einheiten werden auch in Betracht gezogen.
Jede der funktionalen Einheiten des Prozessors 12 ist an eine internen Busstruktur oder Zwischenverbindung 42 gekoppelt. Speicherbusse 44a, 44b koppeln die Speichersteuerungen 36 bzw. 37 mit den Speichereinheiten DRAM 34 bzw. SRAM 38 auf dem Speichersystem 18. Die I/O-Schnittstelle 28 ist an die Vorrichtungen 14 und 16 über getrennte I/O-Buslinien 46a bzw. 46b gekoppelt.
Mit Bezug auf 3 wird ein beispielhaftes der Verarbeitungselemente 20 gezeigt. Das Verarbeitungselement (PE) 20 umfaßt eine Steuereinheit 50, die einen Steuerspeicher 51, Steuerlogik (oder Mikrosteuerungen) 52 und eine Kontext-Zuweisungs-/Ereignislogik 53 umfaßt. Der Steuerspeicher 51 wird verwendet, um Mikrocode zu speichern. Der Mikrocode kann von dem Prozessor 24 geladen werden. Die Funktionalität der PE-Threads 22 wird daher durch den Mikrocode bestimmt, welcher über den Hauptprozessor 24 für die Anwendung eines bestimmten Nutzers in den Steuerspeicher 51 des Verarbeitungselements geladen wird.
Die Mikrosteuerung 52 umfaßt einen Befehlsdecoder und eine Programmzähl(PC)-Einheit für jeden der unterstützen Threads. Die Kontext-Zuweisungs-/Ereignislogik 53 kann Nachrichten von jeder der geteilten Ressourcen, z. B. SRAM 38, DRAM 34 oder dem Hauptprozessor 24 und so weiter, empfangen. Diese Nachrichten stellen Information darüber bereit, ob eine angeforderte Funktion beendet wurde.
Die PEs 20 umfassen auch einen Ausführungs-Datenweg 54 und eine Mehrzweckregister(GPR)-Dateieinheit 56, welche mit der Steuereinheit 50 gekoppelt ist. Der Datenweg 54 kann eine Anzahl von unterschiedlichen Datenwegelementen umfassen, z. B. eine ALU (arithmetische Logikeinheit), einen Multiplikator und einen Assoziativspeicher (CAM).
Die Register der GPR-Dateieinheit 56 (GPRs) werden in zwei getrennten Bänken, Bank A 56a und Bank B 56b bereitgestellt. Die GPRs werden ausschließlich unter Programmsteuerung gelesen und geschrieben. Die GPRs versorgen, wenn sie als eine Quelle in einer Anweisung verwendet werden, den Datenweg 54 mit Operanden. Wenn sie als ein Zielort in einer Anweisung verwendet werden, werden sie mit dem Ergebnis des Datenwegs 54 beschrieben. Die Anweisung setzt die Registernummer der spezifischen GPRs fest, die als eine Quelle oder ein Zielort ausgewählt werden. Opcode-Bits in der Anweisung, die von der Steuereinheit 50 bereitgestellt werden, wählen aus, welches Datenweg-Element die Operation, die durch die Anweisung definiert ist, ausführen soll.
Das PE 20 umfaßt weiter eine Schreib-Übertragungsregisterdatei 62 (Übertragung nach außen) und eine Lese-Übertragungsregisterdatei 64 (Übertragung nach innen). Die Schreib-Übertragungsregister der Schreib-Übertragungsregisterdatei 62 speichern Daten, die in eine Ressource, die zu dem Verarbeitungselement extern ist, geschrieben werden sollen. In der dargestellten Ausführung wird die Schreib-Übertragungsregisterdatei in getrennte Registerdateien für SRAM (SRAM-Schreib-Übertragungsregister 62a) und DRAM (DRAM-Schreib-Übertragungsregister 62b) partitioniert. Die Lese-Übertragungsregisterdatei 64 wird verwendet, um Rückgabedaten von einer Ressource, die zu dem Verarbeitungselement 20 extern ist, zu speichern. Wie die Schreib-Übertragungsregisterdatei ist die Lese-Übertragungsregisterdatei in getrennte Registerdateien für SRAM und DRAM, die Registerdateien 64a bzw. 64b, aufgeteilt. Die Übertragungsregisterdateien 62, 64 sind mit dem Datenweg 54 sowie mit dem Steuerspeicher 50 verbunden. Man beachte, daß die Architektur des Prozessors 12 „Reflektor"-Anweisungen unterstützt, die es erlauben, daß jedes PE auf die Übertragungsregister jedes der anderen PEs zugreift.
Zudem ist in dem PE 20 ein lokaler Speicher 66 vorgesehen. Der lokale Speicher 66 wird von Registern 68a („LM_Addr_1"), 68b („LM_Addr_0") adressiert, die dem Datenweg 54 Operanden zuführen, und empfängt Ergebnisse von dem Datenweg 54 als ein Zielort.
Das PE 20 umfaßt auch lokale Steuer- und Zustandsregister (CSRs) 70, die mit den Übertragungsregistern gekoppelt sind, um lokale Zwischen-Thread- und globale Ereignis-Signalisierungsinformation sowie andere Steuer- und Zustandsinformation zu speichern. Andere Speicher- und Funktionseinheiten, beispielsweise ein eine Zyklische-Redundanzprüfungs(CRC)-Einheit (nicht gezeigt), können in dem Verarbeitungselement ebenfalls vorgesehen sein.
Andere Registerarten des PE 20 umfassen Nächster-Nachbar(NN)-Register 74, die mit dem Steuerspeicher 50 und dem Ausführungsdatenweg 54 gekoppelt sind, um Information zu speichern die von einem vorhergehenden Nachbar-PE („stromaufwärts gelegenes PE") in einer Pipeline-Verarbeitung über ein Nächster-Nachbar-Eingangssignal 76a oder von derselben PE, wenn sie durch Informationen in den lokalen CSRs 70 gesteuert wird, empfangen werden. Ein Nächster-Nachbar-Ausgangssignal 76b an eine Nächster-Nachbar-PE („stromabwärts gelegene PE") in einer Verarbeitungspipeline kann unter der Steuerung der lokalen CSRs 70 bereitgestellt werden. So kann ein Thread auf irgendeinem PE einem Thread auf dem nächsten PE über die Nächster-Nachbar-Signalisierung benachrichtigen.
Während erläuternde Hardware hier im Detail gezeigt und beschrieben wird, versteht es sich, daß die beispielhaften Ausführungen, die hier als ein Assoziativspeicher mit einer zu verarbeitenden Warteschleife als verketteten Liste zum Ordnen von Speicherbefehlen gezeigt und beschrieben sind, auf eine Vielzahl von Hardware, Prozessoren, Architekturen, Vorrichtungen, Entwicklungssysteme/werkzeuge und dergleichen anwendbar sind.
Die 4 zeigt eine beispielhafte Speichersteuerung 100, die eine Haupt-Befehls-FIFO 102 umfaßt, welche Befehle an ein Speicherbefehls-Speichermodul 104 bereitstellt, um Befehle für eine Mehrzahl von Speicherbänken 106a–h zu speichern. Für jede der Speicherbänke 106a–h ist eine Steuereinrichtung 108a–h, die einen Kopfzeiger und einen Schwanzzeiger umfassen kann, mit dem Befehlsspeichermodul 104 gekoppelt. Für jede der Speicherbänke kann ein optionales Vorgriffmodul 110a–h zwischen den Datenausgabeport des Befehlsspeichermoduls 104 und die Pin-Schnittstellenlogik 112 gekoppelt werden. Wie dem Fachmann bekannt ist, erleichtert das Vorgriffmodul 110 Schreibbefehls-Gruppierung und Lesebefehls-Gruppierung, was zu einer optimalen Speicher-Betriebseffizienz führt. Das bedeutet, daß ein Übergang von einem Lese- zu einem Schreibbefehl und/oder umgekehrt Speicherzyklen verschwenden kann.
In einer beispielhaften Ausführung umfaßt jeder Ort in dem Befehlsspeichermodul 104 ein Befehlsspeicherfeld 104a und ein Next-Feld 104b, welches auf den nächsten Eintrag in einer verketteten Liste von Befehlen für eine gegebene Speicherbank zeigt. Das Befehlsspeichermodul 104 umfaßt weiter ein Gültigkeitsflag 104c, das einen Teil eines „Gültige-Bit-Arrays" bilden kann. Wenn der Eintrag einen gültigen Befehl aufweist oder der Kopfzeiger auf einen bestimmten Eintrag zeigt, wird sein zugehöriges Gültigkeitsflag 104c gesetzt. Nachdem der Eintrag verwendet wurde, wird das Gültigkeitsflag 104c zurückgesetzt und der Eintrag tritt in den Pool von verfügbaren Einträgen ein.
Die Steuereinrichtung 108 umfaßt einen Kopfzeiger 109 und einen Schwanzzeiger 111. Anfang zeigen der Kopf- und der Schwanzzeiger 109, 111 auf denselben Ort, welcher der zugehörigen Speicherbank bei der Initialisierung zugewiesen ist. Wenn der Kopf- und der Schwanzzeiger auf denselben Ort zeigen, kann angenommen werden, daß das Befehlsspeichermodul 104 keine Befehle für die zugehörige Speicherbank aufweist. Im allgemeinen steuert jede Steuereinrichtung 108 zusammen mit dem Befehlsspeichermodul 104 eine verkettete Liste von Befehlen für jede der Speicherbänke.
Wenn ein neuer Befehl für eine gegebene Speicherbank empfangen wird, wird ein freier Eintrag aus den Gültigkeitsflags 104c in dem Befehlsspeichermodul ermittelt. Der neue Befehl wird an dem Ort des Kopfzeigers geschrieben, und ein weiterer freier Eintragsort wird identifiziert und in das Next-Feld 104b gesetzt. Der Schwanzzeiger 111 wird aktualisiert, um auf den nächsten freien Eintragsort zu zeigen. Eine verkettete Liste von Befehlen kann mittels dieses Verfahrens hergestellt werden.
Wenn die Pin-Schnittstellenlogik 112 einen neuen Befehl von dem Befehlsspeichermodul 104 erhält, wird der Schwanzzeiger 111 verwendet, um den nächsten Befehl von dem Speicherpool zu lesen. Der Schwanzzeiger 111 wird dann mit der Eintragszahl aktualisiert, die an dem Next-Zeigerort geschrieben ist, und das Gültigkeitsflag 104c wird entsprechend dem verwendeten Eintrag zurückgesetzt.
Die 5A–C zeigen, zusammen mit der 4, eine beispielhafte Verarbeitungssequenz des Speicherns und der Verwendung von Befehlen in dem Befehlsspeichermodul (4), basierend auf dem Kopfzeiger 109, dem Schwanzzeiger 111 und dem Next-Feld 104b des Befehlsspeichermoduls. Es versteht sich, daß der Kopf- und der Schwanzzeiger 109, 111 eine verkettete Liste von Befehlen für eine bestimmte Speicherbank steuern, und daß ein Kopf- und ein Schwanzzeiger-Paar für jede der Speicherbänke existiert.
In der 5A weist das Modul 104 keine Befehle für die Bank auf, die mit dem Kopf- und dem Schwanzzeiger 109, 111 verbunden ist, so daß diese auf denselben Ort, gezeigt als Ort 5, des Befehlsspeichermoduls 104 zeigen. Man beachte, daß das Gültigkeitsflag 104c15 für den Ort 5 (15) gesetzt ist, da der Kopfzeiger 109 auf diesen Ort zeigt. In der 5B wird ein erster Befehl C1 von dem Haupt-Befehls-FIFO 102 (4) in dem Befehlsfeld 104a15 von Ort 5 gespeichert. Als Teil der Befehlsspeicheroperation wird ein nächster Eintragsort, basierend auf den Gültigkeitsflags 104c, identifiziert. In der dargestellten Ausführung wird der Ort 7 als der nächste Eintragsort identifiziert, und diese Information wird in das Next-Feld 104b15 von Ort 5 geschrieben. Der Schwanzzeiger 111 wird aktualisiert, um auf den Ort 7 des Befehlsspeichermoduls zu zeigen, und das Gültigkeitsflag 104c17 des Ortes 7 wird gesetzt.
In 5C wird ein zweiter Befehl C2 von dem Haupt-Befehls-FIFO 102 empfangen und in dem Ort 7 gespeichert. Der nächste Eintragsort wird als Ort 1 identifiziert, und diese Information wird in das Next-Feld von Ort 7 geschrieben. Der Schwanzzeiger 111 wird aktualisiert, um auf den Ort 1 zu zeigen, und das Gültigkeitsflag dieses Ortes wird gesetzt.
In 5D wird der erste Befehl C1 von dem Befehlsspeichermodul 104 an die Vorgriffsstruktur 110 und die Pin-Schnittstelle 112 gesendet. Der Ort 5, welcher den ersten Befehl C1 gespeichert hatte, wird leer, und das Gültigkeitsflag 104c wird zurückgesetzt. Der Kopfzeiger 109 wird aktualisiert, um auf den Ort 7 zu zeigen, der den zweiten Befehl C2 aufweist, und so weiter für nachfolgend empfangene und verwendete Befehle für eine bestimmte Speicherbank.
Das es ein Befehlsspeichermodul 104 für eine Mehrzahl von Speicherbänken gibt, anstatt beispielsweise von 8 oder 16 Speichermodulen, wie sie in herkömmlichen Implementierungen verwendet werden, werden bedeutende Verbesserungen der Speichermodulnutzung erreicht. Zusätzlich können Speicherbank-FIFOs (verkettete Listen) wachsen oder schrumpfen, um die Anzahl von Gegendruck-Ereignissen zu verringern oder eliminieren.
Es versteht sich, daß eine große Vielfalt von Implementierungen von Speicherbänken möglich sind. Die 6 zeigt eine Ausführung einer Acht-Speicherbank-Konfiguration, die mit der Pin-Schnittstellenlogik 112 von 4 gekoppelt werden kann. Die Pin-Schnittstellenlogik 112 maximiert den Zugang zu den Speicherbänken, indem sie verfolgt, welche Speicherbänke verfügbar sind, da ein Zugang zu einer gegebenen Speicherbank diese Bank für den nächsten Zyklus oder die nächsten mehreren Zyklen nicht verfügbar machen kann. Zugang zu den verschiedenen Speicherbänken sollte in der Zeit verteilt sein, um die Speicherzugangseffizienz zu maximieren. Zusätzlich versteht es sich, daß, während Kopf- und Schwanzzeiger in beispielhaften Ausführungen gezeigt werden, andere Zeigerstrukturen verwendet werden können, um die Anforderungen einer bestimmten Implementierung zu erfüllen.
Andere Ausführungen liegen innerhalb des Umfangs der folgenden Ansprüche.
ZUSAMMENFASSUNG
Ein Speicher-Steuersystem umfaßt ein Speicherbefehl-Speichermodul, um Befehle für eine Mehrzahl von Speicherbänken zu speichern. Das System umfaßt eine Mehrzahl von Steuereinrichtungen, welche jeweils einen ersten und einen zweiten Zeiger umfassen, um, in Kombination mit einem Next-Feld in jedem Modulort, eine verkettete Liste von Befehlen für eine gegebene einer Mehrzahl von Speicherbänken bereitzustellen.

Claims

Speichersteuerungssystem, welches folgendes umfaßt: ein Speicherbefehl-Speichermodul, um Befehle für eine Mehrzahl von Speicherbänken zu speichern, wobei das Speicherbefehl-Speichersystem eine Mehrzahl von Orten umfaßt, die jeweils ein Befehlsspeicherfeld und ein Nächster-Ort-Feld aufweisen; und eine Mehrzahl von Steuereinrichtungen, welche mit dem Speicherbefehl-Speichermodul gekoppelt sind, wobei jede der Mehrzahl von Steuereinrichtungen zu einem entsprechenden einer Mehrzahl von Speicherbänken gehört und jede der Steuereinrichtungen einen ersten Zeiger und einen zweiten Zeiger aufweist, wobei der erste Zeiger, der zweite Zeiger und das Nächster-Ort-Feld eine verkettete Liste von Befehlen für eine gegebene der Mehrzahl von Speicherbänken bereitstellen.
System nach Anspruch 1, wobei der erste Zeiger auf einen nächsten Befehl zeigt, welcher verwendet werden soll, der zweite Zeiger auf einen auf einen nächsten Ort zeigt, in welchem ein Befehl gespeichert werden soll, und das Nächster-Ort-Feld einen Zeiger auf den nächsten Ort aufweist, auf den vom zweiten Zeiger gezeigt wird.
System nach Anspruch 1, welches weiter eine Haupt-Befehlsspeichervorrichtung umfaßt, um Befehle an das Speicherbefehl-Speichermodul zu liefern.
System nach Anspruch 1, wobei jeder der Mehrzahl von Orten im Speicherbefehl-Speichermodul ein Gültigkeitsflag aufweist.
System nach Anspruch 4, bei dem das Gültigkeitsflag für einen ersten Ort, entsprechenden Ort, gesetzt wird, wenn dort ein Befehl gespeichert wird und/oder wenn der zweite Zeiger auf den Ort zeigt.
System nach Anspruch 4, bei dem das Gültigkeitsflag verwendet wird, um einen nächsten verfügbaren Ort in dem Speicherbefehl-Speichermodul zu bestimmen.
Netzwerkprozessoreinheit, welche folgendes umfaßt: ein Speichersteuerungssystem, umfassend ein Speicherbefehl-Speichermodul, um Befehle für eine Mehrzahl von Speicherbänken zu speichern, wobei das Speicherbefehl-Speichermodul eine Mehrzahl von Orten umfaßt, welche jeweils ein Befehlsspeicherfeld und ein Nächster-Ort-Feld aufweisen; und eine Mehrzahl von Steuereinrichtungen, welche mit dem Speicherbefehl-Speichermodul gekoppelt sind, wobei jede der Mehrzahl von Steuereinrichtungen zu einem entsprechenden einer Mehrzahl von Speicherbänken gehört und jede der Steuereinrichtungen einen ersten Zeiger und einen zweiten Zeiger aufweist, wobei der erste Zeiger, der zweite Zeiger und das Nächster-Ort-Feld eine verkettete Liste von Befehlen für eine gegebene der Mehrzahl von Speicherbänken bereitstellen.
Einheit nach Anspruch 7, wobei der erste Zeiger auf einen nächsten Befehl zeigt, welcher verwendet werden soll, der zweite Zeiger auf einen auf einen nächsten Ort zeigt, in welchem ein Befehl gespeichert werden soll, und das Nächster-Ort-Feld einen Zeiger auf den nächsten Ort aufweist, auf den vom zweiten Zeiger gezeigt wird.
Einheit nach Anspruch 7, welche weiter eine Haupt-Befehlsspeichervorrichtung umfaßt, um Befehle an das Speicherbefehl-Speichermodul zu liefern.
Einheit nach Anspruch 7, bei der jeder der Mehrzahl von Orten im Speicherbefehl-Speichermodul ein Gültigkeitsflag aufweist.
Einheit nach Anspruch 7, bei der die Netzwerkprozessoreinheit mehrere Kerne aufweist, welche auf einem einzigen Chip ausgebildet sind.
Netzwerk-Weiterleitungsvorrichtung, welche folgendes umfaßt: mindestens eine Leitungskarte, um Daten an Ports einer Switch-Fabric weiterzuleiten; wobei die mindestens eine Leitungskarte, welche eine Netzwerkprozessoreinheit mit Multithreading-Verarbeitungselementen umfaßt, welche konfiguriert ist, um Mikrocode auszuführen, wobei die Netzwerkprozessoreinheit folgendes umfaßt: ein Speichersteuerungssystem, umfassend ein Speicherbefehl-Speichermodul, um Befehle für eine Mehrzahl von Speicherbänken zu speichern, wobei das Speicherbefehl-Speichermodul eine Mehrzahl von Orten umfaßt, welche jeweils ein Befehlsspeicherfeld und ein Nächster-Ort-Feld aufweisen; und eine Mehrzahl von Steuereinrichtungen, welche mit dem Speicherbefehl-Speichermodul gekoppelt sind, wobei jede der Mehrzahl von Steuereinrichtungen zu einem entsprechenden einer Mehrzahl von Speicherbänken gehört und jede der Steuereinrichtungen einen ersten Zeiger und einen zweiten Zeiger aufweist, wobei der erste Zeiger, der zweite Zeiger und das Nächster-Ort-Feld eine verkettete Liste von Befehlen für eine gegebene der Mehrzahl von Speicherbänken bereitstellen.
Vorrichtung nach Anspruch 12, wobei der erste Zeiger auf einen nächsten Befehl zeigt, welcher verwendet werden soll, der zweite Zeiger auf einen auf einen nächsten Ort zeigt, in welchem ein Befehl gespeichert werden soll, und das Nächster-Ort-Feld einen Zeiger auf den nächsten Ort aufweist, auf den vom zweiten Zeiger gezeigt wird.
Vorrichtung nach Anspruch 12, welche weiter eine Haupt-Befehlsspeichervorrichtung umfaßt, um Befehle an das Speicherbefehl-Speichermodul zu liefern.
Vorrichtung nach Anspruch 12, bei der jeder der Mehrzahl von Orten im Speicherbefehl-Speichermodul ein Gültigkeitsflag aufweist.
Vorrichtung nach Anspruch 15, bei der das Gültigkeitsflag verwendet wird, um einen nächsten verfügbaren Ort in dem Speicherbefehl-Speichermodul zu bestimmen.
Verfahren zum Speichern von Befehlen für eine Mehrzahl von Speicherbänken in einem Befehl-Speichermoduls, welches folgendes umfaßt: Empfangen eines ersten Befehls für eine erste der Mehrzahl von Speicherbänken; Speichern des ersten Befehls in einem Befehlsfeld von einem ersten Ort in dem Speicherbefehl-Speichermodul; Aktualisieren eines Schwanzzeigers eines Schwanzzeiger/Kopfzeiger-Paares auf einen nächsten verfügbaren Ort in dem Speicherbefehl-Speichermodul, wobei das Schwanzzeiger/Kopfzeiger-Paar zu dem ersten einer Mehrzahl von Speicherbänken gehört; und Speichern eines Zeigers auf den nächsten verfügbaren Ort in einem Nächster-Ort-Feld von dem ersten Ort des Speicherbefehl-Speichermoduls, wobei der Kopfzeiger, der Schwanzzeiger und das Nächster-Ort-Feld eine verkettete Liste von Befehlen für die erste der Mehrzahl von Speicherbänken bereitstellen.
Verfahren nach Anspruch 17, welches weiter das Setzen eines Gültigkeitsflag für den nächsten verfügbaren Ort in dem Speicherbefehl-Speichermodul umfaßt.
Verfahren nach Anspruch 18, bei dem ein Gültigkeitsflag für den ersten Ort gesetzt wird, und ein anderer verfügbarer Ort ermittelt wird, indem Gültigkeitsflags für Orte in dem Speicherbefehl-Speichermodul untersucht werden.
Verfahren nach Anspruch 17, welches weiter das Übertragen des ersten Befehls von dem Speicherbefehl-Speichermodul und das Aktualisieren des Kopfzeigers umfaßt.
Verfahren nach Anspruch 17, welches weiter das Aktualisieren weiterer Schwanzzeiger/Kopfzeiger-Paare umfaßt, wenn weitere Befehle für andere der Mehrzahl von Speicherbänken empfangen oder gesendet werden.