DE60316774T2

DE60316774T2 - Verkettung von mehrfadenprozessorkernen zur bearbeitung von datenpaketen

Info

Publication number: DE60316774T2
Application number: DE60316774T
Authority: DE
Inventors: Matthew Worcester ADILETTA; Debra Sudbury BERNSTEIN; Hugh Newton WILKINSON; Gilbert Framingham WOLRICH; Mark Uxbridge Rosenbluth
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2002-01-25
Filing date: 2003-01-16
Publication date: 2008-08-28
Anticipated expiration: 2023-01-17
Also published as: US20030145173A1; US7181594B2; KR100613923B1; CN100440151C; CA2473551C; WO2003065207A3; TW200307214A; AU2003209290A1; ATE375552T1; EP1481323A2; TWI231914B; CN1820253A; WO2003065207A2; HK1072298A1; CA2473551A1; KR20040017251A; DE60316774D1; EP1481323B1

Description

Parallelverarbeitung ist eine effiziente Form der Informationsverarbeitung gleichzeitiger Ereignisse in einem Computerprozess. Parallelverarbeitung erfordert im Gegensatz zu sequentieller Verarbeitung die gleichzeitige Ausführung vieler Programme in einem Computer. Im Zusammenhang eines Parallelprozessors umfasst die Parallelität das Ausführen von mehr als einer Sache zur gleichen Zeit. Anders als bei einem seriellen Paradigma, bei dem alle Aufgaben an einer einzigen Station oder einer Pipelinemaschine ausgeführt werden, in der alle Aufgaben an spezialisierten Stationen ausgeführt werden, werden bei der parallelen Verarbeitung viele Stationen bereitgestellt, von denen jede in der Lage ist, verschiedene Aufgaben gleichzeitig auszuführen. Eine Anzahl von Stationen arbeitet gleichzeitig und unabhängig an denselben oder gemeinsamen Elementen einer Computeraufgabe.
In den folgenden Veröffentlichungen werden verschiedene Beispiele für die parallele Verarbeitung gegeben. In dem Dokument von Schmidt und Suda, "The Performance of Alternative Threading Architecture for Parallel Communication Subsystems", wird eine aufgabenbasierte Threadarchitektur offenbart, bei der Protokollaufgaben parallel ausgeführt werden und durch das Weiterleiten von Steuernachrichten und Datennachrichten zueinander zum Koordinieren paralleler Protokollverarbeitung kommunizieren, und auch eine nachrichtenbasierte Threadarchitektur wird untersucht. In US-A-5,913,059 wird die Ausführung mehrerer Threads offenbart. In "Understanding Network Processors", einer Diplomarbeit an der University of California, Berkeley, September 2001, von Niraj Shah, wird eine programmierbare Pipeline von Prozessoren offenbart und Moors et al., "Cascading Content-Addressable Memories", IEEE MICRO 12(3), S. 56–66, offenbart inhaltsadressierbare Speicher. Schließlich offenbart das Dokument WO 0148606 das Betreiben auf Netzwerkpaketen mit einer Vielzahl von Programmthreads.
Dementsprechend kann die Verwendung oder Anwendung paralleler Verarbeitung Computeraufgaben lösen.
KURZE DARSTELLUNG DER ERFINDUNG
Ein Aspekt der Erfindung stellt ein Verfahren zum Erstellen einer Vielzahl von Pipelines, wie in Anspruch 1 dargelegt, bereit. Weitere Aspekte der Erfindung stellen einen Prozessor, ein Mehrfachverarbeitungssystem und ein Computerprogrammprodukt, wie in den Ansprüchen 20, 27 bzw. 28 dargelegt, bereit.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm eines Kommunikationssystems, das einen hardwarebasierten Mehrfachthreadprozessor einsetzt;
2 ist ein Blockdiagramm einer Funktionseinheit einer Programmiermaschine, die in dem hardwarebasierten Mehrfachthreadprozessor aus 1 eingesetzt wird;
3 ist ein Blockdiagramm eines Kontextzustandübergangs;
4 ist ein Blockdiagramm eines kontextadressierbaren Speichers (CAM);
5 ist ein ausführliches Blockdiagramm eines CAM-Prozesses;
6 ist ein vereinfachtes Blockdiagramm eines Kontextpipelineprozesses.
BESCHREIBUNG
Architektur
Unter Bezugnahme auf 1 enthält ein Computerverarbeitungssystem 10 einen parallelen, hardwarebasierten Mehrfachthread-Netzwerkprozessor 12. Der hardwarebasierte Mehrfachthread-Prozessor 12 ist mit einem Speichersystem oder einer Speicherressource 14 gekoppelt. Das Speichersystem 14 enthält einen dynamischen Direktzugriffsspeicher (DRAM) 14a und einen statischen Direktzugriffsspeicher (SRAM) 14b. Das Verarbeitungssystem 10 ist insbesondere für Aufgaben nützlich, die in parallele Unteraufgaben oder Funktionen aufgeteilt werden können. Insbesondere eignet sich der hardwarebasierte Mehrfachthreadprozessor 12 für Aufgaben, die eher bandbreitenorientiert als latenzorientiert sind. Der hardwarebasierte Mehrfachthreadprozessor 12 weist mehrere funktionale Mikromaschinen oder Programmiermaschinen 16 auf, welche jeweils mehrere hardwaregesteuerte Threads aufweisen, die gleichzeitig aktiv sind und unabhängig an einer spezifischen Aufgabe arbeiten.
Die Programmiermaschinen 16 führen jeweils Programmzähler in der Hardware und mit den Programmzählern verbundene Zustände. Effektiv können entsprechende Untergruppen des Kontextes oder der Threads gleichzeitig auf jeder der Programmiermaschinen 16 aktiv sein, während nur eine zu einer gegebenen Zeit aktuell betrieben wird.
In diesem Beispiel werden in 1 acht Programmiermaschinen 16a–16h dargestellt. Jede Maschine der Programmiermaschinen 16a–16h verarbeitet acht Hardwarethreads oder Kontexte. Die acht Programmiermaschinen 16a–16h arbeiten mit gemeinsamen Ressourcen, einschließlich einer Speicherressource 14 und (nicht gezeigten) Busschnittstellen. Der hardwarebasierte Mehrfachthreadprozessor 12 enthält einen dynamischen Direktzugriffsspeicher-(DRAM)-Controller 18a und einen statischen Direktzugriffsspeicher-(SRAM)-Controller 18b. Der DRAM-Speicher 14a und der DRAM-Controller 18a werden in der Regel zum Verarbeiten großer Datenvolumina verwendet, z. B. beim Verarbeiten von Netzwerknutzlasten von Netzwerkpaketen. Der SRAM-Speicher 14b und der SRAM-Controller 18b werden bei einer Netzwerkimplementation für geringe Latenz und Aufgaben mit schnellem Zugriff verwendet, z. B. das Zugreifen auf Nachschlagetabellen für den Speicher für den Kernprozessor 20 und dergleichen.
Die acht Programmiermaschinen 16a–16h greifen auf der Grundlage von Eigenschaften der Daten entweder auf den DRAM-Speicher 14a oder SRAM-Speicher 14b zu. Somit werden Daten mit geringer Latenz und geringer Bandbreite in dem SRAM-Speicher 14b gespeichert und von dort abgefragt, während Daten höherer Bandbreite, für die die Latenz nicht so entscheidend ist, in dem DRAM-Speicher 14a gespeichert und von dort abgerufen werden. Die Programmiermaschinen 16a–16h können Speicherreferenzanweisungen entweder auf den DRAM-Controller 18a oder den SRAM-Controller 18b ausführen.
Der hardwarebasierte Mehrfachthreadprozessor 12 enthält auch einen Prozessorkern 20 zum Laden der Mikrocodesteuerung für die Programmiermaschinen 16a–16h. In diesem Beispiel handelt es sich bei dem Prozessorkern 20 um eine XSkale^TM-basierte Architektur.
Der Prozessorkern 20 führt Allzweckcomputerfunktionen, wie das Handhaben von Protokollen, Ausnahmen und zusätzlicher Unterstützung für die Paketverarbeitung aus, bei der die Programmiermaschinen 16 die Pakete für ausführlichere Verarbeitung, wie in Grenzbedingungen, weiterleiten.
Der Prozessorkern 20 weist ein (nicht gezeigtes) Betriebssystem auf. Über das Betriebssystem (Operating System, OS) kann der Prozessorkern 20 Funktionen aufrufen, die auf den Programmiermaschinen 16a–16h betrieben werden. Der Prozessorkern 20 kann jedes unterstützte OS, insbesondere ein Echtzeit-OS verwenden. Für den als eine XSkale^TM-Architektur implementierten Prozessorkern 20 kann ein Betriebssystem, wie beispielsweise Microsoft NT Echtzeit, VXWorks und μCOS oder ein über das Internet erhältliches Freeware-Betriebssystem verwendet werden.
Vorteile der hardwarebasierten Mehrfachthreadarchitektur können durch den SRAM- oder DRAM-Speicherzugriff erklärt werden. Beispielsweise bewirkt ein von einem Kontext (z. B. Thread_0) von einer der Programmiermaschinen 16 angeforderter SRAM-Zugriff, dass der SRAM-Controller 18b einen Zugriff auf den SRAM-Speicher 14b initiiert. Der SRAM-Controller 18b greift auf den SRAM-Speicher 14b zu, ruft die Daten aus dem SRAM-Speicher 14b ab und gibt die Daten an eine anfordernde Programmiermaschine.
Wenn eine der Programmiermaschinen 16a–16h nur einen einzigen betreibbaren Thread aufweisen würde, würde diese Programmiermaschine während eines SRAM-Zugriffs im Ruhezustand sein, während Daten von dem SRAM-Speicher 14b zurückgeholt werden würden.
Durch den in jeder der Programmmiermaschinen 16a–16h eingesetzten Hardwarekontextaustausch in jeder der Programmiermaschinen 16a–16h können alle Kontexte mit eindeutigen Programmzählern in derselben Programmiermaschine ausgeführt werden. Somit kann ein anderer Thread, z. B. Thread_1, funktionieren, während der erste Thread, Thread_0, darauf wartet, dass die gelesenen Daten zurückgegeben werden. Während der Ausführung kann Thread_1 auf den DRAM-Speicher 14a zugreifen. Während Thread_1 auf der DRAM-Einheit und Thread_0 auf der SRAM-Einheit betrieben wird, kann ein neuer Thread, z. B. Thread_2 nun in der Programmiermaschine betrieben werden. Thread_2 kann für eine bestimmte Zeitdauer betrieben werden, bis er auf den Speicher zugreifen oder eine andere Operation mit langer Latenz ausführen muss, wie beispielsweise das Vornehmen eines Zugriffs auf eine Busschnittstelle. Daher kann der Mehrfachthreadprozessor 12 eine Busoperation, eine SRAM-Operation und eine DRAM-Operation aufweisen, die alle von einer der Programmiermaschinen 16 ausgeführt oder betrieben werden und mehrere Threads oder Kontexte zur Verarbeitung von mehr Arbeit aufweisen können.
Das Austauschen von Hardwarekontext synchronisiert außerdem den Abschluss von Aufgaben. Beispielsweise können zwei Threads auf die gemeinsame Speicherressource, z. B. den SRAM-Speicher 14b zugreifen. Jede der getrennten Funktionseinheiten, z. B. der SRAM-Controller 18b und der DRAM-Controller 18a, gibt bei Abschluss einer von einem der Programmiermaschinenthreads oder -kontexten angeforderten Aufgaben ein Flag zurück, um den Abschluss einer Operation zu signalisieren. Wenn die Programmiermaschinen 16a–16h das Flag empfangen, können die Programmiermaschinen 16a–16h bestimmen, welcher Thread eingestellt werden soll.
Ein Anwendungsbeispiel für den hardwarebasierten Mehrfachthreadprozessor 12 ist ein Netzwerkprozessor. Als Netzwerkprozessor bildet der hardwarebasierte Mehrfachthreadprozessor 12 eine Schnittstelle zu Netzwerkvorrichtungen, wie eine MAC-(Media Access Controller)-Vorrichtung, z. B. eine 10/100BaseT-Octal MAC oder Gigabit-Ethernet-Vorrichtung. Als Netzwerkprozessor kann der hardwarebasierte Mehrfachthreadprozessor 12 allgemein eine Schnittstelle zu jeder Art von Kommunikationsvorrichtung oder eine Schnittstelle bilden, die große Datenmengen sendet oder empfängt. Das in einer Netzwerkanwendung funktionierende Computerprozessorsystem 10 kann Netzwerkpakete empfangen und diese Pakete parallel verarbeiten.
Programmiermaschinen
Unter Bezugnahme auf 2 wird eine Programmiermaschine 16a der Programmiermaschinen 16a–16h gezeigt. Die Programmiermaschine 16a enthält einen Steuerspeicher 30, der in einem Beispiel einen RAM von 4096 Anweisungen, die jeweils 40 Bit breit sind, enthält. Der RAM speichert ein Mikroprogramm, welches von der Programmiermaschine 16a ausgeführt wird. Das Mikroprogramm in dem Steuerspeicher 30 kann durch den Prozessorkern 20 geladen werden (1).
Zusätzlich zu Ereignissignalen, die auf einem ausführenden Thread lokal sind, setzt die Programmiermaschine 16a globale Signalisierungszustände ein. Bei Signalisierungszuständen kann ein ausführender Thread einen Signalzustand an alle Programmiermaschinen 16a–16h rundsenden. Jeder und alle Threads der Programmiermaschine können zu diesen Signalisierungszuständen abzweigen. Diese Signalisierungszustände können zur Bestimmung der Verfügbarkeit einer Ressource oder zur Bestimmung verwendet werden, ob eine Ressource zur Wartung fällig ist. Die Kontextereignislogik weist eine Vermittlung für die acht (8) Threads auf. In einem Beispiel handelt es sich bei der Vermittlung um einen Rundlaufmechanismus. Es könnten andere Techniken verwendet werden, zu denen Prioritätsschlangenbildung oder gewichtete faire Schlangenbildung gehören.
Wie oben beschrieben, unterstützt die Programmiermaschine 16a die Mehrfachthreadausführung von acht Kontexten. Dies ermöglicht, dass ein Thread mit der Ausführung startet, kurz nachdem ein anderer Thread einen Speicherbezug ausgibt und auf den Abschluss dieses Bezugs warten muss, bevor er weitere Arbeit ausführen kann. Die Mehrfachthreadausführung ist für das Aufrechterhalten effizienter Hardwareausführung der Programmiermaschine 16a entscheidend, da die Speicherlatenz signifikant ist. Die Mehrfachthreadausführung gestattet es der Programmiermaschine 16, Speicherlatenz zu verbergen, indem nützliche unabhängige Arbeit über verschiedene Threads ausgeführt wird.
Zur Ermöglichung des effizienten Austauschs von Kontext weist die Programmiermaschine 16a ihren eigenen Registersatz, Programmzähler und kontextspezifische lokale Register auf. Das Vorliegen einer Kopie pro Kontext entfernt den Bedarf, kontextspezifische Informationen zu und von gemeinsamem Speicher und Programmiermaschinenregistern für jeden Kontextaustausch zu bewegen. Der schnelle Kontextaustausch ermöglicht es, dass Kontext Berechnungen ausführt; während andere Kontexte zum Abschluss auf Eingabe/Ausgabe (E/A) warten, in der Regel externe Speicherzugriffe oder auf ein Signal eines anderen Kontexts oder einer anderen Hardwareeinheit.
Die Programmiermaschine 16a führt beispielsweise die acht Kontexte aus, indem acht Programmzähler und acht kontextbezogene Registersätze geführt werden. Es können acht unterschiedliche Arten kontextbezogener Register vorliegen, nämlich Allzweckregister (GPR) 32, Interprogrammagentregister (nicht gezeigt), statische Direktzugriffsspeicher(SRAM)-Eingabetransferregister 24, dynamische Direktzugriffsspeicher-(DRAM)-Eingabetransferregister 36, SRAM-Ausgabetransferregister 38, DRAM-Ausgabetransferregister 40.
Die GPR 32 werden für allgemeine Programmierzwecke verwendet. Die GPR 32 werden ausschließlich unter Programmsteuerung gelesen und beschrieben. Wenn die GPR 32 als Quelle in einer Anweisung verwendet werden, führen sie einer Ausführungsdatenstrecke 44 Operanden zu. Wenn sie als ein Ziel in einer Anweisung verwendet werden, wird das Ergebnis der Ausführungsdatenstrecke 44 in die GPR 32 geschrieben. Die Programmmiermaschine 16a enthält auch E/A-Transferregister 34, 36, 38 und 40, die zum Übertragen von Daten zu und von der Programmiermaschine 16a und Stellen außerhalb der Programmiermaschine 16a, dem DRAM-Speicher 14a, dem SRAM-Speicher 14b usw. verwendet werden.
Es wird auch ein lokaler Speicher 42 verwendet. Der lokale Speicher 42 ist ein adressierbarer Speicher, der sich in der Programmiermaschine 16a befindet. Der lokale Speicher 42 wird ausschließlich unter Programmsteuerung gelesen und beschrieben. Der lokale Speicher 42 enthält auch Variablen, die von allen Programmiermaschinen 16a–16h gemeinsam verwendet werden. Gemeinsam verwendete Variablen werden in verschiedenen zugewiesenen Aufgaben während den funktiona len Pipelinestufen durch die Programmiermaschinen 16a–16h modifiziert, welche als nächstes beschrieben werden. Die gemeinsam verwendeten Variablen enthalten einen kritischen Abschnitt, der die Lese-Modifikations-Schreib-Zeiten definiert. Die Implementation und die Verwendung des kritischen Abschnitts in dem Computerverarbeitungssystem 10 wird ebenfalls unten beschrieben.
Programmiermaschinenkontexte
Jede der Programmiermaschinen 16 unterstützt Mehrfachthreadausführung von acht Kontexten. Ein Grund dafür ist, dass ein Thread, direkt nachdem ein anderer Thread einen Speicherbezug ausgibt und vor Ausführung weiterer Arbeit auf den Abschluss dieses Bezugs warten muss, mit der Ausführung beginnen kann. Dieses Verhalten ist für das Führen der effizienten Hardwareausführung der Programmiermaschinen 16a–16f kritisch, da die Speicherlatenz signifikant ist. Wenn nur eine einzige Threadausführung unterstützt werden würde, befände sich anders ausgedrückt die Programmiermaschine für eine signifikante Zyklusanzahl im Leerlauf, während sie auf den Abschluss von Bezügen wartet, und dadurch würde der Gesamtberechnungsdurchsatz verringert. Die Mehrfachthreadausführung ermöglicht es einer Programmiermaschine, durch Ausführen nützlicher unabhängiger Arbeit über mehrere Threads Speicherlatenz zu verbergen.
Die Programmiermaschinen 16a–16h verfügen jeweils über acht Kontexte. Um einen effizienten Austausch von Kontexten zu ermöglichen, weist jede Programmiermaschine ihren eigenen Registersatz, Programmzähler und kontextspezifische lokale Register auf. Das Vorhandensein von einer Kopie pro Kontext macht das Bewegen kontextspezifischer Informationen zu/von gemeinsam benutztem Speicher und von Programmiermaschinenregistern für jeden Kontexttausch unnötig. Ein schneller Austausch von Kontext ermöglicht einem Kontext die Ausführung von Berechnung, während andere Kontexte für den Abschluss auf E/A, in der Regel externe Speicherzugriffe oder auf ein Signal von einem anderen Kontext oder einer anderen Hardwareeinheit warten.
Dementsprechend zeigt 3 die Zustandsübergänge 100 für einen Kontext. Jeder der acht Kontexte wird sich in einem der oben beschriebenen Zustände befinden. Höchstens ein Kontext kann sich in dem Ausführungszustand befinden und eine beliebige Anzahl von Kontexten kann sich in einem der anderen Zustände befinden:

1) Inaktiver Zustand (100a) – Weil einige Anwendungen möglicherweise nicht alle acht Kontexte benötigen, befindet sich ein Kontext im inaktiven Zustand, wenn sein CTXAktivierungs-(Kontextaktivierungs-)Steuer- und Statusregister(CRS)-Aktivierungsbit '0' ist.
2) Bereitschaftszustand (100b) – Obwohl der Kontext in diesem Zustand zur Ausführung bereit ist, kann er nicht verarbeitet werden, da ein anderer Kontext immer noch ausgeführt wird. Wenn der ausführende Kontext in einen Schlafzustand übergeht, wählt die Vermittlung des Kontexts der Maschine den nächsten Kontext aus allen Kontexten im Bereitschaftszustand aus, der in den Ausführungszustand übergeht. Bei der Vermittlung handelt es sich um einen Rundlauf.
3) Ausführungszustand (100c) – Ein Kontext befindet sich in einem Ausführungszustand, wenn seine Kontextzahl sich in Aktiv CTX Status CSR befindet. Der (nicht gezeigte) Programmzähler des ausführenden Kontexts wird verwendet, um Anweisungen aus dem Steuerspeicher 50 abzurufen. Ein Kontext bleibt in dem Ausführungszustand, bis er eine Anweisung ausführt, die bewirkt, dass er in den Schlafzustand eintritt. Zu einer Zeit kann sich höchstens ein Kontext im Ausführungszustand befinden.
4) Schlafzustand (100d) – Ein Kontext wartet auf das Auftreten eines oder mehrerer in CTX Nr Aufwach Ereignisse CSR festgelegter Ereignisse, wobei Nr. acht unterschiedliche Kontexte anzeigt, wie z. B. Nr. 0 bis Nr. 7, typischerweise, aber nicht beschränkt auf einen E/A-Zugriff. In diesem Zustand vermittelt der Kontext keinen Eintritt in den Ausführungszustand.

Unter Bezugnahme auf 2 enthält jede Programmiermaschine vier Arten von 32-Bit-Datenstreckenregistern, wie unten beschrieben. Die 256 Allgemeinregister, 128 Register des nächsten Nachbarn, 512 Transferregister und 640 32-Bitworte des lokalen Speichers.
Allgemeinregister
Die Programmiermaschine 16a enthält Allgemeinregister (GPR) 52, die für allgemeine Programmmierzwecke verwendet werden. Sie werden ausschließlich unter Programmsteuerung gelesen und beschrieben. Wenn die GPR 2 als eine Quelle in einer Anweisung verwendet werden, führen sie einer Ausführungsdatenstrecke 56 Operanden zu. Wenn sie in einer Anweisung als Ziel verwendet werden, werden die Ergebnisse der Ausführungsdatenstrecke 56 in die GPR 52 geschrieben. Die GPR 52 sind physisch und logisch in zwei Bänken, GPR A 52a und GPR B 52b, enthalten, wie in 3 gezeigt.
Transferregister
Die Programmiermaschine 16a enthält auch Transferregister 58 und 60. Die Transferregister 34, 36, 38 und 40 werden zum Übertragen von Daten zu und von der Programmmiermaschine 16a und Stellen außerhalb der Programmiermaschine, z. B. DRAM, SRAM usw., verwendet. Wie in 2 gezeigt, gibt es vier Arten von Transferregistern, und zwar Eingabetransferregister und Ausgabetransferregister.
Wenn die Eingabetransferregister als Quelle in einer Anweisung verwendet werden, führen sie der Ausführungsdatenstrecke 44 Operanden zu. Wenn die Ausgabetransferregister als ein Ziel in einer Anweisung verwendet werden, werden sie mit den Ergebnissen aus der Ausgabendatenstrecke 44 beschrieben.
Lokale Steuer- und Statusregister (CSRs)
Lokale Steuer- und Statusregister (CSR) 66 sind bezüglich der Ausführungsdatenstrecke 56 lokal und enthalten spezielle Informationen. Sie können durch spezielle Anweisungen (local_csr_rd und local_csr_wr) gelesen und beschrieben werden und in der Regel wird weniger häufig auf sie zugegriffen, als Datenstreckenregister.
Register der nächsten Nachbarn
Die Programmiermaschine 16a enthält auch 128 Register der nächsten Nachbarn (NN) 54. Wenn ein NN-Register 54 als eine Quelle in einer Anweisung verwendet wird, führt es der Ausführungsdatenstrecke 44 ebenfalls Operanden zu. Das NN-Register 54 wird entweder von einer externen Einheit beschrieben, wie einer angrenzenden Programmiermaschine, aber darauf nicht beschränkt, oder von derselben Programmiermaschine 16a, in der das NN-Register resident ist. Das spezifische Register wird durch eine kontextbezogene Operation ausgewählt, wobei die Registernummer in der Anweisung codiert ist, oder als in einer Ringoperation, die beispielsweise über NN_Setzen (NN-Schreibadresse) und NN_Holen (NN-Leseadresse) in den CSR-Registern ausgewählt wird.
Die NN_Setzen-Register werden verwendet, wenn die vorherige benachbarte Programmmiermaschine eine Anweisung mit NN_Setzen als Ziel ausführt. Das durch den Wert in diesem Registern ausgewählte NN-Register 54 wird beschrieben, und der Wert in dem NN_Setzen-Register wird dann inkrementiert (ein Wert von 127 wird zu 0). Der Wert in diesem Register wird mit dem Wert in dem NN_Holen-Register verglichen, um zu bestimmen, wann NN_Voll- und NN_Leer-Statussignale bestätigt werden sollen.
Die NN_Holen-Register werden verwendet, wenn das NN-Register 54 als eine Quelle abgerufen wird, die im Quellenfeld der Anweisung angegeben wird. Das durch den Wert in diesem Registern ausgewählte NN-Register 54 wird gelesen, und der Wert in dem NN_Holen-Register wird dann inkrementiert (ein Wert von 127 wird zu 0). Der Wert in diesem Register wird mit dem Wert in dem NN_Setzen-Register verglichen, um zu bestimmen, wann NN_Voll- und NN_Leer-Statussignale bestätigt werden sollen.
Insbesondere, wenn das NN-Register 54 als ein Ziel in einer Anweisung verwendet wird, werden die Anweisungsergebnisdaten aus der Programmiermaschine 16a, in der Regel zu einer anderen, angrenzenden Programmiermaschine gesendet. Wenn das NN-Register 54 als ein Ziel in einer Anweisung verwendet wird, werden andererseits die Anweisungsergebnisdaten in das ausgewählte NN-Register 54 in der Programmiermaschine 16a geschrieben. Die Daten werden nicht aus der Programmiermaschine 16a gesendet, wie der Fall wäre, wenn das NN-Register 54 als ein Ziel verwendet werden würde. Das NN-Register 54 wird in einem Kontextpipelineverfahren verwendet, wie unten beschrieben.
Lokaler Speicher
Die Programmiermaschine 16a enthält 640 32-Bitwörter in einem lokalen Speicher 42. Bei dem lokalen Speicher handelt es sich um adressierbaren Speicher, der sich in der Programmiermaschine 16a befindet. Der lokale Speicher 42 wird ausschließlich unter Programmsteuerung gelesen und beschrieben. Als Quelle führt der lokale Speicher der Ausführungsdatenstrecke 44 Operanden zu und als Ziel empfängt er Ergebnisse. Der spezifische lokale Speicherort, der ausgewählt wird, basiert auf dem Wert in einem der LM_Addr-Register 53, der durch local_CSR_wr-Anweisungen geschrieben wird. Pro Kontext gibt es zwei LM_Addr-Register 53 sowie eine Arbeitskopie von jedem. Wenn ein Kontext in den Schlafzustand 100d übergeht, wird der Wert der Arbeitskopien in die Kontextkopie von LM_Adds platziert. Wenn der Kontext in den Ausführungszustand übergeht, wird der Wert seiner Kopie von LM_Addr in die Arbeitskopien platziert. Die Auswahl von LM_Addr_0 oder LM_Addr_1 erfolgt in der Anweisung. Es ist auch möglich, beide oder eine LM_Addrs als global zu verwenden, indem CTX_Aktivierung [LM_Addr_0_Global] und/oder CTX_Aktivierung [LM_Addr_1_Global] gesetzt wird. Bei globaler Verwendung benutzen alle Kontexte die Arbeitskopie von LM_Addr anstelle ihrer eigenen kontextspezifischen Kopie.
Der lokale Speicher 42 enthält auch von den Programmiermaschinen 16a–16h gemeinsam benutzte Variablen. Gemeinsam verwendete Variabeln werden in verschiedenen zugewiesenen Aufgaben modifiziert, die während Pipelinestufen von den Programmiermaschinen 16a–16h verwendet werden. Die gemeinsam benutzten Variablen enthalten einen kritischen Sektor, der ihre Lese-Modifikations-Schreib-Zeiten definiert.
Kritischer Abschnitt
Die Pipelinestufen der Programmiermaschinen 16a–16h enthalten eine Mindestauflösung, die durch die Differenz zwischen dem kritischen Abschnitt der gemeinsam verwendeten Variablen und der Ankunftszeit eines nachfolgenden Pakets definiert wird. Die dem kritischen Abschnitt zugeteilte Zeit muss unter der Ankunftszeit des nachfolgenden Pakets liegen, das die Mindestauflösung der Pipelinestufe bestimmt. Die Latenz eines Speicherlesens gefolgt von den Anweisungen, eine Variable zu modifizieren, gefolgt von einem Schreiben, übersteigt die Paketankunftsgeschwindigkeit für Pakte der Minimalgröße bei weitem. Daher muss der kritische Abschnitt so gehalten werden, dass er geringer als die Ankunftszeit des nachfolgenden Pakets ist.
Ausführungsdatenstrecke
Die Programmiermaschine 16a enthält auch die Ausführungsdatenstrecke 44, die einen oder zwei Operanden aufnehmen, eine Operation ausführen und gegebenenfalls ein Ergebnis zurückschreiben kann. Die Quellen und Ziele können GPR 32, Transferregister 34, 36, 38 und 40, NN-Register 54 und der lokale Speicher 42 sein. Die Operationen sind Verschieben, Addieren/Subtrahieren, Logische, Multiplizieren, Byteausrichten und erstes Bit finden. Die Ausführungsdatenstrecke 44 enthält auch einen inhaltsadressierbaren Speicher (CAM) 64.
Inhaltsadressierbarer Speicher (CAM)
4 zeigt ein CAM-Blockdiagramm 102. Die Programmiermaschine 16a enthält den CAM 64 mit 16 Einträgen und zugeordneter Steuerlogik 104. Jeder Eintrag speichert einen 32-Bitwert, der mit einem Quelloperanden verglichen werden kann. Alle Einträge werden parallel verglichen und das Ergebnis des Nachschlagens ist ein 6-Bit-Wert. Das 6-Bitergebnis besteht aus einem 2-Bitcode, an den eine 4-Bit-Eintragsnummer 106 angehängt ist. Zwei Ergebnisse eines Nachschlagens 108 sind möglich. Ein erstes Ergebnis ist ein Fehlschlagen (0) 110, bei dem sich kein Nachschlagewert in dem CAM 64 befindet und die Eintragszahl der zuletzt verwendete Eintrag (LRU) ist, der als vorgeschlagener zu ersetzender Eintrag verwendet wird. Das zweite Ergebnis kann ein Treffer (1) 112 sein, bei dem sich der Nachschlagewert in dem CAM 64 befindet und die Eintragsnummer ein passender Eintrag ist.
Die LRU-Logik 104 führt eine zeitlich geordnete Liste der Verwendung von Einträgen für den CAM 64. Wenn ein Eintrag geladen wird oder zu einem Nachschlagen 108 passt, wird er als MRU (Zuletzt verwendet) markiert. Ein Nachschlagen, das fehlschlägt, modifiziert die LRU-Liste nicht.
Unter Bezugnahme auf 5 wird ein beispielhafter CAM-Prozess 120 gezeigt. Die Programmiermaschine 16a verwendet beispielsweise einen 16-Eintrag-Cache oder einen CAM 64 mit einer LRU-Ersetzungsrichtlinie zum Speichern einer Liste zuletzt verwendeter Variablen, die zu einer Zeit in acht (8) aktiven Kontexten oder Threads verwendet werden. Die Threads werden unter Verwendung einer Lesephase 122 und einer (nicht gezeigten) Modifikations-Schreibphase in Reihenfolge ausgeführt. Während der Lesephase 122 fordert ein Kontext eine Variable an und der CAM 64 wird daraufhin überprüft, ob die benötigte Variable gecacht ist (124). Wenn der CAM 64 einen Treffer anzeigt, ist kein Lesen notwendig und der Inhalt des CAM 64 gibt die Stelle der Variable in dem CAM an (126). Außerdem wird der aktualisierte Wert der Variable in dem Cache gespeichert, wenn dieser Kontext für seine Modifikations-Schreib-Phase aktiv wird, wobei der Kontext den Wert direkt aus dem CAM 64 liest (128).
Wenn der CAM 64 während der Lesephase 122 ein Fehlschlagen anzeigt, wird andererseits ein Lesen der benötigten Variable initiiert (130). In der Folge wird die Ausführungszeit für die verbleibenden sieben (7) Kontexte verwendet, um die Latenz des Lesen vollkommen zu verbergen (132). Die Variable ist außerdem an der Modifikations-Schreib-Stufe dieses Kontexts verfügbar (132). Die Schreiblatenz des kritischen Abschnitts wird vermieden, da die Variable in dem CAM 64 bereits gültig ist, wenn sie kürzlich verwendet wurde. Als nächstes wird der CAM beschrieben oder aktualisiert (134). Der Inhalt des CAM 64 stellt die Stelle der gecachten LRU-Variable bereit, wobei die neue Variable die zuvor verwendete Variable überschreibt (136).
Danach liest der Kontext den Wert direkt aus dem CAM 64 (136) und der Kontext kehrt zum Anfang der Lesephase zurück (122). In der Folge wird jede Programmiermaschine zu einer Pipelinestufe, die eine spezialisierte Aufgabe der Paketverarbeitung ausführt, wobei auch der für bestimmte Aufgaben verwendete Kontext oder die Variable(n) überwacht wird/werden.
Kontextpipelining
Unter Bezugnahme auf 6 zeigt ein Kontextpipelinestrom 130 die bestimmten Abschnitten einer Verarbeitungsaufgabe eines Pakets oder eine Zelle zugewiesenen Programmiermaschinen 16a–16h. Der Kontext für eine bestimmte zugewiesene Aufgabe wird auf den Programmiermaschinen 16a–16h unter Verwendung des CAM 64a–64c geführt. Die Pakete werden unter Verwendung der NN-Register 54a–54c zum Weiterleiten von Daten von einer Programmiermaschine zu einer nachfolgenden, benachbarten Programmiermaschine pipelineartig wie auf einem Fließband verarbeitet. Die Daten werden von einer Stufe 132a zu einer nachfolgenden Stufe 132b und dann von Stufe 132b zu Stufe 132c der Pipeline usw. weitergeleitet. Anders ausgedrückt werden Daten zu der nächsten Stufe der Pipeline weitergeleitet, wodurch die Stufen des Prozessorzyklus einander überlappen können. Während eine Anweisung ausgeführt wird, kann beispielsweise die nächste Anweisung geholt werden, was bedeutet, dass sich zu einer beliebigen Zeit mehr als eine Anweisung "in der Pipeline" befinden kann, jeweils in einer unterschiedlichen Verarbeitungsstufe.
Daten können beispielsweise von einer Programmiermaschine 16 zur nächsten Programmiermaschine 16 in der Pipeline unter Verwendung der NN-Register 54a–54c vorwärts weitergeleitet werden. Dieses Implementationsverfahren der Pipelineverarbeitung hat den Vorteil, dass die in dem CAM 64a–64c für jede Stufe 132a–c enthaltene Informationen durchgängig für alle acht Kontexte der Pipelinestufe gültig sind. Das Kontextpipelineverfahren kann verwendet werden, wenn Mindestdaten aus dem zu verarbeitenden Paket durch die Kontextpipeline 130 fortschreiten müssen.
Andere Ausführungsformen
Es versteht sich, dass das obige Beispiel zwar in Verbindung mit der ausführlichen Beschreibung davon beschrieben worden ist, die vorstehende Beschreibung den Schutzumfang der Erfindung jedoch veranschaulichen und nicht einschränken soll, der durch den Schutzumfang der beigefügten Ansprüche definiert wird. Weitere Aspekte, Vorteile und Modifikationen fallen in den Schutzumfang der folgenden Ansprüche.

Claims

Verfahren, umfassend: Erstellen einer Vielzahl von Pipeline-Stufen (132a–132c), wobei jede Pipeline-Stufe (132a–132) mindestens eine Programmiermaschine (16a–16h) umfasst; und an jeder Pipeline-Stufe (132a–132c): Zuweisen einer oder mehrerer Aufgaben zur Verarbeitung in der mindestens einen Programmiermaschine (16a–16h); Verwalten paralleler Verarbeitung der einen oder mehreren Aufgaben, einschließlich Erstellen eines Kontexts für jede der einen oder mehreren Aufgaben, wobei mindestens eine der einen oder mehreren Aufgaben die Ausführung mehrerer Anweisungen erfordert; Umschalten von der Verarbeitung eines der Kontexte zu einem anderen der Kontexte auf der Basis eines Ausführungsstatus einer Aufgabe durch mindestens eine der Programmiermaschinen; Bilden eines oder mehrerer nicht auf den Kontext bezogenen Register (54a–54c), die in jeder der Programmiermaschinen (16a–16c) resident sind, wobei mindestens eines der nicht auf den Kontext bezogenen Register in jeder der Programmiermaschinen (16a–16c) zum Übertragen von Daten zwischen Programmiermaschinen (16a–16c) verwendet wird; und Erstellen einer oder mehrerer Pipelines und Durchleiten von mit der einen oder mehreren Aufgaben verbundenen Daten an eine nachfolgende Pipeline-Stufe (132a–132c) nach Abschluss der einen oder mehreren Aufgaben und Übertragen von Daten von dem mindestens einen nicht auf den Kontext bezogenen Register (54a–54c) an ein anderes nicht auf den Kontext bezogenes Register (54a–54c), das in einer benachbarten Programmiermaschine (16a–16c) resident ist.
Verfahren nach Anspruch 1, wobei das Erstellen der Kontexte für die zugewiesenen Aufgaben das Bereitstel len eines softwaregesteuerten Caches (64, 102) umfasst.
Verfahren nach Anspruch 2, wobei der softwaregesteuerte Cache ein CAM-Speicher (Content Addressable Memory) (64, 102) ist.
Verfahren nach Anspruch 1, wobei das Bilden mindestens eines der nicht auf den Kontext bezogenen Register ferner das Bilden mindestens eines Registers des nächsten Nachbarn (54a–54c) umfasst, welches in jeder der Programmiermaschinen (16a–16c) resident ist.
Verfahren nach Anspruch 4, wobei das Erstellen der einen oder der mehreren Pipelines ferner das Übertragen von Daten von dem mindestens einen Register des nächsten Nachbarn (54a–54c), das in einer der Programmiermaschinen (16a–16c) resident ist, an ein nachfolgendes Register des nächsten Nachbarn (54a–54c) umfasst, das in einer benachbarten Programmiermaschine (16a–16c) resident ist.
Verfahren nach Anspruch 5, wobei die eine der Programmiermaschinen die aktuell betriebene Pipeline-Stufe (132a–132c) der einen oder mehreren Pipelines führt und die benachbarte Programmiermaschine (16a–16c) eine nachfolgende Pipeline-Stufe (132a–132c) der einen oder mehreren Pipelines führt.
Verfahren nach Anspruch 1, ferner umfassend das Modifizieren von Variablen in den zugewiesenen Aufgaben, die in den Pipeline-Stufen (132a–132c) durch die Programmiermaschinen (16a–16c) verwendet werden.
Verfahren nach Anspruch 7, wobei die Variablen gemeinsam benutzte Variablen sind, die von den Programmiermaschinen (16a–16c) der Pipeline-Stufen (132a–132c) verwendet werden und einen kritischen Abschnitt enthalten, der die Lese-Modifikations-Schreib-Zeit der gemeinsam benutzten Variablen definiert.
Verfahren nach Anspruch 8, ferner umfassend das Definieren einer Mindestauflösung der Pipeline-Stufe (132a–132c), die durch den Unterschied zwischen dem kritischen Abschnitt der gemeinsam benutzten Variablen und der Ankunftszeit eines nachfolgenden Pakets definiert wird, wobei der kritische Abschnitt geringer als die Ankunftszeit des nachfolgenden Pakets ist.
Verfahren nach Anspruch 3, wobei jede der Programmiermaschinen (16a–16c) eine Vielzahl von Kontexten gleichzeitig ausführt.
Verfahren nach Anspruch 10, wobei die Vielzahl von Kontexten in einer Reihenfolge ausgeführt wird.
Verfahren nach Anspruch 11, wobei die Ausführung der Anweisungen in jedem Kontext eine Lesephase und eine Schreib-Modifikations-Phase enthält.
Verfahren nach Anspruch 12, wobei der CAM (64, 102) eine Vielzahl von Einträgen zum Überwachen der am weitesten zurückliegend benutzten Variablen enthält.
Verfahren nach Anspruch 13, wobei die Lesephase das Bestimmen des Cachezustands einer gemeinsam benutzten Variable in dem CAM (64, 102) und das Aktualisieren eines Werts für die gemeinsam benutzte Variable umfasst, wenn die gemeinsam benutzte Variable in dem CAM (64, 102) gecacht wird.
Verfahren nach Anspruch 13, wobei die Lesephase ein Lesen der gemeinsam benutzten Variable aus einem loka len Speicher in mindestens einem der Vielzahl von Kontexten ausführt.
Verfahren nach Anspruch 15, wobei die verbleibende Vielzahl von Kontexten eine Latenzzeit des Lesens verbergen, indem sie andere zugewiesene Aufgabe zur Verarbeitung von Paketen ausführen.
Verfahren nach Anspruch 15, wobei die gemeinsam benutzte Variable in dem CAM (64, 102) gecacht wird und zur Verarbeitung in der Modifikations-Schreib-Phase in dem mindestens einen der Vielzahl von Kontexten verfügbar ist.
Verfahren nach Anspruch 1, wobei mindestens eine Programmiermaschine (16a–16h) mehrere mit einer ersten der mehreren Aufgaben verbundene Anweisungen ausführt und zu einer zweiten der mehreren Aufgaben umschaltet, wenn eine mit der ersten der mehreren Aufgaben verbundene Anweisung eine Lange-Latenz-Operation umfasst.
Verfahren nach Anspruch 1, bei dem die mindestens eine Programmiermaschine (16a–16h) mehrere mit einer ersten der mehreren Aufgaben verbundene Anweisung ausführt und zu einer zweiten der mehreren Aufgaben umschaltet, wenn eine mit der ersten der mehreren Aufgaben verbundene Anweisung den Zugriff auf den Speicher (14a, 14b) erfordert.
Prozessor, umfassend: eine oder mehrere Programmiermaschinen (16a–16c), die in einer Vielzahl von Pipeline-Stufen (132a–132c) angeordnet sind und wobei an jeder Pipeline-Stufe (132a–132c) mindestens eine Programmiermaschine (16a–16h) zum Ausführen von Folgendem ausgebildet ist: Verwalten der parallelen Verarbeitung einer oder mehrerer Aufgaben, einschließlich des Einrichtens eines Kontexts für jede der einen oder mehreren Aufgaben, wobei mindestens eine der Aufgaben die Ausführung mehrerer Anweisungen erfordert; Umschalten von der Verarbeitung eines der Kontexte zu einem anderen der Kontexte auf der Basis eines Ausführungsstatus einer Aufgabe durch mindestens eine der Programmiermaschinen; Bilden eines oder mehrerer nicht auf den Kontext bezogenen Register (54a–54c), die in jeder der Programmiermaschinen (16–16c) resident sind, wobei mindestens eines der nicht auf den Kontext bezogenen Register in jeder der Programmiermaschinen (16a–16c) zum Übertragen von Daten zwischen Programmiermaschinen (16a–16c) verwendet wird; und Erstellen einer oder mehrerer Pipelines und Durchleiten von mit der einen oder mehreren Aufgaben verbundenen Daten an eine nachfolgende Pipeline-Stufe (132a–132c) nach Abschluss der einen oder mehreren Aufgaben und Übertragen von Daten von dem mindestens einen nicht auf den Kontext bezogenen Register (54a–54c) an ein anderes nicht auf den Kontext bezogenes Register (54a–54c), das in einer benachbarten Programmiermaschine (16a–16c) resident ist.
Prozessor nach Anspruch 20, wobei das mindestens eine nicht auf den Kontext bezogene Register ferner mindestens ein Register des nächsten Nachbarn (54a–54c) umfasst, das in der mindestens einen Programmiermaschine resident ist, und das Erstellen der einen oder mehreren Pipelines ferner das Übertragen von Daten von dem Register des nächsten Nachbarn (54a–54c), das in der mindestens einen Programmiermaschine (16a–16c) resident ist, an ein nachfolgendes Register des nächsten Nachbarn (54a–54c) umfasst, das in einer nachfolgenden Programmiermaschine (16a–16c) resident ist.
Prozessor nach Anspruch 21, wobei jede der Programmiermaschinen (16a–16h) einen CAM (Content Addressable Memory) (64, 102) enthält.
Prozessor nach Anspruch 22, wobei der CAM (64, 102) eine Vielzahl von Einträgen zum Überwachen der am weitesten zurückliegend verwendeten Variablen enthält.
Prozessor nach Anspruch 22, ferner umfassend gemeinsam benutzte Variabeln, die durch die Pipeline-Stufen (132a–132c) der Vielzahl von Programmiermaschinen (16a–16b) verwendet werden, wobei die gemeinsam benutzten Variablen einen kritischen Abschnitt umfassen, der die Lese-Modifikations-Schreibzeit der gemeinsam benutzten Variablen umfasst.
Prozessor nach Anspruch 24, ferner umfassend eine Mindestauflösung der Pipeline-Stufe (132a–132c) die durch die Differenz zwischen dem kritischen Abschnitt der gemeinsam benutzten Variablen und der Ankunftszeit eines nachfolgenden Pakets definiert wird, wobei der kritische Abschnitt geringer als die Ankunftszeit des nachfolgenden Pakets ist.
Prozessor nach Anspruch 22, wobei die Vielzahl von Kontexten in Reihenfolge ausgeführt werden, wobei die Reihenfolge eine Lesephase und eine Schreib-Modifikations-Phase enthält, wobei die Lesephase das Bestimmen des Cachezustands einer gemeinsam benutzten Variabeln in dem CAM (64, 102) und das Aktualisieren eines Werts für die gemeinsam benutzte Variable umfasst, wenn die gemeinsam benutzte Variable in dem CAM (64, 102) gecacht ist, und wobei die Lesephase ein Lesen der gemeinsam benutzten Variablen aus einem lokalen Speicher in mindestens einem der Vielzahl von Kontexten ausführt.
Multiverarbeitungssystem, umfassend einen oder mehrere Prozessoren (12) nach einem der Ansprüche 20 bis 26.
Computerprogrammprodukt, das in einem computerlesbaren Medium gespeichert wird, wobei das Programm eine Vielzahl von Anweisungen umfasst, die bei der Ausführung bewirken, dass der mindestens eine Prozessor (12) das Verfahren nach einem der Ansprüche 1 bis 5 implementiert.