DE69433124T2

DE69433124T2 - Befehlsspeicher mit assoziativem Kreuzschienenschalter

Info

Publication number: DE69433124T2
Application number: DE69433124T
Authority: DE
Inventors: Howard G. Sachs
Original assignee: Intergraph Corp
Current assignee: Intergraph Corp
Priority date: 1993-11-05
Filing date: 1994-10-27
Publication date: 2004-05-27
Anticipated expiration: 2014-10-28
Also published as: EP0974894A3; US6892293B2; EP1186995B1; US20030079112A1; EP0974894B1; US5794003A; HK1044056A1; US20030191923A1; HK1044056B; EP1369775A1; DE69430018D1; EP0652509A1; DE69430018T2; DE69424370D1; EP0652509B1; EP0974894A2; DE69424370T2; DE69433124D1; EP1186995A1; US7039791B2

Description

Die Erfindung betrifft ein Verfahren zum Betreiben eines Prozessors gemäß Anspruch 1, einen Prozessor gemäß Anspruch 11 sowie einen Cache-Speicher gemäß Anspruch 21 und somit eine Architektur, in der einzelne Befehle parallel ausgeführt werden können, sowie Verfahren und Vorrichtungen, um dies zu erreichen.
Ein übliches Ziel beim Entwurf von Computerarchitekturen besteht in der Erhöhung der Ausführungsgeschwindigkeit einer gegebenen Menge von Befehlen. Ein Zugang zum Erhöhen der Befehlsausführungsraten besteht in der Ausgabe mehr als eines Befehls pro Taktzyklus, mit anderen Worten, in der parallelen Ausgabe von Befehlen. Dies ermöglicht, dass die Befehlsausführungsrate die Taktrate übersteigt. Computersysteme, die während jedes Taktzyklus mehrere unabhängige Befehle ausgeben, müssen das Problem lösen, die parallel abgesendeten einzelnen Befehle an ihre jeweiligen Ausführungseinheiten zu lenken. Ein Mechanismus, der zum Erreichen dieses parallelen Lenkens von Befehlen verwendet wird, wird allgemein "Kreuzschienenschalter" genannt.
In Computern des derzeitigen Standes der Technik, z. B. in der Digital Equipment Alpha, in der Sun Microsystems SuperSparc und im Intel Pentium, ist der Kreuzschienenschalter als Teil der Befehlspipeline realisiert. In diesen Maschinen ist die Kreuzschiene zwischen der Befehlsdecodierungs- und der Befehlsausführungsstufe angeordnet. Dies liegt daran, dass der herkömmliche Zugang erfordert, dass die Befehle decodiert werden müssen, bevor die Pipeline bestimmt werden kann, an die sie abzusenden sind. Leider verlangsamt die Decodierung auf diese Weise die Systemgeschwindigkeit und erfordert zusätzliche Fläche auf der integrierten Schaltung, auf der der Prozessor ausgebildet ist. Diese Nachteile werden unten weiter erläutert.
De Gloria u. a. "A programmable instruction format extension to VLIW architectures", Proceedings of the 6^th annual European Conference on Computer Systems and software Engineering", 4. Mai 1992 (04. 05. 1992), S. 35–40, XP000344165, ISBN 0-8186-2760-3, offenbart eine VLIW-Prozessorarchitektur mit einer Übersetzungsprozedur, die mehreren Funktionseinheiten der Maschine unter Verwendung eines Formatübersetzungsspeichers, der die Entsprechung zwischen dem Steuerfeld und den Operandenadressen enthält, Befehlsfelder zuweist, um so die Befehlsbreite zu verringern.
EPA 0 496 928 offenbart einen Vorprozessor, der Verbundinformationen verwendet, um zu bestimmen, ob skalare Befehle eines Befehlsstroms parallel mit Nachbarbefehlen verarbeitet werden können. Diese Verbundinformationen spezifizieren tatsächlich die Grenzen der Gruppen zusammenhängender Befehle, die parallel auszuführen sind.
Die Erfindung ist in den Ansprüchen 1, 11 und 21 definiert.
Es wird eine Computersystemarchitektur geschaffen, die ermöglicht, Befehle schneller, mit niedrigerer Leistung und einfacherer Schaltungsanordnung als zuvor möglich an eine geeignete Pipeline zu lenken. Die Erfindung ordnet den Kreuzschienenschalter früher in der Pipeline an, was ihn zu einem Teil der Anfangs-Befehlsholoperation macht. Dies ermöglicht, dass die Kreuzschiene anstelle einer Stufe in der Befehlspipeline Teil des Caches selbst ist. Außerdem ermöglicht es, dass die Kreuzschiene anstelle einer zufälligen Logik Schaltungsentwurtsparameter nutzt, die typisch für reguläre Speicherstrukturen sind. Diese Vorteile umfassen: Niedrigere Schaltspannungen (200–300 Millivolt anstelle von 3–5 Volt); kompakterer Entwurt und höhere Schaltgeschwindigkeiten. Außerdem wird, wenn die Kreuzschiene in dem Cache angeordnet wird, die Notwendigkeit vieler Leseverstärker beseitigt, was die in dem System als Ganzes benötigte Schaltungsanordnung verringert.
Zur Realisierung des Kreuzschienenschalters müssen die aus dem Cache oder auf andere Weise bei dem Schalter eintreffenden Befehle gekennzeichnet werden oder muss ihnen auf andere Weise ein Pipeline-Identifizierer zugeordnet werden, um die Befehle zur Ausführung an die geeignete Pipeline zu leiten. Mit anderen Worten, die Pipeline-Absendeinformationen müssen bei dem Kreuzschienenschalter zur Befehlsholzeit verfügbar sein, bevor die herkömmliche Befehlsdecodierung stattgefunden hat. Es gibt mehrere Möglichkeiten, wie diese Fähigkeit erfüllt sein kann: In einer Ausführungsform enthält dieses System einen Mechanismus, der jeden Befehl in einer Menge von parallel auszuführenden Befehlen gemäß der Bestimmung durch ein Pipeline-Identifizierungskennzeichen, das während der Kompilierung an jeden Befehl angebracht wird oder das in einem getrennten Identifizierungsbefehl, der den ursprünglichen Befehl begleitet, angeordnet wird, an eine geeignete Pipeline lenkt. Alternativ kann die Pipeline-Zuschreibung unter Verwendung einer Spezialvordecodierereinheit nach der Kompilierung zu der Zeit, zu der die Befehle aus dem Speicher in den Cache geholt werden, bestimmt werden.
Somit enthält dieses System in einer Realisierung ein Register oder andere Mittel, beispielsweise die Speicherzellen, die die Speicherung einer Zeile im Cache schaffen, um parallel auszuführende Befehle zu halten. Jedem Befehl ist ein Pipeline-Identifizierer zugeordnet, der die Pipeline angibt, an die dieser Befehl ausgegeben werden soll. Es ist ein Kreuzschienenschalter vorgesehen, der eine erste Menge von Verbindern besitzt, die zum Empfang der Befehle gekoppelt sind, und der eine zweite Menge von Verbindern besitzt, die mit den Verarbeitungspipelines gekoppelt sind, an die die Befehle zur Ausführung abgesendet werden sollen. Es sind Mittel vorgesehen, die auf die Pipeline-Identifizierer der einzelnen Befehle in der an die erste Menge von Verbindern gelieferten Gruppe antworten, um diese einzelnen Befehle an die geeigneten Wege der zweiten Menge von Verbindern zu lenken und somit jeden parallel auszuführenden Befehl in der Gruppe an die geeignete Pipeline zu liefern.
In einer bevorzugten Ausführungsform dieser Erfindung ist die Assoziativ-Kreuzschiene in dem Befehls-Cache realisiert. Durch Anordnen der Kreuzschiene in dem Cache erfolgt das gesamte Schalten bei niedrigen Signalpegeln (etwa 200–300 Millivolt). Das Schalten bei diesen niedrigen Pegeln ist wesentlich schneller als das Schalten bei höheren Pegeln (5 Volt) nach den Leseverstärkern. Außerdem beseitigt die niedrigere Leistung die Notwendigkeit großer Treiberschaltungen, während sie zahlreiche Leseverstärker beseitigt. Außerdem wird durch Realisieren der Kreuzschiene in dem Cache der Layoutabstand der Kreuzschienenleitungen an den Abstand des Layouts des Caches angepasst.
1 ist ein Blockschaltplan, der eine typische Umgebung für eine bevorzugte Realisierung der Erfindung zeigt;
2 ist ein Diagramm, das die Gesamtstruktur des Befehls-Caches aus
1 zeigt;
3 ist ein Diagramm, das eine Ausführungsform des Assoziativ-Kreuzschienenschalters zeigt;
4 ist ein Diagramm, das eine weitere Ausführungsform des Assoziativ-Kreuzschienenschalters zeigt; und
5 ist ein Diagramm, das eine weitere Ausführungsform des Assoziativ-Kreuzschienenschalters zeigt.
1 zeigt die Organisation des integrierten Schaltungschips, durch den das Computersystem gebildet wird. Wie gezeigt ist, enthält das System eine erste integrierte Schaltung 10, die eine Zentraleinheit, eine Gleitkommaeinheit und einen Befehls-Cache enthält.
In der bevorzugten Ausführungsform ist der Befehls-Cache ein 16-Kilo byte-Zweiwege-Teilassoziativ-32-Byte-Zeilen-Cache. Ein Teilassoziativ- oder Setassociative-Cache ist ein Cache, in dem die Zeilen (oder Blöcke) lediglich an einer beschränkten Menge von Stellen angeordnet werden können. Zunächst wird die Zeile in eine Menge abgebildet, wobei sie aber irgendwo innerhalb dieser Menge angeordnet werden kann. In einem Zweiwege-Teilassoziativ-Cache sind zwei Mengen oder Fächer vorgesehen, wobei jede Zeile in dem einen oder in dem anderen Fach angeordnet werden kann.
Außerdem enthält das System einen Daten-Cache-Chip 20, der einen 32-Kilobyte-Vierwege-Teilassoziativ-32-Byte-Zeilen-Cache umfasst. Der dritte Chip 30 des Systems enthält einen Vordecodierer, einen Cache-Controller und einen Speicher-Controller. Der Vordecodierer und der Befehls-Cache werden unten weiter erläutert. Für die Zwecke dieser Erfindung können die CPU, die FPU, der Daten-Cache, der Cache-Controller und der Speicher-Controller sämtlich als herkömmlich konstruiert betrachtet werden.
Die Kommunikationswege zwischen den Chips sind in 1 durch Pfeile gezeigt. Wie gezeigt ist, kommunizieren die CPU/FPU und der Befehls-Cache-Chip mit dem Vordecodierer-Chip 30 über einen 32 Bits breiten Bus 12. Das Sternchen wird zur Angabe verwendet, dass diese Kommunikationen multiplexiert sind, so dass ein 64-Bit-Wort in zwei Zyklen übermittelt wird. Außerdem empfängt der Chip 10 über die 64 Bits breiten Busse 14, 16 Informationen von dem Daten-Cache 20, während er über die drei 32 Bits breiten Busse 18 Informationen an den Daten-Cache 20 liefert. Der Vordecodierer decodiert einen von dem Sekundär-Cache empfangenen 32-Bit-Befehl in ein 64-Bit-Wort und liefert dieses 64-Bit-Wort an den Befehls-Cache auf dem Chip 10.
Der Cache-Controller auf dem Chip 30 wird jedes Mal aktiviert, wenn ein Fehltreffer des Caches der ersten Ebene auftritt. Daraufhin geht der Cache-Controller entweder zum Hauptspeicher oder zum Sekundär-Cache, um die erforderlichen Informationen zu holen. In der bevorzugte Ausführungsform besitzen die Zeilen des Sekundär-Cache 32 Bytes, während der fache eine Seitengröße von 8 Kilobytes besitzt.
Der Daten-Cache-Chip 20 kommuniziert über einen weiteren 32 Bits breiten Bus mit dem Cache-Controller-Chip 30. Außerdem kommuniziert der Cache-Controller-Chip 30 über einen 64 Bits breiten Bus 32 mit dem DRAM-Speicher, über einen 128 Bits breiten Bus 34 mit einem Sekundär-Cache und über einen 64 Bits breiten Bus 36 mit Eingabe/Ausgabe-Vorrichtungen.
Wie unten weiter beschrieben wird, enthält das in 1 gezeigte System mehrere Pipelines, die getrennte, gleichzeitig an diese parallelen Pipelines abgesendete Befehle parallel bearbeiten können. In einer Ausführungsform müssen die parallelen Befehle durch den Compiler identifiziert und mit einem Pipeline-Identifizierungskennzeichen gekennzeichnet werden, das die besondere Pipeline angibt, an die dieser Befehl abgesendet werden soll.
In diesem System können eine beliebige Anzahl von Befehlen parallel ausgeführt werden. In einer Ausführungsform dieses Systems enthält die Zentraleinheit acht Funktionseinheiten, wobei sie acht Befehle parallel ausführen kann. Diese Pipelines sind unter Verwendung der Ziffern 0 bis 7 bezeichnet. Außerdem wird für diese Erläuterung angenommen, dass jedes Befehlswort 32 Bits (4 Bytes) lang ist.
Wie oben kurz erwähnt wurde, werden in der bevorzugten Ausführungsform während der Kompilierung einzelnen Befehlen in einer Menge von Befehlen Pipeline-Identifizierer zugeordnet. In der bevorzugten Ausführungsform wird dies dadurch erreicht, dass die auszuführenden Befehle unter Verwendung einer wohlbekannten Compiler-Technologie kompiliert werden. Während der Kompilierung werden die Befehle auf Datenabhängigkeiten, auf eine Abhängigkeit von früheren Verzweigungsbefehlen oder auf andere Bedingungen, die ihre parallele Ausführung mit anderen Befehlen ausschließen, geprüft. Das Ergebnis der Kompilierung ist die Identifizierung einer Menge oder Gruppe von Befehlen, die parallel ausgeführt werden können. Außerdem bestimmt der Compiler in der bevorzugten Ausführungsform die geeignete Pipeline zur Ausführung eines einzelnen Befehls. Diese Bestimmung ist im Wesentlichen eine Bestimmung des Typs des gelieferten Befehls. Beispielsweise werden Falsch-Befehle an die Falsch-Pipeline gesendet, Speicherbefehle an die Speicher-Pipeline gesendet usw. Die Zuordnung des Befehls zu der gegebenen Pipeline kann entweder durch den Compiler oder durch spätere Untersuchung des Befehls selbst, beispielsweise während der Vordecodierung, erreicht werden.
Wieder mit Bezug auf 1 führt die CPU im normalen Betrieb die Befehle aus dem Befehls-Cache gemäß wohlbekannten Prinzipien aus. Bei einem Befehls-Cache-Fehltreffer wird aber eine Menge von Befehlen, die den Fehltreffer-Befehl enthalten, aus dem Hauptspeicher in den Sekundär-Cache und daraufhin in den Primär-Befehls-Cache oder aus dem Sekundär-Cache in den Primär-Befehls-Cache übertragen, wo sie eine Zeile des Befehls-Cache-Speichers belegt. Da die Befehle lediglich aus dem Befehls-Cache ausgeführt werden, unterliegen schließlich sämtliche Befehle der folgenden Prozedur.
Zu der Zeit, zu der eine Gruppe von Befehlen in den Befehls-Cache übertragen wird, werden die Befehls-Wörter durch den Vordecodierer 30 vordecodiert. Als Teil des Vordecodierungsprozesses wird anhand eines durch den Compiler zu dem Befehl hinzugefügten Identifizierungskennzeichens zu jedem Befehl ein Mehrbitfeld-Präfix hinzugefügt. Dieses Präfix liefert die explizite Pipelineabschnitt-Nummer der Pipeline, an die dieser Befehl gelenkt wird. Somit besitzt jeder Befehl zu der Zeit, zu der ein Befehl von dem Vordecodierer an den Befehls-Cache geliefert wird, einen Pipeline-Identifizierer.
Es kann wünschenswert sein, das System dieser Erfindung auf Computersystemen zu realisieren, die bereits existieren und somit Befehlsstrukturen besitzen, die bereits ohne verfügbare freie Felder für die Pipeline-Informationen definiert worden sind. In diesem Fall werden die Pipeline-Identifizierer-Informationen in einer weiteren Ausführungsform dieser Erfindung in einem anderen Taktzyklus geliefert und daraufhin mit den Befehlen in dem Cache vereinigt oder in einem getrennten kleineren Cache angeordnet. Ein solcher Zugang kann dadurch erreicht werden, dass ein "No-Op-Befehl" mit Feldern hinzugefügt wird, die die Pipeline zur Ausführung des Befehls identifizieren, oder dass Informationen geliefert werden, die sich auf andere Weise auf die parallelen Befehle beziehen. Somit ist klar, dass die Art, in der der Befehl und der Pipeline-Identifizierer an der Kreuzschiene zur Verarbeitung eintreffen, etwas beliebig ist. Zur Bezeichnung des Konzepts, dass die Pipeline-Identifizierer keine feste Beziehung zu den Befehlswörtern zu haben brauchen, wird hier das Wort "zugeordnet" verwendet. Somit brauchen die Identifizierer nicht selbst durch den Compiler in die Befehle eingebettet zu werden. Statt dessen können sie von anderen Mitteln oder in einem anderen Zyklus eintreffen.
2 ist ein vereinfachtes Diagramm, das den Sekundär-Cache, den Vordecodierer und den Befehls-Cache zeigt. Diese Figur sowie die 3, 4 und 5 werden zur Erläuterung der Art verwendet, in der die mit dem Pipeline-Identifizierer gekennzeichneten Befehle an ihre bestimmten Befehlspipelines gelenkt werden.
In 2 wird zur Erläuterung angenommen, dass Gruppen parallel auszuführender Befehle in einer einzigen Übertragung aus einem Sekundär-Cache 50 über einen 256 Bits (32 Bytes) breiten Weg in den Vordecodierer 60 geholt werden. Wie oben erläutert wurde, fügt der Vordecodierer das Pipeline-Feld "P" als Präfix an den Befehl an. Nach der Vordecodierung wird die resultierende Menge von Befehlen in den Primär-Befehls-Cache 70 übertragen. Gleichzeitig wird in dem Identifizierungskennzeichen-Feld 74 für diese Zeile ein Identifizierungskennzeichen angeordnet.
In der bevorzugten Ausführungsform arbeitet der Befehls-Cache als herkömmlicher physikalisch adressierter Befehls-Cache. In dem in 2 gezeigten Beispiel enthält der Befehls-Cache 512-Bit-Mengen an Befehlen mit jeweils acht Befehlen, die in zwei Fächern zu 256 Zeilen organisiert sind.
Die Adressenquellen für den Befehls-Cache treffen bei einem Multiplexer 80 ein, der die nächste zu holende Adresse auswählt. Da die Befehle vorzugsweise immer Maschinenwörter sind, werden die zwei niederwertigen Adressenbits < 1 : 0 > des an den Multiplexer 80 gelieferten 32-Bit-Adressenfelds verworfen. Diese zwei Bits bezeichnen Byte- und Halbwort-Grenzen. Von den verbleibenden 30 Bits werden die nächsten drei niederwertigen Adressenbits < 4 : 2 >, die ein besonderes Befehlswort in der Menge bezeichnen, über den Bus 81 direkt an die Assoziativ-Kreuzschiene gesendet. Die nächsten acht niederwertigen Adressenbits < 12 : 5 > werden über den Bus 82 an den Befehls-Cache 70 geliefert, wo sie zur Auswahl einer der 256 Zeilen in dem Befehls-Cache verwendet werden. Schließlich werden die verbleibenden 19 Bits der virtuellen Adresse < 31 : 13 > an den Translation-Look-Aside-Buffer (TLB) 90 gesendet. Der TLB übersetzt diese Bits in die hohen 19 Bits der physikalischen Adresse. Daraufhin liefert sie der TLB über den Bus 84 an den Befehls-Cache. In dem Cache werden sie mit dem Identifizierungskennzeichen der ausgewählten Zeile verglichen, um zu bestimmen, ob es in dem Befehls-Cache einen "Treffer" oder einen "Fehltreffer" gibt.
Wenn es in dem Befehls-Cache einen Treffer gibt, was angibt, dass der adressierte Befehl in dem Cache vorhanden ist, wird die ausgewählte Menge von Befehlen über den 512 Bits breiten Bus 73 an die Assoziativ-Kreuzschiene 100 übertragen. Die Assoziativ-Kreuzschiene 100 sendet daraufhin die adressierten Befehle über die Busse 110, 111, ..., 117 an die geeigneten Pipelines ab. Vorzugsweise sind die Bitleitungen von den Speicherzellen, die die Bits des Befehls speichern, selbst mit der Assoziativ-Kreuzschiene gekoppelt. Dies beseitigt die Notwendigkeit zahlreicher Leseverstärker und ermöglicht, dass die Kreuzschiene ohne die normalennreise dazwischenliegende Treiberschaltungsanordnung, die den Systembetrieb verlangsamt, direkt an den Informationen mit niedrigerem Spannungshub von der Cache-Zeile arbeitet.
3 zeigt eine Ausführungsform der Assoziativ-Kreuzschiene ausführlicher. Ein 512 Bits breites Register 130, das die Speicherzellen in einer Zeile des Caches repräsentiert (oder ein physikalisch getrenntes Register sein kann), enthält wenigstens die Menge von Befehlen, die ausgegeben werden können. Für Erläuterungszwecke ist das Register 130 in der Weise gezeigt, dass es bis zu acht Befehlswörter W0 bis W7 enthält. Unter Verwendung der in der obenerwähnten gleichzeitig anhängigen Anwendung beschriebenen Mittel sind die Befehle zur parallelen Ausführung in Gruppen sortiert worden. Zur Erläuterung wird hier angenommen, dass die Befehle in der Gruppe 1 an die Pipelines 1, 2 und 3 abgesendet werden sollen; dass die Befehle in der Gruppe 2 an die Pipelines 1, 3 und 6 abgesendet werden sollen und dass die Befehle in der Gruppe 3 an die Pipeline 1 und 6 abgesendet werden sollen. Das Decodierer-Auswahlsignal ermöglicht, dass lediglich die geeignete Menge von Befehlen parallel ausgeführt wird, wobei es im wesentlichen ermöglicht, dass das Register 130 mehr als nur eine Menge von Befehlen enthält. Natürlich ist dadurch, dass lediglich das Register 130 für lediglich eine Menge von parallelen Befehlen gleichzeitig verwendet wird, das Decodierer-Auswahlsignal nicht erforderlich.
Wie in 3 gezeigt ist, enthält der Kreuzschienenschalter selbst zwei Mengen von gekreuzten Parallelwegen. Die Pipeline-Parallelwege 180, 181, ..., 187 liegen in horizontaler Richtung. Die Befehlswortwege 190, 191, ..., 197 liegen in vertikaler Richtung. Jeder dieser Pipeline- und Befehlsparallelwege ist selbst ein Bus zur Übertragung des Befehlsworts. Jeder horizontale Pipeline-Parallelweg ist mit einer Pipeline-Ausführungseinheit 200, 201, 202, ..., 207 gekoppelt. Jeder der vertikalen Befehlswort-Parallelwege 190, 191, ..., 197 ist mit einem geeigneten Abschnitt des Registers oder der Cache-Zeile 130 gekoppelt.
Die jedem Befehlswort-Parallelweg zugeordneten Decodierer 170, 171, ..., 177 empfangen den 4-Bit-Pipeline-Code von dem Befehl. Jeder Decodieren, beispielsweise der Decodierer 170, liefert acht 1-Bit-Steuerleitungen als Ausgang. Jeder Pipeline-Parallelwegkreuzung dieses Befehlswort-Parallelwegs ist eine dieser Steuerleitungen zugeordnet. Die Auswahl eines wie mit Bezug auf 3 beschriebenen Decodierers aktiviert die dieser Eingangs-Pipelineabschnittnummer entsprechende Ausgangs-Bitsteuerleitung. Dies signalisiert der Kreuzschiene, den Schalter zwischen dem diesem Decodierer zugeordneten Wortweg und dem durch diese Bitleitung ausgewählten Pipelineabschnittweg zu schließen. Das Herstellen der Kreuzverbindung zwischen diesen zwei Parallelwegen bewirkt, dass ein ausgewähltes Befehlswort in die ausgewählte Pipeline fließt. Beispielsweise hat der Decodierer 173 die Pipeline-Bits für das Wort W3 empfangen. Dem Wort W3 ist der Pipeline-Weg 1 zugeordnet. Die Bits des Pipeline-Weges 1 werden decodiert, um den Schalter 213 zu aktivieren, so dass er das Befehlswort W3 über den Pipeline-Weg 181 an die Pipeline-Ausführungseinheit 201 liefert. Auf ähnliche Weise aktiviert die Identifizierung des Pipeline-Wegs 3 für den Decodierer D4 den Schalter 234, so dass er das Befehlswort W4 an den Pipeline-Weg 3 liefert. Schließlich aktiviert die Identifizierung der Pipeline 6 für das Wort W5 im Decodierer D5 den Schalter 265, so dass das Befehlswort W5 über den Pipeline-Parallelweg 186 an die Pipeline-Ausführungseinheit 206 übertragen wird. Somit werden die Befehle W3, W4 und W5 durch die Pipelineabschnitte 201, 203 bzw. 206 ausgeführt. Die in 3 gezeigten Pipeline-Verarbeitungseinheiten 200, 201, ..., 207 können die gewünschten Operationen ausführen. In einer bevorzugten Ausführungsform der Erfindung enthält jede der acht Pipelines zunächst einen Leseverstärker zum Erfassen des Zustands der Signale auf den Bitleitungen von der Kreuzschiene. In einer Ausführungsform enthalten die Pipelines erste und zweite Arithmetik-Logik-Einheiten; erste und zweite Gleitkommaeinheiten; erste und zweite Ladeeinheiten; eine Speichereinheit und eine Steuereinheit. Die besondere Pipeline, an die ein gegebenes Befehlswort abgesendet wird, hängt von den Hardware-Nebenbedingungen sowie von Datenabhängigkeiten ab.
4 ist ein Diagramm, das eine weitere Ausführungsform der Assoziativ-Kreuzschiene zeigt. In 4 sind neun Pipelines 0–8 an die Kreuzschiene gekoppelt gezeigt. Wie in dem System aus 3 wird die Decodierungsauswahl verwendet, um eine Teilmenge der Befehle in dem Register 130 zur Ausführung freizugeben.
Daraufhin werden die Ausführungsports, die mit den durch die Pipeline-Identifizierungsbits der freigegebenen Befehle angegebenen Pipelines verbunden sind, ausgewählt, um die geeigneten Befehle aus dem Inhalt des Registers herauszumultiplexieren. Falls einer oder mehrere der Pipelines nicht zum Empfang eines neuen Befehls bereit ist, verhindert eine Menge von Haltezwischenspeichern am Ausgang der Ausführungsports bis die "belegte" Pipeline frei ist, dass irgendeiner der freigegebenen Befehle ausgegeben wird. Andernfalls werden die Befehle transparent über die Haltezwischenspeicher an ihre jeweiligen Pipelines übergeben. Das Ausgangssignal jedes Ports wird von einem "Port-gültig"-Signal beglei tet, das angibt, ob der Port gültige Informationen zur Ausgabe an den Haltezwischenspeicher besitzt.
5 zeigt eine alternative Ausführungsform für die Erfindung, bei der die Pipeline-Identifizierungskennzeichen nicht bei dem Befehl enthalten sind, sondern getrennt geliefert werden, oder bei der die Cache-Zeile selbst als das Register für die Kreuzschiene verwendet wird. In diesen Situationen können die Pipeline-Identifizierungskennzeichen in einem schnellen getrennten Cache-Speicher 200 angeordnet werden. Das Ausgangssignal von diesem Speicher kann dann die Kreuzschiene auf die gleiche Weise wie in Verbindung mit 3 beschrieben steuern. Dieser Zugang beseitigt die Notwendigkeit von Leseverstärkern zwischen dem Befehls-Cache und der Kreuzschiene. Dies ermöglicht, dass die Kreuzschiene Signale mit sehr niedriger Spannung schneller als Signale mit höherem Pegel schaltet, wobei die Notwendigkeit Hunderter von Leseverstärkern beseitigt wird. Um ein Signal mit höherem Pegel zur Steuerung der Kreuzschiene zu liefern, ist zwischen dem Pipeline-Identifizierungskennzeichen-Cache 200 und der Kreuzschiene 100 der Leseverstärker 205 angeordnet. Da der Pipeline-Identifizierungskennzeichen-Cache ein verhältnismäßig kleiner Speicher ist, kann er aber schneller arbeiten als der Befehls-Cache-Speicher, so dass die Identifizierungskennzeichen trotz des Leseverstärkers zwischen dem Cache 200 und der Kreuzschiene 100 rechtzeitig zur Steuerung der Kreuzschiene verfügbar sind. Wenn das Schalten in der Kreuzschiene stattfindet, werden die Signale, bevor sie zur Ausführung an die verschiedenen Pipelines geliefert werden, durch die Leseverstärker 210 verstärkt.
Die obenbeschriebene Architektur schafft viele einzigartige Vorteile für ein System unter Verwendung dieser Kreuzschiene. Die beschriebene Kreuzschiene ist äußerst flexibel, was ermöglicht, Befehle vollständig je nach "Intelligenz" des Compilers aufeinander folgend oder parallel auszuführen. Wichtig ist, dass sich die Assoziativ-Kreuzschiene nicht auf eine externen Steuerschaltung, die unabhängig von den ausgeführten Befehlen wirkt, sondern auf den Inhalt der decodierten Nachricht stützt. Im Wesentlichen ist die Assoziativ-Kreuzschiene selbstbestimmt.
Ein weiterer wichtiger Vorteil dieses Systems besteht darin, dass es intelligentere Compiler ermöglicht. Durch den Compiler kann bestimmt werden, dass zwei Befehle, die gegenüber einem Hardware-Decodierer (wie in dem obenbeschrieben Stand der Technik) abhängig voneinander zu sein scheinen, nicht von einander abhängig sind. Beispielsweise würde ein Hardware-Decodierer nicht zulassen, dass die zwei Befehle R1 + R2 = R3 und R3 + R5 = R6 parallel ausgeführt werden. Ein Compiler kann dagegen "intelligent" genug sein, um zu bestimmen, dass das zweite R3 ein früherer Wert von R3 ist, der nicht durch R1 + R2 berechnet zu werden braucht, so dass er erlaubt, dass beide Befehle gleichzeitig ausgegeben werden. Dies ermöglicht, dass die Software flexibler und schneller ist.
Obgleich das Vorstehende eine Beschreibung der bevorzugten Ausführungsform der Erfindung war, ist für den Fachmann auf dem Gebiet offensichtlich, dass an der Erfindung zahlreiche Abwandlungen und Änderungen vorgenommen werden können, ohne von dem hier beschriebenen Umfang abzuweichen. Zum Beispiel können beliebige Anzahlen von Pipelines, beliebige Anzahlen von Decodierern und verschiedene Architekturen verwendet werden, die aber dennoch auf dem hier entwickelten System beruhen.

Claims

Verfahren zum Betreiben eines Prozessors, das die folgenden Schritte umfaßt: Speichern mehrerer Befehle (W0–W7, 10–17) in einem Speicher (70, 74, 200), wobei jeder Befehl (W0–W7, 10–17) einer von mehreren Befehlstypen ist, wobei die Befehle in Rahmen codiert sind, wobei jeder Rahmen mehrere Befehlsschlitze und Lenkungsbits umfaßt, die Befehlsgruppen-Grenzen innerhalb des Rahmens spezifizieren, wobei eine Befehlsgruppe eine Menge statisch aneinandergrenzender Befehle (W0–W7, 10–17), die konkurrent ausgeführt werden, umfaßt; wobei jede der mehreren Ausführungseinheiten (0, ..., 7) einer von mehreren Ausführungseinheit-Typen ist; und wobei jeder Befehlstyp in einem Ausführungseinheit-Typ ausgeführt wird, gekennzeichnet durch Verwenden eines Kreuzschienen-Schaltmittels (100), das mit mehreren Ausführungseinheiten (0, ..., 7) gekoppelt ist, um in Reaktion auf die Lenkungsbits Befehle (W0–W7, 10–17) in der Befehlsgruppe parallel an Ausführungseinheiten (0, ..., 7) der mehreren Ausführungseinheiten (0, ..., 7) auszugeben.
Verfahren nach Anspruch 1, bei dem das Kreuzschienen-Schaltmittel (100) ferner das Verwenden des Kreuzschienen-Schaltmittels umfaßt, um die Befehle (W0–W7, 10–17) mit Ausführungseinheiten geeigneter Typen in Reaktion auf die Lenkungsbits zu koppeln.
Verfahren nach den Ansprüchen 1 oder 2, bei dem die Befehlstypen Ganzzahl-Befehle und Gleitkomma-Befehle umfassen.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Befehlstypen Ladebefehle und Speicherbefehle umfassen.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem die Ausführungseinheiten (0, ..., 7) eine Arithmetik-Logik-Einheit und eine Gleitkommaeinheit umfassen.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Lenkungsbits 4 Bits umfassen.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem eine Byte-Reihenfolge der Befehle (W0–W7, 10–17) im Rahmen in dem Speicher (70, 74, 200) in einem Little-Endian-Format oder in einem Big-Endian-Fonnat vorliegt.
Verfahren nach einem der Ansprüche 1 bis 7, bei dem ein Befehl (W0- W7, 10–17) im Rahmen mit der niedrigsten Speicheradresse einem Befehl (W0–W7, 10–17) im Rahmen mit der höchsten Speicheradresse vorhergeht.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem der Rahmen wenigstens einen ersten, einen zweiten und einen dritten Befehisschlitz umfaßt.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem die Lenkungsbits wenigstens teilweise in Kompilierungszeit bestimmt werden.
Prozessor, der umfaßt: eine Befehlsmenge, die Register adressierende Befehle (W0–W7, 10–17) umfaßt, wovon jeder einer von mehreren Befehlstypen ist, wobei die Befehle (W0-W7, 10–17) in Rahmen codiert sind, wovon jeder mehrere Befehlsschlitze und Lenkungsbits umfaßt, die Befehlsgruppengrenzen innerhalb des Rahmens spezifizieren, wobei eine Befehlsgruppe eine Menge statisch aneinandergrenzender Befehle (W0–W7, 10–17), die konkurrent ausgeführt werden, umfaßt; mehrere Ausführungseinheiten (0, ..., 7), wovon jede einer von mehreren Ausführungseinheit-Typen ist, wovon jeder in einem Ausführungseinheit-Typ ausgeführt wird; gekennzeichnet durch ein Kreuzschienen-Schaltmittel (100), das mit den mehreren Ausführungseinheiten (0, ..., 7) gekoppelt ist, wobei das Kreuzschienen-Schaltmittel (100) so konfiguriert ist, daß es in Reaktion auf die Lenkungsbits Befehle (W0–W7, 10–17) in der Befehlsgruppe parallel an Ausführungseinheiten (0, ..., 7) der mehreren Ausführungseinheiten (0, ..., 7) ausgibt.
Prozessor nach Anspruch 11, bei dem das Kreuzschienen-Schaltmittel (100) außerdem so konfiguriert ist, daß es in Reaktion auf die Lenkungsbits die Befehlsschlitze mit den Ausführungseinheit-Typen koppelt.
Prozessor nach Anspruch 11 oder 12, bei dem die Befehlstypen Ganzzahl-Befehle und Gleitkomma-Befehle umfassen.
Prozessor nach einem der Ansprüche 11 bis 13, bei dem die Befehlstypen Ladebefehle und Speicherbefehle umfassen.
Prozessor nach einem der Ansprüche 11 bis 14, bei dem die Ausführungseinheiten (0, ..., 7) eine Arithmetik-Logik-Einheit und eine Gleitkommaeinheit umfassen.
Prozessor nach einem der Ansprüche 11 bis 15, bei dem die Lenkungsbits 4 Bits umfassen.
Prozessor nach einem der Ansprüche 11 bis 16, der ferner einen Speicher (70, 74, 200) umfaßt, der die Rahmen speichert, wobei eine Byte-Reihenfolge der Rahmen im Speicher in einem Little-Endian-Format oder in einem Big-Endian-Format vorliegt.
Prozessor nach einem der Ansprüche 11 bis 17, bei dem ein Befehl (W0–W7, 10–17) im Rahmen mit der niedrigsten Speicheradresse einem Befehl in den Rahmen mit der höchsten Speicheradresse vorhergeht.
Prozessor nach einem der Ansprüche 11 bis 18, bei dem der Rahmen wenigstens einen ersten, einen zweiten und einen dritten Befehlsschlitz umfaßt.
Prozessor nach einem der Ansprüche 11 bis 19, bei dem die Lenkungsbits wenigstens teilweise in Kompilierungszeit bestimmt werden.
Cache-Speicher, der umfaßt: einen Rahmen aus Befehlen (W0–W7, 10–17), wobei der Rahmen mehrere Befehle (W0–W7, 10–17) und Lenkungsbits, die Befehlsgruppengrenzen innerhalb des Rahmens spezifizieren, umfaßt, wobei jeder Befehl (W0–W7, 10–17) einer von mehreren Befehlstypen ist und wobei eine Befehlsgruppe eine Menge von statisch aneinandergrenzenden Befehlen (W0–W7, 10–17), die konkurrent ausgeführt werden, umfaßt; wobei jeder Befehlstyp in einer von mehreren Ausführungseinheiten (0, ..., 7) auszuführen ist, wobei jede Ausführungseinheit (0, ..., 7) einer von mehreren Ausführungseinheit-Typen ist; dadurch gekennzeichnet, daß Befehle (W0–W7, 10–17) in der Befehlsgruppe in Reaktion auf die Lenkungsbits durch Kreuzschienen-Schaltmittel (100) parallel an Ausführungseinheiten (0, ..., 7) der mehreren Ausführungseinheiten (0, ..., 7) ausgegeben werden.
Cache-Speicher nach Anspruch 21, bei dem die Befehle (W0–W7, 10-17) außerdem in Reaktion auf die Lenkungsbits durch das Kreuzschienen-Schaltmittel (100) an Ausführungseinheiten geeigneten Typs ausgegeben werden.
Cache-Speicher nach den Ansprüchen 21 oder 22, bei dem die Befehlstypen Ganzzahl-Befehle und Gleitkomma-Befehle umfassen.
Cache-Speicher nach einem der Ansprüche 21 bis 23, bei dem die Befehlstypen Ladebefehle und Speicherbefehle umfassen.
Cache-Speicher nach einem der Ansprüche 21 bis 24, bei dem die Ausführungseinheiten (0, ..., 7) eine Arithmetik-Logik-Einheit und eine Gleitkomma-Einheit umfassen.
Cache-Speicher nach einem der Ansprüche 21 bis 25, bei dem die Lenkungsbits 4 Bits umfassen.
Cache-Speicher nach einem der Ansprüche 21 bis 26, bei dem eine Byte-Reihenfolge von Befehlen (W0–W7, 10–17) im Rahmen von Befehlen in einem Little-Endian-Format oder in einem Big-Endian-Format gespeichert wird.
Cache-Speicher nach. einem der Ansprüche 21 bis 27, bei dem ein Befehl (W0–W7, 10–17) im Rahmen mit der niedrigsten Speicheradresse einem Befehl im Rahmen mit der höchsten Speicheradresse vorhergeht.
Cache-Speicher nach einem der Ansprüche 21 bis 28, bei dem die Rahmen wenigstens einen ersten, einen zweiten und einen dritten Befehlsschlitz umfassen.
Cache-Speicher nach einem der Ansprüche 21 bis 29, bei dem die Lenkungsbits wenigstens teilweise in Kompilierungszeit bestimmt werden.