DE4301417C2

DE4301417C2 - Computersystem mit Einrichtung zur parallelen Befehlsausführung

Info

Publication number: DE4301417C2
Application number: DE4301417A
Authority: DE
Inventors: Edward T Grochowski; Kenneth D Shoemaker; Ahmad Zaidi; Donald B Alpert
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1992-01-23
Filing date: 1993-01-20
Publication date: 1998-06-18
Anticipated expiration: 2013-01-21
Also published as: HK1006882A1; FR2686717A1; GB2263565A; GB2263565B; US5475824A; JPH0628185A; ITMI930109A1; GB9300079D0; ITMI930109A0; IT1263811B; CN1074771A; DE4301417A1; FR2686717B1

Description

Die vorliegende Erfindung betrifft ein Computersystem zum Abarbeiten eines Programms, das aus einer Sequenz von Befehlen aus einem Satz komplexer Befehle unterschiedlicher Länge besteht (CISC-Computersystem).

Historisch bedingt wurden Computer so konstruiert, daß sie Befehle sequentiell, d. h. einen nach dem anderen, ausführen. Während das sequentielle Ausführen von Computerbefehlen ein lo gisches und geordnetes Betriebsverfahren zur Verfügung stellt, führte die stets vorhandene Forderung nach einer Erhöhung der Verarbeitungsgeschwindigkeit zum Suchen von Wegen zum Implemen tieren eines parallelen Ausführungsschemas.

Es gibt zahlreiche zu überwindende Probleme, wenn man er folgreich einen Computer oder Mikroprozessor konstruieren will, welcher zum parallelen Ausführen mehrerer Befehle in der Lage ist. Beispielsweise haben CISC-Mikroprozessoren typischerweise eine Befehlssatzarchitektur, welche hunderte von Einzelbefehlen enthält. Zählt man sämtliche verschiedenen Arten der Adressiermoden für eine gegebene Architektur hinzu, ergibt sich wahrscheinlich eine Gesamtzahl möglicher Befehlscodes irgendwo im Bereich von Tausenden. Eine Paarbildung an sämtlichen der dabei möglichen ersten Befehle mit sämtlichen möglichen zweiten Befehlen für einen gegebenen Befehlssatz führt leicht zu Millionen unterschiedlicher Kombinationen. Der Entwurf einer Maschine, welche zum Ausführen all dieser Kombinationen in der Lage ist, ist eine gewaltige Aufgabe. Es ist klar, daß die Ent wurfskomplexität so groß werden kann, daß ein solches Problem unüberschaubar wird. Problematisch ist der Bau verschiedener Decodierer, welche den vollständigen Befehlssatz in einer par allelen Maschine, welche Befehlspaare ohne große Zeitverzöge rungen ausführen könnte, decodieren könnten.

Ein anderes, mit dem Bau eines zum parallelen Ausführen von Befehlen geeigneten Computers verbundenes Problem ist, daß der Computer auch in der Lage sein muß, Software abzuarbeiten, wel che für ältere Maschinen konzipiert wurde; d. h. für Maschinen, welche durch sequentielle Ausführung von Befehlen - ein Befehl pro Taktzyklus - arbeiten. Mit anderen Worten: eine parallele Maschine muß das Erscheinungsbild einer sequentiellen Arbeits weise abgeben.

Computersysteme, bei denen sequentiell aufeinanderfolgende Befehle parallel ausgeführt werden, sind beispielsweise aus der Veröffentlichung "Superscalar-Technologie: Die zweite Generation der 80960-Architektur, Teil 1" in Design & Elek tronik, Nr. 21, vom 17. Oktober 1989 sowie aus der US-Patent schrift 4,626,989 bekannt. Bei den dort beschriebenen Computersystemen handelt es sich um sogenannte RISC-Systeme, die einen begrenzten Befehlssatz gleich langer Befehle verwenden. Die parallel arbeitenden Ausführungseinheiten sind jeweils auf eine bestimmte Befehlsgruppe spezialisiert (beispielsweise eine Verarbeitungseinheit für logische, Additions- und Subtraktionsbefehle und eine zweite Verarbeitungseinheit für Multiplikationsbefehle). Diese Spezialisierung ist grundsätzlich nur bei einem reduzierten Befehlssatz (RISC) sinnvoll.

Bei Computern mit einem komplexen Befehlssatz (CISC) wird die parallele Ausführung von Befehlen dadurch erschwert, daß einerseits eine große Zahl verschiedener Befehle mit unterschiedlichen Längen auftreten und daß andererseits die Ausführungseinheiten in der Lage sein müssen, eine große Anzahl verschiedener Befehle auszuführen und dabei auf unterschiedliche Mikroprogramme zugreifen.

Aufgabe der Erfindung ist es, die Verarbeitungsgeschwindigkeit bei der Ausführung einer Befehlssequenz eines CISC-Computersystems zu erhöhen.

Diese Aufgabe wird erfindungsgemäß durch ein Computersystem mit den Merkmalen des Anspruchs 1 gelöst.

Wie zu sehen sein wird, offenbart die Erfindung ein CISC-Com putersystem, das zum Ausführen von zwei Befehlen in einem einzigen Taktzyklus in der Lage ist. Die Erfindung arbeitet, indem sie ein aus einem gegebenen Befehlssatz ausgewähltes Befehlspaar decodiert und anschließend das Paar parallel ausführt. Eines der Merkmale der Erfindung ist, daß das Computersystem nur dann zwei Befehle parallel ausgibt, wenn es keine Registerabhängigkeiten zwischen den gepaarten Befehlen gibt.

Bei der Erfindung sind eine erste und eine zweite Befehls- Pipeline zum Ausführen von Computerbefehlen vorgesehen. Die erste Pipeline kann irgendeinen aus dem vollständigen Befehlssatz ausgegebenen Befehl ausführen, während die zweite Pipeline auf die Ausführung eines vorgegebenen Teilsatzes von normalerweise häufig ausgeführten Befehlen beschränkt ist.

Es ist ein Registerabhängigkeitsüberprüfungsmittel vorgese hen zum Identifizieren des Zielregisters des ersten Befehls ei ner Befehlssequenz. Das Abhängigkeitsüberprüfungsmittel be stimmt, ob das Zielregister während der Ausführung des zweiten Befehls der Sequenz verwendet wird. Wenn dies nicht der Fall ist, zeigt das Abhängigkeitsüberprüfungsmittel an, daß eine erste Bedingung erfüllt ist. Außerdem ist ein Mittel vor gesehen, das bestimmt, ob sich der erste und der zweite Befehl der Sequenz innerhalb des vorgegebenen Teilsatzes des Befehlssatzes befinden. Wenn beide Befehle im Teilsatz enthalten sind, zeigt das Bestimmungsmittel an, daß eine zweite Bedingung erfüllt ist. Jedesmal dann, wenn sowohl die erste als auch die zweite Bedingung erfüllt sind, kann das Befehlspaar parallel ausgegeben werden.

Ein weiteres Merkmal ist, daß das Computersystem standardmäßig vorgibt, nur den ersten Befehl der Sequenz in die erste Pipeline auszugeben, wenn nur eine der ersten oder zweiten Bedingungen erfüllt sind. D.h., wenn der erste und der zweite Befehl eine Registerabhängigkeit aufweisen oder wenn einer der Befehle nicht aus dem vorgegebenen Teilsatz entnommen ist, dann geht die Maschine standardmäßig in eine Bedingung, bei der nur der erste Befehl in einem einzigen Taktzyklus ausgeführt wird. Unter dieser Bedingung wird der zweite Befehl der Sequenz danach während des nächsten Taktzyklus ausgegeben.

Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Im folgenden wird die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher beschrieben. In der Zeichnung zeigen:

Fig. 1 die Ausführungsstruktur einer CPU-Pipeline eines bekannten Mikroprozessors;

Fig. 2 die Ausführungsstruktur der CPU-Pipeline nach der Erfindung; und

Fig. 3 ein Blockdiagramm der bei der Erfindung verwendeten Dual-Befehlsdecodierer- Einrichtung.

Die Erfindung betrifft eine Einrichtung zum parallelen Ausführen mehrerer Computerbefehle in einem einzigen Taktzyklus. Die Erfindung ist vorzugsweise in einem als i586 bekannten Mikroprozessor ausgeführt, welcher durch die Intel Corporation hergestellt wird. Der Mikroprozessor i586 ist eine verbesserte Version des Intel-Mikroprozessors i486. Details der Architektur des Mikroprozessors i486 sind in zahlreichen Veröffentlichungen beschrieben. (Intel, i486 und i586 sind Warenkennzeichnungen der Intel Corporation.) Obwohl in der Be schreibung häufig auf die Architektur des i586 Bezug genommen wird und Beispiele aus deren Befehlsfamilie herrühren, ist es klar, daß die Erfindung nicht auf diese spezielle Maschine be schränkt ist.

Pipelining

Das Pipelining ist eine Implementierungsmethode, bei der mehrere Befehle gleichzeitig und überlappend ausgerührt werden. Das Pipelining ist eine im großen Umfang benutzte bekannte Me thode zum Verbessern der Effizienz und der Ausführungsgeschwin digkeit einer zentralen Verarbeitungseinheit (CPU). Bei einer Pipeline-Struktur gehen die Befehle an einem Ende ein - werden durch die Stufen oder Segmente hindurch verarbeitet - und ver lassen die Pipeline am anderen Ende wieder. Jede der Stufen der Pipeline schließt einen Teil des Befehls ab.

In Fig. 1 ist eine bekannte Pipeline-Struktur dargestellt, in welcher die Befehlsstufen durch die Einträge entlang der linken Spalte bezeichnet sind. Die Taktzeitintervalle zwischen den Befehlsschritten sind durch die horizontalen Nummern veran schaulicht. Jeder Schritt in der Pipeline wird als ein Taktzy klus oder Maschinenzyklus bezeichnet.

Die erste Stufe der Pipeline ist die Stufe "PF", welche den Abschnitt des Vor-Heranholens (prefetch) der Pipeline bezeich net. In dieser Stufe werden die Befehle aus einem On-Chip-Ca che-Speicher herangeholt. Die nächste Stufe der Pipeline ist mit "D1" bezeichnet. In dieser Stufe werden Befehle decodiert und ausgegeben. Die Stufe D2 ist eine Adreßberechnungsstufe. Es sei angemerkt, daß in Übereinstimmung mit den Prinzipien der Pipeline ein zweiter Befehl (beispielsweise I2) mit dem Ausfüh ren seiner Vor-Heranhol-Stufe beginnt, während sich der erste Befehl (beispielsweise I1) gerade in der Ausführung der Stufe D1 des zweiten Taktzyklus befindet. Die Stufe "EX" (execution) der Pipeline zeigt die hardwaremäßige Ausführung des Befehls an, während die Stufe "WB" (writeback) eine Rückschreib-Opera tion bezeichnet. Zu beachten ist, daß bei der bekannten Struk tur gemäß Fig. 1 in jedem beliebigen gegebenen Taktzyklus nur ein einziger Befehl in der Pipeline ausgeführt wird.

Wie bereits erörtert, stellt die Erfindung eine superska lare Maschine dar, welche in der Lage ist, während eines Takt zyklus zwei Befehle parallel auszuführen. Um dieses Ziel zu er reichen, enthält die Erfindung zwei vollständige Pipelines, von welchen jede in der Lage ist, Befehle in einem einzigen Taktzy klus auszuführen. Folglich kann die CPU zwei Befehle parallel in zwei getrennten Pipelines ausgeben. Im gegenwärtig bevorzug ten Ausführungsbeispiel werden die Pipelines als "u"- und "v"-Pipe line bezeichnet. Vorzugsweise kann die u-Pipeline jeden Be fehl der x86-Architektur ausführen. Die v-Pipeline kann be stimmte einfache Befehle ausführen, die konkreter in einem spä teren Abschnitt der Beschreibung definiert werden.

Unter Bezugnahme auf Fig. 2 wird die Pipeline-Struktur der Erfindung dargestellt. Zu beachten ist, daß in der Pipeline-Se quenz gemäß Fig. 2 zwei Befehle, I1 und I2, so dargestellt sind, daß sie in jeder Stufe der Pipeline in einem einzigen Taktzyklus ausgeführt werden. Wiederum ist die erste Stufe der Pipeline die Vor-Heranhol-Stufe, in deren Zeit Befehle von dem On-Chip-Cache herangeholt werden. Weil der erfindungsgemäße Mi kroprozessor separate Cache-Speicher für Befehle und für Daten aufweist, steht das Vor-Heranholen nicht länger im Widerspruch zu den Datenreferenzen für einen Zugriff auf den Cache, wie das bei bekannten CPU's der Fall war. Dies bedeutet, daß während der Vor-Heranhol-Stufe die Befehle I1 und I2 direkt aus dem Be fehls-Cache-Speicher herangeholt werden und in die u- und v-Pi pelines geladen werden. In der nächsten Pipeline-Stufe (d. h. D1) werden die Befehle I1 und I2 decodiert und ausgegeben.

Befehlsausgabe und Pipeline-Sequenzbildung

Wie bereits festgestellt, kann der erfindungsgemäße Mikro prozessor einen oder zwei Befehle in einem einzigen Taktzyklus ausgeben. Um zwei Befehle gleichzeitig auszugeben, müssen je doch beide Befehle des Paares bestimmte Bedingungen erfüllen. D.h., beide Befehle des Paares müssen in einem vordefinierten Teilsatz von Befehlen enthalten und frei von wechselseitigen Abhängigkeiten sein. (Dieser Aspekt der Erfindung soll kurz de taillierter diskutiert werden.)

Der Prozeß der parallelen Ausgabe von zwei Befehlen wird als "Befehls-Paarung" bezeichnet. Wenn Befehle gepaart werden, ist der zur v-Pipeline (zweite Pipeline) ausgegebene Befehl stets der in der Sequenz nächste Befehl nach dem zur u-Pipeline ausgegebenen Befehl. Obwohl die Befehle parallel ausgeführt werden können, ist das Verhalten aus der Sicht des Programmie rers exakt das gleiche, wie bei einer sequentiellen Ausführung (wie sie der Fall bei bekannten Konstruktionen wäre). Die Be fehle schreiten parallel durch die Stufen D2 und EX bis zu ih rem Abschluß in der Stufe WB voran. Es ist klar, daß während ihres Voranschreitens durch die Pipeline die Befehle aus einer beliebigen Anzahl von Gründen zum Stillstand gebracht werden können. Wenn beispielsweise ein Befehl in der u-Pipeline verzö gert wird, dann wird der mit ihm zur v-Pipeline ausgegebene Be fehl (sofern vorhanden) ebenfalls in der gleichen Pipeline- Stufe verzögert. Keinen nachfolgenden Befehlen wird es gestat tet, zu der zum Stillstand gebrachten Stufe einer der beiden Pipelines voranzuschreiten. Wenn ein Befehl in der v-Pipeline zum Stillstand gebracht wird, wird dem mit ihm in die u-Pipe line ausgegebenen Befehl gestattet, voranzuschreiten, während die v-Pipeline stillsteht.

Befehlspaarung

Die grundliegende Idee der Erfindung ist, daß das Computer- System eine Decodiereinrichtung enthält, welche nur dann zwei Befehle parallel ausgibt, wenn es zwischen ihnen keine Regi sterabhängigkeiten gibt und wenn beide Befehle zu einem Teil satz von Befehlen gehören, der für eine Parallelausführung ge eignet ist. Der Dual-Befehlsdecodierer identifiziert zuerst das Zielregister des ersten Befehls der Programmsequenz. Dieser Be fehl wird der u-Pipeline-Befehl. Dann bestimmt die erfindungs gemäße Einrichtung, ob der u-Pipeline-Befehl in irgendeiner Weise während der Ausführung des zweiten Befehls der Sequenz verwendet wird. Wenn dies nicht der Fall ist (d. h. die beiden Befehle unabhängig voneinander sind), dann werden beide Befehle parallel ausgegeben.

Wie bereits gesagt, enthält die erfindungsgemäße superska lare Maschine zwei parallele Pipelines (u- und v-Pipeline ge nannt), welche eine Parallelität innerhalb des vollständigen Befehlssatzes ausnutzen. Die Befehlseinheit des Mikroprozessors gibt stets den ersten Befehl der Befehlssequenz zur u-Pipeline und den zweiten Befehl zur v-Pipeline aus. Die v-Pipeline bleibt jedesmal dann stehen, wenn der Operand der u-Pipeline nicht zugreifbar ist oder es eine Adreßkollision zwischen den Pipelines gibt. Eine Paarung kann nur zwischen zwei Integer-Be fehlen oder zwei Gleitkomma-Befehlen auftreten.

Grundsätzlich können einfache Befehle solange gepaart wer den, wie zwischen ihnen keine Abhängigkeiten existieren. Um zwei Integer-Befehle gleichzeitig auszugeben, müssen entspre chend dem gegenwärtig bevorzugten Ausführungsbeispiel die fol genden Bedingungen erfüllt sein. Als erstes muß der Befehl zu einem vorgegebenen Teilsatz des x86-Befehlssatzes gehören. Der Befehlsteilsatz zum Paaren von Integer-Befehlen ist in der fol genden Tabelle 1 gezeigt.

Tabelle 1

(Man beachte, daß in Tabelle 1 der Eintrag "alu r, r" eine Klasse von Befehlen bezeichnet, die solche Befehle wie "add", "or", "adc", "sbb", "and", "xor", cmp" enthalten.)

Die Idee der Teilsatz-Bildung ist ein wichtiges Konzept der Erfindung, da sie radikal die Anzahl der möglichen Kombinatio nen verschiedener Befehle reduziert, die während der parallelen Ausführung zu handhaben wären. Das System erkennt, daß es einen kleinen Teilsatz von Befehlen (ungefähr 20) gibt, welche etwa 95% sämtlicher Befehle ausmachen, die durch typische Software ausgeführt werden. Eine Sammlung der am häufigsten verwendeten Befehle ist in der obigen Tabelle 1 aufgelistet. Die Verwendung der Teilsatz-Bildung bedeutet, daß der Dual-Befehlsdecodierer nicht den vollständigen Befehlssatz abzuarbeiten braucht. Im Gegenteil, seine Konstruktion kann vereinfacht werden, um die enthaltenen zeitlichen Relationen bedeutend zu verbessern. Die Verwendung der Teilsatz-Bildung gestattet auch der Maschine, schnell die zwei Befehle zu identifizieren, sie schnell zu de codieren und sie dann parallel auszuführen.

Die nächste wichtige Restriktion bei der parallelen Ausfüh rung von Befehlen ist, daß es keine Registerabhängigkeiten zwi schen den gepaarten Befehlen geben darf. Dies bedeutet, daß das Zielregister des ersten Befehls nicht als Quell-, Ziel-, Basis- oder Index-Register des nächsten Befehls verwendet werden kann. Dieses Erfordernis gilt für die explizite und implizite Verwen dung von Registern für die Befehle. (Es sei angemerkt, daß eine Ausnahme die Paarung der "push"- und "pop"-Befehle darstellt, für welche im gegenwärtig bevorzugten Ausführungsbeispiel eine spezielle Hardware in der Segmentierungseinheit existiert, wel che den Kellerspeicherzeiger aktualisiert.) Für die Überprüfung der Abhängigkeiten ist die Verwendung eines Teils des 16/32-Bit- Registers gleichbedeutend mit der Verwendung des gesamten Registers. Wenn es eine Speicherabhängigkeit zwischen den Be fehlen der u- und der v-Pipeline gibt, d. h. wenn sowohl die u- als auch die v-Pipeline Speicherzugriffe zur gleichen Bank/Adresse des Daten-Cache-Speichers ausführt, so wird der Zyklus der v-Pipeline im Gleichgewicht gehalten, bis der Zu griff der u-Pipeline beendet ist.

Andere, für die aktuelle Implementierung des Mikroprozes sors i586 charakteristische Restriktionen sind:

- Der Befehl der v-Pipeline darf keinen Präfix haben, mit Ausnahme von OF jcc.
- Die Ende-Bit-Marke im Befehls-Cache-Speicher, die dem er sten Befehl entspricht, muß geeignet gesetzt sein.
- Es sind ausreichend viele Befehlscode-Bytes in den Vor- Heranhole-Puffern vorhanden, um beide Befehle zu decodie ren.
- Ein Befehl in der u- oder v-Pipeline kann entweder eine Verschiebung oder einen Direktoperanden, aber nicht bei des aufweisen.
- adc- und sbb-Befehle sind in der v-Pipeline nicht erlaubt (um Abhängigkeiten vom Übertragsflag der u-Pipeline zu vermeiden).

Im folgenden wird auf Fig. 3 Bezug genommen, in der ein Blockdiagramm eines Dual-Befehlsdecodierers gezeigt ist, daß das breite Konzept der Erfindung veranschaulicht. In Fig. 3 werden die Befehlscodes der u-Pipeline und der v-Pipeline mit den Decodierern 12 bzw. 14 gekoppelt. Zusätzlich zur Kopplung mit dem Decodierer 12 wird der Befehlscode der u-Pipeline außerdem mit einem zusätzlichen Decodierer 13 gekoppelt. Die Decodierer 12, 13 und 14 sind gewöhnliche programmierbare Lo gikfelder (PLAs), welche sämtliche Decodierungen der Befehle ausführen. Beispielsweise erzeugt der Decodierer 12 den ersten Vektor des Mikrocodes für den Befehl der u-Pipeline, während der Decodierer 14 eine ähnliche PLA aufweist, welche dem ersten Vektor des Mikrocodes für den Befehl der v-Pipeline decodiert. Jeder der Mikrocodevektoren weist Felder auf, welche Informa tionen enthalten wie beispielsweise den Ort des Quellregisters, das Zielregister, ALU-Operationsinformationen, Adreßberechnun gen und Verschiebungs-Direktoperanden.

Natürlich ist das zentrale Merkmal der Erfindung, daß der in Fig. 3 dargestellte Dual-Decodierer in der Lage ist, entwe der einen oder zwei Befehle in einem einzigen Zyklus auszuge ben. Da das Ausführungsbeispiel der Erfindung in der Lage sein soll, sämtliche Befehle der x86-Befehlsfamilie zu bearbeiten, ist der Decodierer gemäß Fig. 3 in zwei Abschnitte oder Pfade geteilt. Ein Pfad ist in der Lage, sämtliche Befehle des x86-Be fehlssatzes zu handhaben, während der andere Pfad speziell darauf gerichtet ist, einen zweiten Befehl parallel zu handha ben. Mit anderen Worten: die vorliegende Erfindung enthält einen Operationsmodus, bei dem ein Befehl je Taktzyklus ausge führt wird, wenn die Bedingungen für eine superskalare Be triebsweise nicht erfüllt sind.

Im folgenden wird weiter auf Fig. 3 Bezug genommen. Die zwei Pipelines sind sehr ähnlich, ausgenommen der Tatsache, daß die u-Pipeline als standardmäßig vorgegebene Pipeline arbeitet, wenn die superskalaren Bedingungen nicht erfüllt sind. Dies be deutet, daß der Pfad der u-Pipeline in Fig. 3 zur Ausführung sämtlicher x86-Befehle in der Lage ist, wohingegen die v-Pipe line nur auf einen Teilsatz des vollständigen Befehlssatzes ge richtet ist. Zum Beispiel sind die Decodierer 13 und 14 spezi ell konstruiert, um nur einen Teilsatz des vollständigen x86-Be fehlssatzes zu decodieren. Auf der anderen Seite ist der De codierer 12 in der Lage, den vollständigen Befehlssatz zu deco dieren, wenn die Maschine standardmäßig einen Befehl pro Takt zyklus vorgibt. In einer Sequenz repräsentiert die u-Pipeline stets den ersten Befehl in der Sequenz und die v-Pipeline stets den zweiten Befehl in der gleichen Sequenz.

Das Überprüfen der Registerabhängigkeit wird durch die Ein heit 19 ausgeführt, welche Ausgangssignale aus den Decodierern 13 und 14 empfängt. Die Ausgangssignale der Decodierer 13 und 14 (welche mit der Einheit 19 gekoppelt sind) enthalten Infor mationen, welche das Zielregister des aktuellen Befehls anzei gen. In der Einheit 19 bestimmt herkömmliche Logik, ob eine Ab hängigkeit im Zielregister für jeden Befehl existiert, indem das Zielregister der u-Pipeline identifiziert wird und sicher gestellt wird, daß es nicht in dem Befehl der v-Pipeline ver wendet wird. In der gleichen Zeit, in der die Registerabhängig keitsüberprüfung ausgeführt wird, findet auch eine Längenkalku lation statt, welche durch die Einheit 17 ausgeführt wird. Mit anderen Worten: die Einheit 17 berechnet die Länge des Befehl spaars, d. h. die Summe der Befehle der u- und der v-Pipeline. Die Einheit 15 berechnet nur die Länge des Befehls der u-Pipe line.

Der Konzeption nach werden die Ausgänge der Einheiten 15 und 17 mit einem Multiplexer 21 gekoppelt, welcher die Länge des Befehls ausgibt. Der Multiplexer 21 wird durch ein Signal ISELTWO gesteuert, welches die von der Registerabhängigkeits-Überprüfungseinheit 19 ausgegebene Basisinformation "gib einen/zwei aus" zur Verfügung stellt. Das Signal "ISELTWO" ist das gleiche Signal, das verwendet wird, um durch Steuerung des Multiplexers 22 den Befehl der v-Pipeline bedingt auszuführen. Wenn die Registerabhängigkeitsüberprüfungseinheit 19 feststellt, daß nur ein Befehl ausgeführt werden kann, wird der Multiplexer 21 angesteuert, so daß die Befehlslänge gleich der jeweiligen Länge des Vektors der u-Pipeline ist. Wenn nur ein Befehl ausgegeben wird, wählt das Steuersignal ISELTWO in der v-Pipe line keine Operation ("nop") als durch den Multiplexer 22 auszugebende Operation aus. In einem solchen Fall kommt die Länge allein aus der u-Pipeline.

Wenn es keine Registerabhängigkeit gibt, können zwei Be fehle parallel ausgeführt werden. Für diese Bedingung wird die durch den Multiplexer 21 ausgegebene Befehlslänge so ausge wählt, daß sie gleich der berechneten Länge der Befehle der u- und v-Pipeline zusammen ist (d. h. der Ausgabe von Einheit 17). Unter dieser Bedingung sieht die Maschine das Paar im wesentli chen als einen langen Befehl. Wenn zwei Befehle parallel ausge führt werden, leitet der Multiplexer 22 einfach den Mikrocode vektor der v-Pipeline zum Ausgang des Multiplexers 22 durch. Die Informationen an den Ausgängen der Multiplexer 21 und 22 werden mit der Ausführungseinheit des Mikroprozessors gekop pelt. Die Ausführungseinheit enthält normalerweise die Adreßbe rechnungseinheit, die arithmetisch-logische Einheit (ALU), die Datenpfade, die Registerdateien usw.

Es sei betont, daß sämtliche durch den Dual-Befehlsdecodie rer gemäß Fig. 3 ausgeführten Operationen innerhalb eines Takt zyklus erfolgen. D.h., daß innerhalb eines einzigen Taktzyklus die Befehlscodes an die Eingänge des oberen Decodierers gekop pelt und die Vektoren von den Multiplexeinheiten zur Verfügung gestellt werden.

Paarbildungsbeispiele

Um die Erfindung besser verstehen und einschätzen zu kön nen, sollen folgende Beispiele von Befehlssequenzen betrachtet werden. Diese Sequenzen veranschaulichen auch die bereits erör terten wichtigen Paarungsregeln. (Zu beachten ist, daß in dem vorgesehenen Format der Zieloperand auf der linken Seite ist.)

Es wird das folgende Paar von einfachen Befehlen betrach tet.

mov edx, [ebx];
add esi, 4

Bei diesem Beispiel ist der erste Befehl in der Sequenz ein "mov"-Befehl, welcher durch die u-Pipeline verarbeitet wird. Das Zielregister des Befehls der u-Pipeline ist edx. Da edx in keiner Weise durch den Befehl "add" der v-Pipeline verwendet wird und darüberhinaus beide Befehle innerhalb des Befehlsteil satzes (siehe Tabelle 1) liegen, kann der Decodierer gemäß Fig. 3 beide parallel ausgeben.

Während der Ausführung ist der Befehlscode des ersten Be fehls (d. h. "mov") der Befehlscode der u-Pipeline, wohingegen "add" der Befehlscode der v-Pipeline ist. Der obere Decodierer 12 decodiert den Befehl "mov" und erzeugt einen u-Pipeline-Vek tor, welcher spezifiziert, daß das Zielregister edx ist. Der Decodierer spezifiziert außerdem, daß ein Speicherlesen erfor derlich ist, wobei die Adresse durch edx spezifiziert ist. Der Decodierer 12 identifiziert auch die Komponenten der Adreßbe rechnung und stellt fest, daß es ein Ein-Vektor-Makrobefehl ist. Zur gleichen Zeit sieht der Teilsatz-Decodierer 13 nach, ob "mov" innerhalb des Teilsatzes der Befehle liegt, die für eine Doppelausgabe geeignet sind. Der Decodierer 13 identifi ziert außerdem das Zielregister edx, welches durch die Regi sterabhängigkeitsüberprüfungseinheit 19 verwendet wird. Die Einheit 19 überprüft edx gegenüber esi und schlußfolgert, daß es sich nicht um die gleichen Register handelt.

Auf der Seite der v-Pipeline sieht der Decodierer 14 auf add esi und identifiziert esi als Zielregister (in diesem Bei spiel ist esi außerdem die Quelle). Der Decodierer 14 identifi ziert auch die Direktoperandenkomponente (d. h. 4), und die Ein heit 17 berechnet dann die Länge der zwei Befehle. Der "add"-Be fehl rückt dann in der v-Pipeline voran. Da beide Befehle einfache Befehle sind und es keine Abhängigkeiten zwischen ih nen gibt, können diese beiden Befehle folglich gepaart werden.

Als nächstes soll das folgende Paarungsbeispiel betrachtet werden.

mov edx, [ebx];
add edx, 4

In diesem Beispiel ist das Zielregister des u-Pipeline-Be fehls edx. Da dieses Zielregister außerdem im Befehl der v-Pi peline verwendet wird, stellt die Abhängigkeitsüberprüfungslo gik fest, daß beide Befehle nicht parallel ausgegeben werden dürfen. In diesem Fall wird der Befehl der u-Pipeline zuerst ausgegeben, während der Pfad der v-Pipeline untätig bleibt (d. h., die v-Pipeline gibt ein "nop" aus). Im folgenden Taktzy klus wird der "add"-Befehl in der u-Pipeline ausgeführt. Es ist klar, daß der während des nächsten Taktzyklus in der u-Pipeline ausgegebene add-Befehl gegebenenfalls parallel zu irgendeinem in der Sequenz folgenden Befehl ausgegeben werden kann. In dem Fall, daß beide Befehle parallel ausgegeben werden, wird der nächste Befehl in der Sequenz (der dem "add"-Befehl folgt) in der v-Pipeline ausgegeben.

Jetzt soll das folgende Beispiel betrachtet werden.

lds [ebx];
push eax

Bei diesem Beispiel ist der Ladebefehl "lds" nicht in dem Teilsatz von Befehlen enthalten, die für eine parallele Ausfüh rung geeignet sind (siehe Tabelle 1). Folglich wird der lds-Be fehl in der u-Pipeline ausgegeben, und in dem folgenden Taktzy klus wird der "push"-Befehl in der u-Pipeline ausgegeben. In diesem Fall identifiziert der obere Decodierer 13 der u-Pipe line den lds-Befehl als nicht dem geeigneten Teilsatz angehö rig. Dies ist der Fall, obwohl es keine Abhängigkeiten zwischen den beiden Befehlen gibt. Es ist wichtig zu beachten, daß der Befehlscode der v-Pipeline zum Befehlscode der u-Pipeline für den nächsten Taktzyklus wird, wenn zwei Befehle nicht parallel ausgegeben werden können. Der in der Sequenz nächste Befehl wird dann der v-Pipeline-Befehlscode.

Es ist klar, daß die spezielle Befehlsliste in dem Teilsatz von x86-Befehlen des gegenwärtig bevorzugten Ausführungsbei spiels in anderen alternativen Ausführungsbeispielen variieren kann. Gleichzeitig können verschiedene Ausführungsbeispiele eine Paarung von bestimmten Befehlen gestatten, für welche es eine implizite Abhängigkeit gibt, sofern eine spezielle Hard ware existiert, die ein paralleles Ausgeben und Ausführen bei der Befehle gestattet. Beispielsweise enthält das gegenwärtig bevorzugte Ausführungsbeispiel eine spezielle Hardware, welche es ihm gestattet, die folgenden Befehle parallel auszuführen:

cmp edx, 0;
jnz loop

Im obigen Beispiel enthält der Mikroprozessor spezielle Hardware, die ein paralleles Ausgeben und Ausführen dieser Be fehle gestattet, obwohl es eine implizite Abhängigkeit beim z-Flag gibt.

Beim Paaren von zwei Gleitkomma-Befehlen gelten die letzten drei der für die Integer-Befehlspaarung zusammen mit der Spei cherabhängigkeitsprüfung aufgelisteten Bedingungen im aktuellen Ausführungsbeispiel nicht. Der Grund dafür ist, daß Gleitkomma- Befehle keine Direktoperanden-Bytes haben. Auch ist eine Regi sterabhängigkeit zwischen den u-Pipeline-Befehlen und dem fxch- Befehl in der v-Pipeline erlaubt. Da fxch ein Register-Regi ster-Befehl ist, findet die Speicherabhängigkeit keine Anwen dung. Der Teilsatz von Gleitkommabefehlen, die in beiden Pipe lines gepaart werden können, ist für das gegenwärtig bevorzugte Ausführungsbeispiel unten in Tabelle 2 aufgelistet. Sämtliche Befehle sind Ein-Vektor-Befehle.

Tabelle 2

Im Rahmen des Erfindungsgedankens sind zahlreiche Alterna tiven und Modifikationen denkbar. Obwohl in dieser Beschreibung ein bestimmter Satz von zu erfüllenden Bindungen und Regeln ge zeigt wurde, können bei anderen Ausführungsbeispielen andere Bedingungen gelten.

Claims

1. Computersystem zum Abarbeiten eines Programms, das aus einer Sequenz von Befehlen aus einem Satz komplexer Be fehle unterschiedlicher Länge besteht, aufweisend:
eine erste (u) und eine zweite (v) Pipeline zum Ausfüh ren der Befehlssequenz, wobei gleichzeitig mehrere Befehle parallel ausgeführt werden können;
Befehlsdecodierer (12, 13, 14) zum Decodieren eines ersten und eines zweiten Befehls der Sequenz von Befehlen, um erste und zweite Mikrocodevektoren zum Ausführen in der ersten bzw. zweiten Pipeline zu erzeugen und zum Feststel len, ob der erste und zweite Befehl innerhalb eines vorgege benen Teilsatzes von normalerweise häufig ausgeführten Be fehlen des Befehlssatzes liegen;
eine Berechnungseinrichtung (15, 17) zum Berechnen einer ersten Länge des ersten Befehls und einer zweiten Länge des ersten plus des zweiten Befehls;
eine Einrichtung (19) zum Feststellen von Registerabhän gigkeiten zwischen dem ersten und dem zweiten Befehl und zum Erzeugen eines Signals (ISELTWO) bei fehlender Abhängigkeit;
einen ersten Multiplexer (21) zum Ausgeben einer Be fehlslänge, wobei die Länge des ersten plus des zweiten Be fehls ausgegeben wird, falls das Signal (ISELTWO) empfangen wird und der erste und der zweite Befehl sich innerhalb des vorgegebenen Teilsatzes befinden und wobei anderenfalls die Länge des ersten Befehls ausgegeben wird; und
einen zweiten Multiplexer (22) zum Ausgeben eines Microcodevektors an die zweite (v) Pipeline, wobei der zweite Microcodevektor ausgegeben wird, falls das Signal (ISELTWO) empfangen wird und der erste und der zweite Befehl sich innerhalb des vorgegebenen Teilsatzes befinden und wo bei anderenfalls keine Operation (NOP) an die zweite (v) Pipeline ausgegeben wird.

2. Computersystem nach Anspruch 1, dadurch gekennzeich net, daß der erste und der zweite Befehl innerhalb eines Taktzyklus des Computersystems ausgeführt werden, wenn das Signal (ISELTWO) von den Multiplexern (21, 22) empfangen wird und der erste und der zweite Befehl sich innerhalb des vorgegebenen Teilsatzes befinden.

3. Computersystem nach einem der Ansprüche 1 oder 2, da durch gekennzeichnet, daß die ersten und zweiten Befehle Ganzzahl-Befehle und/oder Gleitkomma-Befehle umfassen.

4. Computersystem nach einem der Ansprüche 1 bis 3, da durch gekennzeichnet, daß die Befehlsdecodierer einen ersten Decodierer (12) zum Decodieren des ersten Befehls und Er zeugen des ersten Mikrocodevektor und einen zweiten (14) und einen dritten (13) Decodierer aufweisen, wobei der dritte Decodierer (13) den ersten Befehl decodiert, und wobei der zweite Decodierer (14) den zweiten Befehl decodiert und den zweiten Mikrocodevektor erzeugt.

5. Computersystem nach Anspruch 4, dadurch gekennzeich net, daß die Einrichtung (19) zum Feststellen der Register abhängigkeiten eine mit dem zweiten (14) und dem dritten (13) Decodierer gekoppelte Schaltung zum Erzeugen des Sig nals (ISELTWO) aufweist.

6. Computersystem nach Anspruch 4 oder 5, dadurch ge kennzeichnet, daß der erste, der zweite und/oder der dritte Decodierer eine programmierbare logische Matrix aufweisen.

7. Computersystem nach einem der Ansprüche 1 bis 6, da durch gekennzeichnet, daß ein Befehls-Cache-Speicher zum Speichern des ersten und des zweiten Befehls vorgesehen ist.

8. Computersystem nach einem der Ansprüche 1 bis 7, da durch gekennzeichnet, daß der erste und der zweite Mi krocodevektor Informationen über Quellregister, Zielregister und die Adreßberechnung enthalten.