DE4302495A1

DE4302495A1 -

Info

Publication number: DE4302495A1
Application number: DE4302495A
Authority: DE
Inventors: Edward T Grochowski; Kenneth Shoemaker
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1992-02-06
Filing date: 1993-01-29
Publication date: 1993-08-12
Anticipated expiration: 2013-01-30
Also published as: US5586276A; US5450605A; HK127696A; SG45269A1; JPH06236268A; DE4302495C2; GB9300726D0; GB2263987B; GB2263987A

Description

Die Erfindung betrifft ein Computersystem, insbesondere ein Verfahren und eine Einrichtung zum Schaffen einer Ende-Bit- Marke, die es einem superskalaren Computer gestattet, aus einem Befehlsstrom gleichzeitig ein Paar von längenvariablen Befehlen zu verarbeiten.

Man ist ständig bestrebt, schneller arbeitende Computer herzustellen. Eine Möglichkeit hierzu bietet ein Computer, der Befehle schneller verarbeitet. Üblicherweise verarbeitet ein Computerprozessor die Befehle eines beliebigen Prozesses in se quentieller Reihenfolge, d. h. einen nach dem anderen. Folglich muß ein Befehl 1 verarbeitet oder zumindest mit seiner Verar beitung begonnen sein (der Befehl in die Pipeline eingegeben sein), bevor ein Befehl 2 gestartet werden kann. Wenn jedoch ein Computer zwei oder mehrere Befehle gleichzeitig abarbeiten kann, so ist er in der Lage, die Befehle insgesamt schneller zu verarbeiten. Dies kann durch die Schaffung eines Zentralprozes sors realisiert werden, der mehr als einen Verarbeitungspfad aufweist, und bei welchem die Befehle in den Verarbeitungspfa den gleichzeitig abgearbeitet werden. Ein Computer, der einen Prozessor mit zwei oder mehr Verarbeitungspfaden aufweist, wel che zum gleichzeitigen Verarbeiten der gleichen Art von seriell abgearbeiteten Maschinenbefehlen in der Lage ist, wird super skalarer Computer genannt.

Ein bei der Konstruktion jedes neuen Computers auftretendes Problem ist, daß ein solcher Computer - um kommerziell erfolg reich und für die Anwender von Interesse zu sein - eine Basis von Anwendungsprogrammen aufweisen muß, welche bei seiner Ein führung auf ihm abarbeitbar sind. Um diese Programme zur Verfü gung zu stellen, ist es am ökonomischsten, den neuen Computer so zu konstruieren, daß er mit den für frühere Computer oder Computerfamilien entworfenen Anwendungsprogrammen betrieben werden kann. Ein Beispiel für diese Konstruktionsweise sind die Computer, die die durch die Firma Intel Corporation hergestell ten Mikroprozessoren der Reihe der Mikroprozessoren 8086, 8088, 80186, 80286, 386 und i486 verwenden (im folgenden als die In tel-Mikroprozessoren bezeichnet).

Ein Problem beim Entwurf jedes neuen Prozessors, der unter Verwendung von Software für ältere Computer funktionieren soll, ist, daß die neue Maschine in der Lage sein muß, die Befehle dieser Software zu verstehen und zu verarbeiten. Die in den In tel-Mikroprozessoren verwendeten Befehle variieren in ihrer Länge von einem Byte bis zu 15 Bytes. Diese Befehle sind in den für die Intel-Mikroprozessoren vorhandenen Programmen angeord net, um in typischer sequentieller Reihenfolge behandelt zu werden.

Ein Weg zur Erhöhung der Geschwindigkeit von Computern ist das Pipelining, d. h. eine zeitliche Verschachtelung der Be fehle. Anstatt jeden Befehl bis zu seinem Abschluß zu bearbei ten und dann den nächsten Befehl zu beginnen, überlappen sich die Stufen der Ausführung eines Befehls, so daß kein Teil des Prozessors leer läuft, während eine andere Stufe ausgeführt wird. Die die Intel-Mikroprozessoren verwendenden Computer ver schachteln die Befehle zeitlich so, daß jede Stufe jedes Be fehls in einer Taktperiode verarbeitet wird. Im allgemeinen er fordert dies, daß ein Befehl von dort, wo er gespeichert ist, herangeholt wird, daß er decodiert wird, dann ausgeführt und schließlich die Ergebnisse der Ausführung zum Speichern für eine spätere Verwendung zurückgeschrieben werden. Die Schal tungsanordnung ist so konstruiert, daß die verschiedenen Stufen jeweils eine Taktperiode erfordern. Verschiedene Abschnitte des Prozessors führen während jeder Taktperiode jede der Stufen in der Pipeline an aufeinanderfolgenden Befehlen aus. Folglich holt während einer ersten Taktperiode ein Abschnitt des Com puters einen Befehl aus dem Speicher im voraus heran und rich tet ihn so aus, daß er zum Decodieren bereit ist. Während einer zweiten Taktperiode holt dieser Abschnitt des Computers den nächsten Befehl aus dem Speicher heran und richtet ihn so aus, daß er zum Decodieren in der dritten Taktperiode bereit ist.

Ein Decodierabschnitt des Prozessors führt die Decodierung des herangeholten ersten Befehls während der zweiten Taktperiode aus. Der Decodierabschnitt führt die Decodierung des herange holten zweiten Befehls während der dritten Taktperiode aus. Durch ein Pipelining der Befehle wird die gesamte Arbeitsge schwindigkeit signifikant erhöht.

Die Befehle werden über den Bus oder aus einem Cache-Spei cher als ein Strom von Bytes geliefert, in welchem kein Befehl von irgendeinem anderen differenzierbar ist. In einem Prozeß erscheinen (im allgemeinen) die Befehle in einer aufeinander folgenden Ordnung. Um die Computergeschwindigkeit aufrechtzuer halten, müssen die Befehle aus den Quellen in einer Taktperiode herangeholt werden. Dies bedeutet, daß das Ende des ersten Be fehls, dessen Länge unbekannt ist, in einer Taktperiode be stimmt werden muß, so daß der nächste Befehl während der näch sten Taktperiode ausgewählt werden kann. Um die Länge eines zu einer beliebigen Zeit verarbeiteten Befehls zu bestimmen, deco dierten frühere Intel-Mikroprozessoren zuerst den Befehl, um seinen Inhalt festzustellen. Wenn dies ausgeführt worden war, wurde die Länge des Befehls verarbeitet, und der Startpunkt für den nächsten Befehl in der Sequenz war bekannt und konnte zur Vor-Heranhol-Einheit zurückgekoppelt werden. Dies erzwang das Decodieren der Befehle in sämtlichen früheren Computern auf der Grundlage der Intel-Mikroprozessoren, die seriell betrieben wurden.

Da eine superskalare Maschine zumindest zwei Befehle gleichzeitig verarbeiten muß, muß sie zwei Befehle gleichzeitig decodieren. Um jedoch den Beginn eines zweiten Befehls aus dem verfügbaren Befehlsstrom auszuwählen, muß bekannt sein, wo ein erster Befehl endet. Doch nur durch Decodieren kann die Ma schine die Länge des ersten Befehls, und folglich den Beginn des zweiten Befehls erfahren. Der gesamte Zweck des superskala ren Computers, nämlich zwei Befehle zur gleichen Zeit zu verar beiten, ist vereitelt, wenn die Verarbeitung des zweiten Be fehls das Decodieren des ersten Befehls abwarten muß, bevor sie beginnen kann.

Folglich ist es eine Aufgabe der Erfindung, eine Anordnung zur Verfügung zu stellen, die es einem superskalaren Computer gestattet, gleichzeitig zwei Befehle unbekannter Länge zu ver arbeiten, welche in einer Sequenz ohne eine Differenzierung zwischen den Befehlen zur Verfügung gestellt werden. Diese An ordnung soll auch die Länge von Befehlen bestimmen, die von dem superskalaren Computer verarbeitet werden, ohne daß die Befehle zur Ausführung dieser Bestimmung jedesmal decodiert werden müs sen.

Zur Lösung dieser Aufgabe sieht die Erfindung eine Einrich tung mit den Merkmalen des Anspruchs 1 bzw. ein Verfahren mit den Merkmalen des Anspruchs 8 vor.

Vorteilhafte Aus- und Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Im folgenden wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher beschrieben. In der Zeichnung zeigen:

Fig. 1 ein Blockdiagramm einer Anordnung nach der Erfindung zum gleichzeitigen Verarbeiten von zwei Befehlen;

Fig. 2 eine detailliertere Beschreibung eines ersten Ab schnittes der Anordnung gemäß Fig. 1;

Fig. 3 eine detailliertere Beschreibung eines zweiten Ab schnittes der Anordnung gemäß Fig. 1;

Fig. 4 eine Veranschaulichung der Bit-Positionen innerhalb verschiedener Elemente der Anordnung gemäß Fig. 1 während des Betriebs;

Fig. 5 ein Ablaufdiagramm zur Veranschaulichung eines nach der Erfindung ausgeführten Verfahrens; und

Fig. 6A-C Details der Schaltungsanordnung zum Implementie ren der in Fig. 3 gezeigten Anordnung.

Einige Abschnitte der folgenden Figurenbeschreibung sind in Form von symbolischen Darstellungen von Operationen an Daten bits innerhalb eines Computerspeichers dargestellt. Diese Be schreibungen und Darstellungen sind die durch Fachleute auf dem Gebiet der Datenverarbeitung verwendeten Mittel, um am effek tivsten anderen Fachleuten das Wesen ihrer Arbeit mitzuteilen. Diese Operationen erfordern physikalische Manipulationen von physikalischen Größen. Gewöhnlich, aber nicht notwendigerweise nehmen diese Größen die Form elektrischer oder magnetischer Si gnale an, die gespeichert, übertragen, kombiniert, verglichen oder auf andere Weise manipuliert werden können. Prinzipiell aus Gründen der allgemeinen Verwendung hat es sich mit der Zeit als vorteilhaft erwiesen, diese Signale als Bits, Werte, Ele mente, Symbole, Zeichen, Terme, Nummern o. ä. zu bezeichnen. Es sei jedoch daran erinnert, daß all diese und ähnliche Ausdrücke geeigneten physikalischen Größen zugeordnet sein sollen und nur geeignete, für diese Größen verwendete Bezeichnungen sind.

Darüberhinaus werden die ausgeführten Manipulationen oft mals mit Ausdrücken, wie beispielsweise Addieren oder Verglei chen bezeichnet, welche im allgemeinen geistigen, durch einen Menschen ausgeführten Operationen zugeordnet werden. In den meisten Fällen jeder der hier beschriebenen Operationen, welche einen Teil der Erfindung bilden, ist eine solche Fähigkeit ei nes menschlichen Bedieners weder notwendig noch erwünscht; die Operationen sind Maschinenoperationen. In sämtlichen Fällen sollte der Unterschied zwischen den Verfahrensoperationen beim Betrieb eines Computers und dem Verfahren der Berechnung selbst berücksichtigt werden. Die Erfindung bezieht sich auf ein Ver fahren und eine Einrichtung für den Betrieb eines Computers bei der Verarbeitung elektrischer oder anderer (z. B. mechanischer, chemischer) physikalischer Signale, um andere gewünschte physi kalische Signale zu erzeugen.

Im folgenden wird auf Fig. 1 Bezug genommen, in der ein Blockdiagramm einer Anordnung 10 zum Ausführen der Erfindung gezeigt ist. Die Anordnung 10 enthält einen Cache-Speicher 12 zum Speichern der zuletzt verwendeten Befehle. Typischerweise wird ein solcher Cache-Speicher durch einen Zentralprozessor verwendet, um einen schnellen Zugriff auf Informationen ohne die Notwendigkeit des Zugriffs auf den Hauptspeicher zu ermög lichen. Bei der Schaltungsanordnung, mit welcher die Erfindung arbeitet, ist der Cache-Speicher 12 die übliche Quelle der durch den Zentralprozessor verwendeten Befehle, obwohl einige Befehle über den Systembus aus dem Hauptspeicher und Vor-Heran hol-Pufferspeichern ankommen. Da die Quelle der Informationen keinen Einfluß auf die Darlegung der Erfindung hat, ist nur der Cache-Speicher 12, als Quelle in Fig. 1 gezeigt. In einem bevor zugten Ausführungsbeispiel der Erfindung enthält der Cache- Speicher 8 KBit Speicher, der in Zeilen von jeweils 256 Bits Breite angeordnet ist. Eine Gesamtzahl von 256 Zeilen stellt eine ausreichende Speichermenge für diese Menge von Befehlsda ten zur Verfügung. Die Details des verwendeten speziellen Ca che-Speichers 12 sind für diese Erfindung nicht relevant und werden folglich in dieser Beschreibung nicht ausführlich erläu tert.

Zusätzlich zu dem zum Speichern von Befehlen verwendeten Cache-Speicher 12 verwendet die Anordnung einen Ende-Bit-Cache- Speicher 14. Der Ende-Bit-Cache-Speicher 14 wird verwendet, um Bits zu speichern, welche das Ende jedes Bytes von in dem Ca che-Speicher 12 gespeicherten Befehlsdaten zu kennzeichnen. Im bevorzugten Ausführungsbeispiel der Erfindung ist in dem Cache- Speicher 14 ein einzelnes Bit gespeichert, das das Ende eines Bytes eines in dem Cache-Speicher 12 gespeicherten Befehls kennzeichnet. Ein Beispiel des Musters der in dem Befehls-Ca che-Speicher 12 und dem Ende-Bit-Cache-Speicher 14 gespeicher ten Informationen ist in Fig. 4 gezeigt und wird anschließend detaillierter erörtert. Der Cache-Speicher 14 des bevorzugten Ausführungsbeispiels enthält die gleiche Anzahl von Zeilen (256) wie der Cache-Speicher 12, aber jede Zeile des Cache- Speichers 14 ist nur 32 Bit breit, da nur 32 Byte in einer 256- Bit-Zeile des Cache-Speichers 12 gespeichert werden können. Es ist möglich, in einem speziellen Computer Ende-Bits zu verwen den, welche eine andere Länge als die eines Bytes eines Spei chers anzeigen (beispielsweise ein Halbwort), wenn die andere Länge ein geeigneteres Maß für den speziellen Prozessor ist.

Jede Zeile des Befehls-Cache-Speichers 12 und die zugeord nete Zeile des Ende-Bit-Cache-Speichers 14 teilen sich die gleichen Tag-Bits, so daß die zugeordneten Zeilen beider Spei cher bei einem Zugriff gemeinsam von einem Treffer oder von ei nem Fehlversuch betroffen sind. Die in dem Cache-Speicher 14 gespeicherten Ende-Bits werden verwendet, um das Ende jedes in dem Cache-Speicher 12 sequentiell gespeicherten Befehls zu kennzeichnen, so daß eine Bestimmung der Länge jedes verarbei teten Befehls ausgeführt werden kann, bevor der Befehl deco diert wird. Auf diese Weise kann die Arbeitsrate eines super skalaren Computers aufrechterhalten werden, obwohl Befehle va riierender Länge ohne irgendeine Anzeige ihrer Länge bis zu ih rer Decodierung sequentiell in durch den Prozessor abgearbeiten Programmen erscheinen.

Die spezielle Zeile des Cache-Speichers 12, auf die wegen eines durch den Zentralprozessor zu verwendenden Befehls zuge griffen wurde, wird an einen Rotierer 15 und die zugeordnete Zeile von Bits aus dem Cache-Speicher 14 an einen Rotierer 16 geliefert. D.h., wenn auf die dritte Zeile des Cache-Speichers 12 wegen eines bestimmten Befehls zugegriffen wird, dann wird auch auf die dritte Zeile des Cache-Speichers 14 auf die den in der zugegriffenen Zeile des Cache-Speichers 12 gespeicherten Befehlen zugeordneten Ende-Bits zugegriffen. Die Mittel zum Zu greifen auf die Cache-Speicher sind bekannt und für die Erfin dung nicht relevant und werden folglich in der vorliegenden Be schreibung nicht näher erörtert. Es hält sich folglich für jede Zeile von Befehlscodes in dem Cache-Speicher 12 eine Zeile von Ende-Bits in dem Cache-Speicher 14 auf; und für jede aus dem Cache-Speicher 12 durch den Rotierer 15 übertragene Code-Zeile wird eine in dem Cache-Speicher 14 gespeicherte Zeile von Ende- Bits durch den Rotierer 16 übertragen.

Der Wert eines zuvor herangeholten Befehlszählers wird an jeden der Rotierer 15 und 16 geliefert, um den Beginn des er sten der beiden zu verarbeitenden Befehle auszuwählen und um den Anfang dieses ersten Befehls für eine Verarbeitung geeignet auszurichten. In ähnlicher Weise wählt der Wert des Befehlszäh lers das anfängliche Ende-Bit für den zu verarbeitenden Befehl aus und gleicht es ab. Dieser Befehlszählerwert wird aus der Berechnung der kombinierten Länge der letzten beiden verarbei teten Befehle gewönnen. Die Details einer Schaltung zur Erzeu gung der Werte eines Vor-Heranhol-Befehlszählers sind in der U.S.-Patentanmeldung mit dem Titel "Rotators in Length Calcula tion" von E. Grochowski u. a. beschrieben.

Ein Rotierer, welcher zum Ausführen der Zwecke des Rotie rers 15 verwendet werden kann, ist im Detail in der U.S.-Pa tentanmeldung mit dem Titel "Two Stage Window Multiplexers for Deriving Variable Length Instructions from a Stream Of Instruc tions" von E. Grochowski beschrieben. Diese Patentanmeldung be schreibt außerdem detailliert bekannte Rotierer, welche für die Rotierer 16 und 20 der vorliegenden Erfindung verwendet werden können. Der grundlegende Zweck der Rotierer 15 und 20 ist, eine Sequenz von Bytes zu gewinnen, die lang genug ist, um die ver arbeiteten Befehle zu enthalten und um diese Befehle so abglei chen zu können, daß der Beginn eines bestimmten zuerst zu ver arbeitenden Befehls in dem folgenden Verarbeitungskanal ist. Der Rotierer 16 führt die gleiche Rotation bei den das Ende je des Bytes in der zugeordneten Zeile kennzeichnenden Bits aus. Die ausgewählte Befehlszeile mit dem verarbeiteten und geeignet ausgerichteten Befehl wird von dem Rotierer 15 zu einem U-Pipe line-Befehlscode-Flip-Flop 18 zur Verarbeitung übertragen. Die U-Pipeline ist eine von zwei Verarbeitungskanälen, die in dem die Erfindung verwendenden superskalaren Computer verwendet werden. Der zweite Verarbeitungskanal ist als V-Pipeline be zeichnet. Der nach dem durch die U-Pipeline verarbeiteten Be fehl nächstfolgende Befehl wird an den V-Pipeline-Kanal in der folgenden Weise geliefert. Die Ende-Bits des Ende-Bit-Cache 14, die sich auf die von dem Rotierer 15 zu der U-Pipeline übertra genen Zeile von Befehlen beziehen, werden an eine Prioritäts schaltung 19 übertragen und durch den Rotierer 16 ausgerichtet. Wenn folglich eine Zeile von Befehlen, die an dem Beginn eines ersten 4-Byte-Befehls ausgerichtet ist, zu dem U-Pipeline-Flip- Flop 18 übertragen worden ist, werden die Ende-Bits ausgerich tet mit dem Beginn des ersten der vier Bits, die sich auf den 4-Byte-Befehl beziehen, zu der Prioritätsschaltung 19 übertra gen.

Die Prioritätsschaltung 19 wählt dann das erste Ende-Bit aus, welches auf Eins gesetzt ist. Um diese Operation auszufüh ren, kann die Prioritätsschaltung eine Reihe von UND-Gattern enthalten, jeweils eines für jedes der Ende-Bits, die durch den Rotierer 16 übertragen werden. Wenn jedes der aufeinanderfol genden UND-Gatter mit einer Eingabe von einer der aufeinander folgenden Bitpositionen der ausgerichteten Zeile von Ende-Bits beliefert wird, dann können die eine Eins als ein Ende-Bit emp fangenden Gatter zum Übertragen eines 1-Werts veranlaßt werden. Das erste dieser Ende-Bits wird ausgewählt, indem die UND-Gat ter als andere Eingangssignale das invertierte Eingangssignal von jedem nachfolgenden Ende-Bit in der Sequenz erhalten. Folg lich überträgt nur das erste einem Ende-Bit vom Wert 1 zugeord nete UND-Gatter einen Wert von 1. Das spezielle UND-Gatter der Prioritätsschaltung 19, das einen Wert 1 erzeugt, zeigt die Länge des Befehls in Bytes und das Ende des durch die U-Pipe line verarbeiteten Befehls an. Folglich zeigt dieser erste Wert von 1, wo der erste Befehl endet und der zweite beginnt und kann verwendet werden, um die Befehle zur Verarbeitung zu tei len. Eine Prioritätsschaltung, wie sie beschrieben wurde, ist in Fig. 2 dargestellt. Wie zu sehen sein wird, ist in der Schaltung 19 gemäß Fig. 2 der Ausgang 0 von der höchsten Prio rität, während der Ausgang 3 die niedrigste Priorität dar stellt.

Die durch die Prioritätsschaltung 19 erzeugten Ergebnisse werden dann verwendet, um einen dritten Rotierer 20 zu veran lassen, den durch den Rotierer 15 gelieferten Befehlsstrom zu rotieren, so daß das erste Byte des nächstfolgenden Befehls zur Verarbeitung durch den V-Pipeline-Kanal ausgerichtet wird. Die ser ausgerichtete Befehlsstrom wird zu einem V-Pipeline-Flip- Flop 22 übertragen, so daß der Befehl, welcher ausgerichtet ist, in der gleichen Zeit verarbeitet werden kann, in der der vorangegangene Befehl durch den U-Pipeline-Kanal verarbeitet wird. Vom U-Pipeline-Flip-Flop 18 wird der U-Pipeline-Befehl zu einem U-Pipeline-Decodierer 24 übertragen, wo er zur weiteren Verwendung decodiert wird. Von dem V-Pipeline-Flip-Flop 22 wird der V-Pipeline-Befehl zu einem V-Pipeline-Decodierer 25 über tragen, wo er zur weiteren Verwendung decodiert wird. Von die sem Punkt an schreiten die Befehle durch getrennte Verarbei tungskanäle in einer Weise voran, welche nicht Gegenstand die ser Beschreibung ist.

Jedoch wird die Länge des Befehls in dem U-Pipeline-Deco dierer 24 bestimmt, wenn der Befehl decodiert wird, und zu ei nem Komparator 27 übertragen. Die Einrichtung zum Ausführen dieser Bestimmung ist detailliert in der oben genannten U.S.- Patentanmeldung mit dem Titel "Rotators in Length Calculation" beschrieben. Der Komparator 27 empfängt außerdem von der Prio ritätsschaltung 19 über ein Ende-Bit-Flip-Flop 28 eine Anzeige der Länge, die bestimmt wurde durch die Prioritätsschaltung 19 beim Auswählen des ersten auf Eins gesetzten verfügbaren Ende- Bits in der Sequenz von ausgerichteten Bits aus dem Rotierer 16. Wie oben ausgeführt wurde, zeigte das spezielle UND-Gatter der Prioritätsschaltung 19, das einen Wert 1 erzeugte, die Länge des Befehls in Bytes an. Diese Längen werden verglichen. Wenn die überprüften Längen differieren, wird das Ergebnis des Vergleichs zu einem Ende-Bit-Generator 30 als Aufforderung zur Aktualisierung des speziellen Ende-Bits übertragen.

Der Ende-Bit-Generator 30 empfängt ein zweites Eingangssi gnal vom Befehlszähler, wie es auch an die Rotierer 15 und 16 geliefert wird, und speichert diesen Wert. Der Ende-Bit-Genera tor weiß somit, wo der durch die U-Pipeline verarbeitete Befehl beginnt. Außerdem empfängt der Generator den Längenwert aus dem Decodierer 24, so daß er die korrekte Länge des Befehls kennt. Folglich hat der Ende-Bit-Generator 30 die erforderlichen In formationen über den Befehl, für welchen die Ende-Bits in dem Cache-Speicher 14 korrigiert werden müssen. Die Korrektur der Ende-Bits in dem Cache-Speicher 14 wird dann während einer Zeit ausgeführt, welche unkritisch für die Verarbeitung der Daten ist.

Fig. 3 stellt eine Ende-Bit-Korrekturschaltung 30 im Detail dar. Die Schaltung 30 empfängt einen 6-Bit-Binärwert, der den Befehlszähler für den zu verarbeitenden Befehl der U-Pipeline anzeigt. Dieser Wert wird durch einen Decodierer 32 decodiert und zu einem Maskenvektorgenerator 33 als ein sequentieller 64- Bit-Vektor übertragen, in welchem nur die Bitposition des Be fehlszählers auf eine Eins gesetzt ist. Der 6-Bit-Wert des Be fehlszählers wird außerdem zu einem Addierer 34 übertragen, welcher einen binären 4-Bit-Wert empfängt, der die Länge des durch die Prioritäts-Schaltung 19 erzeugten Befehls anzeigt. Diese Werte werden addiert, um einen Wert zur Verfügung zu stellen, welcher auf das Ende des ersten Befehls zeigt und wel cher an einen zweiten Decodierer 35 gesendet wird. Der Decodie rer 35 erzeugt einen zweiten 64-Bit-Vektor, der eine Eins an der Position des korrekten Ende-Bits für den ersten Befehl hat.

Der durch den Decodierer 35 erzeugte 64-Bit-Vektor wird in einer Latch-Schaltung 37 gespeichert. Der Vektor wird außerdem als zweites Eingangssignal an den Maskenvektorgenerator 33 ge sendet. Der Maskenvektorgenerator 33 erzeugt einen 64-Bit-Vek tor, der als Maske zum Korrigieren der Ende-Bits verwendet wer den soll. Diese Maske speichert Nullen, beginnend mit der Bitpo sition, welche das Byte anzeigt, auf welches der Befehlszähler zeigt, und fortgesetzt bis zu der Bitposition, die das Byte an zeigt, vor dem der Befehl endet. Sämtliche anderen Bits sind auf Eins gesetzt. Dieses Ergebnis ist in dem Diagramm in Fig. 6A gezeigt.

Der Maskenvektorgenerator 33 kann durch 64 Stufen implemen tiert werden, von welchen eine in Fig. 6B dargestellt ist. Jede Stufe 50 empfängt ein Eingangssignal, welches eine der Bitposi tionen in dem durch den Decodierer 32 erzeugten Vektor anzeigt, ein zweites Eingangssignal, welches die gleiche Bitposition des durch den Decodierer 35 erzeugten Vektors anzeigt, und das Aus gangssignal der Stufe, die die Bits von den Vektoren in der Bitposition unmittelbar vor dieser Bitposition empfängt (die Stufe unmittelbar rechts davon). Die erste Stufe empfängt das Ausgangssignal der letzten Stufe 50 in der Sequenz. Wie man sieht, empfängt das UND-Gatter 52 den Wert des Bits an einer bestimmten Position aus dem durch den Decodierer 35 erzeugten Vektor und den invertierten Wert des Bits an der gleichen Posi tion in dem durch den Decodierer 32 erzeugten Vektor. Folglich erzeugt das UND-Gatter 52 eine Eins nur an der Bitposition, an welcher das Bit des Vektors aus dem Decodierer 35 einen Wert Eins hat. Diese Eins wird durch ein ODER-Gatter 54 zum Ausgang der Stufe 50 übertragen. Ein zweites UND-Gatter 56 empfängt in vertierte Eingangswerte einer bestimmten Bitposition von jedem der durch die Decodierer 32 und 35 erzeugten Vektoren und das Ausgangssignal der vorhergehenden Stufe 50. Das UND-Gatter 56 erzeugt einen Ausgabewert von Eins in einer Bitposition, an der die beiden Vektoren die Werte Null enthalten und wo die voran gegangene Stufe einen Wert Eins erzeugte. Es erzeugt einen Aus gangswert von Null an jeder Bitposition, an welcher die beiden Vektoren die Werte Null halten und die vorhergehende Stufe einen Wert Null erzeugte. Das Gatter 56 erzeugt ebenfalls einen Ausgangswert von Null, wo die Bits der beiden Vektoren aus den Dedodierern differieren. Die durch das Gatter 56 erzeugten Eins-Werte werden ebenfalls durch das ODER-Gatter 54 zu den Ausgängen der Stufe übertragen.

Folglich ist zu sehen, daß beginnend mit der Stufe, an wel cher der Befehlszählervektor aus dem Decodierer 32 einen Wert Eins hält, das Ausgangssignal des Maskenvektorgenerators 33 einen Wert Null hat. Eine Ausgabe von Null wird an jeder nach folgenden Stufe erzeugt bis zu der Stufe, an welcher der Vektor aus dem Decodierer 35, der das Ende des Befehls anzeigt, eine Eins ist. Diese Stufe und alle nachfolgenden Stufen sowie um laufend alle Stufen vom Beginn der Maske bis zu der Stufe 50 unmittelbar vor der Stufe 50, welche den Beginn des Befehls markiert, erzeugen Werte von 1.

Dieser Masken-Bit-Vektor wird in einer Latch-Schaltung 39 zwischengespeichert. Der Maskenvektorgenerator 33 zeigt außer dem an, ob der Befehl umläuft und zwei Cache-Zeilen überspannt, so daß er zwei Cache-Schreiboperationen zum Ausführen der Kor rektur erfordert. Dies kann festgestellt werden, indem bestimmt wird, ob das vom Decodierer 35 gelieferte korrekte Ende-Bit dem Befehlszähler-Bit in der Sequenz der Bits vorangeht. In Fig. 6C ist außerdem eine Schaltung 60 dargestellt, welche dieses Er gebnis erzeugt. Die Schaltung 60 enthält ein Zählerpaar 60 und 61, welches die Bitpositionen bis zu der Eins in jedem Vektor zählt, und einen Komparator 63 zum Feststellen, ob der Vektor aus dem Decodierer oder jener aus dem Decodierer 35 größer ist.

Jedes Bit der Maske in der Latch-Schaltung 39 wird bei den UND-Gattern 41 mit jedem der Bits aus der in dem Ende-Bit-Cache 14 gespeicherten alten Zeile UND-verkoppelt. Da die Maske Ein sen in sämtlichen Positionen mit Ausnahme jener Bits, die den Befehl von seinem Beginn bis zu seinem vorletzten Byte definie ren, enthält, wird jedes Bit der alten Ende-Bit-Cache-Zeile re produziert mit Ausnahme der Bits, die den Befehl bis zu seinem vorletzten Byte anzeigen. Jedes der Bits des durch jedes der UND-Gatter 41 erzeugten Bit-Vektors wird dann durch eine Reihe von ODER-Gattern 42 ODER-verkoppelt, wobei der Bitvektor in der Latch-Schaltung 37 gehalten wird. Da dieser Vektor eine Eins nur in der Bitposition enthält, die das korrekte letzte Byte des ersten Befehls anzeigt, hat der aus dem ODER-Gatter 42 re sultierende Bitvektor an allen Bitpositionen der alten Cache- Zeile entsprechende Einsen oder Nullen mit Ausnahme der Bits, die die Bytes des ersten Befehls anzeigen. Sämtliche Bits, die die Bytes des ersten Befehls vom Beginn bis zum vorletzten Byte anzeigen, sind gleich Null, während das letzte Bit eine Eins ist. Dieser Bitvektor kann dann eingeschrieben werden, um die alte Zeile in dem Ende-Bit-Cache 14 zu ersetzen. Sofern erfor derlich, kann die Operation für eine zweite Cache-Zeile wieder holt werden, wenn der Befehl zwei Cache-Zeilen überspannt.

Wenn der Vergleich durch die Vergleichsschaltung 27 gemäß Fig. 2 ausgeführt wird und ein ungültiges Ergebnis gewonnen wird (die Längen ungleich sind), wird das ungültige Ergebnis außerdem zum V-Pipeline-Kanal gesendet, um die Verarbeitung des zweiten der beiden Befehle durch den V-Pipeline-Kanal zu sper ren. Auf diese Weise wird der unkorrekt in dem Rotierer 20 aus gerichtete Befehl einfach verworfen, während die Verarbeitung des Befehls im U-Pipeline-Kanal in der normalen Weise fortge setzt wird. Es sei angemerkt, daß der neue Befehlszähler durch Addieren der korrekten Längen für jeden durch den U-Pipeline- und den V-Pipeline-Kanal verarbeiteten Befehl gewonnen wird. Wenn der V-Pipeline-Kanal infolge eines für den Befehl in dem U-Pipeline-Kanal unkorrekt gesetzten Ende-Bits gesperrt wird, enthält der neue Befehlszähler nur die Länge des ersten Be fehls. Folglich wird der abgebrochene Befehl der nächste durch den U-Pipeline-Kanal abzuarbeitende Befehl.

Um ein anfängliches Ende-Bit für jeden in den Cache-Spei cher 12 gespeicherten Befehl zu erhalten, wird jedes Ende-Bit jedes Bytes eines neuen Befehls auf Eins gesetzt, wenn der Be fehl in den Cache-Speicher 12 eingesetzt wird. Für den Fachmann ist es klar, daß somit jeder Einzelbytebefehl, wenn er das er ste Mal in den Cache-Speicher 12 plaziert wird, ein korrekt ge setztes Ende-Bit aufweist, das anzeigt, daß er ein 1-Byte-Be fehl ist. Jedoch sind bei sämtlichen Befehlen, die länger als ein Byte sind, die Ende-Bits sämtlicher Bytes gesetzt, was zu einer unkorrekten Anzeige der Länge des Befehls führt. Folglich ist, wenn auf einen in dem Cache-Speicher 12 gespeicherten Be fehl das erste Mal zugegriffen wird, seine Länge unkorrekt, es sei denn, er ist ein 1-Byte-Befehl. Folglich wird bei jedem Be fehl mit einer Länge von mehr als einem Byte sein Ende-Bit kor rigiert, wenn auf ihn das erste Mal zugegriffen wird, so daß das korrekte Ende-Bit anschließend angezeigt wird. Es wurde ge funden, daß beim Zugreifen von in dem Cache-Speicher 12 gespei cherten Befehlen eine Trefferrate von ungefähr 95% erreicht wurde, da während irgendeiner Periode, in welcher die Befehle verwendet werden, im allgemeinen die gleichen Befehle immer wieder benutzt werden. Da die Ende-Bits beim ersten Zugriff auf einen Befehl, nachdem er in den Cache-Speicher 12 versetzt wor den ist, korrekt gesetzt werden, sind die meisten Zugriffe des Cache-Speichers 12 zweite oder spätere Zugriffe. Folglich be wirkt die Notwendigkeit zur Korrektur des Ende-Bits beim ersten Zugriff eine sehr geringe Verzögerung innerhalb des Systems.

Fig. 4 ist ein Beispiel der in den einander zugeordneten Zeilen des Befehls-Cache-Speichers 12 und des Ende-Bit-Cache 14 enthaltenen Informationen. Wie zu sehen ist, beginnt ein erster Befehl beim Byte 02, was durch den Vor-Heranhol-Zeiger bzw. Be fehlszähler als 02 (hex) angezeigt wird. Dieser erste Befehl ist in den Bytes 02 bis 06 gespeichert. Das Ende des ersten Be fehls im Byte 06 ist durch eine binäre Eins im Bit 06 des Ende- Bit-Cache angezeigt. Der Befehlscode des ersten Befehls und der aktuelle Befehl sind in der Figur angezeigt. Der Befehlscode des zweiten Befehls beginnt beim Byte 07 der Befehls-Cache- Zeile und setzt sich fort, bis die nächste binäre Eins in dem Ende-Bit-Cache 14 an der zum Byte 0C in dem Befehls-Cache 12 äquivalenten Position auftritt. Der Befehlscode für den zweiten Befehl und der decodierte Befehl sind in der Figur gezeigt. Die Ende-Bits des ersten Befehls und die Position des nächsten Heranhol-Zeigers sind ebenfalls in der Figur gezeigt.

Fig. 5 listet der Reihe nach die Schritte der Operation zum Ausführen der Erfindung auf. Jeder dieser Schritte wurde oben detailliert erörtert. An den Stellen, an denen zwei Schritte in dem gleichen Kasten der Figur plaziert sind, werden diese Schritte parallel innerhalb der gleichen Taktperiode ausge führt.

Im Rahmen des Erfindungsgedankens sind zahlreiche Modifika tionen und Abänderungen möglich. Beispielsweise ist es klar, daß obwohl das bevorzugte Ausführungsbeispiel der Erfindung einen separaten Cache-Speicher zum Speichern der den Bytes je des Befehls zugeordneten Ende-Bits verwendet wird, diese Ende- Bits ebenso gut in dem Cache-Speicher 12 gespeichert werden können, indem die Länge des Cache-Speichers 12 erweitert wird, um zwischen jedem Byte der Befehlsdaten Raum für diese Bits zu schaffen.

Claims

1. Einrichtung zum Bestimmen der Länge eines von einem Com putersystem zu verarbeitenden Befehls, wobei die Befehle in der Länge variieren und sequentiell in einem Befehlsstrom ohne Dif ferenzierung erscheinen, gekennzeichnet durch:
Mittel (14), welche ein Ende-Bit für jede vorgegebene Länge eines Befehls zur Verfügung stellen, um anzuzeigen, daß der Be fehl an diesem Punkt seiner Länge endet;
Mittel (27, 30) zum Setzen des Ende-Bits an derjenigen vor gegebenen Länge des Befehls, welche das aktuelle Ende des Be fehls ist;
einen ersten Kanal (18, 24) zum Verarbeiten eines ersten Befehls in einer Sequenz;
einen zweiten Kanal (22, 25) zum Verarbeiten eines dem er sten Befehl unmittelbar folgenden Befehls; und
Mittel (16, 19, 28), zum Betrachten der Ende-Bits eines durch den ersten Kanal verarbeiteten Befehls und zum Bestimmen des Endpunkts dieses Befehls und des Beginns des nächsten Be fehls aus dem Befehlsstrom.

2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die das Ende-Bit zur Verfügung stellenden Mittel einen ersten Cache-Speicher (14) zum Speichern von Ende-Bits und einen Be fehls-Cache-Speicher (12) zum Speichern der zu verarbeitenden Befehle, welchen die Ende-Bits in dem ersten Cache-Speicher (14) zugeordnet sind, aufweisen.

3. Einrichtung nach Anspruch 1 oder 2, dadurch gekennzeich net, daß ferner Mittel (20) vorgesehen sind, die auf den von den Betrachtungsmitteln (16, 19) bestimmten Beginn des nächsten Befehls aus dem Befehlsstrom antworten, um einen nächsten Be fehl zur Verarbeitung durch den zweiten Kanal (22, 25) zur Ver fügung zu stellen.

4. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Mittel zum Setzen des Ende-Bits Mittel (24) zum Bestimmen der Länge eines Befehls nach dessen Decodie rung, Mittel (27) zum Vergleichen der aktuellen Länge mit der von den Betrachtungsmitteln (16, 19, 28) gelieferten Länge und Mittel (30) zum Rücksetzen eines Ende-Bits, das nicht die aktu elle Länge eines Befehls repräsentiert, aufweisen.

5. Einrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Betrachtungsmittel (16, 19, 28) Rotationsmittel (16) zum Ausrichten der Ende-Bits eines Befehlsstroms mit dem ersten Byte eines zu verarbeitenden Befehls und Mittel (19) zum Aus wählen des ersten auf Eins gesetzten Ende-Bits aus den ausge richteten Bits aufweisen.

6. Einrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die Rotationsmittel (16) auf einen Befehlszeiger ansprechen, um die Ende-Bits auszurichten.

7. Einrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die vorgegebene Länge des Befehls ein Byte ist.

8. Verfahren zum Bestimmen der Länge eines von einem Com putersystem zu verarbeitenden Befehls, bei dem die Befehle in der Länge variieren und sequentiell in einem Befehlsstrom ohne Differenzierung erscheinen, dadurch gekennzeichnet,
daß für jede vorgegebene Länge eines Befehls ein Ende-Bit zur Verfügung gestellt wird, um anzuzeigen, daß der Befehl an diesem Punkt in seiner Länge endet,
daß das Ende-Bit an einer vorgegebenen Länge des Befehls, welche das aktuelle Ende des Befehls ist, gesetzt wird,
daß ein erster Befehl in einer Sequenz mit Hilfe eines er sten Verarbeitungskanals verarbeitet wird,
daß ein dem ersten Befehl unmittelbar folgender Befehl mit Hilfe eines zweiten Verarbeitungskanals verarbeitet wird, und
daß die Ende-Bits eines durch den ersten Kanal zu verarbei tenden Befehls betrachtet werden, um den Endpunkt dieses Be fehls und den Beginn des nächsten Befehls aus dem Befehlsstrom zu bestimmen.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die Ende-Bits durch Speichern in einem Cache-Speicher zur Ver fügung gestellt werden, wobei jedes der Ende-Bits eine spe zielle Länge eines Befehls anzeigt, der in einem Cache-Speicher zum Speichern von zu verarbeitenden Befehlen gespeichert wird und dem die Ende-Bits in dem ersten Cache-Speicher zugeordnet sind.

10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeich net, daß ferner in Abhängigkeit von der Bestimmung des Beginns des nächsten Befehls aus dem Befehlsstrom ein nächster Befehl zur Verarbeitung durch den zweiten Kanal zur Verfügung gestellt wird.

11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß zum Setzen des Ende-Bits die Länge eines Befehls nach seiner Decodierung bestimmt, die aktuelle Länge mit der beim Schritt des Betrachtens der Ende-Bits zur Verfü gung gestellten Länge verglichen und ein Ende-Bit zurückgesetzt wird, welches nicht der aktuellen Länge des Befehls entspricht.

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß beim Betrachten der Ende-Bits die Ende-Bits eines Befehlsstroms mit dem ersten Byte eines zu verarbeitenden Befehls ausgerich tet und aus den ausgerichteten Ende-Bits das erste auf Eins ge setzte Ende-Bit ausgewählt wird.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Ende-Bits in Abhängigkeit von einem Befehlszeiger ausge richtet werden.

14. Verfahren nach einem der Ansprüche 8 bis 13, dadurch gekennzeichnet, daß als vorgegebene Länge des Befehls ein Byte verwendet wird.