DE69424626T2

DE69424626T2 - Parallele Datenverarbeitung in einem Einzelprozessor

Info

Publication number: DE69424626T2
Application number: DE69424626T
Authority: DE
Inventors: Ruby Bei-Loh Lee
Original assignee: Hewlett Packard Co
Current assignee: Hewlett Packard Development Co LP
Priority date: 1993-11-23
Filing date: 1994-07-05
Publication date: 2001-01-25
Anticipated expiration: 2014-07-06
Also published as: EP0924601A2; EP0924601B1; US5636351A; EP0654733B1; EP0924601A3; DE69428466T2; JPH07200260A; EP0654733A1; DE69428466D1; JP3578502B2; DE69424626D1

Description

Die vorliegende Erfindung bezieht sich auf die parallele Datenverarbeitung in einem Einzelprozessorsystem.
Im allgemeinen führen Einzelprozessorsysteme Operationen mit zwei Operanden sequentiell durch. In einem 32-Bit-Computer beispielsweise hat jeder ganzzahlige Operand 32 Bit. In einem 64-Bit-Computer hat jeder ganzzahlige Operand 64 Bit. Somit addiert ein ganzzahliger "Addieren"-Befehl in einem 64-Bit-Computer zwei ganzzahlige 64-Bit-Operanden, um ein ganzzahliges 64-Bit-Ergebnis zu erzeugen. Bei den meisten pipelinemäßig angeordneten 64-Bit-Prozessoren benötigt ein 64-Bit-Addieren-Befehl einen Zyklus Ausführungszeit.
In vielen Fällen beträgt der einschlägige Bereich der Operanden 16 Bit oder weniger. Bei gegenwärtigen 32-Bit- und 64-Bit-Computern wird jedoch immer noch ein vollständiger Befehl benötigt, um eine Operation auf ein Paar von 16-Bit- Operanden durchzuführen. Somit ist die Anzahl von Ausführungszyklen, die erforderlich sind, um eine Operation auf zwei 16-Bit-Operanden durchzuführen, die gleiche wie die Anzahl der Ausführungszyklen, die benötigt werden, um die Operation auf 32-Bit-Operanden in einem 32-Bit-Computer oder auf zwei 64-Bit-Operanden in einem 64-Bit-Computer durchzuführen.
Im Stand der Technik erforderte eine parallele Datenverarbeitung die Wiederholung von Funktionseinheiten, wobei jede Funktionseinheit in der Lage ist, Daten mit der vollen Wortlänge handzuhaben. Es sei beispielsweise auf Michael Flynn, Very High-Speed Computing Systems. Proceedings of IEEE, Bd. 54, Nr. 12, Dezember 1966, Seiten 1.901 bis 1.909 verwiesen.
Die EP 0 395 348 A2 betrifft eine Vorrichtung für eine Mul ti-Gauge-Berechnung mit einer CPU, die vier unabhängige Verarbeitungseinheiten umfaßt, die gemeinsam einen Zugriff auf ein Befehls-Gauge, einen Cache-Speicher, eine Speicherverwaltungseinheit und eine Speicherbusschnittstelle haben. Multiplizieren-Teilbefehle sind vorgesehen, die Bit- oder Halb-Wort-Multiplikanden mit einem gemeinsamen Multiplizierer multiplizieren und unabhängige Bit- oder Halb-Wort-Produkte zurückgeben. Jede Verarbeitungseinheit umfaßt einen 32-Bit-Multiplizierer, der in zwei unabhängige 16-Bit- oder vier unabhängige 8-Bit-Multiplizierer teilbar ist. Der Multiplizieren-Teilbefehl bildet einen vorzeichenbehafteten Multiplikanden von jedem der 4-Bit- oder zwei halben Wörter in einem Register B, wobei jedes Bit des Registers B mit einem Register A multipliziert wird. Jedes Bit oder Halbwort wird unabhängig multipliziert, und die Ergebnisse werden in den jeweiligen Bits oder Halbwörtern des Produktregisters gespeichert. Nur die höherwertigen 16 Bit des Registers A werden als Multiplizierer verwendet, während die niederwertigen 16 Bit des Registers A ignoriert werden.
Die GB 215 498 A und die GB 2 172 129 A beschreiben binäre Addierer und/oder Subtrahierer. In der EP 0 231 899 A ist eine Multipliziererarrayschaltung beschrieben.
Solche Implementationen einer Parallelverarbeitung sind jedoch sowohl bezüglich der erforderlichen Hardware als auch der Komplexität des Entwurfs signifikant teuer.

ZUSAMMENFASSUNG DER ERFINDUNG

Gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ein System präsentiert, das eine parallele Datenverarbeitung innerhalb eines Einzelprozessors ermöglicht. Um eine parallele Verarbeitung von Daten zu ermöglichen, wird eine arithmetisch-logische Einheit oder eine andere Operationen-ausführende Entität innerhalb des Verarbeitungssystems, wie z. B. eine Schiebeeinrichtung, parti tioniert. Innerhalb jeder Partition werden Operationen durchgeführt. Wenn die durchzuführende Operation sich auf Operanden mit einer vollen Wortlänge bezieht, ist keine Parallelverarbeitung vorhanden. Somit können Daten über Grenzen zwischen den Partitionen frei laufen. Wenn die Operation unter Verwendung einer Mehrzahl von Operanden, deren Wortlänge kleiner als die volle Wortlänge ist, durchgeführt wird, wird verhindert, daß die Daten über zumindest eine Grenze zwischen den Partitionen laufen.
Wenn die Operation beispielsweise eine Additionsoperation ist (z. B. eine Zweier-Komplement-Addition), führt jede der Mehrzahl von Partitionen eine Additionsoperation durch. Wenn die durchzuführende Addition sich auf Operanden mit der vollen Wortlänge bezieht, können Überträge zwischen den Partitionen laufen. Wenn die Additionsoperation auf eine Mehrzahl von Operandensätzen mit einer Wortlänge kleiner als der vollen Wortlänge parallel durchgeführt wird, kann ein Übertrag nicht über zumindest eine Grenze zwischen den Partitionen laufen.
Wenn auf ähnliche Art und Weise die Operation eine Verschiebung ist, führt jede der Mehrzahl von Partitionen eine Schiebeoperation durch. Wenn die Verschiebung mit Operanden mit der vollen Wortlänge durchgeführt werden soll, können die Verschiebungen zwischen den Partitionen durchgeführt werden. Wenn die Operation unter Verwendung einer Mehrzahl von Operanden mit einer Wortlänge kleiner als der vollen Wortlänge parallel durchgeführt wird, kann eine Verschiebung zumindest eine Grenze zwischen den Partitionen nicht kreuzen.
Ebenfalls gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung implementiert ein Multiplizierer sowohl eine Multiplikation von Multiplikanden, deren Länge gleich einem ganzen Wort ist, als auch eine parallele Multiplikation von Teilwort-Multiplikanden. Eine Schaltungsanordnung, beispielsweise ein Array von logischen UND-Gattern (oder ihren Äquivalenten), erzeugt Teilprodukte. Eine Teilprodukt-Summiererschaltungsanordnung summiert die Teilprodukte, um ein Ergebnis zu erzeugen. Eine Teilprodukt-Steuereinrichtung zwingt ansprechend auf die Auswahl einer parallelen Multiplikation von Teilwortmultiplikanden, daß ausgewählte Teilprodukte einen Wert von Null haben, wodurch eine Parallelmultiplikation von Teilwortmultiplikanden implementiert ist. Wenn der Multiplizierer eine Ganzwort-Multiplikation implementiert, wird keines der Teilprodukte zwangsweise dazu gebracht, einen Wert von Null zu haben. Die Teilprodukt-Steuereinrichtung kann beispielsweise unter Verwendung von dritten Eingängen zu zumindest einem Abschnitt der logischen UND-Gatter implementiert werden.
Die vorliegende Erfindung ermöglicht es, daß ein Einzelprozessorsystem leistungsmäßig deutlich verbessert wird, indem eine Parallelverarbeitung von Operationen ermöglicht wird, wenn die Operanden eine kleinere Länge als die gesamte Wortlänge haben. Diese günstige Verwendung eines Parallelismus resultiert in einer deutlichen Leistungszunahme für Berechnungen, die diesen Typ des Datenparallelismus verwenden können, ohne daß bedeutsame zusätzliche Kosten an Siliziumplatz auf einem Prozessorchip oder eine Komplexität im Entwurf hinzugefügt werden. Die vorliegende Erfindung ermöglicht es ferner, daß eine Parallelverarbeitung von Operationen, die von einem Prozessor durchgeführt werden, ansprechend auf einen einzigen Befehl durchgeführt wird.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 zeigt ein vereinfachtes Blockdiagramm eines Operationsausführungsdatenwegs innerhalb eines Prozessors gemäß bevorzugten Ausführungsbeispielen der vorliegenden Erfindung.
Fig. 2 zeigt ein vereinfachtes Blockdiagramm einer arithmetisch-logischen Einheit (ALU), die in Fig. 1 ge zeigt ist, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 3 zeigt eine Implementation eines Zweier-Komplement- Addierers innerhalb der ALU, die in Fig. 2 gezeigt ist, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 4 zeigt ein anderes vereinfachtes Blockdiagramm der arithmetisch-logischen Einheit (ALU), die in Fig. 1 gezeigt ist, gemäß einem anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 5 zeigt ein weiteres anderes vereinfachtes Blockdiagramm der arithmetisch-logischen Einheit (ALU), die in Fig. 1 gezeigt ist, gemäß einem weiteren anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 6 zeigt eine Implementation einer Schiebeeinrichtung, die in Fig. 1 gezeigt ist, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 7 zeigt einen Multiplizierer gemäß dem Stand der Technik.
Fig. 8 zeigen einen Multiplizierer, der gemäß bevorzugten und 9 Ausführungsbeispielen der vorliegenden Erfindung implementiert ist.
Fig. 10 zeigt eine Implementation eines Übertrag-Vorausgriff-Addierers ("Carry Look-Ahead Adder") innerhalb der ALU, die in Fig. 1 gezeigt ist, gemäß einem anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 11 zeigt ein Beispiel für ein Befehlslayout gemäß einem anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE

Fig. 1 zeigt ein vereinfachtes Blockdiagramm eines Operationsausführungsdatenwegs innerhalb eines Prozessors gemäß bevorzugten Ausführungsbeispielen der vorliegenden Erfindung. Operanden für anstehende Operationen und Ergebnisse von durchgeführten Operationen werden in allgemeinen Registern 25 gespeichert. Wenn Operationen durchgeführt werden, wird ein erster Operand, der in einem ersten Register innerhalb der allgemeinen Register 25 gespeichert ist, auf einem ersten Quellenbus 21 plaziert. Wenn die Operation einen weiteren Operanden erfordert, wird ein zweiter Operand, der in einem zweiten Register innerhalb der allgemeinen Register 25 gespeichert ist, auf einem zweiten Quellenbus 22 plaziert.
Nach einer Durchführung der Operation wird das Ergebnis auf einem Ergebnisbus 23 plaziert und in ein Register innerhalb der allgemeinen Register 25 geladen. Die Operation wird durch eine arithmetisch-logische Einheit (ALU) 26 oder 'durch eine Schiebeeinrichtung 29 durchgeführt. Eine Vorschiebeeinrichtung 27 und eine Komplementen-Schaltungsanordnung 28 können jeweils dazu verwendet werden, Operanden zu modifizieren, bevor sie von der ALU 26 empfangen werden. Für einen allgemeinen Hintergrund bezüglich der Architektur von Einzelprozessorsystemen, die ähnlich zu der vorliegenden Erfindung aufgebaut sind, sei beispielsweise auf Ruby B. Lee, Precision Architecture, IEEE Computer, Bd. 22, Nr. 1, Januar 1989, Seiten 78 bis 91, verwiesen.
Gemäß den bevorzugten Ausführungsbeispielen der vorliegenden Erfindung kann die ALU partitioniert sein, um eine parallele Datenverarbeitung zu ermöglichen. Beispielsweise zeigt Fig. 2 eine ALU 26, die in zwei Partitionen geteilt ist. Eine erste Partition 41 führt Operationen auf niederwertige Bits 42 eines ersten Operanden und auf niederwertige Bits 43 eines zweiten Operanden durch, um Ergebnisse 44 für die niederwertigen Bits zu erzeugen. Eine zweite Partition 51 führt Operationen mit höherwertigen Bits 52 des ersten Operanden und höherwertigen Bits 53 des zweiten Operanden durch, um Ergebnisse 54 für die höherwertigen Bits zu erzeugen.
Ansprechend auf eine Steuereingabe 49 wird eine Auswahleinrichtung 50 verwendet, um es zu ermöglichen, daß Informationen auf dem Datenweg 45 von der ersten Partition 41 zu der zweiten Partition 51 laufen können, oder daß Informationen auf dem Datenweg 45 abgefangen werden, bevor sie von der ersten Partition 41 zu der zweiten Partition 51 laufen. Insbesondere können bei arithmetischen Operationen, die auf Voll-Wort-Operanden durchgeführt werden, Informationen von der ersten Partition 41 durch die Auswahleinrichtung 50 zu der zweiten Partition 51 laufen. Für das Durchführen von parallelen arithmetischen Operationen auf Halb-Wort-Operanden verhindert die Auswahleinrichtung 50, daß Informationen von der ersten Partition 41 zu der zweiten Partition 51 laufen können. Im allgemeinen existiert bei Logikoperationen kein Laufen von Informationen von der ersten Partition 41 zu der zweiten Partition 51.
In einem Computer beispielsweise, der einen Datenweg mit einer Breite von 32 Bit hat, hat jeder Voll-Wort-Operand 32 Bit. Wenn daher Operationen unter Verwendung von 32-Bit- Voll-Wort-Operanden durchgeführt werden, ermöglicht es die Auswahleinrichtung 50, daß Informationen von der ersten Partition 41 durch die Auswahleinrichtung 50 zu der zweiten Partition 51 laufen können. Wenn zwei parallele Operationen unter Verwendung von 16-Bit-Halbwort-Operanden durchgeführt werden, verhindert die Auswahleinrichtung 50, daß Informationen von der ersten Partition 41 durch die Auswahleinrichtung 50 zu der zweiten Partition 51 laufen. Statt dessen wird der Wert auf einer Leitung 59 zu der Partition 51 weitergeleitet. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf die Eingangsleitung 59 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf die Eingangsleitung 59 plaziert.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist eine übliche arithmetische Operation, die von der ALU 26 durchgeführt wird, die in Fig. 1 gezeigt ist, eine Zweierkomplementaddition. Wie es für Fachleute klar ist, implementiert die Verwendung einer Zweierkomplementschaltungsanordnung 28, um ein Zweierkomplement auf einen Operanden durchzuführen, bevor eine Zweierkomplementadditionsoperation in der ALU durchgeführt wird, eine Zweierkomplementsubtraktion. Ferner implementiert die Verwendung einer Vorschiebeeinrichtung 27, um einen Operanden vorzuschieben, bevor eine Zweierkomplementadditionsoperation in der ALU durchgeführt wird, eine Verschieben-und-Addieren- Operation.
Fig. 3 zeigt eine Implementation eines Zweierkomplementaddierers mit einer Übertrag-Ausbreiten-Addition innerhalb der ALU 26 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Alternativ umfaßt die ALU 26 einen Zweierkomplementaddierer mit Übertrag-Vorausgriff. Ein Halbaddierer 60 empfängt ein einzelnes Bit X&sub0; eines ersten Operanden und ein einzelnes Bit Y&sub0; eines zweiten Operanden. Der Halbaddierer 60 erzeugt ein Summenbit 20 und ein Übertragbit C&sub0;. Ein Volladdierer 61 empfängt ein einzelnes Bit X&sub1; des ersten Operanden, ein einzelnes Bit Y&sub1; des zweiten Operanden und das Übertragbit C&sub0;. Der Volladdierer 61 erzeugt ein Summenbit Z&sub1; und ein Übertragbit C&sub1;. Ein Volladdierer 65 empfängt ein einzelnes Bit Xi&submin;&sub1; des ersten Operanden, ein einzelnes Bit Yi-1 des zweiten Operanden und ein Übertragbit von einem vorherigen Addierer (d. h. Ci-2, nicht gezeigt). Der Volladdierer 65 erzeugt ein Summenbit 2i-1 und ein Übertragbit Ci-1. Ein Volladdierer 66 empfängt ein einzelnes Bit X&sub1; des ersten Operanden und ein einzelnes Bit Y&sub1; des zweiten Operanden. Abhängig von einem Wert eines Freigabe-Bits 49 empfängt der Volladdierer 66 ferner durch die Auswahleinrichtung 50 (oder eine äquivalente Logikschaltungsanordnung, wie es für Fachleute offensichtlich ist) das Übertragbit Ci-1. Der Volladdierer 66 erzeugt ein Summenbit 21 und ein Übertragbit C&sub1;. Ein Volladdierer 69 empfängt ein einzelnes Bit des ersten Operanden, ein einzelnes Bit des zweiten Operanden und ein tibertragbit von einem vorherigen Addierer (nicht gezeigt). Der Volladdierer 69 erzeugt ein Summenbit Zi-1 und ein Übertragbit Cj-1.
Bei dem Ausführungsbeispiel des Addierers, der in Fig. 3 gezeigt ist, ist "j" die Größe des Datenwegs und die Bitlänge von Vollwortoperationen. Ferner ist "i" gleich "j" geteilt durch 2. Beispielsweise ist "j" gleich 32 und "i" gleich 16.
Die Auswahleinrichtung 50 ist ebenfalls in Fig. 3 gezeigt. Wenn Operationen unter Verwendung von "j"-Bit Vollwortoperanden durchgeführt werden, ist das Freigabebit 49 gleich einer logischen Eins und ermöglicht es, daß sich ein Übertrag durch die Auswahleinrichtung 50 zu dem Volladdierer 66 ausbreiten kann. Wenn zwei parallele Operationen unter Verwendung von "i"-Bit Halbwortoperanden durchgeführt werden, ist das Freigabebit 49 gleich einer logischen Null und verhindert es, daß sich der Übertrag durch die Auswahleinrichtung 50 zu dem Volladdierer 66 ausbreiten kann. Statt dessen wird der Wert auf der Leitung 59 zu dem Volladdierer 66 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Eingangsleitung 59 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Eingangsleitung 59 plaziert.
Während die Fig. 2 und 3 Implementationen der ALU 26 mit zwei Partitionen erörtern, kann eine ALU, die gemäß anderen bevorzugten Ausführungsbeispielen der vorliegenden Erfindung entworfen ist, verschiedene Partitionen haben. Beispielsweise zeigt Fig. 4 ein anderes vereinfachtes Blockdiagramm der ALU 26 gemäß einem anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. In Fig. 4 ist die ALU 26 in vier Partitionen geteilt. Eine erste Partition 71 führt Operationen auf niederwertige Bits 72 eines ersten Operanden und niederwertige Bits 73 eines zweiten Operanden durch, um Ergebnisse 74 für die niederwertigen Bits zu erzeugen. Eine zweite Partition 81 führt Operationen auf Bits 82 des ersten Operanden und Bits 83 des zweiten Operanden durch, um Ergebnis-Bits 84 zu erzeugen. Eine dritte Partition 91 führt Operationen auf Bits 92 des ersten Operanden und Bits 93 des zweiten Operanden durch, um Ergebnis-Bits 94 zu erzeugen. Eine vierte Partition 101 führt Operationen auf höherwertige Bits 102 des ersten Operanden und höherwertige Bits 103 des zweiten Operanden durch, um Ergebnisse 104 für höherwertige Bits zu erzeugen.
Ansprechend auf eine Steuereingabe 79 wird eine Auswahleinrichtung 80 verwendet, um es zu ermöglichen, daß Informationen auf dem Datenweg 75 von der ersten Partition 71 zu der zweiten Partition 81 laufen können, oder um Informationen auf dem Datenweg 75 abzufangen, bevor sie von der ersten Partition 71 zu der zweiten Partition 81 laufen können. Insbesondere können für arithmetische Operationen, die auf Voll-Wort-Operanden oder Halb-Wort-Operanden durchgeführt werden, Informationen von der ersten Partition 71 durch die Auswahleinrichtung 80 zu der zweiten Partition 81 laufen. Für das Durchführen von parallelen arithmetischen Operationen auf Viertel-Wort-Operanden verhindert die Auswahleinrichtung 80, daß Informationen von der ersten Partition 71 zu der zweiten Partition 81 laufen. Statt dessen wird der Wert auf einer Leitung 88 zu der Partition 81 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 88 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 88 plaziert. Im allgemeinen existiert bei Logikoperationen keine Ausbreitung von Informationen zwischen Partitionen.
Ansprechend auf eine Steuereingabe 89 wird die Auswahleinrichtung 90 dazu verwendet, Informationen auf dem Datenweg 85 von der zweiten Partition 81 zu der dritten Partition 91 laufen zu lassen, oder um Informationen auf dem Datenweg 85 abzufangen, bevor sie von der zweiten Partition 81 zu der dritten Partition 91 laufen können. Insbesondere können für arithmetische Operationen, die auf Voll-Wort-Operanden durchgeführt werden, Informationen von der zweiten Partition 81 durch die Auswahleinrichtung 90 zu der dritten Partition 91 laufen. Für die Durchführung von parallelen arithmetischen Operationen auf Viertel-Wort-Operanden oder Halb- Wort-Operanden verhindert die Auswahleinrichtung 90, daß Informationen von der zweiten Partition 81 zu der dritten Partition 91 laufen können. Statt dessen wird der Wert auf einer Leitung 98 zu der Partition 91 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 98 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 98 plaziert.
Ansprechend auf eine Steuereingabe 99 wird die Auswahleinrichtung 100 dazu verwendet, Informationen auf dem Datenweg 95 von der dritten Partition 91 zu der vierten Partition 101 laufen zu lassen, oder um Informationen auf dem Datenweg 95 abzufangen, bevor sie von der dritten Partition 91 zu der vierten Partition 101 laufen können. Insbesondere können bei arithmetischen Operationen, die auf Voll-Wort-Operanden und Halb-Wort-Operanden durchgeführt werden, Informationen von der dritten Partition 91 durch die Auswahleinrichtung 100 zu der vierten Partition 101 laufen. Für das Durchführen von parallelen arithmetischen Operationen auf Viertel-Wort-Operanden verhindert die Auswahleinrichtung 100, daß Informationen von der dritten Partition 91 zu der vierten Partition 101 laufen können. Statt dessen wird der Wert auf einer Leitung 108 zu der Partition 101 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 108 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 108 plaziert.
In einem Computer beispielsweise, der einen Datenweg mit einer Breite von 64 Bit hat, hat jeder Voll-Wort-Operand 64 Bit. Wenn daher Operationen unter Verwendung von 64-Bit- Voll-Wort-Operanden durchgeführt werden, ermöglicht es die Auswahleinrichtung 80, daß Informationen von der ersten Partition 71 durch die Auswahleinrichtung 80 zu der zweiten Partition 81 laufen können, ermöglicht es die Auswahleinrichtung 90, daß Informationen von der zweiten Partition 81 durch die Auswahleinrichtung 90 zu der dritten Partition 91 laufen können, und ermöglicht es die Auswahleinrichtung 100, daß Informationen von der dritten Partition 91 durch die Auswahleinrichtung 100 zu der vierten Partition 101 laufen können. Wenn zwei parallele Operationen unter Verwendung von 32-Bit-Halbwort-Operanden durchgeführt werden, ermöglicht es die Auswahleinrichtung 80, daß Informationen von der ersten Partition 71 durch die Auswahleinrichtung 80 zu der zweiten Partition 81 laufen können, ermöglicht es die Auswahleinrichtung 90, daß Informationen von der zweiten Partition 81 durch die Auswahleinrichtung 90 zu der dritten Partition 91 laufen können, und ermöglicht es die Auswahleinrichtung 100, daß Informationen von der dritten Partition 91 durch die Auswahleinrichtung 100 zu der vierten Partition 101 laufen können. Wenn vier parallele Operationen unter Verwendung von 16-Bit-Viertelwort-Operanden durchgeführt werden, verhindert es die Auswahleinrichtung 80, daß Informationen von der ersten Partition 71 durch die Auswahleinrichtung 80 zu der zweiten Partition 81 laufen, verhindert es die Auswahleinrichtung 90, daß Informationen von der zweiten Partition 81 durch die Auswahleinrichtung 90 zu der dritten Partition 91 laufen, und verhindert es die Auswahleinrichtung 100, daß Informationen von der dritten Partition 91 durch die Auswahleinrichtung 100 zu der vierten Partition 101 laufen.
Fig. 5 zeigt ein weiteres anderes vereinfachtes Blockdiagramm einer ALU 26 gemäß einem weiteren anderen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. In Fig. 5 ist die ALU 26 in Partitionen geteilt, von denen jede eine Breite von einem Bit hat. Eine erste Partition 111 führt Operationen auf ein niederwertiges Bit 112 eines ersten Operanden und auf ein niederwertiges Bit 113 eines zweiten Operanden durch, um ein niederwertiges Ergebnis-Bit 114 zu erzeugen. Eine zweite Partition 121 führt Operationen auf ein Bit 122 des ersten Operanden und ein Bit 123 des zweiten Operanden durch, um ein Ergebnis-Bit 124 zu erzeugen. Eine Partition 131 führt Operationen auf ein Bit 132 des ersten Operanden und ein Bit 133 des zweiten Operanden durch, um ein Ergebnis-Bit 134 zu erzeugen. Eine Partition 141 führt Operationen auf ein Bit 142 des ersten Operanden und ein Bit 143 des zweiten Operanden durch, um ein Ergebnis-Bit 144 zu erzeugen. Eine Partition 151 führt Operationen auf ein hochwertiges Bit 152 des ersten Operanden und ein hochwertiges Bit 153 des zweiten Operanden durch, um ein hochwertiges Ergebnis-Bit 154 zu erzeugen.
Ansprechend auf eine Steuereingabe 119 wird eine Auswahleinrichtung 120 verwendet, um es zu ermöglichen, daß Informationen auf dem Datenweg 115 von der ersten Partition 111 zu der zweiten Partition 121 laufen, oder um Informationen auf dem Datenweg 115 abzufangen, bevor sie von der ersten Partition 111 zu der zweiten Partition 121 laufen. Wenn Daten abgefangen werden, wird der Wert auf einer Leitung 128 zu der Partition 121 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 128 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 128 plaziert.
Ansprechend auf eine Steuereingabe 129 wird eine Auswahleinrichtung 130 verwendet, um es zu ermöglichen, daß Informationen auf einem Datenweg von einer unmittelbar vorherigen Partition (nicht gezeigt) von der unmittelbar vorhergehenden Partition zu der Partition 131 laufen, oder um Informationen auf dem Datenweg von der unmittelbar vorherigen Partition abzufangen, bevor sie zu der Partition 131 laufen können. Wenn Daten abgefangen werden, wird der Wert auf einer Leitung 138 zu der Partition 131 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 138 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 138 plaziert.
Ansprechend auf eine Steuereingabe 139 wird eine Auswahleinrichtung 140 dazu verwendet, um es zu ermöglichen, daß Informationen auf dem Datenweg 135 von der Partition 131 zu einer Partition 141 laufen können, oder um Informationen auf dem Datenweg 135 abzufangen, bevor sie von der Partition 131 zu der Partition 141 laufen. Wenn Daten abgefangen werden, wird der Wert auf einer Leitung 148 zu der Partition 141 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 148 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 148 plaziert.
Ansprechend auf eine Steuereingabe 149 wird eine Auswahleinrichtung 150 verwendet, um es zu ermöglichen, daß Informationen auf einem Datenweg von einer unmittelbar vorhergehenden Partition (nicht gezeigt) von der unmittelbar vorhergehenden Partition zu der Partition 151 laufen, oder um Informationen auf dem Datenweg von der unmittelbar vorhergehenden Partition abzufangen, bevor sie zu der Partition 151 laufen können. Wenn Daten abgefangen werden, wird der Wert auf einer Leitung 158 zu der Partition 151 weitergereicht. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Leitung 158 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Leitung 158 plaziert.
Die Steuereingaben in die Auswahleinrichtungen können verwendet werden, um eine Parallelverarbeitung von Operanden mit variabler Länge zu ermöglichen. In einem Verarbeitungssystem mit einem Datenweg mit einer Breite von 64 Bit beispielsweise könnten die Steuereingaben ausgewählt werden, so daß eine Parallelverarbeitung von zwei 16-Bit- und vier 8-Bit-Arithmetikoperationen gleichzeitig durchgeführt werden. Zusätzlich könnte jede beliebige Bitkombination, die nicht mehr als die Wortgröße ergibt, verwendet werden. Beispielsweise kann ferner eine Parallalverarbeitung von arithmetischen Operationen mit 17 Bit, 3 Bit, 16 Bit, 12 Bit, 5 Bit und 11 Bit gleichzeitig durchgeführt werden.
Die oben erörterten Prinzipien beziehen sich auch auf einen Übertrag-Vorausgriff-Addierer, der in der Technik auch als "Carry-Look-Ahead"-Addierer bekannt ist. Beispielsweise zeigt Fig. 10 eine Implementation eines Zweierkomplement- Addierers mit Übertrag-Vorausgriff innerhalb der ALU 26 gemäß einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Eine Übertrag-Vorausgriffschaltung 470 erzeugt Überträge für den Addierer. Ein Halb-Addierer 460 empfängt ein einzelnes Bit X&sub0; eines ersten Operanden und ein einzelnes Bit Y&sub0; eines zweiten Operanden. Ein Halbaddierer 460 erzeugt ein Summenbit 20. Ein Volladdierer 461 empfängt ein einzelnes Bit X&sub1; des ersten Operanden, ein einzelnes Bit Y&sub1; des zweiten Operanden und ein Übertragbit C&sub0;. Ein Volladdierer 461 erzeugt ein Summenbit 21. Ein Volladdierer 165 empfängt ein einzelnes Bit Xi-1 des ersten Operanden, ein einzelnes Bit Yi-1 des zweiten Operanden und ein Übertragbit Ci-2. Ein Volladdierer 465 erzeugt ein Summenbit Zi-1. Ein Volladdierer 466 empfängt ein einzelnes Bit Xi des ersten Operanden, ein einzelnes Bit Y&sub1; des zweiten Operanden und ein Übertragbit Ci-1. Der Volladdierer 466 erzeugt ein Summenbit 21. Ein Volladdierer 469 empfängt ein einzelnes Bit Xj-1 des ersten Operanden, ein einzelnes Bit des zweiten Operanden und ein Übertragbit Cj-2. Ein Volladdierer 469 erzeugt ein Summenbit Zj-1.
Bei dem Ausführungsbeispiel des in Fig. 10 gezeigten Addierers ist "j" die Größe des Datenwegs und die Bitlänge von Vollwortoperationen. Ebenfalls ist "i" gleich "j" geteilt durch 2. Beispielsweise ist "j" gleich 32 und "i" gleich 16. Wenn alternativ j gleich 32 ist, kann i gleich einer Ganzzahl kleiner als 32 sein.
Wenn Operationen unter Verwendung von "j"-Bit-Vollwortoperanden durchgeführt werden, ist ein Freigabebit 452 gleich einer logischen Eins und ermöglicht es, daß sich alle Überträge ausbreiten können. Wenn zwei parallele Operationen unter Verwendung von "i"-Bit-Unterwortoperanden, die zwischen den Bits i und i+1 geteilt sind, durchgeführt werden, ist ein Freigabebit 452 gleich einer logischen Null und verhindert es, daß sich der Übertrag über die Grenze der Partition ausbreitet. Statt dessen wird der Wert auf der Leitung 451 als der Wert verwendet, der zu dem Volladdierer 466 weitergereicht wird. Wenn ein "Addieren" durchgeführt wird, wird eine logische Null auf der Eingangsleitung 451 plaziert. Wenn ein "Subtrahieren" durchgeführt wird, wird eine logische Eins auf der Eingangsleitung 451 plaziert.
Der Betrieb von Übertrag-Vorausgriff-Addierern ist in der Technik bekannt. Beispielsweise sei angenommen, daß A[i] ein Bit einer Eingabe ist, daß B[i] ein Bit der anderen Eingabe ist, und S[i] ein Bit der Summe von dem Addierer ist. Dann ist die Summe von einem Bit des Addierers durch die nachfolgende Gleichung 1 gegeben:
Gleichung 1
S[i] = A[i] XOR B[i] XOR C[i-1]
In Gleichung 1 ist C[i-1] der Übertrag aus den vorherigen Bits des Übertrag-Vorausgriff-Addierers. Der Übertrag-Vorausgriff-Addierer arbeitet beim Erzeugen dieser Übertragbits schnell.
Es sei G[i] ein Signal, das bezeichnet, daß ein Übertrag von diesem Bit erzeugt werden soll, und P[i] ist ein Signal, daß ein Übertrag von den vorherigen Bits zu der Ausgabe dieses Bits laufen kann. Diese werden gemäß Gleichung 2 nachfolgend bestimmt:
Gleichung 2
G[i] = A[i] UND B[i];
P[i] = A[i] ODER B[i].
Daher können für vier Bits innerhalb eines Übertrag-Vorausgriff-Addierers die Übertragbits, wie in der nachfolgenden Gleichung 3 gegeben, erzeugt werden:
Gleichung 3
C[i] = G[i] + P[i] * (G[i-1] + P[i-1] * (G[i-2] + P[i-2] * (G[i-3] + P[i-3] * C[i-4])))
C[i-1] = G[i-1] + P[i-1] * (G[i-2] + P[i-2] * (G[i-3] + P(i-3] * C[i-4]))
C[i-2] = G[i-2] + P[i-2] * (G[i-3] + P[i-3] * C[i-4]) C[i-3] = G[i-3] + p[i-3] * C[i-4]
In der obigen Gleichung 3 ist "*" einer logischen UND-Operation gleich, und "+" ist einer logischen ODER-Operation gleich.
Wenn ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung implementiert wird, wird ein Übertrag bei einem speziellen Bit angehalten, wenn Erzeugen G[i] und Ausbreiten P[i] zwangsweise zu unwahr werden. In der obigen Gleichung 3 beispielsweise wird, wenn G[i-3] und P[i-3] unwahr sind, C[i-3] unwahr sein, und C[i-4] kann niemals den Wert von C[i-2), C[i-1] und C[i] beeinträchtigen. Wenn ähnlichenfalls G[i-2] und P[i-2] unwahr sind, wird C[i-2] unwahr sein, und G[i-3] und P[i-3] und C[i-4] können niemals den Wert von C[i-1] und C[i] beeinflussen.
Wenn M[i] vereinbarungsgemäß ein Maskenbit ist, das die Übertragkette zwischen Bit [i] und Bit [i+1] unterbricht, wenn M[i] 1 ist, dann kann eine neue Gleichung 4 folgendermaßen erzeugt werden:
Gleichung 4
Gm[i] = !M[i] * (A[i] * B[i])
Pm[i] = !M[i] * (A[i] * B[i])
Wenn M[i] nun 1 ist, wird kein Übertrag vom Bit [i] erzeugt werden dürfen oder durch das Bit [i] laufen können.
Für eine Subtraktion durch Erzeugen des Einerkomplements von einem der Operanden und durch Addieren desselben zu dem anderen Operanden mit einem Übertrag hinein (Zweierkomplement-Arithmetik), muß ein Übertrag zwangsweise in einem Bit erzeugt werden, wenn M[i] 1 ist.
F sei ein Signal, das, wenn es wahr ist, zwangsweise bewirkt, daß ein Übertrag in einem Bit erzeugt wird, wenn M[i] 1 ist. Die Gleichung für Gs[i] und Ps[i] wird so, wie es in der nachfolgenden Gleichung 5 dargelegt ist:
Gleichung 5
Gs[i] = (M[i] * F) + (!M[i] * (A(i) * B[i])) - (M[i] * F) + (!M[i] * G[i])
Ps[i] = Pm[i]
Wenn nun M[i] 1 ist, wird der Wert von Gs[i] durch F bestimmt. Wenn M[i] 0 ist, wird der Wert von Gs[i] durch A[i] und B[i] bestimmt, wie es vorher der Fall war. Das Ausbreiten muß nicht durch das Signal F erzwungen werden.
Die Gleichung für den Übertrag heraus ist durch die nachfolgende Gleichung 6 gegeben:
Gleichung 6
C[i] = Gs[i] + Ps[i] * C[i-1]
Wie es für Fachleute klar sein wird, sind die Prinzipien der vorliegenden Erfindung nicht auf arithmetische Operationen innerhalb Computersystem-ALUs begrenzt. Beispielsweise kann das Partitionieren, wie es für die ALU gezeigt ist, ebenfalls auf andere Entitäten innerhalb des Computersystems ausgedehnt werden, die mit Daten arbeiten. Beispielsweise zeigt Fig. 6 die vorliegende Erfindung in einer Vorschiebeeinrichtung 27 implementiert. Das gleiche Ausführungsbeispiel der vorliegenden Erfindung kann ebenfalls verwendet werden, um die Schiebeeinrichtung 29 zu implementieren. Die Partitionierung der Vorschiebeeinrichtung 27 und der Schiebeeinrichtung 29 erlaubt beispielsweise die Implementation von parallelen Schieben- und Addieren-Operationen und von parallelen Schiebe-Operationen.
Die Vorschiebeeinrichtung 27 umfaßt einen Schieberegister- Ein-Bit-Schlitz 160, einen Schieberegister-Ein-Bit-Schlitz 161, einen Schieberegister-Ein-Bit-Schlitz 165, einen Schieberegister-Ein-Bit-Schlitz 166 und einen Schieberegister- Ein-Bit-Schlitz 169.
Wenn Daten nach links geschoben werden, wird eine Date an einem Eingang 171, typischerweise ein logischer Wert von Null, als Eingabe in den Schieberegister-Ein-Bit-Schlitz 160 verwendet. Wenn Daten nach rechts geschoben werden, wählt eine Auswahleinrichtung 175 ansprechend auf eine Steuereingabe 182 entweder eine Date am Eingang 181 (einen logischen Wert von Null oder einen logischen Wert von Eins) aus, oder wählt den Wert, der gegenwärtig von dem Schieberegister- Ein-Bit-Schlitz 169 gespeichert ist, um den Wert dann in den Schieberegister-Ein-Bit-Schlitz 169 einzugeben.
Immer wenn die Schiebeeinrichtung partitioniert werden soll, werden zusätzliche Auswahleinrichtungen zu der Schiebeeinrichtung hinzugefügt. Beispielsweise zeigt Fig. 6, daß die Schiebeeinrichtung zwischen dem Schieberegister-Ein-Bit- Schlitz 165 und dem Schieberegister-Ein-Bit-Schlitz 166 partitioniert ist. Hier wurden eine Auswahleinrichtung 174 und eine Auswahleinrichtung 173 hinzugefügt. Für Verschiebeoperationen mit partitionierten Operanden wählt die Auswahleinrichtung 173, wenn Daten nach links geschoben werden, ansprechend auf eine Steuereingabe 185 eine Date am Eingang 172, typischerweise einen logischen Wert von Null aus, damit die Date als Eingabe in den Schieberegister-Ein-Bit-Schlitz 166 verwendet wird. Für Verschiebeoperationen auf Voll- Wort-Operanden wählt die Auswahleinrichtung 173, wenn Daten nach links verschoben werden, daß die Ausgabe von dem Schieberegister-Ein-Bit-Schlitz 165 als Eingabe in den Schieberegister-Ein-Bit-Schlitz 166 verwendet wird.
Für Verschiebeoperationen mit partitionierten Operanden wählt die Auswahleinrichtung 174, wenn Daten nach rechts verschoben werden, ansprechend auf eine Steuereingabe 184 entweder eine Date am Eingang 182 (einen logischen Wert von Null oder einen logischen Wert von Eins) oder den Wert, der gegenwärtig von dem Schieberegister-Ein-Bit-Schlitz 166 gespeichert ist, als Eingabe in den Schieberegister-Ein-Bit- Schlitz 165 aus. Für Verschiebeoperationen mit Voll-Wort- Operanden wählt die Auswahleinrichtung 174, wenn Daten nach rechts verschoben werden, die Ausgabe von dem Schieberegister-Ein-Bit-Schlitz 166 aus, um als Eingabe in den Schieberegister-Ein-Bit-Schlitz 165 verwendet zu werden.
Fig. 6 zeigt eine Schiebeeinrichtung mit nur zwei Partitionen. Aus der vorangegangenen Diskussion von Partitionen in einer ALU ist zu sehen, daß die Verschiebeeinrichtung auf eine Vielzahl von Arten und Weisen partitioniert werden kann. Eine 64-Bit-Schiebeeinrichtung kann beispielsweise in gleiche Partitionen mit einer Größe von 2, 4, 8, 16, 32 oder 64 Bit partitioniert werden. Zusätzlich ist es keine Anforderung der vorliegenden Erfindung, daß die Partitionen immer auf eine gleiche Anzahl von Bits wirken.
Obwohl das obige Ausführungsbeispiel die Vorschiebeeinrichtung 27 und die Schiebeeinrichtung 29 als Schieberegister implementiert beschreibt, das eine Serie von Ein-Bit-Schlitzen umfaßt, sind alternative bevorzugte Ausführungsbeispiele Vorschiebeeinrichtungen und Schiebeeinrichtungen, die mit Multiplexern implementiert sind. Typischerweise ist eine Vorschiebeeinrichtung 27 durch eine Ebene von Multiplexern implementiert, da sie üblicherweise um höchstens eine kleine Anzahl von Bit verschieben kann, beispielsweise um 0, 1, 2, 3 oder 4 Bit. Die Schiebeeinrichtung 29 ist typischerweise durch drei Ebenen von Multiplexern implementiert, wobei jede Ebene von Multiplexern ein Vier-zu-Eins-Multiplexer ist. Beispielsweise wird in einer 64-Bit-Schiebeeinrichtung 29 die erste Ebene von Multiplexern entweder um 0, 16, 32 oder 48 Bit schieben. Die zweite Ebene von Multiplexern kann entweder um 0, 4, 8 oder 12 Bit schieben. Die dritte Ebene von Multiplexern kann um 0, 1, 2 oder 3 Bit schieben. Dies ergibt eine Verschiebung einer beliebigen Anzahl von Bits von 0 bis 63. In einer solchen Schiebeeinrichtung, die aus drei Stufen von Multiplexern aufgebaut ist, können immer noch Ein-Bit-Schlitze identifiziert werden. Die Blockierung der Verschiebungen zwischen beliebigen zwei Bits muß jedoch in einer oder in mehreren der drei Multiplexerstufen durchgeführt werden, wie es für Fachleute verständlich ist.
Die Prinzipien der vorliegenden Erfindung können ebenfalls auf andere Elemente in einem Computersystem ausgedehnt werden. Beispielsweise kann ein Multiplizierer gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung derart implementiert werden, daß er Teilwort-Parallelmultiplikationen zusätzlich zu Ganzwort-Multiplikationen ermöglicht.
Beispielsweise zeigt Fig. 7 einen Vier-Bit-Multiplizierer gemäß dem Stand der Technik. Der Multiplizierer multipliziert einen ersten Vier-Bit-Multiplikanden X&sub3;X&sub2;X&sub1;X&sub0; (Basis 2) mit einem zweiten Vier-Bit-Multiplikanden Y&sub3;Y&sub2;Y&sub1;Y&sub0; (Basis 2), um ein Acht-Bit-Ergebnis Z&sub7;Z&sub6;Z&sub5;Z&sub4;Z&sub3;Z&sub2;Z&sub1;Z&sub0; (Basis 2) zu erzeugen. Für Fachleute ist es verständlich, daß die logischen UND-Gatter 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215 und 216 verwendet werden können, um Teilprodukte für die Multiplikation zu erzeugen. Eine Teilprodukt-Summenschaltung 220 summiert die Teilprodukte, die durch die logischen UND-Gatter 201 bis 216 erzeugt werden, um das Ergebnis zu erzeugen.
Die zwei Multiplikanden X&sub3;X&sub2;X&sub1;X&sub0; und Y&sub3;Y&sub2;Y&sub1;Y&sub0;, die Teilpro dukte, die durch die logischen UND-Gatter 201 bis 216 erzeugt werden, und das Resultat, das durch die Teilprodukt- Summenschaltung 220 erzeugt wird, können in einer Tabelle derart plaziert werden, daß die Operation des Multiplizierers zusammengefaßt ist. Beispielsweise ist eine solche Tabelle als nachfolgende Tabelle 1 gezeigt: Tabelle 1
In der in der obigen Tabelle 1 verwendeten Notation sind die Bitposition jedes Bits von beiden Multiplikanden und das Ergebnis spezifisch identifiziert. Zusätzlich sind die Bits des Multiplikanden, die verwendet werden, um jedes Teilprodukt zu bilden, spezifisch dargelegt. Wie es für Fachleute ersichtlich ist, können die in Tabelle 1 oben gezeigten Informationen unter Verwendung einer abgekürzten oder vereinfachten Notation dargelegt werden, wie es in Tabelle 2 nachfolgend durchgeführt wurde. Tabelle 2
In der obigen Tabelle 2 wird jedes Bit des ersten Multiplikanden durch ein "X" dargestellt, wird jedes Bit des zweiten Multiplikanden durch ein "Y" dargestellt, wird jedes Bit eines Teilprodukts durch ein "z" dargestellt, und wird jedes Bit des Ergebnisses durch ein "Z" dargestellt. Unter Verwendung der einfacheren Notation von Tabelle 2 kann ein Acht- Bit-Multiplizierer beschrieben werden, wie es in der nachfolgenden Tabelle 3 gezeigt ist: Tabelle 3
Der in Tabelle 3 gezeigte Multiplizierer multipliziert einen ersten Acht-Bit-Multiplikanden XXXXXXXX(gasis 2) mit einem zweiten Acht-Bit-Multiplikanden YYYYYYYY(Basis 2)' um ein 16-Bit-Ergebnis ZZZZZZZZZZZZZZZZ(Basis 2) zu erzeugen. Auf ähnliche Art und Weise kann unter Verwendung der einfacheren Notation der Tabelle 2 und der Tabelle 3 (wobei jedoch Räume zwischen Bitpositionen eliminiert sind) ein 16- Bit-Multiplizierer beschrieben werden, wie es in der nachfolgenden Tabelle 4 dargelegt ist: Tabelle 4
Der in Tabelle 4 gezeigte Multiplizierer multipliziert einen ersten 16-Bit-Multiplikanden XXXXXXXXXXXXXXXX(Basis 2) mit einem zweiten 16-Bit-Multiplikanden YYYYYYYYYYYYYYYY(Basis 2)' um ein 32-Bit-Ergebnis ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ(Basis 2) zu erzeugen.
Gemäß bevorzugten Ausführungsbeispielen der vorliegenden Erfindung kann ein Standardmultiplizierer modifiziert werden, um einen Multiplizierer zu implementieren, der eine parallele Multiplikation von Teilworten zusätzlich zu einer Multiplikation von ganzen Worten liefert. Beispielsweise zeigt Fig. 8 einen Vier-Bit-Multiplizierer gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Die logischen UND-Gatter 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315 und 316 erzeugen Teilpro dukte für die Multiplikation. Eine Teilprodukt-Summenschaltung 320 summiert die Teilprodukte, die von den logischen UND-Gattern 310 bis 316 erzeugt werden, um das Ergebnis zu erzeugen.
Bei dem in Fig. 8 gezeigten Multiplizierer kann eine Teilprodukt-Summenschaltung 320 genau wie die Teilprodukt-Summenschaltung 220 von Fig. 7 implementiert werden. Der Unterschied zwischen dem in Fig. 8 gezeigten Multiplizierer und dem in Fig. 7 gezeigten Multiplizierer ist die Hinzufügung einer Steuerleitung 321, die mit einem zusätzlichen Eingang verbunden ist, der in jedem der logischen UND-Gatter 303, 304, 307, 308, 309, 310, 313 und 314 enthalten ist.
Wie es in Fig. 8 gezeigt ist, führt der Multiplizierer, wenn die Steuerleitung 321 auf eine logische Eins gesetzt ist, eine Ganzwort-Multiplikation auf einen ersten Vier-Bit-Multiplikanden X&sub3;X&sub2;X&sub1;X&sub0; (Basis 2) und einen zweiten Vier-Bit- Multiplikanden Y&sub3;Y&sub2;Y&sub1;Y&sub0; (Basis 2) durch, um ein Acht-Bit-Ergebnis Z&sub7;Z&sub6;Z&sub5;Z&sub4;Z&sub3;Z&sub2;Z&sub1;Z&sub0; (Basis 2) zu erzeugen. Die zwei Multiplikanden X&sub3;X&sub2;X&sub1;X&sub0; und Y&sub3;Y&sub2;Y&sub1;Y&sub0;, die Teilprodukte, die von den logischen UND-Gatter 301 bis 316 erzeugt werden, und das Ergebnis, das von der Teilprodukt-Summenschaltung 320 erzeugt wird, können in Tabellenform, wie es in der nachfolgenden Tabelle 5 gezeigt ist, dargestellt werden: Tabelle 5
Ein Vergleich von Tabelle 5 und Tabelle 1 oben bestätigt, daß, wenn die Leitung 321 auf eine logische Eins gesetzt ist, die Operation des in Fig. 8 gezeigten Multiplizierers identisch zu einer Operation des in Fig. 7 gezeigten Multiplizierers ist. Daher kann ähnlich zur obigen Tabelle 2 die vereinfachte Notation verwendet werden, um die Operation des in Fig. 8 gezeigten Multiplizierers zu beschreiben, wodurch sich die nachfolgende Tabelle 6 ergibt: Tabelle 6
Fig. 9 zeigt den in Fig. 8 gezeigten Multiplizierer, jedoch mit der Ausnahme, daß die Steuerleitung auf eine logische Null gesetzt ist. Dies führt zwangsweise dazu, daß die Hälfte der Teilprodukte auf Null gesetzt ist, was es dem Multiplizierer ermöglicht, eine parallele Multiplikation von Teil- (Zwei-Bit-) Worten durchzuführen. Das heißt, daß in einer ersten Multiplikation ein Zwei-Bit-Multiplikand A&sub1;A&sub0; (Basis 2) mit einem Zwei-Bit-Multiplikanden C&sub1;C&sub0; (Basis 2) multipliziert wird, um ein Vier-Bit-Ergebnis E&sub3;E&sub2;E&sub1;E&sub0; (Basis 2) zu erzeugen. In einer zweiten Multiplikation wird ein Zwei-Bit-Multiplikand B&sub1;B&sub0; (Basis 2) mit einem Zwei-Bit-Multiplikanden D&sub1;D&sub0; (Basis 2) multipliziert, um ein Vier-Bit- Ergebnis F&sub3;F&sub2;F&sub1;F&sub0; (Basis 2) zu erzeugen. Die Teilprodukte, die für die parallelen Multiplikationen nicht verwendet werden, sind zwangsweise auf eine logische Null eingestellt. Die Parallelmultiplikation kann in Tabellenform dargestellt werden, wie es in der nachfolgenden Tabelle 7 geschehen ist: Tabelle 7
Unter Verwendung der vereinfachten Notation, die zuerst in Tabelle 2 eingeführt wurde, kann der in Fig. 9 gezeigte Multiplizierer, wie in der Tabelle 8 nachfolgend dargelegt, dargestellt werden: Tabelle 8
Wie es durch Tabelle 7 und Tabelle 8 gezeigt ist, wird eine Parallelmultiplikation von Teilworten in einem Multiplizierer durch zwangsweises Setzen von ausgewählten Teilprodukten in dem Multiplizierer auf Null implementiert. Im allgemeinen kann ein Standardmultiplizierer mit beliebiger Größe verwendet werden, um eine Parallelmultiplikation durchzuführen, indem nicht verwendete Teilprodukte auf Null gezwungen werden. Die Teilprodukte werden zwangsweise auf eine logische Null gebracht, beispielsweise unter Verwendung von einem oder mehreren Steuereingängen und von drei logischen UND- Eingangsgattern (oder ihren Äquivalenten).
Beispielsweise kann, wie es oben erörtert wurde, ein Acht- Bit-Multiplizierer, wie es durch Tabelle 3 beschrieben ist, implementiert werden. Dieser Multiplizierer kann verwendet werden, um eine Parallelmultiplikation von Teilwort-Multiplikanden durch Bereitstellen einer Schaltungsanordnung durchzuführen, wie sie in den Fig. 8 und 9 gezeigt ist, um Teilprodukte gemäß den Lehren der vorliegenden Erfindung auf Null zwangsweise zu bringen. Keine Modifikation ist für die Teilprodukt-Summenschaltungsanordnung erforderlich. Somit ermöglicht ein Modifizieren des durch Tabelle 3 beschriebenen Multiplizierers gemäß den Lehren der vorliegenden Erfindung beispielsweise das Durchführen von zwei parallelen Multiplikationen unter Verwendung von Vier-Bit-Multiplikanden, wie es durch die nachfolgende Tabelle 9 implementiert ist: Tabelle 9
Wie es aus der obigen Tabelle 9 zu sehen ist, wird in einer ersten parallelen Multiplikation von Teilwort-Multiplikanden ein Vier-Bit-Multiplikand AAAA(Basis 2) mit einem Vier-Bit- Multiplikanden 0000(Basis 2) multipliziert, um ein Acht- Bit-Ergebnis EEEEEEEE(Basis 2) zu erzeugen. In einer zweiten parallelen Multiplikation von Teilwort-Multiplikanden wird ein Vier-Bit-Multiplikand BBBB(Basis 2) mit einem Vier-Bit- Multiplikanden DDDD(gasis 2) multipliziert, um ein Acht- Bit-Ergebnis FFFFFFFF(Basis 2) zu erzeugen. Die Multiplikation von zwei Ganzwort- (Acht-Bit-) Multiplikanden wird durch den Multiplizierer implementiert, indem nicht alle Teilprodukte zwangsweise auf Null gebracht werden.
Genauso kann, wie es oben erörtert wurde, ein 16-Bit-Multiplizierer implementiert werden, wie es durch Tabelle 4 gezeigt ist. Dieser selbe Multiplizierer kann verwendet werden, um Parallelmultiplikationen von Teilwort-Multiplikanden durchzuführen, indem eine Schaltungsanordnung bereitgestellt wird, wie sie in Fig. 8 und Fig. 9 gezeigt ist, um Teilprodukte zwangsweise auf Null zu bringen, und zwar gemäß den Lehren der vorliegenden Erfindung. Keine Modifikation muß an der Teilprodukt-Summenschaltungsanordnung durchgeführt werden. Somit erlaubt ein Modifizieren des durch Tabelle 4 gemäß den Lehren der vorliegenden Erfindung beschriebenen Multiplizierers beispielsweise das Durchführen von zwei parallelen Multiplikationen unter Verwendung von Acht-Bit- (Teilwort-) Multiplikanden, wie durch die nachfolgende Tabelle 10 dargelegt ist: Tabelle 10
Aus der obigen Tabelle 10 ist zu sehen, daß in einer ersten parallelen Multikation ein Acht-Bit-Multiplikand AAAAAAAA(Basis 2) mit einem Acht-Bit-Multiplikanden CCCCCCCC(Basis 2) multipliziert wird, um ein 16-Bit-Ergebnis EEEEEEEEEEEEEEEE(Basis 2) zu erzeugen. In einer zweiten parallelen Multikation wird ein Acht-Bit-Multiplikand BBBBBBBB(Basis 2) mit einem Acht-Bit-Multiplikanden DDDDDDDD(Basis 2) multipliziert, um ein 16-Bit-Ergebnis FFFFFFFFFFFFFFFF(Basis 2) zu erzeugen. Die Multiplikation von zwei Ganzwort- (16-Bit-) Multiplikanden wird durch den Multiplizierer implementiert, indem nicht sämtliche der Teilprodukte auf Null gezwungen werden.
Obwohl die obige Beschreibung eine parallele Multiplikation von Halb-Worten zeigt, ist es für Fachleute offensichtlich, daß sowohl die Anzahl der parallelen Multiplikationen, die durchgeführt werden, als auch die Größe des Teilworts variiert werden können, indem die entsprechenden Teilprodukte zwangsweise auf Null gebracht werden.
Beispielsweise kann der 16-Bit-Multiplizierer, der, wie es durch Tabelle 4 (und/oder Tabelle 10) beschrieben ist, implementiert ist, verwendet werden, um drei gleichzeitige parallele Multiplikationen durchzuführen, indem eine Schaltungsanordnung vorgesehen wird, wie sie in den Fig. 8 und 9 gezeigt ist, um gemäß den Lehren der vorliegenden Erfindung Teilprodukte auf Null zu zwingen. Somit ermöglicht ein Modifizieren des durch Tabelle 4 beschriebenen Multiplizierers gemäß den Lehren der vorliegenden Erfindung beispielsweise das Durchführen von einer parallelen Multiplikation unter Verwendung von Acht-Bit-Multiplikanden und von zwei paralle len Multiplikationen unter Verwendung von Vier-Bit-Multiplikanden, wie es durch die nachfolgende Tabelle 11 implementiert ist: Tabelle 11
Aus Tabelle 11 oben ist zu sehen, daß in einer ersten parallelen Multikation ein Acht-Bit-Multiplikand AAAAAAAA(Basis 2) mit einem Acht-Bit-Multiplikanden DDDDDDDD(Basis 2) multipliziert wird, um ein 16-Bit-Ergebnis GGGGGGGGGGGGGGGG(gasis 2) zu erzeugen. In einer zweiten parallelen Multikation wird ein Vier-Bit-Multiplikand BBBB(Basis 2) mit einem Vier-Bit-Multiplikanden EEEE(Basis 2) multipliziert, um ein Acht-Bit-Ergebnis HHHHHHHH(Basis 2) zu erzeugen. In einer dritten parallelen Multikation wird ein Vier-Bit-Multiplikand CCCC(Basis 2) mit einem Vier-Bit- Multiplikanden FFFF(gasis 2) multipliziert, um ein Acht- Bit-Ergebnis IIIIIIII(Basis 2) zu erzeugen. Für Fachleute ist es offensichtlich, daß für jedes Teilprodukt, das in Tabelle 11 gezeigt ist, mit einem Wert von Null notwendig ist, ein logisches UND-Gatter mit drei Eingängen oder ein logisches Äquivalent desselben zu haben, damit das Teilprodukt zwangsweise auf Null gebracht werden kann, wenn parallele Multiplikationsoperationen durchgeführt werden. Wenn jedoch eine Mischung von unterschiedlich dimensionierten Partitionierungen verwendet wird, wie es in Tabelle 11 der Fall ist, können bei bestimmten Implementationen unterschiedliche Steuereingänge nötig sein, um unterschiedliche Teilproduktterme auf Null zu zwingen, wie es für Fachleute ersichtlich sein wird.
Aus der obigen Diskussion kann gesehen werden, daß eine parallele Multiplikation von Teilworten vollständig in einem Multiplizierer implementiert werden kann, indem Teilprodukte eines Multiplizierers selektiv zwangsweise auf Null gebracht werden. Die Größe des Worts, die Anzahl von gleichzeitig durchgeführten parallelen Multiplikationen und die Größe der Teilworte können gemäß den Lehren der vorliegenden Erfindung frei variiert werden.
Fig. 11 zeigt ein Beispiel für Befehle, die gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ausgeführt werden können. Beispielsweise umfaßt ein Befehl 500 ein Feld 501, ein Unterfeld 502 des Felds 501, ein Feld 503, ein Feld 504 und ein Feld 505. Das Feld 501 umfaßt den Operationscode. Das Feld 501 umfaßt beispielsweise eine Addieren-, eine Verschieben-und-Addieren-, eine Subtrahieren-, eine Verschieben-und-Subtrahieren-, eine Verschieben-nachlinks-, eine Verschieben-nach rechts-, eine Multiplizieren- oder irgendeine einer beliebigen Anzahl von anderen Operationen. Das Unterfeld 502 von 501 zeigt an, ob die Operation als Paralleloperationen durchzuführen ist, und, wenn das so ist, was die Größe der Operanden ist. Das Feld 503 zeigt ein erstes Quellenregister an. Das Feld 504 zeigt ein zweites Quellenregister an. Das Feld 505 zeigt ein Zielregister an.
Wie es in der Technik bekannt ist, stellt der Befehl 500 einen einer großen Anzahl von möglichen Arten und Weisen dar, wie ein Befehl organisiert sein kann. Beispielsweise zeigt der Befehl 510 ein anderes Ausführungsbeispiel, bei dem die Anzeige für die parallele Operation in einem getrennten Feld ist. Insbesondere umfaßt der Befehl 510 ein Feld 511, ein Feld 512, ein Feld 513, ein Feld 514 und ein Feld 515. Das Feld 511 legt den Operationscode dar. Das Feld 511 legt beispielsweise eine Addieren-, eine Verschieben- und-Addieren-, eine Subtrahieren-, eine Verschieben-und-Subtrahieren-, eine Verschieben-nach inks-, eine Verschiebennach-rechts-, eine Multiplizieren- oder irgendeine Anzahl von weiteren möglichen Operationen dar. Das Feld 512 zeigt an, ob die Operation als parallele Operationen durchgeführt werden soll, und, wenn das so ist, was die Größe der Operanden ist. Das Feld 513 zeigt ein erstes Quellenregister an. Das Feld 514 zeigt ein zweites Quellenregister an. Das Feld 515 zeigt ein Zielregister an.
Wie es in der Technik verstanden werden wird, arbeitet die vorliegende Erfindung auch für andere Multiplizierer, wo Teilprodukte erzeugt werden. Beispielsweise kann die vorliegende Erfindung in einem Booth-codierten Multiplizierer verwendet werden. In einem Booth-codierten Multiplizierer werden weniger Reihen von Teilprodukttermen erzeugt, indem mehr als ein Bit des Multiplizierers (y-Multiplikand) für jede Reihe des Teilproduktterms berücksichtigt wird. Es sei beispielsweise auf John Hennessy & David Patterson, Computer Architecture, A Ouantitative Aporoach. Morgan Kaufmann, 1990, Anhang, Seiten A-39 bis A-49, verwiesen. Wie in dem Fall des obigen Multiplizierers werden die Werte von bestimmten Teilprodukttermen, die durch den Booth-codierten Multiplizierer erzeugt werden, verändert, um die Parallelverarbeitung zu berücksichtigen, wie es für Fachleute ersichtlich sein wird.
Insbesondere werden bei einem Booth-codierten Multiplizierer die UND-Gatter 301 bis 316, die in den Fig. 8 und 9 gezeigt sind, durch Multiplexer ersetzt. Beispielsweise untersucht ein Booth-codierten Multiplizierer unter Verwendung des Verfahrens nach den "überlappenden Dreiergruppen" drei Bits des Multiplizierers (d. h. y-Multiplikand) jedesmal, statt einem Bit zu einem Zeitpunkt, um eine Reihe von Teilprodukten zu erzeugen, die +x, +2x, -2x, -x oder Null ist, statt einer Reihe von Teilprodukten, die immer +x oder Null ist, wie bei dem in den Fig. 8 und 9 gezeigten Multiplizierer. Dies kann als ein Fünf-zu-Eins-Multiplexer implementiert werden. Der Name "überlappende Dreiergruppen" ist aufgrund der Tatsache vorhanden, daß dieses Verfahren nach drei Bits des Multiplizierers (y-Multiplikand) schaut und zwei Bits des Multiplizierers (y-Multiplikand) für jede Reihe zurückzieht. Die Überlappung tritt auf, wenn, für die nächste Reihe, das niederstwertige Bit der drei Multiplizierer-Bits (y-Multiplikand), die von dieser nächsten Reihe verwendet werden, das höchstwertige Bit der drei Multiplizierer-Bits war, die von der vorherigen Reihe verwendet wurden.
Um eine parallele Teilwortmultiplikation zu implementieren, werden die Bits des x-Multiplikanden, die nicht dem Teilwortprodukt entsprechen, dessen Teilproduktreihen gebildet werden, auf Null gesetzt. Dies kann mit Multiplexern wie in dem unmodifizierten Booth-codierten Multiplizierer implementiert werden, wodurch die Steuersignale für die Multiplexer modifiziert werden. Das Vorzeichen der Teilproduktreihe kann ebenfalls als zusätzliche Eingabe in die Multiplexer verwendet werden.

Claims

1. Ein Multiplizierer, der Multiplikanden multipliziert, wobei der Multiplizierer sowohl eine Ganzwort-Multiplikation von Ganzwort-Multiplikanden als auch eine parallele Multiplikation von Teilwort-Multiplikanden implementiert, wobei der Multiplizierer folgende Merkmale aufweist:

eine Teilprodukterzeugungseinrichtung (301-316) zum Erzeugen von Teilprodukten aus den Multiplikanden, wobei die Teilprodukterzeugungseinrichtung (301-316) ein Array von Logikgattern (301-316) aufweist, wobei jedes Logikgatter in dem Array von Logikgattern (301 - 316) ein Bit von jedem Multiplikanden empfängt und ein Teilprodukt erzeugt;

eine Teilproduktsummenschaltungsanordnung (320), die mit der Teilprodukterzeugungseinrichtung (301-316) gekoppelt ist, zum Summieren der Teilprodukte, um ein Ergebnis zu erzeugen;

eine Auswahleinrichtung (321) zum Auswählen von entweder der Ganzwort-Multiplikation oder einer parallelen Multiplikation von Teilwort-Multiplikanden; und

eine Teilproduktauswahleinrichtung, die mit der Teilprodukterzeugungseinrichtung (301-316) und mit der Auswahleinrichtung (321) gekoppelt ist, um, ansprechend auf die Auswahleinrichtung (321), die eine parallele Multiplikation von Teilwort-Multiplikanden auswählt, ausgewählte Teilprodukte zwangsweise dazu zu bringen, einen neuen Wert zu haben, wobei die Teilproduktauswahleinrichtung dritte Eingänge in zumindest einen Anteil der Logikgatter (301-316) hat.

2. Ein Multiplizierer gemäß Anspruch 1, bei dem die Teilproduktauswahleinrichtung ansprechend auf die Auswahleinrichtung (321), die eine parallele Multiplikation von Teilwort-Multiplikanden auswählt, die ausgewählten Teilprodukte zwangsweise dazu bringt, einen Wert von Null zu haben.

3. Ein Multiplizierer gemäß Anspruch 2, bei dem das Array von Logikgattern (301-316) ein Array von logischen UND-Gattern (301-316) aufweist.

4. Ein Multiplizierer gemäß Anspruch 2, bei dem, wenn der Multiplizierer eine Ganzwort-Multiplikation implementiert, die Teilproduktauswahleinrichtung nicht jegliche Teilprodukte zwangsweise dazu bringt, einen Wert von Null zu haben.

5. Ein Multiplizierer gemäß Anspruch 1, der als Boothcodierter Multiplizierer ausgeführt ist.

6. Ein Verfahren zum Durchführen sowohl einer Multiplikation von Ganzwort-Multiplikanden als auch einer parallelen Multiplikation von Teilwort-Multiplikanden unter Verwendung eines einzigen Hardware-Multiplizierers mit folgenden Schritten:

(a) Erzeugen von Teilprodukten, wobei der Schritt (a) unter Verwendung eines Arrays von Logikgattern (301-316) durchgeführt wird, wobei jedes Logikgatter in dem Array von Logikgattern (301-316) ein Teilprodukt erzeugt;

(b) ansprechend auf eine Auswahl, um eine parallele Multiplikation von Teilwort-Multiplikanden durchzuführen, zwangsweises Bewirken, daß ausgewählte Teilprodukte einen neuen Wert haben, durch Verwenden eines dritten Eingangs in einen Anteil der Logikgatter (301-316); und

(c) Summieren der Teilprodukte, um ein Ergebnis zu erzeugen, wobei das Summieren unter Verwendung einer Teilproduktsummenschaltungsanordnung (320) durchgeführt wird.

7. Ein Verfahren gemäß Anspruch 6, bei dem der Schritt (b) ansprechend auf die Auswahl, um eine parallele Multiplikation von Teilwort-Multiplikanden durchzuführen, das zwangsweise Bewirken aufweist, daß Teilprodukte einen Wert von Null haben.

8. Ein Verfahren gemäß Anspruch 7, bei dem der Schritt (a) unter Verwendung eines Arrays von logischen UND- Gattern (301-316) durchgeführt wird.

9. Ein Verfahren gemäß Anspruch 8, bei dem der Schritt (b) , der zwangsweise dazu führt, daß ausgewählte Teilprodukte einen Wert von Null haben, durch Plazieren einer logischen Null an Eingängen in einen Anteil der logischen UND-Gatter (301-316) implementiert wird.

10. Ein Verfahren gemäß Anspruch 7, bei dem im Schritt (b) , wenn der Multiplizierer eine Ganzwort-Multiplikation implementiert, nicht jegliche Teilprodukte zwangsweise dazu gebracht werden, einen Wert von Null zu haben.