DE10105945B4

DE10105945B4 - Multiplizierer mit Linearsummierungsarray sowohl zur vorzeichenbehafteten als auch zur vorzeichenlosen Multiplikation

Info

Publication number: DE10105945B4
Application number: DE10105945A
Authority: DE
Inventors: Richard B. Fort Collins Zeng
Original assignee: Hewlett Packard Development Co LP
Current assignee: Samsung Electronics Co Ltd
Priority date: 2000-02-21
Filing date: 2001-02-09
Publication date: 2006-09-28
Anticipated expiration: 2021-02-10
Also published as: US6708193B1; US20040024804A1; DE10105945A1

Abstract

Multiplizierer mit
einer Einrichtung (800) zum Empfangen zumindest zweier Operanden; und
einer Einrichtung (800) zum Erzeugen eines Produkts der zumindest zwei Operanden, wobei die Erzeugungseinrichtung ein Linearsummierungsarray (300) mit einer Gerade-Und-Ungerade-Struktur zum Summieren von Partialprodukten der zumindest zwei Operanden aufweist, und wobei das Linearsummierungsarray (300) aufgebaut ist, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation zu ermöglichen.

Description

Diese Erfindung bezieht sich allgemein auf Multiplizierer und insbesondere auf einen Multiplizierer, der ein Linearsummierungsarray zum Durchführen sowohl einer vorzeichenbehafteten als auch einer vorzeichenlosen Multiplikation unter Verwendung eines modifizierten Baugh-Wooley-Algorithmusses aufweist.
Eine Schaltungsanordnung zum Multiplizieren zweier oder mehr Operanden ist üblicherweise in vielen elektronischen Schaltungen des Stands der Technik implementiert. Mikroprozessoren umfassen beispielsweise typischerweise einige Multipliziererschaltungsanordnungstypen. Bei herkömmlichen Multiplizierern ist üblicherweise der wohlbekannte „Booth"-Codieralgorithmus implementiert, um eine vorzeichenbehaftete und vorzeichenlose Multiplikation durchzuführen. Der Booth-Codieralgorithmus ist jedoch eine dynamische Lösung. Hochgeschwindigkeitsmultiplizierer sind üblicherweise mit einer dynamischen „Booth"-Codierschaltungsanordnung implementiert, um die Hochfrequenzziele (wie z. B. für einen 1-GHz-Mikroprozessor) zu erfüllen. Allgemein verbraucht ein dynamischer Multiplizierer mehr Leistung, fügt erhebliche Taktlast hinzu und erfordert viel mehr Entwurfsaufwand, um die elektrische Zuverlässigkeit zu implementieren und zu überprüfen, als dies für einen statischen Multipliziererentwurf erforderlich ist. Der dynamische Booth-Codieralgorithmus herkömmlicher Multiplizierer erfordert allgemein, daß eine komplexe Multiplexer- („MUX"-) Struktur implementiert ist, um die Eingangsoperanden zu codieren, bevor die Partialprodukte der Operanden ein Multiplizierarray bilden. Die „Booth"-Codier-MUXes werden verwendet, um die Anzahl von Partialprodukten für den Multiplizierer zu minimieren.
Zusätzlich sind alle Codierleitungen von herkömmlichen Booth-Codier-Multiplizierern typischerweise sehr komplex und sehr belastet. Ein Multiplizierer, der einen Booth-Codieralgorithmus verwendet, ist eine wohlbekannte Standardimplementierung für herkömmliche Multiplizierer und wird deshalb im folgenden lediglich kurz erörtert.
Bei dem Booth-Codieralgorithmus wird im allgemeinen ein Multipliziererarray verwendet, um die Multiplikation durchzuführen. Als ein einfaches Beispiel ist in 1 ein Multiplizierarray 40 gezeigt, das sich aus der Multiplikation von Operanden X[3:0] und Y[3:0] ergibt. Wie es gezeigt ist, umfaßt das Multiplizierarray von 1 die Partialproduktelemente 42 der Operanden und eine Vorzeichenerweiterung 44 für die vorzeichenbehaftete Multiplikation. Wie es in der Technik wohlbekannt ist, umfaßt ein Multiplizierer typischerweise eine Schaltungsanordnung, um jedes Element 42 des Multiplizierarrays 40, wie z. B. das Element X₀·Y₀, einer UND-Verknüpfung zu unterziehen, um ein Partialprodukt (z. B. das Produkt von X₀·Y₀ zu erzeugen. Die Partialprodukte des Multiplizierarrays 40 werden daraufhin in ein CSA-Array eingegeben, das in dem Multiplizierer umfaßt ist, um die Endergebnisse (d. h. die Endsummenausgabe und die Endübertragausgabe) zu erzeugen. Die Endausgabe für die Multiplikation (d. h. das Produkt der zwei Operanden) wird daraufhin erzeugt, indem die Endsumme und der Endübertrag in einem Addierer summiert werden. Der Booth-Algorithmus wird bei herkömmlichen Multiplizierern üblicherweise verwendet, um eine Hochgeschwindigkeitsparallelmultipliktion zu erzielen.
Ein Linearsummierungsmultiplizierer verwendet ein CSA-Array direkt, ohne eine Booth-Codierung. Wie es beispielsweise in 2A gezeigt ist, können UND-Gatter, wie z. B. UND-Gatter 32, 34 und 36, in einem Multiplizierer umfaßt sein, um jeweils ein Eingangsbit von X[3:0] und von Y[3:0] zu empfangen, um ein Element des Multipliziererarrays 40 als Eingangssignal zu erzeugen. Das UND-Gatter 36 kann beispielsweise X₂ und Y₀ als Eingangssignal empfangen, um das Parti alprodukt für das Element X₂·Y₀ des Multiplizierarrays 40 als sein Ausgangssignal zu erzeugen. Dementsprechend kann das UND-Gatter 34 X₁ und Y₁ als ein Eingangssignal empfangen, um das Partialprodukt für das Element X₁·Y₁ des Multiplizierarrays 40 als sein Ausgangssignal zu erzeugen. Dementsprechend kann das UND-Gatter 32 X₀ und Y₂ als Eingangssignal empfangen, um das Partialprodukt für das Element X₀·Y₂ des Multiplizierarrays 40 als sein Ausgangssignal zu erzeugen. Natürlich können in einem Multiplizierer zusätzliche UND-Gatter umfaßt sein, um die Partialprodukte für alle Elemente des Multiplizierarrays 40 auf entsprechende Art und Weise zu erzeugen. Wie es in 2A gezeigt ist, werden die Partialprodukte einem CSA-Array des Multiplizierers, die CSAs, wie z. B. den CSA 38, umfassen, zugeführt, um die Partialprodukte zu summieren, um die Endsumme und den Endübertrag zu erzeugen. Sobald die Endsumme und der Endübertrag durch das CSA-Array erzeugt wurden, werden dieselben addiert, um das Endprodukt zu erzeugen, das durch den Multiplizierer ausgegeben werden soll. Wie es beispielsweise in 2B gezeigt ist, besteht ein Linearsummierungsmultiplizierer aus zwei Komponenten, d. h. einem Multiplizier-CSA-Array 200 und einem Addierer 202. Bei einem solchen Linearsummierungsmultiplizierer erzeugt das Multiplizier-CSA-Array 200 eine Endsumme und einen Endübertrag, die in dem Addierer 202 summiert werden. Bei einem bevorzugten Ausführungsbeispiel gibt der Addierer 202 das Endergebnis für die Multiplikation der Operanden aus.

Andererseits ist in 2C ein Beispiel eines Booth-Codierungsmultiplizierers gezeigt. 2C stellt einen 16-Bit-mal-16-Bit-Booth-Codierungsmultiplizierer dar, der zwei 16-Bit-Operanden (gezeigt als X[15:0] und Y[15:0]) empfängt und das Produkt der zwei Operanden ausgibt. Der exemplarische Booth-Codierungsmultiplizierer von 2C besteht aus drei Komponenten: Booth-Codierungs-MUXes 270, um die Anzahl von Partialproduktausdrücken zu minimieren, einem CSA-Array 272 und einem Addierer 274, um das Endergebnis für die Multiplikationsoperation aufzusummieren. Alle drei Komponen ten sind mit dynamischen Schaltungen implementiert. Um beispielsweise eine 16-Bit-mal-16-Bit-Multiplikation (d. h. das Multiplizieren zweier 16-Bit-Operanden) durchzuführen, verwendet ein herkömmlicher Multiplizierer typischerweise eine dynamische Übertragserhaltungsaddierer- (CSA-; CSA = Carray-Save-Adder) Schaltungsanordnung, wie z. B. diejenige von 2A, mit dem Booth-Codierungsalgorithmus. Bei der herkömmlichen dynamischen Booth-Codierungslösung ergibt die 16-Bit-mal-16-Bit-Multiplikation ein Multiplizierarray mit sechs Spalten von CSA für die Vorzeichenerweiterung (z. B. Vorzeichenerweiterung 44 von 1) zusätzlich zu den 16 Spalten von CSA für die Partialproduktelemente (z. B. die Elemente 42 von 1) bei dem Multiplizierarray, wobei sich insgesamt 22 Spalten für das gesamte Multiplizierarray ergeben. Es wird darauf hingewiesen, daß die resultierenden 22 Spalten des Multiplizierarrays nicht dem 16-Bit-Eingangssignal eines Operanden entsprechen (oder mit demselben „übereinstimmen"). Dies führt zu einem unterschiedlichen Layoutabstand für die CSA als demjenigen für die Eingangsschaltungsanordnung und ergibt eine sehr komplexe Führung in dem Layout für die Eingangsoperandensignale.

Die herkömmliche dynamische Multipliziererschaltungsanordnung, die die Booth-Codierung verwendet, ist aus mehreren Gründen problematisch. Zunächst ist bei dem Multiplizierarray eine erhebliche Führungskomplexität erforderlich, da das resultierende Multiplizierarray eine größere Anzahl von Spalten als die Anzahl von Bits bei den Operanden ergibt (d. h. da zusätzliche Spalten für die Vorzeichenerweiterung erforderlich sind). Darüber hinaus verbraucht die dynamische Schaltungsanordnungslösung solcher herkömmlicher Multiplizierer einen unerwünscht hohen Betrag an Leistung (aufgrund der dynamischen Schaltung und des dynamischen Takts) und erfordert eine unerwünscht gründliche Schaltungsüberprüfung, um sicherzustellen, daß die Schaltungsanordnung korrekt arbeitet. Ferner verbraucht eine solche Multipliziererschaltungsanordnung aufgrund der relativ hohen Anzahl von Komponenten, die bei einer herkömmlichen dynamischen Multipli ziererschaltungsanordnung erforderlich sind, einen unerwünscht hohen Betrag an Oberflächenbereich und erfordert unerwünscht hohe Kosten, um implementiert zu werden.

Es ist ferner ein weiterer Algorithmus, der als der „Baugh-Wooley"-Algorithmus bekannt ist, im Stand der Technik bekannt und ist überlicherweise bei Multiplizierern zum Durchführen einer vorzeichenbehafteten Multiplikation implementiert. Die Baugh-Wooley-Algorithmusimplementierung verwendet typischerweise ein Linearsummierungsarray, das weniger Komponenten und eine geringere Komplexität als diejenige von Multiplizierern ergibt, die den Booth-Codierungsalgorithmus verwenden. Solche herkömmlichen Multiplizierer, die ein Linearsummierungsarray implementieren, das den Baugh-Wooley-Algorithmus verwendet, ermöglichen jedoch lediglich die Durchführung einer vorzeichenbehafteten Multiplikation. Dementsprechend sind solche Multipliziererimplementierungen dahingehend sehr eingeschränkt, daß dieselben nicht in der Lage sind, eine vorzeichenlose Multiplikation durchzuführen.

Die Aufgabe der vorliegenden Erfindung besteht darin, einen Multiplizierer zu schaffen, mit dem sowohl eine vorzeichenbehaftete als auch vorzeichenlose Multiplikation mit weniger Aufwand erzielt werden kann.

Diese Aufgabe wird durch einen Multiplizierer gemäß Anspruch 1 gelöst.

Im Hinblick auf das im vorhergehenden Erwähnte besteht ein Wunsch nach einem Hochgeschwindigkeitsmultiplizierer, der ein Linearsummierungsarray zum Durchführen sowohl einer vorzeichenbehafteten als auch vorzeichenlosen Multiplikation aufweist. Es existiert ferner ein Wunsch nach einem Multiplizierer mit einem statischen Entwurf. Es existiert ein weiterer Wunsch nach einem Multiplizierer, der den Grad an Schaltungsanordnungs- und Führungs-Komplexität von herkömmlichen Multiplizierern reduziert.

Diese und weitere Aufgaben, Merkmale und technischen Vorteile werden durch ein System und ein Verfahren erzielt, die einen Multiplizierer liefern, der ein Linearsummierungsarray aufweist, das auf eine Art und Weise implementiert ist, die es ermöglicht, daß sowohl eine vorzeichenbehaftete als auch vorzeichenlose Multiplikation durchgeführt werden. Ein bevorzugtes Ausführungsbeispiel verwendet einen modifizierten Baugh-Wooley-Algorithmus, um ein optimales Gerade- und Ungerade-Linearsummierungsarray zum Durchführen von sowohl einer vorzeichenbehafteten als auch vorzeichenlosen Hochgeschwindigkeitsmultiplikation zu ermöglichen. Das heißt, daß ein bevorzugtes Ausführungsbeispiel ein Linearsummierungsarray ermöglicht, das kleiner an Größe und einfacher im Entwurf ist als die Multiplizierarrays, die im Stand der Technik typischerweise für die vorzeichenbehaftete Multiplikation implementiert sind. Angenommen, beispielsweise, eine 16-Bit-mal-16-Bit-Multiplikation wird durchgeführt, verwendet ein bevorzugtes Ausführungsbeispiel ein Linearsummierungsarray, das 16 mal 14 groß ist, und nicht, wie die herkömmlichen Multiplizierarrays, die wegen den zusätzlichen Vorzeichenerweiterungsspalten, die bei herkömmlichen Entwürfen verwendet werden, typischerweise 22 mal 14 groß sind.

Folglich passen die resultierenden Spalten des Multiplizierarrays eines bevorzugten Ausführungsbeispiels exakt zu dem Eingangsabstand der Operanden, was die Anzahl von Schaltungsanordnungskomponenten, die erforderlich sind, um das Multiplizierarray zu implementieren, sowie die Komplexität zur Führung innerhalb des Multiplizierarrays dramatisch reduziert. Zusätzlich implementiert ein bevorzugtes Ausführungsbeispiel einen statischen Entwurf zum Durchführen einer vorzeichenbehafteten und vorzeichenlosen Multiplikation, was weiterhin die Anzahl von Komponenten, die Komplexität, die Kosten und den Leistungsverbrauch des Multiplizierers reduziert. Der modifizierte Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels übersetzt einen vorzeichenbehafteten Operanden in einen vorzeichenlosen Operanden, um die Vorzeichenerweiterung für die Multiplikation sehr zu vereinfachen, und um ein relativ kleines Multiplizierarray zu ermöglichen, das keine Vorzeichenerweiterungsspalten aufweist, um zur Durchführung einer vorzeichenbehafteten Multiplikation verwendet zu werden. Der modifizierte Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels ermöglicht ferner, daß der Multiplizierer eine vorzeichenlose Multiplikation durchführt.

Es wird darauf hingewiesen, daß ein technischer Vorteil eines Aspekts der vorliegenden Erfindung darin besteht, daß ein Multiplizierer geliefert wird, der ein Linearsummierungsarray zum Durchführen von sowohl einer vorzeichenbehafteten als auch einer vorzeichenlosen Multiplikation aufweist. Insbesondere verwendet ein bevorzugtes Ausführungsbeispiel den Baugh-Wooley-Algorithmus, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen. Darüber hinaus liefert ein bevorzugtes Ausführungsbeispiel einen statischen Entwurf zum Durchführen von sowohl einer vorzeichenbehafteten als auch einer vorzeichenlosen Multiplikation. Ein weiterer Vorteil eines Aspekts der vorliegenden Erfindung besteht darin, daß eine lineare Summierung mit einer Gerade-Und-Ungerade-Struktur für sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation verwendet wird, was eine statische Struktur ermöglicht, die viel einfacher als die herkömmlichen Booth-Codierungsstrukturen zum Durchführen einer vorzeichenbehafteten Multiplikation ist. Die lineare Summierung mit einer Gerade-Und-Ungerade-Struktur ermöglicht einen statischen Hochgeschwindigkeitsmultipliziererentwurf, der der dynamischen Booth-Codierungsmultiplizierergeschwindigkeit ähnlich ist. Folglich besteht ein Vorteil eines Aspekts der vorliegenden Erfindung darin, daß dieselbe einen viel einfacheren Multipliziererentwurf mit weniger Fläche, weniger Kosten und weniger Leistung ermöglicht, als dies für herkömmliche Multiplizierer üblicherweise erforderlich ist, die eine vorzeichenbehaftete und vorzeichenlose Multiplikation durchführen. Folglich besteht ein Vorteil eines Aspekts der vorliegenden Erfindung darin, daß ein Multiplizierer offenbart wird, der ein Multiplikationsarray aufweist, das weniger Schaltungsanordnungs- und weniger Führungskomplexität erfordert, als dies für eine vorzeichenbehaftete Multiplikation bei herkömmlichen Multiplizierern erforderlich ist. Darüber hinaus besteht ein Vorteil eines Aspekts der vorliegenden Erfindung darin, daß ein statischer Entwurf für einen Multiplizierer offenbart wird, der die Leistung der Schaltungsanordnung reduzieren kann. Die kapazitive Stromlast eines bevorzugten Ausführungsbeispiels kann aufgrund eines kleineren und einfacheren Entwurfs um 60% oder mehr unter diejenige reduziert werden, die typischerweise bei herkömmlichen Multiplizierern erforderlich ist. Zusätzlich besteht ein weiterer Vorteil eines Aspekts der vorliegenden Erfindung darin, daß ein Multiplizierer offenbart wird, der eine Hochgeschwindigkeitsmultiplikation durchführen kann, während ein Multiplizierer geliefert wird, der kleiner, weniger komplex und zuverlässiger als herkömmliche Multiplizierer ist. Der Multiplizierer eines am meisten bevorzugten Ausführungsbeispiels ist beispielsweise mit einer Frequenz von 1 Gigahertz oder mehr betreibbar.

Die vorhergehende Beschreibung hat die Merkmale und technischen Vorteile der vorliegenden Erfindung eher grob erläutert, damit die folgende detaillierte Beschreibung der Erfindung besser verstanden werden kann. Zusätzliche Merkmale und Vorteile der Erfindung, die den Gegenstand der Ansprüche der Erfindung bilden, werden im folgenden beschrieben. Von Fachleuten sollte erkannt werden, daß die offenbarte Konzeption und das offenbarte spezifische Ausführungsbeispiel ohne weiteres als eine Basis zum Modifizieren oder Entwerfen weiterer Strukturen zum Ausführen der selben Zwecke der vorliegenden Erfindung verwendet werden können. Es wird darauf hingewiesen, daß solche äquivalenten Aufbauten den Schutzbereich der Erfindung, wie er in den beiliegenden Ansprüchen definiert ist, nicht verlassen.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
1 ein exemplarisches Multiplizierarray, das sich aus der Multiplikation von Operanden X[3:0] und Y[3:0] ergibt;
2A eine Schaltungsanordnung zum Erzeugen der Partialprodukte eines Multiplizierarrays und Eingeben solcher Partialprodukte in ein CSA-Array, um eine Endsumme und einen Endübertrag zu erzeugen;
2B eine Schaltungsanordnung zum Erzeugen eines Ausgangssignals eines Multiplizierers;
2C eine Schaltungsanordnung eines herkömmlichen Multiplizierers, der den Booth-Codierungsalgorithmus verwendet;
3A ein Beispiel von Partialprodukten bei einem Multiplizierarray für eine 16-Bit-mal-16-Bit-Multiplikation;
3B ein exemplarisches CSA-Array, das bei einem bevorzugten Ausführungsbeispiel implementiert sein kann;
3C eine physische Position in einem Layout der CSA-Arrayanordnung eines bevorzugten Ausführungsbeispiels;
4 Gleichungen für einen modifizierten Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels, der sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation ermöglicht;
5 ein Multiplizierarray, das bei einem bevorzugten Ausführungsbeispiel verwendet wird, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation zu ermöglichen;
6 detaillierter die Implementierung eines Eckbits des Multiplizierarrays von 5;
7A ein bevorzugtes Ausführungsbeispiel zum Erzeugen von Partialprodukten, die in das CSA-Array in eine Spalte des exemplarischen Multiplizierarrays von 5 eingegeben werden sollen;
7B ein bevorzugtes Ausführungsbeispiel zum Erzeugen von Partialprodukten, die in das CSA-Array in einer Zeile des exemplarischen Multiplizierarrays von 5 eingegeben werden sollen;
7C ein bevorzugtes Ausführungsbeispiel zum Erzeugen eines Partialprodukts, das in das CSA-Array des Bereichs 502 des exemplarischen Multiplizierarrays von 5 eingegeben werden soll;
7D ein bevorzugtes Ausführungsbeispiel zum Erzeugen eines Bits eines Bereichs 508 des exemplarischen Multiplizierarrays von 5;
8 eine exemplarische Übersicht der tatsächlichen physischen Implementierung des Multiplizierers eines bevorzugten Ausführungsbeispiels;
9 eine exemplarische parallele Implementierung von vier 16-mal-16- Multiplizierarrays, bei dem Multiplizierer eines am meisten bevorzugten Ausführungsbeispiels; und
10 ein exemplarisches Zeiteinteilungsdiagramm eines Zweitaktzyklus-Multiplizierers eines am meisten bevorzugten Ausführungsbeispiels.
Ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung implementiert ein Linearsummierungsarray mit einer Gerade-Und-Ungerade-Struktur bei einem Multiplizierer, um sowohl eine vorzeichenbehaftete als auch vorzeichenlose Multiplikation durchzuführen. Wie es im vorhergehenden beschrieben wurde, ist die dynamische Booth-Schaltungsanordnung typischerweise in herkömmlichen Hochgeschwindigkeits- (z. B. Hochfrequenz-CPU-) Multiplizierern implementiert. Bei einem bevorzugten Ausführungsbeispiel wird bei dem Multiplizierer der Baugh-Wooley-Algorithmus verwendet und auf eine Art und Weise implementiert, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen. Zusätzlich ergibt ein bevorzugtes Ausführungsbeispiel ein Multiplizierarray, das der Größe der Operanden näher entspricht, was den Grad an Schaltungsanordnung, die implementiert werden muß, und die Komplexität beim Durchführen der Führung innerhalb des Multiplizierarrays gegenüber typischen herkömmlichen Implementierungen reduziert.
Sich den 3A und 3B zuwendend wird ein exemplarisches CSA-Array 300 beschrieben, das bei einem bevorzugten Ausführungsbeispiel implementiert sein kann. Als ein Beispiel sei angenommen, daß eine Multiplikation für zwei 16-Bit-Operanden (d. h. X[15:0] und Y[15:0]) durchgeführt wird. Wie es in 3B gezeigt ist, werden bei einem am meisten bevorzugten Ausführungsbeispiel die Partialprodukte der gleichen Wertigkeit in das CSA-Array 300 eingegeben, von dem zur Vereinfachung lediglich ein Abschnitt dargestellt ist. Ein am meisten bevorzugtes Ausführungsbeispiel implementiert eine sogenannte Gerade-und-Ungerade-Schaltungstechnik, die im wesentlichen ein paralleles Schema zum Addieren von Bits gleicher Wertigkeit der Partialprodukte für X·Y ist. 3A zeigt die Partialprodukte in der Reihenfolge der Wertig keit. Die Partialprodukte in der selben vertikalen Spalte weisen die selbe Wertigkeit auf. 3B zeigt die Logik und die Verbindungen zwischen den CSA-Zellen. Die Gerade-und-Ungerade-Struktur eines bevorzugten Ausführungsbeispiels verdoppelt im wesentlichen die Geschwindigkeit des Linearsummierungsmultiplizierers (d. h. verringert die Zeitdauer, die für seine Operation erforderlich ist, um die Hälfte), verglichen zu dem üblichen seriellen CSR-Array. 3C zeigt die physische Position in einem Layout der CSA-Arrayanordnung eines bevorzugten Ausführungsbeispiels. Die CSA-Zellen der selben Wertigkeit verlaufen unter 45 Grad von der Links-Oben-Zu-Unten-Rechts-Diagonallinie, wobei die Führung für die Verbindungen des CSA-Arrays in der gleichen Richtung verlaufen. Dies kann die Multiplikation von 16-Bit-mal-16-Bit-Operanden in dem Layout in 16 mal 14 CSA-Zellen physisch einpassen.
3B liefert ein einfaches Beispiel eines Linearsummierungs-CSA-Arrays mit einer Gerade-Und-Ungerade-Struktur für die Wertigkeit 12. Wie es in 3B gezeigt ist, nimmt bei der 16-Bit-mal-16-Bit-Multiplikation (z. B. X[15:0] Y[15:0]) der erste CSA in der geraden Reihe (gezeigt als CSA 310) die ersten drei Zeilen von Partialprodukten mit Wertigkeit 12 (d. h. X₁₂·Y₀, X₁₁·Y₁ und X₁₀·Y₂) als drei Eingangssignale entgegen. Der zweite CSA in dem Layout von 3B befindet sich in der ungeraden Zeile (gezeigt als CSA 312) in der schematischen Logikdarstellung, wobei derselbe die nächsten drei Zeilen von Partialprodukten mit Wertigkeit 12 (d. h. X₉·Y₃, X₈·Y₄ und X₇·Y₅) als drei Eingangssignale entgegen nimmt. Der CSA 310 addiert die drei Eingangssignale, um eine Summe S₁ und einen Übertrag C₁ zu erzeugen. Die Summe S₁ wird zusammen mit einem Übertrag C₂ der von einem CSA einer vorhergehenden Wertigkeit (d. h. Wertigkeit 11) erzeugt wird, und einem Partialprodukt in der 7. Reihe (d. h. X₆·Y₆) in einen CSA 314 eingegeben. Dementsprechend addiert der CSA 312 drei Eingangssignale, um eine Summe S₃ und einen Übertrag C₃ zu erzeugen. Die Summe S₃ wird zusammen mit einem Übertrag C₄ von einem CSA einer Wertigkeit 11 in der ungera den Zeile (physisches Layout) und unter Addition eines Partialprodukts in der 8. Reihe (X₅·Y₇) in ein CSA 316 eingegeben. Das CSA 314 erzeugt eine Summe S₅ und einen Übertrag C₅. Die Summe S₅ wird zusammen mit einem Übertrag C₆ der von dem vorhergehenden CSA in der geraden Reihe (d. h. mit Wertigkeit 11) erzeugt wird, und einem neuen Partialprodukt in der 9. Reihe (d. h. X₄·Y₈) in einen CSA 318 eingegeben. Dementsprechend erzeugt der CSA 316 (in der ungeraden Reihe) eine Summe S₇ und einen Übertrag C₇. Die Summe S₇ wird zusammen mit einem Übertrag C₈, der von der vorhergehenden ungeraden Reihe (d. h. mit Wertigkeit 11) erzeugt wird, und einem neuen Partialprodukt in der 10. Reihe (d. h. X₃·Y₉) in das CSA 320 eingegeben. Es wird darauf hingewiesen, daß das CSA-Array 300 weitere CSAs (nicht gezeigt) aufweist, die auf eine ähnliche Art und Weise wirken, um die Summen und Überträge zu addieren, bis schließlich eine Endsumme und ein Endübertrag in einem 4:2-CSA 322 zusammen addiert werden, um eine Endsumme S_F und einen Übertrag C_F zu erzeugen. Die CSA-Schaltungsstruktur 300 ist wohlbekannt und ist bei einem bevorzugten Ausführungsbeispiel implementiert, um zu ermöglichen, daß ein solches bevorzugtes Ausführungsbeispiel das erwünschte Geschwindigkeitsziel mit einem statischen Schaltungsentwurf erzielt.
Für eine Beschreibung dessen, wie der modifizierte Baugh-Wooley-Algorithmus bei einem bevorzugten Ausführungsbeispiel für eine vorzeichenbehaftete Multiplikation verwendet wird, wird auf die folgenden Gleichungen Bezug genommen, um den modifizierten Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels für die vorzeichenbehaftete Multiplikation eines N-Bit-Operanden A und eines N-Bit-Operanden B zu beschreiben, wobei dieselben ferner in 4 gezeigt sind:
Wie es im vorhergehenden gezeigt ist, sind die zwei Operanden (A und B) auf eine Art und Weise dargestellt, die die vorzeichenbehaftete Multiplikation derselben ermöglicht. Der Operand A ist dargestellt durch: S_A·(–1)·2^N– ¹ + A', wobei S_A das Vorzeichenbit für den Operanden A und N die Anzahl von Bits des Operanden A ist. A' ist der Rest des Operanden A, wenn sein Vorzeichenbit ignoriert wird. Wie es in der Technik wohlbekannt ist, weist, wenn ein Vorzeichenbit eines Operanden 1 ist, der Operand einen negativen Wert auf, wobei der Operand, wenn das Vorzeichenbit des Operanden 0 ist, einen positiven Wert aufweist. Dementsprechend wird der Operand B dargestellt durch: S_B·(–1)·2^N ^– ¹ + B', wobei S_B das Vorzeichenbit für den Operanden B und N die Anzahl von Bits des Operanden B ist. B' ist der Rest des Operanden B, wenn sein Vorzeichenbit ignoriert wird. Allgemein trennt der Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels das Vorzeichenbit eines Operanden von dem Rest der Bits und multipliziert daraufhin die beiden Operanden. Genauer ausgedrückt wird ein vierteiliger Term (oder eine vierteilige Gleichung) erzeugt, um das Produkt der Operanden A und B zu bestimmen, was in 4 dargestellt ist. Der erste Teil des Terms ist S_A·S_B·2^2N–2, was die Eckzelle 508 des Multiplizierarrays eines am meisten bevorzugten Ausführungsbeispiels ist, das in 5 gezeigt ist. Der zweite Teil des Terms ist (S_A·(–1)·2^N–1·B'), was die Spalte 504 des Multiplizierarrays von 5 ist. Der dritte Term ist (S_B·(–1)·2^N ^– ¹·A'), was die Zeile 506 des Multiplizierarrays von 5 ist. Der vierte Term ist (A'·B'), was der vorzeichenlose Arraykern 502 des Multiplizierarrays von 5 ist.
Der zweite Teil des Terms, der in 4 gezeigt ist (d. h. S_A·(–1)·2^N–1·B'), übersetzt den Operanden A von einem vorzeichenbehafteten Operanden in einen vorzeichenlosen Operanden. Dies bedeutet, daß, falls das Vorzeichenbit des Operanden A auf 1 eingestellt ist (was anzeigt, daß derselbe ein negativer Operand ist), der Operand invertiert wird. Der dritte Teil des Terms, der in 4 gezeigt ist (d. h. S_B·(–1)·2^N ^– ¹·A'), übersetzt den Operanden B von einem vorzeichenbehafteten Operanden in einen vorzeichenlosen Operanden. Das bedeutet, daß, falls das Vorzeichenbit des Operanden B auf 1 eingestellt ist (was anzeigt, daß derselbe ein negativer Operand ist), der Operand invertiert wird. Als ein Ergebnis implementiert ein bevorzugtes Ausführungsbeispiel den Baugh-Wooley-Algorithmus auf eine Art und Weise, die eine vorzeichenbehaftete Multiplikation in eine vorzeichenlose Multiplikation übersetzt, um Vorzeichenerweiterungen bei dem Multiplizierarray zu vermeiden.
Darüber hinaus implementiert ein bevorzugtes Ausführungsbeispiel den Baugh-Wooley-Algorithmus auf eine Weise, die es ermöglicht, daß sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchgeführt werden können, ohne daß ein großes Multiplizierarray erforderlich ist, in dem Zeichenerweiterungen implementiert sind, und mit einer leichten Modifikation bezüglich der typischen UND-Gatterschaltungsanordnung, die das Partialprodukt für das Multiplizier-CSA-Array erzeugt. Der modifizierte Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels für eine vorzeichenlose Multiplikation eines N-Bit-Operanden A und eines N-Bit-Operanden B ist wie folgt:
Wie es in der vorhergehenden Gleichung gezeigt ist, besteht der Unterschied zwischen der vorzeichenbehafteten Multiplikation und der vorzeichenlosen Multiplikation eines bevor zugten Ausführungsbeispiels in dem zweiten und dem dritten Term (die der Spalte 504 und der Zeile 506 des Multiplizierarrays 500 von 5 entsprechen). Da eine Vorzeichen(sign) Erweiterung für die vorzeichenbehaftete Multiplikation in das Bit des Bereichs 508 von 5 vorhanden ist, werden, wenn eine oder beide von S_A und S_B 1 ist (was anzeigt, daß einer oder beide Eingangsoperanden negativ sind), die Operanden in dem Bereich 504 und 506 invertiert. Dies ist der Grund dafür, daß das Bit 508 für die vorzeichenlose Multiplikation gleich (S_A·S_B) ist, und für die vorzeichenbehaftete Multiplikation das Bit 508 gleich (S_A+S_B) ist (wie es vollständiger bezugnehmend auf 6 und 7D erörtert wird).
Um mit dem selben Multiplizier-CSA-Array, das in dem modifizierten Baugh-Wooley-Algorithmus implementiert ist, der im vorhergehenden zur Durchführung der vorzeichenbehafteten Multiplikation beschrieben wurde, eine vorzeichenlose Multiplikation zu ermöglichen, wird eine spezielle Schaltungsanordnung verwendet, um das Partialprodukt zu manipulieren, das in das CSA-Array des Multiplizierers eingegeben wird, was bezugnehmend auf 7A–7D detaillierter erörtert wird. Das CSA-Array eines bevorzugten Ausführungsbeispiels ist implementiert, um ein Multiplizierarray 500 zu erzeugen, wie es in 5 gezeigt ist. Wie es gezeigt ist, umfaßt das Multiplizierarray 500 die Terme, die für den Algorithmus von 4 zur Berechnung des Produkts von zwei Operanden A und B erforderlich sind. Das heißt, daß das Multiplizierarray 500 den vorzeichenlosen Arraykern aufweist, der dem Term (A'·B') der Gleichung von 4 genügt. Das Multiplizierarray 500 umfaßt ferner eine Spalte 504, die bei einem bevorzugten Ausführungsbeispiel die äußerste linke Spalte des Multiplizierarrays ist, und die dem Term (S_A·(–1)·2^N–1·B') der Gleichung von 4 genügt. Darüber hinaus umfaßt das Multiplizierarray 500 bei einem bevorzugten Ausführungsbeispiel die untere Zeile 506, die dem Term (S_B·(–1)·2^N–1·Α') der Gleichung von 4 genügt. Zusätzlich umfaßt das Multiplizierarray 500 eine Zelle, die bei einem bevorzugten Ausführungsbeispiel das Eckbit 508 ist, das dem Term (S_A·S_B) der Gleichung von 4 genügt.
Dementsprechend erzeugt das Summieren dieser vier Terme der Gleichung von 4 das Produkt der zwei Operanden A und B. Folglich liefert ein bevorzugtes Ausführungsbeispiel ein Multiplizierarray 500, das verwendet werden kann, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen, wobei die vorzeichenlose Multiplikation ermöglicht wird, indem eine leichte Modifikation bezüglich der UND-Gatterschaltungsanordnung implementiert wird, um die Partialprodukte für die Bereiche 504 und 506 des Multiplizierarrays 500 zu erzeugen. Die Schaltung für die CSA-Partialprodukteingabe der Bereiche 504 und 506 eines bevorzugten Ausführungsbeispiels ist in 7A und 7B gezeigt, die detaillierter im folgenden beschrieben werden.
Zusätzlich ist das Multiplizierarray 500 eines bevorzugten Ausführungsbeispiels relativ zu herkömmlichen Multiplizierarrays zum Durchführen einer vorzeichenbehafteten Multiplikation kleiner. Insbesondere beseitigt das Multiplizierarray 500 eines bevorzugten Ausführungsbeispiels das Erfordernis, eine Vorzeichenerweiterung, wie z. B. eine Vorzeichenerweiterung 44 des Arrays 40, die in 1 gezeigt ist und in dem Multiplizierarray umfaßt ist, aufzuweisen. Als ein Ergebnis stimmt das Multiplizierarray enger mit der Größe der Eingangsoperanden überein (oder entspricht denselben). Falls beispielsweise zwei 16-Bit-Operanden in den Multiplizierer eingegeben werden, ist das Multiplizierarray eines bevorzugten Ausführungsbeispiels ein 16-mal-14-Array und nicht ein 22-mal-14-Array, das für herkömmliche Implementierungen, die die Booth-Codierung für die vorzeichenbehaftete Multiplikation verwenden, typischerweise erforderlich ist. Als ein Ergebnis ist die Schaltungsanordnung, die zur Implementierung des Multiplizierarrays 500 eines bevorzugten Ausführungsbeispiels erforderlich ist, reduziert, wodurch die Komplexität der Führung innerhalb des Multiplizierarrays, der Oberflächenbereich, der durch das Multiplizierar ray eingenommen wird, die Leistung, die durch das Multiplizierarray verbraucht wird, und die Kosten der Implementierung des Multiplizierarrays reduziert werden.
Die Funktionsweise des Eckbits von 508 des Multiplizierarrays 500 bei einem bevorzugten Ausführungsbeispiel ist detaillierter in 6 gezeigt. Wie es in 6 gezeigt ist, ist das Eckbit 508 aufgrund der Vorzeichenerweiterung von den Bereichen 504 und 506 das Ergebnis von (S_A + S_B), wenn einer oder beide der Eingangsoperanden (A und B) einen negativen Wert aufweisen, und die Eingangssignale bei den Bereichen 504 und 506 entsprechend invertiert sind. Genauer ausgedrückt ist das Eckbit 508 das Ausgangssignal einer logischen ODER-Verknüpfung 602, in das das Vorzeichenbit des Operanden A (d. h. S_A) und das Vorzeichenbit des Operanden B (d. h. S_B) eingegeben werden. Folglich ist das Eckbit 508, wie es die Tabelle von 6 veranschaulicht, auf einen logisch hohen Zustand eingestellt (z. B. eine logische 1), falls sich entweder eines der beiden oder beide der Vorzeichenbits in einem logisch hohen Zustand befinden, wobei das Eckbit 508 auf einen logisch niedrigen Zustand eingestellt ist (z. B. einer logischen 0), falls sich beide Vorzeichenbits in einem logisch niedrigen Zustand befinden.
Es wird sich nun 7A und 7B zugewandt. Es ist ein bevorzugtes Ausführungsbeispiel zum Erzeugen von Partialprodukten gezeigt, die in das CSA-Array der Bereiche 504 und 506 des Multiplizierarrays 500 eingegeben werden sollen. Wie es im vorhergehenden erörtert wurde, führt ein bevorzugtes Ausführungsbeispiel eine vorzeichenlose Multiplikation durch, indem das Partialprodukt manipuliert wird, das in die CSA-Zellen in den Bereichen 504 und 506 eingegeben wird. Bei einer vorzeichenlosen Multiplikation ist S_A nicht das Vorzeichen des Operanden A. Vielmehr ist S_A das höchstwertige Bit („MSB") des Operanden A. Für die vorzeichenlose Multiplikation lautet die Gleichung für den Bereich 504 (S_A·2^N–1·B'). Im Vergleich dazu lautet die Gleichung für den Bereich 504 bei der vorzeichenbehafteten Multiplikation (S_A·(–1)·2^N–1·B'). Bei der Implementierung der vorzeichenlosen Multiplikation wird, wenn S_A 1 ist, B' direkt in die CSA-Zellen des Bereichs 504 eingegeben, während, wenn S_A 0 ist, das Eingangssignal zu den CSA-Zellen des Bereichs 504 0 ist. Bei der Implementierung der vorzeichenbehafteten Multiplikation wird, wenn S_A 1 ist (was anzeigt, daß der Operand A negativ ist), B' invertiert, um die Eingangssignale für die CSA-Zellen des Bereichs 504 zu erzeugen, wobei, wenn S_A 0 ist (was anzeigt, daß der Operand A positiv ist), das Eingangssignal zu den CSA-Zellen des Bereichs 504 0 ist. Dies ermöglicht, daß das selbe Multiplizierarray zur Durchführung von sowohl der vorzeichenbehafteten als auch der vorzeichenlosen Multiplikation verwendet wird. Dementsprechend wird der modifizierte Baugh-Wooley-Multiplizierer für die vorzeichenbehaftete Multiplikation eines bevorzugten Ausführungsbeispiels verwendet, um ebenfalls die vorzeichenlose Multiplikation durchzuführen.
Ein bevorzugtes Ausführungsbeispiel verwendet ein Vorzeichensteuerungsbit, um das modifizierte Baugh-Wooley-Multiplizierarray zu steuern, um entweder eine vorzeichenbehaftete Multiplikation oder eine vorzeichenlose Multiplikation durchzuführen. Genauer ausgedrückt wird, wenn eine vorzeichenbehaftete Multiplikation durchgeführt wird, das Vorzeichensteuerungsbit bei einem bevorzugten Ausführungsbeispiel auf 1 eingestellt bzw. gesetzt. Wie es in 7A gezeigt ist, wird das Vorzeichensteuerungsbit mit dem Rest des Operanden in ein Exklusiv-ODER- (XOR-) Gatter 702 eingegeben. Wenn das Vorzeichensteuerungsbit auf 1 eingestellt ist, wird die vorzeichenbehaftete Multiplikation freigegeben. Dementsprechend wird Y[14:0] durch das XOR 702 invertiert. Das invertierte Y[14:0] wird daraufhin mit dem Vorzeichenbit des Operanden X, d. h. S_X, einer UND-Verknüpfung unterzogen, wobei die resultierenden Partialprodukte in die CSA des Bereichs 504 eingegeben werden. In diesem Fall ist der Operand X äquivalent zu dem Operanden A, der im vorhergehenden bei dem modifizierten Baugh-Wooley-Algorithmus (z. B. S_X = S_A) beschrieben wurde, wobei der Operand Y äquiva lent zu dem Operanden B ist, der im vorhergehenden bei dem modifizierten Baugh-Wooley-Algorithmus (z. B. S_Y = S_B) beschrieben wurde. Wenn das Vorzeichensteuerungsbit auf 0 eingestellt ist, ist die vorzeichenlose Multiplikation freigegeben. Dementsprechend wird Y[14:0] weitergeleitet, um mit dem Vorzeichenbit des Operanden X, d. h. S_X, einer UND-Verknüpfung unterzogen zu werden, wobei die resultierenden Partialprodukte in die CSA des Bereichs 504 für eine vorzeichenlose Multiplikation eingegeben werden.
Wie es ferner in 7A gezeigt ist, wird das Ausgangssignal des XOR-Gatters 702 mit dem Vorzeichenbit des Operanden X (d. h. S_X) in ein UND-Gatter 704 eingegeben. Dementsprechend unterzieht das UND-Gatter 704, wenn die vorzeichenbehaftete Multiplikation durchgeführt wird, und falls S_X 1 ist (was anzeigt, daß X ein negativer Operand ist), das Bit S_X logischen UND-Verknüpfungen mit dem Ausgangssignal des XOR-Gatters 702, was den invertierten Operanden Y[14:0] ergibt. Das bedeutet, daß, wenn S_x 1 ist, das Ergebnis des UND-Gatters 704 der invertierte Operand Y[14:0] ist, was exakt die erwünschte Ausgabe für die vorzeichenbehaftete Multiplikation ist. Wenn jedoch S_X 0 ist (was anzeigt, daß X ein positiver Operand ist), ist das Partialprodukt, das durch das UND-Gatter 704 ausgegeben wird, 0. Darüber hinaus ist, wenn eine vorzeichenlose Operation durchgeführt wird, das Vorzeichensteuerungsbit auf 0 eingestellt. Folglich leitet das XOR-Gatter 20 den Operanden Y[14:0] an den Eingang des UND-Gatters 704 weiter. Das Bit S_X, das das höchstwertige Bit für den Operanden X ist, wird einer UND-Verknüpfung mit dem Operanden Y[14:0] unterzogen, um das Partialprodukt von (S_X·Y) zu ergeben, was exakt das ist, was für die vorzeichenlose Multiplikation erwünscht ist.
In der 7B ist die Schaltung zum Erzeugen des Partialprodukts gezeigt, das in das CSA-Array des Bereichs 506 von 5 eingegeben werden soll. Wie es gezeigt ist, ist die Schaltungsanordnung zu derjenigen von 7A ähnlich. Dementsprechend nimmt diese Schaltung X[14:0] zusammen mit dem Vorzeichensteuerungsbit bei dem XOR-Gatter 722 entgegen. Das Ergebnis des XOR-Gatters 722 wird in einem UND-Gatter 724 einer UND-Verknüpfung mit S_Y (dem Vorzeichenbit des Operanden Y) unterzogen, um die Partialprodukte zu erzeugen, die abhängig von dem Vorzeichensteuerungsbit für die vorzeichenbehaftete Multiplikation und die vorzeichenlose Multiplikation als Eingangssignale in die CSA des Bereichs 506 von 5 verwendet werden sollen. Wie es in 7C gezeigt ist, werden UND-Gatter, wie z. B. das UND-Gatter 732, verwendet, um die Partialprodukte für die CSA-Eingänge des Bereichs 502 des Multiplizierarrays 500 von 5, d. h. dem vorzeichenlosen Arraykern, zu erzeugen. Ein Vorteil eines Baugh-Wooley-Multiplizierers eines bevorzugten Ausführungsbeispiels besteht darin, daß der vorzeichenlose Kern lediglich einfache UND-Gatter, wie z. B. das UND-Gatter 732, erfordert, um die CSA-Eingangssignale zu erzeugen.
Für den Baugh-Wooley-Algorithmus eines bevorzugten Ausführungsbeispiels werden, wenn das Vorzeichensteuerungsbit 1 ist (was anzeigt, daß eine vorzeichenbehaftete Multiplikationsoperation durchgeführt wird), die Operanden entweder invertiert, wenn das Vorzeichenbit des anderen Eingangsoperanden 1 ist, oder auf Null gesetzt, wenn das Vorzeichenbit des anderen Eingangsoperanden 0 ist, und zwar entweder in der Spalte 504 des Multiplizierarrays 500 oder in der Zeile 506 des Multiplizierarrays 500 von 5. Wann immer ein Operand invertiert wird, addiert ein bevorzugtes Ausführungsbeispiel ein 1 bei dem Bit der Wertigkeit 15. Falls beide Operanden invertiert werden, addiert ein bevorzugtes Ausführungsbeispiel eine 2 zu dem Bit der Wertigkeit 15, was bedeutet, daß ein Bit zu dem Bit der Wertigkeit 16 addiert wird. Ein bevorzugtes Ausführungsbeispiel implementiert „Klebebits" bzw. „Haftbits" (Sticky-Bits) STY[16:15], um den korrekten Wert zu addieren, der für eine vorzeichenbehaftete Operation erforderlich ist. Bei einem bevorzugten Ausführungsbeispiel ist STY[16] gleich S_A·S_B (d. h. S_A UND S_B), und STY[15] ist gleich S_A XOR S_B. Dementsprechend befindet sich STY[15] lediglich dann in einem logisch hohen Zustand, falls sich eines der Vorzeichenbits für die Operanden A und B in einem logisch hohen Zustand befindet, wobei sich STY[16] lediglich dann in einem logisch hohen Zustand befindet, falls sich beide der Operanden A und B in einem hohen Zustand befinden. Bei einem bevorzugten Ausführungsbeispiel werden die sogenannten Klebebits STY[16:15] in einer bearbeitbaren Position innerhalb des CSA-Arrays implementiert, die jegliche bearbeitbare Position bei verschiedenen Implementierungen sein kann.
Wie es im vorhergehenden erörtert wurde, liegt der Unterschied zwischen der vorzeichenbehafteten Multiplikation und der vorzeichenlosen Multiplikation bei dem modifizierten Baugh-Wooley-Multiplizierer des bevorzugten Ausführungsbeispiels in den Bereichen 504, 506 und 508 des Multiplizierarrays von 5. Der vorzeichenlose Kern (der Bereich 502) ist für die vorzeichenbehaftete Multiplikation und die vorzeichenlose Multiplikation der selbe. Dies ist einer der Vorteile des Baugh-Wooley-Algorithmusses eines bevorzugten Ausführungsbeispiels. 7A und 7B veranschaulichen die Manipulation des Partialprodukts, das in die Bereiche 504 und 506 eingegeben wird, um sowohl die vorzeichenbehaftete als auch die vorzeichenlose Multiplikation bei einem bevorzugten Ausführungsbeispiel durchzuführen. Das Eckbit 508 ist gleich (S_A + S_B) für die vorzeichenbehaftete Multiplikation, wobei das Bit 508 gleich (S_A·S_B) für die vorzeichenlose Multiplikation ist. Folglich wird bei einem bevorzugten Ausführungsbeispiel, wie es in 7D gezeigt ist, eine leichte Modifikation an dem Logikgatter, um das Bit 508 zu erzeugen, verwendet, um sowohl die vorzeichenbehaftete als auch die vorzeichenlose Multiplikation zu ermöglichen.
Ein Multiplizierer eines bevorzugten Ausführungsbeispiels kann in einer Implementierung verwendet werden, wie sie in der ebenfalls anhängigen und der gemeinsam übertragenen U.S.-Anmeldung mit dem Titel „SYSTEM AND METHOD FOR PERFORMING POPCOUNT USING A MULTIPLIER" offenbart ist, deren Offenbarung hiermit hierin unter Bezugnahme aufgenommen wird. Folglich kann ein Multiplizierer eines bevorzugten Ausführungsbeispiels eine gewünschte Implementierung liefern, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen, als auch um eine Popcount- bzw. Entnahmezählung-Funktion für einen empfangenen Operanden durchzuführen.
8 zeigt eine Übersicht der Multiplizierereinheit 800 eines bevorzugten Ausführungsbeispiels. Bei einem bevorzugten Ausführungsbeispiel ist die Multiplizierereinheit in einer IA64-Mikroprozessor-Multimediaeinheit (MMU) implementiert. Darüber hinaus weist bei einem bevorzugten Ausführungsbeispiel die Multiplizierereinheit 800 eine Zweitaktzyklusoperation auf, was bedeutet, daß von dem Empfang zweier Eingangsoperanden bis zu der Berechnung der Ergebnisse für die Befehle (einschließlich der Manipulation der Partialprodukte für die Eingangssignale zu dem Multiplizierer-CSA-Array für die vorzeichenbehaftete/vorzeichenlose Multiplikation, das Addieren der Endsumme und des Endübertrags für das CSA-Array, um das Endmultiplikationsergebnis zu erzeugen (z. B. res[31:0]), das Schieben des Ergebnisses mit einer Schiebeeinrichtung entsprechend den Befehlen der Multiplizierereinheit, daraufhin das Treiben des geschobenen Ergebnisses in das Umgehungsnetzwerk und das Rückkoppeln des geschobenen Ergebnisses in die MMU-Röhre bzw. -Pipe, die eine der sechs MMU-Funktionseinheiten ist, die bei einem am meisten bevorzugten Ausführungsbeispiel implementiert sind) die Multiplizierereinheit zwei Taktzyklen braucht, um die notwendigen Befehle durchzuführen. Tatsächlich ist bei einem am meisten bevorzugten Ausführungsbeispiel die MMU eine Zweizyklenoperationseinheit.
8 zeigt eine Übersicht der tatsächlichen physischen Implementierung des Multiplizierers eines bevorzugten Ausführungsbeispiels (der das Gerade-und-Ungerade-Linearsummierungs-Baugh-Wooley-Multiplizierer-CSA-Array verwendet, wie es hierin im vorhergehenden beschrieben wurde). Wie es im vorhergehenden beschrieben wurde, nimmt das CSA-Array die modifizierten Partialprodukte von den Schaltungen entgegen, die in 7A, 7B, 7C und 7D gezeigt sind, um eine Endsumme und einen Endübertrag zu erzeugen. Die erste Zeile des CSA-Arrays in 8 weist die Wertigkeit 16 bis Wertigkeit 1 (von links nach rechts) auf. Die erste Zeile von CSAs in 8 addiert die ersten drei Zeilen (d. h. die 0. Zeile bis 2. Zeile) von Partialprodukten in 3A. Die zweite Zeile des CSA-Arrays in 8 weist die Wertigkeit 16 bis Wertigkeit 2 (von links nach rechts) auf. Diese zweite Zeile von CSAs in 8 addiert die zweiten drei Zeilen (d. h. von der 3. Zeile bis zu der 5. Zeile) von Partialprodukten in 3A. Es wird darauf hingewiesen, daß das CSA-Array eines bevorzugten Ausführungsbeispiels ein statischer Entwurf ist.
Die ersten zwei Zeilen von CSAs in 8 umfassen 16 Spalten von CSAs. Dies bedeutet 16 mal 2. Von der 3. Zeile bis zu der 14. Zeile gibt es lediglich 15 Spalten von CSAs. Dies bedeutet 15 mal 12. Ein statischer 10-Bit-Addierer wird verwendet, um die Summe S_F[12:3] und den Übertrag C_F[12:3] zu addieren, um res[12:3] zu erzeugen. S_F[30:0] ist die Endsumme für das CSA-Array, wobei C_F[30:0] der Endübertrag von dem CSA-Array ist. Das CSA-Array erzeugt bei einem bevorzugten Ausführungsbeispiel direkt, ohne die Hilfe des Addierers res[2:0]. Res[30:0] ist das Endergebnis von dem Multiplizierer (dem CSA-Array und den Addierern). Die Bits res[2:0], S_F[12:3] und C_F[12:3] gehen aus dem rechten Rand des Multiplizier-CSA-Arrays eines bevorzugten Ausführungsbeispiels, das in 8 gezeigt ist, hervor. S_F[12:3] und C_F[12:3] sind Eingangssignale zu dem statischen 10-Bit-Addierer, der res[12:3] erzeugt. Der 10-Bit-Addierer ist physisch in die Spalte des rechten Rands des CSA-Bereichs eines bevorzugten Ausführungsbeispiels eingepaßt. Die Bits S_F [30:13] und C_F [30:13] gehen aus dem unteren Ende des CSA-Arrays eines bevorzugten Ausführungsbeispiels, das in 8 gezeigt ist, hervor. Der statische 10-Bit-Addierer ist der Übertragsausbreitungssummenauswahladdierer (carry-propagate sum-select adder), der in der Technik wohl bekannt ist.
Da die Bits S_F[12:3] und C_F[12:3] früher als C_F[26:13] und S_F[26:13] erzeugt werden (da bei einem bevorzugten Ausführungsbeispiel S_F[3] und C_F[3] erzeugt werden, daraufhin S_F[4] und C_F[4] usw.), werden bei einem bevorzugten Ausführungsbeispiel die Bits res[12:3] zu dem selben Zeitpunkt wie C_F[26:13] und S_F[26:13] erzeugt, was der Fall ist, wenn der erste Taktzyklus endet. C_F[30:27] und S_F[30:27] werden in den statischen 4-Bit-Addierer eingegeben, der unterhalb des CSA-Arrays, das in 8 gezeigt ist, positioniert ist. Die Bits res[30:27] werden zu dem selben Zeitpunkt erzeugt, da res[12:3] und C_F[26:13] und S_F[26:13] erzeugt werden. Folglich werden mit dem Ende des ersten Taktzyklusses die Ergebnisse von res[30:27], C_F[26:13], S_F[26:13] und res[12:0] erhalten.
Zu dem Beginn des zweiten Taktzyklusses addiert der dynamische 14-Bit-Addierer C_F[26:13] und S_F[26:13], um res[26:13] zu erzeugen. Der dynamische 14-Bit-Addierer ist unterhalb des CSA-Arrays positioniert, wie es in 8 gezeigt ist. Das Multiplikationsergebnis res[30:27] wird daraufhin der Verschiebeeinrichtung bei der Multiplizierereinheit 800 (nicht gezeigt) zugeführt, um das Endergebnis der Einheit entsprechend parallelen Multipliziererbefehlen (PMUL-Befehlen) zu erzeugen.
Wie es in 9 gezeigt ist, sind bei dem PMUL-Multiplizierer 900 eines am meisten bevorzugten Ausführungsbeispiels für einen 64-Bit-Datenweg und für 64-Bit-Eingangsoperanden (z. B. A[63:0] und B[63:0]) vier 16-mal-16-Multiplizierarrays (gezeigt als Arrays 902, 904, 906 und 908) parallel vorhanden. Bei einem bevorzugten Ausführungsbeispiel sind in dem ersten Taktzyklus Latch-Schaltungen vorgesehen, um res[30:27], S_F[26:13], C_F[26:13] und res[12:0] zwischenzuspeichern. Zusätzlich liefert 10 ein exemplarisches Zeiteinteilungsdiagramm des CSA-Arrays und der Addierer des Zweizyklenmultiplizierers eines am meisten bevorzugten Ausführungsbeispiels. Wie es gezeigt ist, ist die Partialprodukterzeugung und die Erzeugung von S_F[30:3], C_F[30:3], res[2:0], res[12:3] (d. h. das Ergebnis des 10-Bit-Addierers) und res[30:27] (d. h. das Ergebnis des 4-Bit-Addierers] mit dem Ende des ersten Taktzyklusses abgeschlossen. Wie es ferner gezeigt ist, werden bei einem am meisten bevorzugten Ausführungsbeispiel in dem zweiten Taktzyklus das res[26:13] (d. h. das Ergebnis des dynamischen 14-Bit-Addierers) und das Schieben der Ergebnisse und Treiben der Ergebnisse zu dem Umgehungsnetzwerk- durchgeführt.
In Anbetracht der vorhergehenden Beschreibung liefert ein bevorzugtes Ausführungsbeispiel einen statischen Entwurf, der ein Linearsummierungsarray mit einer Gerade-Und-Ungerade-Struktur implementiert, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen. Genauer ausgedrückt verwendet ein bevorzugtes Ausführungsbeispiel einen modifizierten Baugh-Wooley-Algorithmus, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation durchzuführen. Ein Vorteil des Verwendens der linearen Summierung mit einer Gerade-Und-Ungerade-Struktur für sowohl die vorzeichenbehaftete als auch die vorzeichenlose Multiplikation besteht darin, daß dieselbe eine statische Struktur ermöglicht, die viel einfacher als die herkömmlichen Booth-Codierungsstrukturen sind, die eine Multiplex-Betrieb-Funktion mit mehr Komplexität als derjenigen eines bevorzugten Ausführungsbeispiels umfassen. Folglich ermöglicht ein bevorzugtes Ausführungsbeispiel einen viel einfacheren Entwurf mit weniger Fläche, weniger Kosten und weniger Leistung, als dies für herkömmliche Multiplizierer üblicherweise erforderlich ist, die eine vorzeichenbehaftete und eine vorzeichenlose Multiplikation durchführen. Folglich liefert ein bevorzugtes Ausführungsbeispiel einen Multiplizierer mit einem Multiplikationsarray, das eine geringere Schaltungsanordnungs- und eine geringere Leiterführungskomplexität erfordert, als dies bei herkömmlichen Multiplizierern für die vorzeichenbehaftete Multiplikation erforderlich ist. Bei einem bevorzugten Ausführungsbeispiel ergibt das Durchführen einer 16-Bit-mal-16-Bit-Multiplikation beispielsweise ein 16-mal-14-Multiplikationsarray anstatt des 22-mal-14-Multiplikationsarrays, das für die vorzeichenbehaftete Multiplikation bei Multiplizieren, die die Booth-Codierung verwenden, erforderlich ist. Dementsprechend passen die 16 Spalten des resultierenden Multiplizierarrays exakt in die Eingangsschaltungs- (wie z. B. Multiplexer, die Eingangssignale für die Multiplikation erzeugen) Datenwegsgröße in dem Layout und in dem Silizium (oder zu dem „Eingangsabstand") der Operanden.
Zusätzlich ergibt ein bevorzugtes Ausführungsbeispiel einen Multiplizierer, der die Multiplikation zumindest genauso schnell wie herkömmliche Hochgeschwindigkeitsmultiplizierer durchführt, während es einen einfacheren, kleineren und zuverlässigeren Multiplizierer mit einem statischen Entwurf liefert. Der Multiplizierer eines am meisten bevorzugten Ausführungsbeispiels ist beispielsweise mit einer Frequenz von 1 Gigahertz oder mehr betreibbar. Darüber hinaus verwendet ein bevorzugtes Ausführungsbeispiel eine Gerade-und-Ungerade-Schaltungsanordnungsimplementierung in dem CSA-Array, um die Geschwindigkeit der Durchführung der Multiplikation weiter zu verbessern. Ferner liefert ein bevorzugtes Ausführungsbeispiel einen statischen Entwurf, was die Leistung der Schaltungsanordnung reduzieren kann. Die kapazitive Stromlast eines bevorzugten Ausführungsbeispiels kann beispielsweise um 60% oder mehr unter diejenige reduziert werden, die typischerweise bei herkömmlichen Multiplizierern erforderlich ist. Ferner erfordert ein bevorzugtes Ausführungsbeispiel kein Taktschema, das üblicherweise bei herkömmlichen dynamischen Booth-Multiplizierern vorhanden ist. Zusätzlich erfordert ein bevorzugtes Ausführungsbeispiel eine viel weniger strenge Überprüfung während der Herstellung der Schaltungsanordnung verglichen zu herkömmlichen Multiplizierern.
Es wird darauf hingewiesen, daß ein bevorzugtes Ausführungsbeispiel in einem Prozessor implementiert sein kann, der für ein Computersystem, wie z. B. einen Personalcomputer (PC), einen Laptop-Computer oder einen Personaldatenassistentvorrichtung (PDA; PDA = personal data assistent) (z. B. einen Palmtop-PC) verwendet wird. Natürlich wird darauf hingewiesen, daß die vorliegende Erfindung jeglichen anderen Typ von Gerät ebenfalls umfassen soll, in das ein Multiplizierer implementiert werden kann.
Es wird darauf hingewiesen, daß, obwohl die vorliegende Erfindung und ihre Vorteile detailliert beschrieben worden sind, verschiedene Änderungen, Ersetzungen und Veränderungen hierin vorgenommen werden können, ohne den Schutzbereich der Erfindung zu verlassen, wie er durch die beiliegenden Ansprüche definiert ist. Darüber hinaus soll der Schutzbereich der vorliegenden Anmeldung nicht auf die speziellen Ausführungsbeispiele des Prozesses, der Maschine, der Herstellung, der Stoffzusammensetzung, der Einrichtung, der Verfahren und der Schritte, die in der Beschreibung beschrieben werden, eingeschränkt sein. Wie es ein Fachmann ohne weiteres aus der Offenbarung der vorliegenden Erfindung erkennen wird, können Prozesse, Maschinen, eine Herstellung, Stoffzusammensetzungen, Einrichtungen, Verfahren oder Schritte, die derzeit existieren oder die später entwickelt werden, und die im wesentlichen die selbe Funktion durchführen oder im wesentlichen das selbe Ergebnis wie die entsprechenden Ausführungsbeispiele, die hierin beschrieben sind, erzielen, gemäß der vorliegenden Erfindung verwendet werden. Dementsprechend sollen die anhängigen Ansprüche in ihrem Schutzbereich solche Prozesse, Maschinen, eine solche Herstellung, solche Stoffzusammensetzungen, Einrichtungen, Verfahren oder Schritte umfassen.

Claims

Multiplizierer mit einer Einrichtung (800) zum Empfangen zumindest zweier Operanden; und einer Einrichtung (800) zum Erzeugen eines Produkts der zumindest zwei Operanden, wobei die Erzeugungseinrichtung ein Linearsummierungsarray (300) mit einer Gerade-Und-Ungerade-Struktur zum Summieren von Partialprodukten der zumindest zwei Operanden aufweist, und wobei das Linearsummierungsarray (300) aufgebaut ist, um sowohl eine vorzeichenbehaftete als auch eine vorzeichenlose Multiplikation zu ermöglichen.
Multiplizierer gemäß Anspruch 1, bei dem das Linearsummierungsarray (300) gemäß einem modifizierten Baugh-Wooley-Algorithmus für die vorzeichenbehaftete Multiplikation implementiert ist.
Multiplizierer gemäß Anspruch 2, bei dem der modifizierte Baugh-Wooley-Algorithmus für die vorzeichenbehaftete Multiplikation ein Produkt der Operanden A und B als ein Ergebnis von ((SA·SB·22N–2) + (SA·(–1)·2N–1·B') + (SB·(–1)·2N–1·A') + (A'·B'))erzeugt, wobei N die Anzahl von Bits in jedem Operanden, S_A das Vorzeichenbit für den Operanden A, S_B das Vorzeichenbit für den Operanden B, A' die Bits des Operanden A ausschließlich seines Vorzeichenbits und B' die Bits des Operanden B ausschließlich seines Vorzeichenbits ist.
Multiplizierer gemäß Anspruch 3, bei dem der modifizierte Baugh-Wooley-Algorithmus ferner konfiguriert ist, um eine vorzeichenlose Multiplikation durchzufüh ren, wobei der modifizierte Baugh-Wooley-Algorithmus für die vorzeichenlose Multiplikation ein Produkt der Operanden A und B als ein Ergebnis von ((SA·SB·22N–2) + (SA·2N–1·B') + (SB·2N–1·A') + (A'·B'))erzeugt.
Multiplizierer gemäß einem der Ansprüche 2 bis 4, bei dem der Baugh-Wooley-Algorithmus einen vorzeichenbehafteten Operanden in einen vorzeichenlosen Operanden übersetzt.
Multiplizierer gemäß einem der Ansprüche 1 bis 5, bei dem die resultierenden Spalten des Linearsummierungsarrays (300) dem Eingangsabstand der Operanden entsprechen, die in den Multiplizierer eingegeben werden.
Multiplizierer gemäß Anspruch 6, wobei in den Multiplizierer zwei Operanden mit jeweils 16 Bits eingegeben werden, und wobei das Linearsummierungsarray (300), das sich aus den zwei Operanden ergibt, eine Größe von 16 mal 14 aufweist.
Multiplizierer gemäß einem der Ansprüche 1 bis 7, bei dem die Erzeugungseinrichtung (800) mit einem statischen Entwurf implementiert ist.
Multiplizierer gemäß einem der Ansprüche 1 bis 8, wobei der Multiplizierer ein Hochgeschwindigkeitsmultiplizierer ist.
Multiplizierer gemäß Anspruch 9, wobei der Multiplizierer mit einer Frequenz von 1 GHz oder mehr betreibbar ist.
Multiplizierer gemäß einem der Ansprüche 1 bis 10, wobei der Multiplizierer betreibbar ist, um eine Multi plikation durchzuführen, wenn für den Multiplizierer eine Multiplikation freigegeben wird, und wobei der Multiplizierer betreibbar ist, um eine Entnahmezählung durchzuführen, wenn eine Entnahmezählung für den Multiplizierer freigegeben ist.