DE69838877T2

DE69838877T2 - Architektur eines schnellen regulären multiplizierers

Info

Publication number: DE69838877T2
Application number: DE69838877T
Authority: DE
Inventors: Ingrid Encino VERBAUWHEDE
Original assignee: Atmel Corp
Current assignee: Atmel Corp
Priority date: 1997-10-28
Filing date: 1998-10-22
Publication date: 2008-12-11
Anticipated expiration: 2018-10-23
Also published as: EP1025486A4; TW405086B; KR20010040263A; NO20002193L; MY116428A; CN1278341A; NO20002193D0; CA2304334A1; WO1999022292A8; WO1999022292A1; HK1030822A1; JP2001521240A; EP1025486A1; CN1191519C; US6029187A; EP1025486B1; DE69838877D1

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft elektrische digitale Schaltungen zum Durchführen einer binären Multiplikation mittels Kreuzproduktsummen, d. h. parallele Multiplizierer, und betrifft insbesondere die Architektur einer solchen Anordnung einer Multiplikationsschaltung von Addierern zum Summieren der Partialprodukte. Architekturen, die für eine minimale Schaltungsfläche und/oder maximale Betriebsgeschwindigkeit optimiert sind, sind besonders relevant. Multiplizierer mit ausgeglichenen Signalausbreitungsverzögerungen zum Minimieren von störenden Übergängen sind auch relevant.
STAND DER TECHNIK
Eine Multiplikationsschaltung oder ein Multiplizierer besteht hauptsächlich aus drei Teilen: (1) einem Partialproduktgenerator, der aus einer Matrix von UND-Logikgattern besteht, die jeweils ein Bit eines Multiplikanden und ein Bit eines Multiplikators (hier die Zahl im Gegensatz zur Schaltung) verarbeiten, (2) einer Multiplizierermatrix (auch Addierermatrix genannt), die aus Spalten von Addieren besteht, die die Partialprodukte durch Summierung zu zwei Worten reduzieren, die gewöhnlich "Summen"-Wort und "Übertrag"-Wort genannt werden, und (3) einem Vektorkombinationsaddierer zum Addieren der Summen- und Übertragworte, was ein Ausgangswort, das Produkt, ergibt. Wenn zwei binäre Zahlen, ein M-Bit-Multiplikand und ein N-Bit-Multiplikator, multipliziert werden, werden gewöhnlich M×N Partialproduktterme erzeugt (obwohl einige zusätzliche Terme vorhanden sein können, um negative Zahlen zu handhaben), die man sich alternativ als N M-Bit-Partialprodukte vorstellen könnte, und das resultierende Produkt weist im Allgemeinen M + N Bits auf. In den meisten Multiplikationsschaltungen weisen sowohl der Multiplikand als auch der Multiplikator dieselbe N-Bit-Größe auf und das Produkt ist daher 2 N Bits breit.
Multiplikationsschaltungen werden, wenn sie in Digitalsignalprozessoren verwendet werden, mit einem Akkumulator kombiniert, so dass eine digitale Filterung und andere Signalverarbeitungsfunktionen leicht durchgeführt werden können. Die grundlegende Operation ist ACC:= ACC + (A·B) oder ACC:= ACC – (A·B). Das heißt, typischerweise addiert oder subtrahiert der Akkumulator das Ergebnis der Multiplikation mit dem vorherigen akkumulierten Wert. Der Akkumulator ist typischerweise P Bits breit, wobei P > 2 N, 2N Bits ist die Breite des Multipliziererprodukts und die am weitesten links liegenden (höchstwertigen) P – 2 N Bits, die Schutzbits genannt werden, sind vorhanden, um einen Überlauf zu verhindern. Das US-Pat. Nr. 4 575 812 , Kloker et al., beschreibt eine solche Multiplizierer/Akkumulator-Schaltung. Bei einer unkomplizierten Implementierung einer Multiplizierer/Akkumulator-Schaltung folgt der Akkumulatoraddierer dem Vektorkombinationsaddierer des Multiplizierers, so dass bei einer ersten Addition die Summen- und Übertragworte addiert werden, um das Multiplikationsprodukt zu bilden, und dann folgt diesem eine zweite Addition dieses Produkts mit dem Wert im Akkumulator. Alternativ könnte der Akkumulator mit dem Multiplizierer integriert werden, indem eine zusätzliche Reihe von Addierern zur Multiplizierermatrix hinzugefügt wird und das Zwei-Wort-Ergebnis zum Vektorkombinationsaddierer geliefert wird. Da nur ein Endaddierer bereitgestellt werden muss, vereinfacht dies den Konstruktionsaufwand und verbessert auch etwas die Geschwindigkeit.
Ungeachtet dessen, ob ein Multiplizierer allein oder eine kombinierte Multiplizierer/Akkumulator-Schaltung betrachtet wird, besteht der kritische Weg, der die Betriebsgeschwindigkeit festlegt, aus einer Verzögerung durch die Multiplizierermatrix und einer Verzögerung durch den Endaddierer (plus irgendeiner Verzögerung durch einen separaten Akkumulatoraddierer). Der Multiplizierer ist der langsamste Teil eines Digitalsignalprozessors, so dass irgendeine Verbesserung der Geschwindigkeit des Multiplizierers die Gesamtgeschwindigkeit des Prozessors verbessert. Eine Hochgeschwindigkeitsverarbeitung ist beispielsweise zum Implementieren von anspruchsvollen Sprach- und Kanalcodieralgorithmen für die Kommunikation mit digitalen Mobiltelefonen erforderlich. Ein weiterer Faktor ist die Anordnungsfläche und Regelmäßigkeit. Ein regelmäßiger Lageplan ist leicht zu entwerfen und anzuordnen, wohingegen ein unregelmäßiger Lageplan beträchtlich mehr Zeit und Aufwand für die Anordnung in Anspruch nimmt. Die Wahl einer Multipliziererarchitektur beinhaltet gewöhnlich Kompromisse zwischen Fläche und Geschwindigkeit. Baummultipliziererarchitekturen weisen eine zu O(log N) proportionale Verzögerung auf, wohingegen Matrixmultipliziererarchitekturen eine zu O(N) proportionale Verzögerung aufweisen (wobei N die Wortlänge in Bits ist). Folglich sind Baumarchitekturen schneller. Da jedoch Baummultiplizierer große Verschiebungen von Daten senkrecht zum Datenweg erfordern, ist ihre Implementierung hinsichtlich der Leitweglenkung intensiv, was eine größere Schaltungsfläche als Matrixmultiplizierer erfordert. Baumarchitekturen sind auch in ihrer Anordnung gewöhnlich sehr unregelmäßig.
Im US-Pat. Nrn. 5 343 417 und 5 586 071 beschreibt Flora eine Wallace-Baummultipliziererarchitektur, in der die Spalten von Volladdierern und Halbaddierern, die im Multiplizierer verwendet werden, um die Partialprodukte durch fortlaufende Addition zu Summen- und Übertragwerten zu reduzieren, so gewählt sind, dass die speziellen in jeder Addiererebene zu addierenden Eingangssignale vorgeschriebenen Regeln entsprechen, die die Betriebsgeschwindigkeit des Multiplizierers verbessern. US-Pat. Nrn. 5 181 185 , Han et al., und 5 504 915 , Rarick, offenbaren andere parallele Multiplizierer mit hoher Geschwindigkeit, die modifizierte Wallace-Baumaddierer zum Summieren der Spalten von Partialprodukten verwenden. Alle von diesen offenbarten Multiplikationsschaltungen stellen die grundlegende Anordnungsunregelmäßigkeit dar, die für Baummultipliziererarchitekturen charakteristisch ist. Die modifizierten Wallace-Bäume verzichten auf eine gewisse Geschwindigkeit, um eine größere Anordnungsregelmäßigkeit im Vergleich zu reinen Wallace-Baumarchitekturen zu erhalten.
US-Pat. Nr. 4 901 270 , Galbi et al., und ein Artikel von G. Goto et al. in IEEE Journal of Solid-State Circuits, Band 27, Nr. 9, September 1992, Seiten 1229–1234, beschreiben die Verwendung von Vier-zu-Zwei-Komprimierungsaddierern in Baummultiplizierern für die weitere Verbesserung ihrer Geschwindigkeit. Im US-Pat. Nr. 5 347 482 offenbart Williams, dass die Verwendung von Neun-zu-Drei-Addierern in einem Wallace-Baum die Anordnung und Signalleitweglenkung aufgrund der größeren Basisbaueinheiten des Baums vereinfacht und dennoch mit derselben Anzahl von Addiererverzögerungen wie ein Drei-zu-Zwei-(Voll-)Addierer arbeitet. Im US-Pat. Nr. 5 265 043 offenbaren Naini et al. eine Wallace-Baummultipliziererarchitektur, die mit ihren schnellen Dreioperandenaddierern versehen ist, die in einer L-fachen Anordnung oder einem L-fachen Lageplan angeordnet sind, um die Anordnungsregelmäßigkeit dieser Architektur zu verbessern und die erforderliche Anordnungsfläche zu verkleinern.
G. J. Hekstra et al. beschreiben in "A Fast Parallel Multiplier Architecture", Proceedings of IEEE Symposium an Circuits and Systems, Seiten 2128–2131, 1992, eine Architektur mit regelmäßiger Anordnung mit einer zu O(√N) proportionalen Verzögerung. Folglich bietet sie eine Alternative zur kompakten und regelmäßigen, aber langsamen Matrixmultipliziererarchitektur und zu schnellen Baummultipliziererarchitekturen, die jedoch unregelmäßig sind und eine große Schaltungsfläche aufweisen, wie der Wallace-Baummultiplizierer. Die Hekstra-Multipliziererarchitektur weist eine Struktur auf der Basis einer "Matrix von Matrizes" auf, die aus einer Anzahl von Untermatrizes besteht, die eine Reihe von Partialsummen erzeugen, die in eine Hauptmatrix eingespeist werden, die die Partialsummen addiert, um das Produkt zu bilden. Die Hauptmatrixstufen bestehen aus zwei Reihen von Volladdierern in einer Vier-zu-Zwei-Reduziererkonfiguration. Die Untermatrizes bestehen aus Reihen von Volladdierern zusammen mit den Partialproduktgeneratoren. Die Größen der Untermatrizes variieren und wurden sorgfältig gewählt, um die Ausbreitungsverzögerungen auszugleichen, so dass Summanden an einer Hauptmatrixstufe gleichzeitig mit der Partialsumme der vorherigen Stufe ankommen. Bei der Implementierung von Hekstra geschieht dies, wenn die Größen der Untermatrizes, d. h. die Anzahl von Volladdiererreihen, in Stufen von zwei von einer Untermatrix zur nächsten zunehmen.
Ein Artikel von T. Sakuta et al. in IEEE Symposium an Low Power Electronics: Digest of Technical Papers, Seiten 36– 37, Oktober 1995, hebt die Bedeutung des Verzögerungsausgleichs, um störende Übergänge zu minimieren und dadurch einen unnötigen Leistungsverlust zu minimieren, hervor. Addierer beginnen die Berechnung gleichzeitig, ohne auf die Ausbreitung von Summen- und Übertragsignalen von einer vorherigen Stufe zu warten, so dass, wenn die Summanden nicht gleichzeitig an einem Addierer eintreffen, sich störende Übergänge ergeben. Diese störenden Übergänge breiten sich auch zu nachfolgenden Stufen aus, was zu einer wachsenden Anzahl von Übergängen von einer Stufe zur nächsten führt. Herkömmliche Matrixmultipliziererarchitekturen sind von Natur aus unausgeglichen und verbrauchen folglich gewöhnlich viel Leistung. Im Gegensatz dazu sind Wallace-Baum-Multiplizierer aufgrund ihrer innewohnenden parallelen Struktur natürlich ausgeglichen und besitzen folglich eine geringere Wahrscheinlichkeit für das Auftreten von störenden Übergängen. Verzögerungsschaltungen könnten in die Signalwege von irgendwelchen Produkttermeingängen eingefügt werden, die eine Addiererleiter überspringen, um sie mit den anderen Eingängen von entsprechenden Addierern zu synchronisieren, wie von T. Sakuta et al. gelehrt. Hinsichtlich der vorstehend erwähnten Hekstra-Architektur, ist dieser Multiplizierer nur zufällig aufgrund einer geeigneten Auswahl der Untermatrixgrößen hinsichtlich der Verzögerung ausgeglichen.
Obwohl die Multipliziererarchitektur vom Hekstra-Typ im Vergleich zur Wallace- und zu anderen Baumarchitekturen sehr regelmäßig ist und fast so kompakt ist wie ein herkömmlicher Matrixmultiplizierer und auch viel schneller ist als ein Matrixmultiplizierer, ist sie immer noch etwas langsamer als die Baummultipliziererarchitekturen. Aufgrund ihrer natürlich ausgeglichenen parallelen Struktur war es relativ leicht, Vier-zu-Zwei-, Neun-zu-Drei- und andere Komprimierungsaddiererstrukturen in die Baummultiplizierer zu integrieren, ohne ihre ausgeglichene Signalausbreitung zu zerstören, um ihre Betriebsgeschwindigkeit zu erhöhen. Überdies haben modifizierte Baumarchitekturen und Hybrid-Baum-Matrix-Architekturen Entwicklern ermöglicht, die Regelmäßigkeit zu verbessern und die Schaltungsfläche in einem gewissen Ausmaß zu verringern, ohne zu viel Geschwindigkeit zu opfern. Wenn der Platz nicht an erster Stelle steht, wurden folglich Baumarchitekturen zur Konstruktion der Wahl. Wenn eine kleine Schaltungsfläche wesentlich ist, waren Schaltungsentwickler dazu gezwungen, mit Matrixmultiplizierern trotz ihrer langsamen Geschwindigkeit zurechtzukommen. Der Multiplizierer vom Hekstra-Typ ist nicht allgemein bekannt und wurde im Allgemeinen ignoriert. Da die einseitige Architektur von Addiereruntermatrizes, die in eine einzelne Hauptmatrix eingespeist werden, nicht von Natur aus ausgeglichen ist, sondern vielmehr nur durch die Konstruktion mit einer zweckmäßigen Auswahl von Untermatrixgrößen ausgeglichen ist, würden irgendwelche Modifikationen eine große Sorgfalt erfordern, wenn der Ausgleich aufrechterhalten werden soll.
Oklobdzija et al. schlagen in ihrem Dokument "Improving Multiplier Design by Using Improved Column Compression Tree and Optimized Final Adder in CMOS Technology", IEEE Transaction an VLSI Systems, Band 3, Nr. 2, Juni 1995, S. 292–301, eine Multipliziererstruktur unter Verwendung von Wallace-Baumaddierstrukturen vor. Eine solche Struktur ist von Natur aus ausgeglichen und die vorgeschlagene Verwendung von 4:2-Komprimierern darin erfüllt die Verzögerungsausgleichsanforderungen am besten. Die 4:2-Komprimierer weisen vier Signaleingänge und einen zusätzlichen Übertragausgang sowie einen zusätzlichen Übertragausgang, einen Summen- und einen Signalausgang auf. Das Problem, das diese Wallace-Baumaddierstruktur löst, betrifft die Tatsache, dass mehr Partialproduktbits mit mittlerer Bitwertigkeit summiert werden als Partialproduktbits mit hoher oder niedriger Bitwertigkeit. Folglich kommen die Ergebnisse der verschiedenen Summierungsbaumstrukturen für die verschiedenen Bitwertigkeiten nicht gleichzeitig am End-Übertrag-Ausbreitungsaddierer an. Oklobdzija et al. flachen das Signalankunftsprofil so weit wie möglich ab, indem sie die Wege in der Mitte der Struktur verkürzen.
US 5 497 342 offenbart einen zellulären Multiplizierer mit einer Vielzahl von ARC-Addierern, die in einer Kaskadenanordnung verbunden sind. Verbindungsoperatoren, die durch die ARC-Addierer gebildet sind, weisen eine unterschiedliche Signalweglänge in Abhängigkeit vom Eingangsanschluss der ARC-Addierer auf. In anschließenden Spalten werden beispielsweise spezielle Signale in die zweite und dritte Zeile der Multiplikationsschaltung eingegeben. Die verschiedenen Signalweglängen führen zu verschiedenen Signalverzögerungen.
Es ist eine Aufgabe der vorliegenden Erfindung, eine modifizierte Multipliziererarchitektur vom Hekstra-Typ mit verbesserter Betriebsgeschwindigkeit bereitzustellen, wobei spezielle Maßnahmen zum Beibehalten des Verzögerungsausgleichs vorgesehen sind.
Die Erfindung ist in den Ansprüchen 1 bzw. 11 definiert. Spezielle Ausführungsbeispiele sind in den abhängigen Ansprüchen dargelegt.
OFFENBARUNG DER ERFINDUNG
Die Aufgabe wurde mit einer Multipliziererarchitektur vom Hekstra-Typ, das heißt einer, bei der eine Vielzahl von Addiereruntermatrizes in eine Hauptaddierermatrix einspeisen, gelöst, welche modifiziert wurde, indem Paare von Volladdierern in den Untermatrizes gegen Vier-zu-Zwei-Komprimierungsaddiererschaltungen, die nachstehend als Komprimiererschaltungen bezeichnet werden, auf eine Weise ausgetauscht wurden, die das Gleichgewicht der Signalausbreitungsverzögerungen bewahrt, so dass Partialsummen in jeder Stufe der Hauptmatrix gleichzeitig ankommen. Zwei Arten von Komprimiererschaltungen, die als symmetrische und asymmetrische Komprimierer bezeichnet werden, werden in verschiedenen Teilen der Multipliziererarchitektur verwendet. Die asymmetrischen Komprimierer werden verwendet, wann immer nicht alle ihrer Eingangssignale gleichzeitig zur Verfügung stehen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 und 2 sind jeweilige Diagramme der Komponentenverbindungsstruktur und Blockanordnung einer typischen Baummultipliziererarchitektur des Standes der Technik.
3 und 4 sind jeweilige Diagramme der Komponentenverbindungsstruktur und Blockanordnung einer modifizierten Multipliziererarchitektur vom Hekstra-Typ gemäß der vorliegenden Erfindung, die zum Vergleich mit 1 und 2 nebeneinander angeordnet sind.
5 ist ein detailliertes schematisches Blockdiagramm einer bevorzugten Multipliziererarchitektur der vorliegenden Erfindung, das die Komponenten der Multiplizierermatrix der Architektur zeigt, die Partialprodukte durch Summierung verringern. Der End-Vektorkombinationsaddierer ist herkömmlich und ist nicht gezeigt.
6 und 7 sind algebraische Standardschreibweisen, die die Multiplikation durch bekannte Algorithmen für die Summe von Kreuzprodukten eines m-Bit-Multiplikanden und eines n-Bit-Multiplikators zum Bilden eines (m + n)-Bit-Produkts für jeweilige Schreibweisen ohne Vorzeichen und Zweierkomplement-Schreibweisen darstellen. Die Zweierkomplement-Multiplikation von 7 implementiert den im US-Pat. Nr. 3 866 030 offenbarten Baugh-Wooley-Algorithmus und wird durch die bevorzugte Multiplikationsschaltung von 5 ausgeführt.
8–11 sind Logikgatterebenen-Schaltpläne von Vier-zu-Zwei-Komprimiererschaltungen zur Verwendung in der Multiplikationsschaltung von 5.
12 und 13 sind Diagramme der Komponentenverbindungsstruktur für zwei alternative modifizierte Multipliziererarchitekturen vom Hekstra-Typ gemäß der vorliegenden Erfindung.
BESTE ART ZUR AUSFÜHRUNG DER ERFINDUNG
Mit Bezug auf 1–4 wird eine Baumarchitektur des Standes der Technik nebeneinander mit einer Architektur gemäß der vorliegenden Erfindung dargestellt, so dass ihre jeweiligen Strukturen, Leitweglenkung und Ausbreitungsverzögerungen verglichen werden können. In 1 ist zu sehen, dass die Struktur des Standes der Technik ein voller Binärbaum, d. h. ein Wallace-Baum, ist, wobei jeder Volladdierer (F) in einer Anfangsebene von Addierern (Ebene 0) einen Satz von Partialprodukten 13, typischerweise drei pro Addierer, verarbeitet, um eine Partialsumme zu erzeugen. Somit erzeugt die Anfangsebene einen Satz von Partialsummen gleich der Anzahl von Volladdierern (F) in der Ebene 0 der Struktur. Die Addierer (F) erzeugen auch eine gleiche Anzahl von Überträgen, die zur Ebene 1 einer ähnlichen Baumstruktur übertragen werden, die für das Summieren von Partialprodukten der Ebene mit nächsthöherer Wertigkeit für das binäre Produkt verantwortlich ist. In 1 besteht die Ebene 1 aus einem Satz von 4-zu-2-Komprimiererschaltungen wie z. B. jenen, die von Goto et al. in IEEE Journal of Solid-State Circuits, Band 27, Nr. 9, September 1992, Seiten 1229–1235, beschrieben sind. Jede Komprimiererschaltung führt die Operationen von zwei Volladdierern in Reihe aus, weist jedoch eine Ausbreitungsverzögerung von etwa 1,5 mal einer Volladdiererverzögerung auf. Zwei Volladdierer könnten verwendet werden, falls erwünscht. Jede Komprimiererschaltung (C) in der Ebene 1 nimmt vier Eingangssignale von der Ebene 0, wie z. B. zwei Partialsummen, die von zwei Volladdierern (F) in der Ebene 0 im gleichen Baum ausgegeben werden, und zwei Überträge von äquivalenten Volladdierern der Ebene 0 in dem Baum, der für das Summieren der Partialprodukte der Ebene der nächstniedrigeren Wertigkeit des binären Produkts verantwortlich ist. Jede Komprimiererschaltung (C) der Ebene 1 empfängt auch einen weiteren Übertrag vom entsprechenden Komprimierer der Ebene 1 im Summierbaum mit nächstniedrigerer Wertigkeit. Die Komprimiererschaltung (C) der Ebene 1 erzeugt einen Übertrag für den entsprechenden Komprimierer der Ebene 1 im Summierbaum mit nächsthöherer Wertigkeit und einen zweiten Übertrag für einen Komprimierer der Ebene 2 im Summierbaum mit nächsthöherer Wertigkeit. Sie erzeugt auch eine Partialsumme für einen Komprimierer der Ebene 2 im gleichen Baum wie sie selbst. Die Komprimierer in den Ebenen 2 und 3 arbeiten auf eine ähnlich Weise. Auf diese Weise reduziert jeder Baum Partialprodukte derselben Wertigkeitsebene (zusammen mit Überträgen vom Summierbaum mit nächstniedrigerer Wertigkeit) zu einer Endsumme und einem Endübertrag. Jede fortlaufende Ebene reduziert die Anzahl von Partialsummen auf die Hälfte, so dass die Anzahl von erforderlichen Ebenen (und daher die Ausbreitungsverzögerung) in der Größenordnung von log(N) liegt, wobei N die Anzahl von zu summierenden Partialprodukten ist. Der Baum in 1 ist in der Lage, bis zu 24 Partialprodukte zu handhaben (8 Volladdierer mal 3 Partialprodukte pro Addierer).
Ein Problem bei solchen Baumstrukturen tritt auf, wenn versucht wird, eine solche Architektur auf eine etwas regelmäßige Weise anzuordnen. Da die Struktur baumartig ist, ist es schwierig, sie in eine rechteckige Form zu bekommen. In 2 ist der Baum von 1, der für eine einzelne bitweise Wertigkeitsebene im Endprodukt verantwortlich ist, auf eine lineare Weise angeordnet, so dass benachbarte Bäume nebeneinander angeordnet werden können, um die Übertragung der Übertragsignale von einem Bitspaltenbaum zum nächsten zu erleichtern. Jeder Block oder jede Zelle in 2 stellt entweder einen Volladdierer (F) oder eine Komprimiererschaltung (C) dar. Wie vorher erwähnt, könnten Paare von Volladdierern anstelle der Komprimiererschaltungen verwendet werden. Jede Zelle in 2 gibt auch die Ebene an, zu der sie gehört (L0, L1, L2, L3). Die Übertragung von Partialsummen zur nächsten Ebene ist durch die Pfeile zwischen Zellen angegeben. Es ist zu sehen, dass die Baumarchitektur ein ernstes Leitweglenkungsproblem aufwirft. Nur die Hälfte der Verbindungen zwischen Zellen sind lokal, wohingegen die andere Hälfte eine Leitweglenkung durch eine oder mehrere zwischenliegende Zellen erfordert. Mit jeder zusätzlichen Ebene, die zur Baumhierarchie hinzugefügt wird, verdoppelt sich die Länge von nicht-lokalen Leitungen, so dass, während die Verbindung der Zelle der Ebene 0 und der Zellen der Ebene 1 nicht-lokale Leitungen 15 erfordert, die zwei Zellen lang sind, einige Verbindungen zwischen den Ebenen 1 und 2 nicht-lokale Leitungen 17 erfordern, die vier Zellen lang sind, und eine bestimmte Verbindung zwischen den Ebenen 2 und 3 eine Verdrahtung 19 erfordert, die acht Zellen lang ist. Mit jeder zusätzlichen Ebene in der Hierarchie müssen überdies zwei zusätzliche Leitwegbahnen durch Zellen vorgesehen werden. Die Zahlen auf der rechten Seite jeder Zelle in 2 zeigen die Anzahl von Leitungen von Zelle zu Zelle, die durch diese Zelle verlaufen. Verschiedene Zellen weisen verschiedene Zahlen von kreuzenden Bahnen, damit die Leitungen durchlaufen, in Abhängigkeit von ihrer Position in der Zeile von Zellen auf, wobei die späteren Zellen gewöhnlich mehr Bahnen erfordern. Diese Situation erfordert einen zusätzlichen Anordnungsaufwand, da jede Ebene in der Hierarchie eine andere Anordnungstopologie erfordert. Die Breiten der Zellen variieren gemäß der Anzahl von Verdrahtungsbahnen, die sie aufnehmen müssen. Es sind mehrere Blöcke von Zellen vorhanden, die zwei Volladdierer (F), gefolgt von einer Komprimiererschaltung (C) aufweisen. Die Blöcke 1, 2 und 3 sind jedoch alle von einem unterschiedlichen Anordnungstyp, da die verschiedenen Blöcke verschiedene Zahlen von Leitwegbahnen erfordern.
3 zeigt eine Architektur gemäß der vorliegenden Erfindung. Diese Architektur weist eine Sequenz von fortlaufend längeren Ketten (CSA0, CSA1, CSA2, CSA3, CSA4) von Addierern auf, die Partialsummen erzeugen, die in eine Reihe von Hauptaddiererstufen (MS1, MS2, MS3, MS4) eingespeist werden. Die Struktur ist eine Verbindung von schnellen Dreioperandenmatrizes. Zwei solche Untermatrizes (CSA0 und CSA1) bestehen jeweils aus einer Volladdiererzelle für jede Spalte von Partialprodukten und liefern Partialsummen zu einem ersten Hauptstufenaddierer MS1. Alle Hauptstufenaddierer sind Vier-zu-Zwei-Komprimiererschaltungen. Das Ausgangssignal des ersten Hauptstufenaddierers MS1 und die von noch einer anderen Untermatrix CSA2 gelieferte Partialsumme werden in einen zweiten Hauptstufenaddierer MS2 eingegeben. Um den korrekten Verzögerungsausgleich aufrechtzuerhalten, besteht die Untermatrix CSA2 aus einer Volladdiererzelle (F) und einer Komprimiererschaltung (C), so dass die durch die Untermatrix CSA2 erzeugte Partialsumme gleichzeitig mit jener der ersten Hauptstufe MS1 am zweiten Hauptstufenaddierer MS2 ankommt. Das Ausgangssignal des zweiten Hauptstufenaddierers MS2 und das von einer Untermatrix CSA3 gelieferte Partialsummenausgangssignal werden in einen dritten Hauptstufenaddierer MS3 eingegeben. Um einen korrekten Verzögerungsausgleich aufrechtzuerhalten, besteht die Untermatrix CSA3 wieder aus einem Volladdierer (F) und zwei Komprimiererschaltungen (C), um die Ausbreitungsverzögerung durch die zweite Hauptstufe MS2 abzugleichen. Diese Sequenz kann zu beliebig großen Strukturen fortfahren, wobei jede Stufe in der Größe eine weitere Hauptstufe (z. B. MS4) und eine weitere Untermatrix (z. B. CSA4) umfasst, wobei für einen korrekten Ausgleich die aufeinander folgenden schnellen Dreioperandenmatrizes, die die Untermatrizes bilden, die in die Hauptstufenaddierer eingespeist werden, in der Größe um eine Komprimiererschaltung pro Untermatrix zunehmen. Folglich würde die Untermatrix CSA4 aus einer Volladdiererstufe (F) und drei Komprimiererstufen (C) bestehen. Ein weiterer Unterschied, der von der einseitigen Art der "Verzweigung" in der Struktur benötigt wird, besteht darin, dass die Komprimiererschaltungen (C) für die Hauptstufen (MS1, MS2, MS3, MS4) symmetrische Schaltungen sind, da alle Eingangssignale natürlich gleichzeitig ankommen, wenn die Untermatrixgrößen korrekt gewählt sind, aber dass mindestens einige der Komprimiererschaltungen (C) in den Untermatrizes (CSA2, CSA3, CSA4) asymmetrische Schaltungen sind, da ihre Partialprodukt-Eingangssignale normalerweise früher ankommen würden als die Partialsummen, die von der vorangehenden Stufe der Untermatrizes ausgegeben werden. Zusätzliche Verzögerungsschaltungen können enthalten sein, wie jene, die im vorher angeführten Artikel von T. Sakuta et al. erwähnt sind. Eine detailliertere Beschreibung der symmetrischen und asymmetrischen Komprimierer wird nachstehend mit Bezug auf 8–11 vorgesehen.
Wenn man sich nun 4 zuwendet, ist ein Vorteil dieser modifizierten Struktur vom Hekstra-Typ zu sehen, wenn die Addiererstufen linear in Blöcken angeordnet sind. Im Gegensatz zur Baumarchitektur von 2 sind abgesehen von den Verbindungen von einer Hauptstufe zur nächsten Hauptstufe und von der Untermatrix CSA0 zur ersten Hauptstufe MS1 alle Verbindungen lokal. Ungeachtet der Gesamtgröße der Architektur, d. h. der Anzahl von zu reduzierenden Produkttermen und der Anzahl von Hauptstufen und Untermatrizes, die zu deren Reduktion erforderlich sind, durchkreuzen folglich niemals mehr als zwei Signalwege eine Untermatrixzelle und alle Zellen können dieselbe Größe aufweisen, um diese Signalwege oder Bahnen aufzunehmen. Die Anordnung ist sehr regelmäßig und nur wenige verschiedene Arten von Zellen sind erforderlich, die über die ganze Struktur wiederholt sind, wodurch der Entwurf vereinfacht wird. Die Volladdierer (F) in jeder Untermatrix können identisch sein, die Hauptstufen-Komprimiererschaltungen (C) können identisch sein und die Untermatrix-Komprimiererschaltungen (C) können identisch sein, ungeachtet dessen, ob sie sich in der Untermatrix CSA2 oder CSA3 oder der Stufe SA1 oder SA2 usw. befinden.
Mit Bezug auf 5 ist ein bevorzugtes Ausführungsbeispiel einer Multipliziererschaltung der vorliegenden Erfindung zum Ausführen einer binären Zweierkomplement-Multiplikation von 17 Bits mal 17 Bits unter Verwendung des Baugh-Wooley-Algorithmus von US-Pat. Nr. 3 866 030 , jedoch mit der verbesserten Multipliziererarchitektur von 3 und 4 ausgelegt. In 5 beziehen sich die Zahlen von 0 bis 33 an der Oberseite und Unterseite der Figur auf das spezielle Bit im resultierenden Produkt. Die kleinen rechteckigen Elemente mit diagonaler Schraffierung beziehen sich auf die Produkttermgeneratoren. Die anders schraffierten rechteckigen Elemente unmittelbar über der Untermatrixebene SA₃₁ und die ausgefüllten rechteckigen Elemente über den Halbaddiererzellen 2C₀ und 2C₁ sind auch Produktterme, die dem Baugh-Wooley-Zweierkomplement-Multiplikationsalgorithmus eigen sind. Alle Produktterme sind nachstehend in 7 detailliert dargestellt. Es gibt drei Grundarten von Addiererzellen, die in der Schaltung verwendet werden: Halbaddierer (H), Volladdierer (F) und Vier-zu-Zwei-Komprimiererschaltungen (C). Jeder von diesen Addierern ist auf dem Fachgebiet gut bekannt. Ferner sind die Vier-zu-Zwei-Komprimiererschaltungen (C) von zwei Arten, asymmetrisch für zumindest die Untermatrixstufe SA₃₁ in 5 (die im Gegensatz zu 3 und 4 die Komprimiererstufen SA₂₀, SA₃₀ und SA₃₁ vor den Volladdiererstufen SA₂₁ und SA₃₂ der Untermatrizes CSA₂ und CSA₃ anordnet), und ebenso in anderen Konfigurationen für andere Untermatrixstufen, und symmetrische Komprimiererschaltungen für zumindest die Hauptmatrixstufen MS1, MS2 und MS3. Die Konstruktion dieser zwei Komprimiererarten wird nachstehend mit Bezug auf 8–11 erörtert. Halbaddierer (H) könnten auch gegen Volladdierer (F) ausgetauscht werden, wobei einer der Eingänge auf den Logikpegel Null festgelegt ist. Ebenso könnte eine Kombination eines Volladdierers (F), gefolgt von einem Halbaddierer (H), innerhalb einer Stufe (oder sogar zwei Halbaddierer) gegen eine Komprimiererschaltung (C) ausgetauscht werden, wobei einer (oder zwei) der Eingänge auf Null festgelegt ist. Auf diese Weise kann noch mehr Regelmäßigkeit erhalten werden, wenn auch auf Kosten einer geringfügig weniger optimalen Addiererzelle.
Jede Zelle (H, F oder C) erzeugt sowohl einen Summenterm als auch einen Übertragterm. Repräsentative Verbindungen dieser Terme mit Eingängen in die Hauptmatrixstufen MS1, MS2 und MS3 sind durch die Pfeile gezeigt. Jede Zelle der Hauptstufen empfängt ein Summenterm-Ausgangssignal von einer vorherigen Hauptstufe (oder im Fall der Hauptmatrixstufe MS1 von der Untermatrix SA₀₀), ein Übertragterm-Ausgangssignal von dieser gleichen vorherigen Hauptstufe (oder Untermatrix SA₀₀), ein Summenterm-Ausgangssignal von der Untermatrixstufe, die zu dieser lokal ist, d. h. der Block von Addierern unmittelbar über ihr, und ebenso einen Übertragterm von dieser gleichen lokalen Untermatrixstufe. Die Summenterme stammen von Addiererzellen in derselben Bitspalte, während die Übertragterme von Addiererzellen der nächstniedrigeren Wertigkeit (d. h. unmittelbar rechts von den Zellen, die die Summenterme liefern) stammen. Somit empfängt beispielsweise die Komprimiererzelle (C) in der Bitspalte 18 der Hauptstufe MS3 einen Summenterm vom Komprimierer C in der Bitspalte 18 der Hauptstufe MS2, einen Übertragterm vom Komprimierer C in der Bitspalte 17 der Hauptstufe MS2, einen Summenterm vom Halbaddierer H in der Bitspalte 18 der Untermatrixstufe SA₃₂ und einen Übertragterm vom Volladdierer F in der Bitspalte 17 der Untermatrixstufe SA₃₂. In einigen Fällen steht das volle Komplement von zwei Summentermen und zwei Übertragtermen nicht zur Verfügung (beachtenswert weit links und weit rechts von den meisten Stufen), so dass eine Komprimiererzelle C nicht erforderlich ist und eine Volladdierer/Halbaddierer-Kombination oder sogar eine Halbaddierer/Halbaddierer-Kombination alles ist, was erforderlich ist. Der Ort der Bitspalte 9 der Hauptaddiererstufe MS2 empfängt folglich beispielsweise eine Summe und einen Übertrag von der Hauptstufe MS1, aber nur einen Summenterm von der Untermatrixstufe SA₂₁. Kein Übertragterm von der Bitspalte 8 der Stufe SA₂₁ wird erzeugt, so dass eine Komprimiererzelle in der Stufe MS2 – Spalte 9 nicht erforderlich ist. Wie vorher angegeben, könnten die Komprimierer (C) an jenen Stellen mit geeigneten festen Logikeingangssignalen von Null verwendet werden. Die Verbindungen zwischen aufeinander folgenden Stufen derselben Untermatrix, nämlich der Stufen SA₂₀ und SA₂₁ der Untermatrix CSA2 und der Stufen SA₃₀, SA₃₁ und SA₃₂ der Untermatrix CSA3, sind rein lokal.
Mit Bezug auf 6 und 7 hängen die von der Multipliziererschaltung erzeugten Partialprodukte von der speziellen Binärzahlschreibweise und vom zu verwendenden Multiplikationsalgorithmus ab. Die in 5 gezeigte spezielle Schaltung führt die Baugh-Wooley-Zweierkomplement-Multiplikation von 7 durch. 6 zeigt die Multiplikation von zwei Binärzahlen in einer Schreibweise ohne Vorzeichen, d. h. eines m-Bit- Multiplikanden [a_m-1a_m-2 ... a₂a₁a₀] und eines n-Bit-Multiplikators [b_n-1 ... b₂b₁b₀], um ein (m + n)-Bit-Produkt [P_m+n-1P_m+n-2P_m+n-3 ... P₂P₁P₀] zu bilden. Der verwendete Algorithmus ist ein unkompliziertes Verfahren mit einer Summe von Kreuzprodukten. Die Bitspalte der Partialprodukte (a_ib_j) entspricht der Summe der Bitwertigkeiten i und j, so dass beispielsweise das Partialprodukt (a_m-2b₁) eine Bitwertigkeit im Endprodukt von (m – 2) + 1 = (m – i) aufweist und in der Bitspalte für P_m-1 erscheint. Jede Spalte von Partialprodukten derselben Bitwertigkeit wird addiert, wobei die Überträge zur Spalte der nächsthöheren Bitwertigkeit übertragen werden. In 7 liegen der m-Bit-Multiplikand [a_m-1a_m-2 ... a₂a₁a₀] und der n-Bit-Multiplikator [b_n-1 ... b₂b₁b₀] in Zweierkomplement-Schreibweise vor. Folglich stellt [a_m-1a_m-2 ... a₂a₁a₀] die Zahl {–(a_m-1)2^m-1 + (a_m-2)2^m-2 + ... + (a₂)2² + (a₁)2¹ + (a₀)2⁰} dar und ebenso stellt [b_n-1 ... b₂b₁b₀] die Zahl (–(b_n-1)2^n-1 + ... + (b₂)2² + (b₁)2¹ + (b₀)2⁰} dar. Man beachte die Subtraktion in der höchstwertigen Bitposition. Der Baugh-Wooley-Algorithmus erzeugt Kreuzprodukte, in denen ein Eingangssignal vom Multiplikator vom Partialprodukt des höchstwertigen Bits (MSB) jeder Zeile abgesehen von der letzten Zeile invertiert ist (b ₀, b ₁, b ₂, ..., b _n-2), ein Eingangssignal vom Multiplikanden von den Partialprodukten der letzten Zeile abgesehen vom MSB-Partialprodukt invertiert ist (a ₀, a ₁, a ₂, ..., a _m-2) und zusätzliche Terme a_m-1, b_n-1, a _m-1, b _n-1 und 1 in den Bitpositionen m – 1, n – 1, m + n – 2, m + n – 2 bzw. m + n – 1 addiert werden. In der Praxis wird jedoch eine "1" nicht tatsächlich zur Bitposition m + n-2 addiert. Statt dessen wird der Übertrag aus dem Halbaddierer 2C₁ invertiert und in den Halbaddierer H in der Bitposition 33 der Hauptstufe MS3 eingespeist. Der Übertrag aus dem Halbaddierer 2C₁ ist auch mit der Bitposition 34 des Summenausgangs der Hauptstufe MS3 verbunden. Dieses Implementierungsdetail vermeidet es, einen konstanten Wert in der Architektur vorsehen zu müssen. Wiederum werden die Spalten von Partialprodukten mit derselben Bitwertigkeit addiert, wobei die Überträge zur Spalte der nächsthöheren Bitwertigkeit übertragen werden. Das Ergebnis ist ein Produkt, das auch in Zweierkomplement-Schreibweise vorliegt. In 5 werden, da m = n = 17 ist, die addierten Terme zu den Halbaddierern 2C₀ und 2C₁ in den Bitspalten 16 und 32 und zum Halbaddierer (H) der Hauptstufe MS3 in der Bitspalte 33 geliefert.
In 3 ist die Endaddition der Summen- und Übertragworte, die durch die gezeigte Struktur erzeugt werden, durch einen Vektorkombinationsaddierer nicht gezeigt. Dieser Vektorkombinationsaddierer ist im Wesentlichen zu irgendeinem von jenen, die im Stand der Technik zu finden sind, identisch. Mehrere Alternativen sind möglich: Übertragwelligkeit, Parallelübertrag, Übertragauswahl usw. Irgendeine zusätzliche Reihe von Addierern entweder vor oder nach dem Vektorkombinationsaddierer zum Addieren der Akkumulatorbitwerte in einer integrierten Multiplizierer-Akkumulator-Schaltung ist ebenfalls nicht gezeigt. Wiederum ist dies wie jene, die im Stand der Technik zu finden ist. In Bezug auf 1–4 wird schließlich angemerkt, dass die Struktur nicht mit einer Reihe von Volladdierern beginnen muss. Ob Volladdierer verwendet werden, hängt von der Größe der vorliegenden Multipliziererschaltung ab. Das Ausführungsbeispiel der vorliegenden Erfindung, das in 5 gezeigt ist, zeigt beispielsweise einen 17×17-Multiplizierer und erfordert somit eine anfängliche Reihe von Volladdierern, wie in 3 und 4 widergespiegelt.
Mit Bezug auf 8–11 sind verschiedene mögliche Vier-zu-Zwei-Komprimiererschaltungen gezeigt. Diese ersetzen Paare von aufeinander folgenden Volladdierern, weisen jedoch eine Verzögerung von nur etwa 1,5 Volladdierern auf. Diese Verringerung der Verzögerungen verbessert die Betriebsgeschwindigkeit, aber benötigt extreme Sorgfalt, wenn versucht wird, eine ausgeglichene Multipliziererstruktur zu konstruieren. Diese Komprimiererschaltungen sind auch als Fünf-zu-Drei-Komprimierer bekannt, da zwei zusätzliche Übertragterme C_in und C_out vorhanden sind. Da jedoch diese zusätzlichen Übertragterme normalerweise benachbarte Zellen in derselben Reihe oder Stufe verbinden und im Allgemeinen nicht von einer vorherigen Stufe empfangen werden oder zu einer nachfolgenden Stufe übertragen werden, werden sie nicht immer gezählt, daher die übliche Bezeichnung als Vier-zu-Zwei-Komprimierer.
Die Komprimiererschaltung in 8 ist jene, die von G. Goto et al. in IEEE Journal of Solid-State Circuits, Band 27, Nr. 9, Seiten 1229–1235, September 1992, gezeigt wird. Dies ist eine symmetrische Komprimiererschaltung, die dafür ausgelegt ist, wenn alle vier Eingangssignale I1–I4 im Wesentlichen gleichzeitig ankommen. Die vom Komprimierer ausgeführte Logik ist: Cout = I1·I2 + I3·I4; C = ~{[~(I1^I2) +~ (I3^I4)]·[~(I1·I2) +~ (I3·I4)]} + {Cin·(I1^I2^I3^I4)}; S = [(I1^I2)^(I3^I4)]^Cin;wobei ~, +, ^ und · die logischen Operationen NICHT, ODER, EXKLUSIV-ODER bzw. UND darstellen. Um die verschiedenen Schaltungen zu vergleichen, nehmen wir Einheitsverzögerungen mit Verzögerungen von 1 Einheit für ein invertierendes Gatter, 2 Einheiten für ein nichtinvertierendes Gatter und 2 Einheiten für ein EXKLUSIV-ODER- oder NICHT-EXKLUSIV-ODER-Gatter an. Die Zahlen in der Figur stellen die Verzögerungen am Ausgang jedes Gatters dar. C_out zu erzeugen, dauert 2 Einheitsverzögerungen. C_out wird zu C_in in einer benachbarten Zelle der Bitwertigkeit der nächsthöheren Ordnung in derselben Stufe geliefert.
Sowohl den Summenterm S als auch den Übertragterm C zu erzeugen, dauert 6 Einheitsverzögerungen.
Die Schaltungen in 9–11 sind vollständig neu. Verschiedene Regeln wurden beim Entwickeln dieser Schaltungen befolgt. Die Codierung für den Summenausgang S ist eindeutig. S ist immer die Parität der fünf Eingangsbits I1–I4 und C. Insbesondere wenn die Anzahl von 1-en in den fünf Eingangsbits ungerade ist, ist S 1; S ist ansonsten 0. Die Codierung für die Übertragausgänge C_out und C ist nicht eindeutig, was Flexibilität im Entwurf vorsieht. Diese Übertragausgänge stellen die Anwesenheit von zwei oder mehr 1-en im Eingangsmuster dar. Wenn zwei oder drei 1-en an den Eingängen vorhanden sind, ist eine und nur eine 1 in den Übertragausgängen (entweder C oder C_out) vorhanden und der andere Übertragausgang ist eine Null. Eine beliebige Kombination, die diese Regel befolgt, ist eine gültige Kombination, die zu einer korrekten Operation des Komprimierers führt. Eine andere Regel, die für die Optimierung der Schaltung befolgt wird, besteht darin, C_out von C_in unabhängig zu machen. Daher sollte die Bitzuweisung für C_out dieselbe für C_in gleich entweder 0 oder 1 sein. Dies erfolgt aus Geschwindigkeitsgründen, um eine Welligkeit durch die Bitpositionen zu vermeiden, da C_in von der Bitposition der nächstniedrigeren Wertigkeit und auf derselben Ebene in der Hierarchie stammt. Der Komprimierer von 8 ist nur ein spezielles Beispiel dieser Regeln.
In 9 und 10 ist die Komprimiererlogik: Cout = [(I1 + I2)·(I3 + I4)] + (I1·I2) + (I3·I4); C = (I1·I2·I3·I4) + [Cin·(I1^I2^I3^I4)]; S = [(I1^I2)^(I3^I4)]^Cin
Bei der Implementierung dieser Logik von 9 dauert das Erzeugen von C_out 2 Einheitsverzögerungen, während das Erzeugen der Summen- und Übertragterme S und C jeweils 6 Einheitsverzögerungen dauert. Es bestehen gleiche Verzögerungen von den Eingängen I1–I4 zu den primären Ausgängen S und C. Mit anderen Worten, wie der Komprimierer von 8 ist die Schaltung in 9 auch symmetrisch.
Der Komprimierer in 10 stellt eine asymmetrische Version dar. Diese Version weist eine kürzere Verzögerung vom Eingang I1 und zweitens vom Eingang I2, dann von den Eingängen I3 und I4 auf, um C_out (und daher auch C-Enden, die von C_in abhängen, von C_out einer ähnlichen benachbarten Schaltung) zu erzeugen. Der Übertragausgang C ist auch geringfügig um eine 1 Einheitsverzögerung schneller als der Summenausgang S (5 gegenüber 6 Einheiten). Diese asymmetrische Version ist bevorzugt, wenn nicht alle Eingangssignale gleichzeitig zur Verfügung stehen. Somit können die am langsamsten ankommenden Signale an den Eingängen I1 und I2 mit kürzerer Verzögerung bereitgestellt werden, während die früher ankommenden Signale zu den Eingängen I3 und I4 mit längerer Verzögerung geliefert werden können. In 5 könnte dieser asymmetrische Komprimierer für die Untermatrixstufe SA₃₁ verwendet werden, in der die Produktterme vor der Ankunft der Partialsummen von der Stufe SA₃₀ erzeugt werden. In der Struktur von 3 und 4, in der Volladdiererstufen SA0 zuerst angeordnet sind, wären alle Komprimiererstufen SA1, SA2 und SA3 der Untermatrizes CSA2, CSA3, CSA4 vorzugsweise asymmetrisch. Andere asymmetrische Schaltungen könnten in Abhängigkeit von den Logikzellen, die dem Entwickler zur Verfügung stehen, synthetisiert werden.
In 11 implementiert die Komprimiererschaltung die folgende Logik: Cout = (I1 + I2)·(I3 + I4); C = [(I1·I2)·~(I3^I4)] + [~(I1^I2)·(I3·I4)] + Cin·(I1^I2^I3^I4); S = [(I1^I2)^(I3^I4)]^Cin
Wie die Komprimierer in 8 und 9 ist sie jedoch in Bezug auf die Eingänge I1–I4 symmetrisch. Wie 10 liefert sie jedoch das Übertragausgangssignal C um 1 Einheitsverzögerung (5 gegenüber 6 Einheiten) geringfügig schneller als das Summenausgangssignal S.

Die folgende Tabelle fasst die Vorteile der vorliegenden Erfindung relativ zum Stand der Technik zum Vergleich zusammen. Man beachte, dass die Verzögerungen als Volladdiererverzögerungen (FA) ausgedrückt sind.

Architektur	Anordnung	Ausbreitungswege	Verzögerungsskalierung	17×17-Verzögerung
Übertraggrößenmatrix	Regelmäßig	Unausgeglichen (Welligkeit)	O(N)	15 FA
Baum	Unregelmäßig	Von Natur aus ausgeglichen	O(log N)	6 FA
Baum mit Komprimierern	Unregelmäßig	Von Natur aus ausgeglichen	O(log N)	4,5 FA
Hekstra	Regelmäßig	Durch die Konstruktion ausgeglichen	O(√N)	7 FA
Die Erfindung	Regelmäßig	Durch die Konstruktion ausgeglichen	O(√N)	5,5 FA

Die Erfindung hat den Vorteil, dass sie sowohl in ihrer Anordnung regelmäßig als auch in ihrem Betrieb relativ schnell ist (5,5 Volladdierer-Verzögerungen), wobei sie folglich vorteilhafte Eigenschaften von sowohl Matrixarchitekturen als auch Baumarchitekturen kombiniert. Ein weiterer Vorteil besteht darin, dass abgesehen von den Verbindungen zwischen ihren Hauptmatrixstufen, alle Verbindungen lokal sind, so dass nur zwei Signalbahnen in der Anordnung bereitgestellt werden müssen, egal wie groß sie skaliert ist. Dies ist ein Aspekt ihrer Regelmäßigkeit und daher ihrer kleinen Schaltungsfläche. Im Gegensatz dazu erfordern Baumarchitekturen immer mehr Leitwegbahnen, wenn sie zu größeren Größen skaliert werden.
Obwohl die vorliegende Erfindung wie die Hekstra-Architektur ausgeglichene Verzögerungen in ihren Ausbreitungswegen aufweist, sind sie nicht wie Baumarchitekturen von Natur aus ausgeglichen, sondern nur durch die Konstruktion mit einer zweckmäßigen Wahl von Untermatrixgrößen ausgeglichen. Wenn die Komprimiererschaltungen von 8–11 in die Architektur der vorliegenden Erfindung integriert werden, war folglich eine spezielle Sorgfalt erforderlich, um sicherzustellen, dass der Ausgleich aufrechterhalten wird. Insbesondere wurde jeder Signalweg durch irgendeine der Untermatrizes und durch die Hauptmatrix so konstruiert, dass er dieselbe Anzahl von Komprimiererschaltungen wie alle anderen Signalwege aufweist. Jede fortlaufende Untermatrix, die in eine nachfolgende Stufe der Hauptaddierermatrix eingespeist wird, weist einen Komprimierer mehr als die vorherige Untermatrix auf. Ein Volladdierer kann (wahlweise) in jedem Untermatrixweg vorhanden sein, wie es in 3–5 der Fall ist. Wenn der Volladdierer einer Untermatrix vorangeht, dann sollten irgendwelche Komprimierer im Rest dieser Untermatrix vom asymmetrischen Typ sein. Wenn der Volladdierer das letzte Element der Untermatrix vor dem Einspeisen in die Hauptmatrix ist, dann kann die erste Komprimiererschaltung vom symmetrischen Typ sein. Alle Hauptmatrixkomprimierer sind vom symmetrischen Typ. Mit dieser sorgfältigen Konstruktion können störende Transaktionen minimiert werden. (Zusätzliche Verzögerungselemente könnten hinzugefügt werden, wo es erforderlich ist, um ein restliches Ungleichgewicht zu handhaben, wie von T. Sakuta et al. in dem Artikel, auf den vorher hingewiesen wurde, gezeigt.)
Die Architektur der vorliegenden Erfindung kann auch durch Erhöhen der Anzahl von Hauptmatrixstufen und entsprechenden Untermatrizes skaliert werden. Ein 32×32-Multiplizierer kann beispielsweise mit vier Hauptaddiererstufen und keinen Volladdiererstufen in den Untermatrizes implementiert werden (d. h. nur Komprimierer). Er weist eine Ausbreitungsverzögerung von nur 7,5 Volladdierern auf. Ein 61×61-Multiplizierer kann mit sechs Hauptaddiererstufen und einer Verzögerung von nur 11,5 Volladdierern (immer noch schneller als eine 17×17-Matrixarchitektur) implementiert werden, wobei die Untermatrizes CSA0 und CSA1 aus einem Volladdierer, gefolgt von einem Komprimierer, bestehen und jede nachfolgende Untermatrix einen zusätzlichen Komprimierer hinzufügt. Diese Konstruktionen sind in 12 bzw. 13 auf dieselbe Weise wie in 3 dargestellt. Als Endanmerkung wird beobachtet, dass die Struktur von 13 leicht modifiziert werden kann, um einen 58×58-Multiplizierer zu verwirklichen. Dies wird durch Entfernen der Reihe von Volladdierern F bewerkstelligt. Der resultierende 58×58-Multiplizierer weist eine Verzögerung von 10,5 Volladdierern auf.

Claims

Multiplikationsschaltung mit: einem Mittel zum Empfangen eines M-Bit-Multiplikanden und eines N-Bit-Multiplikators und zum Erzeugen von N M-Bit-Partialprodukten, wobei M und N ganze zahlen sind, die größer als 8 sind, wobei jedes Bit von jedem Partialprodukt eine Bitwertigkeit aufweist, die einem festgelegten Bit eines (M + N)-Bit-Produkts entspricht; einem Additionsmittel (CSA_n, MS_n) zum Summieren der N M-Bit-Partialprodukte, so dass Bits der Partialprodukte mit derselben Bitwertigkeit zusammenaddiert werden, wobei das Additionsmittel in eine Architektur mit einer Vielzahl von Untermatrizes (CSA_n), die Partialsummen erzeugen, und eine mehrstufige Hauptmatrix (MS_n), die die Partialsummen addiert, organisiert ist, wobei mindestens eine Untermatrix (CSA_2..n) eine Vier-zu-Zwei-Komprimierungsschaltung (C) mit vier Signaleingängen (I1–I4) und einem zusätzlichen Übertrageingang (C_in) umfasst und auch Summen- und Übertragsignalausgänge (C, S) aufweist; und einem Endaddierer; dadurch gekennzeichnet, dass die Architektur eine asymmetrische, aber nicht von Natur aus hinsichtlich der Verzögerung ausgeglichene Verzweigungsarchitektur aufweist, in der eine erste Hauptmatrixstufe (MS₁) zum Empfangen von Partialsummen von zwei Untermatrizes (CSA₀, CSA₁) dient und jede nachfolgende Hauptmatrixstufe (MS_2..n) zum Empfangen von Partialsummen von einer vorherigen Hauptmatrixstufe und nur einer entsprechenden Untermatrix dient, wobei die Untermatrix (CSA_n) für jede nachfolgende Hauptmatrixstufe (MS_n) fortlaufend größer ist als Untermatrizes für vorherige Hauptmatrixstufen, um ausgeglichene Ausbreitungsverzögerungen für Partialsummen, die zu jeder Hauptmatrixstufe geliefert werden, vorzusehen, wobei jede fortlaufende Untermatrix (CSA_3..n), die der ersten und der zweiten Untermatrix (CSA_1,2) folgt und ein Ausgangssignal in eine nachfolgende Stufe der Hauptmatrix (MS_2..n) einspeist, einen zusätzlichen Komprimierer (C) gegenüber der vorherigen Untermatrix (CSA_2..n-1) umfasst; in jeder Komprimierungsschaltung (C) die vier Signaleingänge (I1–I4) mit Ausgängen von einer vorherigen Stufe verbunden sind und der zusätzliche Übertrageingang (C_in) mit einem Übertragausgang (C_out) aus einer gleichen Stufe der nächstniedrigeren Bitwertigkeit verbunden ist und auch die Summen- und Übertragsignalausgänge (C, S) mit Signaleingängen einer nachfolgenden Stufe verbunden sind und der zusätzliche Übertragausgang (C_out) mit einem Übertrageingang für eine gleiche Stufe der nächsthöheren Bitwertigkeit verbunden ist, wobei ein Zustand des zusätzlichen Übertragausgangs (C_out) von Zuständen aller vier der Signaleingänge (I1–I4), jedoch nicht vom zusätzlichen Übertrageingang (C_in) abgeleitet wird und Zustände der Summen- und Übertragsignalausgänge (C, S) von allen vier der Signaleingänge (I1–I4) und dem zusätzlichen Übertrageingang (C_in) abgeleitet werden, der zusätzliche Übertrageingang (C_in) zum Verarbeiten eines Ergebnisses einer Operation an allen vier Signaleingängen (I1–I4) dient, um die Zustände der Summen- und Übertragsignalausgänge (C, S) abzuleiten, der Summensignalausgang (S) so beschaffen ist, dass er einen Zustand aufweist, der auf 1 gesetzt wird, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und dem zusätzlichen Übertrageingang (C_in) ungerade ist, wobei der Summensignalausgang (S) so beschaffen ist, dass er ansonsten auf 0 gesetzt wird, der Übertragsignalausgang (C) und der zusätzliche Übertragausgang (C_out) so beschaffen sind, dass sie beide auf 1 gesetzt werden, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und dem zusätzlichen Übertrageingang (C_in) 4 oder 5 ist, einer und nur einer des Übertragsignalausgangs (C) und des zusätzlichen Übertragausgangs (C_out) so beschaffen ist, dass er auf 1 gesetzt wird, wenn die Anzahl von 1-en in den vier Signaleingängen und dem zusätzlichen Übertrageingang 2 oder 3 ist, und der Übertragsignalausgang (C) und der zusätzliche Übertragausgang (C_out) so beschaffen sind, dass sie beide auf 0 gesetzt werden, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und dem zusätzlichen Übertrageingang (C_in) 0 oder 1 ist; und der Endaddierer ein Vektorkombinationsaddierer zum Empfangen eines Mehrbit-Summenworts und eines Mehrbit-Übertragworts ist, die zusammen eine Partialsumme von einer letzten Hauptmatrixstufe (MS₃) des Additionsmittels darstellen, wobei der Vektorkombinationsaddierer beschaffen ist, um das Summenwort und das Übertragwort zum Erzeugen des (M + N)-Bit-Produkts zu summieren.
Multiplikationsschaltung nach Anspruch 1, wobei jede Zelle einer Untermatrixstufe (SA_n) und jede Zelle einer Hauptmatrixstufe (MS_n), die insgesamt vier Partialprodukteingaben empfängt und einen Summenterm und einen Übertragterm erzeugt, eine Komprimierungsschaltung (C) umfasst.
Multiplikationsschaltung nach Anspruch 1, wobei jede Zelle einer Untermatrixstufe (SA_n) und jede Zelle einer Hauptmatrixstufe (MS_n), die insgesamt drei Partialprodukteingaben empfängt und einen Summenterm und einen Übertragterm erzeugt, einen Volladdierer (F) und einen Halbaddierer (H) der Reihe nach umfasst.
Multiplikationsschaltung nach Anspruch 1, wobei der Multiplikand und der Multiplikator in einer Binärschreibweise ohne Vorzeichen vorliegen, wobei das Mittel zum Erzeugen von Partialprodukten Kreuzprodukte des M-Bit-Multiplikanden mit den N Bits des Multiplikators erzeugt.
Multiplikationsschaltung nach Anspruch 1, wobei der Multiplikand und der Multiplikator in Zweierkomplement-Schreibweise vorliegen, wobei das Mittel zum Erzeugen von Partialprodukten Kreuzprodukte gemäß dem Baugh-Wooley-Algorithmus erzeugt.
Multiplikationsschaltung nach Anspruch 1, wobei das Additionsmittel (CSA_n, MS_n) linear mit der ersten Hauptmatrixstufe (MS_n) nach den zwei Untermatrizes (CSA_n), von denen die erste Hauptmatrixstufe Partialsummen empfängt, angeordnet ist, wobei alle Stufen irgendeiner Untermatrix miteinander gruppiert sind und jede Hauptmatrixstufe (MS_n) im Anschluss an die erste Hauptmatrixstufe den Stufen der der Hauptmatrixstufe entsprechenden Untermatrix folgt, wodurch alle Signalausbreitungswege abgesehen von Wegen zwischen aufeinander folgenden Hauptmatrixstufen lokal sind, und wodurch jede Untermatrixstufe (SA_n) Bahnen für nur zwei sich kreuzende Signalausbreitungswege erfordert.
Multiplikationsschaltung nach Anspruch 1, wobei mindestens eine der Komprimierungsschaltungen (C) umfasst: den ersten Signaleingang (I1), den zweiten Signaleingang (I2), den dritten Signaleingang (I3), den vierten Signaleingang (I4) und den zusätzlichen Übertrageingang (C_in); ein erstes Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein zweites Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein drittes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des ODER-Gatters invertierte Eingänge sind und mit Ausgängen des ersten und des zweiten Logikgatters verbunden sind, wobei das dritte Logikgatter den zusätzlichen Übertragausgang (C_out) vorsieht; ein viertes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem Ausgang des ersten Logikgatters verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein fünftes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem Ausgang des zweiten Logikgatters verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein sechstes Logikgatter, das aus einem ersten und einem zweiten ODER-Gatter mit zwei Eingängen besteht, das in jeweilige Eingänge eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei die zwei Eingänge des ersten ODER-Gatters mit den Ausgängen des ersten und des zweiten Logikgatters verbunden sind, wobei die zwei Eingänge des zweiten ODER-Gatters mit Ausgängen des vierten und des fünften Logikgatters verbunden sind; ein siebtes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit den Ausgängen des vierten und des fünften Logikgatters verbunden sind; ein achtes Logikgatter, das aus einem UND-Gatter mit zwei Eingängen besteht, das in einen Eingang eines ODER-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des ODER-Gatters mit einem Ausgang des sechsten Logikgatters verbunden ist, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem zusätzlichen Übertrageingang (C_in) und einem Ausgang des siebten Logikgatters verbunden sind, wobei das achte Logikgatter den Übertragsignalausgang (C) vorsieht; und ein neuntes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit dem Übertrageingang und dem Ausgang des siebten Logikgatters verbunden sind, wobei das neunte Logikgatter einen Summensignalausgang (S) vorsieht.
Multiplikationsschaltung nach Anspruch 1, wobei mindestens eine der Komprimierungsschaltungen umfasst: den ersten Signaleingang (I1), den zweiten Signaleingang (I2), den dritten Signaleingang (I3), den vierten Signaleingang (I4) und den zusätzlichen Übertrageingang (C_in); ein erstes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein zweites Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein drittes Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind, ein viertes Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein fünftes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit Ausgängen des ersten und des zweiten Logikgatters verbunden sind; ein sechstes Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit Ausgängen des dritten und des vierten Logikgatters verbunden sind; ein siebtes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit Ausgängen des fünften und des sechsten Logikgatters verbunden sind, wobei das siebte Logikgatter den Übertragsignalausgang (C) vorsieht; ein achtes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit den Ausgängen des dritten und des vierten Logikgatters verbunden sind; ein neuntes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem Ausgang des dritten Logikgatters verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein zehntes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem Ausgang des vierten Logikgatters verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein elftes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit Ausgängen des neunten und des zehnten Logikgatters verbunden sind; ein zwölftes Logikgatter, das aus einem UND-Gatter mit zwei Eingängen besteht, das in einen Eingang eines ODER-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des ODER-Gatters mit einem Ausgang des achten Logikgatters verbunden ist, wobei die zwei Eingänge des UND-Gatters mit dem zusätzlichen Übertrageingang (C_in) und einem Ausgang des elften Logikgatters verbunden sind, wobei das zwölfte Logikgatter den zusätzlichen Übertragausgang (C_out) vorsieht; und ein dreizehntes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit dem zusätzlichen Übertrageingang (C_in) und dem Ausgang des elften Logikgatters verbunden sind, wobei das dreizehnte Logikgatter den Summensignalausgang (S) vorsieht.
Multiplikationsschaltung nach Anspruch 1, wobei mindestens eine der Komprimierungsschaltungen umfasst: einen ersten Signaleingang (I1), den zweiten Signaleingang (I2), den dritten Signaleingang (I3), den vierten Signaleingang (I4) und den zusätzlichen Übertrageingang (C_in); ein erstes Logikgatter, das aus einem ODER-Gatter mit drei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem ersten Signaleingang verbunden ist, wobei die drei Eingänge des ODER-Gatters mit dem zweiten, dem dritten und dem vierten Signaleingang (I2, I3, I4) verbunden sind; ein zweites Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT- UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit dem zweiten Signaleingang (I2) verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein drittes Logikgatter, das aus einem NICHT-UND-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-UND-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein viertes Logikgatter, das aus einem NICHT-UND-Gatter mit drei Eingängen besteht, wobei die drei Eingänge des NICHT-UND-Gatters mit Ausgängen des ersten, des zweiten und des dritten Logikgatters verbunden sind, wobei das vierte Logikgatter den zusätzlichen Übertragausgang (C_out) vorsieht; ein fünftes Logikgatter, das aus einem NICHT-UND-Gatter mit vier Eingängen besteht, wobei die vier Eingänge des NICHT-UND-Gatters mit dem ersten, dem zweiten, dem dritten und dem vierten Signaleingang (I1–I4) verbunden sind; ein sechstes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein siebtes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein achtes Logikgatter, das aus einem Exklusiv-NICHT-ODER-Gatter besteht, wobei die zwei Eingänge des Exklusiv-NICHT-ODER-Gatters mit Ausgängen des sechsten und des siebten Logikgatters verbunden sind; einen Inverter, der mit dem zusätzlichen Übertrageingang (C_in) verbunden ist; ein neuntes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit zwei Eingängen einspeist, wobei ein zweiter Eingang des NICHT-UND-Gatters mit einem Ausgang des fünften Logikgatters verbunden ist, wobei die zwei Eingänge des ODER-Gatters mit Ausgängen des achten Logikgatters und des Inverters verbunden sind, wobei das neunte Logikgatter den Übertragsignalausgang (C) vorsieht; und ein zehntes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit den Ausgängen des achten Logikgatters und des Inverters verbunden sind, wobei das zehnte Logikgatter einen Summenausgang vorsieht.
Multiplikationsschaltung nach Anspruch 1, wobei zumindest eine der Komprimierungsschaltungen (C) umfasst: den ersten Signaleingang (I1), den zweiten Signaleingang (I2), den dritten Signaleingang (I3), den vierten Signaleingang (I4) und den zusätzlichen Übertrageingang (C_in); ein erstes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein zweites Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein drittes Logikgatter, das aus einem NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des NICHT-ODER-Gatters mit Ausgängen des ersten und des zweiten Logikgatters verbunden sind, wobei das dritte Logikgatter den zusätzlichen Übertragausgang (C_out) vorsieht; ein viertes Logikgatter, das aus einem Exklusiv-NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-NICHT-ODER-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) verbunden sind; ein fünftes Logikgatter, das aus einem Exklusiv-NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-NICHT-ODER-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) verbunden sind; ein sechstes Logikgatter, das aus einem NICHT-UND-Gatter mit drei Eingängen besteht, wobei die drei Eingänge des NICHT-UND-Gatters mit dem ersten und dem zweiten Signaleingang (I1, I2) und einem Ausgang des fünften Logikgatters verbunden sind; ein siebtes Logikgatter, das aus einem NICHT-UND-Gatter mit drei Eingängen besteht, wobei die drei Eingänge des NICHT-UND-Gatters mit dem dritten und dem vierten Signaleingang (I3, I4) und einem Ausgang des vierten Logikgatters verbunden sind; ein achtes Logikgatter, das aus einem Exklusiv-NICHT-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-NICHT-ODER-Gatters mit den Ausgängen des vierten und des fünften Logikgatters verbunden sind; einen Inverter, der mit dem zusätzlichen Übertrageingang (C_in) verbunden ist; ein neuntes Logikgatter, das aus einem ODER-Gatter mit zwei Eingängen besteht, das in einen Eingang eines NICHT-UND-Gatters mit drei Eingängen einspeist, wobei der zweite und der dritte Eingang des NICHT-UND-Gatters mit Ausgängen des sechsten und des siebten Logikgatters verbunden sind, wobei die zwei Eingänge des ODER-Gatters mit Ausgängen des achten Logikgatters und des Inverters verbunden sind, wobei das neunte Logikgatter den Übertragsignalausgang (C) vorsieht; und ein zehntes Logikgatter, das aus einem Exklusiv-ODER-Gatter mit zwei Eingängen besteht, wobei die zwei Eingänge des Exklusiv-ODER-Gatters mit den Ausgängen des achten Logikgatters und des Inverters verbunden sind, wobei das zehnte Logikgatter einen Summenausgang vorsieht.
Multiplikationsschaltung mit: einen Mittel zum Empfangen eines M-Bit-Multiplikanden und eines N-Bit-Multiplikators und zum Erzeugen von Partialprodukttermen aus diesen, wobei jeder Partialproduktterm einem festgelegten Bit eines (M + N)-Bit-Produkts entspricht; und für jedes Produktbit einem Additionsmittel (CSA_n, MS_n) zum Addieren aller Partialproduktterme, die diesem Produktbit entsprechen, plus irgendwelcher Übertragterme, die vom Additionsmittel für das nächste niedrigerwertige Produktbit erzeugt werden, wobei jedes Additionsmittel eine Summe erzeugt, die das Produktbit und einen oder mehrere Übertragterme bildet, die zum Additionsmittel für das nächste höherwertige Produktbit übertragen werden sollen, wobei jedes Additionsmittel in eine asymmetrische, nicht von Natur aus hinsichtlich der Verzögerung ausgeglichene Architektur organisiert ist, die durch eine Vielzahl von Addierstufen gekennzeichnet ist, die Partialsummen bilden, wobei die Addierstufen in eine Vielzahl von Ketten von aufeinander folgenden Untermatrixaddierern (CSA_n) und eine einzelne Kette von aufeinander folgenden Hauptmatrixaddierern (MS_n) organisiert sind, wobei eine erste Stufe in der Kette von Hauptmatrixaddierern (MS_n) ein Addierer ist, der mit zwei Ketten von Untermatrixaddierern verbunden ist, um Partialsummen von diesen zu empfangen, wobei jede Stufe der Kette von Hauptmatrixaddierern im Anschluss an die erste Stufe mit einer vorangehenden Stufe der Hauptmatrixaddierer-Kette und mit einer und nur einer Kette von Untermatrixaddierern verbunden ist, wobei jede Addierstufe in der Kette von Hauptmatrixaddierern eine Vier-zu-Zwei-Komprimierungsaddiererschaltung (C) ist, wobei die zwei Ketten von Untermatrixaddierern, die mit der ersten Stufe der Hauptmatrix verbunden sind, in der Anzahl jeder Art von Addierer in diesen Ketten identisch sind, wobei jede Kette von Untermatrixaddierern, die mit nachfolgenden Stufen der Hauptmatrix verbunden sind, zu einer Kette von Untermatrixaddierern, die mit einer vorangehenden Stufe der Hauptmatrix verbunden sind, in der Anzahl von jeder Art von Addierer in dieser Kette identisch ist, abgesehen davon, dass sie eine weitere Vier-zu-Zwei-Komprimierungsaddiererschaltung (C) gegenüber der vorangehenden Kette aufweist, wobei jeder Signalausbreitungsweg durch die Ketten von Untermatrixaddierern und durch die Hauptmatrix eine ausgeglichene Verzögerung aufweist, jede Vier-zu-Zwei-Komprimierungsaddiererschaltung (C) vier Signaleingänge (I1–I4), die mit Ausgängen von einer vorherigen Stufe verbunden sind, und einen zusätzlichen Übertrageingang (C_in), der mit einem Übertragausgang von einer gleichen Stufe der nächstniedrigeren Bitwertigkeit verbunden ist, aufweist und auch Summen- und Übertragsignalausgänge (C, S), die mit Signaleingängen einer nachfolgenden Stufe verbunden sind, und einen zusätzlichen Übertragausgang (C_out), der mit einem zusätzlichen Übertrageingang (C_in) für eine gleiche Stufe der nächsthöheren Bitwertigkeit verbunden ist, aufweist, wobei ein Zustand des zusätzlichen Übertragausgangs (C_out) von Zuständen aller vier der Signaleingänge (I1–I4), aber nicht vom zusätzlichen Übertrageingang (C_in) abgeleitet wird, und Zustände der Summen- und Übertragsignalausgänge (C, S) von allen vier der Signaleingänge (I1–I4) und dem zusätzlichen Übertrageingang (C_in) abgeleitet werden, wobei der zusätzliche Übertrageingang zum Verarbeiten eines Ergebnisses der Operation an allen vier Signaleingängen (I1–I4) dient, um die Zustände der Summen- und Übertragsignalausgänge (C, S) abzuleiten, der Summensignalausgang (S) so beschaffen ist, dass er einen Zustand aufweist, der auf 1 gesetzt wird, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und im zusätzlichen Übertrageingang (C_in) ungerade ist, wobei der Summensignalausgang (S) so beschaffen ist, dass er ansonsten auf 0 gesetzt wird, der Übertragsignalausgang (C) und der zusätzliche Übertragausgang (C_out) so beschaffen sind, dass sie beide auf 1 gesetzt werden, wenn die Anzahl von 1-en in den vier Signaleingängen und dem zusätzlichen Übertrageingang 4 oder 5 ist, einer und nur einer des Übertragsignalausgangs (C) und des zusätzlichen Übertragausgangs (C_out) so beschaffen ist, dass er auf 1 gesetzt wird, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und dem zusätzlichen Übertrageingang (C_in) 2 oder 3 ist, und der Übertragsignalausgang (C) und der zusätzliche Übertragausgang (C_out) so beschaffen sind, dass sie beide auf 0 gesetzt werden, wenn die Anzahl von 1-en in den vier Signaleingängen (I1–I4) und dem zusätzlichen Übertrageingang (C_in) 0 oder 1 ist; wobei Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) in anderen Stufen der Kette von Untermatrixaddierern als einer ersten Stufe asymmetrische Komprimierer sind, bei denen zwei Eingaben in die Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) so beschaffen sind, dass sie sich langsamer als zwei andere Eingaben in Summen- und Übertragausgänge der Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) ausbreiten, und nach dem Additionsmittel ein Vektorkombinationsaddierer zum Empfangen eines Mehrbit-Summenworts und eines Mehrbit-Übertragsworts vom Additionsmittel für jedes Produktbit vorgesehen ist, wobei der Vektorkombinationsaddierer beschaffen ist, um entsprechende Bits derselben Bitwertigkeit des Summenworts und des Übertragworts zum Erzeugen des (M + N)-Bit-Produkts zu summieren.
Multiplikationsschaltung nach Anspruch 11, welche ferner eine Reihe von Akkumulatoraddierern für zumindest jedes Bit des Produkts umfasst.
Multiplikationsschaltung nach Anspruch 12, wobei die Akkumulatoraddierer zwischen den Additionsmitteln (CSA_n, MS_n) und dem Vektorkombinationsaddierer liegen.
Multiplikationsschaltung nach Anspruch 11, wobei der Multiplikand und der Multiplikator in einer Binärschreibweise ohne Vorzeichen vorliegen, wobei das Mittel zum Erzeugen von Partialprodukttermen M×N Kreuzprodukte aus den M Bits des Multiplikanden und den N Bits des Multiplikators erzeugt.
Multiplikationsschaltung nach Anspruch 11, wobei der Multiplikand und der Multiplikator in einer Zweierkomplement-Schreibweise vorliegen, wobei das Mittel zum Erzeugen von Partialprodukttermen die Terme gemäß dem Baugh-Wooley-Algorithmus erzeugt.
Multiplikationsschaltung nach Anspruch 11, wobei die Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) in der Hauptaddierermatrix (MS_n) und irgendwelche Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) in einer ersten Stufe von irgendeiner Kette von Untermatrixaddierern symmetrische Vier-zu-Zwei-Komprimierungsaddiererschaltungen (C) sind, bei denen sich vier Eingaben in die Vier-zu-Zwei-Komprimierungsaddiererschaltung (C) im Wesentlichen gleich in der Geschwindigkeit zu Summen- und Übertragausgängen der Vier-zu-Zwei-Komprimierungsaddiererschaltung (C) ausbreiten.