DE102007014808A1

DE102007014808A1 - Multiplizier- und Multiplizier- und Addiereinheit

Info

Publication number: DE102007014808A1
Application number: DE102007014808A
Authority: DE
Inventors: Christian Wiencke
Original assignee: Texas Instruments Deutschland GmbH
Current assignee: Texas Instruments Deutschland GmbH
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-02
Also published as: WO2008116933A1; EP2140345A1; US20080243976A1

Abstract

Die vorliegende Erfindung betrifft eine Multipliziereinheit für die Multiplikation eines ersten, aus na Bits bestehenden Operanden mit einem zweiten, aus nx Bits bestehenden Operanden, die eine übertragerhaltende Addier(CSA)-Einheit mit nx Zeilen, die jeweils aus na UND-Gattern zur Berechnung eines Einzelbitprodukts zweier Einzelbit-Eingabewerte bestehen, und mit Addierzellen zur betriebsbereiten Kopplung von aufeinanderfolgenden Zeilen zur Addition von Ergebnissen einer vorhergehenden Zeile zu einer folgenden Zeile und mit einer letzten Ausgangszeile zur Ausgabe eines Übertragsvektors und eines Summenvektors, wobei der CSA-Einheit eine logische Schaltungsanordnung hinzugefügt wird, die so eingerichtet ist, dass sie die Einzelbitprodukte an der höchstwertigen Stelle der nx - 1 ersten Zeilen und an den na - 1 niederwertigsten Stellen der Ausgangszeile als Reaktion auf das erste Konfigurationssignal invertiert, bevor die invertierten Einzelbitprodukte den entsprechenden Addierzellen zugeführt werden.

Description

Die vorliegende Erfindung betrifft eine Multiplizier- und eine Multiplizier- und Addiereinheit für die digitale Datenverarbeitung.
Die digitale Datenverarbeitung erfordert die Multiplikation und Addition von digitalen Daten. Zu diesem Zweck enthalten digitale Signalprozessoren (DSP) normalerweise eine Multiplizier- oder eine Multiplizier- und Addier-(MAC-)Einheit, die so eingerichtet ist, dass sie digitale Operanden (d. h. Binärzahlen) für diverse Steuerungs- und Datenverarbeitungsaufgaben multipliziert und addiert. Da die Multiplikation und Addition von digitalen Zahlen einen der grundlegenden und zentralen Datenverarbeitungsschritte in sämtlichen Arten von Datenverarbeitungsanwendungen darstellt, besteht ein allgemeines Bestreben, die Multiplizier- und Addiereinheiten so zu verbessern, dass sie schneller arbeiten und weniger komplex sind. Die Multiplikation von zwei digitalen Zahlen wird typischerweise durch eine Reihe von Einzelbitmultiplikationen und Einzelbitaddierschritten durchgeführt. Ein Einzelbitmultiplizierer wird durch Logikgatter (typischerweise UND-Gatter) realisiert, und die Summierung von zwei Bit wird durch Halb- oder Volladdierzellen durchgeführt. Eine Halbaddierzelle addiert lediglich zwei Einzelbit zweier verschiedener Operanden, während eine Volladdierzelle in der Lage ist, ein zusätzliches Übertragsbit zu verarbeiten. Ein effizienter Algorithmus für die vorzeichenbehaftete Multiplikation ist das Baugh-Wooley-Verfahren für vorzeichenbehaftete Multiplikation, der in „A two's complement parallel array multiplication algorithm" von C. R. Baugh und B. A. Wooley, IEEE Trans. Computers, Vol. 22, Seiten 1045–1047, Dezember 1973 beschrieben ist. Die allgemeine Theorie der Multiplikation und Multiplikation gemäß dem modifizierten Baugh-Wooley-Verfahren für vorzeichenbehaftete Multiplikation wird untenstehend entwickelt.

Tabelle 1 zeigt eine Multiplikation s(7:0) = a(3:0)·x(3:0) von zwei vorzeichenlosen 4-Bit-Operanden, basierend auf der Addition von vier 4-Bit-Zahlen. Dementsprechend besteht der erste Operand a(3:0) aus na = 4 Bit, und der zweite Operand x(3:0) besteht aus nx = 4 Bit. Für die weiteren Überlegungen wird n definiert als n = nx = na. Der Term a_ix_j stellt das Einzelbitprodukt aus den entsprechenden Bit des ersten und des zweiten Operanden dar. Tabelle 1

					a₃	a₂	a₁	a₀
·					x₃	x₂	x₁	x₀
					a₃x₀	a₂x₀	a₁x₀	a₀x₀
				a₃x₁	a₂x₁	a₁x₁	a₀x₁
			a₃x₂	a₂x₂	a₁x₂	a₀x₂
		a₃x₃	a₂x₃	a₁x₃	a₀x₃
=	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

Tabelle 2 zeigt eine vorzeichenbehaftete Multiplikation in Zweierkomplementformat gemäß einem als modifiziertes Baugh-Wooley-Verfahren bekannten Schema. Tabelle 2

					a₃	a₂	a₁	a₀
·					x₃	x₂	x₁	x₀
					–a₃x₀	a₂x₀	a₁x₀	a₀x₀
				–a₃x₁	a₂x₁	a₁x₁	a₀x₁
			–a₃x₂	a₂x₂	a₁x₂	a₀x₂
		a₃x₃	–a₂x₃	–a₁x₃	–a₀x₃
=	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

Gemäß dem modifizierten Baugh-Wooley-Verfahren für vorzeichenbehaftete Multiplikation können die negativen Einträge in der Matrix durch bitinvertierte Einträge und einige zusätzliche Einträge ersetzt werden. Es werden die folgenden Substitutionen vorgenommen: –a3xk = (1 – a3xk) – 1 = nicht (a3xk) – 1 –akx0 = (1 – akx0) – 1 = nicht (akx0) – 1

Tabelle 3 zeigt die vorzeichenbehaftete Multiplikation von zwei 4-Bit-Zahlen, wenn obige Substitutionen auf Tabelle 2 angewendet werden. Tabelle 3

					a₃	a₂	a₁	a₀
·					x₃	x₂	x₁	x₀
					/a₃x₀	a₂x₀	a₁x₀	a₀x₀
				/a₃x₁	a₂x₁	a₁x₁	a₀x₁
			/a₃x₂	a₂x₂	a₁x₂	a₀x₂
		a₃x₃	/a₂x₃	/a₁x₃	/a₀x₃
			–1	–1	–1
			–1	–1	–1
=	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

In Tabelle 3 ist /a_ix_i nicht (a_ix_i). Die „–1" Einträge ergeben sich aus obigen Substitutionen, und jede „–1" bezieht sich auf einen /a_ix_i – 1 Eintrag. Alle „–1" Einträge werden von dem /a_ix_i – 1 Eintrag abgetrennt und in die letzten beiden Zeilen eingetragen. Die „–1" Einträge können zu "–112" oder "–128" + 16" zusammengefasst werden, oder die „–1" Einträge können für die Multiplikation von n-Bit-Werten wie folgt kombiniert werden: (–1 – 1)·22n–3 + ... + (–1–1)·22n–1 = –22n–2 – ... – 2n = –22n–1 + 2n

Somit muss in der Spalte n eine „1" hinzugefügt werden, und in der Spalte 2n – 1 der Matrix muss eine „–1" hinzugefügt werden. Da das Ergebnis das Zweierkomplementformat aufweist, ändert sich „–1" in Spalte 2n – 1 (= Vorzeichenziffer) zu „1". Tabelle 4 zeigt die vollständige Matrix für eine vorzeichenbehaftete 4-Bit-Multiplikation. Das Schema gemäß Tabelle 4 ist als modifiziertes Baugh-Wooley-Verfahren bekannt. Tabelle 4

					a₃	a₂	a₁	a₀
·					x₃	x₂	x₁	x₀
					/a₃x₀	a₂x₀	a₁x₀	a₀x₀
				/a₃x₁	a₂x₁	a₁x₁	a₀x₁
			/a₃x₂	a₂x₂	a₁x₂	a₀x₂
		a₃x₃	/a₂x₃	/a₁x₃	/a₀x₃
	1			1
=	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

Nun wird eine MAC-(Multiplizier- und Addier-)Operation s = a·x + t betrachtet. Im Vergleich zu der Multiplikation wird zu dem Schema eine zusätzliche Zeile für den Addierer t hinzugefügt. Eine vorzeichenlose MAC-Operation von zwei 4-Bit-Faktoren und eines 8-Bit Addierers sieht wie folgt aus: s(8:0) = a(3:0)·x(3:0) + t(7:0). Tabelle 5 zeigt das Schema für eine vorzeichenlose MAC-Operation zweier 4-Bit-Faktoren und eines 8-Bit-Addierers. Tabelle 5

						a₃	a₂	a₁	a₀
·						x₃	x₂	x₁	x₀
+		t₇	t₆	t₅	t₄	t₃	t₂	t₁	t₀
						a₃x₀	a₂x₀	a₁x₀	a₀x₀
					a₃x₁	a₂x₁	a₁x₁	a₀x₁
				a₃x₂	a₂x₂	a₁x₂	a₀x₂
			a₃x₃	a₂x₃	a₁x₃	a₀x₃
		t₇	t₆	t₅	t₄	t₃	t₂	t₁	t₀
=	s₈	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

Für eine vorzeichenbehaftete MAC-Operation wird dasselbe modifizierte Baugh-Wooley-Verfahren wie für die Multiplikationsoperation angewendet. Das resultierende Schema ist in Tabelle 6 abgebildet. Die Vorzeichenposition des Addierers (t₇) und die „1" in Spalte 7 müssen vorzeichenerweitert werden. Tabelle 6

						a₃	a₂	a₁	a₀
·						x₃	x₂	x₁	x₀
+		t₇	t₆	t₅	t₄	t₃	t₂	t₁	t₀
						/a₃x₀	a₂x₀	a₁x₀	a₀x₀
					/a₃x₁	a₂x₁	a₁x₁	a₀x₁
				/a₃x₂	a₂x₂	a₁x₂	a₀x₂
			a₃x₃	/a₂x₃	/a₁x₃	/a₀x₃
	1	1			1
	t₇	t₇	t₆	t₅	t₄	t₃	t₂	t₁	t₀
=	s₈	s₇	s₆	s₅	s₄	s₃	s₂	s₁	s₀

Da die für die vorzeichenlose und die vorzeichenbehaftete Multiplikation auszuführenden Operationen unterschiedlich sind, werden die Schemata gemäß Tabelle 1 und Tabelle 4 in einer parallelen Architektur, einschließlich der Schaltungen gemäß 1 und 2, implementiert. 1 ist ein Beispiel für einen vorzeichenlosen 4 × 4-Bit-Multiplizierer, und 2 ist ein Beispiel für einen vorzeichenbehafteten 4 × 4-Bit-Multiplizierer. Die Teilprodukte werden in einer übertragerhaltenden Addier-(CSA-)Anordnung (engl. CSA = „carry save adder") mit einem vervollständigenden Übertragsdurchlaufaddierer (CPA) (engl. CPA = „carry propagate adder") addiert. Die in den Tabellen 4 und 6 gezeigten „1"er werden in einem zusätzlichen Zyklus in der CPA-Einheit oder in einer zusätzlichen Addiereinheit addiert. Dementsprechend ist die Lösung nach dem Stand der Technik komplex, erfordert zusätzliche Taktzyklen und verbraucht bei Implementierung in einer integrierten Schaltung Fläche.
Es ist ein Ziel der vorliegenden Erfindung, eine Multipliziereinheit und eine MAC-Einheit zur Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Operanden bereitzustellen, die eine kleinere Größe aufweist und weniger komplex ist als herkömmliche Multipliziereinheiten.
Dementsprechend wird eine Multipliziereinheit für die Multiplikation eines ersten, aus na Bit bestehenden Operanden mit einem zweiten, aus nx Bit bestehenden Operanden bereitgestellt. Die Multipliziereinheit enthält eine übertragerhaltende Addiereinheit mit nx Zeilen, die jeweils na Stufen von Logikgattern zur Berechnung eines Einzelbitprodukts zweier Einzelbit-Eingabewerte enthalten, und mit Addierzellen zur betriebsbereiten Kopplung von aufeinanderfolgenden Zeilen, um Ergebnisse einer vorhergehenden Zeile zu einer folgenden Zeile zu addieren, und mit einer letzten Ausgangszeile zur Ausgabe eines Übertragsvektors und eines Summenvektors. Es wird eine zusätzliche Logikschaltungsanordnung bereitgestellt, um die Einzelbitprodukte an der höchstwertigen Stelle der nx – 1 ersten Zeilen und an den na – 1 niederwertigsten Stellen der Ausgangszeile als Reaktion auf das erste Konfigurationssignal zu invertieren, bevor die invertierten Einzelbitprodukte entsprechenden Addierzellen zugeführt werden, um die CSA-Einheit selektiv zwischen der Verarbeitung von vorzeichenbehafteten Zweierkomplement-Operanden und vorzeichenlosen Operanden als Reaktion auf das erste Konfigurationssignal umzuschalten. Diese Abwandlungen der CSA-Einheit gestatten es, dieselbe CSA-Einheit für vorzeichenbehaftete und vorzeichenlose Multiplikationen zu verwenden. Die Invertierung der Einzelbitprodukte an den bestimmten Stellen der CSA-Einheit ermöglicht es, die gesamte CSA-Einheit für vorzeichenbehaftete und vorzeichenlose Multiplikationen einzusetzen, indem einfach das erste Konfigurationssignal zwischen zwei Zuständen (zum Beispiel einer logischen „1" oder einer logischen „0") umgeschaltet wird. Die Invertierung eines Einzelbitwerts kann durch ein XOR-Gatter realisiert werden. Ein Eingang des XOR-Gatters empfängt den zu invertierenden Einzelbitwert, und der andere Eingang ist so gekoppelt, dass er das erste Konfigurationssignal empfängt. Wenn das erste Konfigurationssignal eine logische ,'1' ist, erzeugt der Ausgang des XOR-Gatters den invertierten Einzelbitwert. Wenn das erste Konfigurationssignal eine logische ,0' ist, leitet das XOR-Gatter den Einzelbitwert unverändert weiter. Die Addierzellen können je nach der bestimmten Ausführung der CSA-Einheit entweder Halb- oder Volladdierzellen sein. Wenn möglich, können die Addierzellen weggelassen werden. Die erste Zeile der CSA-Einheit und die höchstwertigen Stellen jeder Zeile können zum Beispiel lediglich aus Logikgattern zur Berechnung der Einzelbitprodukte bestehen. Die spezifische Anzahl und Position von Addierzellen hängt ebenfalls davon ab, ob eine Multiplizier- oder eine MAC-Einheit implementiert ist. Da von derselben Multipliziereinheit vorzeichenbehaftete und vorzeichenlose Multiplikationen durchgeführt werden können, ist es nicht nötig, eine komplette CSA-Einheit für vorzeichenbehaftete und eine andere CSA-Einheit für vorzeichenlose Multiplikationen zu implementieren. Folglich wird die erforderliche Chipfläche auf die Hälfte der von herkömmlichen Lösungen benötigten Fläche reduziert. Da Standardlogikgatter verwendet werden können, kann die Multipliziereinheit gemäß der Erfindung basierend auf jeder beliebigen Standardbibliothek für digitale Logikzellen einer bestimmten CMOS-Technologie oder einer beliebigen anderen Technologie implementiert werden. Insbesondere ist es nicht nötig, die digitalen Gatter wie Voll- oder Halbaddierzellen abzuwandeln, um den modifizierten Baugh-Wooley-Algorithmus zu implementieren.
Die Multipliziereinheit kann ferner so eingerichtet sein, dass sie einen dritten Operanden zu dem Produkt des ersten und des zweiten Operanden addiert, um eine Multiplizier- und Addieroperation durchzuführen. Um den dritten Operanden zu addieren, enthält die erste Zeile der CSA-Einheit zum Beispiel zumindest na Halbaddierzellen. Wenn mehr als ein zusätzlicher Operand addiert werden soll, kann es nützlich sein, na Volladdierzellen zu verwenden. Durch eine derartige Abwandlung wird die Multipliziereinheit im Grunde in eine Multiplizier- und Addier-(MAC-)Einheit umgewandelt. Es können auch entsprechende Register zur Speicherung von Operanden und Zwischenergebnissen hinzugefügt werden. Die MAC-Einheit profitiert ebenfalls von der äußerst regelmäßigen Struktur gemäß der vorliegenden Erfindung. Sie kann in jeder beliebigen Technologie durch Standardlogikzellen implementiert werden.
Die Multipliziereinheit oder MAC-Einheit gemäß der vorliegenden Erfindung zur Multiplikation eines ersten, aus na Bit bestehenden Operanden und eines zweiten, aus nx Bit bestehenden Operanden kann ebenfalls eine wie obenstehend beschriebene CSA-Einheit gemäß der Erfindung oder eine beliebige herkömmliche Addiereinheit, die einen Übertragsvektor und einen Summenvektor ausgibt, enthalten. Die Multiplizier- oder MAC-Einheit enthält eine CPA-Einheit, die aus einer Zeile von na Volladdierzellen zur Addition der von der der Ausgangszeile der CSA-Einheit bereitgestellten Übertrags- und Summenvektoren besteht. Für eine bloße Multipliziereinheit kann die CPA-Einheit aus lediglich na – 1 Volladdierzellen bestehen. Sowohl für die Multiplizier- als auch für die MAC-Einheit ist der Übertragseingang der CPA-Einheit so gekoppelt, dass er ein erstes Konfigurationssignal empfangen kann, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Zweierkomplementoperanden umzuschalten.
Des Weiteren kann ein erstes XOR-Gatter an der höchstwertigen Stelle der CPA-Einheit mit der Volladdierzelle gekoppelt sein. Ein Eingang des ersten XOR-Gatters ist mit dem Übertragsausgang der Volladdierzelle gekoppelt, und der andere Eingang des ersten XOR-Gatters ist so gekoppelt, dass er das erste Konfigurationssignal empfängt. Das Ausgangssignal des ersten XOR-Gatters ist das höchstwertige Bit (MSB) des fertigen Summenvektors.
Für die MAC-Einheit gemäß der vorliegenden Erfindung kann die Addierzelle an der höchstwertigen Stelle der CPA-Einheit ebenfalls vorzugsweise mit einem zweiten XOR-Gatter gekoppelt sein. Ein Ausgang des zweiten XOR-Gatters ist mit einem Summiereingang der Volladdierzelle gekoppelt. Ein Eingang des zweiten XOR-Gatters ist so gekoppelt, dass es das höchstwertige Bit (MSB) des dritten Operanden empfängt, und ein anderer Eingang des zweiten XOR-Gatters empfängt das erste Konfigurationssignal, um zwischen vorzeichenbehafteten und vorzeichenlosen Operationen umzuschalten.
Das mit der Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit gekoppelte erste und zweite XOR-Gatter implementieren die Addition von entweder einer oder zwei '1'en, die für vorzeichenbehaftete Zweierkomplementoperationen zu den höchstwertigen Stellen in der CPA-Einheit zu addieren sind (vgl. Tabelle 4 und 6 für Multiplizier- bzw. MAC-Einheiten). Der Übertragseingang der CPA-Einheit ist mit dem ersten Konfigurationssignal gekoppelt, um die Addition einer '1' an der Stelle na durchzuführen, wie in den Tabellen 4 und 6 gezeigt. Eine CPA-Einheit gemäß der vorliegenden Erfindung gestattet es, die zusätzlichen '1'er des modifizierten Baugh-Wooley-Verfahrens in einem einzelnen Schritt zu addieren. Die Verwendung des Übertragseingangs der Volladdierzelle an der niederwertigsten Stelle gestattet es, ohne jegliche Abwandlung der CPA und der in der CPA enthaltenen Volladdierzellen sowie ohne einen zusätzlichen Taktzyklus eine '1' an der korrekten Stelle zu addieren. Des Weiteren gestattet es die zusätzliche Logik, die mit der Volladdierzelle an der höchstwertigen Stelle gekoppelt ist, die notwendigen '1'er ohne zusätzliche Addierzellen, zusätzliche Schritte o. ä. zu addieren. Dementsprechend gestattet es ein Multiplizierer mit einer CPA-Einheit gemäß der vorliegenden Erfindung, mit äußerst kleinen zusätzlichen Schaltungsanordnungen von der Multiplikation von vorzeichenlosen Operanden auf vorzeichenbehaftete Operanden gemäß dem modifizierten Baugh-Wooley-Verfahren umzuschalten.
Die Multiplizier- bzw. MAC-Einheit gemäß der vorliegenden Erfindung kann ferner so eingerichtet sein, dass sie den ersten Operanden mit einem vierten, aus nb Bit bestehenden Operanden multipliziert. Für die vorliegende Erfindung ist nb gleich na. Gemäß dieser Ausführung enthält die Multiplizier- oder MAC-Einheit ein erstes Register für den Empfang des Übertragsvektors und ein zweites Register für den Empfang des Summenvektors von der letzten Ausgangszeile der CSA-Einheit. Des Weiteren gibt es einen ersten Multiplexer für die aufeinanderfolgende Eingabe von nx Bit breiten Teilen des vierten Operanden an die übertragerhaltende Einheit, wobei nb gleich ns Mal nx und ns eine positive ganze Zahl ist, um die gesamte Multiplikation in Slices zu verarbeiten. Ein Slice für jeden Teil des vierten Operanden wird dabei fortlaufend berechnet, um ein Produkt des ersten Operanden und des vierten Operanden zu berechnen, das nach dem letzten Slice fertigzustellen ist. Eine erste Rückkopplungsverbindung koppelt das erste Register und das zweite Register zurück an die CSA-Einheit, um den Zwischensummenvektor und den Zwischenübertragsvektor an die übertragerhaltende Addiereinheit zur Verarbeitung des entsprechenden folgenden Slice rückzukoppeln. Eine zweite Rückkopplungsverbindung koppelt die CPA-Einheit mit dem zweiten Register, um das Summierergebnis in der CPA an den höchstwertigen Teil des zweiten Registers rückzukoppeln, um das Endergebnis in dem zweiten Register bereitzustellen. Letztendlich wird eine logische Schaltungsanordnung zum selektiven Umschalten der CSA-Einheit zwischen der Verarbeitung des letzten Slice und vorhergehender Slices als Reaktion auf ein zweites Konfigurationssignal bereitgestellt. Dementsprechend werden die Einzelbitprodukte an den na – 1 niederwertigsten Stellen der letzten Zeile lediglich für das letzte Slice einer vorzeichenbehafteten Zweierkomplementoperation invertiert, und das Einzelbitprodukt an der höchstwertigen Stelle der letzten Zeile wird immer für vorzeichenbehaftete Zweierkomplementoperationen invertiert, außer bei dem letzten Slice. Dieser Aspekt der vorliegenden Erfindung gestattet es, die Operation teilweise zu serialisieren. Der vierte Operand wird in mehrere nx Bit breite Teile geteilt, und der Teil der Multiplikation, mit Ausnahme der Endaddition des Übertrags- und des Summenvektors in einer CPA wird für jeden der Teile (Slices) ausgeführt. Gemäß diesem Aspekt der Erfindung kann der Teil der Multiplikation von zwei Operanden (z. B. na = nb = 16 und nx = 4) mit Ausnahme der Endaddition des Übertrags- und des Summenvektors in einer CPA teilweise in vier Slices serialisiert werden. Da die CSA-Einheit durch das erste Konfigurationssignal so konfigurierbar ist, dass sie vorzeichenbehaftete oder vorzeichenlose Operanden verarbeiten kann, kann dieselbe CSA-Einheit für alle Slices einer vollständigen Multiplikation verwendet werden. Lediglich das letzte Slice erfordert es, die Einzelbitprodukte in der letzten Zeile zu invertieren. Somit arbeitet die letzte Zeile bei vorzeichenbehafteten Operationen ns – 1 Mal mit nx gleich konfigurierten Zeilen und nur für das letzte Slice mit einer unterschiedlich konfigurierten letzten Zeile. Die Wiederverwendbarkeit derselben CSA-Einheit für alle Slices in Kombination mit der allgemeinen Fähigkeit, zwischen vorzeichenbehafteten und vorzeichenlosen Operationen umzuschalten, sorgt für eine wesentliche Reduktion der Chipfläche.
Gemäß der vorliegenden Erfindung ist es allgemein möglich, dieselbe CSA-Einheit in Kombination mit der letzten CPA-Einheit für die unterschiedlichen Multiplikationsoperationen zu verwenden, wodurch ein Multiplikationsergebnis für einen vollständigen ersten und vierten Operanden bereitgestellt wird. Die Multipliziereinheit (oder MAC-Einheit) gemäß der vorliegenden Erfindung benötigt keine zusätzliche Zeile von Addierzellen oder zusätzliche Taktzyklen für die vorzeichenbehaftete Operation. Ebenfalls können auch lediglich Standardvolladdierzellen verwendet werden, die in Bibliotheken von digitalen Logikzellen normal verfügbar sind. Es sind keine Abwandlungen der Standardvolladdierzellen nötig. Die MAC-Einheit gemäß der vorliegenden Erfindung stellt auswählbare vorzeichenbehaftete und vorzeichenlose Multiplikations- oder Multiplizier- und Addieroperationen mit einer geringen Gatteranzahl bereit. Dementsprechend werden die benötigte Chipfläche und die Leistungsaufnahme verringert, und die Betriebsfrequenz kann hoch sein. Letztendlich vereinfacht die regelmäßige Struktur die Implementierung.
Vorzugsweise enthält jede Zeile einer CSA-Einheit gemäß der vorliegenden Erfindung dieselbe Anzahl von Volladdierzellen und UND-Gattern. Jede der Volladdierzellen ist mit einem entsprechenden UND-Gatter gekoppelt. Durch das UND-Gatter wird die Einzelbitmultiplikation realisiert. Das so erzeugte, von dem UND-Gatter ausgegebene Einzelbitprodukt wird entweder direkt an einen Summiereingang der Volladdierzelle oder indirekt, wie oben beschrieben, über ein XOR-Gatter eingegeben. Die Verwendung einer regelmäßigen Struktur für die CSA-Einheit vereinfacht die Implementierung. Die Multipliziereinheit, die lediglich für die Multiplikation, nicht aber für die Addition verwendet wird, kann einen Volladdierer weniger pro Zeile aufweisen.
Weitere Vorteile und Merkmale der Erfindung ergeben sich aus der folgenden Beschreibung der bevorzugten Ausführungsformen der Erfindung und aus den beigefügten Zeichnungen. Es zeigen:
1 einen vorzeichenlosen 4 × 4 Bit Multiplizierer mit paralleler CSA-Anordnung,
2 einen vorzeichenbehafteten 4 × 4 Bit Multiplizierer mit paralleler CSA-Anordnung,
3 einen auswählbaren vorzeichenbehafteten/vorzeichenlosen 4 × 4 Bit Multiplizierer mit paralleler CSA-Anordnung,
4 eine vorzeichenlose 4 × 4 Bit parallele CSA-Anordnung und MAC-Einheit,
5 eine auswählbare vorzeichenbehaftete/vorzeichenlose 4 × 4 Bit parallele CSA-Anordnungs-MAC-Einheit gemäß der vorliegenden Erfindung,
6 ein 16 × 4 Bit CSA-Anordnungsslice für eine auswählbare vorzeichenbehaftete/vorzeichenlose Multiplikations- und MAC-Einheit gemäß der vorliegenden Erfindung, und
7 eine auswählbare vorzeichenbehaftete/vorzeichenlose, teilweise serialisierte 16 × 16 Bit Multiplizier- und MAC-Einheit gemäß der vorliegenden Erfindung.
1 zeigt einen vorzeichenlosen 4 × 4 Bit Multiplizierer mit paralleler CSA-Anordnung. Die in den obigen Tabellen 1 und 4 angegebenen Schemen für vorzeichenlose und vorzeichenbehaftete Multiplikationen können für die Erzeugung von Teilprodukten in einem parallelen Multiplizierer verwendet werden. Um die Teilprodukte zu addieren, wird eine CSA-Anordnung mit einer vervollständigenden CPA-Einheit verwendet. 1 und 2 stellen entsprechende parallele Multiplizierer für eine Bitgröße von 4 dar. Ein erster Operand a(3:0), bestehend aus na = 4 Bit, und ein zweiter Operand x(3:0), bestehend aus nx = 4 Bit, werden in 1 multipliziert, um das Endprodukt s(7:0) zu erzeugen. Eine Volladdierzelle ist durch FA gekennzeichnet, und eine Halbaddierzelle ist durch HA gekennzeichnet.
Die Ausführung des in 2 gezeigten, vorzeichenbehafteten Multiplizierers basiert auf dem wie obenstehend unter Bezug auf Tabelle 4 beschriebenen, modifizierten Baugh-Wooley-Verfahren. Die beiden „1"er, die zu dem Ergebnis zu addieren sind, werden unter Verwendung des Übertragseingangs des vervollständigenden Übertragsdurchlaufaddierers und eines zusätzlichen XOR-Gatters zur Erzeugung des höchstwertigen Bit (MSB) des Ergebnisses addiert.
3 zeigt eine Schaltung, die gemäß der vorliegenden Erfindung so eingerichtet ist, dass sie vorzeichenlose und vorzeichenbehaftete Multiplikationen von zwei 4-Bit-Operanden ausführen kann. Das Eingangssignal ist das erste Konfigurationssignal tc, das zur Auswahl zwischen vorzeichenlosen Operationen (tc = 0) und vorzeichenbehafteten Operationen (tc = 1) der Multipliziereinheit verwendet wird. Das in der vorliegenden Beschreibung zur Darstellung von vorzeichenbehafteten digitalen Zahlen verwendete Format ist das Zweierkomplementformat. Wie in 3 angezeigt, sind die höchstwertigen Stellen jeder Zeile der CSA-Einheit, mit Ausnahme der letzten Zeile, und die höchstwertige Stelle der CPA-Einheit mit dem ersten Konfigurationssignal tc betriebsbereit gekoppelt. Des Weiteren sind die Volladdierzellen FA der letzten Zeile der CSA-Einheit und die Volladdierzellen FA an der niederwertigsten Stelle der CPA-Einheit ebenfalls mit dem Eingangssignal tc gekoppelt, um selektiv vorzeichenbehaftete und vorzeichenlose Operationen auszuführen. An den Stellen na – 1 in den nx – 1 ersten Zeilen und an den na – 1 niederwertigsten Stellen der letzten Zeile wird die Kopplung durch ein mit einem Ausgang der UND-Gatter gekoppeltes XOR-Gatter ausgeführt. Die UND-Gatter erzeugen das Einzelbitprodukt an den entsprechenden Stellen. Das XOR-Gatter dient dazu, das Einzelbitprodukt für tc = 1 zu invertieren. Für die Multipliziereinheit gemäß 3 ist der Ausgang eines XOR-Gatters an den höchstwertigen Stellen jeder der nx – 1 ersten Zeilen nicht mit einem Addierer in derselben Zeile sondern in der entsprechenden folgenden Zeile gekoppelt.
4 zeigt eine vorzeichenlose parallele 4 × 4 Bit CSA-Anordnung und die Mac-Einheit entsprechend dem in Tabelle 5 gezeigten Schema. Dementsprechend kann ein dritter Operand t(7:0) addiert werden, um eine vollständige Multiplizier- und Addieroperation von zwei Vierbit-Operanden und einem Achtbit-Operanden auszuführen.
Die in 5 gezeigte Schaltung bezieht sich auf Tabelle 6 und ist eine auswählbare vorzeichenbehaftete/vorzeichenlose 4 × 4 Bit parallele CSA-Anordnungs-MAC-Einheit, die gemäß Aspekten der vorliegenden Erfindung optimiert wurde. Die in 5 gezeigte resultierende Architektur ist eine äußerst regelmäßige Anordnung von Addierzellen mit einer ersten Zeile von Halbaddierzellen HA und mit den restlichen Zeilen von Volladdierzellen FA. Jede vorhergehende Zeile ist mit einer folgenden Zeile von Addierzellen gekoppelt. Jede Addierzelle an der höchstwertigen Stelle (d. h. bei na – 1 = 3) der na – 1 = 3 ersten Zeilen und an der höchstwertigen Stelle der CPA-Einheit ist mit dem Eingangssignal tc über ein XOR-Gatter gekoppelt. Des Weiteren ist jede Volladdierzelle FA an den na – 1 = 3 niederwertigsten Stellen der letzten Ausgangszeile der CSA-Einheit mit dem Eingangssignal tc über ein XOR-Gatter gekoppelt. Die XOR-Gatter invertieren das entsprechende, durch die UND-Gatter zur Verfügung gestellte Einzelbitprodukt. An den Stellen 7 und 8 (S7, S8) der CPA-Einheit wird eine '1' zu dem Ergebnis addiert. Der Übertragseingang der FA an der niederwertigsten Stelle der CPA-Einheit ist mit tc gekoppelt, um die Summierung einer '1' an der bestimmten Stelle (S4) durchzuführen. Die Erzeugung des Ausgangssignals 88 wurde gemäß den folgenden Gleichungen optimiert S8 = c_out7 XOR (t7 UND tc) XOR [(t7 UND tc) XOR tc] S8 = c_out7 XOR (t7 UND tc) XOR {[(t7 UND tc) UND /tc] ODER [/t7 UND tc) UND tc]} S8 = c_out7 XOR (t7 UND tc) XOR [/t7 ODER /tc) UND tc] S8 = c_out7 XOR (t7 UND tc) XOR (/t7 UND tc) S8 = c_out7 XOR tc
Dementsprechend ist lediglich ein XOR-Gatter nötig, um S8 zu bestimmen.
6 zeigt eine 16 × 4 Bit CSA-Einheit für eine auswählbare vorzeichenbehaftete/vorzeichenlose Multiplikations- und MAC-Operation gemäß der vorliegenden Erfindung. Die Multiplizier- oder MAC-Einheit gemäß der vorliegenden Erfindung kann teilweise serialisiert sein. Eine Serialisierung kann nützlich sein, um die Chipfläche, die Leistungsaufnahme und die kritische Pfadverzögerung zu verringern. Dementsprechend wird während jedem Taktzyklus eines an der Schaltung angelegten Taktsignals lediglich ein Teil der Gesamtoperation durch dieselbe Einheit ausgeführt. Die Struktur der CSA-Einheit mit der erforderlichen Erweiterung für vorzeichenbehaftete Operationen ist höchst regelmäßig und deshalb für eine Aufteilung geeignet, ohne die Komplexität der Schaltungsanordnung oder die Chipfläche wesentlich zu erhöhen. Die Multiplikation von zwei Operanden OP1, bestehend aus na = 16 Bit, und OP4, bestehend aus nb = 16 Bit, soll in Slices mit einer Bitbreite von nx = 4 Bit aufgeteilt werden. Gemäß der vorliegenden Ausführungsform kann eine vorzeichenbehaftete/vorzeichenlose 16 × 16-Bit-Multiplizier- oder -MAC-Operation in vier 16 × 4-Bit-Slices aufgeteilt werden. Für eine vorzeichenbehaftete Operation müssen die Einzelbitprodukte an den Stellen 0 bis 14 (0 bis na – 2) der letzten Zeile (nx – 1) invertiert sein, und das Einzelbitprodukt an der Stelle 15 (na – 1) der letzten Zeile (nx – 1) ist nicht invertiert. Für die teilweise serialisierte Operation gilt dies lediglich für das letzte Slice, das, wie in 6 gezeigt, durch zusätzliche Logik unter Verwendung des zweiten Konfigurationssignals letztes_Slice implementiert wird. Des Weiteren werden die Einzelbitprodukte an den höchstwertigen Stellen der nx – 1 ersten Zeilen als Reaktion auf das erste Konfigurationssignal tc selektiv invertiert. Dementsprechend kann ein erster Operand mit na Bit (wobei na zum Beispiel 16 Bit ist) mit einem vierten Operanden OP4 mit nb Bit (wobei nb zum Beispiel 16 Bit ist) in mehreren Slices von nx (z. B. nx = 4 Bit) Bit des vierten Operanden multipliziert werden. Jeder Teil von nx Bit kann dann als zweiter Operand OP2 angesehen werden, der im Grunde wie oben beschrieben verarbeitet wird. Die vorzeichenbehaftete Multiplikation und Addition wendet das modifizierte Baugh-Wooley-Verfahren in Kombination mit einer CSA-Einheit und einer vervollständigenden CPA-Einheit an, wobei der Übertragseingang der Volladdierzelle an der niederwertigsten Stelle der CPA-Einheit zur Versorgung mit einer zusätzlichen „1" verwendet wird, um das modifizierte Baugh-Wooley-Verfahren zu implementieren. Die auf dem modifizierten Baugh-Wooley-Verfahren basierende auswählbare vorzeichenbehaftete und vorzeichenlose Multiplikation und Addition stellt in Kombination mit dieser CSA-Einheit und einer vervollständigenden CPA-Einheit mit der Besonderheit, dass der Übertragseingang der vervollständigenden CPA-Einheit und zusätzliche XOR-Gatter für die zusätzlichen „1"-Bit-Werte des modifizierten Baugh-Wooley-Verfahrens verwendet werden, ein verbessertes Ausführungsprinzip dar. Der Ansatz der teilweisen Serialisierung der CSA-Einheit und der vervollständigenden CPA-Einheit mit einer Erweiterung für das modifizierte Baugh-Wooley-Verfahren und für die zusätzliche Logik für das Auswählen zwischen vorzeichenbehafteten und vorzeichenlosen Operationen verringert die Komplexität und spart Chipfläche und Leistung ein. Gemäß der vorliegenden Erfindung werden keine zusätzlichen Addierzellenzeilen oder zusätzliche Taktzyklen für vorzeichenbehaftete Operationen benötigt. Es werden lediglich Standardvolladdierzellen verwendet, die normalerweise in Standardbibliotheken verfügbar sind. Es sind keine Abwandlungen der Standardvolladdierzellen nötig.
7 zeigt ein vereinfachtes Schaubild einer auswählbaren vorzeichenbehafteten und vorzeichenlosen, teilweise serialisierten 16 × 16 Bit Multiplizier- und MAC-Einheit gemäß der vorliegenden Erfindung. Die Grundbauelemente bestehen aus der CSA-Einheit, der CPA-Einheit, den Registern REG1 und REG2 und dem Multiplizierer MUX1. Die von der letzten Ausgangszeile der CSA-Einheit ausgegebenen Zwischenübertrags- und -summenvektoren werden in einem ersten Register REG1 und in einem zweiten Register REG2 gespeichert. Um Chipfläche einzusparen, wird die CSA-Einheit vier Mal (vier Slices) verwendet, indem die Zwischenübertrags- und -summenvektoren über die Rückkopplungsleitungen FB1 an entsprechende Eingänge der CSA-Einheit rückgekoppelt werden. Der erste Operand OP1 wird den na = 16 Eingängen a_i der CSA-Einheit zugeführt. Der vierte Operand OP4, bestehend aus nb = 16 Bit wird dem ersten Multiplexer MUX1 zugeführt und der Reihe nach in Teile von nx = 4 Bit aufgeteilt. Jeder dieser Teile wird als zweiter Operand OP2 weiter verarbeitet. Für jedes Slice wird der zweite Operand OP2, bestehend aus nx = 4 Bit, den Eingängen x_i der CSA-Einheit zugeführt. Das Umschalten zwischen vorzeichenbehafteter und vorzeichenloser Operation wird wie folgt durchgeführt. Die Volladdierzellen FA an den höchstwertigen Stellen jeder Zeile der CSA-Einheit (d. h. auf der linken Seite jeder Zeile) und alle Volladdierzellen FA der letzten Zeile der CSA-Einheit sind betriebsbereit gekoppelt, um das erste Konfigurationssignal tc zu empfangen, das eine vorzeichenbehaftete oder vorzeichenlose Operation kennzeichnet. Die letzte Zeile der CSA-Einheit ist ebenfalls so betriebsbereit gekoppelt, dass es ein zweites Konfigurationssignal letztes_Slice empfängt, um die Berechnung von vorhergehenden Slices von dem letzte Slice zu unterscheiden. Die logische Kopplung von tc und letztes_Slice wird durch UND- und XOR-Gatter erreicht. Die XOR-Gatter werden dazu verwendet, die an den Ausgängen der UND-Gatter an den entsprechenden Stellen als Reaktion auf tc = 1 bereitgestellten Einzelbitprodukte zu invertieren. Für tc = 0 wird das Ausgangssignal des entsprechenden UND-Gatters unverändert durch das XOR-Gatter übertragen. Das UND-Gatter UND1, das tx und das zweite Konfigurationssignal letztes_Slice logisch koppelt, bewirkt, dass die vorzeichenbehaftete Operation lediglich für letztes_Slice = 1 durchgeführt wird. Das UND-Gatter UND2 sorgt dafür, dass das Einzelbitprodukt an der Stelle na – 1 = 15 lediglich dann invertiert wird, wenn letztes_Slice = 0 und tc = 1 sind, d. h. für vorzeichenbehaftete Operationen, nicht jedoch für das letzte Slice. Für hohe Durchsätze kann an Stelle einer teilweisen Serialisierung eine Fließbandverarbeitung (Pipelining) von CSA-Einheiten, ähnlich den in 7 gezeigten, mit Zwischenregistern zwischen den Einheiten implementiert werden. Des Weiteren können die Größe der CSA-Einheit und dadurch auch die Anzahl der zur Ausführung der gesamten Operation notwendigen Durchlaufe für eine bessere Berechnungsgeschwindigkeit variiert werden.
Die CPA-Einheit besteht aus einer Zeile von 16 Volladdierzellen FA. Die Volladdierzelle FA an der niederwertigsten Stelle ist so gekoppelt, dass sie das erste Konfigurationssignal tc empfängt, um zwischen vorzeichenbehafteter und vorzeichenloser Operation umzuschalten. Dementsprechend wird bei tc = 1 an der Stelle na = 16 des Endergebnisses eine '1' addiert. Des Weiteren ist die Volladdierzelle FA an der höchstwertigen Stelle na + nb – 1 = 2·n – 1 = 31 über ein XOR-Gatter ebenfalls mit dem ersten Eingangssignal tc gekoppelt, und der Übertragsausgang der Volladdierzelle wird über ein XOR-Gatter mit dem ersten Konfigurationssignal tc kombiniert. Die Funktion der beiden XOR-Gatter wurde in Bezug auf 5 erläutert. Sie sorgen dafür, dass an Stelle 31 und an Stelle 32 des Endergebnisses eine '1' addiert wird, wie es von dem modifizierten Baugh-Wooley-Algorithmus und der Erweiterung um ein Vorzeichen benötigt wird. Der von der CPA-Einheit bereitgestellte fertige Summenvektor kann an das zweite Register REG2, das 33 Bit aufweist, geleitet werden.
Der Startsummenvektor in REG2 ist der Addierer der vorhergehenden Operation, oder es kann ein bestimmter Wert (dritter Operand OP3) in das Register geschrieben werden. Für eine bloße Multiplizieroperation wird REG2 auf Null zurückgesetzt, wenn die Operation beginnt. Der Startübertragsvektor in REG1 beträgt ebenfalls Null. Die 16 × 4-Bit-CSA-Einheit wird in den ersten Operationszyklen verwendet (z. B. vier Zyklen in 7). Die Zwischenübertrags- und -summenvektoren werden in entsprechenden Übertrags- und Ergebnisregistern REG1, REG2 gespeichert. Nach jedem Slice ist der niedrige Teil der aus der CSA-Einheit ausgegebenen Summe fertig und wird direkt an das Register REG2 geleitet (hierbei handelt es sich um die vier niederwertigsten Bit der CSA-Einheit, wie in 7 gezeigt). Der fertige Summenvektor und die restlichen Addiererbit werden in REG2 um die Anzahl von Zeilen in der CSA-Einheit verschoben. Nach dem letzten Slice in der CSA-Einheit werden der Zwischenübertragsvektor und der Zwischensummenvektor in der vervollständigenden CPA-Einheit addiert. Das restliche höchstwertige Bit (MSB) des Addierers wird ebenfalls zu dem Ergebnis addiert. In der in 7 gezeigten Ausführungsform wird diese Endsummierung durch die 16-CPA-Einheit, zum Beispiel einen 16-Bit-Schnellübertragsaddierer („ripple carry adder"), in einem Zyklus durchgeführt. Diese Operation kann unter Verwendung eines kleineren Übertragsdurchlaufaddierers und mehrerer Taktzyklen auch teilweise serialisiert werden. Im Falle einer vorzeichenbehafteten Operation geschieht die Addition von „1"-Bit-Werten gemäß dem modifizierten Baugh-Wooley-Verfahren mit dem Übertragseingang der Volladdierzelle FA an der niederwertigsten Stelle der vervollständigenden CPA-Einheit und den beiden zusätzlichen XOR-Gattern, die mit der Volladdierzelle FA an der höchstwertigen Stelle gekoppelt sind. Das Ergebnis wird über den Rückkopplungspfad FB2 an den oberen Teil (17 höchstwertige Bit) von REG2 geleitet. Die 16 niederwertigsten Bit (LSB) werden während den vier Slices der CSA-Einheit direkt in REG2 gespeichert.
Das Konzept gemäß der vorliegenden Erfindung ist in Bezug auf Taktzyklen und Chipfläche flexibel und kann leicht angepasst werden, indem zum Beispiel die Größe der CSA-Einheit und somit die Anzahl von Taktzyklen für eine Einzelsegmentoperation angepasst werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- „A two's complement parallel array multiplication algorithm" von C. R. Baugh und B. A. Wooley, IEEE Trans. Computers, Vol. 22, Seiten 1045–1047, Dezember 1973 [0002]

Claims

Multipliziereinheit für die Multiplikation eines ersten, aus na Bit bestehenden Operanden mit einem zweiten, aus nx Bit bestehenden Operanden, wobei die Multipliziereinheit Folgendes umfasst: eine übertragerhaltende Addier-(CSA-)Einheit mit nx Zeilen, die jeweils na UND-Gatter zur Berechnung eines Einzelbitprodukts zweier Einzelbit-Eingabewerte umfassen, und mit Addierzellen zur Addition von Ergebnissen einer vorhergehenden Zeile zu einer folgenden Zeile und mit einer letzten Ausgangszeile zur Ausgabe eines Übertragsvektors und eines Summenvektors, und eine Logikschaltungsanordnung für das selektive Invertieren der Einzelbitprodukte an der höchstwertigen Stelle der nx – 1 ersten Zeilen und an den na – 1 niederwertigsten Stellen der Ausgangszeile als Reaktion auf ein erstes Konfigurationssignal (tc), bevor die selektiv invertierten Einzelbitprodukte entsprechenden Addierzellen zugeführt werden, um die CSA-Einheit als Reaktion auf das erste Konfigurationssignal (tc) selektiv zwischen der Verarbeitung von vorzeichenbehafteten Zweierkomplementoperanden und vorzeichenlosen Operanden umzuschalten.
Multipliziereinheit gemäß Anspruch 1, ferner umfassend eine Übertragsdurchlaufaddier-(CPA-)Einheit, die mit der Ausgangszeile der CSA-Einheit gekoppelt ist, wobei die CPA-Einheit aus einer Zeile von na – 1 Volladdierzellen zur Addition des Übertragsvektors und des Summenvektors, die an der Ausgangszeile der CSA-Einheit bereitgestellt werden, besteht, wobei der Übertragseingang der CPA-Einheit so gekoppelt ist, dass er das erste Signal (tc) empfängt, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Zweierkomplementoperanden umzuschalten.
Multipliziereinheit gemäß Anspruch 2, bei der die Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit mit einem ersten XOR-Gatter gekoppelt ist, das über einen ersten Eingang mit dem Übertragsausgang der Volladdierzelle und über einen zweiten Eingang so gekoppelt ist, dass es das erste Konfigurationssignal (tc) empfängt, so dass der Ausgang des ersten XOR-Gatters das höchstwertige Bit (MSB) eines fertigen Summenvektors ausgibt.
Multipliziereinheit für die Multiplikation eines ersten Operanden (OP1), der aus na Bit besteht, mit einem zweiten Operanden (OP2), der aus nx Bit besteht, und für die Addition eines dritten Operanden (OP3) zu dem Produkt, wobei die Multipliziereinheit Folgendes umfasst: eine übertragerhaltende Addier-(CSA-)Einheit mit nx Zeilen, die jeweils na UND-Gatter zur Berechnung eines Einzelbitprodukts zweier Einzelbit-Eingabewerte umfassen, und mit Addierzellen zur Addition von Ergebnissen einer vorhergehenden Zeile zu einer folgenden Zeile und mit einer letzten Ausgangszeile zur Ausgabe eines Übertragsvektors und eines Summenvektors, und eine Logikschaltungsanordnung für das selektive Invertieren der Einzelbitprodukte an der höchstwertigen Stelle der nx – 1 ersten Zeilen und an den na – 1 niederwertigsten Stellen der Ausgangszeile als Reaktion auf ein erstes Konfigurationssignal (tc), bevor die selektiv invertierten Einzelbitprodukte entsprechenden Addierzellen zugeführt werden, um die CSA-Einheit als Reaktion auf das erste Konfigurationssignal (tc) selektiv zwischen der Verarbeitung von vorzeichenbehafteten Zweierkomplementoperanden und vorzeichenlosen Operanden umzuschalten, wobei die CSA-Einheit ferner so eingerichtet ist, dass sie einen dritten Operanden (OP3) zu dem Produkt des ersten und des zweiten Operanden addiert, um so eine Multiplizier- und Addier-(MAC-)Operation durchzuführen.
Multipliziereinheit gemäß Anspruch 4, ferner umfassend eine Übertragsdurchlaufaddier-(CPA-)Einheit, die mit der Ausgangszeile der CSA-Einheit gekoppelt ist, wobei die CPA-Einheit aus einer Zeile von na Volladdierzellen zur Addition des Übertragsvektors und des Summenvektors, die an der Ausgangszeile der CSA-Einheit bereitgestellt werden, besteht, wobei der Übertragseingang der CPA-Einheit so gekoppelt ist, dass er das erste Signal (tc) empfängt, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Zweierkomplementoperanden umzuschalten.
Multipliziereinheit gemäß Anspruch 2, bei der die Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit mit einem ersten XOR-Gatter gekoppelt ist, das über einen ersten Eingang mit dem Übertragsausgang der Volladdierzelle und über einen zweiten Eingang so gekoppelt ist, dass es das erste Konfigurationssignal (tc) empfängt, so dass der Ausgang des ersten XOR-Gatters das höchstwertige Bit (MSB) eines fertigen Summenvektors ausgibt.
Multipliziereinheit gemäß Anspruch 6, bei der die Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit mit einem zweiten XOR-Gatter gekoppelt ist, wobei ein Ausgang des zweiten XOR-Gatters mit einem Summiereingang der Volladdierzelle gekoppelt ist, ein Eingang des zweiten XOR-Gatters so gekoppelt ist, dass es das höchstwertige Bit (MSB) des dritten Operanden empfängt, und ein anderer Eingang des zweiten XOR-Gatters so gekoppelt ist, dass es das erste Konfigurationssignal (tc) empfängt, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Operationen umzuschalten.
Multipliziereinheit gemäß einem der Ansprüche 4 bis 7, bei der jede Zeile der CSA-Einheit dieselbe Anzahl von Volladdierzellen und UND-Gattern umfasst.
Multipliziereinheit gemäß einem der vorhergehenden Ansprüche, die ferner so eingerichtet ist, dass sie den ersten Operanden mit einem vierten, aus nb = na Bit bestehenden Operanden multipliziert, wobei die Multipliziereinheit ein erstes Register (REG1) für den Empfang des Übertragsvektors und ein zweites Register (REG2) für den Empfang des Summenvektors von der letzten Ausgangszeile der CSA-Einheit umfasst, einen ersten Multiplexer (MUX1) für die aufeinanderfolgende Eingabe von nx Bit breiten Teilen des zweiten Operanden (OP2) in die übertragerhaltende Einheit, wobei nb gleich ns Mal nx und ns eine positive ganze Zahl ist, um die gesamte Multiplikation in ns Slices durchzuführen, je ein Slice für jeden Teil des zweiten Operanden, wodurch ein Produkt aus dem ersten Operanden (OP1) und dem zweiten Operanden (OP2), das nach dem letzten Slice fertigzustellen ist, fortlaufend berechnet wird, und eine erste Rückkopplungsverbindung (FBI), die das erste Register und das zweite Register zurück an die CSA-Einheit koppelt, um den Zwischensummenvektor und den Zwischenübertragsvektor an die CSA-Einheit zur Verarbeitung des entsprechenden folgenden Slice rückzukoppeln, und eine logische Schaltungsanordnung zum selektiven Umschalten der CSA-Einheit zwischen der Verarbeitung des letzten Slice und vorhergehender Slices als Reaktion auf ein zweites Konfigurationssignal (letztes_Slice), so dass die Einzelbitprodukte an den na – 1 niederwertigsten Stellen der letzten Zeile lediglich für das letzte Slice einer vorzeichenbehafteten Zweierkomplementoperation invertiert werden, und das Einzelbitprodukt an der höchstwertigen Stelle der letzten Zeile immer für vorzeichenbehaftete Zweierkomplementoperationen invertiert wird, außer bei dem letzten Slice.
Multipliziereinheit gemäß Anspruch 9, ferner umfassend eine zweite Rückkopplungsverbindung (FB2), die die CPA-Einheit mit dem zweiten Register (REG2) koppelt, um das Summierergebnis in der CPA an den höchstwertigen Teil des zweiten Registers (REG2) rückzukoppeln.
Multipliziereinheit für die Multiplikation eines ersten, aus na Bit bestehenden Operanden mit einem zweiten, aus nx Bit bestehenden Operanden, wobei die Multipliziereinheit Folgendes umfasst: eine Addiereinheit, die einen Übertragsvektor und einen Summenvektor ausgibt, und eine CPA-Einheit, die aus einer Zeile von na Volladdierzellen zur Addition der von der Ausgangszeile der CSA-Einheit bereitgestellten Übertrags- und Summenvektoren besteht, wobei der Übertragseingang der CPA-Einheit so gekoppelt ist, dass er ein erstes Konfigurationssignal (tc) empfängt, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Zweierkomplementoperanden umzuschalten.
Multipliziereinheit gemäß Anspruch 11, bei der die Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit mit einem ersten XOR-Gatter gekoppelt ist, das über einen ersten Eingang mit dem Übertragsausgang der Volladdierzelle und über einen zweiten Eingang so gekoppelt ist, dass es das erste Konfigurationssignal (tc) empfängt, so dass der Ausgang des ersten XOR-Gatters das höchstwertige Bit (MSB) eines fertigen Summenvektors ausgibt.
Multipliziereinheit gemäß Anspruch 12, bei der die Volladdierzelle an der höchstwertigen Stelle der CPA-Einheit mit einem zweiten XOR-Gatter gekoppelt ist, wobei ein Ausgang des zweiten XOR-Gatters mit einem Summiereingang der Volladdierzelle gekoppelt ist, ein Eingang des zweiten XOR-Gatters so gekoppelt ist, dass es das höchstwertige Bit (MSB) des dritten Operanden empfängt, und ein anderer Eingang des zweiten XOR-Gatters so gekoppelt ist, dass es das erste Konfigurationssignal (tc) empfängt, um zwischen der Verarbeitung von vorzeichenbehafteten und vorzeichenlosen Operationen umzuschalten.