DE112011103195T5

DE112011103195T5 - Funktionseinheit zur Berechnung von führenden Nullen von Vektoren, von abschließenden Nullen von Vektoren, der Anzahl von Einsen von Vektoroperanden und der Vektorparität

Info

Publication number: DE112011103195T5
Application number: DE112011103195T
Authority: DE
Inventors: Jeff Wiedemeier; Sridhar Samudrala; Roger Golliver; Eric W. Mahurin
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2010-09-24
Filing date: 2011-09-23
Publication date: 2013-06-27
Also published as: TWI547868B; KR101517762B1; GB2497455A; US9092213B2; BR112013008616A2; JP5636110B2; KR20130062352A; JP2013543173A; US20120079253A1; WO2012040539A3; CN103119578B; WO2012040539A2; TW201229888A; CN103119578A; CN106126194A; GB201303912D0; GB2497455B

Abstract

Es wird ein Verfahren zum Ausführen von Vektoroperationen auf einem Halbleiterchip beschrieben. Das Verfahren umfasst das Ausführen einer ersten Vektoranweisung mit einer Vektor-Funktionseinheit, die auf dem Halbleiterchip implementiert ist, und das Ausführen einer zweiten Vektoranweisung mit der Vektor-Funktionseinheit. Die erste Vektoranweisung ist eine Multiply-Add-Vektoranweisung. Die zweite Vektoranweisung ist eine Vektoranweisung zum Zählen von führenden Nullen.

Description

Gebiet der Erfindung
Das Gebiet der Erfindung betrifft allgemein Computersysteme und insbesondere eine Prozessorarchitektur zum Ausführen einer Vektor-Multiply-Add-Anweisung und anderer Anweisungen, die Logikblöcke verwenden, die zum Berechnen des Vektor-Multiply-Add-Ergebnisses dienen.
Hintergrund der Erfindung
Auf dem Gebiet der Informatik sind zwei Arten von Prozessorarchitekturen allgemein bekannt: die skalare und die Vektorprozessorarchitektur. Ein skalarer Prozessor ist so konfiguriert, dass er Anweisungen ausführt, die Operationen an nur einem Datensatz ausführen, während ein Vektorprozessor so konfiguriert ist, dass er Anweisungen ausführt, die Operationen an mehreren Datensätzen ausführen. Die 1A und 1B stellen ein Vergleichsbeispiel dar, das den Hauptunterschied zwischen einem skalaren Prozessor und einem Vektorprozessor zeigt.
1A zeigt ein Beispiel für eine skalare UND-Anweisung, bei der A und B, die eine einzelne Operandengruppe bilden, über ein UND-Gatter zu einem singulären (oder „skalaren”) Ergebnis C (d. h., AB = C) verknüpft werden. Im Gegensatz dazu zeigt 1B ein Beispiel für eine Vektor-UND-Anweisung, bei der A/B und D/E, die zwei Operandengruppen bilden, jeweils über ein UND-Gatter parallel verknüpft werden, um simultan ein Vektor-Ergebnis C, F (d. h., A.AND.B = C und D.AND.E = F) zu erzeugen.
Wie auf dem Fachgebiet bekannt ist, werden sowohl die Eingangsoperanden als auch das ausgegebene Ergebnis in dedizierten Registern gespeichert. Viele Anweisungen haben zum Beispiel zwei Eingangsoperanden. Daher werden zwei getrennte Eingaberegister zum Zwischenspeichern der entsprechenden Eingangsoperanden verwendet. Darüber hinaus führen diese Anweisungen zu einem Ausgabewert, der in einem dritten Register (Ergebnisregister) zwischengespeichert wird. In den 1A und 1B sind jeweils Eingaberegister 101a, b und 102a, b und Ergebnisregister 103a, b dargestellt. Man beachte, dass die Charakterisierungen „skalar” im Gegensatz zu „Vektor” problemlos zu erkennen sind.
Es ist also zu erkennen, dass die Eingaberegister 101a und 102a mit der skalaren Konfiguration von 1A nur skalare Werte (A bzw. B) halten. Ebenso ist zu erkennen, dass das Ergebnisregister 103a mit der skalaren Konfiguration von 1A nur einen skalaren Wert (C) hält. Im Gegensatz dazu ist zu erkennen, dass die Eingaberegister 101b und 102b des Vektorensystems von 1B Vektoren halten (A, D in dem Register 101b und B, E in dem Register 102b). Ebenso ist zu erkennen, dass das Ergebnisregister 103b des Vektorensystems von 1B einen Vektorenwert (C, F) hält. Was die Terminologie betrifft, so kann der Inhalt der einzelnen Register 101b, 102b und 103b des Vektorensystems von 1B global als ein „Vektor” bezeichnet werden und die einzelnen skalaren Werte in dem Vektor können als ein „Element” bezeichnet werden. Daher ist zum Beispiel zu erkennen, dass das Register 101b den „Vektor” A, D speichert, der aus dem „Element” A und dem „Element” D besteht.
Bekanntlich sind bisher nur skalare oder SIMD-Multiplikationsoperationen tatsächlich in einem Halbleiterchip-Prozessor als eine einzelne Prozessor-Anweisung implementiert worden. Zu den skalaren oder SIMD-Multiplikationsanweisungen, die bekanntermaßen in einem Halbleiterchip-Prozessor implementiert worden sind, gehören die Anweisung „Multiply” (MUL), die die niedrigerwertigen Bits des Produkts aus zwei ganzzahligen Eingangsoperanden liefert, und die Anweisung „Multiply High” (MULH), die die höherwertigen Bits einer skalaren Multiplikationsoperation mit ganzen Zahlen liefert.
Weitere Anweisungen, die bekanntermaßen in einem Halbleiterprozessorchip als skalare oder SIMD-Anweisungen implementiert worden sind, sind die Anweisung „Court Leading Zeros” („Führende Nullen zählen”; CLZ), die Anweisung „Court Trailing Zeros” („Abschließende Nullen zählen”; CTZ) und die Anweisung „Court” („Zählen”; CNT). Die skalare Anweisung CLZ nimmt eine skalare Eingabe A an und sendet die Anzahl von Nullen in A zurück, die der höchstwertigen Eins in A vorhergehen (z. B. wenn A = 1000 ist, ist das Ergebnis für CLZ = 0; wenn A = 0100 ist, ist das Ergebnis für CLZ = 1; wenn A = 0010 ist, ist das Ergebnis für CLZ = 2, usw.). Die skalare Anweisung CTZ nimmt eine skalare Eingabe A an und sendet die Anzahl von Nullen in A zurück, die auf die niedrigstwerte Eins in A folgen (z. B. wenn A = 1000 ist, ist das Ergebnis für CTZ = 3; wenn A = 0100 ist, ist das Ergebnis für CTZ = 2; wenn A = 0010 ist, ist das Ergebnis für CTZ = 1, usw.). Die skalare Anweisung CNT nimmt eine skalare Eingabe A an und sendet die Anzahl von Einsen in A zurück (z. B. wenn A = 1011 ist, ist das Ergebnis für CLZ = 3; wenn A = 1001 ist, ist das Ergebnis für CLZ = 2; wenn A = 0010 ist, ist das Ergebnis für CLZ = 1, usw.).
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird nachstehend beispielhaft und nicht beschränkend in den Figuren der beigefügten Zeichnungen erläutert, in denen ähnliche Bezugssymbole ähnliche Elemente bezeichnen, wobei
1A und 1B skalare und logische Vektoroperationen zeigen;
2 eine Multiply-Add-Funktionseinheit für Vektoren zeigt;
3 eine Ausführungsform einer elektronischen Funktionseinheit zeigt, die für jede der Funktionseinheiten 200_1 bis 200_N von 2 verwendet werden kann;
4A eine Multiply-Add-Operation mit Vektor-Gleitkommas zeigt;
4B eine Gleitkomma-Operation für ganzzahlige Vektoren zeigt;
5 eine Ausführungsform der Funktionseinheit von 3 mit einer erweiterten Logik zum Ausführen von Anweisungen zum Zählen von führenden Nullen, zum Zählen von abschließenden Nullen, zum Zählen von Operanden-Einsen und Paritätsanweisungen zeigt;
6A bis 6D jeweils die Ausführung der folgenden Anweisungen zeigen: Ermitteln von führenden Nullen, Ermitteln von abschließenden Nullen, Zählen von Operanden-Einsen und Ermitteln der Operandenparität;
7 ein Diagramm eines Halbleiterprozessors zeigt und
8 ein Diagramm eines Rechensystems zeigt.
Detaillierte Beschreibung
Einige Computersysteme können eine Multiply-Add-Operation erfordern. Eine Multiply-Add-Operation führt die Berechnung (A·B) + C aus, wobei A, B und C jeweils ein Eingangsoperand sind. 2 zeigt eine Darstellung einer höheren Architektur einer Vektorenverarbeitungs-Funktionseinheit 200, die eine Vektor-Multiply-Add-Anweisung (VMADD) ausführen kann. Wie in 2 zu erkennen ist, hat die Funktionseinheit N skalare Logikeinheiten 200_1 bis 200_N, die jeweils eine skalare Multiply-Add-Operation an entsprechenden Elementen der Eingabevektoren ausführen. Hier hält ein Eingaberegister 203 einen Eingabevektor A = A_1, A_2, ... A_N, ein Eingaberegister 204 hält einen Eingabevektor B = B_1, B_2, ... B_N, und ein Eingaberegister 205 hält einen Eingabevektor C = C_1, C_2, ... C_N. Die skalare Logikeinheit 200_1 führt die Berechnung ((A_1)·(B_1)) + C_1 aus, die skalare Logikeinheit 200_2 führt die Berechnung ((A_2)·(B_2)) + C_2 aus, und die skalare Logikeinheit 200_N fahrt die Berechnung ((A_N)·(B_N)) + C_N aus. Bei einer Ausführungsform unterstützt jede skalare Logikeinheit sowohl einen Betriebsmodus mit 32-Bit-Operanden als auch einen Betriebsmodus mit 64-Bit-Operanden. Die einzelnen Ergebnisse 202_1 bis 202_N, die von den Logikeinheiten 200_1 bis 200_N berechnet werden, entsprechen den einzelnen Elementen des Ausgabevektors, der von der Vektor-Funktionseinheit 200 bereitgestellt wird und in einem Ausgaberegister gespeichert wird.
2 zeigt auch, dass eine Maskierungsschicht in eine Ausgabeschaltung 206 integriert werden kann, um Vektoroperationen statt SIMD-Operationen zu bewirken. Eine Vektoroperation kann insofern als eine von der SIMD-Operation verschiedene Operation angesehen werden, als die Größe des Eingangsoperanden für Vektormaschinen variabel ist, aber für SIMD-Maschinen feststehend ist. Das Vermögen, die Anzahl von Elementen in der Vektormaschine von 2 zu ändern, wird durch die Maskierung verkörpert, die an dem Ausgang 206 durchgeführt werden kann. Insbesondere kann jedes Ausgabe-Element mit seiner jeweiligen eigenen Schreiblogikschaltung (nicht dargestellt) beschrieben werden. Bei einer Ausführungsform kann die Schreiblogikschaltung an jeden Speicherplatz eines Ausgabe-Elements schreiben. Durch Aktivieren der Schreiblogikschaltung nur für solche Elemente, die einem gültigen Vektoroperanden-Element entsprechen, können Vektoren mit variabler Länge verarbeitet werden. Das hat den Effekt, dass im Wesentlichen nur diejenigen der skalaren Funktionseinheiten 200_1 bis 200_N für den Betrieb freigegeben werden, die einem gültigen Vektorelement entsprechen. Darüber hinaus ermöglicht es die Maske, dass alle arithmetischen Ausnahmen, die für die gültigen Elemente erkannt werden, bereitgestellt werden, während die Ausnahmen für die inaktiven Elemente unterdrückt werden.
Wie nachstehend näher dargelegt wird, kann die Funktionseinheit 200 nicht nur eine Vektor-Multiply-Add-Anweisung berechnen, sondern sie kann auch eine Anzahl von weiteren Vektoranweisungen berechnen, wie etwa eine oder mehrere der folgenden Anweisungen: I) eine Vektor-Multiply-Add-High-Anweisung (VMADDH) für ganzzahlige Operanden, die die höherwertigen Bits für die Vektor-Multiply-Add-Berechnung bereitstellt; II) eine Vektor-Multiply-Add-Anweisung (VMADDL) für ganzzahlige Operanden, die die niedrigerwertigen Bits für die Vektor-Multiply-Add-Berechnung bereitstellt; III) eine Vektor-Count-Leading-Zeros-Anweisung (VCLZ), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen Elemente jeweils der Anzahl von führenden Nullen der Elemente des Eingabevektors C entsprechen; IV) eine Vektor-Count-Trailing-Zeros-Anweisung (VCTZ), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen Elemente jeweils der Anzahl von abschließenden Nullen der Elemente des Eingabevektors C entsprechen; V) eine Vektor-Count-Anweisung (VCNT), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen einzelne Elemente jeweils einer Anzahl von Einsen in den einzelnen Elementen des Eingabevektors C entsprechen; und VI) eine Vektorparitätsanweisung (VPAR), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen einzelne Elemente jeweils dem Paritätsstatus (ungeradzahlig oder geradzahlig) der einzelnen Elemente des Eingabevektors C entsprechen. Wie bei der Anweisung VMADD wird jede der vorstehend aufgezählten Anweisungen durch die skalare Abarbeitung der einzelnen Eingangsoperanden-Elemente der eingegebenen Vektoren A, B und C realisiert. Bei weiteren Ausführungsformen, die ebenfalls später näher beschrieben werden, sind alle Anweisungen, die von der Funktionseinheit 200 ausgeführt werden, an Gleitkomma- und ganzzahligen Operanden funktionsfähig.
3 zeigt eine Ausführungsform einer der skalaren Logikeinheiten von 2. Wie vorstehend dargelegt worden ist, kann die skalare Logikeinheit eine skalare Operation an entsprechenden Elementen der Eingabevektoren A, B und C in Unterstützung der Anweisungen VMADD, VMADDH, VMADDL, VCLZ, VTLZ, VCNT und VPAR ausführen.
Nun werden die Operationen für die Anweisung VMADD für den Fall beschrieben, dass die Elemente der Eingabevektoren A, B und C und die Elemente der Ausgabevektors R in Gleitkomma-Form festgelegt sind. Wie auf dem Fachgebiet bekannt ist, nimmt die Darstellung eines numerischen Werts in einem Gleitkomma die Form (Vorzeichen)·(Mantisse)·(Exponent) an, wobei der Wert des Vorzeichens (sgn) angibt, ob der numerische Wert positiv oder negativ ist, der Wert der Mantisse die „Zahl” des Werts angibt und der Wert des Exponenten die Ordnung des Werts angibt. Die Anweisung VMADD kann dann als ((A_sgn)(B_sgn)(A_mantissa)(B_mantissa)(A_exponent + B_exponent)) + (C_sgn)(C_mantissa)(C_exponent) angegeben werden.
In 3 berechnet ein Multiplizierer 301 den Term (A_sgn)(B_sgn)(A_mantissa)(B_mantissa) als eine explizite Berechnung zumindest von (A_mantissa)(B_mantissa). Das Vorzeichen des Produkts lässt sich leicht berechnen als I) positiv, wenn A_sgn und B_sgn den gleichen Wert haben, oder II) negativ, wenn A_sgn und B_sgn verschiedene Werte haben. Der Produktexponenten-Block 302 führt eine erste Berechnung des Exponenten für das Endergebnis dadurch aus, dass er den größeren der folgenden Werte verwendet: I) (A_exponent + B_exponent) und II) C_exponent. Das heißt, wenn der Wert C viel größer als das Produkt von A und B ist, steuert die Ordnung des Terms C die Ordnung des Endergebnisses. Ebenso steuert die Ordnung von AB die Ordnung des Endergebnisses, wenn AB viel größer als C ist.
Ein Addierer 305 führt die Addition mit der Berechnung AB + C aus. Es ist jedoch zu beachten, dass bevor die Addition in Gleitkomma-Form ausgeführt werden kann, bei einer Ausführungsform der Exponent des Terms AB (das heißt, der Exponent, der mit der Ausgabe des Multiplizierers 301 assoziiert ist) mit dem Exponenten des Terms C gleichgesetzt wird. Um diesen Prozess zu bewirken, werden ein Exponentendifferenz-Block 303 und ein Shifter 304 verwendet. Insbesondere ermittelt der Exponentendifferenz-Block 303 die Differenz zwischen dem Exponenten des Terms AB und dem Exponenten des Terms C [d. h., die Differenz zwischen I) (A_exponent + B_exponent) und II) C_exponent]. Außerdem wird der kleinere der beiden Terme identifiziert (z. B. durch Analysieren der Ausgabe des Produktexponenten-Blocks 302). Die Binärkomma-Position der Mantisse des kleineren der beiden Terme, das heißt die Binärkomma-Position der Mantisse des Terms des Produkts AB oder des Terms C – je nachdem, welcher der Term mit dem kleineren Exponenten ist – wird dann um eine Anzahl von Bitstellen „nach links verschoben”, die der Exponentendifferenz zwischen den beiden Termen entspricht, die von dem Differenzblock 303 ermittelt worden ist. Der verschobene Term und der andere, nicht verschobene Term werden an den Addierer 305 gesendet.
Wenn zum Beispiel der Term des Produkts AB 5.5555E8 entspricht und der Term C 2.2222E6 entspricht, wird die Binärkomma-Position der Mantisse des Terms C (2.2222) von dem Shifter 304 um zwei Stellen (0.02222) nach links verschoben, sodass der Addierer 305 die Mantissen der beiden Zahlen, die den gleichen Exponentenwert haben, entsprechend addieren kann. In diesem Beispiel addiert der Addierer 305 entsprechend 5.5555E8 und 0.02222E8. Somit ist bei einer Ausführungsform der Shifter 304 mit dem Ausgang des Differenzblocks 303 verbunden, um die richtige Größe der Verschiebung zu ermitteln, die für die Binärkomma-Position der Mantisse des Terms AB oder des Terms C verwendet werden soll. Bei einer weiteren Ausführungsform wird die Binärkomma-Position der Mantisse einer der Terme AB und C verschoben, während die jeweils andere nicht verschoben wird. Der verschobene Mantissenwert und der nicht verschobene Mantissenwert werden dann für den Addierer 305 bereitgestellt. Natürlich wird keine Verschiebung durchgeführt und die Mantissen des Terms AB und des Terms C werden unverschoben an den Addierer 305 weitergeleitet, wenn der Differenzblock 303 ermittelt, dass die Exponenten des Terms AB und des Terms C gleich groß sind.
Bei einer Ausführungsform werden auch die Vorzeichenwerte des Terms AB und des Terms C an den Addierer 305 gesendet, sodass zum Beispiel dann, wenn das Vorzeichen des Terms C negativ ist, die effektive Subtraktion AB-C entsprechend durchgeführt wird. In dem Fall, dass die effektive Subtraktion der beiden Terme (d. h., wenn das Vorzeichen des Terms AB von dem Vorzeichen des Terms C verschieden ist) und der Absolutwert der beiden Terme ungefähr gleich groß sind, kann die Ausgabe des Addierers 305 eine Zahl sein, die nahe Null ist. Daher kann der Mantissenwert an dem Ausgang des Addierers 305 einen String aus führenden Nullen haben, bevor die erste Eins ermittelt wird. Um in diesem Fall ein Ergebnis mit einer höheren Genauigkeit zu erhalten, sollte das Binärkomma des Mantissenwerts an dem Ausgang des Addierers 305 so verschoben werden, dass eine Mantisse entsteht, die eine ganze Zahl als ihren ersten Wert hat.
Wenn für den Addierer zum Beispiel ein Mantissen- und Vorzeichen-Term AB von –5.555566... und ein Mantissen- und Vorzeichen-Term C von +5.555555... bereitgestellt werden, erzeugt der Addierer 305 die Ausgabe –0.000011... Um die Genauigkeit des Endergebnisses zu verbessern, sollte das Binärkomma des Ergebnisses von dem Addierer 305 um fünf Stellen nach rechts verschoben werden, sodass es die Form 1.111111... annimmt. Da die Verschiebung des Binärkommas nach rechts einer Änderung des Exponentenwerts entspricht, muss sich auch der Exponentenwert ändern. In diesem speziellen Beispiel entspricht die Verschiebung des Binärkommas der Mantisse um fünf Stellen nach rechts einer Verringerung des Exponentenwerts um 5. Daher muss, wenn der Mantissenterm, der an dem Ausgang des Addierers 305 bereitgestellt wird, führende Nullen hat, nicht nur dessen Binärkomma nach rechts verschoben werden, sondern es muss auch der Exponententerm an dem Ausgang des Produktexponenten-Blocks 303 verringert werden. Um diese Aufgaben zu realisieren, werden hier ein Führende-Einsen-Antizipator-Block 306, ein Normalisierungsshifter 307 und ein Exponenten-Addierer 308 verwendet.
Insbesondere flaggt der Führende-Einsen-Antizipator 306 die Stelle der ersten (äußersten linken) Eins in der Ausgabe des Addierers und zeigt dem Normalisierungsshifter 307 an, um wie viele Binärkommas die Ausgabe des Addierers nach rechts verschoben werden sollte, und zeigt dem Exponenten-Addierer 308 an, wie stark der Exponentenwert von dem Exponentenblock 302 verringert werden sollte. Bei einer Ausführungsform wird die Verschiebung des Binärkommas der Ausgabe des Addierers nach rechts durch Verschieben des numerischen Inhalts der Ausgabe des Addierers nach links realisiert. In dieser Ausführungsform oder in weiteren Ausführungsformen erkennt der Addierer 308, dass der Wert, der von dem Führende-Einsen-Antizipator 306 ankommt, von dem Wert subtrahiert werden soll, der von dem Produktexponenten-Block 302 ausgegeben wird.
Bei einer Ausführungsform funktioniert der Führende-Einsen-Antizipator wie folgt. Bei den beiden Eingangsoperanden, die für den Addierer 305 bereitgestellt werden (d. h., die Mantisse des Terms AB und die Mantisse des Terms C), ermittelt der Führende-Einsen-Antizipator 306 die Stelle der führenden Eins einzeln in diesen beiden Termen und flaggt die äußerste linke Bitstelle der beiden Stellen der führenden Eins. Wenn zum Beispiel die Mantisse des Terms AB 0001100101... ist und die Mantisse des Terms C 0000100000... ist, flaggt der Führende-Einsen-Antizipator 306 die vierte Bitstelle, da die vierte Bitstelle (des Mantissenterms AB) die äußerste linke führende Eins (oder die höchstwertige führende Eins) unter den beiden Operanden ist. Dann wird diese Stelle als die Stelle der führenden Eins in der Ausgabe des Addierers 305 angenommen. In vielen Fällen ist diese Annahme richtig und wird zum Ermitteln der Größe der Verschiebung der Ausgabe des Addierers, die von dem Normalisierungsshifter 307 durchgeführt wird, und des Umfangs der von dem Addierer 308 durchgeführten Verkleinerung des Exponenten verwendet.
In einigen Fällen ist jedoch die Annahme nicht korrekt. Die beiden Operanden, die in dem soeben angeführten Beispiel bereitgestellt werden, werden von dem Addierer addiert, sodass eine Addierer-Ausgabe 0010000101... entsteht. In Fällen, in denen die Annahme wie in dem vorliegenden Beispiel nicht richtig ist, bewirkt die Addition der beiden Operanden einen Übertragsterm an der Bitstelle, die von dem Führende-Einsen-Antizipator identifiziert worden ist (d. h., die Bitstelle in der Ausgabe des Addierers, die von dem Führende-Einsen-Antizipator identifiziert worden ist, ist eine Null), und somit ist die Bitstelle eine Stelle links von der Stelle, die von dem Führende-Einsen-Antizipator identifiziert worden ist, eine Eins. Somit führt bei einer Ausführungsform eine Logikschaltung einen oder beide der folgenden Schritte als eine „Kontrolle” aus, bevor der angenommene Wert freigegeben wird, der von dem Führende-Einsen-Indikator 306 als der Betrag geflaggt worden ist, um den die Ausgabe des Addierers verschoben werden sollte und um den ihr Exponent verkleinert werden sollte: I) Ermitteln, ob die Stelle der Ausgabe des Addierers 305, die von dem Führende-Einsen-Indikator identifiziert worden ist, eine Null ist, und II) Ermitteln, ob die Stelle der Ausgabe des Addierers 305 unmittelbar links von der Stelle, die von dem Führende-Einsen-Indikator identifiziert worden ist, eine Eins ist. Wenn jede dieser Bedingungen zutreffend ist, dann ist die richtige Antwort nicht die Bitstelle, die. von dem Führende-Einsen-Indikator 306 geflaggt worden ist, sondern die Bitstelle unmittelbar links von der Bitstelle, die von dem Führende-Einsen-Indikator geflaggt worden ist.
In diesem Fall wird der Führende-Einsen-Indikator seine Annahme dem Wesen nach korrigieren und korrekte Informationen für den Shifter 307 und den Addierer 308 bereitstellen.
Hierbei ist zu beachten, dass ein Grund dafür, weshalb ein Führende-Einsen-Antizipator verwendet wird, darin besteht, dass der Prozess des Ermittelns einer Stelle der führenden Eins etwas komplex ist und einen oder mehrere Taktzyklen in Anspruch nehmen kann. Ebenso ist die Addition, die von dem Addierer 305 durchgeführt wird, etwas komplex und kann einen oder mehrere Taktzyklen in Anspruch nehmen. Wenn die Ermittlung der führenden Einsen „im Anschluss an” den Addierer 305 konfiguriert wurde, werden zwei oder mehr Taktzyklen in Anspruch genommen, um die Summe von AB + C und die Stelle der führenden Eins in der Summe zu ermitteln. Bei der Architektur, die in 3 dargestellt ist, laufen jedoch die Summierung durch den Addierer 305 und die Ermittlung der führenden Einsen durch den Antizipator 306 weitgehend parallel ab, wodurch die Gesamtdauer der in Anspruch genommenen Taktzyklen im Vergleich zu der seriellen Methode verkürzt wird. Und selbst wenn das Ergebnis des Führende-Einsen-Antizipators 306 möglicherweise falsch ist und daher überprüft wird, ist die vorstehend beschriebene „Kontroll”-Operation relativ einfach und die Logik, die zum Ausführen dieser Operation verwendet wird, ist von Anfang bis Ende relativ kurz, sodass die Zeitstrafe der Kontroll-Operation akzeptabel ist und sie daher die bessere Gesamtlösung darstellt.
Wenn der Shifter 307 das Ergebnis des Addierers 305 verschoben hat und der Addierer 308 den Exponentenwert verkleinert hat (wenn eine solche Verschiebung und Verkleinerung des Exponenten anwendbar sind), ist die „Antwort” auf die Anweisung FMADD (AB + C) im Wesentlichen bestimmt worden. Zum Darstellen der Antwort mit der gewünschten Genauigkeit und einem entsprechenden Format wird eine Endverarbeitung durchgeführt. Teil dieser Verarbeitung ist das Runden des Mantissenwerts. Bei einer Ausführungsform kann die Anweisung eines von zwei verschiedenen Genauigkeitsniveaus festlegen: einfache Genauigkeit oder doppelte Genauigkeit. Bei einer weiteren Ausführungsform wird der Wert mit der doppelten Genauigkeit mit der doppelten (oder ungefähr der doppelten) Anzahl von Bits dargestellt, mit der der Wert mit der einfachen Genauigkeit dargestellt wird. Bei einer weiteren Ausführungsform besteht das Format mit der einfachen Genauigkeit aus 32 Bit, die sich aus 1 Bit für das Vorzeichen, 23 Bit für die Mantisse und 8 Bit für den Exponenten zusammensetzen, und das Format mit der doppelten Genauigkeit besteht aus 64 Bit, die sich aus 1 Bit für das Vorzeichen, 52 Bit für die Mantisse und 11 Bit für den Exponenten zusammensetzen. Bei einer weiteren Ausführungsform wird intern in einer Funktionseinheit 300 die Mantisse mit bis zu 128 Bit für die Genauigkeit berechnet. Hier ist die Ausgabebreite des Multiplizierers 301 mit 128 Bit konfiguriert, um die Ganzzahlen-Multiplikation von zwei ganzzahligen 64-Bit-Werten auszuführen. Auch die Ausgabe des Addierers 305 und die Ausgabe des Shifters 307 umfassen jeweils 128 Bit.
In dieser Weise kann bei verschiedenen Ausführungsformen die Anzahl von Bits, die intern von der Funktionseinheit 300 für die Mantisse in dem Ergebnis berechnet werden, die Anzahl von Bits überschreiten, die tatsächlich als die Mantisse in dem Endergebnis bereitgestellt werden. Daher ermittelt die Rundungsoperation, ob eines der Bits unterhalb der zum Schluss bereitgestellten Mantisse eine Eins ist, und dies wird als ein Sticky Bit bezeichnet. In der Architektur von 3 ermittelt ein Abschließende-Nullen-Logikblock 309 die Anzahl von abschließenden Nullen in der Ausgabe des Shifters 307. Diese Anzahl gibt im Vergleich zu der Anzahl von zusätzlichen Bits bei der Berechnung durch die Funktionseinheit 300 an, ob es eine Eins in den Bits unterhalb der zum Schluss bereitgestellten Mantisse gibt. Wenn die Mantisse nach links verschoben wird, um die führenden Nullen zu eliminieren, während Nullen nach unten verschoben werden, muss die Anzahl von zusätzlichen abschließenden Nullen berücksichtigt werden, die gleich dem Betrag der Verschiebung nach links ist, der von dem Führende-Einsen-Antizipator-Block 306 berechnet worden ist. Um hier die Anzahl von abschließenden Nullen in der Ausgabe des Shifters 307 richtig zu berechnen, sollte der Abschließende-Nullen-Detektor 309 eine Verschiebung erkennen, die von dem Führende-Einsen-Antizipator 306 bewirkt wird, und daher ist der Abschließende-Nullen-Detektor 309 außerdem so konfiguriert, dass er eine Eingabe von dem Führende-Einsen-Antizipator 306 annimmt.
Die Anzahl von Nullen wird von der niedrigstwerten (äußersten rechten) Bitstelle bitweise nach links zu der jeweils nächsthöheren Bitstelle bis zu der Stelle der niedrigstwerten (äußersten rechten) Eins ermittelt. Wenn die Anzahl von abschließenden Nullen für eine gegebene Genauigkeit bis zu der niedrigstwerten (äußersten rechten) Bitstelle der Mantisse oder darüber hinaus (nach links) reicht, wird die niedrigstwerte Bitstelle auf ihrem aktuellen Wert gehalten (d. h., es erfolgt keine Aufrundung). Andernfalls erfolgt eine Aufrundung und die niedrigstwerte Bitstelle der Mantisse für die anwendbare Genauigkeit wird I) von 0 auf 1 oder II) von 1 auf 0 inkrementiert, und es entsteht ein Übertragsterm, der sich wellenartig zu der nächsthöheren Bitstelle bewegt.
Zum Addieren des Werts Eins zu der niedrigstwerten Bitstelle der resultierenden Mantisse in dem Shifter 307 für die anwendbare Genauigkeit wird ein Aufrundungsaddierer 310 verwendet. Die Ausgabe des Addierers 310 wird als der Endwert der Mantisse für die gewünschte Genauigkeit verwendet. Bei einer Ausführungsform wird die Ausgabe des Addierers 310 stets als der Endwert der Mantisse für die gewünschte Genauigkeit verwendet, wobei der Wert 0 effektiv zu der Ausgabe des Shifters 307 addiert wird, wenn keine Aufrundung erfolgt, und der Wert 1 zu der Ausgabe des Shifters 307 an der äußersten rechten Stelle für die gegebene Genauigkeit addiert wird, wenn eine Aufrundung erfolgt. Wie in 3 zu erkennen ist, ermittelt eine Sticky-Bit-Berechnungslogik 311 auf Grund der Ausgabe der Abschließende-Nullen-Detektionslogik 309 und der gewünschten Genauigkeit, ob eine Aufrundung erforderlich ist oder nicht, und eine Aufrundungssteuerlogik 312 stellt eine Null oder eine Eins für den Addierer 310 an der niedrigstwerten Bitstelle für die gewünschte Genauigkeit in Abhängigkeit von der Ermittlung des Sticky Bits bereit (eine Null wird eingefügt, wenn keine Aufrundung durchgeführt wird, und eine Eins wird eingefügt, wenn eine Aufrundung durchgeführt wird).
Man beachte, dass bei der Ausführungsform von 3 die Abschließende-Nullen-Detektionslogik 309 an den Operanden arbeitet, die für den Addierer 305 bereitgestellt werden, sodass sie wie der Führende-Einsen-Antizipator 306 parallel zu dem Addierer 305 arbeiten kann. Bei einer weiteren Ausführungsform identifiziert der Abschließende-Nullen-Detektor den niedrigstwerten (äußersten rechten) Bitwert 1 in jedem Operanden und flaggt die niedrigstwerte Bitstelle bei den beiden Operanden als die Grundlage zum Ermitteln der Anzahl von abschließenden Nullen in der Ausgabe des Addierers 305. Eine Verschiebung, die von dem Führende-Einsen-Antizipator induziert wird, wird auch von dem Abschließende-Nullen-Detektor 309 berücksichtigt. Das heißt, für eine gegebene Genauigkeit beeinflusst eine Verschiebung des Ergebnisses des Addierers 305 die Anzahl der Nullen, die detektiert werden müssen, bevor ermittelt wird, ob sie bis zu dem niedrigstwerten Bit der Ausgabe des Shifters 307 oder darüber hinaus reichen. Man beachte, dass diese Methode für die Detektion von abschließenden Nullen keine „Kontrolle” (wie bei dem Führende-Einsen-Antizipator) erfordert, da keine Möglichkeit (mathematisch gesprochen) eines Fehlers besteht.
Die vorstehende Beschreibung erfolgte für die Gleitkomma-Berechnung bei der Anweisung VMADD. Bei einer Anweisung VMADD für ganzzahlige Vektoren werden ganzzahlige Operanden einfach für den Eingang des Multiplizierers 301 bereitgestellt. Hier ist bei einer Ausführungsform, die 53-Bit-Gleitkomma-Mantissen-Berechnungen mit doppelter Genauigkeit unterstützt, der Multiplizierer so konfiguriert, dass er eine Multiplikation mit ganzen Zahlen von 64 Bit durchführt. Somit hat die Ausgabe des Multiplizierers eine Breite von 128 Bit. Bei der Operation mit ganzen Zahlen von 64 Bit wird bei einer Ausführungsform der Term C links mit 64 Nullen aufgefüllt, sodass sein niedrigstwertes Bit mit dem niedrigstwerten Bit der Ausgabe des Multiplizierers 301 abgeglichen wird. Das heißt, der Operand des Terms C, der für den Addierer 305 bereitgestellt wird, hat 64 Bit mit Nullen als seine linke Hälfte und den 64-Bit-C-Eingangsoperanden als seine rechte Hälfte. Da die Ausführungsform die Berechnung von (1) einer Operation mit der doppelten Genauigkeit oder einer Operation mit 64-Bit-Ganzzahlen und (2) einer Operation mit einfacher Genauigkeit oder zwei Operationen mit 32-Bit-Ganzzahlen unterstützt, wird für die 32-Bit-Ganzzahlen die obere Hälfte jedes der beiden Terme C (jeweils 32 Bit) mit Nullen aufgefüllt, sodass sie eine Breite von 64 Bit erhalten. Bei einer Operation mit 32-Bit-Ganzzahlen wird der Term C entsprechend aufgefüllt. Bei einer Ausführungsform wird das Auffüllen mit Nullen effektiv durch Verschieben des Terms C nach rechts mit dem Shifter 304 realisiert. Bei einer weiteren Ausführungsform wird für eine Ganzzahlen-Operation der Exponentendifferenz-Block 303 verwendet, um den Betrag der Verschiebung in Abhängigkeit von der Genauigkeit für die Ganzzahlen-Berechnung festzulegen. Das heißt, zum Beispiel für eine Operation mit Ganzzahlen von 64 Bit ist der Exponentendifferenz-Block 303 so konfiguriert, dass er ein Eingangssignal an den Shifter 304 sendet, das den Shifter 304 veranlasst, den Term C um 64 Bit nach rechts zu verschieben, und für eine Operation mit Ganzzahlen von 32 Bit ist der Exponentendifferenz-Block 303 so konfiguriert, dass er ein Eingangssignal an den Shifter 304 sendet, das den Shifter 304 veranlasst, den Term C um 96 Bit nach rechts zu verschieben.
Der Addierer 305 addiert die Ausgabe des Multiplizierers und den verschobenen, abgeglichenen Wert des Terms C, um den ganzzahligen Wert von AB + C zu ermitteln. Da die Größe des ganzzahligen Werts von AB + C größer als die zulässige Bitbreite des Endergebnisses werden kann, wird bei einer Ausführungsform die obere Hälfte oder die untere Hälfte der Ausgabe des Addierers 305 als das Endergebnis durch den Shifter 307 gesendet. Zum Beispiel kann bei einer Ausführungsform, bei der die Ausgabe des Addierers 305 eine Breite von 128 Bit hat und eine Operation mit Ganzzahlen von 64 Bit verwendet wird, das Ergebnis der Anweisung nur eine Breite von 64 Bit haben, und dennoch berechnet die interne Funktionseinheit ganzzahlige Werte von 128 Bit. An und für sich gibt es zwei verschiedene VMADD-Anweisungen für Operationen mit ganzen Zahlen: VMADDH und VMADDL. VMADDH verkörpert die höchstwertigen 64 Bit der Ausgabe des Addierers von 128 Bit, und VMADDL verkörpert die niedrigstwerten 64 Bit der Ausgabe des Addierers von 128 Bit. Bei einer VMADD-Operation mit ganzen Zahlen werden der Produktexponenten-Block 302, der Führende-Einsen-Antizipator 307, der Exponenten-Addierer 308, der Abschließende-Nullen-Detektor 309, die Sticky-Bit-Logik 311 und die Aufrundungssteuerlogik 312 nicht verwendet, außer vielleicht zum Einfügen einer irrelevanten Null in dem Addierer 310.
4A zeigt eine Ausführungsform einer Gleitkomma-VMADD-Operation der vorstehend beschriebenen Funktionseinheit, und 4B zeigt eine Ausführungsform einer VMADDL/H-Operation mit ganzen Zahlen in der vorstehend beschriebenen Funktionseinheit. In 4A werden die entsprechenden Mantissenwerte für die Operanden A und B im Schritt 401 multipliziert. Im Wesentlichen parallel wird im Schritt 402 die Differenz zwischen dem Exponentenwert des Terms AB und dem des Terms C ermittelt, und im Schritt 403 wird der Höchstwert des Exponenten des Terms AB und des Exponenten des Terms C als der Anfangsexponent für das Ergebnis verwendet. Im Schritt 404 wird auf Grund der ermittelten Differenz zwischen den Exponenten der Terme AB und C die Mantisse des Terms, der den kleineren Exponenten hat, verschoben, um sie mit der Mantisse des Terms abzugleichen, der den größeren Exponenten hat. Die abgeglichenen Mantissen der Terme AB und C werden dann im Schritt 405 addiert. Im Wesentlichen parallel werden die führenden Einsen des Ergebnisses des Addierers im Schritt 406 vorausberechnet. Im Schritt 407 wird die Vorausberechnung der führenden Einsen mit dem Ergebnis der Summierung von AB + C verglichen. Auf Grund der Ermittlung der führenden Einsen wird im Schritt 408 das Ergebnis der Mantissen-Summierung von AB + C so verschoben, dass es mit einem ganzzahligen Wert führt, und im Schritt 409 wird das Exponenten-Ergebnis für die Anweisung eingestellt. Gegebenenfalls wird eine Aufrundung durchgeführt (Schritt 410), und auf Grund der festgelegten Genauigkeit wird der Mantissenwert bereitgestellt.
In 4B werden im Schritt 411 die ganzzahligen Terme A und B miteinander multipliziert, und im Schritt 412 wird der Term C aufgefüllt, um ihn mit dem Produkt AB abzugleichen. Im Schritt 413 werden die ganzzahligen Terme AB und C addiert. Wenn die Anweisung den oberen Teil festlegt, wird der obere Teil von AB + C bereitgestellt, oder wenn die Anweisung der unteren Teil festlegt, wird der untere Teil von AB + C bereitgestellt (Schritt 414). Man beachte, dass dadurch, dass VMADDH nacheinander mit VMADDL ausgeführt wird und die Ergebnisse an getrennten Stellen gespeichert werden, das System den Gesamtwert für AB + C halten kann.
Es sei hier wiederholt, dass bei der vorstehenden Beschreibung der Funktionseinheit 300 eine Funktionseinheit beschrieben wird, die mehrfach in einer Vektor-Funktionseinheit instanziiert werden kann, sodass Vektor-Multiply-Add-Anweisungen (VMADD) ausgeführt werden.
Die Funktionseinheit 300 von 3 kann auch so verbessert werden, dass sie eine skalare Komponente einer oder mehrerer der folgenden Anweisungen ausführt: I) eine Vektor-Count-Leading-Zeros-Anweisung (VCLZ), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen Elemente jeweils der Anzahl von führenden Nullen der Elemente des Eingabevektors C entsprechen; II) eine Vektor-Count-Trailing-Zeros-Anweisung (VCTZ), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen Elemente jeweils der Anzahl von abschließenden Nullen der Elemente des Eingabevektors C entsprechen; III) eine Vektor-Count-Anweisung (VCNT), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen einzelne Elemente jeweils einer Anzahl von Einsen in den einzelnen Elementen des Eingabevektors C entsprechen; und IV) eine Vektorparitätsanweisung (VPAR), die einen Eingabevektor C annimmt und als ein Ergebnis einen Ausgabevektor bereitstellt, dessen einzelne Elemente jeweils dem Paritätsstatus (ungeradzahlig oder geradzahlig) der einzelnen Elemente des Eingabevektors C entsprechen.
5 zeigt eine verbesserte Funktionseinheit 500, die eine zusätzliche Logik und eine zusätzliche Schaltung enthält, die über die Logik und die Schaltung hinausgehen, die in 3 dargestellt sind, um eine skalare Komponente der Anweisungen VCLZ, VCTZ, VCNT und VPAR auszuführen. Bei einer Ausführungsform wird entsprechend diesen Anweisungen das Element des Vektors, das von der Funktionseinheit 500 von 5 verarbeitet wird, entlang dem Datenpfad empfangen, auf dem auch der Operand C der Anweisung AB + C empfangen wird. Es ist zu betonen, dass dies nur eine Methode ist und dass, je nach Wahl des Entwicklers, der Operand für jede der Anweisungen VCLZ, VCTZ, VCNT und VPAR auch entlang dem Datenpfad eines der Operanden A, B und C der Anweisung AB + C empfangen werden kann. Der Einfachheit halber sind die Verbindungen zwischen den verschiedenen Logikblöcken zum Ausführen der Anweisung VMADD nicht dargestellt. Es dürfte aber klar sein, dass diese Verbindungen vorhanden sind (wie z. B. in 3 zu erkennen ist). Natürlich kann jeder der Blöcke, die in den beiden 3 und 5 dargestellt sind, auch mit einer Halbleiter-Logikschaltung implementiert werden.
Da bei der speziellen Ausführungsform von 5 der Operand für jede der Anweisungen VCLZ, VCTZ, VCNT und VPAR entlang dem Datenpfad für den Operanden C empfangen wird, wird der Operand von einem Abgleichs-Shifter 504 empfangen (man beachte, dass jeder der „Shifter” auch als ein Schieberegister implementiert werden kann). Wenn im Gegensatz zu der Anweisung VMADD eine der Anweisungen VCLZ, VCTZ, VCNT und VPAR festgelegt wird, ignoriert der Abgleichs-Shifter eine Eingabe von der Exponentendifferenz-Einheit 503 und stellt einfach den Operanden C zumindest für die anwendbare Logik für die entsprechende Anweisung bereit, das heißt, für eine Logik 506 für die Anweisung VCLZ, eine Logik 509 für die Anweisung VCTZ und eine Logik 530 für die Anweisung VCNT. Außerdem stellt der Abgleichs-Shifter 504 einen positiven Wert von Null auf dem Datenpfad bereit, der die Mantisse des Terms AB für die Anweisung VMADD überträgt.
Bei der Anweisung VCLZ, die die Anzahl von führenden Nullen für den bereitgestellten Operanden bereitstellt, ist zu beachten, dass im Gegensatz zu 3 die Logik 506 als eine Führende-Einsen- und Führende-Nullen-Antizipator-Logikschaltung implementiert ist (im Gegensatz zu der Führende-Einsen-Antizipator-Logikschaltung 306 von 3). Man beachte, dass hier die Anzahl von führenden Nullen in einem Operanden in Beziehung zu der Stelle der führenden Eins in einem Operanden steht. Insbesondere ist bei einem Operanden mit einer bekannten Bitbreite die Anzahl von führenden Nullen gleich der Differenz zwischen der Bitbreite des Operanden und der Bitstelle der führenden Eins in dem Operanden. Erinnern wir uns daran, dass bei einer Ausführungsform der Führende-Einsen-Antizipator 306 die Stelle der führenden Eins in beiden Mantissentermen AB und C für die Anweisung VMADD ermittelt und die Stelle der höchstwertigen (äußersten linken) führenden Eins in diesen beiden Termen flaggt. Da hier der Abgleichs-Shifter 504 so konfiguriert ist, dass er einen Wert 0 für den Term AB für die Anweisung VCLZ bereitstellt, wird nur die Stelle der führenden Eins des Terms C (der Operand für die Anweisung VCLZ) geflaggt. Daraus kann die Anzahl von führenden Nullen für den Operanden ermittelt werden. Man beachte, dass unterschiedliche Operanden-Bitlängen (z. B. 32 Bit oder 64 Bit) problemlos verarbeitet werden können, wenn die anwendbare Bitlänge festgelegt ist oder anderweitig bekannt ist.
Erinnern wir uns daran, dass der Führende-Einsen-Antizipator 306 von 3 als ein „Antizipator” angesehen wurde, da unter bestimmten Umständen seine erste Antwort unrichtig sein könnte. Insbesondere musste die Ausgabe des Addierers 305 überprüft werden. Bei der Anweisung VCLZ entsteht dieses Problem jedoch nicht, da der Addierer 305 nicht zum Einsatz kommt. Somit ist die „Antwort” von der Logik 506 richtig und braucht nicht überprüft zu werden. Die Anzahl von führenden Nullen wird dann schließlich an eine Formatierungslogik 513 gesendet, um die Antwort in einem entsprechenden Format für die Anweisung bereitzustellen. Bei einer Ausführungsform wird die Anzahl von führenden Nullen (wie die Anzahl von führenden Einsen für die Anweisung VMADD) an einen Exponenteneinstellungsaddierer 508 gesendet, der sie an die Formatierungslogik 513 weiterleitet.
Bei der Anweisung VCTZ, die die Anzahl von abschließenden Nullen für den Eingangsoperanden bereitstellt, wird der Operand C an die Abschließende-Nullen-Ermittlungslogik 509 gesendet. Erinnern wir uns ausgehend von der Erörterung von 3 daran, dass die Abschließende-Nullen-Ermittlungslogik 309 den niedrigstwerten (äußersten rechten) Bitwert 1 in jedem Operanden (AB und C) identifiziert und die niedrigstwerte Bitstelle von den zwei Operanden als die Grundlage zum Ermitteln der Anzahl von abschließenden Nullen in der Ausgabe des Addierers 305 flaggt. Diese Operation gilt auch für die Operation für die Anweisung VCTZ, wobei noch anzumerken ist, dass der Term AB auf Null gesetzt wird, sodass nur der Term C (der Operand für die Anweisung VCTZ) die endgültige Antwort steuert, die von der Logik 509 bereitgestellt wird. Die Antwort wird schließlich an die Formatierungslogik 513 gesendet, die die Antwort für die Anweisung bereitstellt (die Antwort kann vorher von einem anderen Block verarbeitet werden, wie etwa dem Exponenteneinstellungsaddierer 508).
Bei der Anweisung VCNT zählt eine Einsenzähllogik 520 die Anzahl von Einsen, die in dem Operanden C vorhanden sind, und die Antwort wird schließlich an die Formatierungslogik 513 gesendet. Bei der Anweisung VPAR ermittelt die Paritätslogik 530 den Paritätswert für den Operanden C (z. B. ob es eine ungeradzahlige oder geradzahlige Anzahl von Einsen in dem Operanden gibt), und die Antwort wird schließlich an die Formatierungslogik 513 gesendet, die die Antwort für die Anweisung bereitstellt.
Die 6A bis 6D zeigen die Funktionsweise der Funktionseinheit 200 von 2 für den Fall, dass die Operationen, die vorstehend für die Funktionseinheit 500 von 5 beschrieben worden sind, N-mal parallel ausgeführt werden, um eine Vektoroperation zu bewirken. Für die Anweisung VCLZ wird in 6A im Schritt 601a ein Eingabevektor von Operanden/Elementen angenommen, im Schritt 602a wird die Anzahl von führenden Nullen in jedem der Operanden ermittelt, und im Schritt 603a wird ein Ausgabevektor mit der Anzahl von führenden Nullen für jeden der Operanden bereitgestellt. Für die Anweisung VCTZ wird in 6B im Schritt 601b ein Eingabevektor von Operanden/Elementen angenommen, im Schritt 602b wird die Anzahl von abschließenden Nullen in jedem der Operanden ermittelt, und im Schritt 603b wird ein Ausgabevektor mit der Anzahl von abschließenden Nullen für jeden der Operanden bereitgestellt. Für die Anweisung VCNT wird in 6C im Schritt 601c ein Eingabevektor von Operanden/Elementen angenommen, im Schritt 602c wird die Anzahl von Einsen in jedem der Operanden ermittelt, und im Schritt 603c wird ein Ausgabevektor mit der Anzahl von Einsen für jeden der Operanden bereitgestellt. Für die Anweisung VPAR wird in 6D im Schritt 601d ein Eingabevektor von Operanden/Elementen angenommen, im Schritt 602d wird die Parität jedes der Operanden ermittelt, und im Schritt 603d wird ein Ausgabevektor mit der Parität für jeden der Operanden bereitgestellt.
Wie vorstehend dargelegt worden ist, können die vorstehend beschriebenen Funktionseinheiten in Anweisungsausführungseinheiten eines Halbleiterprozessors implementiert werden.
7 zeigt einen generischen Verarbeitungskern 700, der mutmaßlich viele verschiedene Arten von Verarbeitungskern-Architekturen verkörpert, wie etwa Complex Instruction Set (CISC), Reduced Instruction Set (RISC) and Very Long Instruction Word (VLIW). Der generische Verarbeitungskern 700 von 7 weist Folgendes auf: 1) eine Abrufeinheit 703, die Anweisungen abruft (z. B. aus dem Cache und/oder dem Speicher); 2) eine Decodiereinheit 704, die Anweisungen decodiert; 3) eine Scheduling-Einheit 705, die den Zeitpunkt und/oder die Reihenfolge der Ausgabe von Anweisungen an Ausführungseinheiten 706 festlegt (man beachte, dass der Scheduler optional ist); 4) Ausführungseinheiten 706, die die Anweisungen ausführen [typische Anweisungsausführungseinheiten sind Sprungausführungseinheiten, arithmetische Ganzzahlen-Ausführungseinheiten (z. B. ALUs), arithmetische Gleitkomma-Ausführungseinheiten (z. B. FPUs) und Speicherzugriffs-Ausführungseinheiten]; und 5) eine Retirement-Einheit 707, die einen erfolgreichen Abschluss einer Anweisung signalisiert. Es ist zu beachten, dass der Verarbeitungskern 700 einen Mikrocode 708 verwenden kann oder auch nicht.
Die vorstehend beschriebenen Funktionseinheiten haben zwar durchgehend festverdrahtete Datenpfade, aber es ist alles in allem möglich, die gesamte vorstehend beschriebene Verarbeitung oder einen Teil davon mit einem Mikrocode statt mit einer dedizierten Logik zu implementieren. Bei Prozessoren mit einem Mikrocode werden die Mikrooperationen normalerweise in einem nichtflüchtigen maschinenlesbaren Medium [wie etwa einem Festspeicher (ROM)] in dem Halbleiterchip gespeichert, auf dem der Prozessor integriert ist und der die Ausführungseinheiten in dem Prozessor veranlasst, die gewünschte Funktion auszuführen, die von der Anweisung aufgerufen wird.
Ein Prozessor, der die vorstehend beschriebene Funktionalität hat, kann auch in verschiedenen Rechensystemen implementiert werden. 8 zeigt eine Ausführungsform eines Rechensystems (z. B. eines Computers). Das beispielhafte Rechensystem von 8 weist Folgendes auf: 1) einen oder mehrere Prozessoren 801, die so konfiguriert sein können, dass sie eine logische Vektorverkleinerungsanweisung enthalten; 2) einen Memory Controller Hub (MCH) 802; 3) einen Systemspeicher 803 (von dem es verschiedene Arten gibt, wie etwa DDR RAM, EDO RAM usw.); 4) einen Cache 804; 5) einen E/A Control Hub (ICH) 805; 6) einen Grafikprozessor 806; 7) eine Anzeige/einen Bildschirm 807 [von dem es verschiedene Arten gibt, wie etwa Elektronenstrahlröhre (CRT), Flachbildschirm, Dünnschichttransistor (TFT), Flüssigkristallanzeige (LCD), DPL usw.]; und ein oder mehrere E/A-Geräte 808.
Der eine oder die mehreren Prozessoren 801 (ihren Anweisungen aus, um ihre Funktion zu erfüllen, welche Software-Routinen das Rechensystem auch immer implementiert. Die Anweisungen umfassen oftmals eine Art Operation, die an Daten ausgeführt wird. Sowohl Daten als auch Anweisungen werden in dem Systemspeicher 803 und dem Cache 804 gespeichert. Der Cache 804 ist normalerweise so konfiguriert, dass er kürzere Latenzzeiten als der Systemspeicher 803 hat. Zum Beispiel könnte der Cache 804 auf dem/den gleichen Chip(s) wie der oder die Prozessor(en) integriert werden und/oder mit schnelleren SRAM-Zellen konfiguriert werden, während der Systemspeicher 803 mit langsameren DRAM-Zellen konfiguriert werden könnte. Dadurch, dass dazu tendiert wird, häufiger verwendete Anweisungen und Daten in dem Cache 804 statt in dem Systemspeicher 803 zu speichern, verbessert sich die gesamte Leistungsfähigkeit des Rechensystems.
Der Systemspeicher 803 wird zielgerichtet für andere Komponenten in dem Rechensystem verfügbar gemacht. Zum Beispiel werden die Daten, die von verschiedenen Schnittstellen mit dem Rechensystem (z. B. Tastatur und Maus, Druckeranschluss, LAN-Anschluss, Modemanschluss usw.) empfangen werden oder aus einem internen Speicherelement des Rechensystems (z. B. Festplattenlaufwerk) abgerufen werden, oft vorübergehend in eine Warteschlange für den Systemspeicher 803 eingereiht, bevor sie von dem einen oder den mehreren Prozessoren 801 bei der Implementierung des Software-Programms verarbeitet werden. Ebenso werden Daten, für die ein Software-Programm festlegt, dass sie von dem Rechensystem über eine der Schnittstellen des Rechensystems an eine externe Entität zu senden sind oder in einem internen Speicherelement zu speichern sind, oft vorübergehend in eine Warteschlange für den Systemspeicher 803 eingereiht, bevor sie übertragen oder gespeichert werden.
Der ICH 805 ist dafür verantwortlich, zu gewährleisten, dass diese Daten zwischen dem Systemspeicher 803 und seiner entsprechenden Schnittstelle zu dem Rechensystem (und einer internen Speichervorrichtung, wenn das Rechensystem in dieser Weise konfiguriert ist) korrekt übertragen werden. Der MCH 802 ist dafür verantwortlich, die verschiedenen konkurrierenden Anforderungen, die dicht nacheinander entstehen können, für den Zugriff auf den Systemspeicher 803 von dem einen oder mehreren Prozessoren 801, den Schnittstellen und den internen Speicherelementen zu verwalten.
In einem typischen Rechensystem sind auch ein oder mehrere E/A-Geräte 808 implementiert. E/A-Geräte sind im Allgemeinen dafür verantwortlich, Daten zu und/oder von dem Rechensystem (z. B. einem Netzwerkadapter) zu übertragen oder Daten nichtflüchtig in großen Mengen in dem Rechensystem (z. B. in einem Festplattenlaufwerk) zu speichern. Der ICH 805 hat bidirektionale Punkt-zu-Punkt-Verbindungen zwischen sich selbst und den dargestellten E/A-Geräten 808.
In der vorstehenden Beschreibung ist die Erfindung unter Bezugnahme auf spezielle beispielhafte Ausfürungsformen der Erfindung beschrieben worden. Es dürfte jedoch klar sein, dass verschiedene Modifikationen und Änderungen daran vorgenommen werden können, ohne von dem Grundgedanken und dem Schutzumfang der Erfindung abzuweichen, die in den beigefügten Ansprüchen dargelegt sind. Die Patentbeschreibung und die Zeichnungen sind daher als erläuternd und nicht als beschränkend anzusehen.

Claims

Vektor-Funktionseinheit, die auf einem Halbleiter implementiert ist, zum Ausführen von Vektoroperationen der Dimension N, mit: N Funktionseinheiten, wobei jede der N Funktionseinheiten eine Logikschaltung aufweist, um Folgendes auszuführen: eine Multiply-Add-Anweisung an entsprechenden Operanden A, B und C und eine Führende-Nullen-Anweisung an einem entsprechenden ersten Operanden.
Vektor-Funktionseinheit nach Anspruch 1, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Abschließende-Nullen-Anweisung an einem entsprechenden zweiten Operanden aufweist.
Vektor-Funktionseinheit nach Anspruch 2, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Paritätsanweisung an einem entsprechenden dritten Operanden aufweist.
Vektor-Funktionseinheit nach Anspruch 3, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Anweisung zum Zählen von Einsen eines entsprechenden vierten Operanden aufweist.
Vektor-Funktionseinheit nach Anspruch 1, dadurch gekennzeichnet, dass jede der N Funktionseinheiten mikrocodiert ist.
Vektor-Funktionseinheit nach Anspruch 1, dadurch gekennzeichnet, dass die Logikschaltung, die zum Ausführen einer logischen Berechnung für die Multiply-Add-Anweisung verwendet wird, auch zum Ausführen einer logischen Berechnung für die Führende-Nullen-Anweisung verwendet wird.
Verfahren, das das Ausführen von Vektoroperationen auf einem Halbleiterchip mit den folgenden Schritten aufweist: Ausführen einer ersten Vektoranweisung mit einer Vektor-Funktionseinheit, die auf dem Halbleiterchip implementiert ist; und Ausführen einer zweiten Vektoranweisung mit der Vektor-Funktionseinheit, wobei die erste Vektoranweisung eine Multiply-Add-Vektoranweisung ist und die zweite Vektoranweisung eine Vektoranweisung zum Zählen von führenden Nullen ist.
Verfahren nach Anspruch 7, das weiterhin das Ausführen einer dritten Vektoranweisung mit der Funktionseinheit aufweist, wobei die dritte Vektoranweisung eine Vektoranweisung zum Zählen von abschließenden Nullen ist.
Verfahren nach Anspruch 8, das weiterhin das Ausführen einer vierten Vektoranweisung mit der Funktionseinheit aufweist, wobei die vierte Vektoranweisung eine Paritätsvektoranweisung ist.
Verfahren nach Anspruch 8, das weiterhin das Ausführen einer vierten Vektoranweisung mit der Funktionseinheit aufweist, wobei die vierte Vektoranweisung eine Anweisung zum Zählen von Einsen ist.
Verfahren nach Anspruch 7, das weiterhin das Ausführen einer logischen Berechnung für die erste Vektoranweisung mit der gleichen Logikschaltung aufweist, die zum Ausführen einer logischen Berechnung für die zweite Vektoranweisung verwendet wird.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die logische Berechnung für die erste Vektoranweisung das Ermitteln von führenden Einsen umfasst.
Rechensystem mit: einem Flachbildschirm und einem Prozessor, der auf einem Halbleiterchip implementiert ist, wobei der Prozessor eine Vektor-Funktionseinheit zum Ausführen von Vektoroperationen mit der Dimension N hat, wobei die Vektor-Funktionseinheit Folgendes aufweist: N Funktionseinheiten, wobei jede der N Funktionseinheiten eine Logikschaltung aufweist, um Folgendes auszuführen: eine Multiply-Add-Anweisung an entsprechenden Operanden A, B und C und eine Führende-Nullen-Anweisung an einem entsprechenden ersten Operanden.
Rechensystem nach Anspruch 13, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Abschließende-Nullen-Anweisung an einem entsprechenden zweiten Operanden aufweist.
Rechensystem nach Anspruch 14, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Paritätsanweisung an einem entsprechenden dritten Operanden aufweist.
Rechensystem nach Anspruch 15, dadurch gekennzeichnet, dass jede der N Funktionseinheiten weiterhin eine Logikschaltung zum Ausführen einer Anweisung zum Zählen von Einsen in einem entsprechenden vierten Operanden aufweist.
Rechensystem nach Anspruch 13, dadurch gekennzeichnet, dass jede der N Funktionseinheiten mikrocodiert ist.
Rechensystem nach Anspruch 13, dadurch gekennzeichnet, dass die Logikschaltung, die zum Ausführen einer logischen Berechnung für die Multiply-Add-Anweisung verwendet wird, auch zum Ausführen einer logischen Berechnung für die Führende-Nullen-Anweisung verwendet wird.