DE102013209657A1

DE102013209657A1 - FMA-Einheit, insbesondere zur Verwendung in einer Modellberechnungseinheit zur rein hardwarebasierten Berechnung von Funktionsmodellen

Info

Publication number: DE102013209657A1
Application number: DE102013209657.7A
Authority: DE
Inventors: Andre GUNTORO; Wolfgang Fischer
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2014-11-27
Also published as: KR20140138053A; US20140351309A1; JP6382577B2; US9569175B2; CN104182201A; KR102208274B1; JP2014229318A

Abstract

Die Erfindung betrifft eine FMA-Einheit (42) zur Durchführung einer Rechenoperation in einer Modellberechnungseinheit (3) in einem Steuergerät (1), wobei als Eingangsgrößen zwei Multiplikanden und ein Summand jeweils in Form eines Fließkommawerts verarbeitbar sind und als eine Ausgangsgröße das Berechnungsergebnis in Form eines Fließkommawerts bereitgestellt wird, wobei die FMA-Einheit (42) ausgebildet ist, um eine Multiplikation und eine nachfolgende Addition durchzuführen, wobei die Bitauflösungen der Eingänge für die Multiplikanden niedriger sind als die Bitauflösung des Eingangs für den Summand und die Bitauflösung der Ausgangsgröße.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft in Hardware realisierte Einheiten in einem Steuergerät, insbesondere FMA-Einheiten (FMA = Floating Point Multiply and Add Operation, Fused Multiply Add Operation).
Stand der Technik
Aus dem Stand der Technik sind Steuergeräte mit einer Hauptrecheneinheit und einer separaten Modellberechnungseinheit zur Berechnung von datenbasierten Funktionsmodellen bekannt. So zeigt beispielsweise die Druckschrift DE 10 2010 028 266 A1 ein Steuergerät mit einer zusätzlichen Logikschaltung als Modellberechnungseinheit, die zur rein hardwarebasierten Berechnung von Multiplikationen, Additionen und Exponentialfunktionen in einer oder mehreren Schleifenberechnungen ausgebildet ist. Dies ermöglicht es, Bayes-Regressionsverfahren, die insbesondere für die Berechnung von Gauß-Prozessmodellen benötigt werden, in einer Hardwareeinheit zu unterstützen.
Die Modellberechnungseinheit ist insgesamt dazu ausgelegt, mathematische Prozesse zur Berechnung des datenbasierten Funktionsmodells basierend auf Parametern und Stützstellen bzw. Trainingsdaten durchzuführen. Insbesondere ist die Modellberechnungseinheit zur effizienten hardwarebasierten Berechnung von Exponentialfunktionen in zwei Berechnungsschleifen ausgebildet, so dass es möglich ist, Gauß-Prozessmodelle mit einer höheren Rechengeschwindigkeit zu rechnen, als dies in der softwaremäßig betriebenen Hauptrecheneinheit erfolgen kann. Zur Beschleunigung der Berechnung in der Logikeinheit können Multiplikations- und Additionsprozesse in einer gemeinsamen MAK- bzw. FMA-Einheit kombiniert werden, die eine Hardwarerealisierung für eine Additions- und eine Multiplikationsoperation in besonders effizienter Weise zur Verfügung stellt.
Beispielsweise ist in der Druckschrift US 7,080,111 B2 eine solche FMA-Einheit für eine eingangsseitige und ausgangsseitige Auflösung von 32 Bit beschrieben. Auch die Druckschrift US 7,346,642 B1 zeigt eine solche FMA-Einheit, jedoch mit einer verbesserten Genauigkeit.
Offenbarung der Erfindung
Erfindungsgemäß sind die FMA-Einheit zur Durchführung einer Rechenoperation in einer Modellberechnungseinheit in einem Steuergerät gemäß Anspruch 1 sowie die Modellberechnungseinheit und ein Steuergerät gemäß den nebengeordneten Ansprüchen vorgesehen.
Weitere vorteilhafte Ausgestaltungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt ist eine FMA-Einheit zur Durchführung einer Rechenoperation in einer Modellberechnungseinheit in einem Steuergerät vorgesehen, wobei als Eingangsgrößen zwei Multiplikanden und ein Summand jeweils in Form eines Fließkommawerts verarbeitbar sind und als eine Ausgangsgröße das Berechnungsergebnis in Form eines Fließkommawerts entsprechend einem Mantissenergebnis und einem Exponentenergebnis bereitgestellt wird, wobei die FMA-Einheit ausgebildet ist, um eine Multiplikation und eine nachfolgende Addition durchzuführen, wobei die Bitauflösungen der Eingänge für die Multiplikanden niedriger sind als die Bitauflösung des Eingangs für den Summanden und die Bitauflösung der Ausgangsgröße.
Die obige FMA-Einheit führt eine Multiplikation von zwei Multiplikanden und eine Addition des Multiplikationsergebnisses mit einem Summanden aus. Die obige FMA-Einheit unterscheidet sich von bekannten FMA-Einheiten dadurch, dass die Multiplikanden mit einer niedrigeren Genauigkeit bereitgestellt und verrechnet werden als der Summand und das Ergebnis der Berechnung in der FMA-Einheit. Weiterhin wird das Zwischenergebnis der Multiplikation ohne Genauigkeitsverlust dargestellt. Bei der Wahl der einzelnen Bitauflösungen muss eine Abwägung vorgenommen werden, bei der berücksichtigt wird, dass beim Einsatz der FMA-Einheit in einer Modellberechnungseinheit mit einer oder mehreren Berechnungsschleifen Summenbildungen wiederholt akkumulativ durchgeführt werden und dabei eine ausreichende Genauigkeit erreicht werden muss. Eine ausreichende Bitauflösung muss insbesondere aufgrund von numerischen Problemen bei sehr kleinen akkumulierten Werten, d. h. Werten nahe Null, oder sehr großen Werten der Summanden bereitgestellt werden.
Werden andererseits die Bitauflösungen der Multiplikanden und der Summanden zu groß gewählt, so wird aufgrund der Hardwarerealisierung des Algorithmus mehr Logik benötigt, so dass die benötigte Fläche zur Realisierung der FMA-Einheit in integrierter Aufbauweise deutlich vergrößert und zudem auch die Leistungsfähigkeit der Hardware verringert ist.
Die obige FMA-Einheit schlägt die Verwendung des Multiplikationsteils der FMA-Einheit mit einer verringerten Genauigkeit vor. Das heißt, die Multiplikanden können nur mit einer Bitauflösung vorgegeben und verrechnet werden, die geringer ist als die Bitauflösung der nachfolgenden Summenbildung. Dies führt zu einer merklichen Einsparung an benötigter Chipfläche, da der Multiplikationsteil den Teil der FMA-Einheit darstellt, der die größte Fläche benötigt. Insbesondere wenn die Bitauflösung der Multiplikanden bzw. deren Mantissenwerte für die Multiplikation der Hälfte oder weniger als die Hälfte der Bitauflösung des Ausgangswerts und des Summanden bzw. deren Mantissenwerte entspricht, ist keine interne Umwandlung des Multiplikationsergebnisses in einen Wert mit verringerter Bitauflösung mehr notwendig, um die Addition durchführen zu können, wie dies bisher der Fall ist.
Vielmehr kann die Bitauflösung des Zwischenergebnisses der Multiplikation so gewählt werden, dass die Genauigkeit nicht reduziert wird. Zum Beispiel können die Multiplikanden mit einer Genauigkeit von 32 Bit Fließkommaformat (Single-Precision) mit einem Exponenten von 8 Bit und einer Mantisse von 23 Bit bereitgestellt werden. Es kann eine 24 Bit × 24 Bit-Integermultiplikation angewandt werden, die zu einer fraktionalen Genauigkeit von 48 Bit führt. Weiterhin kann durch die reduzierte Bitauflösung der Multiplikanden die als Eingangsgrößen bereitzustellende Datenmenge reduziert werden, da z.B. bei einem gewünschten Endergebnis in 64-Bitauflösung die beiden Multiplikanden nur in 32-Bitauflösung bereitgestellt werden müssen.
Weiterhin kann die FMA-Einheit umfassen:

– einen Exponenten-Additionsblock, der ausgebildet ist, um die Exponenten der Multiplikanden zur Produktbildung der Exponenten zu addieren und ein entsprechendes Exponenten-Zwischenergebnis bereitzustellen;
– einen Multiplikationsblock, der ausgebildet ist, um die Mantissenwerte der Multiplikanden zu multiplizieren und ein Mantissen-Multiplikationsergebnis zu erhalten;
– einen Exponenten-Evaluierungsblock, der ausgebildet ist, um eine Differenz zwischen dem Exponenten-Zwischenergebnis E_G und dem Exponenten des Summanden zu ermitteln und ein Exponenten-Ergebnis bereitzustellen; und
– einen Additionsblock, der ausgebildet ist, um abhängig von der ermittelten Differenz zwischen dem Exponenten-Zwischenergebnis E_G und dem Exponenten des Summanden das Mantissen-Multiplikationsergebnis oder die Mantisse des Summanden einer Rechtsverschiebungsoperation zu unterziehen und diese anschließend zu addieren, um ein Mantissen-Ergebnis zu erhalten, wobei das Mantissen-Ergebnis und das Exponenten-Ergebnis die Ausgangsgröße angeben; wobei die Bitauflösungen der Eingänge des Exponenten-Additionsblocks und des Multiplikationsblocks niedriger sind als die Bitauflösungen der Eingänge des Exponenten-Evaluierungsblocks und des Additionsblocks.

Gemäß einer Ausführungsform können die Multiplikanden eine erste Mantissen-Bitauflösung und eine erste Exponenten-Bitauflösung, und der Summand und die Ausgangsgröße eine zweite Mantissen-Bitauflösung und eine zweite Exponenten-Bitauflösung aufweisen, wobei die zweite Mantissen-Bitauflösung mindestens dem Doppelten der ersten Mantissen-Bitauflösung entspricht.
Es kann vorgesehen sein, dass der Exponenten-Evaluierungsblock ausgebildet ist, um das Exponenten-Ergebnis als Wert des größeren Exponenten aus dem Exponenten-Zwischenergebnis E_G und dem Exponenten des Summanden bereitzustellen, wobei der Additionsblock ausgebildet ist, um abhängig von der ermittelten Differenz zwischen dem Exponenten-Zwischenergebnis E_G und dem Exponenten des Summanden entweder das Mantissen-Multiplikationsergebnis oder die Mantisse des Summanden einer Rechtsverschiebungsoperation zu unterziehen, dessen zugeordneter Exponent der kleinere ist.
Insbesondere kann ein Normierungsblock vorgesehen sein, um das Exponenten-Ergebnis und das Mantissen-Ergebnis zu normieren, in eine entsprechende Fließkommadarstellung zu bringen und bereitzustellen.
Gemäß einem Aspekt ist eine Modellberechnungseinheit für ein Steuergerät vorgesehen, umfassend einen Rechenkern mit einer Logikeinheit, um einen in Hardware implementierten Algorithmus zu berechnen, wobei eine FMA-Einheit zur Durchführung einer Additions- und/oder Multiplikationsoperation vorgesehen ist.
Insbesondere kann die Logikeinheit ausgebildet sein, um eine Bayes-Regression zu berechnen.
Gemäß einem Aspekt ist ein Steuergerät vorgesehen, umfassend:

– eine softwaregesteuerte Hauptrecheneinheit; und
– die obige Modellberechnungseinheit.

Gemäß einer Ausführungsform kann ein Speicher vorgesehen sein, um Hyperparameter und Stützstellendaten zu speichern, wobei die Hyperparameter und die Stützstellendaten mit der geringeren Bitauflösung bereitgestellt werden.
Kurzbeschreibung der Zeichnungen
Bevorzugte Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
1 eine schematische Darstellung eines Steuergeräts mit einer Modellberechnungseinheit;
2 eine schematische Darstellung eines Rechenkerns einer Modellberechnungseinheit; und
3 eine schematische Darstellung einer FMA-Berechnung in der Modellberechnungseinheit der 1.
Beschreibung von Ausführungsformen
Die in der nachfolgenden Beschreibung verwendeten Fließkommaformate basieren auf dem IEEE-754 Standard.
1 zeigt eine schematische Darstellung einer Hardwarearchitektur für ein integriertes Steuergerät 1, in dem in integrierter Weise eine Hauptrecheneinheit 2 und eine Modellberechnungseinheit 3 zur hardwarebasierten Berechnung eines datenbasierten Funktionsmodells vorgesehen sind. Die Hauptrecheneinheit 2 und die Modellberechnungseinheit 3 stehen über eine interne Kommunikationsverbindung 4, wie z. B. einen Systembus, miteinander in Kommunikationsverbindung. Weiterhin kann das Steuergerät 1 einen internen Speicher 5 und eine DMA-Einheit 6 (DMA = Direct Memory Access) umfassen, die über die interne Kommunikationsverbindung 4 miteinander in Verbindung stehen.
Grundsätzlich ist die Modellberechnungseinheit 3 hartverdrahtet und dem entsprechend nicht dazu ausgebildet, einen Softwarecode auszuführen. Aus diesem Grund ist in der Modellberechnungseinheit 3 auch kein Prozessor vorgesehen. Dies ermöglicht eine ressourcenoptimierte Realisierung einer derartigen Modellberechnungseinheit 3 bzw. einen flächenoptimierten Aufbau in integrierter Bauweise. Die Modellberechnungseinheit 3 weist einen Rechenkern 31 auf, der eine Berechnung eines vorgegebenen Algorithmus rein in Hardware implementiert. Der Rechenkern 31 umfasst dazu eine Logikschaltung 43, eine Exponentialfunktionseinheit 41 zur hardwarebasierten Berechnung einer Exponentialfunktion, und eine FMA-Einheit 42 zur hardwarebasierten Berechnung einer kombinierten Multiplikations- und Additionsoperation in Verbindung.
Die Verwendung von nicht parametrischen, datenbasierten Funktionsmodellen basiert auf einem Bayes-Regressionsverfahren. Die Grundlagen der Bayes-Regression sind beispielsweise in C. E. Rasmussen et al., „Gaussian Processes for Machine Learning", MIT Press 2006, beschrieben. Bei der Bayes-Regression handelt es sich um ein datenbasiertes Verfahren, das auf einem Modell basiert. Zur Erstellung des Modells sind Messpunkte von Trainingsdaten sowie zugehörige Ausgangsdaten einer Ausgangsgröße erforderlich. Die Erstellung des Modells erfolgt anhand der Verwendung von Stützstellendaten, die den Trainingsdaten ganz oder teilweise entsprechen oder aus diesen generiert werden. Weiterhin werden abstrakte Hyperparameter bestimmt, die den Raum der Modellfunktionen parametrisieren und effektiv den Einfluss der einzelnen Messpunkte der Trainingsdaten auf die spätere Modellvorhersage gewichten.
Zum Start einer Berechnung weist die Recheneinheit 2 die DMA-Einheit 6 an, die das zu berechnende Funktionsmodell betreffenden Konfigurationsdaten in die Modellberechnungseinheit 3 zu übertragen und die Berechnung zu starten, die mithilfe der Konfigurationsdaten durchgeführt wird. Die Konfigurationsdaten umfassen die Hyperparameter eines Gauß-Prozessmodells sowie Stützstellendaten, die vorzugsweise mithilfe eines Adresszeigers auf den der Modellberechnungseinheit 3 zugewiesenen Adressbereich des Speichers 5 angegeben werden.
Die Berechnung in der Modellberechnungseinheit 3 erfolgt in einer durch den nachfolgenden Pseudo-Code realisierte Hardware-Architektur in der Modellberechnungseinheit 3, die der obigen Berechnungsvorschrift entspricht. Aus dem Pseudo-Code ist zu erkennen, dass Berechnungen in einer inneren Schleife und einer äußeren Schleife erfolgen und deren Teilergebnisse akkumuliert werden.
Bei einer Hardwareimplementierung ist eine Berechnung der Form a × b + c in besonders effizienter Weise mithilfe einer FMA-Einheit möglich. Eine solche FMA-Einheit lässt sich in Hardware realisieren, um innerhalb weniger Taktzyklen eine entsprechende Berechnung durchführen zu können. Unter Umständen kann die Berechnung sogar innerhalb eines Taktzyklus erfolgen. Die Berechnung wird in Hardware realisiert, wie es in dem beigefügten Pseudo-C-Code angegeben ist.
Die Berechnung des obigen Algorithmus kann mit folgenden Einheiten in dem Rechenkern 31, der in 2 detaillierter dargestellt ist, durchgeführt werden. Der Rechenkern 31 umfasst dazu eine Logikschaltung 43, eine Exponentialfunktionseinheit 41 und eine FMA-Einheit 42, die eine kombinierte Multiplikationsund Additionsoperation von Eingangsgrößen in einem Fließkommaformat bereitstellt.
Der obige im Pseudo-C-Code angegebene Berechnungsablauf wird durch eine geeignete, den Algorithmus als Hardware realisierende Logikschaltung 43 gesteuert. Die Logikschaltung 43 stellt eine entsprechende Verdrahtung und Ablaufsteuerung dar.
3 zeigt eine schematische Darstellung einer Berechnung in der FMA-Einheit 42. Der FMA-Einheit 42 werden Eingangsgrößen a, b, c für die Berechnung von a × b + c, nämlich die Multiplikanden a, b und der Summand, c zur Verfügung gestellt. Die Eingangsgrößen a, b, c sind im Fließkommaformat bereitgestellt. Insbesondere sind die Eingänge für die Multiplikanden a, b in einer ersten Bitauflösung und der Eingang für den Summanden c und der Ausgang in einer zweiten Bitauflösung bereitgestellt. Die erste Bitauflösung ist geringer als die zweite Bitauflösung. In einem Beispiel kann die erste Bitauflösung 32 Bit betragen und die zweite Bitauflösung 64 Bit.
Die FMA-Einheit 42 enthält einen Exponenten-Additionsblock 51, um die Exponenten E_a, E_b der Eingangsgrößen (Multiplikanden) a, b für die Produktbildung der Exponenten zu addieren und ein entsprechendes Exponenten-Zwischenergebnis E_G einem Exponenten-Evaluierungsblock 52 zur Verfügung zu stellen. Weiterhin werden die Mantissenwerte M_a, M_b der Multiplikanden a, b in einem Multiplikationsblock 53 multipliziert und das entsprechende Mantissen-Multiplikationsergebnis M_G wird einem Additionsblock 54 bereitgestellt.
Dem Exponenten-Evaluierungsblock 52 wird weiterhin der Exponent E_c des Summanden c zugeführt. Das Exponenten-Zwischenergebnis E_G des Exponentenadditionsblocks 51 wird an den Exponenten E_c des Summanden c angeglichen. Dazu wird eine Differenz aus dem Exponenten E_c des Summanden und dem Exponenten-Zwischenergebnis E_G gebildet und an den Additionsblock 54 kommuniziert. Der größere der Exponentenwerte E_c, E_G wird als Exponenten-Ergebnis E_E an einen nachgeordneten Normierungsblock 55 weitergeleitet.
Dem Additionsblock 54 wird weiterhin die Mantisse M_c des Summanden c zugeführt. Es wird eine entsprechende Rechtsverschiebung einer der dem Additionsblock zugeführten Mantissen M_c, M_G um eine Anzahl von Bits vorgenommen, die der ermittelten Differenz entspricht. Insbesondere wird der Betrag derjenigen der Mantissen, nämlich der Mantisse M_c des Summanden c oder des Mantissen-Multiplikationsergebnis M_G, deren zugehöriger Exponent niedriger ist, durch eine Rechtsverschiebungsoperation erhöht. Anschließend, d. h. nach der Rechtsverschiebungsoperation, wird eine Addition bzw. Subtraktion (abhängig von den Vorzeichen) der nun vorliegenden Mantissenwerte M_c, M_G vorgenommen, um ein Mantissen-Ergebnis M_E zu erhalten. Das Mantissen-Ergebnis M_E wird an den nachgeordnete Normierungsblock 55 weitergeleitet.
Das aus Mantissen-Ergebnis M_E und Exponenten-Ergebnis E_E gebildete Ergebnis wird dann durch den Normierungsblock 55 normiert, um so das Endergebnis zu bilden. Vorzugsweise wird der Mantissenwert des Endergebnisses auf einen Wert von z. B. zwischen [1.0; 2.0) normiert. Man erkennt, dass eine Normierung nur am Ende des Berechnungsverfahrens notwendig ist und nicht bereits nach der Multiplikation. Dadurch kann durch das Vorsehen einer Multiplikation mit einer geringeren Bit-Auflösung als die Bit-Auflösung der nachfolgenden Addition in vorteilhafter Weise für die Modellberechnung verwendet werden.
Die durchgeführte Multiplikation verwendet 24 Bit × 24 Bit-Mantissenwerte (23 Bit Mantisse + Hidden-Bit) mit einem 48-Bit-Ergebnis, um das Mantissen-Multiplikationsergebnis M_G zu erhalten. Die Multiplikation kann beispielsweise mithilfe eines Multiplizier-Arrays, eines Carry-Save-Addierers oder eines höheren Radix-Multiplizierers durchgeführt werden. Da der Summand c eine höhere Bitauflösung aufweist als die Multiplikanden a oder b, ist es nicht notwendig, das Mantissen-Multiplikationsergebnis M_G zu einem 32-Bit-Wert, d. h. einem Wert mit 24-Bit-Mantissenwert und 8-Bit-Exponentenwert, zu normieren. Für die 64-Bitauflösung des Summanden c beträgt die Bitauflösung des Mantissenwerts 53 Bit. Daher kann das 48-Bit-Ergebnis des Mantissenwerts verwendet und vor der Addition auf 53 Bit erweitert werden. Die einfachste Erweiterung besteht darin, die niedrigsten 5 Bits mit Nullen aufzufüllen.
Weiterhin ist es ebenfalls möglich, eine Voranpassung durchzuführen, indem das Exponenten-Zwischenergebnis E_G und der Exponent E_c des Summanden c angeglichen werden, so dass die obige Erweiterung eine Rechtsverschiebungsoperation des Mantissenwerts, dem ein niedriger Exponentenwert zugeordnet ist, enthalten kann. Dadurch können verschiedene Vorteile erreicht werden, wie beispielsweise eine verbesserte Genauigkeit für den Addierer, da das Multiplikationsergebnis nicht auf 24 Bit abgerundet wird.
Weiterhin kann der Flächenbedarf bei einer integrierten Aufbauweise der FMA-Einheit 42 niedrig gehalten werden, da lediglich ein 24 Bit × 24 Bit-Multiplizierer benötigt wird. Durch die niedrige Bitauflösung der Eingangsgrößen für die Multiplikation im Vergleich zu der Bitauflösung des Endergebnisses kann eine hohe Leistungsfähigkeit der Hardware-Berechnung erreicht werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102010028266 A1 [0002]
US 7080111 B2 [0004]
US 7346642 B1 [0004]

Zitierte Nicht-Patentliteratur

IEEE-754 Standard [0024]
C. E. Rasmussen et al., „Gaussian Processes for Machine Learning“, MIT Press 2006 [0027]

Claims

FMA-Einheit (42) zur Durchführung einer Rechenoperation in einer Modellberechnungseinheit (3) in einem Steuergerät (1), wobei als Eingangsgrößen zwei Multiplikanden und ein Summand jeweils in Form eines Fließkommawerts verarbeitbar sind und als eine Ausgangsgröße das Berechnungsergebnis in Form eines Fließkommawerts bereitgestellt wird, wobei die FMA-Einheit (42) Eingänge für die zwei Multiplikanden und einen Eingang für den Summanden aufweist und ausgebildet ist, um eine Multiplikation der Multiplikanden und eine nachfolgende Addition des Berechnungsergebnisses der Multiplikation mit dem Summanden durchzuführen, wobei die Bitauflösungen der Eingänge für die Multiplikanden niedriger sind als die Bitauflösung des Eingangs für den Summanden und die Bitauflösung der Ausgangsgröße.
FMA-Einheit (42) nach Anspruch 1, wobei die Multiplikanden eine erste Mantissen-Bitauflösung und eine erste Exponenten-Bitauflösung aufweisen und der Summand und die Ausgangsgröße eine zweite Mantissen-Bitauflösung und eine zweite Exponenten-Bitauflösung aufweisen, wobei die zweite Mantissen-Bitauflösung mindestens dem Doppelten der ersten Mantissen-Bitauflösung entspricht.
FMA-Einheit (42) nach Anspruch 2, umfassend: – einen Exponenten-Additionsblock (51), der ausgebildet ist, um die Exponenten der Multiplikanden zur Produktbildung der Exponenten zu addieren und ein entsprechendes Exponenten-Zwischenergebnis bereitzustellen; – einen Multiplikationsblock (53), der ausgebildet ist, um die Mantissenwerte (M_a, M_b) der Multiplikanden zu multiplizieren und ein Mantissen-Multiplikationsergebnis (M_G) zu erhalten; – einen Exponenten-Evaluierungsblock (52), der ausgebildet ist, um eine Differenz zwischen dem Exponenten-Zwischenergebnis (E_G) und dem Exponenten (E_c) des Summanden zu ermitteln und ein Exponenten-Ergebnis (E_E) bereitzustellen; und – einen Additionsblock (54), der ausgebildet ist, um abhängig von der ermittelten Differenz zwischen dem Exponenten-Zwischenergebnis (E_G) und dem Exponenten (E_c) des Summanden das Mantissen-Multiplikationsergebnis (M_G) oder die Mantisse (M_c) des Summanden einer Rechtsverschiebungsoperation zu unterziehen und diese anschließend zu addieren, um ein Mantissen-Ergebnis zu erhalten, wobei das Mantissen-Ergebnis (M_E) und das Exponenten-Ergebnis (E_E) die Ausgangsgröße (D) angeben; wobei die Bitauflösungen der Eingänge des Multiplikationsblocks (53) niedriger sind als die Bitauflösung des Eingangs des Additionsblocks.
FMA-Einheit (42) nach Anspruch 2 oder 3, wobei der Exponenten-Evaluierungsblock (52) ausgebildet ist, um das Exponenten-Ergebnis (E_E) als Wert des größeren Exponenten aus dem Exponenten-Zwischenergebnis (E_G) und dem Exponenten (E_c) des Summanden bereitzustellen, wobei der Additionsblock (54) ausgebildet ist, um abhängig von der ermittelten Differenz zwischen dem Exponenten-Zwischenergebnis (E_G) und dem Exponenten des Summanden denjenigen Wert aus dem Mantissen-Multiplikationsergebnis (M_G) oder der Mantisse (M_c) des Summanden einer Rechtsverschiebungsoperation zu unterziehen, dessen zugeordneter Exponent der kleinere ist.
FMA-Einheit (42) nach einem der Ansprüche 1 bis 4, wobei ein Normierungsblock (55) vorgesehen ist, um das Exponenten-Ergebnis (E_E) und das Mantissen-Ergebnis (M_E) zu normieren.
Modellberechnungseinheit (3) für ein Steuergerät (1), umfassend einen Rechenkern (31) mit einer Logikeinheit (43), um einen in Hardware implementierten Algorithmus zu berechnen, wobei eine FMA-Einheit (42) nach einem der Ansprüche 1 bis 5 zur Durchführung einer Additions- und/oder Multiplikationsoperation vorgesehen ist.
Modellberechnungseinheit (3) nach Anspruch 6, wobei der Rechenkern (31) ausgebildet ist, um eine Bayes-Regression zu berechnen.
Steuergerät (1), umfassend: – eine softwaregesteuerte Hauptrecheneinheit (2); und – eine Modellberechnungseinheit (3) nach Anspruch 6.
Steuergerät (1) nach Anspruch 8, wobei ein Speicher (5) vorgesehen ist, um Hyperparameter und Stützstellendaten eines datenbasierten Funktionsmodells, insbesondere eines Gaußprozessmodells, zu speichern, wobei die Hyperparameter und die Stützstellendaten mit der geringeren Bitauflösung bereitgestellt werden.