DE102019218495A1

DE102019218495A1 - Verfahren zur Fehlermodellierung und zum Optimieren für ein künstliches neuronales Netzwerk

Info

Publication number: DE102019218495A1
Application number: DE102019218495.2A
Authority: DE
Inventors: Cecilia Eugenia De La Parra Aparicio
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-06-02

Abstract

Vorrichtung und computerimplementiertes Verfahren zur Fehlermodellierung für ein künstliches neuronales Netzwerk, wobei ein erster Wert für ein Neuron einer Schicht (k) des künstlichen neuronalen Netzwerks abhängig von einer ersten Rechenvorschrift (f̃) für eine erste Multiplikation eines Eingangstensors (X) für die Schicht (k) mit Gewichten (Wk) für die Schicht (k) definiert ist, wobei ein Approximationsfehler für das Neuron abhängig von einer Differenz zwischen dem ersten Wert und einem zweiten Wert definiert ist, wobei der zweite Wert durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors (X) mit den Gewichten (Wk) abhängig von einer von der ersten Rechenvorschrift (f̃) verschiedenen zweiten Rechenvorschrift (f) definiert ist, wobei abhängig von Trainingsdaten eine Vielzahl von Eingangstensoren (X) bereitgestellt werden, wobei abhängig von wenigstens einem Teil der Eingangstensoren (X) eine Vielzahl der Approximationsfehler bestimmt wird, wobei abhängig von wenigstens einem Teil der Eingangstensoren (X) eine Vielzahl der ersten Werte bestimmt wird, wobei abhängig von der Vielzahl der ersten Werte und der Vielzahl der Approximationsfehler ein Korrelationskoeffizient bestimmt wird, und wobei ein Fehlermodell für das Neuron abhängig von der Vielzahl der ersten Werte und dem Korrelationskoeffizient bestimmt wird.

Description

Stand der Technik
Die Erfindung geht aus von einem künstlichen neuronalen Netzwerk, das in wenigstens einer Schicht einen Multiplizierer vorsieht. Derartige Multiplizierer können durch Hardwarebeschleuniger realisiert sein. Zur Reduzierung eines Energieverbrauchs eines künstlichen neuronalen Netzwerks, das viele Multiplizierer verwendet, können approximierte Multiplizierer eingesetzt werden. Diese reduzieren die Genauigkeit der Berechnung und verringern den Energieverbrauch. Wünschenswert ist es, approximierte Multiplizierer und künstliche neuronale Netzwerke geeignet zu kombinieren.
Offenbarung der Erfindung
Ein computerimplementiertes Verfahren zur Fehlermodellierung für ein künstliches neuronales Netzwerk sieht vor, dass ein erster Wert für ein Neuron einer Schicht des künstlichen neuronalen Netzwerks abhängig von einer ersten Rechenvorschrift für eine erste Multiplikation eines Eingangstensors für die Schicht mit Gewichten für die Schicht definiert ist, wobei ein Approximationsfehler für das Neuron abhängig von einer Differenz zwischen dem ersten Wert und einem zweiten Wert definiert ist, wobei der zweite Wert durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors mit den Gewichten abhängig von einer von der ersten Rechenvorschrift verschiedenen zweiten Rechenvorschrift definiert ist, wobei abhängig von Trainingsdaten eine Vielzahl von Eingangstensoren bereitgestellt werden, wobei abhängig von wenigstens einem Teil der Eingangstensoren eine Vielzahl der Approximationsfehler bestimmt wird, wobei abhängig von wenigstens einem Teil der Eingangstensoren eine Vielzahl der ersten Werte bestimmt wird, wobei abhängig von der Vielzahl der ersten Werte und der Vielzahl der Approximationsfehler ein Korrelationskoeffizient bestimmt wird, und wobei ein Fehlermodell für das Neuron abhängig von der Vielzahl der ersten Werte und dem Korrelationskoeffizient bestimmt wird. Dadurch wird ein Fehlermodell angegeben, mit dem ein geeigneter approximierter Multiplizierer und ein dafür geeignetes Neuron für ein künstliches neuronales Netzwerk bestimmbar oder erkennbar ist.
Vorzugsweise wird das Fehlermodell abhängig von einer Wahrscheinlichkeitsverteilung bestimmt, insbesondere einer Laplace-Verteilung oder einer Normalverteilung, die abhängig von einer Wahrscheinlichkeitsdichtefunktion für begrenzte Varianz und begrenzte Kovarianz von Werten des Fehlermodells definiert ist.
Für den ersten Wert kann abhängig vom Fehlermodell ein dritter Wert bestimmt werden, wobei ein Ausgangswert der Schicht abhängig vom ersten Wert und vom dritten Wert bestimmt werden kann. Dadurch wird ein korrigierter Ausgangswert bestimmt, der eine Veränderung eines Ergebnisses durch den approximierten Multiplizierer verringern kann.
Vorzugsweise wird ein erster Tensor für die Schicht abhängig von der ersten Rechenvorschrift, dem Eingangstensor und den Gewichten für die Schicht bestimmt wird, wobei für wenigstens ein Neuron der Schicht das Fehlermodell abhängig vom ersten Tensor und abhängig von einem zweiten Tensor bestimmt wird, wobei der zweite Tensor durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors mit den Gewichten für die Schicht abhängig von der zweiten Rechenvorschrift definiert ist. Dadurch können Ergebnisse zweier Multiplizierer auf Basis derselben Eingangsgrößen und Gewichte für alle Neuronen einer Schicht verglichen werden.
Die zweite Rechenvorschrift wird beispielsweise für die zweite Multiplikation des Eingangstensors mit den Gewichten vorgegeben, und der der zweite Wert oder der zweite Tensor abhängig von der zweiten Rechenvorschrift, dem Eingangstensor und den Gewichten bestimmt.
Vorzugsweise wird abhängig von der ersten Rechenvorschrift und der zweiten Rechenvorschrift ein Maß für einen Approximationsfehler bestimmt, und entweder die erste Rechenvorschrift für die erste Multiplikation verwendet wird, wenn das Maß für den Approximationsfehler einen Schwellwert unterschreitet, oder anderenfalls aus einer Vielzahl Rechenvorschriften eine andere Rechenvorschrift ausgewählt wird. Dadurch wird statt einem genauen Multiplizierer ein geeigneter approximierter Multiplizierer ausgewählt. Der Schwellwert gibt ein Maß für die Genauigkeit an. Ein derart ausgewählter approximierter Multiplizierer erfüllt ein Mindestmaß für die Genauigkeit und kann im Hardwarebeschleuniger eingesetzt werden, um den Energieverbrauch des Hardwarebeschleunigers zu reduzieren, ohne die Genauigkeit der Funktion des künstlichen neuronalen Netzwerks zu beeinträchtigen.
Parameter für das künstliche neuronale Netzwerk werden beispielsweise mit einer ersten Bitlänge vorgegeben, wobei abhängig von zumindest einem Teil der Parameter linear quantisierte Parameter mit einer zweiten Bitlänge bestimmt werden, und wobei die Gewichte oder eine Aktivierungsfunktion für das Neuron abhängig von den linear quantisierten Parametern bestimmt werden. Dies reduziert den Rechenaufwand und die Energieaufnahme des Hardwarebeschleunigers zusätzlich.
In einem Aspekt, in dem die Schicht eine Vielzahl von Neuronen umfasst, wird ein Ausgangswert wenigstens eines Neuron aus der Mehrzahl von Neuronen abhängig von einem Wert bestimmt, der durch das Fehlermodell definiert ist. Dies stellt ein Fehlermodell dar, das eine Korrektur des Ausgangswerts eines einzelnen Neurons ermöglicht.
Für eine Vielzahl Eingangstensoren wird vorzugsweise ein Signal von Ergebnissen der ersten Multiplikation am Neuron bestimmt, wobei abhängig vom Signal und abhängig von einem Referenzsignal ein Korrelationskoeffizient bestimmt wird, und wobei das Fehlermodell abhängig vom Korrelationskoeffizient bestimmt wird. Dies stellt ein Fehlermodell mit feiner Granularität dar, das einen Fehler eines einzelnen Neuron modelliert.
Vorzugsweise werden für die Vielzahl von Neuronen der Schicht individuelle Fehlermodelle bestimmt, wobei abhängig von den individuellen Fehlermodellen Werte für einen Fehlertensor bestimmt werden, und wobei ein Ausgangstensor der Schicht abhängig vom ersten Tensor und vom Fehlertensor bestimmt wird. Dies Fehlermodellierung ermöglicht eine Berücksichtigung der Neuronen der Schicht in einem Rechenschritt.
Ein computerimplementiertes Verfahren zum Optimieren für ein künstliches neuronales Netzwerk kann abhängig von einer derartigen Fehlermodellierung vorsehen, dass bei einer Ausführung eines Trainingsschritt abhängig von wenigstens einem der Eingangstensoren wenigstens eine Ausgangsgröße des künstlichen neuronalen Netzwerks bestimmt wird, wobei für eine erste Ausführung des Trainingsschritts eine Vielzahl erster Parameter für das künstliche neuronale Netzwerk vorgegeben wird, wobei die ersten Parameter die Gewichte umfassen, wobei zweite Parameter für das künstliche neuronale Netzwerk abhängig von der wenigstens einen Ausgangsgröße, die im ersten Trainingsschritt bestimmt wurde, bestimmt werden, wobei die zweiten Parameter für eine zweite Ausführung des Trainingsschritts vorgegeben werden und wobei die zweiten Parameter die ersten Parameter zumindest teilweise ersetzen. Die ersten Parameter können ein vortrainiertes künstliches neuronales Netzwerk definieren, das abhängig von der Fehlermodellierung mit dem ausgewählten approximierten Multiplizierer erneut trainiert wird. Die zweiten Parameter sind für diesen ausgewählten approximierten Multiplizierer angepasst. Dadurch werden die Parameter für ein besonders für den approximierten Multiplizierer geeignetes künstliches neuronales Netzwerk angegeben.
Es kann vorgesehen sein, dass geprüft wird, ob die wenigstens eine Ausgangsgröße eine Bedingung erfüllt, wobei wenn die Bedingung erfüllt ist, die ersten Parameter ausgegeben oder gespeichert werden, und anderenfalls die zweiten Parameter bestimmt und vorgegeben werden. Dadurch werden mehrere Iterationen möglich, bis ein optimiertes künstliches neuronales Netzwerk definiert ist.
Eine Vorrichtung zur Fehlermodellierung für ein künstliches neuronales Netzwerk sieht vor, dass die Vorrichtung ausgebildet ist, das Verfahren zur Fehlermodellierung auszuführen.
Eine Vorrichtung zum Optimieren eines künstlichen neuronalen Netzwerks sieht vor, dass die Vorrichtung ausgebildet ist, das Verfahren zum Optimieren für ein künstliches neuronales Netzwerk abhängig von einer derartigen Fehlermodellierung auszuführen.
Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt:

1 eine schematische Darstellung einer Vorrichtung zur Fehlermodellierung und zum Optimieren eines künstlichen neuronalen Netzwerks,
2 eine schematische Darstellung einer Fehlermodellierung,
3 Schritte in einem Verfahren für die Fehlermodellierung im künstlichen neuronalen Netzwerk,
4 eine schematische Darstellung einer Verwendung der Fehlermodellierung bei einem Optimieren des künstlichen neuronalen Netzwerks,
5 Schritte in einem Verfahren zum Optimieren des künstlichen neuronalen Netzwerks.

Der Ausdruck künstliches neuronales Netzwerk bezieht sich im Folgenden auf ein tiefes künstliches neuronales Netzwerk mit einer Eingangsschicht, einer Ausgangsschicht und wenigstens einer verborgenen Schicht. Im Beispiel wird ein Vorgehen für ein faltendes künstliches neuronales Netzwerk, d.h. ein convolutional neural network, CNN, beschrieben. Das Vorgehen ist auf andere künstliche neuronale Netzwerke anwendbar, die einen Multiplizierer oder mehrere Multiplizierer erfordern. Das Vorgehen ist auch für andere Recheneinrichtungen anwendbar, in denen eine Multiplikation vorgesehen ist.
Der Ausdruck Multiplizierer bezieht sich auf eine elektrische Schaltung der Digitaltechnik, die aus zwei oder mehr digitalen Zahlen mit der mathematischen Operation der Multiplikation deren Produkt bestimmt. Die elektrische Schaltung kann beispielsweise in einem Hardwarebeschleuniger für das künstliche neuronale Netzwerk insbesondere als Application Specific Integrated Circuit, ASIC oder als Field Programmable Gate Array, FPGA, vorgebbar sein.
Die mathematische Operation der Multiplikation, die der Multiplizierer ausführt, kann durch eine Rechenvorschrift mathematisch beschrieben werden. Ein approximierter Multiplizierer wird beispielsweise durch eine Rechenvorschrift für eine approximierte Multiplikation beschrieben, die von einer Rechenvorschrift für eine mathematisch exakte Multiplikation um einen Fehler abweicht. Dieser Fehler wird wie im Folgenden beschrieben modelliert. In einem Aspekt wird ein geeigneter approximierter Multiplizierer für eine oder mehrere Multiplikationen in einem CNN ausgewählt. In einem anderen Aspekt wird wenigstens ein approximierter Multiplizierer in einem vortrainierten CNN eingesetzt und das vortrainierte CNN erneut mit dem wenigstens einen approximierten Multiplizierer trainiert. Das CNN kann teilweise oder vollständig approximiert sein. Vollständig approximiert bedeutet, dass alle Multiplikationen in allen Schichten des künstlichen neuronalen Netzwerks im Hardwarebeschleuniger durch einen approximierten Multiplizierer dargestellt werden. Zum Training des künstlichen neuronalen Netzwerks kann eine Simulation der Hardwarebeschleuniger durch die Rechenvorschrift erfolgen, die den Hardwarebeschleuniger definiert.
Das Verwenden von approximierten Multiplizierern oder den Rechenvorschriften für diese, ist auch für komplexe CNNs möglich.
Ein CNN kann beispielsweise für eine bestimmte Trainingszeit mit einem Multiplizierer oder einer Rechenvorschrift dafür vortrainiert sein. In diesem Fall kann ein vollständig-approximiertes CNN durch eine Kombination von im Folgenden beschriebenen stochastischen und deterministischen Methoden in einer demgegenüber geringeren Trainingszeit trainiert werden. Ein Genauigkeitsgrenzwert, der für das Ende des Trainings des vortrainierten CNNs definiert ist, kann dadurch für ein auf diesem CNN basierenden approximierten CNN in wenigen Epochen wieder erreicht werden. Es ist dadurch möglich einen approximierenden Multiplizierer mit einem Fehler zu implementieren, das diesen Genauigkeitsgrenzwert erreicht.
Das Training kann beispielsweise für eine Bildverarbeitung von digitalen Bildern erfolgen, die Pixel umfassen. Als Trainingsdaten für das Training werden beispielsweise digitale Bilder verwendet, in denen jedem Pixel ein Graustufenwert und Pixelkoordinaten i und j zugeordnet sind. Für Farbbilder können mehrere Kanäle für Farbwerte statt dem Graustufenwert vorgesehen sein. Bei der Bildverarbeitung kann eine Faltungsoperation im CNN vorgesehen sein, die durch einen Multiplizierer ausgeführt werden kann.
1 zeigt eine schematische Darstellung einer Vorrichtung 100 die zur Fehlermodellierung und/oder zum Optimieren eines künstlichen neuronalen Netzwerks 102 ausgebildet ist. Die Vorrichtung 100 umfasst eine Recheneinrichtung 104 und einen Speicher 106, die ausgebildet sind, ein im Folgenden beschriebenes Verfahren für eine Fehlermodellierung für das künstliche neuronale Netzwerk und/oder zum Optimieren des künstlichen neuronalen Netzwerks auszuführen. Der Speicher 106 umfasst in einem Aspekt das künstliche neuronale Netzwerk 102. Es kann vorgesehen sein, dass der Speicher Rechenvorschriften 108 für Multiplikationen umfasst, die Multiplizierer definieren. Es kann vorgesehen sein, dass für eine Multiplikation statt auf eine Rechenvorschrift 108 auf Hardwarebeschleuniger zugegriffen wird, der diese Rechenvorschrift außerhalb des Speicher 106 implementiert. Ein Datenbus 110 ist im Beispiel für eine Kommunikation zwischen Recheneinrichtung 104 und Speicher 106 und/oder eine Hardware die Hardwarebeschleuniger umfasst ausgebildet.
In 2 stellt eine Fehlermodellierung schematisch dar. Im Beispiel ist die Fehlermodellierung für k Schichten dargestellt. Von den k Schichten ist eine erste Schicht 202 und eine daran anschließende zweite Schicht 204 und eine bezüglich der Fehlermodellierung letzte Schicht 206 des künstlichen neuronalen Netzwerks 102 in 2 dargestellt.
Für die erste Schicht 202 ist ein Eingangstensor X definiert. Für Neuronen der ersten Schicht 202 sind erste Gewichte W₁ definiert. Ein Ausgang der ersten Schicht 202 wird abhängig von einer Aktivierungsfunktion φ(·) bestimmt. Für Neuronen der zweiten Schicht 204 sind zweite Gewichte W₂ definiert. Für k Schichten sind im Beispiel Gewichte W₁,...,W_k definiert. Im Beispiel wird für die k Schichten dieselbe Aktivierungsfunktion φ(·) verwendet. Es können auch unterschiedliche Aktivierungsfunktion φ(·) oder unterschiedliche Parameter für dieselbe Aktivierungsfunktion φ(·) verwendet werden. Im Beispiel wird die Rectified Linear Unit, ReLu verwendet, die für einen Eingang z einen Ausgang φ(z) = max(0, z) definiert.
Für die Fehlermodellierung ist für die erste Schicht 202 eine erste Rechenvorschrift f̃ für eine erste Multiplikation des Eingangstensors X mit den ersten Gewichten W₁ definiert. Für die Fehlermodellierung ist für die erste Schicht 202 eine zweite Rechenvorschrift / für eine zweite Multiplikation des Eingangstensors X mit den ersten Gewichten W₁ definiert. Im Beispiel ist die erste Multiplikation eine approximierte Multiplikation und die zweite Multiplikation eine exakte Multiplikation. Die zweite Multiplikation kann auch eine approximierte Multiplikation sein.
Für den EingangstensorX kann das Produkt mit den ersten Gewichten W₁ mit einem Bias b_i,j definiert sein.
Die zweite Rechenvorschrift f ist für einen exakten Multiplizierer, digitale Bilder mit Pixelindizes i, j und mit den Indizes m und n dreidimensional strukturierten ersten Gewichten W₁ beispielsweise definiert als $\begin{array}{l} Y (i, j) = (X * W) (i, j) + b_{i, j} \\ = \sum_{m} \sum_{n} X (m, n) W (i - m, j - n) + b_{i, j} \end{array}$
Für eine vollständig verbundene erste Schicht 202 mit dem Index n und zweidimensional strukturierten ersten Gewichten W₁ ist die zweite Rechenvorschrift f beispielsweise definiert als $\begin{array}{l} Y (i, j) = (X * W) (i, j) + b_{i, j} \\ = \sum_{n} X (i, n) W (n, j) + b_{i, j} \end{array}$
Die erste Rechenvorschrift f̃ ist für einen approximierten Multipliziererfür die dreidimensional strukturierten ersten Gewichten W₁ beispielsweise definiert als $\tilde{Y} (i, j) = \sum_{m} \sum_{n} X (m, n) W (i - m, j - n) + ε_{X (m, n) W (i - m, j - n)} + b_{i, j}$
Für die vollständig verbundene erste Schicht 202 und die zweidimensional strukturierten ersten Gewichte W ist die erste Rechenvorschrift f̃ beispielsweise definiert als $\tilde{Y} (i, j) = \sum_{n} X (i, n) W (n, j) + ε_{X (i, n) W (n, j)} + b_{i, j}$
Mit der ersten Rechenvorschrift / wird ein erster Tensor Ỹ der ersten Schicht 202 bestimmt. Mit der zweiten Rechenvorschrift / wird ein zweiter Tensor Y für die erste Schicht 202 bestimmt. Der zweite Tensor Y ist im Beispiel durch ein Ergebnis der Multiplikation des Eingangstensors X mit den Gewichten W abhängig von einer von der ersten Rechenvorschrift / verschiedenen zweiten Rechenvorschrift / definiert.
Ein daraus resultierendes nicht-deterministisches Verhalten wird im Folgenden mit der Fehlermodellierung erfasst und statistisch analysiert, um den Fehler zu modellieren, der durch die approximierte Multiplikation auftritt. Mit dem im Folgenden beschriebenen Verfahren für die Fehlermodellierung wird abhängig vom ersten Tensor Ỹ und abhängig vom zweiten Tensor Y ein Fehlertensor E für ein Fehlermodell e(t) bestimmt.
Für die k Schichten wird für die Berechnung jeweiliger Fehlertensoren F₁,...,E_k sukzessive so verfahren, wobei als Eingang für eine Schicht die Gewichte dieser Schicht und statt dem Eingangstensor X ein Ausgangstensor einer unmittelbar vor dieser Schicht angeordneten Schicht verwendet wird. Im Beispiel wird für jede der Schichten dieselbe erste Rechenvorschrift f̃ und dieselbe zweite Rechenvorschrift / eingesetzt.
Schritte des Verfahrens für die Fehlermodellierung werden im Folgenden mit Bezug auf 3 beschrieben.
Das Verfahren ist im Beispiel computerimplementiert, d.h. die Hardwarebeschleuniger werden simuliert oder zur Bestimmung der Multiplikationen direkt eingesetzt.
Im Folgenden wird das Verfahren mit Bezug auf die Bestimmung eines Fehlermodells für ein Neuron und mit Bezug auf die Bestimmung des Fehlermodells für eine Vielzahl von Neuronen einer Schicht k des künstlichen neuronalen Netzwerks 102 beschrieben. Die Schicht k kann eine Faltungsschicht des CNN sein.
Ein erster Wert ỹ für das Neuron der Schicht k ist abhängig von der ersten Rechenvorschrift / für die erste Multiplikation des Eingangstensors X für die Schicht k mit den Gewichten W_k für die Schicht k definiert. Der erste Wert ỹ ist im Beispiel das Ergebnis der ersten Multiplikation vor einer Aktivierungsfunktion für das Neuron.
Ein Approximationsfehler ε für das Neuron ist abhängig von einer Differenz zwischen dem ersten Wert ỹ und einem zweiten Wert y definiert. Der zweite Wert y ist durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors X mit den Gewichten W_k abhängig von der zweiten Rechenvorschrift / definiert.
In einem Schritt 300 werden Trainingsdaten bereitgestellt. Die Trainingsdaten umfassen im Beispiel eine Vielzahl von Tensoren, die Eingangsgrößen für das künstliche neuronale Netzwerk 102 darstellen.
Anschließend wird ein Schritt 302 ausgeführt.
Im Schritt 302 werden Parameter für das künstliche neuronale Netzwerk 102 vorgegeben.
Im Beispiel werden die Parameter für die approximierte Multiplikation gemäß der ersten Rechenvorschrift / vorgegeben.
Im Beispiel liegen die Ergebnisse der zweiten Multiplikation bereits aus einem vorherigen Training des künstlichen neuronalen Netzwerks 102 vor. Es kann vorgesehen sein, in einem ersten Trainingsabschnitt, die Parameter gemäß der zweiten Rechenvorschrift / vorzugeben um diese Ergebnisse der zweiten Multiplikation zu bestimmen. Die zweite Rechenvorschrift / dafür kann in diesem Fall ebenfalls vorgegeben werden. Die zweite Rechenvorschrift f ist im Beispiel für einen genauen Multiplizierer vorgegeben.
Die Parameter können mit einer ersten Bitlänge, beispielsweise 32 Bit, vorgegeben werden. In diesem Fall kann vorgesehen sein abhängig von zumindest einem Teil der Parameter linear quantisierte Parameter mit einer zweiten Bitlänge, beispielsweise 8 Bit zu bestimmen.
Es kann vorgesehen sein, die Gewichte W_k und/oder eine Aktivierungsfunktion φ(·) für das Neuron abhängig von den Parametern oder linear quantisierten Parametern zu bestimmen.
Beispielsweise werden alle Gewichte W₁, ..., W_k aller k Schichten des künstlichen neuronalen Netzwerks 102 vorgegeben. Es kann vorgesehen sein nur einen Teil der Gewichte W₁, ..., W_k abhängig von den linear quantisierten Parametern zu bestimmen. Es kann vorgesehen sein, dass die linear quantisierte Parameter mit der zweiten Bitlänge als die Parameter aller Aktivierungsfunktionen φ(·) verwendet werden. Es können auch unterschiedliche Aktivierungsfunktionen φ(·) verwendet werden.
Es kann vorgesehen sein, die erste Rechenvorschrift / vorzugegeben. Beispielsweise wird die erste Rechenvorschrift f̃ aus einer Vielzahl Rechenvorschriften ausgewählt. Abhängig von der ersten Rechenvorschrift f̃ und der zweiten Rechenvorschrift / wird beispielsweise ein Maß für einen Approximationsfehler bestimmt, und entweder die erste Rechenvorschrift / für die erste Multiplikation verwendet, wenn das Maß für den Approximationsfehler einen Schwellwert unterschreitet, oder anderenfalls aus der Vielzahl Rechenvorschriften eine andere Rechenvorschrift ausgewählt.
Es kann vorgesehen sein, abhängig von der ersten Rechenvorschrift f̃ und der zweiten Rechenvorschrift f als Maß für einen Approximationsfehler ein Mean Relative Error MRE zu bestimmen: $M R E = \frac{1}{n^{2}} \sum_{i = 0}^{n} \sum_{j = 0}^{n} \frac{| f (i, j) - \tilde{f} (i, j) |}{m a x (f (i, j),1)},$
mit einer Bitbreite k und n = 2^k, wobei f(i,j) die exakte Multiplikation zwischen i und j und f(i,j) die approximierte Multiplikation darstellt.
Wenn das Maß für den Approximationsfehler MRE einen Schwellwert von 5% unterschreitet, wird in diesem Beispiel die erste Rechenvorschrift / für die erste Multiplikation verwendet. Anderenfalls wird im Beispiel aus einer Vielzahl Rechenvorschriften eine andere Rechenvorschrift ausgewählt.
Es kann auch vorgesehen, als ein Maß für den Approximationsfehler einen Mean Inverse Exponential Error zu bestimmen: $M E E = \frac{1}{n} \sum_{i = 1}^{n} | O_{a p p r o x}^{i} - O_{a c c}^{i} | e^{\frac{O_{a c c}^{i}}{2^{k}}}$
mit dem exakten Multiplikationsergebnis $O_{a c c}^{i}$
und dem approximierten Multiplikationsergebnis $O_{a p p r o x}^{i} .$
Wenn das Maß für den Approximationsfehler MEE einen Schwellwert 0,5 oder 0,6 unterschreitet, wird in diesem Beispiel die erste Rechenvorschrift f̃ für die erste Multiplikation verwendet. Anderenfalls wird im Beispiel aus einer Vielzahl Rechenvorschriften eine andere Rechenvorschrift ausgewählt.
Es kann vorgesehen sein, einen Kandidaten für die erste Rechenvorschrift f̃ aus einer Vielzahl Rechenvorschriften auszuwählen, für den Kandidaten zu prüfen, ob der Schwellwert unterschritten ist, diese Schritte zu wiederholen, bis ein Kandidat den Schwellwert unterschreitet und diesen Kandidaten als erste Rechenvorschrift / vorzugeben.
Anschließend wird ein Schritt 304 ausgeführt.
Im Schritt 304 werden abhängig von Trainingsdaten eine Vielzahl von Eingangstensoren X bereitgestellt. Die Trainingsdaten stellen Tensoren für die Eingangsgrößen des künstlichen neuronalen Netzwerks 102 bereit. Abhängig von diesen können die Eingangstensoren X für die Schicht k durch Vorwärtspropagation im künstlichen neuronalen Netzwerk 102 bestimmt werden. Für eine Eingangsschicht des künstlichen neuronalen Netzwerks 102 können die Eingangsgrößen die Eingangstensoren X selbst definieren.
Anschließend wird ein Schritt 306 ausgeführt.
Im Schritt 306 wird abhängig von wenigstens einem Teil der Eingangstensoren X eine Vielzahl ε(t) der Approximationsfehler bestimmt.
Für jeden der dazu verwendeten Eingangstensoren X wird beispielsweise für jedes Neuron der Schicht k der erste Wert ỹ und der zweite Wert y bestimmt.
Im Beispiel wird der erste Tensor Ỹ für die Schicht k abhängig von der ersten Rechenvorschrift f̃, dem Eingangstensor X und den Gewichten W_k für die Schicht k bestimmt.
Im Beispiel wird der zweite Wert y und/oder der zweite Tensor Y für die Schicht k verwendet, der bereits im vorangegangenen Trainingsschritt bestimmt wurde. Der zweite Tensor Y und/oder der zweite Wert y kann auch abhängig von der zweiten Rechenvorschrift f̃, dem Eingangstensor X und den Gewichten W_k im bestimmt werden.
Anschließend wird ein Schritt 308 ausgeführt.
Im Schritt 308 werden abhängig von der Vielzahl ỹ(t) der ersten Werte ein Medianwert µ und eine Standardabweichung σ bestimmt.
Die Vielzahl ỹ(t) ist darstellbar als: $\tilde{y} (t) = μ + σ s_{1} (t)$
Die Vielzahl ε(t) der Approximationsfehler ist darstellbar als: $ε (t) = A_{1} s_{1} (t) + A_{2} s_{2} (t) + μ_{ε}$
mit einem Medianwert µ_ε und einer Standardabweichung σ_ε und mit $A_{1} = ρ σ_{ε}$
$A_{2} = σ_{ε} \sqrt{1 - {| ρ |}^{2}}$
Der Medianwert µ, die Standardabweichung σ, der Medianwert µ_ε. und die Standardabweichung σ_ε werden bestimmt als: $σ = E [{\tilde{y}}^{2}] - E {[y]}^{2} = E [{\tilde{y}}^{2}] - μ^{2}$
$σ_{ε} = E [ε {(t)}^{2}] - μ_{ε}^{2}$
Anschließend wird ein Schritt 310 ausgeführt.
Im Schritt 310 wird abhängig von wenigstens einem Teil der Eingangstensoren X eine Vielzahl ỹ(t) der ersten Werte bestimmt. Beispielsweise wird die Vielzahl ỹ(t) der ersten Werte für 1% bis 5% der Eingangstensoren X bestimmt. Aus der Vielzahl ỹ(t) der ersten Werte wird ein Signal s₁(t) bestimmt als: $s_{1} (t) = \frac{\tilde{y} (t) - μ}{σ}$
Anschließend wird ein Schritt 312 ausgeführt.
Im Schritt 312 wird, abhängig vom Signal s₁(t), der Vielzahl ε(t) der Approximationsfehler, dem Medianwert µ und der Standardabweichung σ ein Korrelationskoeffizient p bestimmt: $ρ = \frac{E [(y - μ) (ε - μ_{ε})]}{σ, σ_{ε}}$
mit µε Anschließend wird ein Schritt 314 ausgeführt.
Im Schritt 314 wird für wenigstens ein Neuron der Schicht k das Fehlermodell e(t) abhängig vom ersten Tensor Ỹ und abhängig vom zweiten Tensor Y bestimmt.
Das Fehlermodell e(t) für das Neuron wird abhängig von der Vielzahl s₁(t) der ersten Werte, dem Medianwert µ, der Standardabweichung σ und dem Korrelationskoeffizient ρ bestimmt.
Das Fehlermodell e(t) wird abhängig von einer Wahrscheinlichkeitsverteilung s₂(t) bestimmt.
Die Wahrscheinlichkeitsverteilung s₂(t) ist beispielsweise eine Laplace-Verteilung oder einer Normalverteilung.
Die Wahrscheinlichkeitsverteilung s₂(t) ist beispielsweise abhängig von einer Wahrscheinlichkeitsdichtefunktion f(x|µ,σ²) für begrenzte Varianz und begrenzte Kovarianz von Werten des Fehlermodells e(t) definiert. Anschließend wird ein optionaler Schritt 316 ausgeführt.
Im optionalen Schritt 316 wird für einen ersten Wert ỹ eines Neurons der Schicht k abhängig vom so bestimmten Fehlermodell e(t) ein dritter Werte bestimmt.
Anschließend wird ein optionaler Schritt 318 ausgeführt.
Im optionalen Schritt 318, wird ein Ausgangswert ỹ' der Schicht k abhängig vom ersten Wert ỹ und vom dritten Wert e bestimmt.
Für eine Schicht k mit einer Vielzahl von Neuronen kann eine Vielzahl der dritten Werte e bestimmt werden. Die Vielzahl dritter Werte e wird im Beispiel zum Fehlertensor E zusammengefasst.
4 stellt eine schematische Darstellung der ersten Schicht 202, der zweiten Schicht 204 und der letzten Schicht 206 im künstlichen neuronalen Netzwerk 102 dar. Zum Optimieren des künstlichen neuronalen Netzwerks 102 wird im Beispiel ein Ausgangstensor für n Schichten im künstlichen neuronalen Netzwerk 102 abhängig von einer Addition eines Tensors der Ausgangswerte der jeweiligen Schicht mit einem Fehlertensor E₁ ,..., E_n für die jeweilige Schicht bestimmt.
5 stellt Schritte in einem Verfahren zum Optimieren des künstlichen neuronalen Netzwerks 102 dar.
In einem Schritt 500 werden Trainingsdaten zum Optimieren für das künstliche neuronale Netzwerk 102 bereitgestellt.
Anschließend wird ein Schritt 502 ausgeführt.
Im Schritt 502 wird für eine erste Ausführung eines Trainingsschritts eine Vielzahl erster Parameter für das künstliche neuronale Netzwerk 102 vorgegeben, wobei die ersten Parameter die Gewichte W_k umfassen.
Anschließend wird ein Schritt 504 ausgeführt.
Im Schritt 504 wird bei einer ersten Ausführung des Trainingsschritt abhängig von wenigstens einem der Eingangstensoren X wenigstens eine Ausgangsgröße des künstlichen neuronalen Netzwerks 102 bestimmt.
Anschließend wird ein Schritt 506 ausgeführt.
Im Schritt 506 wird geprüft, ob die wenigstens eine Ausgangsgröße eine Bedingung erfüllt. Die Bedingung ist beispielsweise eine vorgegebene Genauigkeit des künstlichen neuronalen Netzwerks 102 bezüglich einer Klassifikation von Objekten aus digitalen Bildern.
Wenn die Bedingung erfüllt ist, wird ein Schritt 508 ausgeführt. Anderenfalls wird ein Schritt 510 ausgeführt.
Im Schritt 508 werden die ersten Parameter ausgegeben oder gespeichert. Damit kann ein für die Hardwarebeschleuniger optimiertes künstliches neuronales Netzwerk 102 implementiert werden.
Anschließend endet das Verfahren.
Im Schritt 510 werden zweiten Parameter bestimmt und vorgegeben.
Die zweiten Parameter werden für das künstliche neuronale Netzwerk 102 abhängig von der wenigstens einen Ausgangsgröße vorgegeben, die im ersten Trainingsschritt bestimmt wurde. Beispielsweise wird dafür ein Gradientenabstiegsverfahren für CNNs eingesetzt, mit dem die Parameter bestimmt werden.
Anschließend wird ein Schritt 512 ausgeführt.
Im Schritt 512 werden die zweiten Parameter für eine zweite Ausführung des Trainingsschritts vorgegeben.
Die zweiten Parameter ersetzen im Beispiel die ersten Parameter zumindest teilweise.
Anschließend wird der Schritt 504 ausgeführt.
Zur Reduzierung des Energieverbrauchs kann vorgesehen sein, eine Vielzahl approximierter Multiplizierer im Hardwarebeschleuniger zu implementieren. Dies ermöglicht es, Energieersparnisse gegenüber einem Hardwarebeschleuniger mit einem Multiplizierer, der eine exakte Multiplikation ausführt, umzusetzen. Derartig implementierte approximierte Multiplizierer ermöglichen es, komplexe, vollständig-approximierter CNNs mit geringem Energieverbrauch zu implementieren.

Claims

Computerimplementiertes Verfahren zur Fehlermodellierung für ein künstliches neuronales Netzwerk (102), dadurch gekennzeichnet, dass ein erster Wert für ein Neuron einer Schicht (k) des künstlichen neuronalen Netzwerks (102) abhängig von einer ersten Rechenvorschrift (f̃) für eine erste Multiplikation eines Eingangstensors für die Schicht (k) mit Gewichten (W_k) für die Schicht (k) definiert ist, wobei ein Approximationsfehler für das Neuron abhängig von einer Differenz zwischen dem ersten Wert und einem zweiten Wert definiert ist, wobei der zweite Wert durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors mit den Gewichten (W_k) abhängig von einer von der ersten Rechenvorschrift (f̃) verschiedenen zweiten Rechenvorschrift (f) definiert ist, wobei abhängig von Trainingsdaten eine Vielzahl von Eingangstensoren (X) bereitgestellt werden (304), wobei abhängig von wenigstens einem Teil der Eingangstensoren (X) eine Vielzahl der Approximationsfehler bestimmt wird (306), wobei abhängig von wenigstens einem Teil der Eingangstensoren (X) eine Vielzahl der ersten Werte bestimmt wird (310), wobei abhängig von der Vielzahl der ersten Werte und der Vielzahl der Approximationsfehler ein Korrelationskoeffizient bestimmt wird (312), und wobei ein Fehlermodell für das Neuron abhängig von der Vielzahl der ersten Werte und dem Korrelationskoeffizient bestimmt wird (314).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Fehlermodell abhängig von einer Wahrscheinlichkeitsverteilung bestimmt wird (314), insbesondere einer Laplace-Verteilung oder einer Normalverteilung, die abhängig von einer Wahrscheinlichkeitsdichtefunktion für begrenzte Varianz und begrenzte Covarianz von Werten des Fehlermodells definiert ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für den ersten Wert abhängig vom Fehlermodell ein dritter Wert bestimmt wird (316), und wobei ein Ausgangswert der Schicht (k) abhängig vom ersten Wert und vom dritten Wert bestimmt wird (318).
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass ein erster Tensor (Ỹ) für die Schicht (k) abhängig von der ersten Rechenvorschrift (f̃), dem Eingangstensor (X) und den Gewichten (W_k) für die Schicht (k) bestimmt wird (306), wobei für wenigstens ein Neuron der Schicht (k) das Fehlermodell abhängig vom ersten Tensor (Ỹ) und abhängig von einem zweiten Tensor (Y) bestimmt wird (314), wobei der zweite Tensor (Y) durch ein Ergebnis einer zweiten Multiplikation des Eingangstensors (X) mit den Gewichten (W_k) für die Schicht (k) abhängig von der zweiten Rechenvorschrift (f) definiert ist.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die zweite Rechenvorschrift (f) für die zweite Multiplikation des Eingangstensors (X) mit den Gewichten (W_k) vorgegeben wird (302), und der der zweite Wert oder der zweite Tensor (Y) abhängig von der zweiten Rechenvorschrift (f), dem Eingangstensor (X) und den Gewichten (W_k) bestimmt wird (306).
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig von der ersten Rechenvorschrift (f̃) und der zweiten Rechenvorschrift (f) ein Maß für einen Approximationsfehler bestimmt wird (302), und entweder die erste Rechenvorschrift (f̃) für die erste Multiplikation verwendet wird, wenn das Maß für den Approximationsfehler einen Schwellwert unterschreitet, oder anderenfalls aus einer Vielzahl Rechenvorschriften eine andere Rechenvorschrift ausgewählt wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass Parameter für das künstliche neuronale Netzwerk mit einer ersten Bitlänge vorgegeben werden (302), wobei abhängig von zumindest einem Teil der Parameter linear quantisierte Parameter mit einer zweiten Bitlänge bestimmt werden, und wobei die Gewichte (W_k) oder eine Aktivierungsfunktion (φ(·)) für das Neuron abhängig von den linear quantisierten Parametern bestimmt werden (302).
Computerimplementiertes Verfahren zum Optimieren für ein künstliches neuronales Netzwerk abhängig von einer Fehlermodellierung nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass bei einer Ausführung eines Trainingsschritt (504) abhängig von wenigstens einem der Eingangstensoren (X) wenigstens eine Ausgangsgröße des künstlichen neuronalen Netzwerks (102) bestimmt wird, wobei für eine erste Ausführung des Trainingsschritts eine Vielzahl erster Parameter für das künstliche neuronale Netzwerk (102) vorgegeben wird (502), wobei die ersten Parameter die Gewichte (W_k) umfassen, wobei zweite Parameter für das künstliche neuronale Netzwerk (102) abhängig von der wenigstens einen Ausgangsgröße, die im ersten Trainingsschritt bestimmt wurde, bestimmt werden (510), wobei die zweiten Parameter für eine zweite Ausführung des Trainingsschritts vorgegeben werden (512) und wobei die zweiten Parameter die ersten Parameter zumindest teilweise ersetzen.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass geprüft wird (506), ob die wenigstens eine Ausgangsgröße eine Bedingung erfüllt, wobei wenn die Bedingung erfüllt ist, die ersten Parameter ausgegeben oder gespeichert werden (508), und anderenfalls die zweiten Parameter bestimmt und vorgegeben werden (510, 512).
Vorrichtung zur Fehlermodellierung für ein künstliches neuronales Netzwerk, dadurch gekennzeichnet, dass die Vorrichtung ausgebildet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Vorrichtung zum Optimieren eines künstlichen neuronalen Netzwerks dadurch gekennzeichnet, dass die Vorrichtung ausgebildet ist, das Verfahren nach Anspruch 8 oder 9 auszuführen.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführung durch einen Computer ein Verfahren nach einem der Ansprüche 1 bis 9 abläuft.
Computerprogrammprodukt, dadurch gekennzeichnet, dass das Computerprogrammprodukt ein computerlesbares Speichermedium umfasst, auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.