DE102017218851A1 - Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes - Google Patents
Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes Download PDFInfo
- Publication number
- DE102017218851A1 DE102017218851A1 DE102017218851.0A DE102017218851A DE102017218851A1 DE 102017218851 A1 DE102017218851 A1 DE 102017218851A1 DE 102017218851 A DE102017218851 A DE 102017218851A DE 102017218851 A1 DE102017218851 A1 DE 102017218851A1
- Authority
- DE
- Germany
- Prior art keywords
- neural network
- deep neural
- weights
- function
- distribution function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural Effects 0.000 title claims abstract description 102
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 238000005315 distribution function Methods 0.000 claims description 79
- 238000009826 distribution Methods 0.000 claims description 24
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 2
- 210000002569 neurons Anatomy 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 210000000225 Synapses Anatomy 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2R,3R,4S,5R)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound   COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 230000003044 adaptive Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/04—Architectures, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/04—Architectures, e.g. interconnection topology
- G06N3/0472—Architectures, e.g. interconnection topology using probabilistic elements, e.g. p-rams, stochastic processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/04—Architectures, e.g. interconnection topology
- G06N3/049—Temporal neural nets, e.g. delay elements, oscillating neurons, pulsed inputs
Abstract
Die Erfindung betrifft ein Verfahren (30) zur Erstellung eines tiefen neuronalen Netzes (10). Das tiefe neuronale Netz (10) weist eine Mehrzahl von Schichten (12) und Verbindungen (13) mit Gewichten auf und die Gewichte im erstellten neuronalen Netz nur vorgebbare diskrete Werte aus einer vorgebbaren Liste diskreter Werte annehmen können, umfassend die Schritte: Bereitstellen zumindest einer Trainingseingangsgröße für das tiefe neuronale Netz (10); Ermitteln einer eine Kostenfunktion charakterisierenden Größe, die eine erste Größe umfasst, die eine Abweichung einer abhängig von der bereitgestellten Trainingseingangsgröße ermittelten Ausgangsgröße des tiefen neuronalen Netzes zu einer vorgebbaren Soll-Ausgangsgröße charakterisiert, und wobei die die Kostenfunktion charakterisierende Größe ferner wenigstens eine Bestrafungsgröße umfasst, die eine Abweichung eines Wertes einer der Gewichte von wenigstens einem von zumindest zwei der vorgebbaren diskreten Werten charakterisiert; Anlernen des tiefen neuronalen Netzes (10). Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des erfindungsgemäßen Verfahrens (30) und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.
Description
- Technisches Gebiet
- Die Erfindung betrifft ein Verfahren zur Erstellung eines tiefen neuronalen Netzes, ein Computerprogramm und eine Vorrichtung, die jeweils eingerichtet sind, das Verfahren auszuführen.
- Stand der Technik
- Die
US 5,119,469 offenbart ein neuronales Netzwerksystem mit einer Vielzahl von Synapsen und einer adaptiven Gewichtsschaltung zum Einstellen der Gewichte jeder Synapse. Das neuronale Netzwerksystem wird sukzessive mit einer Serie von Trainingsdaten durch systematisches Einstellen der Gewichte zur Mustererkennung angelernt. - Vorteile der Erfindung
- Das Verfahren mit den Merkmalen des unabhängigen Anspruchs 1 hat demgegenüber den Vorteil, dass die Gewichte der Verbindungen des tiefen neuronalen Netzes derart ermittelt werden, dass diese einen vorgebbaren diskreten Wert aus einer Liste mit diskreten Werten annehmen. Durch die diskreten Werte der Gewichte des erstellten tiefen neuronalen Netzes kann eine Reduktion des benötigten Speicherplatzes zum Abspeichern des tiefen neuronalen Netzes erzielt werden. Denn die Gewichte können, beispielsweise anhand eines Indexes des diskreten Werts aus der Liste abgespeichert werden. Dadurch muss nicht mehr jeder Wert eines jeden Gewichtes einzeln mit hoher Genauigkeit abgespeichert werden, sondern es ist ausreichend, wenn jeweils nur ein Index des Wertes des Gewichts und die vorgebbare Liste mit diskreten Werten und deren Indices abgespeichert werden. Dies führt dazu, dass das erstellte tiefe neuronale Netz einen geringeren Speicherplatzbedarf aufweist. Des Weiteren wird eine Komprimierung der Darstellung des tiefen neuronalen Netzes mittels dieses Verfahrens erzielt. Denn die Werte der Gewichte des erstellten tiefen neuronalen Netzes sind nicht mehr kontinuierlich, sondern die Gewichte können nur eine gewisse Anzahl an vorgebbaren diskrete Werte annehmen. Dies führt dazu, dass das tiefe neuronale Netz durch eine geringere Anzahl an unterschiedlichen Gewichten charakterisiert wird und eine komprimierte Darstellung erzielt werden kann. Ein weiterer Vorteil des Verfahrens ist, dass durch die diskreten Werte der Gewichte die Anzahl der Rechenoperationen, insbesondere Multiplikationen, die durchgeführt werden müssen, um eine Ausgangsgröße des tiefen neuronalen Netzes zu ermitteln, unter Ausnutzung des Distributivgesetzes reduziert werden können. Da die Werte der Gewichte nur vorgebbare unterschiedliche diskrete Werte annehmen können, können die Gewichte, die den gleichen diskreten Wert aufweisen, mittels des Distributivgesetzes ausgeklammert werden, wodurch die Anzahl der Multiplikation und der Rechenaufwand zur Ermittlung des Ergebnisses signifikant reduziert werden können.
- Offenbarung der Erfindung
- In einem ersten Aspekt betrifft die Erfindung ein Verfahren zur Erstellung eines tiefen neuronalen Netzes. Das tiefe neuronale Netz weist eine Mehrzahl von Schichten und Verbindungen mit Gewichten auf. Die Gewichte im erstellten tiefen neuronalen Netz können nur vorgebbare diskrete Werte aus einer vorgebbaren Liste diskreter Werte annehmen. Das Verfahren umfasst die folgenden Schritte:
- - Bereitstellen zumindest einer Trainingseingangsgröße für das tiefe neuronale Netz.
- - Ermitteln einer eine Kostenfunktion charakterisierenden Größe. Die die Kostenfunktion charakterisierende Größe umfasst dabei eine erste Größe, die eine Abweichung einer abhängig von der bereitgestellten Trainingseingangsgröße ermittelten Ausgangsgröße des tiefen neuronalen Netzes zu einer vorgebbaren Soll-Ausgangsgröße charakterisiert. Ferner umfasst die die Kostenfunktion charakterisierende Größe wenigstens eine Bestrafungsgröße, die eine Abweichung eines Wertes einer der Gewichte von wenigstens einem von zumindest zwei der vorgebbaren diskreten Werten charakterisiert.
- - Anlernen des tiefen neuronalen Netzes derart, dass das tiefe neuronale Netz abhängig von der Trainingseingangsgröße des tiefen neuronalen Netzes ein Objekt detektiert. Beim Anlernen des tiefen neuronalen Netzes wird wenigstens ein Wert eines der Gewichte abhängig von der die Kostenfunktion charakterisierenden Größe angepasst.
- - Abbilden der Werte der Gewichte auf jeweils einen in der vorgebbaren Liste enthaltenen diskreten Wert. Der Vorteil dieses Verfahrens ist, dass anhand der diskreten Werte der Gewichte das erzeugte tiefe neuronale Netz komprimiert gespeichert werden kann und dass die Rechenoperationen zur Ermittlung der Ausgangsgröße des tiefen neuronalen Netzes effizient durchgeführt werden können.
- Die vorgebbare Liste diskreter Werte kann eine Liste mit einer Mehrzahl von vorgebbaren diskreten Werten sein, wobei jedem Eintrag der Liste ein Index zugeordnet ist. Unter einem Abbilden der Werte auf jeweils einen diskreten Wert wird verstanden, dass einem jeden Gewicht abhängig von dessen Wert und den vorgebbaren diskreten Werten der vorgebbaren Liste diskreter Werte ein Wert aus der vorgebbaren Liste diskreter Werte zugeordnet wird. Wenn Beispielsweise der Wert eines der Gewichte innerhalb eines vorgebbaren Toleranzbereichs um einen der zumindest zwei vorgebbaren diskreten Werten liegt, wird als Wert dieses Gewichtes derjenige vorgebbare diskrete Wert, innerhalb dessen Toleranzbereichs der Wert des Gewichtes liegt, zugeordnet, insbesondere als Wert zugehörig zu diesem Gewicht gespeichert. Die Toleranzbereiche der jeweiligen zumindest zwei vorgebbaren diskreten Werte überschneiden sich vorzugsweise nicht. Andernfalls wäre optional ein Auswahlmechanismus vorzusehen, der aufgrund der Toleranzbereiche denjenigen zulässigen diskreten Wert auswählt, der dem Gewicht zugeordnet werden kann.
- Unter einem Objekt kann hierbei ein in der Trainingseingangsgröße codiertes Merkmal verstanden werden, welches von dem tiefen neuronalen Netz dekodiert und genutzt werden kann, um das Objekt in der Trainingseingangsgröße zu detektieren.
- Besonders vorteilhaft ist, wenn die Bestrafungsgröße eine Abweichung einer a-Posteriori-Verteilungsfunktion eines der Gewichte von einer a-Priori-Verteilungsfunktion der vorgebbaren diskreten Werte dieses Gewichtes charakterisiert. Dabei kann die a-Priori-Verteilungsfunktion eine angenommene Verteilungsfunktion der vorgebbaren diskreten Werte eines Gewichtes oder von allen Gewichten sein bevor die Trainingsgröße gesehen wurde. Eine Verteilungsfunktion kann beispielsweise die Auftrittswahrscheinlichkeitsverteilung der jeweiligen möglichen Werte eines der Gewichte charakterisieren. Die a-Posteriori-Verteilungsfunktion gibt dabei die Verteilung der Werte eines der Gewichte an und kann, insbesondere initial, beliebig gewählt werden, da diese während des Anlernens des tiefen neuronalen Netzes angepasst wird. Die genaue Form der a-Posteriori-Verteilungsfunktion ergibt sich nach dem Anlernen unter Verwendung der Trainingsgröße.
- Ebenfalls besonders vorteilhaft ist, wenn die a-Priori-Verteilungsfunktion für eine vorgebbare Untermenge der Gewichte des neuronalen Netzes abhängig von einer Topologie eines mit dieser vorgebbaren Untermenge assoziierten Teils des tiefen neuronalen Netzes gewählt wird. Der assoziierte Teil des tiefen neuronalen Netzes sind diejenigen Schichten und Verbindungen, denen die Gewichte aus der Untermenge zugeordnet sind. Dies weist den Vorteil auf, dass, wenn mehrere Gewichte zu einem Filter zusammengefasst werden können, diesen Gewichten die gleiche a-Priori-Verteilungsfunktion zugeordnet werden kann. Aus bereits bekannten erstellten tiefen neuronalen Netzen kann eine Information über die Verteilung der Gewichtwerte wiederverwendet werden. Daraus können z.B. a-Priori-Verteilungsfunktionen abgeleitet werden, die den Filtern zugeordnet werden, wodurch beispielsweise Filter einfacher und schneller gelernt werden können und das Anlernen gezielter durchgeführt werden kann. Ein weiterer Vorteil ist, dass durch die Verwendung derselben a-Priori-Verteilungsfunktion für die Untermenge, wirksamer redundante Filter bzw. Gewichte entfernt werden können, da diese anhand der gleichen a-Priori-Verteilungsfunktion einen ähnlichen diskreten Wert nach dem Anlernen aufweisen können.
- Weiterhin ist es besonders vorteilhaft, wenn die Bestrafungsfunktion eine gewichtete Aufsummierung von ermittelten Abweichungen charakterisiert. Es wird jeweils eine Abweichung der a-Posteriori-Verteilungsfunktion eines der Gewichte zu der a-Priori-Verteilungsfunktion an jeweils einer Position, die jeweils einem der vorgebbaren diskreten Werte zugeordnet ist, ermittelt und diese Abweichung wird anhand einer Gewichtungsfunktion, die diesem jeweiligen vorgebbaren diskreten Wert zugeordnet ist, gewichtet.
- Zugeordnet kann insbesondere bedeuten, dass die Gewichtungsfunktion um diesen jeweiligen vorgebbaren diskreten Wert zentriert ist. Beispielsweise kann die Gewichtungsfunktion, insbesondere eine Gaußglockenkurve, symmetrisch um den jeweiligen vorgebbaren diskreten Wert zentriert sein. Damit kann die Abweichung der a-Priori-Verteilungsfunktion zu der a-Posteriori-Verteilungsfunktion stückweise ermittelt werden und anschießend die ermittelten Abweichungen geeignet gewichtet und überlagert werden, wodurch die Abweichung der zwei Verteilungsfunktionen zuverlässig angenähert wird.
- Vorteilhaft ist, wenn die ermittelten Abweichungen jeweils eine ermittelte Abweichung der a-Posteriori-Verteilungsfunktion zu einer Log-Uniform-Verteilungsfunktion ist und diese ermittelte Abweichung an jeweils eine der Positionen einer der zumindest zwei vorgebbaren diskreten Werten verschobenen wird und anhand der Gewichtungsfunktion, die diesem jeweiligen vorgebbaren diskreten Wert zugeordnet ist, gewichtet wird.
- Ebenso vorteilhaft ist, wenn eine der ermittelten Abweichungen anhand von einem vorgebbaren Wert, insbesondere dem Wert „1“, abzüglich der Summe der jeweiligen Gewichtungsfunktionen gewichtet wird. Dies hat den Vorteil, dass die ermittelten Abweichungen auch in großer Entfernung zu den ermittelten Abweichungen der anderen vorgebbaren diskreten Werten, eine zuverlässige Approximierung durchgeführt werden kann.
- Weiterhin ist es vorteilhaft, wenn eine Abweichung der a-Posteriori-Verteilungsfunktion von der a-Priori-Verteilungsfunktion anhand von einer Approximation einer Kullback-Leibler Divergenz zwischen der a-Posteriori-Verteilungsfunktion und der a-Priori-Verteilungsfunktion ermittelt wird.
- In einer weiteren Ausführungsform des Verfahrens, kann beim Anlernen des tiefen neuronalen Netzes eine der a-Posteriori-Verteilungsfunktionen abhängig von der Kostenfunktion angepasst werden, wobei das Gewicht, welches durch die angepasste a-Posteriori-Verteilungsfunktion charakterisiert wird, abhängig von der angepassten a-Posteriori-Verteilungsfunktion angepasst wird.
- Ebenso kann in einer weiteren Ausführungsform des Verfahrens zumindest einer der zumindest zwei vorgebbaren diskreten Werte der Wert „0“ sein. Vorteilhaft ist, wenn die Gewichte, die nach dem Anlernen des tiefen neuronalen Netz auf den diskreten Wert „0“ abgebildet wurden, entfernt werden. Dies hat den Vorteil, dass nach dem Anlernen des tiefen neuronalen Netzes diese Gewichte ohne Beeinträchtigung der Leistungsfähigkeit des tiefen neuronalen Netzes entfernt werden können und damit eine zusätzliche Komprimierung des tiefen neuronalen Netzes, aber auch eine zusätzliche Reduktion des Rechenaufwands und des Speicherplatzbedarfs erreicht werden kann.
- Vorteilhaft ist, wenn die a-Posteriori-Verteilungsfunktionen anhand jeweils einer Normalverteilung charakterisiert ist.
- Weiterhin ist es vorteilhaft, wenn die Abfolge der Schritte des Ermittelns der die Kostenfunktion charakterisierenden Größe und des Anlernens des tiefen neuronalen Netzes mehrfach wiederholt wird, bis ein Abbruchkriterium erfüllt ist. Das Abbruchkriterium kann zum Beispiel eine vorgebbare Anzahl an Wiederholungen der Abfolge der Schritte sein. Optional kann als Abbruchkriterium definiert sein, dass die die Kostenfunktion charakterisierende Größe kleiner als eine vorgebbare Größe sein muss und/oder die Gewichte jeweils einen Wert der zumindest zwei vorgebbaren diskreten Werten angenommen haben bzw. sich innerhalb eines vorgebbaren Bereichs um einen der zumindest zwei vorgebbaren diskreten Werte befinden.
- Vorteilhaft ist auch, wenn eine jede Schicht jeweils einen Schwellenwert aufweist, wobei die Bestrafungsgröße zusätzlich eine Abweichung eines Schwellenwertes von wenigstens weiteren zumindest zwei vorgebbaren diskreten Werten charakterisiert, wobei beim Anlernen des tiefen neuronalen Netzes, einer der Schwellenwerte abhängig von der die Kostenfunktion charakterisierenden Größe angepasst wird. Unter einem Schwellenwert wird ein Wert verstanden, welcher eine Übertragungsfunktion der Neuronen dieser Schicht charakterisiert. Die Übertragungsfunktion ermittelt abhängig von einer Eingangsgröße und einer vorgebbaren Funktion eine Ausgangsgröße. Dabei können die oben genannten unterschiedlichen Ausführungsformen des Verfahrens auch für die Anpassung der Schwellenwerte der Schichten zu diskreten Schwellenwerten beim Erstellen des tiefen neuronalen Netzes verwendet werden. Hierfür muss nur das Wort „Gewicht“ aller oben genannten Verfahrensschritte mit dem Wort „Schwellenwert“ ausgetauscht werden.
- In einer vorteilhaften Weiterentwicklung des Verfahrens, wird nach dem Anlernen des tiefen neuronalen Netzes, eine Eingangsgröße des tiefen neuronalen Netzes ermittelt. Ein Objekt wird dann mittels des angelernten tiefen neuronalen Netzes abhängig von der ermittelten Eingangsgröße detektiert und vorteilhafterweise wird eine zumindest teilautonome Maschine anschließend abhängig von dem detektierten Objekt angesteuert. Eine zumindest teilautonome Maschine kann zum Beispiel ein Roboter, insbesondere ein Fahrzeug, sein. Denkbar ist auch, dass das Verfahren verwendet werden kann, um tiefe neuronale Netze zu erstellen, die auf einer mobilen Recheneinheit betrieben werden können. Eine mobile Recheneinheit, insbesondere Mobiltelefone oder Kameras, sind durch einen limitierten Speicherplatz, begrenzte Rechenleistung und eingeschränkter Energieversorgung, gekennzeichnet. Das tiefe neuronale Netz kann neben der Objektdetektion alternativ zum Beispiel zur Klassifikation, semantische Segmentierung oder Regression erstellt, angelernt und/oder verwendet werden.
- In einem weiteren Aspekt betrifft die Erfindung ein Computerprogramm, welches Befehle umfasst, die beim Ausführen auf einem Computer bewirken, dass eines der oben genannten Verfahren ausgeführt wird und ferner ein maschinenlesbares Speicherelement, auf welchem das Computerprogramm gespeichert ist.
- In einem weiteren Aspekt betrifft die Erfindung eine Vorrichtung, die eingerichtet ist, jeden Schritt eines der Verfahren auszuführen.
- Ausführungsbeispiele der vorliegenden Erfindung sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
- Figurenliste
-
-
1 eine schematische Darstellung eines Systems mit einem tiefen neuronalen Netz zur Detektion eines Objektes; -
2A eine schematische Darstellung einer a-Priori-Verteilungsfunktion, die eine Mehrzahl von vorgebbaren diskreten Werte charakterisiert; -
2B eine schematische Darstellung einer a-Posteriori-Verteilungsfunktion eines Gewichts; -
3 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Verfahrens; -
4 eine schematische Darstellung der Verteilung und zeitlichen Entwicklung der Werte der Gewichte beim Anlernen eines beispielhaft verwendeten tiefen neuronalen Netzes mit zwei vollvermaschten Schichten und zwei Faltungsschichten. -
1 zeigt eine schematische Darstellung einer Ausführungsform eines Systems (01 ) zur Detektion eines Objektes und zur Ansteuerung einer zumindest teilautonomen Maschine abhängig vom detektieren Objekt. Das System (01 ) umfasst eine Mehrzahl von in Reihe miteinander verbundenen Komponenten (14 ,10 ,15 ). Die Komponente (14 ) ist eine Erfassungseinheit, welche eine Eingangsgröße für das tiefe neuronale Netz (10 ) erfasst und diese dem tiefen neuronalen Netz (10 ) bereitstellt. Der Ausgang des tiefen neuronalen Netzes (10 ) ist mit einer Steuereinheit (15 ) verbunden. Die Steuereinheit (15 ) ist dafür eingerichtet, abhängig von der Ausgangsgröße des tiefen neuronalen Netzes (10 ) eine Steuergröße zu ermitteln, um damit beispielsweise einen Roboter, insbesondere ein Fahrzeug, zu steuern. Des Weiteren umfasst das System (01 ) eine Recheneinheit (16 ), welche ein Speicherelement (17 ) aufweist. Die Recheneinheit (16 ) kann mit dem tiefen neuronalen Netz (10 ) verbunden sein. - Das tiefe neuronale Netz (
10 ) besteht aus einer Mehrzahl von Schichten (12 ), die jeweils eine Mehrzahl von Neuronen (11 ) umfassen. Die Neuronen (11 ) besitzen jeweils wenigstens einen Eingang und einen Ausgang. Das Neuron ermittelt eine Ausgangsgröße abhängig von einer Übertragungsfunktion, insbesondere einer parametrisierbaren ReLu-Funktion oder einer Sigmoidfunktion, und der Eingangsgröße des Neuron (11 ). Die Neuronen einer vorgebbaren Schicht (12 ) sind mittels Verbindungen (13 ) mit den Neuronen einer nachfolgenden Schicht verbunden. Beispielsweise können die Ausgänge jedes der Neuronen der vorgebbaren Schicht (12 ) mit allen Eingängen der Neuronen (11 ) der unmittelbar nachfolgenden Schicht verbunden sein, wie dies in1 im rechten Teil des tiefen neuronalen Netz (10 ) schematisch dargestellt ist und im Folgenden als vollvermaschte Schicht (englisch: „fully connected“) bezeichnet wird. Denkbar ist aber auch, dass nicht jeder Ausgang eines Neurons einer Schicht mit jedem Eingang eines Neurons einer der nachfolgenden Schicht verbunden ist, wie dies im linken Teil des tiefen neuronalen Netzes (10 ) dargestellt ist. Ebenso ist denkbar, dass der Ausgang eines Neurons mit einem Eingang eines Neurons einer nicht unmittelbar nachfolgenden Schicht (z.B. eine „shortcut connection/skip connection“) oder mit einer vorhergehenden Schicht verbunden ist. Es sei angemerkt, dass dies nicht in1 dargestellt ist. - Jeder Verbindung (
13 ) ist ein Gewicht zugewiesen. Mittels dieses Gewichtes, wird die Ausgangsgröße eines Neurons gewichtet und als Eingangsgröße für das nachfolgende Neuron bereitgestellt. Bevorzugt hat jedes Gewicht einen Wert zwischen einschließlich -1 und 1 und die Ausgangsgröße des Neurons wird durch eine Multiplikation mit diesem Wert gewichtet und kann dann als Eingangsgröße des mit der Verbindung (13 ) verbundenen Neurons verwendet werden. -
2A zeigt eine schematische Darstellung einer möglichen a-Priori-Verteilungsfunktion (20), welche die Auftrittswahrscheinlichkeit p(w) der vorgebbaren diskreten Werte w (21 ) beschreibt. Die a-Priori-Verteilungsfunktion (20 ) ist eine Verteilungsfunktion, welche eine getroffene Annahme über die Verteilung der Gewichtswerte beschreibt. Die Annahme kann beispielhaft sein, dass die Werte w eines Gewichts nur diskret und gleichverteilt sind. Wie in2A gezeigt, wird hier angenommen, dass das Gewicht nur 3 unterschiedliche diskrete Werte (21 ) annehmen kann und diesen jeweils eine Auftrittswahrscheinlichkeit (22 ) zugeordnet ist. In einer alternativen Ausführungsform können auch zwei oder mehr als drei unterschiedliche diskrete Werte (21 ) durch die a-Priori-Verteilungsfunktion (20 ) beschrieben werden. Vorteilhaft ist, wenn ein vorgebbarer diskreter Wert (21 ) gleich „0“ ist, welches ein einfaches Entfernen redundanter Gewichte ermöglicht. Ein Gewicht, welches den Wert „0“ annimmt, ist dabei redundant, da die Information der Eingangsgröße durch eine Multiplikation mit „0“ verloren geht. Eine Stufenbreite (23 ), d.h. eine Distanz zwischen zwei vorgebbaren diskreten Werten, kann beliebig groß gewählt werden. Die Stufenbreite (23 ) ist aber bevorzugt proportional zu einer Anzahl der verwendeten Bits zur Darstellung der vorgebbaren diskreten Werte in der Recheneinheit (16 ). - Die a-Priori-Verteilungsfunktion (
20 ) kann im Folgenden dazu verwendet werden, um das tiefe neuronale Netz (10 ) anzulernen, sodass die Werte der Gewichte, insbesondere ausschließlich, einen der vorgebbaren diskreten Werte annehmen. -
-
2B zeigt eine schematische Darstellung einer a-Posteriori-Verteilungsfunktion (24 ). Die a-Posteriori-Verteilungsfunktion (24 ) ist vorzugsweise eine Normalverteilung und kann zu Beginn des Verfahrens, insbesondere zufällig, initialisiert werden. Die a-Posteriori-Verteilungsfunktion (24 ) beschreibt die Auftrittswahrscheinlichkeitq(w) eines Wertes w eines Gewichtes. Während des Anlernens des tiefen neuronalen Netzes (10 ) kann die a-Posteriori-Verteilungsfunktion (24 ) angepasst werden, sodass sich diese einem geeigneten Wertw des Gewichtes annähert für die verwendete Trainingsgröße. Ein geeigneter Wertw eines Gewichtes ist dadurch charakterisiert, dass das tiefe neuronale Netz (10 ) anhand des geeigneten Wertesw des Gewichtes die vorgegebene Aufgabe, insbesondere einer Detektion eines Objektes in der Eingangsgröße des tiefen neuronalen Netzes (10 ), zuverlässig löst.2B zeigt eine beispielhaft initialisierte a-Posteriori-Verteilungsfunktion (25a ), welche während des Anlernens des tiefen neuronalen Netzes (10 ) angepasst wird. Diese angepasste a-Posteriori-Verteilungsfunktion (25b ) beschreibt dann die Auftrittswahrscheinlichkeitq(w) des Wertesw des Gewichts, nachdem eine Trainingsgröße zum Anlernen des tiefen neuronalen Netzes (10 ) verwendet wurde. -
3 zeigt eine schematische Darstellung eines Ablaufdiagramms einer Ausführungsform des Verfahrens (30 ) zur Erstellung eines tiefen neuronalen Netzes, bei welchem die Gewichte nach Erstellen des tiefen neuronalen Netzes einen Wert einer vorgebbaren Liste vorgebbaren diskreten Werten aufweisen. - Das Verfahren (
30 ) beginnt mit Schritt31 . In Schritt31 wird dem tiefen neuronalen Netz (10 ) eine Trainingseingangsgröße bereitgestellt. Nachdem die Trainingsgröße bereitgestellt wurde, kann optional die a-Posteriori-Verteilungsfunktion (24 ) der Gewichte, insbesondere zufällig, initialisiert werden. Ebenso kann in Schritt31 die a-Priori-Verteilungsfunktion (20 ) aufgestellt werden. Bevorzugt wird jedem Gewicht des tiefen neuronalen Netzes (10 ) jeweils eine a-Priori-Verteilungsfunktion (20 ) und eine a-Posteriori-Verteilungsfunktion (24 ) zugeordnet. Das Aufstellen der a-Priori-Verteilungsfunktion (20 ) kann beispielhaft durchgeführt werden, in dem aus bereits angelernten tiefen neuronalen Netzen beispielhaft für ähnliche Anwendungsgebiete die Verteilung der Werte der Gewichte erfasst werden, um daraus die a-Priori-Verteilungsfunktion (20 ) abzuleiten. Das Ableiten der a-Priori-Verteilungsfunktion (20 ) kann z.B. mittels einer Clusteranalyse der Gewichtswerte und einer Betrachtung der Häufigkeit des Auftretens der unterschiedlichen Gewichtswerte durchgeführt werden. Die ermittelten Clusterzentren nach der Clusteranalyse können als vorgebbare diskrete Werte genutzt werden und diesen kann jeweils eine Auftrittswahrscheinlichkeit anhand der Betrachtung der Häufigkeit des Auftretens der jeweiligen Werte zugeordnet werden, was bspw. durch die a-Priori-Verteilungsfunktion charakterisiert werden kann. Alternativ kann die a-Priori-Verteilungsfunktion (20 ) anhand einer Liste mit vorgebbaren diskreten Werten (21 ) und deren, insbesondere angenommenen oder abgeschätzten, Auftrittswahrscheinlichkeit p(w) aufgestellt werden. Alternativ kann die a-Priori-Verteilungsfunktion (20 ) beispielsweise wie oben in (Gl. 1) gezeigt, gewählt werden oder als eine Log-Uniform-Verteilungsfunktion gewählt werden. Die a-Priori-Verteilungsfunktion (20 ) kann entweder für jedes Gewicht des tiefen neuronalen Netzes (10 ) verwendet werden, oder es können mehrere unterschiedliche a-Priori-Verteilungsfunktion (20 ) für jeweils eine ausgewählte Untermenge der Gewichte des tiefen neuronalen Netzes (10 ) verwendet werden. - Nachdem Schritt
31 abgeschlossen wurde, folgt Schritt32 . In Schritt32 wird in Abhängigkeit der Gewichte und der ermittelten Ausgangsgröße des tiefen neuronalen Netzes (10 ) und einer vorgebbaren Soll-Ausgangsgröße des tiefen neuronalen Netzes (10 ) eine erste Größe einer Kostenfunktion ermittelt. - Da die Gewichte in diesem Ausführungsbeispiel des Verfahrens anhand von Verteilungsfunktionen beschrieben sind, kann zum Beispiel die erste Größe mit einer Kreuzentropie-Fehlerfunktion
LD,1 ermittelt werden:D eine richtige Soll-Ausgangsgrößey ermittelt wurde. - Zusätzlich wird zu der ersten Größe der Kostenfunktion in Schritt
32 eine Bestrafungsgröße ermittelt. Die Bestrafungsgröße charakterisiert dabei eine Abweichung eines Wertes einer der Gewichte von wenigstens einem der vorgebbaren diskreten Werte. Da die Gewichte in diesem Ausführungsbeispiel anhand von Verteilungsfunktion beschrieben werden, kann die Bestrafungsgröße vorzugsweise mittels einer Kullback-Leibler (KL ) Divergenz ermittelt werden. Diese kann beispielsweise mit folgender Formel dargestellt werden:KL Divergenz zwischen der a-Posteriori- Verteilungsfunktionq(w) und der a-Priori-Verteilungsfunktionq(w) ist. - Denkbar ist auch, dass die Bestrafungsgröße durch eine andere mathematische Operation, wie z.B. durch ein mathematisches Distanzmaß (wie u.a. eine Euklidische Distanz) eine Abweichung der Werte der Gewichte zu vorgebbaren diskreten Werten bestimmt wird und/oder mehrere, vornehmlich unterschiedliche, Bestrafungsgrößen ermittelt werden.
- Abhängig von der Wahl der a-Priori-Verteilungsfunktion (
20 ), besitzt die Bestrafungsgröße keine analytisch geschlossene Lösung, diese kann aber approximiert werden. - Wenn die a-Priori-Verteilungsfunktion (
20 ) die Struktur nach (Gl. 1) aufweist und die Abweichung zwischen den beiden Verteilungsfunktionen ermittelt werden soll, kann z.B. dieKL Divergenz geeignet approximiert werden, um die Abweichung zu ermitteln. Die Approximation derKL Divergenz nach (Gl. 3) mit der a-Posteriori-Verteilungsfunktionp(w) nach (Gl. 1) kann mit den nachfolgenden Schritten durchgeführt werden. - Zuerst kann eine Abweichung der a-Posteriori-Verteilungsfunktion (
24 ) zu einer Log-Uniform-Verteilungsfunktion ermittelt werden, beispielsweise mit einer KL-Divergenz zwischen diesen zwei Verteilungsfunktionen. Die Log-Uniform-Verteilungsfunktion kann verwendet werden, da zur Abweichung der Log-Uniform-Verteilungsfunktion zu der a-Posteriori-Verteilungsfunktion (24 ) Verfahren in der Literatur bekannt sind, wie z.B. ein Monte-Carlo-Sampling. Anschließend kann die ermittelte Abweichung an die Position der jeweiligen diskreten Werte verschoben werden. Diese verschobenen Abweichungen stellen dabei jeweils eine stückweise ermittelte Abweichung der gesamten Abweichung der a-Priori-Verteilungsfunktion (20 ) zu der a-Posteriori-Verteilungsfunktion (24 ) dar. Danach wird jede verschobene Abweichung mittels einer Gewichtungsfunktion, insbesondere einer Gaußglockenfunktion, die um die Position des vorgebbaren diskreten Werts zentriert ist, gewichtet. Nach der Gewichtung mit der jeweiligen Gewichtungsfunktion der einzelnen Abweichungen, werden diese nach einer vorgebbaren Gewichtung gewichtet aufsummiert. Bevorzugt wird für die vorgebbare Gewichtung der Erwartungswert der a-Posteriori-Verteilungsfunktion (24 ) gewählt. Diese gewichtete Summation der einzelnen Abweichungen entspricht einer approximiertenKL Divergenz der a-Priori-Verteilungsfunktion (20 ) und der a-Posteriori-Verteilungsfunktion (24 ) nach (Gl. 3). - Um die Approximation der
KL Divergenz mit einer höheren Genauigkeit durchzuführen, kann zum Beispiel eine der Gewichtungsfunktion einer ermitteltenKL Divergenz anderweitig gewählt werden. Bevorzugt hat diese Gewichtungsfunktion die Struktur, dass von einem vorgebbaren Wert, insbesondere „1“, die Summe der verwendeten Gewichtungsfunktion abgezogen wird. - Nachdem die
KL Divergenz ermittelt wurde, wird eine Summation der ersten Größe nach (Gl. 2) und der Bestrafungsgröße nach (Gl. 3) durchgeführt. Diese Summation stellt dann eine die Kostenfunktion charakterisierende Größe dar. Denkbar ist aber auch, dass die erste Größe nach (Gl. 2) und die Bestrafungsgröße nach (Gl. 3) durch andere mathematische Operationen miteinander verknüpft werden können. Wenn mehrere Bestrafungsgrößen ermittelt wurden, können diese ebenfalls in der die Kostenfunktion charakterisierende Größe berücksichtig werden. - Wenn Schritt
32 mit der Ermittlung der die Kostenfunktion charakterisierenden Größe beendet wurde, folgt Schritt33 . In Schritt33 wird das tiefe neuronale Netz (10 ) angelernt. Beim Anlernen des tiefen neuronalen Netzes (10 ) werden die Werte der Gewichte ermittelt, sodass das tiefe neuronale Netz (10 ) beispielhaft Objekte in der Eingangsgröße des tiefen neuronalen Netzes (10 ) detektieren kann. Dabei werden, abhängig von der die Kostenfunktion charakterisierenden Größe, die Werte der Gewichte angepasst, sodass das tiefe neuronale Netz (10 ) Objekte detektieren kann. Bevorzugt wird mit einem Optimierungsverfahren, insbesondere einem Gradientenabstiegsverfahren, eine Änderungsgröße der Gewichte ermittelt, sodass nach Berücksichtigung der Änderungsgröße bei zumindest einer Mehrzahl der Gewichte, die die Kostenfunktion charakterisierende Größe minimiert wird. Denkbar ist auch, dass die a-Posteriori-Verteilungsfunktion abhängig von der die Kostenfunktion charakterisierenden Größe angepasst wird und die Werte der Gewichte abhängig von der angepassten a-Posteriori-Verteilungsfunktion (24 ) angepasst werden, insbesondere durch Verwenden des Erwartungswertes der a-Posteriori-Verteilungsfunktion (24 ) als angepassten Wert des Gewichtes. Wenn die a-Posteriori-Verteilungsfunktion (24 ) eine Normalverteilung ist, kann abhängig von der ermittelten Änderungsgröße, der Erwartungswert und die Standardabweichung der Normalverteilung angepasst werden. Durch Anpassung des Erwartungswertes und der Standardabweichung der Normalverteilung, kann diese nach Verwendung der Trainingsgröße zum Anlernen des tiefen neuronalen Netzes (10 ) die Auftrittswahrscheinlichkeiten geeigneter Werte dieses Gewichts beschreiben. - Nach Schritt
33 wird Schritt34 eingeleitet. In Schritt34 werden die Werte der Gewichte abgespeichert. Wenn der Wert eines der Gewichte einen Wert ähnlich zu einem vorgebbaren diskreten Wert aus der Liste diskreter Werte aufweist, wird der diskrete Wert aus der Liste diskreter Werte als Wert dieses Gewichts abgespeichert. Unter ähnlich wird verstanden, dass, wenn der Wert eines der Gewichte näher zu einem von zwei vorgebbaren diskreten Werten liegt, der Wert dieses Gewichtes ähnlich zu dem näher liegenden diskreten Wert ist. Wenn der Wert eines der Gewichte nur einen vorgebbaren diskreten Wert als nächstliegenden Wert aufweist, kann dieser ähnlich zu diesem vorgebbaren diskreten Wert sein. - Bevorzugt wird der diskrete Wert des Gewichtes in Form eines Indexes des diskreten Wertes gespeichert, wobei jedem vorgebbaren diskreten Wert aus der Liste diskreter Werte ein Index zugeordnet ist. Dadurch kann die Speicherung des Wertes dieses Gewichtes durch die Abspeicherung des Indexes durchgeführt werden. Damit muss nur die Liste mit diskreten Werten mit einer hohen Genauigkeit abgespeichert werden, während die Werte der Gewichte in Form eines Indexes mit geringen Speicheraufwand abgespeichert werden können.
- In einem weiteren Ausführungsbeispiel des Verfahrens (
30 ) ist denkbar, dass nach Beendigung des Schrittes34 ein nachfolgender Schritt eingeleitet wird. In diesem nachfolgenden Schritt kann mittels der Erfassungseinheit (14 ) eine Eingangsgröße dem tiefen neuronalen Netz (10 ) bereitgestellt werden. Anschließend wird in diesem Schritt mittels des tiefen neuronalen Netzes (10 ) in Abhängigkeit der bereitgestellten Eingangsgrößen und den Gewichten eine Ausgangsgröße ermittelt. Diese Ausgangsgröße kann von der Steuerungseinheit (15 ) verwendet werden, um eine Steuerungsgröße zu ermitteln. Mit dieser Steuerungsgröße kann zum Beispiel ein Roboter, insbesondere ein Fahrzeug, angesteuert werden. - Nachdem das Verfahren (
30 ) mit dem Schritt34 abgeschlossen wurde, kann in einem weiteren Ausführungsbeispiel das Verfahren (30 ) zyklisch wieder mit einem der Schritte31 ,32 oder Schritt33 eingeleitet werden. Alternativ kann auch die Abfolge der Schritte31 ,32 ,33 zyklisch durchgeführt werden, bis ein vorgebbares Abbruchkriterium erfüllt ist. Anschließend kann Schritt34 ausgeführt werden. - In einer weiteren alternativen Ausführungsform des Verfahrens (
30 ) kann alternativ die Initialisierung der a-Posteriori-Verteilungsfunktion (24 ) auf Basis eines bereits erstellten tiefen neuronalen Netzes durchgeführt werden. Beispielsweise kann die Verteilung der Werte der Gewichte des bereits erstellten tiefen neuronalen Netz verwendet werden, um daraus zumindest eine geeignete a-Posteriori-Verteilungsfunktion eines der Gewichte abzuleiten. Dies hat den vorteilhaften Effekt, dass beim, insbesondere erneuten, Anlernen des, insbesondere bereits erstellten, tiefen neuronalen Netzes mit dieser a-Posteriori-Verteilungsfunktion, nach Durchführung der oben genannten Schritte des Verfahrens (30 ) ein komprimiertes tiefes neuronales Netz vorliegen kann. -
4 zeigt eine schematische Darstellung einer Verteilung und einer zeitlichen Entwicklung der Werte aller Gewichte beim Verwenden des Verfahrens des Ausführungsbeispiels zur Erstellung eines tiefen neuronalen Netzes mit vier Schichten. Zwei der Schichte sind vollvermaschte Schichten (dense_1 ,dense_2 ) und die restlichen Schichten sind Faltungsschichten (conv_1 ,conv_2 ). Die oberen vier Diagramme (40 ) zeigen dabei jeweils auf derx -Achse den Wertw der Gewichte der jeweiligen Schicht und auf dery -Achse ist die Bestrafungsgröße, in4 als „loss“ bezeichnet, eingetragen. Der „loss“ gibt hierbei einen Wert der Bestrafungsgröße abhängig von dem Wertw des Gewichtes an. Für jeden der drei vorgebbaren diskreten Werte (-0.2,0,0.2) ist jeweils in grau der Verlauf einer stückweise ermittelten und mit einer Gewichtungsfunktion gewichtetenKL Divergenz (41 ) nach Schritt32 dargestellt. Je weiter der Wert des Gewichtes von einem vorgebbaren diskreten Wert (-0,2,0,0,2) entfernt ist, desto größer wird der Wert der Bestrafungsgröße. Ebenso sind in den Diagrammen (40 ,43 ) durch die gewichtete Überlagerung der verschobenenKL Divergenzen (41 ) in grau ein möglicher Verlauf der Bestrafungsgröße entlang des Wertesw der Gewichte eingezeichnet. Die einzelnen Werte der Gewichte sind jeweils durch Punkte (42 ) in die oberen vier Diagramme (40 ) eingetragen. Da diese Diagramme nach der Initialisierung des tiefen neuronalen Netzes (10 ) aufgenommen wurden und dieses zufällig initialisiert wurde, sind die Werte der Gewichte zufällig verteilt. Nachdem das Verfahren ausgeführt wurde, sind die unteren vier Diagramme (43 ) aufgenommen worden. Wie in4 dargestellt, zeigen die unteren vier Diagramme (43 ), dass die Werte der Gewichte die vorgebbaren diskreten Werte (-0,2,0,0,2) annehmen. - ZITATE ENTHALTEN IN DER BESCHREIBUNG
- Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
- Zitierte Patentliteratur
-
- US 5119469 [0002]
Claims (14)
- Verfahren (30) zur Erstellung eines tiefen neuronalen Netzes (10), wobei das tiefe neuronale Netz (10) eine Mehrzahl von Schichten (12) und Verbindungen (13) mit Gewichten aufweist, und die Gewichte im erstellten tiefen neuronalen Netz nur vorgebbare diskrete Werte aus einer vorgebbaren Liste diskreter Werte annehmen können, umfassend die Schritte: - Bereitstellen zumindest einer Trainingseingangsgröße für das tiefe neuronale Netz (10); - Ermitteln einer eine Kostenfunktion charakterisierenden Größe, wobei die die Kostenfunktion charakterisierende Größe eine erste Größe umfasst, die eine Abweichung einer abhängig von der bereitgestellten Trainingseingangsgröße ermittelten Ausgangsgröße des tiefen neuronalen Netzes zu einer vorgebbaren Soll-Ausgangsgröße charakterisiert, und wobei die die Kostenfunktion charakterisierende Größe ferner wenigstens eine Bestrafungsgröße umfasst, die eine Abweichung eines Wertes eines der Gewichte von wenigstens einem von zumindest zwei der vorgebbaren diskreten Werte charakterisiert; - Anlernen des tiefen neuronalen Netzes (10) derart, dass das tiefe neuronale Netz (10) abhängig von der Trainingseingangsgröße des tiefen neuronalen Netzes (10) ein Objekt detektiert, wobei beim Anlernen des tiefen neuronalen Netzes wenigstens ein Wert eines der Gewichte abhängig von der die Kostenfunktion charakterisierenden Größe angepasst wird; und - Abbilden der Werte der Gewichte auf jeweils einen in der vorgebbaren Liste enthaltenen diskreten Wert.
- Verfahren nach
Anspruch 1 , wobei die Bestrafungsgröße eine Abweichung einer a-Posteriori-Verteilungsfunktion (24) eines der Gewichte von einer a-Priori-Verteilungsfunktion (20) der vorgebbaren diskreten Werte dieses Gewichtes, charakterisiert. - Verfahren nach
Anspruch 2 , wobei die a-Priori-Verteilungsfunktion (24) für eine vorgebbare Untermenge der Gewichte des neuronalen Netzes (10) abhängig von einer Topologie eines mit dieser vorgebbaren Untermenge assoziierten Teils des tiefen neuronalen Netzes (10) gewählt wird. - Verfahren nach einem der
Ansprüche 2 oder3 , wobei die Bestrafungsfunktion eine gewichtete Aufsummierung von ermittelten Abweichungen charakterisiert, wobei jeweils eine Abweichung der a-Posteriori-Verteilungsfunktion (24) eines der Gewichte zu der a-Priori-Verteilungsfunktion (20) an jeweils einer Position, die jeweils einem der vorgebbaren diskreten Werte zugeordnet ist, ermittelt wird und diese ermittelte Abweichung anhand einer Gewichtungsfunktion gewichtet wird, die diesem jeweiligen vorgebbaren diskreten Wert zugeordnet ist. - Verfahren nach
Anspruch 4 , wobei die ermittelten Abweichungen jeweils eine ermittelte Abweichung der a-Posteriori-Verteilungsfunktion zu einer Log-Uniform-Verteilungsfunktion ist, wobei diese ermittelte Abweichung an jeweils eine der Positionen einer der zumindest zwei vorgebbaren diskreten Werten verschobenen wird und anhand der Gewichtungsfunktion, die diesem jeweiligen vorgebbaren diskreten Wert zugeordnet ist, gewichtet wird. - Verfahren nach einem der
Ansprüche 4 oder5 , wobei eine der ermittelten Abweichungen anhand von einem vorgebbaren Wert abzüglich der Summe der jeweiligen Gewichtungsfunktionen gewichtet wird. - Verfahren nach einem der
Ansprüche 2 bis6 , wobei die Abweichung der a-Posteriori-Verteilungsfunktion von der a-Priori-Verteilungsfunktion anhand von einer Approximation einer Kullback-Leibler Divergenz zwischen der a-Posteriori-Verteilungsfunktion und der a-Priori-Verteilungsfunktion, ermittelt wird. - Verfahren nach einem der
Ansprüche 2 bis7 , wobei beim Anlernen des tiefen neuronalen Netzes eine der a-Posteriori-Verteilungsfunktionen abhängig von der Kostenfunktion angepasst wird, wobei das Gewicht, welches durch die angepasste a-Posteriori-Verteilungsfunktion charakterisiert wird, abhängig von der angepassten a-Posteriori-Verteilungsfunktion angepasst wird. - Verfahren nach einem der vorherigen Ansprüche, wobei einer der zumindest zwei der vorgebbaren diskreten Werte der Wert „0“ ist.
- Verfahren nach einem der vorherigen Ansprüche, wobei nach dem Anlernen des tiefen neuronalen Netzes (10), eine Eingangsgröße des tiefen neuronalen Netzes (10) ermittelt wird; ein Objekt mittels des angelernten tiefen neuronalen Netzes (10) abhängig von der ermittelten Eingangsgröße detektiert wird.
- Verfahren nach
Anspruch 10 , wobei eine zumindest teilautonome Maschine abhängig von dem detektierten Objekt angesteuert wird. - Computerprogramm, welches Befehle umfasst, die beim Ausführen auf einem Computer bewirken, dass jeder Schritt des Verfahrens nach einem der
Ansprüche 1 bis11 ausgeführt wird. - Maschinenlesbares Speicherelement (17), welches das Computerprogramm nach
Anspruch 12 umfasst. - Vorrichtung, welche eingerichtet ist, das Verfahren nach einem der
Ansprüche 1 bis11 auszuführen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017218851.0A DE102017218851A1 (de) | 2017-10-23 | 2017-10-23 | Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017218851.0A DE102017218851A1 (de) | 2017-10-23 | 2017-10-23 | Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes |
PCT/EP2018/077995 WO2019081241A1 (de) | 2017-10-23 | 2018-10-15 | Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes |
CN201880068733.5A CN111226234A (zh) | 2017-10-23 | 2018-10-15 | 用于创建深度神经网络的方法、设备和计算机程序 |
KR1020207014397A KR20200069360A (ko) | 2017-10-23 | 2018-10-15 | 딥신경망 조성을 위한 방법 및 장치, 그리고 컴퓨터 프로그램 |
EP18789057.9A EP3701433A1 (de) | 2017-10-23 | 2018-10-15 | Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes |
US16/757,186 US20200342315A1 (en) | 2017-10-23 | 2018-10-15 | Method, device and computer program for creating a deep neural network |
JP2020522718A JP7044873B2 (ja) | 2017-10-23 | 2018-10-15 | ディープニューラルネットワークを作成するための方法、装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102017218851A1 true DE102017218851A1 (de) | 2019-04-25 |
Family
ID=63896128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102017218851.0A Pending DE102017218851A1 (de) | 2017-10-23 | 2017-10-23 | Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200342315A1 (de) |
EP (1) | EP3701433A1 (de) |
JP (1) | JP7044873B2 (de) |
KR (1) | KR20200069360A (de) |
CN (1) | CN111226234A (de) |
DE (1) | DE102017218851A1 (de) |
WO (1) | WO2019081241A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021222136A1 (en) * | 2020-04-28 | 2021-11-04 | Nvidia Corporation | Model predictive control techniques for autonomous systems |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5119469A (en) | 1989-05-17 | 1992-06-02 | United States Of America | Neural network with weight adjustment based on prior history of input signals |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3817866B2 (ja) * | 1996-11-07 | 2006-09-06 | 富士ゼロックス株式会社 | データ変換装置およびその係数決定装置 |
US10417525B2 (en) * | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
JP6600271B2 (ja) * | 2016-03-31 | 2019-10-30 | 株式会社デンソー | 物体認識装置及び物体認識方法 |
-
2017
- 2017-10-23 DE DE102017218851.0A patent/DE102017218851A1/de active Pending
-
2018
- 2018-10-15 US US16/757,186 patent/US20200342315A1/en active Pending
- 2018-10-15 KR KR1020207014397A patent/KR20200069360A/ko active Search and Examination
- 2018-10-15 WO PCT/EP2018/077995 patent/WO2019081241A1/de unknown
- 2018-10-15 JP JP2020522718A patent/JP7044873B2/ja active Active
- 2018-10-15 EP EP18789057.9A patent/EP3701433A1/de active Pending
- 2018-10-15 CN CN201880068733.5A patent/CN111226234A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5119469A (en) | 1989-05-17 | 1992-06-02 | United States Of America | Neural network with weight adjustment based on prior history of input signals |
Non-Patent Citations (6)
Title |
---|
Achille, Alessandro; Soatto, Stefano: Information Dropout: Learning Optimal Representations Through Noisy Computation. In: Computing Research Repository (CoRR), 12.02.2017, S. 1-11. https://arxiv.org/abs/1611.01353v3 [abgerufen am 20.03.2018] * |
BPatG 17 W (pat) 6/06, 09.03.2010 * |
Gal, Yarin; Hron, Jiri; Kendall, Alex: Concrete Dropout. In: Computing Research Repository (CoRR), 22.05.2017, S. 1-14. https://arxiv.org/abs/1705.07832v1 [abgerufen am 20.03.2018] * |
Louizos, Christos; Ullrich, Karen; Welling, Max: Bayesian Compression for Deep Learning. In: Computing Research Repository (CoRR), 24.05.2017, S. 1-17. https://arxiv.org/abs/1705.08665v3 [abgerufen am 20.03.2018] * |
Neklyudov, Kirill [u.a.]: Structured Bayesian Pruning via Log-Normal Multiplicative Noise. In: Computing Research Repository (CoRR), 20.05.2017, S. 1-14. https://arxiv.org/abs/1705.07283v1 [abgerufen am 20.03.2018] * |
Ullrich, Karen; Meeds, Edward; Welling, Max: Soft Weight-Sharing for Neural Network Compression. In: Computing Research Repository (CoRR), 09.05.2017, S. 1-16. https://arxiv.org/abs/1702.04008v2 [abgerufen am 20.03.2018] * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021222136A1 (en) * | 2020-04-28 | 2021-11-04 | Nvidia Corporation | Model predictive control techniques for autonomous systems |
GB2600596A (en) * | 2020-04-28 | 2022-05-04 | Nvidia Corp | Model predictive control techniques for autonomous systems |
Also Published As
Publication number | Publication date |
---|---|
JP2021500670A (ja) | 2021-01-07 |
KR20200069360A (ko) | 2020-06-16 |
US20200342315A1 (en) | 2020-10-29 |
EP3701433A1 (de) | 2020-09-02 |
WO2019081241A1 (de) | 2019-05-02 |
JP7044873B2 (ja) | 2022-03-30 |
CN111226234A (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102017218889A1 (de) | Unscharf parametriertes KI-Modul sowie Verfahren zum Betreiben | |
DE69333247T2 (de) | Trainingsverfahren und Gerät zur Erzeugung eines neues Neurons | |
DE102013213397A1 (de) | Verfahren und Vorrichtung zum Bereitstellen von Stützstellendaten für ein datenbasiertes Funktionsmodell | |
DE102017218851A1 (de) | Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes | |
DE102015221819A1 (de) | Verfahren und Vorrichtung zum Adaptieren eines datenbasierten Funktionsmodells zur Berechnung in einer Modellberechnungseinheit | |
DE102018206110A1 (de) | Trainingsverfahren | |
WO2020187591A1 (de) | Verfahren und vorrichtung zum ansteuern eines roboters | |
DE102019113958A1 (de) | Verfahren zur Leistungssteigerung eines Fahrzeugsystems mit einem neuronalen Netz zum Steuern einer Fahrzeugkomponente | |
DE102013214967A1 (de) | Verfahren und Vorrichtung zum Adaptieren eines datenbasierten Funktionsmodells | |
DE102019119087A1 (de) | Komponentenbasierte verarbeitung von eingangsgrössen | |
EP3467722A1 (de) | Konfiguration einer kraftfahrzeug-fahrerassistenzvorrichtung mit einem neuronalen netzwerk im laufenden betrieb | |
DE4330847A1 (de) | Vorrichtung und Verfahren zur Datenverarbeitung | |
DE102013225768A1 (de) | Verfahren und Vorrichtung zum Ermitteln eines LOLIMOT-Modells | |
DE202021103700U1 (de) | Vorrichtung zum Erzeugen eines künstlichen neuronalen Netzes | |
DE102019210507A1 (de) | Vorrichtung und computerimplementiertes Verfahren für die Verarbeitung digitaler Sensordaten und Trainingsverfahren dafür | |
DE102019208629A1 (de) | Verfahren, Vorrichtung und Computerprogramm zum Erstellen eines maschinellen Lernsystems | |
DE102018109835A1 (de) | Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes | |
DE102021124252A1 (de) | Neuronale Netzwerksysteme für abstraktes Denken | |
WO2020169416A1 (de) | Quantisiertes training trainierbarer module | |
DE202019103323U1 (de) | Vorrichtung zum Erstellen eines maschinellen Lernsystems | |
DE102018207220A1 (de) | Verfahren, Vorrichtung und Computerprogramm zum Detektieren eines Berechnungsfehlers oder einer Fehlfunktion | |
DE102019214308A1 (de) | Schnelles quantisiertes Training trainierbarer Module | |
WO2020193481A1 (de) | Verfahren und vorrichtung für training und herstellung eines künstlichen neuronalen netzes | |
DE102019124018A1 (de) | Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme | |
DE102020211596A1 (de) | Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit invarianter Integrationsschicht zum Klassifizieren von Objekten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R012 | Request for examination validly filed |