DE102020211596A1

DE102020211596A1 - Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit invarianter Integrationsschicht zum Klassifizieren von Objekten

Info

Publication number: DE102020211596A1
Application number: DE102020211596.6A
Authority: DE
Inventors: Matthias Rath; Alexandru Paul Condurache
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-05-27
Filing date: 2020-09-16
Publication date: 2021-12-02
Also published as: US20230206063A1; CN115552482A; WO2021239795A1

Abstract

Es wird ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zum Klassifizieren von Objekten eines digitalen Bildes einer Umgebung einer mobilen Plattform mit einer Vielzahl von Trainings-Zyklen vorgeschlagen, wobei jeder Trainings-Zyklus die Schritte aufweist:Bereitstellen eines digitalen Bildes einer Umgebung einer mobilen Plattform mit zumindest einem Objekt;Bereitstellen eines zu dem digitalen Bild zugeordneten Referenz-Bildes, wobei das zumindest eine Objekt in dem Referenzbild gelabelt ist;Bereitstellen des digitalen Bildes als Eingangssignal des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht; undAdaptieren des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht, um bei dem Klassifizieren des zumindest einen Objekts des digitalen Bildes eine Abweichung der Klassifizierung von dem jeweiligen zugeordneten Referenz-Bild zu minimieren.

Description

Die Erfindung betrifft ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zum Klassifizieren von Objekten eines digitalen Bildes einer Umgebung einer mobilen Plattform
Stand der Technik
Für eine Steuerung einer zumindest teilautomatisierten mobilen Plattform können tiefe neuronale Netze (engl. deep neural network DNN) für verschiedene Aufgaben einschließlich der Klassifikation von Objekten verwendet werden, z.B. zur Erkennung und Klassifizierung umliegender Verkehrsteilnehmer, also einer Objekterkennung. Die zumindest teilautomatisierte mobile Plattform kann dann anhand des Ergebnisses der Objekterkennung gesteuert werden. DNNs müssen unter Verwendung einer großen Menge von gelabelten Daten trainiert werden. Das Labeln der Daten ist jedoch arbeitsintensiv, mühsam und zeitaufwendig. Daher ist es wichtig, die Dateneffizienz beim Training von DNNs zu erhöhen, um die Menge der benötigten gelabelten Daten zu reduzieren, um die gewünschte Leistung zu erzielen.
Offenbarung der Erfindung
Entsprechend Aspekten der Erfindung wird ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zum Klassifizieren von Objekten, ein Verfahren zum Klassifizieren von Objekten in einem zweidimensionalen digitalen Bild, eine Verwendung eines neuronalen Faltungs-Netzwerks zur Klassifizierung von Objekten, eine Verwendung eines neuronalen Faltungs-Netzwerks zum Bereitstellen eines Steuersignals, ein neuronales Faltungs-Netzwerk, eine Vorrichtung, ein Computerprogrammprodukt und ein maschinenlesbares Speichermedium, gemäß den Merkmalen der unabhängigen Ansprüche, vorgeschlagen. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
Es wird ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zum Klassifizieren von Objekten eines digitalen Bildes einer Umgebung einer mobilen Plattform mit einer Vielzahl von Trainings-Zyklen vorgeschlagen, wobei jeder Trainings-Zyklus die folgenden Schritte aufweist:

In einem Schritt des Trainings-Zyklus wird ein digitales Bild einer Umgebung einer mobilen Plattform mit zumindest einem Objekt bereitgestellt. In einem weiteren Schritt des Trainings-Zyklus wird ein zu dem digitalen Bild zugeordnetes Referenz-Bild bereitgestellt, wobei das zumindest eine Objekt in dem Referenzbild gelabelt ist. In einem weiteren Schritt des Trainings-Zyklus wird das digitale Bild als Eingangssignal des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht bereitgestellt. In einem weiteren Schritt des Trainings-Zyklus wird das neuronale Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht adaptiert, um bei dem Klassifizieren des zumindest einen Objekts des digitalen Bildes eine Abweichung der Klassifizierung von dem jeweiligen zugeordneten Referenz-Bild zu minimieren.

Zum Klassifizieren von Objekten eines digitalen Bildes können neuronale Faltungs-Netzwerke eingesetzt werden. Zum Trainieren eines solchen Netzes werden Referenz-Bilder, also Bilder in denen die Objekte gelabelt sind verwendet.
Ein neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben zur Verfügung. Solche Neuronalen Netzwerke lernen, Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
Ein solches neuronales Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
Bei herkömmlichen Implementierungen von neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
Die Architektur eines solchen künstlichen neuronalen Netzes kann ein neuronales Netz sein, das entsprechend einem Multi-Layer-Perceptron (MLP) Netz aufgebaut ist. Ein Multi-Layer-Perceptron (MLP) Netz gehört zur Familie der künstlichen feed-forward neuronalen Netzwerken. Grundsätzlich bestehen MLPs aus mindestens drei Schichten von Neuronen: einer Eingabe-Schicht, einer Zwischen-Schicht (hidden layer) und einer Ausgabe-Schicht. Das bedeutet alle Neuronen des Netzwerks sind in Schichten eingeteilt, wobei ein Neuron einer Schicht immer mit allen Neuronen der nächsten Schicht verbunden ist. Es gibt keine Verbindungen zur vorherigen Schicht und keine Verbindungen, die eine Schicht überspringen. Bis auf die Eingabeschicht bestehen die unterschiedlichen Schichten aus Neuronen, die einer nichtlinearen Aktivierungsfunktion unterliegen, und mit den Neuronen der nächsten Schicht verbunden sind. Ein tiefes neuronales Netz kann viele solcher Zwischen-Schichten aufweisen.
Solche neuronalen Faltungs-Netzwerke müssen für ihre spezifische Aufgabe trainiert werden. Dabei erhält jedes Neuron der entsprechenden Architektur des neuronalen Netzes z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netz gegeben, und jedes Neuron gewichtet die EingangsSignale mit seinem Gewicht und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird dann das Gesamt-Ergebnis bereitgestellt. Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neuron an diesem Fehler hatte, und dann das Gewicht jedes Neurons in die Richtung verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, erneute Messungen des Fehlers und Anpassung der Gewichte bis der Fehler unter einer vorgegebenen Grenze liegt.
Eine invariante Integrationsschicht ist eine Schicht des neuronalen Netzwerks, die eine Gruppenmittelwert-Matrix mittels einer Integration über eine Transformationsgruppe der Ausgangs-Merkmalskarten der Faltungsschicht unter Zuhilfenahme einer invarianten Funktion bestimmt, wobei die invariante Integrationsschicht weiter unten noch genauer dargestellt wird. Dabei werden bei dem Adaptieren des neuronalen Faltungsnetzes mit der invarianten Integrationsschicht auch Parameter der invarianten Integrationsschicht adaptiert.
Durch die Verwendung neuronaler Faltungs-Netzwerke mit einer neuartigen Schicht des neuronalen Faltungs-Netzwerkes, die eine invariante Integration durchführt, wird geometrisches Vorwissen einbezogen, indem Invarianzeigenschaften der zu klassifizierenden Objekte, wie eine Rotationsinvarianz und/oder eine Translationsinvarianz und/oder eine Skalierungsinvarianz und/oder eine Invarianz zu affinen Transformationen explizit sichergestellt werden. Dabei wird die Dateneffizienz erhöht, indem für das Training des neuronalen Netzwerks weniger Daten für eine definierte Genauigkeit benötigt werden und/oder bei gleicher Anzahl von Daten die Genauigkeit erhöht wird.
Die Verwendung dieses Verfahrens ermöglicht somit den Zeit- und Kostenaufwand für das Labeln von Trainingsdaten zu reduzieren, da die Menge der benötigten gelabelten Daten reduziert werden kann, um eine gewünschte Leistung des so aufgebauten neuronalen Netzes zu erzielen.
Dabei ist die hier beschriebene Netzwerkschicht mit der invarianten Integration differenzierbar, um damit das Adaptieren des neuronalen Faltungs-Netzwerks mittels Backpropagation zu ermöglichen.
In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrensschritten nun so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fachmann wird aber erkennen, dass viele der Verfahrensschritte auch in einer anderen Reihenfolge durchlaufen werden können und zu dem gleichen oder einem entsprechenden Ergebnis führen. In diesem Sinne kann die Reihenfolge der Verfahrensschritte entsprechend geändert werden. Einige Merkmale sind mit Zählwörtern versehen, um die Lesbarkeit zu verbessern oder die Zuordnung eindeutiger zu machen, dies impliziert aber nicht ein Vorhandensein bestimmter Merkmale.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass das neuronale Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht zumindest eine Faltungsschicht und eine invariante Integrationsschicht aufweist, und die invariante Integrationsschicht eine Gruppenmittelwert-Matrix mittels einer Integration über eine Transformationsgruppe der Ausgangs-Merkmalskarten der Faltungsschicht unter Zuhilfenahme einer invarianten Funktion der Faltungsschicht bestimmt.
Dabei kann die Gruppenmittelwert-Matrix entsprechend der folgenden Formel bestimmt werden: $A [f] (x) : \int_{g \in G} f (g x) d g$
wobei x: ein 3D-Tensor ist, der die Merkmalskarten umfasst mit der Dimension: Höhe x Breite x Kanäle; f: ein Vektor bestehend aus mindestens einer Funktion ist; g: eine Transformation der Merkmalskarten ist und g eine einzelne Transformation aus der Transformationsgruppe G beschreibt.
Wobei der Gruppenmittelwert A durch Integration einer invarianten Funktion f über Transformationen g ∈ G definiert ist, die auf den Eingangsraum x einwirkt.
Die Invariante Integrationsschicht wird also auf einem gruppenäquivarianten neuronalen Netzwerk-Feature-Raum verwendet, der mit Hilfe äquivarianter Faltungsschichten berechnet wird.
Das Expertenwissen über Invarianzen wie beispielsweise eine Rotationsinvarianz und/oder eine Translationsinvarianz und/oder eine Skalierungsinvarianz und/oder eine Invarianz zu affinen Transformationen kann somit über die Transformationsgruppe G in Hinblick auf ein vorliegendes Problem eingebracht werden.
Die Gruppentheorie bildet die Grundlage der invarianten Integration. Eine Gruppe G ist eine mathematische Abstraktion, die aus einer Menge von Elementen besteht, auf die eine Operation unter den Axiomen der Abgeschlossenheit, Assoziativität, neutrale Element und Umkehrbarkeit wirkt.
Eine Funktion f gilt als äquivariant in Bezug auf eine Gruppe G von Transformationen, wenn wir eine genaue Beziehung zwischen den Transformationen g ∈ G des Eingangs x (die Merkmalskarten als Vielzahl; Merkmalsraum) der Funktion und einer entsprechenden Transformation g' ∈ G des Ausgangs der Funktion bestimmen können. Wobei der Strich andeuten soll, dass die Transformation des Ausgangs nicht genau gleich ist wie die des Eingangs x;
Dabei ergibt sich die mathematische Definition der Äquivarianz zu: $f (g x) = g' f (x) \forall x \in X$
Mit f: Vektor bestehend aus mindestens einer in- bzw. äquivarianten Funktion; f(x) der äquivariante Merkmalsraum; x: 3D-Tensor, der die Merkmalskarten umfasst. Höhe x Breite x Kanäle; g: Transformation der Merkmalskarten; g': Transformation der Ausgabewerte der Funktion.
Bei äquivarianten Funktionen ist die Ausgabetransformation vorherbestimmbar, bei invarianten Funktionen, ist sie die Identität (z.B. eine 1 bei einer Multiplikation). Die mathematische Definition der Invarianz ergibt sich folglich zu: $f (g x) = f (x) \forall x \in X$
Ein Beispiel für eine äquivariante Funktion ist die Faltungsschicht, die zu Translationen äquivariant ist. In der Praxis sind wir auch daran interessiert, die Invarianz für andere Transformationsgruppen als Translationen, z.B. Rotationen, Skalierungen oder affine Transformationen, durchzusetzen. Die Invariante Integration ist ein Algorithmus zur Konstruktion eines vollständigen Merkmalsraums in Bezug auf eine symmetrische Transformation.
Ein Merkmalsraum wird als vollständig definiert, wenn alle Muster, die in Bezug auf eine Transformationsgruppe G äquivalent sind, auf denselben Punkt im Merkmalsraum abgebildet werden, während alle unterschiedlichen Muster auf verschiedene Punkte abgebildet werden. Dies bedeutet, dass ein kompletter Merkmalsraum invariant gegenüber Transformationen g ∈ G des Eingangssignals ist.
Die Eingabemerkmale können dazu normalisiert werden, wobei das kanalweise Minimum verwendet wird, das während des Trainings bestimmt wird. $x_{i} = max (ε, x_{i} - x_{min} + 1), mit 0< ε <<1$
Dadurch wird verhindert, dass der Gradient der Exponenten und Inputs der invarianten Integrationsschicht verschwindet, wodurch die Verwendung des Backpropagation-Algorithmus ermöglicht wird.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die invariante Funktion f ein Monom der Ausgangs-Merkmalskarten der Faltungsschicht ist.
Dabei ist ein Monom eine besondere Form eines Polynoms, das nur aus einem Glied besteht und folgendermaßen definiert ist: $f (x) = m (x) = \prod_{i = 1}^{K} x_{i}^{b_{i}} with \sum_{i} b_{i} \leq | G |,$
wobei x: ein 3D-Tensor, der die Merkmalskarten umfasst mit der Dimension: Höhe x Breite x Kanäle; f: ein Vektor bestehend aus mindestens einer Funktion ist; m: das Monom; g: eine Transformation der Merkmalskarten ist und g eine einzelne Transformation aus der Transformationsgruppe G; K: eine Monomordnung, also die Größe des Eingabemerkmals; b_i: ein Monomexponent, der bei der Adaption des neuronalen Netzwerks angepasst wird.
Für die invariante Funktion f stellt die Menge aller möglichen Monome m(x) eine gute Wahl zur Erzeugung eines vollständigen Merkmalsraums dar.
Gruppentheoretisch kann gezeigt werden, das bei der Verwendung von Monomen bei der invarianten Integration transformationsinvariante Merkmale durch die invariante Integration unterdrückt werden, und damit die Unterschiede von Merkmalen, die transformationsinvariant zu anderen Merkmalen sind, verstärkt werden.
Die obere Grenze für die Anzahl aller möglichen Monome ist $(\begin{matrix} K + | G | \\ K \end{matrix})$
die aber nicht alle berechnet werden, da es ein enorm hoher Wert ist. Die Koeffizienten bi werden während des Trainings des neuronalen Netzes trainiert.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die Transformation eine Rotation und/oder Translation ist.
Dabei kann die Gruppenmittelwert-Matrix bzw. der Gruppenmittelwert-Vektor entsprechend der folgenden Formel bestimmt werden: $\begin{array}{l} A [f] (x) = \sum_{u} \sum_{v} \int_{ϕ} m (x (u, v; ϕ)) d ϕ \\ = \sum_{u} \sum_{v} \int_{ϕ} \prod_{i = 1,}^{K} x {(u + d_{u, i} s i n (ϕ), v + d_{v, i} c o s (ϕ))}^{b^{i}} d ϕ \end{array}$
wobei x: ein 3D-Tensor, der die Merkmalskarten umfasst mit der Dimension: Höhe x Breite x Kanäle; f: ein Vektor bestehend aus mindestens einer Funktion ist; g: eine Transformation der Merkmalskarten ist und g eine einzelne Transformation aus der Transformationsgruppe G; K: eine Monomordnung; u, v: eine Pixelposition auf einer Merkmalskarte ist; d_i: eine Monomdistanz; b_i: ein Monomexponent, der bei der Adaption des neuronalen Netzwerks angepasst wird; und ϕ: ein Rotationswinkel beschreibt.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die Transformation eine Rotation und/oder Translation und/oder Skalierung ist.
Dabei kann die Gruppenmittelwert-Matrix bzw. der Gruppenmittelwert-Vektor entsprechend der folgenden Formel bestimmt werden: $\begin{array}{l} A [f] (x) = \sum_{u} \sum_{v} \int_{ϕ} \int_{s} m (x (u, v; ϕ; s)) d ϕ d s \\ = \sum_{u} \sum_{v} \int_{ϕ} \int_{s} \prod_{i = 1}^{K} x {(u + s * d_{u, i} s i n (ϕ), v + s * d_{v, i} c o s (ϕ))}^{b^{i}} d ϕ \end{array}$
wobei x: ein 3D-Tensor, der die Merkmalskarten umfasst mit der Dimension: Höhe x Breite x Kanäle; f: ein Vektor bestehend aus mindestens einer Funktion ist; g: eine Transformation der Merkmalskarten ist und g eine einzelne Transformation aus der Transformationsgruppe G; K: eine Monomordnung; u, v: eine Pixelposition auf einer Merkmalskarte ist; d_i: eine Monomdistanz; b_i: ein Monomexponent, der bei der Adaption des neuronalen Netzwerks angepasst wird; ϕ: ein Rotationswinkel; und s: einen Skalierungsfaktor beschreibt.
Die Invariante Integrationsschicht berechnet den Gruppenmittelwert, um einen invarianten Merkmalsraum unter Verwendung eines Satzes von Monomen m(x) explizit zu erzwingen, z.B. durch Integration über die Gruppe der zweidimensionalen Translationen (u, v) , Skalierungen (s) und Rotationen φ. Dabei kann der Gruppendurchschnitt unter Verwendung von Monomen für eine beliebige Transformationsgruppe G berechnet werden.
Vorteilhafterweise ergibt sich aus dieser invarianten Integrationsschicht, dass eine Objekterkennung invariant gegenüber einer Rotation, Skalierung und einer Translation der betreffenden Objekte ist. Beispielsweise ist dadurch aus der Vogelperspektive ein Fahrzeug unabhängig von seiner Ausrichtung auf dem digitalen Bild bei der Objekt-Klassifizierung.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die invariante Integration A(x) durch die in Formel 1 beschriebenen Zusammenhänge bestimmt wird: $A (x) = \sum_{u} \sum_{v} \int_{ϕ} \prod_{i = 1}^{K} x {(u + d_{u, i} sin (ϕ), v + d_{v, i} cos (ϕ))}^{b_{i}} d ϕ$
wobei die Parameter wie oben beschrieben: K: eine Monomordnung; u, v: eine Pixelposition auf Merkmalskarte; d_i: eine Monomdistanz; b_i: ein Monomexponent; x: ein 3D-Tensor, der die Merkmalskarten umfasst; und ϕ: ein Rotationswinkel ist.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die invariante Integration A(x) durch die in Formel 2 beschriebenen Zusammenhänge bestimmt wird: $A (x) = \sum_{u} \sum_{v} \int_{ϕ} \int_{s} \prod_{i = 1}^{K} x {(u + s * d_{u, i} sin (ϕ), v + s * d_{v, i} cos (ϕ))}^{b_{i}} d ϕ d s$
wobei die Parameter wie oben beschrieben: K: eine Monomordnung; u, v: eine Pixelposition auf Merkmalskarte; d_i: eine Monomdistanz; b_i: ein Monomexponent; x: ein 3D-Tensor, der die Merkmalskarten umfasst; ϕ: ein Rotationswinkel; und s ein Skalierungsfaktor ist.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass das Monom parametrisiert ist und die Parameter der Monome zufällig generiert werden und optimierte Parameter aus den zufällig generierten Parametern ausgewählt werden. Die Parameter der Monome, d.h. die Ordnungen, die Distanzen und die Exponenten, werden mithilfe eines iterativen Ansatzes ausgewählt.
Werden M Monome benötigt (z.B. M = 5), so werden M+1 (z.B. 6) Parameterkombinationen zufällig ausgewählt. Für jede der M+1 möglichen Kombinationen bestehend aus M Parametern wird ein linearer Klassifikator und dessen Validierungsgenauigkeit berechnet. Die Parameterkombination, welche beim am besten abschneidenden Klassifikator nicht verwendet wurde, wird verworfen und durch eine neue, zufällig ausgewählte Kombination ersetzt. Dieser Vorgang wird eine bestimmte Anzahl (z.B. 100mal) von Schritten wiederholt, um die bestmöglichen M Parameterkombinationen zu finden.
Dieses Verfahren zur Auswahl der Parameter der Monome, d.h. die Ordnungen, die Distanzen und die Exponenten, ist einfach und schnell.
Alternativ werden die Parameter der Monome, d.h. die Ordnungen, die Distanzen und die Exponenten, mithilfe eines Pruning-Ansatzes ausgewählt. Werden M Monome benötigt (z.B. M = 5), so werden N>M (z.B. 100) Parameterkombinationen zufällig ausgewählt. Das neuronale Netz wird mithilfe der N Monome vortrainiert und mittels eines Pruning-Verfahrens werden die N Parameterkombinationen, die den größten Beitrag zur korrekten Klassifikation des Netzwerkes leisten, entweder direkt oder iterativ bestimmt. Der Beitrag zur Klassifikation kann beispielsweise durch die Summe der Absolutwerte der Gewichte am Ausgang eines Monoms bestimmt werden. Diese Verfahren zur Auswahl der Parameter der Monome d.h. die Ordnungen, die Distanzen und die Exponenten, ist einfach, schnell und ermöglicht ein direktes Ende-zu-Ende Training des Netzwerkes.
Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass das neuronale Faltungs-Netzwerk eine Mehrzahl von Faltungsschichten aufweist, die für die Klassifikation des Objektes relevante Merkmale hervorheben, bevor die invariante Integrationsschicht eine Gruppenmittelwert-Matrix bestimmt. Dadurch werden die für die Objektklassifikation relevanten Merkmale hervorgehoben.
Dieses Verfahren der Extraktion für die Klassifikation relevanter Merkmale reduziert den Rechenaufwand für die Berechnung der invarianten Integration. Beispielsweise werden dabei nicht für die Klassifikation relevante Informationen über eine Translation und/oder Farben der Objekte verworfen.
Es wird ein Verfahren zum Klassifizieren von Objekten in einem, insbesondere zweidimensionalen, digitalen Bild einer Umgebung einer mobilen Plattform vorgeschlagen, dass die folgenden Schritte aufweist:

In einem ersten Schritt wird das digitale Bild der Umgebung der mobilen Plattform bereitgestellt. In einem weiteren Schritt wird das digitale Bild entsprechend einer Mehrzahl von Objektklassen mittels eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht entsprechend einem der oben beschriebenen Verfahren und dem digitalen Bild als Eingangssignal des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht klassifiziert, wobei das neuronale Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht mittels einer Vielzahl von digitalen Referenz-Bildern und klassifizierten Objekten der jeweiligen digitalen Referenz-Bilder trainiert wurde, Objekte der digitalen Referenz-Bilder in Bezug auf die Mehrzahl von Objektklassen zu klassifizieren; und die Objekte des digitalen Bildes klassifiziert.

Ein solches Verfahren zur Klassifizierung von Objekten eignet sich insbesondere für zumindest teilautomatisierte mobile Plattformen wie beispielsweise für ein autonomes Fahrzeug.
Es wird eine Verwendung eines neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zur Klassifizierung von Objekten in digitalen Bildern einer Umgebung einer mobilen Plattform vorgeschlagen, das entsprechend einem der oben beschriebenen Verfahren trainiert wurde.
Dadurch dass die invariante Integrationsschicht Teil des neuronalen Faltungsnetzwerks ist, ergibt sich der Vorteil einer höheren Genauigkeit wie schon weiter oben ausgeführt wurde bzw. es werden weniger gelabelte Daten notwendig um eine bestimmte Genauigkeit der Klassifizierungsaufgabe zu erfüllen.
Es wird eine Verwendung des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht, das entsprechend einem der oben beschriebenen Verfahren trainiert wurde, zur Klassifizierung von Objekten in digitalen Bildern einer Umgebung einer mobilen Plattform vorgeschlagen, wobei basierend auf dem Ergebnis der Klassifizierung ein Steuerungssignal zur Ansteuerung einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird und/oder basierend auf dem Ergebnis der Klassifizierung ein Warnsignal zur Warnung eines Insassen einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird.
Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass ein Steuersignal basierend auf dem Ergebnis der Klassifizierung bereitgestellt wird, breit zu verstehen. Er ist so zu verstehen, dass abhängig von dem Ergebnis der Klassifizierung, jedwede Bestimmung oder Berechnung eines Steuersignals herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen für diese Bestimmung des Steuersignals herangezogen werden. Dies gilt entsprechend für die Bereitstellung eines Warnsignals.
Vorteilhafterweise ergibt sich aus der Klassifikation von Objekten einer Umgebung einer zumindest teilautomatisierten mobilen Plattform die Möglichkeit die Steuerung der mobilen Plattform abhängig von dem klassifizierten und detektieren Objekt zu machen, beispielsweise um einen Unfall zu vermeiden.
Gemäß einem Aspekt wird ein neuronales Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht angegeben, das entsprechend einem der oben beschriebenen Verfahren trainiert wurde.
Mit einem solchen neuronalen Faltungs-Netzwerk kann die beschriebene Klassifikationsaufgabe leicht in unterschiedliche Systeme integriert werden.
Gemäß einem Aspekt wird eine Vorrichtung angegeben, die ein neuronales Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht aufweist, das entsprechend einem der oben beschriebenen Verfahren trainiert wurde.
Mit einer solchen Vorrichtung kann das entsprechende Verfahren leicht in unterschiedliche Systeme integriert werden.
Gemäß einem Aspekt wird ein Computerprogramm angegeben, das Befehle umfasst, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfahrens in unterschiedlichen Systemen.
Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist. Mittels eines solchen maschinenlesbaren Speichermediums ist das oben beschriebene Computerprogramm transportabel.
Unter einer mobilen Plattform kann ein zumindest teilweise automatisiertes System verstanden werden, welches mobil ist, und/oder ein Fahrerassistenzsystem. Ein Beispiel kann ein zumindest teilweise automatisiertes Fahrzeug bzw. ein Fahrzeug mit einem Fahrerassistenzsystem sein. Das heißt, in diesem Zusammenhang beinhaltet ein zumindest teilweise automatisiertes System eine mobile Plattform in Bezug auf eine zumindest teilweise automatisierte Funktionalität, aber eine mobile Plattform beinhaltet auch Fahrzeuge und andere mobile Maschinen einschließlich Fahrerassistenzsysteme. Weitere Beispiele für mobile Plattformen können Fahrerassistenzsysteme mit mehreren Sensoren, mobile Multisensor-Roboter wie z.B. Roboterstaubsauger oder Rasenmäher, ein Multisensor-Überwachungssystem, eine Fertigungsmaschine, ein persönlicher Assistent oder ein Zugangskontrollsystem sein. Jedes dieser Systeme kann ein vollständig oder teilweise automatisiertes System sein.
Es wird eine Vorrichtung angegeben, die eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen.
Mittels einer solchen Vorrichtung ist es möglich, die oben beschriebenen Verfahren zum Beispiel für den Einbau in eine mobile Plattform verfügbar zu machen.
Es wird ein Computerprogramm angegeben, welches Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen.
Mittels eines solchen Computerprogramms können die oben beschriebenen Verfahren auf eine einfache Art und Weise zum Beispiel einer mobilen Plattform verfügbar gemacht werden.
Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist.
Mittels eines solchen maschinenlesbaren Speichermediums ist das oben beschriebene Computerprogrammprodukt transportabel.
Ausführungsbeispiel
Ein Ausführungsbeispiel der Erfindung wird mit Bezug auf die 1 dargestellt und im Folgenden näher erläutert. Es zeigen:

1 ein Verfahren zum Klassifizieren von Objekten eines digitalen Bildes einer Umgebung einer mobilen Plattform mit einem trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht.

Die 1 zeigt schematisch wie ein Bild 110 in einem Schritt S1 mit einer Anzahl von Faltungsschichten des neuronalen Netzes mit invarianter Integrationsschicht in Merkmalskarten 120 überführt wird. In dem Schritt S2 wird die invariante Integration über die Merkmalskarten 120 durchgeführt und ein Gruppenmittelwert-Vektor 130 erstellt. Die daran anschließenden fully connected Schichten des neuronalen Faltungsnetzwerks mit invarianter Integrationsschicht führen dann mit dem Schritt S3 zum Klassifikationsvektor 140, aus dem das entsprechende Klassifikationsergebnis des Objektes abzulesen ist.
Eine Architektur eines invarianten neuronalen Netzwerks zur Klassifikation ist typischerweise aus 2 Teilen aufgebaut. Der erste Teil ist eine Sequenz von äquivarianten Schichten zum Heruntersampeln des Signals hin zu kleineren Auflösungen, mit dem Ziel, die erwünschte Information zu erhalten und redundante Information zu verwerfen. Durch die Äquivarianz der Schichten ändert sich der Ausgang der Faltungsschichten vorhersagbar, wenn der Eingang der Schicht in einer vorherbestimmten Weise (z. B. Rotation) transformiert wird.
Im zweiten Teil wird der äquivariante Merkmalsraum in einen invarianten Merkmalsraum, der sich bei Transformationen des Eingangs nicht verändert, überführt. Hierzu wird der Invariant Integration Layer verwendet. Auf Basis der in dieser Weise gewonnenen Merkmale werden mehrere vollvernetzte Schichten eingesetzt, um ein Klassifikationsergebnis zu gewinnen.
Ein Beispiel für eine Architektur des invarianten neuronalen Netzwerkes ist in Tabelle 1 aufgeführt. Der Teil zur äquivarianten Merkmalsgewinnung besteht aus d Schichten von aufeinanderfolgenden äquivarianten Faltungen (z.B. d=6) mit Kernelgrößen N1 bis N_d (z.B. N1=24, N2=32, ...). Zwischen den Schichten kommen ReLU, BatchNormalisierung und MaxPooling zum Einsatz.

Der Invariant Integration Layer nutzt 5 Monome, um den äquivarianten Merkmalsraum in einen invarianten eindimensionalen Merkmalsvektor zu überführen. Auf dessen Basis werden k vollvernetzte Blöcke mit Neuronen M1 bis M_k (z.B. M1=90, M2=90) verwendet, um Klassifikations-Scores aus den invarianten Merkmalen zu gewinnen.

Table 1: Struktur eines invarianten Netzwerks für Klassifikation
Eingangssignal: 28x28x1 Bilder
24 equivariant conv 9x9. ReLU. BatchNorm.
32 equivariant conv 7x7. ReLU. BatchNorm. MaxPool, Stride 2.
36 equivariant conv 7x7. ReLU. BatchNorm.
36 equivariant conv 7x7. ReLU. BatchNorm. MaxPool, Stride 2.
64 equivariant conv 7x7. ReLU. BatchNorm.
96 equivariant conv 5x5. ReLU. BatchNorm.
ReLU. Invariant Integration Layer, 5 monomials.
Fully Connected Layer, 90 neurons. ReLU. BatchNorm.
Fully Connected Layer, 90 neurons. ReLU. BatchNorm.
Fully Connected Layer 10 neurons. Softmax.

Das überwachte Training eines neuronalen Netzes verwendet einen Trainingssatz von Eingangssignalen und gewünschten Ausgangssignalen (bekannt als „Ground Truth“) des neuronalen Faltungs-Netzwerks mit invarianter Integrationsschicht. Die gewünschten Ausgangssignale können z.B. Klassifikationsetiketten sein. Abhängig von den tatsächlichen Ausgangswerten des neuronalen Faltungs-Netzwerks mit invarianter Integrationsschicht und den gewünschten Ausgangssignalen wird eine sogenannte Verlustfunktion berechnet, die zu optimieren ist, d.h. die Parameter bzw. Gewichte des neuronalen Faltungs-Netzwerks mit invarianter Integrationsschicht, die zur Optimierung der Verlustfunktion berechnet werden. Die Optimierung erfolgt durch Berechnung der Gradienten der Verlustfunktion mit den Gewichten, was durch iterative Anwendung der Kettenregel erfolgen kann. Dieses Verfahren wird auch als Backpropagation bezeichnet.
Damit die Invariante Integrationsschicht innerhalb eines tiefen neuronalen Netzes eingesetzt werden kann und die vorhergehenden Schichten mittels des Backpropagation-Algorithmus optimierbar bleiben, müssen die Monome mit Bezug auf ihre Eingangsdaten ableitbar sein. Diese Ableitung berechnet sich zu: $\frac{δ m (x)}{δ x_{j}} = b_{j} x_{j}^{b_{j - 1}} \prod_{i = 1, i \neq j}^{K} x_{i}^{b_{i}}$
Es wird ersichtlich, dass die Werte x_i ≠ 0 sein müssen, damit der Gradient nicht „verschwindet“ (d.h. zu 0 wird), was ein Training der vorhergehenden Schichten verhindern würde.
Weiterhin lässt sich zeigen, dass auch die Ableitung mit Bezug auf die Monomexponenten b_i definiert ist. Diese können daher während des Trainingsvorgangs des neuronalen Netzes optimiert werden. $\frac{δ m (x)}{δ b_{j}} = log (x_{j}) x_{j}^{b_{j}} \prod_{i = 1, i \neq j}^{K} x_{i}^{b_{i}}$
Auch hier ist es wichtig, dass alle Werte x_j ≠ 0 sind, da ansonsten zum einen der Logarithmus nicht definiert ist, zum anderen der Gradient des Produktes erneut verschwinden würde.
Daher wird die obenstehend erwähnte Verschiebung der Merkmalskarten eingesetzt: $\tilde{x} = m a x (\in, x - x_{m i n} + 1)$

Claims

Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht zum Klassifizieren von Objekten eines digitalen Bildes einer Umgebung einer mobilen Plattform mit einer Vielzahl von Trainings-Zyklen, wobei jeder Trainings-Zyklus die Schritte aufweist: Bereitstellen eines digitalen Bildes (110) einer Umgebung einer mobilen Plattform mit zumindest einem Objekt; Bereitstellen eines zu dem digitalen Bild zugeordneten Referenz-Bildes, wobei das zumindest eine Objekt in dem Referenzbild gelabelt ist; Bereitstellen des digitalen Bildes (110) als Eingangssignal des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht; und Adaptieren des neuronalen Faltungs-Netzwerkes mit zumindest einer invarianten Integrationsschicht, um bei dem Klassifizieren des zumindest einen Objektes des digitalen Bildes eine Abweichung der Klassifizierung von dem jeweiligen zugeordneten Referenz-Bild zu minimieren.
Verfahren gemäß Anspruch 1, wobei das neuronale Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht (130) zumindest eine Faltungsschicht und eine invariante Integrationsschicht (130) aufweist, und die invariante Integrationsschicht (130) eine Gruppenmittelwert-Matrix mittels einer Integration über eine invariante Funktion einer Transformation der Ausgangs-Merkmalskarten der Faltungsschicht bestimmt.
Verfahren gemäß Anspruch 2, wobei die invariante Funktion ein Monom der Ausgangs-Merkmalskarten (120) der Faltungsschicht ist.
Verfahren gemäß Anspruch 2 oder 3, wobei die Transformation eine Rotation und/oder Translation ist.
Verfahren gemäß einem der Ansprüche 2 bis 4, wobei die invariante Integration A(x) durch die in Formel 1 beschriebenen Zusammenhänge bestimmt wird: $A (x) = \sum_{u} \sum_{v} \int_{ϕ} \prod_{i = 1}^{K} x {(u + d_{u, i} sin (ϕ), v + d_{v, i} c o s (ϕ))}^{b_{i}} d ϕ$
wobei K: eine Monomordnung; u, v: eine Pixelposition auf Merkmalskarte; d_i: eine Monomdistanz; b_i: ein Monomexponent; x: ein 3D-Tensor, der die Merkmalskarten umfasst; und ϕ: ein Rotationswinkel ist.
Verfahren gemäß Anspruch 3, wobei das Monom parametrisiert ist und die Parameter der Monome zufällig generiert werden und optimierte Parameter aus den zufällig generierten Parametern ausgewählt werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das neuronale Faltungs-Netzwerk eine Mehrzahl von Faltungsschichten aufweist, die für die Klassifikation des Objektes relevante Merkmale hervorheben, bevor die invariante Integrationsschicht eine Gruppenmittelwert-Matrix bestimmt.
Verfahren zum Klassifizieren von Objekten in einem zweidimensionalen digitalen Bild einer Umgebung einer mobilen Plattform mit den Schritten: Bereitstellen des digitalen Bildes (110) der Umgebung der mobilen Plattform; Klassifizieren des digitalen Bildes entsprechend einer Mehrzahl von Objektklassen mittels eines trainierten neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht (130) entsprechend einem der Ansprüche 1 bis 7 und dem digitalen Bild (110) als Eingangssignal des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht (130), wobei das neuronale Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht (130) mittels einer Vielzahl von digitalen Referenz-Bildern und klassifizierten Objekten der jeweiligen digitalen Referenz-Bilder trainiert wurde, Objekte der digitalen Referenz-Bilder in Bezug auf die Mehrzahl von Objektklassen zu klassifizieren; und die Objekte des digitalen Bildes klassifiziert.
Verwendung eines neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht (130) zur Klassifizierung von Objekten in digitalen Bildern einer Umgebung einer mobilen Plattform, das entsprechend dem Verfahren gemäß einem der Ansprüche 1 bis 7 trainiert wurde.
Verwendung des neuronalen Faltungs-Netzwerks mit zumindest einer invarianten Integrationsschicht (130), das entsprechend dem Verfahren gemäß einem der Ansprüche 1 bis 7 trainiert wurde, zur Klassifizierung von Objekten in digitalen Bildern (110) einer Umgebung einer mobilen Plattform, wobei basierend auf dem Ergebnis der Klassifizierung ein Steuerungssignal zur Ansteuerung einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird und/oder basierend auf dem Ergebnis der Klassifizierung ein Warnsignal zur Warnung eines Insassen einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird.
Neuronales Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht (130), das entsprechend dem Verfahren gemäß einem der vorangehenden Ansprüche 1 bis 7 trainiert wurde.
Vorrichtung, die ein neuronales Faltungs-Netzwerk mit zumindest einer invarianten Integrationsschicht (130) aufweist, das entsprechend einem Verfahren gemäß einem der Ansprüche 1 bis 7 trainiert wurde.
Computerprogramm, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 13 gespeichert ist.