-
Die Erfindung betrifft ein Verfahren zum Trainieren eines neuronalen Faltungs-Netzwerkes, um mit dem neuronalen Faltungs-Netzwerk eine Lokalisierungs-Pose einer mobilen Plattform mit einem Bodenbild zu bestimmen.
-
Stand der Technik
-
Eine präzise Lokalisierung ist Voraussetzung für ein Fahren einer zumindest teilautomatisierten Plattform, wie beispielsweise von autonom betriebenen Fahrzeugen.
-
Für eine Lokalisierung einer solchen mobilen Plattform mittels Bodenbildern der Umgebung dieser mobilen Plattform wurden eine Vielzahl von unterschiedlichen Ansätzen verfolgt, die typischerweise merkmalsbasiert in Bezug auf die Umgebung der mobilen Plattform sind, wobei diese Merkmale dann über eine hochauflösende Karte einer Pose der mobilen Plattform zugeordnet werden.
-
Offenbarung der Erfindung
-
Allerdings ist die Verwendung einer solchen hochauflösenden Karte mit wirtschaftlichen Nachteilen verbunden. Tiefe lernbasierte Verfahren für die Bestimmung einer Pose mittels einer Regression auf der Basis von Bodenbildern haben dagegen den Vorteil einer festgelegten Größe einer entsprechenden Karte und eine konstante Abfragezeit. Mit monokularen Bildern, Videobildfolgen und Tiefenbilder aus der direkten Kameraposition kann mit solchen Verfahren eine Lokalisierung bestimmt werden. Dabei stellt eine Lokalisierung in sehr großem geographischen Gebiet in Bezug auf eine Eindeutigkeit einer Bestimmung einer Pose eine Herausforderung dar.
-
Die vorliegende Erfindung offenbart ein Verfahren zum Trainieren eines neuronalen Faltungs-Netzwerkes für ein Bestimmen einer Lokalisierungs-Pose einer mobilen Plattform mit einem Bodenbild, ein Verfahren zum Bestimmen einer Lokalisierungs-Pose, ein Verfahren zur Ansteuerung einer mobilen Plattform, ein Computerprogramm, sowie ein maschinenlesbares Speichermedium gemäß den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
-
Die Erfindung beruht auf der Erkenntnis, dass ein räumlicher Kontext und eine Perspektive der Umgebung einer mobilen Plattform mittels Luftbildern, die beispielsweise um eine geschätzte Position der mobilen Plattform herum zentriert sind, verwendet werden können, um zusammen mit Bodenbildern ein neuronales Netz zu trainieren, eine Pose der mobilen Plattform zu bestimmen. Insbesondere kann dies ermöglichen, nicht eindeutige Merkmale aus Bodenbildern korrekt über ein größeres geographisches Gebiet hinweg zuzuordnen.
-
Gemäß einem Aspekt wird ein Verfahren zum Trainieren eines neuronalen Faltungs-Netzwerkes vorgeschlagen, um mit dem neuronalen Faltungs-Netzwerk eine Lokalisierungs-Pose einer mobilen Plattform mit einem Bodenbild zu bestimmen.
-
Dabei weist das Verfahren eine erste Vielzahl von Luftbild-Trainings-Zyklen auf, wobei jeder Luftbild-Trainings-Zyklus die folgenden Schritte aufweist:
- In einem Schritt eines Luftbild-Trainings-Zyklus wird eine Referenz-Pose der mobilen Plattform bereitgestellt. In einem weiteren Schritt wird ein Luftbild der Umgebung der mobilen Plattform in der Referenz-Pose bereitgestellt. In einem weiteren Schritt wird das Luftbild als Eingangssignal des neuronalen Faltungs-Netzwerkes verwendet. In einem weiteren Schritt wird die jeweilige Lokalisierungs-Pose mittels eines Ausgangssignals des neuronalen Faltungs-Netzwerkes bestimmt. In einem weiteren Schritt wird das neuronale Faltungs-Netzwerk zur Minimierung einer Abweichung der jeweiligen, mit dem jeweiligen Luftbild bestimmten, Lokalisierungs-Pose von der jeweiligen Referenz-Pose adaptiert.
- In weiteren Schritten trainiert das Verfahren das, mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierten, neuronalen Faltungs-Netzwerk mit einer zweiten Vielzahl von Bodenbild-Trainings-Zyklen, wobei jeder Bodenbild-Trainings-Zyklus die Schritte folgenden aufweist:
- In einem Schritt wird eine Referenz-Pose der mobilen Plattform bereitgestellt. In einem weiteren Schritt wird ein Bodenbild der Umgebung der mobilen Plattform in der Referenz-Pose bereitgestellt. In einem weiteren Schritt wird das Bodenbild als Eingangssignal des, mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierten, neuronalen Faltungs-Netzwerkes verwendet. In einem weiteren Schritt wird die Lokalisierungs-Pose mittels des Ausgangssignals des neuronalen Faltungs-Netzwerkes bestimmt. In einem weiteren Schritt wird das neuronale Faltungs-Netzwerk zur Minimierung einer Abweichung der jeweiligen, mit dem jeweiligen Bodenbild bestimmten, Lokalisierungs-Pose von der jeweiligen Referenz-Pose adaptiert, um ein trainiertes neuronales Faltungs-Netzwerk für ein Bestimmen einer Lokalisierungs-Pose mit einem Bodenbild bereitzustellen.
-
Für dieses Verfahren kann ein untrainiertes neuronalen Faltungs-Netzwerk, wie es unten erläutert ist, für den ersten Luftbild-Trainings-Zyklus bereitgestellt werden.
-
Vorteilhafterweise werden bei diesem Verfahren für die einzelnen Luftbild-Trainings-Zyklen der ersten Vielzahl von Luftbild-Trainings-Zyklen unterschiedliche Referenz-Posen unterschiedlicher Umgebungen der mobilen Plattform und entsprechend unterschiedliche Luftbilder bereitgestellt.
-
Vorteilhafterweise kann mit diesem Verfahren mittels visueller Bodenbilder und visuellen Luftbildern der Umgebung der mobilen Plattform eine Lokalisierungs-Pose bestimmt werden ohne eine hochauflösende Karte zu benutzen. Somit werden also Luftbilder zu einem Vortraining des neuronalen Faltungs-Netzwerkes für die Bestimmung einer Lokalisierung-Pose der mobilen Plattform verwendet. Da dieses Verfahren nicht auf handgefertigten Merkmalen basiert, lässt es sich gut in Bezug auf größere geographische Gebiete skalieren.
-
Dabei bedeutet das Verwenden des Bodenbildes oder des Luftbildes als Eingangssignal des neuronalen Netzwerkes, dass das Bodenbild oder das Luftbild an die Eingangsschicht des neuronalen Netzwerkes übergeben wird.
-
Dabei wird das Bodenbild typischerweise von einer Front-Kamera der mobilen Plattform mit der entsprechenden Perspektive mittels eines digitalen Kamerasystems generiert.
-
Bei diesem Verfahren werden dem neuronalen Faltungs-Netzwerk sowohl ein Bodenbild, wie beispielsweise RGB-Bild von der Frontkamera einer mobilen Plattform, als auch ein Luftbild, wie beispielsweise ein Satellitenbild, bereitgestellt.
-
Dadurch dass das neuronale Faltungs-Netzwerk mit einer ersten Vielzahl von Luftbild-Trainings-Zyklen vortrainiert wird, wird bei dem nachfolgenden Training mit einer zweiten Vielzahl von Bodenbild-Trainings-Zyklen erreicht, Bodenbilder zu disambiguieren, die sehr ähnlich aussehen, aber räumlich weit auseinander liegen. Das Faltungs-Netzwerk wird also erst mit einer ersten Vielzahl von Luftbild-Trainings-Zyklen trainiert und dann sukzessive mit einer zweiten Vielzahl von Bodenbild-Trainings-Zyklen. Dabei können die bereitgestellten Luftbilder der ersten Vielzahl von Luftbild-Trainings-Zyklen den Bodenbildern der zweiten Vielzahl von Bodenbild-Trainings-Zyklen in dem Sinne entsprechen, dass die in den Luftbildern bzw. den Bodenbildern in ihrer Gesamtheit enthaltenen geographischen Informationen sich für eine Bestimmung einer Pose der mobilen Plattform ergänzen und/oder für eine Verbesserung der Bestimmung der Pose zusammenwirken. Dieses Zusammenwirken und/oder Ergänzen kann insbesondere Luftbilder und Bodenbilder betreffen, die eine ähnliche geographische Region repräsentieren. Eine diskriminierende Wirkung kann aber auch durch unterschiedliche geographische Regionen der Luftbilder und der Bodenbilder erreicht werden.
-
Durch die Berücksichtigung der Luftbilder der Umgebung der mobilen Plattform mit dem Vortraining wird das neuronale Faltungsnetz, durch die ausgeprägte räumliche Anordnung von Merkmalen des Luftbildes dazu trainiert, diskriminierende Merkmale zu lernen und zusätzlich kann die Lokalisierung-Pose genauer bestimmt werden.
-
Um die Fahrzeugposition bzw. die Fahrzeug Lokalisierungs-Pose mit hoher Genauigkeit bestimmen zu können wird nicht die Ähnlichkeit von Bodenbildern und Luftbildern, wie beispielsweise zumindest lokale Teile von Satellitenbildern, verglichen, sondern die Pose einer mobilen Plattform wird aus den bereitgestellten Bodenbildern zusammen mit den entsprechenden lokalen Luftbildern bzw. lokalen Satellitenbildern abgeleitet.
-
Somit wird also ein End-to-End Lernen durchgeführt, das auf Bodenbildern und Luftbildern basiert, um eine gute Skalierbarkeit zu erreichen. Es wird somit der Vorteil von Positionsvorläufern in Bezug auf eine gute Skalierbarkeit mit den Vorteilen der Anwendung von neuronalen Faltungs-Netzwerken kombiniert.
-
Ein neuronales Faltungs-Netzwerk weist im wesentlichen Filtern (Convolutional Layer) und Aggregations-Schichten (Pooling Layer) auf, die sich abwechselnd wiederholen, und kann am Ende des Netzwerkes einer oder mehreren Schichten von „normalen“ vollständig verbundenen Neuronen (DenselFully Connected Layer) aufweisen.
-
Das erste bzw. zweite trainierte neuronale Encoder-Faltungs-Netzwerkteil kann dabei als ein Teil eines neuronalen Faltungs-Netzwerkes ausgestaltet sein oder diese Netzwerkteile können in Form von jeweils einzelnen neuronalen Faltungs-Netzwerken realisiert werden.
-
Sowohl das Bodenbild als auch das Luftbild kann als ein digitales Bild aus unterschiedlichen Perspektiven auf die Umgebung der mobilen Plattform vorliegen und beispielsweise mittels digitaler Kamerasysteme generiert werden. Die Perspektive des Luftbildes auf die Umgebung der mobilen Plattform ist ein Aufsichtsblick (engl. top down view). Ein solches Luftbild kann beispielsweise durch Kamerasysteme von Satelliten, Luftfahrzeugen oder Drohnen generiert werden. Dabei kann ein solches Luftbild sowohl ein einzelnes angefertigtes Luftbild der Umgebung der mobilen Plattform als auch beispielsweise ein Ausschnitt aus einem größeren Luftbild sein, wobei der Ausschnitt insbesondere zentriert um eine geschätzte Pose der mobilen Plattform ist. Insbesondere kann ein solches Luftbild eine Satellitenbildkachel sein, die für eine bestimmte Satellitennavigations-Position, zum Beispiel eine GPS-Position, abgerufen werden kann.
-
Eine Lokalisierungs-Pose der mobilen Plattform ist eine Pose, d.h. eine Definition einer Position mit drei Raumdimensionen und eine Orientierung der mobilen Plattform im Raum, die beispielsweise durch drei Eulerwinkel angegeben werden kann, die durch dieses Verfahren bestimmt wird.
-
Eine Referenz-Pose der mobilen Plattform ist eine Pose, die beispielsweise durch ein Referenzsystem für die Bestimmung der Pose der mobilen Plattform eine sehr genaue Angabe für ein Training der Bestimmung der Lokalisierungs-Pose dieses Verfahrens bereitstellt.
-
Ein Feed-Forward neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben zur Verfügung. Solche neuronalen Netzwerke lernen, Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
-
Ein solches neuronales Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
-
Bei herkömmlichen Implementierungen von neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
-
Ergänzend zu den Ausführungen zum Feed-Forward neuronalen Netz oben besteht der Aufbau eines künstlichen Neuronalen-Faltungs-Netzes (Convolutional Neural Network) aus einer oder mehreren Faltungs-Schichten (convolutional layer), gegebenenfalls gefolgt von einem Pooling Layer. Die Abfolge von Schichten können mit oder ohne Normalisierungs-Schichten (z.B. Batch-Normalisierung), Zero-Padding-Schichten, Dropout-Schichten und Aktivierungs-Funktionen, wie z.B. Rectified Linear Unit ReLU, sigmoid-Funktion, tanh-Funktion oder softmax-Funktion, verwendet werden.
-
Diese Einheiten können sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks.
-
Zum Training einer so definierten Struktur des neuronalen Encoder-Decoder-Faltungsnetzwerkes erhält jedes Neuron z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netz gegeben, und jedes Neuron gewichtet die Eingangs-Signale mit seinem Gewicht und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird ein Ergebnis bereitgestellt. Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neuron an diesem Fehler hatte, und dann das Gewicht jedes Neurons in die Richtung verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, erneute Messungen des Fehlers und Anpassung der Gewichte bis der Fehler unter einer vorgegeben Grenze liegt.
-
In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrensschritten so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fachmann wird aber erkennen, dass viele der Verfahrensschritte auch in einer anderen Reihenfolge durchlaufen werden können und zu dem gleichen Ergebnis führen. In diesem Sinne kann die Reihenfolge der Verfahrensschritte entsprechend geändert werden und ist somit auch offenbart.
-
Unter einer mobilen Plattform kann ein zumindest teilweise automatisiertes System verstanden werden, welches mobil ist, und/oder ein Fahrerassistenzsystem eines Fahrzeugs. Ein Beispiel kann ein zumindest teilweise automatisiertes Fahrzeug bzw. ein Fahrzeug mit einem Fahrerassistenzsystem sein. Das heißt, in diesem Zusammenhang beinhaltet ein zumindest teilweise automatisiertes System eine mobile Plattform in Bezug auf eine zumindest teilweise automatisierte Funktionalität, aber eine mobile Plattform beinhaltet auch Fahrzeuge und andere mobile Maschinen einschließlich Fahrerassistenzsysteme. Weitere Beispiele für mobile Plattformen können Fahrerassistenzsysteme mit mehreren Sensoren, mobile Multisensor-Roboter wie z.B. Roboterstaubsauger oder Rasenmäher, ein Multisensor-Überwachungssystem, eine Fertigungsmaschine, ein persönlicher Assistent, ein Shuttle, ein Robotaxi, ein Schiff, ein Flugzeug, Nutzfahrzeuge oder ein Zugangskontrollsystem sein. Jedes dieser Systeme kann ein vollständig oder teilweise automatisiertes System sein.
-
Gemäß einem Aspekt wird vorgeschlagen, dass die erste Vielzahl von Luftbild-Trainings-Zyklen dadurch bestimmt ist, dass eine Abweichung der jeweiligen bestimmten Lokalisierung-Pose von der jeweiligen Referenz-Pose kleiner als ein vorbestimmter erster Wert ist.
-
Damit kann dann die angestrebte Genauigkeit der Bestimmung der Lokalisierung-Pose in dem ersten Teil des Verfahrens mit der ersten Vielzahl von Luftbild-Trainings-Zyklen festgelegt werden und/oder ein Abbruchkriterium für die erste Vielzahl von Luftbild-Trainings-Zyklen definiert werden.
-
Gemäß einem Aspekt wird vorgeschlagen, dass die zweite Vielzahl von Luftbild-Trainings-Zyklen dadurch bestimmt ist, dass eine Abweichung der jeweiligen bestimmten Lokalisierung-Pose von der jeweiligen Referenz-Pose kleiner als ein vorbestimmter zweiter Wert ist.
-
Damit kann dann die angestrebte Genauigkeit der Bestimmung der Lokalisierung-Pose in dem zweiten Teil des Verfahrens mit der zweiten Vielzahl von Bodenbild-Trainings-Zyklen festgelegt werden und/oder ein Abbruchkriterium für die zweite Vielzahl von Bodenbild-Trainings-Zyklen definiert werden.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Faltungs-Netzwerk, das trainiert werden soll, ein neuronales Encoder-Faltungs-Netzwerk ist oder ein Encoder-Netzwerk.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das Luftbild für das Verfahren zum Trainieren und auch für das Verfahren zur Bestimmung einer Lokalisierung-Pose der Umgebung der mobilen Plattform mittels eines Satelliten, eines Luftfahrzeuges oder einer Drohne generiert wird.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das Luftbild mittels einer Pose, die mit einem globalen Navigationssystem und/oder einem mobilfunkgestützten Navigationssystem bestimmt wurde, selektiert wird.
-
Durch diese Positionsvorgabe mittels eines Navigationssystems kann ein Suchraum für Merkmale reduziert werden und die Bestimmung der Posen mittels der Bodenbilder kann mittels eines reduzierten Datenvolumens feiner geschätzt werden.
-
Gemäß einem Aspekt wird vorgeschlagen, dass beim Adaptieren des neuronalen Faltungs-Netzwerkes Gewichte des neuronalen Faltungs-Netzwerkes in zumindest einigen der Trainings-Zyklen zur Minimierung einer Abweichung der jeweiligen Lokalisierungs-Pose von der jeweiligen Referenz-Pose verändert werden.
-
Gemäß einem Aspekt wird vorgeschlagen, dass, beim Adaptieren des mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierten neuronalen Faltungs-Netzwerkes, Gewichte des mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierten neuronalen Faltungs-Netzwerkes in zumindest einigen der Trainings-Zyklen, zur Minimierung einer Abweichung der jeweiligen Lokalisierungs-Pose von der jeweiligen Referenz-Pose, verändert werden.
-
Es wird ein Verfahren zum Bestimmen einer Lokalisierungs-Pose einer mobilen Plattform vorgeschlagen, wobei die mobile Plattform eingerichtet ist, Bodenbilder einer Umgebung der mobilen Plattform zu generieren. Bei diesem Verfahren wird in einem Schritt ein Bodenbild der Umgebung der mobilen Plattform bereitgestellt. In einem weiteren Schritt wird eine Lokalisierungs-Pose der mobilen Plattform mittels eines, mit Luftbildern und entsprechenden Bodenbildern einer jeweiligen Umgebung mobiler Plattformen sukzessiv trainierten, neuronalen Faltungs-Netzwerkes und dem bereitgestellten Bodenbild, als Eingangssignal des sukzessiv trainierten neuronalen Faltungs-Netzwerkes, generiert.
-
Dieses Verfahren basiert auf einem mit Luftbildern und entsprechenden Bodenbildern einer jeweiligen Umgebung mobiler Plattformen sukzessiv trainierten neuronalen Faltungs-Netzwerk. Dadurch können Merkmale aus einem größeren räumlichen Kontext, wie beispielsweise aus einem Luftbild heraus, bei dem zweistufigen Training des neuronale Netzwerkes, mit den hintereinander geschalteten Luftbild-Trainings-Zyklen und Bodenbild-Trainings-Zyklen, vorteilhafterweise in das Training des neuronalen Faltungs-Netzwerkes eingehen, um eine höhere Genauigkeit der Bestimmung der Lokalisierung-Pose der mobilen Plattform zu erreichen.
-
Dieses Verfahren zur Bestimmung der Lokalisierungs-Pose der mobilen Plattform kann mit verschiedenen bestehenden Verfahren zur Verbesserung der Bestimmung der Pose kombiniert werden. Insbesondere ist dies beispielsweise eine Integration von sequentiellen Informationen und eine Berücksichtigung von geometrischen Einschränkungen, die zu einem weiteren Leistungsgewinn führen kann.
-
Die Hauptvorteile dieses Verfahrens sind die Skalierbarkeit der Anwendung des Verfahrens, da sowohl kontextuelle Informationen als auch großflächige Lokalisierungs- Informationen in das Verfahren eingehen.
-
Darüber hinaus ergibt sich mit diesem Verfahren eine konstante Abfragezeit für die Posenbestimmung, was bei herkömmlichen merkmalsbasierten Methoden nicht zutrifft. Beispielsweise bei einem 3D-3D /2D-3D Feature-Matching wird keine gute Skalierung bei großen Kartengrößen erreicht.
-
Es ergibt sich bei diesem Verfahren eine feste „Kartengröße‟, da die Karte implizit durch die Gewichte des eingestellten und gespeicherten Netzwerks dargestellt wird.
-
Zusätzlich werden mit diesem Verfahren öffentlich zugänglicher Informationen für eine erste geschätzte Pose verwendet und es können beispielsweise für die Luftbilder Satellitenbilder verwendet werden, die wirtschaftlich vorteilhaft sind und keine manuelle Kennzeichnung erfordern.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das mit Luftbilden und entsprechenden Bodenbildern der jeweiligen Umgebung mobiler Plattformen sukzessiv trainierte neuronale Faltungs-Netzwerk gemäß einem der oben beschriebenen Verfahren zum Trainieren eines neuronalen Faltungs-Netzwerkes trainiert wird.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das digitale Bodenbild von der mobilen Plattform bereitgestellt wird.
-
Gemäß einem Aspekt wird vorgeschlagen, dass ein Ausgangssignal beim Bestimmen einer Pose einer mobilen Plattform von dem neuronalen Faltungs-Netzwerk generiert wird, und das Ausgangssignal Werte für eine Bestimmung der Lokalisierungs-Pose aufweist.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Faltungs-Netzwerk eine vollständig verbundene Netzwerk-Schicht aufweist.
-
Dabei sind in vollständig verbundenen Schichten die Neuronen einer Schicht mit allen Neuronen der darauffolgenden Schicht verbunden und werden daher „fullyconnected layer“ (auch ‚Dense-Layer‘) genannt. Es gibt dann so viele Gewichte der neuronalen Schicht, wie es Verbindungen gibt.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Faltungs-Netzwerk ein neuronales Encoder-Faltungs-Netzwerk ist.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das Bodenbild der Umgebung der mobilen Plattform ein digitales Bodenbild ist.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das Bodenbild der Umgebung der mobilen Plattform mittels eines digitalen Kamerasystems generiert wurde.
-
Die Verwendung digitaler Kamerasysteme hat den Vorteil, dass die dabei generierten digitalen Bilder einfach weiterverarbeitet werden können.
-
Gemäß einem Aspekt wird vorgeschlagen, dass das Bodenbild der Umgebung der mobilen Plattform mittels einer Frontkamera der mobilen Plattform aus der Perspektive der mobilen Plattform generiert wird.
-
Gemäß einem Aspekt wird vorgeschlagen, dass, basierend auf einer Lokalisierungs-Pose, ein Steuersignal zur Ansteuerung einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird; und/oder dass, basierend auf der Lokalisierung-Pose, ein Warnsignal zur Warnung eines Insassen der zumindest teilautomatisierten mobilen Plattform bereitgestellt wird.
-
Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass ein Steuersignal, basierend auf der Lokalisierungs-Pose, bereitgestellt wird, breit zu verstehen. Es ist so zu verstehen, dass die Lokalisierungs-Pose für jedwede Bestimmung oder Berechnung eines Steuersignals herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen für diese Bestimmung des Steuersignals herangezogen werden. Das gleiche gilt sinngemäß für das Bereitstellen eines Warnsignals.
-
Es wird eine Vorrichtung angegeben, die eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen. Mit einer solchen Vorrichtung kann das Verfahren leicht in unterschiedliche Systeme integriert werden.
-
Es wird ein Computerprogramm angegeben, das Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfahrens in unterschiedlichen Systemen.
-
Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist.
-
Figurenliste
-
Ausführungsbeispiele der Erfindung werden mit Bezug auf die 1 und 2 dargestellt und im Folgenden näher erläutert. Es zeigen:
- 1 ein Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Faltungs-Netzwerkes zum Bestimmen einer Lokalisierungs-Pose; und
- 2 ein Flussdiagramm eines Verfahrens zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform.
-
Die 1 skizziert schematisch mit einem Datenflussdiagramm ein Verfahren 100 zum Trainieren eines neuronalen Faltungs-Netzwerkes 110 um mit dem neuronalen Faltungs-Netzwerk (110) eine Lokalisierungs-Pose (150) einer mobilen Plattform mit einem Bodenbild (140) zu bestimmen.
-
Dabei weist das Verfahren 100 eine erste Vielzahl von Luftbild-Trainings-Zyklen auf, wobei jeder Luftbild-Trainings-Zyklus die folgenden Schritte aufweist:
- In einem Schritt S1 eines Luftbild-Trainings-Zyklus wird eine Referenz-Pose 120 der mobilen Plattform bereitgestellt. In einem weiteren Schritt S2 wird ein Luftbild 130 der Umgebung der mobilen Plattform in der Referenz-Pose 120 bereitgestellt. In einem weiteren Schritt S3 wird das Luftbild 130 als Eingangssignal des neuronalen Faltungs-Netzwerkes 110 verwendet. In einem weiteren Schritt S4 wird die jeweilige Lokalisierungs-Pose 150 mittels eines Ausgangssignals des neuronalen Faltungs-Netzwerkes 110 bestimmt. In einem weiteren Schritt S5 wird das neuronale Faltungs-Netzwerk 110 zur Minimierung einer Abweichung der jeweiligen, mit dem jeweiligen Luftbild 130 bestimmten,
- Lokalisierungs-Pose 150 von der jeweiligen Referenz-Pose 120 adaptiert.
- In weiteren Schritten trainiert das Verfahren 100 das, mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierten, neuronalen Faltungs-Netzwerk 110 mit einer zweiten Vielzahl von Bodenbild-Trainings-Zyklen, wobei jeder Bodenbild-Trainings-Zyklus die Schritte folgenden aufweist:
- In einem Schritt S6 wird eine Referenz-Pose 120 der mobilen Plattform bereitgestellt. In einem weiteren Schritt S7 wird ein Bodenbild 140 der Umgebung der mobilen Plattform in der Referenz-Pose 120 bereitgestellt. In einem weiteren Schritt S8 wird das Bodenbild 140 als Eingangssignal des neuronalen Faltungs-Netzwerkes 110 verwendet. In einem weiteren Schritt S9 wird die Lokalisierungs-Pose 150 mittels des Ausgangssignals des neuronalen Faltungs-Netzwerkes 110 bestimmt. In einem weiteren Schritt S10 wird das, mit der ersten Vielzahl von Luftbild-Trainings-Zyklen trainierte, neuronalen Faltungs-Netzwerk 110 zur Minimierung einer Abweichung der jeweiligen, mit dem jeweiligen Bodenbild 140 bestimmten, Lokalisierungs-Pose 150 von der jeweiligen Referenz-Pose 120 adaptiert, um ein trainiertes neuronales Faltungs-Netzwerk 110 für ein Bestimmen einer Lokalisierungs-Pose 150 mit einem Bodenbild 130 bereitzustellen. Dabei kann das neuronale Faltungs-Netzwerk 110 eine erste Anzahl von Faltungs-Schichten 112 und eine zweite Anzahl von vollständig verbundenen Schichten 114 (fully connected layer) aufweisen. Wobei sich die zweite Anzahl der vollständig verbunden Schichten 114 in der Schichtenfolge des neuronalen Faltungs-Netzwerkes 110 an die erste Anzahl von Faltungs-Schichten 112 anschließen kann.
-
Die 2 skizziert schematisch mit einem Datenflussdiagramm das Verfahren 200 zum Bestimmen einer Lokalisierungs-Pose 150 einer mobilen Plattform, wobei die mobile Plattform eingerichtet ist Bodenbilder 140 einer Umgebung der mobilen Plattform zu generieren. Bei diesem Verfahren wird in einem Schritt S21 ein Bodenbild 140 der Umgebung der mobilen Plattform bereitgestellt. In einem weiteren Schritt S22 wird eine Lokalisierungs-Pose 150 der mobilen Plattform mittels eines, mit Luftbildern 130 und entsprechenden Bodenbildern 140 einer jeweiligen Umgebung mobiler Plattformen sukzessiv trainierten, neuronalen Faltungs-Netzwerkes 110 und dem bereitgestellten Bodenbild 140, als Eingangssignal des sukzessiv trainierten neuronalen Faltungs-Netzwerkes 110, generiert.
-
Dabei kann das mit Luftbilden 130 und entsprechenden Bodenbildern 140 der jeweiligen Umgebung mobiler Plattformen sukzessiv trainierte neuronale Faltungs-Netzwerk 110 gemäß dem in der 1 beschriebenen Verfahren 100 trainiert worden sein.