DE102019215261A1

DE102019215261A1 - Verfahren zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform

Info

Publication number: DE102019215261A1
Application number: DE102019215261.9A
Authority: DE
Inventors: Carsten Hasberg; Tayyab Naseer; Piyapat Saranrittichai
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-10-02
Filing date: 2019-10-02
Publication date: 2021-04-08
Also published as: US20210104065A1; US11854225B2; CN112598730A

Abstract

Es wird ein Verfahren zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform vorgeschlagen, wobei die mobile Plattform eingerichtet ist Bodenbilder einer Umgebung der mobilen Plattform zu generieren und eingerichtet ist Luftbilder der Umgebung der mobilen Plattform von einem Luftbilder-System zu empfangen, mit den Schritten:Bereitstellen eines digitalen Bodenbildes (S1) der Umgebung der mobilen Plattform;Empfang eines Luftbildes (S2) der Umgebung der mobilen Plattform;Generieren der Lokalisierungs-Pose (S3) der mobilen Plattform mittels eines trainierten neuronalen Faltungs-Netzwerkes, das einen ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteil und einen zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteil aufweist.

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform mittels eines Luftbildes und eines Bodenbildes der Umgebung der mobilen Plattform.
Stand der Technik
Eine präzise Lokalisierung ist Voraussetzung für ein Fahren einer zumindest teilautomatisierten Plattform, wie beispielsweise von autonom betriebenen Fahrzeugen.
Für eine Lokalisierung einer solchen mobilen Plattform mittels Bodenbildern der Umgebung dieser mobilen Plattform wurden eine Vielzahl von unterschiedlichen Ansätzen verfolgt, die typischerweise merkmalsbasiert in Bezug auf die Umgebung der mobilen Plattform sind, wobei diese Merkmale dann über eine hochauflösende Karte einer Pose der mobilen Plattform zugeordnet werden.
Offenbarung der Erfindung
Allerdings ist die Verwendung einer solchen hochauflösenden Karte ist mit wirtschaftlichen Nachteilen verbunden. Tiefe lernbasierte Verfahren für die Bestimmung einer Pose mittels einer Regression auf der Basis von Bodenbildern haben dagegen den Vorteil einer festgelegten Größe einer entsprechenden Karte und eine konstante Abfragezeit. Mit monokularen Bildern, Videobildfolgen und Tiefenbilder aus der direkten Kameraposition kann mit solchen Verfahren eine Lokalisierung bestimmt werden. Dabei stellt eine Lokalisierung in sehr großem geographischen Gebiet in Bezug auf die Kapazität eines solchen neuronalen Netzwerks, beispielsweise in einem größeren Stadtbereich, in Bezug auf eine Skalierbarkeit eine Herausforderung dar.
Die vorliegende Erfindung offenbart ein Verfahren zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform, ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerkes zum Bestimmen einer Lokalisierungs-Pose, ein Verfahren zur Ansteuerung einer mobilen Plattform, ein Computerprogramm, sowie ein maschinenlesbares Speichermedium gemäß den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
Die Erfindung beruht auf der Erkenntnis, dass ein räumlicher Kontext und eine Perspektive der Umgebung einer mobilen Plattform mittels Luftbildern, die beispielsweise um eine geschätzte Position der mobilen Plattform herum zentriert sind, verwendet werden können, um zusammen mit Bodenbildern ein neuronales Netz zu trainieren eine Pose der mobilen Plattform zu bestimmen. Insbesondere kann dies ermöglichen nicht eindeutige Merkmale aus Bodenbildern korrekt über ein größeres geographisches Gebiet hinweg zuzuordnen.
Gemäß einem Aspekt wird ein Verfahren zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform vorgeschlagen, wobei die mobile Plattform eingerichtet ist Bodenbilder einer Umgebung der mobilen Plattform zu generieren und eingerichtet ist Luftbilder der Umgebung der mobilen Plattform von einem Luftbilder-System zu empfangen. In einem Schritt des Verfahrens wird ein digitales Bodenbild der Umgebung der mobilen Plattform bereitgestellt. In einem weiteren Schritt wird ein Luftbild der Umgebung der mobilen Plattform empfangen.
In einem weiteren Schritt wird die Lokalisierungs-Pose der mobilen Plattform mittels eines trainierten neuronalen Faltungs-Netzwerkes generiert, wobei das neuronale Faltungs-Netzwerk einen ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteil und einen zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteil aufweist.
Vorteilhafterweise kann mit diesem Verfahren mittels visueller Bodenbilder und visuellen Luftbildern der Umgebung der mobilen Plattform eine Lokalisierungs-Pose bestimmt werden ohne eine hochauflösende Karte zu benutzen. Somit werden also Luftbilder zu einer Vorbestimmung einer Pose der mobilen Plattform für das Training eines neuronalen Faltungs-Netzwerkes verwendet. Da dieses Verfahren nicht auf handgefertigten Merkmalen basiert, lässt es sich gut in Bezug auf größere geographische Gebiete skalieren.
Mit diesem Verfahren, das auf einem trainierten neuronalen Faltungs-Netzwerk basiert, können Merkmale aus einem größeren räumlichen Kontext, wie beispielsweise aus einem Luftbild heraus zusammen mit einem Bodenbild lernen die Pose der mobilen Plattform im Stadtmaßstab genau zu bestimmen. Dabei kann das Luftbild in Form eines Satellitenbildes vorliegen und das Bodenbild von der mobilen Plattform mittels eines digitalen Kamerasystems generiert werden.
Ein neuronales Faltungs-Netzwerk weist im wesentlichen Filtern (Convolutional Layer) und Aggregations-Schichten (Pooling Layer) auf, die sich abwechselnd wiederholen, und kann am Ende des Netzwerkes einer oder mehreren Schichten von „normalen“ vollständig verbundenen Neuronen (DenselFully Connected Layer) aufweisen.
Das erste bzw. zweite trainierte neuronale Encoder-Faltungs-Netzwerkteil kann dabei als ein Teil eines neuronalen Faltungs-Netzwerkes ausgestaltet sein oder diese Netzwerkteile können in Form von jeweils einzelnen neuronalen Faltungs-Netzwerken realisiert werden.
Sowohl das Bodenbild als auch das Luftbild kann als ein digitales Bild aus unterschiedlichen Perspektiven auf die Umgebung der mobilen Plattform vorliegen und beispielsweise mittels digitaler Kamerasysteme generiert werden. Die Perspektive des Luftbildes auf die Umgebung der mobilen Plattform ist ein Aufsichtsblick (engl. top down view). Ein solches Luftbild kann beispielsweise durch Kamerasysteme von Satelliten, Luftfahrzeugen oder Drohnen generiert werden. Dabei kann ein solches Luftbild sowohl ein einzelnes angefertigtes Luftbild der Umgebung der mobilen Plattform als auch beispielsweise ein Ausschnitt aus einem größeren Luftbild sein, wobei der Ausschnitt insbesondere zentriert um eine geschätzte Pose der mobilen Plattform ist. Insbesondere kann ein solches Luftbild eine Satellitenbildkachel sein, die für eine bestimmte Satellitennavigations-Position, zum Beispiel eine GPS-Position, abgerufen werden kann.
Eine Lokalisierungs-Pose der mobilen Plattform ist eine Pose, d.h. eine Definition einer Position mit drei Raumdimensionen und eine Orientierung der mobilen Plattform im Raum, die beispielsweise durch drei Eulerwinkel angegeben werden kann, die durch dieses Verfahren bestimmt wird.
Eine Referenz-Pose der mobilen Plattform ist eine Pose, die beispielsweise durch ein Referenzsystem für die Bestimmung der Pose der mobilen Plattform eine sehr genaue Angabe für ein Training der Bestimmung der Lokalisierungs-Pose dieses Verfahrens bereitstellt.
Ein Feed-Forward neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben zur Verfügung. Solche neuronalen Netzwerke lernen, Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
Ein solches neuronales Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
Bei herkömmlichen Implementierungen von neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
Ergänzend zu den Ausführungen zum Feed-Forward neuronalen Netz oben besteht der Aufbau eines künstlichen Neuronalen-Faltungs-Netzes (Convolutional Neural Network) aus einer oder mehreren Faltungs-Schichten (convolutional layer), gegebenenfalls gefolgt von einem Pooling Layer. Die Abfolge von Schichten können mit oder ohne Normalisierungs-Schichten (z.B. Batch-Normalisierung), Zero-Padding-Schichten, Dropout-Schichten und Aktivierungs-Funktionen, wie z.B. Rectified Linear Unit ReLU, sigmoid-Funktion, tanh-Funktion oder softmax-Funktion, verwendet werden.
Diese Einheiten können sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks.
Zum Training einer so definierten Struktur des neuronalen Encoder-Decoder-Faltungsnetzwerkes erhält jedes Neuron z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netz gegeben, und jedes Neuron gewichtet die Eingangs-Signale mit seinem Gewicht und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird ein Ergebnis bereitgestellt. Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neuron an diesem Fehler hatte, und dann das Gewicht jedes Neurons in die Richtung verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, erneute Messungen des Fehlers und Anpassung der Gewichte bis der Fehler unter einer vorgegeben Grenze liegt.
In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrensschritten so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fachmann wird aber erkennen, dass viele der Verfahrensschritte auch in einer anderen Reihenfolge durchlaufen werden können und zu dem gleichen Ergebnis führen. In diesem Sinne kann die Reihenfolge der Verfahrensschritte entsprechend geändert werden und ist somit auch offenbart.
Unter einer mobilen Plattform kann ein zumindest teilweise automatisiertes System verstanden werden, welches mobil ist, und/oder ein Fahrerassistenzsystem eines Fahrzeugs. Ein Beispiel kann ein zumindest teilweise automatisiertes Fahrzeug bzw. ein Fahrzeug mit einem Fahrerassistenzsystem sein. Das heißt, in diesem Zusammenhang beinhaltet ein zumindest teilweise automatisiertes System eine mobile Plattform in Bezug auf eine zumindest teilweise automatisierte Funktionalität, aber eine mobile Plattform beinhaltet auch Fahrzeuge und andere mobile Maschinen einschließlich Fahrerassistenzsysteme. Weitere Beispiele für mobile Plattformen können Fahrerassistenzsysteme mit mehreren Sensoren, mobile Multisensor-Roboter wie z.B. Roboterstaubsauger oder Rasenmäher, ein Multisensor-Überwachungssystem, eine Fertigungsmaschine, ein persönlicher Assistent, ein Shuttle, ein Robotaxi, ein Schiff, ein Flugzeug, Nutzfahrzeuge oder ein Zugangskontrollsystem sein. Jedes dieser Systeme kann ein vollständig oder teilweise automatisiertes System sein.
Gemäß einem Aspekt wird vorgeschlagen, dass für das Generieren der Lokalisierungs-Pose in einem Schritt das Bodenbild als Eingangssignal des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils eingegeben wird, um einen ersten Encoding-Vektor zu bilden. In einem weiteren Schritt wird das Luftbild als Eingangssignal des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteiles eingegeben, um einen zweiten Encoding-Vektor zu bilden. Und in einem weiteren Schritt wird die Lokalisierungs-Pose der mobilen Plattform mittels fusioniertem ersten und zweiten Encoding-Vektor generiert.
Dabei bedeutet das Eingeben des Eingangssignals an das neuronale Netzwerk, dass das Signal, also das Bodenbild oder das Luftbild an die Eingangsschicht des neuronalen Netzwerkes übergeben wird.
Gemäß einem Aspekt wird vorgeschlagen, dass zumindest eine Schicht des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils und zumindest eine entsprechende Schicht des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteils identische Gewichte aufweisen.
Bei diesem Verfahren werden dem neuronalen Faltungs-Netzwerk sowohl ein Bodenbild, wie beispielsweise RGB-Bild von der Frontkamera einer mobilen Plattform, als auch ein Luftbild, wie beispielsweise ein Satellitenbild, bereitgestellt. Durch die gemeinsamen Gewichte zumindest einer frühen Faltungsschicht der beider Netzwerke, wird dem neuronalen Netzwerk ermöglicht, diese unterschiedlichen Informationen in einem früheren Stadium zwischen den beiden Netzwerkteilen auszutauschen, bevor die Ausgangssignale der beiden Netzwerkteile später für die endgültige Posenregression fusionieren. Bei der Fusion der beiden Ausgangssignale der beiden Netzwerkteile werden die Merkmale mittels vollständig verbundenen Schichten fusioniert, um die Pose zu bestimmen.
Mit anderen Worten hilft dieses Verfahren, Bodenbilder zu disambiguieren, die sehr ähnlich aussehen, aber räumlich weit auseinander liegen. Ohne den beschriebenen Austausch der Gewichte würden sowohl das Luftbild als auch das Bodenbild zu einer ähnlichen Pose für diese Bilder führen. Durch die Berücksichtigung der Luftbilder der Umgebung der mobilen Plattform mit diesem Verfahren wird das neuronale Faltungsnetz durch die ausgeprägte räumliche Anordnung von Merkmalen des Luftbildes dazu trainiert, diskriminierende Merkmale zu lernen und zusätzlich kann die Pose genauer bestimmt werden.
Um die Fahrzeugposition bzw. die Fahrzeug Lokalisierungs-Pose mit hoher Genauigkeit bestimmen zu können wird nicht die Ähnlichkeit von Bodenbildern und Luftbildern, wie beispielsweise zumindest lokale Teile von Satellitenbildern, verglichen, sondern die Pose einer mobilen Plattform wird aus den bereitgestellten Bodenbildern zusammen mit den entsprechenden lokalen Luftbildern bzw. lokalen Satellitenbildern abgeleitet.
Somit wird also ein End-to-End Lernen durchgeführt, das auf Bodenbildern und Luftbildern basiert, um eine gute Skalierbarkeit zu erreichen. Es wird somit der Vorteil von Positionsvorläufern in Bezug auf eine gute Skalierbarkeit mit den Vorteilen der Anwendung von neuronalen Faltungs-Netzwerken kombiniert.
Gemäß einem Aspekt wird vorgeschlagen, dass der erste Encoding-Vektor und der zweite Encoding-Vektor fusioniert werden, indem der erste Encoding-Vektor und der zweite Encoding-Vektor aneinandergefügt werden und mit zumindest einer Ausgangsschicht eines Fusionsteils des neuronalen Faltungs-Netzwerkes vollständig verbunden sind, wobei ein Ausgangssignal der Ausgangsschicht die Lokalisierungs-Pose angibt.
Dabei sind in vollständig verbundenen Schichten die Neuronen einer Schicht mit allen Neuronen der darauffolgenden Schicht verbunden und werden daher „fullyconnected layer“ genannt.
Gemäß einem Aspekt wird vorgeschlagen, dass das Luftbild der Umgebung der mobilen Plattform mittels eines Satelliten, eines Luftfahrzeuges oder einer Drohne generiert wurde.
Gemäß einem Aspekt wird vorgeschlagen, dass das Luftbild mittels einer Pose der mobilen Plattform, die mit einem globalen Navigationssystem und/oder einem mobilfunkgestützten Navigationssystem bestimmt wurde, selektiert wird. Durch diese Positionsvorgabe mittels eines Navigationssystems wird der Suchraum für die Merkmale reduziert und die Bestimmung der Posen mittels der Bodenbilder kann mittels eines reduzierten Datenvolumens feiner geschätzt werden.
Gemäß einem weiteren Aspekt wird vorgeschlagen, dass das Bodenbild der Umgebung der mobilen Plattform mittels eines digitalen Kamerasystems generiert wurde.
Dabei wird das Bodenbild typischerweise von einer Front-Kamera der mobilen Plattform mit der entsprechenden Perspektive mittels eines digitalen Kamerasystems generiert.
Dieses Verfahren zur Bestimmung der Lokalisierungs-Pose der mobilen Plattform kann mit verschiedenen bestehenden Verfahren zur Verbesserung der Bestimmung der Pose kombiniert werden. Insbesondere ist dies beispielsweise eine Integration von sequentiellen Informationen und eine Berücksichtigung von geometrischen Einschränkungen, die zu einem weiteren Leistungsgewinn führen kann.
Die Hauptvorteile dieses Verfahrens sind die Skalierbarkeit der Anwendung des Verfahrens, da sowohl kontextuelle Informationen als auch großflächige Lokalisierungs- Informationen in das Verfahren eingehen.
Darüber hinaus ergibt sich mit diesem Verfahren eine konstante Abfragezeit für die Posenbestimmung, was bei herkömmlichen merkmalsbasierten Methoden nicht zutrifft. Beispielsweise bei einem 3D-3D /2D-3D Feature-Matching wird keine gute Skalierung bei großen Kartengrößen erreicht.
Es ergibt sich bei diesem Verfahren eine feste „Kartengröße‟, da die Karte implizit durch die Gewichte des eingestellten und gespeicherten Netzwerks dargestellt wird.
Zusätzlich werden mit diesem Verfahren öffentlich zugänglicher Informationen für eine erste geschätzte Pose verwendet und es können beispielsweise für die Luftbilder Satellitenbilder verwendet werden, die wirtschaftlich vorteilhaft sind und keine manuelle Kennzeichnung erfordern.
Gemäß einem Aspekt wird ein Verfahren zum Generieren eines trainierten neuronalen Faltungs-Netzwerkes, zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform, mittels eines Bodenbildes einer Umgebung der mobilen Plattform und eines Luftbildes der Umgebung der mobilen Plattform vorgeschlagen. Dabei weist das neuronale Faltungs-Netzwerk einen ersten neuronalen Encoder-Faltungs-Netzwerkteil und einen zweiten neuronalen Encoder-Faltungs-Netzwerkteil und einen Fusionsteil auf.
Das trainierte neuronale Faltungs-Netzwerk wird mit einer Vielzahl von Trainings-Zyklen generiert, wobei jeder Trainings-Zyklus die folgenden Schritte aufweist. In einem Schritt wird eine Referenz-Pose der zumindest teilautomatisierten mobilen Plattform bereitgestellt. In einem weiteren Schritt wird ein Bodenbild der Umgebung der mobilen Plattform in der Referenz-Pose bereitgestellt. In einem weiteren Schritt wird ein Luftbild der Umgebung der mobilen Plattform in der Referenz-Pose bereitgestellt. In einem weiteren Schritt wird das Bodenbild als Eingangssignal des ersten neuronalen Encoder-Faltungs-Netzwerkteils verwendet, um ein erstes Ausgangssignal zu generieren. In einem weiteren Schritt wird das Luftbild als Eingangssignal des zweiten neuronalen Encoder-Faltungs-Netzwerkteils verwendet, um ein zweites Ausgangssignal zu generieren. In einem weiteren Schritt wird die Lokalisierungs-Pose mittels des Fusionsteils, der das erste Ausgangssignal und das zweite Ausgangssignal fusioniert bestimmt. Und in einem weiteren Schritt wird das neuronale Faltungs-Netzwerk adaptiert, um bei der Bestimmung der jeweiligen bestimmten Lokalisierungs-Pose eine Abweichung von der jeweiligen Referenz-Pose zu minimieren.
Gemäß einem Aspekt wird vorgeschlagen, dass das Fusionieren des ersten Ausgangssignals und des zweiten Ausgangssignals für das Generieren des trainierten neuronalen Faltungs-Netzwerkes, die folgenden Schritte aufweist. In einem Schritt wird ein erster Encoding-Vektor mit dem ersten Ausgangssignal gebildet. In einem weiteren Schritt wird ein zweiter Encoding-Vektor mit dem zweiten Ausgangssignal gebildet. In einem weiteren Schritt wird der erste Encoding-Vektor und der zweite Encoding-Vektor, durch Aneinanderfügen des ersten Encoding-Vektors und des zweiten Encoding-Vektors und einem vollständigen Verbinden der aneinandergefügten Encoding-Vektoren mit einer Ausgangsschicht des Fusionsteils des neuronalen Faltungs-Netzwerks fusioniert, wobei die Ausgangsschicht die Lokalisierungs-Pose angibt.
Gemäß einem Aspekt wird vorgeschlagen, dass beim Adaptieren, oder mit anderen Worten das Trainieren, des neuronalen Faltungs-Netzwerkes zumindest eine Schicht des ersten neuronalen Encoder-Faltungs-Netzwerkteils und eine korrespondierende Schicht des zweiten neuronalen Encoder-Faltungs-Netzwerkteils entsprechende Gewichte der korrespondierenden Schichten gegenseitig austauschen.
Es wird ein Verfahren vorgeschlagen, bei dem, basierend auf der Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform, ein Steuersignal zur Ansteuerung der mobilen Plattform bereitgestellt wird. Alternativ oder zusätzlich wird, basierend auf der Lokalisierungs-Pose der zumindest teilautomatisierten mobilen Plattform, ein Warnsignal zur Warnung eines Fahrzeuginsassen bereitgestellt.
Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass ein Steuersignal basierend auf der Lokalisierungs-Pose bereitgestellt wird, breit zu verstehen. Es ist so zu verstehen, dass die Lokalisierungs-Pose für jedwede Bestimmung oder Berechnung eines Steuersignals herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen für diese Bestimmung des Steuersignals herangezogen werden. Das gleiche gilt sinngemäß für das Bereitstellen eines Warnsignals.
Es wird eine Vorrichtung angegeben, die eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen. Mit einer solchen Vorrichtung kann das Verfahren leicht in unterschiedliche Systeme integriert werden.
Es wird ein Computerprogramm angegeben, das Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfahrens in unterschiedlichen Systemen.
Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist.
Figurenliste
Ausführungsbeispiele der Erfindung werden mit Bezug auf die 1 und 2 dargestellt und im Folgenden näher erläutert. Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum Bestimmen einer Lokalisierungs-Pose einer zumindest teilautomatisierten mobilen Plattform; und
2 ein Flussdiagramm eines Verfahrens zum Generieren eines trainierten neuronalen Faltungs-Netzwerkes zum Bestimmen einer Lokalisierungs- Pose.

Die 1 skizziert schematisch mit einem Datenflussdiagramm das Verfahren 100 zum Bestimmen einer Lokalisierungs-Pose 130 einer zumindest teilautomatisierten mobilen Plattform. Ein digitales Bodenbild 110 der Umgebung der mobilen Plattform kann beispielsweise durch die mobile Plattform selbst bereitgestellt werden S1, die beispielsweise durch ein digitales Kamerasystem eingerichtet ist diese Bodenbilder zu generieren.
Zusätzlich wird ein Luftbild der Umgebung der mobilen Plattform durch die mobile Plattform beispielsweise von einem Luftbilder-System empfangen S2. Ein solches Luftbilder-System kann beispielsweise das Luftbild 120 der Umgebung der mobilen Plattform mittels eines Satelliten, eines Luftfahrzeuges oder einer Drohne generieren. Um das Luftbild 120 der Umgebung der mobilen Plattform beispielsweise zu generieren oder zu selektieren kann eine Pose der mobilen Plattform mittels eines globalen Navigationssystems und/oder eines mobilfunkgestützten Navigationssystems bestimmt werden. Dabei kann die mobile Plattform selbst mit einem System eingerichtet sein, das eine solche Vorbestimmung der Pose mittels eines globalen Navigationssystems und/oder eines Mobilfunk gestützten Navigationssystems bestimmt.
Die Lokalisierungs-Pose der mobilen Plattform wird dann mittels eines trainierten neuronalen Faltungs-Netzwerkes generiert S3, wobei das neuronale Faltungs-Netzwerk einen ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteil 112, 114, 116 und einen zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteil 122, 124, 126 aufweist.
Für das Generieren S3 der Lokalisierungs-Pose 130 der mobilen Plattform wird das Bodenbild 110 als Eingangssignal des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils 112, 114, 116 eingegeben S4, um einen ersten Encoding-Vektor 116 zu bilden. Parallel dazu wird das Luftbild 120 als Eingangssignal des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteiles 122, 124, 126 eingegeben S5, um einen zweiten Encoding-Vektor 126 zu bilden. Mittels der Fusion des ersten Encoding-Vektors 116 und des zweiten Encoding-Vektors 126 wird die Lokalisierungs-Pose 130 der mobilen Plattform generiert S6. Zumindest eine Schicht 112 des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils 112, 114, 116 und zumindest eine entsprechende Schicht 122 des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteils 122, 124, 126 weisen dazu identische Gewichte auf. Der erste Encoding-Vektor 116 und der zweite Encoding-Vektor 126 werden dabei fusioniert, indem der erste Encoding-Vektor 116 und der zweite Encoding-Vektor 126 aneinandergefügt werden und mit zumindest einer Ausgangsschicht eines Fusionsteils 118 des neuronalen Faltungs-Netzwerkes vollständig verbunden sind, wobei ein Ausgangssignal der Ausgangsschicht des Fusionsteils des neuronalen Faltungs-Netzwerkes die Lokalisierungs-Pose 130 angibt.
Die 2 skizziert schematisch mit einem Datenflussdiagramm das Verfahren 200 zum Generieren eines trainierten neuronalen Faltungs-Netzwerkes, zum Bestimmen einer Lokalisierungs-Pose 130 einer zumindest teilautomatisierten mobilen Plattform, mittels eines Bodenbildes 110 einer Umgebung der mobilen Plattform und eines Luftbildes 120 der Umgebung der mobilen Plattform. Das neuronale Faltungs-Netzwerk weist einen ersten neuronalen Encoder-Faltungs-Netzwerkteil 112, 114, 116 und einen zweiten neuronalen Encoder-Faltungs-Netzwerkteil 122, 124, 126 und einen Fusionsteil 118 auf.
Das trainierte neuronale Faltungs-Netzwerk 140 wird mit einer Vielzahl von Trainings-Zyklen generiert, wobei jeder Trainings-Zyklus die folgenden Schritte aufweist.
In einem Schritt S21 wird eine Referenz-Pose 220 der zumindest teilautomatisierten mobilen Plattform bereitgestellt. In einem weiteren Schritt S22 wird ein Bodenbild 110 der Umgebung der mobilen Plattform in der Referenz-Pose 220 bereitgestellt. In einem weiteren Schritt S23 wird ein Luftbild der Umgebung der mobilen Plattform in der Referenz-Pose 220 bereitgestellt. In einem weiteren Schritt S24 wird das Bodenbild 220 als Eingangssignal des ersten neuronalen Encoder-Faltungs-Netzwerkteils 112, 114, 116 verwendet, um ein erstes Ausgangssignal zu generieren. In einem weiteren Schritt S25 wird das Luftbild 120 als Eingangssignal des zweiten neuronalen Encoder-Faltungs-Netzwerkteils 122, 124, 12 verwendet, um ein zweites Ausgangssignal zu generieren. In einem weiteren Schritt wird die Lokalisierungs-Pose 130 mittels des Fusionsteils 118, der das erste Ausgangssignal und das zweite Ausgangssignal fusioniert bestimmt S 26. Und in einem weiteren Schritt S27 wird das neuronale Faltungs-Netzwerk adaptiert, um bei der Bestimmung der jeweiligen bestimmten Lokalisierungs-Pose 130 eine Abweichung von der jeweiligen Referenz-Pose 220 zu minimieren.
Bei dem Adaptieren S27 des neuronalen Faltungs-Netzwerkes werden von zumindest eine Schicht 112 des ersten neuronalen Encoder-Faltungs-Netzwerkteils 112, 114, 116 und eine korrespondierende Schicht 122 des zweiten neuronalen Encoder-Faltungs-Netzwerkteils 122, 124, 126 entsprechende Gewichte der korrespondierenden Schichten 112, 122 gegenseitig ausgetauscht, damit die entsprechenden Schichten nach dem Training identische Gewichte aufweisen.
Das Fusionieren des ersten Ausgangssignals und des zweiten Ausgangssignals für das Generieren des trainierten neuronalen Faltungs-Netzwerkes, weist die folgenden Schritte auf. In einem Schritt S28 wird ein erster Encoding-Vektor 116 mit dem ersten Ausgangssignal gebildet. In einem weiteren Schritt S29 wird ein zweiter Encoding-Vektor 126 mit dem zweiten Ausgangssignal gebildet. In einem weiteren Schritt S30 wird der erste Encoding-Vektor 116 und der zweite Encoding-Vektor 126, durch aneinanderfügen des ersten Encoding-Vektors 116 und des zweiten Encoding-Vektors 126 und einem vollständigen Verbinden der aneinandergefügten Encoding-Vektoren 116, 126 mit einer Ausgangsschicht des Fusionsteils 118 des neuronalen Faltungs-Netzwerks fusioniert, wobei die Ausgangsschicht die Lokalisierungs-Pose 130 angibt.

Claims

Verfahren (100) zum Bestimmen einer Lokalisierungs-Pose (130) einer zumindest teilautomatisierten mobilen Plattform, wobei die mobile Plattform eingerichtet ist Bodenbilder (110) einer Umgebung der mobilen Plattform zu generieren und eingerichtet ist Luftbilder (120) der Umgebung der mobilen Plattform von einem Luftbilder-System zu empfangen, mit den Schritten: Bereitstellen eines digitalen Bodenbildes (110) (S1) der Umgebung der mobilen Plattform; Empfang eines Luftbildes (120) (S2) der Umgebung der mobilen Plattform; Generieren der Lokalisierungs-Pose (130) (S3) der mobilen Plattform mittels eines trainierten neuronalen Faltungs-Netzwerkes (140), das einen ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteil (112, 114, 116) und einen zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteil (122, 124, 126) aufweist.
Verfahren (100) gemäß Anspruch 1, wobei das Generieren der Lokalisierungs-Pose (130) die folgenden Schritte aufweist: Eingabe des Bodenbildes (110) (S4) als Eingangssignal des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils (112, 114, 116), um einen ersten Encoding-Vektor (116) zu bilden; Eingabe des Luftbildes (120) (S5) als Eingangssignal des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteiles (122, 124, 126), um einen zweiten Encoding-Vektor (126) zu bilden; und Generieren der Lokalisierungs-Pose (130) (S6) der mobilen Plattform mittels fusioniertem ersten und zweiten Encoding-Vektor (116, 126).
Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei zumindest eine Schicht (112) des ersten trainierten neuronalen Encoder-Faltungs-Netzwerkteils (112, 114, 116) und zumindest eine entsprechende Schicht (122) des zweiten trainierten neuronalen Encoder-Faltungs-Netzwerkteils (122, 124, 126) identische Gewichte aufweisen.
Verfahren (100) gemäß dem Anspruch 2 oder 3, wobei der erste Encoding-Vektor (116) und der zweite Encoding-Vektor (126) fusioniert werden, indem der erste Encoding-Vektor (116) und der zweite Encoding-Vektor (126) aneinandergefügt werden und mit zumindest einer Ausgangsschicht eines Fusionsteils (118) des neuronalen Faltungs-Netzwerkes (140) vollständig verbunden sind, wobei ein Ausgangssignal der Ausgangsschicht die Lokalisierungs-Pose (130) angibt.
Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei das Luftbild (120) der Umgebung der mobilen Plattform mittels eines Satelliten, eines Luftfahrzeuges oder einer Drohne generiert wurde.
Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei das Luftbild (120) mittels einer Pose der mobilen Plattform, die mit einem globalen Navigationssystem und/oder einem mobilfunkgestützten Navigationssystem bestimmt wurde, selektiert wird.
Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei das Bodenbild (110) der Umgebung der mobilen Plattform mittels eines digitalen Kamerasystems generiert wurde.
Verfahren (200) zum Generieren eines trainierten neuronalen Faltungs-Netzwerkes (140), zum Bestimmen einer Lokalisierungs-Pose (130) einer zumindest teilautomatisierten mobilen Plattform mittels eines Bodenbildes (110) einer Umgebung der mobilen Plattform und eines Luftbildes (120) der Umgebung der mobilen Plattform, wobei das neuronale Faltungs-Netzwerk (140) einen ersten neuronalen Encoder-Faltungs-Netzwerkteil (112, 114, 116) und einen zweiten neuronalen Encoder-Faltungs-Netzwerkteil (122, 124, 126) und einen Fusionsteil (118) aufweist, und das trainierte neuronale Faltungs-Netzwerk (140) mit einer Vielzahl von Trainings-Zyklen generiert wird, wobei jeder Trainings-Zyklus die Schritte aufweist: Bereitstellen einer Referenz-Pose (220) (S21) der zumindest teilautomatisierten mobilen Plattform; Bereitstellen eines Bodenbildes (110) (S22) der Umgebung der mobilen Plattform in der Referenz-Pose; Bereitstellen eines Luftbildes (120) (S23) der Umgebung der mobilen Plattform in der Referenz-Pose; Verwenden des Bodenbildes (110) als Eingangssignal (S24) des ersten neuronalen Encoder-Faltungs-Netzwerkteils (112, 114, 116), um ein erstes Ausgangssignal zu generieren; Verwenden des Luftbildes (120) als Eingangssignal (S25) des zweiten neuronalen Encoder-Faltungs-Netzwerkteils (122, 124, 126), um ein zweites Ausgangssignal zu generieren; Bestimmen der Lokalisierungs-Pose (130) (S26) mittels des Fusionsteils (118), der das erste Ausgangssignal und das zweite Ausgangssignal fusioniert; und Adaptieren (S27) des neuronalen Faltungs-Netzwerkes (140), um bei der Bestimmung der jeweiligen bestimmten Lokalisierungs-Pose (130) eine Abweichung von der jeweiligen Referenz-Pose (220) zu minimieren.
Verfahren (200) gemäß Anspruch 8, wobei das Fusionieren des ersten Ausgangssignals und des zweiten Ausgangssignals, die folgenden Schritte aufweist: Bilden eines ersten Encoding-Vektors (116) (S28) mit dem ersten Ausgangssignal; Bilden eines zweiten Encoding-Vektors (126) (S29) mit dem zweiten Ausgangssignal; Fusionieren (S30) des ersten Encoding-Vektors (116) und des zweiten Encoding-Vektors (126), durch aneinanderfügen des ersten Encoding-Vektors (116) und des zweiten Encoding-Vektors (126) und vollständigem verbinden der aneinandergefügten Encoding-Vektoren (116, 126) mit einer Ausgangsschicht des Fusionsteils (118) des neuronalen Faltungs-Netzwerks (140), die die Lokalisierungs-Pose (130) angibt.
Verfahren (200) gemäß Anspruch 8 oder 9, wobei beim Adaptieren (S27) des neuronalen Faltungs-Netzwerkes (140) zumindest eine Schicht (112) des ersten neuronalen Encoder-Faltungs-Netzwerkteils (112, 114, 116) und eine korrespondierende Schicht (122) des zweiten neuronalen Encoder-Faltungs-Netzwerkteils (122, 124, 126) sich entsprechende Gewichte der korrespondierenden Schichten (112, 122) gegenseitig austauschen.
Verfahren gemäß einem der Ansprüche 1 bis 7, wobei basierend auf einer Lokalisierungs-Pose (130) ein Steuersignal zur Ansteuerung einer zumindest teilautomatisierten mobilen Plattform bereitgestellt wird; und/oder basierend auf der Lokalisierungs-Pose (130) ein Warnsignal zur Warnung eines Insassen der zumindest teilautomatisierten mobilen Plattform bereitgestellt wird.
Vorrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 11 durchzuführen.
Computerprogramm, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 13 gespeichert ist.