DE102023210780A1

DE102023210780A1 - Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung

Info

Publication number: DE102023210780A1
Application number: DE102023210780.5A
Authority: DE
Inventors: Sijie Wang; Qiyu Kang; Rui She; Wee Peng Tay; Diego Navarro Navarro; Andreas Hartmannsgruber
Original assignee: Continental Automotive Technologies GmbH; Nanyang Technological University
Current assignee: Continental Automotive Technologies GmbH; Nanyang Technological University
Priority date: 2022-11-07
Filing date: 2023-10-31
Publication date: 2024-05-08
Also published as: GB2624166A; GB202216510D0

Abstract

Die Kamerarelokalisierung ist das Schlüsselproblem für autonome Fahrzeuge. Vorherige Kameraposenregressionsmodelle berücksichtigen nur ein Arbeiten in Idealfällen, in denen wenig Umgebungsstörung besteht. Um mit den schwierigen Szenarios umzugehen, wird ein RobustLoc genanntes Verfahren vorgeschlagen, das sowohl graphenbasierte PDE-Dynamiken (26, 58) als auch knotenbasierte ODE-Dynamiken (32, 60) nutzt. Experimente zeigen, dass dieses Modell vorherige Modelle übertreffen und eine robuste Operation in verschiedenen Umgebungsbedingungen erreichen kann.

Description

TECHNISCHES GEBIET
Die Erfindung betrifft ein computerimplementiertes Verfahren zur Kameraposenregression, insbesondere zum Zweck des Lokalisierens eines Fahrzeugs, wie eines autonomem Fahrzeugs, in einer Verkehrsumgebung.
HINTERGRUND
Die bildbasierte Lokalisierung ist ein Schlüsselproblem für autonome Fahrzeuge. Bisherige Methoden wie die Kameraposenregressionsmodelle erreichen üblicherweise bessere Ergebnisse in idealen Szenarios, in denen beispielsweise wenig Umgebungsstörungen bestehen. Die Lokalisierung ist ein wichtiges Problem besonders für autonome Fahrzeuge, weil die Lokalisierung die Grundlage für mehrere nachfolgende Aufgaben, einschließlich, ohne darauf beschränkt zu sein, der Navigation, Umgebungswahrnehmung und/oder Kartenerstellung, bilden kann.
Ein typischer Weg zum Beheben des Problems besteht darin, es wie eine Image Retrieval Aufgabe zu behandeln. Vor einer Inferenz kann eine Datenbank oder eine Karte, welche eine zuvor empfangene Informationen (z. B. Bilder, Deskriptoren, Posen usw.) speichert, erstellt werden. Dann, wenn Abfragebilder bereitgestellt werden, kann das Image Retrieval Modell am besten übereinstimmende Bilder durch Berechnen der Ähnlichkeit suchen. NetVLAD ist ein Beispiel für ein mehrschichtiges Lernen (englisch: deep learning) Modell, das nicht intuitiv die fotometrische Ähnlichkeit von Bildern vergleicht. Stattdessen verwendet es zuerst ein faltendes neuronales Netzwerk (englisch: convolutional neural network; CNN) zum Extrahieren von Merkmalen aus den Bildern, und dann wird ein Ähnlichkeitsvergleich zwischen den Merkmalen aus den Datenbankbildern und den Abfragebildern ausgeführt. Schließlich wird die Kamerapose des am besten übereinstimmenden Bilds als die Ausgabe behandelt.
Da Image Retrieval jedoch eine Datenbank als eine Voraussetzung erfordert, sind sowohl die Zeit- als auch die Raumkomplexität allgemein proportional zur Anzahl von zuvor empfangenen Informationen der Datenbank, was ein inhärentes Problem ist.
Um die Lokalisierung vom Erfordernis einer Datenbank zu trennen, hat sich das Forschungsinteresse in jüngster Zeit der Kameraposenregression zugewandt. Die Kameraposenregression ermöglicht es, das Erfordernis von zuvor erhaltenen Informationen zu reduzieren oder sogar zu beseitigen, und zeigt somit ein hohes Potenzial für Kraftfahrzeug-Fahraufgaben.
PoseNet zum Beispiel verwendet ein CNN zum Extrahieren von Bildmerkmalen als Vektoreinbettungen. Die Einbettungen können direkt auf Posen regressiert werden, die sechs Freiheitsgrade aufweisen (6-DoF-Posen). Um das Gewichtsungleichgewicht zwischen Translation und Drehung abzuschwächen, schlug PoseNet einen lernbaren Parameter vor, um die Verlustfunktions-Konvergenz zu unterstützen.
Um die Regressionsleistung und Modellrobustheit in schwierigen Fahrszenarien weiter zu verbessern, wurden multiview-basierte Modelle verwendet, die die Eingabe von einem einzelnen Bild auf eine Bildsequenz, die mehrere in der Nähe befindliche Frames einschließt, erweitern.
LSTM-Pose schlägt vor, Ansätze von CNN und Long Short-Term Memory (LSTM) zu verbinden, um räumliche und zeitliche Informationen effektiv zu erfassen.
MapNet konzentriert sich auf die Nachverarbeitungsstufe, wobei es die vorberechnete visuelle Odometrie einbezieht, um die regressierte Trajektorie zu optimieren.
Local supports global (LsG) integriert neuronale Graphennetzwerke (GNN) in CNN, um zu bewirken, dass Bildknoten besser mit Nachbarn interagieren.
CoordiNet ermöglicht es dem Netzwerk, eine Regressionsunsicherheit auszugeben, und verwendet die CoordConv-Technik, um reichhaltigere räumliche Darstellungen zu lernen.
Die oben angegebenen multiview-basierten Modelle haben eine vielversprechende Leistung in der schwierigen Fahrumgebung gezeigt.
Mit der Maßgabe, dass eine Datenbank mit Bildern und den Kameraposen gespeichert ist, zielen die Image Retrieval Modelle, wenn ein Abfragebild bereitgestellt wird, darauf ab, beste Treffer des Abfragebilds zu finden. Die Posen der übereinstimmenden Bilder können als die Pose des Abfragebilds betrachtet werden. Üblicherweise speichert die Datenbank nicht nur Bilder, sondern auch die globalen und lokalen Deskriptoren dieser Bilder, die entweder durch ein CNN oder einen klassischen Merkmalsextraktor berechnet werden können. Während einer Inferenz werden die Deskriptoren des Abfragebilds auf die gleiche Weise berechnet und das Abgleichen kann durch weiteres Berechnen der Ähnlichkeit zwischen dem Abfragedeskriptor und Datenbankdeskriptoren erreicht werden.
Herkömmlicherweise können die Deskriptoren durch einen SIFT-, VLAD- oder Fisher-Vektor berechnet werden, die alle auf einer zuvor erhaltenen Information basieren, der auf menschlichen Wissen basiert, und nicht stark genug sind, um ein Bild darzustellen.
In den letzten zehn Jahren ist Deep Learning entstanden und hat sich weiterentwickelt. Es hat sich gezeigt, dass die aus einem tiefen neuronalen Netzwerk berechneten Deskriptoren leistungsfähiger als klassische Verfahren sind.
NetVLAD ist ein Pionier bei der Integration von CNN in Image Retrieval, wobei eine trainierbare VLAD-Schicht vorgeschlagen wird. Gradient episodic Memory (GeM) schlug vor, die Histogramm-Binning-Näherung zu formulieren, um das Abgleichen direkt zu optimieren. Patch-NetVLAD erweitert Vanilla NetVLAD, das das gesamte Bild in diskretisierte Flächen teilt, und die lokalen Merkmale können besser aggregiert werden.
Die oben angegebenen Verfahren stützen sich alle auf eine zuvor erstellte Datenbank zum Speichern möglicher Informationen, und der Speicherungsbedarf ist linear proportional zur Anzahl möglicher zuvor erhaltener Informationen mit Komplexität d(N) in sowohl der Zeit- als auch der Raumdimension. Um die Komplexität zu reduzieren, wurden Kameraposenregressionsverfahren (CPRs) vorgeschlagen. Wenn die Abfragebilder bereitgestellt werden, regressieren CPRs die Kameraposen dieser Bilder direkt, ohne das Erfordernis einer Datenbank. Somit besteht keine Abhängigkeit von der Skalierung der Datenbank und die Komplexität ist erheblich kleiner, z. B. d(1).
PoseNet schlägt das gleichzeitige Lernen für Ort und Ausrichtung durch Integrieren eines Ausgleichsparameters vor. AD PoseNet nutzt die semantischen Informationen, um einen dynamischen Bereich im Bild zu verwerfen. AtLoc führt die „global attention“ ein, um das Netzwerk zum Lernen einer besseren Darstellung anzuleiten. Und GNNMap-Net erweitert das Untersuchen von Merkmalen von einem einzelnen Bild auf multiview-Bilder, indem es neuronale Graphennetzwerke (GNNs) nutzt. Coordinet verwendet das CoordConv und Pooling mit gewichtetem Durchschnitt, um räumliche Beziehungen zu erfassen.
In der Kontrolltheorie und der Physik werden die Dynamiken eines Systems üblicherweise durch Differenzialgleichungen beschrieben, wodurch eine oder mehrere unbekannte Funktionen und ihre Derivate in Beziehung gesetzt werden.
Eine ODE (englisch: ordinary differential equation) ist die Gleichung, die das Derivat einer Funktion y(t) definiert: $\frac{d y}{d t} = ƒ (y, t),$
während eine PDE (englisch: partial differential equation) mehr als eine Variable enthält: $\frac{\partial y (t, s)}{\partial t} = ƒ (y, t, s) .$
KURZDARSTELLUNG DER ERFINDUNG
Es ist die Aufgabe der Erfindung, die Kameraposenregression, vorzugsweise auf dem Gebiet des autonomen Fahrens und/oder in herausfordernden Fahrumgebungen, zu verbessern.
Die Aufgabe wird durch den Gegenstand der abhängigen Ansprüche erfüllt. Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
Die Erfindung stellt ein computerimplementiertes Verfahren zur Kameraposenregression zum Zweck des Lokalisierens eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, das sich in einer Verkehrsumgebung bewegt, bereit, das Verfahren aufweisend:

a) mit einem Merkmalsextraktionsmittel: Empfangen einer Anzahl N von Bildern, die die Verkehrsumgebung angeben, wobei das Merkmalsextraktionsmittel eine vierdimensionale Merkmalskarte aus den Bildern bestimmt, wobei eine erste Dimension die Anzahl N ist, eine zweite Dimension eine vorbestimmte Höhe H in Pixeln ist, eine dritte Dimension eine vorbestimmte Breite W in Pixeln ist und eine vierte Dimension einer vorbestimmten Anzahl C von Kanälen des Merkmalsextraktionsmittels entspricht;
b) mit einem Graphenstrukturerzeugungsmittel: Erzeugen einer Merkmalsgraphenstruktur, die einen Merkmalsknotensatz und einen Merkmalskantensatz einschließt, wobei der Merkmalsknotensatz mit einer Vielzahl von Merkmalsknoten erzeugt wird und jeder Merkmalsknoten ein pixelbasiertes Merkmal basierend auf der in Schritt a) erhaltenen Merkmalskarte einschließt, wobei der Merkmalskantensatz als vollständig zwischen beliebigen zwei Merkmalsknoten verbunden erzeugt wird;
c) mit einer partiellen Differenzialgleichung (PDE) Merkmalsgraphenschicht :
- Empfangen der Merkmalsgraphenstruktur von Schritt b) und Bestimmen einer aktualisierten Merkmalsgraphenstruktur durch Lösen einer PDE basierend auf einer Graphenaktualisierungsfunktion;
d) mit einer gewöhnlichen Differenzialgleichung (ODE) Knotenschicht: Empfangen der aktualisierten Merkmalsgraphenstruktur von Schritt c) und Bestimmen einer aktualisierten Knotenmerkmalsgraphenstruktur durch Lösen einer ODE basierend auf einer Knotenmerkmalsaktualisierungsfunktion;
e) mit einem Datenumwandlungsmittel: Umwandeln der aktualisierten Knotenmerkmalsgraphenstruktur von Schritt d) in eine Vielzahl von zerlegten Merkmalskarten;
f) mit einem Vektoreinbettungsmittel: für jede zerlegte Merkmalskarte, Bestimmen einer Vektoreinbettung durch Pooling;
g) mit einem Vektoreinbettungsgraphenstrukturerzeugungsmittel: Erzeugen einer Vektoreinbettungsstruktur, die einen Vektoreinbettungsknotensatz und einen Vektoreinbettungskantensatz einschließt, wobei der Vektoreinbettungsknotensatz mit einer Vielzahl von Vektoreinbettungsknoten erzeugt wird und jeder Vektoreinbettungsknoten eine in Schritt f) erhaltene Vektoreinbettung einschließt, wobei der Vektoreinbettungskantensatz als vollständig zwischen beliebigen zwei Vektoreinbettungsknoten verbunden erzeugt wird;
h) mit einer Differenzialgleichung (DE) Vektoreinbettungsschicht: Empfangen der Vektoreinbettungsgraphenstruktur von Schritt g) und Bestimmen einer aktualisierten Vektoreinbettungsgraphenstruktur durch sequenzielles Lösen einer PDE und einer ODE basierend auf zumindest einer Vektoreinbettungsaktualisierungsfunktion;
i) mit einem Posendecodermittel: Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur von Schritt h) in einen Satz von Kameraposenkoordinaten, die eine Pose einer Kamera bezogen auf die Verkehrsumgebung angeben.

Wenn eine Anzahl N von in der Nähe befindlichen Bildern I = {I_i} bereitgestellt wird, weist dasoffenbarte Kameraposenregressionsverfahren zwei verschiedene Stufen auf. In einer ersten Stufe (1) extrahiert das Netzwerk f Merkmalskarten als m = f(I), die die lokalen Bildmuster beschreiben. Ein nachfolgendes Pooling-Modul aggregiert die Merkmalskarten weiter in Vektoreinbettungen h = Pooling(m), die das globale Bildmuster beschreiben. Durch Anwenden einer vollständig verbundenen Schicht (fc-Schicht) kann die Kameratranslation t_i ∈ ℝ³ und -drehung q_i ∈ ℝ³ der Eingabebilder von den Vektoreinbettungen regressiert werden.
Um mit schwierigeren Szenarios umzugehen, wird ein Verfahren, das als RobustLoc bezeichnet wird, offenbart. Das Verfahren zielt darauf ab, sowohl graphenbasierte Dynamiken einer partiellen Differenzialgleichung (PDE) als auch knotenbasierte Dynamiken einer gewöhnlichen Differenzialgleichung (ODE) zu nutzen. Experimente zeigen, dass das Verfahren bekannte Modelle übertreffen kann und eine robustere Operation in verschiedenen Umgebungsbedingungen für nahezu alle Szenarios erreichen kann.
Das Modell ermöglicht eine höhere Robustheit gegen Umgebungsstörungen (z. B. wechselnde(s) Jahreszeiten, Wetter, Beleuchtung und instabile Objekte) und ermöglicht ein effektives Nutzen von benachbarten Informationen.
ODEs ermöglichen eine bessere Robustheit gegen gegenläufigeStörungen. Die Graphenstruktur ermöglicht eine inhärent effektive Nachbarschaftsinformationsinteraktion. Das offenbarte Verfahren verwendet auch ein Graphen-PDE-Modell, das es nicht nur ermöglicht, die Beziehung zwischen Nachbarn zu untersuchen, sondern auch ein Regulieren von Merkmalsdynamiken ermöglicht.
Das offenbarte Verfahren wird an drei Datensätzen für herausforderndes autonomes Fahren getestet und erreicht signifikante Verbesserungen, wie später erörtert wird.
Um die zwei zuvor erwähnten Erkenntnisse umzusetzen und eine robuste Kameraposenregression in einer Fahrumgebung zu erreichen, schlägt die Offenbarung das Erfassen benachbarter und robuster Darstellungen vor.
Vorzugsweise schließt das Merkmalsextraktionsmittel in Schritt a) ein neuronales Faltungsnetzwerk ein, das die vierdimensionale Merkmalskarte basierend auf dem Satz von Eingabebildern bestimmt. Die Verwendung eines CNN ermöglicht eine im Vergleich zu anderen Verfahren besser geeignete und genauere Merkmalsextraktion.
Vorzugsweise restrukturiert das Graphenstrukturerzeugungsmittel in Schritt b) die vierdimensionale Merkmalskarte in eine eindimensionale Merkmalskarte, wobei eine erste Dimension die Anzahl C von Kanälen ist, wobei pixelbasierte Merkmale durch einen pixelbasierten Index i basierend auf N, H und W eindeutig identifiziert werden. Mit dem Restrukturieren der Daten wird die Graphenstruktur derart erzeugt, dass sie besonders einfach zu verarbeiten ist.
Vorzugsweise wird die Graphenaktualisierungsfunktion in Schritt c) für jeden Merkmalsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt. Die Verwendung von Multi-Head-Attention-Schichten konzentriert das Modell auf wichtigere Merkmale.
Vorzugsweise wird die Knotenmerkmalsaktualisierungsfunktion in Schritt d) unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron (MLP) ausgebildet sind, bestimmt.
Vorzugsweise erzeugt das Datenumwandlungsmittel in Schritt e) jede zerlegte Merkmalskarte als eine dreidimensionale zerlegte Merkmalskarte, wobei eine erste Dimension der Höhe H entspricht, eine zweite Dimension einer Breite W entspricht und eine dritte Dimension der Anzahl C von Kanälen entspricht, wobei jede zerlegte Merkmalskarte durch einen Bildindex i basierend auf der Anzahl N von Bildern eindeutig identifiziert wird.
Vorzugsweise bettet das Vektoreinbettungsmittel in Schritt f) die zerlegten Merkmalskarten durch Max-Pooling oder durchschnittliches Pooling ein.
Vorzugsweise wird die aktualisierte Vektoreinbettungsgraphenstruktur in Schritt h) durch Lösen der PDE basierend auf einer ersten Vektoreinbettungsaktualisierungsfunktion bestimmt, die für jeden Vektoreinbettungsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird.
Vorzugsweise wird die aktualisierte Vektoreinbettungsgraphenstruktur in Schritt h) durch Lösen der ODE basierend auf einer zweiten Vektoreinbettungsaktualisierungsfunktion bestimmt, die unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
Vorzugsweise ist das Posendecodermittel in Schritt i) als ein Zweigdecoder (branch decoder) ausgebildet. Vorzugsweise weist das Posendecodermittel in Schritt i) eine gemeinsame erste Schicht auf, die die Ausgabe von Schritt h) empfängt, und die gemeinsame erste Schicht ist zum Entkoppeln der Vektoreinbettungen in ortsbezogene Vektoreinbettungen und drehungsbezogene Vektoreinbettungen ausgebildet. Vorzugsweise weist das Posendecodermittel in Schritt i) eine verzweigte zweite Schicht auf, die die Ausgabe von Schritt i2) empfängt, und die verzweigte zweite Schicht ist zum Decodieren der ortsbezogenen Vektoreinbettungen und der drehungsbezogenen Vektoreinbettungen in die Kameraposenkoordinaten ausgebildet.
Vorzugsweise weisen die Kameraposenkoordinaten in Schritt i) dreidimensionale Kameraortskoordinaten auf, die die Position der Kamera beschreiben, die den Satz von Bildern erfasst hat, und/oder vierdimensionale Kameradrehungskoordinaten, die die Ausrichtung der Kamera beschreiben, die den Satz von Bildern erfasst hat, jeweils bezogen auf die Verkehrsumgebung ein.
Die Erfindung stellt ein computerimplementiertes Verfahren zum Navigieren eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, durch eine Verkehrsumgebung ein, das Verfahren aufweisend:

a) Erfassen eines Satzes von Bildern mit einem bildgebenden Sensor des Fahrzeugs und Durchführen eines bevorzugten Verfahrens an den erfassten Bildern zum Erhalten von Kameraposenkoordinaten innerhalb der Verkehrsumgebung;
b) Bestimmen eines aktuellen Orts des Fahrzeugs basierend auf den in Schritt a) erhaltenen Kameraposenkoordinaten und Planen einer Strecke zwischen dem aktuellen Ort und einem Ziel, welcher das Fahrzeug folgen soll;
c) Erzeugen eines Steuersignals, das einen Fahrer des Fahrzeugs über die geplante Strecke von Schritt b) informiert, oder Erzeugen eines Steuersignals, das bewirkt, dass das Fahrzeug der geplanten Strecke folgt.

Die Erfindung stellt ein computerimplementiertes Verfahren zum Erstellen einer Karte einer Verkehrsumgebung bereit, das Verfahren aufweisend:

a) Fahren eines Fahrzeugs durch die Verkehrsumgebung und Erfassen eines Satzes von Bildern entlang einer Fahrstrecke;
b) Durchführen eines bevorzugten Verfahrens am Satz von Bildern von Schritt a) zum Erhalten von Kameraposenkoordinaten;
c) Erzeugen eines Kartenmodells der Verkehrsumgebung basierend auf den Kameraposenkoordinaten und Speichern des Kartenmodells zur Verwendung in einer Navigationsaufgabe.

Die Erfindung stellt ein Datenverarbeitungssystem bereit, das ein Mittel zum Ausführen eines wie zuvor beschriebenen Verfahrens aufweist.
Die Erfindung stellt ein Fahrzeug, vorzugsweise ein autonomes Fahrzeug, bereit, welches das Datenverarbeitungssystem aufweist.
Die Erfindung stellt ein Computerprogramm oder computerlesbares Medium bereit, das Anweisungen aufweist, die bei Ausführung durch ein Datenverarbeitungssystem das Datenverarbeitungssystem zum Ausführen eines wie zuvor beschriebenen Verfahrens veranlassen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Ausführungsformen der Erfindung werden Bezug nehmend auf die begleitenden schematischen Zeichnungen ausführlicher beschrieben.

1 und
2 stellen eine Ausführungsform eines Verfahrens zur Kameraposenregression dar;
3 stellt experimentelle Ergebnisse dar; und
4 stellt experimentelle Ergebnisse dar.

DETAILLIERTE BESCHREIBUNG EINER AUSFÜHRUNGSFORM
Bezugnehmend auf 1 und 2 ist eine Kameraposenregressions-Pipeline 10 dargestellt. Die Kameraposenregressions-Pipeline 10 wird zum Durchführen eines Verfahrens zur Kameraposenregression, das Kameraposenkoordinaten ausgibt, verwendet. Die Kameraposenregression 10 arbeitet gemäß dem weiter unten beschriebenen Verfahren.
Die Kameraposenregressions-Pipeline 10 wird mit einem Satz von Bildern 12, z. B. einer Anzahl N = 3 Bilder 12, gespeist. Vorzugsweise ist die Anzahl N von Bildern 12 ungerade, z. B. N = 3, 5, 7, 9, 11 ... Jedes Bild 12 wird einem Merkmalsextraktionsmittel 14 zugeführt. Das Merkmalsextraktionsmittel 14 ist zum Extrahieren von Merkmalen aus den Bildern 12 und Ausgeben einer vierdimensionalen Merkmalskarte 16 ausgebildet. Das Merkmalsextraktionsmittel 14 schließt vorzugsweise ein neuronales Faltungsnetzwerk ein, das für eine Merkmalsextraktion trainiert ist. Die vierdimensionale Merkmalskarte 16 weist eine erste Dimension gemäß der Anzahl von Bildern N auf. Eine zweite und eine dritte Dimension der Merkmalskarte 16 sind die vorbestimmte Höhe H und Breite W, gemessen in Pixeln, z. B. H = 4 und W = 4. Die Höhe H und die Breite W sind üblicherweise identisch und sind vorzugsweise ausgewählt aus H, W ∈ {4, 5, 6, 7, 8}. Üblicherweise sind die Höhe H und die Breite W der Merkmalskarte 16 deutlich kleiner als die Höhe und die Breite der Bilder 12, die verarbeitet werden. Eine vierte Dimension der Merkmalskarte 16 entspricht einer vorbestimmten Anzahl C von Kanälen, z. B. C = 512. Die Anzahl C von Kanälen ist vorzugsweise eine Potenz von 2, d. h. 2, 4, 8, 16, 32, 64, 128, 256, 512 ... Die Anzahl C von Kanälen ist üblicherweise durch die verfügbaren Rechenressourcen, z. B. Speicher und Vektorverarbeitungsleistung, beschränkt.
Die Kameraposenregressions-Pipeline 10 weist ferner ein Graphenstrukturerzeugungsmittel 18 auf. Basierend auf der Merkmalskarte 16 wird eine Merkmalsgraphenstruktur 20 erzeugt. Die Merkmalskarte 16, die eine Struktur m ∈ ℝ^N×H×W×C aufweist, wird durch das Graphenstrukturerzeugungsmittel 18 in eine eindimensionale Merkmalskarte, die eine Struktur m ∈ ℝ^NHW×C aufweist, neu formatiert. In der eindimensionalen Merkmalskarte kann jedes pixelbasierte Merkmal in dieser Merkmalskarte als m_i ∈ ℝ^c, i ∈ NHW bezeichnet werden, wobei i ein Merkmalsindex ist.
Das Graphenstrukturerzeugungsmittel 18 erzeugt die Merkmalsgraphenstruktur 20, die durch die Formel $G^{feat} = (V^{feat}, E^{feat})$
beschrieben werden kann. Die Merkmalsgraphenstruktur 20 schließt einen Merkmalsknotensatz 22 ein, der eine Vielzahl von Merkmalsknoten 24 aufweist. Der Merkmalsknotensatz 22 kann durch die Formel $V^{feat} = {m_{i}} .$
beschrieben werden. Jeder Merkmalsknoten 24 enthält eine pixelbasierte Merkmalskarte m_i. Die pixelbasierten Merkmalskarten m_i bilden zusammen die eindimensionale Merkmalskarte. Der Kantensatz ℇ^feat ist derart definiert, dass er zwischen beliebigen zwei Merkmalsknoten 24 vollständig verbunden ist.
Die Ausgabe des Graphenstrukturerzeugungsmittels 18 wird einer partiellen Differenzialgleichung (PDE) einer Merkmalsgraphenschicht 26 zugeführt. Die Idee hinter der Merkmalsgraphen-PDE-Schicht besteht darin, dass die PDE seine Robustheit gegen sowohl Graphenarchitektur als auch Merkmalsstörung gezeigt hat. Die Kameraposenregression im Fahrszenario ist ähnlich einer Graphenknotenklassifizierung, wobei die auf dem Bild gezeigten Umgebungsvariationen als eine Störung der Graphenknotenmerkmale betrachtet werden können.
Die Merkmalsgraphen-PDE-Schicht 26 modelliert das Merkmalsknotenaktualisieren als einen dynamischen Fluss in zwei Richtungen: von Schicht zu Schicht und von Merkmalsknoten 24 zu Merkmalsknoten 24. Die Merkmalsknoten 24 und die Schichten werden als Variablen derart verarbeitet, dass die Graphenmerkmalsflussdynamiken modelliert werden können als: $\frac{\partial m (i, l)}{\partial l} = g^{feat} (m, i, l) .$
wobei g^feat die Graphenmerkmalsaktualisierungsfunktion, die unten beschrieben ist, bezeichnet. Dann wird der Ausgangszustand zu Beginn der Schicht l = 0 als die Merkmalsgraphenstruktur 20 betrachtet. Die obige PDE kann für eine aktualisierte Merkmalsgraphenstruktur 28 am Ende der Schicht l = 1 gelöst werden. Die aktualisierte Merkmalsgraphenstruktur 28 wird durch einen PDE-Löser, wie torchdiffeq, erhalten, der unter https://github.com/rtqichen/torchdiffeq verfügbar ist und eine Pytorch-Implementierung unterstützt. Dies kann beschrieben werden als: $m (i, 1) = m_{i}^{1} = PDESolve (m_{i}^{0}, g^{feat}),$
wobei $m_{i}^{1}$
die aktualisierte Merkmalsgraphenstruktur 28 mit aktualisierten Merkmalsknoten 30 bezeichnet, PDESolve den PDE-Auflöser bezeichnet, $m_{i}^{0}$
die Merkmalsgraphenstruktur 20 und g^feat die unten beschriebene Merkmalsaktualisierungsfunktion bezeichnet.
Die Merkmalsaktualisierungsfunktion ermöglicht eine effektive Knotenmerkmalsinteraktion. Vorzugsweise verwendet die Merkmalsgraphen-PDE-Schicht 26 einen Attention-artigen Mechanismus zum Erstellen der Merkmalsaktualisierungsfunktion, vorzugsweise indem zuerst die Nachricht jedes Merkmalsknotens 24 unter Verwendung von vollständig verbundenen Multi-Head-Schichten mit lernbaren Parametern W_k und b_k am Attention-Head k erzeugt wird. Die typische Anzahl k von Attention-Heads ist eine Zweierpotenz, vorzugsweise eine Vierer- oder Achterpotenz: $m_{i, k}^{fc} = W_{k} m_{i} + b_{k},$
$a_{i, j, k} = \underset{j \in N (i)}{Softmax} (m_{i, k}^{fc} \cdot m_{j, k}^{fc}),$
$\begin{array}{l} m_{i, k}^{weighted} = \sum_{j = N (i)} a_{i, j, k} m_{j, k}^{fc}, \\ g^{feat} (m_{i}) = m_{i}^{fout} = \underset{k \in K}{Concatenate} (m_{i, k}^{weighted}) . \end{array}$
Mit anderen Worten resultiert jeder aktualisierte Merkmalsknoten 30 aus seinen benachbarten Merkmalsknoten 24 und sich selbst, wie durch die gestrichelten Pfeile in 1 angegeben. Mit dieser Merkmalsaktualisierungsfunktion wird die aktualisierte Merkmalsgraphenstruktur 28 bestimmt.
Die Kameraposenregressions-Pipeline 10 schließt eine gewöhnlichen Differenzialgleichung (ODE) Knotenschicht 32 ein. Die Knoten-ODE-Schicht 32 empfängt die aktualisierte Merkmalsgraphenstruktur 28. Damit können knotenbasierte Merkmalsdynamiken durch eine Knoten-ODE beschrieben werden: $\frac{d m (l)}{d l} = ƒ^{feat} (m, l),$
wobei f^feat die Knotenmerkmalsaktualisierungsfunktion, die unten beschrieben ist, bezeichnet. Dann wird der Ausgangszustand zu Beginn der Schicht l = 0 als die aktualisierte Merkmalsgraphenstruktur 30 betrachtet. Die obige ODE kann für eine aktualisierte Knotenmerkmalsgraphenstruktur 34 am Ende der Schicht l = 1 aufgelöst werden. Die aktualisierte Knotenmerkmalsgraphenstruktur 34 wird durch einen ODE-Auflöser erhalten.
Die Knoten-ODE-Schicht 32 bestimmt die grundlegende Knotenmerkmalsaktualisierungsfunktion unter Verwendung eines mehrlagigen Perzeptrons (MLP): $m_{i}^{fout} = MLP (m_{i})$
Und das aktualisierte Knotenmerkmal 36 kann erhalten werden als: $m_{i} (1) = ODESolve (m_{i}^{0}, f^{feat}) .$
wobei der Knotenmerkmalsfluss nur innerhalb des Knotens selbst, ohne Interaktion von Nachbarn, angewendet wird. Dadurch bestimmt die Knoten-ODE-Schicht 32 eine aktualisierte Knotenmerkmalsgraphenstruktur 36 und gibt diese aus.
Die Kameraposenregressions-Pipeline 10 schließt ein Datenumwandlungsmittel 38 ein. Das Datenumwandlungsmittel 38 restrukturiert die aktualisierte Knotenmerkmalsgraphenstruktur 36 in zerlegte Merkmalskarten 40. Die zerlegten Merkmalskarten 40 sind vorzugsweise dreidimensional und weisen eine erste und eine zweite Dimension auf, die der Höhe H und der Breite W entspricht. Die zerlegten Merkmalskarten 40 weisen vorzugsweise eine dritte Dimension auf, die der Anzahl C von Kanälen entspricht. Jede zerlegte Merkmalskarte 40 wird durch einen Bildindex i, der aus der Anzahl N von Bildern 12 ausgewählt ist, eindeutig identifiziert. Die zerlegten Merkmalskarten 40 können als m_i ∈ ℝ^H×W×C, i ∈ N bezeichnet werden.
Die Kameraposenregressions-Pipeline 10 schließt ein Vektoreinbettungsmittel 42 ein. Die zerlegten Merkmalskarten 40 werden in eine Pooling-Schicht 44 zugeführt, um Vektoreinbettungen h_i ∈ ℝ^C zu formulieren als: $h_{i} = Pooling (m_{i})$
wobei h_i reichhaltige globale Merkmale für das Eingabebild I_i enthält. Die Pooling-Schicht 44 kann eine Schicht eines durchschnittlichen Pooling oder eine Max-Pooling-Schicht sein. Das Vektoreinbettungsmittel 42 gibt Vektoreinbettungen 46 aus.
Bezugnehmend auf 2 schließt die Kameraposenregressions-Pipeline 10 ein Vektoreinbettungsgraphenstrukturerzeugungsmittel 48 ein. Dem Vektoreinbettungsgraphenstrukturerzeugungsmittel 48 werden Vektoreinbettungen 46 zugeführt und erzeugt eine Vektoreinbettungsgraphenstruktur 50, die beschrieben werden kann durch: $G^{vect} = (ν^{vect}, ε^{vect})$
wobei der Vektoreinbettungsknotensatz 52 als $ν^{vect} = {h_{i}}$
bezeichnet wird und jeder Vektoreinbettungsknoten 54 des Vektoreinbettungsknotensatzes 52 Bildvektoreinbettungen h_i enthält. Der Vektoreinbettungskantensatz 56 wird als ℇ^vect bezeichnet und wird als zwischen beliebigen zwei Vektoreinbettungsknoten 54 vollständig verbunden definiert.
Im Folgenden wird die Vektoreinbettungsgraphenstruktur 50 einer Differenzialgleichung (DE) Schicht einer Vektoreinbettung 57 zugeführt, die eine partielle Differenzialgleichung (PDE) Schicht eines Vektoreinbettungsgraphen 58 und eine nachfolgende gewöhnliche Differenzialgleichung Schicht eines Vektoreinbettungsgraphen (ODE) 60 einschließt. Die Vektoreinbettungsgraphen-PDE-Schicht 58 und die Vektoreinbettungsgraphen-ODE-Schicht 60 arbeiten gemäß denselben Prinzipien wie die entsprechende Merkmalsgraphen-PDE-Schicht 26 und die Knoten-ODE-Schicht 32 mit der Maßgabe, dass sie basierend auf Vektoreinbettungen 46 in der Vektoreinbettungsgraphenstruktur 50 arbeiten.
Die Vektoreinbettungs-DE-Schicht 57 gibt eine aktualisierte Vektoreinbettungsgraphenstruktur 62 aus. Die Vektoreinbettungsgraphenstruktur 62 kann in ähnlicher Weise wie die zerlegten Merkmalskarten 40 in eine endgültige Vektoreinbettung 64 restrukturiert werden.
Die Kameraposenregressions-Pipeline 10 schließt ein Posendecodermittel 66 ein. Das Posendecodermittel 66 ist zum Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur 62 oder der endgültigen Vektoreinbettung 64 zum Bestimmen der Kameraposenkoordinaten ausgebildet. Die Kameraposenregressions-Pipeline 10 ist somit in der Lage, mehrere Zahlen gleichzeitig vorherzusagen, d. h. die Quaternion für Translation {t_x, t_y, t_z} und Drehung (q_w, q_p, q_q, q_r}.
Die endgültige Vektoreinbettung 64 enthält sowohl die eigenen als auch die benachbarten Informationen. Da es keine Knotenmerkmalsinteraktion mehr gibt, kann die endgültige Vektoreinbettung 64 als h anstatt h_i bezeichnet werden. Das Posendecodermittel 66 ist als ein Zweigdecoder (branch decoder) ausgebildet. Das Posendecodermittel 66 schließt eine gemeinsame erste Schicht 68 ein. Die gemeinsame erste Schicht 68 extrahiert die Merkmalsvektoren zur Translation und Drehung getrennt als: $h_{t} = W_{t} h + b_{t},$
$h_{q} = W_{q} h + b_{q},$
wobei W_t, W_q, b_t und b_q trainierbare Parameter sind. Somit werden die Merkmale von Translation und Drehung entkoppelt. Als Nächstes schließt eine verzweigte zweite Schicht 70 vorzugsweise sieben vollständig verbundene Schichten ein, um die Regression für sieben Ziele getrennt durchzuführen als: $t_{d} = W_{t_{d}} h_{t} + b_{t_{d}},$
$q_{Θ} = W_{q_{Θ}} h_{q} + b_{q_{Θ}},$
wobei t_d ∈ {t_x, t_y, t_z} und q_Θ ∈ {q_w, q_p, q_q, q_r}, sodass alle sieben Ziele gelernt werden können. Dieser Ansatz ermöglicht eine bessere Konvergenz, weil jedes Ziel ein verschiedenes Konvergenzbecken aufweist.
Die Kameraposenregressions-Pipeline wird unter Verwendung des Gewichtsausgleichsverlusts trainiert: $Verlust = {‖ t - \hat{t} ‖}_{1} e^{- β} + β + {‖ q - \hat{q} ‖}_{1} e^{- γ} + γ$
wobei β und γ lernbare Parameter zum Ausgleichen des Verlusts zwischen Translation und Drehung sind.
Das Verfahren, das durch die Kameraposenregressions-Pipeline 10 durchgeführt wird, wurde durch Experimente ausgewertet. Das Verfahren wurde an zwei großen Datensätzen für autonomes Fahren getestet.
Die Experimente wurden am Oxford RobotCar-Datensatz (verfügbar unter https://robotcar-dataset.robots.ox.ac.uk/datasets/) und am 4Seasons-Datensatz (verfügbar unter https://www.4seasons-dataset.com/) durchgeführt.
Der Oxford RobotCar-Datensatz ist ein großer Datensatz für autonomes Fahren, der durch ein Auto, das entlang einer Route in Oxford, Großbritannien fuhr, erfasst wurde. Er besteht aus zwei verschiedenen Routen, der Loop mit 8,8 × 10⁴m² und der Full mit 1,2 × 10⁶ m².
Der 4Seasons-Datensatz ist ein Datensatz für sehr herausforderndes autonomes Fahren, der in München, Deutschland, erfasst wurde und unterschiedliche Wahrnehmungsbedingungen abdeckt. Insbesondere enthält er verschiedene Szenen, die den Ort, die Stadt, das Gelände und das Wohngebiet einschließen. Außerdem besteht er aus einer breiten Vielfalt von Wetterbedingungen und Beleuchtungen, einschließlich Tag und Nacht.
Während des Experiments wurde die maximale Sequenzlänge als 11 festgelegt, was mit vorhergehenden Mehrfachansichtsmodellen kompatibel ist und einen Vergleich ermöglicht. Die Größe der kürzeren Seite der Eingabebilder wurde zu 128 Pixel geändert, und die Stapelgröße war 64. Der Adam-Optimierer mit einer Lernrate 2e-4 und einem Gewichtsabfall 5e-4 wurde zum Trainieren der Kameraposenregressions-Pipeline 10 verwendet. Die Datenerweiterungstechniken schließen zufälliges Croppen und Farb-Jittern (Helligkeit, Sättigung, Kontrast und Farbton) ein. Alle Experimente werden auf einer NVIDIA A5000 durchgeführt.
Bezugnehmend auf 3 wird der Vergleich zwischen der Erfindung und bekannten Regressionsmodellen für den Oxford RobotCar-Datensatz gezeigt. Die Zahlen werden in Metern angegeben und messen die Abweichung von der Ground Truth, d. h., je niedriger die Zahl, desto genauer die Ergebnisse. Die Spalte „Medianwert“ bezieht sich auf den Medianwertfehler, während sich die Spalte „Mittelwert“ auf den Mittelwertfehler bezieht. Das offenbarte Modell erreicht die beste Leistung in zehn von insgesamt zwölf Metriken. Besonders für den Mittelwertfehler, der leicht durch Ausreißervorhersagen beeinflusst wird, übertrifft das offenbarte Verfahren die Entsprechungen deutlich. In der schwierigsten Szene „Full“ ist das offenbarte Verfahren das erste, das einen Mittelwertfehler von weniger als 10 m erreicht.
Bezugnehmend auf 4 wird der Vergleich zwischen der Erfindung und bekannten Regressionsmodellen für den 4Seasons-Datensatz gezeigt. Der 4Seasons-Datensatz ist ein Datensatz, der zeigt, dass das offenbarte Verfahren unter herausfordernden Umgebungsstörungen noch leistungsfähiger ist. Wie in der Tabelle zu sehen ist, übertrifft die Tabelle des offenbarten Modells alle Entsprechungen in allen Metriken.
Anschließend wird ein Verfahren zum Navigieren eines autonomen Fahrzeugs durch eine Verkehrsumgebung beschrieben. Das autonome Fahrzeug erfasst eine Sequenz von Bildern und führt das zuvor beschriebene Verfahren unter Verwendung der Kameraposenregressions-Pipeline 10 durch, um die Kameraposenkoordinaten, besonders den Kameraort t_d ∈ {t_x, t_y, t_z}, zu erhalten. Der Kameraort wird als der Ort des Fahrzeugs verwendet. Ein Streckenplaner - der an sich bekannt ist - wird zum Planen einer Strecke vom aktuellen Fahrzeugort zu einem Ziel verwendet. Nachdem die Strecke geplant wurde, wird durch das Fahrzeug ein Steuersignal erzeugt, das den Fahrer über die vorgesehene Strecke informiert. Alternativ oder zusätzlich kann das Steuersignal erzeugt werden, um zu bewirken, dass das Fahrzeug der geplanten Strecke folgt.
Anschließend wird ein Verfahren zum Erstellen einer Karte einer Verkehrsumgebung beschrieben. Ein autonomes Fahrzeug fährt durch die Verkehrsumgebung oder wird durch einen Fahrer durch diese gefahren. Das Fahrzeug erfasst fortlaufend Bilder entlang der Fahrstrecke. Die Kameraposenregressions-Pipeline 10 wird verwendet, um die Kameraposenkoordinaten basierend auf den erfassten Bildern zu erhalten. Die Kameraposenkoordinaten innerhalb der Verkehrsumgebung werden zugeordnet, und ein Graph der Fahrstrecke wird daraus erzeugt. Der Graph der Fahrstrecke kann als eine Karte zur zukünftigen Verwendung in anderen Fahrzeugen gespeichert werden.
BEZUGSZEICHEN

10: Kameraposenregressions-Pipeline
12: Bild
14: Merkmalsextraktionsmittel
16: vierdimensionale Merkmalskarte
18: Graphenstrukturerzeugungsmittel
20: Merkmalsgraphenstruktur
22: Merkmalsknotensatz
24: Merkmalsknoten
26: Partielle Differenzialgleichung (PDE) Merkmalsgraphenschicht
28: aktualisierte Merkmalsgraphenstruktur
30: aktualisierter Merkmalsknoten
32: gewöhnlichen Differenzialgleichung (ODE) Knotenschicht
34: aktualisierte Knotenmerkmalsgraphenstruktur
36: aktualisiertes Knotenmerkmal
38: Datenumwandlungsmittel
40: zerlegte Merkmalskarten
42: Vektoreinbettungsmittel
44: Pooling-Schicht
46: Vektoreinbettungen
48: Vektoreinbettungsgraphenstrukturerzeugungsmittel
50: Vektoreinbettungsgraphenstruktur
52: Vektoreinbettungsknotensatz
54: Vektoreinbettungsknoten
56: Vektoreinbettungskantensatz
57: Differenzialgleichung (DE) Vektoreinbettungsschicht
58: Partielle Differenzialgleichung (PDE) Vektoreinbettungsgraphenschicht
60: Gewöhnliche Differenzialgleichung Vektoreinbettungsgraphenschicht (ODE)
62: aktualisierte Vektoreinbettungsgraphenstruktur
64: endgültige Vektoreinbettung
66: Posendecodermittel
68: gemeinsame erste Schicht
70: verzweigte zweite Schicht

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

https://robotcar-dataset.robots.ox.ac.uk/datasets/ [0066]

Claims

Computerimplementiertes Verfahren zur Kameraposenregression zum Zweck des Lokalisierens eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, das sich in einer Verkehrsumgebung bewegt, das Verfahren aufweisend: a) mit einem Merkmalsextraktionsmittel: Empfangen einer Anzahl N von Bildern (12), die die Verkehrsumgebung angeben, wobei das Merkmalsextraktionsmittel (14) eine vierdimensionale Merkmalskarte (16) aus den Bildern (12) bestimmt, wobei eine erste Dimension die Anzahl N ist, eine zweite Dimension eine vorbestimmte Höhe H in Pixeln ist, eine dritte Dimension eine vorbestimmte Breite W in Pixeln ist und eine vierte Dimension einer vorbestimmten Anzahl C von Kanälen des Merkmalsextraktionsmittels (14) entspricht; b) mit einem Graphenstrukturerzeugungsmittel (18): Erzeugen einer Merkmalsgraphenstruktur (20), die einen Merkmalsknotensatz (22) und einen Merkmalskantensatz einschließt, wobei der Merkmalsknotensatz (22) mit einer Vielzahl von Merkmalsknoten (24) erzeugt wird und jeder Merkmalsknoten (24) ein pixelbasiertes Merkmal basierend auf der in Schritt a) erhaltenen Merkmalskarte einschließt, wobei der Merkmalskantensatz als vollständig zwischen beliebigen zwei Merkmalsknoten (22) verbunden erzeugt wird; c) mit einer partiellen Differenzialgleichung (PDE) Merkmalsgraphenschicht (26): Empfangen der Merkmalsgraphenstruktur (20) von Schritt b) und Bestimmen einer aktualisierten Merkmalsgraphenstruktur (28) durch Lösen einer PDE (26) basierend auf einer Graphenaktualisierungsfunktion; d) mit einer gewöhnlichen Differenzialgleichung (ODE) Knotenschicht (32): Empfangen der aktualisierten Merkmalsgraphenstruktur (28) von Schritt c) und Bestimmen einer aktualisierten Knotenmerkmalsgraphenstruktur (34) durch Lösen einer ODE (32, 60) basierend auf einer Knotenmerkmalsaktualisierungsfunktion; e) mit einem Datenumwandlungsmittel (38): Umwandeln der aktualisierten Knotenmerkmalsgraphenstruktur von Schritt d) in eine Vielzahl von zerlegten Merkmalskarten (40); f) mit einem Vektoreinbettungsmittel (42): für jede zerlegte Merkmalskarte (40), Bestimmen zumindest einer Vektoreinbettung (46) durch Pooling; g) mit einem Vektoreinbettungsgraphenstrukturerzeugungsmittel (48): Erzeugen einer Vektoreinbettungsstruktur, die einen Vektoreinbettungsknotensatz (52) und einen Vektoreinbettungskantensatz (56) einschließt, wobei der Vektoreinbettungsknotensatz (52) mit einer Vielzahl von Vektoreinbettungsknoten (54) erzeugt wird und jeder Vektoreinbettungsknoten (54) eine in Schritt f) erhaltene Vektoreinbettung (46) einschließt, wobei der Vektoreinbettungskantensatz (56) als vollständig zwischen beliebigen zwei Vektoreinbettungsknoten (54) verbunden erzeugt wird; h) mit einer Differenzialgleichung (DE) Vektoreinbettungsschicht (57): Empfangen der Vektoreinbettungsgraphenstruktur (50) von Schritt g) und Bestimmen einer aktualisierten Vektoreinbettungsgraphenstruktur (62) durch sequenzielles Lösen einer PDE (26, 58) und einer ODE (32, 60) basierend auf zumindest einer Vektoreinbettungsaktualisierungsfunktion; i) mit einem Posendecodermittel (66): Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur (62) von Schritt h) in einen Satz von Kameraposenkoordinaten, die eine Pose einer Kamera bezogen auf die Verkehrsumgebung angeben.
Verfahren nach Anspruch 1, wobei das Merkmalsextraktionsmittel (14) in Schritt a) ein neuronales Faltungsnetzwerk einschließt, das die vierdimensionale Merkmalskarte (16) basierend auf dem Satz von Eingabebildern (12) bestimmt.
Verfahren nach einem der vorstehenden Ansprüche, wobei das Graphenstrukturerzeugungsmittel in Schritt b) die vierdimensionale Merkmalskarte (16) in eine eindimensionale Merkmalskarte restrukturiert, wobei eine erste Dimension die Anzahl C von Kanälen ist, wobei pixelbasierte Merkmale durch einen pixelbasierten Index i basierend auf N, H und W eindeutig identifiziert werden.
Verfahren nach einem der vorstehenden Ansprüche, wobei die Graphenaktualisierungsfunktion in Schritt c) für jeden Merkmalsknoten (24) unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei die Knotenmerkmalsaktualisierungsfunktion in Schritt d) unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei das Datenumwandlungsmittel (38) in Schritt e) jede zerlegte Merkmalskarte (40) als eine dreidimensionale zerlegte Merkmalskarte (40) erzeugt, wobei eine erste Dimension der Höhe H entspricht, eine zweite Dimension einer Breite W entspricht und eine dritte Dimension der Anzahl C von Kanälen entspricht, wobei jede zerlegte Merkmalskarte (40) durch einen Bildindex i basierend auf der Anzahl N von Bildern (12) eindeutig identifiziert wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei das Vektoreinbettungsmittel (42) in Schritt f) die zerlegten Merkmalskarten (40) durch Max-Pooling oder durchschnittliches Pooling einbettet.
Verfahren nach einem der vorstehenden Ansprüche, wobei die aktualisierte Vektoreinbettungsgraphenstruktur (62) in Schritt h) bestimmt wird durch: h1) Lösen der PDE (26, 58) basierend auf einer ersten Vektoreinbettungsaktualisierungsfunktion, die für jeden Vektoreinbettungsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird; h2) Lösen der ODE (32, 60) basierend auf einer zweiten Vektoreinbettungsaktualisierungsfunktion, die unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei in Schritt i) i1) das Posendecodermittel (66) als ein Zweigdecoder ausgebildet ist und/oder i2) das Posendecodermittel (66) eine gemeinsame erste Schicht (68) aufweist, die die Ausgabe von Schritt h) empfängt, und die gemeinsame erste Schicht (68) zum Entkoppeln der Vektoreinbettungen (46) in ortsbezogene Vektoreinbettungen und drehungsbezogene Vektoreinbettungen ausgebildet ist und/oder i3) das Posendecodermittel (66) eine verzweigte zweite Schicht (70) aufweist, die die Ausgabe von Schritt i2) empfängt, und die verzweigte zweite Schicht (70) zum Decodieren der ortsbezogenen Vektoreinbettungen und der drehungsbezogenen Vektoreinbettungen in die Kameraposenkoordinaten ausgebildet ist.
Verfahren nach einem der vorstehenden Ansprüche, wobei die Kameraposenkoordinaten in Schritt i) dreidimensionale Kameraortskoordinaten, die die Position der Kamera beschreiben, die den Satz von Bildern (12) erfasst hat, und/oder vierdimensionale Kameradrehungskoordinaten, die die Ausrichtung der Kamera beschreiben, die den Satz von Bildern (12) erfasst hat, jeweils bezogen auf die Verkehrsumgebung einschließen.
Computerimplementiertes Verfahren zum Navigieren eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, durch eine Verkehrsumgebung, das Verfahren aufweisend: a) Erfassen eines Satzes von Bildern (12) mit einem bildgebenden Sensor des Fahrzeugs und Durchführen eines Verfahrens nach einem der vorstehenden Ansprüche an den erfassten Bildern (12) zum Erhalten von Kameraposenkoordinaten innerhalb der Verkehrsumgebung; b) Bestimmen eines aktuellen Orts des Fahrzeugs basierend auf den in Schritt a) erhaltenen Kameraposenkoordinaten und Planen einer Strecke zwischen dem aktuellen Ort und einem Ziel, der das Fahrzeug folgen soll; c) Erzeugen eines Steuersignals, das einen Fahrer des Fahrzeugs über die geplante Strecke von Schritt b) informiert, oder Erzeugen eines Steuersignals, das bewirkt, dass das Fahrzeug der geplanten Strecke folgt.
Computerimplementiertes Verfahren zum Erstellen einer Karte einer Verkehrsumgebung, das Verfahren aufweisend: a) Fahren eines Fahrzeugs durch die Verkehrsumgebung und Erfassen eines Satzes von Bildern (12) entlang einer Fahrstrecke; b) Durchführen eines Verfahrens nach einem der vorstehenden Ansprüche an dem Satz von Bildern (12) von Schritt a) zum Erhalten von Kameraposenkoordinaten; c) Erzeugen eines Kartenmodells der Verkehrsumgebung basierend auf den Kameraposenkoordinaten und Speichern des Kartenmodells zur Verwendung in einer Navigationsaufgabe.
Datenverarbeitungssystem, das Mittel zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 10 und/oder Mittel zum Ausführen von Schritt a) des Verfahrens nach Anspruch 11 und/oder Mittel zum Ausführen von Schritt b) des Verfahrens nach Anspruch 12 aufweist.
Fahrzeug, vorzugsweise ein autonomes Fahrzeug, das ein Datenverarbeitungssystem nach Anspruch 13 aufweist.
Computerprogramm oder computerlesbares Speichermedium, das Anweisungen aufweist, bei deren Ausführung durch ein Datenverarbeitungssystem das Datenverarbeitungssystem zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 12 veranlasst wird.