DE102023210780A1 - Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung - Google Patents

Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung Download PDF

Info

Publication number
DE102023210780A1
DE102023210780A1 DE102023210780.5A DE102023210780A DE102023210780A1 DE 102023210780 A1 DE102023210780 A1 DE 102023210780A1 DE 102023210780 A DE102023210780 A DE 102023210780A DE 102023210780 A1 DE102023210780 A1 DE 102023210780A1
Authority
DE
Germany
Prior art keywords
feature
vector embedding
node
vector
graph structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023210780.5A
Other languages
English (en)
Inventor
Sijie Wang
Qiyu Kang
Rui She
Wee Peng Tay
Diego Navarro Navarro
Andreas Hartmannsgruber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Technologies GmbH
Nanyang Technological University
Original Assignee
Continental Automotive Technologies GmbH
Nanyang Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Technologies GmbH, Nanyang Technological University filed Critical Continental Automotive Technologies GmbH
Publication of DE102023210780A1 publication Critical patent/DE102023210780A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

Die Kamerarelokalisierung ist das Schlüsselproblem für autonome Fahrzeuge. Vorherige Kameraposenregressionsmodelle berücksichtigen nur ein Arbeiten in Idealfällen, in denen wenig Umgebungsstörung besteht. Um mit den schwierigen Szenarios umzugehen, wird ein RobustLoc genanntes Verfahren vorgeschlagen, das sowohl graphenbasierte PDE-Dynamiken (26, 58) als auch knotenbasierte ODE-Dynamiken (32, 60) nutzt. Experimente zeigen, dass dieses Modell vorherige Modelle übertreffen und eine robuste Operation in verschiedenen Umgebungsbedingungen erreichen kann.

Description

  • TECHNISCHES GEBIET
  • Die Erfindung betrifft ein computerimplementiertes Verfahren zur Kameraposenregression, insbesondere zum Zweck des Lokalisierens eines Fahrzeugs, wie eines autonomem Fahrzeugs, in einer Verkehrsumgebung.
  • HINTERGRUND
  • Die bildbasierte Lokalisierung ist ein Schlüsselproblem für autonome Fahrzeuge. Bisherige Methoden wie die Kameraposenregressionsmodelle erreichen üblicherweise bessere Ergebnisse in idealen Szenarios, in denen beispielsweise wenig Umgebungsstörungen bestehen. Die Lokalisierung ist ein wichtiges Problem besonders für autonome Fahrzeuge, weil die Lokalisierung die Grundlage für mehrere nachfolgende Aufgaben, einschließlich, ohne darauf beschränkt zu sein, der Navigation, Umgebungswahrnehmung und/oder Kartenerstellung, bilden kann.
  • Ein typischer Weg zum Beheben des Problems besteht darin, es wie eine Image Retrieval Aufgabe zu behandeln. Vor einer Inferenz kann eine Datenbank oder eine Karte, welche eine zuvor empfangene Informationen (z. B. Bilder, Deskriptoren, Posen usw.) speichert, erstellt werden. Dann, wenn Abfragebilder bereitgestellt werden, kann das Image Retrieval Modell am besten übereinstimmende Bilder durch Berechnen der Ähnlichkeit suchen. NetVLAD ist ein Beispiel für ein mehrschichtiges Lernen (englisch: deep learning) Modell, das nicht intuitiv die fotometrische Ähnlichkeit von Bildern vergleicht. Stattdessen verwendet es zuerst ein faltendes neuronales Netzwerk (englisch: convolutional neural network; CNN) zum Extrahieren von Merkmalen aus den Bildern, und dann wird ein Ähnlichkeitsvergleich zwischen den Merkmalen aus den Datenbankbildern und den Abfragebildern ausgeführt. Schließlich wird die Kamerapose des am besten übereinstimmenden Bilds als die Ausgabe behandelt.
  • Da Image Retrieval jedoch eine Datenbank als eine Voraussetzung erfordert, sind sowohl die Zeit- als auch die Raumkomplexität allgemein proportional zur Anzahl von zuvor empfangenen Informationen der Datenbank, was ein inhärentes Problem ist.
  • Um die Lokalisierung vom Erfordernis einer Datenbank zu trennen, hat sich das Forschungsinteresse in jüngster Zeit der Kameraposenregression zugewandt. Die Kameraposenregression ermöglicht es, das Erfordernis von zuvor erhaltenen Informationen zu reduzieren oder sogar zu beseitigen, und zeigt somit ein hohes Potenzial für Kraftfahrzeug-Fahraufgaben.
  • PoseNet zum Beispiel verwendet ein CNN zum Extrahieren von Bildmerkmalen als Vektoreinbettungen. Die Einbettungen können direkt auf Posen regressiert werden, die sechs Freiheitsgrade aufweisen (6-DoF-Posen). Um das Gewichtsungleichgewicht zwischen Translation und Drehung abzuschwächen, schlug PoseNet einen lernbaren Parameter vor, um die Verlustfunktions-Konvergenz zu unterstützen.
  • Um die Regressionsleistung und Modellrobustheit in schwierigen Fahrszenarien weiter zu verbessern, wurden multiview-basierte Modelle verwendet, die die Eingabe von einem einzelnen Bild auf eine Bildsequenz, die mehrere in der Nähe befindliche Frames einschließt, erweitern.
  • LSTM-Pose schlägt vor, Ansätze von CNN und Long Short-Term Memory (LSTM) zu verbinden, um räumliche und zeitliche Informationen effektiv zu erfassen.
  • MapNet konzentriert sich auf die Nachverarbeitungsstufe, wobei es die vorberechnete visuelle Odometrie einbezieht, um die regressierte Trajektorie zu optimieren.
  • Local supports global (LsG) integriert neuronale Graphennetzwerke (GNN) in CNN, um zu bewirken, dass Bildknoten besser mit Nachbarn interagieren.
  • CoordiNet ermöglicht es dem Netzwerk, eine Regressionsunsicherheit auszugeben, und verwendet die CoordConv-Technik, um reichhaltigere räumliche Darstellungen zu lernen.
  • Die oben angegebenen multiview-basierten Modelle haben eine vielversprechende Leistung in der schwierigen Fahrumgebung gezeigt.
  • Mit der Maßgabe, dass eine Datenbank mit Bildern und den Kameraposen gespeichert ist, zielen die Image Retrieval Modelle, wenn ein Abfragebild bereitgestellt wird, darauf ab, beste Treffer des Abfragebilds zu finden. Die Posen der übereinstimmenden Bilder können als die Pose des Abfragebilds betrachtet werden. Üblicherweise speichert die Datenbank nicht nur Bilder, sondern auch die globalen und lokalen Deskriptoren dieser Bilder, die entweder durch ein CNN oder einen klassischen Merkmalsextraktor berechnet werden können. Während einer Inferenz werden die Deskriptoren des Abfragebilds auf die gleiche Weise berechnet und das Abgleichen kann durch weiteres Berechnen der Ähnlichkeit zwischen dem Abfragedeskriptor und Datenbankdeskriptoren erreicht werden.
  • Herkömmlicherweise können die Deskriptoren durch einen SIFT-, VLAD- oder Fisher-Vektor berechnet werden, die alle auf einer zuvor erhaltenen Information basieren, der auf menschlichen Wissen basiert, und nicht stark genug sind, um ein Bild darzustellen.
  • In den letzten zehn Jahren ist Deep Learning entstanden und hat sich weiterentwickelt. Es hat sich gezeigt, dass die aus einem tiefen neuronalen Netzwerk berechneten Deskriptoren leistungsfähiger als klassische Verfahren sind.
  • NetVLAD ist ein Pionier bei der Integration von CNN in Image Retrieval, wobei eine trainierbare VLAD-Schicht vorgeschlagen wird. Gradient episodic Memory (GeM) schlug vor, die Histogramm-Binning-Näherung zu formulieren, um das Abgleichen direkt zu optimieren. Patch-NetVLAD erweitert Vanilla NetVLAD, das das gesamte Bild in diskretisierte Flächen teilt, und die lokalen Merkmale können besser aggregiert werden.
  • Die oben angegebenen Verfahren stützen sich alle auf eine zuvor erstellte Datenbank zum Speichern möglicher Informationen, und der Speicherungsbedarf ist linear proportional zur Anzahl möglicher zuvor erhaltener Informationen mit Komplexität d(N) in sowohl der Zeit- als auch der Raumdimension. Um die Komplexität zu reduzieren, wurden Kameraposenregressionsverfahren (CPRs) vorgeschlagen. Wenn die Abfragebilder bereitgestellt werden, regressieren CPRs die Kameraposen dieser Bilder direkt, ohne das Erfordernis einer Datenbank. Somit besteht keine Abhängigkeit von der Skalierung der Datenbank und die Komplexität ist erheblich kleiner, z. B. d(1).
  • PoseNet schlägt das gleichzeitige Lernen für Ort und Ausrichtung durch Integrieren eines Ausgleichsparameters vor. AD PoseNet nutzt die semantischen Informationen, um einen dynamischen Bereich im Bild zu verwerfen. AtLoc führt die „global attention“ ein, um das Netzwerk zum Lernen einer besseren Darstellung anzuleiten. Und GNNMap-Net erweitert das Untersuchen von Merkmalen von einem einzelnen Bild auf multiview-Bilder, indem es neuronale Graphennetzwerke (GNNs) nutzt. Coordinet verwendet das CoordConv und Pooling mit gewichtetem Durchschnitt, um räumliche Beziehungen zu erfassen.
  • In der Kontrolltheorie und der Physik werden die Dynamiken eines Systems üblicherweise durch Differenzialgleichungen beschrieben, wodurch eine oder mehrere unbekannte Funktionen und ihre Derivate in Beziehung gesetzt werden.
  • Eine ODE (englisch: ordinary differential equation) ist die Gleichung, die das Derivat einer Funktion y(t) definiert: d y d t = ƒ ( y ,   t ) ,
    Figure DE102023210780A1_0001
    während eine PDE (englisch: partial differential equation) mehr als eine Variable enthält: y ( t ,   s ) t = ƒ ( y ,   t ,   s ) .
    Figure DE102023210780A1_0002
  • KURZDARSTELLUNG DER ERFINDUNG
  • Es ist die Aufgabe der Erfindung, die Kameraposenregression, vorzugsweise auf dem Gebiet des autonomen Fahrens und/oder in herausfordernden Fahrumgebungen, zu verbessern.
  • Die Aufgabe wird durch den Gegenstand der abhängigen Ansprüche erfüllt. Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
  • Die Erfindung stellt ein computerimplementiertes Verfahren zur Kameraposenregression zum Zweck des Lokalisierens eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, das sich in einer Verkehrsumgebung bewegt, bereit, das Verfahren aufweisend:
    1. a) mit einem Merkmalsextraktionsmittel: Empfangen einer Anzahl N von Bildern, die die Verkehrsumgebung angeben, wobei das Merkmalsextraktionsmittel eine vierdimensionale Merkmalskarte aus den Bildern bestimmt, wobei eine erste Dimension die Anzahl N ist, eine zweite Dimension eine vorbestimmte Höhe H in Pixeln ist, eine dritte Dimension eine vorbestimmte Breite W in Pixeln ist und eine vierte Dimension einer vorbestimmten Anzahl C von Kanälen des Merkmalsextraktionsmittels entspricht;
    2. b) mit einem Graphenstrukturerzeugungsmittel: Erzeugen einer Merkmalsgraphenstruktur, die einen Merkmalsknotensatz und einen Merkmalskantensatz einschließt, wobei der Merkmalsknotensatz mit einer Vielzahl von Merkmalsknoten erzeugt wird und jeder Merkmalsknoten ein pixelbasiertes Merkmal basierend auf der in Schritt a) erhaltenen Merkmalskarte einschließt, wobei der Merkmalskantensatz als vollständig zwischen beliebigen zwei Merkmalsknoten verbunden erzeugt wird;
    3. c) mit einer partiellen Differenzialgleichung (PDE) Merkmalsgraphenschicht :
      • Empfangen der Merkmalsgraphenstruktur von Schritt b) und Bestimmen einer aktualisierten Merkmalsgraphenstruktur durch Lösen einer PDE basierend auf einer Graphenaktualisierungsfunktion;
    4. d) mit einer gewöhnlichen Differenzialgleichung (ODE) Knotenschicht: Empfangen der aktualisierten Merkmalsgraphenstruktur von Schritt c) und Bestimmen einer aktualisierten Knotenmerkmalsgraphenstruktur durch Lösen einer ODE basierend auf einer Knotenmerkmalsaktualisierungsfunktion;
    5. e) mit einem Datenumwandlungsmittel: Umwandeln der aktualisierten Knotenmerkmalsgraphenstruktur von Schritt d) in eine Vielzahl von zerlegten Merkmalskarten;
    6. f) mit einem Vektoreinbettungsmittel: für jede zerlegte Merkmalskarte, Bestimmen einer Vektoreinbettung durch Pooling;
    7. g) mit einem Vektoreinbettungsgraphenstrukturerzeugungsmittel: Erzeugen einer Vektoreinbettungsstruktur, die einen Vektoreinbettungsknotensatz und einen Vektoreinbettungskantensatz einschließt, wobei der Vektoreinbettungsknotensatz mit einer Vielzahl von Vektoreinbettungsknoten erzeugt wird und jeder Vektoreinbettungsknoten eine in Schritt f) erhaltene Vektoreinbettung einschließt, wobei der Vektoreinbettungskantensatz als vollständig zwischen beliebigen zwei Vektoreinbettungsknoten verbunden erzeugt wird;
    8. h) mit einer Differenzialgleichung (DE) Vektoreinbettungsschicht: Empfangen der Vektoreinbettungsgraphenstruktur von Schritt g) und Bestimmen einer aktualisierten Vektoreinbettungsgraphenstruktur durch sequenzielles Lösen einer PDE und einer ODE basierend auf zumindest einer Vektoreinbettungsaktualisierungsfunktion;
    9. i) mit einem Posendecodermittel: Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur von Schritt h) in einen Satz von Kameraposenkoordinaten, die eine Pose einer Kamera bezogen auf die Verkehrsumgebung angeben.
  • Wenn eine Anzahl N von in der Nähe befindlichen Bildern I = {Ii} bereitgestellt wird, weist dasoffenbarte Kameraposenregressionsverfahren zwei verschiedene Stufen auf. In einer ersten Stufe (1) extrahiert das Netzwerk f Merkmalskarten als m = f(I), die die lokalen Bildmuster beschreiben. Ein nachfolgendes Pooling-Modul aggregiert die Merkmalskarten weiter in Vektoreinbettungen h = Pooling(m), die das globale Bildmuster beschreiben. Durch Anwenden einer vollständig verbundenen Schicht (fc-Schicht) kann die Kameratranslation ti ∈ ℝ3 und -drehung qi ∈ ℝ3 der Eingabebilder von den Vektoreinbettungen regressiert werden.
  • Um mit schwierigeren Szenarios umzugehen, wird ein Verfahren, das als RobustLoc bezeichnet wird, offenbart. Das Verfahren zielt darauf ab, sowohl graphenbasierte Dynamiken einer partiellen Differenzialgleichung (PDE) als auch knotenbasierte Dynamiken einer gewöhnlichen Differenzialgleichung (ODE) zu nutzen. Experimente zeigen, dass das Verfahren bekannte Modelle übertreffen kann und eine robustere Operation in verschiedenen Umgebungsbedingungen für nahezu alle Szenarios erreichen kann.
  • Das Modell ermöglicht eine höhere Robustheit gegen Umgebungsstörungen (z. B. wechselnde(s) Jahreszeiten, Wetter, Beleuchtung und instabile Objekte) und ermöglicht ein effektives Nutzen von benachbarten Informationen.
  • ODEs ermöglichen eine bessere Robustheit gegen gegenläufigeStörungen. Die Graphenstruktur ermöglicht eine inhärent effektive Nachbarschaftsinformationsinteraktion. Das offenbarte Verfahren verwendet auch ein Graphen-PDE-Modell, das es nicht nur ermöglicht, die Beziehung zwischen Nachbarn zu untersuchen, sondern auch ein Regulieren von Merkmalsdynamiken ermöglicht.
  • Das offenbarte Verfahren wird an drei Datensätzen für herausforderndes autonomes Fahren getestet und erreicht signifikante Verbesserungen, wie später erörtert wird.
  • Um die zwei zuvor erwähnten Erkenntnisse umzusetzen und eine robuste Kameraposenregression in einer Fahrumgebung zu erreichen, schlägt die Offenbarung das Erfassen benachbarter und robuster Darstellungen vor.
  • Vorzugsweise schließt das Merkmalsextraktionsmittel in Schritt a) ein neuronales Faltungsnetzwerk ein, das die vierdimensionale Merkmalskarte basierend auf dem Satz von Eingabebildern bestimmt. Die Verwendung eines CNN ermöglicht eine im Vergleich zu anderen Verfahren besser geeignete und genauere Merkmalsextraktion.
  • Vorzugsweise restrukturiert das Graphenstrukturerzeugungsmittel in Schritt b) die vierdimensionale Merkmalskarte in eine eindimensionale Merkmalskarte, wobei eine erste Dimension die Anzahl C von Kanälen ist, wobei pixelbasierte Merkmale durch einen pixelbasierten Index i basierend auf N, H und W eindeutig identifiziert werden. Mit dem Restrukturieren der Daten wird die Graphenstruktur derart erzeugt, dass sie besonders einfach zu verarbeiten ist.
  • Vorzugsweise wird die Graphenaktualisierungsfunktion in Schritt c) für jeden Merkmalsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt. Die Verwendung von Multi-Head-Attention-Schichten konzentriert das Modell auf wichtigere Merkmale.
  • Vorzugsweise wird die Knotenmerkmalsaktualisierungsfunktion in Schritt d) unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron (MLP) ausgebildet sind, bestimmt.
  • Vorzugsweise erzeugt das Datenumwandlungsmittel in Schritt e) jede zerlegte Merkmalskarte als eine dreidimensionale zerlegte Merkmalskarte, wobei eine erste Dimension der Höhe H entspricht, eine zweite Dimension einer Breite W entspricht und eine dritte Dimension der Anzahl C von Kanälen entspricht, wobei jede zerlegte Merkmalskarte durch einen Bildindex i basierend auf der Anzahl N von Bildern eindeutig identifiziert wird.
  • Vorzugsweise bettet das Vektoreinbettungsmittel in Schritt f) die zerlegten Merkmalskarten durch Max-Pooling oder durchschnittliches Pooling ein.
  • Vorzugsweise wird die aktualisierte Vektoreinbettungsgraphenstruktur in Schritt h) durch Lösen der PDE basierend auf einer ersten Vektoreinbettungsaktualisierungsfunktion bestimmt, die für jeden Vektoreinbettungsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird.
  • Vorzugsweise wird die aktualisierte Vektoreinbettungsgraphenstruktur in Schritt h) durch Lösen der ODE basierend auf einer zweiten Vektoreinbettungsaktualisierungsfunktion bestimmt, die unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
  • Vorzugsweise ist das Posendecodermittel in Schritt i) als ein Zweigdecoder (branch decoder) ausgebildet. Vorzugsweise weist das Posendecodermittel in Schritt i) eine gemeinsame erste Schicht auf, die die Ausgabe von Schritt h) empfängt, und die gemeinsame erste Schicht ist zum Entkoppeln der Vektoreinbettungen in ortsbezogene Vektoreinbettungen und drehungsbezogene Vektoreinbettungen ausgebildet. Vorzugsweise weist das Posendecodermittel in Schritt i) eine verzweigte zweite Schicht auf, die die Ausgabe von Schritt i2) empfängt, und die verzweigte zweite Schicht ist zum Decodieren der ortsbezogenen Vektoreinbettungen und der drehungsbezogenen Vektoreinbettungen in die Kameraposenkoordinaten ausgebildet.
  • Vorzugsweise weisen die Kameraposenkoordinaten in Schritt i) dreidimensionale Kameraortskoordinaten auf, die die Position der Kamera beschreiben, die den Satz von Bildern erfasst hat, und/oder vierdimensionale Kameradrehungskoordinaten, die die Ausrichtung der Kamera beschreiben, die den Satz von Bildern erfasst hat, jeweils bezogen auf die Verkehrsumgebung ein.
  • Die Erfindung stellt ein computerimplementiertes Verfahren zum Navigieren eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, durch eine Verkehrsumgebung ein, das Verfahren aufweisend:
    1. a) Erfassen eines Satzes von Bildern mit einem bildgebenden Sensor des Fahrzeugs und Durchführen eines bevorzugten Verfahrens an den erfassten Bildern zum Erhalten von Kameraposenkoordinaten innerhalb der Verkehrsumgebung;
    2. b) Bestimmen eines aktuellen Orts des Fahrzeugs basierend auf den in Schritt a) erhaltenen Kameraposenkoordinaten und Planen einer Strecke zwischen dem aktuellen Ort und einem Ziel, welcher das Fahrzeug folgen soll;
    3. c) Erzeugen eines Steuersignals, das einen Fahrer des Fahrzeugs über die geplante Strecke von Schritt b) informiert, oder Erzeugen eines Steuersignals, das bewirkt, dass das Fahrzeug der geplanten Strecke folgt.
  • Die Erfindung stellt ein computerimplementiertes Verfahren zum Erstellen einer Karte einer Verkehrsumgebung bereit, das Verfahren aufweisend:
    1. a) Fahren eines Fahrzeugs durch die Verkehrsumgebung und Erfassen eines Satzes von Bildern entlang einer Fahrstrecke;
    2. b) Durchführen eines bevorzugten Verfahrens am Satz von Bildern von Schritt a) zum Erhalten von Kameraposenkoordinaten;
    3. c) Erzeugen eines Kartenmodells der Verkehrsumgebung basierend auf den Kameraposenkoordinaten und Speichern des Kartenmodells zur Verwendung in einer Navigationsaufgabe.
  • Die Erfindung stellt ein Datenverarbeitungssystem bereit, das ein Mittel zum Ausführen eines wie zuvor beschriebenen Verfahrens aufweist.
  • Die Erfindung stellt ein Fahrzeug, vorzugsweise ein autonomes Fahrzeug, bereit, welches das Datenverarbeitungssystem aufweist.
  • Die Erfindung stellt ein Computerprogramm oder computerlesbares Medium bereit, das Anweisungen aufweist, die bei Ausführung durch ein Datenverarbeitungssystem das Datenverarbeitungssystem zum Ausführen eines wie zuvor beschriebenen Verfahrens veranlassen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Ausführungsformen der Erfindung werden Bezug nehmend auf die begleitenden schematischen Zeichnungen ausführlicher beschrieben.
    • 1 und
    • 2 stellen eine Ausführungsform eines Verfahrens zur Kameraposenregression dar;
    • 3 stellt experimentelle Ergebnisse dar; und
    • 4 stellt experimentelle Ergebnisse dar.
  • DETAILLIERTE BESCHREIBUNG EINER AUSFÜHRUNGSFORM
  • Bezugnehmend auf 1 und 2 ist eine Kameraposenregressions-Pipeline 10 dargestellt. Die Kameraposenregressions-Pipeline 10 wird zum Durchführen eines Verfahrens zur Kameraposenregression, das Kameraposenkoordinaten ausgibt, verwendet. Die Kameraposenregression 10 arbeitet gemäß dem weiter unten beschriebenen Verfahren.
  • Die Kameraposenregressions-Pipeline 10 wird mit einem Satz von Bildern 12, z. B. einer Anzahl N = 3 Bilder 12, gespeist. Vorzugsweise ist die Anzahl N von Bildern 12 ungerade, z. B. N = 3, 5, 7, 9, 11 ... Jedes Bild 12 wird einem Merkmalsextraktionsmittel 14 zugeführt. Das Merkmalsextraktionsmittel 14 ist zum Extrahieren von Merkmalen aus den Bildern 12 und Ausgeben einer vierdimensionalen Merkmalskarte 16 ausgebildet. Das Merkmalsextraktionsmittel 14 schließt vorzugsweise ein neuronales Faltungsnetzwerk ein, das für eine Merkmalsextraktion trainiert ist. Die vierdimensionale Merkmalskarte 16 weist eine erste Dimension gemäß der Anzahl von Bildern N auf. Eine zweite und eine dritte Dimension der Merkmalskarte 16 sind die vorbestimmte Höhe H und Breite W, gemessen in Pixeln, z. B. H = 4 und W = 4. Die Höhe H und die Breite W sind üblicherweise identisch und sind vorzugsweise ausgewählt aus H, W ∈ {4, 5, 6, 7, 8}. Üblicherweise sind die Höhe H und die Breite W der Merkmalskarte 16 deutlich kleiner als die Höhe und die Breite der Bilder 12, die verarbeitet werden. Eine vierte Dimension der Merkmalskarte 16 entspricht einer vorbestimmten Anzahl C von Kanälen, z. B. C = 512. Die Anzahl C von Kanälen ist vorzugsweise eine Potenz von 2, d. h. 2, 4, 8, 16, 32, 64, 128, 256, 512 ... Die Anzahl C von Kanälen ist üblicherweise durch die verfügbaren Rechenressourcen, z. B. Speicher und Vektorverarbeitungsleistung, beschränkt.
  • Die Kameraposenregressions-Pipeline 10 weist ferner ein Graphenstrukturerzeugungsmittel 18 auf. Basierend auf der Merkmalskarte 16 wird eine Merkmalsgraphenstruktur 20 erzeugt. Die Merkmalskarte 16, die eine Struktur m ∈ ℝN×H×W×C aufweist, wird durch das Graphenstrukturerzeugungsmittel 18 in eine eindimensionale Merkmalskarte, die eine Struktur m ∈ ℝNHW×C aufweist, neu formatiert. In der eindimensionalen Merkmalskarte kann jedes pixelbasierte Merkmal in dieser Merkmalskarte als mi ∈ ℝc, i ∈ NHW bezeichnet werden, wobei i ein Merkmalsindex ist.
  • Das Graphenstrukturerzeugungsmittel 18 erzeugt die Merkmalsgraphenstruktur 20, die durch die Formel G feat = ( V feat ,   E feat )
    Figure DE102023210780A1_0003
    beschrieben werden kann. Die Merkmalsgraphenstruktur 20 schließt einen Merkmalsknotensatz 22 ein, der eine Vielzahl von Merkmalsknoten 24 aufweist. Der Merkmalsknotensatz 22 kann durch die Formel V feat = { m i } .
    Figure DE102023210780A1_0004
    beschrieben werden. Jeder Merkmalsknoten 24 enthält eine pixelbasierte Merkmalskarte mi. Die pixelbasierten Merkmalskarten mi bilden zusammen die eindimensionale Merkmalskarte. Der Kantensatz ℇfeat ist derart definiert, dass er zwischen beliebigen zwei Merkmalsknoten 24 vollständig verbunden ist.
  • Die Ausgabe des Graphenstrukturerzeugungsmittels 18 wird einer partiellen Differenzialgleichung (PDE) einer Merkmalsgraphenschicht 26 zugeführt. Die Idee hinter der Merkmalsgraphen-PDE-Schicht besteht darin, dass die PDE seine Robustheit gegen sowohl Graphenarchitektur als auch Merkmalsstörung gezeigt hat. Die Kameraposenregression im Fahrszenario ist ähnlich einer Graphenknotenklassifizierung, wobei die auf dem Bild gezeigten Umgebungsvariationen als eine Störung der Graphenknotenmerkmale betrachtet werden können.
  • Die Merkmalsgraphen-PDE-Schicht 26 modelliert das Merkmalsknotenaktualisieren als einen dynamischen Fluss in zwei Richtungen: von Schicht zu Schicht und von Merkmalsknoten 24 zu Merkmalsknoten 24. Die Merkmalsknoten 24 und die Schichten werden als Variablen derart verarbeitet, dass die Graphenmerkmalsflussdynamiken modelliert werden können als: m ( i ,   l ) l = g feat ( m ,   i ,   l ) .
    Figure DE102023210780A1_0005
    wobei gfeat die Graphenmerkmalsaktualisierungsfunktion, die unten beschrieben ist, bezeichnet. Dann wird der Ausgangszustand zu Beginn der Schicht l = 0 als die Merkmalsgraphenstruktur 20 betrachtet. Die obige PDE kann für eine aktualisierte Merkmalsgraphenstruktur 28 am Ende der Schicht l = 1 gelöst werden. Die aktualisierte Merkmalsgraphenstruktur 28 wird durch einen PDE-Löser, wie torchdiffeq, erhalten, der unter https://github.com/rtqichen/torchdiffeq verfügbar ist und eine Pytorch-Implementierung unterstützt. Dies kann beschrieben werden als: m ( i ,   1 ) = m i 1 = PDESolve ( m i 0 ,   g feat ) ,
    Figure DE102023210780A1_0006
    wobei m i 1
    Figure DE102023210780A1_0007
    die aktualisierte Merkmalsgraphenstruktur 28 mit aktualisierten Merkmalsknoten 30 bezeichnet, PDESolve den PDE-Auflöser bezeichnet, m i 0
    Figure DE102023210780A1_0008
    die Merkmalsgraphenstruktur 20 und gfeat die unten beschriebene Merkmalsaktualisierungsfunktion bezeichnet.
  • Die Merkmalsaktualisierungsfunktion ermöglicht eine effektive Knotenmerkmalsinteraktion. Vorzugsweise verwendet die Merkmalsgraphen-PDE-Schicht 26 einen Attention-artigen Mechanismus zum Erstellen der Merkmalsaktualisierungsfunktion, vorzugsweise indem zuerst die Nachricht jedes Merkmalsknotens 24 unter Verwendung von vollständig verbundenen Multi-Head-Schichten mit lernbaren Parametern Wk und bk am Attention-Head k erzeugt wird. Die typische Anzahl k von Attention-Heads ist eine Zweierpotenz, vorzugsweise eine Vierer- oder Achterpotenz: m i ,   k fc = W k m i + b k ,
    Figure DE102023210780A1_0009
    a i , j , k = Softmax j N ( i ) ( m i ,   k fc m j ,   k fc ) ,
    Figure DE102023210780A1_0010
    m i ,   k weighted = j = N ( i ) a i , j , k m j ,   k fc ,   g feat ( m i ) = m i fout = Concatenate k K ( m i ,   k weighted ) .
    Figure DE102023210780A1_0011
  • Mit anderen Worten resultiert jeder aktualisierte Merkmalsknoten 30 aus seinen benachbarten Merkmalsknoten 24 und sich selbst, wie durch die gestrichelten Pfeile in 1 angegeben. Mit dieser Merkmalsaktualisierungsfunktion wird die aktualisierte Merkmalsgraphenstruktur 28 bestimmt.
  • Die Kameraposenregressions-Pipeline 10 schließt eine gewöhnlichen Differenzialgleichung (ODE) Knotenschicht 32 ein. Die Knoten-ODE-Schicht 32 empfängt die aktualisierte Merkmalsgraphenstruktur 28. Damit können knotenbasierte Merkmalsdynamiken durch eine Knoten-ODE beschrieben werden: d m ( l ) d l = ƒ feat ( m ,   l ) ,
    Figure DE102023210780A1_0012
    wobei ffeat die Knotenmerkmalsaktualisierungsfunktion, die unten beschrieben ist, bezeichnet. Dann wird der Ausgangszustand zu Beginn der Schicht l = 0 als die aktualisierte Merkmalsgraphenstruktur 30 betrachtet. Die obige ODE kann für eine aktualisierte Knotenmerkmalsgraphenstruktur 34 am Ende der Schicht l = 1 aufgelöst werden. Die aktualisierte Knotenmerkmalsgraphenstruktur 34 wird durch einen ODE-Auflöser erhalten.
  • Die Knoten-ODE-Schicht 32 bestimmt die grundlegende Knotenmerkmalsaktualisierungsfunktion unter Verwendung eines mehrlagigen Perzeptrons (MLP): m i fout = MLP ( m i )
    Figure DE102023210780A1_0013
  • Und das aktualisierte Knotenmerkmal 36 kann erhalten werden als: m i ( 1 ) = ODESolve ( m i 0 , f feat ) .
    Figure DE102023210780A1_0014
    wobei der Knotenmerkmalsfluss nur innerhalb des Knotens selbst, ohne Interaktion von Nachbarn, angewendet wird. Dadurch bestimmt die Knoten-ODE-Schicht 32 eine aktualisierte Knotenmerkmalsgraphenstruktur 36 und gibt diese aus.
  • Die Kameraposenregressions-Pipeline 10 schließt ein Datenumwandlungsmittel 38 ein. Das Datenumwandlungsmittel 38 restrukturiert die aktualisierte Knotenmerkmalsgraphenstruktur 36 in zerlegte Merkmalskarten 40. Die zerlegten Merkmalskarten 40 sind vorzugsweise dreidimensional und weisen eine erste und eine zweite Dimension auf, die der Höhe H und der Breite W entspricht. Die zerlegten Merkmalskarten 40 weisen vorzugsweise eine dritte Dimension auf, die der Anzahl C von Kanälen entspricht. Jede zerlegte Merkmalskarte 40 wird durch einen Bildindex i, der aus der Anzahl N von Bildern 12 ausgewählt ist, eindeutig identifiziert. Die zerlegten Merkmalskarten 40 können als mi ∈ ℝH×W×C, i ∈ N bezeichnet werden.
  • Die Kameraposenregressions-Pipeline 10 schließt ein Vektoreinbettungsmittel 42 ein. Die zerlegten Merkmalskarten 40 werden in eine Pooling-Schicht 44 zugeführt, um Vektoreinbettungen hi ∈ ℝC zu formulieren als: h i = Pooling ( m i )
    Figure DE102023210780A1_0015
    wobei hi reichhaltige globale Merkmale für das Eingabebild Ii enthält. Die Pooling-Schicht 44 kann eine Schicht eines durchschnittlichen Pooling oder eine Max-Pooling-Schicht sein. Das Vektoreinbettungsmittel 42 gibt Vektoreinbettungen 46 aus.
  • Bezugnehmend auf 2 schließt die Kameraposenregressions-Pipeline 10 ein Vektoreinbettungsgraphenstrukturerzeugungsmittel 48 ein. Dem Vektoreinbettungsgraphenstrukturerzeugungsmittel 48 werden Vektoreinbettungen 46 zugeführt und erzeugt eine Vektoreinbettungsgraphenstruktur 50, die beschrieben werden kann durch: G vect = ( ν vect , ε vect )
    Figure DE102023210780A1_0016
    wobei der Vektoreinbettungsknotensatz 52 als ν vect = { h i }
    Figure DE102023210780A1_0017
    bezeichnet wird und jeder Vektoreinbettungsknoten 54 des Vektoreinbettungsknotensatzes 52 Bildvektoreinbettungen hi enthält. Der Vektoreinbettungskantensatz 56 wird als ℇvect bezeichnet und wird als zwischen beliebigen zwei Vektoreinbettungsknoten 54 vollständig verbunden definiert.
  • Im Folgenden wird die Vektoreinbettungsgraphenstruktur 50 einer Differenzialgleichung (DE) Schicht einer Vektoreinbettung 57 zugeführt, die eine partielle Differenzialgleichung (PDE) Schicht eines Vektoreinbettungsgraphen 58 und eine nachfolgende gewöhnliche Differenzialgleichung Schicht eines Vektoreinbettungsgraphen (ODE) 60 einschließt. Die Vektoreinbettungsgraphen-PDE-Schicht 58 und die Vektoreinbettungsgraphen-ODE-Schicht 60 arbeiten gemäß denselben Prinzipien wie die entsprechende Merkmalsgraphen-PDE-Schicht 26 und die Knoten-ODE-Schicht 32 mit der Maßgabe, dass sie basierend auf Vektoreinbettungen 46 in der Vektoreinbettungsgraphenstruktur 50 arbeiten.
  • Die Vektoreinbettungs-DE-Schicht 57 gibt eine aktualisierte Vektoreinbettungsgraphenstruktur 62 aus. Die Vektoreinbettungsgraphenstruktur 62 kann in ähnlicher Weise wie die zerlegten Merkmalskarten 40 in eine endgültige Vektoreinbettung 64 restrukturiert werden.
  • Die Kameraposenregressions-Pipeline 10 schließt ein Posendecodermittel 66 ein. Das Posendecodermittel 66 ist zum Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur 62 oder der endgültigen Vektoreinbettung 64 zum Bestimmen der Kameraposenkoordinaten ausgebildet. Die Kameraposenregressions-Pipeline 10 ist somit in der Lage, mehrere Zahlen gleichzeitig vorherzusagen, d. h. die Quaternion für Translation {tx, ty, tz} und Drehung (qw, qp, qq, qr}.
  • Die endgültige Vektoreinbettung 64 enthält sowohl die eigenen als auch die benachbarten Informationen. Da es keine Knotenmerkmalsinteraktion mehr gibt, kann die endgültige Vektoreinbettung 64 als h anstatt hi bezeichnet werden. Das Posendecodermittel 66 ist als ein Zweigdecoder (branch decoder) ausgebildet. Das Posendecodermittel 66 schließt eine gemeinsame erste Schicht 68 ein. Die gemeinsame erste Schicht 68 extrahiert die Merkmalsvektoren zur Translation und Drehung getrennt als: h t = W t h + b t ,
    Figure DE102023210780A1_0018
    h q = W q h + b q ,
    Figure DE102023210780A1_0019
    wobei Wt, Wq, bt und bq trainierbare Parameter sind. Somit werden die Merkmale von Translation und Drehung entkoppelt. Als Nächstes schließt eine verzweigte zweite Schicht 70 vorzugsweise sieben vollständig verbundene Schichten ein, um die Regression für sieben Ziele getrennt durchzuführen als: t d = W t d h t + b t d ,
    Figure DE102023210780A1_0020
    q Θ = W q Θ h q + b q Θ ,
    Figure DE102023210780A1_0021
    wobei td ∈ {tx, ty, tz} und qΘ ∈ {qw, qp, qq, qr}, sodass alle sieben Ziele gelernt werden können. Dieser Ansatz ermöglicht eine bessere Konvergenz, weil jedes Ziel ein verschiedenes Konvergenzbecken aufweist.
  • Die Kameraposenregressions-Pipeline wird unter Verwendung des Gewichtsausgleichsverlusts trainiert: Verlust = t t ^ 1 e β + β + q q ^ 1 e γ + γ
    Figure DE102023210780A1_0022
    wobei β und γ lernbare Parameter zum Ausgleichen des Verlusts zwischen Translation und Drehung sind.
  • Das Verfahren, das durch die Kameraposenregressions-Pipeline 10 durchgeführt wird, wurde durch Experimente ausgewertet. Das Verfahren wurde an zwei großen Datensätzen für autonomes Fahren getestet.
  • Die Experimente wurden am Oxford RobotCar-Datensatz (verfügbar unter https://robotcar-dataset.robots.ox.ac.uk/datasets/) und am 4Seasons-Datensatz (verfügbar unter https://www.4seasons-dataset.com/) durchgeführt.
  • Der Oxford RobotCar-Datensatz ist ein großer Datensatz für autonomes Fahren, der durch ein Auto, das entlang einer Route in Oxford, Großbritannien fuhr, erfasst wurde. Er besteht aus zwei verschiedenen Routen, der Loop mit 8,8 × 104m2 und der Full mit 1,2 × 106 m2.
  • Der 4Seasons-Datensatz ist ein Datensatz für sehr herausforderndes autonomes Fahren, der in München, Deutschland, erfasst wurde und unterschiedliche Wahrnehmungsbedingungen abdeckt. Insbesondere enthält er verschiedene Szenen, die den Ort, die Stadt, das Gelände und das Wohngebiet einschließen. Außerdem besteht er aus einer breiten Vielfalt von Wetterbedingungen und Beleuchtungen, einschließlich Tag und Nacht.
  • Während des Experiments wurde die maximale Sequenzlänge als 11 festgelegt, was mit vorhergehenden Mehrfachansichtsmodellen kompatibel ist und einen Vergleich ermöglicht. Die Größe der kürzeren Seite der Eingabebilder wurde zu 128 Pixel geändert, und die Stapelgröße war 64. Der Adam-Optimierer mit einer Lernrate 2e-4 und einem Gewichtsabfall 5e-4 wurde zum Trainieren der Kameraposenregressions-Pipeline 10 verwendet. Die Datenerweiterungstechniken schließen zufälliges Croppen und Farb-Jittern (Helligkeit, Sättigung, Kontrast und Farbton) ein. Alle Experimente werden auf einer NVIDIA A5000 durchgeführt.
  • Bezugnehmend auf 3 wird der Vergleich zwischen der Erfindung und bekannten Regressionsmodellen für den Oxford RobotCar-Datensatz gezeigt. Die Zahlen werden in Metern angegeben und messen die Abweichung von der Ground Truth, d. h., je niedriger die Zahl, desto genauer die Ergebnisse. Die Spalte „Medianwert“ bezieht sich auf den Medianwertfehler, während sich die Spalte „Mittelwert“ auf den Mittelwertfehler bezieht. Das offenbarte Modell erreicht die beste Leistung in zehn von insgesamt zwölf Metriken. Besonders für den Mittelwertfehler, der leicht durch Ausreißervorhersagen beeinflusst wird, übertrifft das offenbarte Verfahren die Entsprechungen deutlich. In der schwierigsten Szene „Full“ ist das offenbarte Verfahren das erste, das einen Mittelwertfehler von weniger als 10 m erreicht.
  • Bezugnehmend auf 4 wird der Vergleich zwischen der Erfindung und bekannten Regressionsmodellen für den 4Seasons-Datensatz gezeigt. Der 4Seasons-Datensatz ist ein Datensatz, der zeigt, dass das offenbarte Verfahren unter herausfordernden Umgebungsstörungen noch leistungsfähiger ist. Wie in der Tabelle zu sehen ist, übertrifft die Tabelle des offenbarten Modells alle Entsprechungen in allen Metriken.
  • Anschließend wird ein Verfahren zum Navigieren eines autonomen Fahrzeugs durch eine Verkehrsumgebung beschrieben. Das autonome Fahrzeug erfasst eine Sequenz von Bildern und führt das zuvor beschriebene Verfahren unter Verwendung der Kameraposenregressions-Pipeline 10 durch, um die Kameraposenkoordinaten, besonders den Kameraort td ∈ {tx, ty, tz}, zu erhalten. Der Kameraort wird als der Ort des Fahrzeugs verwendet. Ein Streckenplaner - der an sich bekannt ist - wird zum Planen einer Strecke vom aktuellen Fahrzeugort zu einem Ziel verwendet. Nachdem die Strecke geplant wurde, wird durch das Fahrzeug ein Steuersignal erzeugt, das den Fahrer über die vorgesehene Strecke informiert. Alternativ oder zusätzlich kann das Steuersignal erzeugt werden, um zu bewirken, dass das Fahrzeug der geplanten Strecke folgt.
  • Anschließend wird ein Verfahren zum Erstellen einer Karte einer Verkehrsumgebung beschrieben. Ein autonomes Fahrzeug fährt durch die Verkehrsumgebung oder wird durch einen Fahrer durch diese gefahren. Das Fahrzeug erfasst fortlaufend Bilder entlang der Fahrstrecke. Die Kameraposenregressions-Pipeline 10 wird verwendet, um die Kameraposenkoordinaten basierend auf den erfassten Bildern zu erhalten. Die Kameraposenkoordinaten innerhalb der Verkehrsumgebung werden zugeordnet, und ein Graph der Fahrstrecke wird daraus erzeugt. Der Graph der Fahrstrecke kann als eine Karte zur zukünftigen Verwendung in anderen Fahrzeugen gespeichert werden.
  • BEZUGSZEICHEN
  • 10
    Kameraposenregressions-Pipeline
    12
    Bild
    14
    Merkmalsextraktionsmittel
    16
    vierdimensionale Merkmalskarte
    18
    Graphenstrukturerzeugungsmittel
    20
    Merkmalsgraphenstruktur
    22
    Merkmalsknotensatz
    24
    Merkmalsknoten
    26
    Partielle Differenzialgleichung (PDE) Merkmalsgraphenschicht
    28
    aktualisierte Merkmalsgraphenstruktur
    30
    aktualisierter Merkmalsknoten
    32
    gewöhnlichen Differenzialgleichung (ODE) Knotenschicht
    34
    aktualisierte Knotenmerkmalsgraphenstruktur
    36
    aktualisiertes Knotenmerkmal
    38
    Datenumwandlungsmittel
    40
    zerlegte Merkmalskarten
    42
    Vektoreinbettungsmittel
    44
    Pooling-Schicht
    46
    Vektoreinbettungen
    48
    Vektoreinbettungsgraphenstrukturerzeugungsmittel
    50
    Vektoreinbettungsgraphenstruktur
    52
    Vektoreinbettungsknotensatz
    54
    Vektoreinbettungsknoten
    56
    Vektoreinbettungskantensatz
    57
    Differenzialgleichung (DE) Vektoreinbettungsschicht
    58
    Partielle Differenzialgleichung (PDE) Vektoreinbettungsgraphenschicht
    60
    Gewöhnliche Differenzialgleichung Vektoreinbettungsgraphenschicht (ODE)
    62
    aktualisierte Vektoreinbettungsgraphenstruktur
    64
    endgültige Vektoreinbettung
    66
    Posendecodermittel
    68
    gemeinsame erste Schicht
    70
    verzweigte zweite Schicht
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • https://robotcar-dataset.robots.ox.ac.uk/datasets/ [0066]

Claims (15)

  1. Computerimplementiertes Verfahren zur Kameraposenregression zum Zweck des Lokalisierens eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, das sich in einer Verkehrsumgebung bewegt, das Verfahren aufweisend: a) mit einem Merkmalsextraktionsmittel: Empfangen einer Anzahl N von Bildern (12), die die Verkehrsumgebung angeben, wobei das Merkmalsextraktionsmittel (14) eine vierdimensionale Merkmalskarte (16) aus den Bildern (12) bestimmt, wobei eine erste Dimension die Anzahl N ist, eine zweite Dimension eine vorbestimmte Höhe H in Pixeln ist, eine dritte Dimension eine vorbestimmte Breite W in Pixeln ist und eine vierte Dimension einer vorbestimmten Anzahl C von Kanälen des Merkmalsextraktionsmittels (14) entspricht; b) mit einem Graphenstrukturerzeugungsmittel (18): Erzeugen einer Merkmalsgraphenstruktur (20), die einen Merkmalsknotensatz (22) und einen Merkmalskantensatz einschließt, wobei der Merkmalsknotensatz (22) mit einer Vielzahl von Merkmalsknoten (24) erzeugt wird und jeder Merkmalsknoten (24) ein pixelbasiertes Merkmal basierend auf der in Schritt a) erhaltenen Merkmalskarte einschließt, wobei der Merkmalskantensatz als vollständig zwischen beliebigen zwei Merkmalsknoten (22) verbunden erzeugt wird; c) mit einer partiellen Differenzialgleichung (PDE) Merkmalsgraphenschicht (26): Empfangen der Merkmalsgraphenstruktur (20) von Schritt b) und Bestimmen einer aktualisierten Merkmalsgraphenstruktur (28) durch Lösen einer PDE (26) basierend auf einer Graphenaktualisierungsfunktion; d) mit einer gewöhnlichen Differenzialgleichung (ODE) Knotenschicht (32): Empfangen der aktualisierten Merkmalsgraphenstruktur (28) von Schritt c) und Bestimmen einer aktualisierten Knotenmerkmalsgraphenstruktur (34) durch Lösen einer ODE (32, 60) basierend auf einer Knotenmerkmalsaktualisierungsfunktion; e) mit einem Datenumwandlungsmittel (38): Umwandeln der aktualisierten Knotenmerkmalsgraphenstruktur von Schritt d) in eine Vielzahl von zerlegten Merkmalskarten (40); f) mit einem Vektoreinbettungsmittel (42): für jede zerlegte Merkmalskarte (40), Bestimmen zumindest einer Vektoreinbettung (46) durch Pooling; g) mit einem Vektoreinbettungsgraphenstrukturerzeugungsmittel (48): Erzeugen einer Vektoreinbettungsstruktur, die einen Vektoreinbettungsknotensatz (52) und einen Vektoreinbettungskantensatz (56) einschließt, wobei der Vektoreinbettungsknotensatz (52) mit einer Vielzahl von Vektoreinbettungsknoten (54) erzeugt wird und jeder Vektoreinbettungsknoten (54) eine in Schritt f) erhaltene Vektoreinbettung (46) einschließt, wobei der Vektoreinbettungskantensatz (56) als vollständig zwischen beliebigen zwei Vektoreinbettungsknoten (54) verbunden erzeugt wird; h) mit einer Differenzialgleichung (DE) Vektoreinbettungsschicht (57): Empfangen der Vektoreinbettungsgraphenstruktur (50) von Schritt g) und Bestimmen einer aktualisierten Vektoreinbettungsgraphenstruktur (62) durch sequenzielles Lösen einer PDE (26, 58) und einer ODE (32, 60) basierend auf zumindest einer Vektoreinbettungsaktualisierungsfunktion; i) mit einem Posendecodermittel (66): Decodieren der aktualisierten Vektoreinbettungsgraphenstruktur (62) von Schritt h) in einen Satz von Kameraposenkoordinaten, die eine Pose einer Kamera bezogen auf die Verkehrsumgebung angeben.
  2. Verfahren nach Anspruch 1, wobei das Merkmalsextraktionsmittel (14) in Schritt a) ein neuronales Faltungsnetzwerk einschließt, das die vierdimensionale Merkmalskarte (16) basierend auf dem Satz von Eingabebildern (12) bestimmt.
  3. Verfahren nach einem der vorstehenden Ansprüche, wobei das Graphenstrukturerzeugungsmittel in Schritt b) die vierdimensionale Merkmalskarte (16) in eine eindimensionale Merkmalskarte restrukturiert, wobei eine erste Dimension die Anzahl C von Kanälen ist, wobei pixelbasierte Merkmale durch einen pixelbasierten Index i basierend auf N, H und W eindeutig identifiziert werden.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei die Graphenaktualisierungsfunktion in Schritt c) für jeden Merkmalsknoten (24) unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird.
  5. Verfahren nach einem der vorstehenden Ansprüche, wobei die Knotenmerkmalsaktualisierungsfunktion in Schritt d) unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
  6. Verfahren nach einem der vorstehenden Ansprüche, wobei das Datenumwandlungsmittel (38) in Schritt e) jede zerlegte Merkmalskarte (40) als eine dreidimensionale zerlegte Merkmalskarte (40) erzeugt, wobei eine erste Dimension der Höhe H entspricht, eine zweite Dimension einer Breite W entspricht und eine dritte Dimension der Anzahl C von Kanälen entspricht, wobei jede zerlegte Merkmalskarte (40) durch einen Bildindex i basierend auf der Anzahl N von Bildern (12) eindeutig identifiziert wird.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei das Vektoreinbettungsmittel (42) in Schritt f) die zerlegten Merkmalskarten (40) durch Max-Pooling oder durchschnittliches Pooling einbettet.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei die aktualisierte Vektoreinbettungsgraphenstruktur (62) in Schritt h) bestimmt wird durch: h1) Lösen der PDE (26, 58) basierend auf einer ersten Vektoreinbettungsaktualisierungsfunktion, die für jeden Vektoreinbettungsknoten unter Verwendung einer vollständig verbundenen Multi-Head-Attention-Schicht bestimmt wird; h2) Lösen der ODE (32, 60) basierend auf einer zweiten Vektoreinbettungsaktualisierungsfunktion, die unter Verwendung einer Vielzahl von vollständig verbundenen Schichten, die als ein mehrlagiges Perzeptron ausgebildet sind, bestimmt wird.
  9. Verfahren nach einem der vorstehenden Ansprüche, wobei in Schritt i) i1) das Posendecodermittel (66) als ein Zweigdecoder ausgebildet ist und/oder i2) das Posendecodermittel (66) eine gemeinsame erste Schicht (68) aufweist, die die Ausgabe von Schritt h) empfängt, und die gemeinsame erste Schicht (68) zum Entkoppeln der Vektoreinbettungen (46) in ortsbezogene Vektoreinbettungen und drehungsbezogene Vektoreinbettungen ausgebildet ist und/oder i3) das Posendecodermittel (66) eine verzweigte zweite Schicht (70) aufweist, die die Ausgabe von Schritt i2) empfängt, und die verzweigte zweite Schicht (70) zum Decodieren der ortsbezogenen Vektoreinbettungen und der drehungsbezogenen Vektoreinbettungen in die Kameraposenkoordinaten ausgebildet ist.
  10. Verfahren nach einem der vorstehenden Ansprüche, wobei die Kameraposenkoordinaten in Schritt i) dreidimensionale Kameraortskoordinaten, die die Position der Kamera beschreiben, die den Satz von Bildern (12) erfasst hat, und/oder vierdimensionale Kameradrehungskoordinaten, die die Ausrichtung der Kamera beschreiben, die den Satz von Bildern (12) erfasst hat, jeweils bezogen auf die Verkehrsumgebung einschließen.
  11. Computerimplementiertes Verfahren zum Navigieren eines Fahrzeugs, vorzugsweise eines autonomen Fahrzeugs, durch eine Verkehrsumgebung, das Verfahren aufweisend: a) Erfassen eines Satzes von Bildern (12) mit einem bildgebenden Sensor des Fahrzeugs und Durchführen eines Verfahrens nach einem der vorstehenden Ansprüche an den erfassten Bildern (12) zum Erhalten von Kameraposenkoordinaten innerhalb der Verkehrsumgebung; b) Bestimmen eines aktuellen Orts des Fahrzeugs basierend auf den in Schritt a) erhaltenen Kameraposenkoordinaten und Planen einer Strecke zwischen dem aktuellen Ort und einem Ziel, der das Fahrzeug folgen soll; c) Erzeugen eines Steuersignals, das einen Fahrer des Fahrzeugs über die geplante Strecke von Schritt b) informiert, oder Erzeugen eines Steuersignals, das bewirkt, dass das Fahrzeug der geplanten Strecke folgt.
  12. Computerimplementiertes Verfahren zum Erstellen einer Karte einer Verkehrsumgebung, das Verfahren aufweisend: a) Fahren eines Fahrzeugs durch die Verkehrsumgebung und Erfassen eines Satzes von Bildern (12) entlang einer Fahrstrecke; b) Durchführen eines Verfahrens nach einem der vorstehenden Ansprüche an dem Satz von Bildern (12) von Schritt a) zum Erhalten von Kameraposenkoordinaten; c) Erzeugen eines Kartenmodells der Verkehrsumgebung basierend auf den Kameraposenkoordinaten und Speichern des Kartenmodells zur Verwendung in einer Navigationsaufgabe.
  13. Datenverarbeitungssystem, das Mittel zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 10 und/oder Mittel zum Ausführen von Schritt a) des Verfahrens nach Anspruch 11 und/oder Mittel zum Ausführen von Schritt b) des Verfahrens nach Anspruch 12 aufweist.
  14. Fahrzeug, vorzugsweise ein autonomes Fahrzeug, das ein Datenverarbeitungssystem nach Anspruch 13 aufweist.
  15. Computerprogramm oder computerlesbares Speichermedium, das Anweisungen aufweist, bei deren Ausführung durch ein Datenverarbeitungssystem das Datenverarbeitungssystem zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 12 veranlasst wird.
DE102023210780.5A 2022-11-07 2023-10-31 Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung Pending DE102023210780A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2216510.4A GB2624166A (en) 2022-11-07 2022-11-07 A computer-implemented method for camera pose regression in a challenging traffic environment
GB2216510.4 2022-11-07

Publications (1)

Publication Number Publication Date
DE102023210780A1 true DE102023210780A1 (de) 2024-05-08

Family

ID=84839575

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023210780.5A Pending DE102023210780A1 (de) 2022-11-07 2023-10-31 Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung

Country Status (2)

Country Link
DE (1) DE102023210780A1 (de)
GB (1) GB2624166A (de)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
https://robotcar-dataset.robots.ox.ac.uk/datasets/

Also Published As

Publication number Publication date
GB2624166A (en) 2024-05-15
GB202216510D0 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
DE102019005423A1 (de) Raum-Zeit-Speicher- bzw. Ablagenetzwerk zum Lokalisieren eines Zielobjektes in Videocontent
DE112020005609T5 (de) Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE112020005594T5 (de) Parametrische darstellung komplexer strassenszenen von oben
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102013208521A1 (de) Kollektives Erlernen eines hochgenauen Straßenmodells
WO2019001649A1 (de) Wissenstransfer zwischen verschiedenen deep-learning architekturen
DE102016014783A1 (de) Verfahren zur Detektion von Objekten
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE102017203276A1 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102018217091A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102021102748A1 (de) 3d-posenschätzung des menschlichen körpers unter verwendung eines modells, das ausgehend von ungelabelten multi-view-daten trainiert wurde
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung
DE102022206060A1 (de) Verteidigung von multimodalen fusionsmodellen gegen angreifer mit nur einer quelle
DE102021114724A1 (de) Verbesserter fahrzeugbetrieb
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102017128082A1 (de) Meta-Architektur-Design für ein CNN-Netzwerk
DE102023109072A1 (de) Datenaugmentierung für domänenverallgemeinerung
DE102020200499A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
DE102023210780A1 (de) Ein computerimplementiertes Verfahren zur Kameraposenregression in einer herausfordernden Verkehrsumgebung
DE102019208234A1 (de) Verfahren und Vorrichtung zum automatischen Ausführen einer Steuerfunktion eines Fahrzeugs
DE102022209528A1 (de) Visuelle Analysesysteme zur Diagnose und Verbesserung von Deep-Learning-Modellen für bewegbare Objekte beim autonomen Fahren
DE112022002037T5 (de) Lernen von ordinalen repräsentationen für tiefe, auf verstärkungslernen basierende objektlokalisierung
DE102021213344A1 (de) Verfahren zum Ermitteln von Agenten-Trajektorien in einem Multi-Agenten-Szenario

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: KASTEL PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: KASTEL PATENTANWAELTE PARTG MBB, DE

R081 Change of applicant/patentee

Owner name: NANYANG TECHNOLOGICAL UNIVERSITY, SG

Free format text: FORMER OWNERS: CONTINENTAL AUTOMOTIVE TECHNOLOGIES GMBH, 30165 HANNOVER, DE; NANYANG TECHNOLOGICAL UNIVERSITY, SINGAPUR, SG

Owner name: CONTINENTAL AUTOMOTIVE TECHNOLOGIES GMBH, DE

Free format text: FORMER OWNERS: CONTINENTAL AUTOMOTIVE TECHNOLOGIES GMBH, 30165 HANNOVER, DE; NANYANG TECHNOLOGICAL UNIVERSITY, SINGAPUR, SG