DE102023102645A1

DE102023102645A1 - Lokalisierung von fahrzeugen

Info

Publication number: DE102023102645A1
Application number: DE102023102645.3A
Authority: DE
Inventors: Ming Xu; Sourav GARG; Michael Milford; Punarjay Chakravarty; Shubham Shrivastava
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2022-02-08
Filing date: 2023-02-02
Publication date: 2023-08-10
Also published as: US20230252667A1; CN116580374A

Abstract

Ein ungefährer Kamerastandort auf einer Route kann durch Eingeben eines ersten Bildes, das durch eine Fahrzeugkamera erlangt wird, in ein neuronales Faltungsnetz bestimmt werden. Erste Bildmerkmalspunkte können unter Verwendung eines Merkmalsextraktionsalgorithmus aus dem ersten Bild extrahiert werden. Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus können auf Grundlage des ungefähren Kamerastandorts ausgewählt werden. Eine Kamerastellung mit sechs Freiheitsgraden (DoF) kann durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Strukturaus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird, bestimmt werden. Eine Sechs-DoF-Fahrzeugstellung kann auf Grundlage der Sechs-DoF-Kamerastellung bestimmt werden.

Description

GEBIET DER TECHNIK
Die Offenbarung betrifft ein Erfassungssystem in einem Fahrzeug zum Bestimmen von Standorten von Objekten.
ALLGEMEINER STAND DER TECHNIK
Bilder können durch Sensoren erlangt und unter Verwendung eines Computers verarbeitet werden, um Daten bezüglich Objekten in einer Umgebung um ein System zu bestimmen. Der Betrieb eines Erfassungssystems kann Erlangen genauer und aktueller Daten bezüglich Objekten in der Umgebung des Systems beinhalten. Ein Computer kann Bilder von einem oder mehreren Bildsensoren erlangen, die verarbeitet werden können, um Standorte von Objekten zu bestimmen. Aus Bildern extrahierte Daten zum Standort von Objekten können durch einen Computer verwendet werden, um Systeme zu betreiben, zu denen Fahrzeuge, Roboter, Sicherheits- und Objektverfolgungssysteme gehören.
KURZDARSTELLUNG
Ein Erfassungssystem kann Daten, zum Beispiel Bilddaten, bezüglich einer Umgebung um das System erlangen und die Daten verarbeiten, um Standorte von Objekten zu bestimmen. Zum Beispiel können Computer dazu programmiert sein, Standorte von Objekten in Bilddaten zu bestimmen, die durch Sensoren in Systemen erlangt werden, einschließlich Systemen für Fahrzeugführung, Roboterbetrieb, Sicherheit, Fertigung und Produktverfolgung. Die Fahrzeugführung kann einen Betrieb von Fahrzeugen in autonomen oder teilautonomen Modi in Umgebungen beinhalten, die eine Vielzahl von Objekten beinhalten. Die Roboterführung kann Führen eines Roboterendeffektors, zum Beispiel eines Greifers, beinhalten, um ein Teil aufzunehmen und das Teil zur Montage in einer Umgebung auszurichten, die eine Vielzahl von Teilen beinhaltet. Sicherheitssysteme beinhalten Merkmale, bei denen ein Computer Videodaten von einer Kamera erlangt, die einen sicheren Bereich beobachtet, um autorisierten Benutzern Zugang zu gewähren und nicht autorisierten Zutritt in einer Umgebung zu detektieren, die eine Vielzahl von Benutzern beinhaltet. In einem Fertigungssystem kann ein DNN den Standort und Ausrichtung eines oder mehrerer Teile in einer Umgebung bestimmen, die eine Vielzahl von Teilen beinhaltet. In einem Produktverfolgungssystem kann ein tiefes neuronales Netz einen Standort und eine Ausrichtung eines oder mehrerer Pakete in einer Umgebung bestimmen, die eine Vielzahl von Paketen beinhaltet.
Die Fahrzeugführung wird in dieser Schrift als nicht einschränkendes Beispiel für die Verwendung eines Computers zum Bestimmen des Standorts eines Objekts, zum Beispiel eines Fahrzeugs, in einer Verkehrsszene und zum Bestimmen eines Fahrzeugwegs zum Betreiben eines Fahrzeugs auf Grundlage des bestimmten Standorts beschrieben. Eine Verkehrsszene ist eine Umgebung um ein Verkehrsinfrastruktursystem oder ein Fahrzeug, die einen Abschnitt einer Fahrbahn und Objekte, einschließlich Gebäude, Brücken, Fahrzeuge und Fußgänger usw., beinhalten kann. Zum Beispiel kann eine Rechenvorrichtung in einem Fahrzeug programmiert sein, um ein oder mehrere Bilder von einem oder mehreren Sensoren zu erlangen, die in dem Fahrzeug beinhaltet sind, Standorte der Objekte in den Bildern zu bestimmen und den Standort des Fahrzeugs in Bezug auf die bestimmten Standorte der Objekte zu bestimmen. Das Bestimmen des Standorts eines Fahrzeugs auf Grundlage der Verarbeitung von Bildern einer Umgebung um das Fahrzeug kann als Fahrzeuglokalisierung oder Kamerastellungsschätzung mit sechs Freiheitsgraden (degree-of-freedom - DoF) bezeichnet werden.
Das Betreiben eines Fahrzeugs auf Grundlage der Fahrzeuglokalisierung kann das Bestimmen einer Stellung mit sechs Freiheitsgraden (DoF) für das Fahrzeug beinhalten. Eine Sechs-DoF-Stellung beinhaltet drei Positionsmessungen in Bezug auf die orthogonalen x-, y- und z-Achsen bzw. drei Messungen der Rotation (Rollen, Nicken und Gieren) um die drei orthogonalen Achsen. Die Sechs-DoF-Stellung wird typischerweise in Bezug auf ein globales Koordinatensystem gemessen, zum Beispiel Breite, Länge und Höhe. Das Betreiben eines Fahrzeugs auf Grundlage der Fahrzeuglokalisierung kann Bestimmen einer Sechs-DoF-Stellung des Fahrzeugs auf innerhalb von +/- 10 Zentimetern (cm) in x-, y- und z-Koordinaten und +/- ein Grad in jeder der drei Rotationen beinhalten. Das Bestimmen der Sechs-DoF-Stellung des Fahrzeugs mit Positionen innerhalb von +/- 10 cm und Rotationen von +/- einem Grad kann den Betrieb eines Fahrzeugs ermöglichen, das sich zum Beispiel auf einer Fahrbahn im Verkehr mit gesetzlichen Geschwindigkeitsbegrenzungen bewegt.
Techniken zur Fahrzeuglokalisierung beinhalten einen Empfänger eines globalen Positionsbestimmungssystems (GPS), der den Fahrzeugstandort unter Verwendung von Satellitensignalen bestimmt. GPS-Standortdaten können unter Verwendung von Echtzeitkinematik(real time kinematics - RTK)-Signalen, die Satellitendaten mit terrestrischen Signalen augmentieren, auf eine Genauigkeit von 10 cm (Zentimeter) verbessert werden. GPS-RTK leidet unter Problemen aufgrund von Blockierungen und Mehrfachsignalreflexionen, die durch Strukturen wie Tunnel, Brücken und hohe Gebäude verursacht werden. Eine Trägheitsmesseinheit (intertial measurement unit - IMU) setzt Beschleunigungsmesser ein, um eine relative Bewegung zu bestimmen. IMUs erfordern zusätzliche Hardware und Software zur Initialisierung und Kalibrierung, um Standorte in Bezug auf globale Koordinaten zu bestimmen, und IMUs mit einer Genauigkeit und Zuverlässigkeit, die erforderlich sind, um Fahrzeuglokalisierung bereitzustellen, sind unerschwinglich teuer, um sie in Fahrzeugen aufzunehmen. Die Fahrzeuglokalisierung auf Grundlage von Bilddaten, wie in dieser Schrift beschrieben, kann Daten der Sechs-DoF-Fahrzeugstellung innerhalb von +/- 10 cm in Positionen und +/- in Rotationen bereitstellen, ohne dass zusätzliche Sensor- und Rechenressourcen über typische Sensoren und Rechenressourcen hinaus erforderlich sind, die bereits in autonomen Fahrzeugen beinhaltet sind, ohne die durch eine Signalblockierung oder mehrere Signalreflexionen verursachten Probleme.
Vorteilhafterweise kann die Fahrzeuglokalisierung durch eine Schätzung der Sechs-DoF-Kamerastellung, wie in dieser Schrift beschrieben, die Fähigkeit einer Rechenvorrichtung in einem Fahrzeug verbessern, Sechs-DoF-Fahrzeugstellungen in einer Umgebung um das Fahrzeug unter Verwendung einer monokularen RGB-Kamera zu bestimmen. Eine monokulare Kamera beinhaltet eine einzelne Linsenbaugruppe, die eine einzelne optische Achse aufweist, die Bilder auf einem einzelnen Sensor oder einer Sensorbaugruppe bildet. Eine RGB-Kamera ist eine Kamera, die Farbbilddaten erlangt, die separate rote, grüne und blaue Pixel beinhalten. Die Schätzung der Sechs-DoF-Kamerastellung, wie in dieser Schrift erörtert, verwendet Bilder, die durch eine monokulare RGB-Kamera und eine in einem Fahrzeug beinhaltete Rechenvorrichtung erlangt wurden, um eine Sechs-DoF-Fahrzeugstellung auf Grundlage einer zuvor erlangten Karte einer Struktur aus Bewegung (structure from motion - SfM) zu bestimmen. Eine SfM-Karte beinhaltet dreidimensionale (3D-)Daten bezüglich einer Umgebung um eine Fahrzeugroute, wobei eine Route eine verbundene Reihe von Standorten ist, die einen Startpunkt und einen Endpunkt beinhalten, die in globalen Koordinaten in Bezug auf eine Karte bestimmt werden, die durch ein Fahrzeug befahren werden kann. Die Schätzung der Sechs-DoF-Kamerastellung, wie in dieser Schrift beschrieben, kann zur Fahrzeuglokalisierung auf eigenständiger Basis oder in Kombination mit GPS-RTK-Fahrzeuglokalisierung verwendet werden, um die Zuverlässigkeit und Genauigkeit der Fahrzeuglokalisierung zu verbessern.
Die Schätzung der Sechs-DoF-Kamerastellung unter Verwendung einer zuvor erlangten SfM-Karte kann als eine Art gleichzeitiger Lokalisierung und Kartierung (simultaneous localization and mapping - SLAM) bezeichnet werden. SLAM kann als Bestimmen oder Aktualisieren einer Karte einer unbekannten Umgebung beschrieben werden, während der Standort eines Akteurs, wie etwa eines Fahrzeugs, innerhalb der Karte bestimmt wird. In dieser Schrift erörterte Techniken verbessern grundlegende SLAM-Techniken, indem eine Karte einer Route erlangt wird, indem die Route zurückgelegt wird und dann Parameter eingestellt werden, die die Schätzung der Sechs-DoF-Kamerastellung auf Grundlage von Bilddaten steuern, die bei nachfolgenden Durchquerungen der Route erlangt werden. Parameter, wie etwa Kameraauswahl, Bildbereichsauswahl, Auswahl des lokalen Merkmalsabgleichers, eine Rückprojektionsfehlerauswahl und RANSAC-Bewertungsfunktionsauswahl, können ausgewählt werden, um die Schätzung der Sechs-DoF-Kamerastellung zu verbessern. Diese Parameter werden nachstehend in Zusammenhang mit 6 erörtert. Das Auswählen von Parametern auf diese Weise kann die Genauigkeit und Zuverlässigkeit der Schätzung der Sechs-DoF-Kamerastellung auf Grundlage einer SfM-Karte erhöhen und ermöglicht, dass die Sechs-DoF-Kamerastellung über längere Zeiträume geschätzt wird, ohne dass Aktualisierungen der SfM-Karte erforderlich sind, d. h. trotz saisonaler Änderungen der Umgebung und Änderungen an Gebäuden und Strukturen, die in der SfM-Karte beinhaltet sind.
In dieser Schrift wird ein Verfahren offenbart, das Folgendes beinhaltet: Bestimmen eines ungefähren Kamerastandorts auf einer Route durch Eingeben eines ersten Bildes, das durch eine Kamera erlangt wird, in ein neuronales Faltungsnetz, Extrahieren von ersten Bildmerkmalspunkten aus dem ersten Bild, Auswählen von Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus auf Grundlage des ungefähren Kamerastandorts, Bestimmen einer Kamerastellung mit sechs Freiheitsgraden (DoF) durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Struktur-aus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird, und Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung. Ein Fahrzeug kann betrieben werden, indem auf Grundlage der Sechs-DoF-Fahrzeugstellung ein Fahrzeugweg bestimmt wird. Ein Datensatz von Referenzbildern kann durch eine Kamera, die in einem Fahrzeug beinhaltet ist, erlangt werden, während dieses die Route befährt. Das neuronale Faltungsnetz kann auf Grundlage eines generischen Datensatzes von Referenzbildern trainiert werden. Die SfM-Karte kann eine Sammlung von dreidimensionalen Punkten beinhalten, die von der Route aus sichtbar sind, die durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung eines 3D-Kartierungssoftwareprogramms generiert wird.
Der Stellungsschätzungsalgorithmus kann einen Perspektive-n-Punkt(PnP)-Algorithmus in einer Zufallsstichproben-Konsensus(Random Sample Consensus - RANSAC)-Schleife beinhalten. Die Stellungsschätzungsparameter können eines oder mehrere von einer Kameraauswahl, einer Bildbereichsauswahl, einem Merkmalsabgleicher, einem Rückprojektionsfehler und einer RANSAC-Bewertungsfunktion beinhalten. Die Stellungsschätzungsparameter können auf Grundlage des ungefähren Kamerastandorts in Bezug auf überlappende Abschnitte der Route, die ungefähr die gleiche Länge aufweisen, ausgewählt werden. Das Extrahieren der ersten Bildmerkmalspunkte aus dem ersten Bild kann Verwenden eines Merkmalsextraktionsalgorithmus beinhalten, der eines oder mehrere von Superpoint, Reliable and Repeatable Detector and Descriptor und skaleninvarianter Merkmalstransformation beinhaltet. Die Sechs-DoF-Fahrzeugstellung kann auf Grundlage der Sechs-DoF-Kamerastellung bestimmt werden, indem ein Sechs-DoF-Versatz zwischen dem Fahrzeug und der Kamera bestimmt wird. Die Sechs-DoF-Kamerastellung und die Sechs-DoF-Fahrzeugstellung können in globalen Koordinaten in Bezug auf drei orthogonale Positionsachsen bzw. drei Rotationen um die drei orthogonalen Positionsachsen bestimmt werden. Das 3D-Kartierungssoftwareprogramm kann eines oder mehrere von COLMAP, AgiSoft Metashape und VisualSFM beinhalten. Die Stellungsschätzungssoftware kann für n Versuche mit unterschiedlichen Konfigurationsparametern und unterschiedlichen zufälligen Startwerten ausgeführt werden. Ein gepaarter t-Test mit zwei Stichproben auf statistische Signifikanz kann verwendet werden, um Ergebnisse aus einem Versuch mit der Ausgangskonfiguration zu vergleichen.
Ferner ist ein computerlesbares Medium offenbart, das Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte speichert. Ferner ist ein Computer offenbart, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist, einschließlich einer Computereinrichtung, die zu Folgendem programmiert ist: Bestimmen eines ungefähren Kamerastandorts auf einer Route durch Eingeben eines ersten Bildes, das durch eine Kamera erlangt wird, in ein neuronales Faltungsnetz, Extrahieren von ersten Bildmerkmalspunkten aus dem ersten Bild, Auswählen von Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus auf Grundlage des ungefähren Kamerastandorts, Bestimmen einer Kamerastellung mit sechs Freiheitsgraden (DoF) durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Struktur-aus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird, und Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung. Ein Fahrzeug kann betrieben werden, indem auf Grundlage der Sechs-DoF-Fahrzeugstellung ein Fahrzeugweg bestimmt wird. Ein Datensatz von Referenzbildern kann durch eine Kamera, die in einem Fahrzeug beinhaltet ist, erlangt werden, während dieses die Route befährt. Das neuronale Faltungsnetz kann auf Grundlage eines generischen Datensatzes von Referenzbildern trainiert werden. Die SfM-Karte kann eine Sammlung von dreidimensionalen Punkten beinhalten, die von der Route aus sichtbar sind, die durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung eines 3D-Kartierungssoftwareprogramms generiert wird.
Die Anweisungen können weitere Anweisungen beinhalten, wobei der Stellungsschätzungsalgorithmus einen Perspektive-n-Punkt(PnP)-Algorithmus in einer Zufallsstichproben-Konsensus(Random Sample Consensus - RANSAC)-Schleife beinhalten kann. Die Stellungsschätzungsparameter können eines oder mehrere von einer Kameraauswahl, einer Bildbereichsauswahl, einem Merkmalsabgleicher, einem Rückprojektionsfehler und einer RANSAC-Bewertungsfunktion beinhalten. Die Stellungsschätzungsparameter können auf Grundlage des ungefähren Kamerastandorts in Bezug auf überlappende Abschnitte der Route, die ungefähr die gleiche Länge aufweisen, ausgewählt werden. Das Extrahieren der ersten Bildmerkmalspunkte aus dem ersten Bild kann Verwenden eines Merkmalsextraktionsalgorithmus beinhalten, der eines oder mehrere von Superpoint, Reliable and Repeatable Detector and Descriptor und skaleninvarianter Merkmalstransformation beinhaltet. Die Sechs-DoF-Fahrzeugstellung kann auf Grundlage der Sechs-DoF-Kamerastellung bestimmt werden, indem ein Sechs-DoF-Versatz zwischen dem Fahrzeug und der Kamera bestimmt wird. Die Sechs-DoF-Kamerastellung und die Sechs-DoF-Fahrzeugstellung können in globalen Koordinaten in Bezug auf drei orthogonale Positionsachsen bzw. drei Rotationen um die drei orthogonalen Positionsachsen bestimmt werden. Das 3D-Kartierungssoftwareprogramm kann eines oder mehrere von COLMAP, AgiSoft Metashape und VisualSFM beinhalten. Die Stellungsschätzungssoftware kann für n Versuche mit unterschiedlichen Konfigurationsparametern und unterschiedlichen zufälligen Startwerten ausgeführt werden. Ein gepaarter t-Test mit zwei Stichproben auf statistische Signifikanz kann verwendet werden, um Ergebnisse aus einem Versuch mit der Ausgangskonfiguration zu vergleichen.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften Verkehrsinfrastruktursystems.
2 ist eine Darstellung einer beispielhaften Verkehrsszene.
3 ist eine Darstellung eines beispielhaften Bildes einer Verkehrsszene, das Merkmalspunkte beinhaltet.
4 ist eine Darstellung einer beispielhaften Struktur-aus-Bewegung(SfM)-Karte.
5 ist eine Darstellung eines beispielhaften Routensystems.
6 ist eine Darstellung eines beispielhaften Kamerastellungssystems mit sechs Freiheitsgraden.
7 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Bestimmen einer Fahrzeugstellung mit sechs Freiheitsgraden.

DETAILLIERTE BESCHREIBUNG
1 ist ein Diagramm eines Erfassungssystems 100, das ein Verkehrsinfrastruktursystem 105 beinhalten kann, das einen Servercomputer 120 und stationäre Sensoren 122 beinhaltet. Das Erfassungssystem 100 beinhaltet ein Fahrzeug 110, das in einem autonomen („autonom“ für sich bedeutet in dieser Offenbarung „vollautonom“), einem teilautonomen und einem insassengesteuerten (auch als nicht autonom bezeichneten) Modus betreibbar ist. Eine oder mehrere Rechenvorrichtungen 115 des Fahrzeugs 110 können Daten bezüglich des Betriebs des Fahrzeugs 110 von Sensoren 116 empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem teilautonomen Modus oder einem nichtautonomen Modus betreiben.
Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen von computerlesbaren Medien und er speichert Anweisungen, die durch den Prozessor zum Durchführen verschiedener Vorgänge, einschließlich der in dieser Schrift offenbarten, ausführbar sind. Zum Beispiel kann die Rechenvorrichtung 115 eine Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Beschleunigungssteuerung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenkung, Klimaregelung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrer derartige Vorgänge steuern soll.
Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten enthalten sind, z. B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw., beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ mit dieser (diesen) gekoppelt sein. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation an einem Fahrzeugkommunikationsnetzwerk angeordnet, das z. B. einen Bus in dem Fahrzeug 110, etwa ein Controller Area Network (CAN) oder dergleichen, beinhaltet; das Netzwerk des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen, wie sie bekannt sind, beinhalten, z. B. Ethernet oder andere Kommunikationsprotokolle.
Über das Fahrzeugnetzwerk kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen, z. B. Steuerungen, Aktoren, Sensoren usw., einschließlich der Sensoren 116, empfangen. Alternativ oder zusätzlich kann in Fällen, bei denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetzwerk für Kommunikationen zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachfolgend erwähnt, verschiedene Steuerungen oder Erfassungselemente, wie etwa die Sensoren 116, Daten über das Fahrzeugkommunikationsnetzwerk an der Rechenvorrichtung 115 bereitstellen.
Zusätzlich kann die Rechenvorrichtung 115 dazu konfiguriert sein, über ein Netzwerk 130, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die es der Rechenvorrichtung 115 ermöglichen, über ein Netzwerk 130, wie etwa drahtloses Internet (Wi-Fi®) oder Mobilfunknetzwerke, mit einem entfernten Servercomputer 120 zu kommunizieren, durch eine Fahrzeug-Infrastruktur-Schnittstelle (F-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, zu kommunizieren. Die F-I-Schnittstelle 111 kann dementsprechend Prozessoren, einen Speicher, Transceiver usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netzwerktechnologien zu nutzen, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetzwerke. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 über die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-Netzwerken (F-F-Netzwerken) z. B. gemäß dedizierter Nahbereichsübertragung (dedicated short range communications - DSRC) und/oder dergleichen, konfiguriert sein, die z. B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netzwerke gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem einen nichtflüchtigen Speicher, wie bekannt. Die Rechenvorrichtung 115 kann Daten über das Speichern von Daten zum späteren Abrufen und Übermitteln über das Fahrzeugübertragungsnetzwerk und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in einem nicht flüchtigen Speicher protokollieren.
Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden können, im Allgemeinen eine Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingreifen eines menschlichen Bedieners beinhaltet. Unter Verwendung in der Rechenvorrichtung 115 empfangener Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 eine Programmierung zum Regulieren des Betriebsverhaltens des Fahrzeugs 110 (d. h. physischer Manifestationen des Betriebs des Fahrzeugs 110), wie etwa einer Geschwindigkeit, Beschleunigung, Abbremsung, Lenkung usw., und des taktischen Verhaltens (d. h. Steuerung des Betriebsverhaltens auf eine Weise, die in der Regel ein effizientes Abfahren einer Route erreichen soll), wie etwa eines Abstands zwischen Fahrzeugen und/oder eines Zeitraums zwischen Fahrzeugen, Spurwechseln, des Mindestabstands zwischen Fahrzeugen, der Mindestzeit zur Wegquerung bei Linksabbiegung, der Zeit bis zur Ankunft an einem bestimmten Standort und der Mindestzeit bis zum Überqueren der Kreuzung an einer Kreuzung (ohne Ampel) beinhalten.
Steuerungen beinhalten im in dieser Schrift verwendeten Sinne Rechenvorrichtungen, die in der Regel dazu programmiert sind, ein bestimmtes Fahrzeugteilsystem zu überwachen und/oder zu steuern. Zu Beispielen zählen eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (electronic control unit - ECU) sein, wie sie bekannt ist, die möglicherweise zusätzliche Programmierung wie in dieser Schrift beschrieben beinhaltet. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Zum Beispiel kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, die als nichteinschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 beinhalten. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie zum Beispiel einem Controller-Area-Network(CAN)-Bus oder einem Local-Interconnect-Network(LIN)-Bus, um Anweisungen von der Rechenvorrichtung 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
Die Sensoren 116 können vielfältige Vorrichtungen beinhalten, die für die Bereitstellung von Daten über den Fahrzeugkommunikationsbus bekannt sind. Zum Beispiel kann ein Radar, das an einem vorderen Stoßfänger (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand vom Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder kann ein Sensor für ein globales Positionsbestimmungssystem (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der/die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Abstand/Abstände und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 zum Beispiel autonom oder teilautonom zu betreiben.
Das Fahrzeug 110 ist im Allgemeinen ein Landfahrzeug 110, das autonom und/oder halbautonom betrieben werden kann und das drei oder mehr Räder aufweist, z. B. ein PKW, ein Kleinlaster usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, erheben. Beispielhaft und nicht einschränkend können die Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hallsensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. beinhalten. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, äußere Umgebungstemperatur usw.), die Neigung einer Straße, den Standort einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa Nachbarfahrzeugen 110 erfassen. Die Sensoren 116 können ferner verwendet werden, um Daten zu sammeln, die dynamische Daten zu dem Fahrzeug 110 beinhalten, die sich auf den Betrieb des Fahrzeugs 110 beziehen, wie etwa eine Geschwindigkeit, eine Gierrate, einen Lenkwinkel, eine Motordrehzahl, einen Bremsdruck, einen Öldruck, den auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewendeten Leistungspegel, eine Konnektivität zwischen Komponenten und eine genaue und aktuelle Leistungsfähigkeit von Komponenten des Fahrzeugs 110.
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengesteuerten Modus betrieben zu werden. Unter einem teil- oder vollautonomen Modus wird ein Betriebsmodus verstanden, in dem ein Fahrzeug teilweise oder vollständig durch eine Rechenvorrichtung als Teil eines Systems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, wobei das Fahrzeug in beiden Fällen teilweise oder vollständig ohne Unterstützung eines Insassen gesteuert werden kann. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, in dem jedes von Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung des Fahrzeugs durch einen oder mehrere Fahrzeugcomputer gesteuert wird; in einem teilautonomen Modus steuert/steuern der/die Fahrzeugcomputer eines oder mehrere von Antrieb, Bremsung und Lenkung des Fahrzeugs. In einem nichtautonomen Modus wird keines von diesen durch einen Computer gesteuert.
2 ist ein Diagramm einer Verkehrsszene 200. Die Verkehrsszene 200 beinhaltet eine Fahrbahn 202 und ein Fahrzeug 110. Das Fahrzeug 110 fährt auf der Fahrbahn 202 entlang einer Route 204. Eine Kamera 206, bei der es sich um eine monokulare RGB-Kamera handeln kann, erlangt (durch gepunktete Linien angegebene) Bilder 208, 210, 212, 214, 216, 218 (zusammen Bilder 222), während das Fahrzeug 110 auf der Fahrbahn 202 entlang der Route 204 fährt. Die Bilder 222 können in einer Rechenvorrichtung 115, die in dem Fahrzeug 110 beinhaltet ist, zusammen mit Sechs-DoF-Stellungsdaten bezüglich des Standorts des Fahrzeugs 110 zu dem Zeitpunkt, zu dem jedes Bild 208, 210, 212, 214, 216, 218 erlangt wird, gespeichert werden. Die Sechs-DoF-Stellungsdaten können durch GPS-RTK-Daten, IMU-Daten und/oder Daten des Lidarsensors 220 bestimmt werden. Die GPS-RTK-Daten, die IMU-Daten und die Daten des Lidarsensors 220 können mit hochauflösenden Kartendaten kombiniert werden, die zum Beispiel von einem Servercomputer 120 heruntergeladen werden, um Sechs-DoF-Fahrzeugstellungsdaten in globalen Koordinaten zu bestimmen.
Die Bilder 222 und Sechs-DoF-Fahrzeugstellungsdaten, die den Standort des Fahrzeugs zu dem Zeitpunkt angeben, zu dem jedes Bild 208, 210, 212, 214, 216, 218 erlangt wurde, können verarbeitet werden, um eine Bilddatenbank und eine SfM-Karte für die Route 204 zu bestimmen. Die Bilddatenbank und die SfM-Karte können in einem Speicher gespeichert sein, der in einer Rechenvorrichtung 115 in dem Fahrzeug 110 beinhaltet ist, oder an einen Servercomputer 120 übertragen werden. Zu einem späteren Zeitpunkt kann ein Fahrzeug, das auf der Route 204 fährt, die Bilddatenbank und die SfM-Karte aus dem Speicher der Rechenvorrichtung 115 abrufen oder die Bilddatenbank und die SfM-Karte von einem Servercomputer 120 empfangen und die Bilddatenbank und die SfM-Karte verwenden, um eine Sechs-DoF-Stellung des Fahrzeugs unter Verwendung einer Schätzung der Sechs-DoF-Kamerastellung zu bestimmen. Bevor sie in eine Bilddatenbank eingegeben werden, werden die Bilder 222 durch die Rechenvorrichtung 115 oder den Servercomputer 120 verarbeitet, um Bildmerkmalspunkte zu bestimmen. Ein Bildmerkmalspunkt ist eine Stelle in einem Bild, die durch eine Bildverarbeitungssoftware bestimmt wird, die Bildstellen auf Grundlage von Anordnungen von Pixelwerten bestimmt. Zum Beispiel können Pixelwerte, die Kanten, Ecken, Schnittpunkte von Linien usw. bilden, verwendet werden, um Merkmalspunkte zu bestimmen.
3 ist eine Darstellung eines Bildes 300 einer Umgebung um ein Fahrzeug 110, das erlangt wird, während das Fahrzeug 110 auf einer Route 204 gefahren wurde. Das Bild 300 beinhaltet Objekte, die in der Umgebung um das Fahrzeug auftreten, was Laub oder in diesem Beispiel Gebäude 302 beinhalten kann. Das Bild 300 kann unter Verwendung von Bildverarbeitungssoftware verarbeitet werden, um Merkmalspunkte 304 zu bestimmen, die in dem Bild 300 als Kreise angegeben sind. Beispiele für Bildverarbeitungssoftware, die Merkmalspunkte 304 in einem Bild 300 bestimmen kann, beinhalten Superpoint, Reapible and Repeatable Detector and Deskriptor (R2D2) und skaleninvariante Merkmalstransformation (Scale Invariant Feature Transform - SIFT). Superpoint, R2D2 und SIFT sind Softwareprogramme, die Bilddaten eingeben und Merkmalspunkte ausgeben. Superpoint, R2D2 und SIFT bestimmen alle Merkmalspunkte durch Verarbeiten von Pixelnachbarn, um Stellen von Anordnungen von Pixelwerten zu bestimmen, die zuverlässig und wiederholbar in einer Vielzahl von Bildern bestimmt werden können, die trotz Unterschieden in Beleuchtung, Maßstab und Blickwinkel dasselbe Objekt beinhalten. Superpoint, R2D2 und SIFT können Merkmalspunkte bestimmen, die in Bezug auf Unterschiede in den Bedingungen, unter denen Bilder erlangt werden, invariant sind. Zum Beispiel können Superpoint, R2D2 und SIFT dieselben Merkmalspunkte auf ähnlichen Objekten bestimmen, obwohl sie zu unterschiedlichen Tageszeiten mit unterschiedlichen Lichtbedingungen aus unterschiedlichen Blickwinkeln erlangt wurden.
Die Schätzung der Kamerastellungs mit sechs Freiheitsgraden, wie in dieser Schrift beschrieben, verarbeitet erlangte Bilder 222 mit einem oder mehreren von Superpoint, R2D2 und SIFT, um Merkmalspunkte 304 zu bestimmen. Die Bilder 222, die Merkmalspunkte für jedes Bild 300 und die Sechs-DoF-Stellung der Kamera zu dem Zeitpunkt, zu dem die Bilder 222 erlangt wurden, können in eine Bilddatenbank für eine Route 204 eingegeben werden. Die Sechs-DoF-Kamerastellung kann durch Hinzufügen eines Sechs-DoF-Kameraversatzes zu einer Sechs-DoF-Fahrzeugstellung bestimmt werden. Ein Sechs-DoF-Kameraversatz ist der Unterschied des Standorts und der Ausrichtung einer Kamera in Bezug auf den Standort und die Ausrichtung des Fahrzeugs. Da sich die Kamera in einer festen Beziehung zu dem Fahrzeug befindet, kann der Sechs-DoF-Kameraversatz zu dem Zeitpunkt gemessen werden, zu dem die Kamera in dem Fahrzeug installiert wird, typischerweise zum Zeitpunkt der Herstellung. Die Bilddatenbank kann durch einmaliges Befahren der Route 204 und Erlangen von überlappenden Bildern 222 erstellt werden, oder die Route 204 kann eine Vielzahl von Malen befahren werden und die Bilder 222 aus der Vielzahl von Durchquerungen der Route 204 können verarbeitet und in die Bilddatenbank eingegeben werden. Die Merkmalspunkte 304, die in der Bilddatenbank beinhaltet sind, sind 2D-Merkmalspunkte 304, was bedeutet, dass die Merkmalspunkte in Bezug auf ihre x-, y-Pixelstelle in einem 2D-Bildarray bestimmt werden. Die Bilddatenbank kann dann verwendet werden, um eine SfM-Karte auf Grundlage einer Route 204 zu erstellen.
4 ist eine Darstellung einer SfM-Karte 400. Eine SfM-Karte beinhaltet eine Route 402, die durch eine Kamera, die in einem Fahrzeug 110 beinhaltet ist, einmal oder mehrmals abgefahren wurde, während es die Route befährt, wobei Bilder 404, 406 erlangt und eine Bilddatenbank erstellt werden, die Bilder 404, 406, sechs DoF-Kamerastellungen für jedes Bild und Merkmalspunkte 408, 410 für jedes Bild beinhaltet. Die Bilder 404, 406 überlappen, was bedeutet, dass verschiedene Merkmalspunkte 408, 410 jeweils in mehr als einem Bild 404, 406 auftreten können. Da die Bilder 404, 406 erlangt wurden, während das Fahrzeug 110 entlang der Route 402 fährt, werden die Merkmalspunkte 408, 410 typischerweise in sechs Freiheitsgraden von mehr als einem Standort aus betrachtet. Dies ermöglicht, dass die Stelle eines einzelnen 2D-Merkmalspunkts 408, 410 aus zwei oder mehr unterschiedlichen Blickwinkeln trianguliert wird und eine dreidimensionale 3D-Stelle des Merkmalspunkts 408, 410 in Bezug auf die Route 402 bestimmt wird. Die SfM-Karte 400 veranschaulicht eine Vielzahl von Bildern 404, 406, die in Bezug auf eine Route 402 auf Grundlage von Merkmalspunkten 408, 410 kombiniert ist. Die Bilder 404, 406 können unter Verwendung von Kartierungssoftware, die 3D-Punktwolkenkarten, wie etwa eine SfM-Karte, aus Bilddaten generiert, zu einer SfM-Karte 400 kombiniert werden.
Ein Beispiel für eine Kartierungssoftware, die eine 3D-Punktwolkenkarte aus Bilddaten generiert, ist das Softwareprogramm COLMAP (https://colmap.github.io, verfügbar zum Anmeldedatum dieser Anmeldung). COLMAP ist in J.L. Schönberger und J. Frahm, „Structure-from-Motion Revisited“, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, S. 4104-4113 beschrieben. Andere 3D-Kartierungssoftwareprogramme beinhalten AgiSoft Metashape, verfügbar zum Anmeldedatum dieser Anmeldung unter https://www.agisoft.com/, und VisualSFM, verfügbar unter http://ccwu.me/vsfm/. AgiSoft Metashape wird auch als Photogrammetrie-Software bezeichnet, wobei Photogrammetrie ein Begriff ist, der sich auf das Bestimmen von Messungen anhand von Fotos bezieht.
5 ist eine Darstellung eines Routensystems 500, das eine SfM-Karte 510 ausgeben kann. Das Routensystem 500 kann als Eingabe eine Vielzahl von Bildern 502 empfangen, die Sechs-DoF-Kamerastellungen beinhaltet, die erlangt werden, wenn ein Fahrzeug eine Route 204, 402 durchquert. Die Bilder 502, die Sechs-DoF-Kamerastellungen beinhalten, werden in einen Merkmalspunktextraktionsblock 504 eingegeben, um in den Bildern 502 beinhaltete 2D-Merkmalspunkte zu bestimmen. Die Merkmalspunktextraktion kann eines oder mehrere von Superpoint, R2D2 oder SIFT beinhalten. In einer alternativen Umsetzung kann ein neuronales Faltungsnetz auf Grundlage eines Datensatzes von erlangten Referenzbildern trainiert werden, um 2D-Merkmalspunkte aus Bildern 502 in dem Merkmalspunktextraktionsblock 504 zu extrahieren. Die Bilder 502, die Sechs-DoF-Kamerastellungen und die extrahierten 2D-Merkmalspunkte können an die Bilddatenbank 506 ausgegeben und an den SfM-Konstruktionsblock 508 weitergegeben werden. Die SfM-Karte kann eine Sammlung von dreidimensionalen Punkten beinhalten, die von der Route mit optischen Sensoren erfasst und durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung zum Beispiel eines COLMAP-Algorithmus generiert wird. Bei SfM-Konstruktionsblock 508 kann die COLMAP-Software eine 3D-SfM-Karte aus den Bildern 502, Sechs-DoF-Stellungen und 2D-Merkmalspunkten konstruieren, wie vorstehend in Bezug auf 4 erörtert. Eine vervollständigte SfM-Karte 510 kann aus dem SfM-Konstruktionsblock 508 ausgegeben werden.
6 ist eine Darstellung eines Sechs-DoF-Kamerastellungssystems 600. Das Sechs-DoF-Kamerastellungssystem 600 kann ein Bild 602, das durch eine Fahrzeugkamera 206 erlangt wurde, als Eingabe empfangen, während das Fahrzeug 110 auf einer Route 204, 402 fährt, und gibt eine Sechs-DoF-Fahrzeugstellung aus. Die Sechs-DoF-Fahrzeugstellung wird in globalen Koordinaten in Bezug auf die drei orthogonalen x, y, z-Achsen und die drei Rotationen um die drei orthogonalen Positionsachsen bestimmt. Die Sechs-DoF-Fahrzeugstellung kann auf Grundlage einer oder mehrerer Sechs-DoF-Kamerastellungen und eines oder mehrerer Sechs-DoF-Versätzen zwischen den Kameras und dem Fahrzeug bestimmt werden. Die Sechs-DoF-Kamerastellungen können auf Grundlage von erlangten Kameradaten bestimmt werden, die zu einer SfM-Karte kombiniert werden. Die Route 204, 402 wurde zuvor ein oder mehrere Male durch das Fahrzeug 110 oder ein anderes Fahrzeug befahren, das mit Sensoren ausgestattet ist, um Bilddaten und Sechs-DoF-Kamerastellungsdaten zu erlangen. Eine Bilddatenbank 506 und eine SfM-Karte 510 wurden durch ein Routensystem 500 generiert und aus einem Speicher abgerufen, der in einer Rechenvorrichtung 115 beinhaltet ist, die in dem Fahrzeug 110 beinhaltet ist, oder von einem Servercomputer 120 heruntergeladen. Zusätzlich zu der Bilddatenbank 506 und der SfM-Karte 510 wurde das Sechs-DoF-Kamerastellungsystem 600 verwendet, um Bilder aus der Bilddatenbank 506 zu verarbeiten, um optimale Bildparameter zum Bestimmen von Sechs-DoF-Kamerastellungen aus der SfM-Karte 510 zu bestimmen.
Wie weiter unten erörtert wird, bestimmt bei einem Bestimmungsblock 608 einer Sechs-DoF-Kamerastellung ein Perspektive-n-Punkt-Algorithmus (PnP-Algorithmus) in einer Zufallsstichproben-Konsensus-Schleife (RANSAC-Schleife) eine Kamerastellung mit sechs DoF durch Vergleichen von 2D-Merkmalspunkten, die aus einem Bild 602 extrahiert wurden, mit 3D-Punkten, die in einer SfM-Karte 510 beinhaltet sind. Zu dem Zeitpunkt, zu dem die SfM-Karte 510 generiert wird, wie vorstehend in Bezug auf 4 erörtert, wird die Route in möglicherweise überlappende Segmente unterteilt, die ungefähr gleich lang und beispielsweise etwa 100 Meter lang sein können. Die Segmente können zum Beispiel so bestimmt werden, dass sie sich zu 0 bis 75 % überlappen. Die Segmente und Überlappungen können durch Ähnlichkeiten in den Inhalten der entlang des Segments erlangten Bilder bestimmt werden. Zum Beispiel kann ein Routensegment Bilder beinhalten, die hauptsächlich Laub beinhalten.
Ein weiteres Segment kann Bilder beinhalten, die hauptsächlich Gebäude beinhalten. Das Unterteilen der Route in Segmente auf diese Weise kann ermöglichen, dass die PnP/RANSAC-Schleife für die Inhalte der verarbeiteten Bilddaten optimiert wird.
Zu dem Zeitpunkt, zu dem die SfM-Karte bestimmt wird, können Bilder aus der Bilddatenbank eine Vielzahl von Malen in das Sechs-DoF-Kamerastellungssystem 600 eingegeben werden, wobei jedes Mal die Kameraauswahl, die Bildbereichsauswahl und die Stellungsschätzungsparameter, die die PnP/RANSAC-Schleife steuern, variieren. Die Kameraauswahl bezieht sich auf das Auswählen, welche einer möglichen Vielzahl von Kameras, einschließlich in einem Fahrzeug 110, ein Bild erlangen soll. Jede in einem Fahrzeug 110 beinhaltete Kamera kann ein anderes Sichtfeld in Bezug auf die Umgebung um das Fahrzeug 110 aufweisen und infolgedessen können Bilder von unterschiedlichen Kameras unterschiedlich mit in der Bilddatenbank beinhalteten Bilder übereinstimmen. Bilder von den unterschiedlichen Kameras können unter Verwendung eines neuronalen Faltungsnetzes mit Bildern in der Bilddatenbank verglichen werden, um zu bestimmen, welches Bild am ehesten mit der Bilddatenbank übereinstimmt. Ein neuronales Faltungsnetz, das Bilder vergleicht, kann an einem generischen Datensatz trainiert werden, der zufällige Bilder beinhaltet, die von Umgebungen um Fahrzeuge erlangt wurden.
Sobald das Kamerabild ausgewählt ist, das am ehesten mit der Bilddatenbank übereinstimmt, wird eine Teilmenge von Merkmalspunkten ausgewählt, die in der SfM-Karte beinhaltet sind, die in den übereinstimmenden Bildern aus der Bilddatenbank beinhaltet ist. Während des Trainings kann die ausgegebene Sechs-DoF-Kamerastellung mit der in der Bilddatenbank enthaltenen Ground-Truth-Kamerastellung mit sechs DoF verglichen werden, um die Genauigkeit der ausgegebenen Sechs-DoF-Kamerastellung auf Grundlage des ausgewählten Bildes, des ausgewählten Bildbereichs, d. h. der Teilmenge von Merkmalspunkten aus einem oder mehreren Referenzbildern, und der ausgewählten Stellungsschätzungsparameter zu bestimmen. Das Bild, der Bildbereich und die Stellungsschätzungsparameter, welche die genaueste Sechs-DoF-Kamerastellung bestimmen, können für das Routensegment ausgewählt werden, das die Sechs-DoF-Kamerastellung beinhaltet.
Eine einzelne Konfiguration von Bild, Bildbereich und Stellungsschätzungsparametern ist durch eine Kombination von Werten für diese Variablen gegeben (z. B. MNN-Abgleicher, 5px-Rückprojektionsfehler, 5000 RANSAC-Iterationen, MAGSAC-Bewertung, 10 abgerufene Referenzbilder). Ziel des Verfahrens ist es, die beste Konfiguration aus einem Satz von N möglichen Konfigurationen (C1, ..., CN) für jeden Standort in jedem Segment der Route auszuwählen. Eine dieser Konfigurationen, beispielsweise C1, ist eine Ausgangskonfiguration. Diese können Standardparameter innerhalb der Softwarepakete sein, die PnP + RANSAC umsetzen (z. B. OpenCV), oder sie können der optimale Satz von Parametern in Bezug auf die Stellungsschätzungsleistung für die gesamte Route über alle möglichen Konfigurationen hinweg sein. Standardmäßig kann für jeden Standort entlang der Route der Ausgangswert C1 ausgewählt werden. Wenn jedoch eine der verbleibenden Konfigurationen auf Grundlage des Vergleichs des x-, y-Standorts des Fahrzeugs 110 für die zugeordneten Trainingsbilder mit der Ground Truth eine überlegene Schätzung der Sechs-DoF-Kamerastellung ergibt, ist es vorzuziehen, stattdessen eine dieser Konfigurationen zu verwenden.
Für jedes Trainingsbild, das einem Standort für eine gegebene Konfiguration Ci zugeordnet ist, werden n Versuche mit einem anderen zufälligen Startwert ausgeführt, der für jeden Versuch zusammen mit den gegebenen Konfigurationsparametern an PnP + RANSAC weitergegeben wird. Dies ergibt einen Satz von Werten für den Translationsfehler t_i, ist in 1, ..., t_i,n beinhaltet, wobei t_i,j der Translationsfehler für den Versuch j der Konfiguration i ist. Zufällige Startwerte sind für die gleiche Versuchsnummer zwischen allen Konfigurationen identisch. Dieser Vorgang wird auch für den Ausgangswert C1 durchgeführt. Für C2, ..., CN wird ein gepaarter t-Test mit zwei Stichproben auf statistische Signifikanz für Mittelwerte verwendet, um die Stichproben t_i,1, ..., t_i,n mit dem Ausgangswert t_1,1, ... , t_1,n zu vergleichen. Es soll getestet werden, ob für die Konfiguration Ci der wahre mittlere Translationsfehler geringer als der Ausgangswert ist (mit anderen Worten, dass Ci unter Berücksichtigung der inhärenten Zufälligkeit in RANSAC besser ist als C 1).
Ein gepaarter t-Test mit zwei Stichproben wurde im Vergleich zu dem standardmäßigen t-Test mit zwei Stichproben ausgewählt, da Stichproben zwischen Konfigurationen für den gleichen Versuch den gleichen zufälligen Startwert aufweisen. Der gepaarte t-Test ergibt einen p-Wert für die Konfiguration Ci, bezeichnet als p_i, und durch Vergleichen dieses p_i mit einem vom Benutzer ausgewählten kritischen Wert (z. B. 0,05 oder 0,1) kann bestimmt werden, ob die Konfiguration Ci dem Ausgangswert C1 überlegen ist. Für jede Konfiguration C2, ..., CN liegt ein Satz von zugeordneten p-Werten p_1, ..., p_N vor, der durch Durchführen des gepaarten t-Tests mit zwei Stichproben bestimmt wird. Wenn keiner dieser p-Werte kleiner als der kritische Wert ist, ist keine der anderen Konfigurationen im Vergleich zum Ausgangswert in einem statistisch signifikanten Sinne besser und C1 wird als die Ortskonfiguration ausgewählt. Andernfalls wird die Konfiguration mit dem niedrigsten p-Wert ausgewählt, die ein Stellvertreter für die Bestimmung der stärksten Konfiguration ist.
Weiter mit 6 wird ein Bild 602, das durch eine Kamera 206 in einem Fahrzeug 110 erlangt wurde, in den 2D-Merkmalspunktextraktionsblock 604 eingegeben, um 2D-Merkmalspunkte zu extrahieren, wie vorstehend in Bezug auf 4 und 5 erörtert. Der Bildabruf wird zuerst unter Verwendung von Techniken wie APGeM, DenseVLAD, NetVLAD usw. durchgeführt. Dieser Schritt bestimmt den Satz von Bildern aus der Bilddatenbank, um einen 2D-2D-Abgleich zwischen 2D-Merkmalspunkten durchzuführen. APGeM steht für Average Precision Generalized Mean Pooling und wird in „Learning with Average Precision: Training Image Retrieval with a Listwise Loss“ von Jerome Revaud, Jon A.Almazand, Rafael S. Rezende, Cesar De Souza, ICCV 2019, beschrieben. DenseVLADist eine weitere Technik zum Abrufen übereinstimmender Bilder aus einer Bilddatenbank und wird in „Large-scale Localization Datasets in Crowded Indoor Spaces“ von Donghwan Lee, Soohyun Ryu, Suyong Yeon, Yonghan Lee, Deokhwa Kim, Cheolho Han, Yohann Cabon, Philippe Weinzaepfel, Nicolas Guerin, Gabriela Csurka, Martin Humenberger, CVPR 2021, beschrieben. NetVLAD ist eine weitere Technik zum Bestimmen von übereinstimmenden Bildern aus einer Bilddatenbank und wird in „NetVLAD: CNN Architecture for Weakly Supervisedplace Recognition“ von Relja Arandjelovic, Petr Gronat, Akihiko Torii, Tomas Pajdla, Josef Sivic, CVPR 2016, beschrieben. Diese Techniken vergleichen 2D-Merkmalspunkte aus dem eingegebenen Bild 602 mit 2D-Merkmalspunkten, die in der Bilddatenbank 506 beinhaltet sind, um einen Satz von Bildern aus der Bilddatenbank zu bestimmen, die einen oder mehrere der extrahierten 2D-Merkmalspunkte beinhalten.
Die extrahierten 2D-Merkmalspunkte werden in den 2D-2D-Abgleich 606 eingegeben, wobei der extrahierte 2D-2D-Abgleich durch iteratives Abgleichen der Stellen der extrahierten 2D-Merkmalspunkte mit Stellen von Merkmalspunkten in der Bilddatenbank durchgeführt werden kann, um den summierten euklidischen Abstand zwischen den zwei Sätzen zu minimieren. Zum Beispiel können Übereinstimmungen unter Verwendung von gegenseitigen nächsten Nachbarn bestimmt werden. Für ein Bildpaar wird davon ausgegangen, dass zwei Merkmale die gegenseitigen nächsten Nachbarn erfüllen, wenn der Punkt mit dem minimalen euklidischen Merkmalsabstand, der in dem zweiten Bild durch das erste Merkmal übereinstimmt, das erste Merkmal als seinen entsprechenden Punkt mit dem minimalen Abstand aufweist. Die geometrische Verifizierung kann verwendet werden, um den Satz von Bildern aus der Bilddatenbank zu filtern, um sicherzustellen, dass der Satz von Bildern aus der Bilddatenbank von demselben 3D-Standort erlangt wurde, der durch das eingegebene Bild 602 erlangt wurde. Nach dem gegenseitigen Abgleichen der nächsten Nachbarn, um die 2D-2D-Übereinstimmungen zu bestimmen, kann eine weitere geometrische Verifizierung angewendet werden, indem die Konsistenz von Übereinstimmungen mit der Stellungsschätzung verifiziert wird. Der geometrische Abgleich kann die 3D-Standorte, die für den Satz von Bildern aus der Bilddatenbank bestimmt wurden, wie vorstehend beschrieben, mit projizierten Strahlen von der Sechs-DoF-Stellung der Kamera vergleichen, um sicherzustellen, dass sie sich schneiden.
Die 2D-2D-Übereinstimmungen aus jedem Fahrzeugbild/Datenbank-Paar werden aggregiert und in 2D-3D-Übereinstimmungen für die SfM-Karte umgewandelt. PnP + RANSAC werden dann auf den Satz von 2D-3D-Übereinstimmungen angewendet. Auf Grundlage des ausgewählten Routensegments können eine zuvor ausgewählte Kamera und ein bestimmter Satz von Stellungsschätzungsparametern ausgewählt werden, die die PnP/RANSAC-Schleife steuern, die bestimmt wurden, um die Genauigkeit der durch die PnP/RANSAC-Schleife bestimmten Kameraposition mit sechs DoF zu optimieren. Nach der Bestimmung der Stellungsschätzungsparameter werden die 2D-Merkmalspunkte aus dem erlangten Eingabebild 602 und der Satz von 2D-Merkmalspunkten aus dem Satz von Bildern aus der Bilddatenbank in die Sechs-DoF-Kamerastellungsbestimmung 608 eingegeben. Das Starten der PnP/RANSAC-Schleife mit den ungefähren Kamerapositionen kann den Prozess des Bestimmens der Sechs-DoF-Kamerastellung erheblich beschleunigen.
Bei dem Sechs-DoF-Kamerastellungsbestimmungsblock 608 werden die 2D-Merkmalspunkte aus dem erlangten Bild 602 und die 2D-Merkmalspunkte, die in dem Satz von Bildern aus der Bilddatenbank beinhaltet sind, die beim 2D-2D-Abgleich ausgewählt wurden, in die PnP/RANSAC-Schleife eingegeben, um eine Sechs-DoF-Kamerastellung zu bestimmen. Der PnP-Algorithmus bestimmt eine Sechs-DoF-Kamerastellung auf Grundlage des Abgleichens der 2D-Merkmalspunkte aus dem eingegebenen Bild 602 mit 3D-Merkmalspunkten, die in der SfM-Karte beinhaltet sind, indem die folgende Gleichung minimiert wird: $_{R, t}^{a r g m i n} {\sum_{j} ‖ u_{j} - \prod (R X_{j} + t) ‖}^{2}$
wobei R,t die Rotation und Translation der Sechs-DoF-Kamerastellung relativ zur SfM-Karte sind, u_j die {1, .., j, ...N} 2D-Merkmalspunkte sind und X_j {1, .., j, ...N} 3D-Merkmalspunkte aus der SfM sind. Gleichung (1) wird iterativ innerhalb einer RANSAC-Schleife ausgewertet, um einen Minimalwert, d. h. die beste Übereinstimmung zwischen den 2D-Merkmalspunkten aus dem eingegebenen Bild 602 und einem Satz von 3D-Merkmalspunkten aus der SfM-Karte, unter Verwendung eines nichtlinearen Gauß-Newton-Gradientenabstiegsalgorithmus, zu bestimmen. Eine RANSAC-Schleife bezieht sich auf eine Technik zum systematischen Ignorieren von Ausreißerdatenpunkten, d. h. schlecht übereinstimmende einzelne Paare von 2D/3D-Merkmalspunkten, um dazu beizutragen, dass der Algorithmus schneller konvergiert.
Stellungsschätzungsparameter, die die PnP/RANSAC-Schleife steuern, beinhalten Kameraauswahl, Bildbereichsauswahl, lokalen Merkmalsabgleicher, Rückprojektionsfehler und eine RANSAC-Bewertungsfunktion. Ein beispielhaftes Fahrzeug 110 kann sechs Kameras aufweisen, die jeweils in eine andere Richtung in Bezug auf das Fahrzeug weisen, z. B. nach vorne, seitlich links, seitlich rechts, nach hinten usw. Jede Kamera kann eine SfM-Rekonstruktion aufweisen und jedes Routensegment kann einen Kameraindikator aufweisen, der angibt, welche Kamerabilder als Teil seiner Konfiguration verwendet werden sollen. Der Paramter des lokale Merkmalsabgleichers wählt zwischen gegenseitigem Abgleich des nächsten Nachbarn (mutual nearest neighbor - MNN) und MNN + geometrischem Verifizierungsabgleich aus. Der MNN-Abgleich erfordert, dass sowohl der 2D-Merkmalspunkt als auch der 3D-Merkmalspunkt jeweils der nächste Nachbar in beiden Sätzen von Merkmalspunkten sind. Die geometrische Verifizierung bestimmt, dass die Projektion des 2D-Merkmalspunkts aus der aktuellen Sechs-DoF-Kamerastellung die SfM-3D-Karte an der geeigneten Stelle schneidet, wie vorstehend erörtert. Der Rückprojektionsfehlerparameter bestimmt, ob die PnP/RANSAC-Schleife zu einem 5-Pixel-Fehler, einem 10-Pixel-Fehler oder einem 15-Pixel-Fehler konvergiert. Der RANSAC-Bewertungsparameter modifiziert den RANSAC-Algorithmus, um den Parameter σ zu ersetzen, der die Auswahl von Ausreißerergebnissen in dem RANSAC-Algorithmus durch eine MAGSAC-Bewertungsfunktion leitet, die eine feste Obergrenze beinhaltet, um die Auswahl von Ausreißern zu leiten. MAGSAC kann die Konvergenz der PnP/RANSAC-Schleife verzögern, kann jedoch stabilere Ergebnisse liefern. Die zwei Auswahlmöglichkeiten für den lokalen Merkmalsabgleicher, die drei Auswahlmöglichkeiten für den Rückprojektionsfehler und die zwei Auswahlmöglichkeiten für den RANSAC-Bewertungsparameter ergeben 12 unterschiedliche Möglichkeiten für Stellungsschätzungsparameter. Jedes Routensegment weist einen Satz von Stellungsschätzungsparametern der 12 unterschiedlichen möglichen Stellungsschätzungsparameterkombinationen auf, die die genauesten Ergebnisse für den Testdatensatz ergeben haben.
Die Sechs-DoF-Kamerastellung, die in globalen Koordinaten in Bezug auf drei orthogonale Positionsachsen (x-, y-, z-Koordinatenachsen) und drei Rotationsachsen (die jeweilige Rotationen um die Positionsachsen definieren) bestimmt ist, wird als eine Bestimmung 610 der Sechs-DoF-Fahrzeugstellungs ausgegeben, wobei die Sechs-DoF-Kamerastellung auf Grundlage des Sechs-DoF-Versatzes zwischen der Sechs-DoF-Kamerastellung und der Sechs-DoF-Fahrzeugstellung in eine Sechs-DoF-Fahrzeugstellung umgewandelt wird. Der Sechs-DoF-Versatz zwischen der Sechs-DoF-Kamerastellung und der Sechs-DoF-Fahrzeugstellung kann zu dem Zeitpunkt, zu dem die Kamera in dem Fahrzeug 110 installiert wird, bestimmt werden. Die Sechs-DoF-Fahrzeugstellung kann an eine Rechenvorrichtung 115 ausgegeben werden, die in dem Fahrzeug 110 beinhaltet ist, um zum Betreiben des Fahrzeugs 110 verwendet zu werden. Da die Sechs-DoF-Fahrzeugstellung in Bezug auf eine hochauflösende Karte bestimmt wird, kann die Sechs-DoF-Fahrzeugstellung verwendet werden, um ein Fahrzeug 110 zu betreiben. Eine Rechenvorrichtung 115 in einem Fahrzeug kann einen Fahrzeugweg in Bezug auf die hochauflösende Karte bestimmen, auf der das Fahrzeug 110 fahren soll. Die Sechs-DoF-Fahrzeugstellung kann verwendet werden, um die Position des Fahrzeugs in Bezug auf den Fahrzeugweg aufrechtzuerhalten, indem eines oder mehrere von Fahrzeugantriebsstrang, Fahrzeuglenkung und Fahrzeugbremsen gesteuert werden. Das Aktualisieren der Sechs-DoF-Fahrzeugstellung kann der Rechenvorrichtung 115 eine Rückmeldung bereitstellen, um es der Rechenvorrichtung 115 zu ermöglichen, das Fahrzeug 110 anzuweisen, auf dem Fahrzeugweg zu bleiben.
7 ist ein Ablaufdiagramm eines Prozesses 700 zum Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage eines durch einen Fahrzeugsensor 116 erlangten Bildes und wird in Bezug auf die 1-6 beschrieben. Der Prozess 700 kann durch einen Prozessor einer Rechenvorrichtung 115 oder eines Servercomputers 120 umgesetzt werden, der als Eingabe Bilddaten von einem Sensor 116 heranzieht, Befehle an einer Rechenvorrichtung 115 ausführt und eine Sechs-DoF-Fahrzeugstellung ausgibt. Der Prozess 700 beinhaltet mehrere Blöcke, die in der veranschaulichten Reihenfolge ausgeführt werden können. Der Prozess 700 kann alternativ oder zusätzlich weniger Blöcke beinhalten oder kann die Blöcke in anderen Reihenfolgen ausgeführt beinhalten.
Der Prozess 700 beginnt bei Block 702, wo eine Rechenvorrichtung 115 ein Abfragebild 602 in ein Sechs-DoF-Kamerastellungssystem 600 eingibt. Das Abfragebild 602 kann ein monokulares RGB-Bild sein, das durch eine in einem Fahrzeug 110 beinhaltete Kamera erlangt werden kann.
Bei Block 704 bestimmt das Sechs-DoF-Kamerastellungssystem 600 2D-Bildmerkmale, wie vorstehend in Bezug auf 3 und 5 erörtert.
Bei Block 706 bestimmt das Sechs-DoF-Kamerastellungssystem 600 einen Satz von Bildern, der in einer Bilddatenbank beinhaltet ist, auf Grundlage der 2D-Bildmerkmale und bestimmt einen ungefähren Standort der Kamera in Bezug auf eine Route 402.
Bei Block 708 bestimmt das Sechs-DoF-Kamerastellungssystem 600 eine Sechs-DoF-Kamerastellung auf Grundlage der 2D-Bildmerkmale, des Satzes von Bildern aus der Bilddatenbank und Stellungsschätzungsparametern auf Grundlage des ungefähren Standorts der Kamera unter Verwendung eines PnP/RANSAC-Algorithmus und einer SfM-Karte, wie vorstehend in Bezug auf 6 beschrieben.
Bei Block 710 bestimmt das Sechs-DoF-Kamerastellungsystem 600 eine Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung, wie vorstehend in Bezug auf 6 erörtert. Nach Block 710 endet der Prozess 700.
Rechenvorrichtungen, wie etwa die in dieser Schrift erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend identifizierten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Zum Beispiel können die vorstehend erörterten Prozessblöcke als computerausführbare Befehle umgesetzt sein.
Computerausführbare Befehle können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder - technologien erstellt sind, darunter unter anderem, entweder allein oder in Kombination Java™, C, C++, Python, Julia, SCALA, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt er diese Befehle aus, wodurch ein oder mehrere Prozesse durchgeführt werden, zu denen einer oder mehrere der in dieser Schrift beschriebenen Prozesse gehören. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung einer Vielfalt von computerlesbaren Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Datenspeichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.
Zu einem computerlesbaren Medium (auch als prozessorlesbares Medium bezeichnet) gehört ein beliebiges nicht transitorisches (z. B. physisches) Medium, das am Bereitstellen von Daten (z. B. Anweisungen) beteiligt ist, die durch einen Computer (z. B. durch einen Prozessor eines Computers) ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, darunter nicht flüchtige Medien und flüchtige Medien, ohne darauf beschränkt zu sein. Anweisungen können durch ein oder mehrere Übertragungsmedien übertragen werden, zu denen Glasfasern, Drähte, drahtlose Kommunikation gehören, darunter die Innenaufbauelemente, die einen an einen Prozessor eines Computers gekoppelten Systembus umfassen. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das ein Computer auslesen kann.
Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel, wie etwa „ein“, „eine“, „der“, „die“, „das“ usw., dahingehend auszulegen, dass ein oder mehrere der aufgeführten Elemente genannt werden, sofern ein Patentanspruch nicht eine ausdrückliche gegenteilige Einschränkung nennt.
Der Ausdruck „beispielhaft“ wird in dieser Schrift in dem Sinne verwendet, dass er ein Beispiel bedeutet; z. B. sollte eine Bezugnahme auf ein „beispielhaftes Gerät“ einfach als Bezugnahme auf ein Beispiel für ein Gerät gelesen werden.
Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, eine Messung, ein Wert, eine Bestimmung, eine Berechnung usw. von einer/einem genau beschriebenen Geometrie, Entfernung, Messung, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Fertigung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
In den Zeichnungen geben gleiche Bezugszeichen jeweils gleiche Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass, obwohl die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer gewissen geordneten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der in dieser Schrift beschriebenen Reihenfolge durchgeführt werden. Ferner versteht es sich, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse in dieser Schrift beschriebene Schritte weggelassen werden könnten. Mit anderen Worten sind die Beschreibungen von Prozessen in dieser Schrift zum Zweck der Veranschaulichung gewisser Ausführungsformen bereitgestellt und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Gemäß der vorliegenden Erfindung wird in Computer bereitgestellt, der Folgendes aufweist: einen Prozessor; und einen Speicher, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor zu Folgendem ausführbar sind: Bestimmen eines ungefähren Kamerastandorts auf einer Route durch Eingeben eines ersten Bildes, das durch eine Kamera erlangt wird, in ein neuronales Faltungsnetz; Extrahieren von ersten Bildmerkmalspunkten aus dem ersten Bild; Auswählen von Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus auf Grundlage des ungefähren Kamerastandorts; Bestimmen einer Kamerastellung mit sechs Freiheitsgraden (DoF) durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Struktur-aus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird; und Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung.
Gemäß einer Ausführungsform beinhalten die Anweisungen weitere Anweisungen zum Betreiben eines Fahrzeugs durch Bestimmen eines Fahrzeugwegs auf Grundlage der Sechs-DoF-Fahrzeugstellung.
Gemäß einer Ausführungsform wird ein Datensatz von Referenzbildern durch eine Kamera erlangt, die in einem Fahrzeug beinhaltet ist, während dieses die Route befährt.
Gemäß einer Ausführungsform wird das neuronale Faltungsnetz auf Grundlage eines generischen Datensatzes von Referenzbildern trainiert.
Gemäß einer Ausführungsform beinhaltet die SfM-Karte eine Sammlung von dreidimensionalen Punkten, die von der Route aus sichtbar sind, die durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung eines 3D-Kartierungssoftwareprogramms generiert wird.
Gemäß einer Ausführungsform beinhaltet der Stellungsschätzungsalgorithmus einen Perspektive-n-Punkt(PnP)-Algorithmus in einer Zufallsstichproben-Konsensus(RANSAC)-Schleife.
Gemäß einer Ausführungsform beinhalten die Stellungsschätzungsparameter eines oder mehrere von einer Kameraauswahl, einer Bildbereichsauswahl, einem Merkmalsabgleicher, einem Rückprojektionsfehler und einer RANSAC-Bewertungsfunktion.
Gemäß einer Ausführungsform werden die Stellungsschätzungsparameter auf Grundlage des ungefähren Kamerastandorts in Bezug auf überlappende Abschnitte der Route, die ungefähr die gleiche Länge aufweisen, ausgewählt.
Gemäß einer Ausführungsform beinhalten die Anweisungen weitere Anweisungen zum Extrahieren der ersten Bildmerkmalspunkte aus dem ersten Bild unter Verwendung eines Merkmalsextraktionsalgorithmus, der eines oder mehrere von Superpoint, Reliable and Repeatable Detector and Descriptor und skaleninvarianter Merkmalstransformation beinhaltet.
Gemäß einer Ausführungsform wird die Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung bestimmt, indem ein Sechs-DoF-Versatz zwischen dem Fahrzeug und der Kamera bestimmt wird.
Gemäß einer Ausführungsform werden die Sechs-DoF-Kamerastellung und die Sechs-DoF-Fahrzeugstellung in globalen Koordinaten in Bezug auf drei orthogonale Positionsachsen bzw. drei Rotationen um die drei orthogonalen Positionsachsen bestimmt.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Bestimmen eines ungefähren Kamerastandorts auf einer Route durch Eingeben eines ersten Bildes, das durch eine Kamera erlangt wird, in ein neuronales Faltungsnetz; Extrahieren von ersten Bildmerkmalspunkten aus dem ersten Bild;Auswählen von Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus auf Grundlage des ungefähren Kamerastandorts; Bestimmen einer Kamerastellung mit sechs Freiheitsgraden (DoF) durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Struktur-aus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird; und Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung.
In einem Aspekt der Erfindung beinhaltet das Verfahren Betreiben eines Fahrzeugs durch Bestimmen eines Fahrzeugwegs auf Grundlage der Sechs-DoF-Fahrzeugstellung.
In einem Aspekt der Erfindung wird ein Datensatz von Referenzbildern durch eine Kamera erlangt, die in einem Fahrzeug beinhaltet ist, während dieses die Route befährt.
In einem Aspekt der Erfindung wird das neuronale Faltungsnetz auf Grundlage eines generischen Datensatzes von Referenzbildern trainiert.
In einem Aspekt der Erfindung beinhaltet die SfM-Karte eine Sammlung von dreidimensionalen Punkten, die von der Route aus sichtbar sind, die durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung eines 3D-Kartierungssoftwareprogramms generiert wird.
In einem Aspekt der Erfindung beinhaltet der Stellungsschätzungsalgorithmus einen Perspektive-n-Punkt(PnP)-Algorithmus in einer Zufallsstichproben-Konsensus(RANSAC)-Schleife.
In einem Aspekt der Erfindung beinhalten die Stellungsschätzungsparameter eines oder mehrere von einer Kameraauswahl, einer Bildbereichsauswahl, einem Merkmalsabgleicher, einem Rückprojektionsfehler und einer RANSAC-Bewertungsfunktion.
In einem Aspekt der Erfindung werden die Stellungsschätzungsparameter auf Grundlage des ungefähren Kamerastandorts in Bezug auf überlappende Abschnitte der Route, die ungefähr die gleiche Länge aufweisen, ausgewählt.
In einem Aspekt der Erfindung beinhalten die Anweisungen weitere Anweisungen zum Extrahieren der ersten Bildmerkmalspunkte aus dem ersten Bild unter Verwendung eines Merkmalsextraktionsalgorithmus, der eines oder mehrere von Superpoint, Reliable and Repeatable Detector and Descriptor und skaleninvarianter Merkmalstransformation beinhaltet.

Claims

Verfahren, das Folgendes umfasst: Bestimmen eines ungefähren Kamerastandorts auf einer Route durch Eingeben eines ersten Bildes, das durch eine Kamera erlangt wird, in ein neuronales Faltungsnetz; Extrahieren von ersten Bildmerkmalspunkten aus dem ersten Bild; Auswählen von Stellungsschätzungsparametern für einen Stellungsschätzungsalgorithmus auf Grundlage des ungefähren Kamerastandorts; Bestimmen einer Kamerastellung mit sechs Freiheitsgraden (DoF) durch Eingeben der ersten Bildmerkmalspunkte und zweiter Merkmalspunkte, die in einer Struktur-aus-Bewegung(SfM)-Karte beinhaltet sind, auf Grundlage der Route in den Stellungsschätzungsalgorithmus, der durch die Stellungsschätzungsparameter gesteuert wird; und Bestimmen einer Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung.
Verfahren nach Anspruch 1, ferner umfassend Betreiben eines Fahrzeugs durch Bestimmen eines Fahrzeugwegs auf Grundlage der Sechs-DoF-Fahrzeugstellung.
Verfahren nach Anspruch 1, wobei ein Datensatz von Referenzbildern durch eine Kamera, die in einem Fahrzeug beinhaltet ist, erlangt wird, während dieses die Route befährt.
Verfahren nach Anspruch 3, wobei das neuronale Faltungsnetz auf Grundlage eines generischen Datensatzes von Referenzbildern trainiert wird.
Verfahren nach Anspruch 4, wobei die SfM-Karte eine Sammlung von dreidimensionalen Punkten beinhaltet, die von der Route aus sichtbar sind, die durch Bestimmen dreidimensionaler Stellen von Bildmerkmalspunkten in globalen Koordinaten aus dem Datensatz von Referenzbildern und Kombinieren dieser unter Verwendung eines 3D-Kartierungssoftwareprogramms generiert wird.
Verfahren nach Anspruch 1, wobei der Stellungsschätzungsalgorithmus einen Perspektive-n-Punkt(PnP)-Algorithmus in einer Zufallsstichproben-Konsensus(RANSAC)-Schleife beinhaltet.
Verfahren nach Anspruch 1, wobei die Stellungsschätzungsparameter eines oder mehrere von einer Kameraauswahl, einer Bildbereichsauswahl, einem Merkmalsabgleicher, einem Rückprojektionsfehler und einer RANSAC-Bewertungsfunktion beinhalten.
Verfahren nach Anspruch 1, wobei die Stellungsschätzungsparameter auf Grundlage des ungefähren Kamerastandorts in Bezug auf überlappende Abschnitte der Route, die ungefähr die gleiche Länge aufweisen, ausgewählt werden.
Verfahren nach Anspruch 1, wobei das Extrahieren der ersten Bildmerkmalspunkte aus dem ersten Bild Verwenden eines Merkmalsextraktionsalgorithmus beinhaltet, der eines oder mehrere von Superpoint, Reliable and Repeatable Detector and Descriptor und skaleninvarianter Merkmalstransformation beinhaltet.
Verfahren nach Anspruch 1, wobei die Sechs-DoF-Fahrzeugstellung auf Grundlage der Sechs-DoF-Kamerastellung bestimmt wird, indem ein Sechs-DoF-Versatz zwischen dem Fahrzeug und der Kamera bestimmt wird.
Verfahren nach Anspruch 1, wobei die Sechs-DoF-Kamerastellung und die Sechs-DoF-Fahrzeugstellung in globalen Koordinaten in Bezug auf drei orthogonale Positionsachsen bzw. drei Rotationen um die drei orthogonalen Positionsachsen bestimmt werden.
Verfahren nach Anspruch 5, wobei das 3D-Kartierungssoftwareprogramm eines oder mehrere von COLMAP, AgiSoft Metashape und VisualSFM beinhalten kann.
Verfahren nach Anspruch 1, wobei die Stellungsschätzungssoftware für n Versuche mit unterschiedlichen Konfigurationsparametern und unterschiedlichen zufälligen Startwerten ausgeführt wird.
Verfahren nach Anspruch 13, wobei ein gepaarter t-Test mit zwei Stichproben auf statistische Signifikanz verwendet wird, um Ergebnisse aus einem Versuch mit der Ausgangskonfiguration zu vergleichen.
System, umfassend einen Computer, der zum Durchführen der Verfahren nach einem der Ansprüche 1-14 programmiert ist.