DE102018205915A1

DE102018205915A1 - Monokulare Lokalisierung in städtischen Umgebungen unter Verwendung von Straßenmarkierungen

Info

Publication number: DE102018205915A1
Application number: DE102018205915.2A
Authority: DE
Inventors: Yan Lu; Jiawei Huang; Yi-Ting Chen; Bernd Heisele
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-05-22
Filing date: 2018-04-18
Publication date: 2018-11-22
Also published as: US20180336697A1; JP7025276B2; CN108931252A; JP2018197744A; US10282860B2

Abstract

Die vorliegende Offenbarung betrifft Verfahren und Systeme für eine monokulare Lokalisierung in städtischen Umgebungen. Das Verfahren kann ein Bild von einer Kamera in einer Darstellung generieren. Das Verfahren kann eine vorgenerierte Karte empfangen und basierend auf einer Kantendetektion Merkmale von dem generierten Bild bestimmen. Das Verfahren kann eine Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte voraussagen und Merkmale von der vorausgesagten Kameraposition bestimmen. Ferner kann das Verfahren basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition einen Fasenabstand bestimmen und den bestimmten Fasenabstand basierend auf einer Odometrieinformation und einer Epipolargeometrie optimieren. Bei der Optimierung kann das Verfahren eine abgeschätzte Kameraposition bestimmen.

Description

HINTERGRUND
Die Entwicklung selbstfahrender Automobile ist aufgrund der Wahrnehmungserweiterung, der Bewegungsplanung und -steuerung und/oder aufstrebender Sensortechnologien signifikant vorangekommen. Um eine autonome Navigation zu erreichen kann eine präzise Lokalisierung verwendet werden. Während ein globales Positionierungssystem („GPS“) verwendet werden kann, kann dieses Mehrwegeffekte in städtischen Umgebungen erfahren. Alternativen können für eine Lokalisierung in GPS-herausfordernden Umgebungen verwendet werden.
Eine Lokalisierung kann Sensorfeststellungen an eine a priori bekannte Karte anpassen. Karten können durch eine menschliche Vermessung oder eine Roboterkartierung unter Verwendung verschiedener Sensoren generiert werden. Kameras und Light Detection and Ranging („LiDAR“) sind zwei übliche Wahrnehmungssensoren. LiDAR kann zum Kartieren verwendet werden, da es grundsätzlich präzise Entfernungsmessungen bereitstellt. Ein üblicher Ansatz kann sein, in dem Kartierungsprozess LiDAR wie auch eine Lokalisierung zu verwenden. Jedoch können die LiDAR-Kosten für weitreichende Anwendungen übermäßig hoch sein. Andererseits sind Kameras kostengünstig und leichtgewichtig, aber ein visuelles Kartieren ist teilweise aufgrund einer fehlenden direkten Entfernungsmessung herausfordernd. Die Herausforderung wird sein, Messungen an Karten anzupassen, welche unter Verwendung verschiedener Sensormodalitäten erstellt sein können.
In Anbetracht des Vorstehenden kann eine Notwendigkeit für Wege bestehen, eine Lokalisierung für autonome Fahrzeuge präziser zu implementieren. Weitere Vorteile und neue Merkmale werden aus der nachfolgend bereitgestellten Offenbarung deutlicher werden.
ZUSAMMENFASSUNG
Diese Zusammenfassung wird bereitgestellt, um eine Auswahl von Konzepten in einer vereinfachten Form einzuführen, welche nachfolgend in der DETAILLIERTEN BESCHREIBUNG weiter beschrieben sind. Diese Zusammenfassung soll weder die Schlüsselmerkmale des beanspruchten Gegenstands identifizieren noch soll sie als eine Hilfe dabei verwendet werden, den Umfang des beanspruchten Gegenstands zu bestimmen.
In einem Aspekt stellt die Offenbarung ein Lokalisierungsverfahren durch ein Generieren eines Bildes von einer Kamera in einer Darstellung bereit. Das Verfahren empfängt ferner eine vorgenerierte Karte und bestimmt Merkmale von dem generierten Bild basierend auf einer Kantendetektion. Das Verfahren sagt eine Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte voraus und bestimmt Merkmale von der vorausgesagten Kameraposition. Ferner bestimmt das Verfahren einen Fasenabstand basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition und optimiert den bestimmten Fasenabstand basierend auf einer Odometrieinformation und einer Epipolargeometrie. Nach der Optimierung generiert das Verfahren eine Kamerapositionsabschätzung basierend auf der Optimierung.
In einem weiteren Aspekt stellt die Offenbarung ein Lokalisierungssystem bereit, umfassend eine Kamera zum Generieren eines Bildes in einer Darstellung, einen Speicher und einen Prozessor, welcher mit dem Speicher gekoppelt ist. Das System ist dazu eingerichtet, eine vorgenerierte Karte zu empfangen, Merkmale von dem generierten Bild basierend auf einer Kantendetektion zu bestimmen und eine Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte vorauszusagen. Das System ist ferner dazu eingerichtet, Merkmale von der vorausgesagten Kameraposition zu bestimmen und einen Fasenabstand basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition zu bestimmen. Das System ist ferner dazu eingerichtet, den bestimmten Fasenabstand basierend auf einer Odometrieinformation und einer Epipolargeometrie zu optimieren und eine Kamerapositionsabschätzung basierend auf den optimierten Daten zu generieren.
In einem weiteren Aspekt stellt die Offenbarung ein nichttransitorisches, computerlesbares Aufzeichnungsmedium bereit, welches darin ein Programm gespeichert hat, welches, wenn es durch die Schalttechnik eines Systems ausgeführt wird, das System veranlasst, ein Bild von einer Kamera in einer Darstellung zu generieren. Das System ist dazu eingerichtet, eine vorgenerierte Karte zu empfangen, Merkmale von dem generierten Bild basierend auf einer Kantendetektion zu bestimmen und eine Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte vorauszusagen. Das System ist ferner dazu eingerichtet, Merkmale von der vorausgesagten Kameraposition zu bestimmen und einen Fasenabstand basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition zu bestimmen. Das System ist ferner dazu eingerichtet, den bestimmten Fasenabstand basierend auf einer Odometrieinformation und einer Epipolargeometrie zu optimieren und eine Kamerapositionsabschätzung basierend auf den optimierten Daten zu generieren.
Diese und andere Aspekte der Offenbarung werden umfassender verstanden werden bei einer Durchsicht der detaillierten Beschreibung, welche folgt.
Figurenliste
Die neuen Merkmale, welche für die Offenbarung für charakteristisch gehalten werden, werden in den angehängten Ansprüchen dargelegt. In der Beschreibung, welche folgt, sind gleiche Teile überall in der Beschreibung und den Zeichnungen jeweils mit den gleichen Ziffern gekennzeichnet. Die Zeichnungsfiguren sind nicht notwendigerweise maßstabsgetreu gezeichnet und bestimmte Figuren können aus Gründen der Klarheit und Prägnanz in übertriebener oder generalisierter Form gezeichnet sein. Die Offenbarung selbst, wie auch eine bevorzugte Verwendungsweise, weitere Aufgaben und Vorteile davon werden jedoch am besten unter Bezugnahme auf die folgende detaillierte Beschreibung illustrativer Aspekte der Offenbarung verstanden werden, wenn sie in Verbindung mit den begleitenden Zeichnungen gelesen wird, wobei:

1 eine schematische Ansicht einer beispielhaften Betriebsumgebung eines optimierungsbasierten Lokalisierungssystems gemäß Aspekten der vorliegenden Offenbarung darstellt;
2 ein Beispiel von für eine Lokalisierung verwendeten Kartenelementen gemäß Aspekten der vorliegenden Offenbarung darstellt;
3 ein Beispiel von in einem Textformat gespeicherten Kartenelementen gemäß Aspekten der vorliegenden Offenbarung darstellt;
4 ein konzeptionelles Diagramm darstellt, welches eine Gesamtarchitektur für ein optimierungsbasiertes Lokalisierungssystem gemäß Aspekten der vorliegenden Offenbarung zeigt;
5 ein Flussdiagramm darstellt, welches ein beispielhaftes Verfahren einer Objektdetektion und einer optimierungsbasierten Lokalisierung gemäß Aspekten der vorliegenden Offenbarung zeigt;
5A ein Beispiel einer in eine Kameraansicht projizierten Karte, implementierend die durch eine Optimierung erhaltene Kameraposition, gemäß Aspekten der vorliegenden Offenbarung darstellt;
6 ein beispielhaftes Systemdiagramm verschiedener HardwareKomponenten und anderer Elemente für eine Verwendung gemäß Aspekten der vorliegenden Offenbarung darlegt; und
7 ein Blockdiagramm verschiedener beispielhafter Systemkomponenten für eine Verwendung gemäß Aspekten der vorliegenden Offenbarung ist.

DETAILLIERTE BESCHREIBUNG
Das Folgende umfasst Definitionen ausgewählter Begriffe, welche hierin eingesetzt werden. Die Definitionen umfassen verschiedene Beispiele und/oder Formen von Komponenten, welche in den Geltungsbereich eines Begriffs fallen und welche für eine Umsetzung verwendet werden können. Die Beispiele sollen nicht beschränkend sein.
Ein „Prozessor“, wie hierin verwendet, verarbeitet Signale und führt allgemeine Rechen- und Arithmetikfunktionen durch. Durch den Prozessor verarbeitete Signale können digitale Signale, Datensignale, Computeranweisungen, Prozessoranweisungen, Nachrichten, ein Bit, ein Bitstrom oder andere Datenverarbeitung umfassen, welche empfangen, übertragen und/oder detektiert werden.
Ein „Bus“, wie hierin verwendet, betrifft eine vernetzte Architektur, welche zwischen Computerkomponenten innerhalb eines einzelnen oder mehreren Systems/Systemen betriebsmäßig mit Transferdaten verbunden ist. Der Bus kann unter anderem ein Speicherbus, eine Speichersteuerung, ein peripherer Bus, ein externer Bus, ein Kreuzschienenschalter und/oder ein lokaler Bus sein. Der Bus kann auch ein Fahrzeugbus sein, welcher unter Verwendung von Protokollen, wie zum Beispiel Controller Area Network (CAN), Local Interconnect Network (LIN), unter anderem, Komponenten innerhalb eines Fahrzeugs vernetzt.
Ein „Speicher“, wie hierin verwendet, kann einen flüchtigen Speicher und/oder einen nichtflüchtigen Speicher umfassen. Ein nichtflüchtiger Speicher kann zum Beispiel einen ROM (read only memory), einen PROM (programmable read only memory), einen EPROM (erasable PROM) und einen EEPROM (electrically erasable PROM) umfassen. Ein flüchtiger Speicher kann zum Beispiel einen RAM (random access memory), einen synchronen RAM (SRAM), einen dynamischen RAM (DRAM), einen synchronen DRAM (SDRAM), einen Double Data Rate SDRAM (DDR SDRAM) und/oder einen direkten RAM-Bus-RAM (DRRAM) umfassen.
Eine „Betriebsverbindung“, wie hierin verwendet, welche eine Verbindung umfassen kann, durch welche Einrichtungen „betriebsmäßig verbunden“ werden, ist eine Verbindung, bei welcher Signale, physikalische Kommunikationen und/oder logische Kommunikationen gesendet und/oder empfangen werden können. Eine Betriebsverbindung kann eine physikalische Schnittstelle, eine Datenschnittstelle und/oder eine elektrische Schnittstelle umfassen.
Ein „Fahrzeug“, wie hierin verwendet, betrifft jegliches sich bewegendes Fahrzeug, welches durch jegliche Form von Energie betrieben wird. Ein Fahrzeug kann menschliche Insassen oder Fracht transportieren. Der Begriff „Fahrzeug“ umfasst, aber ist nicht beschränkt auf: PKWs, LKWs, Vans, Minivans, SUVs, Motorräder, Roller, Boote, Wassermotorräder und Luftfahrzeuge. In einigen Fällen umfasst ein Motorfahrzeug einen oder mehrere Motoren.
Eine Lokalisierung wird in einer autonomen Navigation selbstfahrender Automobile durchgeführt. Das Wesentliche eines Lokalisierungsprozesses ist, Sensormessungen an vorbestimmte Karten anzupassen. Karten können durch eine menschliche Vermessung oder eine Roboterkartierung unter Verwendung verschiedener Sensoren generiert werden. In anderen Worten können Lokalisierungstechniken durch die Sensormodalitäten und die Kartendarstellungen klassifiziert werden.
Eine Art von Lokalisierungstechnik kann die gleiche Art von Sensor sowohl für eine Lokalisierung als auch für eine Kartierung verwenden. Durch ein Verwenden der gleichen Art von Sensor für beide Prozesse kann das Anpassungsproblem weitgehend vereinfacht werden. Zum Beispiel kann LiDAR (z. B. Velodyne) für beide Prozesse verwendet werden, da 3D-LiDAR eine hohe Präzision von Entfernungsmessungen einsetzt. 3D-LiDAR kann umgesetzt werden, um erst Straßenoberfläche zu kartieren und dann durch ein Korrelieren eines Bodenreflexionsvermögens ein Fahrzeug zu lokalisieren. In einem anderen Beispiel kann 3D-LiDAR verwendet werden, um durch gemischte Gaußverteilungen repräsentierte 3D-Karten zu generieren, und eine Lokalisierung wird durch ein Registrieren von 3D-Punktwolken mit Karten durchgeführt.
Eine zweite Art von Lokalisierungstechnik kann kostengünstige und leichtgewichtige Kameras für eine visuelle Lokalisierung unter Verwendung von Orientierungspunkten verwenden. Zum Beispiel kann eine Datenbank visueller Orientierungspunkte aus Punkten einer skaleninvarianten Merkmalstransformation („SIFT“ - scaleinvariant feature transform) erzeugt werden. Die Kamera kann dann durch eine SIFT-Anpassung lokalisiert werden. Ein weiteres Beispiel lokalisiert eine Kamera durch eine Anpassung des gegenwärtigen Bildes an eine Bilddatenbank unter Verwendung von Bag-of-Words-Techniken.
Es gibt Nachteile bei der Verwendung einer Kamera sowohl für eine Lokalisierung als auch für eine Kartierung. Erstens kann es schwierig sein, eine hohe Genauigkeit bei einer visuellen Kartierung, einer simultanen Lokalisierung und Kartierung („SLAM“ - simultaneous localization and mapping) zu erhalten, weil Kameras nicht die Fähigkeit haben, Entfernungsinformationen festzustellen. Zweitens kann eine Qualität einer visuellen Anpassung leicht durch Zeit, Perspektive und Darstellungsänderungen beeinflusst werden.
Durch eine Verwendung verschiedener Sensormodalitäten bei einer Lokalisierung und einer Kartierung können die oben erwähnten Einschränkungen überwunden werden. Zum Beispiel kann durch eine Adoption von kostengünstigen Sensoren (z. B. Kameras) für eine Lokalisierung und von teuren Sensoren (z. B: LiDAR) für eine Kartierung eine Abschätzung einer Kameraposition verbessert werden.
Die Begründung für eine Verwendung verschiedener Sensormodalitäten bei einer Lokalisierung und einer Kartierung basiert auf der Tatsache, dass, während Karten sehr präzise sein müssen, sie nicht so häufig wie eine Lokalisierung generiert/aktualisiert werden müssen. Somit kann eine monokulare Kamera verwendet werden, um sich selbst in einer durch hochpräzises LiDAR generierten Karte zu lokalisieren.
Im Hinblick auf 1 wird eine schematische Ansicht einer beispielhaften Betriebsumgebung 100 eines Lokalisierungssystems 110 zur Lokalisierung in städtischen Umgebungen unter Verwendung einer Straßenmarkierung gemäß einem Aspekt der Offenbarung bereitgestellt. Das Lokalisierungssystem 110 kann sich in einem Fahrzeug 102 befinden. Die Komponenten des Lokalisierungssystems 110 sowie die Komponenten anderer Systeme, Hardwarearchitekturen und Softwarearchitekturen, die hierin diskutiert werden, können kombiniert, weggelassen oder in verschiedenen Implementierungen organisiert werden.
Das Fahrzeug 102 kann allgemein eine elektronische Steuereinheit (ECU) 112 umfassen, welche eine Mehrzahl von Fahrzeugsystemen betriebsfähig steuert. Die Fahrzeugsysteme können das Lokalisierungssystem 110 umfassen, welches ein monokulares Lokalisierungssystem 140 umfasst, welches unter anderem Fahrzeug-HVAC-Systeme, Fahrzeugaudiosysteme, Fahrzeugvideosysteme, Fahrzeug-Infotainment-Systeme, Fahrzeugtelefonsysteme und dergleichen umfasst, ist aber nicht darauf beschränkt. Das monokulare Lokalisierungssystem 140 kann eine monokulare Kamera 120 oder eine andere Bilderfassungsvorrichtung (z. B. einen Scanner) umfassen, welche auch mit der ECU 112 verbunden sein kann, um Bilder der das Fahrzeug 102 umgebenden Umgebung bereitzustellen, wie nachstehend ausführlicher beschrieben wird.
Das monokulare Lokalisierungssystem 140 kann auch eine LiDAR-Sensordateneinheit 122 umfassen, welche von einem Kartierungsunternehmen erfasst worden ist und aus einer Vielzahl von Elementen, umfassend Straßenmarkierungen, Bordsteine, Verkehrszeichen etc. bestehen kann. Ferner können, wie nachstehend ausführlicher beschrieben wird, eine epipolare Geometrieeinheit 146, eine Odometrieeinheit 144 und eine Fasenabstandseinheit 142 ebenfalls zur Optimierung verwendet werden.
Das monokulare Lokalisierungssystem 140 kann auch eine Optimierungseinheit umfassen, welche nachstehend im Detail beschrieben wird, um basierend auf den Eingaben der epipolaren Geometrieeinheit 146, der Odometriedateneinheit 144 und der Fasenabstandseinheit 142 eine Kameraposition zu schätzen.
Das Lokalisierungssystem 110 kann auch einen Prozessor 114 und einen Speicher 116 umfassen, welcher mit einer Kamera 120, einer LiDAR-Sensordateneinheit 122, einer Kommunikationsvorrichtung 130 und einem automatischen Fahrsystem 132 kommuniziert.
Die ECU 112 kann einen internen Verarbeitungsspeicher, eine Schnittstellenschaltung und Busleitungen zum Übertragen von Daten, Senden von Befehlen und Kommunizieren mit den Fahrzeugsystemen umfassen. Die ECU 112 kann einen internen Prozessor und einen Speicher (nicht gezeigt) umfassen. Das Fahrzeug 102 kann auch einen Bus zum internen Senden von Daten zwischen den verschiedenen Komponenten des Lokalisierungssystems 110 umfassen.
Das Fahrzeug 102 kann ferner eine Kommunikationsvorrichtung 130 (z. B. ein drahtloses Modem) zum Bereitstellen drahtgebundener oder drahtloser Computerkommunikationen unter Verwendung verschiedener Protokolle zum internen Senden/Empfangen von elektronischen Signalen in Bezug auf Merkmale und Systeme innerhalb des Fahrzeugs 102 und in Bezug auf externe Einrichtungen umfassen. Diese Protokolle können ein drahtloses System umfassen, welches Funkfrequenz- (RF) Kommunikationen (z. B. IEEE 802.11 (Wi-Fi), IEEE 802.15.1 (Bluetooth®)), ein Nahfeldkommunikationssystem (NFC) (z. B. ISO 13157), ein lokales Netzwerk (LAN), ein drahtloses Weitverkehrsfunknetz (WWAN) (z. B. Mobilfunk) und/oder ein Punkt-zu-Punkt-System verwendet. Zusätzlich kann die Kommunikationsvorrichtung 130 des Fahrzeugs 102 für eine interne Computerkommunikation über einen Bus (z. B. einen CAN- oder einen LIN-Protokollbus) betriebsfähig verbunden sein, um die Dateneingabe und -ausgabe zwischen der elektronischen Steuereinheit 112 und Fahrzeugmerkmalen und - systemen zu ermöglichen. In einem Aspekt kann die Kommunikationsvorrichtung 130 für Fahrzeug-zu-Fahrzeug- (V2V) Kommunikationen eingerichtet sein. Zum Beispiel können V2V-Kommunikationen drahtlose Kommunikationen über ein reserviertes Frequenzspektrum umfassen. Als ein anderes Beispiel können V2V-Kommunikationen ein Ad-hoc-Netzwerk zwischen Fahrzeugen umfassen, welche unter Verwendung von Wi-Fi oder Bluetooth® eingerichtet sind.
Das Fahrzeug 102 kann wenigstens eine Kamera 120 umfassen. Die Kamera 120 kann eine digitale Kamera sein, welche ein oder mehrere Bilder oder Bildströme erfassen kann, oder kann eine andere Bilderfassungsvorrichtung sein, wie zum Beispiel ein Scanner. Die Kamera 120 kann ein Bild eines Raums direkt vor dem Fahrzeug 102 bereitstellen. Andere Kameras können Bilder anderer Räume bereitstellen, welche das Fahrzeug 102 umgeben. Zum Beispiel kann eine hintere Kamera über einem Stoßfänger des Fahrzeugs angeordnet sein. Die Kamera 120 kann eine monokulare Kamera sein und ein Bild in 2D bereitstellen.
Das Fahrzeug 102 kann ein automatisches Fahrsystem 132 zum Steuern des Fahrzeugs 102 umfassen. Das automatische Fahrsystem 132 kann unter anderen Systemen ein Spurhalteassistenzsystem, ein Kollisionswarnsystem oder ein vollständig autonomes Fahrsystem umfassen. Das automatische Fahrsystem 132 kann Objektpositions- und Orientierungsinformationen von dem Lokalisierungssystem 140 empfangen. In einem Aspekt kann das Lokalisierungssystem 140 eine Komponente des automatischen Fahrsystems 132 sein.
2 stellt ein Beispiel von Kartenelementen dar, welche aus einer Karte generiert werden, welche zur Lokalisierung verwendet wird. Die Karte kann durch Kartierungsunternehmen (z. B. Google) bereitgestellt sein und kann aus einer Vielzahl von Kartenelementen, umfassend Straßenmarkierungen, Bordsteine, Verkehrszeichen etc. bestehen. Zum Beispiel können aus Gründen der Einfachheit zwei Arten von Kartenelementen bestimmt und als Straßenmarkierungen verwendet werden: durchgehende Linien und unterbrochene Linien („Straßenmarkierungen“). Zusätzliche Arten von Kartenelementen können als Straßenmarkierungen verwendet werden, und die vorliegende Offenbarung ist nicht nur auf zwei Arten von Kartenelementen beschränkt.
Wie in 2 dargestellt, können die durchgehenden Linien, wenn die Straßenmarkierungen bestimmt werden, von Kartenelementen wie zum Beispiel einer Fahrbahn oder Zebrastreifengrenzen stammen, während unterbrochene Linien typischerweise zwischen Fahrbahnen existieren können. Zum Beispiel kann das Auswählen dieser Teilmenge von Kartenelementen (z. B. durchgezogene Linien und unterbrochene Linien) als Straßenmarkierungen für das System aus einer Vielzahl von Gründen vorteilhaft sein. Erstens kann diese Teilmenge von Kartenelementen häufiger beobachtet werden als andere Kartenelemente, zum Beispiel Geschwindigkeitsbegrenzungszeichen und Abbiege-/Wendepfeile. Zweitens ist diese Teilmenge von Kartenelementen aufgrund ihrer charakteristischen Erscheinung (im Gegensatz zu Bordsteinen) und ihrer großen Größe (im Vergleich zu Verkehrszeichen) relativ leicht aus Bildern zu erkennen.
Wie in 2 dargestellt, wird die Karte nicht durch Kameras generiert, welche an dem Fahrzeug 102 angeordnet sind, sondern vielmehr durch andere Sensoreinrichtungen (z. B. 3D-LiDAR). Die LiDAR-Sensordaten, welche von dem Fahrzeug 102 erhalten werden, können in der LiDAR-Sensordateneinheit 122 gespeichert werden, wie in 1 gezeigt. Die Karte kann konstruiert werden, indem Orientierungspunkte in einer 3D-Umgebung, welche durch ein Registrieren einer 3D-LiDAR-Punktwolke erstellt wurde, manuell markiert werden. Wie in 2 kann die Karte aus spärlichen 3D-Punkten bestehen, die die Straßenmarkierungen darstellen.
3 stellt ein Beispiel von Straßenmarkierungen dar, welche als ein Text gespeichert sind. Die Straßenmarkierungen als spärliche Punkte, wie in 2 dargestellt, können in Textdateien prägnant gespeichert werden und können nach geografischen Stellen gruppiert werden. Wie in 3 dargestellt, kann eine Straßenmarkierung durch einen Satz spärlicher 3D-Punkte, welche entlang ihrer Mittellinie bemustert sind, zusammen mit anderen Informationen, wie zum Beispiel Breite und Farbe, repräsentiert werden. Diese Textdateien können, wie in 1 gezeigt, in der LiDAR-Sensordateneinheit 122 gespeichert werden.
4 stellt ein konzeptionelles Diagramm dar, welches eine Gesamtarchitektur für das Lokalisierungssystem 110 zeigt. Wie nachstehend ausführlicher erklärt wird, stellt 4 eine Kameraansicht dar, welche von der Kamera 120 erfasst wird, und eine 3D-Karte, welche von der Sensorausrüstung erhalten und in der LiDAR-Sensordateneinheit 122 gespeichert wird. Das monokulare Lokalisierungssystem 140 kann Kanten und Merkmale aus der Kameraansicht erfassen und eine Kameraposition kann aus der 3D-Karte bestimmt werden.
Eine Fasenanpassung kann durchgeführt werden, um von der Kameraansicht erfasste Kanten und Kartenelemente gegen eine leichtgewichtige 3D-Karte zu registrieren, bei welcher die Straßenmarkierungen, wie oben beschrieben, als ein Satz spärlicher Punkte repräsentiert sind. Zusätzlich können die Randbedingungen der Fahrzeugodometrie und der Epipolargeometrie berücksichtigt werden. Ferner kann ein nicht-lineares Optimierungsproblem formuliert werden, um eine Kameraposition mit 6 Freiheitsgraden („DoF“) abzuschätzen.
Zusätzlich kann das Lokalisierungssystem 110 auch Anpassungsfehler erkennen und das System zurücksetzen, nachdem die Anpassung fehlgeschlagen ist, wie nachstehend im Detail beschrieben wird.
5 stellt ein Flussdiagramm dar, welches ein beispielhaftes Lokalisierungsverfahren gemäß Aspekten der vorliegenden Offenbarung darstellt. Bei 502 wird das Lokalisierungssystem 110 initialisiert, wie eine Systeminitialisierung nachfolgend im Detail beschrieben wird. Bei 504, zu einer Zeit K, können Kanten der Kartenelemente in einem Bild I_k detektiert werden, welches von der Kamera 120 erhalten wird. Bei 505, zu der gleichen Zeit K, kann die Kameraposition P'_k unter Verwendung der Informationen des letzten Einzelbilds P_k-1 und von Odometriedaten D_k vorausgesagt/geschätzt werden.
Bei 506 können durch ein Extrahieren von von der Kamera erhaltenen Konturen Kanten detektiert werden. Jedoch erzeugen generische Kantendetektoren zu viele irrelevante Kanten (d. h. falsche Positiva) und somit kann ein auf Random Forest basierender Kantendetektor basierend auf der Kameraansicht umtrainiert werden.
Ein Random Forest ist eine Sammlung unabhängiger Entscheidungsbäume. Jedem Baum wird das gleiche Eingangsmuster gegeben und jeder Baum klassifiziert dieses, indem er es von einem Wurzelknoten zu einem Blattknoten den Baum hinunter propagiert. Durch ein Darlegen eines anfänglich untrainierten Entscheidungsbaums mit vielen Eingangs- und Ausgangskartierungen, werden sich die Parameter seiner internen Aufteilungsfunktionen graduell entwickeln und ähnliche Eingangs-Ausgangs-Kartierungen erzeugen. Dieser Lernprozess wird durch ein Definieren eines Informationsgewinnkriteriums ermöglicht. In einem maximalen Informationsgewinn resultierende Parameter können belohnt werden. Somit können, wie in 4 dargestellt, Straßenmarkierungen von der Kameraansicht über eine Merkmalsdetektion basierend auf Random Forest detektiert werden.
Bei 509 kann eine Anpassung basierend auf der 3D-Karte durchgeführt werden. Wie oben beschrieben, wird eine Straßenmarkierung durch einen kleinen Satz von 3D-Punkten dargestellt. Aus der Odometrieinformation kann die Kameraposition P'_k zu der Zeit K vorausgesagt werden. Wie in 4 gezeigt, kann der kleine Satz von 3D-Punkten von Straßenmarkierungen auf einen Bildraum projiziert werden.
Bei 510 kann eine Fasenanpassung durchgeführt werden, um zu beurteilen, wie gut die bei 509 bestimmten projizierten Punkte an die bei 506 detektierten Merkmale angepasst sind, um eine Kameraposition abzuschätzen.
Eine Fasenanpassung ordnet im Wesentlichen jeden projizierten Punkt einem nächsten Kantenpixel zu. Der Fasenabstand kann von der nachfolgend beschriebenen Fasenabstandstransformation [1] effizient berechnet werden. Um einer Ausrichtung Rechnung zu tragen, können Kantenpixel durch deren Gradientenrichtung in verschiedene Gruppen aufgeteilt werden und eine Abstandstransformation kann dementsprechend berechnet werden. $C_{c h f} (P_{k}) = \sum_{X \in M} C_{k} (π (P_{k}, X))$
C_k ist die Abstandstransformation, berechnet von der Kante des Bildes. Für jeglichen Punkt, x auf I_k, kann der Fasenabstand C_k(x) von C_k durch eine Interpolation abgefragt werden. π(P, X) ist die Projektionsfunktion, welche einen 3D-Punkt X von dem Einzelbild auf das Bild mit der Darstellung P projiziert. M_k ist der Satz von Straßenmarkierungspunkten, welche in der Kameraansicht sind, entsprechend der vorausgesagten Kameraposition P'_k.
Zusätzlich können Straßenmarkierungen nicht immer ausreichend Bedingungen auf der Kamerapositionsabschätzung darstellen, zum Beispiel, wenn gerade durchgehende Linien in der Ansicht vorhanden sind. Daher kann eine Optimierung notwendig sein.
Bei 512 wird eine Epipolarbedingung durch die nachfolgend beschriebene Gleichung [2] bestimmt. x_i,k-1 ↔ x_i,k sind jeweils ein Paar von Bildpunkten von I_k-1 bis I_k und sie entsprechen dem gleichen 3D-Punkt. Die Epipolarbedingung ist: ${\tilde{x}}_{i, k - 1}^{T} F {\tilde{x}}_{i, k} = 0$
wobei F die Fundamentalmatrix ist und x̃ die homogenen Koordinaten von x bezeichnet. Für eine kalibrierte Kamera 120 kann F durch die relative Darstellung zwischen zwei Ansichten bestimmt werden, wie folgt: $\begin{array}{l} ^{k - 1} R_{k} : = R_{k - 1}^{T} R_{k} \\ ^{k - 1} t_{k} : = R_{k - 1}^{T} R_{k} (t_{k} - t_{k - 1}) . \end{array}$
Eine Überprüfung kann durchgeführt werden, sodass {^k-1R_k, ^k-1t_k} die relative feste Transformation zwischen P_k-1 und P_k ist. Die Fundamentalmatrix kann berechnet werden als: $F = K^{- T} [^{k - 1} t_{k}] \times^{k - 1} R_{k} K^{- 1}$
wobei [^k-1t_k] × die Matrixdarstellung des Kreuzprodukts mit ^k-1t_k ist.
Gegeben ein Satz von Punktkorrespondenzen (x_i,k-1 ↔ x_i,k, i = 1, ...} zwischen I_k-1 und I_k, ist die Epipolarbedingung definiert als: $C_{e p i} (P_{k - 1}, P_{k}) = \sum_{i} {\tilde{x}}_{i, k - 1}^{T} F {\tilde{x}}_{i, k} .$
Punkte von beschleunigten, robusten Merkmalen (SURF - speeded up robust features) können in den Epipolarbedingungen verwendet werden. Wie oben beschrieben, stellt Gleichung [5] nur Bedingungen für 5 DoFs einer Kameraposition dar, weil eine physikalische Skalierung nicht durch eine monokulare Kamera wahrnehmbar ist. Somit kann Odometrie als eine zusätzliche Bedingung verwendet werden.
Bei 514 wird eine Odometriebedingung bestimmt. D_k ist die durch den Wegmesser gemessene feste Transformation zwischen I_k-1 und I_k. Da die Epipolarbedingung wie oben beschrieben bereits 5 DoFs abdeckt, ist nur die Verwendung der Translationsgröße von D_k als eine Bedingung notwendig. d_k bezeichnet die Größe der Translationskomponente von D_k. Die Odometriebedingung kann definiert werden als: $C_{o d m} (P_{k - 1}, P_{k}) = {(d_{k} - |^{k - 1} t_{k} |)}^{2} .$
Bei 516 kann die Optimierungsformulierung durchgeführt werden. Gegeben P_k-1, kann P_k abgeschätzt werden, durch Minimieren der folgenden Bewertungsfunktion: $C (P_{k}) = C_{c h f} (P_{k}) + C_{e p i} (P_{k - 1}, P_{k}) + C_{o d m} (P_{k - 1}, P_{k}) .$
Die Bewertungsfunktion [7], welche eine Optimierung bestimmt, kann unter Verwendung eines Levenberg-Marquardt-Algorithmus gelöst werden.
Bei 518 können die optimierten Daten verwendet werden, um eine Kamerapositionsschätzung zu bestimmen. Die Kamerapositionsschätzung kann auf einer Karte implementiert werden.
5A stellt ein Beispiel einer Karte dar, welche in eine Kameraansicht projiziert ist, welche die durch eine Optimierung erhaltene Kamerapositionsschätzung gemäß Aspekten der vorliegenden Offenbarung implementiert.
Um das monokulare Lokalisierungssystem 140 zu initialisieren, kann eine anfängliche Abschätzung der Kameraposition bestimmt werden. Die abgeschätzte Kameraposition kann von einem GPS oder einer anderen Art von Quelle erhalten werden. Die anfängliche Abschätzung der Kameraposition kann weit von der tatsächlichen Position entfernt sein, damit die Optimierung ordnungsgemäß durchgeführt werden kann. Somit kann eine umfassende Suche verwendet werden, um eine präzisere Abschätzung zu bestimmen. Um dies zu tun, kann das monokulare Lokalisierungssystem 140 eine große Menge von Positionskandidaten um die anfängliche Abschätzung in dem Parameterraum herum zufällig abtasten. Das monokulare Lokalisierungssystem 140 kann eine aktualisierte Kamerapositionsschätzung finden, welche C(P_k) minimiert.
Sobald das monokulare Lokalisierungssystem 140 unter Verwendung des besten Kandidaten als eine anfängliche Lösung initialisiert worden ist, kann das System C(P_k) weiter minimieren, wie oben erläutert wurde.
Das monokulare Lokalisierungssystem 140 kann durch ein Überprüfen des Fasenabstands auch die Lokalisierungsleistung überwachen. Ein großer Fasenabstand kann eine Lokalisierungsabschätzung anzeigen. Es kann bestimmt werden, dass das monokulare Lokalisierungssystem 140 fehlgeschlagen ist, z. B. dass eine Kameraposition falsch bestimmt worden ist, wenn aufeinanderfolgende große Fasenabstände generiert werden. In dem Fall eines festgestellten monokularen Lokalisierungssystemfehlers kann das System ein Zurücksetzen unter Verwendung der gleichen Strategie wie oben für die Initialisierung beschrieben durchführen.
Ein Unterschied zwischen einem Zurücksetzen und einer Initialisierung, wie oben beschrieben, besteht darin, dass das monokulare Lokalisierungssystem 140 Kandidaten um die aktuelle Positionsabschätzung herum abtasten kann, anstatt von einem unbekannten Zustand zu beginnen.
Aspekte der vorliegenden Offenbarung können unter Verwendung von Hardware, Software oder einer Kombination davon implementiert werden und können in einem oder mehreren Computersystemen oder anderen Verarbeitungssystemen implementiert werden. In einem Aspekt ist die Offenbarung auf ein oder mehrere Computersysteme gerichtet, welche in der Lage sind, die hierin beschriebene Funktionalität auszuführen. 6 zeigt ein beispielhaftes Systemdiagramm verschiedener Hardwarekomponenten und anderer Merkmale, welche gemäß Aspekten der vorliegenden Offenbarung verwendet werden können. Aspekte der vorliegenden Offenbarung können unter Verwendung von Hardware, Software oder einer Kombination davon implementiert werden und können in einem oder mehreren Computersystemen oder anderen Verarbeitungssystemen implementiert werden. In einer beispielhaften Variation sind Aspekte der Offenbarung auf ein oder mehrere Computersysteme gerichtet, welche in der Lage sind, die hierin beschriebene Funktionalität auszuführen. Ein Beispiel eines solchen Computersystems 600 ist in 6 gezeigt.
Das Computersystem 600 umfasst einen oder mehrere Prozessoren, wie zum Beispiel den Prozessor 604. Der Prozessor 604 ist mit einer Kommunikationsinfrastruktur 606 (z. B. einem Kommunikationsbus, einer Überkreuzungsleiste oder einem Netzwerk) verbunden. Verschiedene Softwareaspekte werden in Bezug auf dieses beispielhafte Computersystem beschrieben. Nach dem Lesen dieser Beschreibung wird es einem Fachmann auf dem/den relevanten Gebiet(en) offensichtlich werden, wie Aspekte der Offenbarung unter Verwendung anderer Computersysteme und/oder -architekturen implementiert werden können.
Das Computersystem 600 kann eine Anzeigeschnittstelle 602 umfassen, welche Grafiken, Text und andere Daten von der Kommunikationsinfrastruktur 606 (oder von einem nicht gezeigten Bildpuffer) zur Anzeige auf einer Anzeigeeinheit 630 weiterleitet. Das Computersystem 600 umfasst auch einen Hauptspeicher 608, vorzugsweise einen Direktzugriffsspeicher (RAM), und kann auch einen sekundären Speicher 610 umfassen. Der sekundäre Speicher 610 kann zum Beispiel ein Festplattenlaufwerk 612 und/oder ein Wechselspeicherlaufwerk 614 umfassen, welches ein Diskettenlaufwerk, ein Magnetbandlaufwerk, ein optisches Laufwerk etc. darstellt. Das Wechselspeicherlaufwerk 614 liest von einer und/oder schreibt in eine Wechselspeichereinheit 618 in einer bekannten Weise. Die Wechselspeichereinheit 618 stellt eine Diskette, ein Magnetband, eine optische Diskette etc. dar, welche von dem Wechselspeicherlaufwerk 614 gelesen und darauf geschrieben wird. Wie gewürdigt werden wird, umfasst die Wechselspeichereinheit 618 ein computerverwendbares Speichermedium, welches darin gespeicherte Computersoftware und/oder Daten aufweist.
In alternativen Aspekten kann der sekundäre Speicher 610 andere ähnliche Vorrichtungen umfassen, um zu ermöglichen, dass Computerprogramme oder andere Anweisungen in das Computersystem 600 geladen werden. Solche Vorrichtungen können zum Beispiel eine Wechselspeichereinheit 622 und eine Schnittstelle 620 umfassen. Beispiele solcher können eine Programmkassette und eine Kassettenschnittstelle (wie sie zum Beispiel in Videospielgeräten zu finden ist), einen Wechselspeicherchip (wie zum Beispiel einen löschbaren, programmierbaren Festwertspeicher (EPROM - erasable programmable read only memory) oder einen programmierbaren Festwertspeicher (PROM - programmable read only memory)) und die zugehörige Buchse sowie andere Wechselspeichereinheiten 622 und Schnittstellen 620 umfassen, welche es ermöglichen, Software und Daten von der Wechselspeichereinheit 622 zu dem Computersystem 600 zu übertragen.
Das Computersystem 600 kann auch eine Kommunikationsschnittstelle 624 umfassen. Die Kommunikationsschnittstelle 624 ermöglicht, dass Software und Daten zwischen dem Computersystem 600 und externen Vorrichtungen übertragen werden. Beispiele der Kommunikationsschnittstelle 624 können ein Modem, eine Netzwerkschnittstelle (wie zum Beispiel eine Ethernet-Karte), einen Kommunikationsanschluss, einen Personal Computer Memory Card International Association (PCMCIA) -Steckplatz und eine PCMCIA-Karte, etc. umfassen. Software und über die Kommunikationsschnittstelle 624 übertragene Daten liegen in der Form von Signalen 628 vor, welche elektronische, elektromagnetische, optische oder andere Signale sein können, welche von der Kommunikationsschnittstelle 624 empfangen werden können. Diese Signale 628 werden der Kommunikationsschnittstelle 624 über einen Kommunikationspfad (z. B. Kanal) 626 bereitgestellt. Dieser Pfad überträgt die Signale 628 und kann unter Verwendung von Draht oder Kabel, Faseroptik, einer Telefonleitung, einer Mobilfunkverbindung, einer Funkfrequenz (RF) -Verbindung und/oder anderen Kommunikationskanälen implementiert werden. In diesem Dokument werden die Ausdrücke „Computerprogrammmedium“ und „computerverwendbares Medium“ verwendet, um allgemein auf Medien wie ein Wechselspeicherlaufwerk 680, eine in dem Festplattenlaufwerk 670 installierte Festplatte und Signale 628 zu verweisen. Diese Computerprogrammprodukte stellen eine Software für das Computersystem 600 bereit. Aspekte der Offenbarung sind auf solche Computerprogrammprodukte gerichtet.
Computerprogramme (auch als Computersteuerlogik bezeichnet) sind in dem Hauptspeicher 608 und/oder in dem sekundären Speicher 610 gespeichert. Computerprogramme können auch über die Kommunikationsschnittstelle 624 empfangen werden. Solche Computerprogramme ermöglichen, wenn sie ausgeführt werden, dem Computersystem 600 wie hierin erörtert verschiedene Merkmale gemäß Aspekten der vorliegenden Offenbarung auszuführen. Insbesondere ermöglichen die Computerprogramme, wenn sie ausgeführt werden, dem Prozessor 604, solche Merkmale auszuführen. Dementsprechend stellen solche Computerprogramme Steuerungen des Computersystems 600 dar.
In Varianten, in welchen Aspekte der Offenbarung unter Verwendung von Software implementiert werden, kann die Software in einem Computerprogrammprodukt gespeichert und in das Computersystem 600 geladen werden, indem das Wechselspeicherlaufwerk 614, das Festplattenlaufwerk 612 oder die Kommunikationsschnittstelle 620 verwendet werden. Die Steuerungslogik (Software) bewirkt, wenn sie durch den Prozessor 604 ausgeführt wird, dass der Prozessor 604 wie hierin beschrieben die Funktionen gemäß Aspekten der Offenbarung ausführt. In einer anderen Variation werden Aspekte hauptsächlich in Hardware implementiert, welche zum Beispiel Hardwarekomponenten, wie zum Beispiel anwendungsspezifische, integrierte Schaltungen (ASICs - application specific integrated circuits), verwenden. Die Implementierung der Hardware-Zustandsmaschine, um die hierin beschriebenen Funktionen auszuführen, wird für Fachleute in dem/den relevanten Gebiet(en) offensichtlich sein.
In noch einer anderen beispielhaften Variation werden Aspekte der Offenbarung unter Verwendung einer Kombination von sowohl Hardware als auch Software implementiert.
7 ist ein Blockdiagramm verschiedener beispielhafter Systemkomponenten, welche gemäß Aspekten der vorliegenden Offenbarung verwendet werden können. Zum Beispiel können sich die verschiedenen Komponenten innerhalb des Fahrzeugs 102 befinden, oder nur einige der Komponenten können sich innerhalb des Fahrzeugs 102 befinden, und andere Komponenten können von dem Fahrzeug 102 entfernt sein. Das System 700 umfasst einen oder mehrere Zugreifende760, 762 (hierin austauschbar auch als ein oder mehrere „Benutzer“ bezeichnet) und ein oder mehrere Endgeräte 742, 766 (solche Endgeräte können zum Beispiel verschiedene Merkmale des Objekterfassungssystems 110 sein oder diese umfassen). In einem Aspekt werden Daten zur Verwendung gemäß Aspekten der vorliegenden Offenbarung zum Beispiel eingegeben und/oder es wird durch Zugreifende760, 762 auf diese zugegriffen, über Endgeräte 742, 766, wie zum Beispiel Personal Computer (PCs), Minicomputer, Mainframe-Computer, Mikrocomputer, Telefongeräte oder drahtlose Vorrichtungen, wie zum Beispiel Personal Digital Assistants („PDAs“) oder tragbare, drahtlose Vorrichtungen, welche mit einem Server 743 verbunden sind, wie zum Beispiel einem PC, einem Minicomputer, einem Mainframe-Computer, einem Mikrocomputer oder einer anderen Vorrichtung mit einem Prozessor und einem Repository für Daten und/oder Verbindungen zu einem Repository für Daten, zum Beispiel über ein Netzwerk 744, wie zum Beispiel das Internet oder ein Intranet, und Kopplungen 745, 746, 764. Die Kopplungen 745, 746, 764 umfassen zum Beispiel verdrahtete, drahtlose oder faseroptische Verbindungen. In einer anderen beispielhaften Variation arbeiten das Verfahren und das System gemäß Aspekten der vorliegenden Offenbarung in einer eigenständigen Umgebung, wie zum Beispiel auf einem einzelnen Endgerät.
Die hierin diskutierten Aspekte der Offenbarung können auch in dem Kontext eines computerlesbaren Speichermediums, welches computerausführbare Anweisungen speichert, beschrieben und implementiert werden. Computerlesbare Speichermedien umfassen Computerspeichermedien und Kommunikationsmedien. Zum Beispiel Flash-Speicherlaufwerke, Digital Versatile Disks (DVDs), Compact Discs (CDs), Disketten und Bandkassetten. Computerlesbare Speichermedien können flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien umfassen, welche in jeglichem Verfahren oder jeglicher Technologie zum Speichern von Informationen, wie zum Beispiel computerlesbaren Anweisungen, Datenstrukturen, Modulen oder anderen Daten, implementiert sind.
Es wird gewürdigt, dass verschiedene Implementierungen des oben Offenbarten und anderer Merkmale und Funktionen oder Alternativen oder Varianten davon auf wünschenswerte Weise in vielen anderen, unterschiedlichen Systemen oder Anwendungen kombiniert werden können. Auch, dass verschiedene gegenwärtig unvorhergesehene oder unerwartete Alternativen, Modifikationen, Variationen oder Verbesserungen darin im Nachhinein durch einen Fachmann getätigt werden können, welche auch durch die folgenden Ansprüche umfasst werden sollen.
Die vorliegende Offenbarung betrifft Verfahren und Systeme für eine monokulare Lokalisierung in städtischen Umgebungen. Das Verfahren kann ein Bild von einer Kamera in einer Darstellung generieren. Das Verfahren kann eine vorgenerierte Karte empfangen und basierend auf einer Kantendetektion Merkmale von dem generierten Bild bestimmen. Das Verfahren kann eine Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte voraussagen und Merkmale von der vorausgesagten Kameraposition bestimmen. Ferner kann das Verfahren basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition einen Fasenabstand bestimmen und den bestimmten Fasenabstand basierend auf einer Odometrieinformation und einer Epipolargeometrie optimieren. Bei der Optimierung kann das Verfahren eine abgeschätzte Kameraposition bestimmen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

ISO 13157 [0028]

Claims

Lokalisierungsverfahren, umfassend: Generieren eines Bildes von einer Kamera in einer Darstellung; Empfangen einer vorgenerierten Karte; Bestimmen von Merkmalen von dem generierten Bild basierend auf einer Kantendetektion; Voraussagen einer Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte und Bestimmen von Merkmalen von der vorausgesagten Kameraposition; Bestimmen eines Fasenabstands basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition; und Optimieren des bestimmten Fasenabstands basierend auf einer Odometrieinformation und einer Epipolargeometrie; Generieren einer Kamerapositionsabschätzung basierend auf der Optimierung.
Verfahren nach Anspruch 1, wobei das Bild von einer monokularen Kamera generiert wird.
Verfahren nach Anspruch 1, wobei die vorgenerierte Karte auf LiDAR-Sensorik basiert.
Verfahren nach Anspruch 1, wobei die Optimierung durch Minimieren einer Bewertungsfunktion durchgeführt wird, welche definiert ist als: $C (P_{k}) = C_{c h f} (P_{k}) + C_{e p i} (P_{k - 1}, P_{k}) + C_{o d m} (P_{k - 1}, P_{k})$
wobei P_k die abgeschätzte Kameraposition ist, C_odm die Odometrieinformation ist, C_epi die Epipolargeometrie ist und P_k-1 eine vorherige Kameraposition ist, wobei k eine Zeit ist.
Verfahren nach Anspruch 4, wobei die Odometrieinformation definiert ist als: $C_{o d m} (P_{k - 1}, P_{k}) = {(d_{k} - |^{k - 1} t_{k} |)}^{2}$
wobei d_k eine Größe einer Translationskomponente von D_k ist, D_k eine feste Transformation zwischen einem vorherigen Bild und dem Bild ist und t_k ein Translationsvektor ist.
Verfahren nach Anspruch 4, wobei die Epipolargeometrie definiert ist als: $C_{e p i} (P_{k - 1}, P_{k}) = \sum_{i} {\tilde{x}}_{i, k - 1}^{T} F {\tilde{x}}_{i, k}$
wobei x̃ homogene Koordinaten eines Punkts auf dem Bild sind und F eine Fundamentalmatrix ist.
Verfahren nach Anspruch 1, wobei die Kantendetektion durch einen auf Random Forest basierenden Kantendetektor durchgeführt wird.
Lokalisierungssystem, umfassend eine zum Generieren eines Bildes eingerichtete Kamera in einer Darstellung; einen Speicher; einen Prozessor, welcher mit dem Speicher gekoppelt ist und eingerichtet ist zum: Empfangen einer vorgenerierten Karte; Bestimmen von Merkmalen von dem generierten Bild basierend auf einer Kantendetektion; Voraussagen einer Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte und Bestimmen von Merkmalen von der vorausgesagten Kameraposition; Bestimmen eines Fasenabstands basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition; und Optimieren des bestimmten Fasenabstands basierend auf einer Odometrieinformation und einer Epipolargeometrie; Generieren einer Kamerapositionsabschätzung basierend auf den optimierten Daten.
System nach Anspruch 8, wobei die Kamera eine monokulare Kamera ist.
System nach Anspruch 8, wobei die vorgenerierte Karte auf LiDAR-Sensorik basiert.
System nach Anspruch 8, wobei das Optimieren durch Minimieren einer Bewertungsfunktion durchgeführt wird, welche definiert ist als: $C (P_{k}) = C_{c h f} (P_{k}) + C_{e p i} (P_{k - 1}, P_{k}) + C_{o d m} (P_{k - 1}, P_{k})$
wobei P_k die abgeschätzte Kameraposition ist, C_odm die Odometrieinformation ist, C_epi die Epipolargeometrie ist und P_k-1 eine vorherige Kameraposition ist, wobei k eine Zeit ist.
System nach Anspruch 11, wobei die Odometrieinformation definiert ist als: $C_{o d m} (P_{k - 1}, P_{k}) = {(d_{k} - |^{k - 1} t_{k} |)}^{2}$
wobei d_k eine Größe einer Translationskomponente von D_k ist, D_k eine feste Transformation zwischen einem vorherigen Bild und dem Bild ist und t_k ein Translationsvektor ist.
System nach Anspruch 11, wobei die Epipolargeometrie definiert ist als: $C_{e p i} (P_{k - 1}, P_{k}) = \sum_{i} {\tilde{x}}_{i, k - 1}^{T} F {\tilde{x}}_{i, k}$
wobei x̃ eine homogene Koordinate eines Punkts auf dem Bild ist und F eine Fundamentalmatrix ist.
System nach Anspruch 8, wobei die Kantendetektion durch einen auf Random Forest basierenden Kantendetektor durchgeführt wird.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium, welches darin ein Programm gespeichert hat, welches, wenn es durch die Schalttechnik eines Systems ausgeführt wird, das System veranlasst zum: Generieren eines Bildes von einer Kamera in einer Darstellung; Empfangen einer vorgenerierten Karte; Bestimmen von Merkmalen von dem generierten Bild basierend auf einer Kantendetektion; Voraussagen einer Darstellung der Kamera basierend auf wenigstens der vorgenerierten Karte und Bestimmen von Merkmalen von der vorausgesagten Kameraposition; Bestimmen eines Fasenabstands basierend auf den bestimmten Merkmalen von dem Bild und der vorausgesagten Kameraposition; und Optimieren des bestimmten Fasenabstands basierend auf einer Odometrieinformation und einer Epipolargeometrie; Generieren einer Kamerapositionsabschätzung basierend auf den optimierten Daten.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 15, wobei das Bild von einer monokularen Kamera generiert wird.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 15, wobei die vorgenerierte Karte auf LiDAR-Sensorik basiert.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 15, wobei das Optimieren durch Minimieren einer Bewertungsfunktion durchgeführt wird, welche definiert ist als: $C (P_{k}) = C_{c h f} (P_{k}) + C_{e p i} (P_{k - 1}, P_{k}) + C_{o d m} (P_{k - 1}, P_{k})$
wobei P_k die abgeschätzte Kameraposition ist, C_odm die Odometrieinformation ist, C_epi die Epipolargeometrie ist und P_k-1 eine vorherige Kameraposition ist, wobei k eine Zeit ist.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 18, wobei die Odometrieinformation definiert ist als: $C_{o d m} (P_{k - 1}, P_{k}) = {(d_{k} - |^{k - 1} t_{k} |)}^{2}$
wobei d_k eine Größe einer Translationskomponente von D_k ist, D_k eine feste Transformation zwischen einem vorherigen Bild und dem Bild ist und t_k ein Translationsvektor ist.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 18, wobei die Epipolargeometrie definiert ist als: $C_{e p i} (P_{k - 1}, P_{k}) = \sum_{i} {\tilde{x}}_{i, k - 1}^{T} F {\tilde{x}}_{i, k}$
wobei x̃ eine homogene Koordinate eines Punkts auf dem Bild ist und F eine Fundamentalmatrix ist.
Nichttransitorisches, computerlesbares Aufzeichnungsmedium nach Anspruch 15, wobei die Kantendetektion durch einen auf Random Forest basierenden Kantendetektor durchgeführt wird.