DE112020000590T5

DE112020000590T5 - Karte und verfahren zum erstellen einer karte

Info

Publication number: DE112020000590T5
Application number: DE112020000590.9T
Authority: DE
Inventors: Vassilios Panagiotou; Roland Preiss; Pavol Michalik; Johannnes W. H. Rabe
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2019-01-30
Filing date: 2020-01-23
Publication date: 2021-12-23
Also published as: WO2020156923A2; WO2020156923A3

Abstract

Ein Verfahren umfasst Aufnehmen von mindestens zwei Bildern mit einer Bildeinheit, wobei jedes der mindestens zwei Bilder von einer anderen Position der Bildeinheit aus aufgenommen wird, wobei ein erster Abschnitt der Umgebung der Bildeinheit durch jedes der mindestens zwei Bilder aufgenommen wird, und wobei ein Abschnitt einer langgestreckten Landmarke in dem ersten Abschnitt aufgenommen wird, und Generieren von mindestens zwei Beobachtungsebenen, wobei jede Beobachtungsebene im Wesentlichen orthogonal zu der langgestreckten Landmarke ist und die langgestreckte Landmarke an einem bestimmten Punkt kreuzt.

Description

ALLGEMEINER STAND DER TECHNIK
1. Technisches Gebiet
Die Offenbarung betrifft eine Karte und ein Verfahren zum Erstellen einer solchen Karte, insbesondere einer Karte für fortgeschrittene Fahrerassistenzsysteme (advanced driver-assistance system - ADAS) und hochautomatisiertes Fahren (highly automated driving - HAD).
2. Stand der Technik
Die Position einer punktförmigen Landmarke in einem 3D-Raum kann im Allgemeinen trianguliert werden, wenn der jeweilige Punkt in Kamerabildern aus mehreren Blickwinkeln betrachtet wurde. Dazu ist es in der Regel erforderlich, zu bestimmen, welche beobachteten Punkte miteinander korrespondieren („Datenverknüpfung“). Verschiedene Ansätze zum Bestimmen der Position und Ausrichtung von kurzen Liniensegmenten sind bekannt und werden im Allgemeinen auf ähnliche Weise implementiert. Solche Ansätze funktionieren im Allgemeinen gut für Liniensegmente mit sichtbaren Enden und/oder wenn sich die Kamera nicht entlang dieser Segmente bewegt. Wenn sich die Kamera (die z. B. in ein fahrendes Fahrzeug eingebaut ist) jedoch entlang einer Landmarke mit großer Ausdehnung in Bewegungsrichtung bewegt, wird dies schwierig. Landmarken dieser Art können Polylinien oder Kurven sein, wie Fahrspurlinien (z. B. die Fahrbahnmarkierungen, die zwei befahrbare Fahrspuren trennen) oder die Fahrbahnbegrenzung oder eine Fläche mit begrenzter seitlicher Ausdehnung, wie etwa die Fahrbahnoberfläche oder eine Fahrspurlinie, deren Breite relevant ist. Daher besteht ein Bedarf an einer zuverlässigen und belastbaren Karte und einem Verfahren zum Erstellen einer solchen Karte, die das Abtasten eines 3D-Raums an gewünschten Positionen ermöglicht und die es ermöglicht, die Überschneidung von beliebigen Landmarken mit einer großen Ausdehnung in mindestens einer Dimension auch bei Bewegung entlang der Landmarke zu bestimmen.
KURZDARSTELLUNG
Ein Verfahren beinhaltet Aufnehmen von mindestens zwei Bildern mit einer Bildeinheit, wobei jedes der mindestens zwei Bilder von einer anderen Position der Bildeinheit aus aufgenommen wird, wobei ein erster Abschnitt der Umgebung der Bildeinheit durch jedes der mindestens zwei Bilder aufgenommen wird und wobei ein Abschnitt einer langgestreckten Landmarke in dem ersten Abschnitt aufgenommen wird, und Generieren von mindestens zwei Beobachtungsebenen, wobei jede Beobachtungsebene im Wesentlichen orthogonal zu der langgestreckten Landmarke ist und die langgestreckte Landmarke an einem bestimmten Punkt kreuzt.
Ein Verfahren zum Generieren einer Karte beinhaltet das Generieren einer lokalen Karte als Reaktion auf ein auslösendes Ereignis, das Hochladen der lokalen Karte in einen zentralen Server, das Einlesen der lokalen Karte in den zentralen Server und Verknüpfen der lokalen Karte mit mindestens einer zusätzlichen Information, und das Integrieren der lokalen Karte in eine auf dem zentralen Server gespeicherte globale Karte, wodurch eine aktualisierte globale Karte erstellt wird.
Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Fachmann bei Prüfung der folgenden detaillierten Beschreibung und der beigefügten Figuren offensichtlich. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, innerhalb des Umfangs der Erfindung liegen und durch die nachfolgenden Ansprüche geschützt sind.
Figurenliste
Das System kann unter Bezugnahme auf die folgenden Zeichnungen und die Beschreibung besser verstanden werden. In den Figuren bezeichnen gleiche Bezugszeichen entsprechende Teile in allen verschiedenen Ansichten.

1 ist ein Fragment einer lokalen Karte, das Landmarken, Abfolgestellungen und Beziehungen zwischen diesen umfasst.
2 ist eine schematische Darstellung eines parametrischen MAP-Schätzfunktionssystems.
3 ist eine schematische Übersicht über eine Kartierungsabfolge.
4 ist ein Beispiel für eine Fahrspurerkennungseingabe.
5 veranschaulicht beispielhaft eine Kartendarstellung mit hoher Datendichte.
6 veranschaulicht beispielhaft eine Kartendarstellung mit geringer Datendichte.
7 veranschaulicht beispielhaft eine weitere Kartendarstellung mit geringer Datendichte.
8 veranschaulicht beispielhaft eine Beobachtung einer geraden Straße von zwei unterschiedlichen Kamerapositionen aus.
9 veranschaulicht beispielhaft eine Fahrspurlinie, wie sie von einer ersten Kameraposition aus betrachtet wird, ein entsprechendes Bild in einer Bildebene und einen entsprechenden Fahrspurlinienkeil.
10 veranschaulicht beispielhaft eine Fahrspurlinie, wie sie von einer ersten und einer zweiten Kameraposition aus beobachtet wird und entsprechende Beobachtungsebenen.
11 veranschaulicht schematisch unterschiedliche Szenarien mit mehreren Fahrspuren.
12 veranschaulicht schematisch geschätzte Fahrspurlinien in Teilen unterschiedlicher KITTI-Rohsequenzen.
13 veranschaulicht schematisch reprojizierte und geschnittene Beobachtungen von Liniensegmenten in einer Beobachtungsebene.

DETAILLIERTE BESCHREIBUNG
Fortschrittliche Fahrerassistenzsysteme (ADAS) sind Systeme, die den Fahrer eines Fahrzeugs beim Fahrprozess unterstützen. Einige ADAS umfassen eine sichere Mensch-Maschine-Schnittstelle, die die Fahrzeugsicherheit und allgemeiner die Verkehrssicherheit erhöhen soll. Viele Verkehrsunfälle ereignen sich durch menschliches Versagen. Fortschrittliche Fahrerassistenzsysteme sind Systeme, die entwickelt wurden, um Fahrzeugsysteme für Sicherheit und besseres Fahren zu automatisieren, anzupassen und zu verbessern. Fortschrittliche Fahrerassistenzsysteme reduzieren in der Regel die Zahl der Verkehrstoten, indem sie das menschliche Versagen minimieren. Viele Sicherheitsmerkmale sind ausgelegt, um Kollisionen und Unfälle zu vermeiden, indem sie Technologien bieten, die den Fahrer auf potentielle Probleme hinweisen, oder um Kollisionen zu vermeiden, indem sie Schutzmaßnahmen umsetzen und die Kontrolle über das Fahrzeug übernehmen. Adaptive Merkmale können die Beleuchtung automatisieren, eine adaptive Geschwindigkeitsregelung und Kollisionsvermeidung sowie Fußgängeraufprallvermeidung (pedestrian crash avoidance mitigation - PCAM) bereitstellen, Satellitennavigations-/Verkehrswarnungen integrieren, eine Verbindung zu Smartphones herstellen, einen Fahrer auf andere Fahrzeuge oder Gefahren hinweisen, eine Warnung bei Verlassen der Fahrspur oder eine automatische Spurzentrierung bereitstellen, oder angeben, wenn sich Objekte wie andere Fahrzeuge im toten Winkel befinden. Hochautomatisiertes Fahren (HAD) bildet das Bindeglied zwischen assistiertem und autonomem Fahren. Der Fahrer wird nicht nur unterstützt, sondern es werden auch individuelle Fahraufgaben angepasst, um die Anforderungen bei speziellen Situationen zu erfüllen. Die Unterschiede zwischen ADAS und HAD sind graduell. Fortschrittliche Fahrerassistenzsysteme, hochautomatisiertes Fahren sowie automatisierte Fahranwendungen erfordern in der Regel aktuelle und genaue Karten.
Eine Karte kann allgemein als eine digitale Darstellung der realen Umgebung definiert werden, sodass die enthaltenen Informationen für verschiedene Zwecke verwendet werden können, z. B. Visualisierung oder Lokalisierung. Unterschiedliche Arten von Karten sind allgemein bekannt, die sich durch die Art des Inhalts und die Erstellungs- und Einsatzmodelle unterscheiden. Sogenannte Feature Maps (Merkmalskarten) beschreiben die Umgebung in Form von Landmarken. Landmarken sind entweder eine abstrakte Darstellung von Objekten der realen Welt (sogenannte semantische Landmarken) oder sie stellen auffallende Eigenschaften von Objekten der realen Welt dar, wie sie durch (Sicht-)Sensoren beobachtet werden, z. B. verschiedene Arten von auffallenden Bildmerkmalen (z. B. ORB, SURF, SIFT usw.) Landmarken weisen im Allgemeinen eine geometrische Darstellung auf und sind in einem üblichen Koordinatensystem angeordnet. Ferner erfüllen Landmarken bestimmte Arten von gegenseitigen geometrischen Beschränkungen, wie z. B. Inzidenz, Koinzidenz, Koplanarität, Parallelität.
Eine Karte kann allgemein vorab von einem spezialisierten Kartenanbieter oder Online-Kartendienst (z. B. google maps®, TomTom®, ViaMichelin® usw.) erstellt werden. Normalerweise besitzt der Anbieter die Kartendaten und auch die Abfolge zum Einsetzen der Karten. Alternativ können Karten im laufenden Betrieb durch ein in das Fahrzeug oder andere mobile Akteure (z. B. andere Fahrzeuge) integriertes simultanes Lokalisierungs- und Kartierungssystem (Simultaneous Localization and Mapping - SLAM-System) erstellt werden. Im letzterem Fall kann die Kartierungsabfolge (Mapping Pipeline) aus den folgenden Schritten bestehen: (1) Sammeln der Kartendaten von einer Flotte von Akteuren, (2) Erstellen eines globalen Kartenmodells aus einer Fusion kompatibler lokaler Karten, (3) Verteilen der globalen Karte an die Flotte und (4) die Akteure die globale Karte als zusätzlichen Sensor, d. h. Informationsquelle für SLAM, verwenden lassen. Solche Karten können auch als Crowdsourcing-Referenzkarten bezeichnet werden.
Solche Crowdsourcing-Karten bieten im Allgemeinen viele kommerzielle Möglichkeiten und reichlich Herausforderungen in Technologie und Wissenschaft. Im Folgenden werden einige der Herausforderungen näher beschrieben. Insbesondere wird die hierin verwendete Terminologie ausgearbeitet und wird die Architektur der Kartierungsabfolge näher beschrieben. Ferner wird ein Verfahren zum Nachverfolgen und Kartieren von Fahrspurlinienmarkierungen beschrieben. Die mit diesem Verfahren erzielten Ergebnisse werden beschrieben und es wird skizziert, wie dieses Verfahren für andere gegenseitig eingeschränkte Landmarken, wie etwa Straßenoberfläche, Fahrbahnmarkierungen oder Verkehrszeichen, verallgemeinert werden kann.
Karten können in lokale Karten und globale Karten unterschieden werden. Lokale Karten werden durch eine Flotte mobiler Akteure aus monokularen Bildern und Positionsinformationen entwickelt. Das heißt z. B. von einer Vielzahl von Kameras, die jeweils an einem von einer Vielzahl von Fahrzeugen angebracht sind, wobei jede Kamera ein oder mehrere monokulare Bilder aufnimmt und diese Informationen an einen zentralen Server bereitstellt, der lokale Karten aus der Vielzahl von aufgenommenen Bildern erstellt. Die resultierenden lokalen Karten weisen eine geringe Datendichte auf, obwohl intern dichte Darstellungen oder Hybriddarstellungen vorhanden sein können. Eine globale Karte kann aus einem Fusionsprozess von lokalen Kartenfragmenten resultieren, die durch die Vielzahl von Akteuren hochgeladen werden. Die globale Karte weist eine geringe Datendichte auf. Sie besteht aus geometrischen Darstellungen von Landmarken, die Objekte der realen Welt darstellen.
Jeder mobile Akteur kann eine physische Kopie der globalen Karte (Referenzkarte) an Bord haben (z. B. gespeichert auf einer Speichervorrichtung eines Fahrzeugs). Die Referenzkarte dient als weitere Beobachtungsquelle für den mobilen Akteur, der die Beobachtungen von anderen Sensoren mit dieser Karte „kartenabgleicht“. Die Akteure führen einen fahrzeuginternen visuellen semantischen SLAM-Dienst aus, der gleichzeitig eine Karte und eine Abfolge von Stellungen in 6 DOF (six degrees of freedom) (sechs Freiheitsgraden) über einen Zeitraum schätzt. Im vorliegenden Beispiel wird angenommen, dass die Vielzahl von Akteuren jeweils mit kostengünstigen Sensoren ausgestattet ist. Beispielsweise kann in einer minimalen Konfiguration jeder Akteur (Fahrzeug) eine Referenzkarte, eine monokulare Kamera und ein globales Positionsbestimmungssystem (GPS) umfassen. Die Schätzung der lokalen Karte ist im Allgemeinen ein kontinuierlicher Prozess. Das Hochladen lokaler Karten ist ein diskretes Ereigniss, das durch einen vordefinierten Regelsatz oder durch einen expliziten Befehl eines Flottenbetreibers eingeleitet wird. Das Format der lokalen Karte entspricht ungefähr dem in 1 veranschaulichten Graph. Diese Kartenfragmente stellen die relevanten Teile der lokalen Karten dar und werden als Beobachtungen im Zusammenführungsprozess für die globale Karte verwendet. Die gespeicherten Beziehungen zwischen den Landmarken L und der Abfolge von Stellungen P (sogenannte Beobachtungsbeziehungen) sind hilfreich, um Datenverknüpfungsmehrdeutigkeiten während des Fusionsprozesses der globalen Karte aufzulösen. Typischerweise weisen Fragmente der lokalen Karte eine Größe von bis zu wenigen Megabyte auf. Jedes Fragment ist mit Metadaten verknüpft, die die Region und das Zeitintervall der Schätzung identifizieren. Dies wird nachfolgend ausführlicher beschrieben.
Es wird angenommen, dass das Modell für die Schätzung der globalen Karten dem Schätzmodell für lokale Karten sehr ähnlich ist. Zum Beispiel kann der Parametrische Maximum a posteriori (MAP)-Schätzungsrahmen verwendet werden, um beide Kategorien von Karten zu schätzen, wie nachfolgend ausführlicher beschrieben wird.
Im Folgenden stellt ein Sensormesswert in einem Schätzsystem eine Beobachtung dar. Die Beziehung zwischen geschätzten Variablen (hier: Karte und Stellungen) und einer Beobachtung wird als Beobachtungsmodell bezeichnet. Der Sensorsatz eines mobilen Akteurs ist nicht festgelegt. Für jeden neuen Sensortyp kann ein neues Beobachtungsmodell definiert und dem System hinzugefügt werden. Die Softwareimplementierung eines solchen Systems wird als parametrische MAP-Schätzfunktion bezeichnet, wie in 2 schematisch veranschaulicht. 2 veranschaulicht eine schematische Darstellung des parametrischen MAP-Schätzfunktionssystems: Die Rohbeobachtungen Z werden durch semantische Merkmalsextrahierer ergänzt, die semantische Beobachtungen Z0 ergeben. In einem parametrisierbaren Nachverfolgungs- und Kartierungsverfahren werden die Modellvariablen X aus den Beobachtungen Z und Z0 über das Beobachtungsmodell h geschätzt, das die Beziehung zwischen Modellvariablen und Beobachtungen definiert.
Das Attribut parametrisch bezieht sich auf die Fähigkeit, die Schätzfunktion durch einen Satz von Parametern zu beschreiben, die die Sensoren und die Beobachtungsmodelle, die Präzisions- und Genauigkeitsdaten, die verwendete Solver-Engine, die Ausführungsumgebung, das Threading-Modell usw. definieren. Es wird angenommen, dass sich die einzelnen Beobachtungsmodelle hi zu einer global gültigen Beziehung Z = h(X) zusammenfügen, sodass die MAP-Wahrscheinlichkeit P(Xj|Z) berechnet werden kann. Solche Wahrscheinlichkeitsberechnungen sind allgemein bekannt und werden hierin nicht näher beschrieben. Der angewandte Ansatz zur faktorgraphbasierten Formulierung der MAP-Aufgabe wird nachfolgend ausführlicher beschrieben. Der Kartenzusammenführungs-Cloud-Dienst, der die globale Karte XG als MAP-Schätzung unter Berücksichtigung der lokalen Karten (= Beobachtungen) ZLi berechnet, ist eine Instanz der parametrischen MAP-Schätzfunktion. Somit ermöglicht diese Software den Einsatz einer Funktion sowohl in einem Cloud-Dienst als auch in einem eingebetteten System. Im Folgenden werden die Architektur und das Datenflussmodell der Kartierungsabfolge kurz beschrieben.
Die Karteneinlese-, Zusammenführungs- und Verteilungsabfolge kann als verteilte Cloud-Anwendung konzipiert sein. Er kann aus einer Reihe von voneinander unabhängigen Diensten bestehen, die API (Application Programming Interfaces) für den Dateneingang/-ausgang und für die Aufnahme und das Auslösen von Domain-Ereignissen bereitstellen. Der Aufruf eines Dienstes kann entweder durch ein Domain-Ereignis (z. B. „neuer Akteur wurde hinzugefügt“) oder durch eine explizite Abfrage (z. B. „alle Fragmente für eine bestimmte Region abrufen“) gesteuert werden. Die Dienste können in jeder öffentlichen Cloud eingesetzt oder vor Ort ausgeführt werden, vorausgesetzt, dass geeignete Outscaling-Technologien verfügbar sind. Der Arbeitsablauf ist in 3 schematisch veranschaulicht.
Lokale Karten hochladen: Die Akteure laden lokale Karten entsprechend der Konfiguration hoch. Typische Ereignisse, die ein Hochladen von Daten verursachen, sind z. B. „Ende der Fahrt erreicht“, „Datenmenge in lokaler Karte überschreitet Grenzwert“, „Bedienerübersteuerung für frühestmögliches Hochladen“ usw.
Einlesen lokaler Karten: Der Dateneingang in ein verteiltes, schließlich konsistentes Speichersystem. Die Nutzdaten (auch lokale Karte genannt) werden zusammen mit obligatorischen Attributen („Region“, „Zeitbereich“) und einer Reihe optionaler Attribute gespeichert. Die Daten werden nach Region und Zeitbereich in einem volumenrasterähnlichen Schema, den sogenannten raumzeitlichen Spalten, indexiert.
Datenfusion der lokalen und globalen Karte: Der Kartenfusionsdienst fragt entweder die raumzeitliche Datenbank nach neuen Kartenfragmenten ab oder reagiert auf das Domain-Ereignis „Neues Fragment für Region X/Zeitbereich Y hochgeladen“ und aktualisiert alle kompatiblen Regionen der globalen Karte. Die globale Karte wird nach demselben raumzeitlichen Spaltenformat indexiert.
Verteilung der globalen Karte: Die Verteilung der aktualisierten globalen Karte erfolgt entweder nach dem „Push“-Modell, bei dem sich die Datenkonsumenten (= Akteure) für eine Benachrichtigung über verfügbare Aktualisierungen anmelden, oder die Akteure fragen den Kartenverteilungsdienst nach vorhandenen Aktualisierungen ab.
Aktualisierung der globalen Karte: Zuletzt ersetzen die Akteure die zur Lokalisierung verwendete Referenzkarte durch eine aktualisierte Version einer globalen Karte.
Die Funktionalität der gesamten Abfolge beruht auf einer belastbaren Nachverfolgung und Kartierung semantischer Landmarken aus georeferenzierten Bildern. Für autonome Bodenfahrzeuge, die auf öffentlichen Straßen fahren, sind die wichtigsten semantischen Merkmale die Fahrbahnoberfläche, Fahrbahnbegrenzungen, Fahrspurlinien oder Fahrbahnmarkierungen. Diese Landmarken sind in Stadt- und Autobahnszenarien allgegenwärtig, ändern sich nicht sehr häufig und sind relativ einfach zu modellieren. Daher wird im Folgenden ein Verfahren zum Beobachten und Schätzen von Fahrspurlinien beschrieben. Es wird weiter beschrieben, wie dieses Verfahren für andere Arten von „kontinuierlichen“ Merkmalen verallgemeinert wird.
Im Vergleich zu weit verbreiteten punktförmigen Landmarkenkarten auf Grundlage von auffallenden Merkmalen können unterschiedliche Umgebungs- und Beobachtungsmodelle zusammen mit einem anderen Verfahren zur Datenverknüpfung für Landmarken verwendet werden, die eine physische Ausdehnung in mindestens einer Dimension aufweisen, wie Fahrspurlinien oder Fahrbahnoberfläche. Es sind mehrere Ansätze bekannt, bei denen Ränder durch Edgelet-Landmarken beschrieben werden. Dies sind Teile eines Rands, die durch einen 3D-Punkt und eine 3D-Richtung beschrieben werden. Während sie für Ränder mit klaren Begrenzungen, wie sie in Innenräumen und Gebäudeoberflächen vorkommen, gut geeignet erscheinen, ist das Verknüpfungsproblem für Kurven weniger klar, die eher entlang als quer befahren werden. Andere Ansätze konzentrieren sich auf Innenbereiche oder berücksichtigen auch Straßenszenarien, bilden aber meist Liniensegmente an Gebäudefronten ab. Andere Verfahren schlagen vor, die Fahrbahnbegrenzung mit einem Partikelfilter abzubilden, jedoch beschränkt auf den zweidimensionalen Fall. Es sind andere Verfahren bekannt, die einen GraphSLAM-Ansatz verwenden, um Fahrspuren auf Grundlage von Kamerabildern und Radarobjekten zu schätzen, die aber die Fahrbahnhöhe ebenfalls nicht berücksichtigen. Andere Ansätze schlagen vor, Fahrbahnmarkierungen wie Pfeile, Rauten und Striche oder die gesamte Fahrbahnoberfläche zu kartieren. Die Lokalisierung auf einer Karte, die Linien auf der Fahrbahnoberfläche enthält, wie beispielsweise Fahrbahnmarkierungen, Bordsteine und Haltelinien, ist allgemein bekannt. Einige Karten modellieren gestrichelte Linien mit dem Anfang und dem Ende jedes Segments. Die Kartenerstellung kann jedoch auf einer Konfiguration mit mehreren Kameras und einem Laserscanner basieren. Ein Verfahren zur Schätzung der 6-DOF-Stellung und der 3D-Kurve ist bekannt, das jedoch auf eine IMU und eine Stereokamera zurückgreift.
Das hierin beschriebene Verfahren zur Kartierung von Fahrspurlinienstrukturen baut auf das sogenannte ORB-SLAM-System auf, das die Kamerastellungen xLi und die Position von Punktlandmarken ILj auf Grundlage von ORB-Merkmalen unter Verwendung eines Graphoptimierungsansatzes schätzt, beides in lokalen Weltkoordinaten (bezeichnet mit L). Im Folgenden werden Anpassungen erörtert, die es dem System ermöglichen, Positionsinformationen und Fahrspurlinien im SLAM-Prozess zu berücksichtigen.
Die Formulierung von SLAM als MAP-Aufgabe und dessen Lösung unter Verwendung von Verfahren zur Graphoptimierung ist weithin akzeptiert. Alle zu schätzenden Parameter, z. B. Kamerastellungen und Landmarkenpositionen, werden als Knoten eines Graphen interpretiert. Messungen von allen verfügbaren Sensoren werden als Ränder zwischen den entsprechenden Knoten hinzugefügt, die Beschränkungen darstellen; beispielsweise verbindet die Beobachtung einer Landmarke j in einem bestimmten Kamerarahmen, der mit der Kamerastellung i verknüpft ist, die Knoten i und j und enthält die Information, wo im Bild die Landmarke beobachtet wurde. Jeder Rand ist mit einer Fehlerfunktion e_ij verknüpft. Dann wird der Fehler über alle Ränder minimiert: $\hat{x} = \begin{matrix} arg m i n . \\ x \end{matrix} \sum_{(i, j)} e_{i j}^{T} Ω_{i j} e_{i j}$
, wobei $Ω_{i j} = \sum_{i j}^{- 1}$
die Informationsmatrix ist, d. h. die Umkehrung der Kovarianzmatrix der Messung, die die Knoten i und j verbindet.
Diese Optimierungsaufgabe ist im Allgemeinen nichtlinear, und es existieren mehrere Bibliotheken, die eine effiziente Lösung von Problemen dieser Art unter Verwendung des Gauss-Newton- oder Levenberg-Marquardt-Algorithmus ermöglichen, während die typische geringe Datendichte des resultierenden Graphen genutzt wird.
Positionsinformationen sind mit 6 Freiheitsgraden in geodätischen Koordinaten verfügbar. Die erste Positionsmessung wird verwendet, um die Transformation T_LG von geodätischen in lokale euklidische Koordinaten zu definieren. Der Translationsteil $t_{p o s, i}^{G}$
der Positionsmessung $z_{p o s, i}^{G},$
die mit der Kamerastellungsschätzung ${\hat{x}}_{i}^{L}$
verknüpft ist, kann verwendet werden, um eine Beschränkung im Graphen auf Grundlage der Fehlerfunktion $e_{p o s, i}^{L} = {\hat{t}}_{i}^{L} - T_{L G} t_{p o s, i}^{G} \in ℝ^{3}$
zu formulieren, wobei ${\hat{t}}_{i}^{L}$
der Translationsteil der Kamerastellung ${\hat{x}}_{i}^{L}$
ist.
Ein Ansatz für Computer-Vision auf Grundlage von Deep-Learning wird verwendet, um Fahrspurlinien im Videobild zu erkennen. Das künstliche neuronale Netz (artificial neural network - ANN) gibt Pixelmasken aus, die dann zu Liniensegmenten im Bildraum abstrahiert werden. Die ANN-Komponente befindet sich in der Ebene „Extrahierer“ der parametrischen MAP-Schätzfunktion, siehe 2. Eine Beispielausgabe für einen Bildrahmen aus der KITTI-Rohsequenz 2011_09_30_drive_0016 ist in 4 abgebildet. Mehrere Fahrspurlinien werden erkannt, wird aber die rechte Begrenzung z.B. nur teilweise erkannt, ist die Grenze des Sperrbereichs keine unabhängige Region, sondern verzerrt die nahe linke Begrenzung. Ganz links wird ein Pfeil auf der Fahrbahn als Spurlinie erkannt.
Karten können im Allgemeinen beispielsweise auch in Karten mit geringer Datendichte und Karten mit hoher Datendichte unterschieden werden. „Geringe Datendichte“ bezieht sich in diesem Zusammenhang auf die Menge von Landmarken, die pro Volumeneinheit des Kartenkoordinatensystems gefunden werden. Im Allgemeinen kann in einer Karte mit geringer Datendichte die Anzahl semantischer Landmarken pro Einheit um Größenordnungen niedriger sein als die Anzahl der Landmarken von auffallenden Bildmerkmalen, was zu einer Unterscheidung zwischen geringer und hoher Datendichte führt. Karten mit geringer Datendichte sind in der Regel für Menschen verständlich und können fahrbahnbezogene Merkmale wie beispielsweise Verkehrszeichen, Fahrspurlinien oder Fahrbahnmarkierungen beinhalten. Karten mit geringer Datendichte erfordern in der Regel fortschrittliche Abgleichverfahren. Karten mit geringer Datendichte können in Wohngebieten reduziert und in Innenstadtgebieten sehr komplex sein. Karten mit geringer Datendichte sind oft auf Autobahnen und in ländlichen Gebieten nützlich. Ein Beispiel für eine Karte mit geringer Datendichte ist schematisch in 6 veranschaulicht. 6 veranschaulicht eine Draufsicht einer einzelnen Straße. Zwei Fahrzeuge fahren auf der Straße in unterschiedliche Richtungen. Die Straße weist eine Vielzahl unterschiedlicher Fahrspuren auf, die durch Fahrspurlinien 204 getrennt sind. Die Fahrspurlinien 204, die im Beispiel der 6 die interessierenden Landmarken darstellen, sind als durchgezogene Linien markiert. Andere interessierende Landmarken können Straßenschilder sein, wie beispielhaft in 7 veranschaulicht. Insbesondere können unterschiedliche Punkte des Straßenschilds, die die Form und Art des Straßenschilds definieren, die Landmarken 206 darstellen.
Karten mit hoher Datendichte können andererseits auffallende Merkmale wie beispielsweise Ecken oder Ränder beinhalten. Dies ist beispielhaft in 5 veranschaulicht. In der in 5 veranschaulichten Darstellung sind unterschiedliche Landmarken 202 (auffallende Merkmale) markiert, wie etwa Ecken oder Ränder von Gebäuden, Fenster, Fahrzeuge, Gehwege usw., die mit Deskriptoren übereinstimmen. Karten mit hoher Datendichte werden häufig für städtische Situationen verwendet. Karten mit hoher Datendichte sind jedoch selten auf Autobahnen und in ländlichen Gebieten zu finden, da sie vergleichsweise schwer zu triangulieren sind.
Sowohl Karten mit geringer Datendichte als auch Karten mit hoher Datendichte haben bestimmte Nachteile und Schwächen. Karten mit hoher Datendichte können beispielsweise viel Speicherplatz und Bandbreite erfordern. Der Inhalt von Karten mit hoher Datendichte hat keinen direkten Bezug zu Fahrsituationen, da Karten mit hoher Datendichte Ecken und Ränder von Gebäuden, Gehwege usw. beschreiben anstelle von Fahrspurbegrenzungen, Geschwindigkeitsbegrenzungen usw. Karten mit hoher Datendichte enthalten oft Landmarken in der Umgebung, die durch mehrere Faktoren beeinflusst werden, wie etwa zum Beispiel Zeit und Jahreszeit. Karten mit hoher Datendichte sind oft nicht intuitiv und für Menschen nicht leicht verständlich und daher im Vergleich zu Karten mit geringer Datendichte viel schwieriger zu pflegen. Auf der anderen Seite sind Karten mit geringer Datendichte oft weniger belastbar und zuverlässig als Karten mit hoher Datendichte, insbesondere in Gebieten mit nur wenigen semantischen Landmarken.
Wie im Folgenden beschrieben wird, können die Schwächen von Karten mit geringer Datendichte und Karten mit hoher Datendichte beseitigt oder zumindest reduziert werden, indem Karten mit geringer und hoher Datendichte kombiniert werden und eine Hybridkarte bereitgestellt wird, die die Stärken von eigenständigen Karten mit geringer oder hoher Datendichte kombiniert, ihre Schwächen beseitigt und daher eine verbesserte, überlegene und vollständige Grundlage für viele der autonomen Fahrfunktionen bereitstellt. Die Schwächen von Karten mit hoher Datendichte können beseitigt werden, indem sie mit einer Karte mit geringer Datendichte kombiniert wird. Dies kann zu einer Reduzierung der Speicher- und Bandbreitenanforderungen führen, da Karten mit geringer Datendichte in der Regel mehr Informationen für die benötigten Funktionen wie beispielsweise Autobahnen oder Landstraßen bereitstellen. Die Belastbarkeit der Karten mit hoher Datendichte verbessert sich bei Berücksichtigung der semantischen Kartenlandmarken der Karte mit geringer Datendichte. Die Hybridkarte ist in der Regel für den Menschen viel intuitiver und verständlicher als Karten mit hoher Datendichte. Durch die Kombination von Karten mit geringer Datendichte und Karten mit hoher Datendichte hingegen wird die Karte zuverlässiger und belastbarer hinsichtlich der Kartierung und Lokalisierung, auch in Gebieten mit nur wenigen semantischen Landmarken.
Die im Folgenden beschriebene Hybridkarte kombiniert Karten mit geringer Datendichte, die punktförmige Landmarken beinhalten, mit Karten mit hoher Datendichte, die semantische Landmarken beinhalten. Optional kann die Hybridkarte ferner Erweiterungen umfassen. Die beiden miteinander kompatiblen, aber orthogonalen Kartenarten, Karten mit hoher Datendichte, die aus 3D-Punktwolken bestehen, die aus auffallenden visuellen Merkmalen rekonstruiert wurden, und Karten mit geringer Datendichte, die aus geometrischen Darstellungen (z. B. geometrische 3D- oder 2D-Darstellungen) von semantischen Merkmalen bestehen, die Objekte der realen Welt darstellen, wie etwa Verkehrszeichen, Fahrbahnmarkierungen (z. B. Fahrbahnlinien) oder die Fahrbahnoberfläche, werden als wesentliche Bestandteile der Hybridkarte betrachtet. Zum Beispiel können die Positionen solcher semantischen Merkmale 3-dimensional dargestellt sein, während andere Eigenschaften der semantischen Merkmale 2-dimensional dargestellt sein können (z. B. kann die Vorderseite eines Verkehrszeichens als flaches Objekt ohne den Pfosten, auf dem es montiert ist, dargestellt sein). Hybridkarten dienen als wesentlicher Bestandteil des entsprechenden systematischen Ansatzes für Modellierung, Nachverfolgung und (Neu-)Kartierung von Merkmalen, der die Integration entsprechender Beobachtungsmodelle in verschiedene SLAM-Prozesse ermöglicht. Darüber hinaus wird die Erweiterung von Qualitätsindikatoren berücksichtigt, die die inhaltliche Verteilung und Qualität der Hybridkarte entsprechend der kartierten Region und den Anwendungsanforderungen angeben. Verschiedene autonome Fahranwendungen, wie z. B. Lokalisierung, Stellungsschätzung, können die Hybridkarten für ihre Bedürfnisse nutzen.
Die Position einer punktförmigen Landmarke in einem 3D-Raum kann trianguliert werden, wenn der jeweilige Punkt in Kamerabildern aus mehreren Blickwinkeln betrachtet wurde. Dazu ist es in der Regel erforderlich herauszufinden, welche beobachteten Punkte miteinander korrespondieren („Datenverknüpfung“). Es sind mehrere unterschiedliche Ansätze zum Bestimmen der Position und Ausrichtung von kurzen Liniensegmenten bekannt, die jeweils ähnlich funktionieren. Solche Ansätze sind in der Regel gut geeignet für Liniensegmente mit sichtbaren Enden und/oder wenn sich die Kamera nicht entlang dieser Segmente bewegt. Wenn sich die Kamera (die z. B. in ein fahrendes Fahrzeug eingebaut ist) entlang einer Landmarke mit großer Ausdehnung (langgestreckte Landmarke) in Bewegungsrichtung bewegt, kann dies schwierig werden. Landmarken dieser Art können Polylinien oder Kurven sein, wie Fahrspurlinien (z. B. die Fahrbahnmarkierungen, die zwei befahrbare Fahrspuren trennen) oder eine Fahrbahnbegrenzung oder eine Fläche mit begrenzter seitlicher Ausdehnung, wie etwa die Fahrbahnoberfläche oder eine Fahrspurlinie, deren Breite zum Beispiel relevant ist. Bei solchen Landmarken ist die Zuordnung des beobachteten Teils der Landmarke schwierig, wie in 8 schematisch veranschaulicht.
8 veranschaulicht schematisch eine Kamera 300. Die Kamera 300 kann an einem Fahrzeug (nicht dargestellt) angebracht sein, das sich in Fahrtrichtung bewegt. Die Kamera 300 kann zu einem ersten Zeitpunkt t1 ein erstes Bild und zu einem zweiten Zeitpunkt t2 ein zweites Bild aufnehmen. Zwischen dem ersten Zeitpunkt t1 und dem zweiten Zeitpunkt t2 bewegt sich die Kameraposition in Fahrtrichtung, abhängig von der Geschwindigkeit des Fahrzeugs. Die zu unterschiedlichen Zeitpunkten aufgenommenen Bilder zeigen daher unterschiedliche Abschnitte der Umgebung. Zum Beispiel kann das erste Bild die Umgebung innerhalb einer Entfernung d1 von der ersten Position der Kamera 300 aufnehmen, und das zweite Bild kann die Umgebung innerhalb einer Entfernung d2 von der zweiten Position der Kamera 300 aufnehmen.
Wenn sich die Kamera 300 ständig entlang eines geraden Straßensegments bewegt, können die durch die Kamera 300 zu unterschiedlichen Zeitpunkten aufgenommenen Bilder für mehrere Kamerapositionen identisch aussehen. Der beobachtete Teil der Fahrspurlinien ist jedoch unterschiedlich. Oft ist es nicht möglich zu bestimmen, welcher Teil der vollständigen Fahrspurlinie beobachtet wird, wenn die Kamerastellung nicht im Voraus genau bekannt ist.
Dieses Problem ist in der Regel nicht auf perfekt gerade Straßen beschränkt, sondern tritt auch für alle Straßensegmente mit konstanter Krümmung auf, wenn sich die Kamera 300 entlang des Segments bewegt. Ändert sich die Krümmung, ist eine solche Zuordnung möglich, aber meist nicht sehr stabil. Wenn sich die Kamera 300 mit einem bestimmten Winkel (ungleich null) in Bezug auf solche Fahrspurlinien bewegt, können die unterschiedlichen Positionen mit Hilfe schwieriger Prozesse berechnet werden, die nicht unbedingt einen richtigen Umgang mit Beobachtungsunsicherheiten zulassen. Das gleiche gilt für Oberflächen wie die Fahrbahnoberfläche.
Der Hauptunterschied zwischen der Kartierung von punktförmigen Landmarken und Polyliniensegmenten ist die Datenverknüpfung. Durch Merkmalsdeskriptoren ist es möglich zuzuordnen, welcher Schlüsselpunkt aus einem Rahmen einem Schlüsselpunkt in einem anderen Rahmen entsprechen könnte. Bei einer Fahrt auf einer geraden Fahrbahn und Erkennen von Fahrspurbegrenzungen im Bildrahmen können die erkannten Liniensegmente aus mehreren Positionen genau gleich aussehen - obwohl von jeder Position aus ein leicht unterschiedliches Segment der realen Fahrspurbegrenzung erkannt wird (siehe 8).
Ein Schlüsselpunkt in einem Bild ist die Projektion eines Punktes in der 3D-Welt, die irgendwo auf einem Strahl liegt, der an der optischen Achse der Kamera beginnt und durch deren 2D-Punkt in der Bildebene verläuft. Das Beobachten desselben Punkts von mehreren Kamerapositionen aus ermöglicht das Schneiden der entsprechenden Strahlen, um deren 3D-Position zu schätzen (Triangulation). In ähnlicher Weise ist ein gerades Liniensegment in einem Bild die Projektion eines Liniensegments in der 3D-Welt, die irgendwo innerhalb eines Keils liegt, d. h. des Teils einer Ebene zwischen den beiden Strahlen entsprechend ihren Endpunkten (siehe z. B. 9). Die Ausrichtung innerhalb des Keils ist jedoch unklar. Darüber hinaus ist das Schneiden mehrerer Keile nicht hilfreich, da nicht klar ist, ob mehrere Beobachtungen dem gleichen Teil der Linie in der 3D-Welt entsprechen - wie in 8 abgebildet. Um dieses Problem handhabbar zu machen, wird die Welt mithilfe von Beobachtungsebenen abgetastet. Beobachtungsebenen sind virtuelle Ebenen oder Teile von Ebenen mit begrenzter Ausdehnung, die nahezu senkrecht im Fahrweg des Fahrzeugs stehen und während der Fahrt vom Fahrzeug passiert werden. Beobachtungsebenen ermöglichen das Abtasten des 3D-Raums an bestimmten Positionen und finden die Überschneidung einer beliebigen Landmarke mit großer Ausdehnung in einer Dimension mit der Beobachtungsebene. Die Ausrichtung der Beobachtungsebenen kann nahezu orthogonal oder orthogonal zu den zu beobachtenden Landmarken sein, z. B. vertikal und quer zur Fahrbahn für Fahrspurlinien oder die Fahrbahnoberfläche. Die allgemeine Idee von Beobachtungsebenen ist in 10 abgebildet. Unter der Annahme, dass die Kamerastellungen gut bekannt sind und ferner unter der Annahme idealer Fahrspurlinienbeobachtungen kann von der Kamerastellung A aus der weiße Teil der gesamten Fahrspurlinie beobachtet werden - aufgrund des Sichtfelds, der maximalen Erkennungsentfernung usw. ist nicht die gesamte Fahrspurlinie erkennbar. Daraus ist bekannt, dass die reale Fahrspurlinie von der Kamerastellung A aus irgendwo innerhalb des Keils liegt. Analog wird ein anderes Segment der Fahrspurlinie von der Kamerastellung B aus beobachtet.
Unter Berücksichtigung einer der beobachteten Fahrspurlinien 302, wie in 8 gezeigt, ist zu sehen, dass jedes beobachtete Liniensegment im 2D-Bildraum die Projektion eines Liniensegments in der 3D-Welt ist, die irgendwo innerhalb eines Teils einer Ebene liegt, die durch die Strahlen begrenzt ist, auf denen die 3D-Entsprechungen ihrer Endpunkte liegen. Dies ist in 10 visualisiert und wird im Folgenden als „Keil“ bezeichnet. Wenn die Bodenoberfläche und die Kamerastellungen genau bekannt sind, könnte das beobachtete Liniensegment (weißer Teil, beobachtet von der Kamerastellung A aus) bereits in 3D rekonstruiert werden. Jedoch ist weder die Bodenoberfläche noch die Kameraposition bekannt.
Wenn ein bestimmtes Segment unter Verwendung der Beobachtungsebenen mehrmals beobachtet wird und eine erste Schätzung für die Stellung vorliegt, können die Überschneidungen der Reprojektionen mehrerer Beobachtungen mit den Beobachtungsebenen (gelber durchgezogener und roter gestrichelter Teil der Beobachtungsebenen in 10) gefunden werden. Es ist bekannt, dass die tatsächliche Position der Überschneidung der realen Fahrspurlinie mit der Beobachtungsebene (wenn sie sich schneiden) innerhalb dieser beiden Überschneidungen von Reprojektionen liegt, es ist ferner bekannt, dass die tatsächliche Position der Überschneidung in der Überschneidungsregion dieser Überschneidungen von Reprojektionen liegen muss. Durch mehrere Beobachtungen aus unterschiedlichen Entfernungen zu den Beobachtungsebenen verringert sich die resultierende Überschneidungsregion und die Schätzung für die Position wird genauer.
Deshalb kann nur die Seitenansicht berücksichtigt werden, wodurch die Beobachtungen und Beobachtungsebenen auf ID-Liniensegmente reduziert sind. Tatsächlich sind die Beobachtungen Liniensegmente in 2D und sind die Beobachtungsebenen 2D-Oberflächen. Wenn sich die Kamera perfekt parallel zu perfekt geraden Strukturen bewegt, passiert dasselbe und viele Beobachtungen müssen korrekt verknüpft werden, um die Region zu reduzieren, in der der tatsächliche Fahrspurlinienpunkt liegt. In allen anderen Fällen schneiden sich die reprojizierten Fahrspurlinienbeobachtungen in einem einzigen Punkt - wenn die Beobachtungen perfekt wären und die Kamerastellungen perfekt bekannt wären, siehe 12. Da beides nicht der Fall ist, neigen sie dazu, sich in Punkten innerhalb einer bestimmten Region gegenseitig zu schneiden.
Beim Schätzen der tatsächlichen Kamerastellungen und Fahrspurlinienpunkte in einer Optimierungsaufgabe kann eine Beschränkung formuliert werden, dass sich alle reprojizierten Fahrspurlinienbeobachtungen in einem einzigen Punkt schneiden sollen - d. h., dass jeder der geschätzten Fahrspurlinienpunkte der Punkt ist, der eine minimale Entfernung zu den reprojizierten Fahrspurlinienbeobachtungen aufweist. Durch das Lösen dieser Optimierungsaufgabe werden die Kamerastellungen und Fahrspurlinienpunkte geschätzt, die am besten mit den Beobachtungen übereinstimmen. Die tatsächliche Fahrspurlinie kann dann unter Verwendung der in den Beobachtungsebenen abgetasteten Punkte rekonstruiert werden.
Bei der Beobachtungsaufgabe sollten idealerweise die Unsicherheiten der Beobachtungen berücksichtigt werden. Auch diese Unsicherheiten müssen der Transformation in die Beobachtungsebenen folgen, d. h. Beobachtungen aus größerer Entfernung werden mit größerer Unsicherheit berücksichtigt.
Das beschriebene Verfahren kann ferner für Folgendes verwendet werden: andere Polylinien- oder Kurven-Landmarken mit großer Ausdehnung in eine Richtung, Beobachtungen von solchen Landmarken, die allgemeiner als Liniensegmente sind (z. B. Polylinien, Kurven, Spline-Kurven, Pixelmasken), Oberflächen-Landmarken mit großer Ausdehnung in eine Richtung, z. B. Fahrbahnoberflächen. Wenn ein Modell für die Form der tatsächlichen Landmarke verfügbar ist, z. B. dass sie glatt ist, können diese Informationen als zusätzliche Beschränkungen in die Optimierungsaufgabe eingeführt werden.
Zur Verknüpfung mehrerer Beobachtungen solcher Landmarken, d. h. um herauszufinden, welche Beobachtungen derselben Fahrspurlinie entsprechen, können die reprojizierten Beobachtungen in den Beobachtungsebenen geclustert werden. Was die Unsicherheiten in der Optimierungsaufgabe betrifft, so können die Unsicherheiten der Beobachtungen - aber auch die Unsicherheiten der anfänglichen Stellungsschätzungen - im Verknüpfungsschritt berücksichtigt werden. Beobachtungsebenen können vor der Kamera angeordnet sein, in der Erwartung, dass sich die Kamera durch sie hindurchbewegt und/oder Landmarken beobachtet, die sich mit der Beobachtungsebene schneiden.
Alternativ können Beobachtungsebenen an der aktuellen geschätzten Kamerastellung angeordnet sein. Dies kann von Vorteil sein, wenn ein Modell für die Stellung der Kamera über dem Boden verfügbar ist, z. B. wenn die Kamera an einem fahrenden Fahrzeug montiert ist und die Kamerahöhe und -ausrichtung im Stillstand bekannt sind. Dann können diese Informationen im Verknüpfungsverfahren und als anfängliche Schätzungen der Landmarkenpositionen verwendet werden.
Um die Schätzung mehrerer koplanarer Landmarken mit großer Ausdehnung in einer Richtung zu stabilisieren, kann die Verwendung zusätzlicher Informationen erwogen werden, wie etwa Fahrbahnmarkierungen wie Richtungspfeile, Rauten für HOV (High-occupancy Vehicle Lane, d. h. Fahrzeugspur mit starker Belegung) usw. zu verwenden, die bekanntermaßen mit der Bodenoberfläche zusammenfallen, innerhalb der beobachteten Fahrbahnoberfläche erkannte auffallende Merkmale oder die Höhe anderer erkannter Objekte, z. B. von anderen Verkehrsteilnehmern.
Beobachtungen in einem 2D-Kamerabild und deren Unsicherheiten können mit Beobachtungen in Polarkoordinaten verglichen werden. Durch Reprojizieren und Schneiden mit einer flachen Beobachtungsebene ändert sich die Form einer zuvor symmetrischen Unsicherheit (eine Wahrscheinlichkeitsdichtefunktion) und wird asymmetrisch. Dieser Effekt kann verringert werden, indem Beobachtungsebenen durch allgemeine Beobachtungsflächen wie Kugeln oder Zylinder ersetzt werden.
Vor beiden Kamerastellungen A und B ist eine virtuelle Ebene, z. B. die Beobachtungsebene 1, angeordnet (deren zweite Dimension entlang der y-Achse des Fahrzeugs liegt). Die Beobachtungsebene 1 wird durch die Transformation T_P _1L ∈ ℝ^4x4 definiert, die einen 3D-Punkt in homogener Darstellung von lokalen Weltkoordinaten x^L in Beobachtungsebenenkoordinaten x^P1 transformiert, und die Ebene z^P1 = 0 in diesen Koordinaten. Das Schneiden beider Keile mit der Beobachtungsebene 1 führt zu den rot gestrichelten bzw. orangen durchgehenden Teilen der Beobachtungsebene, die jeweils in 10 veranschaulicht sind (d. h. die Bilder der Fahrspurlinienbeobachtungen in der Beobachtungsebene). Es ist zu erkennen, dass die tatsächliche Fahrspurlinie durch die Beobachtungsebene in dem Bereich verläuft, in dem sich beide Liniensegmente überlappen. Dasselbe gilt für die Beobachtungsebene 2. Mit mehr Beobachtungen aus mehr unterschiedlichen Stellungen kann der überlappende Abschnitt reduziert und der Fahrspurpunkt, d. h. der tatsächliche Punkt der Fahrspurlinie, die die Beobachtungsebene schneidet, rekonstruiert werden. In der 2D-Beobachtungsebene sind diese Liniensegmente typischerweise etwas diagonal ausgerichtet und schneiden sich, wenn ein Fahrzeug nicht perfekt parallel zu einer perfekt geraden Fahrspurlinie fährt, in einem einzigen Punkt. Im unüblichen Fall - parallel zu einer geraden Linie - sind die Bilder der Fahrspurlinienbeobachtungen Segmente derselben Linie und beschränken den Fahrspurpunkt im Allgemeinen nicht auf einen einzigen Punkt.
Die Herausforderung bei der Datenverknüpfung ist im Allgemeinen zweifach: Beobachtungen müssen möglicherweise aussortiert werden, wenn die erkannte Fahrspurlinie die Beobachtungsebene nicht tatsächlich schneidet, z. B. wenn der Boden in der Beobachtungsebene außerhalb des Sichtfelds liegt oder verdeckt ist. Außerdem kann es erforderlich sein, Liniensegmente mit Liniensegmenten zu verknüpfen, bei denen nicht sofort ersichtlich ist, ob sie demselben Teil einer längeren Linie oder Kurve entsprechen. Aufgrund dieser Überlegungen und des möglichen unüblichen Falls können die extrinsischen Parameter der Kamera für die Datenverknüpfung verwendet werden: Da Höhe und Wankung im Stillstand in der Regel bekannt sind und während der Fahrt nur geringfügig variieren, kann die Position der Bodenebene an der Beobachtungsebene geschätzt werden, wenn die Beobachtungsebene mit der Kamerastellung zusammenfällt. Da Fahrspurlinien mit dem Boden zusammenfallen, werden nur Liniensegmente in der Beobachtungsebene, die sich mit der geschätzten Bodenebene schneiden, für die Datenverknüpfung berücksichtigt, die dann in 1D entlang der Bodenebenenschätzung durchgeführt werden kann. Ein einfacher hierarchischer Clustering-Algorithmus kann auf Grundlage der Mahalanobis-Distanz verwendet werden.
Alle Bilder von Liniensegmenten in der Beobachtungsebene, die demselben Teil des Liniensegments in der Welt entsprechen, schneiden sich in einem einzigen Punkt, wenn die Linienerkennungen und Stellungsschätzungen perfekt sind. Dieser Schnittpunkt kann als der 2D-Punkt mit der kleinsten Entfernung zu allen Liniensegmenten interpretiert werden. Im Falle einer Erkennung realer Linien und Stellungsschätzungen schneiden sich die Bilder der Liniensegmente in mehreren unterschiedlichen Punkten. Daher kann es wünschenswert sein, den Punkt zu finden, der am besten zu den Beobachtungen passt. Daher verwendet die durch eine Liniensegmentbeobachtung $z_{l, k}^{C_{i}}$
auferlegte Beschränkung der Kamerastellung ${\hat{x}}_{i}^{L}$
und der Fahrspurpunktposition ${\hat{l}}_{m}^{P_{n}}$
die Entfernung vom Fahrspurpunkt zum Bild des Liniensegments in der Beobachtungsebene als ihre Fehlerfunktion $e_{l, i k}^{C_{i}} = d_{l} ({\hat{l}}_{m}^{C_{i}}, z_{l, k}^{C_{i}}) \in ℝ^{2}$
, wobei d₁ (p, 1) der Entfernungsvektor von Punkt p auf das Liniensegment 1 ist. Die Fahrspurpunktposition ${\hat{l}}_{m}^{P_{n}}$
wird durch $z_{c} [\begin{matrix} l_{m}^{C_{i}} \\ 1 \end{matrix}] = K_{i} T_{C_{i} L} T_{L P_{n}} [\begin{matrix} {\hat{l}}_{m}^{P_{n}} \\ 0 \end{matrix}]$
in Kamerakoordinaten projiziert, wobei K_i ∈ ℝ^3x4 die Projektionsmatrix für die Kamera in Stellung i ist und z_c der Normalisierungsfaktor für die z-Komponente der homogenen Koordinaten ist. Der Fehler wird unter Verwendung einer Informationsmatrix auf Grundlage der Messkovarianz des beobachteten Liniensegments und der wiederhergestellten Kovarianz der Stellungsschätzung gewichtet.
Um die Praxistauglichkeit des Algorithmus nachzuweisen, wurden Experimente an Sequenzen aus dem KITTI-Rohdatensatz durchgeführt. Aus diesen Daten wurden die linke Graustufenkamera und die nahezu ideale OxTS-Position (Oxford Technical Solutions) verwendet. Diese Experimente wurden in einer ORB-SLAM-Umgebung durchgeführt. ORB-SLAM ist eine vielseitige und genaue SLAM-Lösung für Monokular-, Stereo- und RGB-D-Kameras. Sie ist in der Lage, in Echtzeit die Bewegungsbahn der Kamera und eine 3D-Rekonstruktion mit geringer Datendichte der Szene in einer Vielfalt von Umgebungen zu berechnen, von kleinen Handheld-Sequenzen eines Schreibtisches bis hin zu einem Auto, das um mehrere Häuserblocks fährt. Sie ist in der Lage, große Schleifen zu schließen und eine globale Relokalisierung in Echtzeit und von breiten Basislinien aus durchzuführen. Sie beinhaltet eine automatische und belastbare Initialisierung von planaren und nicht-planaren Szenen. Daher enthält der Stellungsgraph binäre Beschränkungen zwischen Stellen- und ORB-Landmarken, Stellung- und Fahrspurpunkten und unäre Positionsbeschränkungen für die Stellungen. Um die Informationsmatrix für die Fahrspurpunktbeschränkungen richtig zu modellieren, ist die Unsicherheit der Stellungsschätzungen erforderlich. Während g²o (g²o ist ein Open-Source-C++-Framework zur Optimierung graphbasierter nichtlinearer Fehlerfunktionen) Mittel bereitstellt, um Kovarianzen aus dem Graphen wiederherzustellen, hat sich in der Praxis gezeigt, dass dieses Vorgehen nicht schnell genug ist, um aktualisierte Kovarianzen in jeder Wiederholung und jedem Fahrspurlinien-Datenverknüpfungsschritt zu bestimmen, wenn die verfügbaren Solver verwendet werden. Daher wurde eine feste Informationsmatrix für die Fahrspurpunktbeschränkungen für diese Experimente verwendet. Im mehrspurigen Szenario 2011_09_30_drive_0016 ist es möglich, mit einer einzigen Fahrt bis zu 7 Fahrspurlinien, einschließlich der seitlichen Markierungen einer Fahrradkreuzung, siehe auch 11(a), zu erkennen und zu kartieren. Mit Ausnahme der ganz linken (oberen) Fahrspurlinie liegen die geschätzten Punkte einigermaßen nahe an den Markierungen im Luftbild. Teile der Begrenzung des Sperrbereichs können ebenfalls modelliert werden; die Enden fehlen, da sie nicht von der geraden Fahrspur unterschieden werden (Anfang) bzw. nur selten erkannt werden (Ende).
11 veranschaulicht schematisch geschätzte Fahrspurlinien in Teilen unterschiedlicher KITTI-Rohsequenzen. Cyan: Fahrspurlinien rekonstruiert aus Fahrspurpunkten (gelb), Magenta: Bewegungsbahn des Fahrzeugs.
Da sich das Fahrzeug auf einer geraden Straße sehr gerade bewegt, kommt es in diesem Szenario dem unüblichen Fall nahe: Die Bilder der Liniensegmente in der Beobachtungsebene sind kollinear, statt sich in einem einzigen Punkt zu schneiden. Daher kann das System nur seiner anfänglichen Höhenschätzung auf Grundlage der Bodenannahme vertrauen - obwohl dies nicht explizit modelliert wurde. Dies ist der Grund für die Verschiebung der ganz linken Fahrspurlinie um etwa eine halbe Fahrspur: Die Schräglage auf diesem Teil der Fahrbahn ist anders als auf der eigenen Fahrspur und daher werden die Fahrspurpunkte zu hoch initialisiert, was zu dem seitlichen Versatz führt. Dieser Effekt tritt ähnlich, aber weniger stark, auch auf der zweiten und dritten Fahrspur von links auf. Da Autobahnen ein interessantes Szenario für kartierte Fahrspurlinien sind, wurde der Algorithmus auch für das Szenario 2011_10_03_drive_0042 der 11 (b) ausgeführt. Dies ist die KITTI-Roh-Äquivalenz der KITTI-Odometriesequenz 01 - für die es bekanntermaßen Schwierigkeiten gibt, sie zuverlässig und in Echtzeit auszuführen. Mit einer erhöhten Anzahl von Merkmalen, reduzierter Wiedergabegeschwindigkeit und Unterstützung von Positions- und Fahrspurlinieninformationen können zumindest für den Beginn der Sequenz zuverlässige Ergebnisse erzielt werden. Es ist jedoch anzumerken, dass der Stellungsnachverfolgungs- und Bewegungsschätzungsteil von ORB-SLAM nicht geändert wurde und daher auch bei zu wenigen nützlichen ORB-Merkmalen versagt.
In diesem Szenario stimmen die geschätzten Fahrspurlinien zunächst recht gut mit dem Satellitenbild überein und modellieren die Kurve gut, siehe 11 (b), wo das Fahrzeug rechts oben startet. Nach der Kurve ist die Verknüpfung teilweise deaktiviert und führt zu einigen Ausreißern in der Fahrspurlinienschätzung. Große Teile der geschätzten Fahrspurlinien ähneln der Form der Fahrspurlinien im Luftbild, sind jedoch nach links (unten) verschoben. Ein weiteres mehrspuriges Szenario ist die Sequenz 2011_09_26_drive_0051 (siehe 12). Aufgrund einer Umgestaltung dieser Kreuzung wurde sie mit älteren, weniger deutlichen Satellitenbildern verglichen, siehe 12. Die meisten verfügbaren Fahrspurlinien werden ziemlich genau kartiert, wenn sie vom Vision-Frontend erkannt werden können. Wiederum weist die ganz linke (obere) Fahrspur einen Versatz auf, der auch auf einen Fehler in der Schätzung der Bodenebene zurückzuführen sein könnte.
12 veranschaulicht geschätzte Fahrspurlinien in einem Teil einer KITTI-Rohsequenz. Blau: Fahrspurlinien rekonstruiert aus Fahrspurpunkten, Bewegungsbahn des Fahrzeugs von links nach rechts.
Eine semantische Kartierungsabfolge mehrerer Akteure wurde hierin vorgestellt, die flexible Sensorkonfigurationen bei den Akteuren unter Verwendung einer parametrischen MAP-Schätzfunktion ermöglicht. Die beispielhafte Generierung von lokalen Fahrspurlinienkarten erfordert nur eine eingegebene Position und eine monokulare Kamera. Die Leistungsfähigkeit des Algorithmus kann anhand von KITTI-Daten nachgewiesen werden, indem das Stellungsgraphen-ORB-SLAM-System erweitert wird. Das Verfahren kann bis zu sieben Fahrspurlinien in einer einzigen Fahrt kartieren. Signifikante Verbesserungen der Genauigkeit können erwartet werden, indem nicht nur auf eine Bodenebenenannahme zurückgegriffen wird, sondern stattdessen andere Fahrbahnoberflächenelemente wie Pfeile, Asphaltunvollkommenheiten, Enden von Strichen usw. in die Schätzung einbezogen werden. Durch Verwenden der vorgeschlagenen Beobachtungsebenen ist dies auf einfache Weise möglich: Nach dem Definieren des Modells beliebiger oberflächenbezogener Landmarken können die Beobachtungsmodelle für die semantischen Beobachtungen Z' und die durch Koinzidenz, Koplanarität usw. definierten Beschränkungen definiert werden. Die zusätzlichen Beobachtungen führen zu einer belastbaren Schätzung der 3D-Fahrbahnoberfläche und stabilisieren alle damit verbundenen Landmarken. In Bezug auf die Fahrbahnlinien-SLAM wurden die hochgenauen OXTS-Daten von KITTI roh als Positionseingabe für die Experimente mit realen Daten verwendet. Der Algorithmus kann jedoch auch auf Grundlage einer kostengünstigen GPS-Eingabe verwendet werden. Eine Referenzkarte mit hoher Genauigkeit kann generiert werden, um die Online-Fahrspurlinienschätzung sowie die gesamte Abfolge quantitativ zu bewerten.
Eine Cloud-basierter Abfolge zur Erstellung einer global konsistenten 3D-Karte aus lokalen Crowdsourcing-Karten wurde vorstehend beschrieben. Die lokalen Karten werden aus einem Strom monokularer Bilder und Positionsdaten erstellt. Zwei miteinander kompatible, aber orthogonale Kartenarten wurden in Betracht gezogen: Karten mit hoher Datendichte, die aus 3D-Punktwolken bestehen, die aus auffallenden visuellen Merkmalen rekonstruiert wurden, und Karten mit geringer Datendichte, die aus einer geometrischen 3D-Darstellung semantischer Merkmale bestehen, die reale Objekte wie Verkehrszeichen, Fahrbahnmarkierungen (z. B. Fahrspurlinien) oder die Fahrbahnoberfläche darstellen. Zur Modellierung, Nachverfolgung und Kartierung semantischer Merkmale wurde ein systematischer Ansatz vorgestellt, der die Integration der entsprechenden Beobachtungsmodelle in einen GraphSLAM-Prozess ermöglicht. Darüber hinaus wurde eine Abfolge für das Einlesen, Zusammenführen und Verteilen von Karten beschrieben, der geeignet ist, Fahrzeugflotten jeder Größenordnung zu bedienen.
Hybridkarten für autonomes Fahren sind die Kombination aus Karten mit hoher Datendichte (Punktlandmarken) und Karten mit geringer Datendichte (semantische Landmarken) mit optionalen Erweiterungen. Diese beiden miteinander kompatiblen, aber orthogonalen Kartenarten, nämlich Karten mit hoher Datendichte, die aus 3D-Punktwolken bestehen, die aus auffallenden visuellen Merkmalen rekonstruiert wurden, und Karten mit geringer Datendichte, die aus geometrischen 3D-Darstellungen von semantischen Merkmalen bestehen, die reale Objekte wie Verkehrszeichen, Fahrbahnmarkierungen (z. B. Fahrspurlinien) oder die Fahrbahnoberfläche darstellen, werden als Bestandteile der Hybridkarte berücksichtigt. Hybridkarten können als wesentlicher Bestandteil des entsprechenden systematischen Ansatzes für Modellierung, Nachverfolgung und (Neu-)Kartierung von Merkmalen dienen, der die Integration entsprechender Beobachtungsmodelle in verschiedene SLAM-Prozesse ermöglicht. Darüber hinaus wird die Erweiterung von Qualitätsindikatoren berücksichtigt, die die inhaltliche Verteilung und Qualität der Hybridkarte entsprechend der kartierten Region und den Anwendungsanforderungen angeben. Verschiedene autonome Fahranwendungen, wie z. B. Lokalisierung, Stellungsschätzung, können die Hybridkarten für ihre Bedürfnisse nutzen.
Das vorstehend beschriebene Verfahren kann in einem computerlesbaren Medium, wie einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium als Anweisungen zur Ausführung durch einen Prozessor codiert sein. Hilfsweise oder zusätzlich kann jede Art von Logik genutzt werden und kann als analoge oder digitale Logik unter Verwendung von Hardware implementiert sein, wie etwa einer oder mehrerer integrierter Schaltungen (einschließlich Verstärkern, Addierern, Verzögerungen und Filtern); oder ein oder mehrere Prozessoren, die Verstärkungs-, Addier-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammierschnittstelle (API) oder in einer Dynamic Link Library (DLL), Funktionen, die in einem gemeinsam genutzten Speicher verfügbar sind oder als lokale oder entfernte Prozeduraufrufe definiert sind, oder als Kombination aus Hard- und Software.
Das Verfahren kann durch Software und/oder Firmware implementiert sein, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Ausbreitungssignalmedium und/oder einem signaltragenden Medium gespeichert ist/sind. Das Medium kann eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch ein durch Anweisungen ausführbares System, eine durch Anweisungen ausführbare Einrichtung oder eine durch Anweisungen ausführbare Vorrichtung oder in Verbindung mit diesen enthält, speichert, kommuniziert, verbreitet oder transportiert. Das maschinenlesbare Medium kann wahlweise ein elektronisches, magnetisches, optisches, elektromagnetisches oder Infrarotsignal oder ein Halbleitersystem, eine Einrichtung, eine Vorrichtung oder ein Ausbreitungsmedium sein, ist aber nicht darauf beschränkt. Eine nicht erschöpfende Liste von Beispielen für ein maschinenlesbares Medium beinhaltet: eine magnetische oder optische Platte, einen flüchtigen Speicher, wie etwa einen Direktzugriffsspeicher „RAM“, einen Addierer „ROM“, einen löschbaren programmierbaren Addierer (d. h. EPROM) oder Flash-Speicher oder eine optische Faser. Ein maschinenlesbares Medium kann zudem ein materielles Medium beinhalten, auf das ausführbare Anweisungen gedruckt werden, da die Logik elektronisch als Bild oder in einem anderen Format (z. B. durch einen optischen Scan) gespeichert, dann kompiliert und/oder interpretiert oder auf andere Weise verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer- und/oder Maschinenspeicher gespeichert werden.
Die Systeme können zusätzliche oder andere Logik beinhalten und können auf viele verschiedene Arten implementiert sein. Eine Steuerung kann als Mikroprozessor, Mikrocontroller, anwendungsspezifische integrierte Schaltung (ASIC), diskrete Logik oder eine Kombination anderer Arten von Schaltungen oder Logik implementiert sein. Gleichermaßen können Speicher ein DRAM, SRAM, Flash oder andere Speichertypen sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können separat gespeichert und verwaltet werden, können in einen einzelnen Speicher oder eine einzelne Datenbank integriert sein oder können auf viele verschiedene Arten logisch und physisch organisiert sein. Programme und Anweisungssätze können Teile eines einzelnen Programms, separate Programme oder über mehrere Speicher und Prozessoren verteilt sein. Die Systeme können in einer Vielfalt von elektronischen Vorrichtungen beinhaltet sein, einschließlich eines Mobiltelefons, eines Headsets, einer Freisprecheinrichtung, eines Freisprechtelefons, einer Kommunikationsschnittstelle oder eines Infotainmentsystems.
Die Beschreibung der Ausführungsformen wurde zur Veranschaulichung und Beschreibung dargelegt. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der obigen Beschreibung durchgeführt werden oder können durch praktische Umsetzung der Verfahren erlangt werden. Sofern nicht anders angegeben, können beispielsweise eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Maßnahmen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen, parallel und/oder gleichzeitig durchgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente beinhalten und/oder Elemente weglassen.
Wie in dieser Anmeldung verwendet, sollte ein Element oder Schritt, das bzw. der im Singular genannt wird und dem das Wort „eine“ oder „ein“ vorangestellt wird, so verstanden werden, dass es bzw. er mehrere dieser Elemente oder Schritte nicht ausschließt, es sei denn, ein solcher Ausschluss ist angegeben. Außerdem sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so interpretiert werden, dass sie die Existenz zusätzlicher Ausführungsformen ausschließt, die ebenfalls die genannten Merkmale beinhalten. Die Begriffe „erster“, „zweiter“ und „dritter“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge auferlegen.
Obwohl verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Durchschnittsfachmann offensichtlich, dass viele weitere Ausführungsformen und Implementierungen innerhalb des Umfangs der Erfindung möglich sind. Insbesondere erkennt der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die speziell offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.

Claims

Verfahren, das Folgendes umfasst: Aufnehmen von mindestens zwei Bildern mit einer Bildeinheit, wobei jedes der mindestens zwei Bilder von einer anderen Position der Bildeinheit aus aufgenommen wird, wobei ein erster Abschnitt der Umgebung der Bildeinheit durch jedes der mindestens zwei Bilder aufgenommen wird, und wobei ein Abschnitt einer langgestreckten Landmarke in dem ersten Abschnitt aufgenommen wird; Generieren von mindestens zwei Beobachtungsebenen, wobei jede Beobachtungsebene im Wesentlichen orthogonal zu der langgestreckten Landmarke ist und die langgestreckte Landmarke an einem bestimmten Punkt kreuzt.
Verfahren nach Anspruch 1, wobei die Bildeinheit eine monokulare Kamera ist.
Verfahren nach Anspruch 1 oder 2, wobei die Bildeinheit an einem Fahrzeug angebracht ist.
Verfahren nach Anspruch 3, wobei das Fahrzeug jede der mindestens zwei Beobachtungsebenen passiert, während es sich vorwärts bewegt.
Verfahren nach Anspruch 3 oder 4, wobei sich das Fahrzeug entlang einer Fahrbahn bewegt und wobei jede der mindestens zwei Beobachtungsebenen vertikal zu und quer zur Fahrbahn angeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei ein Segment der langgestreckten Landmarke die Projektion eines Liniensegments in der 3D-Welt ist, das innerhalb eines Keils liegt.
Verfahren nach Anspruch 6, wobei der Keil durch eine Ebene zwischen zwei Strahlen gebildet ist, die sich zwischen der Bildeinheit und den Rändern des entsprechenden Bildes erstrecken.
Verfahren nach einem der Ansprüche 6 und 7, wobei die Ausrichtung des Segments der langgestreckten Landmarke durch die Generierung der mindestens zwei Beobachtungsebenen bestimmt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei jede der mindestens zwei Beobachtungsebenen die langgestreckte Landmarke an einem bestimmten Punkt kreuzt, der in jedem der mindestens zwei Bilder sichtbar ist.
Verfahren zum Generieren einer Karte, wobei das Verfahren aufweist: Generieren einer lokalen Karte als Reaktion auf ein auslösendes Ereignis, Hochladen der lokalen Karte in einen zentralen Server, Einlesen der lokalen Karte in den zentralen Server und Verknüpfen der lokalen Karte mit mindestens einer zusätzlichen Information, und Integrieren der lokalen Karte in eine auf dem zentralen Server gespeicherte globale Karte, wodurch eine aktualisierte globale Karte erstellt wird.
Verfahren nach Anspruch 10, wobei die mindestens eine zusätzliche Information wenigstens eines aufweist von einem Gebiet in dem die lokale Karte generiert wurde und einen Zeitpunkt zu dem die lokale Karte generiert wurde.
Verfahren nach Anspruch 10 oder 11, wobei die lokale Karte mittels eines Fahrzeugsystems generiert wird.
Verfahren nach Anspruch 12 das weiterhin aufweist Bereitstellen einer aktualisierten globalen Karte an das Fahrzeugsystem.
Verfahren nach Anspruch 13, das weiterhin das Ersetzen einer in dem Fahrzeugsystem gespeicherten globalen Karte mit der aktualisierten globalen Karte aufweist.
Verfahren nach einem der Ansprüche 10 bis 14, wobei die lokale Karte Informationen aufweist die aus einem monokularen Bild bezogen wurden.
Verfahren nach einem der Ansprüche 10 bis 15, wobei die globale Karte durch eine Fusion einer Vielzahl von hochgeladenen lokalen Kartenfragmenten erzeugt wird.
Verfahren nach einem der Ansprüche 10 bis 16, wobei das auslösende Ereignis wenigstens eines aufweist von Erreichen des Endes einer Fahrt, Überschreiten eines Grenzwertes durch die Datenmenge in einer lokalen Karte, und Bedienübersteuerung für frühestmögliches Hochladen.
Verfahren nach einem der Ansprüche 10 bis 17, wobei die lokale Karte als Hybridkarte erzeugt wird, welche punktförmige Landmarken und semantische Landmarken aufweist.
Verfahren nach Anspruch 18, wobei die Hybridkarte durch Kombination von Eigenschaften einer Karte mit hoher Datendichte und Eigenschaften einer Karte mit geringer Datendichte erzeugt wird.
Verfahren nach Anspruch 19, wobei die Eigenschaften einer Karte mit hoher Datendichte 3D-Punktwolken die aus auffallenden visuellen Merkmalen rekonstruiert wurden aufweisen, und wobei die Eigenschaften einer Karte mit geringer Datendichte geometrische Darstellungen von semantischen Merkmalen die Objekte der realen Welt darstellen aufweisen.