-
Die vorliegende Erfindung betrifft ein Verfahren zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs.
-
Aus dem Stand der Technik sind Verfahren zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs grundsätzlich bekannt. Gängige Verfahren zur Generierung entsprechender Tiefeninformationen sind derzeit StereoKameras, welche die Tiefeninformationen durch Triangulation ermitteln, oder LiDAR-Sensoren, die hierfür Time-of-Flight-Messungen verwenden. Es hat sich gezeigt, dass LiDAR-Sensoren aufgrund ihrer vergleichsweise hohen Sensorkosten und ebenfalls relativ kostspielige Stereokameras eine Hürde für den Serieneinsatz in Fahrzeugen darstellen. Ultraschallsensoren werden bereits in vielen Fahrzeugen verwendet und liefern Abstandsinformation von Objekten, jedoch nur in einem direkten Nahfeldbereich des Fahrzeugs. Über so genannte Structure-from-Motion-Verfahren (kurz: SfM-Verfahren) in Kombination mit einer Inertialsensorik kann für ein wiedergefundenes Bildmerkmal dessen dreidimensionale Position innerhalb der Szene rekonstruiert werden. Hierbei besteht allerdings das Problem, dass die dreidimensionale Rekonstruktion, insbesondere bei Szenen mit wenigen Strukturen, sehr ungenau ist.
-
Aus der
DE 10 2018 100 909 A1 ist ein Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden, bekannt. Bei diesem Verfahren kommen eine Structure-from-Motion-Tiefenschätzung sowie ein konvolutionelles neuronales Netzwerk zum Einsatz.
-
Die US 2019 / 0 235 079 A1 offenbart ein System zur Bestimmung der Position eines oder mehrerer Objekte, umfassend einen Sender, der einen Photonenstrahl aussendet, um nacheinander Bereiche eines oder mehrerer Objekte zu beleuchten, mehrere Kameras, die voneinander beabstandet sind, wobei jede Kamera eine Anordnung von Pixeln aufweist, um Photonen zu detektieren, und eine oder mehrere Prozessorvorrichtungen, um gespeicherte Anweisungen ausführen, mittels derer Aktionen eines zugehörigen Verfahrens ausgeführt werden können. Bei diesem Verfahren wird der Sender so ausgerichtet, um nacheinander Bereiche eines oder mehrerer Objekte mit dem Photonenstrahl zu beleuchten. Für jeden der Bereiche wird von den Kameras eine Array-Position jedes Pixels empfangen, das Photonen des Strahls detektiert hat, die von dem Bereich des Objekts oder der Objekte reflektiert oder gestreut wurden. Ferner wird für jeden der von den Kameras detektierten Bereiche dessen Position unter Verwendung der empfangenen Array-Positionen der Pixel, die die Photonen des von diesem Bereich reflektierten oder gestreuten Strahls erfasst haben, bestimmt.
-
Aus der WO 2016 / 130 719 A2 sind Systeme und Verfahren zur Erstellung, Verwendung und Aktualisierung von Übersichtskarten für die autonome Fahrzeugnavigation bekannt. Die Übersichtskarten enthalten eine polynomische Darstellung einer Zieltrajektorie für das autonome Fahrzeug entlang eines Straßensegments und eine Vielzahl vorbestimmter Landmarken, die dem Straßensegment zugeordnet sind, wobei die vorbestimmten Landmarken einen Abstand von mindestens 50 Meter voneinander haben. Die Übersichtskarte hat eine Datendichte von nicht mehr als 1 Megabyte pro Kilometer.
-
Die vorliegende Erfindung macht es sich zur Aufgabe, ein Verfahren zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs zur Verfügung zu stellen, das mit einem einfachen und kostengünstigen Hardwareaufbau sehr genaue und damit zuverlässige Rekonstruktionsergebnisse liefern kann.
-
Die Lösung dieser Aufgabe liefert ein Verfahren zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs mit den Merkmalen des Anspruchs 1. Die Unteransprüche betreffen vorteilhafte Weiterbildungen der Erfindung.
-
Ein erfindungsgemäßes Verfahren zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs, umfasst die Schritte:
- - Erfassen eines ersten Rohbildes der Szene mittels einer von mindestens zwei Monokameras, Verarbeiten des ersten Rohbildes mittels eines auf die Abschätzung von Tiefeninformationen trainierten konvolutionellen neuronalen Netzwerks und
-
Erzeugen eines Tiefenbildes der Szene,
- - Erfassen eines zweiten Rohbildes der Szene mittels der anderen der mindestens zwei Monokameras und Bestimmen eines Bildüberlappungsbereichs, innerhalb dessen das erste Rohbild und das zweite Rohbild miteinander überlappen,
- - Bestimmen einer Mehrzahl dreidimensionaler Ankerpunkte innerhalb des Bildüberlappungsbereichs und Berechnen metrischer Tiefeninformationen für jeden der Ankerpunkte,
- - Berechnen zumindest eines metrischen Skalierungsfaktors aus den metrischen Tiefeninformationen der Ankerpunkte und
- - pixelweises Erzeugen der dreidimensionalen Rekonstruktion der Szene auf Basis des mittels des konvolutionellen neuronalen Netzwerks erhaltenen Tiefenbildes und des zumindest einen metrischen Skalierungsfaktors.
-
Monokameras sind relativ preisgünstig und liefern zahlreiche Informationen zur Struktur und Textur einer Szene. Sie sind jedoch nicht dazu in der Lage, nativ Abstände zwischen Objekten beziehungsweise Tiefeninformationen der Szene im Vorfeld des Fahrzeugs zu bestimmen. Mittels des konvolutionellen neuronalen Netzwerks alleine ist es lediglich möglich, durch eine Tiefenabschätzung die relative Bildtiefe zu ermitteln. Außerdem können schlechte Belichtungsbedingungen oder unbekannte Daten zu schlechten Ergebnissen bei der Tiefenabschätzung mittels eines konvolutionellen neuronalen Netzwerks führen. Daher werden bei dem erfindungsgemäßen Verfahren entsprechende Ankerpunkte verwendet, um auf die metrischen Tiefeninformationen der Szene zu schließen. Das erfindungsgemäße Verfahren ermöglicht somit trotz der Verwendung von zumindest zwei Monokameras, mittels derer die Rohbilder erzeugt werden, auf einfache Weise eine zuverlässige dreidimensionale Rekonstruktion einer Szene im Vorfeld des Fahrzeugs.
-
In einer bevorzugten Ausführungsform wird vorgeschlagen, dass die Ankerpunkte durch eine Feature-Extraktion aus dem Bildüberlappungsbereich bestimmt werden. Die Bestimmung der Ankerpunkte ist somit durch die Verwendung von Methoden aus der Bildverarbeitung, mittels derer eine Feature-Extraktion erfolgen kann, sehr einfach und genau möglich.
-
In einer besonders bevorzugten Ausführungsform besteht die Möglichkeit, dass die Tiefeninformationen für jeden der Ankerpunkte aus dem Bildüberlappungsbereich durch Triangulation berechnet werden. Die Methode der Triangulation ermöglicht auf einfache Weise die Bestimmung von Tiefeninformationen der Ankerpunkte.
-
In einer vorteilhaften Ausführungsform kann vorgesehen sein, dass das pixelweise Erzeugen der dreidimensionalen Rekonstruktion der Szene auf Basis des mittels des konvolutionellen neuronalen Netzwerks erhaltenen Tiefenbildes, des zumindest einen metrischen Skalierungsfaktor und einer Kameramatrix, welche extrinsische und intrinsische Informationen über die Monokameras enthält, erfolgt. Dabei kann es sich zum Beispiel um Informationen über die Einbaupositionen sowie über optische Parameter der Monokameras handeln.
-
Vorzugsweise kann die Tiefenschätzung des konvolutionellen neuronalen Netzwerks mittels der berechneten Tiefeninformationen aller Ankerpunkte evaluiert werden. Als Maß für die Konsistenz der Tiefenschätzung des konvolutionellen neuronalen Netzwerks kann insbesondere eine Standardabweichung σ der metrischen Ankerpunktskalierungen dienen.
-
In einer vorteilhaften Weiterbildung besteht die Möglichkeit, dass zur dreidimensionalen Rekonstruktion der Szene zusätzliche Rohbilder weiterer Kameraeinrichtungen des Fahrzeugs verwendet werden. Alternativ oder zusätzlich zu den weiteren Kameraeinrichtungen kann auch vorgesehen sein, dass zur dreidimensionalen Rekonstruktion der Szene zusätzliche Sensordaten von Sensoreinrichtungen des Fahrzeugs verwendet werden. Durch diese Maßnahmen fließen zusätzliche Rohbilder und/oder Sensordaten in die dreidimensionale Rekonstruktion der Szene ein, was in vorteilhafter Weise zu einer weiteren Erhöhung der Genauigkeit beiträgt.
-
Gemäß einem weiteren Aspekt betrifft die vorliegende Erfindung ein Fahrassistenzsystem eines Fahrzeugs, umfassend eine erste Monokamera, zumindest eine zweite Monokamera und eine Recheneinrichtung. Erfindungsgemäß ist das Fahrassistenzsystem dazu eingerichtet, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
-
Gemäß noch einem weiteren Aspekt betrifft die vorliegende Erfindung ein nichtflüchtiges, computerlesbares Speichermedium mit darin gespeicherten Programmcodemitteln, die bei einer Ausführung durch einen Prozessor ein Fahrassistenzsystem eines Fahrzeugs dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
-
Weitere Merkmale und Vorteile der vorliegenden Erfindung werden deutlich anhand der nachfolgenden Beschreibung eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beiliegenden Abbildungen. Dabei zeigen
- 1 eine Seitenansicht eines Fahrzeugs, das mit zwei Monokameras ausgestattet ist,
- 2 eine schematische Darstellung, die Einzelheiten eines Verfahrens zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld eines Fahrzeugs veranschaulicht.
-
Unter Bezugnahme auf 1 und 2 sollen nachfolgend Einzelheiten eines Verfahrens zur dreidimensionalen Rekonstruktion einer Szene in einem Vorfeld 4 eines Fahrzeugs 1 näher erläutert werden.
-
Wie in 1 zu erkennen, weist das Fahrzeug 1 eine erste Monokamera 2 und eine zweite Monokamera 3 auf, die während des Betriebs Rohbilddaten in einem Vorfeld 4 des Fahrzeugs 1 erfassen können. Die beiden Monokameras 2, 3 liefern reichhaltige Informationen über die Struktur und Textur einer Szene im Vorfeld 4 des Fahrzeugs 1, sind jedoch nicht dazu in der Lage, nativ Abstände und Tiefeninformationen zu bestimmen.
-
Aus der Darstellung gemäß 1 wird deutlich, dass die erste Monokamera 2 in einem Frontbereich des Fahrzeugs 1 angeordnet ist. Die zweite Monokamera 3 ist demgegenüber sowohl in Fahrzeuglängsrichtung (x-Richtung) als auch in Fahrzeughochrichtung (z-Richtung) zu der ersten Monokamera 2 versetzt angeordnet. Die zweite Monokamera 3 kann zum Beispiel im Bereich eines Fahrzeuginnenspiegels hinter einer Frontscheibe des Fahrzeugs 1 angeordnet sein. Die entsprechenden, aus dieser Anordnung der beiden Monokameras 2, 3 resultierenden Sichtfelder 5, 6 in der x-z-Ebene wurden in 1 durch entsprechende Begrenzungslinien 50, 51, 60, 61 in stark vereinfachter Form veranschaulicht. Daraus ergibt sich, dass die Sichtfelder 5, 6 der beiden Monokameras 2, 3 in einem Überlappungsbereich 7 miteinander überlappen. Da die beiden Monokameras 2, 3 an unterschiedlichen Positionen des Fahrzeugs 1 angeordnet sind, „sehen“ sie aus unterschiedlichen Perspektiven auf das Vorfeld 4 des Fahrzeugs 1 und auf den Überlappungsbereich 7. Diese unterschiedlichen Perspektiven der beiden Monokameras 2, 3 ermöglichen es, in der nachfolgend beschriebenen Weise, Tiefeninformationen zu gewinnen, um eine dreidimensionale Rekonstruktion einer Szene im Vorfeld 4 des Fahrzeugs 1 zu ermöglichen.
-
Die von den beiden Monokameras 2, 3 aufgezeichneten Rohbilddaten werden zur dreidimensionalen Rekonstruktion einer Szene im Vorfeld 4 des Fahrzeugs 1 in der nachfolgend beschriebenen Weise verwendet. Das Fahrzeug 1 weist dazu eine hier nicht explizit dargestellte Recheneinrichtung auf, mittels derer eine Auswertung der von den beiden Monokameras 2, 3 aufgezeichneten Rohbilddaten vorgenommen werden kann.
-
Unter weiterer Bezugnahme auf 2 sollen nähere Einzelheiten eines Verfahrens zur dreidimensionalen Rekonstruktion einer Szene im Vorfeld 4 des Fahrzeugs 1 erläutert werden. Ein erstes Rohbild 8 der Szene im Vorfeld 4 des Fahrzeugs 1, welches von einer der beiden Monokameras 2, 3 (zum Beispiel von der ersten Monokamera 2) erfasst wird, wird in einem ersten Auswertepfad mittels eines auf die Abschätzung von Tiefeninformationen trainierten konvolutionellen neuronalen Netzwerks (englisch: Convolutional Neural Network, CNN) 9 verarbeitet. Dieses trainierte konvolutionelle neuronale Netzwerk 9 generiert dabei durch eine Tiefenabschätzung eine dichte relative Tiefeninformation des ersten Rohbildes 8 und erzeugt dadurch ein Tiefenbild 10 der Szene.
-
Parallel dazu wird in einem zweiten Auswertepfad ein zweites Rohbild 11 der Szene im Vorfeld 4 des Fahrzeugs 1, welches von der anderen der beiden Monokameras 2, 3 (beispielsweise von der zweiten Monokamera 3) erfasst wird, ebenfalls verarbeitet.
-
Dabei wird ein Bildüberlappungsbereich 12 bestimmt, innerhalb dessen das erste Rohbild 8 und das zweite Rohbild 11 miteinander überlappen.
-
Innerhalb dieses Bildüberlappungsbereichs 12 wird eine Mehrzahl dreidimensionaler, metrischer Ankerpunkte 13a-13g bestimmt. Die Bestimmung dieser Ankerpunkte 13a-13g erfolgt durch eine Feature-Extraktion, indem zum Beispiel auf Pixelbasis überprüft wird, welche Nachbarschaftsbeziehungen bestehen, welche Pixelbereiche miteinander korrespondierende Merkmale (so genannte Features) beschreiben und wo sich Kanten befinden. Ferner kann durch eine Triangulation eine metrische Tiefeninformation für jeden der Ankerpunkte 13a-13g berechnet werden. Über eine Mittelwertbildung der Tiefeninformationen aller Ankerpunkte 13a-13g wird zumindest ein metrischer Skalierungsfaktor berechnet, da das im ersten Auswertungspfad erhaltene Tiefenbild 10 seinerseits in einem Intervall [0, 1] skaliert und somit eine metrische Skalierung erforderlich macht. In einer alternativen Ausführungsform besteht auch die Möglichkeit, mehrere Skalierungsfaktoren, die jeweils einzelnen Bildbereichen zugeordnet sind, zu verwenden.
-
In einem nächsten Schritt 14 wird pixelweise eine dichte, dreidimensionale Rekonstruktion auf Basis des mittels des konvolutionellen neuronalen Netzwerks erhaltenen Tiefenbildes 9 und unter Berücksichtigung des mindestens einen, im zweiten Auswertungspfad ermittelten Skalierungsfaktors erzeugt. Ferner fließt in diese dreidimensionale Rekonstruktion auch eine Kameramatrix 15 ein, welche extrinsische und intrinsische Informationen über die beiden Monokameras 2, 3, wie zum Beispiel Informationen über deren Einbaupositionen sowie über deren optische Parameter, enthält. Das Ergebnis dieser dichten dreidimensionalen Rekonstruktion ist eine dreidimensionale Punktwolke 16.
-
Ferner wird vorzugsweise auch die Tiefenschätzung des konvolutionellen neuronalen Netzwerks 9 mittels der vorliegend durch Triangulation berechneten Tiefeninformationen aller Ankerpunkte 13a-13g evaluiert. Als Maß für die Konsistenz der Schätzung des konvolutionellen neuronalen Netzwerks 9 dient hierbei zum Beispiel die Standardabweichung σ der metrischen Ankerpunktskalierungen.