DE102022214341A1

DE102022214341A1 - Verfahren zur Erkennung von mindestens einer Fahrspurlinie und/oder Straßenmarkierung in mindestens einer digitalen Bilddarstellung

Info

Publication number: DE102022214341A1
Application number: DE102022214341.8A
Authority: DE
Inventors: Denis Tananaev
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-01-18
Filing date: 2022-12-22
Publication date: 2023-07-20
Also published as: US20230230395A1; CN116469067A

Abstract

Verfahren zum Erkennen mindestens einer Fahrspur (1) und/oder einer Straßenmarkierung (2) in mindestens einer digitalen Bilddarstellung (3), insbesondere auf der Grundlage von Sensordaten (4), die von mindestens einem Umgebungssensor eines Systems, vorteilhafterweise eines Fahrzeugs (5), erhalten werden, wobei das Verfahren mindestens die folgenden Schritte umfasst:
a) Gewinnung einer Vielzahl digitaler Bilddarstellungen (3), die vorteilhafterweise jeweils eine Vielzahl von Merkmalen enthalten, die den jeweiligen Bildinhalt repräsentieren,
b) Anwenden einer Vogelperspektiventransformation (6) auf die erhaltenen digitalen Bilddarstellungen, wobei vorteilhafterweise jede der digitalen Bilddarstellungen separat transformiert wird, so dass transformierte digitale Bilddarstellungen (12) entstehen,
c) Durchführen einer Konsolidierung (8) der transformierten digitalen Bilddarstellungen (12), um eine konsolidierte digitale Bilddarstellung (9) zu erhalten.

Description

Die Erfindung betrifft ein Verfahren zur Erkennung mindestens einer Fahrspur und/oder Fahrbahnmarkierung in mindestens einer digitalen Bilddarstellung, insbesondere auf der Grundlage von Sensordaten, die von mindestens einem Umgebungssensor eines Systems, vorteilhafterweise eines Fahrzeugs, gewonnen werden.
Aktuelle Deep-Learning-Ansätze für die Fahrspurerkennung lassen sich in zwei Methodengruppen unterteilen. Die erste Gruppe von Ansätzen nutzt die semantische Segmentierung für das Problem der Fahrbahnmarkierungserkennung.
Die semantische Segmentierung basiert darauf das Verständnis eines Bildes auf Pixel-Ebene zu gewinnen. Bevorzugt wird jedem Pixel eines Bildes eine Kennzeichnung oder Kategorie zugeordnet. Deep Learning wird verwendet, um eine Zusammenstellung von Pixeln zu erkennen, die unterschiedliche Kategorien bilden.
In diesem Zusammenhang können Fahrbahnmarkierungen als semantische Segmentierungsaufgabe dargestellt werden. Fahrbahnmarkierungen können anhand ihrer charakteristischen Farbe erkannt werden. Dieser Ansatz kann zwar qualitativ hochwertige Ergebnisse liefern, hat aber den Nachteil, dass aufgrund der dichten Pixelvorhersage (hoher Anzahl von Pixeln in den üblicherweise verwendeten hoch aufgelösten Kamerabildern) hohe Rechenkosten anfallen.
Die zweite Gruppe von Ansätzen sind sogenannte zeilenweise Klassifizierungsansätze. Diese funktionieren beispielsweise so, dass ein Kamerabild in eine Anzahl von Zeilen oder Zellen unterteilt wird auf die jeweils Klassifizierungen angewendet werden. Im Gegensatz zu der segmantischen Segmentierung können die zeilenweisen Klassifizierungsansätze schnelle Schlussfolgerungen liefern, sind aber nicht sehr leistungsfähig.
Eine weitere Einschränkung der derzeitigen Ansätze besteht darin, dass sie auf der Bildebene arbeiten. Um 3D-Spuren zu erhalten, wurde vorgeschlagen, ein Inverse Prospective Mapping (IPM) durchzuführen, das aufgrund der Annahme eines ebenen Bodens zusätzliche Fehler verursachen kann.
Aufgabe der vorliegenden Erfindung ist es, die mit Bezug auf den Stand der Technik geschilderten Probleme wenigstens teilweise zu lösen. Diese Aufgabe wird gelöst mit der Erfindung gemäß den Merkmalen der unabhängigen Patentansprüche. Weitere vorteilhafte Ausgestaltungen sind in den abhängig formulierten Patentansprüchen sowie in der Beschreibung und insbesondere auch in der Figurenbeschreibung angegeben. Es ist darauf hinzuweisen, dass der Fachmann die einzelnen Merkmale in technologisch sinnvoller Weise miteinander kombiniert und damit zu weiteren Ausgestaltungen der Erfindung gelangt.
Hier beschrieben werden soll ein Verfahren zum Erkennen mindestens einer Fahrspur und/oder einer Straßenmarkierung in mindestens einer digitalen Bilddarstellung, insbesondere auf der Grundlage von Sensordaten, die von mindestens einem Umgebungssensor eines Systems, vorteilhafterweise eines Fahrzeugs, erhalten werden, wobei das Verfahren mindestens die folgenden Schritte umfasst:

a) Gewinnung einer Vielzahl digitaler Bilddarstellungen, die vorteilhafterweise jeweils eine Vielzahl von Merkmalen enthalten, die den jeweiligen Bildinhalt repräsentieren,
b) Anwenden einer Vogelperspektiven-Transformation auf die erhaltenen digitalen Bilddarstellungen, wobei vorteilhafterweise jede der digitalen Bilddarstellungen separat transformiert wird, so dass transformierte digitale Bilddarstellungen entstehen,
c) Konsolidierung der transformierten digitalen Bilddarstellungen, um eine konsolidierte digitale Bilddarstellung zu erhalten.

Gegenüber dem Stand der Technik ist der Ansatz des hier beschriebenen Verfahrens die Erkennung von Straßenmarkierungen nicht auf Bildebene durchzuführen, sondern vielmehr eine Vielzahl von Bildern (digitalen Bilddarstellungen) zusammenzuführen und diese in ein gemeinsames Koordinatensystem zu transformieren, in dem ein dreidimensionaler Bilddatenbestand vorbereitet wird. Bilddaten werden in Schritt a) gewonnen und dann in Schritt b) durch die Vogelperspektiven-Transformation in ein gemeinsames bodenbasiertes Koordinatensystem transformiert, in dem die einzelnen Bildinhalte aus einer Vogelperspektive dargestellt sind. Wenn der Boden rund um ein Fahrzeug als Bildebene angesehen wird, wird bspw. der Boden wie er in den einzelnen Bilddarstellungen erkennbar ist, in den einzelnen transformierten Bilddarstellungen nach Schritt c) dargestellt. Anschließend werden die Bilddarstellungen in Schritt c) konsolidiert. Das heißt in eine gemeinsame Datenstruktur überführt.
Die Vogelperspektiventransformation (bird's eye view transformation) ist eine Transformation, mit welcher eine Kamerabild, welches mit einer Blickrichtung von leicht oben auf den Boden aufgenommen wurde, so transformiert wird, dass der im Kamerabild dargestellte Bildinhalt auf einer Ebene des Bodens (in einem bodenbasierten Koordinatensystem) dargestellt ist. Um die Vogelperspektiventransformation durchzuführen sind üblicherweise Daten über die Blickrichtung der Kamera und die Position der Kamera (insbesondere die Höhe der Kamera) erforderlich. Typischerweise ist der Bodenausschnitt, den eine auf den Boden von schräg oben gerichtete Kamera aufnimmt, annähernd trapezförmig. Nah an der Kamera ist der sichtbare Bereich des Bodens schmaler als weiter hinten. Dafür ist nah an der Kamera die Auflösung deutlich höher.
Wenn mehrere Bilddarstellungen vom Boden rund um ein Fahrzeug herum existieren, sind beispielsweise Straßenmarkierungen und/oder Fahrspuren in den Bilddarstellungen teilweise doppelt bzw. überlappend zu sehen. Teilweise können auch gewisse Fehler existieren, dass Straßenmarkierungen in einer Bilddarstellung an leicht abweichender Position von einer anderen Bilddarstellung abgebildet sind. Beispielsweise sind Abschnitte einer Straßenmarkierung in einer Bilddarstellung sichtbar, die auch in einer anderen Bilddarstellung sichtbar sind, jedoch in einem Abstand zueinander. Solche Fehler können beispielsweise durch Rechenfehler bei den Transformationen oder Ausrichtungsungenauigkeit von Kameras entstehen, welche die Bilddaten aufgenommen haben. Durch das Zusammenführen solcher Bilddarstellungen in einer gemeinsamen konsolidierten Bilddarstellung in Schritt c) werden solche Fehler bevorzugt korrigiert. Dies kann beispielsweise geschehen, indem gemittelte Bildpositionen für bestimmter Merkmale aus den verschiedenen Bilddarstellungen angenommen werden.
Besonders vorteilhaft ist, wenn jede digitale Bilddarstellung eine Merkmalszusammenstellung umfasst oder in Form einer Merkmalszusammenstellung bereitgestellt wird.
Für den Begriff „Merkmalszusammenstellung“ wird auch der englische Begriff „feature map“ verwendet.
Dies bezieht sich auf die in Schritt a) gewonnenen digitalen Bilddarstellung Mit einer „feature map“ ist eine Beschreibung der Bilddarstellung gemeint, in der das Bild bereits teilweise analysiert ist bzw. Merkmale erkannt sind. Bevorzugt sind in den Bilddarstellungen einzelne Merkmale erkannt und in Form der „feature map“ abgelegt. Hierzu zählen auch Bildbestandteile, die später als Fahrspuren und/oder Straßenmarkierungen erkannt werden können. Bilddarstellungen sind also bevorzugt nicht unmittelbar reine Kamerabilder, sondern gegebenenfalls schon vorverarbeitet. Es ist möglich, dass die Bilddarstellung eine Kombination aus Bildrohdaten und der Merkmalszusammenstellung ist. Es ist auch möglich, dass die Bilddarstellung nur noch die Merkmalszusammenstellung umfasst und die Bildrohdaten aus der Bilddarstellung bereits entfernt sind bzw. in der Bilddarstellung nicht mehr mit enthalten sind.
Eine explizite Erkennung von Fahrspuren oder Fahrbahnmarkierungen erfolgt jedoch mit der Vorverarbeitung vor Schritt a) noch nicht. Solche Merkmale werden erst nach Anwendung der Vogelperspektiven-Transformation und der Konsolidierung (Schritte b) und c)) ausgeführt. Ansatz des hier beschriebenen Verfahrens ist, dass die Erkennung von Fahrspuren und/oder Fahrbahnmarkierungen letztlich zweigeteilt stattfindet. Eine Erkennung von Merkmalen in digitalen Bilddarstellungen/Bildinhalten erfolgt bereits vor der Vogelperspektiventransformation. Die Auswertung der Bilddarstellung/Bildinhalte bzw. der bereits aus den Bildern extrahierten Merkmalsinformationen, um Fahrspuren und/oder Fahrbahnmarkierungen zu erkennen, erfolgt dann nach der Vogelperspektiventransformation in der konsolidierten Bilddarstellung in einem bodenbasierten Koordinatensystem
Besonders vorteilhaft ist das Verfahren weiter, wenn jede digitale Bilddarstellung aus einem digitalen Bild gewonnen wird, vorteilhafterweise durch Codierung einer Vielzahl von digitalen Bildern, die insbesondere von einer Vielzahl von digitalen Kameras empfangen werden.
Bevorzugt sind also die in Schritt a) gewonnenen digitalen Bilddarstellungen auch bereits aus einer Mehrzahl von digitalen Bildern zusammengestellte Informationen. Ggf. können hier ebenfalls bereits neuronale Netzwerke eingesetzt worden sein, um die digitalen Bilddarstellungen aus einer Mehrzahl von digitalen Bildern zu bilden bzw. um die Informationen aus der Mehrzahl von digitalen Bildern zu der digitalen Bilddarstellung zusammen zu führen.
Bei der Fusion der von einzelnen Kameras erfassten Fahrspuren zu einer gemeinsamen Weltdarstellung kann es zu Ausrichtungsfehlern kommen, die durch kamerainterne und -externe Fehler verursacht werden.
In einer vorteilhaften Ausführungsform der Erfindung kann eine End-to-End-Mehrkamera-Fusion mit einem faltenden neuralen Netzwerk (CNN, CNN = Convolutional Neural Network) das Problem von Ausrichtungsfehlern lösen. Vorteilhafterweise umgeht die Erfindung die Beschränkungen der bisherigen Methoden durch direkte Inferenz der Fahrspuren in 3D-Koordinaten und kann für Mehrkamerasysteme Ende-zu-Ende trainiert werden. Dies macht den Ansatz im Vergleich zum Stand der Technik hocheffizient und skalierbar, da keine rechenintensive Nachbearbeitung für die 3D-Spurenerkennung erforderlich ist.
Faltende neurale Netzwerke werden bei dem beschriebenen Verfahren bevorzugt auf die einzelnen Bildinhalte/Bilddarstellungen vor der Durchführung der Vogelperspektiventransformation als auch bei der Konsolidierung der transformierten digitalen Bilddarstellungen nach der Vogelperspektiventransformation angewendet, sowie um dann auch die Fahrspuren/Fahrbahnmarkierungen in der konsolidierten digitalen Bilddarstellung zu identifizieren.
Das faltende neurale Netzwerk ist insbesondere ein in Software ausgebildetes künstliches neurales Netz mit einer Vielzahl von computerimplementierten Knoten, die in Schichten hintereinander angeordnet sind, wobei als Eingabe in das Netz beispielsweise die digitale Bilddarstellung verarbeitet wird und dann die Schichten sukzessive Ausgabedaten vorangegangener Schichten verarbeiten.
Grundsätzlich besteht die Struktur eines klassischen faltenden neuralen Netzwerks aus einem oder mehreren Ebenen, gefolgt von einem Pooling Layer.
Diese Einheit kann sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann vom „tiefen“ faltenden neuralen Netz.
In einem faltenden neuralen Netz werden jeweils eng zueinander benachbarte Bereiche eines Bildes miteinander verarbeitet, um Muster zu erkennen. Durch sogenannte Pooling Layer werden überflüssige Informationen verworfen.
Das Training derartiger faltender neuraler Netze wird durch Rückführung von gewünschten Ergebnissen erreicht. Die Gewichtungen der Knoten innerhalb des Netzes wird in Abhängigkeit der Rückführungen angepasst. Durch ein Training kann das neurale Netz so eingestellt werden, dass die vorgesehene Aufgabe (hier die Erkennung von Fahrbahnmarkierungen und Fahrspuren in einer Gesamtheit von Bildinhalten) erfüllt ist.
Besonders vorteilhaft ist das Verfahren, wenn ein Deep-Learning-Algorithmus zur Durchführung zumindest eines Teils des Verfahrens verwendet wird, wobei der Deep-Learning-Algorithmus vorzugsweise unter Verwendung mindestens eines künstlichen neuronalen Netzes, vorteilhafterweise mindestens eines faltenden neuralen Netzes (CNN, Convolutional Neural Network), implementiert ist.
Besonders bevorzugt wird der Deep-Learning-Algorithmus auf die Verarbeitung der Bilddaten vor der Durchführung der Vogelperspektiven-Transformation und/oder zur Konsolidierung der transformierten digitalen Bilddarstellung, um eine konsolidierte digitale Bilddarstellung zu erhalten, angewendet.
Darüber hinaus bevorzugt ist, wenn jede digitale Bilddarstellung mittels eines Faltungsneuronalnetz-Encoders (CNN-Encoder) erhalten wird.
Außerdem bevorzugt ist, wenn die digitalen Bilddarstellungen über eine gemeinsame Höhendimension verkettet werden, insbesondere während der Transformation.
Außerdem bevorzugt ist, wenn die Konsolidierung der transformierten digitalen Bilddarstellungen eine Dekodierung mit vorzugsweise einem faltenden neuronalen Netzwerk (CNN-Decoder; CNN = Convolutional Neural Network Decoder) umfasst.
In einer vorteilhaften Ausführungsform befasst sich die Erfindung mit der Erkennung von durchgehenden Fahrbahnmarkierungen aus der Vogelperspektive mit mehreren Kameras für das autonome Fahren mit faltenden neuralen Netzen.
Die Erfindung kann mindestens einen oder mehrere der folgenden Aspekte umfassen:

• Die Erfindung bietet den Vorteil einer präzisen und/oder robusten parametrischen Darstellung der Fahrbahnmarkierungserkennung in der 3D-Vogelperspektive.
• Die Erfindung beschreibt vorteilhaft die Anwendung von End-to-End-CNN mit Transformation aus der Vogelperspektive auf das Problem der Fahrbahnmarkierungserkennung.
• Die Erfindung kann eine einheitliche 360-Grad-Darstellung von Fahrbahnmarkierungen für Systeme mit mehreren Kameraansichten erzeugen.
• Vorteilhaft ist die Korrektur von Ausrichtungsfehlern, die durch IPM und Fehler in der Kamerakalibrierung verursacht werden, insbesondere durch Anwendung der Verlustfunktion sowohl in der lokalen Ansicht pro Kamera als auch in der globalen 360°-Ansicht.

Die Erfindung kann zu mindestens einem oder mehreren der folgenden Vorteile beitragen:

• Im Gegensatz zu bekannten Methoden, die im Bildbereich arbeiten und eine zusätzliche Nachbearbeitung erfordern, um Fahrbahnmarkierungen in 3D zu extrahieren, kann die Erfindung insbesondere die Inferenz direkt im 3D-Bereich durchgängig anwenden, was vorteilhaft den Rechenaufwand reduziert und den Einsatz in eingebetteten Systemen ermöglicht.
• Die Erfindung kann in vorteilhafter Weise dazu beitragen, den Input von Multikamerasystemen zu einer qualitativ hochwertigen 360-Grad-Weltdarstellung verschmelzen, die direkt von Systemen zur Verhaltensvorhersage und/oder Bewegungsplanung verwendet werden kann.
• Es kann eine CNN-Architektur verwendet werden, die mathematische Operationen enthält, die vorteilhafterweise von eingebetteter Hardware unterstützt werden können, so dass sie direkt für ADAS-Systeme der nächsten Generation verwendet werden können.

In einer vorteilhaften Ausführungsform kann die Erfindung zur Detektion und/oder Erkennung des Typs der Fahrbahnmarkierungen und/oder in einem Fahrerassistenzsystem und/oder autonomen Fahrsystem und/oder in der HD-Kartengenerierung und/oder in der Fahrbahnmarkierungszustandsüberwachung eingesetzt werden.
Insbesondere in selbstfahrenden Autosystemen ist es von Vorteil, Fahrbahnmarkierungen (automatisch) zu erkennen, da sie dazu beitragen können, Fahrregeln zu identifizieren, die für die Pfadplanung und/oder Verhaltensvorhersage und/oder für die Lokalisierung von Ego-Fahrzeugen genutzt werden können.
Die derzeitigen Algorithmen zur Fahrspurerkennung werden in der Regel auf den Bildbereich angewendet und erfordern eine Nachbearbeitung und kameraübergreifende Fusion, um eine saubere 360-Grad-Darstellung der Fahrbahnmarkierungen zu erhalten. Gemäß einer bevorzugten Ausführungsform der Erfindung und insbesondere im Gegensatz zu den Methoden des Standes der Technik wird vorgeschlagen, eine direkte Inferenz im 3D-Raum durchzuführen. Dies kann auf ein Einzel- oder Mehrkamerasystem angewendet werden.
Eine vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens kann mindestens einen oder mehrere der folgenden Schritte umfassen:

• Bilder von mehreren Kameras können von einem CNN-Decoder verarbeitet werden, insbesondere mit gemeinsamen Parametern und/oder Ausgabemerkmalen.
• Für jedes resultierende Merkmal kann ein separates Modul zur Transformation aus der Vogelperspektive (Bev) angewendet werden.
• Die resultierenden Bev-Merkmale können vom Encoder insbesondere über die hohe Dimension verkettet werden und/oder es kann ein Decoder CNN eingesetzt werden.
• Ein IPM-Resampling kann angewendet werden, um die Ausgabe des CNN in eine globale Gitterdarstellung der Umgebung, insbesondere im kartesischen Koordinatensystem, umzuwandeln.

Vorteilhafterweise kann in der Trainingszeit der Verlust auf die vollständige 360-Gitter-Ansicht angewandt werden und/oder in der Testzeit kann die Unterdrückung von Nicht-Maxima auf den 2D-Box-Detektor angewandt werden, um nur gültige Bounding-Boxen zu behalten, die die resultierenden 3D-Punktproben der Fahrspuren enthalten, die dann durch Clothoid (oder eine andere geeignete Spline-Funktion) approximiert werden können.
Hier auch beschrieben werden sollen ein konfiguriertes Computerprogramm zur Durchführung eines beschriebenen Verfahrens.
Darüber hinaus beschrieben werden soll ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gespeichert ist.
Außerdem beschrieben werden soll ein Objekterkennungssystem für ein Fahrzeug, wobei das System zur Durchführung des beschriebenen Verfahrens eingerichtet ist.
Es soll darauf hingewiesen werden, dass die im Zusammenhang mit dem vorstehend beschriebenen Verfahren geschilderten besonderen Vorteile und Ausgestaltungsmerkmale auch auf das Computerprogramm sowie das Objekterkennungssystem übertragbar sind.
Die Erfindung sowie das technische Umfeld der Erfindung werden nachfolgend anhand der Figuren näher erläutert. Die Figuren zeigen bevorzugte Ausführungsbeispiele, auf welche die Erfindung nicht beschränkt ist. Es ist insbesondere darauf hinzuweisen, dass die Figuren und insbesondere die in den Figuren dargestellten Größenverhältnisse nur schematisch sind. Es zeigen:

1 ein Ablaufdiagramm der beschriebenen Fahrspurerkennung;
2: schematisch einen Ablauf einer Verarbeitung in Bildrohdaten mit einem neuralen Netz und anschließender Koordinatentransformation für das beschriebene Verfahren;
3: schematisch geometrische Eigenschaften einer Vogelperspektiventransformation:
4: schematisch Fahrbahnmarkierungen, wie sie in transformierten digitalen Bilddarstellungen erkannt werden können; und
5: schematisch eine Umgebung eines Fahrzeugs in einer transformierten digitalen Bilddarstellung mit Fahrbahnmarkierungen.

Ein bevorzugtes Beispiel für eine Gesamtpipeline zur Fahrspurerkennung mit Darstellung aus der Vogelperspektive ist in 1 dargestellt.
Einzelne digitale Bilddarstellungen 3 werden zunächst empfangen bzw. erhalten. Zum Beispiel kommen die Bilder von Kameras als Sensordaten 4 getrennt in einem künstlichen neuralen Netz 11 verarbeitet. Die Bilddaten von Kameras können insbesondere Bildrohdaten sein. Gegebenenfalls können auch schon erkannte bzw. mit vorgelagerten Filtern erkannte Merkmalszusammenstellungen 10 enthalten sein. Dies entspricht Schritt a) des beschriebenen Verfahrens.
Anschließend erfolgt die Vogelperspektiventransformation, so dass jeweils auf eine Bodenebene 20 transformierte digitale Bilddarstellungen 12 entstehen, die jeweils aber sämtliche Informationen/Merkmale der digitalen Bilddarstellungen 3 enthalten. Dies entspricht Schritt b) des beschriebenen Verfahrens. Vorteilhaft ist, wenn durch die Anwendungen der künstlichen neuralen Netze 11 die Merkmalszusammenstellungen 10 jeweils aufbereitet werden, so dass die Vogelperspektiventransformation 6 auf die Merkmalszusammenstellungen 10 angewendet wird.
Anschließend erfolgt in Schritt c) erneut eine Anwendung eines künstlichen neuronalen Netzes 11 auf die einzelnen transformierten digitalen Bilddarstellungen 12, um diese zusammen zu führen und eine konsolidierte digitale Bilddarstellung 9 zu gewinnen.
Die Transformation in die Vogelperspektive umfasst insbesondere das Umwandeln der digitalen Bilddarstellungen in ein bodenbasiertes Koordinatensystem. Sie kann gemäß einer bevorzugten Ausführungsform wie folgt durchgeführt werden:

Es kann eine Reihe von über die Höhendimension gestaffelte Faltungen angewendet werden (oder es kann max/average pooling verwendet werden, gefolgt von einer Faltung), insbesondere gefolgt von einer nicht-linearen Aktivierungsfunktion (z.B. ReLU) auf einem Merkmalstensor der Form CxHxW, wobei C - Anzahl der Merkmalskanäle, H - Höhe des Tensors, W - Breite des Tensors, um die Höhendimension auf 1 zu reduzieren, aber die Merkmalsdimension auf C*Z zu erweitern, wobei C - die Anzahl der neuen Merkmale (kann sich vom ursprünglichen Tensor unterscheiden) und Z - Tiefen-Diskretisierungsgitter.

Es zeigt ein Beispiel für die Diskretisierung der Tiefe pro 10 Meter in der Vogelperspektive). Dies führt vorteilhafterweise zu einer polaren Darstellung, die der Ebene entsprechen kann, die die Mitte der Kamera schneidet (siehe z.B. 3, rechter Teil 3). Der resultierende Tensor der Form C*Zx1xW kann in den Tensor CxZx1 xW umgeformt werden. Dadurch, dass die Dimension der Höhe H auf „1“ reduziert ist, wird ausgedrückt, dass der Inhalt der digitalen Bilddarstellungen auf eine Bodenebene 20 reduziert bzw. projiziert ist.
In 2 ist beispielhaft dargestellt, wie die Verarbeitung von Eingangsdaten mit einem künstlichen neuronalen Netz 11 stattfinden kann. Hier dargestellt ist die Verarbeitung von Digitalen Bilddarstellungen mit anschließender Vogelperspektiventransformation 6, so dass die digitalen Bilddarstellungen mit den darin enthaltenen Merkmalszusammenstellungen in Polarkoordinaten 14 in dem Vogelperspektiven-Koordinatensystem dargestellt werden.
In 2 ist dargestellt, dass die Verarbeitung in einem künstlichen neuralen Netz 11 mit einer Reihe von hintereinander arbeitenden Verarbeitungsebenen 13 ausgeführt wird, die jeweils künstliche Neuronen 15 umfassen. Durch die künstlichen Neuronen 15 findet von Ebene zu Ebene eine Dimensionsreduktion 16 statt. Die Dimension der Höhe wird hier immer weiter reduziert. Nach der Vogelperspektiventransformation ist der Inhalt der digitalen Bilddarstellung in Polarkoordinaten 14 dargestellt.
In einem vorteilhaften nächsten Schritt können Polarkoordinaten-Vogelperspektiven-Merkmalstensoren für verschiedene Kameras insbesondere der Form CxZx1xW über Höhendimensionen miteinander verbunden und/oder der resultierende Tensor CxZxNumber CamerasxW an einen CNN-Decoder gehen, der kameraübergreifende Merkmalsüberblendungen vorteilhaft für eine globale 360-Grad-Spurendarstellung insbesondere um ein Fahrzeug 5 oder Auto herum durchführen kann.
Vorzugsweise kann der verkettete Merkmalstensor immer die gleiche Höhendimension haben, insbesondere weil sie der Anzahl der Kameras entspricht.
In 3 sind im Vergleich eine Querschnittsansicht 17 durch eine digitale Bilddarstellung und die Bodenansicht 18 der digitalen Bilddarstellung gezeigt. Ausgehend von der Kamera 19 sind jeweils Strahlengänge 22 gezeigt, die Punkte 21 auf dem Boden treffen. In der Bodenansicht 18 ist zu sehen, wo die gesichteten Punkte 21 auf der Bodenebene 20 zu sehen sind.
In einem vorteilhaften nächsten Schritt der Konsolidierung 8 kann ein differenzierbares Resampling auf den Ausgang des Decoders angewendet werden, um die 360-Grad-Weltdarstellung vorteilhaft in kartesischen Koordinaten zu rekonstruieren. Hierbei werden die einzelnen transformierten digitalen Bilddarstellungen zu der konsolidierten digitalen Bilddarstellung zusammen geführt. Das Resampling kann mit Hilfe von kamerainternen und/oder -externen Parametern durchgeführt werden. Es kann eine virtuelle Grundfläche eingeführt werden, auf die Fahrspuren projiziert werden können, und/oder es kann eine IPM-Transformation auf die Merkmalsausgabe von lokalen Kamerapolarkoordinaten auf eine globale Grundfläche in 360-Grad-Weltkoordinaten angewendet werden.
Vorzugsweise können Fahrspuren 1 und Straßenmarkierungen 2 als eine Reihe von Schlüsselpunkten dargestellt werden, deren Position in Bezug auf lokale Kamerakoordinaten und/oder 2D-Boxen regressiert werden kann, was es ermöglicht zu erkennen, welche Instanz von regressierten Schlüsselpunkten derselben Linie entspricht (siehe z. B. 4 und 5).
Ein Fahrspur-Schlüsselpunkt kann als Merkmalsvektor mit [confidence, dx, dy, z, class_label, 2d_box_height, 2d_box_width] dargestellt werden, wobei confidence ein binärer Wert zwischen 0 und 1 ist, wobei 0 bedeutet, dass es keinen Schlüsselpunkt gibt und 1, dass es einen Schlüsselpunkt gibt, dx und dy - der regressierte Offset der genauen Position des Fahrspur-Schlüsselpunkts in Bezug auf die nächstgelegene Ecke zum Schlüsselpunkt, class_label - entspricht dem Typ der Linie (z. B. einfarbige Fahrspur, doppelte Fahrspur, gestrichelte Fahrspur usw.).2d_box_height und 2d_box_width entsprechen der Höhe und Breite des Kastens im globalen 360-Grad-Weltbild. Dieser Kasten kann beispielsweise zur Erkennung der Fahrspuren dienen. Da jeder Schlüsselpunkt der Fahrspur seine eigene Box bereitstellen kann, kann die Unterdrückung von Nicht-Maxima angewendet werden, um endgültige Instanzen der Fahrspuren in der Inferenzzeit zu erhalten. Die endgültige Fahrspur kann durch eine parametrische Kurve mit gegebenen Schlüsselpunkten approximiert werden. $Endlinie = approx_spline (p 1, p 2, p 3, p 4 \dots)$
Hier Final_line - parametrische Krümmung, approx_spline - die Funktion, die den Spline angesichts der Menge der Punkte des Splines approximiert (für Fahrbahnmarkierungen wäre die typische Wahl clothoid), p1,p2, p3, p4 ... - Schlüsselpunkte, die aus CNN regressiert werden.
Während eines Trainings des künstlichen neuronalen Netzwerks kann die binäre Kreuzentropie für den Vertrauensverlust angewendet werden, insbesondere der I1-Verlust für die Regression aller Box-Parameter und/oder der Softmax-Verlust für die Vorhersage von Klassen. Die Konfidenzkarte kann anhand von Bodenrichtlinien berechnet werden. Es kann die Zelle, die den Fahrspur-Schlüsselpunkten am nächsten liegt, als Konfidenz 1,0 und ansonsten 0 zugewiesen werden. Der Konfidenzverlust kann für alle Bev-Pixel angewendet werden. Andere Verluste können nur auf die Pixel angewandt werden, bei denen die Konfidenz der Bodenwahrheit 1,0 beträgt.
Nochmals zusammengefasst
1 zeigt schematisch eine bevorzugte Ausführungsform einer Übersicht über ein das gesamte Verfahren.
2 zeigt schematisch eine bevorzugte Ausführungsform eines Transformationsvorgangs der digitalen Bilddarstellungen aus den einzelnen Perspektiven in das Polarkoordinatensystem der Vogelperspektive (zur Vereinfachung des Beispiels wird immer dieselbe Anzahl von Kanälen C verwendet, die aber auch bei jedem Faltungsvorgang variieren kann).
3 zeigt schematisch eine bevorzugte Ausführungsform einer Kameradarstellung in Polarkoordinatenebene mit Tiefenrasterdiskretisierung alle 10 Meter und Projektion der Fahrbahnmarkierungen von der Bodenebene auf die Kamerapolarkoordinatenebene. Hier kann die Funktionsweise der Vogelperspektiventransformation nachvollzogen werden.
4 zeigt schematisch eine bevorzugte Ausführungsform einer parametrischen Darstellung der Fahrbahnmarkierungen in der Einzelkameraperspektive im kartesischen Koordinatensystem (dieselbe Darstellung kann auch im Polarkoordinatensystem angewandt werden); links die Beispieldarstellung der Schlüsselpunkte; rechts das Beispiel der endgültigen Vorhersagefahrbahninstanzen mit 2d Merkmalsfenstern 23 für Fahrspuren 1 und Straßenmarkierungen 2. („Bounding Boxes“).
5 zeigt schematisch eine bevorzugte Ausführungsform eines Beispiels für die Regression des Kreuzes der Fahrspurmarkierungen für das Bev-Bild 512x512 Pixel; die Schlüsselpunkte der Fahrspur werden im Koordinatensystem der lokalen Kameras regressiert, während die Begrenzungsfelder in den globalen Bildkoordinaten der Draufsicht regressiert werden.

Claims

Verfahren zum Erkennen mindestens einer Fahrspur (1) und/oder einer Straßenmarkierung (2) in mindestens einer digitalen Bilddarstellung (3), insbesondere auf der Grundlage von Sensordaten (4), die von mindestens einem Umgebungssensor eines Systems, vorteilhafterweise eines Fahrzeugs (5), erhalten werden, wobei das Verfahren mindestens die folgenden Schritte umfasst: a) Gewinnung einer Vielzahl digitaler Bilddarstellungen (3), die vorteilhafterweise jeweils eine Vielzahl von Merkmalen enthalten, die den jeweiligen Bildinhalt repräsentieren, b) Anwenden einer Vogelperspektiven-Transformation (6) auf die erhaltenen digitalen Bilddarstellungen, wobei vorteilhafterweise jede der digitalen Bilddarstellungen separat transformiert wird, so dass transformierte digitale Bilddarstellungen (12) entstehen, c) Durchführen einer Konsolidierung (8) der transformierten digitalen Bilddarstellungen (12), um eine konsolidierte digitale Bilddarstellung (9) zu erhalten.
Verfahren nach Anspruch 1, wobei jede digitale Bilddarstellung (3) eine Merkmalszusammenstellung (10) umfasst oder in Form einer Merkmalszusammenstellung (10) bereitgestellt wird.
Verfahren nach Anspruch 1 oder 2, wobei jede digitale Bilddarstellung (3) aus einem digitalen Bild gewonnen wird, vorteilhafterweise durch Codierung einer Vielzahl von digitalen Bildern, die insbesondere von einer Vielzahl von digitalen Kameras empfangen werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Deep-Learning-Algorithmus zur Durchführung zumindest eines Teils des Verfahrens verwendet wird, wobei der Deep-Learning-Algorithmus vorzugsweise unter Verwendung mindestens eines künstlichen neuronalen Netzes (11), vorteilhafterweise mindestens eines faltenden neuralen Netzes (CNN, CNN = Convolutional Neural Network), implementiert ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem jede digitale Bilddarstellung (3) mittels eines Encoders mit einem künstlichen neuralen Netz(11) (CNN-Encoder) erhalten wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die digitalen Bilddarstellungen (3) über eine gemeinsame Höhendimension verkettet werden, insbesondere während der Transformation.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Konsolidierung der transformierten digitalen Bilddarstellungen (12) eine Dekodierung mit vorzugsweise einem faltenden neuralen Netz (CNN, CNN = Convolutional Neural Network) umfasst.
Konfigurierbares Computerprogramm zur Durchführung eines Verfahrens nach einem der vorangehenden Ansprüche.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.
Objekterkennungssystem für ein Fahrzeug (5), wobei das System zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 7 eingerichtet ist.