DE102021002798A1

DE102021002798A1 - Verfahren zur kamerabasierten Umgebungserfassung

Info

Publication number: DE102021002798A1
Application number: DE102021002798.1A
Authority: DE
Inventors: Cedric Perauer; Andreas Petrovic
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-07-15

Abstract

Die Erfindung betrifft ein Verfahren zur kamerabasierten Umgebungserfassung für ein Fahrzeug (7, 8), wobei mittels zumindest eines künstlichen neuronalen Netzwerks (N1 bis N3) eine Sensorfusion durchgeführt wird. Erfindungsgemäß werden mittels zumindest einer Kamera (1 bis 3, 9, 10) des Fahrzeugs (7, 8) erfasste zweidimensionale Bilder (B1 bis Bx) mittels Neural Radiance Fields (NeRF) zu einer dreidimensionalen Information synthetisiert, wobei mittels weiterer Sensoren von anderen Verkehrsteilnehmern und/oder einer Infrastruktur erfasste Informationen bei der Synthetisierung berücksichtigt werden. Weiterhin wird ein Pseudo-Lidar (15) in einer Kamera-Pipeline als redundanter Pfad verwendet wird und mittels des als Convolutional Neural Network ausgebildeten künstlichen neuronalen Netzwerks (N1 bis N3) wird anhand von Daten des Pseudo-Lidars (15) zu jedem Bildpunkt in den mittels der Kamera (1 bis 3, 9, 10) erfassten zweidimensionalen Bildern (B1 bis Bx) ein zugehöriger Tiefenwert bestimmt und als dreidimensionale Information derart projiziert, dass ein dreidimensionales Netz (3DM) erzeugt wird.

Description

Die Erfindung betrifft ein Verfahren zur kamerabasierten Umgebungserfassung gemäß dem Oberbegriff des Anspruchs 1.
Aus der DE 10 2017 116 016 A1 ist ein Verfahren zum Konfigurieren einer Kraftfahrzeug-Sensorvorrichtung, welche zwei Sensoreinheiten und ein neuronales Netz aufweist, bekannt. Das Verfahren umfasst die Verfahrensschritte:

- mehrfaches Erfassen einer Umgebung der Kraftfahrzeug-Sensorvorrichtung durch eine erste Sensoreinheit der Kraftfahrzeug-Sensorvorrichtung und durch eine zweite Sensoreinheit der Kraftfahrzeug-Sensorvorrichtung;
- Erzeugen einer Mehrzahl von ersten Sensorinformationen durch die erste Sensoreinheit und einer Mehrzahl von zweiten Sensorinformationen durch die zweite Sensoreinheit, wobei die Sensorinformationen je die erfasste Umgebung repräsentieren;
- mehrfaches Kombinieren einer der erzeugten ersten Sensorinformationen mit einer der erzeugten zweiten Sensorinformationen zu einem jeweiligen Trainings-Sensordatensatz;
- Verfälschen von Sensorinformationen einer Teilmenge der Trainings-Sensordatensätze;
- Kennzeichnen der Trainings-Sensordatensätze mit verfälschten Sensorinformationen als verfälscht sowie der Trainings-Sensordatensätze mit unverfälschten Sensorinformationen als unverfälscht;
- Bereitstellen der zu den jeweiligen gekennzeichneten Trainings-Sensordatensätzen gehörigen Sensorinformationen an das neuronale Netz der Kraftfahrzeug-Sensorvorrichtung;
- Bereitstellen einer Information über die Kennzeichnung der jeweiligen Trainings-Sensordatensätze an eine Lehrinstanz;
- Trainieren des neuronalen Netzes mit den bereitgestellten Sensorinformationen der jeweiligen Trainings-Sensordatensätze durch die Lehrinstanz mittels eines überwachenden Lernalgorithmus für ein Erzeugen einer integrierten Repräsentation der ersten Sensorinformation und der zweiten Sensorinformation in Abhängigkeit der an das neuronale Netz bereitgestellten Sensorinformation.

Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zur kamerabasierten Umgebungserfassung anzugeben.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
In einem Verfahren zur kamerabasierten Umgebungserfassung für ein Fahrzeug wird mittels zumindest eines künstlichen neuronalen Netzwerks eine Sensorfusion durchgeführt.
Erfindungsgemäß werden mittels zumindest einer Kamera des Fahrzeugs erfasste zweidimensionale Bilder mittels Neural Radiance Fields, beispielsweise so genannte NeRF-Algorithmen oder pixelNeRF-Algorithmen, zu einer dreidimensionalen Information synthetisiert. Weiterhin werden mittels weiterer Sensoren von anderen Verkehrsteilnehmern und/oder einer Infrastruktur erfasste Informationen bei der Synthetisierung berücksichtigt und in einer Kamera-Pipeline wird als redundanter Pfad ein Pseudo-Lidar verwendet. Mittels des als Convolutional Neural Network (kurz: CNN) ausgebildeten künstlichen neuronalen Netzwerks wird anhand von Daten des Pseudo-Lidars zu jedem Bildpunkt in den mittels der Kamera erfassten zweidimensionalen Bildern ein zugehöriger Tiefenwert bestimmt und als dreidimensionale Information derart projiziert, dass ein dreidimensionales Netz, insbesondere ein Polygonnetz, auch als 3D-Mesh bezeichnet, erzeugt wird.
Es existieren Fahrzeuge mit einer großen Anzahl an Sensoren zur Erfassung einer Fahrzeugumgebung, beispielsweise Kameras, Lidarsensoren und/oder Radarsensoren. Um einen redundanten und sicheren Betrieb sicherzustellen, werden die Sensoren einerseits zu einem gemeinsamen Umgebungsmodell fusioniert. Andererseits müssen verarbeitende und steuernde Systeme derart ausgebildet sein, das Fahrzeug bei einem Ausfall einzelner Sensoren sicher zum Stillstand zu bringen. Fahrzeuge mit einem niedrigen Automatisierungslevel, beispielsweise einem so genannten Level 2, verfügen nicht über Lidarsensoren und realisieren eine Fahrzeugumgebungserkennung mittels von Radarsensoren und Kameras erfasster Daten.
Das vorliegende Verfahren ermöglicht eine verbesserte Erfassung der Fahrzeugumgebung mittels Kameras durch den Einsatz moderner Bildverarbeitungstechniken. Durch die Verwendung modernster Bildverarbeitungstechniken kann eine Software-Pipeline für eine Bildverarbeitung deutlich verbessert werden, um eine Sicherheit, Redundanz und eine Fähigkeit, auf neue Situationen zu generalisieren, von autonomen Systemen jedes Levels zu verbessern. Das Verfahren ist zusätzlich robuster gegen so genannte Adversarial Attacks und Schlechtwetterbedingungen.
Insbesondere ermöglicht das Verfahren eine verbesserte und redundante Erkennung der Fahrzeugumgebung durch Optimierung einer kamerabasierten Erkennung. Durch moderne Verfahren in der so genannten Computer Vision, werden verschiedene Verarbeitungstechniken verwendet und auf unterschiedlichen Wegen dreidimensionale Modelle der Fahrzeugumgebung erzeugt. Dadurch kann eine Anzahl von Modellannahmen reduziert werden und die Fähigkeit verbessert werden, während eines automatisierten Fahrbetriebs eines Fahrzeugs auf vorher unbekannte Umgebungssituationen zu reagieren und unbekannte Objekte zu erkennen. Das Verfahren erlaubt des Weiteren, die Erfassung der Fahrzeugumgebung für Fahrzeuge niedriger Automatisierungslevel zu verbessern, die meist nur mit Kameras zur Umgebungserfassung ausgestattet sind. Fahrzeuge, welche Lidarsensoren umfassen, profitieren vor allem von einer Redundanz zum Lidarsystem.
Eine weitere komplexe Herausforderung in der Bildverarbeitung stellt eine Erkennung von Fußgängern dar. Objekterkennungs- oder Pose-Segmentierungs-Verfahren können zwar eine grobe Orientierung von Fußgängern erkennen, erstellen aber kein verlässliches dreidimensionales Modell, welches vor allem bei einer Erkennung eines neuen Fußgängers ohne Tracking Historie zu Problemen führen kann. Auch die Erkennung von Fußgängern ist mittels des vorliegenden Verfahrens in zuverlässiger Weise realisierbar.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
Dabei zeigen:

1 schematisch eine Darstellung einer synthetischen dreidimensionalen Repräsentation,
2 schematisch eine Erzeugung dreidimensionaler Repräsentationen,
3 schematisch einen Ablauf eines Pseudo-Lidar-Verfahrens,
4 schematisch eine Draufsicht einer Verkehrsszene,
5 schematisch eine Draufsicht einer weiteren Verkehrsszene,
6 schematisch eine NERF-Architektur,
7 schematisch ein Bild einer Verkehrsszene mit erkannten Objekten,
8 schematisch eine Draufsicht einer weiteren Verkehrsszene und ein Blockschaltbild einer Vorrichtung zur kamerabasierten Umgebungserfassung,
9 schematisch eine Belegungskarte einer weiteren Verkehrsszene,
10 schematisch ein Blockschaltbild einer Vorrichtung zur kamerabasierten Umgebungserfassung und
11 schematisch ein Bild einer Verkehrsszene mit erkannten Objekten.

Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
1 zeigt eine Darstellung einer synthetischen dreidimensionalen Repräsentation R.
Zur Optimierung einer automatisierten Bilderkennung werden Verfahren durchgeführt, um ein Verständnis einer Dreidimensionalität einer Szene zu erzeugen. Eine wichtige Information in einem, beispielsweise von einer Kamera 1 bis 3 erfassten zweidimensionalen Bild B1 ist eine inhärente Orientierung eines Objekts O1 bis On im dreidimensionalen Raum, welche bei derzeit verwendeten Standardverfahren der Bildverarbeitung verloren geht.
Menschen fügen dagegen in ihrer Umwelterkennung intuitiv erkannten Objekten O1 bis On eine Orientierung und damit ein Koordinatensystem hinzu. Aus diesem Grund wird vorliegend in einer Bilderkennung für eine verbesserte Szenen- und Objekterkennung die Dreidimensionalität der Umwelt berücksichtigt. Hierbei wird mittels neuronaler Netze aus limitierten zweidimensionalen Informationen die dreidimensionale Repräsentation R von Objekten 01 bis On erzeugt.
Hierbei besteht die Möglichkeit, eine virtuelle dreidimensionale Welt-Darstellung über eine fiktive Perspektive P und einem zugehörigen fiktiven Sichtstrahl S, welcher Dichtepunkte entlang seiner Achse aufweist, auf vorhandene zweidimensionale Informationen zurückzurechnen. Hierbei wird ein dreidimensionaler Raum erzeugt, der notwendig wäre, um eine vorgegebene zweidimensionale Repräsentation zu erhalten. Diese Grundlagen-Informationen werden mittels künstlicher neuronaler Netzwerke N1 bis N3 derart verarbeitet, dass eine repräsentative Gesamtdarstellung eines in 2 gezeigten dreidimensionalen Modells M berechnet werden kann. Eine Umsetzung eines solchen Ansatzes sind in 2 dargestellte so genannte Neural Radiance Fields NeRF, beispielsweise so genannter NeRF-Algorithmen oder pixelNeRF-Algorithmen.
Zur Erzeugung der dargestellten synthetischen dreidimensionalen Repräsentation R anhand von drei einzelnen zweidimensionalen Bildern B werden die fiktive Perspektive P und für jede Kamera 1 bis 3 ein auf einem als Convolutional Neural Network ausgebildeten künstlichen neuronalen Netzwerk N1 bis N3 basierender Encoder 4 bis 6 verwendet. Die fiktive Perspektive P weist dabei einen Sicht-Vektor auf, dessen Schnittpunkte mit den Objekten O1 bis On Dichtewerte erzeugt, welche orthogonal auf den jeweiligen Encoder 4 bis 6 projiziert werden. Das Ergebnis ist eine realistische dreidimensionale Umgebungsdarstellung bzw. Repräsentation R auf Grundlage der zweidimensionalen Bilder B mit einer Information einer jeweiligen Lage im Raum.
In 2 ist eine Erzeugung dreidimensionaler Repräsentationen R mittels Neural Radiance Fields NeRF dargestellt, das heißt so genannter NeRF-Algorithmen NeRF-A oder pixelNeRF-Algorithmen P-NeRF-A.
Neural Radiance Fields NeRF erlauben es, mittels künstlicher neuronaler Netzwerke N1 bis N3 hochauflösende dreidimensionale Szenen zu erstellen. Die dreidimensionale Darstellung erlaubt es, neue Sichtpunkte zu erstellen und eine Geometrie der Umgebung besser nachzuvollziehen.
Hierbei wird, wie beispielsweise dargestellt, mittels mehrerer mittels einer Kamera 1 bis 3 erfasster Bilder B1 bis Bx ein dreidimensionales Modell M erstellt und es werden neue Perspektiven P gerendert. Im autonomen Fahren können die Bilder B1 bis Bx von unterschiedlichen Kameras 1 bis 3 erfasst werden, da automatisierte Fahrzeuge 7, 8 (dargestellt in 4) aufgrund ihrer hohen Anzahl an Kameras 1 bis 3 eine mehrfache Abdeckung gleicher Sichtbereiche erlauben.
3 zeigt schematisch einen Ablauf eines Pseudo-Lidar-Verfahrens PLV. Ein solches Pseudo-Lidar-Verfahren PLV ermöglicht eine Extrahierung von dreidimensionalen Informationen aus zweidimensionalen Bildern B1 bis Bx, welche beispielsweise mittels zumindest einer Kamera 1 bis 3 erfasst wurden. Ein mögliches Ausführungsbeispiel eines Pseudo-Lidar-Verfahrens PLV ist in „Yurong You et al: Pseudo-LiDAR++ - Accurate Depth for 3D Object Detection in Autonomous Driving; Accepted to International Conference on Learning Representations (ICLR) 2020“ beschrieben und wird hiermit durch Referenz aufgenommen.
Lidarsensoren sind Lasersensoren, welche über hochgenaue Laserstrahlen ihre Umgebung abtasten. Ergebnis einer Abtastung ist eine dreidimensionale Punktwolke, wobei jeder Punkt einem von der Umgebung reflektierten Laserstrahl des Lidarsensors entspricht. Diese Punkte sind hochgenau. Ein Nachteil dieser Sensorklasse ist eine Umgebungsauflösung, das heißt die erfassten Punkte pro Sensorzyklus sind limitiert und können die Umgebung nicht in jedem Detail darstellen.
Ein Verfahren, um tiefe dreidimensionale Information aus hochauflösenden zweidimensionalen Bildern B1 bis Bx einer Kamera 1 bis 3 zu extrahieren, ist das Pseudo-Lidar-Verfahren PLV. Hierbei wird mittels einer Stereokamera eine künstliche dreidimensionale Punktwolke W aus Stereobildern SB1, SB2 berechnet. Pseudo-Lidar-Verfahren PLV verwenden hierbei die Bilder B1 bis Bx, um eine Tiefeninformation TI für jeden Bildpunkt mittels eines als Convolutional Neural Networks ausgebildeten künstlichen neuronalen Netzwerks N1 bis N3 zu schätzen. Nach der Schätzung der Tiefeninformation TI wird jeder Bildpunkt in die dreidimensionale Welt projiziert und es wird eine Tiefenkarte TK erzeugt, um die Punktwolke W zu erhalten. Dies erlaubt es, klassische Lidar-Algorithmen einzusetzen, welche auf die Extrahierung von Informationen in der dreidimensional repräsentierten Welt spezialisiert sind.
In 4 ist eine Draufsicht einer Verkehrsszene dargestellt.
Für eine verbesserte Objekterkennung in der Bildverarbeitung durch Synthetisieren von zweidimensionalen Bildern B1 bis Bx einer Kamera 1 ist zumindest ein automatisiert betreibbares Fahrzeug 7, 8 mit mindestens einer Kamera 1, 2 ausgestattet.
In einer Software von Verarbeitungseinheiten der Fahrzeugs 7, 8 ist ein Algorithmus hinterlegt, beispielsweise ein so genannter Differentiable-Neural-Rendering-Algorithmus, welcher eine zweidimensionale Information der Verkehrsszene in eine dreidimensionale Information skaliert bzw. rendert. Hierfür müssen mindestens ein Bild B1 bis Bx der Kameras 1, 2 und eine Position der jeweiligen Kamera 1, 2 in einem fahrzeugzentrischen oder globalen Koordinatensystem bekannt sein. Des Weiteren sind Winkel zwischen der jeweiligen Kamera 1, 2 und einem Objekt 01 aus Daten anderen Sensoren, beispielsweise Radarsensoren und/oder Lidarsensoren, bekannt
Zusätzlich zu den automatisierten Fahrzeugen 7, 8 kann die Infrastruktur innerhalb einer so genannten Operational Design Domain mit einer weiteren Kamera 3 ausgestattet sein, um das Verfahren zur Synthetisierung von 3D Informationen zu verfeinern. Somit können aus mittels der drei Kameras 1 bis 3 erfassten Bildern B1 bis Bx, wobei der Winkel und die Position der jeweiligen Kamera 1 bis 3 bekannt sind, eine synthetische dreidimensionale hochauflösende Repräsentation R berechnet werden, die den Fahrzeugen 7, 8 in Echtzeit oder langfristig bei einer Verbesserten Objekt- und Szenenerkennung ermöglicht.
Die synthetisierte dreidimensionale Information kann daraufhin in beliebige weitere zweidimensionale Perspektiven P mit Blickwinkeln, die für die Kameras 1 bis 3 nicht zur Verfügung stehen, zurückberechnet bzw. geschnitten werden, um die Objekterkennung zu verbessern. Solche Blickwinkel können beispielsweise Fahrradfahrer von oben zeigen.
Ein automatisiertes Fahrzeug 7, 8 und dessen Bilderkennung können im Allgemeinen keine Szenen gestürzter Fahrradfahrer, welche diesen von oben zeigen, abbilden. Durch das Synthetisieren können diese und weitere Perspektiven zur Bilderkennung hinzugefügt werden. Des Weiteren werden aufgrund von ermittelten Volumen- und Orientierungsinformationen ein Tracking und Verständnis eines gesamten Fahralgorithmus verbessert.
Zum genannten Synthetisieren werden dabei insbesondere die beschriebenen Neural Radiance Fields NeRF verwendet.
5 zeigt eine Draufsicht einer weiteren Verkehrsszene mit einem automatisiert fahrenden Fahrzeug 7 und einem vor diesem befindlichen Objekt O1.
Da eine Leistung von synthetischen dreidimensionalen Repräsentationen R proportional zu den zur Verfügung stehenden zweidimensionalen Bildern B1 bis Bx ist, ist in einer möglichen Ausgestaltung vorgesehen, jedes Fahrzeug 7, 8 mit zumindest einer weiteren Kamera 9, 10 auszustatten. So kann beispielsweise eine Front-Kamera durch zwei zusätzliche Kameras 9, 10 mit unterschiedlicher Blickrichtung bzw. unterschiedlichem Blickwinkel ergänzt werden. Dies Konzept kann auf alle Bereiche der Sensorausleuchtung erweitert werden.
Wie 5 zeigt, umfasst das Fahrzeug 7 drei Kameras 1, 9, 10 mit unterschiedlichen Erfassungsbereichen, wobei das vor dem Fahrzeug 7 befindliche und als Fahrzeug ausgebildete Objekt 01 von allen Kameras 1, 9, 10 erfasst wird. Durch die unterschiedlichen Erfassungsbereiche kann mittels der erfassten zweidimensionalen Bilder B1 bis Bx eine dreidimensionale Repräsentation R der Umgebung erstellt werden. Hierfür werden die Bilder B1 bis Bn entsprechend vorverarbeitet und als Input in das entsprechende künstliche neuronale Netzwerk N1 bis N3 gegeben. Mit Hilfe einer leistungsfähigen Recheneinheit wir dann durch einen Inferenzschritt einer Synthetisierungs-Architektur ein dreidimensionales Netz 3DM der Umgebung, auch als 3D-Mesh bezeichnet, erzeugt. Ein 3D-Mesh, auch als Polygonnetz bezeichnet, stellt untereinander mit Kanten verbundene Punkte, das heißt Graphen, dar, die in der Summe ein dreidimensionales Modell M abbilden.
6 zeigt schematisch eine Neural-Radiance-Fields-Architektur gemäß „Ben Mildenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis; In: ECCV 2020 (oral)“. Das erzeugte dreidimensionales Netz 3DM (3D-Mesh) der Umgebung ist dabei ein hochauflösender Render der Umgebung, der zusätzlich zu den Dimensionen der Objekte 01 bis On in der Umgebung auch semantische Informationen, wie beispielsweise eine Farbe oder Materialbeschaffenheit, darstellen kann.
Im dargestellten Ausführungsbespiel werden als Eingangsdaten des Neural Radiance Fields NeRF zweidimensionale Bilder B1, B2 von Kameras 1 bis 3, 9, 10 in einem NeRF-Algorithmus NeRF-A verarbeitet, in eine NeRF-Interferenz NeRF-I überführt und anschließend das dreidimensionale Netz 3DM (3D-Mesh) gebildet.
Das 3D-Mesh kann als eine Art Punktwolke mit Kamerainformationen gesehen werden. Durch die Erstellung eines präzisen 3D-Meshes der Umgebung ergeben sich einige Vorteile. Unter anderem werden Tiefeninformationen TI im Rahmen des Gesamtkontexts präzise prädiziert und erlauben damit auch eine akkurate Positionsschätzung von Objekten O1 bis On, die in einem falschen Kontext erkannt wurden.
7 zeigt ein Bild B1 einer Verkehrsszene mit erkannten Objekten 01 bis On. Das Objekt On ist beispielsweise eine Spiegelung eines Fahrzeugs in einer Fensterscheibe. Mittels des 3D-Meshs kann dieses Objekt On als falsch-positive Erkennung erkannt werden oder gegebenenfalls einem anderen Objekt 01 bis On-1 in der Umgebung zugeordnet werden. Durch diese zusätzliche Möglichkeit wird eine Kamera-Pipeline in sich selbst redundant, ohne dabei auf andere Sensormodalitäten angewiesen zu sein.
8 zeigt eine Draufsicht einer weiteren Verkehrsszene und ein Blockschaltbild einer Vorrichtung 11 zur kamerabasierten Umgebungserfassung.
Da die Erstellung eines zuverlässigen 3D-Mesh entsprechende Einbaupositionen der Kameras 1 bis 3, 9, 10 voraussetzt, wird eine möglichst hohe Position auf dem Fahrzeug 7 angestrebt, um eine maximale Übersicht zu erreichen. Die Verbesserung des dreidimensionalen Models M wird durch zusätzliche Kameras 3 in der Infrastruktur erreicht, welche ihre Bildinformation sowohl mit einem Backend 12 als auch mit dem automatisierten Fahrzeug 7 teilt. Hierbei kann eine zweidimensionale Rohbild-Information mit Koordinaten als auch das bereits synthetisierte 3D-Mesh geteilt werden.
Im dargestellten Ausführungsbeispiel ist der Grundgedanke, dass ein automatisiertes Fahrzeug 7 in seiner eigenen Software bereits eine Skalierung über die Genauigkeit der Objekterkennung durchführt. Bei schlecht erkannten Objekten 01, 02 kann das Fahrzeug 7 die Synthetisierung der Infrastruktur, hier des Backends 12 heranziehen. Es wird in diesem Fall davon ausgegangen, dass das Fahrzeug 7 anhand der mittels der Kameras 1, 3 erfassten Daten in einem ersten Verfahrensschritt V1, V2 Objekte 01, 02 erkennt und mittels der Objekterkennung in einem zweiten Verfahrensschritt V2 Überlappungen UE, in welchen beispielsweise vorliegend der Fahrradfahrer (Objekt 02) von dem Fahrzeug (Objekt 01) zumindest teilweise verdeckt und somit im Bild B1 bis Bx überlappt ist, erkennen kann oder mit Hilfe niedriger Wahrscheinlichkeiten schwer zu erkennende Objekte O1 bis On kennzeichnet. Die Kennzeichnung schwer zu erkennender Objekte kann beispielsweise durch niedrige Wahrscheinlichkeiten für die Objekte 01 bis On selbst oder geringe Unterschiede in der Erkennung einzelner Klassen erfolgen.
Sofern in einem Bereich der Umgebungserkennung Unsicherheiten auftreten, kann dies an das Backend 12 gemeldet werden. Das Backend 12 verfügt über eine direkte Verbindung zu Kameras 3 in der Infrastruktur, welche ihre Daten wiederum an das leistungsstarke Backend 12 oder direkt über eine Fahrzeug-zu-Infrastruktur-Kommunikation an das Fahrzeug 7 übermitteln können. Im Backend 12 und im Fahrzeug 7 wird durch die Kombination überlappender Kamera-Frames ein 3D-Mesh der Umgebung erzeugt. Das Fahrzeug 7 kann daraufhin seine Detektionen überprüfen, indem ein passender Sichtwinkel der Umgebung in den synthetisch erzeugten Daten betrachtet wird.
9 zeigt eine Belegungskarte OG einer Verkehrssituation, auch Occupancy Grid bezeichnet.
Zu einer weiteren Detaillierung erfolgt die Auswertung mit einem Abgleich der Fahrzeugdetektionen direkt im Backend 12 und die erkannten Objekte O1 bis 05 werden in dem Occupancy Grid mit Geschwindigkeit und Beschleunigungsvektoren für deren Bewegungsrichtung direkt hinterlegt.
Außerdem können mit Hilfe von synthetischen dreidimensionalen Informationen neue Orientierungen von Objekten O1 bis On gerendered werden. Da ObjekterkennungsAlgorithmen nicht variant gegen Veränderungen der Orientierungen sind, können synthetische dreidimensionale Informationen durch neue Bilder B1 bis Bx mit anderen Orientierungen der Umgebung generiert werden, welche eine Datenverteilung von Trainingsdaten erweitert. Dadurch steigt die Wahrscheinlichkeit, ein „schweres“ Beispiel zu erkennen erheblich, auch als Corner Use Case bezeichnet.
10 zeigt ein Blockschaltbild eines möglichen Ausführungsbeispiels einer Vorrichtung zur kamerabasierten Umgebungserfassung für ein Fahrzeug 7, 8.
Dabei wird angenommen, dass das Fahrzeug 7, 8 mit einer Surround-View-Umgebungssensorik und entsprechenden Software-Algorithmen zur Erkennung von Objekten 01 bis On ausgestattet ist. Weiterhin wird angenommen, dass ein gemeinsamer Zeitmaster für mehrere Umgebungssensoren, einschließlich zumindest einer Kamera 1 bis 3, 9, 10, vorhanden ist, um eine zeitliche Synchronisierung von Sensorsignalen zu erlauben. Die Kameras 1 bis 3, 9, 10 können dabei zumindest teilweise Bestandteil der Infrastruktur sein.
Weiterhin ist ein Sensorset vorhanden, welches mehrere Kameras 1 bis 3, 9, 10 umfasst, die eine Sensorausleuchtung um das Fahrzeug 7, 8 herum abdecken können. Optional sind Lidarsensoren 13 bei Fahrzeugen 7, 8 höherer Automatisierungslevel vorgesehen.
Ferner ist eine Verarbeitungseinheit 14 vorgesehen, die zur Fusion verschiedener Sensoroutputs dient und dreidimensionale Modelle M der Umgebung erzeugt.
Zusätzlich ist ein Pseudo-Lidar-Verfahren PLV mit einem Pseudo-Lidar 15 vorgesehen, welches die Erstellung von Punktwolken W durch die Auswertung von Bildern B1 bis Bx der Kameras 1 bis 3, 9, 10 ermöglicht. Dabei wird das Pseudo Lidar 15 als redundanter Pfad in der Kamerapipeline genutzt. Auch werden mittels des Pseudo-Lidars 15 erzeugte Daten mit aus den Bildern B1 bis Bx unmittelbar erkannten Daten der Objekte 01 bis On in einer Verarbeitungseinheit 20 fusioniert.
Weiterhin ist ein Neural Radiance Fields NeRF als Algorithmus zur Erstellung von dreidimensionalen Netzen 3DM (3D-Meshes) vorgesehen.
Auch ist eine Backendanbindung vorgesehen, welche insbesondere mit Mobilfunk arbeitet und eine echtzeitfähige Kommunikation zwischen Fahrzeugen 7, 8 und dem Backend 12 ermöglicht.
Ferner sind ein Verfahren zur Erkennung kritischer Bereiche durch einen Abgleich verschiedener Umgebungsmodelle, ein Verfahren zur Fusion von 3D-Meshes verschiedener Stadt-Bereiche, um diese detailgetreu in einer Simulation darzustellen, und ein Datenformat, welches für eine Erstellung von dreidimensionalen Modellen M der Umgebung ausgebildet ist, vorgesehen.
Die beschriebene Erstellung des 3D-Meshs 3DM erlaubt es außerdem, Methoden des Unsupervised Learning zu nutzen. Unsupervised-Learning-Pfade sind im dargestellten Blockschaltbild gestrichelt dargestellt, wohingegen Supervised-Learning-Pfade mit durchgezogener Linie dargestellt sind.
Beim Unsupervised Learning arbeiten Algorithmen mit Hilfe von Beziehungen zwischen Datenpunkten, beispielsweise Abständen zwischen einzelnen Punkten im dreidimensionalen Raum. Eine Zugehörigkeit der einzelnen Punkte wird auf Grund der Beziehungen der Datenpunkte hergestellt. So können beispielsweise Punkte, die nah beieinander liegen, einem gemeinsamen Objekt 01 bis On zugeordnet werden.
Beim Supervised Learning werden die Algorithmen mit Hilfe von Labeln trainiert. Dadurch können lediglich Objekte 01 bis On erkannt werden, welche durch Entwickler in einem Datensatz und Training der künstlichen neuronalen Netzwerke N1 bis N3 berücksichtigt wurden. Wenn sich beispielsweise eine Mülltonne auf einer Straße befindet, diese aber nicht durch das künstliche neuronale Netzwerk N1 bis N3 gelernt wurde, kann diese nicht erkannt werden.
Damit Methoden des Unsupervised Learning genutzt werden können, werden einzelne Eckpunkte eines Clusters in einer Datenstruktur, wie beispielsweise einem so genannten kd-Tree, hinterlegt. Zur Bildung der Cluster erfolgt ein Clustering C, in welchem anhand von Clusteranalysen, auch als Clustering-Algorithmen oder Ballungsanalysen bezeichnet, Ähnlichkeitsstrukturen in meist relativ großen Datenbeständen entdeckt werden. So gefundene Gruppen von ähnlichen Objekten 01 bis On werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering C. Die gefundenen Ähnlichkeitsgruppen können graphentheoretisch, hierarchisch, partitionierend oder optimierend sein.
Mittels dieser die Cluster umfassenden Datenstruktur können unbekannte Objekte O1 bis On mit Hilfe von Clustering C oder anderen Unsupervised-Methoden erkannt werden, um einen so genannten Free Space zu erstellen, also eine Fläche zu formulieren, die für das Fahrzeug 7, 8 befahrbar ist. Dadurch können Objekte O1 bis On erkannt werden, die nicht durch einen Objekterkennungsalgorithmus erlernt worden sind. Die Umgebungserkennung wird hierdurch deutlich robuster und generalisiert in unbekannten Szenarien besser.
Durch eine Kombination von Deep-Learning-Verfahren, wie sie bereits im Bereich des autonomen Fahrens angewendet werden, und synthetisch erzeugter dreidimensionaler Informationen aus Bildern B1 bis Bx der Kamera 1 bis 3, 9, 10 ergeben sich neue Möglichkeiten für eine redundante Sensorfusion und die Erkennung von unbekannten Objekten O1 bis On. Hierzu gehören sowohl Objektklassen, die beim Training der Supervised-Learning-Methoden nicht berücksichtigt wurden, als auch Objekte 01 bis On, die nicht klassifiziert worden sind. Durch die dreidimensionale Beschaffenheit von Punktwolken W und 3D-Meshes können effiziente Clustering Methoden angewendet werden, um unbekannte Objekte O1 bis On zu erkennen. Um eine Leistungsfähigkeit von Clustering-Modellen zu verbessern, können die Daten zuerst mit Hilfe eines Autoencoders 16, 17 komprimiert werden.
Auf dieser komprimierten Repräsentation der Datenmengen wir dann ein Clustering C durchgeführt, um Objekte O1 bis On zu erkennen. Verfahren, die hierfür in Frage kommen, sind beispielsweise das so genannte DBSCAN oder K-Means-Clustering.
Da mehrere reduzierte Umgebungsmodelle als Input durch eine mittels des Lidars 13 erzeugte Lidar-Punktwolke LW, dem Pseudo-Lidar-Verfahren PLV und dem synthetisch erzeugten 3D-Mesh vorliegen, kann das Clustering C auf verschiedenen Inputs erfolgen. Die in diesen redundanten Inputs erkannten Cluster dienen zum Abgleich mit der klassischen Objekterkennung automatisierter Fahrzeuge 7, 8.
Wird ein Cluster auf allen drei Inputs erkannt und damit bestätigt, wird es mit einer erkannten Objektliste des automatisierten Fahrzeugs 7, 8 abgeglichen. Liegt eine Diskrepanz zwischen den erkannten Objekten O1 bis On und den Clustern vor, wird ein eine Kennzeichnung in der Umwelterkennung gesetzt und eine Sicherheitsberechnung ausgelöst.
Werden alle Cluster einem erkannten Objekt 01 bis On zugeordnet, wird hierdurch wiederum die gesamte Umgebungserkennung robuster, wodurch eine Reduzierung von falsch-negativen Ergebnissen realisiert werden kann.
Da eine Anzahl an Objekten O1 bis On und deren Aufbau höchst komplex ist, können mehrere Cluster-Kombinationen erstellt werden. Durch Tracking-Verfahren kann durch ein Verfolgen der einzelnen Cluster über mehrere Zeitschritte eine Anzahl möglicher Cluster reduziert werden, um Dimensionen unbekannter Objekte O1 bis On einzugrenzen. Sofern ein Cluster erfolgreich über mehrere Zeitschritte getrackt werden kann, können mit Hilfe von Trackingparametern, wie beispielsweise Beschleunigungen, Orientierungen, Dimensionen und Geschwindigkeiten des Objekts O1 bis On, einem Klassifizierungsalgorithmus übergeben werden, welcher überprüfen kann, ob das unbekannte Objekt 01 bis On ein falsch-negatives Ergebnis im Sinne der Supervised-Learning-Pipeline 18 war. Dadurch können beispielsweise nicht erkannte Fahrzeuge mit Hilfe der Unsupervised-Learning-Pipeline 19 korrekt zugeordnet werden.
In 11 ist ein Bild B1 einer Verkehrsszene mit mittels der Vorrichtung gemäß 10 erkannten Objekten 01, 02 dargestellt.
Durch die Extrahierung der dreidimensionalen Informationen des Kameramodells kann ein Müllcontainer als Objekt O1 erkannt werden. Dies wäre mit einer reinen Objekterkennung nur möglich, wenn im Datensatz entsprechende Beispiele für Müllcontainer gelabelt worden sind. Objekterkennungsalgorithmen sind jedoch nicht bzw. kaum in der Lage dazu, unbekannte Objekte O1 bis On zu erkennen und brauchen selbst für die korrekte Erkennung von gelabelten Objekten eine Vielzahl von Trainingsbeispielen.
Objekterkennungsalgorithmen können außerdem nicht zu unbekannten Orientierungen von Objekten O1 bis On extrapolieren und sind nicht invariant gegen Verzerrungen. Dadurch können Objekterkennungsalgorithmen bei bestimmten Linsentypen ohne eine entsprechende Vorverarbeitung keine zufriedenstellende Leistungsfähigkeit erreichen. Auf Grund einer schlechten Generalisierung sind solche Architekturen außerdem sehr anfällig gegen so genannte Adversarial Examples. Unter Adversarial Examples werden veränderte Datenpunkte, welche einen Machine-Learning-Algorithmus zum Versagen bringen, verstanden. Im Beispiel der Bildverarbeitung können beispielsweise Stoppschilder mit bestimmten Aufklebern nicht mehr erkannt werden oder teilweise sogar nur eine Veränderung eines Bildpunkts, sofern ein Angreifer Zugang zum verwendeten Modell hat, zur Fehlfunktion führen.
Mittels der in 10 dargestellten redundanten Pfade in der Objekterkennung steigt damit sowohl die Leistungsfähigkeit der Objekterkennung als auch die Robustheit gegen Adversarial Attacks, da bei einem Angriff mehrere und vor allem unterschiedliche Modelle versagen müssten.
Dasselbe gilt auch für das bereits genannte Beispiel in 7. Das aufgrund der Spiegelung in der Fensterscheibe falsch prädizierte Fahrzeug kann nun rein durch die Kamerapipeline ausgeschlossen werden.
Die Pipeline ermöglicht es somit, völlig redundant zu sein und ist für bestimmte Erkennungen nicht von einem Lidarsensor 13 abhängig. Lidarsensoren 13 sind außerdem anfällig gegen Wetterbedingungen, wie beispielsweise Schnee oder Regen. Daraus folgt, dass Fahrzeuge 7, 8, die von einer Umgebungserfassung eines Lidarsensors 13 abhängig sind, im Falle solcher Wetterbedingungen in einen sicheren Zustand gebracht werden müssen.
Mittels des mittels der Vorrichtung gemäß 10 ausgeführten Verfahrens ist es weiterhin möglich, durch eine optimale Ausnutzung der Kameras 1 bis 3, 9, 10 das Fahrzeug 7, 8 in Szenarien mit begrenzter Komplexität, beispielsweise während einer Autobahnfahrt, auch in Schlechtwetter-Szenarien zu betreiben.
Zwar sind auch Radarsensoren in den meisten Fahrzeugen 7, 8 verbaut, können aber aufgrund ihrer Sensorcharakteristik keine parkenden Fahrzeuge erkennen. Außerdem ist die Auflösung von Radarsensoren zu gering, um eine verlässliche Objekterkennung zu realisieren.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017116016 A1 [0002]

Zitierte Nicht-Patentliteratur

Yurong You et al: Pseudo-LiDAR++ - Accurate Depth for 3D Object Detection in Autonomous Driving; Accepted to International Conference on Learning Representations (ICLR) 2020 [0023]

Claims

Verfahren zur kamerabasierten Umgebungserfassung für ein Fahrzeug (7, 8), wobei mittels zumindest eines künstlichen neuronalen Netzwerks (N1 bis N3) eine Sensorfusion durchgeführt wird, dadurch gekennzeichnet, dass - mittels zumindest einer Kamera (1 bis 3, 9, 10) des Fahrzeugs (7, 8) erfasste zweidimensionale Bilder (B1 bis Bx) mittels Neural Radiance Fields (NeRF) zu einer dreidimensionalen Information synthetisiert werden, - mittels weiterer Sensoren von anderen Verkehrsteilnehmern und/oder einer Infrastruktur erfasste Informationen bei der Synthetisierung berücksichtigt werden, - ein Pseudo-Lidar (15) in einer Kamera-Pipeline als redundanter Pfad verwendet wird und - mittels des als Convolutional Neural Network ausgebildeten künstlichen neuronalen Netzwerks (N1 bis N3) anhand von Daten des Pseudo-Lidars (15) zu jedem Bildpunkt in den mittels der Kamera (1 bis 3, 9, 10) erfassten zweidimensionalen Bildern (B1 bis Bx) ein zugehöriger Tiefenwert bestimmt wird und als dreidimensionale Information derart projiziert wird, dass ein dreidimensionales Netz (3DM) erzeugt wird.