DE102022208714A1

DE102022208714A1 - Computerimplementiertes System und Verfahren zur semantischen Analyse einer Szene

Info

Publication number: DE102022208714A1
Application number: DE102022208714.3A
Authority: DE
Inventors: Florian Drews; Florian Faion; Lars Rosenbaum; Michael Ulrich; Claudius Glaeser; Fabian Timm
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2024-02-29

Abstract

Computerimplementiertes System (100) zur semantischen Analyse einer Szene, mindestens umfassend:• eine Wahrnehmungsschicht (10) zum Aggregieren szenenspezifischer Sensordaten (1, 2, 3) von mindestens zwei verschiedenen Sensormodalitäten (11, 12, 13);• für jede Sensormodalität ein separater Merkmalsextraktor (21, 22, 23), der ein vortrainiertes Backbone-Netzwerk (24, 25, 26) für jede Sensormodalität umfasst;wobei das Backbone-Netzwerk (24, 25, 26) konfiguriert ist, mindestens eine szenenspezifische Merkmalskarte basierend auf den Sensordaten (1, 2, 3) zu erzeugen, die von der jeweiligen Sensormodalität (11, 12, 13) bereitgestellt werden, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind;• eine Fusionsschicht (30) zum Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten (11, 12, 13) in einem gemeinsamen Darstellungsraum der Szene; und• einen Systemanalysekopf (40) für das semantische Analysieren der Szene auf der Grundlage der fusionierten latenten Merkmale.

Description

Stand der Technik
Die sichere und präzise semantische Analyse einer Szene, wie die 3D-Objekterkennung, ist eine Kerntechnologie für das autonome Fahren. Alle nachfolgenden Komponenten wie Tracking, Vorhersage und Planung hängen in hohem Maße von der Erkennungsleistung ab. Fehler bei der Wahrnehmung anderer Verkehrsteilnehmer können sich möglicherweise immer weiter im System fortsetzen und zu einem schwerwiegenden Ausfall des autonomen Fahrzeugs führen. Um solche Fehler zu vermeiden, bedarf es eine sorgfältigen Gestaltung des Wahrnehmungssystems. Es werden häufig mehrere Sensoren und unterschiedliche Sensormodalitäten verwendet, vor allem Lidars, RGB-Kameras und Radare, um die semantischen Analyse einer Szene zu bewältigen. Durch die Verwendung mehrerer Sensoren verbessert sich die Systemredundanz, und verschiedene Sensormodalitäten erhöhen die Erkennungsrobustheit, da ihre komplementären physikalischen Eigenschaften genutzt werden können, um verschiedene Fahrszenarien zu berücksichtigen, in denen eine einzelne Sensormodalität versagt. Beispielsweise verschlechtert sich die Leistung von Lidars und Kameras bei nebligen Wetterbedingungen, während Radare relativ unbeeinflusst bleiben. Andererseits leisten Radare und monokulare Kameras nur eine geringe oder ungenaue Tiefenschätzung, die durch die dichte und genaue Lidar-Punktwolke kompensiert werden kann.
In den letzten Jahren wurden große Fortschritte bei der 3D-Objekterkennung mit den Modalitäten von Lidar, Kamera und Radar erzielt. Dieser Trend wird durch öffentliche große multimodale Datensätze wie nuScenes und Waymo Open Dataset beflügelt. Viele dieser Ansätze konzentrieren sich auf die 3D-Objekterkennung im Nahbereich bis zu 75 Meter.
Auch die Objekterkennung im Fernbereich ist von großer Bedeutung, da eine frühzeitige Erkennung anderer Verkehrsteilnehmer und deren Aktionen - insbesondere bei Autobahnszenarien - sicherere, schnellere und reibungslosere Reaktionen des Gesamtsystems ermöglichen könnten.
Eine große Herausforderung bei der Arbeit mit mehreren Sensoren und Modalitäten ist die Zusammenführung dieser Vielzahl von redundanten und komplementären Sensordaten. An der Schnittstelle zwischen den mehreren Sensoren und der Ausgabe der Wahrnehmung hat die Fusion (Verschmelzung) einen wichtigen Einfluss auf die Gesamtsystemleistung.
Die meisten der vorhandenen Arbeiten konzentrieren sich auf die Fusion von Lidar- und RGB-Kamerasensoren zur 3D-Objekterkennung. Bekannt sind auch Lösungen zur Kamera-Radar-Fusion.
Die vorliegende Erfindung stellt einfache und flexible Lösungen für mehr als zwei Sensormodalitäten bereit, z. B. ein Lidar-Kamera-Radar-Fusionsnetzwerk. Diese Kombination ist besonders vorteilhaft für die 3D-Objekterkennung, da Radarsensoren in Bezug auf ihr Messprinzip orthogonal zu Lidars und Kameras sind und sich die Radartechnologie mit steigenden Marktanforderungen rasch weiterentwickelt.
Offenlegung der Erfindung
Der Gegenstand der Erfindung ist ein computerimplementiertes System zur semantischen Analyse einer Szene, welches mindestens Folgendes umfasst:

• eine Wahrnehmungsschicht zum Aggregieren szenenspezifischer Sensordaten aus mindestens zwei unterschiedlichen Sensormodalitäten;
• für jede Sensormodalität einen separaten Merkmalsextraktor, der ein Backbone-Netzwerk umfasst, wobei das Backbone-Netzwerk konfiguriert ist, mindestens eine szenenspezifische Merkmalskarte basierend auf Sensordaten zu erzeugen, die von der jeweiligen Sensormodalität bereitgestellt werden, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind;

• eine Fusionsschicht zum Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten in einem gemeinsamen Darstellungsraum der Szene; und
• einen Systemanalysekopf für das semantische Analysieren der Szene auf der Grundlage der fusionierten latenten Merkmale.

Das vorgeschlagene System stellt eine modulare Netzwerkarchitektur dar, die konfiguriert ist, verschiedene Sensormodalitäten für eine genaue und robuste semantische Analyse einer Szene zu fusionieren, insbesondere für die Fusion von Lidars, Kameras und Radaren für die 3D-Objekterkennung im Fernbereich. Dieser Ansatz verwendet austauschbare Merkmalsextraktoren mit Backbone-Netzwerken, um umfangreiche latente Merkmale für jede Sensormodalität separat zu extrahieren. Vorzugsweise, aber nicht zwingend, sind diese Backbone-Netzwerke vortrainiert. Nur diese latenten Merkmale der verschiedenen Sensormodalitäten werden in einem gemeinsamen Darstellungsraum der Szene fusioniert. Schließlich bilden die daraus resultierenden fusionierten latenten Merkmale die Grundlage für die semantische Analyse der Szene. Dementsprechend werden die von den verschiedenen Sensormodalitäten aggregierten szenenspezifischen Informationen erst auf der Stufe der latenten Merkmale fusioniert, wodurch sich der Aufwand für das Trainieren des Systems deutlich verringert.
Die Vorteile eines solchen Systems und eines entsprechenden Verfahrens zur semantischen Analyse einer Szene sind:

- Durch die Verwendung vortrainierter Backbone-Netzwerke zur Merkmalsextraktion verringert sich der Trainingsaufwand für das Gesamtsystem erheblich, da bei unveränderten Parametern des vortrainierten Backbone-Netzwerks die Anzahl der beim Training zu ermittelnden Parameter und damit der Trainingsaufwand deutlich verringert wird und somit weniger Zeitaufwand mit sich bringt. Außerdem wird die Überanpassung verringert.
- Das Vortrainieren der Backbone-Netzwerke kann an anderen Datensätzen und für andere Anwendungen durchgeführt werden, als dies mit dem beanspruchten System beabsichtigt ist. Solange es eine gewisse Überlappung mit der Zielanwendung des beanspruchten Systems gibt, extrahieren die vortrainierten Backbone-Netzwerke Eigenschaften, die auch für die Zielanwendung des Systems geeignet sind.

- Es werden weniger Trainingsdaten benötigt, da das System nur lernen muss, wie die bereits vorhandenen Eigenschaften der verschiedenen Modalitäten zu kombinieren sind.
- Die Fusion von Modalitäten auf latenter Merkmalsebene und nicht auf Sensordateneingangsebene ermöglicht eine Aufteilung der Berechnungen auf verschiedene Steuergeräte, da die Eigenschaften der einzelnen Modalitäten unabhängig voneinander berechnet werden.
- Die modulare und robuste Systemarchitektur ermöglicht die Verwendung verschiedener Kombinationen der verschiedenen Sensormodalitäten. insbesondere ermöglicht die Fusion von Lidar, Kamera und Radar die Erkennung entfernter Objekte.
- Das beanspruchte System und Verfahren sind nicht auf die Anwendung der Objekterkennung beschränkt. Durch Auswechseln des Systemanalysekopfs sind auch andere Anwendungen wie semantische Segmentierung und Klassifizierung möglich.

Die Wahrnehmungsschicht des beanspruchten Systems könnte mindestens zwei der folgenden Sensormodalitäten umfassen: Lidar, Kamera, Radar, Ultraschall und Infrarotkamera. Dies ist besonders vorteilhaft für die Objekterkennung und - klassifizierung, für die Fahrspurerkennung und/oder für die semantische Segmentierung und Klassifizierung.
Mindestens einer der Merkmalsextraktoren des Systems kann ein faltendes neuronales Netz (Convolutional Neural Network, CNN) oder ein Merkmalspyramiden-Netzwerk (Feature Pyramid Network, FPN) oder ein neuronales Graphen-Netzwerk (Graph Neural Network, GNN) oder einen Transformer als Backbone-Netzwerk umfassen. Wie bereits erwähnt, können die Backbone-Netzwerke im Hinblick auf ein Analyseziel vortrainiert werden, das dem Ziel des Systemanalysekopfs ähnelt oder zumindest mit diesem in Zusammenhang steht, d. h. der Analyseaufgabe des Systems. Außerdem könnte mindestens einer der Merkmalsextraktoren mit einem eigenen Trainingsanalysekopf bereitgestellt werden, der für die jeweilige Sensormodalität spezifisch ist und der zum Vortrainieren des Backbone-Netzwerks des Merkmalsextraktors und/oder zum Trainieren des beanspruchten Systems als Ganzes verwendet wird. Des Weiteren könnte mindestens einer der Merkmalsextraktoren mit einer Mischstufe (blendig stage) zum Erzeugen einer szenenspezifischen Merkmalskarte aus mindestens zwei szenenspezifischen Merkmalskarten mit unterschiedlichen Maßstäben bereitgestellt werden, die durch das Backbone-Netzwerk des Merkmalsextraktors erzeugt worden sind.
In einer bevorzugten Ausführungsform der Erfindung umfasst das System eine Transformationsschicht zum Umwandeln der latenten Merkmale mindestens einer Sensormodalität in einen anderen Darstellungsraum der Szene, um die Fusion der latenten Merkmale mit den latenten Merkmalen mindestens einer anderen Sensormodalität zu ermöglichen. Insbesondere bei der Kombination der Sensormodalitäten Lidar, Kamera und Radar ist es vorteilhaft, die „Vogelperspektive“ (Bird's Eye View, BEV) als gemeinsamen Darstellungsraum der Szene zu verwenden, um die latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten zu fusionieren. Um einen räumlichen und/oder zeitlichen Versatz zwischen den verschiedenen latenten Merkmalskarten im gemeinsamen Darstellungsraum zu beseitigen oder zumindest zu verringern, könnte das beanspruchte System eine Merkmalsausrichtungsschicht umfassen.
Schließlich sollte noch erwähnt werden, dass alle der folgenden Systemkomponenten als neuronale Netze implementiert sein oder zumindest ein solches umfassen könnten: Mischstufe von Merkmalsextraktoren, Transformationsschicht, Merkmalsausrichtungsschicht, Fusionsschicht und Systemanalysekopf. Die Parameter dieser neuronalen Netze werden bestimmt, indem das System als Ganzes trainiert wird, während die Parameter der vortrainierten Backbone-Netzwerke der Merkmalsextraktoren unverändert beibehalten werden.
Ein weiterer Gegenstand der vorliegenden Erfindung ist ein computerimplementiertes Verfahren zur semantischen Analyse einer Szene, wobei dieses Verfahren dem beanspruchten System entspricht und somit die folgenden Schritte umfasst:

• Aggregieren szenenspezifischer Sensordaten unter Verwendung von mindestens zwei unterschiedlichen Sensormodalitäten;
• Getrenntes Verarbeiten der szenenspezifischen Sensordaten für jede Sensormodalität, um mindestens eine szenenspezifische Merkmalskarte zu erzeugen, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind;
• Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten in einem gemeinsamen Darstellungsraum der Szene; und
• Semantisches Analysieren der Szene basierend auf den fusionierten latenten Merkmalen.

In einer Ausführungsform des beanspruchten Verfahrens werden für mindestens eine Sensormodalität mindestens zwei szenenspezifische Merkmalskarten mit unterschiedlichen Maßstäben erzeugt. Die latenten Merkmale der mindestens zwei Merkmalskarten mit unterschiedlichen Maßstäben werden gemischt (to blend), um aus den mindestens zwei szenenspezifischen Merkmalskarten mit unterschiedlichen Maßstäben eine szenenspezifische Merkmalskarte zu erzeugen.
In einer bevorzugten Ausführungsform des beanspruchten Verfahrens werden die latenten Merkmale mindestens einer Sensormodalität in einen anderen Darstellungsraum der Szene umgewandelt, um die Fusion der latenten Merkmale mit den latenten Merkmalen mindestens einer anderen Sensormodalität in einem gemeinsamen Darstellungsraum der Szene zu ermöglichen. In einer anderen bevorzugten Ausführungsform der Erfindung werden die latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten räumlich und/oder zeitlich in dem gemeinsamen Darstellungsraum der Szene ausgerichtet, bevor die latenten Merkmale fusioniert werden.
Die Fusion der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten in einem gemeinsamen Darstellungsraum der Szene könnte durch Kombinieren einzelner latenter Merkmale der jeweiligen Merkmalskarten mittels Verkettung und/oder über mathematische Berechnung und/oder Verwendung eines neuronalen Netzes erfolgen.
Zeichnung
Die einzige Figur veranschaulicht eine bevorzugte Ausführungsform der Erfindung - das System und das Verfahren -, die nachfolgend beschrieben wird. Die einzige Figur zeigt die Architektur eines computerimplementierten Systems 100 zur semantischen Analyse einer Szene. Ein solches System könnte in einem Fahrzeugmodul für das automatisierte Fahren implementiert werden. Im Fall des gewählten Beispiels hat die semantische Analyse der Szene die Objekterkennung zum Ziel. Die Erfindung ist jedoch nicht auf diese Anwendung beschränkt, sondern kann auch im Rahmen der Objektklassifizierung, Fahrspurerkennung und/oder semantischen Segmentierung und Klassifizierung verwendet werden.
Ausführliche Beschreibung
Erfindungsgemäß sind die Hauptkomponenten des Systems 100:

• eine Wahrnehmungsschicht 10 zum Aggregieren der szenenspezifischen Sensordaten 1, 2, 3 von mindestens zwei verschiedenen Sensormodalitäten 11, 12 und 13;
• für jede Sensormodalität 11, 12 und 13 ein eigener Merkmalsextraktor 21, 22 und 23, der ein vortrainiertes Backbone-Netzwerk 24, 25 und 26 umfasst; wobei das Backbone-Netzwerk 24, 25 und 26 konfiguriert ist, mindestens eine szenenspezifische Merkmalskarte basierend auf den Sensordaten 1, 2, 3 zu erzeugen, die von der jeweiligen Sensormodalität 11, 12 und 13 bereitgestellt werden, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
• eine Fusionsschicht 30 zum Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten 11, 12 und 13 in einem gemeinsamen Darstellungsraum der Szene; und
• ein Systemanalysekopf 40 für das semantische Analysieren der Szene auf der Grundlage der fusionierten latenten Merkmale.

Die Wahrnehmungsschicht 10 der vorliegenden Ausführungsform umfasst drei verschiedene Sensormodalitäten, nämlich Lidar 11, Kamera 12 und Radar 13.
RGB-Kamerabilder erfassen detaillierte Texturinformationen von Objekten und werden häufig zur Objektklassifizierung eingesetzt. Kameras stellen jedoch keine direkten Tiefeninformationen bereit, was die Aufgabenstellung der 3D-Sicht zu einer Herausforderung macht, insbesondere in einem Monokamera-Umfeld.
Radarpunkte liefern die Azimutgeschwindigkeit und den radialen Abstand, die hilfreich sind, um dynamische Objekte zu lokalisieren. Radare sind auch robust, was die unterschiedlichen Licht- und Wetterbedingungen betrifft. Die 3D-Objekterkennung unter Verwendung von Radaren ist jedoch durch eine niedrige Auflösung und fehlerhafte Höhenschätzungen begrenzt.
Lidar-Punkte liefern im Vergleich zu Kamerabildern oder Radarpunkten mit fehlerhafter Tiefenschätzung oder Sparsity genaue Tiefeninformationen der Umgebung und verfügen über eine höhere Auflösung von Objektdetails im 3D-Raum.
Die Erfindung ist jedoch nicht auf die Verwendung dieser drei Sensormodalitäten beschränkt, sondern kann auch nur zwei oder mehr als drei Sensormodalitäten verwenden, die auch Ultraschall und/oder eine Infrarotkamera umfassen.
Erfindungsgemäß umfasst das System 100 einen eigenen Merkmalsextraktor für jede Sensormodalität, d. h. den Merkmalsextraktor 21 für Lidar 11, den Merkmalsextraktor 22 für die Kamera 12 und den Merkmalsextraktor 23 für Radar 13. Im vorliegenden Beispiel ist jeder Merkmalsextraktor 21, 22 und 23 als individueller Objektdetektor konfiguriert, der geeignete latente Merkmale aus den jeweiligen Sensordaten 1, 2, 3 extrahiert. Daher umfasst jeder Merkmalsextraktor 21, 22 und 23 ein vortrainiertes Backbone-Netzwerk 24, 25 und 26. Die Backbone-Netzwerke der einzelnen Merkmalsextraktoren könnten denselben oder einen unterschiedlichen Typ aufweisen. Gut erforschte 2D-CNN-Architekturen (Convolutional Neural Network) könnten für diesen Zweck verwendet werden, da ihre dichten 2D-Ausgaben detailreich sind. Ebenfalls vorstellbar sind 3D-Sparse Convolutions, Graph Neural Networks (GNN) oder Transformer. Im vorliegenden Beispiel umfasst jeder der Merkmalsextraktoren 21, 22 und 23 ein Feature-Pyramid Network (FPN) zum Extrahieren von Merkmalskarten mit mehreren Maßstäben aus den jeweiligen Sensordaten 1, 2, 3. Außerdem umfasst jeder der Merkmalsextraktoren 21, 22 und 23 einen Trainingsanalysekopf 27, 28 und 29, bei dem es sich um einen Detektionskopf für Klassifizierungs- und Box-Regressionsausgaben handelt und der für das Vortraining und als weiteres Optimierungsziel für einen End-to-End-Trainingsaufbau verwendet wird.
Es kann vorteilhaft sein, Merkmalsextraktoren mit Backbone-Netzwerken zu verwenden, die für die Analyseaufgabe des Systems, in diesem Fall die Objekterkennung, vortrainiert sind. Es liegt jedoch auch innerhalb des Umfangs der Erfindung, Merkmalsextraktoren mit Backbone-Netzwerken zu verwenden, die für unterschiedliche, aber ähnliche Aufgaben vortrainiert sind. So können beispielsweise bei der Objekterkennung gute Ergebnisse durch den Einsatz von Merkmalsextraktoren erzielt werden, die für die semantische Segmentierung und Klassifizierung trainiert sind.
Wie vorstehend erwähnt, umfasst im vorliegenden Beispiel jeder der Merkmalsextraktoren 21, 22 und 23 ein Feature-Pyramid Network (FPN) als Backbone-Netzwerk.
Im Falle des Merkmalsextraktors 22 für die Sensormodalität Kamera 12 stellt ein Kamerasensor ein RGB-Bild I der Szene als Eingabe für das Kamera-FPN 25 bereit. Entsprechend der Ausrichtung des Kamerasensors ist ein solches Bild I eine Vorderansicht der Szene und hat die Form (H, W, 3) mit der Höhe H und der Breite W. Das Kamera-FPN 25 extrahiert die Merkmalskarten mit mehreren Maßstäben aus Bild I.
Zum Erzeugen einer szenenspezifischen Merkmalskarte aus diesen mindestens zwei szenenspezifischen Merkmalskarten mit mehreren Maßstäben umfasst der Merkmalsextraktor 22 eine Mischstufe 50, die als neuronales Netz implementiert ist. Innerhalb der Mischstufe 50 werden diese Merkmalskarten mit mehreren Maßstäben linear auf einen gemeinsamen Maßstab Z hochskaliert, verkettet und durch mehrere Faltungsschichten des neuronalen Netzes für eine Merkmalsmischung mit mehreren Maßstäben verarbeitet. Die Ausgabe der Mischstufe 50 ist eine szenenspezifische Merkmalskarte mit den qualitativ hochwertigen Merkmalen F^C der Form (ZH, ZW, K), wobei K die Anzahl der Kanäle ist.
In einer Ausführungsform extrahiert das Kamera-FPN 25 Merkmalskarten mit einem Herunterskalierungsfaktor {1/4, 1/8, 1/156, 1/32} und 256 Kanälen. Das Merkmalsmischungsmodell (feature blending model) besteht aus fünf 3x3-Faltungsschichten mit 96 Kanälen, ReLU-Aktivierungsfunktion mit Ausnahme des letzten und 1x1-Faltung für die erste Schicht.
Bei den Merkmalsextraktoren 21 und 23 für die Sensormodalitäten Lidar 11 und Radar 13 stellen die Sensoren Lidar- und Radar-Punktwolken bereit, die mittels Belegungsrasterkarten auf Ebene der Vogelperspektive (BEV) zur Merkmalsextraktion dargestellt werden, mit einer Rastergröße der Höhe X und Breite Y. Die FPNs 24 und 26 der jeweiligen Merkmalsextraktoren 21 und 23 verarbeiten jeweils das jeweilige Eingaberaster mit 2D-Faltungen durch Herunterskalieren und anschließendes Hochskalieren dieser Darstellung, um Merkmale zu extrahieren. Die Ausgaben der Merkmalsextraktoren 21 und 23 sind die Merkmalskarten {F^M _bev, M ∈ (L, R)} der Form (SX, SY, K_bev), die jeweils den Skalierungsfaktor S, eine Anzahl von Kanälen K_bev und die Modalität M für Lidar (L) und Radar (R) aufweisen. Diese BEV-Merkmalskarten dienen als latente Darstellung für den jeweiligen Sensormodalitätszweig und werden zu einem späteren Zeitpunkt in einem Merkmalsausrichtungsmodul 70 verarbeitet.
In einer Ausführungsform arbeitet das Lidar-FPN 21 auf einem BEV-Belegungsraster mit einer Zellengröße von 0,1 Meter, einer Höhe X = 140 Meter in Fahrtrichtung und einer Breite Y = 80 Meter. Die Merkmalskarten mit den Maßstäben S ∈ (1/4, 1/2) und den Kanälen Kbev = 96 können zu einem späteren Zeitpunkt zur Erkennung von Autos bzw. Fußgängern verwendet werden. Der gleiche Ansatz wie bei Lidar wird für den Radarmodalitätszweig verwendet, mit Ausnahme einiger Anpassungen, um Radareigenschaften zu berücksichtigen. Radar-Punktwolken haben im Vergleich zu Lidar-Punktwolken eine geringere Auflösung und stellen zusätzliche Attribute bereit, wie etwa die Geschwindigkeit v und den Radarquerschnitt rcs. Daher ist es vorteilhaft, die Radarfunktionen für ein BEV-Raster mit einer Zellengröße von 0,5 Metern zu kodieren. Die Radar-Merkmalskarten werden dann hochskaliert, um mit der Lidar-BEV-Auflösung zusammenzupassen.
Die latenten Merkmale der Kameramodalität 22 befinden sich in einem Frontansicht-Darstellungsraum der Szene, während sich die latenten Merkmale der Lidar- und Radarmodalitäten 21 und 23 in einem BEV-Darstellungsraum der Szene befinden. Aus diesem Grund muss vor der Fusion mindestens ein Satz latenter Merkmale umgewandelt werden. Als Ergebnis dieser Umwandlung sollten sich alle Sätze latenter Merkmale in einem gemeinsamen Darstellungsraum der Szene befinden. Im vorliegenden Beispiel ist der BEV-Darstellungsraum als gemeinsamer Darstellungsraum der Szene am besten geeignet, und folglich werden nur die latenten Merkmale der Kameramodalität 22 in den BEV-Darstellungsraum umgewandelt. Daher umfasst das System 100 eine Transformationsschicht 60.
Die Transformationsschicht 60 wandelt die latenten Darstellungen aus den Merkmalsextraktoren 21, 22 und 23 in die Vogelperspektive (BEV) um, um eine gemeinsame räumliche Darstellung zu erreichen. Die latenten Lidar- und Radarmerkmale sind bereits im BEV-Raum dargestellt, während für die Kameramerkmale eine Bild-zu-BEV-Umwandlung erforderlich ist. Es gibt verschiedene Ansätze für eine solche Umwandlung, die basierend auf der Eingabedarstellung kategorisiert werden können. Bei Ansätzen mit nur einer Kamera wird ein Bild in 3D ausgegeben, indem Tiefen geschätzt und vertikale Säulen in einer BEV-Darstellung gebündelt werden. In den meisten Fällen werden als Ergebnis dichte Tiefenbilder erzielt, die jedoch aufgrund der ungenauen Tiefenschätzung der Monokamera räumlich ungenau sind.
Punktwolkengesteuerte Ansätze erfordern eine 3D-Punktwolke, vorzugsweise von einem Lidar-Sensor, um die Umwandlung zu steuern. Bei bekannter Sensorkalibrierung zwischen Lidar und Kamera wird jeder Punkt auf das Kamerabild und das BEV-Raster projiziert und dadurch eine Merkmalszuordnung zwischen den Bildpixeln und BEV-Zellen hergestellt. Aufgrund der Sparsity der Punktwolke ergibt sich dadurch eine spärlich besetzte Darstellung, die aber dank der Tiefengenauigkeit der Lidar-Messungen räumlich präzise ist. Der punktwolkengesteuerte Ansatz ist vorteilhaft, da die räumliche Genauigkeit für die 3D-Objekterkennung wichtig ist. Des Weiteren kann jede Sensormodalität verwendet werden, um die Punktwolke für die Bildtransformation bereitzustellen: Lidar- oder Radarpunkte werden direkt zur Umwandlung verwendet, und für Kamerabilder werden die Vorhersagen für Objektschwerpunkte des Kameradetektors als spärliche Pseudopunkte verwendet. Als eine Alternative könnte ein neuronales Netz verwendet werden, um die latenten Merkmale verschiedener Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene umzuwandeln. in jedem Fall ermöglicht diese Umwandlung, die Punktwolken von Lidars, Radaren und Kameras beliebig zu kombinieren, wodurch die Fusion robust gegenüber dem Ausfall eines Sensortyps wird. Außerdem könnte eine Bündelung (Pooling) verwendet werden, um mehrere Kamerafunktionen zu aggregieren, wenn sie auf dieselbe BEV-Rasterzelle projiziert werden. Dadurch wird die Bild-Merkmalskarte F^C der Form (ZH, ZW, K) in die BEV-Ebene umgewandelt, sodass sich die Merkmalskarte F^C _bev mit der Form (SX, SY, K_bev) entfaltet.
Des Weiteren umfasst das System 100 eine Merkmalsausrichtungsschicht 70 für die räumliche und/oder zeitliche Ausrichtung der latenten Merkmale aller unterschiedlichen Sensormodalitäten 11, 12 und 13 im BEV-Darstellungsraum als gemeinsamen Darstellungsraum der Szene. Die Eingaben für die Merkmalsausrichtungsschicht 70 sind die dicht besetzten BEV-Merkmalskarten F^L _bev und F^R _bev aus den Lidar- und Radar-FPNs 24 und 26 und die spärlich besetzte umgewandelte Merkmalskarte F^C _bev aus der Kamera. Normalerweise tritt ein räumlichen Versatz zwischen diesen Merkmalskarten auf, und wenn verschiedene Sensormodalitäten nicht synchronisiert sind, kann auch ein zeitlichen Versatz zwischen den entsprechenden Merkmalskarten auftreten. Im Übrigen stammen diese Merkmalskarten aus unterschiedlichen Sensormodalitäten 11, 12 und 13 und FPN-Backbone-Netzwerken 24, 25 und 26 und kodieren unterschiedliche semantische Darstellungen. Somit wird auch eine semantische Ausrichtung benötigt, um die jeweiligen Darstellungen räumlich und/oder zeitlich auszurichten, und semantisch umfasst die Merkmalsausrichtungsschicht 70 ein neuronales Netz, das aus mehreren Faltungsschichten aufgebaut ist. Dieses neuronale Netz wird separat auf {F^M _bev, M ∈ (L, C, R)} angewendet. Die Ausgaben sind die Merkmalskarten {F^M _ailign, M ∈ (L, C, R)} mit derselben Form (SX, SY, K_bev).
Die Fusionsschicht 30 empfängt die ausgerichteten Merkmalskarten {F^M _align, M ∈ (L, C, R)} von den Verarbeitungszweigen Lidar, Kamera und Radar. Die Aufgabenstellung der Fusionsschicht 30 besteht darin, diese ausgerichteten Merkmalskarten aus den drei verschiedenen Modalitäten in dem gemeinsamen latenten Raum der Szene zu kombinieren, also der BEV. Daher wird eine Fusionsoperation r angewendet, die eine feste Operation wie Pooling oder gewichtete Mittelwertbildung oder eine lernbare Operation wie Aufmerksamkeit sein kann. Ein Beispiel für eine gut funktionierende Fusionsoperation ist die additive Fusion: F = FL_align+FC_align+FR_align
Die Ausgabe der Fusionsschicht 30 ist eine fusionierte Merkmalskarte F = p ({F^M _align, M ∈ (L, C, R)}) mit der Form (SX, SY, K_bev) und dem Maßstab S. Diese fusionierte Merkmalskarte F ist die Grundlage für eine semantische Analyse der Szene, die in dem hier beschriebenen Beispiel die „Objekterkennung“ ist. Deshalb wird der Systemanalysekopf 40 im Folgenden auch als Detektionskopf 40 bezeichnet.
Der Detektionskopf 40 empfängt die fusionierte Merkmalskarte F, um Klassifizierungs- und Regressionsausgaben für 3D-Begrenzungskästen als Erkennungsergebnis 4 zu erzeugen. Aufgrund der umfangreichen multimodalen Merkmale, die in der Merkmalskarte F kodiert sind, reicht ein kleiner Detektionskopf 40 mit nur wenigen Faltungsschichten oft aus, um präzisere und robustere 3D-Objekte zu erzeugen als die von einem Detektor mit einem einzigen Modus.
Die flexible Architektur, die in der einzigen Figur gezeigt ist, baut auf starken Merkmalsextraktoren 21, 22 und 23 für umfangreichen Kodierungen der Eingabedaten mit einer einzigen Modalität auf. Die Vogelperspektiven (BEV)-Transformationsschicht 60 bildet diese Merkmale in einen gemeinsamen Darstellungsraum der Szene ab. In der BEV-Darstellung bleiben die Größen der Objekte mit geringfügigen Abweichungen und Verdeckungen gut erhalten, wodurch sie sich gut für die 3D-Objekterkennung eignen. Die Merkmalsausrichtungsschicht 70 richtet die latenten Darstellungen zwischen Modalitäten aus, bevor sie in der Fusionsschicht 30 aggregiert werden. Schließlich stellt der mit fusionierten Merkmalen arbeitende Detektionskopf 40 die Klassifizierungs- und Regressionsausgaben für die 3D-Objekterkennung bereit.

Claims

Computerimplementiertes System (100) zur semantischen Analyse einer Szene, mindestens umfassend: a. eine Wahrnehmungsschicht (10) zum Aggregieren szenenspezifischer Sensordaten (1, 2, 3) von mindestens zwei verschiedenen Sensormodalitäten (11, 12, 13); b. für jede Sensormodalität einen separaten Merkmalsextraktor (21, 22, 23), der ein Backbone-Netzwerk (24, 25, 26) umfasst; wobei das Backbone-Netzwerk (24, 25, 26) konfiguriert ist, mindestens eine szenenspezifische Merkmalskarte basierend auf den Sensordaten (1, 2, 3) zu erzeugen, die von der jeweiligen Sensormodalität (11, 12, 13) bereitgestellt werden, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind; c. eine Fusionsschicht (30) zum Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten (11, 12, 13) in einem gemeinsamen Darstellungsraum der Szene; und d. einen Systemanalysekopf (40) für das semantische Analysieren der Szene auf der Grundlage der fusionierten latenten Merkmale.
Computerimplementiertes System (100) nach Anspruch 1, dadurch gekennzeichnet, dass die Wahrnehmungsschicht (10) mindestens zwei der folgenden Sensormodalitäten umfasst: Lidar (11), Kamera (12), Radar (13), Ultraschall und Infrarotkamera; und dass der Systemanalysekopf (40) für die Objekterkennung und - klassifizierung, für die Fahrspurerkennung und/oder für die semantische Segmentierung und Klassifizierung konfiguriert ist.
Computerimplementiertes System (100) nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass mindestens einer der Merkmalsextraktoren (21, 22, 23) ein faltendes neuronales Netz (Convolutional Neural Network, CNN) oder ein Merkmalspyramiden-Netzwerk (Feature Pyramid Network, FPN) oder ein neuronales Graphen-Netzwerk (Graph Neural Network, GNN) oder einen Transformer als Backbone-Netzwerk (24, 25, 26) umfasst; und dadurch, dass das Backbone-Netzwerk (24, 25, 26) im Hinblick auf ein Analyseziel vortrainiert ist, das dem Ziel des Systemanalysekopfs (40) ähnelt oder zumindest mit diesem in Zusammenhang steht.
Computerimplementiertes System (100) nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass mindestens einer der Merkmalsextraktoren (21, 22, 23) einen eigenen Trainingsanalysekopf (27, 28, 29) umfasst, der für die jeweilige Sensormodalität (11, 12, 13) spezifisch ist und der zum Vortrainieren des Backbone-Netzwerks (24, 25, 26) des Merkmalsextraktors (21, 22, 23) und/oder zum Trainieren des beanspruchten Systems (100) als Ganzes verwendet wird.
Computerimplementiertes System (100) nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass mindestens einer der Merkmalsextraktoren (22) mit einer Mischstufe (50) zum Erzeugen einer szenenspezifischen Merkmalskarte aus mindestens zwei szenenspezifischen Merkmalskarten mit unterschiedlichen Maßstäben bereitgestellt wird, die durch das Backbone-Netzwerk (25) des Merkmalsextraktors (22) erzeugt worden sind.
Computerimplementiertes System (100) nach einem der Ansprüche 1 bis 5, gekennzeichnet durch eine Transformationsschicht (60) zur Umwandlung der latenten Merkmale mindestens einer Sensormodalität (12) in einen anderen Darstellungsraum der Szene, um die Fusion der latenten Merkmale mit den latenten Merkmalen mindestens einer anderen Sensormodalität (11, 13) zu ermöglichen.
Computerimplementiertes System (100) nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die „Vogelperspektive“ (Bird's Eye View, BEV) als gemeinsamer Darstellungsraum der Szene verwendet wird, um die latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten (11, 12, 13) zu fusionieren.
Computerimplementiertes System (100) nach einem der Ansprüche 1 bis 7, gekennzeichnet durch eine Merkmalsausrichtungsschicht (70) für eine räumliche und/oder zeitliche Ausrichtung der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten (11, 12, 13) in dem gemeinsamen Darstellungsraum der Szene.
Computerimplementiertes System (100) nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass die Mischstufe (50) des mindestens einen Merkmalsextraktors (22) und/oder die Transformationsschicht (60) und/oder die Merkmalsausrichtungsschicht (70) und/oder die Fusionsschicht (30) jeweils mindestens ein neuronales Netz zur Verarbeitung der latenten Merkmale umfasst.
Computerimplementiertes Verfahren zur semantischen Analyse einer Szene, umfassend die folgenden Schritte: a. Aggregieren szenenspezifischer Sensordaten unter Verwendung von mindestens zwei unterschiedlichen Sensormodalitäten (Wahrnehmungsschicht); b. Getrenntes Verarbeiten der szenenspezifischen Sensordaten für jede Sensormodalität, um mindestens eine szenenspezifische Merkmalskarte zu erzeugen, wobei jede szenenspezifische Merkmalskarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind (Merkmalsextraktoren); c. Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten in einem gemeinsamen Darstellungsraum der Szene (Fusionsschicht); und d. Semantisches Analysieren der Szene basierend auf den fusionierten latenten Merkmalen (Systemanalysekopf).
Computerimplementiertes Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass für mindestens eine Sensormodalität mindestens zwei szenenspezifische Merkmalskarten mit unterschiedlichen Maßstäben erzeugt werden und dass die latenten Merkmale der mindestens zwei Merkmalskarten mit unterschiedlichen Maßstäben gemischt werden, um aus den mindestens zwei szenenspezifischen Merkmalskarten mit unterschiedlichen Maßstäben eine szenenspezifische Merkmalskarte zu erzeugen (Mischstufe).
Computerimplementiertes Verfahren nach einem der Ansprüche 10 oder 11, gekennzeichnet durch die Umwandlung der latenten Merkmale der mindestens einen Sensormodalität in einen anderen Darstellungsraum der Szene, um die Fusion der latenten Merkmale mit den latenten Merkmalen mindestens einer anderen Sensormodalität zu ermöglichen (Transformationsschicht).
Computerimplementiertes Verfahren nach einem der Ansprüche 10 bis 12, gekennzeichnet durch eine räumliche und/oder zeitliche Ausrichtung der latenten Merkmale von mindestens zwei verschiedenen Sensormodalitäten in dem gemeinsamen Darstellungsraum der Szene (Merkmalsausrichtungsschicht).
Computerimplementiertes Verfahren nach einem der Ansprüche 10 bis 13, dadurch gekennzeichnet, dass das Fusionieren der latenten Merkmale von mindestens zwei unterschiedlichen Sensormodalitäten in einem gemeinsamen Darstellungsraum der Szene durch Kombinieren einzelner latenter Merkmale der jeweiligen Merkmalskarten mittels Verkettung und/oder über mathematische Berechnung und/oder Verwendung eines neuronalen Netzes erfolgt (Fusionsschicht).
Fahrzeugmodul, umfassend ein computerimplementiertes System nach einem der Ansprüche 1 bis 9 zur Objekterkennung und -klassifizierung, zur Fahrspurerkennung und/oder zur semantischen Segmentierung und Klassifizierung unter Verwendung eines Verfahrens nach einem der Ansprüche 10 bis 14.