DE102022208718A1

DE102022208718A1 - Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens

Info

Publication number: DE102022208718A1
Application number: DE102022208718.6A
Authority: DE
Inventors: Florian Drews; Florian Faion; Lars Rosenbaum; Michael Ulrich; Claudius Glaeser; Fabian Timm
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2024-02-29

Abstract

Verfahren zum Trainieren eines computer-implementierten Systems (100) zur semantischen Analyse einer Szene, mindestens umfassend:• Eine Wahrnehmungsschicht (10) zur Aggregation szenenspezifischer Sensordaten von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13),• Für jede Sensormodalität einen separaten Merkmalextraktor (21, 22, 23) mit einem vortrainierten Backbone-Netzwerk (24, 25, 26),• Eine Zusammenführungsschicht (30) zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in einen gemeinsamen Darstellungsraum der Szene, und• Einen Systemanalysekopf (40) mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale;das Verfahren umfassend:◯ Erzeugen - in einem ersten Schritt (A) - eines separaten vortrainierten Merkmalextraktors (21, 22, 23) für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks (24, 25, 26) separat und unabhängig vom Kontext des Systems (100), wobei nur Trainingsdaten verwendet werden, die spezifisch für die jeweilige Sensormodalität sind, und◯ Trainieren - in einem zweiten Schritt (B) - des Systemanalysekopfes (40) im Kontext des Systems (100), das die Mehrzahl von vortrainierten Merkmalextraktoren (21, 22, 23) umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes (40) mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.

Description

Stand der Technik
Die sichere und genaue semantische Analyse einer Szene, wie 3D-Objektdetektion, ist eine Kerntechnologie beim autonomen Fahren. Alle nachfolgenden Komponenten wie Verfolgung, Vorhersage und Planung hängen stark von der Detektionsleistung ab. Fehler bei der Wahrnehmung anderer Verkehrsteilnehmer können sich potentiell durch das System ausbreiten, dabei zu gravierenden Störungen des autonomen Fahrzeugs führen. Um solche Fehler zu verhindern, bedarf es einer sorgfältigen Ausgestaltung des Wahrnehmungssystems. Mehrere Sensoren und verschiedene Sensormodalitäten, hauptsächlich Lidare, RGB-Kameras und Radare, sind häufig genutzte Ansätze bei der semantischen Analyse einer Szene. Mehrere Sensoren verbessern die Systemredundanz, und verschiedene Sensormodalitäten erhöhen die Detektionszuverlässigkeit, da deren komplementäre physikalische Eigenschaften dafür genutzt werden können, verschiedene Fahrszenarien zu bewältigen, bei denen eine einfache Sensormodalität versagt. Lidare und Kameras sind zum Beispiel von starker Verschlechterung unter nebligen Wetterbedingungen betroffen, während Radare relativ unbeeinflusst bleiben. Andererseits leiden Radare und monokulare Kameras unter spärlichen oder ungenauen Tiefenschätzungen, was durch die dichte und genaue Lidar-Punktwolke ausgeglichen werden kann.
Über die letzten Jahre wurden bei der Aufgabe der 3D-Objektdetektion mit Modalitäten von Lidaren, Kameras und Radaren große Fortschritte erzielt. Dieser Trend wird von umfangreichen multimodalen Datensätzen wie nuScenes und Waymo Open Dataset befeuert. Bei vielen dieser Ansätze liegt der Schwerpunkt auf der Nahbereichs-3d-Objektdetektion bis zu 75 Metern.
Auch die Fern-Objektdetektion ist von großer Bedeutung, da die frühzeitige Detektion anderer Verkehrsteilnehmer und deren Handlungen sicherere, schnellere und reibungslosere Reaktionen des gesamten Systems ermöglichen würden, insbesondere in Autobahnszenarien.
Eine große Herausforderung bei der Arbeit mit mehreren Sensoren und Modalitäten ist die Zusammenführung dieser Vielzahl von redundanten und komplementären Sensordaten. An der Schnittstelle zwischen mehreren Sensoren und der Wahrnehmungsausgabe hat die Zusammenführung eine große Auswirkung auf die Leistung des gesamten Systems.
Bei den meisten bestehenden Arbeiten liegt der Schwerpunkt darauf, Lidar und RGB-Kamerasensoren für die 3D-Objektdetektion zusammenzuführen. Auch bekannt sind Lösungen zur Zusammenführung von Kamera und Radar.
Die vorliegende Erfindung stellt eine einfache und flexible Lösung für mehr als zwei Sensormodalitäten bereit, z.B. ein Netzwerk zur Zusammenführung von Lidar, Kamera und Radar. Diese Kombination ist insbesondere für die 3D-Objektdetektion vorteilhaft, weil Radarsensoren im Hinblick auf ihr Messprinzip orthogonal zu Lidaren und Kameras sind und sich die Radartechnologie mit größer werdenden Marktanforderungen schnell fortentwickelt.
Offenbarung der Erfindung
Die Erfindung betrifft einen Trainingsaufbau für ein computer-implementiertes System zur semantischen Analyse einer Szene, umfassend wenigstens:

• Eine Wahrnehmungsschicht zur Aggregation szenenspezifischer Sensordaten von wenigstens zwei verschiedenen Sensormodalitäten,
• Für jede Sensormodalität einen separaten Merkmalextraktor mit einem Backbone-Netzwerk,
- wobei das Backbone-Netzwerk dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten zu erzeugen, die von der jeweiligen Sensormodalität bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
- • Eine Zusammenführungsschicht zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene, und
- • Einen Systemanalysekopf mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale.

Solch ein System stellt eine modulare Netzwerkarchitektur dar, die dazu ausgebildet ist, verschiedene Sensormodalitäten zur genauen und zuverlässigen semantischen Analyse einer Szene zusammenzuführen, insbesondere zur Zusammenführung von Lidaren, Kameras und Radaren für Fern-3D-Objektdetektion. Bei diesem Ansatz kommen austauschbare Merkmalextraktoren mit Backbone-Netzwerken zum Einsatz, um umfangreiche latente Merkmale für jede Sensormodalität separat zu extrahieren. Gemäß der Erfindung sind diese Backbone-Netzwerke vortrainiert. Nur diese latenten Merkmale der verschiedenen Sensormodalitäten werden in einen gemeinsamen Darstellungsraum der Szene zusammengeführt. Schließlich bilden die resultierenden zusammengeführten latenten Merkmale die Grundlage für die semantische Analyse der Szene. Dementsprechend werden die szenenspezifischen Informationen, die von den verschiedenen Sensormodalitäten aggregiert werden, nur auf der Stufe der latenten Merkmale zusammengeführt, wodurch der Systemtrainingsaufwand erheblich verringert wird.
Vorteile eines solchen Systems und eines entsprechenden Verfahrens zur semantischen Analyse einer Szene sind:

- Die Nutzung vortrainierter Backbone-Netzwerke zur Merkmalextraktion verringert den Aufwand für das Training des Systems als Ganzes erheblich, da die Parameter des vortrainierten Backbone-Netzwerks unverändert gelassen werden, wird die Anzahl von Parametern, die während des Trainings zu bestimmen sind, erheblich verringert, und folglich erfordert das Training weniger Zeit. Zudem wird die Überanpassung verringert.
- Vortraining der Backbone-Netzwerke kann an anderen Datensätzen und für andere Anwendungen durchgeführt werden als jene, die für das beanspruchte System bestimmt sind. Solange es eine gewisse Überlappung mit der Zielanwendung des beanspruchten Systems gibt, extrahieren die vortrainierten Backbone-Netzwerke Kenndaten, die auch für die Zielanwendung des Systems geeignet sind.

- Es werden weniger Trainingsdaten benötigt, da das System nur lernen muss, wie die bereits bestehenden Kenndaten verschiedener Modalitäten kombiniert werden.
- Die Zusammenführung von Modalitäten auf der Ebene der latenten Merkmale und nicht auf der Ebene der Sensordateneingabe ermöglicht, dass Berechnungen zwischen verschiedenen Steuereinheiten aufgeteilt werden, da die Kenndaten der einzelnen Modalitäten unabhängig voneinander berechnet werden.
- Eine modulare und zuverlässige Systemarchitektur ermöglicht die Nutzung zahlreicher Kombinationen verschiedener Sensormodalitäten. Insbesondere die Zusammenführung von Lidar, Kamera und Radar ermöglicht die Detektion entfernter Objekte.
- Das beschriebene System ist nicht auf die Anwendung der Objektdetektion beschränkt. Durch Änderung des Systemanalysekopfes sind auch andere Anwendungen möglich, wie etwa die semantische Segmentierung und Klassifikation.

Die Wahrnehmungsschicht eines solchen Systems könnte wenigstens zwei der folgenden Sensormodalitäten umfassen: Lidar, Kamera, Radar, Ultraschall und Infrarotkamera. Besonders vorteilhaft ist dies für die Objektdetektion und - klassifikation, zur Spurerkennung und/oder zur semantischen Segmentierung und Klassifikation.
Wenigstens einer der Merkmalextraktoren des Systems könnte ein faltendes neuronales Netzwerk (Convolutional Neural Network, CNN) oder ein Feature-Pyramid-Network (FPN) oder ein Graph Neural Network (GNN) oder einen Transformer als Backbone-Netzwerk umfassen. Wie bereits erwähnt, werden die Backbone-Netzwerke im Hinblick auf ein Analyseziel vortrainiert, das dem Ziel des Systemanalysekopfes, d.h. der Analyseaufgabe des Systems, gleich, ähnlich oder wenigstens damit verwandt ist. Zudem könnte wenigstens einer der Merkmalextraktoren mit einem eigenen Trainingsanalysekopf versehen sein, der spezifisch für die jeweilige Sensormodalität ist und der zum Vortraining des Backbone-Netzwerks des Merkmalextraktors und/oder zum Training des beanspruchten Systems als Ganzes genutzt wird. Ferner könnte wenigstens einer der Merkmalextraktoren mit einer Mischstufe zur Erzeugung einer szenenspezifischen Merkmalkarte aus wenigstens zwei szenenspezifischen Merkmalkarten verschiedener Skalen versehen sein, die von dem Backbone-Netzwerk des Merkmalextraktors erzeugt wurden.
Vorzugsweise umfasst das System eine Umwandlungsschicht zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene, um die Zusammenführung der latenten Merkmale mit den latenten Merkmalen wenigstens einer anderen Sensormodalität zu ermöglichen. Insbesondere bei der Kombination der Sensormodalitäten Lidar, Kamera und Radar ist es vorteilhaft, eine „Vogelperspektive“ (Bird's-eye-view, BEV) als gemeinsamen Darstellungsraum der Szene zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten zu nutzen. Um einen räumlichen und/oder zeitlichen Versatz zwischen den verschiedenen latenten Merkmalkarten im gemeinsamen Darstellungsraum zu beseitigen oder wenigstens zu verringern, könnte das beanspruchte System eine Merkmalausrichtungsschicht umfassen.
Schließlich sollte hier angemerkt werden, dass alle folgenden Systemkomponenten als wenigstens ein neuronales Netzwerk implementiert sein oder wenigstens eins umfassen könnten: Mischstufe von Merkmalextraktoren, Umwandlungsschicht, Merkmalausrichtungsschicht Zusammenführungsschicht und Systemanalysekopf. Die Gewichte dieser neuronalen Netzwerke werden durch Training des Systems als Ganzes bestimmt, während die Gewichte der Backbone-Netzwerke zuvor und einzeln für jeden Merkmalextraktor bestimmt wurden. Sie könnten unverändert gelassen werden, wenn das System als Ganzes trainiert wird. Es ist jedoch ebenfalls möglich, die Gewichte der vortrainierten Merkmalextraktoren im Verlauf des Trainierens des Systems als Ganzes zu verändern. Das Verfahren, das dem beschriebenen System entspricht, umfasst die folgenden Schritte:

• Aggregieren szenenspezifischer Sensordaten mithilfe von wenigstens zwei verschiedenen Sensormodalitäten,
• Separates Verarbeiten der szenenspezifischen Sensordaten für jede Sensormodalität, um wenigstens eine szenenspezifische Merkmalkarte zu erzeugen, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
• Zusammenführen der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene, und
• Semantisches Analysieren der Szene basierend auf den zusammengeführten latenten Merkmalen.

In einer Ausführungsform dieses Verfahrens werden wenigstens zwei szenenspezifische Merkmalkarten verschiedener Skalen für wenigstens eine Sensormodalität erzeugt. Die latenten Merkmale der wenigstens zwei Merkmalkarten verschiedener Skalen werden vermischt, um eine szenenspezifische Merkmalkarte aus den wenigstens zwei szenenspezifischen Merkmalkarten verschiedener Skalen zu erzeugen.
In einer bevorzugten Ausführungsform dieses Verfahrens werden die latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene umgewandelt, um die Zusammenführung der latenten Merkmale mit den latenten Merkmalen wenigstens einer anderen Sensormodalität in einen gemeinsamen Darstellungsraum der Szene zu ermöglichen. In einer anderen bevorzugten Ausführungsform werden die latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten räumlich und/oder zeitlich in dem gemeinsamen Darstellungsraum der Szene ausgerichtet, bevor die latenten Merkmale zusammengeführt werden.
Die Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene könnte durch Kombination einzelner latenter Merkmale der jeweiligen Merkmalkarten über Verkettung und/oder mathematische Berechnung und/oder mithilfe eines neuronalen Netzwerks erfolgen.
Gemäß der vorliegenden Erfindung umfasst das Verfahren zum Trainieren eines Systems wie oben beschrieben die folgenden Schritte:

- Erzeugen - in einem ersten Schritt - eines separaten vortrainierten Merkmalextraktors für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks separat und unabhängig vom Kontext des Systems nur mithilfe von Trainingsdaten, die spezifisch für die jeweilige Sensormodalität sind, und
- Trainieren - in einem zweiten Schritt - des Systemanalysekopfes im Kontext des Systems, das die Mehrzahl von vortrainierten Merkmalextraktoren umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.

Wie bereits erwähnt, wird im ersten Schritt jeder Merkmalextraktor im Hinblick auf ein einzelnes Analyseziel trainiert, das dem Ziel der Analysen des Systemanalysekopfes im zweiten Schritt gleich, ähnlich oder wenigstens damit verwandt sein könnte.
Vorzugsweise werden die Gewichte der Mehrzahl von vortrainierten Merkmalextraktoren, die im ersten Schritt bestimmt wurden, nicht verändert, während der Systemanalysekopf im zweiten Schritt trainiert wird. In einigen Fällen könnte es jedoch vorteilhaft sein, die Gewichte wenigstens eines von der Mehrzahl von Merkmalextraktoren im Verlauf des Trainierens des Systemanalysekopfes im zweiten Schritt zu verändern.
Um den Trainingsprozess zu verkürzen, können die Gewichte, die für einen der Extraktionsköpfe im ersten Schritt bestimmt wurden, als Startgewichte für das neuronale Netzwerk des Systemanalysekopfes im zweiten Schritt genutzt werden.
Oft umfasst der Systemanalysekopf nicht nur ein neuronales Netzwerk, sondern auch weitere Komponenten des zu trainierenden Systems, wie etwa die Zusammenführungsschicht und/oder
eine Umwandlungsschicht zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene, und/oder
eine Merkmalausrichtungsschicht zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in dem gemeinsamen Darstellungsraum der Szene. Gemäß einer Ausführungsform der Erfindung werden die Gewichte wenigstens eines dieser weiteren neuronalen Netzwerke zusammen mit den Gewichten des neuronalen Netzwerks des Systemanalysekopfes im zweiten Schritt bestimmt.
Zeichnungen

1 stellt eine bevorzugte Ausführungsform des zu trainierenden Systems dar.
2 stellt den zweistufigen Trainingsprozess gemäß der Erfindung dar.

Detaillierte Beschreibung
Die Erfindung wird nachstehend im Zusammenhang mit einem computer-implementierten System 100 zur semantischen Analyse einer Szene wie in 1 gezeigt beschrieben. So ein System könnte in einem Fahrzeugmodul zum automatisierten Fahren implementiert sein. Im Falle des gewählten Beispiels ist das Ziel der semantischen Analyse die Objektdetektion. Jedoch ist die Erfindung nicht auf diese Anwendung beschränkt, sondern kann auch im Zusammenhang mit der Objektklassifikation, Spurerkennung und/oder semantischen Segmentierung und Klassifikation genutzt werden.
Die Hauptkomponenten des Systems 100 sind:

• Eine Wahrnehmungsschicht 10 zur Aggregation szenenspezifischer Sensordaten 1, 2, 3 von wenigstens zwei verschiedenen Sensormodalitäten 11, 12 und 13,
• Für jede Sensormodalität 11, 12 und 13 einen separaten Merkmalextraktor 21, 22 und 23 mit einem vortrainierten Backbone-Netzwerk 24, 25 und 26, wobei das Backbone-Netzwerk 24, 25 und 26 dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten 1, 2, 3 zu erzeugen, die von der jeweiligen Sensormodalität 11, 12 und 13 bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
• Eine Zusammenführungsschicht 30 zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten 11, 12 und 13 in einen gemeinsamen Darstellungsraum der Szene, und
• Einen Systemanalysekopf 40 mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale.

Die Wahrnehmungsschicht 10 der vorliegenden Ausführungsform umfasst drei verschiedene Sensormodalitäten, und zwar Lidar 11, Kamera 12 und Radar 13. RGB-Kamerabilder erfassen detaillierte Texturinformationen von Objekten und kommen weithin für Objektklassifikation zum Einsatz. Jedoch stellen Kameras Tiefeninformationen nicht direkt bereit, was die Aufgabe des Sehens in 3D erschwert, insbesondere bei einer Konfiguration mit einer Mono-Kamera.
Radarpunkte stellen Azimutgeschwindigkeit und radiale Entfernung bereit, die dabei helfen, dynamische Objekte zu lokalisieren. Radare sind zudem gegenüber verschiedenen Licht- und Wetterbedingungen robust. Jedoch wird die 3D-Objektdetektion mithilfe von Radaren durch geringe Auflösung und fehlerhafte Höhenschätzungen begrenzt.
Lidarpunkte stellen genaue Tiefeninformationen der Umgebung bereit und weisen eine höhere Auflösung von Objektdetails im 3D-Raum auf, im Vergleich zu Kamerabildern oder Radarpunkten mit fehlerhaften Tiefenschätzungen oder Spärlichkeit.
Die Erfindung ist jedoch nicht auf die Nutzung dieser drei Sensormodalitäten beschränkt, sondern kann auch zwei oder mehr als drei Sensormodalitäten nutzen, die auch Ultraschall und/oder Infrarotkamera umfassen.
Das System 100 umfasst einen separaten Merkmalextraktor für jede Sensormodalität, d.h. Merkmalextraktor 21 für Lidar 11, Merkmalextraktor 22 für Kamera 12 und Merkmalextraktor 23 für Radar 13. Im vorliegenden Beispiel ist jeder Merkmalextraktor 21, 22 und 23 als einzelner Objektdetektor ausgebildet, der geeignete latente Merkmale aus den jeweiligen Sensordaten 1, 2, 3 extrahiert. Daher umfasst jeder Merkmalextraktor 21, 22 und 23 ein Backbone-Netzwerk 24, 25 und 26. Die Backbone-Netzwerke der einzelnen Merkmalextraktoren könnten von derselben Art oder verschiedenartig sein. Eingehend untersuchte 2D-Architekturen faltender neuronaler Netzwerke (CNN) könnten zu diesem Zweck genutzt werden, da deren dichte 2D-Ausgaben reich an Details sind. Auch denkbar sind 3D-Sparse-Convolutions, Graph Neural Networks (GNN) oder Transformer. Im vorliegenden Beispiel umfasst jeder der Merkmalextraktoren 21, 22 und 23 ein Feature-Pyramid-Network (FPN) zur Extraktion von mehrskaligen Merkmalkarten aus den jeweiligen Sensordaten 1, 2, 3.
Wie in 2 dargestellt, umfasst das beanspruchte Trainingsverfahren einen ersten Trainingschritt A, wobei die Gewichte der Backbone-Netzwerke 24, 25 oder 26 separat für jeden Merkmalextraktor 21, 22, 23 und unabhängig vom Kontext des Systems 100 nur mithilfe von Trainingsdaten, die spezifisch für die jeweilige Sensormodalität sind, bestimmt werden. Folglich werden die vortrainierten Merkmalextraktoren 21, 22 und 23 im ersten Trainingschritt A erzeugt. Daher umfasst jeder der Merkmalextraktoren 21, 22 und 23 einen Trainingsanalysekopf 27, 28 und 29, der ein Detektionskopf für Klassifikation und Boxregressionsausgaben ist und der zum Vortraining und als weiteres Optimierungsziel für einen Ende-zu-Ende-Trainingsaufbau genutzt wird.
Es könnte von Vorteil sein, Merkmalextraktoren mit Backbone-Netzwerken zu nutzen, die für die Analyseaufgabe des Systems, hier Objektdetektion, vortrainiert sind. Es liegt jedoch auch im Umfang der Erfindung, wenigstens einen der Merkmalextraktoren für eine andere aber ähnliche Aufgabe vorzutrainieren. Z.B. können gute Ergebnisse mithilfe von Merkmalextraktoren erzielt werden, die für semantische Segmentierung und Klassifikation trainiert sind.
Wie oben erwähnt, umfasst im vorliegenden Beispiel jeder der Merkmalextraktoren 21, 22 und 23 ein Feature-Pyramid-Network (FPN) als Backbone-Netzwerk. Im Falle des Merkmalextraktors 22 für die Sensormodalität Kamera 12 stellt ein Kamerasensor ein RGB-Bild I der Szene als Eingabe dem Kamera-FPN 25 bereit. Je nach der Orientierung des Kamerasensors ist solch ein Bild I eine Frontalansicht der Szene und weist eine Form (H, W, 3) mit einer Höhe H und Breite W auf. Das Kamera-FPN 25 extrahiert mehrskalige Merkmalkarten aus dem Bild I.
Zur Erzeugung einer szenenspezifischen Merkmalkarte aus diesen wenigstens zwei szenenspezifischen mehrskaligen Merkmalkarten umfasst der Merkmalextraktor 22 eine Mischstufe 50, die als neuronales Netzwerk implementiert ist. Innerhalb der Mischstufe 50 werden diese mehrskaligen Merkmalkarten linear auf eine gemeinsame Skala Z heraufskaliert, verkettet und von mehreren Faltungsschichten des neuronalen Netzwerks für mehrskalige Merkmalmischung verarbeitet. Die Ausgabe der Mischstufe 50 ist eine szenenspezifische Merkmalkarte mit Hochqualitätsmerkmalen F^C einer Form (ZH, ZW, K), wobei K die Anzahl von Kanälen ist.
In einer Ausführungsform extrahiert das Kamera-FPN 25 Merkmalkarten mit dem Herabskalierungsfaktor {1/4, 1/8, 1/156, 1/32} und 256 Kanälen. Das Merkmalmischungsmodell besteht aus fünf 3 x 3-Conv-Schichten mit 96 Kanälen, Relu-Aktivierung außer die letzte und 1 x 1-Conv für die erste Schicht.
Im Falle der Merkmalextraktoren 21 und 23 für die Sensormodalitäten Lidar 11 und Radar 13 stellen die Sensoren Lidar- und Radar-Punktwolken für die Merkmalextraktion bereit, die von Belegungskarten auf der Vogelperspektiven- (BEV-) Ebene dargestellt werden, mit einem Rastermaß von Höhe X und Breite Y. Die FPNs 24 und 26 der jeweiligen Merkmalextraktoren 21 und 23 verarbeiten jeweils das jeweilige Eingaberaster mit 2D-Faltungen durch Herabskalieren und anschließendes Heraufskalieren dieser Darstellung, um Merkmale zu extrahieren. Die Ausgaben der Merkmalextraktoren 21 und 23 sind Merkmalkarten {F^M _bev, M ∈ (L, R)} mit der Form (SX, SY, K_bev) mit dem Skalierungsfaktor S, der Anzahl von Kanälen K_bev und der Modalität M für Lidar (L) bzw. Radar (R). Diese BEV-Merkmalkarten dienen als latente Darstellung für den jeweiligen Sensormodalitätszweig und werden später in einem Merkmalausrichtungsmodul 70 verarbeitet. In einer Ausführungsform arbeitet das Lidar-FPN 21 auf einem BEV-Belegungsraster mit einer Zellengröße von 0,1 Metern, Höhe X = 140 Meter in Fahrtrichtung und Breite Y = 80 Meter. Merkmalkarten mit Skalen S ∈ (1/4, 1/2) und Kanälen Kbev = 96 können später zur Detektion von Autos bzw. Fußgängern genutzt werden. Derselbe Ansatz wie für Lidar wird für den Radarzweig genutzt, bis auf einige Anpassungen zur Berücksichtigung von Radar-Charakteristika. Radar-Punktwolken weisen eine geringere Auflösung als Lidar-Punktwolken auf und stellen zusätzliche Attribute wie die Geschwindigkeit v und den Radarquerschnitt rcs bereit. Daher ist es von Vorteil, die Radarmerkmale für ein BEV-Raster mit einer Zellengröße von 0,5 Metern zu codieren. Die Radar-Merkmalkarten werden heraufskaliert, um zur Lidar-BEV-Auflösung zu passen.
Die latenten Merkmale der Kameramodalität 22 befinden sich in einem Frontalansichts-Darstellungsraum der Szene, während sich die latenten Merkmale der Lidar- und der Radarmodalität 21 und 23 in einem BEV-Darstellungsraum der Szene befinden. Daher muss wenigstens ein Satz von latenten Merkmalen vor der Zusammenführung umgewandelt werden. Das Ergebnis dieser Umwandlung sollte sein, dass sich alle latenten Merkmale in einem gemeinsamen Darstellungsraum der Szene befinden. Im vorliegenden Beispiel ist der BEV-Darstellungsraum der geeignetste als gemeinsamer Darstellungsraum der Szene, und folglich werden nur die latenten Merkmale der Kameramodalität 22 in den BEV-Darstellungsraum umgewandelt. Daher umfasst das System 100 eine Umwandlungsschicht 60.
Die Umwandlungsschicht 60 wandelt die latenten Darstellungen aus den Merkmalextraktoren 21, 22 und 23 in die Vogelperspektive BEV für eine gemeinsame räumliche Darstellung um. Die latenten Merkmale von Lidar und Radar sind bereits im BEV-Raum dargestellt, während die Kameramerkmale eine Bild-zu-BEV-Umwandlung erfordern. Es gibt verschiedene Ansätze für solch eine Umwandlung, die basierend auf der Darstellung der Eingabe kategorisiert werden können. Bei Nur-Kamera-Ansätzen wird durch Tiefenschätzung und Zusammenlegung vertikaler Säulen zu einer BEV-Darstellung ein 3D-Bild erstellt. In den meisten Fällen sind die Ergebnisse dichte Tiefen, jedoch aufgrund von ungenauen Tiefenschätzungen von der Mono-Kamera räumlich ungenau. Punkewolken-Ansätze erfordern eine 3D-Punktewolke, vorzugsweise von einem Lidar-Sensor, zur Lenkung der Umwandlung. Bei bekannter Sensorkalibrierung zwischen Lidar und Kamera wird jeder Punkt auf das Kamerabild und das BEV-Raster projiziert, wodurch eine Verbindung von Merkmalen zwischen den Bildpixeln und den BEV-Zellen geschaffen wird. Daraus ergibt sich eine spärlich besetzte Darstellung aufgrund der Spärlichkeit der Punktwolke, jedoch räumlich genau dank der Tiefengenauigkeit von Lidar-Messungen. Der Punkewolken-Ansatz ist von Vorteil, weil räumliche Genauigkeit für 3D-Objektdetektion wichtig ist. Weiterhin kann eine beliebige Sensormodalität zur Bereitstellung der Punktwolke für die Bildumwandlung genutzt werden: Lidar- oder Radarpunkte werden direkt für die Umwandlung genutzt, und für Kamerabilder werden die Objektschwerpunkt-Vorhersagen aus dem Kameradetektor als die spärlichen Pseudopunkte verwendet. Alternativ könnte ein neuronales Netzwerk zur Umwandlung der latenten Merkmale verschiedener Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene genutzt werden. In jedem Fall erlaubt es diese Umwandlung, die Punktwolke von Lidaren, Radaren und Kameras beliebig zu kombinieren, wodurch die Zusammenführung gegenüber Ausfällen einer Art von Sensor robust wird. Zudem könnte Zusammenlegung genutzt werden, um mehrere Kameramerkmale zu aggregieren, wenn sie auf dieselbe BEV-Rasterzelle projiziert werden. Infolgedessen wird die Bildmerkmalkarte F^C der Form (ZH, ZW, K) in die BEV-Ebene umgewandelt, wobei die Merkmalkarte F^C _bev mit der Form (SX, SY, K_bev) entfaltet wird.
Ferner umfasst das System 100 eine Merkmalausrichtungsschicht 70 zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale aller verschiedener Sensormodalitäten 11, 12 und 13 im BEV-Darstellungsraum als gemeinsamen Darstellungsraum der Szene. Eingaben für die Merkmalausrichtungsschicht 70 sind die dicht besetzten BEV-Merkmalkarten F^L _bev und F^R _bev aus dem Lidar- und Radar-FPN 24 und 26 und die spärlich besetzte umgewandelte Merkmalkarte F^C _bev aus der Kamera. Gewöhnlich liegt ein räumlicher Versatz zwischen diesen Merkmalkarten vor, und wenn verschiedene Sensormodalitäten nicht synchronisiert sind, könnte ebenfalls ein zeitlicher Versatz zwischen den entsprechenden Merkmalkarten bestehen. Zudem stammen diese Merkmalkarten von verschiedenen Sensormodalitäten 11, 12 und 13 und FPN-Backbone-Netzwerken 24, 25 und 26 und codieren verschiedene semantische Darstellungen. Daher wird auch eine semantische Ausrichtung benötigt, um die jeweiligen Darstellungen räumlich und/oder zeitlich und semantisch auszurichten, umfasst die Merkmalausrichtungsschicht 70 ein neuronales Netzwerk, das aus mehreren Faltungsschichten aufgebaut ist. Dieses neuronale Netzwerk wird separat auf {F^M _bev, M ∈ (L, C, R)} angewandt. Die Ausgaben sind die Merkmalkarten {F^M _ausrichten, M ∈ (L, C, R)} derselben Form (SX, SY, K_bev).
Die Zusammenführungsschicht 30 empfängt die ausgerichteten Merkmalkarten {F^M _ausrichten, M ∈ (L, C, R)} vom Lidar-, Kamera- und Radar-Verarbeitungszweig. Aufgabe der Zusammenführungsschicht 30 ist es, diese ausgerichteten Merkmalkarten aus den drei verschiedenen Modalitäten im gemeinsamen latenten Raum der Szene, dem BEV, zu kombinieren. Daher wird eine Zusammenführungsoperation r angewandt, die eine feste Operation wie Zusammenlegung oder gewichtete Mittelung oder eine lernbare Operation wie Attention sein kann. Ein Beispiel für eine gut funktionierende Zusammenführungsoperation ist additive Zusammenführung: F = FL_ausrichten+FC_ausrichten+FR_ausrichten Die Ausgabe der Zusammenführungsschicht 30 ist eine zusammengeführte Merkmalkarte F = ρ ({F^M _ausrichten, M ∈ (L, C, R)}) mit der Form (SX, SY, K_bev) und Skala S. Diese zusammengeführte Merkmalkarte F ist die Grundlage für semantische Analyse der Szene, die die „Objektdetektion“ im hier beschriebenen Beispiel ist. Deshalb wird der Systemanalysekopf 40 nachfolgend auch als Detektionskopf 40 bezeichnet.
Der Detektionskopf 40 empfängt die zusammengeführte Merkmalkarte F, um Klassifikations- und Regressionsausgaben für 3D-Bounding-Boxes als Detektionsergebnis 4 zu erzeugen. Aufgrund der umfangreichen multimodalen Merkmale, die in der Merkmalkarte F codiert sind, ist ein kleiner Detektionskopf 40 mit nur wenigen Faltungsschichten oft genug für die Erzeugung genauerer und robusterer 3D-Objekte als jene von einem einmodalen Detektor.
Die flexible Architekturausgestaltung, die in 1 gezeigt ist, baut auf den starken Merkmalextraktoren 21, 22 und 23 für umfangreiche Codierungen von Eingabedaten einer Modalität auf. Die Vogelperspektiven- (BEV-) Umwandlungsschicht 60 bildet diese Merkmale auf einen gemeinsamen Darstellungsraum der Szene ab. In der BEV-Darstellung bleiben die Größen der Objekte gut erhalten, mit kleinen Abweichungen und Einschlüssen, wodurch sie sich gut für die 3D-Objektdetektion eignet. Die Merkmalausrichtungsschicht 70 richtet die latenten Darstellungen zwischen Modalitäten aus, bevor sie in der Zusammenführungsschicht 30 aggregiert werden. Schließlich stellt der Detektionskopf 40, der an zusammengeführten Merkmalen wirkt, die Klassifikations- und Regressionsausgaben für die 3D-Objektdetektion bereit.
Wie oben beschrieben, umfasst das System 100 mehrere Komponenten mit weiteren neuronalen Netzwerken neben den Backbone-Netzwerken 24, 25, 26 der Merkmalextraktoren 21, 22, 23 und dem neuronalen Netzwerk des Detektionskopfes 40. So sind die Mischstufe 50 des Merkmalextraktors 22 und das Merkmalausrichtungsmodul 70 im vorliegenden Beispiel als neuronale Netzwerke implementiert. Die Gewichte dieser weiteren neuronalen Netzwerke werden zusammen mit den Gewichten für den Detektionskopf 40 in einem zweiten Trainingschritt B bestimmt, wie in 2 dargestellt. Der zweite Trainingschritt B wird im Systemkontext mithilfe der vortrainierten Merkmalextraktoren 21, 22, 23 durchgeführt, wobei deren vorbestimmte Gewichte unverändert gelassen werden. Folglich werden bei diesem zweiten Trainingschritt Trainingsdaten aus allen Sensormodalitäten des Systems 100 genutzt.
Hier werden das Lidar-, Kamera- und Radar-FPN separat für 3D-Objektdetektion im ersten Trainingschritt A trainiert. Zum Training des Systems 100 als Ganzes und insbesondere des Detektionskopfes 40 werden die so vortrainierten Merkmalextraktoren 21, 22, 23 im zweiten Trainingschritt B genutzt. Als Startpunkt für die Gewichte des Detektionskopfes 40 werden die vortrainierten Gewichte vom Lidar- oder dem Radar-FPN genutzt. Im zweiten Trainingschritt B werden die FPNs der Merkmalextraktoren 21, 22, 23 eingefroren. Dies bedeutet, die Gewichte der jeweiligen Backbone-Netzwerke werden nicht verändert, während alle anderen Teile der Architektur, einschließlich des Merkmalausrichtungsmoduls, der Zusammenführungsschicht und des Zusammenführungs-Detektionskopfes verändert werden, um 3D-Objektdetektion „zu lernen“. Die Nutzung eines Adam-Optimierers kann zu einer Konvergenz der Trainingskurve nach 10 Epochen führen. Daher erzielt die erfindungsgemäße Trainingsstrategie vielversprechende Ergebnisse und erfordert weniger Trainingszeit verglichen mit einer Ende-zu-Ende-Trainingsstrategie.
Derselbe Trainingsverlust kann zum Training der sensorspezifischen Backbone-Netzwerke und des Systems als Ganzes genutzt werden.
Hier wird der Fokusverlust L_cls für Klassifikation und der L₂ Verlust L_reg für Bounding-Box-Regression genutzt. Der endgültige Trainingsverlust L ist eine gewichtete Summe von Klassifikation und Regression: $L = w_{cls} L_{cls} + w_{reg} L_{reg}$

Claims

Verfahren zum Trainieren eines computer-implementierten Systems (100) zur semantischen Analyse einer Szene, wobei das System mindestens umfasst: a. Eine Wahrnehmungsschicht (10) zur Aggregation szenenspezifischer Sensordaten (1, 2, 3) von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13), b. Für jede Sensormodalität einen separaten Merkmalextraktor (21, 22, 23) mit einem Backbone-Netzwerk (24, 25, 26), wobei das Backbone-Netzwerk (24, 25, 26) dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten (1, 2, 3) zu erzeugen, die von der jeweiligen Sensormodalität (11, 12, 13) bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind, c. Eine Zusammenführungsschicht (30) zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in einen gemeinsamen Darstellungsraum der Szene, und d. Einen Systemanalysekopf (40) mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale; das Verfahren umfassend: o Erzeugen - in einem ersten Schritt (A) - eines separaten vortrainierten Merkmalextraktors (21, 22, 23) für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks (24, 25, 26) separat und unabhängig vom Kontext des Systems (100), wobei nur Trainingsdaten verwendet werden, die spezifisch für die jeweilige Sensormodalität sind, und o Trainieren - in einem zweiten Schritt (b) - des Systemanalysekopfes (40) im Kontext des Systems (100), das die Mehrzahl von vortrainierten Merkmalextraktoren (21, 22, 23) umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes (40) mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.
Verfahren nach Anspruch 1, wobei im ersten Schritt (A) jeder Merkmalextraktor (21, 22, 23) im Hinblick auf ein einzelnes Analyseziel trainiert wird, das dem Analyseziel des Systemanalysekopfes (40) im zweiten Schritt gleich, ähnlich oder wenigstens damit verwandt ist.
Verfahren nach einem der Ansprüche 1 oder 2, wobei die Gewichte der Mehrzahl von vortrainierten Merkmalextraktoren, die im ersten Schritt (A) bestimmt wurden, nicht verändert werden, während der Systemanalysekopf (40) im zweiten Schritt (B) trainiert wird.
Verfahren nach einem der Ansprüche 1 oder 2, wobei die Gewichte wenigstens eines der Mehrzahl von Merkmalextraktoren im Verlauf des Trainierens des Systemanalysekopfes (40) im zweiten Schritt (B) verändert werden.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Gewichte, die für einen der Extraktionsköpfe im ersten Schritt (A) bestimmt wurden, als Startgewichte für das neuronale Netzwerk des Systemanalysekopfes (40) im zweiten Schritt (B) genutzt werden.
Verfahren nach einem der Ansprüche 1 bis 5, wobei weitere Komponenten des Systems neuronale Netzwerke umfassen, insbesondere die Zusammenführungsschicht (30) und/oder eine Umwandlungsschicht (60) zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität (12) in einen anderen Darstellungsraum der Szene, und/oder eine Merkmalausrichtungsschicht (70) zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in dem gemeinsamen Darstellungsraum der Szene, und wobei die Gewichte wenigstens eines der weiteren neuronalen Netzwerke zusammen mit den Gewichten des neuronalen Netzwerks des Systemanalysekopfes (40) im zweiten Schritt (B) bestimmt werden.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die Wahrnehmungsschicht (10) des Systems (100) wenigstens zwei der folgenden Sensormodalitäten umfasst: Lidar (11), Kamera (12), Radar (13), Ultraschall und Infrarotkamera, und wobei das Analyseziel der separaten Merkmalextraktoren (21, 22, 23) und/oder des Systemanalysekopfes (40) Objektdetektion und -klassifikation und/oder Spurerkennung und/oder semantische Segmentierung und Klassifikation ist.
Computer-implementiertes System zur Durchführung eines Trainingsverfahrens nach einem der Ansprüche 1 bis 7, wobei wenigstens einer der Merkmalextraktoren (21, 22, 23) mit einem eigenen Trainingsanalysekopf (27, 28, 29) versehen ist, der spezifisch für die jeweilige Sensormodalität (11, 12, 13) ist und der zum Vortraining des Backbone-Netzwerks (24, 25, 26) des Merkmalextraktors (21, 22, 23) im ersten Trainingschritt (A) und/oder zum Training des beanspruchten Systems (100) als Ganzes im zweiten Trainingschritt (B) genutzt wird.