DE102022208718A1 - Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens - Google Patents

Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens Download PDF

Info

Publication number
DE102022208718A1
DE102022208718A1 DE102022208718.6A DE102022208718A DE102022208718A1 DE 102022208718 A1 DE102022208718 A1 DE 102022208718A1 DE 102022208718 A DE102022208718 A DE 102022208718A DE 102022208718 A1 DE102022208718 A1 DE 102022208718A1
Authority
DE
Germany
Prior art keywords
scene
training
feature
sensor
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022208718.6A
Other languages
English (en)
Inventor
Florian Drews
Florian Faion
Lars Rosenbaum
Michael Ulrich
Claudius Glaeser
Fabian Timm
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022208718.6A priority Critical patent/DE102022208718A1/de
Publication of DE102022208718A1 publication Critical patent/DE102022208718A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren zum Trainieren eines computer-implementierten Systems (100) zur semantischen Analyse einer Szene, mindestens umfassend:• Eine Wahrnehmungsschicht (10) zur Aggregation szenenspezifischer Sensordaten von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13),• Für jede Sensormodalität einen separaten Merkmalextraktor (21, 22, 23) mit einem vortrainierten Backbone-Netzwerk (24, 25, 26),• Eine Zusammenführungsschicht (30) zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in einen gemeinsamen Darstellungsraum der Szene, und• Einen Systemanalysekopf (40) mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale;das Verfahren umfassend:◯ Erzeugen - in einem ersten Schritt (A) - eines separaten vortrainierten Merkmalextraktors (21, 22, 23) für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks (24, 25, 26) separat und unabhängig vom Kontext des Systems (100), wobei nur Trainingsdaten verwendet werden, die spezifisch für die jeweilige Sensormodalität sind, und◯ Trainieren - in einem zweiten Schritt (B) - des Systemanalysekopfes (40) im Kontext des Systems (100), das die Mehrzahl von vortrainierten Merkmalextraktoren (21, 22, 23) umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes (40) mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.

Description

  • Stand der Technik
  • Die sichere und genaue semantische Analyse einer Szene, wie 3D-Objektdetektion, ist eine Kerntechnologie beim autonomen Fahren. Alle nachfolgenden Komponenten wie Verfolgung, Vorhersage und Planung hängen stark von der Detektionsleistung ab. Fehler bei der Wahrnehmung anderer Verkehrsteilnehmer können sich potentiell durch das System ausbreiten, dabei zu gravierenden Störungen des autonomen Fahrzeugs führen. Um solche Fehler zu verhindern, bedarf es einer sorgfältigen Ausgestaltung des Wahrnehmungssystems. Mehrere Sensoren und verschiedene Sensormodalitäten, hauptsächlich Lidare, RGB-Kameras und Radare, sind häufig genutzte Ansätze bei der semantischen Analyse einer Szene. Mehrere Sensoren verbessern die Systemredundanz, und verschiedene Sensormodalitäten erhöhen die Detektionszuverlässigkeit, da deren komplementäre physikalische Eigenschaften dafür genutzt werden können, verschiedene Fahrszenarien zu bewältigen, bei denen eine einfache Sensormodalität versagt. Lidare und Kameras sind zum Beispiel von starker Verschlechterung unter nebligen Wetterbedingungen betroffen, während Radare relativ unbeeinflusst bleiben. Andererseits leiden Radare und monokulare Kameras unter spärlichen oder ungenauen Tiefenschätzungen, was durch die dichte und genaue Lidar-Punktwolke ausgeglichen werden kann.
  • Über die letzten Jahre wurden bei der Aufgabe der 3D-Objektdetektion mit Modalitäten von Lidaren, Kameras und Radaren große Fortschritte erzielt. Dieser Trend wird von umfangreichen multimodalen Datensätzen wie nuScenes und Waymo Open Dataset befeuert. Bei vielen dieser Ansätze liegt der Schwerpunkt auf der Nahbereichs-3d-Objektdetektion bis zu 75 Metern.
  • Auch die Fern-Objektdetektion ist von großer Bedeutung, da die frühzeitige Detektion anderer Verkehrsteilnehmer und deren Handlungen sicherere, schnellere und reibungslosere Reaktionen des gesamten Systems ermöglichen würden, insbesondere in Autobahnszenarien.
  • Eine große Herausforderung bei der Arbeit mit mehreren Sensoren und Modalitäten ist die Zusammenführung dieser Vielzahl von redundanten und komplementären Sensordaten. An der Schnittstelle zwischen mehreren Sensoren und der Wahrnehmungsausgabe hat die Zusammenführung eine große Auswirkung auf die Leistung des gesamten Systems.
  • Bei den meisten bestehenden Arbeiten liegt der Schwerpunkt darauf, Lidar und RGB-Kamerasensoren für die 3D-Objektdetektion zusammenzuführen. Auch bekannt sind Lösungen zur Zusammenführung von Kamera und Radar.
  • Die vorliegende Erfindung stellt eine einfache und flexible Lösung für mehr als zwei Sensormodalitäten bereit, z.B. ein Netzwerk zur Zusammenführung von Lidar, Kamera und Radar. Diese Kombination ist insbesondere für die 3D-Objektdetektion vorteilhaft, weil Radarsensoren im Hinblick auf ihr Messprinzip orthogonal zu Lidaren und Kameras sind und sich die Radartechnologie mit größer werdenden Marktanforderungen schnell fortentwickelt.
  • Offenbarung der Erfindung
  • Die Erfindung betrifft einen Trainingsaufbau für ein computer-implementiertes System zur semantischen Analyse einer Szene, umfassend wenigstens:
    • • Eine Wahrnehmungsschicht zur Aggregation szenenspezifischer Sensordaten von wenigstens zwei verschiedenen Sensormodalitäten,
    • • Für jede Sensormodalität einen separaten Merkmalextraktor mit einem Backbone-Netzwerk,
      • wobei das Backbone-Netzwerk dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten zu erzeugen, die von der jeweiligen Sensormodalität bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
      • • Eine Zusammenführungsschicht zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene, und
      • • Einen Systemanalysekopf mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale.
  • Solch ein System stellt eine modulare Netzwerkarchitektur dar, die dazu ausgebildet ist, verschiedene Sensormodalitäten zur genauen und zuverlässigen semantischen Analyse einer Szene zusammenzuführen, insbesondere zur Zusammenführung von Lidaren, Kameras und Radaren für Fern-3D-Objektdetektion. Bei diesem Ansatz kommen austauschbare Merkmalextraktoren mit Backbone-Netzwerken zum Einsatz, um umfangreiche latente Merkmale für jede Sensormodalität separat zu extrahieren. Gemäß der Erfindung sind diese Backbone-Netzwerke vortrainiert. Nur diese latenten Merkmale der verschiedenen Sensormodalitäten werden in einen gemeinsamen Darstellungsraum der Szene zusammengeführt. Schließlich bilden die resultierenden zusammengeführten latenten Merkmale die Grundlage für die semantische Analyse der Szene. Dementsprechend werden die szenenspezifischen Informationen, die von den verschiedenen Sensormodalitäten aggregiert werden, nur auf der Stufe der latenten Merkmale zusammengeführt, wodurch der Systemtrainingsaufwand erheblich verringert wird.
  • Vorteile eines solchen Systems und eines entsprechenden Verfahrens zur semantischen Analyse einer Szene sind:
    • - Die Nutzung vortrainierter Backbone-Netzwerke zur Merkmalextraktion verringert den Aufwand für das Training des Systems als Ganzes erheblich, da die Parameter des vortrainierten Backbone-Netzwerks unverändert gelassen werden, wird die Anzahl von Parametern, die während des Trainings zu bestimmen sind, erheblich verringert, und folglich erfordert das Training weniger Zeit. Zudem wird die Überanpassung verringert.
    • - Vortraining der Backbone-Netzwerke kann an anderen Datensätzen und für andere Anwendungen durchgeführt werden als jene, die für das beanspruchte System bestimmt sind. Solange es eine gewisse Überlappung mit der Zielanwendung des beanspruchten Systems gibt, extrahieren die vortrainierten Backbone-Netzwerke Kenndaten, die auch für die Zielanwendung des Systems geeignet sind.
    • - Es werden weniger Trainingsdaten benötigt, da das System nur lernen muss, wie die bereits bestehenden Kenndaten verschiedener Modalitäten kombiniert werden.
    • - Die Zusammenführung von Modalitäten auf der Ebene der latenten Merkmale und nicht auf der Ebene der Sensordateneingabe ermöglicht, dass Berechnungen zwischen verschiedenen Steuereinheiten aufgeteilt werden, da die Kenndaten der einzelnen Modalitäten unabhängig voneinander berechnet werden.
    • - Eine modulare und zuverlässige Systemarchitektur ermöglicht die Nutzung zahlreicher Kombinationen verschiedener Sensormodalitäten. Insbesondere die Zusammenführung von Lidar, Kamera und Radar ermöglicht die Detektion entfernter Objekte.
    • - Das beschriebene System ist nicht auf die Anwendung der Objektdetektion beschränkt. Durch Änderung des Systemanalysekopfes sind auch andere Anwendungen möglich, wie etwa die semantische Segmentierung und Klassifikation.
  • Die Wahrnehmungsschicht eines solchen Systems könnte wenigstens zwei der folgenden Sensormodalitäten umfassen: Lidar, Kamera, Radar, Ultraschall und Infrarotkamera. Besonders vorteilhaft ist dies für die Objektdetektion und - klassifikation, zur Spurerkennung und/oder zur semantischen Segmentierung und Klassifikation.
  • Wenigstens einer der Merkmalextraktoren des Systems könnte ein faltendes neuronales Netzwerk (Convolutional Neural Network, CNN) oder ein Feature-Pyramid-Network (FPN) oder ein Graph Neural Network (GNN) oder einen Transformer als Backbone-Netzwerk umfassen. Wie bereits erwähnt, werden die Backbone-Netzwerke im Hinblick auf ein Analyseziel vortrainiert, das dem Ziel des Systemanalysekopfes, d.h. der Analyseaufgabe des Systems, gleich, ähnlich oder wenigstens damit verwandt ist. Zudem könnte wenigstens einer der Merkmalextraktoren mit einem eigenen Trainingsanalysekopf versehen sein, der spezifisch für die jeweilige Sensormodalität ist und der zum Vortraining des Backbone-Netzwerks des Merkmalextraktors und/oder zum Training des beanspruchten Systems als Ganzes genutzt wird. Ferner könnte wenigstens einer der Merkmalextraktoren mit einer Mischstufe zur Erzeugung einer szenenspezifischen Merkmalkarte aus wenigstens zwei szenenspezifischen Merkmalkarten verschiedener Skalen versehen sein, die von dem Backbone-Netzwerk des Merkmalextraktors erzeugt wurden.
  • Vorzugsweise umfasst das System eine Umwandlungsschicht zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene, um die Zusammenführung der latenten Merkmale mit den latenten Merkmalen wenigstens einer anderen Sensormodalität zu ermöglichen. Insbesondere bei der Kombination der Sensormodalitäten Lidar, Kamera und Radar ist es vorteilhaft, eine „Vogelperspektive“ (Bird's-eye-view, BEV) als gemeinsamen Darstellungsraum der Szene zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten zu nutzen. Um einen räumlichen und/oder zeitlichen Versatz zwischen den verschiedenen latenten Merkmalkarten im gemeinsamen Darstellungsraum zu beseitigen oder wenigstens zu verringern, könnte das beanspruchte System eine Merkmalausrichtungsschicht umfassen.
  • Schließlich sollte hier angemerkt werden, dass alle folgenden Systemkomponenten als wenigstens ein neuronales Netzwerk implementiert sein oder wenigstens eins umfassen könnten: Mischstufe von Merkmalextraktoren, Umwandlungsschicht, Merkmalausrichtungsschicht Zusammenführungsschicht und Systemanalysekopf. Die Gewichte dieser neuronalen Netzwerke werden durch Training des Systems als Ganzes bestimmt, während die Gewichte der Backbone-Netzwerke zuvor und einzeln für jeden Merkmalextraktor bestimmt wurden. Sie könnten unverändert gelassen werden, wenn das System als Ganzes trainiert wird. Es ist jedoch ebenfalls möglich, die Gewichte der vortrainierten Merkmalextraktoren im Verlauf des Trainierens des Systems als Ganzes zu verändern. Das Verfahren, das dem beschriebenen System entspricht, umfasst die folgenden Schritte:
    • • Aggregieren szenenspezifischer Sensordaten mithilfe von wenigstens zwei verschiedenen Sensormodalitäten,
    • • Separates Verarbeiten der szenenspezifischen Sensordaten für jede Sensormodalität, um wenigstens eine szenenspezifische Merkmalkarte zu erzeugen, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
    • • Zusammenführen der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene, und
    • • Semantisches Analysieren der Szene basierend auf den zusammengeführten latenten Merkmalen.
  • In einer Ausführungsform dieses Verfahrens werden wenigstens zwei szenenspezifische Merkmalkarten verschiedener Skalen für wenigstens eine Sensormodalität erzeugt. Die latenten Merkmale der wenigstens zwei Merkmalkarten verschiedener Skalen werden vermischt, um eine szenenspezifische Merkmalkarte aus den wenigstens zwei szenenspezifischen Merkmalkarten verschiedener Skalen zu erzeugen.
  • In einer bevorzugten Ausführungsform dieses Verfahrens werden die latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene umgewandelt, um die Zusammenführung der latenten Merkmale mit den latenten Merkmalen wenigstens einer anderen Sensormodalität in einen gemeinsamen Darstellungsraum der Szene zu ermöglichen. In einer anderen bevorzugten Ausführungsform werden die latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten räumlich und/oder zeitlich in dem gemeinsamen Darstellungsraum der Szene ausgerichtet, bevor die latenten Merkmale zusammengeführt werden.
  • Die Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene könnte durch Kombination einzelner latenter Merkmale der jeweiligen Merkmalkarten über Verkettung und/oder mathematische Berechnung und/oder mithilfe eines neuronalen Netzwerks erfolgen.
  • Gemäß der vorliegenden Erfindung umfasst das Verfahren zum Trainieren eines Systems wie oben beschrieben die folgenden Schritte:
    • - Erzeugen - in einem ersten Schritt - eines separaten vortrainierten Merkmalextraktors für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks separat und unabhängig vom Kontext des Systems nur mithilfe von Trainingsdaten, die spezifisch für die jeweilige Sensormodalität sind, und
    • - Trainieren - in einem zweiten Schritt - des Systemanalysekopfes im Kontext des Systems, das die Mehrzahl von vortrainierten Merkmalextraktoren umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.
  • Wie bereits erwähnt, wird im ersten Schritt jeder Merkmalextraktor im Hinblick auf ein einzelnes Analyseziel trainiert, das dem Ziel der Analysen des Systemanalysekopfes im zweiten Schritt gleich, ähnlich oder wenigstens damit verwandt sein könnte.
  • Vorzugsweise werden die Gewichte der Mehrzahl von vortrainierten Merkmalextraktoren, die im ersten Schritt bestimmt wurden, nicht verändert, während der Systemanalysekopf im zweiten Schritt trainiert wird. In einigen Fällen könnte es jedoch vorteilhaft sein, die Gewichte wenigstens eines von der Mehrzahl von Merkmalextraktoren im Verlauf des Trainierens des Systemanalysekopfes im zweiten Schritt zu verändern.
  • Um den Trainingsprozess zu verkürzen, können die Gewichte, die für einen der Extraktionsköpfe im ersten Schritt bestimmt wurden, als Startgewichte für das neuronale Netzwerk des Systemanalysekopfes im zweiten Schritt genutzt werden.
  • Oft umfasst der Systemanalysekopf nicht nur ein neuronales Netzwerk, sondern auch weitere Komponenten des zu trainierenden Systems, wie etwa die Zusammenführungsschicht und/oder
    eine Umwandlungsschicht zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität in einen verschiedenen Darstellungsraum der Szene, und/oder
    eine Merkmalausrichtungsschicht zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten in dem gemeinsamen Darstellungsraum der Szene. Gemäß einer Ausführungsform der Erfindung werden die Gewichte wenigstens eines dieser weiteren neuronalen Netzwerke zusammen mit den Gewichten des neuronalen Netzwerks des Systemanalysekopfes im zweiten Schritt bestimmt.
  • Zeichnungen
    • 1 stellt eine bevorzugte Ausführungsform des zu trainierenden Systems dar.
    • 2 stellt den zweistufigen Trainingsprozess gemäß der Erfindung dar.
  • Detaillierte Beschreibung
  • Die Erfindung wird nachstehend im Zusammenhang mit einem computer-implementierten System 100 zur semantischen Analyse einer Szene wie in 1 gezeigt beschrieben. So ein System könnte in einem Fahrzeugmodul zum automatisierten Fahren implementiert sein. Im Falle des gewählten Beispiels ist das Ziel der semantischen Analyse die Objektdetektion. Jedoch ist die Erfindung nicht auf diese Anwendung beschränkt, sondern kann auch im Zusammenhang mit der Objektklassifikation, Spurerkennung und/oder semantischen Segmentierung und Klassifikation genutzt werden.
  • Die Hauptkomponenten des Systems 100 sind:
    • • Eine Wahrnehmungsschicht 10 zur Aggregation szenenspezifischer Sensordaten 1, 2, 3 von wenigstens zwei verschiedenen Sensormodalitäten 11, 12 und 13,
    • • Für jede Sensormodalität 11, 12 und 13 einen separaten Merkmalextraktor 21, 22 und 23 mit einem vortrainierten Backbone-Netzwerk 24, 25 und 26, wobei das Backbone-Netzwerk 24, 25 und 26 dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten 1, 2, 3 zu erzeugen, die von der jeweiligen Sensormodalität 11, 12 und 13 bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind,
    • • Eine Zusammenführungsschicht 30 zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten 11, 12 und 13 in einen gemeinsamen Darstellungsraum der Szene, und
    • • Einen Systemanalysekopf 40 mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale.
  • Die Wahrnehmungsschicht 10 der vorliegenden Ausführungsform umfasst drei verschiedene Sensormodalitäten, und zwar Lidar 11, Kamera 12 und Radar 13. RGB-Kamerabilder erfassen detaillierte Texturinformationen von Objekten und kommen weithin für Objektklassifikation zum Einsatz. Jedoch stellen Kameras Tiefeninformationen nicht direkt bereit, was die Aufgabe des Sehens in 3D erschwert, insbesondere bei einer Konfiguration mit einer Mono-Kamera.
  • Radarpunkte stellen Azimutgeschwindigkeit und radiale Entfernung bereit, die dabei helfen, dynamische Objekte zu lokalisieren. Radare sind zudem gegenüber verschiedenen Licht- und Wetterbedingungen robust. Jedoch wird die 3D-Objektdetektion mithilfe von Radaren durch geringe Auflösung und fehlerhafte Höhenschätzungen begrenzt.
  • Lidarpunkte stellen genaue Tiefeninformationen der Umgebung bereit und weisen eine höhere Auflösung von Objektdetails im 3D-Raum auf, im Vergleich zu Kamerabildern oder Radarpunkten mit fehlerhaften Tiefenschätzungen oder Spärlichkeit.
  • Die Erfindung ist jedoch nicht auf die Nutzung dieser drei Sensormodalitäten beschränkt, sondern kann auch zwei oder mehr als drei Sensormodalitäten nutzen, die auch Ultraschall und/oder Infrarotkamera umfassen.
  • Das System 100 umfasst einen separaten Merkmalextraktor für jede Sensormodalität, d.h. Merkmalextraktor 21 für Lidar 11, Merkmalextraktor 22 für Kamera 12 und Merkmalextraktor 23 für Radar 13. Im vorliegenden Beispiel ist jeder Merkmalextraktor 21, 22 und 23 als einzelner Objektdetektor ausgebildet, der geeignete latente Merkmale aus den jeweiligen Sensordaten 1, 2, 3 extrahiert. Daher umfasst jeder Merkmalextraktor 21, 22 und 23 ein Backbone-Netzwerk 24, 25 und 26. Die Backbone-Netzwerke der einzelnen Merkmalextraktoren könnten von derselben Art oder verschiedenartig sein. Eingehend untersuchte 2D-Architekturen faltender neuronaler Netzwerke (CNN) könnten zu diesem Zweck genutzt werden, da deren dichte 2D-Ausgaben reich an Details sind. Auch denkbar sind 3D-Sparse-Convolutions, Graph Neural Networks (GNN) oder Transformer. Im vorliegenden Beispiel umfasst jeder der Merkmalextraktoren 21, 22 und 23 ein Feature-Pyramid-Network (FPN) zur Extraktion von mehrskaligen Merkmalkarten aus den jeweiligen Sensordaten 1, 2, 3.
  • Wie in 2 dargestellt, umfasst das beanspruchte Trainingsverfahren einen ersten Trainingschritt A, wobei die Gewichte der Backbone-Netzwerke 24, 25 oder 26 separat für jeden Merkmalextraktor 21, 22, 23 und unabhängig vom Kontext des Systems 100 nur mithilfe von Trainingsdaten, die spezifisch für die jeweilige Sensormodalität sind, bestimmt werden. Folglich werden die vortrainierten Merkmalextraktoren 21, 22 und 23 im ersten Trainingschritt A erzeugt. Daher umfasst jeder der Merkmalextraktoren 21, 22 und 23 einen Trainingsanalysekopf 27, 28 und 29, der ein Detektionskopf für Klassifikation und Boxregressionsausgaben ist und der zum Vortraining und als weiteres Optimierungsziel für einen Ende-zu-Ende-Trainingsaufbau genutzt wird.
  • Es könnte von Vorteil sein, Merkmalextraktoren mit Backbone-Netzwerken zu nutzen, die für die Analyseaufgabe des Systems, hier Objektdetektion, vortrainiert sind. Es liegt jedoch auch im Umfang der Erfindung, wenigstens einen der Merkmalextraktoren für eine andere aber ähnliche Aufgabe vorzutrainieren. Z.B. können gute Ergebnisse mithilfe von Merkmalextraktoren erzielt werden, die für semantische Segmentierung und Klassifikation trainiert sind.
  • Wie oben erwähnt, umfasst im vorliegenden Beispiel jeder der Merkmalextraktoren 21, 22 und 23 ein Feature-Pyramid-Network (FPN) als Backbone-Netzwerk. Im Falle des Merkmalextraktors 22 für die Sensormodalität Kamera 12 stellt ein Kamerasensor ein RGB-Bild I der Szene als Eingabe dem Kamera-FPN 25 bereit. Je nach der Orientierung des Kamerasensors ist solch ein Bild I eine Frontalansicht der Szene und weist eine Form (H, W, 3) mit einer Höhe H und Breite W auf. Das Kamera-FPN 25 extrahiert mehrskalige Merkmalkarten aus dem Bild I.
  • Zur Erzeugung einer szenenspezifischen Merkmalkarte aus diesen wenigstens zwei szenenspezifischen mehrskaligen Merkmalkarten umfasst der Merkmalextraktor 22 eine Mischstufe 50, die als neuronales Netzwerk implementiert ist. Innerhalb der Mischstufe 50 werden diese mehrskaligen Merkmalkarten linear auf eine gemeinsame Skala Z heraufskaliert, verkettet und von mehreren Faltungsschichten des neuronalen Netzwerks für mehrskalige Merkmalmischung verarbeitet. Die Ausgabe der Mischstufe 50 ist eine szenenspezifische Merkmalkarte mit Hochqualitätsmerkmalen FC einer Form (ZH, ZW, K), wobei K die Anzahl von Kanälen ist.
  • In einer Ausführungsform extrahiert das Kamera-FPN 25 Merkmalkarten mit dem Herabskalierungsfaktor {1/4, 1/8, 1/156, 1/32} und 256 Kanälen. Das Merkmalmischungsmodell besteht aus fünf 3 x 3-Conv-Schichten mit 96 Kanälen, Relu-Aktivierung außer die letzte und 1 x 1-Conv für die erste Schicht.
  • Im Falle der Merkmalextraktoren 21 und 23 für die Sensormodalitäten Lidar 11 und Radar 13 stellen die Sensoren Lidar- und Radar-Punktwolken für die Merkmalextraktion bereit, die von Belegungskarten auf der Vogelperspektiven- (BEV-) Ebene dargestellt werden, mit einem Rastermaß von Höhe X und Breite Y. Die FPNs 24 und 26 der jeweiligen Merkmalextraktoren 21 und 23 verarbeiten jeweils das jeweilige Eingaberaster mit 2D-Faltungen durch Herabskalieren und anschließendes Heraufskalieren dieser Darstellung, um Merkmale zu extrahieren. Die Ausgaben der Merkmalextraktoren 21 und 23 sind Merkmalkarten {FM bev, M ∈ (L, R)} mit der Form (SX, SY, Kbev) mit dem Skalierungsfaktor S, der Anzahl von Kanälen Kbev und der Modalität M für Lidar (L) bzw. Radar (R). Diese BEV-Merkmalkarten dienen als latente Darstellung für den jeweiligen Sensormodalitätszweig und werden später in einem Merkmalausrichtungsmodul 70 verarbeitet. In einer Ausführungsform arbeitet das Lidar-FPN 21 auf einem BEV-Belegungsraster mit einer Zellengröße von 0,1 Metern, Höhe X = 140 Meter in Fahrtrichtung und Breite Y = 80 Meter. Merkmalkarten mit Skalen S ∈ (1/4, 1/2) und Kanälen Kbev = 96 können später zur Detektion von Autos bzw. Fußgängern genutzt werden. Derselbe Ansatz wie für Lidar wird für den Radarzweig genutzt, bis auf einige Anpassungen zur Berücksichtigung von Radar-Charakteristika. Radar-Punktwolken weisen eine geringere Auflösung als Lidar-Punktwolken auf und stellen zusätzliche Attribute wie die Geschwindigkeit v und den Radarquerschnitt rcs bereit. Daher ist es von Vorteil, die Radarmerkmale für ein BEV-Raster mit einer Zellengröße von 0,5 Metern zu codieren. Die Radar-Merkmalkarten werden heraufskaliert, um zur Lidar-BEV-Auflösung zu passen.
  • Die latenten Merkmale der Kameramodalität 22 befinden sich in einem Frontalansichts-Darstellungsraum der Szene, während sich die latenten Merkmale der Lidar- und der Radarmodalität 21 und 23 in einem BEV-Darstellungsraum der Szene befinden. Daher muss wenigstens ein Satz von latenten Merkmalen vor der Zusammenführung umgewandelt werden. Das Ergebnis dieser Umwandlung sollte sein, dass sich alle latenten Merkmale in einem gemeinsamen Darstellungsraum der Szene befinden. Im vorliegenden Beispiel ist der BEV-Darstellungsraum der geeignetste als gemeinsamer Darstellungsraum der Szene, und folglich werden nur die latenten Merkmale der Kameramodalität 22 in den BEV-Darstellungsraum umgewandelt. Daher umfasst das System 100 eine Umwandlungsschicht 60.
  • Die Umwandlungsschicht 60 wandelt die latenten Darstellungen aus den Merkmalextraktoren 21, 22 und 23 in die Vogelperspektive BEV für eine gemeinsame räumliche Darstellung um. Die latenten Merkmale von Lidar und Radar sind bereits im BEV-Raum dargestellt, während die Kameramerkmale eine Bild-zu-BEV-Umwandlung erfordern. Es gibt verschiedene Ansätze für solch eine Umwandlung, die basierend auf der Darstellung der Eingabe kategorisiert werden können. Bei Nur-Kamera-Ansätzen wird durch Tiefenschätzung und Zusammenlegung vertikaler Säulen zu einer BEV-Darstellung ein 3D-Bild erstellt. In den meisten Fällen sind die Ergebnisse dichte Tiefen, jedoch aufgrund von ungenauen Tiefenschätzungen von der Mono-Kamera räumlich ungenau. Punkewolken-Ansätze erfordern eine 3D-Punktewolke, vorzugsweise von einem Lidar-Sensor, zur Lenkung der Umwandlung. Bei bekannter Sensorkalibrierung zwischen Lidar und Kamera wird jeder Punkt auf das Kamerabild und das BEV-Raster projiziert, wodurch eine Verbindung von Merkmalen zwischen den Bildpixeln und den BEV-Zellen geschaffen wird. Daraus ergibt sich eine spärlich besetzte Darstellung aufgrund der Spärlichkeit der Punktwolke, jedoch räumlich genau dank der Tiefengenauigkeit von Lidar-Messungen. Der Punkewolken-Ansatz ist von Vorteil, weil räumliche Genauigkeit für 3D-Objektdetektion wichtig ist. Weiterhin kann eine beliebige Sensormodalität zur Bereitstellung der Punktwolke für die Bildumwandlung genutzt werden: Lidar- oder Radarpunkte werden direkt für die Umwandlung genutzt, und für Kamerabilder werden die Objektschwerpunkt-Vorhersagen aus dem Kameradetektor als die spärlichen Pseudopunkte verwendet. Alternativ könnte ein neuronales Netzwerk zur Umwandlung der latenten Merkmale verschiedener Sensormodalitäten in einen gemeinsamen Darstellungsraum der Szene genutzt werden. In jedem Fall erlaubt es diese Umwandlung, die Punktwolke von Lidaren, Radaren und Kameras beliebig zu kombinieren, wodurch die Zusammenführung gegenüber Ausfällen einer Art von Sensor robust wird. Zudem könnte Zusammenlegung genutzt werden, um mehrere Kameramerkmale zu aggregieren, wenn sie auf dieselbe BEV-Rasterzelle projiziert werden. Infolgedessen wird die Bildmerkmalkarte FC der Form (ZH, ZW, K) in die BEV-Ebene umgewandelt, wobei die Merkmalkarte FC bev mit der Form (SX, SY, Kbev) entfaltet wird.
  • Ferner umfasst das System 100 eine Merkmalausrichtungsschicht 70 zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale aller verschiedener Sensormodalitäten 11, 12 und 13 im BEV-Darstellungsraum als gemeinsamen Darstellungsraum der Szene. Eingaben für die Merkmalausrichtungsschicht 70 sind die dicht besetzten BEV-Merkmalkarten FL bev und FR bev aus dem Lidar- und Radar-FPN 24 und 26 und die spärlich besetzte umgewandelte Merkmalkarte FC bev aus der Kamera. Gewöhnlich liegt ein räumlicher Versatz zwischen diesen Merkmalkarten vor, und wenn verschiedene Sensormodalitäten nicht synchronisiert sind, könnte ebenfalls ein zeitlicher Versatz zwischen den entsprechenden Merkmalkarten bestehen. Zudem stammen diese Merkmalkarten von verschiedenen Sensormodalitäten 11, 12 und 13 und FPN-Backbone-Netzwerken 24, 25 und 26 und codieren verschiedene semantische Darstellungen. Daher wird auch eine semantische Ausrichtung benötigt, um die jeweiligen Darstellungen räumlich und/oder zeitlich und semantisch auszurichten, umfasst die Merkmalausrichtungsschicht 70 ein neuronales Netzwerk, das aus mehreren Faltungsschichten aufgebaut ist. Dieses neuronale Netzwerk wird separat auf {FM bev, M ∈ (L, C, R)} angewandt. Die Ausgaben sind die Merkmalkarten {FM ausrichten, M ∈ (L, C, R)} derselben Form (SX, SY, Kbev).
  • Die Zusammenführungsschicht 30 empfängt die ausgerichteten Merkmalkarten {FM ausrichten, M ∈ (L, C, R)} vom Lidar-, Kamera- und Radar-Verarbeitungszweig. Aufgabe der Zusammenführungsschicht 30 ist es, diese ausgerichteten Merkmalkarten aus den drei verschiedenen Modalitäten im gemeinsamen latenten Raum der Szene, dem BEV, zu kombinieren. Daher wird eine Zusammenführungsoperation r angewandt, die eine feste Operation wie Zusammenlegung oder gewichtete Mittelung oder eine lernbare Operation wie Attention sein kann. Ein Beispiel für eine gut funktionierende Zusammenführungsoperation ist additive Zusammenführung: F = FLausrichten+FCausrichten+FRausrichten Die Ausgabe der Zusammenführungsschicht 30 ist eine zusammengeführte Merkmalkarte F = ρ ({FM ausrichten, M ∈ (L, C, R)}) mit der Form (SX, SY, Kbev) und Skala S. Diese zusammengeführte Merkmalkarte F ist die Grundlage für semantische Analyse der Szene, die die „Objektdetektion“ im hier beschriebenen Beispiel ist. Deshalb wird der Systemanalysekopf 40 nachfolgend auch als Detektionskopf 40 bezeichnet.
  • Der Detektionskopf 40 empfängt die zusammengeführte Merkmalkarte F, um Klassifikations- und Regressionsausgaben für 3D-Bounding-Boxes als Detektionsergebnis 4 zu erzeugen. Aufgrund der umfangreichen multimodalen Merkmale, die in der Merkmalkarte F codiert sind, ist ein kleiner Detektionskopf 40 mit nur wenigen Faltungsschichten oft genug für die Erzeugung genauerer und robusterer 3D-Objekte als jene von einem einmodalen Detektor.
  • Die flexible Architekturausgestaltung, die in 1 gezeigt ist, baut auf den starken Merkmalextraktoren 21, 22 und 23 für umfangreiche Codierungen von Eingabedaten einer Modalität auf. Die Vogelperspektiven- (BEV-) Umwandlungsschicht 60 bildet diese Merkmale auf einen gemeinsamen Darstellungsraum der Szene ab. In der BEV-Darstellung bleiben die Größen der Objekte gut erhalten, mit kleinen Abweichungen und Einschlüssen, wodurch sie sich gut für die 3D-Objektdetektion eignet. Die Merkmalausrichtungsschicht 70 richtet die latenten Darstellungen zwischen Modalitäten aus, bevor sie in der Zusammenführungsschicht 30 aggregiert werden. Schließlich stellt der Detektionskopf 40, der an zusammengeführten Merkmalen wirkt, die Klassifikations- und Regressionsausgaben für die 3D-Objektdetektion bereit.
  • Wie oben beschrieben, umfasst das System 100 mehrere Komponenten mit weiteren neuronalen Netzwerken neben den Backbone-Netzwerken 24, 25, 26 der Merkmalextraktoren 21, 22, 23 und dem neuronalen Netzwerk des Detektionskopfes 40. So sind die Mischstufe 50 des Merkmalextraktors 22 und das Merkmalausrichtungsmodul 70 im vorliegenden Beispiel als neuronale Netzwerke implementiert. Die Gewichte dieser weiteren neuronalen Netzwerke werden zusammen mit den Gewichten für den Detektionskopf 40 in einem zweiten Trainingschritt B bestimmt, wie in 2 dargestellt. Der zweite Trainingschritt B wird im Systemkontext mithilfe der vortrainierten Merkmalextraktoren 21, 22, 23 durchgeführt, wobei deren vorbestimmte Gewichte unverändert gelassen werden. Folglich werden bei diesem zweiten Trainingschritt Trainingsdaten aus allen Sensormodalitäten des Systems 100 genutzt.
  • Hier werden das Lidar-, Kamera- und Radar-FPN separat für 3D-Objektdetektion im ersten Trainingschritt A trainiert. Zum Training des Systems 100 als Ganzes und insbesondere des Detektionskopfes 40 werden die so vortrainierten Merkmalextraktoren 21, 22, 23 im zweiten Trainingschritt B genutzt. Als Startpunkt für die Gewichte des Detektionskopfes 40 werden die vortrainierten Gewichte vom Lidar- oder dem Radar-FPN genutzt. Im zweiten Trainingschritt B werden die FPNs der Merkmalextraktoren 21, 22, 23 eingefroren. Dies bedeutet, die Gewichte der jeweiligen Backbone-Netzwerke werden nicht verändert, während alle anderen Teile der Architektur, einschließlich des Merkmalausrichtungsmoduls, der Zusammenführungsschicht und des Zusammenführungs-Detektionskopfes verändert werden, um 3D-Objektdetektion „zu lernen“. Die Nutzung eines Adam-Optimierers kann zu einer Konvergenz der Trainingskurve nach 10 Epochen führen. Daher erzielt die erfindungsgemäße Trainingsstrategie vielversprechende Ergebnisse und erfordert weniger Trainingszeit verglichen mit einer Ende-zu-Ende-Trainingsstrategie.
  • Derselbe Trainingsverlust kann zum Training der sensorspezifischen Backbone-Netzwerke und des Systems als Ganzes genutzt werden.
  • Hier wird der Fokusverlust Lcls für Klassifikation und der L2 Verlust Lreg für Bounding-Box-Regression genutzt. Der endgültige Trainingsverlust L ist eine gewichtete Summe von Klassifikation und Regression: L = w cls L cls + w reg L reg
    Figure DE102022208718A1_0001

Claims (8)

  1. Verfahren zum Trainieren eines computer-implementierten Systems (100) zur semantischen Analyse einer Szene, wobei das System mindestens umfasst: a. Eine Wahrnehmungsschicht (10) zur Aggregation szenenspezifischer Sensordaten (1, 2, 3) von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13), b. Für jede Sensormodalität einen separaten Merkmalextraktor (21, 22, 23) mit einem Backbone-Netzwerk (24, 25, 26), wobei das Backbone-Netzwerk (24, 25, 26) dazu ausgebildet ist, wenigstens eine szenenspezifische Merkmalkarte basierend auf Sensordaten (1, 2, 3) zu erzeugen, die von der jeweiligen Sensormodalität (11, 12, 13) bereitgestellt werden, wobei jede szenenspezifische Merkmalkarte einen Satz von latenten Merkmalen umfasst, die innerhalb der Szene lokalisierbar sind, c. Eine Zusammenführungsschicht (30) zur Zusammenführung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in einen gemeinsamen Darstellungsraum der Szene, und d. Einen Systemanalysekopf (40) mit einem neuronalen Netzwerk zur semantischen Analyse der Szene auf der Grundlage der zusammengeführten latenten Merkmale; das Verfahren umfassend: o Erzeugen - in einem ersten Schritt (A) - eines separaten vortrainierten Merkmalextraktors (21, 22, 23) für jede Sensormodalität durch Bestimmung der Gewichte des jeweiligen Backbone-Netzwerks (24, 25, 26) separat und unabhängig vom Kontext des Systems (100), wobei nur Trainingsdaten verwendet werden, die spezifisch für die jeweilige Sensormodalität sind, und o Trainieren - in einem zweiten Schritt (b) - des Systemanalysekopfes (40) im Kontext des Systems (100), das die Mehrzahl von vortrainierten Merkmalextraktoren (21, 22, 23) umfasst, wobei die Gewichte des neuronalen Netzwerks des Systemanalysekopfes (40) mithilfe von Trainingsdaten aus der Mehrzahl von Sensormodalitäten bestimmt werden.
  2. Verfahren nach Anspruch 1, wobei im ersten Schritt (A) jeder Merkmalextraktor (21, 22, 23) im Hinblick auf ein einzelnes Analyseziel trainiert wird, das dem Analyseziel des Systemanalysekopfes (40) im zweiten Schritt gleich, ähnlich oder wenigstens damit verwandt ist.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei die Gewichte der Mehrzahl von vortrainierten Merkmalextraktoren, die im ersten Schritt (A) bestimmt wurden, nicht verändert werden, während der Systemanalysekopf (40) im zweiten Schritt (B) trainiert wird.
  4. Verfahren nach einem der Ansprüche 1 oder 2, wobei die Gewichte wenigstens eines der Mehrzahl von Merkmalextraktoren im Verlauf des Trainierens des Systemanalysekopfes (40) im zweiten Schritt (B) verändert werden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Gewichte, die für einen der Extraktionsköpfe im ersten Schritt (A) bestimmt wurden, als Startgewichte für das neuronale Netzwerk des Systemanalysekopfes (40) im zweiten Schritt (B) genutzt werden.
  6. Verfahren nach einem der Ansprüche 1 bis 5, wobei weitere Komponenten des Systems neuronale Netzwerke umfassen, insbesondere die Zusammenführungsschicht (30) und/oder eine Umwandlungsschicht (60) zur Umwandlung der latenten Merkmale wenigstens einer Sensormodalität (12) in einen anderen Darstellungsraum der Szene, und/oder eine Merkmalausrichtungsschicht (70) zur räumlichen und/oder zeitlichen Ausrichtung der latenten Merkmale von wenigstens zwei verschiedenen Sensormodalitäten (11, 12, 13) in dem gemeinsamen Darstellungsraum der Szene, und wobei die Gewichte wenigstens eines der weiteren neuronalen Netzwerke zusammen mit den Gewichten des neuronalen Netzwerks des Systemanalysekopfes (40) im zweiten Schritt (B) bestimmt werden.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die Wahrnehmungsschicht (10) des Systems (100) wenigstens zwei der folgenden Sensormodalitäten umfasst: Lidar (11), Kamera (12), Radar (13), Ultraschall und Infrarotkamera, und wobei das Analyseziel der separaten Merkmalextraktoren (21, 22, 23) und/oder des Systemanalysekopfes (40) Objektdetektion und -klassifikation und/oder Spurerkennung und/oder semantische Segmentierung und Klassifikation ist.
  8. Computer-implementiertes System zur Durchführung eines Trainingsverfahrens nach einem der Ansprüche 1 bis 7, wobei wenigstens einer der Merkmalextraktoren (21, 22, 23) mit einem eigenen Trainingsanalysekopf (27, 28, 29) versehen ist, der spezifisch für die jeweilige Sensormodalität (11, 12, 13) ist und der zum Vortraining des Backbone-Netzwerks (24, 25, 26) des Merkmalextraktors (21, 22, 23) im ersten Trainingschritt (A) und/oder zum Training des beanspruchten Systems (100) als Ganzes im zweiten Trainingschritt (B) genutzt wird.
DE102022208718.6A 2022-08-23 2022-08-23 Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens Pending DE102022208718A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022208718.6A DE102022208718A1 (de) 2022-08-23 2022-08-23 Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022208718.6A DE102022208718A1 (de) 2022-08-23 2022-08-23 Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens

Publications (1)

Publication Number Publication Date
DE102022208718A1 true DE102022208718A1 (de) 2024-02-29

Family

ID=89844553

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022208718.6A Pending DE102022208718A1 (de) 2022-08-23 2022-08-23 Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens

Country Status (1)

Country Link
DE (1) DE102022208718A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173971A1 (en) 2016-12-19 2018-06-21 Waymo Llc Pedestrian detection neural networks
US20190371052A1 (en) 2018-05-31 2019-12-05 Toyota Research Institute, Inc. Inferring locations of 3d objects in a spatial environment
US20210241026A1 (en) 2020-02-04 2021-08-05 Nio Usa, Inc. Single frame 4d detection using deep fusion of camera image, imaging radar and lidar point cloud
US20220114805A1 (en) 2021-12-22 2022-04-14 Julio Fernando Jarquin Arroyo Autonomous vehicle perception multimodal sensor data management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173971A1 (en) 2016-12-19 2018-06-21 Waymo Llc Pedestrian detection neural networks
US20190371052A1 (en) 2018-05-31 2019-12-05 Toyota Research Institute, Inc. Inferring locations of 3d objects in a spatial environment
US20210241026A1 (en) 2020-02-04 2021-08-05 Nio Usa, Inc. Single frame 4d detection using deep fusion of camera image, imaging radar and lidar point cloud
US20220114805A1 (en) 2021-12-22 2022-04-14 Julio Fernando Jarquin Arroyo Autonomous vehicle perception multimodal sensor data management

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEES, O., Eitel, A., Burgard, W.: Choosing smartly: Adaptive multimodal fusion for object detection in changing environments. In: 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016. S. 151-156. doi: 10.1109/IROS.2016.7759048
WANG, Y., Liu, H., Chen, N.: Vehicle detection for unmanned systems based on multimodal feature fusion. In: Applied Sciences, 2022, 12. Jg., Nr. 12, S. 6198. doi: 10.3390/app12126198

Similar Documents

Publication Publication Date Title
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
DE102019005423A1 (de) Raum-Zeit-Speicher- bzw. Ablagenetzwerk zum Lokalisieren eines Zielobjektes in Videocontent
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE112012001984B4 (de) Integrieren von Video-Metadaten in 3D-Modelle
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE102016116818A1 (de) Verfahren und Vorrichtung zum Erfassen einer Fahrzeugkontur durch Punktwolkendaten
WO2020049154A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE112020005594T5 (de) Parametrische darstellung komplexer strassenszenen von oben
DE102019007196A1 (de) Identifizieren von Zielobjekten unter Nutzung der skalierungsdiversen Segmentierung dienender neuronaler Netzwerke
EP2005361A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
EP2920741B1 (de) Verfahren und vorrichtung zur bildgestützten landebahnlokalisierung
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE112020005584T5 (de) Verdeckung berücksichtigende Innenraumszenenanalyse
EP3557487A1 (de) Generieren von validierungsdaten mit generativen kontradiktorischen netzwerken
DE102019216206A1 (de) Vorrichtung und Verfahren zum Bestimmen einer Kehrtwendestrategie eines autonomen Fahrzeugs
WO2020048669A1 (de) Verfahren zum bestimmen einer spurwechselangabe eines fahrzeugs, ein computerlesbares speichermedium und ein fahrzeug
DE102008015535B4 (de) Verfahren zur Bildverarbeitung von Stereobildern
WO2019206792A1 (de) Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne
DE102021200348A1 (de) Computerimplementiertes verfahren zum trainieren eines computervisionsmodells
DE102020211636A1 (de) Verfahren und Vorrichtung zum Bereitstellen von Daten zum Erstellen einer digitalen Karte
DE102023113166A1 (de) Bildverarbeitungsverfahren und -einrichtung
DE102022208718A1 (de) Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens
DE102022209528A1 (de) Visuelle Analysesysteme zur Diagnose und Verbesserung von Deep-Learning-Modellen für bewegbare Objekte beim autonomen Fahren
DE102022208714A1 (de) Computerimplementiertes System und Verfahren zur semantischen Analyse einer Szene

Legal Events

Date Code Title Description
R163 Identified publications notified