DE102021131176A1

DE102021131176A1 - Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden

Info

Publication number: DE102021131176A1
Application number: DE102021131176.4A
Authority: DE
Inventors: Jacob A. Bond
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2021-03-08
Filing date: 2021-11-27
Publication date: 2022-09-08
Also published as: US20220284662A1; US11521348B2; CN115035236A

Abstract

Ein System enthält einen Prozessor und einen Speicher, der Anweisungen speichert, die, wenn sie durch den Prozessor ausgeführt werden, den Prozessor dafür konfigurieren, von einem ersten Satz von Sensoren, die in einer ersten Konfiguration angeordnet sind, erste Daten zu empfangen. Die Anweisungen konfigurieren den Prozessor dafür, die ersten Daten in zweite Daten zu transformieren, um ein Modell zum Erkennen dritter Daten, die durch einen zweiten Satz von Sensoren erfasst werden, die in einer zweiten Konfiguration angeordnet sind, zu trainieren. Die zweite Konfiguration ist von der ersten Konfiguration verschieden. Die Anweisungen konfigurieren den Prozessor dafür, das Modell auf der Grundlage des zweiten Satzes von Sensoren, die die zweiten Daten erfassen, zu trainieren, um die durch den zweiten Satz von Sensoren, die in der zweiten Konfiguration angeordnet sind, erfassten dritten Daten zu erkennen.

Description

EINLEITUNG
Die in diesem Abschnitt gegebenen Informationen dienen der allgemeinen Darstellung des Kontexts der Offenbarung. Arbeit der hier genannten Erfinder in dem Umfang, in dem sie in diesem Abschnitt beschrieben ist, sowie Aspekte der Beschreibung, die nicht auf andere Weise als Stand der Technik zum Zeitpunkt der Einreichung berechtigen können, sind weder explizit noch implizit als Stand der Technik gegenüber der vorliegenden Offenbarung anerkannt.
Die vorliegende Offenbarung betrifft das Transformieren von Sensordaten von einer gegebenen Sensorkonfiguration in beliebige andere Bezugssysteme, um Modelle zu trainieren, die mit verschiedenen Sensorkonfigurationen verwendet werden.
In vielen Anwendungen werden Modelle (z. B. Modelle auf der Grundlage von maschinellem Lernen) unter Verwendung von Daten trainiert, die durch Sensoren erhoben werden. In Verwendung empfängt ein trainiertes Modell Daten von den Sensoren und gibt die Daten, die auszugeben das Modell trainiert ist, auf der Grundlage der von den Sensoren empfangenen Daten aus. Zum Beispiel werden Modelle in Kraftfahrzeuganwendungen (z. B. Anwendungen des autonomen Fahrens) unter Verwendung von Daten, die durch verschiedene in einem Fahrzeug montierte Sensoren (z. B. Kameras) erhoben werden, trainiert. Die Sensoren erheben Daten, während das Fahrzeug auf Straßen gefahren wird. Die erhobenen Daten werden zum Trainieren eines Modells verwendet. Das trainierte Modell wird in den Fahrzeugen eingesetzt. In Verwendung empfängt das trainierte Modell Daten von den Sensoren und gibt es Daten, die das Modell auszugeben trainiert worden ist, aus.
ZUSAMMENFASSUNG
Ein System umfasst einen Prozessor und einen Speicher, der Anweisungen speichert, die, wenn sie durch den Prozessor ausgeführt werden, den Prozessor dafür konfigurieren, von einem ersten Satz von Sensoren, die in einer ersten Konfiguration angeordnet sind, erste Daten zu empfangen. Die Anweisungen konfigurieren den Prozessor dafür, die ersten Daten in zweite Daten zu transformieren, um ein Modell zum Erkennen dritter Daten, die durch einen zweiten Satz von Sensoren erfasst werden, die in einer zweiten Konfiguration angeordnet sind, zu trainieren. Die zweite Konfiguration ist von der ersten Konfiguration verschieden. Die Anweisungen konfigurieren den Prozessor dafür, das Modell auf der Grundlage des zweiten Satzes von Sensoren, die die zweiten Daten erfassen, zu trainieren, um die durch den zweiten Satz von Sensoren, die in der zweiten Konfiguration angeordnet sind, erfassten dritten Daten zu erkennen.
Gemäß einem anderen Merkmal erkennt das trainierte Modell die dritten Daten, die durch den zweiten Satz von Sensoren erfasst werden, die in der zweiten Konfiguration angeordnet sind.
Gemäß einem anderen Merkmal ist wenigstens einer des zweiten Satzes von Sensoren von wenigstens einem des ersten Satzes von Sensoren verschieden.
Gemäß anderen Merkmalen konfigurieren die Anweisungen den Prozessor zum Detektieren eines oder mehrerer Objekte in den ersten Daten und zum Trennen der Objekte von dem Hintergrund in den ersten Daten.
Gemäß anderen Merkmalen konfigurieren die Anweisungen den Prozessor zum Transformieren von Perspektiven der Objekte von 2D in 3D unter Verwendung eines Modells auf der Grundlage von maschinellem Lernen und zum Transformieren einer Perspektive des Hintergrunds von 2D in 3D unter Verwendung einer Computergrafiktechnik.
Gemäß einem anderen Merkmal konfigurieren die Anweisungen den Prozessor zum Kombinieren der transformierten Perspektiven der Objekte und der transformierten Perspektive des Hintergrunds zum Erzeugen einer 3D-Szene, die die ersten Daten darstellt.
Gemäß einem anderen Merkmal konfigurieren die Anweisungen den Prozessor zum Trainieren des Modells auf der Grundlage des zweiten Satzes von Sensoren, die die 3D-Szene, die die ersten Daten darstellt, erfassen.
Gemäß anderen Merkmalen konfigurieren die Anweisungen den Prozessor zum Erzeugen von 2D-Darstellungen der 3D-Perspektiven der durch den zweiten Satz von Sensoren abgetasteten Objekte und zum Erzeugen einer 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Gemäß einem anderen Merkmal konfigurieren die Anweisungen den Prozessor zum Kombinieren der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Gemäß einem anderen Merkmal konfigurieren die Anweisungen den Prozessor zum Trainieren des Modells auf der Grundlage der Kombination der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Gemäß nochmals anderen Merkmalen umfasst ein Verfahren das Empfangen erster Daten von einem ersten Satz von Sensoren, die in einer ersten Konfiguration angeordnet sind. Das Verfahren umfasst das Transformieren der ersten Daten in zweite Daten, die die ersten Daten, wie sie durch einen zweiten Satz von Sensoren erfasst werden, die in einer zweiten Konfiguration angeordnet sind, widerspiegeln. Die zweite Konfiguration ist von der ersten Konfiguration verschieden. Das Verfahren umfasst das Trainieren eines Modells durch Erfassen der zweiten Daten unter Verwendung des zweiten Satzes von Sensoren, um dritte Daten zu erkennen, die durch den zweiten Satz von Sensoren, die in der zweiten Konfiguration angeordnet sind, erfasst werden.
Gemäß einem anderen Merkmal umfasst das Verfahren ferner das Erkennen der dritten Daten, die durch den zweiten Satz von Sensoren erfasst werden, die in der zweiten Konfiguration angeordnet sind, unter Verwendung des trainierten Modells.
Gemäß einem anderen Merkmal ist wenigstens einer des zweiten Satzes von Sensoren von wenigstens einem des ersten Satzes von Sensoren verschieden.
Gemäß anderen Merkmalen umfasst das Verfahren ferner das Detektieren eines oder mehrerer Objekte in den ersten Daten und das Trennen der Objekte von dem Hintergrund in den ersten Daten.
Gemäß anderen Merkmalen umfasst das Verfahren ferner das Transformieren von Perspektiven der Objekte von 2D in 3D unter Verwendung eines Modells auf der Grundlage von maschinellem Lernen und das Transformieren einer Perspektive des Hintergrunds von 2D in 3D unter Verwendung einer Computergrafiktechnik.
Gemäß einem anderen Merkmal umfasst das Verfahren ferner das Kombinieren der transformierten Perspektiven der Objekte und der transformierten Perspektive des Hintergrunds zum Erzeugen einer 3D-Szene, die die ersten Daten darstellt.
Gemäß einem anderen Merkmal umfasst das Verfahren ferner das Trainieren des Modells auf der Grundlage des zweiten Satzes von Sensoren, die die 3D-Szene, die die ersten Daten darstellt, erfassen.
Gemäß anderen Merkmalen umfasst das Verfahren ferner das Erzeugen von 2D-Darstellungen der 3D-Perspektiven der durch den zweiten Satz von Sensoren abgetasteten Objekte und das Erzeugen einer 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Gemäß einem anderen Merkmal umfasst das Verfahren ferner das Kombinieren der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Gemäß einem anderen Merkmal umfasst das Verfahren ferner das Trainieren des Modells auf der Grundlage der Kombination der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
Weitere Bereiche der Anwendbarkeit der vorliegenden Offenbarung gehen aus der ausführlichen Beschreibung, aus den Ansprüchen und aus den Zeichnungen hervor. Die ausführliche Beschreibung und die spezifischen Beispiele sind nur zu Veranschaulichungszwecken bestimmt und sollen den Schutzumfang der Offenbarung nicht einschränken.
Figurenliste
Die vorliegende Offenbarung wird umfassender verständlich aus der ausführlichen Beschreibung und aus den beigefügten Zeichnungen; es zeigen:

1 ein Beispiel eines Systems zum Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, gemäß der vorliegenden Offenbarung;
2 ein Gesamtverfahren zum Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, gemäß der vorliegenden Offenbarung;
3 ein Beispiel des Verfahrens aus 2 zum Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, gemäß der vorliegenden Offenbarung; und
4 ein anderes Beispiel des Verfahrens aus 2 zum Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, gemäß der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Sensoren (z. B. Kameras) können in verschiedenen Typen von Fahrzeugen (z. B. Limousinen, Lastkraftwagen, Geländefahrzeugen usw.) verschieden konfiguriert sein. Dementsprechend können Daten, die durch die Sensoren in einem Fahrzeugtyp (z. B. einer Limousine) abgetastet werden, in vieler Hinsicht in Bezug auf Daten, die durch Sensoren in einem anderen Fahrzeugtyp (z. B. einem Lastkraftwagen) abgetastet werden, verschieden sein. Im Ergebnis kann ein Modell (z. B. ein Modell auf der Grundlage von maschinellem Lernen), das unter Verwendung von Daten trainiert worden ist, die durch Sensoren erhoben worden sind, die für einen Fahrzeugtyp konfiguriert sind, keine richtigen Ausgaben erzeugen, wenn in das trainierte Modell Daten von Sensoren eingegeben werden, die für einen anderen Fahrzeugtyp anders konfiguriert sind.
Zum Beispiel können Kameras an Limousinen anders als an Lastkraftwagen oder Geländefahrzeugen montiert sein. Somit können Bilder einer Szene, die durch die Kameras an Limousinen erfasst werden, von Bildern derselben Szene, die durch die Kameras an den Lastkraftwagen oder Geländefahrzeugen erfasst werden, verschieden sein. Zum Beispiel können Perspektiven der Bilder, die durch die Kameras an Limousinen erfasst werden, von Perspektiven der Bilder, die durch die Kameras an den Lastkraftwagen oder Geländefahrzeugen erfasst werden, verschieden sein. Im Ergebnis kann ein Modell (z. B. ein Modell auf der Grundlage von maschinellem Lernen), das unter Verwendung von Bildern trainiert wird, die durch Kameras erfasst werden, die für ein Fahrzeugmodell konfiguriert sind, keine genauen Ausgaben erzeugen, wenn in das trainierte Modell Bilder eingegeben werden, die durch Kameras erfasst werden, die für einen anderen Fahrzeugtyp anders konfiguriert sind.
Dementsprechend können erste Daten von einer ersten Sensorkonfiguration verwendet werden, um ein erstes Modell zu trainieren; und kann das erste trainierte Modell mit der ersten Sensorkonfiguration verwendet werden, um auf der Grundlage von Daten, die durch die erste Sensorkonfiguration abgetastet werden, genaue Ergebnisse zu erzeugen. Allerdings können die ersten Daten nicht wiederverwendet werden, um ein zweites Modell zu trainieren, das mit einer zweiten Sensorkonfiguration verwendet wird. Falls die ersten Daten zum Trainieren des zweiten Modells verwendet werden, kann die Ausgabe des zweiten trainierten Modells auf der Grundlage des Empfangs zweiter Daten von der zweiten Sensorkonfiguration als Eingabe nicht genau sein, wenn das zweite trainierte Modell mit der zweiten Sensorkonfiguration verwendet wird.
Die vorliegende Offenbarung schafft ein System und Verfahren, die das obige Problem lösen. Das System und die Verfahren setzen Sensordaten, die von einer Sensorkonfiguration erhoben werden, in Sensordaten, die von einem anderen Bezugssystem gesehen werden, um. Genauer verwenden das System und die Verfahren Perspektiventransformationen oder Techniken des maschinellen Lernens, um diese Transformation auszuführen. Nachdem die Daten in ein neues Bezugssystem transformiert worden sind, können die transformierten Daten ein Modell (z. B. ein Modell auf der Grundlage von maschinellem Lernen) trainieren, das mit einer anderen Sensorkonfiguration eingesetzt werden kann.
Aktuelle Perspektiventransformations- und Datenanreicherungsverfahren sind auf Bilder und die Verwendung von Computergrafiktechniken beschränkt. Im Gegensatz dazu ergänzen das System und die Verfahren der vorliegenden Offenbarung Computergrafiktechniken mit Techniken des maschinellen Lernens, um Bezugssystemtransformationen von 3D-Szenen auszuführen. Das System und die Verfahren verwenden Perspektiventransformationen und maschinelles Lernen für die Transformation von Video, Radar, Lidar und anderen Nicht-Standbild-Medien.
Genauer führen das System und die Verfahren für jede Sensormodalität unter Verwendung von Objektdetektionstechniken jeweilige Transformationen an Sensordaten durch Trennen interessierender Objekte (Ool) vom Hintergrund aus. Das System und die Verfahren transformieren die Perspektive der OoI unter Verwendung von Techniken des maschinellen Lernens und transformieren die Perspektive des Hintergrunds unter Verwendung von Computergrafiktechniken. Das System und die Verfahren rekombinieren die Ool und den Hintergrund mit transformierten Perspektiven in jeder Sensormodalität, um für verschiedene Sensorkonfigurationen eine Datenanreicherung auszuführen.
Um fehlende Daten von einzelnen Objekten (d. h. einzelnen Ool) zu synthetisieren, während ihre Perspektiven transformiert werden, werden Techniken des maschinellen Lernens verwendet. Für große Hintergrundgebiete, die weniger wichtige Informationen enthalten, können Computergrafiktechniken verhältnismäßig effizient und ausreichend genau sein. Somit transformieren das System und die Verfahren Sensordaten, die auf eine gewünschte Sensorkonfiguration ausgerichtet sind, über verschiedene Sensormodalitäten. Diese und weitere Merkmale des Systems und der Verfahren der vorliegenden Offenbarung sind nun im Folgenden ausführlicher beschrieben.
Überall in der vorliegenden Offenbarung werden Bezugnahmen auf Computergrafiktechniken und Techniken des maschinellen Lernens vorgenommen, die durch das System und die Verfahren der vorliegenden Offenbarung verwendet werden. Die Computergrafiktechniken können z. B. Raytracing enthalten. Die Techniken des maschinellen Lernens können z. B. ein Generative Adversarial Network (GAN), Neural Radiance Fields (NeRF) und ein Generative RAdiance Field (GRAF) enthalten. Diese Techniken sind nach der Beschreibung des Systems und der Verfahren der vorliegenden Offenbarung zusammengefasst.
1 zeigt ein System 100 zum Transformieren von Sensordaten in verschiedene Sensorkonfigurationen gemäß der vorliegenden Offenbarung. Das System 100 umfasst einen ersten Satz von Sensoren 102, ein Verarbeitungsmodul 104, einen zweiten Satz von Sensoren 106 und ein Trainingsmodul 108. Das Verarbeitungsmodul 104 umfasst ein Objektdetektionsmodul 110, ein Objekttrennungsmodul 112, ein Perspektiventransformationsmodul 114 und ein Kombinationsmodul 116.
Im Folgenden sind anhand von 2-4 die Operationen der verschiedenen Module des Systems 100 erläutert. Die Operationen sind anfangs kurz anhand von 2 und nachfolgend ausführlich anhand von 3 und 4 beschrieben. Der Begriff Steuerung bezieht sich überall in der folgenden Beschreibung auf ein oder mehrere Module des Verarbeitungsmoduls 104.
2 zeigt ein Verfahren 150 zum Transformieren von Sensordaten aus einem Bezugssystem in das Bezugssystem anderer Sensorkonfigurationen gemäß der vorliegenden Offenbarung. Bei 152 empfängt die Steuerung (z. B. das Objektdetektionsmodul 110) Daten von einem ersten Sensor (z. B. von dem ersten Satz von Sensoren 102). Bei 154 transformiert die Steuerung (z. B. die Elemente 112, 114, 116) die Daten. Bei 156 tastet der zweite Sensor die transformierten Daten ab. Bei 158 trainiert die Steuerung (z. B. das Trainingsmodul 108) das Modell unter Verwendung der durch den zweiten Sensor abgetasteten transformierten Daten. Bei 160 empfängt das trainierte Modell in Verwendung andere Daten von dem zweiten Sensor und gibt richtige Ergebnisse wie trainiert aus. Das trainierte Modell gibt die Ergebnisse durch Erkennen der anderen Daten so, als ob das Modell unter Verwendung von Daten, die direkt durch den zweiten Sensor erhoben wurden, trainiert wurde, anstatt dass es auf der Grundlage von Daten, die durch den ersten Sensor erhoben wurden, trainiert worden ist, aus.
3 zeigt ein Verfahren 200 zum Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, gemäß der vorliegenden Offenbarung. Bei 202 empfängt die Steuerung (d. h. das Objektdetektionsmodul 110) die ersten Daten, die durch einen ersten Satz von Sensoren (z. B. den ersten Satz von Sensoren 102), die in einer ersten Konfiguration angeordnet sind, erfasst wurden. Bei 204 detektiert die Steuerung (z. B. das Objektdetektionsmodul 110) in den ersten Daten interessierende Objekte (Ool). Bei 206 trennt die Steuerung (z. B. das Objekttrennungsmodul 112) die Objekte von Hintergrund in den ersten Daten.
Bei 208 transformiert die Steuerung (z. B. das Perspektiventransformationsmodul 114) Perspektiven der Objekte unter Verwendung einer oder mehrerer Techniken des maschinellen Lernens aus 2D in 3D. Bei 210 transformiert die Steuerung (z. B. das Perspektiventransformationsmodul 114) Perspektiven des Hintergrunds unter Verwendung einer oder mehrerer Computergrafiktechniken aus 2D in 3D. Bei 212 kombiniert die Steuerung (z. B. das Kombinationsmodul 116) die transformierten 3D-Perspektiven der Objekte und des Hintergrunds, um eine 3D-Szene zu erzeugen, die die ersten Daten darstellt.
Bei 214 tastet ein zweiter Satz von Sensoren (z. B. der zweite Satz von Sensoren 106), die in einer zweiten Konfiguration angeordnet sind, die 3D-Szene ab, um eine 3D-Darstellung der 3D-Szene zu erzeugen. Die Anordnung der zweiten Sensoren in der zweiten Konfiguration ist anders als die Anordnung des ersten Satzes von Sensoren in der ersten Konfiguration. Bei 216 trainiert die Steuerung (z. B. das Trainingsmodul 108) unter Verwendung der durch den zweiten Satz von Sensoren abgetasteten Daten ein Modell (z. B. ein Modell auf der Grundlage von maschinellem Lernen). Das heißt, die Steuerung trainiert das Modell unter Verwendung der 3D-Darstellung der 3D-Szene, die durch den zweiten Satz von Sensoren erzeugt wurde.
Bei 218 empfängt das trainierte Modell in Verwendung andere Daten von dem zweiten Satz von Sensoren und gibt es richtige Ergebnisse wie trainiert aus. Wie oben beschrieben wurde, gibt das trainierte Modell die Ergebnisse durch Erkennen der anderen Daten so, als ob das Modell unter Verwendung der anderen Daten trainiert wurde, die direkt durch den zweiten Satz von Sensoren erhoben wurden, anstatt dass es auf der Grundlage von Daten, die durch den ersten Satz von Sensoren erhoben worden sind, trainiert worden ist, aus.
4 zeigt ein Verfahren 250 zum Transformieren von Sensordaten aus einem Bezugssystem in das Bezugssystem anderer Sensorkonfigurationen gemäß der vorliegenden Offenbarung. Wie im Folgenden beschrieben ist, unterscheidet sich das Verfahren 250 von dem Verfahren 200 dadurch, dass das Verfahren 200 3D-Darstellungen der transformierten Perspektiven der Objekte und des Hintergrunds kombiniert, während das Verfahren 250 die 2D-Darstellungen der transformierten Perspektiven der Objekte und des Hintergrunds kombiniert. Wie im Folgenden erläutert ist, ordnet das Verfahren 200 im Wesentlichen ein 3D-Ool in einem 3D-Hintergrund an und tastet es die 3D-Szene daraufhin mit dem zweiten Satz von Sensoren ab, während das Verfahren 250 ein 3D-Ool und einen 3D-Hintergrund mit dem zweiten Satz von Sensoren abtastet und eine 2D-Darstellung des Ool in einer 2D-Darstellung des Hintergrunds anordnet.
Bei 252 empfängt die Steuerung (z. B. das Objektdetektionsmodul 110) die ersten Daten, die durch einen ersten Satz von Sensoren (z. B. den ersten Satz von Sensoren 102), die in einer ersten Konfiguration angeordnet sind, erfasst wurden. Bei 254 detektiert die Steuerung (z. B. das Objektdetektionsmodul 110) in den ersten Daten interessierende Objekte. Bei 256 trennt die Steuerung (z. B. das Objekttrennungsmodul 112) die Objekte in den ersten Daten vom Hintergrund.
Bei 258 transformiert die Steuerung (z. B. das Perspektiventransformationsmodul 114) Perspektiven der Objekte unter Verwendung einer oder mehrerer Techniken des maschinellen Lernens aus 2D in 3D. Bei 260 transformiert die Steuerung (z. B. das Perspektiventransformationsmodul 114) Perspektiven des Hintergrunds unter Verwendung einer oder mehrerer Computergrafiktechniken aus 2D in 3D.
Bei 262 tastet ein zweiter Satz von Sensoren (z. B. der zweite Satz von Sensoren 106), die in einer zweiten Konfiguration angeordnet sind, die 3D-transformierten Perspektiven der Objekte ab, um eine 2D-Darstellung der 3D-transformierten Perspektiven der Objekte zu erzeugen. Die Anordnung der zweiten Sensoren in der zweiten Konfiguration ist anders als die Anordnung des ersten Satzes von Sensoren in der ersten Konfiguration. Bei 264 tastet der zweite Satz von Sensoren die 3D-transformierten Perspektiven des Hintergrunds ab, um eine 2D-Darstellung der 3D-transformierten Perspektiven des Hintergrunds zu erzeugen.
Bei 266 kombiniert die Steuerung (z. B. das Kombinationsmodul 116) die 2D-Darstellungen der 3D-transformierten Perspektiven der Objekte und des Hintergrunds. Bei 268 trainiert die Steuerung (z. B. das Trainingsmodul 108) unter Verwendung der kombinierten 2D-Darstellungen der 3D-transformierten Perspektiven des Objekts und des Hintergrunds ein Modell (z. B. ein Modell auf der Grundlage von maschinellem Lernen).
Bei 270 empfängt das trainierte Modell in Verwendung von dem zweiten Satz von Sensoren andere Daten und gibt es richtige Ergebnisse wie trainiert aus. Wie oben beschrieben wurde, gibt das trainierte Modell die Ergebnisse durch Erkennen der anderen Daten so, als ob das Modell unter Verwendung der anderen Daten, die direkt durch den zweiten Satz von Sensoren erhoben wurden, trainiert wurde, anstatt dass es auf der Grundlage von Daten, die durch den ersten Satz von Sensoren erhoben worden sind, trainiert worden ist, aus.
Das obige System und die obigen Verfahren können in vielen Anwendungen verwendet werden. Nichteinschränkende Beispiele der Anwendungen enthalten die Folgenden. Zum Beispiel können das obige System und die obigen Verfahren zur Datenanreicherung beim Training verschiedener Systeme des maschinellen Lernens verwendet werden.
Gemäß einem zweiten Verwendungsfallbeispiel können das System und die Verfahren mit V2X-Kommunikationssystemen (Fahrzeug-zu-allem-Kommunikationssystemen) und fortgeschrittenen Fahrerassistenzsystemen (ADAS) verwendet werden. V2X ist eine Kommunikation zwischen einem Fahrzeug und irgendeiner Entität, die das Fahrzeug beeinflussen kann oder durch das Fahrzeug beeinflusst werden kann. V2X enthält andere, spezifischere Typen der Kommunikation wie etwa V2I (Fahrzeug-zu-Infrastruktur), V2N (Fahrzeug-zu-Netz), V2V (Fahrzeug-zu-Fahrzeug), V2P (Fahrzeug-zu-Fußgänger), V2D (Fahrzeug-zu-Vorrichtung) und V2G (Fahrzeug-zu-Straßennetz).
V2X definiert Peer-to-Peer-Kommunikationsprotokolle, die verbessertes Situationsbewusstsein zwischen Fahrzeugen ermöglichen. V2X-Anwendungen sind für Routine- und dringende Verkehrssituationen ausgelegt, die von Kreuzungswarnungen und nahen Notfallfahrzeugen bis zu Warnungen über toten Winkel reichen, die Unfälle in Verbindung mit Fahrspurwechseln verhindern helfen. Zusätzlich können über V2X Straßenumleitungen für den Bau, für den Verkehrsfluss oder für Verkehrsunfälle signalisiert werden. Fußgänger können aus den Sicherheitsverbesserungen von V2X auf ihren Mobiltelefonen ebenfalls Nutzen ziehen.
ADAS verwendet eine Mensch-Maschine-Schnittstelle, um die Fähigkeit eines Fahrers, auf Gefahren auf der Straße zu reagieren, zu verbessern. ADAS erhöht die Sicherheit und die Reaktionszeiten durch Frühwarnung und automatisierte Systeme. Einige Beispiele für ADAS enthalten Vorwärtskollisionswarnung, Fernlichtsicherheitssystem, Fahrspurwechselwarnung, Verkehrssignalerkennung usw. Aktuelle ADAS-Funktionen sind durch Fähigkeiten der Fahrzeugsensoren beschränkt. Die V2V-Kommunikation kann ADAS-Funktionen dadurch erweitern, dass sie ermöglicht, dass Fahrzeuge direkt miteinander kommunizieren und Informationen über Relativgeschwindigkeiten, Positionen, Fahrtrichtungen und sogar Steuereingaben wie etwa plötzliches Bremsen, plötzliche Beschleunigungen oder plötzliche Änderungen der Richtung gemeinsam nutzen. Das Kombinieren dieser Daten mit den eigenen Sensoreingaben des Fahrzeugs kann ein breiteres und detaillierteres Bild der Umgebung erzeugen und frühere und genauere Warnungen oder Korrekturmaßnahmen bereitstellen, um Kollisionen zu vermeiden.
Das obige System und die obigen Verfahren der vorliegenden Offenbarung können wie folgt mit V2X und ADAS verwendet werden. Zum Beispiel kann ein durch einen ersten Hersteller hergestelltes erstes Fahrzeug eine Angabe einer Gefährdungsdetektion über V2X weiterleiten. Ein durch einen zweiten Hersteller hergestelltes zweites Fahrzeug kann die Angabe über V2X empfangen. Ohne die obigen Systeme und Verfahren nimmt das zweite Fahrzeug die durch das erste Fahrzeug angegebene Existenz einer Gefährdung an oder weist sie zurück. Stattdessen kann das erste Fahrzeug in der Angabe eine kurze Folge seiner Sensordaten und Informationen über seine Sensoren enthalten, falls die obigen Systeme und Verfahren in dem zweiten Fahrzeug eingesetzt sind. Die obigen Systeme und Verfahren in dem zweiten Fahrzeug können Sensordaten des ersten Fahrzeugs transformieren, um sie an ihre eigene Konfiguration anzupassen, und ihr eigenes Modell (das zum Verarbeiten von Sensordaten in der in dem ersten Fahrzeug vorhandenen Konfiguration trainiert worden ist) verwenden, um die Gefährdung zu analysieren und unabhängig von der durch das erste Fahrzeug getroffenen Entscheidung eine Schlussfolgerung zu erreichen. Dementsprechend kann das zweite Fahrzeug, anstatt dadurch, dass es sich auf die von dem ersten Fahrzeug empfangene Gefährdungsangabe stützt, eine binäre Entscheidung zu treffen, eine bessere Entscheidung darüber treffen, wie die Gefährdungssituation zu behandeln ist.
Gemäß einem dritten Verwendungsfallbeispiel kann ein Infotainmentsystem des Fahrzeugs, das das obige System und die obigen Verfahren nutzt, Sensordaten verwenden, die von Sensoren eines Fahrzeugs erhoben werden, und die erhobenen Daten transformieren, um eine einem Insassen des Fahrzeugs bereitgestellte Ansicht anzureichern. Das System und die Verfahren können ebenfalls ermöglichen, dass der Insasse den Blickpunkt einer durch die Fahrzeugsensoren erfassten Szene manipuliert, um die Anzeige der Umgebung zu ändern. Zum Beispiel kann für den Insassen auf einem Berührungsbildschirm, der die Szene anzeigt, ein Menü bereitgestellt werden, das verschiedene Konfigurationen für die Fahrzeugsensoren (d. h. verschiedene mögliche Anordnungen, in denen die Sensoren virtuell angeordnet sein können) umfasst. Der Insasse kann eine Konfiguration auswählen und das System verwendet die durch die Fahrzeugsensoren erhobenen Daten, transformiert die erhobenen Daten unter Verwendung des Systems und der Verfahren der vorliegenden Offenbarung in die ausgewählte Sensorkonfiguration und zeigt auf dem Berührungsbildschirm eine neue Ansicht der Szene so, als ob die neue Ansicht tatsächlich durch die in der ausgewählten Konfiguration angeordneten Fahrzeugsensoren erfasst würde, an.
Das Folgende ist eine Zusammenfassung verschiedener Computergrafiktechniken und Techniken des maschinellen Lernens, die durch das obige System und die obigen Verfahren verwendet werden können. Zum Beispiel ist Raytracing in der 3D-Computergrafik eine Rendering-Technik zum Erzeugen eines Bilds durch Nachführen eines Wegs von Licht als Pixel in einer Bildebene und Simulieren von Wirkungen seines Auftreffens auf virtuelle Objekte. Raytracing kann viele optische Effekte wie etwa Reflexions-, Brechungs-, Streuungs- und Dispersionserscheinungen wie etwa chromatische Aberration simulieren. Raytracing kann einen hohen Grad an visuellem Realismus, mehr als typische Bildzeilen-Rendering-Verfahren, erzeugen, ist aber rechenaufwändig.
Pathtracing ist eine Form des Raytracing, die weiche Schatten, Tiefenschärfe, Bewegungsunschärfe, Kaustik, Umgebungsverdeckung und Direktbeleuchtung erzeugen kann. Pathtracing ist ein unverzerrtes Rendering-Verfahren, wobei aber eine große Anzahl von Strahlen nachgeführt werden müssen, um hochwertige Referenzbilder ohne verrauschte Artefakte zu erhalten.
Das Folgende sind Beispiele der Techniken von maschinellem Lernen, die zum Detektieren und Manipulieren der interessierenden Objekte, wie in dem obigen System und in dem obigen Verfahren der vorliegenden Offenbarung beschrieben ist, verwendet werden können. Zum Beispiel ist ein Generative Adversarial Network (GAN) eine Klasse einer Technik des maschinellen Lernens, die zum Synthetisieren von 3D-Objekten verwendet werden kann. Bei einem vorgegebenen Trainingssatz lernt ein GAN, mit derselben Statistik wie der Trainingssatz neue Daten zu erzeugen. Ein an Fotografien trainiertes GAN kann z. B. neue Fotografien erzeugen, die viele realistische Eigenschaften aufweisen und wenigstens flüchtig authentisch erscheinen.
Als ein weiteres Beispiel sind Neural Radiance Fields (NeRF) ein vollständig verbundenes tiefes Netz, das trainiert werden kann, um eingegebene Ansichten einer einzelnen Szene unter Verwendung eines Rendering-Verlusts wiederzugeben. Das Netz empfängt den räumlichen Ort und die Blickrichtung (5D-Eingabe) und gibt die Volumendichte und die sichtabhängige emittierte Strahlstärke an diesem räumlichen Ort aus. Um neue Ansichten differenzierbar zu rendern, wird Volumenrendering verwendet. Um eine 3D-Szene zu erzeugen, verwendet NeRF viele Bilder einer Szene, die von verschiedenen Sichten aufgenommen wurden, und ist somit rechenaufwändig. Dementsprechend ist NeRF besser geeignet zum Erzeugen statischer Szenen wie virtueller Museumsexponate als für dynamisch sich ändernde Umgebungen mit vielen Szenen, die ein Fahrzeug während des Fahrens feststellt.
Gemäß anderen Beispielen kann ein 3D-Objekt durch eine stetige Funktion dargestellt werden, die ein Generative RAdiance Field (GRAF) genannt wird. Das GRAF erzeugt 3D-konstante Bilder und verwendet für das Training nur nicht gestellte 2D-Bilder. Das GRAF enthält 3D-Bewusstsein durch Hinzufügen einer virtuellen Kamera zum Modell. Eine 3D-Darstellung erzeugter Objekte wird durch einen 3D-Generator parametrisiert. Die virtuelle Kamera und ein entsprechender Renderer erzeugen ein Bild der 3D-Darstellung. Das GRAF kann durch Steuern der Pose der virtuellen Kamera in dem Modell Bilder aus verschiedenen Blickpunkten rendern. Das GRAF modelliert Form und Aussehen unter Verwendung zweiter entflochtener latenter Codes getrennt und ermöglicht, dass sie getrennt geändert werden.
Diese Techniken konzentrieren sich hauptsächlich auf die Manipulation von Objekten anstellen dynamischer Szenen. Allerdings können das obige System und die obigen Verfahren durch Verwendung dieser Techniken zusammen (d. h. durch Verwendung von Computergrafiktechniken für Hintergründe und Techniken des maschinellen Lernens für Ool) dynamische Szenen wie etwa jene, die durch Kameras während des Fahrens eines Fahrzeugs erfasst werden, synthetisieren, was das Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden, ermöglicht. Wie oben beschrieben wurde, trennen das System und die Verfahren genauer OoI von Hintergründen und verwenden diese Techniken zusammen (d. h., verwenden sie Techniken des maschinellen Lernens zum Transformieren von Perspektiven der Ool und verwenden sie Computergrafiktechniken zum Transformieren von Perspektiven der Hintergründe), um Sensordaten in zusätzliche Bezugssysteme zu transformieren.
Die vorstehende Beschreibung ist dem Wesen nach lediglich veranschaulichend und soll die Offenbarung, ihre Anwendung oder Verwendungen in keiner Weise einschränken. Die umfassenden Lehren der Offenbarung können in einer Vielzahl von Formen implementiert werden. Obwohl diese Offenbarung bestimmte Beispiele enthält, soll der wahre Schutzumfang der Offenbarung somit nicht darauf beschränkt sein, da andere Änderungen bei einem Studium der Zeichnungen, der Beschreibung und der folgenden Ansprüche hervorgehen. Selbstverständlich können ein oder mehrere Schritte innerhalb eines Verfahrens in einer anderen Reihenfolge (oder gleichzeitig) ausgeführt werden, ohne die Prinzipien der vorliegenden Offenbarung zu ändern. Obwohl jede der Ausführungsformen oben als mit bestimmten Merkmalen beschrieben worden ist, können ferner ein oder mehrere dieser in Bezug auf irgendeine Ausführungsform der Offenbarung beschriebenen Merkmale in und/oder zusammen mit Merkmalen irgendeiner der anderen Ausführungsformen implementiert werden, selbst wenn diese Kombination nicht explizit beschrieben ist. Mit anderen Worten, die beschriebenen Ausführungsformen schließen sich nicht gegenseitig aus und Vertauschungen einer oder mehrerer Ausführungsformen miteinander bleiben im Schutzumfang dieser Offenbarung.
Räumliche und funktionale Beziehungen zwischen Elementen (z. B. zwischen Modulen, Schaltungselementen, Halbleiterschichten usw.) sind unter Verwendung verschiedener Begriffe einschließlich „verbunden“, „in Eingriff“, „gekoppelt“, „benachbart“, „neben“, „auf“, „über“, „unter“ und „angeordnet“ beschrieben. Wenn eine Beziehung zwischen einem ersten und einem zweiten Element in der obigen Offenbarung nicht explizit als „direkt“ beschrieben ist, kann diese Beziehung eine direkte Beziehung sein, bei der zwischen dem ersten und dem zweiten Element keine anderen dazwischenliegenden Elemente vorhanden sind, kann sie aber ebenfalls eine indirekte Beziehung sein, bei der zwischen dem ersten und dem zweiten Element ein oder mehrere (entweder räumlich oder funktional) dazwischenliegende Elemente vorhanden sind. Wie die Formulierung wenigstens eines von A, B und C hier verwendet ist, soll sie ein logisches (A ODER B ODER C) unter Verwendung eines nicht ausschließenden logischen ODER bedeuten und ist sie nicht in der Bedeutung „wenigstens eines von A, wenigstens eines von B und wenigstens eines von C“ zu verstehen.
In den Figuren veranschaulicht die Richtung eines Pfeils, wie sie durch die Pfeilspitze angegeben ist, allgemein den Informationsfluss (wie etwa von Daten oder Anweisungen), der für die Darstellung von Interesse ist. Wenn z. B. ein Element A und ein Element B eine Vielzahl von Informationen austauschen, für die Darstellung aber von dem Element A zu dem Element B übertragene Informationen relevant sind, kann der Pfeil von dem Element A zu dem Element B weisen. Dieser einfachgerichtete Pfeil bedeutet nicht, dass keine anderen Informationen von dem Element B zu dem Element A übertragen werden. Ferner kann für von dem Element A zu dem Element B gesendete Informationen das Element B Anforderungen für die Informationen an das Element A senden oder deren Quittierungen empfangen.
In dieser Anmeldung einschließlich in den folgenden Definitionen kann der Begriff „Modul“ oder der Begriff „Controller“ durch den Begriff „Schaltung“ ersetzt werden. Der Begriff „Modul“ kann sich auf: eine anwendungsspezifische integrierte Schaltung (ASIC); eine digitale, analoge oder gemischt analog/digitale diskrete Schaltung; eine digitale, analoge oder gemischt analog/digitale integrierte Schaltung; eine Kombinationslogikschaltung; eine frei programmierbare logische Anordnung (FPGA); eine Prozessorschaltung (gemeinsam genutzt, dediziert oder Gruppe), die Code ausführt; eine Speicherschaltung (gemeinsam genutzt, dediziert oder Gruppe), die durch die Prozessorschaltung ausgeführten Code speichert; andere geeignete Hardwarekomponenten, die die beschriebene Funktionalität bereitstellen; oder eine Kombination einiger oder aller der Obigen wie etwa in einem Ein-Chip-System beziehen, ein Teil davon sein oder sie enthalten.
Das Modul kann eine oder mehrere Schnittstellenschaltungen enthalten. Gemäß einigen Beispielen können die Schnittstellenschaltungen verdrahtete oder drahtlose Schnittstellen enthalten, die mit einem lokalen Netz (LAN), mit dem Internet, mit einem Weitverkehrsnetz (WAN) oder mit Kombinationen davon verbunden sind. Die Funktionalität irgendeines gegebenen Moduls der vorliegenden Offenbarung kann auf mehrere Module, die über Schnittstellenschaltungen verbunden sind, verteilt sein. Zum Beispiel können mehrere Module einen Lastausgleich ermöglichen. Gemäß einem weiteren Beispiel kann ein Servermodul (auch als entferntes Modul oder Cloud-Modul bekannt) einige Funktionalität im Auftrag eines Client-Moduls ausführen.
Der Begriff Code, wie er oben verwendet ist, kann Software, Firmware und/oder Mikrocode enthalten und kann sich auf Programme, Routinen, Funktionen, Klassen, Datenstrukturen und/oder Objekte beziehen. Der Begriff gemeinsam genutzte Prozessorschaltung umfasst eine einzelne Prozessorschaltung, die einen Teil des Codes oder allen Code von mehreren Modulen ausführt. Der Begriff Gruppenprozessorschaltung umfasst eine Prozessorschaltung, die einen Teil oder allen Code von einem oder von mehreren Modulen zusammen mit zusätzlichen Prozessorschaltungen ausführt. Bezugnahmen auf mehrere Prozessorschaltungen umfassen mehrere Prozessorschaltungen auf diskreten Chipplättchen, mehrere Prozessorschaltungen auf einem einzelnen Chipplättchen, mehrere Kerne einer einzelnen Prozessorschaltung, mehrere Threads einer einzelnen Prozessorschaltung oder eine Kombination der Obigen. Der Begriff gemeinsam genutzte Speicherschaltung umfasst eine einzelne Speicherschaltung, die einen Teil von oder allen Code von mehreren Modulen speichert. Der Begriff Gruppenspeicherschaltung umfasst eine Speicherschaltung, die einen Teil oder allen Code von einem oder mehreren Modulen zusammen mit zusätzlichen Speichern speichert.
Der Begriff Speicherschaltung ist eine Teilmenge des Begriffs computerlesbares Medium. Der Begriff computerlesbares Medium, wie er hier verwendet ist, umfasst keine transitorischen elektrischen oder elektromagnetischen Signale, die sich (wie etwa in einer Trägerwelle) durch ein Medium ausbreiten; somit kann der Begriff computerlesbares Medium als konkret und nichttransitorisch angesehen werden. Nicht einschränkende Beispiele eines nichttransitorischen, konkreten computerlesbaren Mediums sind nichtflüchtige Speicherschaltungen (wie etwa eine Flash-Speicherschaltung, eine löschbare, programmierbarere Nur-Lese-Speicherschaltung oder eine Masken-Nur-Lese-Speicherschaltung), flüchtige Speicherschaltungen (wie etwa eine statische Schreib-Lese-Speicherschaltung oder eine dynamische Schreib-Lese-Speicherschaltung), magnetische Ablagespeichermedien (wie etwa ein analoges oder digitales Magnetband oder ein Festplattenlaufwerk) und optische Ablagespeichermedien (wie etwa eine CD, eine DVD oder eine Blu-Ray-Disc).
Die in dieser Anmeldung beschriebenen Vorrichtungen und Verfahren können teilweise oder vollständig durch einen durch Konfigurieren eines Universalcomputers zum Ausführen einer oder mehrerer bestimmter Funktionen, die in Computerprogrammen verkörpert sind, erzeugten Spezialcomputer implementiert werden. Die Funktionsblöcke, Ablaufplankomponenten und anderen Elemente, die oben beschrieben sind, dienen als Softwarespezifikationen, die durch die Routinearbeit eines erfahrenen Technikers oder Programmierers in die Computerprogramme übersetzt werden können.
Die Computerprogramme enthalten durch einen Prozessor ausführbare Anweisungen, die in wenigstens einem nichttransitorischen, konkreten computerlesbaren Medium gespeichert sind. Außerdem können die Computerprogramme gespeicherte Daten enthalten oder sich auf sie stützen. Die Computerprogramme können ein Basis-Eingabe/Ausgabe-System (BIOS), das mit Hardware des Spezialcomputers zusammenwirkt, Vorrichtungstreiber, die mit bestimmten Vorrichtungen des Spezialcomputers zusammenwirken, ein oder mehrere Betriebssysteme, Benutzeranwendungen, Hintergrunddienste, Hintergrundanwendungen usw. umfassen.
Die Computerprogramme können enthalten: (i) beschreibenden Text, der zu parsen ist, wie etwa HTML (Hypertext Markup Language), XML (Extensible Markup Language) oder JSON (JavaScript Object Notation), (ii) Assemblercode, (iii) Objektcode, der durch einen Compiler aus Quellcode erzeugt wird, (iv) Quellcode zur Ausführung durch einen Interpreter, (v) Quellcode zur Compilierung und Ausführung durch einen Just-in-time-Compiler usw. Nur als Beispiele kann Quellcode unter Verwendung einer Syntax aus Sprachen einschließlich C, C++, C#, Objective-C, Swift, Haskell, Go, SQL, R, Lisp, Java®, Fortran, Perl, Pascal, Curl, OCaml, Javascript®, HTML5 (Hypertext Markup Language, 5. Revision), Ada, ASP (Active Server Pages), PHP (PHP: Hypertext-Präprozessor), Scala, Eiffel, Smalltalk, Erlang, Ruby, Flash®, Visual Basic®, Lua, MATLAB, SIMULINK und Python® geschrieben sein.

Claims

System, das umfasst: einen Prozessor; und einen Speicher, der Anweisungen speichert, die, wenn sie durch den Prozessor ausgeführt werden, den Prozessor zu Folgendem konfigurieren: Empfangen erster Daten von einem ersten Satz von Sensoren, die in einer ersten Konfiguration angeordnet sind; Transformieren der ersten Daten in zweite Daten, um ein Modell zum Erkennen dritter Daten, die durch einen dritten Satz von Sensoren erfasst werden, die in einer zweiten Konfiguration angeordnet sind, zu trainieren, wobei die zweite Konfiguration von der ersten Konfiguration verschieden ist; und Trainieren des Modells auf der Grundlage des zweiten Satzes von Sensoren, die die zweiten Daten erfassen, um die dritten Daten, die durch den zweiten Satz von Sensoren erfasst werden, die in der zweiten Konfiguration angeordnet sind, zu erkennen.
System nach Anspruch 1, wobei das trainierte Modell die dritten Daten, die durch den zweiten Satz von Sensoren erfasst werden, die in der zweiten Konfiguration angeordnet sind, erkennt.
System nach Anspruch 1, wobei wenigstens einer des zweiten Satzes von Sensoren von wenigstens einem des ersten Satzes von Sensoren verschieden ist.
System nach Anspruch 1, wobei die Anweisungen den Prozessor zu Folgendem konfigurieren: Detektieren eines oder mehrerer Objekte in den ersten Daten; und Trennen der Objekte von dem Hintergrund in den ersten Daten.
System nach Anspruch 4, wobei die Anweisungen den Prozessor zu Folgendem konfigurieren: Transformieren von Perspektiven der Objekte von 2D in 3D unter Verwendung eines Modells auf der Grundlage von maschinellem Lernen; und Transformieren einer Perspektive des Hintergrunds von 2D in 3D unter Verwendung einer Computergrafiktechnik.
System nach Anspruch 5, wobei die Anweisungen den Prozessor zum Kombinieren der transformierten Perspektiven der Objekte und der transformierten Perspektive des Hintergrunds zum Erzeugen einer 3D-Szene, die die ersten Daten darstellt, konfigurieren.
System nach Anspruch 6, wobei die Anweisungen den Prozessor zum Trainieren des Modells auf der Grundlage des zweiten Satzes von Sensoren, die die 3D-Szene, die die ersten Daten darstellt, erfassen, konfigurieren.
System nach Anspruch 5, wobei die Anweisungen den Prozessor zu Folgendem konfigurieren: Erzeugen von 2D-Darstellungen der 3D-Perspektiven der durch den zweiten Satz von Sensoren abgetasteten Objekte; und Erzeugen einer 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds.
System nach Anspruch 8, wobei die Anweisungen den Prozessor zum Kombinieren der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds konfigurieren.
System nach Anspruch 9, wobei die Anweisungen den Prozessor zum Trainieren des Modells auf der Grundlage der Kombination der 2D-Darstellungen der 3D-Perspektiven der Objekte und der 2D-Darstellung der 3D-Perspektive des durch den zweiten Satz von Sensoren abgetasteten Hintergrunds konfigurieren.