DE102021101270A1

DE102021101270A1 - Trainieren eines neuronalen netzwerks eines fahrzeugs

Info

Publication number: DE102021101270A1
Application number: DE102021101270.8A
Authority: DE
Inventors: Punarjay Chakravarty; Ashley Elizabeth Micks
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-01-24
Filing date: 2021-01-21
Publication date: 2021-07-29
Also published as: US11299169B2; CN113177429A; US20210229680A1

Abstract

Diese Offenbarung stellt Trainieren eines neuronalen Netzwerks eines Fahrzeugs bereit. Ein Computer, einschließlich eines Prozessors und eines Speichers, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor zu Folgendem ausgeführt werden sollen: Bestimmen von Daten von sechs Freiheitsgraden (DoF) für ein erstes Objekt in einem ersten Videobild, und Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, das ein synthetisches Objekt und eine synthetische Objektkennung auf Grundlage der sechs DoF-Daten beinhaltet. Die Anweisungen können ferner Anweisungen zum Trainieren eines Generative Adversarial Network (GAN) auf Grundlage von einem gepaarten ersten Videobild und einem synthetischen Videobild dazu, ein modifiziertes synthetisches Bild zu erzeugen und Trainieren eines tiefen neuronales Netzwerks dazu beinhalten, das synthetische Objekt in dem modifizierten synthetischen Videobild auf Grundlage des synthetischen Objekts zu lokalisieren. Die Anweisungen können ferner Anweisungen zum Herunterladen des trainierten tiefen neuronalen Netzwerks auf eine Rechenvorrichtung in einem Fahrzeug beinhalten.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen neuronale Fahrzeugnetzwerke.
ALLGEMEINER STAND DER TECHNIK
Fahrzeuge können mit Rechenvorrichtungen, Netzwerken, Sensoren und Steuerungen ausgestattet sein, um Daten bezüglich der Umgebung des Fahrzeugs zu erlangen und das Fahrzeug auf Grundlage der Daten zu betreiben. Fahrzeugsensoren können Daten, die zu fahrende Routen und zu vermeidende Objekte in der Umgebung des Fahrzeugs betreffen, bereitstellen. Der Betrieb des Fahrzeugs kann vom Erlangen genauer und aktueller Daten zu Objekten in der Umgebung eines Fahrzeugs während des Betriebs des Fahrzeugs auf einer Fahrbahn abhängen.
KURZDARSTELLUNG
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengesteuerten Modus betrieben zu werden. Unter einem halb- oder vollautonomen Modus verstehen die Erfinder einen Betriebsmodus, in dem ein Fahrzeug teilweise oder vollständig von einer Rechenvorrichtung als Teil eines Systems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, wobei das Fahrzeug in beiden Fällen teilweise oder vollständig ohne Unterstützung eines Insassen gesteuert werden kann. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem jedes von Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung des Fahrzeugs durch einen oder mehrere Fahrzeugcomputer gesteuert wird; in einem halbautonomen Modus steuert/steuern der/die Fahrzeugcomputer eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs. In einem nichtautonomen Modus wird keines von diesen durch einen Computer gesteuert.
Ein tiefes neuronales Netzwerk kann dazu trainiert werden, Standorte für Objekte, einschließlich anderer Fahrzeuge in einer Umgebung um ein Fahrzeug, auf Grundlage von Bilddaten, die durch Fahrzeugsensoren erlangt sind, zu identifizieren und zu bestimmen. Eine Rechenvorrichtung in einem Fahrzeug kann einen Fahrzeugweg, auf dem das Fahrzeug betrieben werden soll, auf Grundlage eines identifizierten Objektstandorts bestimmen, der durch das tiefe neuronale Netzwerk ausgegeben ist. Ein Fahrzeug kann auf Grundlage des Fahrzeugwegs auf einer Fahrbahn fahren, indem Befehle bestimmt werden, um die Antriebsstrang-, Brems- und Lenkungskomponenten zum Betreiben des Fahrzeugs zu steuern, sodass das Fahrzeug den Weg entlang fährt. Tiefe neuronale Netze können trainiert werden, um Objekte in Videodaten unter Verwendung gekennzeichneter Trainingsdaten zu identifizieren und zu lokalisieren, wobei Objekte in Videodaten vor der Verarbeitung mit dem tiefen neuronalen Netzwerk identifiziert und lokalisiert werden.
Das Bereitstellen gekennzeichneter realer Videodaten kann teuer und zeitaufwändig sein. Das Trainieren von tiefen neuronalen Netzwerken kann durch die Verwendung gekennzeichneter synthetischer Videodaten verbessert werden. Synthetische Videodaten sind Videodaten, die durch Software für fotorealistisches Rendering erzeugt werden, die beschriftete synthetische Videodaten erzeugt. Markierte synthetische Daten können unbefriedigende Trainingsergebnisse bereitstellen, da synthetische Videodaten in einigen Beispielen reale Videodaten nicht realistisch genug modellieren, um das Trainieren von tiefen neuronalen Netzwerken dazu zu ermöglichen, Objekte in realen Videodaten zu identifizieren und zu lokalisieren. Hierin beschriebene Techniken verbessern das Training von tiefen neuronalen Netzwerken durch Bestimmen von Standort- und Orientierungsdaten der sechs Freiheitsgrade (degree of freedom - DoF) für Objekte in erlangten Videodaten der realen Welt und unter Verwendung der Daten der sechs DoF, um markierte synthetische Videodaten auf Grundlage der Daten der sechs DoF zu erzeugen. Die Markierungen aus den gekennzeichneten synthetischen Videodaten können auf die Videodaten der realen Welt übertragen werden, um gepaarte reale und synthetisch markierte Videodaten zu erzeugen.
Die gepaarten reell markierten Videodaten und synthetisch markierten Videodaten können verwendet werden, um ein Generative Adversarial Network (GAN) dazu zu trainieren, modifizierte synthetische Videodaten zu erzeugen, die realen Videodaten genauer entsprechen als unmodifizierte synthetische Videodaten. Das Trainieren von tiefen neuronalen Netzwerken auf Grundlage von modifizierten synthetischen Videodaten verbessert das Trainieren von tiefen neuronalen Netzwerken durch Erzeugen von großen Zahlen (> 1000) synthetischer Videobilder, die genau den Videodaten der realen Welt entsprechen. Das Modifizieren synthetischer Videobilder mit einem trainierten GAN kann eine große Anzahl von modifizierten synthetischen Bildern erzeugen, die dazu verwendet werden können, ein tiefes neuronales Netzwerk mit höherer Genauigkeit und geringeren Kosten in weniger Zeit zu trainieren als ein tiefes neuronales Netzwerk auf Grundlage gekennzeichneter realer Videodaten zu trainieren.
Bilddaten, die durch andere Bildgebungsmodalitäten erzeugt wurden, einschließlich Lidar, Radar und Ultraschall, können verwendet werden, um tiefe neuronale Netze zum Betreiben eines Fahrzeugs zu trainieren. Bilddaten, die durch andere Bildgebungsmodalitäten erzeugt werden, können durch synthetische Daten auf die gleiche Weise erweitert werden, wie Videodaten durch hierin beschriebene Techniken erweitert werden können. Daten der sechs DoF in Bezug auf Fahrzeuge können parallel zu Lidar-, Radar- oder Ultraschalldaten erlangt werden und modifizierte synthetische Bilddaten können durch ein GAN erzeugt werden, das jeder Modalität entspricht. Die resultierenden modifizierten Bilddaten können verwendet werden, um ein tiefes neuronales Netzwerk dazu zu trainieren, ein Fahrzeug auf Grundlage der Lidar-, Radar- oder Ultraschalldaten zu betreiben, wie hierin beschrieben.
Zusätzlich zum Betreiben eines Fahrzeugs durch Erlangen von Videobilddaten mit einem Videosensor, der in einem Fahrzeug beinhaltet ist, können hierin beschriebene Techniken verwendet werden, um ein tiefes neuronales Netzwerk dazu zu trainieren, Daten zu verarbeiten, die von einem stationären Sensor erlangt sind, der in einem Verkehrsinfrastruktursystem beinhaltet ist. Das Verkehrsinfrastruktursystem kann Bilddaten von Sensormodalitäten erlangen, die eines oder mehrere von Video, Lidar, Radar und Ultraschall beinhalten, und die erlangten Bilddaten unter Verwendung der hierin beschriebenen Techniken verarbeiten. Die Ergebnisse der Verarbeitung der erlangten Bilddaten können von dem Verkehrsinfrastruktursystem verwendet werden, um die Identität und Standorte von Objekten zu bestimmen, die in einer Verkehrsszene beinhaltet sind. Die Daten in Bezug auf Identität und Standorte von Objekten in einer Verkehrsszene können dazu verwendet werden, Fahrzeugwege für Fahrzeuge in einer Verkehrsszene zu bestimmen. Die Daten bezüglich Fahrzeugpfaden können auf Fahrzeuge in der Verkehrsszene heruntergeladen werden, um zum Beispiel eine Rechenvorrichtung in einem Fahrzeug beim Betreiben des Fahrzeugs zu unterstützen.
In dieser Schrift ist ein Verfahren offenbart, das Bestimmen von Daten der sechs Freiheitsgrade (DoF) für ein erstes Objekt in einem ersten Videobild, Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, das ein synthetisches Objekt und eine Kennung für ein synthetisches Objekt auf Grundlage der Daten der sechs DoF beinhaltet. Ein Generative Adversarial Network (GAN) kann auf Grundlage von einem gepaarten ersten Videobild und einem synthetischen Videobild dazu trainiert werden, ein modifiziertes synthetisches Bild zu erzeugen, ein tiefes neuronales Netzwerk kann dazu trainiert werden, ein Objekt in dem modifizierten synthetischen Bild auf Grundlage der Kennung für das synthetische Objekt zu lokalisieren und das trainierte tiefe neuronale Netzwerk kann auf eine Rechenvorrichtung in einem Fahrzeug heruntergeladen werden. Das synthetische Videobild kann durch einen fotorealistischen Wiedergabeprozess erzeugt werden, um dem ersten Videobild zu entsprechen, einschließlich Darstellen, dass das synthetische Objekt einem Standort des ersten Objekts in dem ersten Videobild entspricht, auf Grundlage der Daten der sechs DoF. Die Daten der sechs DoF können eine Position im dreidimensionalen (3D-) Raum und eine Ausrichtung im 3D-Raum beinhalten, die beide in Bezug auf orthogonale dreidimensionale Achsen bestimmt sind, wobei die orthogonalen dreidimensionalen Achsen in Bezug auf ein globales Koordinatensystem bestimmt sind.
Das globale Koordinatensystem auf Grundlage von Breite, Länge und Höhe, wobei der Standort in x-, y-, und z-Koordinaten gemessen sein kann und die Ausrichtung durch mit Bezug auf das globale Koordinatensystem festgelegtes Rollen, Neigen und Gieren gemessen ist. Die Daten der sechs DoF können durch Verarbeiten des ersten Videobilds unter Verwendung von Bildverarbeitungstechniken bestimmt werden, um eine Übereinstimmung zwischen Positionen von ersten Datenpunkten auf dem ersten Objekt in dem ersten Videobild und Positionen von gemessenen Datenpunkten zu bestimmen, die durch Messen von Positionen von Datenpunkten auf einem oder mehreren des ersten Objekts oder der technischen Zeichnungen des ersten Objekts bestimmt sind. Die Daten der sechs DoF können durch Minimieren von Unterschieden zwischen Positionen der ersten Datenpunkte und der gemessenen Datenpunkte durch nichtlineare Kurvenanpassung bestimmt werden. Die Daten der sechs DoF können auf Grundlage von technischen Zeichnungen des ersten Objekts und des Blickwinkels der virtuellen Kamera bestimmt werden. Der virtuelle Kamerasichtspunkt kann die Daten der sechs DoF für eine optische Achse der virtuellen Kamera und Vergrößerungsdaten für die virtuelle Kamera beinhalten. Das GAN kann ein Generative Network und ein Adversarial Network beinhalten. Das GAN kann Bildmerkmalsdaten aus dem ersten Videobild zu dem synthetischen Videobild hinzufügen, um das modifizierte synthetische Videobild zu erzeugen. Das tiefe neuronale Netzwerk kann Faltungsschichten und vollständig verbundene Schichten beinhalten. Das tiefe neuronale Netzwerk kann dazu trainiert werden, das erste Objekt zu lokalisieren, indem rückpropagierte Ausgabezustände mit der Kennung des synthetischen Objekts verglichen werden. Das Fahrzeug kann betrieben werden, indem erlangte Videodaten mit dem heruntergeladenen tiefen neuronalen Netzwerk verarbeitet werden, um ein oder mehrere Objekte in den erlangten Videodaten zu lokalisieren. Das Fahrzeug kann ferner durch Steuern des Fahrzeugantriebsstrangs, der Fahrzeuglenkung und der Fahrzeugbremsen auf Grundlage von dem einen oder den mehreren Objekten in den Videodaten betrieben werden.
Ferner ist ein computerlesbares Medium offenbart, das Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte speichert. Ferner ist in dieser Schrift ein Computer offenbart, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist, einschließlich eines Computergeräts, das zu Folgendem programmiert ist: Bestimmen von Daten der sechs Freiheitsgrade (DoF) für ein erstes Objekt in einem ersten Videobild, Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, das ein synthetisches Objekt und eine Kennung des synthetischen Objekts auf Grundlage der Daten der sechs DoF beinhaltet. Ein Generative Adversarial Network (GAN) kann auf Grundlage von einem gepaarten ersten Videobild und einem synthetischen Videobild dazu trainiert werden, ein modifiziertes synthetisches Bild zu erzeugen, ein tiefes neuronales Netzwerk kann dazu trainiert werden, ein Objekt in dem modifizierten synthetischen Bild auf Grundlage der Kennung des synthetischen Objekts zu lokalisieren und das trainierte tiefe neuronale Netzwerk kann auf eine Rechenvorrichtung in einem Fahrzeug heruntergeladen werden. Das synthetische Videobild kann durch einen fotorealistischen Wiedergabeprozess erzeugt werden, um dem ersten Videobild zu entsprechen, einschließlich Darstellen, dass das synthetische Objekt einem Standort des ersten Objekts in dem ersten Videobild entspricht, auf Grundlage der Daten der sechs DoF. Die Daten der sechs DoF können eine Position im dreidimensionalen (3D-) Raum und eine Ausrichtung im 3D-Raum beinhalten, die beide in Bezug auf orthogonale dreidimensionale Achsen bestimmt sind, wobei die orthogonalen dreidimensionalen Achsen in Bezug auf ein globales Koordinatensystem bestimmt sind.
Der Computer kann ferner dazu programmiert sein, den Standort in x-, y-, und z-Koordinaten und die Ausrichtung durch mit Bezug auf das globale Koordinatensystem festgelegtes Rollen, Neigen und Gieren zu messen. Die Daten der sechs DoF können durch Verarbeiten des ersten Videobilds unter Verwendung von Bildverarbeitungstechniken bestimmt werden, um eine Übereinstimmung zwischen Positionen von ersten Datenpunkten auf dem ersten Objekt in dem ersten Videobild und Positionen von gemessenen Datenpunkten zu bestimmen, die durch Messen von Positionen von Datenpunkten auf einem oder mehreren des ersten Objekts oder der technischen Zeichnungen des ersten Objekts bestimmt sind. Die Daten der sechs DoF können durch Minimieren von Unterschieden zwischen Positionen der ersten Datenpunkte und der gemessenen Datenpunkte durch nichtlineare Kurvenanpassung bestimmt werden. Die Daten der sechs DoF können auf Grundlage von technischen Zeichnungen des ersten Objekts und des Blickwinkels der virtuellen Kamera bestimmt werden. Der virtuelle Kamerasichtspunkt kann die Daten der sechs DoF für eine optische Achse der virtuellen Kamera und Vergrößerungsdaten für die virtuelle Kamera beinhalten. Das GAN kann ein Generative Network und ein Adversarial Network beinhalten. Das GAN kann Bildmerkmalsdaten aus dem ersten Videobild zu dem synthetischen Videobild hinzufügen, um das modifizierte synthetische Videobild zu erzeugen. Das tiefe neuronale Netzwerk kann Faltungsschichten und vollständig verbundene Schichten beinhalten. Das tiefe neuronale Netzwerk kann dazu trainiert werden, das erste Objekt zu lokalisieren, indem zurückpropagierte Ausgabezustände mit der Kennung für synthetische Objekte verglichen werden. Das Fahrzeug kann betrieben werden, indem erlangte Videodaten mit dem heruntergeladenen tiefen neuronalen Netzwerk verarbeitet werden, um ein oder mehrere Objekte in den erlangten Videodaten zu lokalisieren. Das Fahrzeug kann ferner durch Steuern des Fahrzeugantriebsstrangs, der Fahrzeuglenkung und der Fahrzeugbremsen auf Grundlage von dem einen oder den mehreren Objekten in den Videodaten betrieben werden.
Figurenliste

1 ist eine Darstellung eines beispielhaften Verkehrsinfrastruktursystems.
2 ist eine Darstellung einer beispielhaften Verkehrsszene einschließlich eines Videosensors.
3 ist eine Darstellung eines beispielhaften Farbvideobilds einer Verkehrsszene.
4 ist eine Darstellung eines beispielhaften Fahrzeugbilds mit computergestützter Gestaltung.
5 ist eine Darstellung eines beispielhaften markierten synthetischen Videobilds.
6 ist ein Diagramm eines beispielhaften markierten Farbvideobilds.
7 ist eine Darstellung eines beispielhaften Generative Adversarial Network.
8 ist eine Darstellung eines beispielhaften tiefen neuronalen Netzwerks.
9 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Betreiben eines Fahrzeugs unter Verwendung eines tiefen neuronalen Netzwerks.

DETAILLIERTE BESCHREIBUNG
1 ist eine Darstellung eines Verkehrsinfrastruktursystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ für sich bedeutet in dieser Offenbarung „vollautonom“), einem halbautonomen und einem insassengesteuerten (auch als nichtautonom bezeichneten) Modus betrieben werden kann. Eine oder mehrere Rechenvorrichtungen 115 des Fahrzeugs 110 können von Sensoren 116 Daten bezüglich des Betriebs des Fahrzeugs 110 empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem halbautonomen Modus oder einem nichtautonomen Modus betreiben.
Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Zudem beinhaltet der Speicher eine oder mehrere Arten computerlesbarer Medien und speichert Anweisungen, die durch den Prozessor dazu ausführbar sind, verschiedene Vorgänge durchzuführen, einschließlich der hierin offenbarten. Zum Beispiel kann die Rechenvorrichtung 115 eine Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Beschleunigungssteuerung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, Hybridmotor usw.), Lenkung, Klimaregelung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrer derartige Vorgänge steuern soll.
Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten beinhaltet sind, z.B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw., beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie ferner nachstehend beschrieben, kommunikativ mit dieser (diesen) gekoppelt sein. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation in einem Fahrzeugkommunikationsnetzwerk angeordnet, das z. B. einen Bus in dem Fahrzeug 110, wie etwa ein Controller Area Network (CAN) oder dergleichen, beinhaltet; das Netzwerk des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen, wie sie bekannt sind, beinhalten, z. B. Ethernet oder andere Kommunikati onsprotokoll e.
Über das Fahrzeugnetzwerk kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Steuerungen, Betätigungselemente, Sensoren usw. einschließlich der Sensoren 116. Alternativ oder zusätzlich kann in Fällen, bei denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetzwerk für Kommunikationen zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Erfassungselemente, wie etwa die Sensoren 116, der Rechenvorrichtung 115 Daten über das F ahrzeugkommunikati onsnetzwerk bereitstellen.
Zusätzlich kann die Rechenvorrichtung 115 dazu konfiguriert sein, über ein Netzwerk 130, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die es der Rechenvorrichtung 115 ermöglichen, über ein Netzwerk 130, wie etwa drahtloses Internet (WI-FI®) oder Mobilfunknetze, mit einem Remote-Servercomputer 120 zu kommunizieren, durch eine Fahrzeug-Infrastruktur-Schnittstelle (V-to-I-Schnittstelle) 111 mit einem Remote-Servercomputer 120, z. B. einem Cloud-Server, zu kommunizieren. Die V-to-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sendeempfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netzwerktechnologien zu nutzen, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetzwerke. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 über die V-to-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-(V-to-V-)Netzwerken z. B. gemäß dedizierter Nahbereichskommunikation (dedicated short range communications - DSRC) und/oder dergleichen, konfiguriert sein, die z.B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netzwerke gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem einen nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetzwerk und eine Fahrzeug-zu-Infrastruktur(V-to-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Vorrichtung 160 eines Benutzers in nichtflüchtigem Speicher speichert. Der Servercomputer 120 kann auch als eine Rechenvorrichtung 115 fungieren, die in einem Kantenrechenknoten beinhaltet ist, wobei ein Kantenrechenknoten eine Rechenvorrichtung 115 ist, z. B. als Teil eines straßenseitigen Infrastrukturelements oder dergleichen, die Sensordaten erlangt und mit Fahrzeugen 110 in einem lokalen Abschnitt von einem oder mehreren von einer Fahrbahn, einem Parkplatz oder einer Parkstruktur usw. kommuniziert.
Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert und durch den Prozessor der Rechenvorrichtung 115 ausführbar sind, im Allgemeinen eine Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsen, Lenkung, Antrieb usw., ohne Eingreifen eines menschlichen Bedieners beinhaltet. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 eine Programmierung zum Regeln des Betriebsverhaltens des Fahrzeugs 110 (d. h. physischer Manifestationen des Betriebs des Fahrzeugs 110), wie etwa Geschwindigkeit, Beschleunigung, Abbremsung, Lenken usw., und des taktischen Verhaltens (d. h. Steuerung des Betriebsverhaltens auf eine Weise, die in der Regel ein sicheres und effizientes Abfahren einer Route erreichen soll), wie etwa einer Entfernung zwischen Fahrzeugen und/oder einer Zeit zwischen Fahrzeugen, Spurwechseln, des Mindestabstands zwischen Fahrzeugen, der Mindestzeit zur Wegquerung bei Linksabbiegung, der Zeit bis zur Ankunft an einem bestimmten Standort und der Mindestzeit bis zum Überqueren der Kreuzung an einer Kreuzung (ohne Ampel) beinhalten.
Im hierin verwendeten Sinne beinhaltet der Ausdruck Steuerungen Rechenvorrichtungen, die in der Regel dazu programmiert sind, ein konkretes Fahrzeugteilsystem zu überwachen und/oder zu steuern. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (electronic control unit - ECU) sein, wie sie bekannt ist, und möglicherweise eine zusätzliche Programmierung wie in dieser Schrift beschrieben beinhalten. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Zum Beispiel kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
Die eine oder die mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, die als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 beinhalten. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und ein oder mehrere Betätigungselemente beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie zum Beispiel einem Controller-Area-Network-(CAN-)Bus oder einem Local-Interconnect-Network-(LIN- )Bus, um Anweisungen von der Rechenvorrichtung 115 zu empfangen und Betätigungselemente auf Grundlage der Anweisungen zu steuern.
Die Sensoren 116 können vielfältige Vorrichtungen beinhalten, die für die Bereitstellung von Daten über den Fahrzeugkommunikationsbus bekannt sind. Zum Beispiel kann ein Radar, das an einem vorderen Stoßfänger (nicht gezeigt) des Fahrzeugs 110 befestigt ist, eine Entfernung von dem Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder kann ein Sensor für ein globales Positionsbestimmungssystem (global positioning system - GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Die durch das RADAR und/oder die anderen Sensoren 116 bereitgestellte(n) Entfernung(en) und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 zum Beispiel autonom oder teilautonom zu betreiben.
Das Fahrzeug 110 ist im Allgemeinen ein Landfahrzeug 110, das zu autonomem und/oder teilautonomem Betrieb fähig ist und das drei oder mehr Räder aufweist, z. B. ein PKW, ein Kleinlaster usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die V-to-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, sammeln. Beispielhaft und nicht einschränkend können die Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hallsensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. beinhalten. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, äußere Umgebungstemperatur usw.), die Neigung einer Straße, den Standort einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa Nachbarfahrzeugen 110 detektieren. Die Sensoren 116 können ferner verwendet werden, um Daten, einschließlich dynamischer Daten des Fahrzeugs 110, die sich auf Vorgänge des Fahrzeugs 110 beziehen, wie etwa Geschwindigkeitsvektor, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, des auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewandten Leistungspegels, Konnektivität zwischen Komponenten und einer genauen und rechtzeitigen Leistung von Komponenten des Fahrzeugs 110, zu erheben.
2 ist eine Darstellung einer Verkehrsszene 200. Die Verkehrsszene 200 beinhaltet eine Fahrbahn 202 und Fahrzeuge 204, die auf der Fahrbahn 202 betrieben werden. Die Verkehrsszene 200 beinhaltet zudem einen Videosensor 206, der an einem Pfosten 208 montiert ist. Der Videosensor 206 kann Videobilddaten aus einem Sichtfeld 210 erlangen. Videobilddaten, die durch einen Videosensor 206 erlangt sind, beinhalten Bilder des Fahrzeugs 204, die sich zum Zeitpunkt des Erlangens der Videobilddaten innerhalb des Sichtfelds 210 befinden. Videobilddaten, die durch einen Videosensor 206 erlangt sind, können an eine Rechenvorrichtung 115 kommuniziert werden, die in einem Verkehrsinfrastruktursystem 100 beinhaltet ist. Eine Rechenvorrichtung 115, die mit einem Videosensor 206 kommuniziert, der so angeordnet ist, dass das Sichtfeld 210 einen Abschnitt einer Fahrbahn 202 abdeckt, der Fahrzeuge 204 beinhaltet, kann als Kantenrechenknoten eines Verkehrsinfrastruktursystems 100 bezeichnet werden. Kantenrechenknoten, das heißt Computer 115, können Videobilddaten bezüglich einer Verkehrsszene 200 erlangen und die Videobilddaten über einen Servercomputer 120 an eine Rechenvorrichtung 115 in einem Fahrzeug 110 kommunizieren.
Kantenrechenknotencomputer 115, können ebenfalls die Videobilddaten dazu verarbeiten, Daten bezüglich der Verkehrsszene 200 zu extrahieren und die extrahierten Daten an eine Rechenvorrichtung 115 in einem Fahrzeug 110 kommunizieren. In diesem Beispiel kann ein Kantenrechenknotencomputer 115 Videobilddaten und Ground Truth in Bezug auf die Videobilddaten erlangen und diese verwenden, um ein tiefes neuronales Netzwerk zu trainieren, das zum Betreiben eines Fahrzeugs 110 verwendet werden kann. Ground Truth sind Daten bezüglich Identitäten und Positionen von Objekten, einschließlich Fahrzeugen in Videobilddaten, die unabhängig von anderen Quellen als der Verarbeitung der Videobilddaten mit einem tiefen neuronalen Netzwerk bestimmt werden. Zum Beispiel können Identitäten und Standorte von Objekten in einer Verkehrsszene 200 durch einen menschlichen Beobachter identifiziert und gemessen werden. Videodaten zum Trainieren von tiefen neuronalen Netzwerken können auch durch in einem Fahrzeug 110 beinhaltete Videosensoren erlangt werden.
3 ist eine Darstellung eines Farbvideobilds 300, das in Schwarzweiß wiedergegeben ist, um die Vorschriften des Patentamts zu erfüllen. Farbvideobilddaten 300 können durch einen Videosensor 206 erlangt sein und an einen Kantenrechenknotencomputer 115 kommuniziert werden, der zum Beispiel in einem Verkehrsinfrastruktursystem 100 beinhaltet ist. Das Farbvideobild 300 kann ebenfalls durch einen Videosensor erlangt werden, der in einem Fahrzeug 110 beinhaltet ist. Das Farbvideobild kann ein Bild eines Fahrzeugs 302 beinhalten. Das Farbvideobild 300 kann dazu verwendet werden, ein tiefes neuronales Netzwerk dazu zu trainieren, ein Fahrzeug 302 zu identifizieren und zu lokalisieren, indem Ground-Truth-Daten in Bezug auf die Identität und den Standort des Fahrzeugs 302 bestimmt werden, wobei Ground-Truth-Daten als unabhängig bestimmte Daten in Bezug auf ein Videobild einschließlich Identitäten und Positionen von Objekten definiert sind, die in dem Videobild beinhaltet sind. Zum Beispiel kann ein tiefes neuronales Netzwerk dazu trainiert werden, Identitäten und Standorte von Objekten zu bestimmen, die in einem Videobild beinhaltet sind. Das tiefe neuronale Netzwerk kann dazu trainiert werden, Objekte zu identifizieren und zu lokalisieren, indem das tiefe neuronale Netzwerk unter Verwendung eines Trainingsdatensatzes von gekennzeichneten Videobildern trainiert wird, wobei die Markierungen die Identitäten und Standorte von Objekten beinhalten, die unabhängig von dem tiefen neuronalen Netzwerk bestimmt werden. In diesem Beispiel werden die Identitäten und Standorte der Objekte durch Bildverarbeitungssoftwareprogramme bestimmt, die Objekte in sechs DoF identifizieren und lokalisieren, wie nachstehend in Bezug auf 4 erörtert.
Die unabhängig bestimmten Identitäten und Standorte, die durch Techniken der sechs DoF bestimmt werden, werden als Ground Truth bezeichnet. Techniken der sechs DoF verbessern die Bestimmung der Objektidentifikation und der Position eines Objekts durch einen Benutzer unter Verwendung von Bildverarbeitungssoftwareprogrammen, um es Benutzern zu ermöglichen, Umrisse von Objekten, die in den Videobildern beinhaltet sind, zu zeichnen und die Positionen von Objekten in Pixelkoordinaten zu messen. Zum Beispiel kann eine Fahrzeugmarke und ein Fahrzeugmodell in einem Videobild durch einen Benutzer identifiziert werden und die Größe des Fahrzeugs in Pixeln kann in den Videobilddaten gemessen und mit realen Messungen dieser Marke und des Modellfahrzeugs verglichen werden. Ein Benutzer kann einen Standort und eine Ausrichtung auf Grundlage dieser Messdaten schätzen. Techniken der sechs DoF können den Standort und die Ausrichtung eines Fahrzeugs unter Verwendung von weniger Computerressourcen genauer bestimmen als benutzerbasierte Techniken. Das Bestimmen von Daten bezüglich der Position und Ausrichtung von Objekten in realen Farbvideobildern 300 unter Verwendung von Techniken der sechs DoF kann das Training von tiefen neuronalen Netzwerken verbessern, indem mehr Trainingsbilddatensätze mit genauerer Ground Truth unter Verwendung von weniger Computerressourcen in weniger Zeit bereitgestellt werden als bei benutzerbasierten Techniken.
Ein Problem bei dem Kennzeichnen von Objekten durch den Benutzer in Videobildern zum Bestimmen von Ground Truth, einschließlich Objektidentität und -standorten für Datensätze, die zum Trainieren von tiefen neuronalen Netzwerken verwendet werden, besteht darin, dass das Bestimmen von Objektkennungen durch den Benutzer teuer und zeitaufwändig sein kann. Die Benutzerbestimmung von Objektkennungen, einschließlich des Identifizierens und Lokalisierens von Objekten, einschließlich Fahrzeugen, Fußgängern und Fahrbahnen in einem einzelnen Videobild, kann mehrere Stunden Computerzeit in Anspruch nehmen und mehr als tausend Dollar pro Bild einschließlich Computerzeit kosten. Objektkennungen, die auf diese Weise bestimmt werden, können Fehler beinhalten, die durch Unterschiede in den Objektkennungen erzeugt werden, die von verschiedenen Benutzern bestimmt werden, da die Benutzer Standort- und Orientierungsdaten schätzen. Diese Unterschiede bei den Objektkennungen können dazu führen, dass tiefe neuronale Netze, die unter Verwendung von benutzerdefinierten Kennungen trainiert werden, inkonsistente und unzuverlässige Ergebnisse erzeugen, was zusätzliches Training, Testen und Verifizieren von neuronalen Netztrainings erfordert, was die Rechenressourcen und -kosten erhöht, die zum Trainieren von tiefen neuronalen Netzwerken erforderlich sind.
Wie hierin offenbart, ist es möglich, synthetische Videodaten und Ground Truth unter Verwendung einer Software für fotorealistisches Rendering für synthetische Bilder, wie etwa UNREAL EINGINE™, zu erzeugen. UNREAL ENGINE ist ein Prozess des fotorealistischen Renderings, der eine Szenenbeschreibung eingibt und fotorealistische Ausgangsbilder generiert, die benutzerdefinierten Lichtquellen und virtuellen Videokameras entsprechen. UNREAL ENGINE beinhaltet eine Reihe integrierter Entwicklungstools für das Design und die Erstellung von Spielen, Simulationen und Visualisierungen, die von Epic Games, Inc. erhältlich sind (siehe www.unrealengine.com). Ground Truth in Bezug auf Objekte in einem synthetischen Videobild ist leicht verfügbar, da Kennzeichnungsdaten in Bezug auf die Identität und den Standort von Objekten in dem synthetischen Bild als Eingabe für den Prozess, der das Bild erzeugt, erforderlich sind. Ein erster Schritt beim Erzeugen eines gekennzeichneten Farbvideobildes zur Verwendung beim Trainieren eines tiefen neuronalen Netzwerks besteht darin, Daten der sechs Freiheitsgrade (DoF) für Objekte in dem Farbvideobild zu bestimmen. Daten der sechs DoF können auf Grundlage von Daten aus computergestützter Gestaltung (computer aided design - CAD) erzeugt werden.
4 ist eine Darstellung eines CAD-Fahrzeugbilds 400, das als Schwarzweiß-Linien-Zeichnung wiedergegeben ist, um den Vorschriften des Patentamts nachzukommen. Das CAD-Fahrzeugbild 400 kann verwendet werden, um einen Standort mit sechs DoF des Fahrzeugs 302 in einem Farbvideobild 300 zu bestimmen. Das CAD-Fahrzeugbild 400 ist ein zweidimensionales (2D-) Bild, das durch Rendern von CAD-Daten erzeugt wird, bei denen es sich um mathematische Daten handelt, die die Flächen und Volumina eines 3D-Objekts beschreiben. CAD-Daten können zum Beispiel technische Zeichnungen eines Objekts beinhalten. Das Rendern kann ein 2D-CAD-Fahrzeugbild 400 eines dreidimensionalen (3D-) Objekts erzeugen, indem ein virtueller Kamerasichtpunkt bestimmt wird, von dem aus die CAD-Daten auf eine 2D-Ebene projiziert werden sollen.
Eine virtuelle Kamera ist das Mittel, mit dem ein CAD-Rendering-Programm ein 2D-CAD-Fahrzeugbild 400 aus den CAD-Daten, einschließlich technischer Zeichnungen, erzeugt. Der Prozess des Renderings kann Strahlen erzeugen, die von einem virtuellen Bildsensor durch eine virtuelle Linse verlaufen und dabei den Gesetzen der Physik gehorchen, als ob der Bildsensor und die Linse physische Objekte wären. Das Renderingprogramm fügt Daten in den virtuellen Bildsensor ein, die dem Erscheinungsbild des Abschnitts der 3D-CAD-Daten entsprechen, den ein Lichtstrahl, der durch den Teil der 3D-CAD-Daten emittiert wird und eine physische Linse passiert, auf einem physischen Bildsensor erzeugen würde. Durch Positionieren einer virtuellen Kamera an einer ausgewählten Position und Ausrichtung mit sechs DoF in Bezug auf die 3D-CAD-Daten kann ein 2D-Fahrzeugbild 400 erzeugt werden, das einem ausgewählten Blickwinkel in Bezug auf das Fahrzeug entspricht.
Der virtuelle Kamerasichtspunkt beinhaltet die Daten der sechs DoF für eine optische Achse der virtuellen Kamera und Daten bezüglich der Vergrößerung der virtuellen Kamera. Der Blickwinkel der virtuellen Kamera wird auf Grundlage des Standorts und der Ausrichtung einer virtuellen Kamera in Bezug auf ein 3D-Modell des Objekts, das den CAD-Daten entspricht, bestimmt. Das Projizieren der CAD-Daten auf eine 2D-Ebene entspricht dem Bestimmen, welche Kanten und Flächen des CAD-Datenobjekts für eine Kamera sichtbar wären, die ein Bild des CAD-Datenobjekts aus der ausgewählten Position und Ausrichtung erlangt. Da das CAD-Fahrzeugbild 400 aus CAD-Daten auf Grundlage einer virtuellen Kamera an einem ausgewählten Standort und einer ausgewählten Ausrichtung erzeugt wurde, sind Daten bezüglich des Standorts und der Ausrichtung des in dem CAD-Fahrzeugbild 400 veranschaulichten Objekts bekannt. Eine Vielzahl von CAD-Fahrzeugbildern 400 kann aus einer Vielzahl von Standorten und Ausrichtungen von virtuellen Kameras erzeugt werden.
Ein Prozess zum Bestimmen des Standorts und der Ausrichtung eines Fahrzeugs 302 in einem Farbvideobild 300 kann durch Bestimmen des Standorts und der Ausrichtung des Videosensors 206 in Bezug auf eine Fahrbahn 202 beginnen. Der Standort und die Ausrichtung des Videosensors 206 können durch physische Messungen des Videosensors 206 oder von Instrumenten, einschließlich GPS-Sensoren und Trägheitsmesseinheiten, die in dem Videosensor 206 beinhaltet sind, bestimmt werden. Diese Messungen können die Position und Ausrichtung des Sichtfelds 210 des Videosensors 206 in Bezug auf eine Fahrbahn 202 in realen globalen Koordinaten bestimmen.
Reale globale Koordinaten können als dreidimensionale (3D-) x-,y- und z-Raumkoordinaten in Bezug auf reale 3D-Achsen definiert sein, die durch die Breite, Länge und Höhe bestimmt sind, zum Beispiel zusammen mit 3D-Roll-,-Nick-,und -Gierdrehkoordinaten, die in Bezug auf Drehungen um die x-, y- und z-Achse definiert sind. Durch Kombinieren der Position und Ausrichtung des Sichtfelds 210 des Videosensors 206 mit der Vergrößerung einer in dem Videosensor 206 beinhalteten Linse und der Position einer Ebene, die der Fahrbahn 202 entspricht, können die realen Standorte von Objekten, die sich auf der Fahrbahn befinden, auf Grundlage ihrer Positionen in Pixelkoordinaten in einem Farbvideobild bestimmt werden.
Objekte, die ein Fahrzeug 302 beinhalten, können in Farbvideobildern unter Verwendung von Bildverarbeitungstechniken einschließlich tiefer neuronaler Netze identifiziert werden. Diese Techniken können Objekte in einem Farbvideobild 300 auf Grundlage des Korrelierens zuvor aufgenommener Bilder von Objekten, einschließlich Fahrzeugen 302, mit dem Farbvideobild 300 identifizieren und lokalisieren. Diese Techniken können ein Fahrzeug lokalisieren und den Typ des Fahrzeugs einschließlich Marke und Modell identifizieren, können jedoch den 3D-Standort und die Ausrichtung des Objekts nicht bestimmen. Wenn die Software für maschinelles Sehen die Art des Fahrzeugs 302 in dem Farbvideobild 300 identifiziert hat, kann ein CAD-Fahrzeugbild 400 des Typs des Fahrzeugs 302 in dem Farbvideobild 300 aus einer Bibliothek von CAD-Fahrzeugbildern 400 abgerufen werden.
Eine sechs-DoF-Lage eines Fahrzeugs 302 in einem Farbvideobild 300 kann durch Verarbeiten des Bilds eines Fahrzeugs 302 mit Software für maschinelles Sehen bestimmt werden, die die Fahrzeugmerkmale 404, 406, 408, 410, 412, 414, 416, 418, 420, 422, 424, gemeinsam Fahrzeugmerkmale 402 bestimmt. Die Fahrzeugmerkmale 402, die in 4 als Kreise veranschaulicht sind, sind Stellen auf einem 2D-Bild eines Fahrzeugs 302 oder CAD-Fahrzeugbilds 400, die durch geometrische Beziehungen von Kanten definiert sind, wenn sie sich verbinden, um Scheitelpunkte in den Bilddaten zu bilden. Zum Beispiel wird das Fahrzeugmerkmal 404 durch den gekrümmten Abschnitt der Kontur des Fahrzeugs 400 gebildet, der an der Verbindung der Vorderkante der Windschutzscheibe mit der Kontur der Oberseite des Fahrzeugs 400 gebildet wird. Jedes Fahrzeugmerkmal 402 befindet sich auf einem Bild eines Fahrzeugs 400 durch die Form und Ausrichtung von Linien, die durch den Umriss des Fahrzeugbilds 400 gebildet werden, und Innenlinien, die durch Durchführen einer Kantendetektion auf dem Fahrzeugbild 400 unter Verwendung von Techniken des maschinellen Sehens, einschließlich Canny-Kantendetektion, gebildet werden. Die Canny-Kantendetektion ist eine Technik für maschinelles Sehen, die Umrisse und Innenlinien auf Fahrzeugbildern 400 zuverlässig und wiederholbar detektieren kann.
Techniken maschinellen Sehens können Fahrzeugmerkmale 402 auf Grundlage von Merkmalsdetektierungsalgorithmen bestimmen, die Kantenkonfigurationen von detektierten Kanten durch Bestimmen von geometrischen Kantenkonfigurationen bestimmen. Geometrische Kantenkonfigurationen können zum Beispiel Krümmung, Ausrichtungen, Standorte, Winkel und Anzahl von Kanten beinhalten, an bzw. in denen zwei oder mehr Kanten aufeinandertreffen. Merkmalsdetektionsalgorithmen können Standorte auf einem Fahrzeugbild 400 detektieren, an denen sich einzigartige Krümmungen, Ausrichtungen, Standorte, Winkel und Anzahlen von Linien treffen, und sie als Fahrzeugmerkmale 402 speichern, die einer bestimmten Marke und einem bestimmten Modell des Fahrzeugbilds 400 entsprechen. Durch Verarbeiten des gerenderten CAD-Fahrzeugbilds 400 zum Detektieren von Fahrzeugmerkmalen 402 und Verarbeiten eines erlangten Bildes eines Fahrzeugs 302 kann ein Satz von Fahrzeugmerkmalen 402 auf Grundlage von dem realen Bild eines Fahrzeugs 302 aus einem realen Videobild 300 bestimmt werden und kann eine Übereinstimmung zwischen den realen Fahrzeugmerkmalen 402 und den auf Grundlage des CAD-Fahrzeugbilds 400 erzeugten Fahrzeugmerkmalen 402 bestimmt werden. Fotorealistische Rendering-Softwareprogramme können einen Standort mit sechs DoF einer virtuellen Kamera und Eigenschaften der virtuellen Kamera, einschließlich einer optischen Achse und einer Vergrößerung einer virtuellen Linse, verwenden, um Verkehrsszenen und Objekte zu erzeugen, die ein CAD-Fahrzeugbild 400 beinhalten.
Da die sechs-DoF-Lage des CAD-Fahrzeugbilds 400 auf Grundlage des virtuellen Kamerastandorts, der zum Erzeugen des CAD-Fahrzeugbilds 400 verwendet wird, bekannt ist, können die aus einem CAD-Fahrzeugbild 400 erlangten Sätze von Fahrzeugmerkmalen 402 mit Fahrzeugmerkmalen 402 verglichen werden, die durch Verarbeiten eines realen Farbvideobilds 300 erlangt sind, um eine reale DoF-Lage einschließlich Standort und Ausrichtung für das Fahrzeug 302 zu bestimmen. Reale Standort- und Ausrichtungsdaten mit sechs DoF sind als dreidimensionale (3D-) x-,y- und z-Raumkoordinaten in Bezug auf reale 3D-Achsen definiert, die durch die Breite, Länge und Höhe bestimmt sind, zum Beispiel zusammen mit 3D-Roll-,Nick-, und Gierdrehkoordinaten, die in Bezug auf Drehungen um die x-, y- und z-Achse definiert sind, wie vorstehend erörtert.
Ein Farbvideobild 300 eines Fahrzeugs 302 kann durch eine Rechenvorrichtung verarbeitet werden, um Fahrzeugmerkmale 402 auf dem Bild des Fahrzeugs 302 unter Verwendung von Kantendetektionstechniken und Techniken maschinellen Sehens zur geometrischen Analyse, wie vorstehend erörtert, zu bestimmen. Durch Verarbeiten des Farbvideobilds eines Fahrzeugs 302 unter Verwendung ähnlicher Techniken zum maschinellen Sehen, wie sie zum Detektieren von Fahrzeugmerkmalen 402 verwendet wurden, werden erkannte Fahrzeugbildmerkmale den auf dem CAD-Fahrzeugbild 400 erkannten Fahrzeugmerkmalen 402 ähneln. Die hierin beschriebene Technik kann eine Übereinstimmung zwischen Standorten von ersten Datenpunkten, die Fahrzeugmerkmalen 402 entsprechen, die in dem Bild des Fahrzeugs 302 bestimmt sind, und Standorten von gemessenen Datenpunkten, die Fahrzeugmerkmalen 402 entsprechen, die in dem CAD-Fahrzeugbild 402 bestimmt sind, bestimmen. Eine sechs-DoF-Lage für das Fahrzeug 302 kann durch Lösen der folgenden n-Punkt-Perspektive-Projektionsgleichung bestimmt werden: $R, t = \begin{matrix} a r g m i n \\ R, t \end{matrix} {\sum_{j} ‖ u_{j} - \prod (R X_{j} + t) ‖}^{2}$
Gleichung (1) berechnet eine in Rollen, Nicken und Gieren gemessene Rotation R und eine in x, y und z gemessene Translation t, indem ein Mindestwert in Bezug auf R und t bestimmt wird. Der Mindestwert wird berechnet, indem die quadrierten Differenzen zwischen den n Standorten der Fahrzeugbildmerkmale u_j, wobei j ∈ {1, ...n}, und die n Standorte der CAD-Daten-Fahrzeugmerkmale 402 X_j summiert werden, wobei es sich bei den Fahrzeugmerkmalen 402 X_j um Fahrzeugmerkmale 402 aus den Sätzen von Fahrzeugmerkmalen 402 handelt. Die ausgewählte sechs-DoF-Lage stammt aus dem Satz von Fahrzeugmerkmalen 402, der Gleichung (1) minimiert.
Gleichung (1) wählt Werte für R und t aus, welche die Differenz zwischen den Standorten der detektierten Fahrzeugbildmerkmale u_j und den Standorten der CAD-Daten-Fahrzeugmerkmale 402 X_j, die unter Verwendung nicht linearer Kurvenanpassungstechniken der kleinsten Quadrate, einschließlich des Levenberg-Marquardt-Algorithmus, so gedreht und verschoben wurden, dass sie am ehesten den detektierten Fahrzeugbildmerkmalen u_j entsprechen, minimieren. Levenberg-Marquart-Techniken können einen Mindestwert für eine Gleichung bestimmen, indem sie eine nichtlineare Kurvenanpassung durchführen, wobei der Algorithmus zwischen Gauß-Newton-Techniken und Gradientenabstiegstechniken interpoliert, um ein lokales Minimum für die Kurve zu bestimmen, selbst wenn der Algorithmus sehr weit von dem tatsächlichen Mindestwert entfernt beginnt. Bei jedem Schritt werden die Fahrzeugbildmerkmale u_j in ein Fahrzeugmodell eingepasst, das CAD-Daten-Fahrzeugmerkmale 402 X_j beinhaltet, die so gedreht und verschoben wurden, dass sie am ehesten den detektierten Fahrzeugbildmerkmalen u_j entsprechen. Die Reihenfolge, in der die Schritte systematisch variiert werden, kann von den relativen Mindestwerten der Schritte abhängen, um einen Gesamtmindestwert effizient zu bestimmen. Die durch Gleichung (1) bestimmten Werte für R und t entsprechen der Sechs-DoF-Lage des Fahrzeugs in dem Farbvideobild eines Fahrzeugs 302, gemessen in Bezug auf eine Sechs-DoF-Lage eines Videosensors 206. Die Sechs-DoF-Lage des Fahrzeugs können in globale Koordinaten umgewandelt werden, indem entsprechende Roll-, Nick- und Gier- sowie x-, y- und z-Elemente aus der Sechs-DoF-Fahrzeuglage mit den gleichen Elementen aus der Sechs-DoF-Kameralage und Daten bezüglich des in globalen Koordinaten gemessenen Sichtfelds 210 kombiniert werden, um die Sechs-DoF-Lage des Fahrzeugs in globalen Koordinaten zu ergeben.
5 ist ein Diagramm eines synthetischen Videobilds 500, das in Schwarzweiß wiedergegeben ist, um den Vorschriften des Patentamts zu entsprechen. Das synthetische Videobild 500 beinhaltet ein synthetisch gerendertes Fahrzeug 502 und eine Fahrzeugkennung 604. Wenn der Prozess mit sechs DoF eine sechs-DoF-Lage eines Fahrzeugs 302 aus einem Videobild 300 bestimmt, können die Daten in Bezug auf den Typ des Fahrzeugs 302 und die sechs-DoF-Lage in eine fotorealistische Rendering-Software eingegeben werden, um ein synthetisches Videobild 500 einschließlich eines synthetischen Fahrzeugs 502 zu rendern. Da das Fahrzeug 502 synthetisch gerendert wurde, sind Ground-Truth-Fahrzeugkennungen 504 in Bezug auf die Identität und den Standort des Fahrzeugs auf Grundlage von sowohl realer Lage des Fahrzeugs als auch des Aussehens des gerenderten Fahrzeugs 502 in dem synthetischen Videobild 500 verfügbar. Da das synthetische Videobild 500 auf Grundlage von Daten der sechs DoF gerendert wurde, die aus einem realen Videobild 300 erlangt wurden, können die Ground-Truth-Kennungs-Daten genau auf die realen Farbvideodaten 300 übertragen werden. Dies ermöglicht, dass die realen Farbvideodaten 300 zusammen mit den Kennungsdaten aus den synthetischen Videodaten verwendet werden können, um ein tiefes neuronales Netzwerk zu trainieren, ohne dass eine Benutzeridentifikation und ein Standort des Fahrzeugs 302 erforderlich sind.
Das synthetische Videobild 500 beinhaltet ein synthetisch gerendertes Fahrzeug 502 und eine Fahrzeugkennung 504. Obwohl die synthetisch erzeugten Videodaten „fotorealistisch“ sind, was bedeutet, dass sie einem Betrachter fast so erscheinen, als ob sie unter Verwendung eines realen Videosensors aufgenommen wurden, der eine Verkehrsszene in der realen Welt betrachtet, ist es ein Problem, dass genug Unterschiede zwischen einem realen Videobild und einem synthetisch erzeugten Videobild einer ähnlichen Verkehrsszene bestehen, um zu verhindern, dass ein tiefes neuronales Netzwerk, das auf synthetischen Videobildern und begleitender Ground Truth trainiert ist, reale Objekte, die in einem realen Videobild beinhaltet sind, korrekt identifiziert und lokalisiert. Im Vergleich zu dem Farbvideobild 300 beinhaltet das synthetisch erzeugte Videobild 500 weniger Bilddetails, die in den Objekten, einschließlich Fahrzeugen und Fahrbahnen, beinhaltet sind. Zum Beispiel beinhalten die synthetischen Videobilder 500 keine detaillierten Merkmale, die in einem realen Farbvideobild 300 beinhaltet sind. Diese Merkmale können zufällige Objekte wie etwa Schmutz und Behälter usw. beinhalten. Merkmale können Texturen beinhalten, die auf Objekten wie etwa Fahrbahnen gefunden werden, die durch Schmutz, Risse, Reparaturen, teilweise fehlende Fahrspurmarkierungen und andere Texturen der realen Welt verursacht werden. Synthetische Bildwiedergabeprogramme können nicht mit der Zufälligkeit und Vielfalt von Objekten, einschließlich Texturen, übereinstimmen, die in einem realen Farbvideobild 300 auftreten, wie etwa Stoßstangenaufklebern, Dachgepäckträger, Schmutz und manchmal Dellen, die an realen Fahrzeugen zu finden sind. Das Fehlen von Bilddetail- und Merkmalsunterschieden zwischen dem synthetisch wiedergegebenen Videobild 500 und einem realen Farbvideobild 300 verhindert, dass das synthetisch wiedergegebene Videobild 500 verwendet wird, um tiefe neuronale Netzwerke zu trainieren, trotz ihres Vorteils beim Einschließen genauer Fahrzeugkennungen 604 auf Grundlage der Daten, die verwendet wurden, um das synthetische Videobild 500 zu erzeugen.
6 ist eine Darstellung eines Farbvideobilds 300 aus 3, das in Schwarzweiß wiedergegeben ist, um die Vorschriften des Patentamts zu erfüllen. Das Farbvideobild 300 beinhaltet ein Bild eines Fahrzeugs 302 und eine Fahrzeugkennung 604, die von der Fahrzeugkennung 504 aus dem synthetischen Videobild 500 übertragen ist. Das Etikett 604 kann an das Farbvideobild 300 übertragen werden, da die Kennung 604 auf Grundlage von einem synthetischen Bild 500 erzeugt wurde, wobei ein synthetisches Fahrzeugbild 502 auf Grundlage von Daten der sechs DoF erzeugt wurde, die auf Grundlage des Farbvideobilds des Fahrzeugs 302 bestimmt sind. Die Kennung 604 entspricht daher genau der Größe, Form, dem Standort und der Ausrichtung des Fahrzeugs 302 und beinhaltet Daten bezüglich der Identität und Lage des Fahrzeugs 302, die auf Grundlage von Daten, die durch die Software des fotorealistischen Renderings, die das synthetische Videobild 500 erzeugt hat, ausgegeben wurden, und Daten der sechs DoF bestimmt sind, die durch den in Bezug auf 4 beschriebenen Prozess erzeugt sind. Das Hinzufügen der Fahrzeugkennung 604 zu dem realen Farbvideobild 300 erzeugt gepaarte reale und synthetische Bilder, die ähnliche Objekte beinhalten, einschließlich Fahrzeuge an ähnlichen Standorten mit ähnlichen Kennungen.
7 ist eine Darstellung eines Generative Adversarial Network (GAN) 700. Ein GAN 700 ist ein neuronales Netzwerk, das dazu trainiert werden kann, synthetische Bilddaten zu modifizieren, damit sie eher wie reale Bilddaten erscheinen. Wie vorstehend in Bezug auf 5 erörtert, beinhalten synthetische Bilddaten keine zufälligen Pixeldaten, die detaillierten Bildmerkmalsdaten entsprechen, einschließlich Objekte, Schmutz, Risse, usw. Ein GAN 700 kann unter Verwendung von gepaarten realen Bilddaten und synthetischen Bilddaten dazu trainiert werden, synthetische Bilddaten dazu zu modifizieren, detaillierte Merkmale zu beinhalten, und dadurch die synthetischen Bilddaten so zu modifizieren, dass sie mehr wie reale Bilddaten erscheinen. Ein GAN 700 kann unter Verwendung von gepaarten Daten aus der realen Welt und synthetischen Bilddaten trainiert werden und dann verwendet werden, um eine große Anzahl (> 1000) von synthetischen Bildern zu modifizieren, die dazu verwendet werden können, ein tiefes neuronales Netzwerk zu trainieren, wie nachstehend in Bezug auf 7 erörtert, um Objekte, einschließlich Fahrzeuge, in realen Videobildern, die durch in einem Fahrzeug 110 beinhaltete Videosensoren erlangt sind, zu identifizieren und zu lokalisieren. Die Identität und der Standort eines Objekts in dem Videobild der realen Welt können von einer Rechenvorrichtung 115 in einem Fahrzeug 110 verwendet werden, um das Fahrzeug 110 zu betreiben.
Ein GAN 700 beinhaltet ein Generative Network (GEN) 704 und ein Adversarial Network (AD) 708. Das Generative Network 704 gibt ein synthetisches Videobild 500 ein und modifiziert das synthetische Videobild unter Verwendung von Faltungsschichten, um einem realen Videobild zu entsprechen, und gibt ein modifiziertes synthetisches Bild 706 aus, indem Bildmerkmale, die realen Merkmalen und Texturen entsprechen, zu dem synthetischen Videobild 500 hinzugefügt werden. Das GAN 700 ist dazu trainiert, modifizierte synthetische Videobilder 706 zu erzeugen, die realen Videobildern durch das Adversarial Network 708 entsprechen. Ein Adversarial Network 708 wird trainiert, indem gepaarte synthetische Videobilder 500 und reale Videobilder 300 zusammen mit Ground Truth 710 eingegeben werden, die angibt, welches Bild real ist und welches Bild synthetisch ist. Auf Grundlage der eingegebenen gepaarten synthetischen und realen Bilder und der Ground Truth lernt das Adversarial Network 708, zwischen realen und synthetischen Bildern zu unterscheiden. Nach dem Training des Adversarial Network 708 wird das Generative Network 704 trainiert, um ein eingegebenes synthetisches Videobild 702 dazu zu modifizieren, einem realen Videobild zu entsprechen, indem ein Ergebnis 712 von dem Adversarial Network 708 zurück an das Generative Network 704 zurückgegeben wird, das angibt, wie genau das modifizierte synthetische Bild 706 einem realen Bild entspricht.
Nach dem Trainieren kann ein GAN 700 iterativ trainiert werden, indem gepaarte reale Videobilder 300 zusammen mit modifizierten synthetischen Bildern 706, die den Videobildern 300 der realen Welt entsprechen, zusammen mit Ground Truth eingegeben werden, die angeben, welche Bilder real sind und welche Bilder synthetisch sind. Dieses Umtrainieren kann die Fähigkeit des Adversarial Network 708 verbessern, zwischen realen und synthetischen Bildern zu unterscheiden und dadurch die Qualität der ausgegebenen modifizierten synthetischen Bilder 706 zu verbessern.
Sobald das GAN 700 unter Verwendung von gepaarten realen Farbvideobildern 300 und synthetischen Videobildern 500 trainiert wurde, kann das GAN 700 dazu verwendet werden, synthetische Videobilder 702 zu modifizieren, die ohne ein gepaartes Bild der realen Welt erzeugt wurden. Auf diese Weise kann eine große Anzahl von modifizierten synthetischen Videobildern, die erscheinen, als ob sie durch reale Videosensoren erzeugt wurden, zum Trainieren eines tiefen neuronalen Netzwerks gesammelt werden. Das Trainieren eines tiefen neuronalen Netzwerks kann Tausende oder Millionen von modifizierten synthetischen Bildern erfordern, die eine große Vielfalt an Verkehrsszenen beinhalten. Das Erzeugen von Tausenden oder Millionen von realen Videobildern und deren Kennzeichnen mit Objektkennungen kann unerschwinglich teuer und zeitaufwändig sein. Hier beschriebene Techniken können den Zeit- und Kostenaufwand für das Erzeugen von Trainingsdaten für tiefe neuronale Netze erheblich reduzieren, indem modifizierte synthetische Videobilder 706 erzeugt werden, die realen Videodaten entsprechen, einschließlich detaillierter Bildmerkmale, die realen Bilddaten entsprechen, die durch ein GAN erzeugt werden, das unter Verwendung von gepaarten realen synthetischen Bilddaten trainiert ist. Die modifizierten synthetischen Videobilder 706 beinhalten Objektkennungsdaten, die zum Trainieren eines tiefen neuronalen Netzwerks erforderlich sind, da die modifizierten synthetischen Bilder 706 aus synthetischen Videobildern 500 erzeugt sind. Synthetische Videobilder werden aus mathematischen Beschreibungen von Verkehrsszenen gerendert, die Daten der sechs DoF bezüglich der in dem synthetischen Bild wiedergegebenen Objekte beinhalten, wie vorstehend in Bezug auf 5 erörtert. Da die Objekte aus Daten der sechs DoF erzeugt werden, können Objektkennungen erzeugt werden, die verwendet werden können, um ein tiefes neuronales Netzwerk dazu zu trainieren, die Objekte in modifizierten synthetischen Videodaten zu identifizieren und zu lokalisieren.
Markierte modifizierte synthetische Bilder 706 können verwendet werden, um ein tiefes neuronales Netzwerk dazu zu trainieren, Objekte, einschließlich Fahrzeuge, in realen Videobildern zu identifizieren und zu lokalisieren, da das modifizierte synthetische Videobild 706 einem realistischen realen Bild 300 entspricht. Da die modifizierten synthetischen Videobilder 706 auf Daten der sechs DoF in Bezug auf Objekte in dem synthetischen Videobild 706 beruhen, beinhalten die modifizierten synthetischen Videobilder 706 Kennungen, die als Ground Truth in Bezug auf die Identität und den Standort der in den modifizierten synthetischen Videobildern 706 beinhalteten Fahrzeuge verwendet werden können. Diese Technik verbessert das Trainieren eines tiefen neuronalen Netzwerks, da die Ground-Truth-Daten, die Objekten einschließlich Fahrzeugen entsprechen, durch die Rendering-Software erzeugt werden und keine teure und zeitaufwendige Benutzerverarbeitung erfordern, um die Ground-Truth-Daten zu bestimmen. Andere Objekte, die in den modifizierten synthetischen Videodaten 706 auftreten, können Fahrzeuge, Fußgänger und Straßen beinhalten. Durch das GAN 700 erzeugte modifizierte synthetische Videobilder 706 können verwendet werden, um ein tiefes neuronales Netzwerk zu trainieren, das zum Betreiben eines Fahrzeugs 110 verwendet werden soll, da die modifizierten synthetischen Videobilder 706 realen Farbvideobildern 300 sehr ähnlich sind. Das modifizierte synthetische Videobild 706 entspricht Farbvideobildern 300 in der realen Welt, da das GAN 700 den synthetischen Videobildern 500 reale Bildmerkmale hinzufügt. Reale Bildmerkmale, einschließlich Texturen, beinhalten Schmutz, Risse, Reparaturen, Dellen, Kratzer usw. sowohl auf Fahrbahnen als auch auf Objekten, die in realen Videobildern auftreten.
8 ist eine Darstellung eines beispielhaften tiefen neuronalen Netzwerks 800, das dazu trainiert werden kann, ein Fahrzeug 110 zu betreiben. Ein tiefes neuronales Netzwerk 800 kann ein Softwareprogramm sein, das auf einer Rechenvorrichtung 115 in einem Fahrzeug 110 ausgeführt wird. Das tiefe neuronale Netzwerk 800 kann ein Farbvideobild 300 eingeben, das durch Videosensoren erlangt wurde, die in einem Fahrzeug 110 beinhaltet sind. Der Videosensor erlangt ein oder mehrere Farbvideobilder 300 einer Umgebung um ein Fahrzeug 110. Ein Farbvideobild 300 einer Umgebung um ein Fahrzeug 110 kann Bilder von Objekten beinhalten, einschließlich Fahrzeugen 302, Fußgängern und Fahrbahnen um das Fahrzeug 110. Ein tiefes neuronales Netzwerk 800 kann unter Verwendung einer großen Anzahl (> 1000) von modifizierten synthetischen Videobildern 706 trainiert werden, die Daten der sechs DoF bezüglich Objekten in den modifizierten synthetischen Videobildern 706 beinhalten. Die Daten der sechs DoF in Bezug auf Objekte in dem modifizierten synthetischen Videobild können verarbeitet werden, um Kennungen 604 zu bestimmen, die der Identität und dem Standort von Objekten, einschließlich Fahrzeugen 502, in den synthetischen Videobildern 706 entsprechen. Da die Objekte einschließlich der Fahrzeuge 502 auf Grundlage von Daten der sechs DoF bestimmt wurden, können die Bezeichnungen als Ground Truth verwendet werden, um ein tiefes neuronales Netzwerk 700 zu trainieren.
Nach dem Trainieren unter Verwendung modifizierter synthetischer Videobilder 706 kann das tiefe neuronale Netzwerk 700 ein Farbvideobild 300 in Faltungsschichten (convolutional layers - CL) 804 eingeben. Faltungsschichten 804 falten das eingegebene Farbvideobild 300 mit Faltungskernen zusammen, die durch Trainieren des tiefen neuronalen Netzwerks 800 unter Verwendung eines modifizierten synthetischen Videobilds 706 bestimmt werden, um verborgene Variablen 806 zu bestimmen, die bestimmten und lokalisierten Objekten in einem Farbvideobild entsprechen. Die verborgenen Variablen 806 werden in vollständig verbundene Schichten (FL) 808 eingegeben, die die verborgenen Variablen 806 verarbeiten, um Ausgabezustände 810 zu bestimmen, die Identitäten und Positionen von Objekten entsprechen, die in dem eingegebenen Farbvideobild 300 auftreten. Ausgabezustände 810, die Identitäten und Positionen von Objekten in einem Farbvideobild 300 entsprechen, können an eine Rechenvorrichtung 115 in einem Fahrzeug 110 kommuniziert werden, um zum Betreiben des Fahrzeugs 110 verwendet zu werden. Zum Beispiel kann eine Rechenvorrichtung 115 Ausgabezustände 810 verwenden, um eine Polynomfunktion zu bestimmen, die einen Fahrzeugweg beschreibt, auf dem ein Fahrzeug 110 betrieben werden soll. Der Fahrzeugweg kann so bestimmt werden, dass, wenn ein Fahrzeug 110 auf dem Fahrzeugweg betrieben wird, das Fahrzeug 110 den Kontakt mit Objekten in einer Umgebung um das Fahrzeug 110 auf Grundlage der Identitäten und Standorte der Objekte, die in den Ausgabezuständen 810 beinhaltet sind, vermeidet.
Ein tiefes neuronales Netzwerk 800 kann trainiert werden, indem ein modifiziertes synthetisches Videobild 706 eingegeben und das modifizierte synthetische Videobild 706 mehrere Male unter Verwendung einer Vielzahl von unterschiedlichen Sätzen von Parametern verarbeitet wird, um die Faltungsschichten 804 und die vollständig verbundenen Schichten 808 zu programmieren. Für jeden Parametersatz wird der aus dem Parametersatz resultierende Ausgabezustand 810 auf die Eingabe zurückpropagiert, die mit der Ground Truth verglichen werden soll, die dem eingegebenen modifizierten synthetischen Videobild 706 entspricht, in diesem Beispiel der Identität und dem Standort von Objekten in dem eingegebenen modifizierten synthetischen Videobild 706. Wenn die Identität und der Standort, die in dem Ausgabezustand 810 beinhaltet sind, korrekt der Identität und dem Standort von Objekten entsprechen, die in den Ground-Truth-Daten beinhaltet sind, wird der Parametersatz, der den Ausgabezustand 810 erzeugt hat, als erlernte Parameter im Speicher gespeichert. Das Speichern von erlernten Parametern in einem Speicher, die abgerufen werden sollen, wenn Eingangsdaten mit einem tiefen neuronalen Netz verarbeitet werden, entspricht dem Trainieren eines tiefen neuronalen Netzwerks. Da das modifizierte synthetische Videobild 706 durch das GAN 700 erzeugt wurde, um Bildmerkmale zu beinhalten, die Farbvideobildern 300 in der realen Welt entsprechen, kann ein tiefes neuronales Netzwerk 800 reale Objekte erfolgreich in realen Farbvideodaten 300 identifizieren und lokalisieren.
9 ist ein Ablaufdiagramm eines Prozesses 900, der in Bezug auf 1-7 beschrieben ist, zum Trainieren eines tiefen neuronalen Netzwerks zum Betreiben eines Fahrzeugs. Der Prozess 900 kann durch einen Prozessor der Rechenvorrichtung umgesetzt werden, der zum Beispiel Informationen von Sensoren als Eingabe heranzieht und Befehle ausführt und Objektinformationen ausgibt. Der Prozess 900 beinhaltet mehrere Blöcke, die in der veranschaulichten Reihenfolge ausgeführt werden können. Der Prozess 900 könnte alternativ oder zusätzlich weniger Blöcke beinhalten oder kann die Blöcke in anderer Reihenfolge ausgeführt beinhalten.
Der Prozess 900 beginnt bei Block 902, wo ein erstes Farbvideobild 300 erlangt wird. Eine Rechenvorrichtung 115 kann das erste Farbvideobild 300 eingeben und auf Grundlage eines CAD-Videobilds 400 eine Sechs-DoF-Lage für ein Fahrzeug 302, das in einem ersten Farbvideobild beinhaltet ist, unter Verwendung eines Prozesses zum Minimieren von Unterschieden zwischen Standorten von Fahrzeugmerkmalen 402 bestimmen, die durch Verarbeiten des Farbvideobilds 300 des Fahrzeugs 302 bestimmt sind, wie vorstehend in Bezug auf 4 erörtert.
Bei Block 904 erzeugt die Rechenvorrichtung 115 ein synthetisches Videobild 500, das ein Fahrzeug 502 beinhaltet, und erzeugt eine Kennung 604 auf Grundlage der bei Block 902 erzeugten Daten der sechs DoF, wie vorstehend in Bezug auf 6 erörtert. Die Kennung 604 kann an ein Farbvideobild 300 übermittelt werden, das ein Bild eines Fahrzeugs 302 beinhaltet. Das Etikett 604 beinhaltet Daten in Bezug auf die Identität und den Standort des Fahrzeugs 302, die als Ground Truth in Bezug auf das Fahrzeug 302 verwendet werden können, da es auf Daten der sechs DoF beruht, die von einem Farbvideobild des Fahrzeugs 302 erlangt sind.
Bei Block 906 verwendet die Rechenvorrichtung 115 ein Farbvideobild 300 und ein synthetisches Videobild 500, um ein GAN 700 dazu zu trainieren, modifizierte synthetische Videobilder 706 zu erzeugen. Die modifizierten synthetischen Videobilder 706 werden verwendet, um ein tiefes neuronales Netzwerk 800 zu trainieren. Ein tiefes neuronales Netzwerk 800 wird trainiert, indem Ergebnisse aus der Verarbeitung des eingegebenen modifizierten synthetischen Videobilds 706 mehrere Male rückwärts übertragen werden und die Ausgabezustände 810 mit der Ground-Truth-Markierung 604 verglichen werden. Wenn das tiefe neuronale Netzwerk Ausgabezustände 810 erzeugt, die gleich der Ground Truth sind, werden die Parameter, die zum Erzeugen der Ausgabezustände 810 verwendet werden, gespeichert und als Programmierparameter für das trainierte tiefe neuronale Netzwerk gespeichert, wie vorstehend in Bezug auf 8 erörtert.
Bei Block 908 verwendet die Rechenvorrichtung 115 das trainierte tiefe neuronale Netzwerk 800, um ein Fahrzeug 110 zu betreiben. Das trainierte tiefe neuronale Netzwerk 800 kann auf eine Rechenvorrichtung 115 in einem Fahrzeug 110 heruntergeladen und dann durch die Rechenvorrichtung 115 ausgeführt werden. Die Rechenvorrichtung 115 kann Farbvideobilder 300 von in dem Fahrzeug 110 beinhalteten Videosensoren eingeben und die erlangten Farbvideobilder 300 in das tiefe neuronale Netzwerk 800 eingeben. Das tiefe neuronale Netzwerk 800 kann Ausgabezustände 810 bestimmen, die der Identität und dem Standort eines Objekts, einschließlich eines Fahrzeugs 302, im Sichtfeld des Videosensors entsprechen, auf Grundlage des Verarbeitens der erlangten Farbvideodaten 300. Auf Grundlage von Daten bezüglich des Standorts und der Ausrichtung eines Sichtfelds des Videosensors kann die Rechenvorrichtung bestimmen, wo sich ein Objekt, das ein Fahrzeug 302 beinhaltet, in Bezug auf das Fahrzeug 110 befindet. Die Rechenvorrichtung 115 kann einen Fahrzeugweg bestimmen, der es dem Fahrzeug 110 ermöglicht, einen Kontakt mit dem Objekt im Sichtfeld zu vermeiden. Die Rechenvorrichtung kann Befehle an die Fahrzeugsteuerungen 112, 113, 114 ausgeben, um das Fahrzeug 110 durch Steuern des Fahrzeugantriebsstrangs, der Fahrzeuglenkung und der Fahrzeugbremsen zum Steuern des Fahrzeugs 110 auf Grundlage eines Standorts eines Objekts, einschließlich eines Fahrzeug 302, in den erlangten Farbvideodaten 300 dazu zu steuern, entlang eines bestimmten Fahrzeugwegs zu fahren, wobei der Fahrzeugweg durch eine Polynomfunktion dargestellt sein kann. Nach dem Block 908 endet der Prozess 900.
Rechenvorrichtungen, wie etwa die hierin erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Die vorstehend erörterten Prozessblöcke können zum Beispiel als computerausführbare Befehle ausgeführt sein.
Computerausführbare Befehle können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien erstellt wurden, einschließlich unter anderem, entweder allein oder in Kombination Java™, C, C++, Python, Julia, SCALA, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Befehle aus, wodurch er ein oder mehrere Prozesse durchführt, einschließlich eines oder mehrerer der hier beschriebenen Prozesse. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.
Ein computerlesbares Medium beinhaltet jedes beliebige Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Nichtflüchtige Medien beinhalten zum Beispiel optische oder magnetische Platten und andere Dauerspeicher. Flüchtige Medien beinhalten einen dynamischen Direktzugriffsspeicher (dynamic random access memory - DRAM), der in der Regel einen Hauptspeicher darstellt. Gängige Formen computerlesbarer Medien beinhalten zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer ausgelesen werden kann.
Alle in den Patentansprüchen verwendeten Ausdrücke sollen ihre klare und gewöhnliche Bedeutung aufweisen, wie sie von einem Fachmann verstanden wird, sofern in dieser Schrift nicht ausdrücklich das Gegenteil angegeben wird. Insbesondere ist die Verwendung der Singularartikel, wie etwa „ein“, „eine“, „der“, „die“, „das“ usw., dahingehend auszulegen, dass ein oder mehrere der aufgeführten Elemente genannt werden, sofern ein Anspruch nicht eine ausdrückliche gegenteilige Einschränkung enthält.
Der Ausdruck „beispielhaft“ wird in dieser Schrift in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte eine Bezugnahme auf ein „beispielhaftes Gerät“ einfach als Bezugnahme auf ein Beispiel für ein Gerät gelesen werden.
Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, ein Messwert, ein Wert, eine Bestimmung, eine Berechnung usw. von einer bzw. einem genau beschriebenen Geometrie, Abstand, Messwert, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
In den Zeichnungen geben die gleichen Bezugszeichen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass, obwohl die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der in dieser Schrift beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass bestimmte Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder bestimmte in dieser Schrift beschriebene Schritte weggelassen werden könnten. Anders ausgedrückt werden die vorliegenden Beschreibungen von Prozessen zur Veranschaulichung bestimmter Ausführungsformen bereitgestellt und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Gemäß der vorliegenden Erfindung ist ein Computer bereitgestellt, der einen Prozessor und einen Speicher aufweist, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor zu Folgendem ausgeführt werden können: Bestimmen von Daten von sechs Freiheitsgraden (DoF) für ein erstes Objekt in einem ersten Videobild; Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, das ein synthetisches Objekt und eine synthetische Objektkennung beinhaltet, auf Grundlage der Daten der sechs DoF; Trainieren eines Generative Adversarial Network (GAN) auf Grundlage von einem gepaarten ersten Videobild und einem synthetischen Videobild, um ein modifiziertes synthetisches Bild zu erzeugen; Trainieren eines tiefen neuronalen Netzwerks dazu, das synthetische Objekt in dem modifizierten synthetischen Videobild auf Grundlage der Kennung für synthetische Objekte zu lokalisieren; und Herunterladen des trainierten tiefen neuronalen Netzwerks auf eine Rechenvorrichtung in einem Fahrzeug.
Gemäß einer Ausführungsform ist das synthetische Videobild durch einen fotorealistischen Wiedergabeprozess erzeugt, um dem ersten Videobild zu entsprechen, einschließlich Darstellen, dass das synthetische Objekt einer Identität und einem Standort des ersten Objekts in dem ersten Videobild entspricht, auf Grundlage der Daten der sechs DoF.
Gemäß einer Ausführungsform beinhalten die Daten der sechs DoF eine Position im dreidimensionalen (3D-) Raum und eine Ausrichtung im 3D-Raum, die beide in Bezug auf orthogonale dreidimensionale Achsen bestimmt sind, wobei die orthogonalen dreidimensionalen Achsen in Bezug auf ein globales Koordinatensystem bestimmt sind.
Gemäß einer Ausführungsform beruht das globale Koordinatensystem auf Breite, Länge und Höhe, wobei der Standort in x-, y-, und z-Koordinaten gemessen ist und die Ausrichtung durch mit Bezug auf das globale Koordinatensystem festgelegtes Rollen, Neigen und Gieren gemessen ist.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen zum Bestimmen der Daten der sechs DoF durch Verarbeiten des ersten Videobilds unter Verwendung von Bildverarbeitungstechniken, um eine Übereinstimmung zwischen Positionen von ersten Datenpunkten auf dem ersten Objekt in dem ersten Videobild und Positionen von gemessenen Datenpunkten zu bestimmen, die durch Messen von Positionen von Datenpunkten auf einem oder mehreren des ersten Objekts oder der technischen Zeichnungen des ersten Objekts bestimmt sind.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen zum Bestimmen der Daten der sechs DoF durch Minimieren von Unterschieden zwischen Positionen der ersten Datenpunkte und der gemessenen Datenpunkte durch nichtlineare Kurvenanpassung.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen zum Bestimmen der Daten der sechs DoF auf Grundlage von technischen Zeichnungen des ersten Objekts und des Blickwinkels der virtuellen Kamera.
Gemäß einer Ausführungsform beinhaltet der virtuelle Kamerasichtspunkt die Daten der sechs DoF für eine optische Achse der virtuellen Kamera und Vergrößerungsdaten für die virtuelle Kamera.
Gemäß einer Ausführungsform beinhaltet das GAN ein Generative Network und ein Adversarial Network.
Gemäß einer Ausführungsform fügt das GAN Bildmerkmalsdaten aus dem ersten Videobild zu dem synthetischen Videobild hinzu, um das modifizierte synthetische Videobild zu erzeugen.
Gemäß einer Ausführungsform beinhaltet das tiefe neuronale Netzwerk Faltungsschichten und vollständig verbundene Schichten.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen, das tiefe neuronale Netzwerk dazu zu trainieren, das erste Objekt zu lokalisieren, indem zurückpropagierte Ausgabezustände mit der Kennung für synthetische Objekte verglichen werden.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen zum Betreiben des Fahrzeugs, indem erlangte Videodaten mit dem heruntergeladenen tiefen neuronalen Netzwerk verarbeitet werden, um ein oder mehrere Objekte in den erlangten Videodaten zu lokalisieren.
Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Anweisungen zum Betreiben des Fahrzeugs durch Steuern des Fahrzeugantriebsstrangs, der -lenkung und der -bremsen auf Grundlage von Standorten des einen oder der mehreren Objekte in den erlangten Videodaten.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Bestimmen von Daten von sechs Freiheitsgraden (DoF) für ein erstes Objekt in einem ersten Videobild; Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, das ein synthetisches Objekt und eine synthetische Objektkennung beinhaltet, auf Grundlage der Daten der sechs DoF; Trainieren eines Generative Adversarial Network (GAN) auf Grundlage von einem gepaarten ersten Videobild und einem synthetischen Videobild, um ein modifiziertes synthetisches Bild zu erzeugen; Trainieren eines tiefen neuronalen Netzwerks dazu, ein Objekt in dem modifizierten synthetischen Bild auf Grundlage der Kennung für synthetische Objekte zu lokalisieren; und Herunterladen des trainierten tiefen neuronalen Netzwerks auf eine Rechenvorrichtung in einem Fahrzeug.
In einem Aspekt der Erfindung ist das synthetische Videobild durch einen fotorealistischen Wiedergabeprozess erzeugt, um dem ersten Videobild zu entsprechen, einschließlich Darstellen, dass das synthetische Objekt einem Standort des ersten Objekts in dem ersten Videobild entspricht, auf Grundlage der Daten der sechs DoF.
In einem Aspekt der Erfindung beinhalten die Daten der sechs DoF eine Position im dreidimensionalen (3D-) Raum und eine Ausrichtung im 3D-Raum, die beide in Bezug auf orthogonale dreidimensionale Achsen bestimmt sind, wobei die orthogonalen dreidimensionalen Achsen in Bezug auf ein globales Koordinatensystem bestimmt sind.
In einem Aspekt der Erfindung beruht das globale Koordinatensystem auf Breite, Länge und Höhe, wobei der Standort in x-, y-, und z-Koordinaten gemessen ist und die Ausrichtung durch mit Bezug auf das globale Koordinatensystem festgelegtes Rollen, Neigen und Gieren gemessen ist.
In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Bestimmen der Daten der sechs DoF durch Verarbeiten des ersten Videobilds unter Verwendung von Techniken von maschinellem Sehen, um eine Überstimmung zwischen Stellen von ersten Datenpunkten an dem ersten Objekt in dem ersten Videobild und Stellen von gemessenen Datenpunkten zu bestimmen, die durch Messen der Stellen von Datenpunkten an einem oder mehreren des ersten Objekts oder von technischen Zeichnungen des ersten Objekts bestimmt sind.
In einem Aspekt der Erfindung beinhaltet das Verfahren Anweisungen zum Bestimmen von Daten der sechs DoF durch Minimieren von Unterschieden zwischen Positionen der ersten Datenpunkte und der gemessenen Datenpunkte durch nichtlineare Kurvenanpassung.

Claims

Verfahren, das Folgendes umfasst: Bestimmen von Daten von sechs Freiheitsgraden (degree of freedom - DoF) für ein erstes Objekt in einem ersten Videobild; Erzeugen eines synthetischen Videobilds, das dem ersten Videobild entspricht, einschließlich eines synthetischen Objekts und einer Kennung des synthetischen Objekts, auf Grundlage der Daten der sechs DoF; Trainieren eines Generative Adversarial Network (GAN) auf Grundlage eines gepaarten ersten Videobilds und eines synthetischen Videobilds, um ein modifiziertes synthetisches Bild zu erzeugen; Trainieren eines tiefen neuronalen Netzwerks zum Lokalisieren eines Objekts in dem modifizierten synthetischen Bild auf Grundlage der Kennung des synthetischen Objekts; und Herunterladen des trainierten tiefen neuronalen Netzwerks auf eine Rechenvorrichtung in einem Fahrzeug.
Verfahren nach Anspruch 1, wobei das synthetische Videobild durch einen Prozess des fotorealistischen Renderings erzeugt ist, um mit dem ersten Videobild übereinzustimmen, einschließlich Rendering des synthetischen Objekts, um mit einem Ort des ersten Objekts in dem ersten Videobild auf Grundlage der Daten der sechs DoF übereinzustimmen.
Verfahren nach Anspruch 1, wobei die Daten der sechs DoF einen Ort im dreidimensionalen (3D) Raum und eine Ausrichtung im 3D-Raum beinhalten, die beide in Bezug auf orthogonale dreidimensionale Achsen bestimmt sind, wobei die orthogonalen dreidimensionalen Achsen in Bezug auf ein globales Koordinatensystem bestimmt sind.
Verfahren nach Anspruch 3, wobei das globale Koordinatensystem auf Breite, Länge und Höhe beruht, wobei der Standort in x-, y-, und z-Koordinaten gemessen ist und die Ausrichtung durch mit Bezug auf das globale Koordinatensystem festgelegtes Rollen, Neigen und Gieren bestimmt ist.
Verfahren nach Anspruch 1, das ferner ein Bestimmen der Daten der sechs DoF durch Verarbeiten des ersten Videobilds unter Verwendung von Techniken von maschinellem Sehen umfasst, um eine Überstimmung zwischen Stellen von ersten Datenpunkten an dem ersten Objekt in dem ersten Videobild und Stellen von gemessenen Datenpunkten zu bestimmen, die durch Messen der Stellen von Datenpunkten an einem oder mehreren des ersten Objekts oder von technischen Zeichnungen des ersten Objekts bestimmt sind.
Verfahren nach Anspruch 5, das ferner ein Bestimmen der Daten der sechs DoF durch Minimieren von Unterschieden zwischen Stellen der ersten Datenpunkte und den gemessenen Datenpunkten durch nicht lineare Kurvenanpassung umfasst.
Verfahren nach Anspruch 6, das ferner ein Bestimmen der Daten der sechs DoF auf Grundlage von technischen Zeichnungen des ersten Objekts und virtuellen Kamerasichtpunkten umfasst.
Verfahren nach Anspruch 7, wobei der virtuelle Kamerasichtspunkt die Daten der sechs DoF für eine optische Achse der virtuellen Kamera und Vergrößerungsdaten für die virtuelle Kamera beinhalten.
Verfahren nach Anspruch 1, wobei das GAN ein Generative Network und ein Adversarial Network beinhaltet.
Verfahren nach Anspruch 1, wobei das GAN Bildmerkmalsdaten aus dem ersten Videobild zu dem synthetischen Videobild hinzufügt, um das modifizierte synthetische Videobild zu erzeugen.
Verfahren nach Anspruch 1, wobei das tiefe neuronale Netzwerk Faltungsschichten und vollständig verbundene Schichten beinhaltet.
Verfahren nach Anspruch 11, das ferner Trainieren des tiefen neuronalen Netzwerks umfasst, um das erste Objekt durch Vergleichen von rückpropagierten Ausgangszuständen mit der Kennung des synthetischen Objekts zu lokalisieren.
Verfahren nach Anspruch 1, das ferner Betreiben des Fahrzeugs durch Verarbeiten von erlangten Videodaten mit dem heruntergeladenen tiefen neuronalen Netzwerk umfasst, um das eine oder die mehreren Objekte in den erlangten Videodaten zu lokalisieren.
Verfahren nach Anspruch 13, das ferner Betreiben des Fahrzeugs durch Steuern des Fahrzeugantriebsstrangs, der Fahrzeuglenkung und der Fahrzeugbremsen auf Grundlage von dem einen oder den mehreren Objekten in den Videodaten umfasst.
System, das einen Computer umfasst, der dazu programmiert ist, die Verfahren nach einem der Ansprüche 1-14 durchzuführen.