DE102018121808A1

DE102018121808A1 - Verfeinern von synthetischen daten mit einem generative adversarial network unter verwendung von hilfseingaben

Info

Publication number: DE102018121808A1
Application number: DE102018121808.7A
Authority: DE
Inventors: Guy Hotson; Gintaras Vincent Puskorius; Vidya Nariyambut murali
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2017-09-08
Filing date: 2018-09-06
Publication date: 2019-03-14
Also published as: US10726304B2; US20190080206A1; CN109472365A

Abstract

Die vorliegende Erfindung erstreckt sich auf Verfahren, Systeme und Computerprogrammprodukte zum Verfeinern von synthetischen Daten mit einem Generative Adversarial Network (GAN) unter Verwendung von Hilfseingaben. Verfeinerte synthetische Daten können realistischer als die ursprünglichen synthetischen Daten erbracht werden. Verfeinerte synthetische Daten behalten ebenfalls Annotations-Metadaten und Kennzeichnungs-Metadaten bei, die zum Training von Maschinenlernmodellen verwendet werden. GANs können erweitert werden, um Hilfskanäle als Eingaben in ein Verfeinerungsnetzwerk zu verwenden, um Hinweise über das Erhöhen des Realismus von synthetischen Daten bereitzustellen. Das Verfeinern von synthetischen Daten fördert das Verwenden von synthetischen Daten für zusätzliche Anwendungen.

Description

ALLGEMEINER STAND DER TECHNIK
GEBIET DER ERFINDUNG
Diese Erfindung betrifft allgemein das Gebiet des Formulierens von realistischen Trainingsdaten für Trainingsmaschinen-Lernmodelle und insbesondere das Verfeinern von synthetischen Daten mit einem Generative Adversarial Network unter Verwendung von Hilfseingaben.
VERWANDTE TECHNIK
Das Verfahren des Annotierens und Kennzeichnens relevanter Teile von Bildtrainingsdaten (z. B. Standbildern oder Video) für Trainingsmaschinen-Lernmodelle kann mühselig, zeitaufwendig und kostenintensiv sein. Um diese Annotierungs- und Kennzeichnungsbürden zu reduzieren, können synthetische Daten (z. B. virtuelle Bilder, die durch Gaming- oder andere grafische Maschinen generiert werden) verwendet werden. Das Annotieren von synthetischen Daten ist unkomplizierter, da es sich bei der Annotation um ein direktes Nebenprodukt des Generierens der synthetischen Daten handelt.
KURZDARSTELLUNG
Die vorliegende Erfindung erstreckt sich auf Verfahren, Systeme und Computerprogrammprodukte zum Verfeinern von synthetischen Daten mit einem Generative Adversarial Network unter Verwendung von Hilfseingaben.
Aspekte der Erfindung beinhalten Generative Adversarial Networks („GANs“), um synthetische Daten zu verfeinern. Verfeinerte synthetische Daten können realistischer als die ursprünglichen synthetischen Daten wiedergegeben werden. Verfeinerte synthetische Daten behalten ebenfalls Annotations-Metadaten und Kennzeichnungs-Metadaten bei, die zum Training von Maschinenlernmodellen verwendet werden. GANs können erweitert werden, um Hilfskanäle als Eingaben in ein Verfeinerungsnetzwerk zu verwenden, um Hinweise über das Erhöhen des Realismus von synthetischen Daten bereitzustellen. Das Verfeinern von synthetischen Daten fördert das Verwenden von synthetischen Daten für zusätzliche Anwendungen.
Bei einem Aspekt wird ein GAN verwendet, um ein synthetisches (oder virtuelles) Bild, z. B. ein Bild, das von einer Gamingmaschine generiert wurde, in ein realistischeres, verfeinertes synthetisches (oder virtuelles) Bild zu verfeinern. Das realistischer verfeinerte synthetische Bild behält Annotations-Metadaten und Kennzeichnungs-Metadaten des synthetischen Bilds bei, die zum Training von Maschinenlernmodellen verwendet werden. Die Hilfseingänge werden an ein Verfeinerungsnetzwerk bereitgestellt, um Hinweise darüber bereitzustellen, wie das realistischere, verfeinerte Bild aussehen soll. Hilfseingaben können das Anwenden korrekter Texturen auf verschiedene Regionen eines synthetischen Bilds ermöglichen. Hilfseingaben können semantische Maps (die z. B. eine Bildsegmentation ermöglichen), Tiefen-Maps, Kanten zwischen Objekten usw. beinhalten. Das Verfeinern von synthetischen Bildern fördert das Verwenden von synthetischen Bilden zum Lösen von Problemen bei der Computervision, einschließlich Anwendungen, die das autonome Fahren betreffen, wie z. B. Bildsegmentation, Identifizieren von befahrbaren Wegen, Objektverfolgung und dreidimensionale (3D) Objektlageschätzung.
Semantische Maps, Tiefen-Maps und Objektkanten stellen sicher, dass korrekte Texturen auf verschiedene Regionen von synthetischen Bildern angewendet werden. Eine semantische Map kann z. B. ein synthetisches Bild in mehrfache Regionen segmentieren und den Inhalt jeder Region identifizieren, wie z. B. Blätter von einem Baum oder die Seite eines grünen Gebäudes. Eine Tiefen-Map kann unterscheiden, wie jede Bildregion in einem synthetischen Bild zu erscheinen hat, wie z. B. variierende Ebenen von Detail/Textur, basierend auf dem Abstand des Objekts von der Kamera. Objektkanten können Übergänge zwischen verschiedenen Objekten in einem synthetischen Bild definieren.
Dementsprechend beinhalten die Aspekte der Erfindung ein Bildverfeinerungssystem, das synthetische (oder virtuelle) Bilder verfeinert, um die Erscheinung der synthetischen (oder virtuellen) Bilder zu verbessern und synthetische (oder virtuelle) Bilder mit höherer Qualität (z. B. realistischer) für Trainingsmaschinen-Lernmodelle zu verbessern. Wenn das Training eines Maschinenlernmodells fertiggestellt ist, kann das Maschinenlernmodell mit autonomen Fahrzeugen und vom Fahrer unterstützten Fahrzeugen verwendet werden, um Objekte innerhalb von Bildern, die von Fahrzeugkameras und -sensoren erfasst wurden, akkurat zu verarbeiten und zu identifizieren.
Ein Generative Adversarial Network (GAN) kann Maschinenlernen einsetzen, um zwei Netzwerke, ein Discriminator-Netz und ein Generator-Netz, zu trainieren, die im Wesentlichen ein Spiel gegeneinander spielen (d. h. gegnerisch sind, engl. adversarial). Das Discriminator-Netz wird trainiert, um zwischen echten Datenvorgängen (z. B. echten Bildern) und synthetischen Datenvorgängen (z. B. virtuellen Bildern) zu unterscheiden und Datenvorgänge entweder als echt oder synthetisch einzustufen. Das Generator-Netz wird trainiert, um synthetische Datenvorgänge zu produzieren, die das Discriminator-Netz als echte Datenvorgänge einstuft. Ein synthetisches Gleichgewicht wird erreicht, wenn das Discriminator-Netz nicht in der Lage ist zu bewerten, ob ein beliebiger Datenvorgang synthetisch oder echt ist. Es kann vorkommen, dass das Generator-Netz nie echte Datenvorgänge direkt beobachtet. Stattdessen erhält das Generator-Netz Informationen über echte Datenvorgänge auf indirekte Weise, wie sie durch die Parameter des Discriminator-Netzes gesehen werden.
In einem Aspekt unterscheidet das Discriminator-Netz zwischen echten Bildern und synthetischen (oder virtuellen) Bildern und stuft Bilder entweder als echt oder synthetisch (oder virtuell) ein. Bei diesem Aspekt wird das Generator-Netz trainiert, um synthetische (oder virtuelle) Bilder zu produzieren. Ein GAN kann erweitert werden, um ein Verfeinerungsnetzwerk (welches das Generator-Netz ersetzen kann oder nicht) zu beinhalten. Das Verfeinerungsnetzwerk beobachtet ein synthetisches (oder virtuelles) Bild und generiert eine Variation des synthetischen (oder virtuellen) Bilds. Die Variation des synthetischen (oder virtuellen) Bilds ist vorgesehen, Merkmale aufzuweisen, die eine erhöhte Ähnlichkeit mit echten Bildern hat, während Annotations-Metadaten und Kennzeichnungs-Metadaten beibehalten werden. Das Verfeinerungsnetzwerk versucht, synthetische (oder virtuelle) Bilder zu verfeinern, sodass das Discriminator-Netz verfeinerte synthetische (oder virtuelle) Bilder als echte Bilder einstuft. Das Verfeinerungsnetzwerk versucht ebenfalls, Ähnlichkeiten zwischen einer Eingabe eines synthetischen (oder virtuellen) Bilds und eines verfeinerten synthetischen (oder virtuellen) Bilds beizubehalten (z. B. Merkmale zu normalisieren).
Das Verfeinerungsnetzwerk kann erweitert werden, um zusätzliche Informationen zu erhalten, die als Teil eines Syntheseprozesses generiert werden können. Das Verfeinerungsnetzwerk kann z. B. eines oder mehrere der Folgenden erhalten: semantische Maps (die z. B. eine Bildsegmentation ermöglichen), Tiefen-Maps, Kanten zwischen Objekten usw. Bei einem Aspekt erhält das Verfeinerungsnetzwerk ein Hilfsbild, das eine semantische Segmentation auf Pixelniveau des synthetischen (oder virtuellen) Bilds als Eingabe kodiert. Bei einem weiteren Aspekt erhält das Verfeinerungsnetzwerk ein Hilfsbild, das eine Tiefen-Map der Inhalte des synthetischen (oder virtuellen) Bilds als Eingabe kodiert. Bei einem weiteren Aspekt kann das Verfeinerungsnetzwerk ein Hilfsbild erhalten, das Kanten zwischen Objekten in dem synthetischen (oder virtuellen) Bild kodiert.
Ein synthetisches (oder virtuelles) Bild kann z. B. Blätter von einem Baum beinhalten. Die semantische Segmentation kann ein Hinweis darauf sein, dass der Teil des synthetischen (oder virtuellen) Bilds, das die Blätter beinhaltet, in der Tat Blätter darstellt (und nicht z. B. die Seite eines gründen Gebäudes). Eine Tiefen-Map kann verwendet werden, um zu unterscheiden, wie die Blätter je nach dem Abstand von der Kamera erscheinen. Die Kanten können verwendet werden, um zwischen verschiedenen Objekten in dem synthetischen (oder virtuellen) Bild zu unterscheiden.
Hilfsdaten können von einem Datensatz von echten Bildern entnommen werden, die während dem Training des Discriminator-Netzes verwendet werden. Das Extrahieren von Hilfsdaten von einem Datensatz von echten Bildern kann das Verwenden von Sensoren beinhalten, wie z. B. LIDAR, die mit einem Kameradatenstrom synchronisiert werden. Für Hilfsdaten, die eine semantische Segmentation repräsentieren, kann die Segmentation entweder per Hand oder durch ein semantisches Segmentationsmodell durchgeführt werden. Das GAN kann dann als ein bedingtes GAN formuliert werden, wobei das Discriminator-Netz von den bereitgestellten Hilfsdaten abhängig ist.
Dementsprechend kann ein GAN Hilfsdatenströme, wie z. B. semantische Maps und Tiefen-Maps, wirksam einsetzen, um dabei behilflich zu sein, sicherzustellen, dass korrekte Texturen korrekt auf verschiedene Regionen eines synthetischen (oder virtuellen) Bilds angewendet werden. Das GAN kann verfeinerte synthetische (oder virtuelle) Bilder generieren, die einen erhöhten Realismus aufweisen, während Annotationen und/oder Kennzeichnen zur Verwendung beim Training von zusätzlichen Modellen (z. B. Computervision, autonomes Fahren usw.) beibehalten werden.
Figurenliste
Die spezifischen Merkmale, Aspekte und Vorteile der vorliegenden Erfindung können im Hinblick auf die folgende Beschreibung und die begleitenden Zeichnungen besser nachvollzogen werden, wobei:

1 ein beispielhaftes Blockdiagramm einer Rechenvorrichtung veranschaulicht.
2 ein beispielhaftes Generative Adversarial Network veranschaulicht, welches das Verfeinern von synthetischen Daten unter Verwendung von Hilfseingaben ermöglicht.
3 ein Flussdiagramm eines beispielhaften Verfahrens zum Verfeinern von synthetischen Daten mit einem Generative Adversarial Network unter Verwendung von Hilfseingaben veranschaulicht.
4 einen beispielhaften Datenfluss zum Verfeinern von synthetischen Daten mit einem Generative Adversarial Network unter Verwendung von Hilfseingaben veranschaulicht.

DETAILLIERTE BESCHREIBUNG
1 veranschaulicht ein beispielhaftes Blockdiagramm einer Rechenvorrichtung 100. Die Rechenvorrichtung 100 kann verwendet werden, um verschiedene Verfahren, wie beispielsweise die hier erläuterten, durchzuführen. Die Rechenvorrichtung 100 kann als ein Server, ein Client oder eine beliebige andere Recheneinheit fungieren. Die Rechenvorrichtung 100 kann verschiedene Kommunikations- und Datenübermittlungsfunktionen wie hier beschrieben durchführen und kann eine oder mehrere Anwendungsprogramme, wie etwa die hier beschriebenen Anwendungsprogramme, ausführen. Die Rechenvorrichtung 100 kann eine beliebige aus einem breiten Spektrum von Rechenvorrichtungen, wie etwa ein Mobiltelefon oder eine andere mobile Vorrichtung, ein Desktop-Computer, ein Notebook-Computer, ein Server-Computer, ein tragbarer Computer, Tablet-Computer und dergleichen, sein.
Die Rechenvorrichtung 100 beinhaltet einen oder mehrere Prozessor(en) 102, eine oder mehrere Speichervorrichtung(en) 104, eine oder mehrere Schnittstelle(n) 106, eine oder mehrere Massenspeichervorrichtung(en) 108, eine oder mehrere Ein-/Ausgabe(E/A)-Vorrichtung(en) 110 und eine Anzeigevorrichtung 130, die alle an einen Bus 112 gekoppelt sind. Der/Die Prozessor(en) 102 beinhaltet/beinhalten eine(n) oder mehrere Prozessoren oder Steuerungen, der/die in der/den Speichervorrichtung(en) 104 und/oder der/den Massenspeichervorrichtung(en) 108 gespeicherte Anweisungen ausführen. Der/Die Prozessor(en) 102 kann/können zudem verschiedene Arten von Computerspeichermedien, wie etwa Cache-Speicher, beinhalten.
Die Speichervorrichtung(en) 104 beinhaltet/beinhalten verschiedene Computerspeichermedien, wie etwa flüchtige Speicher (z. B. Direktzugriffsspeicher (RAM) 114) und/oder nichtflüchtige Speicher (z. B. Festwertspeicher (ROM) 116). Die Speichervorrichtung(en) 104 kann/können zudem wiederbeschreibbaren ROM beinhalten, wie etwa Flash-Speicher.
Die Massenspeichervorrichtung(en) 108 beinhaltet/beinhalten verschiedene Computerspeichermedien, wie etwa Magnetbänder, Magnetplatten, optische Platten, Festkörperspeicher (z. B. Flash-Speicher) und so weiter. Wie in 1 abgebildet, ist eine spezifische Massenspeichervorrichtung ein Festplattenlaufwerk 124. Zudem können verschiedene Laufwerke in der/den Massenspeichervorrichtung(en) 108 beinhaltet sein, um ein Auslesen aus und/oder Schreiben auf die verschiedenen computerlesbaren Medien zu ermöglichen. Die Massenspeichervorrichtung(en) 108 beinhaltet/beinhalten entfernbare Medien 126 und/oder nicht entfernbare Medien.
Die E/A-Vorrichtung(en) 110 beinhaltet/beinhalten verschiedene Vorrichtungen, die es ermöglichen, dass Daten und/oder andere Informationen in die Rechenvorrichtung 100 eingegeben oder daraus abgerufen werden. (Eine) Beispielhafte I/O-Vorrichtung(en) 110 beinhaltet/beinhalten Cursorsteuervorrichtungen, Tastaturen, Tastenfelder, Barcodeleser, Mikrophone, Monitore oder andere Anzeigevorrichtungen, Lautsprecher, Drucker, Netzschnittstellenkarten, Modems, Kameras, Linsen, Radare, CCDs oder andere Bilderfassungsvorrichtungen und dergleichen.
Die Anzeigevorrichtung 130 beinhaltet eine beliebige Art von Vorrichtung, die dazu in der Lage ist, einem oder mehreren Benutzern der Rechenvorrichtung 100 Informationen anzuzeigen. Zu Beispielen für eine Anzeigevorrichtung 130 gehören ein Monitor, ein Anzeigeendgerät, eine Videoprojektionsvorrichtung und dergleichen.
Die Schnittstelle(n) 106 beinhaltet/beinhalten verschiedene Schnittstellen, die es der Rechenvorrichtung 100 ermöglichen, mit anderen Systemen, Vorrichtungen oder Rechenumgebungen sowie Menschen zu interagieren. (Eine) Beispielhafte Schnittstelle(n) 106 schließt/schließen eine beliebige Anzahl unterschiedlicher Netzschnittstellen 120, wie beispielsweise Schnittstellen zu Personal Area Networks (PANs), Local Area Networks (LANs), Großraumnetzen (WANs), drahtlosen Netzen (z. B. Nahbereichskommunikations-(NFC)-, Bluetooth-, WLAN- usw. -Netzwerke) und dem Internet ein. Andere Schnittstellen beinhalten eine Benutzerschnittstelle 118 und eine periphere Geräteschnittstelle 122.
Der Bus 112 ermöglicht es dem/den Prozessor(en) 102, der/den Speichervorrichtung(en) 104, der/den Schnittstelle(n) 106, der/den Massenspeichervorrichtung(en) 108 und der/den E/A-Vorrichtung(en) 110 miteinander sowie mit anderen Vorrichtungen oder Komponenten, die an den Bus 112 gekoppelt sind, zu kommunizieren. Der Bus 112 stellt eine oder mehrere von mehreren Arten von Busstrukturen dar, wie etwa einen Systembus, PCI-Bus, IEEE-1394-Bus, USB-Bus und so weiter.
2 veranschaulicht ein beispielhaftes Generative Adversarial Network (GAN) 200, welches das Verfeinern von synthetischen Daten unter Verwendung von Hilfseingaben ermöglicht. Das Generative Adversarial Network (GAN) 200 kann unter Verwendung von Komponenten der Rechenvorrichtung 100 implementiert werden.
Wie dargestellt, beinhaltet das GAN 200 einen Generator 201, Refiner 202 und Discriminator 203. Der Generator 201 kann virtuelle Bilder, einschließlich synthetischer Bilddaten und Annotationen, generieren und ausgeben. Die synthetischen Bilddaten können ein Bild einer Fahrbahnszene repräsentieren. Die Annotationen annotieren die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene. Die Annotationen können ein Nebenprodukt des Generierens der synthetischen Bilddaten sein. Bei einem Aspekt ist der Generator 201 eine Gamingmaschine.
Den synthetischen Bilddaten kann jedoch ein ausreichender Realismus fehlen, besonders für Bilder mit höherer Auflösung und/oder für Bilder, die mehr komplexe Objekte enthalten. Ein menschlicher Beobachter kann typischerweise ein echtes Bild von einem durch eine Gamingmaschine generiertem virtuellen Bild unterscheiden.
Insofern kann der Refiner 202 auf virtuelle Bilder zugreifen und virtuelle Bilder verfeinern, um den Realismus zu verbessern. Der Refiner 202 kann ein virtuelles Bild vom Generator 201 erhalten. Der Refiner 202 kann auf Hilfsdaten zugreifen, wie z. B. Bildsegmentation, eine Tiefen-Map, Objektkanten usw. Der Refiner 202 kann basierend auf den Hilfsdaten ein virtuelles Bild zu einem verfeinerten Bild verfeinern (umwandeln). Der Refiner 202 kann z. B. den Inhalt von Hilfsdaten als Hinweise verwenden, um den Realismus des virtuellen Bilds zu verbessern, ohne die Annotationen zu verändern. Der Refiner 202 kann verfeinerte virtuelle Bilder ausgeben.
Der Discriminator 203 kann ein verfeinertes virtuelles Bild vom Refiner 202 erhalten. Der Discriminator 203 kann ein verfeinertes virtuelles Bild als „echt“ oder „synthetisch“ einstufen. Wenn ein Bild als „echt“ eingestuft worden ist, kann der Discriminator 203 das verfeinerte virtuelle Bild zur Verwendung im Training anderer neuronaler Netzwerke zur Verfügung stellen. Der Discriminator 203 kann z. B. verfeinerte virtuelle Bilder, die als „echt“ eingestuft wurden, zum Trainieren von neuronalen Computervisions-Netzwerken, einschließlich solcher, die dem autonomen Fahren zugehörig sind, zur Verfügung stellen.
Wenn ein Bild als „synthetisch“ eingestuft wird, kann der Discriminator 203 Feedbackparameter generieren, um den Realismus des verfeinerten virtuellen Bilds weiter zu verbessern. Der Discriminator 203 kann die Feedbackparameter an den Refiner 202 und/oder den Generator 201 senden. Der Refiner 202 und/oder der Generator 201 kann die Feedbackparameter verwenden, um den Realismus des virtuellen Bilds weiter zu verbessern (möglicherweise mit weiteren Verweis auf Hilfsdaten). Weiter verfeinerte virtuelle Bilder können an den Discriminator 203 gesendet werden. Ein virtuelles Bild kann basierend auf Hilfsdaten und/oder Feedbackparametern weiter verfeinert (umgewandelt) werden, bis der Discriminator 203 das virtuelle Bild als „echt“ einstuft (oder bis keine weiteren Verbesserungen am Realismus mehr möglich sind, nachdem eine vorgegebene Anzahl von Aufbereitungen usw. durchgeführt worden sind).
3 veranschaulicht ein Flussdiagramm eines beispielhaften Verfahrens 300 zum Verfeinern von synthetischen Daten mit dem GAN 200 unter Verwendung von Hilfseingaben. Das Verfahren 300 wird in Bezug auf die Komponenten und die Daten des GAN 200 beschrieben.
Der Generator 201 kann ein virtuelles Bild 211 generieren, das ein Bild einer Fahrbahnszene (z. B. ein Bild einer Straße, ein Bild einer Landstraße, ein Bild einer Autobahn, ein Bild eines Parkplatzes, ein Bild einer Kreuzung usw.) repräsentiert. Das virtuelle Bild 211 beinhaltet synthetische Bilddaten 212 und Annotationen 213. Die synthetischen Bilddaten 212 können Pixelwerte für Pixel in dem virtuellen Bild 211 beinhalten. Die Annotationen 213 annotieren die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene. Der Generator 201 kann ein virtuelles Bild 211 ausgeben.
Das Verfahren 300 beinhaltet das Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, wobei die synthetischen Bilddaten Annotationen beinhalten, wobei die Annotationen die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene (301) annotieren. Der Refiner 202 kann z. B. auf das virtuelle Bild 211, einschließlich der synthetischen Bilddaten 212 und Annotationen 213, für eine Szene zugreifen, die während dem Fahren angetroffen werden kann (z. B. Kreuzung, Straße, Parkplatz usw.). Das Verfahren 300 beinhaltet das Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild (302). Der Refiner 202 kann z. B. auf eines oder mehrere der Folgenden zugreifen: Bildsegmentation 222, Tiefen-Map 223 und Objektkanten 224 von den Hilfsdaten 221.
Die Bildsegmentation 222 kann das virtuelle Bild 221 in mehrfache Regionen segmentieren und den Inhalt jeder Region identifizieren, wie z. B. Blätter von einem Baum oder die Seite eines grünen Gebäudes. Die Tiefen-Map 223 kann unterscheiden, wie jede Bildregion in dem virtuellen Bild 221 zu erscheinen hat, wie z. B. variierende Ebenen von Detail/Textur, basierend auf dem Abstand des Objekts von der Kamera. Die Objektkanten 224 können Übergänge zwischen verschiedenen Objekten in dem virtuellen Bild 211 definieren.
Das Verfahren 300 beinhaltet das Verwenden von Inhalten eines oder mehrerer Hilfsdatenströme als Hinweise darauf, die synthetischen Bilddaten zu verfeinern, wobei das Verfeinern der synthetischen Bilddaten den Realismus des Bilds verbessert, ohne die Annotationen (303) zu verändern. Der Refiner 202 kann z. B. die Inhalte eines oder mehrerer der Folgenden verwenden: Bildsegmentation 222, Tiefen-Map 223 und Objektkanten 224 als Hinweise zum Verfeinern (Umwandeln) des virtuellen Bilds 211 in verfeinerte synthetische Bilddaten 221. Der Refiner 202 kann die synthetischen Bilddaten 211 in verfeinerte synthetische Bilddaten 212 verfeinern, ohne die Annotationen 213 zu verändern. Die verfeinerten synthetischen Bilddaten 212 können den Realismus der Szene im Vergleich zu den synthetischen Bilddaten 211 verbessern.
Bei einem Aspekt ist eine Bildsegmentation 222 in einem Hilfsbild beinhaltet, das eine semantische Segmentation auf Pixelniveau des virtuellen Bilds 211 kodiert. Bei einem weiteren Aspekt ist eine Tiefen-Map 223 in einem weiteren Hilfsbild enthalten, das eine Tiefen-Map der Inhalte des virtuellen Bilds 211 kodiert. Bei einem weiteren Aspekt sind Objektkanten 224 in einem weiteren Hilfsbild enthalten, das Kanten zwischen Objekten in dem virtuellen Bild 211 kodiert. Daher kann der Refiner 202 ein oder mehrere Hilfsbilder verwenden, um die synthetischen Bilddaten 211 in verfeinerte synthetische Bilddaten 212 zu verfeinern.
Bei einem Aspekt generiert der Generator 201 Hilfsdaten 221 als ein Nebenprodukt des Generierens des virtuellen Bilds 211. Bei einem weiteren Aspekt werden die Hilfsdaten 221 von einem Datensatz echter Bildern entnommen, die zum Training des Discriminators 203 verwendet werden.
Das Verfahren 300 beinhaltet das Ausgeben der verfeinerten synthetischen Bilddaten, wobei die verfeinerten synthetischen Bilddaten ein verfeinertes Bild der Fahrbahnszene (304) repräsentieren. Der Refiner 202 kann z. B. ein verfeinertes virtuelles Bild 214 für die Szene ausgeben, die während dem Fahren angetroffen werden kann. Das verfeinerte virtuelle Bild 214 beinhaltet verfeinerte synthetische Bilddaten 216 und Annotationen 213.
Der Discriminator 203 kann auf das verfeinerte virtuelles Bild 214 zugreifen. Der Discriminator 203 kann verfeinerte synthetische Bilddaten 216 und Annotationen 213 verwenden, um Einstufungen von Bildarten 217 für das verfeinerte virtuelle Bild 214 vorzunehmen. Eine Einstufung der Bildart 217 stuft ein verfeinertes virtuelles Bild 214 als „echt“ oder „synthetisch“ ein. Falls der Discriminator 203 das verfeinerte virtuelle Bild 214 als „echt“ einstuft, kann der Discriminator 203 das verfeinerte virtuelle Bild 214 zur Verwendung im Training anderer neuronaler Netzwerke zur Verfügung stellen, wie z. B. neuronaler Computervisions-Netzwerke, einschließlich solcher, die das autonome Fahren betreffen.
Andererseits, falls der Discriminator 203 ein verfeinertes virtuelles Bild 214 als „synthetisch“ einstuft, kann der Discriminator 203 Bild-Feedbackparameter 218 zur weiteren Verbesserung des Realismus des verfeinerten virtuellen Bilds 214 generieren. Der Discriminator 203 kann Bild-Feedbackparameter 218 an den Refiner 202 und/oder an den Generator 201 senden. Der Refiner 202 und/oder Generator 201 kann Bild-Feedbackparameter 218 verwenden, um den Realismus des verfeinerten virtuellen Bilds 214 weiter zu verbessern (möglicherweise mit weiteren Verweis auf Hilfsdaten 221). Weiter verfeinerte virtuelle Bilder können an den Discriminator 203 gesendet werden. Der Refiner 202 und/oder Generator 201 kann das verfeinerte virtuelle Bild 214 basierend auf den Hilfsdaten 221 und/oder den Bild-Feedbackparametern 218 (oder den zusätzlichen anderen Feedbackparametern) weiter verfeinern. Mit der Bildverfeinerung kann fortgefahren werden, bis der Discriminator 203 ein weiter verfeinertes virtuelles Bild (das von dem verfeinerten virtuellen Bild 214 weiter verfeinert wurde) als „echt“ einstuft (oder bis keine weiteren Verbesserungen am Realismus mehr möglich sind, nachdem eine spezifizierte Anzahl von Verfeinerungen vorgenommen wurde usw.).
4 veranschaulicht einen beispielhaften Datenfluss 400 zum Verfeinern von synthetischen Daten mit einem Generative Adversarial Network unter Verwendung von Hilfseingaben. Der Generator 401 generiert ein virtuelles Bild 411, ein Bildsegmentationsbild 433 und ein Tiefen-Map-Bild 423. Der Refiner 402 verwendet die Inhalte des Bildsegmentationsbilds 433 und des Tiefen-Map-Bilds 423 (z. B. als Hinweise), um das virtuelle Bild 411 in das verfeinerte virtuelle Bild 414 zu verfeinern (umzuwandeln). Der Realismus des verfeinerten virtuellen Bilds 414 kann bezüglich des virtuellen Bilds 411 verbessert werden. Der Discriminator 403 stuft das verfeinerte virtuelle Bild 414 als „echt“ oder „synthetisch“ ein.
In einem Aspekt sind ein oder mehrere Prozessoren dazu konfiguriert, Anweisungen (z. B. computerlesbare Anweisungen, computerausführbare Anweisungen usw.) auszuführen, um einen beliebigen einer Vielzahl beschriebener Vorgänge auszuführen. Der eine oder die mehreren Prozessoren können Informationen aus dem Systemspeicher abrufen und/oder Informationen im Systemspeicher speichern. Der eine oder die mehreren Prozessoren können Informationen zwischen verschiedenen Formaten, wie z. B. virtuellen Bildern, synthetischen Bilddaten, Annotationen, Hilfsdaten, Hilfsbildern, Bildsegmentation, Tiefen-Maps, Objektkanten, verfeinerten virtuellen Bildern, verfeinerten synthetischen Daten, Einstufungen der Bildart, Bild-Feedbackparametern usw. umwandeln.
Der Systemspeicher kann an den einen oder die mehreren Prozessoren gekoppelt sein und kann Anweisungen (z. B. computerlesbare Anweisungen, computerausführbare Anweisungen usw.) speichern, die von dem einen oder den mehreren Prozessoren ausgeführt werden. Der Systemspeicher kann auch so konfiguriert sein, dass er jede beliebige von einer Vielzahl von anderen Arten von Daten speichert, die durch die beschriebenen Komponenten erzeugt werden, wie z. B. virtuelle Bilder, synthetische Bilddaten, Annotationen, Hilfsdaten, zusätzliche Bilder, Bildsegmentation, Tiefen-Maps, Objektkanten, verfeinerte virtuelle Bilder, verfeinerte synthetische Daten, Einstufungen von Bildarten, Bild-Feedbackparameter usw.
In der vorstehenden Offenbarung wurde auf die beigefügten Zeichnungen Bezug genommen, die einen Teil davon bilden und in denen zur Veranschaulichung konkrete Umsetzungen gezeigt sind, in denen die Offenbarung ausgeführt sein kann. Es versteht sich, dass andere Umsetzungen verwendet werden können und strukturelle Änderungen vorgenommen werden können, ohne vom Schutzumfang der vorliegenden Offenbarung abzuweichen. Bezugnahmen in der Beschreibung auf „eine Ausführungsform“, „ein Ausführungsbeispiel“ usw. geben an, dass die beschriebene Ausführungsform ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft beinhalten kann, doch es muss nicht notwendigerweise jede Ausführungsform diese(s) bestimmte Merkmal, Struktur oder Eigenschaft beinhalten. Darüber hinaus beziehen sich derartige Formulierungen nicht unbedingt auf dieselbe Ausführungsform. Ferner sei darauf hingewiesen, dass, wenn ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben wird, es im Bereich des Fachwissens des Fachmanns liegt, ein(e) derartige(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen zu bewirken, ob dies nun ausdrücklich beschrieben ist oder nicht.
Umsetzungen der hierin offenbarten Systeme, Vorrichtungen und Verfahren können einen Spezial- oder Universalcomputer umfassen oder verwenden, der Computerhardware beinhaltet, wie etwa zum Beispiel einen oder mehrere Prozessoren und einen oder mehrere Systemspeicher, wie hierin erörtert. Umsetzungen innerhalb des Schutzumfangs der vorliegenden Offenbarung können zudem physische und andere computerlesbare Medien zum Transportieren oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen beinhalten. Bei derartigen computerlesbaren Medien kann es sich um beliebige verfügbare Medien handeln, auf die durch ein Universal- oder Spezialcomputersystem zugegriffen werden kann. Bei computerlesbaren Medien, auf denen computerausführbare Anweisungen gespeichert werden, handelt es sich um Computerspeichermedien (-vorrichtungen). Bei computerlesbaren Medien, die computerausführbare Anweisungen transportieren, handelt es sich um Übertragungsmedien. Daher können Umsetzungen der Offenbarung beispielsweise und nicht einschränkend zumindest zwei deutlich unterschiedliche Arten von computerlesbaren Medien umfassen: Computerspeichermedien (-vorrichtungen) und Übertragungsmedien.
Computerspeichermedien (-vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, Festkörperlaufwerke (Solid State Drives - SSDs) (z. B. basierend auf RAM), Flash-Speicher, Phasenänderungsspeicher (Phase-Change Memory - PCM), andere Speicherarten, andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das verwendet werden kann, um die gewünschten Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu speichern, und auf das durch einen Universal- oder Spezialcomputer zugegriffen werden kann.
Eine Umsetzung der hierin offenbarten Vorrichtungen, Systeme und Verfahren kann über ein Computernetzwerk kommunizieren. Ein „Netzwerk“ ist als eine oder mehrere Datenverbindungen definiert, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere (entweder festverdrahtete, drahtlose oder eine Kombination aus festverdrahteter oder drahtloser) Kommunikationsverbindung an einen Computer übertragen oder diesem bereitgestellt werden, sieht der Computer die Verbindung korrekt als Übertragungsmedium an. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen beinhalten, die dazu verwendet werden können, gewünschte Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu transportieren, und auf die durch einen Universal- oder Spezialcomputer zugegriffen werden kann. Kombinationen aus dem Vorstehenden sollten ebenfalls im Schutzumfang computerlesbarer Medien eingeschlossen sein.
Computerausführbare Anweisungen umfassen zum Beispiel Anweisungen und Daten, die bei Ausführung an einem Prozessor einen Universalcomputer, Spezialcomputer oder eine Spezialverarbeitungsvorrichtung dazu veranlassen, eine bestimmte Funktion oder Gruppe von Funktionen durchzuführen. Die computerausführbaren Anweisungen können beispielsweise Binärdateien, Zwischenformatanweisungen, wie etwa Assemblersprache, oder sogar Quellcode sein. Obwohl der Gegenstand in für Strukturmerkmale und/oder methodische Handlungen spezifischer Sprache beschrieben wurde, versteht es sich, dass der in den beigefügten Patentansprüchen definierte Gegenstand nicht notwendigerweise auf die vorstehend beschriebenen Merkmale oder Handlungen beschränkt ist. Die beschriebenen Merkmale und Handlungen sind vielmehr als beispielhafte Formen der Umsetzung der Patentansprüche offenbart.
Der Fachmann kann nachvollziehen, dass die Offenbarung in Network-Computing-Umgebungen mit vielen Arten von Computersystemkonfigurationen durchgeführt werden kann, einschließlich eines Armaturenbrett- oder anderen Fahrzeugcomputers, PCs, Desktop-Computern, Laptops, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorsystemen, Unterhaltungselektronik auf Mikroprozessorbasis oder programmierbarer Unterhaltungselektronik, Netzwerk-PCs, Minicomputern, Mainframe-Computern, Mobiltelefonen, PDAs, Tablets, Pagern, Routern, Switches, verschiedenen Speichervorrichtungen und dergleichen. Die Offenbarung kann zudem in Umgebungen mit verteilten Systemen angewendet werden, in denen sowohl lokale Computersysteme als auch entfernte Computersysteme, die durch ein Netzwerk (entweder durch festverdrahtete Datenverbindungen, drahtlose Datenverbindungen oder durch eine Kombination aus festverdrahteten und drahtlosen Datenverbindungen) verbunden sind, Aufgaben ausführen. In einer Umgebung mit verteilten Systemen können sich Programmmodule sowohl in lokalen Speichervorrichtungen als auch in Fernspeichervorrichtungen befinden.
Ferner können die hier beschriebenen Funktionen gegebenenfalls in einem oder mehreren der Folgenden ausgeführt werden: Hardware, Software, Firmware, digitalen Komponenten oder analogen Komponenten. Ein oder mehrere anwendungsspezifische integrierte Schaltkreise (ASICs) können zum Beispiel dazu programmiert sein, eines bzw. einen oder mehrere der hier beschriebenen Systeme und Vorgänge auszuführen. Bestimmte Begriffe werden in der gesamten Beschreibung und den Ansprüchen verwendet, um auf bestimmte Systemkomponenten Bezug zu nehmen. Der Fachmann wird erkennen, dass auf Komponenten durch unterschiedliche Bezeichnungen Bezug genommen werden kann. In dieser Schrift soll nicht zwischen Komponenten unterschieden werden, die sich dem Namen nach unterscheiden, nicht jedoch von der Funktion her.
Es ist anzumerken, dass die vorstehend erörterten Sensorausführungsformen Computerhardware, -software, -firmware oder eine beliebige Kombination daraus umfassen können, um mindestens einen Teil ihrer Funktionen auszuführen. Ein Sensor kann zum Beispiel einen Computercode beinhalten, der dazu konfiguriert ist, in einem oder mehreren Prozessoren ausgeführt zu werden, und kann eine Hardware-Logikschaltung/elektrische Schaltung beinhalten, die durch den Computercode gesteuert wird. Diese beispielhaften Vorrichtungen sind hier zu Veranschaulichungszwecken bereitgestellt und nicht als einschränkend gedacht. Ausführungsformen der vorliegenden Offenbarung können in weiteren Arten von Vorrichtungen umgesetzt werden, wie es dem einschlägigen Fachmann bekannt ist.
Mindestens einige Ausführungsformen der Offenbarung wurden Computerprogrammprodukten zugeführt, die eine solche Logik (z. B. in Form von Software) umfassen, die auf einem beliebigen computernutzbaren Medium gespeichert ist. Derartige Software veranlasst bei Ausführung in einer oder mehreren Datenverarbeitungsvorrichtungen eine Vorrichtung dazu, wie hierin beschrieben zu arbeiten.
Während vorstehend verschiedene Ausführungsformen der vorliegenden Offenbarung beschrieben wurden, versteht es sich, dass diese lediglich als Beispiele dienen und nicht als Einschränkung. Für den entsprechenden Fachmann ist ersichtlich, dass verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne vom Geist und Schutzumfang der Offenbarung abzuweichen. Daher sollen die Breite und der Umfang der vorliegenden Offenbarung durch keine der vorstehend beschriebenen beispielhaften Ausführungsformen eingeschränkt werden, sondern sollen lediglich in Übereinstimmung mit den folgenden Patentansprüchen und ihren Äquivalenten definiert sein. Die vorstehende Beschreibung wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Sie erhebt keinerlei Anspruch auf Vollständigkeit und soll die Offenbarung nicht auf die konkrete offenbarte Form beschränken. Viele Modifikationen und Variationen sind in Anbetracht der vorstehenden Lehren möglich. Ferner ist anzumerken, dass beliebige oder alle der vorangehend genannten alternativen Umsetzungen in einer beliebigen gewünschten Kombination verwendet werden können, um zusätzliche Hybridumsetzungen der Offenbarung zu bilden.
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Verfeinern von Trainingsdaten für ein Maschinenlernmodell bereitgestellt, wobei das Verfahren Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, aufweist, die synthetischen Bilddaten Annotationen mit Ground-Truth-Daten; Zugreifen auf Hilfsdaten; das Generieren von verfeinerten synthetischen Bilddaten unter Verwendung von Hilfsdaten als Hinweise auf das Verbessern des Realismus der synthetischen Bilddaten, ohne die Annotationen zu verändern; und das Ausgeben der verfeinerten synthetischen Bilddaten beinhalten.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf Hilfsdaten das Zugreifen auf einen oder mehrere Hilfsdatenströme entsprechend des Bilds umfasst.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf einen oder mehrere Hilfsdatenströme das Zugreifen auf eines oder mehrerer der Folgenden umfasst: semantische Bildsegmentationsdaten für das Bild, Tiefen-Map-Daten für das Bild oder Kantendaten für das Bild.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf Hilfsdaten das Zugreifen einer semantischen Segmentation des Bilds auf Pixelniveau umfasst.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf Hilfsdaten das Zugreifen auf eine Tiefen-Map umfasst, das variierende Detailebenen für Objekte in dem Bild basierend auf der Entfernung des Objekts von einer Kamera definiert.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf Hilfsdaten das Zugreifen auf Kantendaten umfasst, die Kanten zwischen Objekten in dem Bild definieren.
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Verfeinern von Trainingsdaten für ein Maschinenlernmodell bereitgestellt, wobei das Verfahren Folgendes aufweist: Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, die synthetischen Bilddaten Annotationen beinhalten, welche die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene annotieren; Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild; Verwenden des Inhalts des einen oder der mehreren Hilfsdatenströme als Hinweise zum Verfeinern der synthetischen Bilddaten, Verfeinern der synthetischen Bilddaten zum Verbessern des Realismus des Bilds, ohne die Annotationen zu verändern; und Ausgeben der verfeinerten synthetischen Bilddaten, die ein verfeinertes Bild der Fahrbahnszene repräsentieren.
Gemäß einer Ausführungsform ist die Erfindung ferner durch Folgendes gekennzeichnet: das Erhalten von Feedback, das ein Hinweis darauf ist, dass dem verfeinerten Bild ausreichend Realismus fehlt, wobei das Feedback einen oder mehrere Parameter zum weiteren Verfeinern des verfeinerten Bilds beinhaltet; die Verwendung der Parameter, um die verfeinerten synthetischen Bilddaten weiter zu verfeinern, das weitere Verfeinern der verfeinerten synthetischen Bilddaten den Realismus des verfeinerten Bilds weiter verbessert, ohne die Annotationen zu verändern; und das Ausgeben der verfeinerten synthetischen Bilddaten, die weiter verfeinert wurden, beinhaltet, wobei die weiter verfeinerten synthetischen Bilddaten ein weiter verfeinertes Bild der Fahrbahnszene repräsentieren.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild das Zugreifen auf eines oder mehrerer der Folgenden umfasst: semantische Bildsegmentationsdaten des Bilds oder eine Tiefen-Map des Bilds.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild das Zugreifen einer semantischen Segmentation des Bilds auf Pixelniveau umfasst.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild das Zugreifen auf eine Tiefen-Map umfasst, das variierende Detailebenen für Objekte basierend auf der Entfernung des Objekts von einer Kamera definiert.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Zugreifen auf einen oder Hilfsdatenströme für das Bild das Zugreifen auf Kantendaten umfasst, die Kanten zwischen Objekten in dem Bild definieren.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass der eine oder die mehreren Hilfsdatenströme aus anderen Bilddaten extrahiert werden.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass das Extrahieren des einen oder der Hilfsdatenströme aus anderen Bilddaten das Extrahieren eines Hilfsdatenstroms von einem Sensor umfasst, der mit einem Kameradatenstrom synchronisiert wird.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass die verfeinerten synthetischen Bilddaten verwendet werden, um das Maschinenlernmodell zu trainieren, wobei das Maschinenlernmodul für autonomes Fahren eines Fahrzeugs verwendet wird.
Gemäß der vorliegenden Erfindung wird ein Computersystem bereitgestellt, wobei das Computersystem Folgendes aufweist: einen oder mehrere Prozessoren; einen Systemspeicher, der an einen oder mehrere Prozessoren gekoppelt ist, wobei der Systemspeicher Anweisungen speichert, die durch den einen oder die mehreren Prozessoren ausführbar sind; und der eine oder die mehreren Prozessoren die in dem Systemspeicher gespeicherten Anweisungen ausführt, um Trainingdaten für ein Maschinenlernmodell zu verfeinern, einschließlich der Folgenden: Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, wobei die synthetischen Bilddaten Annotationen beinhalten, wobei die Annotationen die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene annotieren; Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild; Verwenden des Inhalts des einen oder der mehreren Hilfsdatenströme als Hinweise zum Verfeinern der synthetischen Bilddaten, Verfeinern der synthetischen Bilddaten zum Verbessern des Realismus des Bilds, ohne die Annotationen zu verändern; und Ausgeben der verfeinerten synthetischen Bilddaten.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass der eine oder die mehreren Prozessoren die Anweisungen ausführen, um Zugriff auf einen oder mehrere Hilfsdatenströme zu erhalten, um auf eines oder mehrere der Folgenden zuzugreifen: semantische Bildsegmentationsdaten für das Bild, Tiefen-Map-Daten für das Bild oder Kantendaten für das Bild.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass der eine oder die mehreren Prozessoren die Anweisungen ausführen, um: Feedback zu erhalten, das ein Hinweis darauf ist, dass dem verfeinerten Bild ausreichender Realismus fehlt, wobei das Feedback einen oder mehrere Parameter beinhaltet, um das verfeinerte Bild weiter zu verfeinern; die Parameter zu verwenden, um die verfeinerten synthetischen Bilddaten weiter zu verfeinern, wobei das weitere Verfeinern der verfeinerten synthetischen Bilddaten den Realismus des verfeinerten Bilds verbessert, ohne die Annotationen zu verändern; und die weiter verfeinerten synthetischen Bilddaten auszugeben, wobei die weiter verfeinerten Bilddaten ein weiter verfeinertes Bild der Fahrbahnszene repräsentieren.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass der eine oder die mehreren Prozessoren die Anweisungen ausführen, um einen Hilfsdatenstrom von einem Sensor zu extrahieren, der mit einem Kameradatenstrom synchronisiert ist.
Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass der eine oder die mehreren Prozessoren die Anweisungen ausführen, um die verfeinerten synthetischen Bilddaten zu verwenden, das Maschinenlernmodul zu trainieren, wobei das Lernmodul für autonomes Fahren eines Fahrzeugs verwendet wird.

Claims

Verfahren zum Verfeinern von Trainingsdaten für ein Maschinenlernmodell, wobei das Verfahren Folgendes umfasst: Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, wobei die synthetischen Daten Ground-Truth-Daten-Annotationen beinhalten; Zugreifen auf Hilfsdaten; Generieren von verfeinerten synthetischen Bilddaten, die Hilfsdaten als Hinweise verwenden, um den Realismus der synthetischen Bilddaten zu verbessern, ohne die Annotationen zu verändern; und Ausgeben der verfeinerten synthetischen Bilddaten.
Verfahren nach Anspruch 1, wobei das Zugreifen auf Hilfsdaten das Zugreifen auf eines oder mehrere der Folgenden umfasst: semantische Bildsegmentationsdaten für das Bild, Tiefen-Map-Daten für das Bild oder Kantendaten für das Bild.
Verfahren nach Anspruch 1, wobei das Zugreifen auf Hilfsdaten das Zugreifen auf eine semantische Segmentation auf Pixelniveau von dem Bild umfasst.
Verfahren nach Anspruch 2, wobei das Zugreifen die Hilfsdaten das Zugreifen auf eine Tiefen-Map umfasst, die variierende Detailebenen für Objekte in dem Bild basierend auf Objektabstand von einer Kamera definiert.
Verfahren nach Anspruch 2, wobei das Zugreifen auf die Hilfsdaten das Zugreifen auf Kantendaten umfasst, die Kanten zwischen Objekten in dem Bild definieren.
Verfahren zum Verfeinern von Trainingsdaten für ein Maschinenlernmodell, wobei das Verfahren Folgendes umfasst: Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, wobei die synthetischen Bilddaten Annotationen beinhalten, wobei die Annotationen die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene annotieren; Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild; Verwenden von Inhalten des einen oder der mehreren Hilfsdatenströme als Hinweise darauf, die synthetischen Bilddaten zu verfeinern, wodurch der Realismus des Bilds verbessert wird, ohne die Annotationen zu verändern; und Ausgeben der verfeinerten synthetischen Bilddaten, wobei die verfeinerten synthetischen Bilddaten ein verfeinertes Bild der Fahrbahnszene repräsentieren.
Verfahren nach Anspruch 6, ferner umfassend: Erhalten von Feedback als Hinweis darauf, dass dem verfeinerten Bild ausreichend Realismus fehlt, wobei das Feedback einen oder mehrere Parameter zum weiteren Verfeinern des verfeinerten Bilds beinhaltet; Verwenden der Parameter, um die verfeinerten synthetischen Bilddaten weiter zu verfeinern, wobei das weitere Verfeinern der verfeinerten synthetischen Bilddaten den Realismus des verfeinerten Bilds weiter verbessert, ohne die Annotationen zu verändern; und Ausgeben der weiter verfeinerten synthetischen Bilddaten, wobei die weiter verfeinerten synthetischen Bilddaten ein weiter verfeinertes Bild der Fahrbahnszene repräsentieren.
Verfahren nach Anspruch 6, wobei das Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild das Zugreifen auf eines oder mehrerer der Folgenden umfasst: semantische Bildsegmentationsdaten für das Bild oder eine Tiefen-Map für das Bild.
Verfahren nach Anspruch 6, ferner umfassend das Extrahieren des einen oder der mehreren Hilfsdatenströme aus anderen Bilddaten.
Verfahren nach Anspruch 9, wobei das Extrahieren des einen oder der mehreren Datenströme aus anderen Bilddaten das Extrahieren eines Hilfsdatenstroms von einem Sensor umfasst, der mit einem Kameradatenstrom synchronisiert ist.
Verfahren nach Anspruch 6, ferner umfassend das Verwenden der verfeinerten synthetischen Bilddaten zum Trainieren des Maschinenlernmoduls, wobei das Maschinenlernmodul für autonomes Fahren eines Fahrzeugs verwendet wird.
Computersystem, wobei das Computersystem Folgendes umfasst: einen oder mehrere Prozessoren; Systemspeicher, der an einen oder mehrere Prozessoren gekoppelt ist, wobei der Systemspeicher Anweisungen speichert, die von dem einen oder den mehreren Prozessoren ausgeführt werden können; und wobei der eine oder die mehreren Prozessoren die im Systemspeicher gespeicherten Anweisungen ausführen, um die Trainingsdaten für ein Maschinenlernmodell zu verfeinern, einschließlich der Folgenden: Zugreifen auf synthetische Bilddaten, die ein Bild einer Fahrbahnszene repräsentieren, wobei die synthetischen Bilddaten Annotationen beinhalten, wobei die Annotationen die synthetischen Bilddaten mit Ground-Truth-Daten für die Fahrbahnszene annotieren; Zugreifen auf einen oder mehrere Hilfsdatenströme für das Bild; das Verfeinern der synthetischen Bilddaten unter Verwendung von Inhalten des einen oder der mehreren Hilfsdatenströme als Hinweise darauf, die synthetischen Bilddaten zu verfeinern, wodurch der Realismus des Bilds verbessert wird, ohne die Annotationen zu verändern; und Ausgeben der verfeinerten synthetischen Bilddaten.
Computersystem nach Anspruch 12, wobei der eine oder die mehreren Prozessoren, welche die Anweisungen ausführen, um Zugriff auf einen oder mehrere Hilfsdatenströme zu erhalten, den einen oder die mehreren Prozessoren umfassen, welche die Anweisungen ausführen, um Zugriff auf eines oder mehrerer der Folgenden umfasst: semantische Bildsegmentationsdaten für das Bild, Tiefen-Map-Daten für das Bild oder Kantendaten für das Bild.
Computersystem nach Anspruch 12, ferner umfassend den einen oder die mehreren Prozessoren, die Anweisungen ausführen, um: Feedback als Hinweis darauf zu erhalten, dass dem verfeinerten Bild ausreichend Realismus fehlt, wobei das Feedback einen oder mehrere Parameter zum weiteren Verfeinern des verfeinerten Bilds beinhaltet; die Parameter zu verwenden, um die verfeinerten synthetischen Bilddaten weiter zu verfeinern, wobei das weitere Verfeinern der verfeinerten synthetischen Bilddaten den Realismus des verfeinerten Bilds verbessert, ohne die Annotationen zu verändern; und die weiter verfeinerten synthetischen Bilddaten auszugeben, wobei die weiter verfeinerten synthetischen Bilddaten ein weiter verfeinertes Bild der Fahrbahnszene repräsentieren.
Computersystem nach Anspruch 12, ferner umfassend den einen oder die mehreren Prozessoren, die Anweisungen ausführen, um: einen Hilfsdatenstrom von einem Sensor zu extrahieren, der mit einem Kameradatenstrom synchronisiert ist; und die verfeinerten synthetischen Bilddaten zu verwenden, um ein Maschinenlernmodul zu trainieren, das für autonomes Fahren eines Fahrzeugs verwendet wird.