DE102021101850A1

DE102021101850A1 - Domänengenerierung über erlernte teildomänenübersetzungen

Info

Publication number: DE102021101850A1
Application number: DE102021101850.1A
Authority: DE
Inventors: Akhil Perincherry; Christopher Cruise
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-01-30
Filing date: 2021-01-27
Publication date: 2021-08-05
Also published as: US11321587B2; CN113204987A; US20210241030A1

Abstract

Die Offenbarung stellt eine Domänengenerierung über erlernte Teildomänenübersetzungen bereit. Ein System und ein Verfahren können einen ersten Datensatz empfangen, der eine erste Markierung und einen ersten Kontext aufweist. Das System und das Verfahren können außerdem einen zweiten Datensatz, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Zuordnung generieren, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen tiefe neuronale Netze.
ALLGEMEINER STAND DER TECHNIK
Tiefe neuronale Netze (deep neural networks - DNNs) können verwendet werden, um viele Aufgaben zum Verstehen von Bildern durchzuführen, die Klassifizierung, Segmentierung und Untertitelung beinhalten. Üblicherweise machen DNNs große Mengen an Trainingsbildern (Zehntausende bis Millionen) erforderlich. Des Weiteren müssen diese Trainingsbilder üblicherweise zum Zwecke des Trainings und der Vorhersage mit Anmerkungen versehen werden.
KURZDARSTELLUNG
Ein System umfasst einen Computer, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Datensatzes, der eine erste Markierung und einen ersten Kontext aufweist, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Datensatzes, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Zuordnung, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
Bei anderen Merkmalen umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
Bei weiteren Merkmalen umfassen der erste Datensatz und der zweite Datensatz jeweils eine Vielzahl von Einzelbildern.
Bei weiteren Merkmalen umfasst die Vielzahl von Einzelbildern, die dem ersten Datensatz entspricht, Einzelbilder, die durch zumindest eine einer nach vorne gerichteten Kamera oder einer nach hinten gerichteten Kamera aufgenommen wurden.
Bei weiteren Merkmalen umfasst die Vielzahl von Einzelbildern, die dem zweiten Datensatz entspricht, generierte Einzelbilder, die als durch die andere von der nach vorne gerichteten Kamera und der nach hinten gerichteten Kamera aufgenommen dargestellt werden.
Bei weiteren Merkmalen entspricht die erste Markierung einer Perspektive der nach vorne gerichteten Kamera und entspricht die zweite Markierung einer Perspektive der nach hinten gerichteten Kamera.
Bei weiteren Merkmalen entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
Ein System umfasst einen Computer, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Bildes, das eine erste Markierung, die eine Perspektive des ersten Bildes darstellt, und einen ersten Kontext aufweist, der eine Umgebung des ersten Bildes darstellt, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Bildes, das die erste Markierung und einen zweiten Kontext aufweist, der eine Umgebung des zweiten Bildes darstellt, durch eine Zuordnung des trainierten neuronales Netzes, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
Bei weiteren Merkmalen umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
Bei weiteren Merkmalen umfasst das zweite Bild ein generiertes Bild, das zumindest eines von einer Perspektive einer nach vorne gerichteten Kamera oder einer nach hinten gerichteten Kamera aufweist.
Bei weiteren Merkmalen entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
Bei weiteren Merkmalen umfasst der erste Kontext zumindest eines von einer Anwesenheit oder einer Abwesenheit einer Spur.
Ein Verfahren umfasst Empfangen eines ersten Datensatzes, der eine erste Markierung und einen ersten Kontext aufweist, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Datensatzes, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Zuordnung, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
Bei weiteren Merkmalen umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
Bei weiteren Merkmalen umfassen der erste Datensatz und der zweite Datensatz jeweils eine Vielzahl von Einzelbildern.
Bei weiteren Merkmalen umfasst die Vielzahl von Einzelbildern, die dem ersten Datensatz entspricht, Einzelbilder, die durch zumindest eine einer nach vorne gerichteten Kamera oder der nach hinten gerichteten Kamera aufgenommen wurden.
Bei weiteren Merkmalen umfasst die Vielzahl von Einzelbildern, die dem zweiten Datensatz entspricht, generierte Einzelbilder, die als durch die andere von der nach vorne gerichteten Kamera und der nach hinten gerichteten Kamera aufgenommen dargestellt werden.
Bei weiteren Merkmalen entspricht die erste Markierung einer Perspektive der nach vorne gerichteten Kamera und entspricht die zweite Markierung einer Perspektive der nach hinten gerichteten Kamera.
Bei weiteren Merkmalen entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
Bei weiteren Merkmalen umfasst der erste Kontext zumindest eines von einer Anwesenheit oder einer Abwesenheit einer Spur.
Figurenliste

1 ist ein Diagramm eines beispielhaften Systems zum Trainieren eines kontradiktorischen Netzes.
2 ist ein Diagramm eines beispielhaften Servers innerhalb des Systems.
3 ist ein Diagramm eines beispielhaften tiefen neuronalen Netzes.
4 ist ein Diagramm eines beispielhaften kontradiktorischen Netzes.
5 und 6 sind Diagramme beispielhafter Datensätze und Zuordnungen zwischen den verschiedenen Datensätzen.
7 ist ein Ablaufdiagramm, das einen beispielhaften Prozess zum Generieren eines Datensatzes auf Grundlage einer Zuordnung, die durch ein tiefes neuronales Netz generiert wurde, veranschaulicht.

DETAILLIERTE BESCHREIBUNG
Die Domänenanpassung ist auf das Verallgemeinern eines Modells von einer Quelldomäne zu einer Zieldomäne gerichtet. Üblicherweise weist die Quelldomäne eine große Menge an Trainingsdaten auf, während Daten in der Zieldomäne spärlich sein können. Zum Beispiel kann die Verfügbarkeit von Fahrspurdaten von Rückfahrkameras aufgrund von Einschränkungen von Kameralieferanten, Umverdrahtungsproblemen, fehlenden relevanten Anwendungen und dergleichen eingeschränkt sein. Es kann jedoch eine Reihe von Datensätzen vorhanden sein, die Bilder von nach vorne gerichteten Kameras beinhalten, die Spuren beinhalten.
Wie hierin beschrieben, kann ein tiefes neuronales Netz verwendet werden, um eine Zuordnung zwischen Domänen zu erlernen, und es kann eine Teilzuordnung verwendet werden, um die verfügbaren Daten zum Trainieren in der Zieldomäne zu erhöhen. Eine Teilzuordnung kann einen unvollständigen Zyklus von Zuordnungen umfassen. Beispielsweise kann ein neuronales Netz verwendet werden, um eine Zuordnung zwischen einer Quelldomäne und einer Zieldomäne zu erlernen. In einigen Fällen ist ein gewünschter Datensatz in der Zieldomäne unter Umständen nicht verfügbar. In diesen Fällen kann das neuronale Netz eine Teilzuordnung verwenden, um Daten in der Zieldomäne zu generieren, wie in dieser Schrift ausführlicher beschrieben.
Wenngleich die vorliegende Offenbarung ein Fahrzeugsystem und einen Server beschreibt, versteht es sich, dass ein beliebiges geeignetes Computersystem verwendet werden kann, um die Methoden und/oder die Funktion des in dieser Schrift beschriebenen kontradiktorischen neuronalen Netzes durchzuführen.
1 ist ein Blockdiagramm eines beispielhaften Fahrzeugsystems 100. Das System 100 beinhaltet ein Fahrzeug 105, bei dem es sich um ein Landfahrzeug handelt, wie etwa ein Auto, einen Lastwagen usw. Das Fahrzeug 105 beinhaltet einen Computer 110, Fahrzeugsensoren 115, Aktoren 120, um verschiedene Fahrzeugkomponenten 125 zu betätigen, und ein Fahrzeugkommunikationsmodul 130. Über ein Netz 135 ermöglicht es das Kommunikationsmodul 130 dem Computer 110, mit einem Server 145 zu kommunizieren.
Der Computer 110 beinhaltet einen Prozessor und einen Speicher. Der Speicher beinhaltet eine oder mehrere Formen von computerlesbaren Medien und speichert Anweisungen, die durch den Computer 110 zum Durchführen verschiedener Vorgänge, einschließlich der in dieser Schrift offenbarten, ausgeführt werden können.
Der Computer 110 kann ein Fahrzeug 105 in einem autonomen, einem teilautonomen oder einem nichtautonomen (manuellen) Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als einer definiert, bei dem jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 105 durch den Computer 110 gesteuert wird, in einem halbautonomen Modus steuert der Computer 110 eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs 105; in einem nichtautonomen Modus steuert ein menschlicher Fahrzeugführer jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 105.
Der Computer 110 kann eine Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Steuerung der Beschleunigung des Fahrzeugs durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenken, Steuerung der Klimaanlage, Innen- und/oder Außenbeleuchtung usw. des Fahrzeugs 105 zu betreiben, sowie um zu bestimmen, ob und wann der Computer 110 solche Vorgänge anstelle eines menschlichen Fahrzeugführers steuern soll. Des Weiteren kann der Computer 110 programmiert sein, um zu bestimmen, ob und wann ein menschlicher Fahrzeugführer derartige Vorgänge steuern soll.
Der Computer 110 kann mehr als einen Prozessor, die z.B. in elektronischen Steuereinheiten (electronic controller units - ECUs) oder dergleichen eingeschlossen sind, die in dem Fahrzeug 105 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten 125, z. B. einer Antriebsstrangsteuerung, einer Bremssteuerung, einer Lenkungssteuerung usw., eingeschlossen sind, beinhalten oder kommunikativ an diese gekoppelt sein, z. B. über ein Kommunikationsmodul 130 des Fahrzeugs 105, wie nachfolgend ausführlicher beschrieben. Ferner kann der Computer 110 über das Kommunikationsmodul 130 des Fahrzeugs 105 mit einem Navigationssystem kommunizieren, welches das globale Positionsbestimmungssystem (GPS) verwendet. Als ein Beispiel kann der Computer 110 Standortdaten des Fahrzeugs 105 anfordern und empfangen. Die Standortdaten können in einer bekannten Form vorliegen, z. B. Geokoordinaten (Breiten- und Längskoordinaten) .
Der Computer 210 ist im Allgemeinen für Kommunikationen über das Kommunikationsmodul 230 des Fahrzeugs 105 und zudem mithilfe eines internen drahtgebundenen und/oder drahtlosen Netzes des Fahrzeugs 105 angeordnet, z. B. einem Bus oder dergleichen in dem Fahrzeug 105, wie etwa einem Controller Area Network (CAN) oder dergleichen, und/oder anderen drahtgebundenen und/oder drahtlosen Mechanismen.
Über das Kommunikationsnetz des Fahrzeugs 105 kann der Computer 110 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug 105 übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. von Fahrzeugsensoren 115, Aktoren 120, Fahrzeugkomponenten 125, einer Mensch-Maschine-Schnittstelle (human machine interface - HMI) usw. Alternativ oder zusätzlich kann das Kommunikationsnetz des Fahrzeugs 105 in Fällen, in denen der Computer 110 tatsächlich eine Vielzahl von Vorrichtungen umfasst, für Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als der Computer 110 dargestellt sind. Ferner können, wie nachfolgend erwähnt, verschiedene Steuerungen und/oder Fahrzeugsensoren 115 Daten an dem Computer 110 bereitstellen.
Die Fahrzeugsensoren 115 können eine Vielfalt von Vorrichtungen einschießen, die bekanntermaßen Daten an dem Computer 110 bereitstellen. Beispielsweise können die Fahrzeugsensoren 115 (einen) Light-Detection-and-Ranging-Sensor(en) (LIDAR-Sensor(en)) 115 usw. einschließen, der/die auf einer Oberseite des Fahrzeugs 105, hinter einer Windschutzscheibe des Fahrzeugs 105, um das Fahrzeug 105 herum usw. angeordnet ist/sind und diesbezügliche Standorte, Größen und Formen von Objekten und/oder Verhältnissen bereitstellen, die das Fahrzeug 105 umgeben. Als ein weiteres Beispiel können ein oder mehrere Radarsensoren 115, der/die an Stoßfängern des Fahrzeugs 105 befestigt ist/sind, Daten bereitstellen, um die Geschwindigkeit von Objekten (möglicherweise einschließlich zweiter Fahrzeuge 106) usw. in Bezug auf den Standort des Fahrzeugs 105 bereitzustellen und zu klassifizieren. Die Fahrzeugsensoren 115 können ferner (einen) Kamerasensor(en) 115 einschließen, der/die z. B. nach vorne, zur Seite, nach hinten usw. gerichtet ist/sind und der/die Bilder von einem Sichtfeld innerhalb und/oder außerhalb des Fahrzeugs 105 bereitstellt/bereitstellen.
Die Aktoren 120 des Fahrzeugs 105 sind über Schaltungen, Chips, Motoren oder andere elektronische und/oder mechanische Komponenten umgesetzt, die unterschiedliche Fahrzeugteilsysteme gemäß geeigneten Steuersignalen, wie bekannt, ansteuern können. Die Aktoren 120 können verwendet werden, um Komponente 125, einschließlich Bremsung, Beschleunigung und Lenkung eines Fahrzeugs 105, zu steuern.
Im Zusammenhang mit der vorliegenden Offenbarung handelt es sich bei einer Fahrzeugkomponente 125 um eine oder mehrere Hardwarekomponenten, die ausgebildet sind, um eine(n) mechanische(n) oder elektromechanische(n) Funktion oder Vorgang durchzuführen - wie etwa das Fahrzeug 105 bewegen, das Fahrzeug 105 abbremsen oder anhalten, das Fahrzeug 105 lenken usw. Nicht einschränkende Beispiele für Komponenten 125 schließen Folgendes ein: eine Antriebskomponente (die z. B. eine Brennkraftmaschine und/oder einen Elektromotor usw. beinhaltet), eine Getriebekomponente, eine Lenkkomponente (die z. B. eines oder mehrere von einem Lenkrad, einer Zahnstange usw. beinhalten kann), eine Bremskomponente (wie nachfolgend beschrieben), eine Einparkhilfekomponente, eine Komponente für adaptive Geschwindigkeitsregelung, eine Komponente zum adaptiven Lenken, einen beweglichen Sitz usw.
Des Weiteren kann der Computer 110 konfiguriert sein, um über ein(e) Fahrzeug-zu-Fahrzeug-Kommunikationsmodul oder -Schnittstelle 130 mit Vorrichtungen außerhalb des Fahrzeugs 105 zu kommunizieren, z. B. über drahtlose Kommunikationen von Fahrzeug-zu-Fahrzeug (vehicle-to-vehicle - V2V) oder von Fahrzeug-zu-Infrastruktur (vehicle-toinfrastructure - V2X) mit einem anderen Fahrzeug, (üblicherweise über das Netz 135) mit einem Remote-Server 145. Das Modul 130 könne einen Mechanismus oder mehrere Mechanismen beinhalten, durch die der Computer 110 kommunizieren kann, einschließlich einer beliebigen gewünschten Kombination aus drahtlosen (z. B. Mobilfunk-, Drahtlos-, Satelliten-, Mikrowellen- und Hochfrequenz-)Kommunikationsmechanismen und einer beliebigen gewünschten Netztopologie (oder Netztopologien, wenn eine Vielzahl von Kommunikationsmechanismen genutzt wird). Beispielhafte über das Modul 130 bereitgestellte Kommunikationen beinhalten Mobilfunk, Bluetooth®, IEEE 802.11, dedizierte Nahbereichskommunikation (dedicated short range communication - DSRC) und/oder Weitverkehrsnetze (wide area networks - WAN), einschließlich des Internets, die Datenkommunikationsdienste bereitstellen.
Das Netz 135 kann einer oder mehrere von verschiedenen drahtgebundenen oder drahtlosen Kommunikationsmechanismen sein, einschließlich jeder gewünschten Kombination aus drahtgebundenen (z. B. Kabel- und Glasfaser-) und/oder drahtlosen (z. B. Mobilfunk-, Drahtlos-, Satelliten-, Mikrowellen- und Hochfrequenz-) Kommunikationsmechanismen und jeder gewünschten Netztopologie (oder -topologien, wenn mehrere Kommunikationsmechanismen genutzt werden). Zu beispielhaften Kommunikationsnetzen gehören drahtlose Kommunikationsnetze (z. B. unter Verwendung von Bluetooth, Bluetooth Low Energy (BLE), IEEE 802.11, Fahrzeug-zu-Fahrzeug (vehicle-to-vehicle - V2V), wie etwa Nahbereichskommunikation (dedicated short range communication - DSRC) usw.), lokale Netze (local area network - LAN) und/oder Weitverkehrsnetze (wide area network - WAN), einschließlich des Internets, die Datenkommunikationsdienste bereitstellen.
Ein Computer 110 kann im Wesentlichen kontinuierlich, regelmäßig und/oder wenn durch einen Server 145 angewiesen usw. Daten von den Sensoren 115 empfangen und analysieren. Ferner können Klassifizierungs- oder Identifizierungstechniken verwendet werden, z. B. in einem Computer 110 basierend auf Daten von einem LIDAR-Sensor 115, einem Kamerasensor 115 usw., um eine Objektart, z. B. ein Fahrzeug, eine Person, einen Stein, ein Schlagloch, ein Fahrrad, ein Motorrad usw., sowie physische Merkmale von Objekten zu identifizieren.
2 ist ein Blockdiagramm eines beispielhaften Servers 145. Der Server 145 beinhaltet einen Computer 235 und ein Kommunikationsmodul 240. Der Computer 235 beinhaltet einen Prozessor und einen Speicher. Der Speicher beinhaltet eine oder mehrere Formen computerlesbarer Medien und speichert Anweisungen, die durch den Computer 235 zum Durchführen verschiedener Vorgänge, einschließlich der in dieser Schrift offenbarten, ausgeführt werden können. Das Kommunikationsmodul 240 ermöglicht es dem Computer 235, mit anderen Vorrichtungen, wie etwa dem Fahrzeug 105, zu kommunizieren.
3 ist ein Diagramm eines beispielhaften tiefen neuronalen Netzes (deep neural network - DNN) 300, das in dieser Schrift verwendet werden kann. Das DNN 300 beinhaltet mehrere Knoten 305 und die Knoten 305 sind derart angeordnet, dass das DNN 300 eine Eingabeschicht, eine oder mehrere verborgene Schichten und eine Ausgabeschicht beinhaltet. Jede Schicht des DNN 300 kann eine Vielzahl von Knoten 305 beinhalten. Während 3 drei (3) verborgene Schichten veranschaulicht, versteht es sich, dass das DNN 300 zusätzliche oder weniger verborgene Schichten beinhalten kann. Die Eingabe- und Ausgabeschichte können auch mehr als einen (1) Knoten 305 beinhalten.
Die Knoten 305 werden gelegentlich als künstliche Neuronen 305 bezeichnet, da sie dazu ausgebildet sind, biologische, z. B. menschliche, Neuronen zu emulieren. Ein Satz von Eingaben (durch die Pfeile dargestellt) an jedem Neuron 305 wird jeweils mit den entsprechenden Gewichtungen multipliziert. Die gewichteten Eingaben können dann in einer Eingabefunktion summiert werden, um eine Nettoeingabe bereitzustellen, die möglicherweise um einen Bias angepasst ist. Die Nettoeingabe kann dann an der Aktivierungsfunktion bereitgestellt werden, die wiederum eine Ausgabe an einem verbundenen Neuron 305 bereitstellt. Bei der Aktivierungsfunktion kann es sich um eine Vielfalt von geeigneten Funktionen handeln, die üblicherweise auf Grundlage einer empirischen Analyse ausgewählt werden. Wie durch die Pfeile in 3 veranschaulicht, können die Ausgaben des Neurons 305 dann zur Aufnahme in einen Satz von Eingaben für ein oder mehrere Neuronen 305 in einer nächsten Schicht bereitgestellt werden.
Das DNN 300 kann dazu trainiert werden, Daten als Eingabe anzunehmen und eine Ausgabe auf Grundlage der Eingabe zu generieren. Das DNN 300 kann mit Ground-Truth-Daten trainiert werden, d. h. Daten über eine(n) reale(n) Bedingung oder Zustand. Beispielsweise kann das DNN 300 durch einen Prozessor mit Ground-Truth-Daten trainiert oder mit zusätzlichen Daten aktualisiert werden. Die Gewichtungen können zum Beispiel unter Verwendung einer Gauß-Verteilung initialisiert werden und eine Verzerrung für jeden Knoten 305 kann auf null gesetzt werden. Das Trainieren des DNN 300 kann Aktualisieren von Gewichtungen und einem Bias durch geeignete Techniken beinhalten, wie etwa eine Rückpropagierung mit Optimierungen. Ground-Truth-Daten können unter anderem Daten, die Objekte innerhalb eines Bildes vorgeben, oder Daten einschließen, die einen physikalischen Parameter, z. B. einen Winkel, eine Geschwindigkeit, eine Entfernung oder einen Winkel eines Objekts bezogen auf ein anderes Objekt, vorgeben. Beispielsweise kann es sich bei den Ground-Truth-Daten um Daten handeln, die Objekte und Objektmarkierungen darstellen.
4 ist ein Diagramm eines beispielhaften kontradiktorischen neuronalen Netzes 400, das verwendet wird, um Daten auf Grundlage von im Allgemeinen verwandten Datensätzen zu generieren. Während die vorliegende Offenbarung ein kontradiktorisches neuronales Netz beschreibt, versteht es sich, dass die anderen tiefen neuronalen Netze verwendet werden können, um Daten auf Grundlage von im Allgemeinen verwandten Datensätzen zu erzeugen. Ein kontradiktorisches neuronales Netz 400 kann ein Softwareprogramm sein, das in einen Speicher geladen und durch einen Prozessor zum Beispiel in dem Fahrzeug 105 und/oder auf dem Server 145 ausgeführt werden kann. Wie gezeigt, beinhaltet das neuronale kontradiktorische Netz 400 einen Generierer 405 und einen Diskriminator 410. Der Generierer 405 und/oder der Diskriminator 410 können ein DNN 300 umfassen. Im vorliegenden Kontext umfassen der Generierer 405 und der Diskriminator 410 ein generatives kontradiktorisches Netz (generative adversarial network - GAN). Das GAN ist ein tiefes neuronales Netz, das eine Klasse von Algorithmen mit künstlicher Intelligenz einsetzt, die beim maschinellen Lernen verwendet werden und durch ein System von zwei neuronalen Netzen umgesetzt werden, die in einem kontradiktorischen Nullsummenspielrahmen miteinander in Konkurrenz stehen.
In einer beispielhaften Umsetzung empfängt der Generierer 405 Eingabedaten, die nachfolgend ausführlicher beschrieben sind. Die Eingabedaten können natürliche Sprache, Bilder oder dergleichen umfassen. Der Generierer 405 generiert synthetische Daten auf Grundlage der empfangenen Eingabedaten. Wenn es sich bei den Eingabedaten zum Beispiel um ein Bild handelt, kann das synthetische Bild eine Bild-zu-Bild-Übersetzung des Bildes sein, z. B. wird das Eingabebild von einer Domäne (Nacht) in eine andere Domäne (Tag) übersetzt.
Der Diskriminator 410 ist konfiguriert, um Daten zu empfangen, die empfangenen Daten auszuwerten und eine Vorhersage zu generieren, die angibt, ob das empfangene Bild durch den Generierer 405 maschinell generiert wurde oder aus einer realen Datenverteilung stammt. Der Diskriminator 410 empfängt durch den Generierer 405 generierte synthetische Daten und Daten aus einer realen Datenverteilung während des Trainings, sodass der Diskriminator 410 zwischen synthetischen Daten und Daten aus einer realen Datenverteilung unterscheiden kann. In einer oder mehreren Umsetzungen kann der Diskriminator 410 ein neuronales Faltungsnetz umfassen. Es versteht sich jedoch, dass andere neuronale Netze gemäß der vorliegenden Offenbarung verwendet werden können.
Das Training des Generierers 405 kann bestärkendes Lernen verwenden, um das generative Modell zu trainieren. Bei bestärkendem Lernen handelt es sich um eine Art von dynamischer Programmierung, die Algorithmen unter Verwendung eines Belohnungs- und Bestrafungssystems trainiert. Ein Algorithmus für bestärkendes Lernen oder Agent für bestärkendes Lernen lernt durch Interaktion mit seiner Umgebung. Der Agent erhält Belohnungen durch korrektes Verhalten und Strafen für falsches Verhalten. Zum Beispiel lernt der Agent zum bestärkenden Lernen durch Maximieren der Belohnung und Minimieren der Bestrafung ohne Eingreifen eines Menschen.
Wie in 4 gezeigt, wird dem Generierer 405 eine durch den Diskriminator 410 generierte Vorhersage bereitgestellt. Der Generierer 405 kann die Vorhersage verwenden, um eine oder mehrere Gewichtungen des Generierers 405 zu modifizieren, d. h. zu aktualisieren, um die Vorhersagen zu minimieren, die angeben, dass die synthetischen Daten als synthetisch, d. h. als falsch, klassifiziert sind. Beispielsweise kann der Generierer 405 eine oder mehrere Gewichtungen in dem Generierer 405 unter Verwendung von Rückpropagierung oder dergleichen aktualisieren.
Der Diskriminator 410 kann außerdem auf Grundlage der Vorhersage aktualisiert werden. Wenn zum Beispiel die Vorhersage angibt, dass die generierten synthetischen Daten aus einer realen Datenverteilung stammen, kann der Diskriminator 410 eine Rückmeldung empfangen, die angibt, dass die Daten synthetische Daten sind. Auf Grundlage der Rückmeldung können eine oder mehrere Gewichtungen des Generierers 405 aktualisiert werden, um falsche Vorhersagen zu minimieren. Durch den Trainingsprozess kann der Generierer 405 die Qualität der synthetischen Daten verbessern, z.B. realistischere synthetische Daten generieren, und kann der Diskriminator 410 die Identifizierung von Nuancen und Eigenschaften von synthetisch generieren Daten verbessern.
Innerhalb der vorliegenden Offenbarung kann/können das/die DNN(s) 300, wie etwa das kontradiktorische neuronale Netz 400, mit Datensätzen trainiert werden, die einen Satz unterschiedlicher Markierungen des gleichen Kontextes aufweisen, um eine Zuordnung zu generieren, z. B. zu erlernen. Im hier verwendeten Sinne entspricht das Generieren, z. B. das Erlernen, von Zuordnungen den aktualisierten Gewichtungen in dem einen oder der mehreren DNN(s) 300 als Ergebnis des Trainings des/der DNN(s) 300. Des Weiteren können sich Markierungen auf eine Datenperspektive, z. B. eine Bildperspektive, beziehen und kann sich der Kontext auf eine Umgebung, z. B. beleuchtet oder unbeleuchtet, beziehen, in der die Daten dargestellt werden.
5 veranschaulicht beispielhafte Datensätze und Zuordnungen M1, M2, M3 und M4 zwischen den Datensätzen. Wie gezeigt, beinhaltet der Datensatz von Quelle A entsprechende Einzelbilder einer nach vorne gerichteten Kamera (forward-looking camera-FLC) und entsprechende Einzelbilder einer Rückfahrkamera (backup-camera - BC) und beinhaltet der Datensatz von Quelle B entsprechende FLC-Einzelbilder und entsprechende BC-Einzelbilder. Beispielsweise umfassen FLC-Einzelbilder eine erste Markierung und umfassen BC-Einzelbilder eine zweite Markierung.
Die Quellen A und B können einen Kontext oder eine Umgebung darstellen, der/die den Daten entspricht, wie etwa Bilder, die in einer beleuchteten Umgebung, z. B. bei Tagesbedingungen (D), oder Bilder, die in einer unbeleuchteten Umgebung, z. B. bei Nachtbedingungen (N), aufgenommen wurden. Der Kontext kann außerdem eine Anwesenheit oder eine Abwesenheit einer Spur umfassen. Somit können durch Verwendung dieser Kontexte vier eindeutige Situationen erzeugt werden - FLC-N, FLC-D, BC-N und BC-D. Wenn ein bestimmter Datensatz fehlt, wie etwa BC-D, kann/können das/die DNN(s) 300 die Darstellung erlernen, um FLC-N FLC-D zuzuordnen, und dies anwenden, um BC-N BC-D zuordnen. Gleichermaßen kann/können das/die DNN(s) 300 lernen, FLC-N BC-N zuzuordnen, und dies anwenden, um FLC-D BC-D zuzuordnen.
Die Zuordnungen M1, M2, M3 und M4 können während des Trainings des/der DNN(s) 300 generiert werden. Wie gezeigt, werden die Zuordnungen unter Verwendung von Pfeilspitzen und den Buchstaben „R“ und „F“ bezeichnet. In einem Beispiel kann ein FLC-Einzelbild von Quelle A an dem/den trainierten DNN(s) 300 bereitgestellt werden, sodass das/die DNN(s) 300 ein synthetisches Bild generieren kann/können, das einem BC-Einzelbild entspricht, das der Quelle B entspricht. Das/die DNN(s) 300 kann die Zuordnungen M1F und M4F oder Zuordnungen M3F und M2F auf zyklische Weise verwenden, um das BC-Einzelbild zu generieren. In einem weiteren Beispiel kann ein FLC-Einzelbild von Quelle B verwendet werden, um ein FLC-Einzelbild, das Quelle A entspricht, unter Verwendung der Zuordnung M1R oder der Zuordnung M4F, M2R und M3R zu generieren.
Wie in 6 gezeigt, ist ein Datensatz von einer bestimmten Quelle unter Umständen nicht verfügbar. In diesem Beispiel sind die BC-Einzelbilder aus Quelle B nicht verfügbar. Somit sind keine Zuordnungen, die M2 und M4 entsprechen, verfügbar. In diesem Fall ist/sind das/die DNN(s) 300 konfiguriert, um die Teilzuordnung M1 anstelle von M2 und die Zuordnung M3 anstelle von M4 zu verwenden. Somit ist/sind das/die DNN(s) 300 während des Trainings konfiguriert, um Zuordnungen unter Verwendung von Daten zu erlernen, die unterschiedliche Markierungen des gleichen Kontextes aufweisen, und/oder um Zuordnungen unter Verwendung von Daten zu erlernen, die unterschiedliche Kontexte der gleichen Markierung aufweisen. Die erlernten Zuordnungen können verwendet werden, um synthetische Daten zu generieren, welche die gleiche Markierung, jedoch einen anderen Kontext aufweisen, oder umgekehrt Beispielsweise erlernt/erlernen das/die DNN(s) 300 die Zuordnung zwischen Daten, die einen Satz unterschiedlicher Markierungen des gleichen Kontextes aufweisen, und wendet/wenden das/die DNN(s) 300 diese Zuordnung an, um Daten mit den gleichen Markierungen mit einem gewünschten Kontext zu generieren, z. B. umzuwandeln.
In einer oder mehreren Umsetzungen kann/können das/die DNN(s) 300 zunächst trainiert werden, um eine Vielzahl von Zuordnungen getrennt zu erhalten, wie etwa das getrennte Erhalten von M1 und M3. Das/die DNN(s) 300 kann dann trainiert werden, um M1 und M3 gemeinsam zu erhalten. Die Zuordnungen für M2 und M4 können dann auf Grundlage von M1 und M3 initialisiert werden.
In einigen Umsetzungen kann/können das/die DNN(s) 300 einen Verlust in seiner Kostenfunktion auf Grundlage eines rekonstruierten Datensatzes einschließen. Unter erneuter Bezugnahme auf 6 kann zum Beispiel ein FLC-Einzelbild von Quelle A unter Verwendung eines BC-Einzelbildes von Quelle A unter Verwendung von Zuordnung M3R konstruiert werden. Das rekonstruierte FLC-Einzelbild kann mit der Ground Truth des FLC-Einzelbildes verglichen werden und der Verlust auf Grundlage des Vergleichs kann in die Kostenfunktion des/der DNN(n) 300 eingeschlossen werden.
7 ist ein Ablaufdiagramm eines beispielhaften Prozesses 700 zum Generieren von Daten innerhalb einer anderen Domäne. Beispielsweise generiert ein trainiertes DNN 300, wie etwa ein trainierter Generierer 405, einen Datensatz, der eine erste Markierung und einen zweiten Kontext aufweist. Das trainierte DNN 400 verwendet vorangehend erlernte Zuordnungen, die Daten, die eine erste Markierung und einen ersten Kontext aufweisen, Daten zuordnen, die eine zweite Markierung und den zweiten Kontext aufweisen.
Blöcke des Prozesses 700 können durch den Computer 110 oder den Computer 235 ausgeführt werden. Der Prozess 700 beginnt bei Block 705, bei dem eine Bestimmung erfolgt, ob Daten empfangen wurden, die eine erste Markierung aufweisen. Wenn keine Daten empfangen werden, kehrt der Prozess 700 zu Block 705 zurück. Andernfalls werden die Daten bei Block 710 auf Grundlage der ersten Markierung und/oder des gewünschten Kontextes an einem oder mehreren DNNs 300 bereitgestellt. Der gewünschte Kontext bezieht sich auf die Datendomäne, für die das/die DNN(s) 300 Daten generieren soll/en. Die Computer 110 oder 235 stellen Daten an dem DNN 300, das trainiert wurde, bereit, um Daten in der gewünschten Domäne zu generieren. Bei Block 715 generiert das DNN 300 Daten in der gewünschten Domäne, z. B. in dem gewünschten Kontext, auf Grundlage der Zuordnung. Wie vorangehend erörtert, ist die Zuordnung unter Umständen nicht verfügbar, um Daten in der gewünschten Domäne, z. B. in dem gewünschten Kontext, zu generieren, da in diesem Kontext begrenzte/keine Daten vorhanden sind.
Im Allgemeinen können die beschriebenen Rechensysteme und/oder -vorrichtungen ein beliebiges aus einer Reihe von Computerbetriebssystemen einsetzen, einschließlich unter anderem Versionen und/oder Varianten der Anwendung Ford Sync®, der Middleware AppLink/Smart Device Link, des Betriebssystems Microsoft Automotive®, des Betriebssystems Microsoft Windows®, des Betriebssystems Unix (z. B. des Betriebssystems Solaris®, vertrieben durch die Oracle Corporation in Redwood Shores, Kalifornien), des Betriebssystems AIX UNIX, vertrieben durch International Business Machines in Armonk, New York, des Betriebssystems Linux, der Betriebssysteme Mac OSX und iOS, vertrieben durch die Apple Inc. in Cupertino, Kalifornien, des BlackBerry OS, vertrieben durch die Blackberry, Ltd. in Waterloo, Kanada, und des Betriebssystems Android, entwickelt durch die Google, Inc. und die Open Handset Alliance, oder QNX® CAR Platform for Infotainment, angeboten durch QNX Software Systems. Beispiele für Rechenvorrichtungen schließen unter anderem Folgendes ein: einen Fahrzeugbordcomputer, einen Computerarbeitsplatz, einen Server, einen Desktop-, Notebook-, Laptop- oder Handheld-Computer oder ein anderes Rechensystem und/oder eine andere Rechenvorrichtung.
Computer und Rechenvorrichtungen beinhalten im Allgemeinen computerausführbare Anweisungen, wobei die Anweisungen durch eine oder mehrere Rechenvorrichtungen ausgeführt werden können, wie etwa durch die vorangehend aufgeführten. Computerausführbare Anweisungen können von Computerprogrammen zusammengestellt oder ausgewertet werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -technologien erstellt werden, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Matlab, Simulink, Stateflow, Visual Basic, Java Script, Perl, HTML usw. Einige dieser Anwendungen können auf einer virtuellen Maschine zusammengestellt und ausgeführt werden, wie etwa der Java Virtual Machine, der Dalvik Virtual Machine oder dergleichen. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, einschließlich eines oder mehrerer der in dieser Schrift beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung einer Vielfalt von computerlesbaren Medien gespeichert und übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind.
Ein Speicher kann ein computerlesbares Medium (auch als prozessorlesbares Medium bezeichnet) beinhalten, das ein beliebiges nichttransitorisches (z. B. materielles) Medium einschließt, das am Bereitstellen von Daten (z. B. Anweisungen) beteiligt ist, die durch einen Computer (z. B. durch einen Prozessor eines Computers) ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die nichtflüchtige Medien und flüchtige Medien beinhalten, ohne darauf beschränkt zu sein. Zu nichtflüchtigen Medien können zum Beispiel Bild- und Magnetplatten und sonstige dauerhafte Speicher gehören. Flüchtige Medien können zum Beispiel dynamischen Direktzugriffsspeicher (dynamic random-access memory - DRAM) beinhalten, der üblicherweise einen Hauptspeicher darstellt. Derartige Anweisungen können durch ein Übertragungsmedium oder mehrere Übertragungsmedien übertragen werden, darunter Koaxialkabel, Kupferdraht und Glasfaser, einschließlich der Drähte, die einen an einen Prozessor einer ECU gekoppelten Systembus umfassen. Übliche Formen computerlesbarer Medien schließen zum Beispiel Folgendes ein: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
Datenbanken, Datendepots oder andere Datenspeicher, die in dieser Schrift beschrieben sind, können verschiedene Arten von Mechanismen zum Speichern von, Zugreifen auf und Abrufen von verschiedenen Arten von Daten beinhalten, einschließlich einer hierarchischen Datenbank, eines Satzes von Dateien in einem Dateisystem, einer Anwendungsdatenbank in einem anwendereigenen Format, eines relationalen Datenbankverwaltungssystems (relational database management system - RDBMS) usw. Jeder derartige Datenspeicher ist im Allgemeinen in einer Rechenvorrichtung eingeschlossen, die ein Computerbetriebssystem einsetzt, wie etwa eines der vorangehend erwähnten, und es wird auf eine oder mehrere von vielfältigen Weisen über ein Netz darauf zugegriffen. Auf ein Dateisystem kann von einem Computerbetriebssystem zugegriffen werden und es kann in verschiedenen Formaten gespeicherte Dateien beinhalten. Ein RDBMS setzt im Allgemeinen die Structured Query Language (SQL) zusätzlich zu einer Sprache zum Erzeugen, Speichern, Editieren und Ausführen gespeicherter Prozeduren ein, wie etwa die vorangehend erwähnte PL/SQL-Sprache.
In einigen Beispielen können Systemelemente als computerlesbare Anweisungen (z. B. Software) auf einer oder mehreren Rechenvorrichtungen (z. B. Servern, PCs usw.) umgesetzt sein, die auf computerlesbaren Medien gespeichert sind (z. B. Platten, Speicher usw.), die den Rechenvorrichtungen zugeordnet sind. Ein Computerprogrammprodukt kann derartige auf computerlesbaren Medien gespeicherte Anweisungen zum Ausführen der in dieser Schrift beschriebenen Funktionen umfassen.
Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren, Heuristiken usw. versteht es sich, dass, auch wenn die Schritte derartiger Prozesse usw. als gemäß einer bestimmten Reihenfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden können, dass die beschriebenen Schritte in einer Reihenfolge durchgeführt werden, die von der in dieser Schrift beschriebenen Reihenfolge verschieden ist. Es versteht sich ferner, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse in dieser Schrift beschriebene Schritte weggelassen werden können. Anders ausgedrückt dienen die Beschreibungen von Prozessen in dieser Schrift dem Zwecke der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die Patentansprüche einschränken.
Dementsprechend versteht es sich, dass die vorangehende Beschreibung veranschaulichend und nicht einschränkend sein soll. Viele Ausführungsformen und Anwendungen, bei denen es sich nicht um die bereitgestellten Beispiele handelt, werden dem Fachmann beim Lesen der vorangehenden Beschreibung ersichtlich. Der Umfang der Erfindung sollte nicht unter Bezugnahme auf die vorangehende Beschreibung festgelegt werden, sondern stattdessen unter Bezugnahme auf die beigefügten Ansprüche in Zusammenhang mit dem vollständigen Umfang von Äquivalenten, zu denen solche Ansprüche berechtigen. Es ist davon auszugehen und beabsichtigt, dass es zukünftige Entwicklungen im in dieser Schrift erörterten Stand der Technik geben wird und dass die offenbarten Systeme und Verfahren in derartige zukünftige Ausführungsformen aufgenommen werden. Insgesamt versteht es sich, dass die Erfindung modifiziert und variiert werden kann und lediglich durch die folgenden Patentansprüche eingeschränkt ist.
Alle in den Patentansprüchen verwendeten Ausdrücke sollen ihre klare und gewöhnliche Bedeutung aufweisen, wie sie von einem Fachmann verstanden wird, sofern in dieser Schrift nicht ausdrücklich das Gegenteil angegeben wird. Insbesondere ist die Verwendung der Singularartikel, wie etwa „ein“, „eine“, „der“, „die“, „das“ usw., dahingehend auszulegen, dass ein oder mehrere der aufgeführten Elemente genannt werden, sofern ein Anspruch nicht eine ausdrückliche gegenteilige Einschränkung enthält.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das einen Computer aufweist, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Datensatzes, der eine erste Markierung und einen ersten Kontext aufweist, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Datensatzes, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Vielzahl von Zuordnungen, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
Gemäß einer Ausführungsform umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
Gemäß einer Ausführungsform umfassen der erste Datensatz und der zweite Datensatz jeweils eine Vielzahl von Einzelbildern.
Gemäß einer Ausführungsform umfasst die Vielzahl von Einzelbildern, die dem ersten Datensatz entspricht, Einzelbilder, die durch zumindest eine einer nach vorne gerichteten Kamera oder der nach hinten gerichteten Kamera aufgenommen wurden.
Gemäß einer Ausführungsform umfasst die Vielzahl von Einzelbildern, die dem zweiten Datensatz entspricht, generierte Einzelbilder, die als durch die andere von der nach vorne gerichteten Kamera und der nach hinten gerichteten Kamera aufgenommen dargestellt werden.
Gemäß einer Ausführungsform entspricht die erste Markierung einer Perspektive der nach vorne gerichteten Kamera und entspricht die zweite Markierung einer Perspektive der nach hinten gerichteten Kamera.
Gemäß einer Ausführungsform entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
Gemäß einer vorliegenden Erfindung ist ein System bereitgestellt, dass einen Computer aufweist, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Bildes, das eine erste Markierung, die eine Perspektive des ersten Bildes darstellt, und einen ersten Kontext aufweist, der eine Umgebung des ersten Bildes darstellt, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Bildes, das die erste Markierung und einen zweiten Kontext aufweist, der eine Umgebung des zweiten Bildes darstellt, durch eine Vielzahl von Zuordnungen des trainierten neuronales Netzes, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
Gemäß einer Ausführungsform umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
Gemäß einer Ausführungsform umfasst das zweite Bild ein generiertes Bild, das zumindest eines von einer Perspektive einer nach vorne gerichteten Kamera oder einer nach hinten gerichteten Kamera aufweist.
Gemäß einer Ausführungsform entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
Gemäß einer Ausführungsform umfasst der erste Kontext zumindest eines von einer Anwesenheit oder einer Abwesenheit einer Spur.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Empfangen eines ersten Datensatzes, der eine erste Markierung und einen ersten Kontext aufweist, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Datensatzes, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Vielzahl von Zuordnungen, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
In einem Aspekt der Erfindung umfasst das trainierte tiefe neuronale Netz einen Generierer, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
In einem Aspekt der Erfindung umfassen der erste Datensatz und der zweite Datensatz jeweils eine Vielzahl von Einzelbildern.
In einem Aspekt der Erfindung umfasst die Vielzahl von Einzelbildern, die dem ersten Datensatz entspricht, Einzelbilder, die durch zumindest eine einer nach vorne gerichteten Kamera oder der nach hinten gerichteten Kamera aufgenommen wurden.
In einem Aspekt der Erfindung umfasst die Vielzahl von Einzelbildern, die dem zweiten Datensatz entspricht, generierte Einzelbilder, die als durch die andere von der nach vorne gerichteten Kamera und der nach hinten gerichteten Kamera aufgenommen dargestellt werden.
In einem Aspekt der Erfindung entspricht die erste Markierung einer Perspektive der nach vorne gerichteten Kamera und entspricht die zweite Markierung einer Perspektive der nach hinten gerichteten Kamera.
In einem Aspekt der Erfindung entspricht der erste Kontext einer beleuchteten Umgebung und entspricht der zweite Kontext einer unbeleuchteten Umgebung.
In einem Aspekt der Erfindung umfasst der erste Kontext zumindest eines von einer Anwesenheit oder einer Abwesenheit einer Spur.

Claims

System, umfassend einen Computer, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Datensatzes, der eine erste Markierung und einen ersten Kontext aufweist, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Datensatzes, der die erste Markierung und einen zweiten Kontext aufweist, an dem trainierten tiefen neuronalen Netz gemäß einer Vielzahl von Zuordnungen, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
System nach Anspruch 1, wobei das trainierte tiefe neuronale Netz einen Generierer umfasst, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
System nach Anspruch 1, wobei der erste Datensatz und der zweite Datensatz jeweils eine Vielzahl von Einzelbildern umfassen.
System nach Anspruch 3, wobei die Vielzahl von Einzelbildern, die dem ersten Datensatz entspricht, Einzelbilder umfasst, die durch zumindest eine einer nach vorne gerichteten Kamera und einer nach hinten gerichteten Kamera aufgenommen wurden.
System nach Anspruch 4, wobei die Vielzahl von Einzelbildern, die dem zweiten Datensatz entspricht, generierte Einzelbilder umfasst, die als durch die andere von der nach vorne gerichteten Kamera und der nach hinten gerichteten Kamera aufgenommen dargestellt werden.
System nach Anspruch 5, wobei die erste Markierung einer Perspektive der nach vorne gerichteten Kamera entspricht und die zweite Markierung einer Perspektive der nach hinten gerichteten Kamera entspricht.
System nach Anspruch 6, wobei der erste Kontext einer beleuchteten Umgebung entspricht und der zweite Kontext einer unbeleuchteten Umgebung entspricht.
System, umfassend einen Computer, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher derartig Anweisungen beinhaltet, dass der Prozessor zu Folgendem programmiert ist: Empfangen eines ersten Bildes, das eine erste Markierung, die eine Perspektive des ersten Bildes darstellt, und einen ersten Kontext aufweist, der eine Umgebung des ersten Bildes darstellt, an einem trainierten tiefen neuronalen Netz; und Generieren eines zweiten Bildes, das die erste Markierung und einen zweiten Kontext aufweist, der eine Umgebung des zweiten Bildes darstellt, durch eine Vielzahl von Zuordnungen des tiefen neuronalen Netzes, wobei eine erste Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen neuronalen Netzes umfasst, das Daten, welche die erste Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche eine zweite Markierung und den ersten Kontext aufweisen, und eine zweite Zuordnung der Vielzahl von Zuordnungen eine oder mehrere Gewichtungen des trainierten tiefen Netzes umfasst, das Daten, welche eine zweite Markierung und den ersten Kontext aufweisen, Daten zuordnet, welche die zweite Markierung und den zweiten Kontext aufweisen, wobei sich der zweite Kontext von dem ersten Kontext unterscheidet und sich die zweite Markierung von der ersten Markierung unterscheidet.
System nach Anspruch 8, wobei das trainierte tiefe neuronale Netz einen Generierer umfasst, der in einem kontradiktorischen neuronalen Netz trainiert wurde.
System nach Anspruch 8, wobei das zweite Bild ein generiertes Bild umfasst, das zumindest eines von einer Perspektive einer nach vorne gerichteten Kamera oder einer nach hinten gerichteten Kamera aufweist.
System nach Anspruch 8, wobei der erste Kontext einer beleuchteten Umgebung entspricht und der zweite Kontext einer unbeleuchteten Umgebung entspricht.
System nach Anspruch 8, wobei der erste Kontext zumindest eines von einer Anwesenheit oder einer Abwesenheit einer Spur umfasst.