DE112018007236T5

DE112018007236T5 - Verfahren und vorrichtung zum erzeugen eines dreidimensionalen (3d) modells zur rekonstruktion einer 3d-szene

Info

Publication number: DE112018007236T5
Application number: DE112018007236.3T
Authority: DE
Inventors: Chong Yu; Yun Wang
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2020-12-24
Also published as: US11508120B2; US20200364928A1; WO2019169594A1

Abstract

Es werden Verfahren, eine Vorrichtung, Systeme und Herstellungsgegenstände zum Erzeugen eines dreidimensionalen (3D) Modells zur Rekonstruktion einer 3D-Szene offenbart. Eine Beispielvorrichtung weist einen 3D-Szenengenerator zum Erzeugen eines 3D-Modells zur Digitalbild-Szenenrekonstruktion basierend auf einem trainierten generativen Modell und einem digitalen Bild, das in einer realen Umgebung aufgenommen wurde, auf. Ein Bildsimulator dient dem Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht. Ein Diskriminator dient dem Anwenden eines diskriminativen Modells auf das simulierte Bild, um zu bestimmen, ob das simulierte Bild simuliert ist.

Description

GEBIET DER OFFENBARUNG
Diese Offenbarung betrifft im Allgemeinen maschinelles Sehen, und insbesondere Verfahren und eine Vorrichtung zum Erzeugen eines dreidimensionalen (3D) Modells zur Rekonstruktion einer 3D-Szene.
ALLGEMEINER STAND DER TECHNIK
In den vergangenen Jahren war die dreidimensionale (3D) Rekonstruktion ein Forschungsthema in der fortgeschrittenen Computergrafik und Computervision. Die 3D-Rekonstruktion ermöglicht das Erstellen von 3D-Modellen aus zweidimensionalen Bildern. Die 3D-Rekonstruktion bietet Vorteile auf vielen unterschiedlichen Gebieten, wie zum Beispiel Vermessung, Kartografie, medizinische Bildgebung, 3D-Druck, virtuelle Realität, Robotik usw.
Figurenliste

1 zeigt ein Beispielbild eines geografischen Standortes und ein simuliertes Bild, das in Übereinstimmung mit Lehren dieser Offenbarung konstruiert wurde.
2 ist ein Blockdiagramm, das einen Beispiel-3D-Modellersteller in Übereinstimmung mit Lehren dieser Offenbarung darstellt.
3 ist ein Flussdiagramm, das repräsentativ für maschinenlesbare Anweisungen ist, welche ausgeführt werden können, um den Beispiel-3D-Modellersteller zum Erstellen eines 3D-Modells zu implementieren.
4 ist ein Flussdiagramm, das repräsentativ für maschinenlesbare Anweisungen ist, welche ausgeführt werden können, um den Beispiel-3D-Modellersteller zum Berechnen eines Gesamtverlustwertes, der im Prozess des Erstellens eines 3D-Modells verwendet wird, zu implementieren.
5 ist ein Blockdiagramm einer Beispiel-Prozessorplattform, die zum Ausführen der Anweisungen von 3 und/oder 4 zum Implementieren des 3D-Modellerstellers von 2 strukturiert ist.

Die Figuren sind nicht maßstabsgerecht. Im Allgemeinen werden zur Bezugnahme auf die gleichen oder ähnliche Teile die gleichen Referenzziffern in der/den gesamten Zeichnung/en und der begleitenden schriftlichen Beschreibung verwendet.
DETAILLIERTE BESCHREIBUNG
Es existieren unterschiedliche Ansätze für die Erstellung eines 3D-Modells basierend auf realen Bildern einer Szene, zum Beispiel SFM (Structure From Motion), MVS (Multi-View Stereo), RGB-D (Red Green Blue Distance), Shape Prior-basierte Rekonstruktion, Generative-Adversarial-basierte Rekonstruktion usw. Jedoch weisen viele dieser Ansätze Nachteile auf (z.B. umfangreiche Eingabeanforderungen, Ausgabebeschränkungen usw.). Hierin offenbarte Beispielansätze nehmen diese Nachteile mit Hilfe eines halbüberwachten Frameworks mit GANs (Generative AdversarialNetworks) für die 3D-Szenenrekonstruktion in Angriff.
Hierin offenbarte Beispielansätze versuchen während der Erzeugung eines 3D-Modells zwischen realen Bildern des modellierten Standortes und entsprechenden simulierten Bildern, die mit Hilfe des 3D-Modells erstellt werden, zu unterscheiden. Bei Verwendung hierin offenbarter Beispielansätze wird das 3D-Modell als abgeschlossen erachtet, wenn sich das reale und das simulierte Bild nicht voneinander unterscheiden lassen (z.B. kann ein Betrachter die künstlich erzeugte 3D-Szene nicht von der realen 3D-Szene unterscheiden).
Hierin offenbarte Beispielansätze nutzen einen Unterschied zwischen (einem) simulierten 2D-Szenen-Bild(ern) aus der rekonstruierten 3D-Szene und (einem) betrachteten 2D-Bild(ern) aus der realen Szene. Wenn der Unterschied zwischen dem rekonstruierten und dem betrachteten 2D-Bild ausreichend gering ist, wird das 3D-Modell als erfolgreich für ein hochwertiges 3D-Rekonstruktionsergebnis erstellt erachtet.
Hierin offenbarte Beispielansätze verwenden ein GAN (Generative Adversarial Network), welches ein generatives Modell und ein diskriminatives Modell aufweist. Das generative Modell wird zum Erzeugen eines 3D-Modells verwendet, das dem rekonstruierten realen Standort sehr ähnlich sein soll (d.h. nicht davon unterscheidbar). Das diskriminative Modell wird zum Klassifizieren von Mustern verwendet, die basierend auf dem 3D-Modell, das durch das generative Modell erstellt wird, und realen entsprechenden Bildern synthetisiert werden. In hierin offenbarten Beispielen wird das diskriminative Modell zum Schätzen einer Wahrscheinlichkeit verwendet, dass ein spezifisches Muster real oder synthetisiert ist. Das Trainieren des generativen Modells und des diskriminativen Modells wird so lange durchgeführt, bis das generative Modell verwendet werden kann, um ein 3D-Modell zu erzeugen, das durch das diskriminative Modell nicht von dem realen Standort unterscheidbar ist. D.h., gemäß hierin offenbarten Beispielen, wenn ein Nash-Gleichgewicht erreicht ist, kann das generative Modell eine 3D-Szene rekonstruieren, die mit der realen 3D-Szene übereinstimmt.
1 zeigt ein Beispielbild 100 eines geografischen Standortes und ein simuliertes Bild 110, das in Übereinstimmung mit Lehren dieser Offenbarung konstruiert wurde. In dem veranschaulichten Beispiel von 1 stellt das wirkliche Bild 100 eine 3D-Szene eines Gebäudes bildlich dar. Während in dem veranschaulichten Beispiel von 1 ein Gebäude gezeigt ist, kann auch jede andere 3D-Szene in Verbindung mit den hierin offenbarten Ansätzen verwendet werden, wie zum Beispiel Gebäude, Fahrzeuge, Straßen, Bäume, Menschen, Tiere usw. Das simulierte Beispielbild 110 ist eine digitale Rekonstruktion der Szene, die in dem wirklichen Bild 100 bildlich dargestellt ist. In hierin offenbarten Beispielen wird das simulierte Bild 110 aus einem 3D-Modell erzeugt, das mit Hilfe des generativen Modells konstruiert wird. Mit Hilfe von hierin offenbarten Beispielansätzen werden das wirkliche Bild 100 und das simulierte Bild 110 durch das diskriminative Modell verarbeitet, um zu versuchen zu unterscheiden, welches der Bilder simuliert oder real ist (ohne vorherige Kenntnis darüber, ob das Bild simuliert oder real ist). Hierin offenbarte Beispielansätze trainieren das generative und das diskriminative Modell bis zu dem Punkt, an welchem das diskriminative Modell reale Bilder nicht von simulierten Bildern, die basierend auf dem generativen Modell erzeugt werden, unterscheiden kann.
2 ist ein Blockdiagramm, das einen Beispiel-3D-Modellersteller 200 in Übereinstimmung mit Lehren dieser Offenbarung darstellt. Der Beispiel-3D-Mo-dellersteller 200 des veranschaulichten Beispiels von 2 weist eine Videodatenzugriffseinheit 205, einen 3D-Modellgenerator 210, einen Datenspeicher des generativen Modells 212, einen 3D-Modell-Datenspeicher 215, einen Kamerapositionsidentifikator 220, einen Bildsimulator 230, einen Bildselektor 235, einen Diskriminator 240, einen Datenspeicher des diskriminativen Modells 245, einen Verlustidentifikator 250, einen Trainer des diskriminativen Modells 260, einen Trainer des generativen Modells 270 und eine Modellbereitstellungseinheit 280 auf. In hierin offenbarten Beispielen implementiert der Beispiel-Verlustidentifikator 250 einen Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, einen Strukturähnlichkeitsidentifikator 252, einen Identifikator der normalisierten Korrelation 253 und einen Kreuzentropie-Kalkulator 254.
Die Beispiel-Videodatenzugriffseinheit 205 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) anwendungsspezifische integrierte Schaltung(en) (ASIC(s) - Application Specific Integrated Circuit(s)), (ein) programmierbare(r) Logikbaustein(e) (PLD(s) - Programmable Logic Device(s)), (ein) feldprogrammierbare(r) Logikbaustein(e) (FPLD(s) - Field Programmable Logic Device(s)), (ein) digitale(r) Signalprozessor(en) (DSP(s) - Digital Signal Processor(s)) usw. Die Beispiel-Videodatenzugriffseinheit 205 greift auf Videodaten einer realen Szene zu. In einigen Beispielen werden die Videodaten mit Hilfe eines Hardware-Sensors aufgenommen, wie z.B. einem Bildsensor. In hierin offenbarten Beispielen kann die reale Szene jegliche Gegenstände und/oder Objekte enthalten, wie zum Beispiel Gebäude, Fahrzeuge, Straßen, Bäume, Menschen, Tiere usw. In hierin offenbarten Beispielen stellt die Videodatenzugriffseinheit 205 die Videodaten an den 3D-Modellgenerator 210 bereit. Jedoch speichert in einigen Beispielen die Videodatenzugriffseinheit 205 die Videodaten auch in einem Arbeitsspeicher des Beispiel-3D-Modellerstellers 200 (z.B. im 3D-Modell-Datenspeicher 215).
Der Beispiel-3D-Modellgenerator 210 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-3D-Modellgenerator 210 erzeugt ein 3D-Modell basierend auf den Videodaten, die durch die Videodatenzugriffseinheit 205 bereitgestellt werden, und einem generativen Modell, das im Beispiel-Datenspeicher des generativen Modells 212 gespeichert ist. In hierin offenbarten Beispielen speichert der Beispiel-3D-Modellgenerator 210 das 3D-Modell im 3D-Modell-Datenspeicher 215. Aus dem 3D-Modell-Datenspeicher 215 kann das 3D-Modell durch den Beispiel-Bildsimulator 230 verwendet werden und/oder durch die Modellbereitstellungseinheit 280 an eine externe Entität (z.B. einen entfernten Server, einen Benutzer, ein Speichergerät usw.) bereitgestellt werden.
Der Beispiel-Datenspeicher des generativen Modells 212 des veranschaulichten Beispiels von 2 ist durch jegliche/n/s Arbeitsspeicher, Speichergerät und/oder Speicherplatte zum Speichern von Daten implementiert, wie zum Beispiel Flash-Speicher, magnetische Medien, optische Medien usw. Außerdem können die im Beispiel-Datenspeicher des generativen Modells 212 gespeicherten Daten jegliches Datenformat aufweisen, wie zum Beispiel binäre Daten, kommagetrennte Daten, tabulatorgetrennte Daten, SQL (Structured Query Language) -Strukturen usw. Während in dem veranschaulichten Beispiel der Datenspeicher des generativen Modells 212 als ein einzelnes Element veranschaulicht ist, können der Beispiel-Datenspeicher des generativen Modells 212 und/oder jegliche anderen hierin beschriebenen Datenspeicherelemente durch jegliche Anzahl und/oder Art(en) von Speichern implementiert sein. In dem veranschaulichten Beispiel von 2 speichert der Datenspeicher des generativen Modells 212 ein generatives Modell, das durch den 3D-Szenengenerator zum Erstellen des 3D-Modells verwendet wird, das im 3D-Modell-Datenspeicher gespeichert wird. In hierin offenbarten Beispielen stellt das generative Modell ein DNN (Deep Neural Network) dar. Jedoch können auch jegliche andere(n) frühere(n), gegenwärtige(n) und/oder zukünftige(n) Ma-schinenlerntopologie(n) und/oder Architektur(en) zusätzlich oder alternativ verwendet werden, wie zum Beispiel ein CNN (Convolutional Neural Network), ein vorwärtsgekoppeltes neuronales Netzwerk, eine SVM (Support Vector Machine) usw.
Der Beispiel-3D-Modell-Datenspeicher 215 des veranschaulichten Beispiels von 2 ist durch jegliche/n/s Arbeitsspeicher, Speichergerät und/oder Speicherplatte zum Speichern von Daten implementiert, wie zum Beispiel Flash-Speicher, magnetische Medien, optische Medien usw. Außerdem können die im Beispiel-3D-Modell-Datenspeicher 215 gespeicherten Daten jegliches Datenformat aufweisen, wie zum Beispiel binäre Daten, kommagetrennte Daten, tabulatorgetrennte Daten, SQL (Structured Query Language) - Strukturen usw. Während in dem veranschaulichten Beispiel der 3D-Modell-Datenspeicher 215 als ein einzelnes Element veranschaulicht ist, können der Beispiel-3D-Modell-Datenspeicher 215 und/oder jegliche anderen hierin beschriebenen Datenspeicherelemente durch jegliche Anzahl und/oder Art(en) von Speichern implementiert sein. In dem veranschaulichten Beispiel von 2 speichert der 3D-Modell-Datenspeicher 215 ein 3D-Modell, das durch den 3D-Modellgenerator 210 basierend auf einem generativen Modell, das in dem Beispiel-Datenspeicher des generativen Modells 212 gespeichert ist, und Daten, auf die durch die Videodatenzugriffseinheit 205 zugegriffen wird, erstellt und/oder aktualisiert wird. In einigen Beispielen wird das 3D-Modell durch die Modellbereitstellungseinheit 280 an eine externe Entität (z.B. einen entfernten Server, einen Benutzer, ein Speichergerät usw.) bereitgestellt und/oder dieser zugänglich gemacht.
Der Beispiel-Kamerapositionsidentifikator 220 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Wie unten angegeben, wählt der Beispiel-Bildselektor 235 2D-Bilder aus den Videodaten, die zum Evaluieren des 3D-Modells verwendet werden sollen. In hierin offenbarten Beispielen wird jedes Einzelbild von Videodaten ausgewählt. Jedoch können in einigen Beispielen auch weniger als alle der Einzelbilder ausgewählt werden. Der Beispiel-Kamerapositionsidentifikator 220 identifiziert Positionen und/oder andere Parameter des/der ausgewählten 2D-Bildes/Bilder. In hierin offenbarten Beispielen nutzt der Beispiel-Kamerapositionsidentifikator 220 eine Trajektorie der Hardware-Kamera, die zum Aufnehmen des Videos und/oder der Bilder verwendet wird, um die Position der Kamera für das/die ausgewählte(n) 2D-Bild(er) zu identifizieren. In einigen Beispielen parst der Beispiel-Kamerapositionsidentifikator 220 Metadaten, die in den Videodaten enthalten sind, zum Identifizieren der Position der Kamera und/oder optischer Eigenschaften der Bilder in dem Video (z.B. Brennweite, Sichtfeld, Weißabgleich usw.). In hierin offenbarten Beispielen werden die Positionen und/oder anderen Parameter an den Bildsimulator 230 bereitgestellt.
Der Beispiel-Bildsimulator 230 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-Bildsimulator 230 implementiert eine virtuelle Kamera, die innerhalb des 3D-Modells beweglich ist und derart gesteuert werden kann, dass sie mit den optischen Parametern der Kamera, die zum Aufnehmen der realen Bilder verwendet wird, übereinstimmt. Mit Hilfe der Position und des/der Parameter/s, die durch den Kamerapositionsidentifikator 220 identifiziert werden, simuliert der Beispiel-Bildsimulator 230 (ein) 2D-Bild(er) aus dem 3D-Modell, das im 3D-Modell-Datenspeicher 215 gespeichert ist.
Der Beispiel-Bildselektor 235 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-Bildselektor 235 wählt 2D-Bilder aus den Videodaten aus, die zum Evaluieren des 3D-Modells verwendet werden sollen. In hierin offenbarten Beispielen können die Videodaten durch eine Drohne und/oder eine andere Kameraplattform aufgenommen werden, wenn sie sich über das/die zu modellierende/n Objekt/e bewegt. In hierin offenbarten Beispielen wird jedes Einzelbild der Videodaten als ein Bild ausgewählt. Jedoch können in einigen Beispielen auch weniger als alle der Einzelbilder ausgewählt werden. Zum Beispiel kann, wenn die Videodaten dreitausendsechshundert Einzelbilder enthalten würden (z.B. ein Video, das eine Minute dauert, aufgenommen mit sechzig Einzelbildern pro Sekunde), jedes sechzigste Einzelbild ausgewählt werden, was in der Auswahl von sechzig Bildern resultiert. Wie oben angegeben, werden entsprechende Bilder (z.B. sechzig Bilder) durch den Bildsimulator 230 erstellt und zur Evaluierung der Qualität des Modells im Vergleich zur realen Welt an den Beispiel-Diskriminator 240 weitergegeben.
Der Beispiel-Diskriminator 240 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-Diskriminator 240 nutzt das diskriminative Modell, das im Datenspeicher des diskriminativen Modells 245 gespeichert ist, zum Klassifizieren jedes der simulierten 2D-Bilder und der ausgewählten 2D-Bilder entweder als real oder simuliert. Eine derartige Klassifizierung kann später mit der Wahrheit verglichen werden (z.B. welche Bilder simuliert sind und welche Bilder real sind), um einen Fehlerbetrag in dem 3D-Modell, das zum Erzeugen der simulierten Bilder verwendet wird, zu quantifizieren. In hierin offenbarten Beispielen liefert der Diskriminator 240 eine Wahrscheinlichkeit, dass ein gegebenes Bild real oder simuliert ist. Wenn die Wahrscheinlichkeit für ein Bild sowohl 50 % simuliert als auch 50 % real ist, ist der Diskriminator nicht in der Lage zu unterscheiden, ob ein gegebenes Bild real oder simuliert ist. In einigen Beispielen kann eine derartige Klassifizierung später mit der Wahrheit verglichen werden (z.B. welche Bilder simuliert sind und welche Bilder real sind), um einen Fehlerbetrag in dem 3D-Modell, das zum Erzeugen der simulierten Bilder verwendet wird, zu quantifizieren.
Der Beispiel-Datenspeicher des diskriminativen Modells 245 des veranschaulichten Beispiels von 2 ist durch jegliche/n/s Arbeitsspeicher, Speichergerät und/oder Speicherplatte zum Speichern von Daten implementiert, wie zum Beispiel Flash-Speicher, magnetische Medien, optische Medien usw. Außerdem können die im Beispiel-Datenspeicher des diskriminativen Modells 245 gespeicherten Daten jegliches Datenformat aufweisen, wie zum Beispiel binäre Daten, kommagetrennte Daten, tabulatorgetrennte Daten, SQL (Structured Query Language) -Strukturen usw. Während in dem veranschaulichten Beispiel der Datenspeicher des diskriminativen Modells 245 als ein einzelnes Element veranschaulicht ist, können der Beispiel-Datenspeicher des diskriminativen Modells 245 und/oder jegliche anderen hierin beschriebenen Datenspeicherelemente durch jegliche Anzahl und/oder Art(en) von Speichern implementiert sein. In dem veranschaulichten Beispiel von 2 speichert der Beispiel-Datenspeicher des diskriminativen Modells 245 das diskriminative Modell, das durch den Diskriminator 240 verwendet wird, um Bilder als real oder simuliert zu klassifizieren. In hierin offenbarten Beispielen stellt das diskriminative Modell ein DNN (Deep Neural Network) dar. Jedoch können auch jegliche andere(n) frühere(n), gegenwärtige(n) und/oder zukünftige(n) Maschinenlerntopologie(n) und/oder Architektur(en) zusätzlich oder alternativ verwendet werden, wie zum Beispiel ein CNN (Convolutional Neural Network), ein vorwärtsgekoppeltes neuronales Netzwerk, eine SVM (Support Vector Machine) usw.
Der Beispiel-Verlustidentifikator 250 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. In hierin offenbarten Beispielen implementiert der Beispiel-Verlustidentifikator 250 den Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, den Beispiel-Strukturähnlichkeitsidentifikator 252, den Beispiel-Identifikator der normalisierten Korrelation 253 und den Beispiel-Kreuzentropie-Kalkulator 254. Jedoch können in einigen Beispielen der Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, der Beispiel-Strukturähnlichkeitsidentifikator 252, der Beispiel-Identifikator der normalisierten Korrelation 253 und der Beispiel-Kreuzentropie-Kalkulator 254 auch getrennt implementiert sein.
Mit Hilfe der Ergebnisse des Diskriminators 240 und/oder der Unterschiede, die zwischen dem simulierten und dem realen Bild identifiziert wurden, bestimmt der Beispiel-Verlustidentifikator 250 eine Verlustmenge (z.B. einen Fehler). In hierin offenbarten Beispielen weist die Gesamtverlustfunktion zwei Komponenten auf: einen Szenenrekonstruktionsverlust L_{Rekonstruktion} und einen Kreuzentropie-Verlust L_{Kreuzentropie}. Der Szenenrekonstruktionsverlust quantifiziert Unterschiede zwischen den simulierten und realen Bildpaaren, die an der Diskriminator 240 bereitgestellt werden. Der Kreuzentropie-Verlust quantifiziert einen Fehlerbetrag im Diskriminator 240 (z.B., ob der Diskriminator 240 in der Lage ist, zwischen den simulierten Bildern und den realen Bildern zu unterscheiden).
Die Verwendung eines Szenenrekonstruktionsverlustes bei der Bestimmung des Gesamtverlustes stellt sicher, dass ein untrainiertes diskriminatives Modell (z.B. ein diskriminatives Modell, das nur ein paar wenige Trainingsiterationen durchlaufen hat) nicht versehentlich ein 3D-Modell als von hoher Qualität (geringer Unterscheidungsfehler) identifiziert. In hierin offenbarten Beispielen wird der Szenenrekonstruktionsverlust basierend auf einem Spitzen-Signal-Rausch-Verhältnis (berechnet durch den Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251), einem Strukturähnlichkeitswert (berechnet durch den Strukturähnlichkeitsidentifikator 252) und einem normalisierten Korrelationswert (berechnet durch den Beispiel-Identifikator der normalisierten Korrelation 253) berechnet. Der Beispiel-Kreuzentropie-Kalkulator 254 berechnet einen Kreuzentropie-Verlust mit Hilfe der Ergebnisse des Diskriminators 240. Ein Beispielansatz zum Berechnen des Kreuzentropie-Verlustes ist unten in Verbindung mit 4 offenbart (siehe Gleichung 6 und 7).
Der Beispiel-Trainer des diskriminativen Modells 260 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-Trainer des diskriminativen Modells 260 trainiert das diskriminative Modell, das im Beispiel-Datenspeicher des diskriminativen Modells 245 gespeichert ist. In hierin offenbarten Beispielen wird ein SGD (Stochastic Gradient Descent) -Ansatz zum Trainieren des diskriminativen Modells verwendet. Jedoch kann auch jeder andere Ansatz zum Trainieren eines Modells zusätzlich oder alternativ verwendet werden.
Der Beispiel-Trainer des generativen Modells 270 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Der Beispiel-Trainer des generativen Modells 270 trainiert das generative Modell, das im Beispiel-Datenspeicher des generativen Modells 212 gespeichert ist. In hierin offenbarten Beispielen wird ein SGD (Stochastic Gradient Descent) -Ansatz zum Trainieren des generativen Modells verwendet. Jedoch kann auch jeder andere Ansatz zum Trainieren eines Modells zusätzlich oder alternativ verwendet werden.
Die Beispiel-Modellbereitstellungseinheit 280 des veranschaulichten Beispiels von 2 ist durch eine Logikschaltung implementiert, wie zum Beispiel einen Hardware-Prozessor. Jedoch kann auch jede andere Art von Schaltungen zusätzlich oder alternativ verwendet werden, wie zum Beispiel eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (ein) programmierbare(r) Prozessor(en), (eine) ASIC(s), (ein) PLD(s), (ein) FPLD(s), (ein) DSP(s) usw. Die Beispiel-Modellbereitstellungseinheit 280 stellt das erzeugte 3D-Modell, das im 3D-Modell-Datenspeicher 215 gespeichert ist, an eine externe Entität (z.B. einen entfernten Server, einen Benutzer, ein Speichergerät usw.) bereit. In hierin offenbarten Beispielen wird das 3D-Modell als Reaktion auf eine Anfrage zum Erstellen des 3D-Modells basierend auf bereitgestellten Videodaten bereitgestellt.
Während in 2 eine beispielhafte Art und Weise der Implementierung des Beispiel-3D-Modellerstellers 200 veranschaulicht ist, können ein oder mehrere der in 2 veranschaulichten Elemente, Prozesse und/oder Geräte auch in jeglicher anderen Art und Weise kombiniert, aufgeteilt, neuangeordnet, weggelassen, eliminiert und/oder implementiert sein. Ferner können die Beispiel-Videodatenzugriffseinheit 205, der Beispiel-3D-Modellgenerator 210, der Beispiel-Datenspeicher des generativen Modells 212, der Beispiel-3D-Modell-Datenspeicher 215, der Beispiel-Kamerapositionsidentifikator 220, der Beispiel-Bildsimulator 230, der Beispiel-Bildselektor 235, der Beispiel-Diskriminator 240, der Beispiel-Datenspeicher des diskriminativen Modells 245, der Beispiel-Verlustidentifikator 250, der Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, der Beispiel-Strukturähnlichkeitsidentifikator 252, der Beispiel-Identifikator der normalisierten Korrelation 253, der Beispiel-Kreuzentropie-Kalkulator 254, der Beispiel-Trainer des diskriminativen Modells 260, der Beispiel-Trainer des generativen Modells 270, die Beispiel-Modellbereitstellungseinheit 280 und/oder, allgemeiner, der Beispiel-3D-Modellersteller 200 von 2 durch Hardware, Software, Firmware und/oder jegliche Kombination von Hardware, Software und/oder Firmware implementiert sein. Somit könnte zum Beispiel jede/r aus der Beispiel-Videodatenzugriffseinheit 205, dem Beispiel-3D-Modellgenerator 210, dem Beispiel-Datenspeicher des generativen Modells 212, dem Beispiel-3D-Modell-Datenspeicher 215, dem Beispiel-Kamerapositionsidentifikator 220, dem Beispiel-Bildsimulator 230, dem Beispiel-Bildselektor 235, dem Beispiel-Diskriminator 240, dem Beispiel-Datenspeicher des diskriminativen Modells 245, dem Beispiel-Verlustidentifikator 250, dem Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, dem Beispiel-Strukturähnlichkeitsidentifikator 252, dem Beispiel-Identifikator der normalisierten Korrelation 253, dem Beispiel-Kreuzentropie-Kalkulator 254, dem Beispiel-Trainer des diskriminativen Modells 260, dem Beispiel-Trainer des generativen Modells 270, der Beispiel-Modellbereitstellungseinheit 280 und/oder, allgemeiner, dem Beispiel-3D-Modellersteller 200 von 2 durch eine oder mehrere analoge oder digitale Schaltung(en), Logikschaltungen, (einen) programmierbare(n) Prozessoren), (einen) programmierbare(n) Controller, (eine) Grafikverarbeitungseinheit(en) (GPU(s) - Graphics Processing Unit(s)), (einen) digitale(n) Signalprozessor(en) (DSP(s) - Digital Signal Processor(s)), (eine) anwendungsspezifische integrierte Schaltung(en) (ASIC(s) - Application Specific Integrated Circuit(s)), (einen) programmierbare(n) Logikbaustein(e) (PLD(s) - Programmable Logic Device(s)) und/oder (einen) feldprogrammierbare(n) Logikbaustein(e) (FPLD(s) - Field Programmable Logic Device(s)) implementiert sein. Beim Lesen von jeglichem der Vorrichtungs- oder Systemansprüche dieses Patents zum Abdecken einer reinen Software- und/oder Firmware-Implementierung, ist/sind mindestens eine/r aus der Beispiel-Videodatenzugriffseinheit 205, dem Beispiel-3D-Modellgenerator 210, dem Beispiel-Datenspeicher des generativen Modells 212, dem Beispiel-3D-Modell-Datenspeicher 215, dem Beispiel-Kamerapositionsidentifikator 220, dem Beispiel-Bildsimulator 230, dem Beispiel-Bildselektor 235, dem Beispiel-Diskriminator 240, dem Beispiel-Datenspeicher des diskriminativen Modells 245, dem Beispiel-Verlustidentifikator 250, dem Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, dem Beispiel-Strukturähnlichkeitsidentifikator 252, dem Beispiel-Identifikator der normalisierten Korrelation 253, dem Beispiel-Kreuzentropie-Kalkulator 254, dem Beispiel-Trainer des diskriminativen Modells 260, dem Beispiel-Trainer des generativen Modells 270, der Beispiel-Modellbereitstellungseinheit 280 und/oder, allgemeiner, dem Beispiel-3D-Modellersteller 200 von 2 hiermit ausdrücklich derart definiert, dass sie/er ein/e nichttransitorische/s computerlesbare/s Speichergerät oder Speicherplatte aufweist, wie z.B. einen Arbeitsspeicher, eine DVD (Digital Versatile Disk), eine CD (Compact Disk), eine Blu-ray-Disk usw., welche/s die Software und/oder Firmware enthält. Außerdem kann der Beispiel-3D-Modellersteller 200 von 2 ein/en oder mehrere Elemente, Prozesse und/oder Geräte zusätzlich zu den oder anstelle der in 2 veranschaulichten aufweisen und/oder kann mehr als eines/n von jeglichen oder allen der veranschaulichten Elemente, Prozesse und Geräte aufweisen. Wie hierin verwendet, umschließt die Phrase „in Kommunikation“, einschließlich Variationen davon, direkte Kommunikation und/oder indirekte Kommunikation über eine oder mehrere Zwischenkomponenten und erfordert keine direkte physische (z.B. verdrahtete) Kommunikation und/oder konstante Kommunikation, sondern beinhaltet vielmehr zusätzlich selektive Kommunikation in periodischen Intervallen, zeitlich geplanten Intervallen, aperiodischen Intervallen und/oder einmalige Ereignisse.
Flussdiagramme, die repräsentativ für Beispiel-Hardware-Logik oder maschinenlesbare Anweisungen zum Implementieren des 3D-Modellerstellers 200 von 2 sind, sind in 3 und/oder 4 gezeigt. Die maschinenlesbaren Anweisungen können ein ausführbares Computerprogramm oder ein Abschnitt eines ausführbaren Computerprogramms zur Ausführung durch einen Computerprozessor sein, wie z.B. der in der Beispiel-Prozessorplattform 500 gezeigte Prozessor 512, der unten in Verbindung mit 5 diskutiert wird. Das Programm kann in Software verkörpert sein, die auf einem nicht-transitorischen computerlesbaren Speichermedium gespeichert ist, wie z.B. einer CD-ROM, einer Diskette, einer Festplatte, einer DVD, einer Blu-ray-Disk oder einem Arbeitsspeicher, der mit dem Prozessor 512 assoziiert ist, jedoch könnten das gesamte Programm und/oder Teile davon alternativ auch durch ein anderes Gerät als den Prozessor 512 ausgeführt werden und/oder in Firmware oder dedizierter Hardware verkörpert sein. Ferner können, obwohl das Beispielprogramm unter Bezugnahme auf die in 3 und/oder 4 veranschaulichten Flussdiagramme beschrieben ist, alternativ viele andere Verfahren zur Implementierung des Beispiel-3D-Modellerstellers 200 verwendet werden. Zum Beispiel kann die Ausführungsreihenfolge der Blöcke verändert werden und/oder einige der beschriebenen Blöcke können verändert, eliminiert oder kombiniert werden. Zusätzlich oder alternativ dazu können jegliche oder alle der Blöcke durch eine oder mehrere Hardware-Schaltungen (z.B. diskrete und/oder integrierte analoge und/oder digitale Schaltungen, ein FPGA, eine ASIC, einen Komparator, einen Operationsverstärker (Op-Amp - Operational-Amplifier), eine Logikschaltung usw.) implementiert werden, die zum Durchführen der entsprechenden Operation ohne das Ausführen von Software oder Firmware strukturiert ist/sind.
Wie oben erwähnt, können die Beispielprozesse von 3 und/oder 4 mit Hilfe ausführbarer Anweisungen (z.B. computer- und/oder maschinenlesbarer Anweisungen) implementiert werden, die auf einem nicht-transitorischen computer- und/oder maschinenlesbaren Medium gespeichert sind, wie z.B. einem Festplattenlaufwerk, einem Flash-Speicher, einem Nur-Lese-Speicher, einer CD, einer DVD, einem Cache, einem Direktzugriffsspeicher und/oder j eglichem/r anderen Speichergerät oder Speicherplatte, auf welchem/r Informationen für jegliche Dauer gespeichert sind (z.B. für längere Zeiträume, permanent, kurzzeitig, zum temporären Puffern und/oder zum Cachen der Informationen). Wie hierin verwendet, ist der Begriff nicht-transitorisches computerlesbares Medium ausdrücklich derart definiert, dass er jegliche Art eines/r computerlesbaren Speichergerätes und/oder Speicherplatte beinhaltet und propagierende Signale und Übertragungsmedien ausschließt.
„Aufweisend“ und „umfassend“ (und alle Formen und Zeitformen davon) sind hierin als erweiterbare Begriffe verwendet. Somit soll, immer wenn ein Anspruch jegliche Form von „aufweisen“ oder „umfassen“ (z.B. umfasst, weist auf, umfassend, aufweisend, mit usw.) als eine Präambel oder innerhalb einer Anspruchsrezitation jeglicher Art einsetzt, verstanden werden, dass zusätzliche Elemente, Begriffe usw. vorliegen können, ohne außerhalb des Umfangs des/r entsprechenden Anspruchs oder Rezitation zu fallen. Wie hierin verwendet, wenn die Phrase „mindestens“ als der Übergangsbegriff verwendet wird, zum Beispiel in einer Präambel eines Anspruchs, ist diese in der gleichen Art und Weise erweiterbar wie die Begriffe „umfassend“ und „aufweisend“ erweiterbar sind. Der Begriff „und/oder“ bezieht sich, zum Beispiel wenn er in einer Form wie z.B. A, B und/oder C verwendet wird, auf jegliche Kombination oder Teilmenge von A, B, C, wie z.B. (1) A allein, (2) B allein, (3) C allein, (4) A mit B, (5) A mit C und (6) B mit C.
3 ist ein Flussdiagramm, das repräsentativ für maschinenlesbare Anweisungen ist, welche ausgeführt werden können, um den Beispiel-3D-Modellersteller 200 zum Erstellen eines 3D-Modells zu implementieren. Der Beispielprozess 300 des veranschaulichten Beispiels von 3 beginnt, wenn die Beispiel-Videodatenzugriffseinheit 205 auf Videodaten einer realen Szene zugreift. (Block 305). In hierin offenbarten Beispielen kann die reale Szene jegliche Gegenstände und/oder Objekte enthalten, wie zum Beispiel Gebäude, Fahrzeuge, Straßen, Bäume, Menschen, Tiere usw. In hierin offenbarten Beispielen stellt die Videodatenzugriffseinheit 205 die Videodaten an den 3D-Modellgenerator 210 bereit. Jedoch speichert in einigen Beispielen die Videodatenzugriffseinheit 205 die Videodaten auch in einem Speicher des Beispiel-3D-Modellerstellers 200 (z.B. im 3D-Modell-Datenspeicher 215). Der Beispiel-3D-Modellgenerator 210 erzeugt ein Anfangs-3D-Modell basierend auf den Videodaten. (Block 310). In einigen Beispielen wird das Anfangs-3D-Modell mit Hilfe des generativen Modells erzeugt, das im Datenspeicher des generativen Modells 312 gespeichert ist. In einigen Beispielen kann ein Anfangstraining des generativen Modells vor der Verwendung des generativen Modells durchgeführt werden, um das Anfangs-3D-Modell zu erzeugen. Jedoch kann in einigen anderen Beispielen das generative Modell, das für die Erstellung des Anfangs-3D-Modell verwendet wird, auch unter Verwendung eines untrainierten generativen Modells durchgeführt werden. In hierin offenbarten Beispielen speichert der Beispiel-3D-Modellgenerator 210 das 3D-Modell im 3D-Modell-Datenspeicher 215.
Der Beispiel-Bildselektor 235 wählt 2D-Bilder aus den Videodaten aus, die zum Evaluieren des 3D-Modells verwendet werden sollen. (Block 315). In hierin offenbarten Beispielen wird jedes Einzelbild von Videodaten ausgewählt. Jedoch können in einigen Beispielen auch weniger als alle der Einzelbilder ausgewählt werden. Der Beispiel-Kamerapositionsidentifikator 220 identifiziert Positionen und/oder andere Parameter des/der ausgewählten 2D-Bildes/r. (Block 320). In hierin offenbarten Beispielen werden die Positionen und/oder anderen Parameter an den Bildsimulator 230 bereitgestellt. Der Bildsimulator 230 implementiert eine virtuelle Kamera, die innerhalb des 3D-Modells beweglich ist und derart gesteuert werden kann, dass sie mit den optischen Parametern der Kamera übereinstimmt, die zum Aufnehmen der realen Bilder verwendet wurde. Der Beispiel-Bildsimulator 230 simuliert (ein) 2D-Bild(er) mit Hilfe der Parameter des/der ausgewählten Bildes/r. (Block 325).
Der Beispiel-Diskriminator 240 nutzt das diskriminative Modell, das im Datenspeicher des diskriminativen Modells 245 gespeichert ist, zum Klassifizieren jedes der simulierten 2D-Bilder und der ausgewählten 2D-Bilder als entweder real oder simuliert. (Block 330). In einigen Beispielen kann ein Anfangstraining des diskriminativen Modells vor der Verwendung des diskriminativen Modells durchgeführt werden. Durch das Durchführen eines derartigen Anfangstrainings basiert eine erste Iteration der Verwendung des diskriminativen Modells durch den Diskriminator 240 auf einer trainierten Version des diskriminativen Modells (wodurch genauere Klassifizierungsergebnisse in der ersten Iteration des Prozesses von Block 325 bis 355 erzeugt werden). In einigen anderen Beispielen kann das diskriminative Modell, das für die erste Iteration der Klassifizierung von Block 330 verwendet wird, unter Verwendung eines untrainierten diskriminativen Modells durchgeführt werden. In hierin offenbarten Beispielen stellt der Diskriminator 240 eine Wahrscheinlichkeit zur Verfügung, dass ein gegebenes Bild real oder simuliert ist. Wenn die Wahrscheinlichkeit für das Bild sowohl 50 % simuliert als auch 50 % real ist (oder jede Wahrscheinlichkeit innerhalb eines Schwellenbereiches wie zum Beispiel 48 %-52 % liegt), ist der Diskriminator nicht in der Lage zu unterscheiden, ob ein gegebenes Bild real oder simuliert ist.
Mit Hilfe der Ergebnisse der Diskriminators und/oder der Unterschiede, die zwischen dem simulierten und dem realen Bild identifiziert werden, bestimmt der Beispiel-Verlustidentifikator 250 eine Verlustmenge. (Block 335). Ein Beispielansatz zum Berechnen einer Verlustmenge ist unten in Verbindung mit 4 offenbart.
Die Beispiel-Modellbereitstellungseinheit 280 bestimmt, ob die Verlustmenge, die durch den Verlustidentifikator 250 berechnet wurde, unterhalb einer Verlustschwelle liegt. (Block 340). Wenn die Verlustmenge unterhalb einer Verlustschwelle liegt, wird das 3D-Modell, das durch den 3D-Modellgenerator 210 erzeugt wurde, als von hoher Qualität angesehen. Wenn die Beispiel-Modellbereitstellungseinheit 280 bestimmt, dass der durch den Verlustidentifikator 250 berechnete Verlust nicht unterhalb der Verlustschwelle liegt (z.B. sendet Block 340 ein Ergebnis NEIN zurück), trainiert der Beispiel-Trainer des diskriminativen Modells 260 in hierin offenbarten Beispielen das diskriminative Modell, das im Beispiel-Datenspeicher des diskriminativen Modells 245 gespeichert ist, neu (z.B. führt er eine iterative Feinabstimmung des diskriminativen Modells durch). (Block 345). In hierin offenbarten Beispielen nutzt das Neutrainieren den vorherigen Zustand des diskriminativen Modells als einen Ausgangspunkt, anstatt das Training mit einem nichtinitialisierten Modell zu beginnen. In hierin offenbarten Beispielen wird das diskriminative Modell mit Hilfe der simulierten 2D-Bilder und der ausgewählten 2D-Bilder und Angaben darüber, ob diese Bilder real oder simuliert sind, neu trainiert.
Der Beispiel-Trainer des generativen Modells 270 trainiert das generative Modell, das im Datenspeicher des generativen Modells 212 gespeichert ist, neu (z.B. führt er eine iterative Feinabstimmung des generativen Modells durch). (Block 350). In hierin offenbarten Beispielen nutzt das Neutrainieren den vorherigen Zustand des generativen Modells als einen Ausgangspunkt, anstatt das Training mit einem nichtinitialisierten Modell zu beginnen. In hierin offenbarten Beispielen wird das generative Modell angesichts des Fehlers neu trainiert, der durch das diskriminative Modell identifiziert wurde. Der Beispiel-3D-Modellgenerator 210 erzeugt dann ein neues 3D-Modell unter Verwendung des generativen Modells, das im Datenspeicher des generativen Modells 212 gespeichert ist, und der Videodaten. (Block 335).
Die Steuerung fährt dann mit Block 325 fort, wo simulierte 2D-Bilder mit Hilfe des neuen 3D-Modells erzeugt werden. Die Blöcke 325 bis 355 werden wiederholt, bis die Beispiel-Modellbereitstellungseinheit 280 bestimmt, dass die durch den Verlustidentifikator 250 berechnete Verlustmenge unterhalb einer Verlustschwelle liegt. (Block 340 sendet ein Ergebnis JA zurück). Wenn die Verlustmenge zum Beispiel unterhalb der Verlustschwelle liegt, wurde das 3D-Modell mit Hilfe des generativen Modells und des diskriminativen Modells bis zu dem Punkt erzeugt, an dem (1) der Diskriminator 240 nicht zwischen simulierten Bildern aus dem 3D-Modell und ihren realen Gegenstücken unterscheiden kann und (2) sich die simulierten Bilder und die realen Bilder um weniger als eine Schwellenmenge unterscheiden. Als Reaktion darauf, dass die Beispiel-Modellbereitstellungseinheit 280 bestimmt, dass die durch den Verlustidentifikator 250 berechnete Verlustmenge unterhalb einer Verlustschwelle liegt, stellt die Beispiel-Modellbereitstellungseinheit 280 das erzeugte 3D-Modell als eine Ausgabe bereit. (Block 360).
4 ist ein Flussdiagramm, das repräsentativ für maschinenlesbare Anweisungen ist, welche ausgeführt werden können, um den Beispiel-3D-Modellersteller zum Berechnen eines Gesamtverlustwertes, der im Prozess des Erstellens eines 3D-Modells verwendet wird, zu implementiere. Insgesamt weist die Gesamtverlustfunktion des veranschaulichten Beispiels von 4 zwei Komponenten auf: einen Szenenrekonstruktionsverlust L_{Rekonstruktion} und einen Kreuzentropie-Verlust L_{Kreuzentropie}. Die Gesamtverlustfunktion kann somit wie in Gleichung 1 unten gezeigt dargestellt werden. $L_{G e s a m t} = L_{R e k o n s t r u k t i o n} + λ L_{K r e u z e n t r o p i e}$
In Gleichung 1 ist λ ein Parameter, der zum Anpassen der Prozentsätze zwischen dem Szenenrekonstruktionsverlust und dem Kreuzentropie-Verlust verwendet werden kann.
Der Szenenrekonstruktionsverlust wird basierend auf den Bildpaaren berechnet, die an den Diskriminator 240 bereitgestellt werden. In hierin offenbarten Beispielen werden drei quantitative Bildeffektindikatoren zum Messen der Unterschiede zwischen diesen Bildern angewandt. Jedoch kann auch jeglicher andere Ansatz zum Quantifizieren eines Unterschiedsbetrages zwischen Paaren von Bildern zusätzlich oder alternativ verwendet werden.
Der Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251 des Beispiel-Verlustidentifikators 250 berechnet einen PSNR (Peak Signal to Noise Ratio - Spitzen-Signal-Rausch-Verhältnis) -Wert zum Bewerten der Unterschiedswirkung aus der Graustufentreue. (Block 410). Das PSNR stellt ein Verhältnis zwischen einer maximalen möglichen Leistung eines Bildes und der Leistung von verfälschendem Rauschen, welche die Treue der Darstellung des Bildes beeinträchtigt, dar. Gleichung 2 unten veranschaulicht einen Beispielansatz zum Berechnen eines PSNR-Wertes: $P S N R (x, y) = 10 l o g_{10} (\frac{{(M A X_{I})}^{2}}{M S E (x, y)})$
In Gleichung 2 stellen x und y die beiden verglichenen Bilder dar (z.B. die Bilder in dem Paar aus dem realen und dem simulierten Bild). MSE stellt die mittlere quadratische Abweichung dar und MAX_I stellt den maximalen möglichen Pixelwert des gegebenen Bildes dar.
Der Beispiel-Strukturähnlichkeitsidentifikator 252 des Beispiel-Verlustidentifikators 250 berechnet einen SSIM (Structural Similarity - Strukturähnlichkeit) -Wert, der eine Ähnlichkeit zwischen zwei Bildern darstellt. (Block 420). Ein Beispielansatz zum Berechnen des SSIM-Wertes ist in Gleichung 3 unten gezeigt. $S S I M (x, y) = \frac{(2 μ_{x} μ_{y} + C_{1}) (2 σ_{x y} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}$
In Gleichung 3 oben stellt µ_x einen Durchschnittswert des Bildes x dar, µ_y stellt einen Durchschnittswert des Bildes y dar, $σ_{x}^{2}$
stellt die Varianz des Bildes x dar, $σ_{y}^{2}$
stellt die Varianz des Bildes y dar und σ_xy stellt die Kovarianz von x und y dar. C₁ und C₂ sind Variable, die zum Stabilisieren der Division verwendet werden, die in Gleichung 3 stattfindet.
Der Beispiel-Identifikator der normalisierten Korrelation 253 des Beispiel-Verlustidentifikators 250 berechnet einen NC (Normalized Correlation - normalisierte Korrelation) -Wertindikator, der eine Ähnlichkeit zwischen den gleichen Dimensionsvektoren darstellt. Ein Beispielansatz zum Berechnen des normalisierten Korrelationswertes ist unten in Gleichung 4 gezeigt. $N C (x, y) = \frac{x \cdot y}{‖ x ‖ ‖ y ‖}$
In Gleichung 4 oben stellen x und y die beiden verglichenen Bilder dar (z.B. die Bilder in dem Paar aus dem realen und dem simulierten Bild).
Der Beispiel-Verlustidentifikator 250 kombiniert den PSNR-Wert, den SSIM-Wert und den NC-Wert zum Bilden des Gesamtrekonstruktionsfehler-Wertes. (Block 440). Ein Beispielansatz zum Kombinieren des PSNR-Wertes, des SSIM-Wertes und des NC-Wertes ist in Gleichung 5 unten gezeigt: $L_{R e k o n s t r u k t i o n} = \sum_{j = 1}^{N_{S z e n e}} {\begin{matrix} α \cdot [1 - E_{S i g m o i d a l (P S N R_{G_{j} F_{j}})}] + \\ β \cdot (1 - S S I M_{G_{j} F_{j}}) + \\ γ \cdot (1 - N C_{G_{j} F_{j}}) \end{matrix}}$
In Gleichung 5 oben sind α,β,γ Parameter zum Anpassen der Prozentsätze unter den Verlustwerten aus dem PSNR-, dem SSIM- und dem NC-Wert. Die Tiefstellung G_jF_j stellt das Paar aus Grundwahrheit und simulierten Bildern dar. Das Symbol N_Szene stellt die Gesamtzahl von 2D-Szenen-Bildpaaren dar.
Der Beispiel-Kreuzentropie-Kalkulator 254 berechnet einen Kreuzentropie-Verlust. (Block 450). In hierin offenbarten Beispielen wird ein WGAN (Wasserstein-GAN) in Verbindung mit dem Trainingsprozess des diskriminativen Modells und des generativen Modells verwendet. Das Ziel des Trainings des generativen Netzwerks G und des diskriminativen Netzwerks D ist in Gleichung 6 unten gezeigt: $min_{G} max_{D} \underset{x \sim ℙ_{r}}{E} [D (x)] - \underset{\tilde{x} \sim ℙ_{g}}{E} [D (\tilde{x})]$
In Gleichung 6 oben ist ℙ_r eine Verteilung der Bilder einer realen Szene und ℙ_g ist eine Verteilung der Bilder einer erzeugten Szene. x̃ wird implizit durch das generative Netzwerk G erzeugt. Beim rohen WGAN-Trainingsprozess resultiert Gewichtungs-Clipping in Optimierungsschwierigkeiten, einschließlich zum Beispiel Nichtausschöpfung der Kapazität, Gradientenexplosion, verschwindenden Gradienten usw. In hierin offenbarten Beispielen wird eine Gradientenstrafe verwendet. Somit wird der Kreuzentropie-Verlust durch den Beispiel-Kreuzentropie-Kalkulator 254 mit Hilfe von Gleichung 7 unten berechnet: $L_{K r e u z e n t r o p i e} = \underset{x \sim ℙ_{r}}{E} [D (x)] - \underset{\tilde{x} \sim ℙ_{g}}{E} [D (\tilde{x})] - θ \underset{\hat{x} \sim ℙ_{\hat{x}}}{E} [{({‖ \nabla_{\hat{x}} D (\hat{x}) ‖}_{2} - 1)}^{2}]$
In Gleichung 7 oben ist θ ein Parameter, der zum Anpassen der Prozentsätze der Gradientenstrafe im Kreuzentropie-Verlust verwendet wird. ℙ_x̂ ist implizit als der Datensatz definiert, welcher gleichmäßig entlang gerader Linien zwischen Punktepaaren, die aus der ℙ_r - und der ℙ_g -Verteilung stammen, abgetastet wird. Der Wert dieses Kreuzentropie-Verlustes kann quantitativ den Fehler darstellen, der im generativen/diskriminativen Trainingsprozess vorliegt.
Der Beispiel-Verlustidentifikator 250 kombiniert den Rekonstruktionsverlust L_{Rekonstruktion} und den Kreuzentropie-Verlust L_{Kreuzentropie} . (Block 460). In hierin offenbarten Beispielen wird der Gesamtverlust wie in Gleichung 8 unten gezeigt berechnet. $L_{G e s a m t} = L_{R e k o n s t r u k t i o n} + λ L_{K r e u z e n t r o p i e}$
In Gleichung 8 ist λ ein Parameter, der zum Anpassen der Prozentsätze zwischen dem Szenenrekonstruktionsverlust und dem Kreuzentropie-Verlust verwendet werden kann. Der Beispiel-Verlustwert wird dann als ein Ergebnis von Block 335 zurückgesendet und wird zum Bestimmen verwendet, ob ein akzeptabler Verlustbetrag (z.B. Konvergenz) erreicht wurde. (Block 340 von 3).
5 ist ein Blockdiagramm einer Beispielprozessorplattform 500, die zum Ausführen der Anweisungen von 3 und/oder 4 zum Implementieren des 3D-Modellerstellers 200 von 2 strukturiert ist. Die Prozessorplattform 500 kann zum Beispiel ein Server, ein PC, eine Workstation, eine selbstlernende Maschine (z.B. ein neuronales Netzwerk), ein Mobilgerät (z.B. ein Mobiltelefon, ein Smartphone, ein Tablet, wie z.B. ein iPad^TM), ein PDA (Personal Digital Assistant), eine Internet-Appliance, eine Spielekonsole, ein persönlicher Videorekorder, eine Set-Top-Box, ein Headset oder ein anderes tragbares Gerät oder jegliche andere Art eines Rechengerätes sein.
Die Prozessorplattform 500 des veranschaulichten Beispiels weist einen Prozessor 512 auf. Der Prozessor 512 des veranschaulichten Beispiels ist Hardware. Zum Beispiel kann der Prozessor 512 durch eine/n oder mehrere integrierte Schaltungen, Logikschaltungen, Mikroprozessoren, GPUs, DSPs oder Controller aus jeder gewünschten Familie oder von jedem gewünschten Hersteller implementiert sein. Der Hardware-Prozessor kann ein Halbleiter-basiertes (z.B. Silicium-basiertes) Gerät sein. In diesem Beispiel implementiert der Prozessor die Beispiel-Videodatenzugriffseinheit 205, den Beispiel-3D-Modellgenerator 210, den Beispiel-Kamerapositionsidentifikator 220, den Beispiel-Bildsimulator 230, den Beispiel-Bildselektor 235, den Beispiel-Diskriminator 240, den Beispiel-Verlustidentifikator 250, den Beispiel-Identifikator des Spitzen-Signal-Rausch-Verhältnisses 251, den Beispiel-Strukturähnlichkeitsidentifikator 252, den Beispiel-Identifikator der normalisierten Korrelation 253, den Beispiel-Kreuzentropie-Kalkulator 254, den Beispiel-Trainer des diskriminativen Modells 260, den Beispiel-Trainer des generativen Modells 270 und die Beispiel-Modellbereitstellungseinheit 280.
Der Prozessor 512 des veranschaulichten Beispiels weist einen lokalen Arbeitsspeicher 513 (z.B. einen Cache) auf. Der Prozessor 512 des veranschaulichten Beispiels steht über einen Bus 518 in Kommunikation mit einem Hauptspeicher, der einen flüchtigen Speicher 514 und einen nichtflüchtigen Speicher 516 aufweist. Der flüchtige Speicher 514 kann durch SDRAM (Synchronous Dynamic Random Access Memory), DRAM (Dynamic Random Access Memory), RDRAM® (RAMBUS® Dynamic Random Access Memory) und/oder jegliche andere Art eines Direktzugriffspeichergerätes implementiert sein. Der nichtflüchtige Speicher 516 kann durch Flash-Speicher und/oder jegliche andere gewünschte Art eines Speichergerätes implementiert sein. Der Zugriff auf den Hauptspeicher 514, 516 wird durch einen Speicher-Controller gesteuert.
Die Prozessorplattform 500 des veranschaulichten Beispiels weist auch eine Schnittstellenschaltung 520 auf. Die Schnittstellenschaltung 520 kann durch jegliche Art eines Schnittstellenstandards implementiert sein, wie z.B. eine Ethernet-Schnittstelle, einen USB (Universal Serial Bus), eine Bluetooth®-Schnittstelle, eine NFC (Near Field Communication) -Schnittstelle und/oder eine PCI-Express-Schnittstelle.
In dem veranschaulichten Beispiel sind ein oder mehrere Eingabegeräte 522 mit der Schnittstellenschaltung 520 verbunden. Das/die Eingabegerät(e) 522 gestattet/gestatten einem Benutzer das Eingeben von Daten und/oder Befehlen in den Prozessor 512. Das/die Eingabegerät(e) kann/können zum Beispiel durch einen Audiosensor, ein Mikrofon, eine Kamera (Foto oder Video), eine Tastatur, eine Taste, eine Maus, einen Touchscreen, ein Trackpad, einen Trackball, Isopoint und/oder ein Spracherkennungssystem implementiert sein.
Ein oder mehrere Ausgabegeräte 524 sind auch mit der Schnittstellenschaltung 520 des veranschaulichten Beispiels verbunden. Die Ausgabegeräte 524 können zum Beispiel durch Anzeigegeräte (z.B. eine LED (Light Emitting Diode), eine OLED (Organic Light Emitting Diode), ein LCD (Liquid Crystal Display), eine CRT (Cathode Ray Tube) - Anzeige, eine IPS (In-Place Switching) -Anzeige, einen Touchscreen usw.), ein taktiles Ausgabegerät, einen Drucker und/oder einen Lautsprecher implementiert sein. Die Schnittstellenschaltung 520 des veranschaulichten Beispiels weist somit typischerweise eine Grafiktreiberkarte, einen Grafiktreiberchip und/oder einen Grafiktreiberprozessor auf.
Die Schnittstellenschaltung 520 des veranschaulichten Beispiels weist auch ein Kommunikationsgerät auf, wie z.B. einen Sender, einen Empfänger, einen Sendeempfänger, ein Modem, ein Residential Gateway, einen drahtlosen Zugangspunkt und/oder eine Netzwerkschnittstelle zum Ermöglichen des Austauschs von Daten mit externen Maschinen (z.B. Rechengeräten jeglicher Art) über ein Netzwerk 526. Die Kommunikation kann zum Beispiel über eine Ethernet-Verbindung, eine DSL (Digital Subscriber Line) -Verbindung, eine Telefonleitungsverbindung, ein Koaxialkabelsystem, ein Satellitensystem, ein drahtloses LOS (Line-Of-Site) -System, ein Mobiltelefonsystem usw. erfolgen.
Die Prozessorplattform 500 des veranschaulichten Beispiels weist auch ein oder mehrere Massenspeichergeräte 528 zum Speichern von Software und/oder Daten auf. Zu Beispielen derartiger Massenspeichergeräte 528 zählen Diskettenlaufwerke, Festplattenlaufwerke, CD-Laufwerke, Blu-ray-Disk-Laufwerke, RAID (Redundant Array of Independent Disks) -Systeme und DVD (Digital Versatile Disk) -Laufwerke. In dem veranschaulichten Beispiel von 5 implementieren die Beispiel-Massenspeichergeräte 528 den Beispiel-Datenspeicher des generativen Modells 212, den Beispiel-3D-Modell-Datenspeicher 215 und den Beispiel-Datenspeicher des diskriminativen Modells 245.
Die maschinenausführbaren Anweisungen 532 von 3 und/oder 4 können im Massenspeichergerät 528, im flüchtigen Speicher 514, im nichtflüchtigen Speicher 516 und/oder auf einem entfernbaren nicht-transitorischen computerlesbaren Speichermedium, wie z.B. einer CD oder DVD, gespeichert sein.

Aus dem Vorstehenden wird verstanden werden, dass Beispielverfahren, eine Beispielvorrichtung und Beispielherstellungsgegenstände offenbart wurden, die das Erstellen eines 3D-Modells basierend auf Videodaten ermöglichen. Hierin offenbarte Beispielansätze resultieren im Vergleich zu bestehenden Ansätzen zum Erstellen eines 3D-Modells in genaueren Modellen. Zum Beispiel resultieren hierin offenbarte Beispielansätze unter Verwendung eines ähnlichen Datensatzes, wie zum Beispiel einem ICL-NUIM (Imperial College of London and National University of Ireland Maynooth) -Datensatz, in besseren Szenenrekonstruktionen im Vergleich zu anderen Ansätzen. Tabelle 1 unten zeigt BRE (Balanced Rank Estimation) -Punktzahlen in einem Bereich von -1 bis +1 für unterschiedliche Kombinationen von Szenen und Rekonstruktionsansätzen. Punktzahlen näher an +1 geben eine rekonstruierte Szene an, die einen geringeren relativen Unterschied zwischen der rekonstruierten Szene und der realen 3D-Szene aufweist. Tabelle 1

	Visual-SFM	SUN3D-SFM	Kintinuous	DVO-SLAM	RRoIS	ElasticFusion	Hierin offenbarte Ansätze
Wohnzimmer 1	-0,13	0,02	-0,53	-0,90	0,47	-0,33	0,62
Wohnzimmer 2	-0,27	-0,13	-0,89	-0,65	0,66	-0,67	0,80
Wohnzimmer 1	-0,34	-0,17	-0,93	-0,68	0,63	-0,70	0,77
Wohnzimmer 2	-0,19	-0,06	-0,72	-0,79	0,55	-0,54	0,71
Büro-raum 1	-0,29	-0,15	-0,71	-0,41	0,09	-0,51	0,29
Büro-raum 2	-0,27	-0,11	-0,83	-0,57	0,58	-0,61	0,76
Büro-raum 3	-0,32	-0,16	-0,87	-0,59	0,60	-0,63	0,82
Büro-raum 4	-0,26	-0,12	-0,76	-0,48	0,23	-0,57	0,46

Die Spalten von Tabelle 1 oben stellen unterschiedliche Szenenrekonstruktionsansätze dar, einschließlich zum Beispiel einen Visual-SFM-Ansatz, einen SUN3D-SFM-Ansatz, einen Kintinuous-Ansatz, einen DVO-SLAM-Ansatz, einen RRoIS-Ansatz, einen ElasticFusion-Ansatz und die hierin offenbarten Beispielansätze. Die Zeilen von Tabelle 1 stellen unterschiedliche Szenen im Beispiel-ICL-NUIM-Datensatz dar, und jede der Zellen stellt BRE-Punktzahlen für die/den entsprechende/n Szene und Rekonstruktionsansatz dar. Wie in Tabelle 1 gezeigt, resultieren die BRE-Punktzahlen für die hierin offenbarten Beispielansätze in Modellen, die genauer sind als andere Ansätze.
Beispiel 1 weist eine Vorrichtung zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion auf, wobei die Vorrichtung einen 3D-Szenengenerator zum Erzeugen eines 3D-Modells zur Digitalbild-Szenenrekonstruktion basierend auf einem trainierten generativen Modell und einem digitalen Bild, das in einer realen Umgebung aufgenommen wurde, einen Bildsimulator zum Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht, und einen Diskriminator zum Anwenden eines diskriminativen Modells auf das simulierte Bild, um zu bestimmen, ob das simulierte Bild simuliert ist, umfasst.
Beispiel 2 weist die Vorrichtung von Beispiel 1 auf, welche ferner einen Verlustidentifikator zum Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob der Diskriminator korrekt bestimmt hat, dass das simulierte Bild ein simuliertes Bild ist, einen Trainer des generativen Modells zum Trainieren des generativen Modells als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, und einen Trainer des diskriminativen Modells zum Trainieren des diskriminativen Modells als Reaktion darauf, dass der Verlustwert die Verlustschwelle nicht erfüllt, aufweist.
Beispiel 3 weist die Vorrichtung von Beispiel 2 auf, welche ferner einen Identifikator des Spitzen-Signal-Rausch-Verhältnisses zum Berechnen eines Spitzen-Signal-Rausch-Verhältnisses zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem Spitzen-Signal-Rausch-Verhältnis basiert.
Beispiel 4 weist die Vorrichtung von Beispiel 2 auf, welche ferner einen Strukturähnlichkeitsidentifikator zum Berechnen eines Strukturähnlichkeitswertes zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem Strukturähnlichkeitswert basiert.
Beispiel 5 weist die Vorrichtung von Beispiel 2 auf, welche ferner einen Identifikator der normalisierten Korrelation zum Berechnen eines normalisierten Korrelationswertes zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem normalisierten Korrelationswert basiert.
Beispiel 6 weist die Vorrichtung von Beispiel 2 auf, wobei der 3D-Szenengenerator ferner, als Reaktion auf das Trainieren des generativen Modells, dem Erzeugen des 3D-Modells basierend auf dem trainierten generativen Modell und mehreren aufgenommenen Bildern dient.
Beispiel 7 weist die Vorrichtung von einem der Beispiele 1 bis 6 auf, welche ferner einen Kamerapositionsidentifikator zum Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild aufweist, wobei der Bildsimulator dem Erzeugen des simulierten Bildes basierend auf der identifizierten Position innerhalb des 3D-Modells dient.
Beispiel 8 weist mindestens ein nicht-transitorisches maschinenlesbares Medium auf, das Anweisungen umfasst, welche, wenn sie ausgeführt werden, eine Maschine mindestens zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion basierend auf einem trainierten generativen Modell und einem digitalen Bild, das in einer realen Umgebung aufgenommen wurde, zum Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht, und zum Anwenden eines diskriminativen Modells, um das simulierte Bild entweder als real oder simuliert zu identifizieren, veranlasst.
Beispiel 9 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 8 auf, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner mindestens zum Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das diskriminative Modell das simulierte Bild korrekt entweder als real oder simuliert identifiziert hat, und, als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, zum Trainieren des diskriminativen Modells und des generativen Modells veranlassen.
Beispiel 10 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 9 auf, wobei der Verlustwert auf einem Spitzen-Signal-Rausch-Verhältnis zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 11 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 9 auf, wobei der Verlustwert auf einem Strukturähnlichkeitswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 12 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 9 auf, wobei der Verlustwert auf einem normalisierten Korrelationswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 13 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 9 auf, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner, als Reaktion auf das Trainieren des generativen Modells, zum Erzeugen des 3D-Modells basierend auf dem generativen Modell und mehreren aufgenommenen Bildern veranlassen.
Beispiel 14 weist das mindestens eine maschinenlesbare Speichermedium von Beispiel 8 auf, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner zum Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild veranlassen, wobei das Erzeugen des simulierten Bildes auf der identifizierten Position innerhalb des 3D-Modells basiert.
Beispiel 15 weist ein Verfahren zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion auf, wobei das Verfahren das Erzeugen des 3D-Modells einer realen Umgebung basierend auf einem generativen Modell und einem aufgenommenen Bild der realen Umgebung, das Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht, und das Anwenden eines diskriminativen Modells, um zu bestimmen, ob das simulierte Bild real oder simuliert ist, umfasst.
Beispiel 16 weist das Verfahren von Beispiel 15 auf, welches ferner das Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das simulierte Bild korrekt als ein simuliertes Bild bestimmt wurde, und, als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, das Trainieren des diskriminativen Modells und des generativen Modells aufweist.
Beispiel 17 weist das Verfahren von Beispiel 16 auf, wobei der Verlustwert auf einem Spitzen-Signal-Rausch-Verhältnis zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 18 weist das Verfahren von Beispiel 16 auf, wobei der Verlustwert auf einem Strukturähnlichkeitswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 19 weist das Verfahren von Beispiel 16 auf, wobei der Verlustwert auf einem normalisierten Korrelationswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Beispiel 20 weist das Verfahren von Beispiel 16 auf, welches ferner, als Reaktion auf das Trainieren des generativen Modells, das Erzeugen des 3D-Modells basierend auf mehreren aufgenommenen Bildern aufweist.
Beispiel 21 weist das Verfahren von einem der Beispiele 15 bis 20 auf, welches ferner das Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild aufweist, wobei das Erzeugen des simulierten Bildes auf der identifizierten Position innerhalb des 3D-Modells basiert.
Beispiel 22 weist eine Vorrichtung zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion auf, wobei die Vorrichtung Mittel zum Erzeugen eines 3D-Modells einer realen Umgebung basierend auf einem generativen Modell und einem aufgenommenen Bild der realen Umgebung, Mittel zum Simulieren eines Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht, und Mittel zum Anwenden eines diskriminativen Modells, um zu bestimmen, ob das simulierte Bild entweder aufgenommen oder simuliert ist, umfasst.
Beispiel 23 weist die Vorrichtung von Beispiel 22 auf, welche ferner Mittel zum Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das Mittel zum Anwenden korrekt bestimmt hat, dass das simulierte Bild entweder aufgenommen oder simuliert ist, ein erstes Mittel zum Trainieren des generativen Modells als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, und ein zweites Mittel zum Trainieren des diskriminativen Modells als Reaktion darauf, dass der Verlustwert die Verlustschwelle nicht erfüllt, aufweist.
Beispiel 24 weist die Vorrichtung von Beispiel 23 auf, wobei das Mittel zum Berechnen ferner dem Berechnen eines Spitzen-Signal-Rausch-Verhältnisses zwischen dem simulierten Bild und dem aufgenommenen Bild dient, wobei der Verlustwert auf dem Spitzen-Signal-Rausch-Verhältnis basiert.
Beispiel 25 weist die Vorrichtung von Beispiel 23 auf, wobei das Mittel zum Berechnen ferner dem Berechnen eines Strukturähnlichkeitswertes zwischen dem simulierten Bild und dem aufgenommenen Bild dient, wobei der Verlustwert auf dem Strukturähnlichkeitswert basiert.
Beispiel 26 weist die Vorrichtung von Beispiel 23 auf, wobei das Mittel zum Berechnen ferner dem Berechnen eines normalisierten Korrelationswertes zwischen dem simulierten Bild und dem aufgenommenen Bild dient, wobei der Verlustwert auf dem normalisierten Korrelationswert basiert.
Beispiel 27 weist die Vorrichtung von Beispiel 23 auf, wobei das Mittel zum Erzeugen ferner, als Reaktion auf das Trainieren des generativen Modells, dem Erzeugen des 3D-Modells basierend auf dem trainierten generativen Modell und mehreren aufgenommenen Bildern dient.
Beispiel 28 weist die Vorrichtung von Beispiel 22 auf, welche ferner Mittel zum Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild aufweist, wobei der Bildsimulator dem Erzeugen des simulierten Bildes basierend auf der identifizierten Position innerhalb des 3D-Modells dient.
Beispiel 29 weist die Vorrichtung von einem der Beispiele 23 bis 27 auf, welche ferner Mittel zum Bereitstellen des 3D-Modells, als Reaktion darauf, dass der Verlustwert die Verlustschwelle erfüllt, aufweist.
Obwohl hierin bestimmte Beispielverfahren, eine bestimmte Beispielvorrichtung und bestimmte Beispielherstellungsgegenstände offenbart wurden, ist der Abdeckungsumfang dieses Patentes nicht darauf beschränkt. Vielmehr deckt dieses Patent alle Verfahren, jede Vorrichtung und alle Herstellungsgegenstände ab, die angemessen innerhalb des Umfangs der Ansprüche dieses Patentes fallen.

Claims

Vorrichtung zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion, wobei die Vorrichtung Folgendes umfasst: einen 3D-Szenengenerator zum Erzeugen eines 3D-Modells zur Digitalbild-Szenenrekonstruktion basierend auf einem trainierten generativen Modell und einem digitalen Bild, das in einer realen Umgebung aufgenommen wurde; einen Bildsimulator zum Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht; und einen Diskriminator zum Anwenden eines diskriminativen Modells auf das simulierte Bild, um zu bestimmen, ob das simulierte Bild simuliert ist.
Vorrichtung nach Anspruch 1, welche ferner Folgendes aufweist: einen Verlustidentifikator zum Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob der Diskriminator korrekt bestimmt hat, dass das simulierte Bild ein simuliertes Bild ist; einen Trainer des generativen Modells zum Trainieren des generativen Modells als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt; und einen Trainer des diskriminativen Modells zum Trainieren des diskriminativen Modells als Reaktion darauf, dass der Verlustwert die Verlustschwelle nicht erfüllt.
Vorrichtung nach Anspruch 2, welche ferner einen Identifikator des Spitzen-Signal-Rausch-Verhältnisses zum Berechnen eines Spitzen-Signal-Rausch-Verhältnisses zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem Spitzen-Signal-Rausch-Verhältnis basiert.
Vorrichtung nach Anspruch 2, welche ferner einen Strukturähnlichkeitsidentifikator zum Berechnen eines Strukturähnlichkeitswertes zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem Strukturähnlichkeitswert basiert.
Vorrichtung nach Anspruch 2, welche ferner einen Identifikator der normalisierten Korrelation zum Berechnen eines normalisierten Korrelationswertes zwischen dem simulierten Bild und dem aufgenommenen Bild aufweist, wobei der Verlustwert auf dem normalisierten Korrelationswert basiert.
Vorrichtung nach Anspruch 2, wobei der 3D-Szenengenerator ferner, als Reaktion auf das Trainieren des generativen Modells, dem Erzeugen des 3D-Modells basierend auf dem trainierten generativen Modell und mehreren aufgenommenen Bildern dient.
Vorrichtung nach einem der Ansprüche 1 bis 6, welche ferner einen Kamerapositionsidentifikator zum Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild aufweist, wobei der Bildsimulator dem Erzeugen des simulierten Bildes basierend auf der identifizierten Position innerhalb des 3D-Modells dient.
Mindestens ein nicht-transitorisches maschinenlesbares Medium, das Anweisungen umfasst, welche, wenn sie ausgeführt werden, eine Maschine mindestens zu Folgendem veranlassen: Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion basierend auf einem trainierten generativen Modell und einem digitalen Bild, das in einer realen Umgebung aufgenommen wurde; Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht; und Anwenden eines diskriminativen Modells, um das simulierte Bild entweder als real oder simuliert zu identifizieren.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 8, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner mindestens zu Folgendem veranlassen: Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das diskriminative Modell das simulierte Bild korrekt entweder als real oder simuliert identifiziert hat; und als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, Trainieren des diskriminativen Modells und des generativen Modells.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 9, wobei der Verlustwert auf einem Spitzen-Signal-Rausch-Verhältnis zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 9, wobei der Verlustwert auf einem Strukturähnlichkeitswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 9, wobei der Verlustwert auf einem normalisierten Korrelationswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 9, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner, als Reaktion auf das Trainieren des generativen Modells, zum Erzeugen des 3D-Modells basierend auf dem generativen Modell und mehreren aufgenommenen Bildern veranlassen.
Mindestens ein maschinenlesbares Speichermedium nach Anspruch 8, wobei die Anweisungen, wenn sie ausgeführt werden, die Maschine ferner zum Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild veranlassen, wobei das Erzeugen des simulierten Bildes auf der identifizierten Position innerhalb des 3D-Modells basiert.
Verfahren zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion, wobei das Verfahren Folgendes umfasst: Erzeugen des 3D-Modells einer realen Umgebung basierend auf einem generativen Modell und einem aufgenommenen Bild der realen Umgebung; Erzeugen eines simulierten Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht; Anwenden eines diskriminativen Modells, um zu bestimmen, ob das simulierte Bild real oder simuliert ist.
Verfahren nach Anspruch 15, welches ferner Folgendes aufweist: Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das simulierte Bild korrekt als ein simuliertes Bild bestimmt wurde; und als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt, Trainieren des diskriminativen Modells und des generativen Modells.
Verfahren nach Anspruch 16, wobei der Verlustwert auf einem Spitzen-Signal-Rausch-Verhältnis zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Verfahren nach Anspruch 16, wobei der Verlustwert auf einem Strukturähnlichkeitswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Verfahren nach Anspruch 16, wobei der Verlustwert auf einem normalisierten Korrelationswert zwischen dem simulierten Bild und dem aufgenommenen Bild basiert.
Verfahren nach Anspruch 16, welches ferner, als Reaktion auf das Trainieren des generativen Modells, das Erzeugen des 3D-Modells basierend auf mehreren aufgenommenen Bildern aufweist.
Verfahren nach einem der Ansprüche 15 bis 20, welches ferner das Identifizieren einer Position innerhalb des 3D-Modells für das aufgenommene Bild aufweist, wobei das Erzeugen des simulierten Bildes auf der identifizierten Position innerhalb des 3D-Modells basiert.
Vorrichtung zum Erzeugen eines dreidimensionalen (3D) Modells zur Digitalbild-Szenenrekonstruktion, wobei die Vorrichtung Folgendes umfasst: Mittel zum Erzeugen eines 3D-Modells einer realen Umgebung basierend auf einem generativen Modell und einem aufgenommenen Bild der realen Umgebung; Mittel zum Simulieren eines Bildes basierend auf dem 3D-Modell, wobei das simulierte Bild dem aufgenommenen Bild entspricht; und Mittel zum Anwenden eines diskriminativen Modells, um zu bestimmen, ob das simulierte Bild entweder aufgenommen oder simuliert ist.
Vorrichtung nach Anspruch 22, welche ferner Folgendes aufweist: Mittel zum Berechnen eines Verlustwertes basierend auf Unterschieden zwischen dem simulierten Bild und dem aufgenommenen Bild, wobei der Verlustwert darauf basiert, ob das Mittel zum Anwenden korrekt bestimmt hat, dass das simulierte Bild entweder aufgenommen oder simuliert ist; ein erstes Mittel zum Trainieren des generativen Modells als Reaktion darauf, dass der Verlustwert eine Verlustschwelle nicht erfüllt; und ein zweites Mittel zum Trainieren des diskriminativen Modells als Reaktion darauf, dass der Verlustwert die Verlustschwelle nicht erfüllt.
Vorrichtung nach Anspruch 23, wobei das Mittel zum Berechnen ferner dem Berechnen eines Spitzen-Signal-Rausch-Verhältnisses zwischen dem simulierten Bild und dem aufgenommenen Bild dient, wobei der Verlustwert auf dem Spitzen-Signal-Rausch-Verhältnis basiert.
Vorrichtung nach Anspruch 23, wobei das Mittel zum Berechnen ferner dem Berechnen eines Strukturähnlichkeitswertes zwischen dem simulierten Bild und dem aufgenommenen Bild dient, wobei der Verlustwert auf dem Strukturähnlichkeitswert basiert.