DE102022105471A1

DE102022105471A1 - Generieren von modifizierten Digitalbildern unter Einsatz von tiefen visuellen angeleiteten Patchabgleichsmodellen zur Bildwiederherstellung

Info

Publication number: DE102022105471A1
Application number: DE102022105471.3A
Authority: DE
Inventors: Sohrab Amirghodsi; Lingzhi Zhang; Zhe Lin; Connelly Barnes; Elya Shechtman
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2021-03-15
Filing date: 2022-03-09
Publication date: 2022-09-15
Also published as: US20220292650A1; CN115082329A; GB2606836A; AU2022201703B2; GB202203239D0; AU2022201703A1; GB2606836B

Abstract

Die vorliegende Offenbarung betrifft Systeme, Verfahren und nichttemporäre computerlesbare Medien zum akkuraten, effizienten und flexiblen Generieren von modifizierten Digitalbildern unter Einsatz des Konzeptes der angeleiteten Wiederherstellung, das ein Patchabgleichsmodell, das von einer tiefen visuellen Anleitung informiert wird, implementiert. Einsetzen können die offenbarten Systeme insbesondere einen die visuelle Anleitung betreffenden Algorithmus zum automatischen Generieren von Anleitungskarten zur Unterstützung des Identifizierens von Ersetzungspixeln für Wiederherstellungsbereiche von Digitalbildern unter Einsatz eines Patchabgleichsmodells. Die offenbarten Systeme können beispielsweise Anleitungskarten in Form von Strukturkarten, Tiefenkarten oder Segmentierungskarten generieren, die die Struktur, die Tiefe beziehungsweise die Segmentierung von verschiedenen Abschnitten von Digitalbildern angeben. Implementieren können die offenbarten Systeme zusätzlich ein Patchabgleichsmodell zum Identifizieren von Ersetzungspixeln zum Füllen von Bereichen von Digitalbildern entsprechend der Struktur, Tiefe und/oder Segmentierung der Digitalbilder.

Description

Hintergrund
In den vergangenen Jahren waren merkliche Entwicklungen bei Software- und Hardwareplattformen zum Digitalbildinpainting bzw. zur Digitalbildwiederherstellung zum Rekonstruieren von fehlenden oder schadhaften Bereichen von Digitalbildern zu beobachten. Einige Digitalbildbearbeitungsanwendungen setzen dabei Inpainting- bzw. Wiederherstellungsfunktionen ein, um unerwünschte Objekte oder ablenkende Elemente aus Digitalbildern zu entfernen und um den Bereich der entfernten Pixel mit einem passenden Ergebnis zu füllen. Viele Digitalbildbearbeitungssysteme können beispielsweise patchbasierte Konzepte einsetzen, bei denen exemplarische Pixel aus anderen Abschnitten eines Digitalbildes entnommen werden, um schadhafte Bereichen zu füllen. Andere Digitalbildbearbeitungssysteme füllen Bereiche von Digitalbildern, indem sie lernbasierte tiefe Netzwerke implementieren, um natürliche Bildverteilungen mittels Trainieren an großen Datensätzen zu lernen. Ungeachtet dieser Fortschritte weisen herkömmliche Digitalbildbearbeitungssysteme weiterhin eine Anzahl von Einschränkungen oder Nachteilen auf, und zwar insbesondere mit Blick auf Akkuratheit, Effizienz und Flexibilität.
Zusammenfassung
Eine oder mehrere der hier beschriebenen Ausführungsformen bieten Vorteile und lösen eines oder mehrere der vorbeschriebenen Probleme oder andere Probleme im Stand der Technik bei Systemen, Verfahren und nichttemporären computerlesbaren Medien, die modifizierte Digitalbilder unter Einsatz des Konzeptes der angeleiteten Wiederherstellung (guided inpainting) akkurat, effizient und flexibel generieren. Insbesondere implementieren die offenbarten Systeme bei einer oder mehreren Ausführungsformen ein hybrides angeleitetes Patchabgleichsmodell, das die Konzepte eines patchbasierten und tiefen Netzwerkes in einer einzigen Digitalbildverarbeitungspipeline implementiert. Insbesondere kombinieren die offenbarten Systeme die Fähigkeit des patchbasierten Konzeptes zur qualitativ hochwertigen Textsynthese mit der Fähigkeit des Konzeptes eines tiefen Netzwerkes zum semantischen Verstehen eines Bildes. Bei einigen Ausführungsformen generieren die offenbarten Systeme automatisch Anleitungskarten, die das Identifizieren von Ersetzungspixeln für Inpainting- bzw. Wiederherstellungsbereiche von Digitalbildern unterstützen. Die offenbarten Systeme generieren beispielsweise Anleitungskarten in Form von Strukturkarten, Tiefenkarten, Segmentierungskarten (oder anderen visuellen Anleitungen). Generieren können die offenbarten Systeme diese Anleitungskarten unter Nutzung eines neuronalen Inpainting- bzw. Wiederherstellungsnetzwerkes (inpainting neural network) zusammen mit einem die visuelle Anleitung betreffenden Algorithmus oder durch Einsetzen eines eigenständigen die visuelle Anleitung betreffenden Algorithmus, so beispielsweise eines neuronalen Generator-Netzwerkes oder einer Architektur eines Lehrer-Lerner-Netzwerkes. Zusätzlich implementieren die offenbarten Systeme bei einigen Ausführungsformen ein Patchabgleichsmodell (patch match model) zum Identifizieren von Ersetzungspixeln zum Füllen von Bereichen von Digitalbildern entsprechend diesen tiefen visuellen Anleitungen. Unter Einsatz einer tiefen visuellen Anleitung (deep visual guide) zusammen mit einem Patchabgleichsmodell können die offenbarten Systeme realistische modifizierte Digitalbilder mit einer Vielzahl von Auflösungen akkurat, effizient und flexibel generieren.
Zusätzliche Merkmale und Vorteile einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung sind in der nachfolgenden Beschreibung gegeben, erschließen sich aus der Beschreibung oder können durch die praktische Umsetzung derartiger exemplarischer Ausführungsformen erkannt werden.
Figurenliste
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen der Erfindung mit zusätzlicher Spezifität und Detailliertheit anhand der begleitenden Figuren. Die nachfolgenden Absätze beschreiben die Figuren kurz.

1 zeigt eine exemplarische Systemumgebung, in der ein die angeleitete Wiederherstellung betreffendes System arbeitet, entsprechend einer oder mehreren Ausführungsformen.
2 zeigt eine Übersicht über das Generieren eines modifizierten Digitalbildes durch Wiederherstellen eines oder mehrerer Bereiche eines Eingabedigitalbildes unter Einsatz eines Patchabgleichsmodells und einer tiefen visuellen Anleitung entsprechend einer oder mehreren Ausführungsformen.
3 zeigt einen exemplarischen Prozess des Generierens eines modifizierten Digitalbildes unter Einsatz einer tiefen visuellen Anleitung, die aus einem wiederhergestellten Digitalbild generiert wird, entsprechend einer oder mehreren Ausführungsformen.
4 zeigt einen exemplarischen Prozess des Generierens einer tiefen visuellen Anleitung aus einem Eingabedigitalbild unter Einsatz eines neuronalen Generator-Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
5 zeigt einen exemplarischen Prozess des Generierens einer tiefen visuellen Anleitung aus einem Eingabedigitalbild unter Einsatz eines Frameworks eines neuronalen Lehrer-Lerner-Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
6 zeigt das Einsetzen von mehreren tiefen visuellen Anleitungen und eines Patchabgleichsmodells zum Identifizieren von Ersetzungspixeln entsprechend einer oder mehreren Ausführungsformen.
7 zeigt einen Vergleich von modifizierten Digitalbildern, die von einem herkömmlichen Patchabgleichssystem und einem die strukturangeleitete Wiederherstellung betreffenden System generiert werden, entsprechend einer oder mehreren Ausführungsformen.
8 zeigt einen Vergleich von modifizierten Digitalbildern, die von einem herkömmlichen Patchabgleichssystem und einem die tiefenangeleitete Wiederherstellung betreffenden System generiert werden, entsprechend einer oder mehreren Ausführungsformen.
9 zeigt einen Vergleich von modifizierten Digitalbildern, die von einem herkömmlichen Patchabgleichssystem und einem die segmentierungsangeleitete Wiederherstellung betreffenden System generiert werden, entsprechend einer oder mehreren Ausführungsformen.
10 zeigt ein schematisches Diagramm eines die angeleitete Wiederherstellung betreffenden Systems entsprechend einer oder mehreren Ausführungsformen.
11 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum Generieren eines modifizierten Digitalbildes durch Identifizieren von Ersetzungspixeln unter Einsatz eines angeleiteten Patchabgleichsmodells entsprechend einer oder mehreren Ausführungsformen.
12 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung entsprechend einer oder mehreren Ausführungsformen.

Detailbeschreibung
Eine oder mehrere der hier beschriebenen Ausführungsformen beinhalten ein die angeleitete Wiederherstellung betreffendes System (guided inpainting system), das modifizierte Digitalbilder unter Einsatz des Konzeptes der angeleiteten Wiederherstellung (inpainting) akkurat, effizient und flexibel generiert. Insbesondere generiert das die angeleitete Wiederherstellung betreffende System bei einer oder mehreren Ausführungsformen eine tiefe visuelle Anleitung, die ein Patchabgleichsmodell darüber informiert, Ersetzungspixel zur Wiederherstellung eines Bereiches eines Digitalbildes zu identifizieren. Zum Generieren der tiefen visuellen Anleitung setzt das angeleitete Inpainting- bzw. Wiederherstellungssystem einen die visuelle Anleitung betreffenden Algorithmus ein, so beispielsweise ein neuronales Segmentierungsbildnetzwerk (segmentation image neural network), ein neuronales Bildtiefennetzwerk (image deth neural network), ein Strukturbildmodell oder eine Kombination aus zweien oder mehr der vorgenannten. Bei einigen Implementierungen generiert das die angeleitete Wiederherstellung betreffende System eines oder mehrere von einer Strukturbildanleitung, einer Bildtiefenanleitung oder einer Segmentierungsbildanleitung aus einem Digitalbild. Zusätzlich implementiert das angeleitete Inpainting- bzw. Wiederherstellungssystem ein Patchabgleichsmodell zum Identifizieren von Ersetzungspixeln, die von der tiefen visuellen Anleitung angegeben werden, und zum Wiederherstellen eines Bereiches eines Digitalbildes unter Nutzung der Ersetzungspixel. Durch Einsetzen einer tiefen visuellen Anleitung zusammen mit einem Patchabgleichsmodell kann das die angeleitete Wiederherstellung betreffende System realistische modifizierte Digitalbilder in nahezu beliebiger Auflösung akkurat, effizient und flexibel generieren.
Wie eben erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System bei einer oder mehreren Ausführungsformen eine tiefe visuelle Anleitung zusammen mit einem Patchabgleichsmodell ein, um Bereiche eines Digitalbildes, die fehlen, verschwommen oder auf andere Weise unerwünscht sind, wiederherzustellen. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise einen die visuelle Anleitung betreffenden Algorithmus dafür ein, eine tiefe visuelle Anleitung zum Identifizieren von Ersetzungspixeln zu generieren, um einen Bereich eines Digitalbildes zu füllen. In einigen Fällen empfängt das die angeleitete Wiederherstellung betreffende System eine Anforderung zum Bearbeiten eines Digitalbildes, das fehlende oder unerwünschte Pixel in einem oder mehreren Bereichen beinhaltet. Auf Grundlage der Anforderung generiert das die angeleitete Wiederherstellung betreffende System bei einigen Ausführungsformen eine wiederhergestellte Fassung des Digitalbildes unter Einsatz eines vorab trainierten neuronalen Wiederherstellungsnetzwerkes. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise ein neuronales Wiederherstellungsnetzwerk ein, um das Digitalbild zu verarbeiten und den Bereich von Pixeln zu füllen, um wiederum einen Anfangssatz von Ersetzungspixeln zu ersetzen. In gewissen Fällen ist das wiederhergestellte Digitalbild eine eine niedrigere Auflösung aufweisende Fassung des Digitalbildes, und der Anfangssatz von Ersetzungspixeln ist eine vorläufige Ersetzung für den Bereich des Digitalbildes.
Wie ebenfalls vorstehend erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System bei gewissen Ausführungsformen eine tiefe visuelle Anleitung, um das akkurate Füllen des Bereiches des Digitalbildes zu unterstützen. In einigen Fällen generiert das die angeleitete Wiederherstellung betreffende System eine tiefe visuelle Anleitung aus dem vorläufigen wiederhergestellten Digitalbild. In anderen Fällen generiert das die angeleitete Wiederherstellung betreffende System eine tiefe visuelle Anleitung direkt aus dem Digitalbild mit dem fehlenden oder unerwünschten Bereich.
Zum Generieren der tiefen visuellen Anleitung aus dem wiederhergestellten Digitalbild setzt das die angeleitete Wiederherstellung betreffende System beispielsweise einen die visuelle Anleitung betreffenden Algorithmus ein. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System bei einer oder mehreren Ausführungsformen einen die visuelle Anleitung betreffenden Algorithmus ein, so beispielsweise eines oder mehrere von einem Strukturbildmodell, einem neuronalen Bildtiefennetzwerk oder einem neuronalen Segmentierungsbildnetzwerk. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise ein Strukturbildmodell ein, um eine tiefe visuelle Anleitung in Form einer Strukturbildanleitung, die eine oder mehrere Strukturen innerhalb des wiederhergestellten Digitalbildes angibt, zu generieren. Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System ein neuronales Bildtiefennetzwerk ein, um eine tiefe visuelle Anleitung in Form einer Bildtiefenanleitung, die verschiedene Tiefen innerhalb des wiederhergestellten Digitalbildes angibt, zu generieren. Bei dieser oder anderen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System ein neuronales Segmentierungsbildnetzwerk ein, um eine tiefe visuelle Anleitung in Form einer Segmentierungsbildanleitung, die verschiedene semantische Segmentierungen innerhalb des wiederhergestellten Digitalbildes angibt, zu generieren.
Wie vorstehend erwähnt worden ist, generiert das die angeleitete Bildwiederherstellung betreffende System bei einigen Ausführungsformen die tiefe visuelle Anleitung direkt aus dem Anfangsdigitalbild, das den fehlenden oder unerwünschten Bereich aufweist. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise eines oder mehrere von einem neuronalen Generator-Netzwerk oder einem Framework eines neuronalen Lehrer-Lerner-Netzwerkes ein. Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System bei einer oder mehreren Ausführungsformen ein neuronales Generator-Netzwerk einsetzt, das ein neuronales Encoder-Netzwerk und ein neuronales Decoder-Netzwerk beinhaltet, um eine tiefe visuelle Anleitung durch Vorhersagen der Struktur innerhalb des fehlenden oder unerwünschten Bereiches / innerhalb der fehlenden oder unerwünschten Bereiche zu generieren. Das die angeleitete Wiederherstellung betreffende System setzt das neuronale Generator-Netzwerk beispielsweise ein, um die Struktur innerhalb des Bereiches vorherzusagen, indem es eines oder mehrere von dem Anfangsdigitalbild, einem Zwischendigitalbild, das eine Struktur außerhalb des Bereiches angibt, und/oder einer Binärmaske, die den Bereich angibt, verarbeitet.
Bei einer oder mehreren Ausführungsformen, bei denen das Framework eines neuronalen Lehrer-Lerner-Netzwerkes zum Einsatz kommt, generiert das die angeleitete Wiederherstellung betreffende System eine tiefe visuelle Anleitung unter Einsatz eines neuronalen Lerner-Netzwerkes, um eines oder mehrere von einer Tiefe oder einer Segmentierung innerhalb des Bereiches von zu ersetzenden Pixeln vorherzusagen. Das die angeleitete Wiederherstellung betreffende System setzt das neuronale Lerner-Netzwerk beispielsweise ein, um die Tiefe oder die Segmentierung entsprechend Parametern, die von einem neuronalen Lehrer-Netzwerk gelernt werden, vorherzusagen. In gewissen Fällen lernt das die angeleitete Wiederherstellung betreffende System die Parameter durch Einsetzen des neuronalen Lehrer-Netzwerkes, um Etiketten (labels) für ein vollständiges Digitalbild zu generieren, und durch Einsetzen des neuronalen Lerner-Netzwerkes, um ähnliche Etiketten zu generieren, indem ein unvollständiges Digitalbild verarbeitet wird (beispielsweise eine Fassung desselben Digitalbildes, das von dem neuronalen Lehrer-Netzwerk verarbeitet wird, jedoch mit einem oder mehreren Bereichen von fehlenden oder unerwünschten Pixeln). Nach dem Trainieren kann das die angeleitete Wiederherstellung betreffende System das neuronale Lerner-Netzwerk einsetzen, um digitale visuelle Anleitungen (beispielsweise Strukturbilder oder Tiefenkarten) für Digitalbilder, darunter Digitalbilder mit Löchern oder anderen Ersetzungsbereichen, zu generieren.
In einigen Fällen kombiniert das die angeleitete Wiederherstellung betreffende System mehrere Typen oder Variationen von tiefen visuellen Anleitungen beim Generieren eines modifizierten Digitalbildes. Das die angeleitete Wiederherstellung betreffende System weist der Strukturbildanleitung (oder dem Strukturbildmodell), der Bildtiefenanleitung (oder dem neuronalen Bildtiefennetzwerk) und der Segmentierungsbildanleitung (oder dem neuronalen Segmentierungsbildnetzwerk) Gewichtungen zu, um eines von den vorgenannten oder eines oder mehrere von den vorgenannten mit einem Patchabgleichsmodell zu kombinieren, das dafür genutzt wird, Ersetzungspixel aus einem Digitalbild zu identifizieren. Bei einer oder mehreren Ausführungsformen identifiziert das die angeleitete Wiederherstellung betreffende System auf Grundlage des Generierens der tiefen visuellen Anleitung Ersetzungspixel zum Füllen oder Wiederherstellen des Bereiches des Digitalbildes mit fehlenden oder unerwünschten Pixeln. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System die tiefe visuelle Anleitung zusammen mit einem Patchabgleichsmodell ein, um Ersetzungspixel innerhalb des Anfangsdigitalbildes (oder innerhalb eines anderen Digitalbildes) zu identifizieren. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise eine Strukturbildanleitung ein, um innerhalb des Digitalbildes Pixel, die eine Struktur entsprechend einer Struktur des Bereiches von zu ersetzenden Pixeln aufweisen, zu identifizieren. Bei einem weiteren Beispiel setzt das die angeleitete Wiederherstellung betreffende System eine Bildtiefenanleitung ein, um Pixel, die eine Tiefe entsprechend einer Tiefe des Bereiches aufweisen, zu identifizieren. Bei wieder einem anderen Beispiel setzt das die angeleitete Wiederherstellung betreffende System eine Segmentierungsbildanleitung ein, um Pixel, die eine semantische Segmentierung entsprechend einer semantischen Segmentierung des Bereiches aufweisen, zu identifizieren.
Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System eine Kostenfunktion des Patchabgleichsmodells ein, um Ersetzungspixel aus einem Digitalbild zu identifizieren und auszuwählen. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise eine Kostenfunktion ein, die Abstände zwischen Pixeln, die ersetzt werden sollen, und potenziellen Ersetzungspixeln bestimmt. In einigen Fällen modifiziert das die angeleitete Wiederherstellung betreffende System die Kostenfunktion, um eine oder mehrere Variationen einer tiefen visuellen Anleitung mit dem Patchabgleichsmodell bei dem Prozess des Identifizierens und Auswählens von Ersetzungspixeln zu kombinieren. Das die angeleitete Wiederherstellung betreffende System modifiziert die Kostenfunktion beispielsweise auf Grundlage einer gewichteten Kombination der Anfangspatchabgleichskostenfunktion und eines oder mehrerer von der Strukturbildanleitung, der Bildtiefenanleitung und/oder der Segmentierungsbildanleitung (mit ihren jeweiligen Gewichtungen). Das die angeleitete Wiederherstellung betreffende System identifiziert Ersetzungspixel beispielsweise auf Grundlage des Patchabgleichsmodells und einer oder mehrerer Variationen einer tiefen visuellen Anleitung.
Wie vorstehend erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System bei einigen Ausführungsformen ein modifiziertes Digitalbild durch Ersetzen oder Wiederherstellen des Bereiches des Digitalbildes durch fehlende oder unerwünschte Pixel. Das die angeleitete Wiederherstellung betreffende System setzt beispielsweise ein Patchabgleichsmodell ein, um ein modifiziertes Digitalbild zu generieren, indem es einen Bereich eines Digitalbildes durch Ersetzungspixel, die mittels der tiefen visuellen Anleitung identifiziert werden, ersetzt. Insbesondere kann das die angeleitete Wiederherstellung betreffende System das Patchmodell dahingehend anleiten, Ersetzungspixel für einen Bereich auf Grundlage der Segmente, Strukturen und/oder Tiefen, die innerhalb der tiefen visuellen Anleitung wiedergeben sind, zu identifizieren.
Wie erwähnt worden ist, weisen herkömmliche Digitalbildbearbeitungssysteme eine Anzahl von Unzulänglichkeiten insbesondere mit Blick auf Akkuratheit, Effizienz und Flexibilität auf. Beispielsweise modifizieren viele herkömmliche Systeme Digitalbilder nicht akkurat. Digitalbildbearbeitungssystemen, die herkömmliche patchbasierte Konzepte einsetzen, fehlt beispielsweise oftmals ein semantisches oder geometrisches Verständnis für den Digitalbildcontent. Im Ergebnis wählen diese herkömmlichen Systeme Ersetzungspixel, die visuell auffällig oder deplatziert sind, oftmals nicht akkurat aus, um einen Bereich eines Digitalbildes zu füllen. Zusätzlich generieren herkömmliche Systeme, die Konzepte eines neuronalen Netzwerkes einsetzen, oftmals Digitalbilder, denen realistische Texturdetails fehlen.
Zusätzlich sind viele herkömmliche Digitalbildbearbeitungssysteme auch nicht effizient. Insbesondere erfordern herkömmliche Systeme zum Generieren von akkuraten Digitalbildern oftmals Digitalbildbearbeitungssysteme, die zahlreiche Nutzerinteraktionen, viel Zeit und entsprechende Rechenressourcen (beispielsweise mit Blick auf Verarbeitungsleistung und Speicher) benötigen. Clientvorrichtungen stellen beispielsweise oftmals verschiedene Nutzerschnittstellen und interaktive Werkzeuge zur Korrektur von Fehlern in Bereichen bereit. Beispielsweise benötigen herkömmliche Systeme oftmals eine Nutzerinteraktion zum Identifizieren von Farbanleitungsbereichen außerhalb von Löchern innerhalb eines Digitalbildes. Zusätzlich erfordert das Korrigieren von Fehlern, die sich aus der Anwendung von Wiederherstellungsalgorithmen ergeben, oftmals, dass Clientvorrichtungen ein Zoomen, Panning, Auswählen und iteratives Anwenden von verschiedenen Algorithmen vornehmen müssen, um Bereiche innerhalb von Digitalbildern akkurat zu füllen.
Zusätzlich sind herkömmliche Digitalbildbearbeitungssysteme auch nicht flexibel. Wie vorstehend erläutert worden ist, sind herkömmliche Systeme oftmals beispielsweise nicht in der Lage, Digitalbilder, die semantisches Bewusstsein über verschiedene Merkmale eines Digitalbildes hinweg wie auch Texturkonsistenz benötigen, akkurat wiederherzustellen. Aufgrund der beträchtlichen Speichereinschränkungen bei vielen herkömmlichen Systemen, die Konzepte eines neuronalen Netzwerkes einsetzen, sind derartige Systeme zusätzlich oftmals starr auf das Wiederherstellen von eine niedrige Auflösung aufweisenden Digitalbildern beschränkt. Entsprechend sind herkömmliche Systeme oftmals nicht in der Lage, eine qualitativ hochwertige Textur in Digitalbildern mit 1K übersteigenden Auflösungen zu verarbeiten.
Wie vorstehend ausgeführt worden ist, können Ausführungsformen des die angeleitete Wiederherstellung betreffenden Systems zahlreiche Vorteile gegenüber herkömmlichen Digitalbildbearbeitungssystemen bieten. Ausführungsformen des die angeleitete Wiederherstellung betreffenden Systems können beispielsweise eine verbesserte Akkuratheit gegenüber herkömmlichen Systemen bereitstellen. Während viele herkömmliche Systeme ein Digitalbild nicht akkurat modifizieren, indem sie nicht korrekte oder deplatzierte Pixel zum Füllen von Bereichen eines Digitalbildes per Copy and Paste verarbeiten, setzt das die angeleitete Wiederherstellung betreffende System ein angeleitetes Konzept ein, das die Semantiken und Texturen des Digitalbildes berücksichtigt. Gewisse Ausführungsformen des die angeleitete Wiederherstellung betreffenden Systems setzen eine tiefe visuelle Anleitung ein, die verschiedene Strukturen, Tiefen und/oder Segmentierungen eines Digitalbildes berücksichtigt, um Ersetzungspixel, die zu einem fehlenden oder unerwünschten Bereich stärker zusammenhängend passen, akkurat auszuwählen.
Das die angeleitete Wiederherstellung betreffende System kann zudem die Recheneffizienz gegenüber vielen herkömmlichen Digitalbildbearbeitungssystemen verbessern. Durch Generieren von Digitalbildern und Füllen von Bereichen unter Einsatz eines neuronalen Wiederherstellungsnetzwerkes / eines die visuelle Anleitung betreffenden Algorithmus und eines Patchabgleichsmodells kann das die angeleitete Wiederherstellung betreffende System auf Nutzerschnittstellen, Interaktionen, Werkzeuge und Algorithmen zum Identifizieren von Farbbereichen innerhalb oder außerhalb eines Füllbereiches verzichten. Darüber hinaus kann das die angeleitete Wiederherstellung betreffende System bei akkurateren Pixeldarstellungen Nutzerschnittstelleninteraktionen, die Zeit und entsprechende Rechenressourcen beim Korrigieren von Füllpixeln merklich verringern. Das die angeleitete Wiederherstellung betreffende System kann Bereiche von Digitalbildern mit einer einzigen Nutzerschnittstelle, einer minimalen Nutzerinteraktion (beispielsweise einem einzigen Anklicken einer Schaltfläche) und merklich verringerter Zeit (beispielsweise in Sekunden) automatisch füllen.
Darüber hinaus können Ausführungsformen des die angeleitete Wiederherstellung betreffenden Systems des Weiteren die Flexibilität gegenüber herkömmlichen Digitalbildbearbeitungssystemen verbessern. Primär kann das die angeleitete Wiederherstellung betreffende System akkurate Digitalbilder generieren, die sowohl semantische wie auch Texturmerkmale eines Digitalbildes wiedergeben. Darüber hinaus sind einige Ausführungsformen des die angeleitete Wiederherstellung betreffenden Systems daran anpassbar, qualitativ hochwertige fotorealistische Texturen in höheren Auflösungen als bei vielen herkömmlichen Systemen zu generieren. Herkömmliche Systeme, die neuronale Netzwerke einsetzen, sind oftmals nur auf das Generieren von Digitalbildern mit niedrigeren Auflösungen (beispielsweise von weniger als 1K) beschränkt. Das die angeleitete Wiederherstellung betreffende System nutzt demgegenüber eine tiefe visuelle Anleitung, um Digitalbilder niedriger Auflösung zu verarbeiten, zusammen mit einem Patchabgleichsmodell, das akkurate Ausgabedigitalbilder mit einer Vielzahl von Auflösungen (beispielsweise mit hoher Auflösung oder niedriger Auflösung) generieren kann. Entsprechend kann sich das die angeleitete Wiederherstellung betreffende System flexibel daran anpassen, modifizierte Digitalbilder in nahezu beliebiger Auflösung zu generieren, und dies sogar bei hohen Auflösungen, die bei modernen Digitalbildern üblicherweise vorliegen.
Insgesamt fehlt bei herkömmlichen Systemen, die patchbasierte Konzepte einsetzen, das semantische Verständnis, und es fehlt bei herkömmlichen Systemen, die Konzepte eines neuronalen Netzwerkes einsetzen, eine realistische Textur, und sie scheitern an Vorgängen mit Bildern höher Auflösung. Im Gegensatz hierzu stellt das die angeleitete Wiederherstellung betreffende System eine qualitativ hochwertige Texturanalyse mit bildsemantischem Verständnis beim effizienten, akkuraten und flexiblen Generieren von Digitalbildern über eine Vielzahl von verschiedenen Auflösungen hinweg bereit.
Zusätzliche Details im Zusammenhang mit dem die angeleitete Wiederherstellung betreffenden System werden nunmehr anhand der Figuren beschrieben. 1 zeigt beispielsweise ein schematisches Diagramm einer exemplarischen Systemumgebung zum Implementieren eines die angeleitete Wiederherstellung betreffenden Systems 102 entsprechend einer oder mehreren Ausführungsformen. Eine Übersicht über das die angeleitete Wiederherstellung betreffende System 102 ist in anhand 1 gegeben. Anschließend folgt eine detailliertere Beschreibung der Komponenten und Prozesse des die angeleitete Wiederherstellung betreffenden Systems 102 anhand der nachfolgenden Figuren.
Wie gezeigt ist, beinhaltet die Umgebung einen Server / (mehrere) Server 104, eine Clientvorrichtung 108, eine Datenbank 112 und ein Netzwerk 114. Jede der Komponenten der Umgebung kommuniziert über das Netzwerk 114, wobei das Netzwerk 114 ein beliebiges geeignetes Netzwerk ist, über das Rechenvorrichtungen kommunizieren. Exemplarische Netzwerke werden nachstehend detaillierter anhand 12 erläutert.
Wie erwähnt worden ist, beinhaltet die Umgebung eine Clientvorrichtung 108. Die Clientvorrichtung 108 ist eine aus einer Vielzahl von Rechenvorrichtungen, darunter ein Smartphone, ein Tablet, ein intelligenter Fernseher (smart television), ein Desktopcomputer, ein Laptopcomputer, eine Vorrichtung für virtuelle Realität, eine Vorrichtung für erweiterte Realität oder eine andere Rechenvorrichtung, wie sie anhand 12 beschrieben wird. Obwohl 1 eine einzige Clientvorrichtung 108 darstellt, beinhaltet die Umgebung bei einigen Ausführungsformen mehrere verschiedene Clientvorrichtungen, die jeweils einem anderen Nutzer (beispielsweise einem Digitalbildbearbeiter) zugeordnet sind. Die Clientvorrichtung 108 kommuniziert mit dem Server / den Servern 104 über das Netzwerk 114. Die Clientvorrichtung 108 empfängt beispielsweise eine Nutzereingabe von einem Nutzer, der mit der Clientvorrichtung 108 (beispielsweise über die Clientanwendung 110) interagiert, um beispielsweise ein Digitalbild zu bearbeiten oder zu modifizieren, indem Pixel eines oder mehrerer Bereiche des Digitalbildes gefüllt oder ersetzt werden. In einigen Fällen empfängt die Clientvorrichtung 108 eine Nutzereingabe über die Clientanwendung 110, um eine Digitalcontentvorgangssequenz zu generieren und/oder eine Digitalcontentvorgangssequenz auszuführen. Das die angeleitete Wiederherstellung betreffende System 102 auf dem Server / den Servern 104 empfängt Information oder Anweisungen zum Generieren eines modifizierten Digitalcontentobjektes unter Einsatz eines oder mehrerer Digitalcontentbearbeitungsvorgänge, die innerhalb der Datenbank 112 gespeichert sind.
Wie gezeigt ist, beinhaltet die Clientvorrichtung 108 eine Clientanwendung 110. Insbesondere ist die Clientanwendung 110 eine Webanwendung, eine native Anwendung, die auf der Clientvorrichtung 108 installiert ist (beispielsweise eine mobile Anwendung, eine Desktopanwendung und dergleichen), oder eine cloudbasierte Anwendung, bei der die Funktionalität gänzlich oder in Teilen von dem Server / den Servern 104 übernommen wird. Die Clientanwendung 110 präsentiert einem Nutzer Information, darunter eine Digitalbildbearbeitungsschnittstelle, oder zeigt diese an. In einigen Fällen interagiert ein Nutzer mit der Clientanwendung 110, um eine Nutzereingabe bereitzustellen, um wiederum Vorgänge wie die vorstehend erwähnten durchzuführen, so beispielsweise das Modifizieren eines Digitalbildes durch Entfernen eines Objektes und/oder das Ersetzen oder Füllen von Pixeln in einem oder mehreren Bereichen des Digitalbildes.
Bei einigen Ausführungsformen kann das die angeleitete Wiederherstellung betreffende System 102 gänzlich oder in Teilen unter Nutzung der Clientanwendung 110 (oder der Clientvorrichtung 108) implementiert sein. Das die angeleitete Wiederherstellung betreffende System 102 beinhaltet beispielsweise eine Webhostinganwendung, die ermöglicht, dass die Clientvorrichtung 108 mit dem Server / den Servern 104 interagiert, um Daten, so beispielsweise tiefe visuelle Anleitungen und modifizierte Digitalbilder (die beispielsweise von dem Server / den Servern 104 generiert werden), zu senden und zu empfangen. In einigen Fällen generiert das die angeleitete Wiederherstellung betreffende System 102 modifizierte Digitalbilder mittels der tiefen visuellen Anleitungen gänzlich auf der Clientvorrichtung 108 (beispielsweise unter Einsatz der Verarbeitungskapazitäten, die lokal auf der Clientvorrichtung 108 vorhanden sind), ohne zwangsweise mit dem Server / den Servern 104 zu kommunizieren, und stellt diese bereit.
Wie in 1 dargestellt ist, beinhaltet die Umgebung den Server / die Server 104. Der Server / die Server 104 nimmt/nehmen ein Generieren, Verfolgen, Speichern, Verarbeiten, Empfangen und Übertragen von elektronischen Daten, so beispielsweise von Digitalbildern, von die visuelle Anleitung betreffenden Algorithmen, von tiefen visuellen Anleitungen, von Patchabgleichsmodellen und Angaben zu Nutzerinteraktionen, vor. Der Server / die Server 104 empfängt/empfangen Daten von der Clientvorrichtung 108 beispielsweise in Form einer Angabe einer Nutzerinteraktion, die einen Digitalbildbearbeitungsvorgang (beispielsweise zum Entfernen eines Objektes oder Ersetzen von Pixeln eines bestimmten Bereiches) auswählt. Zusätzlich überträgt/übertragen der Server / die Server 104 Daten an die Clientvorrichtung 108, um ein modifiziertes Digitalbild bereitzustellen, das einen wiederhergestellten Bereich mit Pixeln beinhaltet, die mittels eines Patchabgleichsmodells zusammen mit einer tiefen visuellen Anleitung ersetzt worden sind. Der Server / die Server 104 kommuniziert/kommunizieren mit der Clientvorrichtung 108, um Daten über das Netzwerk 114 zu übertragen und/oder zu empfangen. Bei einigen Ausführungsformen umfasst/umfassen der Server / die Server 104 einen verteilten Server, bei dem der Server / die Server 104 eine Anzahl von Servervorrichtungen, die über das Netzwerk 114 verteilt und an verschiedenen physischen Orten befindlich sind, beinhaltet/beinhalten. Der Server / die Server 104 umfasst/umfassen einen Digitalbildserver, einen Contentserver, einen Anwendungsserver, einen Kommunikationsserver, einen Webhostingserver, einen mehrdimensionalen Server oder einen für maschinelles Lernen vorgesehenen Server.
Wie in 1 gezeigt ist, beinhaltet/beinhalten der Server / die Server 104 zudem das die angeleitete Wiederherstellung betreffende System 102 als Teil eines Digitalcontentbearbeitungssystems 106. Das Digitalcontentbearbeitungssystem 106 kommuniziert mit der Clientvorrichtung 108, um verschiedene Funktionen, die der Clientanwendung 110 zugeordnet sind, zu übernehmen, so beispielsweise das Speichern und Verwalten eines Vorrates von Digitalbildern, das Modifizieren von Digitalbildern und das Bereitstellen von modifizierten Digitalbildobjekten zur Anzeige. Beispielsweise kommuniziert das die angeleitete Wiederherstellung betreffende System 102 mit der Datenbank 112, um auf ein Digitalbild, ein Patchabgleichsmodell und einen die visuelle Anleitung betreffenden Algorithmus, der zum Modifizieren des Digitalbildes benutzt wird, zuzugreifen. Wie in 1 weiter gezeigt ist, beinhaltet die Umgebung eine Datenbank 112. Insbesondere speichert die Datenbank 112 Information, so beispielsweise Digitalbilder, einen die visuelle Anleitung betreffenden Algorithmus, tiefe visuelle Anleitungen, Patchabgleichsmodelle und/oder andere Typen von neuronalen Netzwerken.
Obwohl 1 eine bestimmte Anordnung der Umgebung darstellt, weist die Umgebung bei einigen Ausführungsformen auch eine andere Anordnung von Komponenten auf und/oder kann insgesamt eine andere Anzahl oder einen anderen Satz von Komponenten aufweisen. Bei einigen Ausführungsformen ist das die angeleitete Wiederherstellung betreffende System 102 beispielsweise durch die Clientvorrichtung 108 und/oder eine drittseitige Vorrichtung implementiert (beispielsweise gänzlich oder in Teilen darauf befindlich). Zusätzlich kommuniziert die Clientvorrichtung 108 bei einer oder mehreren Ausführungsformen direkt mit dem die angeleitete Wiederherstellung betreffenden System 102 unter Umgehung des Netzwerkes 114. Des Weiteren ist die Datenbank 112 bei einigen Ausführungsformen außerhalb des Servers / der Server 104 (beispielsweise in Kommunikation über das Netzwerk 114) oder auf dem Server / den Servern 104 und/oder auf der Clientvorrichtung 108 befindlich.
Wie erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System 102 bei einer oder mehreren Ausführungsformen ein modifiziertes Digitalbild durch Füllen oder Ersetzen von Pixeln in einem oder mehreren Bereichen. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 eine tiefe visuelle Anleitung und ein Patchabgleichsmodell ein, um Ersetzungspixel zum Füllen des einen oder der mehreren Bereiche zu identifizieren. 2 zeigt das Modifizieren eines Digitalbildes durch Ersetzen von Bereichen 206 und 208 durch fehlende oder auf andere Weise unerwünschte Pixel unter Einsatz einer tiefen visuellen Anleitung 210 und eines Patchabgleichsmodells 218 entsprechend einer oder mehreren Ausführungsformen.
Wie in 2 dargestellt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 das modifizierte Digitalbild 204 aus dem Anfangsdigitalbild 202. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 ein Patchabgleichsmodell 218 und eine tiefe visuelle Anleitung 210 ein, um Ersetzungspixel zu identifizieren sowie den Bereich 206 und den Bereich 208 mit Pixeln zu füllen, die zu einer visuell zusammenhängenden Ausgabe (wo beispielsweise Ersetzungsziegelpixel an Orten, an denen Ziegel sein sollen, eingefüllt werden und wo Ersetzungsstrauchpixel an Orten, an denen Sträucher sein sollen, eingefüllt werden) in Form des modifizierten Digitalbildes 204 führen.
Eine tiefe visuelle Anleitung (beispielsweise die tiefe visuelle Anleitung 210) beinhaltet eine Anleitung, die ein Patchabgleichsmodell (beispielsweise das Patchabgleichsmodell 218) anweist oder informiert, um Ersetzungspixel zum Füllen eines Bereiches (beispielsweise des Bereiches 206 und/oder des Bereiches 208) eines Digitalbildes (beispielsweise des Anfangsdigitalbildes 202) zu identifizieren. In einigen Fällen beinhaltet die tiefe visuelle Anleitung 210 eine digitale und/oder visuelle Darstellung einer oder mehrerer Strukturen innerhalb des Anfangsdigitalbildes 202, einer oder mehrerer Tiefen innerhalb des Anfangsdigitalbildes 202 und/oder einer oder mehrerer semantischer Segmentierungen innerhalb des Anfangsdigitalbildes 202. Die tiefe visuelle Anleitung 210 beinhaltet beispielsweise eine Strukturbildanleitung 212, die eine oder mehrere Strukturen innerhalb des Anfangsdigitalbildes 202 (beispielsweise ein Strukturbild, in dem Pixel Objekte oder Strukturen und Kanten oder Grenzen zwischen Objekten/Strukturen bezeichnen) angibt, eine Bildtiefenanleitung 214, die eine oder mehrere Tiefen innerhalb des Anfangsdigitalbildes 202 (beispielsweise eine Tiefenkarte, in der Pixel Abstände von Objekten von einem Betrachter oder einer das Digitalbild aufnehmenden Kamera widerspiegeln) angibt, eine Segmentierungsbildanleitung 216, die eine oder mehrere semantische Segmentierungen innerhalb des Anfangsdigitalbildes 202 (beispielsweise ein Segmentierungsbild, in dem Pixel semantische Etiketten von verschiedenen Abschnitten des Digitalbildes widerspiegeln) angibt, und/oder eine Kombination von zweien oder mehr der vorgenannten. Bei gewissen Ausführungsformen beinhaltet die tiefe visuelle Anleitung 210 einen oder mehrere weitere Typen von Anleitungen, so beispielsweise eine Bildfarbanleitung, die eine oder mehrere Farben innerhalb eines Digitalbildes angibt, einen Bildnormalenanleitung, die eine oder mehrere Digitalbildnormalen innerhalb eines Digitalbildes angibt, und/oder eine Bildkantenanleitung, die eine oder mehrere Kanten, die innerhalb eines Digitalbildes identifiziert werden, angibt.
In diesem Zusammenhang beinhaltet ein Patchabgleichsmodell (beispielsweise das Patchabgleichsmodell 218) ein Modell oder einen Computeralgorithmus, das/der Ersetzungspixel aus einem Digitalbild zum Füllen oder Wiederherstellen von Bereichen (beispielsweise des Bereiches 206 und/oder des Bereiches 208) von Pixeln sucht und/oder identifiziert. Das Patchabgleichsmodell 218 modifiziert beispielsweise das Anfangsdigitalbild 202 zum Ersetzen des Bereiches 206 und des Bereiches 208, die deplatzierte oder fehlende Pixel beinhalten, durch Pixel aus dem Digitalbild, die mit anderen Pixeln des Anfangsdigitalbildes 202 visuell stärker zusammenhängen. Unter Nutzung einer Kostenfunktion identifiziert das Patchabgleichsmodell 218 Pixel unter Einsatz einer oder mehrerer Pixelabtasttechniken (beispielsweise zufalls- oder wahrscheinlichkeitsbasiert), um Pixel abzutasten und mit Pixeln in dem Bereich 206 und/oder dem Bereich 208 von zu ersetzenden Pixeln und um diese Bereiche herum zu vergleichen. Bei einigen Ausführungsformen betrifft das Patchabgleichsmodell 218 ein Modell, das beschrieben wird in: „Patchmatch: A Randomized Correspondence Algorithm für Structural Image Editing“ von Connelly Barnes, Eli Shechtman, Adam Finkelstein und Dan B. Goldman, veröffentlicht bei „ACM Trans. Graph. 28(3):24 (2009)“. Diese Quelle ist hiermit in Gänze durch Verweis mit aufgenommen.
Wie vorstehend erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System 102 zum Generieren der tiefen visuellen Anleitung 210 einen die visuelle Anleitung betreffenden Algorithmus ein. Der die visuelle Anleitung betreffende Algorithmus beinhaltet ein Computermodell oder einen Algorithmus zum Generieren einer tiefen visuellen Anleitung (beispielsweise der tiefen visuellen Anleitung 210). Ein die visuelle Anleitung betreffender Algorithmus beinhaltet beispielsweise ein Strukturbildmodell, das die Strukturbildanleitung 212 aus einem wiederhergestellten Digitalbild (beispielsweise aus einer wiederhergestellten Fassung des Anfangsdigitalbildes 202) generiert. Alternativ beinhaltet ein die visuelle Anleitung betreffender Algorithmus ein neuronales Bildtiefennetzwerk, das die Bildtiefenanleitung 214 aus einem wiederhergestellten Digitalbild generiert. In einigen Fällen beinhaltet ein die visuelle Anleitung betreffender Algorithmus des Weiteren eine Segmentierungsbildanleitung, die die Segmentierungsbildanleitung 216 aus einem wiederhergestellten Digitalbild generiert. Bei einem weiteren Beispiel generiert ein die visuelle Anleitung betreffender Algorithmus eine tiefe visuelle Anleitung direkt aus dem Anfangsdigitalbild 202. Bei diesen Ausführungsformen kann ein die visuelle Anleitung betreffender Algorithmus eines oder mehrere von einem neuronalen Generator-Netzwerk oder einem Framework eines neuronalen Lehrer-Lerner-Netzwerkes beinhalten, um eine tiefe visuelle Anleitung direkt aus dem Anfangsdigitalbild 202 zu generieren.
Ein neuronales Netzwerk beinhaltet ein maschinell lernendes Modell, das auf Grundlage von Eingaben trainiert und/oder abgestimmt werden kann, um Klassifizierungen zu bestimmen oder unbekannte Funktionen zu nähern. Ein neuronales Netzwerk beinhaltet beispielsweise ein Modell von wechselseitig verbundenen künstlichen Neuronen (die beispielsweise in Schichten organisiert sind), die kommunizieren und lernen, komplexe Funktionen zu nähern und Ausgaben (beispielsweise generierte Digitalbilder) auf Grundlage von mehreren Eingaben, die für das neuronale Netzwerk bereitgestellt werden, zu generieren. In einigen Fällen betrifft das neuronale Netzwerk einen Algorithmus (oder einen Satz von Algorithmen), der Deep-Learning-Techniken zum Modellieren von hochgradigen Abstraktionen von Daten implementiert.
Bei einer oder mehreren Ausführungsformen beinhaltet ein wiederhergestelltes Digitalbild ein Digitalbild, das von einem tiefen neuronalen Wiederherstellungsnetzwerk generiert wird, um einen Bereich (beispielsweise den Bereich 206 und/oder den Bereich 208) von zu ersetzenden Pixeln vorläufig mit einem Anfangssatz von Ersetzungspixeln zu füllen. Das die angeleitete Wiederherstellung betreffende System 102 generiert ein wiederhergestelltes Digitalbild aus dem Anfangsdigitalbild 202 unter Einsatz eines neuronalen vorab trainierten Wiederherstellungsnetzwerkes zum Identifizieren eines Anfangssatzes von Ersetzungspixeln zur (groben) Wiederherstellung des Bereiches 206 und/oder des Bereiches 208 des Anfangsdigitalbildes 202. In einigen Fällen weist das wiederhergestellte Digitalbild eine niedrigere Auflösung als das Anfangsdigitalbild 202 und das modifizierte Digitalbild 204 auf.
Wie erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System 102 durch die verschiedenen beschriebenen Handlungen des Generierens des modifizierten Digitalbildes 204 bei einigen Ausführungsformen mehrere neuronale Netzwerke ein, die verschiedene Architekturen zum Identifizieren und Einfügen von Ersetzungspixeln aufweisen. Wie vorstehend erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System beispielsweise einen die visuelle Anleitung betreffenden Algorithmus ein, um die tiefe visuelle Anleitung 210 zu generieren. Wie ebenfalls erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales Wiederherstellungsnetzwerk ein, um ein wiederhergestelltes Digitalbild aus dem Anfangsdigitalbild 202 zu generieren. Bei einigen Ausführungsformen beinhaltet das neuronale Wiederherstellungsnetzwerk ein tiefes neuronales Netzwerk, das eine Digitalbildwiederherstellung mit iterativer Konfidenzrückkopplung und angeleitetem Upsampling durchführt.
Wie in 2 dargestellt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 das modifizierte Digitalbild 204 unter Einsatz sowohl der tiefen visuellen Anleitung 210 (beispielsweise unter Einsatz eines oder mehrerer von der Strukturbildanleitung 212, der Bildtiefenanleitung 214 oder der Segmentierungsbildanleitung 216) wie auch des Patchabgleichsmodells 218. Bei einigen Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 die tiefe visuelle Anleitung 210 aus einem wiederhergestellten Digitalbild. Bei anderen Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 die tiefe visuelle Anleitung 210 direkt aus dem Anfangsdigitalbild 202 unter Einsatz eines alternativen neuronalen Netzwerkes, so beispielsweise eines neuronalen Generator-Netzwerkes oder eines Frameworks eines neuronalen Lehrer-Lerner-Netzwerkes.
Wie eben erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System 102 bei einigen Ausführungsformen eine tiefe visuelle Anleitung (beispielsweise die tiefe visuelle Anleitung 210) aus einem wiederhergestellten Digitalbild. Insbesondere generiert das die angeleitete Wiederherstellung betreffende System 102 das wiederhergestellte Digitalbild zunächst aus einem Eingabedigitalbild (beispielsweise dem Anfangsdigitalbild 202) vor dem sodann erfolgenden Generieren einer tiefen visuellen Anleitung (beispielsweise der tiefen visuellen Anleitung 210). 3 zeigt das Generieren eines modifizierten Digitalbildes 314 aus einem Eingabedigitalbild 302 (mit einem oder mehreren Löchern oder Bereichen von fehlenden Pixeln) durch Generieren einer tiefen visuellen Anleitung 310 aus einem wiederhergestellten Digitalbild 306 entsprechend einer oder mehreren Ausführungsformen.
Wie in 3 gezeigt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 das wiederhergestellte Digitalbild 306 aus dem Eingabedigitalbild 302. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 das tiefe neuronale Wiederherstellungsnetzwerk 304 ein, um das wiederhergestellte Digitalbild 306 aus dem Eingabedigitalbild 302 zu generieren. Das tiefe neuronale Wiederherstellungsnetzwerk 304 generiert beispielsweise eine niedrige Auflösung des Eingabedigitalbildes 302 und verarbeitet oder analysiert das eine niedrige Auflösung aufweisende Bild, um einen Anfangssatz von Ersetzungspixeln zu identifizieren, die die fehlenden oder schadhaften Bereiche 303a und 303b des Eingabedigitalbildes 302 füllen oder wiederherstellen. Bei einigen Ausführungsformen wird das tiefe neuronale Wiederherstellungsnetzwerk 304 vorab trainiert, um einen Anfangssatz von Ersetzungspixeln unter Nutzung von Parametern, die aus einem Datensatz von Probedigitalbildern erlernt worden sind, zu identifizieren. Das tiefe neuronale Wiederherstellungsnetzwerk 304 identifiziert beispielsweise die Bereiche 303a und 303b von zu ersetzenden Pixeln (oder empfängt eine Angabe derselben) und ersetzt auf Grundlage der erlernten Parameter die Pixel in den Bereichen 303a und 303b durch Pixel, die aus anderen Abschnitten des Eingabedigitalbildes 302 kopiert worden sind. Bei einer oder mehreren Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 ein tiefes neuronales Wiederherstellungsnetzwerk 304 ein, so beispielsweise das neuronale Netzwerk, das beschrieben ist in: „High-resolution Inpainting with Iterative Confidence Feedback and Guided Upsampling“ von Yu Zeng, Zhe Lin, Jimei Yang, Jianming Zhang, Eli Shechtman und Huchuan Lu, veröffentlicht bei arXiv:2005.11742 (2020). Die Quelle ist hiermit in Gänze durch Verweis mit aufgenommen.
Wie in 3 gezeigt ist, beinhaltet das wiederhergestellte Digitalbild 306 eine (eine niedrigere Auflösung aufweisende) Fassung des Eingabedigitalbildes 302 mit den Bereichen 303a und 303b, die mit einem grob passenden Anfangssatz von Ersetzungspixeln wenigstens vorläufig gefüllt sind. Betrachtet man dies genauer, so weisen die Pixel, die zum Ersetzen der Bereiche 303a und 303b beim Generieren des wiederhergestellten Digitalbildes 306 benutzt werden, weiterhin zahlreiche Mängel auf, so beispielsweise eine niedrigere Auflösung, unerwünschte Flächen und nicht passende Pixel, die bewirken, dass die Ziegelwand klumpig oder verkrümmt wirkt. Um schließlich das akkuratere modifizierte Digitalbild 314 zu generieren, generiert das die angeleitete Wiederherstellung betreffende System 102 des Weiteren die tiefe visuelle Anleitung 310 aus dem wiederhergestellten Digitalbild 306.
Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 den die visuelle Anleitung betreffenden Algorithmus 308 ein, um die tiefe visuelle Anleitung 310 aus dem wiederhergestellten Digitalbild 306 zu generieren. Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System 102 die tiefe visuelle Anleitung 310 in Form einer Strukturbildanleitung 311a, einer Digitalbildanleitung 311b, einer Segmentierungsbildanleitung 311c oder einer Kombination aus zweien oder mehr der vorgenannten generiert. In einigen Fällen wird der die visuelle Anleitung betreffende Algorithmus 308 vorab mit Parametern trainiert, die aus einer Datenbank von Probedigitalbildern erlernt worden sind, um tiefe visuelle Anleitungen in der einen oder anderen Form entsprechend den Parametern zu generieren.
Wie eben erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System 102 bei einigen Ausführungsformen die Strukturbildanleitung 311a als die tiefe visuelle Anleitung 310. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 ein Strukturbildmodell als den die visuelle Anleitung betreffenden Algorithmus 308 ein, um das wiederhergestellte Digitalbild 306 zu verarbeiten und die Strukturbildanleitung 311a zu generieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein Strukturbildmodell ein, um eine oder mehrere verschiedene Strukturen innerhalb des wiederhergestellten Digitalbildes 306 zu identifizieren. In einigen Fällen identifiziert das Strukturbildmodell Strukturen auf Grundlage der Detektion von Kanten innerhalb des wiederhergestellten Digitalbildes 306.
Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System 102 das Strukturbildmodell zum Extrahieren von Strukturen aus dem wiederhergestellten Digitalbild 306 auf Grundlage von lokalen Variationsmessungen (beispielsweise einer inhärenten Variation und einer relativen Gesamtvariation) einsetzt. Das Strukturbildmodell identifiziert beispielsweise sinnvollen Content und Texturkanten, ohne eine Regelmäßigkeit oder Symmetrie vorauszusetzen. In einigen Fällen nimmt das Strukturbildmodell des Weiteren ein Identifizieren, Erhalten oder Entfernen einer Textur (oder wenigstens einiger Texturkomponenten) eines Digitalbildes als Teil des Identifizierens von Kanten oder Grenzen zwischen verschiedenen Strukturkomponenten vor. Entsprechend beinhalten Strukturbilder tendenziell große, zusammenhängende Bereiche, die verschiedene Strukturen (beispielsweise ohne kleine Bereichsvariationen) identifizieren. Da Strukturbilder tendenziell große homogene Bereiche, die gemeinsame Strukturen angeben, bereitstellen, können diese Bilder eine akkurate Ressource für ein Patchabgleichsmodell bei der Bestimmung dessen bereitstellen, aus welchen Bereichen beim Identifizieren von Ersetzungspixeln (insoweit kleine Bereichsvariationen ohne Weiteres herausgewaschen oder beim Anwenden eines Patchabgleichsalgorithmus übergangen werden können) eine Entnahme erfolgen soll.
Zusätzlich zerlegt das Strukturbildmodell ein Optimierungsproblem zum Extrahieren von Hauptstrukturen aus den Variationsmaßen. Insbesondere extrahiert das Strukturbildmodell die Hauptstrukturen entsprechend Parametern, die aus dem Vergleichen von vorhergesagten Strukturen mit Ground-Truth-Strukturinformation über einen Datensatz von Probedigitalbildern erlernt worden sind. Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 ein Strukturbildmodell in Form eines Computervisionsalgorithmus wie RTV Smooth ein. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein Strukturbildmodell ein, das beschrieben ist in: „Structure Extraction from Texture via Relative Total Variation“ von Li Zu, Qiong Yan, Yang Xia und Jiaya Jia, veröffentlicht bei „ACM Transactions on Graphics 31(6):1-10 (2012)“. Die Quelle ist hiermit in Gänze durch Verweis mit aufgenommen. Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 ein anderes Strukturbildmodell ein, um verschiedene Strukturen innerhalb eines Digitalbildes zu identifizieren.
Bei einer oder mehreren Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 die Bildtiefenanleitung 311b als die tiefe visuelle Anleitung 310. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales Bildtiefennetzwerk als den die visuelle Anleitung betreffenden Algorithmus 308 ein, um das wiederhergestellte Digitalbild 306 zu verarbeiten und die Bildtiefenanleitung 311b zu generieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein neuronales Bildtiefennetzwerk ein, um ein oder mehrere verschiedene Tiefen innerhalb des wiederhergestellten Digitalbildes 306 zu identifizieren.
Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System 102 das neuronale Bildtiefennetzwerk einsetzt, um monokulare Tiefenvorhersagen für verschiedene Objekte oder Strukturen innerhalb des wiederhergestellten Digitalbildes 306 zu bestimmen. Insbesondere analysiert das neuronale Bildtiefennetzwerk das wiederhergestellte Digitalbild 306 zum Generieren einer einzigen Kanaltiefenkarte. Das neuronale Bildtiefennetzwerk generiert die Tiefenkarte beispielsweise entsprechend Parametern, die aus einem Datensatz von Probedigitalbildern erlernt werden, die zum Extrahieren von Pseudotiefendaten für einen Vergleich mit Ground-Truth-Tiefeninformation benutzt werden. In einigen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 ein vorab trainiertes neuronales Bildtiefennetzwerk wie DepthNet ein. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein neuronales Bildtiefennetzwerk ein, das beschrieben wird in: „Structure-guided Ranking Loss for Single Image Depth Predication“ von Ke Xian, Jianming Zhang, Oliver Wang, Long Mai, Zhe Lin und Zhiguo Cao. Die Quelle ist hiermit in Gänze durch Verweis mit aufgenommen. Bei einem weiteren Beispiel setzt das die angeleitete Wiederherstellung betreffende System 102 ein anderes neuronales Bildtiefennetzwerk, so beispielsweise die ResNet-50-Architektur, ein, bei dem das Konzept eines faltungstechnischen neuronalen Netzwerkes (einschließlich beispielsweise eines vollständig faltungstechnischen Netzwerkes und/oder eines residualen neuronalen Netzwerkes) eingesetzt wird.
Bei gewissen Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 die Segmentierungsbildanleitung 311c als die tiefe visuelle Anleitung 310. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales Segmentierungsbildnetzwerk als den die visuelle Anleitung betreffenden Algorithmus 308 ein, um das wiederhergestellte Digitalbild 306 zu verarbeiten und die Segmentierungsbildanleitung 311c zu generieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt ein neuronales Segmentierungsbildnetzwerk ein, um eine oder mehrere verschiedene semantische Segmentierungen innerhalb des wiederhergestellten Digitalbildes 306 zu identifizieren.
Insbesondere setzt das die angeleitete Wiederherstellung betreffende System das neuronale Segmentierungsbildnetzwerk ein, um Abschnitte des wiederhergestellten Digitalbildes 306 entsprechend verschiedenen semantischen Etiketten zu identifizieren. Das neuronale Segmentierungsbildnetzwerk weist Abschnitten, Objekten oder Strukturen des wiederhergestellten Digitalbildes 306 Etiketten entsprechend Parametern zu, die aus dem Vergleich von vorhergesagten semantischen Etiketten mit semantischen Ground-Truth-Etiketten über einen Datensatz von Probedigitalbildern erlernt worden sind. In gewissen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 ein vorab trainiertes neuronales Segmentierungsbildnetzwerk wie SegmentNet ein. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein neuronales Segmentierungsbildnetzwerk ein, das beschrieben ist in: „High-resolution Representations for Labeling Pixels and Regions“ von Ke Sun, Yang Zhao, Borui Jian, Tianheng Cheng, Bin Xiao, Dong Liu, Yadong Mu, Xinggang Wang, Wenyu Liu und Jingdong Wang, veröffentlicht bei „arXiv:1904.04515 (2019)“. Diese Quelle ist hiermit in Gänze durch Verweis mit aufgenommen. Bei einem weiteren Beispiel setzt das die angeleitete Wiederherstellung betreffende System 102 ein anderes neuronales Segmentierungsbildnetzwerk ein, um Abschnitte oder Objekte eines Digitalbildes zu etikettieren.
Wie weiter in 3 dargestellt ist, setzt das die angeleitete Wiederherstellung betreffende System 102 das angeleitete Patchabgleichsmodell 312 ein, um das modifizierte Digitalbild 314 zu generieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt das angeleitete Patchabgleichsmodell 312, das von der tiefen visuellen Anleitung 310 informiert wird, ein. Zum Generieren des modifizierten Digitalbildes setzt das die angeleitete Wiederherstellung betreffende System 102 das angeleitete Patchabgleichsmodell 312 ein, um das Eingabedigitalbild 302 zu analysieren und so Ersetzungspixel für die Bereiche 303a und 303b so, wie von der tiefen visuellen Anleitung 310 angewiesen wird, zu identifizieren. Das angeleitete Patchabgleichsmodell 312 identifiziert beispielsweise die Bereiche 303a und 303b und vergleicht Pixel aus verschiedenen Abschnitten des Eingabedigitalbildes 202, um gute Kandidaten zum Füllen der Bereiche 303a und 303b zu identifizieren.
Insbesondere informiert die tiefe visuelle Anleitung 310 das angeleitete Patchabgleichsmodell 312 darüber, wo Ersetzungspixel aus dem Eingabedigitalbild 302 identifiziert werden sollen. Die tiefe visuelle Anleitung 310 gibt beispielsweise Abschnitte des Eingabedigitalbildes 312 mit einer Struktur, einer Tiefe und/oder einer semantischen Segmentierung entsprechend dem Bereich 303a und/oder dem Bereich 303b an. Daher analysiert das angeleitete Patchabgleichsmodell 312 Pixel in diesen Abschnitten, um Ersetzungspixel zum Füllen der Bereiche 303a und 303b zu identifizieren und auszuwählen. Indem die Bereiche 303a und 303b gefüllt werden, generiert das die angeleitete Wiederherstellung betreffende System 102 hierdurch das semantisch konsistente modifizierte Digitalbild 314 (beispielsweise in einer hohen Auflösung, die zur Auflösung des Eingabedigitalbildes 302 passt) mit akkuraten Ersetzungspixeln, die visuell zu den Bereichen 303a und 303b passen. In einigen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 eine oder mehrere spezifische Techniken ein, um die Struktur, die Tiefe und/oder die semantische Segmentierung für das Eingabedigitalbild 302 zu bestimmen. Beispielsweise implementiert das die angeleitete Wiederherstellung betreffende System 102 Techniken, die beschrieben sind in: „Image Analogies“ von Aaron Hertzmann, Charles E. Jacobs, Nuria Oliver, Brian Curless and David H. Salesin, veröffentlicht bei „Proceedings of the 28^th Annual Conference on Computer Graphics and Interactive Techniques 327-40 (2001)“. Die Quelle ist hiermit in Gänze durch Verweis mit aufgenommen.
Bei gewissen Ausführungsformen ist das abgeleitete Patchabgleichsmodell 312 orthogonal zu dem die visuelle Anleitung betreffenden Algorithmus 308 und dem tiefen neuronalen Wiederherstellungsnetzwerk 304. Im Ergebnis ist das angeleitete Patchabgleichsmodell ohne Weiteres an verschiedene Typen von tiefen Modellen oder andere Systeme, die zum Generieren von tiefen visuellen Anleitungen angewendet werden können, anpassbar. Das hybride Konzept des die angeleitete Wiederherstellung betreffenden Systems 102 in Kombination mit patchbasierten Konzepten mit lernbasierten Konzepten ermöglicht daher in Zukunft eine flexible Plug-and-Play-Anwendung für Neuentwicklungen beim Generieren von tiefen visuellen Anleitungen.
Obwohl 3 das Einsetzen von drei verschiedenen Typen der tiefen visuellen Anleitung 310 zeigt, nämlich (i) einer Strukturbildanleitung, (ii) einer Bildtiefenanleitung und (iii) einer Segmentierungsbildanleitung, sind auch andere tiefe visuelle Anleitungen möglich. Bei einigen Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 die tiefe visuelle Anleitung 310 beispielsweise aus Digitalbildnormalen des Eingabedigitalbildes 302. Bei einem anderen Beispiel generiert das die angeleitete Wiederherstellung betreffende System 102 die tiefe visuelle Anleitung 310 unter Einsatz von Kantenfiltern zum Detektieren einer oder mehrerer Kanten innerhalb des Eingabedigitalbildes 302.
Bei einem weiteren Beispiel generiert das die angeleitete Wiederherstellung betreffende System 102 eine tiefe visuelle Anleitung aus einer rohen bzw. unbearbeiteten Farbe des Eingabedigitalbildes 302. Obwohl vorhergesagt worden ist, dass eine Bildfarbanleitung die besten Ergebnisse beim Generieren eines modifizierten Digitalbildes bringt, haben Forscher herausgefunden, dass sich Struktur, Tiefe und Segmentierung unerwarteterweise besser verhalten. Bei gewissen Ausführungsformen kombiniert das die angeleitete Wiederherstellung betreffende System 102 Farbe mit einem oder mehreren anderen Typen von tiefer visueller Anleitung, um die Akkuratheit und Leistungsfähigkeit zu verbessern.
Wie vorstehend erwähnt worden ist, generiert das die angeleitete Wiederherstellung betreffende System 102 bei einer oder mehreren Ausführungsformen eine tiefe visuelle Anleitung direkt aus einem Eingabedigitalbild (beispielsweise ohne ein wiederhergestelltes Digitalbild zu generieren). Insbesondere extrahiert das die angeleitete Wiederherstellung betreffende System 102 in gewissen Fällen ein verdecktes (occluded) Strukturbild und eine Binärmaske aus einem Eingabedigitalbild und setzt ein neuronales Generator-Netzwerk ein, um eine tiefe visuelle Anleitung aus dem Eingabedigitalbild, dem verdeckten Strukturbild und der Binärmaske zu generieren. 4 zeigt das Einsetzen eines neuronalen Generator-Netzwerkes 408 zum Generieren einer tiefen visuellen Anleitung 410 direkt aus einem Eingabedigitalbild 402 entsprechend einer oder mehreren Ausführungsformen.
Wie in 4 dargestellt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 ein Zwischendigitalbild 404 (das heißt ein Strukturbild) aus dem Eingabedigitalbild 402. Insbesondere generiert das die angeleitete Wiederherstellung betreffende System 102 das Zwischendigitalbild 404 als verdecktes Strukturbild, das die Struktur des Eingabedigitalbildes 402 in einem oder mehreren Abschnitten außerhalb der Bereiche 403a und 403b von zu ersetzenden Pixeln angibt. Um das Zwischendigitalbild 404 zu generieren, setzt das die angeleitete Wiederherstellung betreffende System 102 ein Strukturbildmodell ein, um verschiedene Strukturen aus dem Eingabedigitalbild 402 zu extrahieren. Zusätzlich generiert das die angeleitete Wiederherstellung betreffende System 102 eine Binärmaske 406 aus dem Eingabedigitalbild 402. Die Binärmaske 406 gibt die Bereiche 403a und 403b von zu ersetzenden Pixeln an.
Wie weiter in 4 dargestellt ist, verarbeitet das die angeleitete Wiederherstellung betreffende System 102 das Eingabedigitalbild 402, das Zwischendigitalbild 404 und die Binärmaske 406 unter Einsatz des neuronalen Generator-Netzwerkes 408. Das neuronale Generator-Netzwerk 408, das ein neuronales Encoder-Netzwerk (mit „E“ bezeichnet) und ein neuronales Decoder-Netzwerk (mit „D“ bezeichnet) beinhaltet, generiert die tiefe visuelle Anleitung 410 in Form einer Strukturbildanleitung. In einigen Fällen gibt das neuronale Generator-Netzwerk 408 ein Teilstrukturdigitalbild aus, das lediglich die Struktur der Bereiche 403a und 403b angibt (ohne die Struktur für andere Bereiche des Eingabedigitalbildes 402 anzugeben). Zusätzlich kombiniert das die angeleitete Wiederherstellung betreffende System 102 die Teilstrukturausgabe aus dem neuronalen Generator-Netzwerk 408 mit dem Zwischendigitalbild 404, um die tiefe visuelle Anleitung 410, die die Struktur in dem gesamten Eingabedigitalbild 402 angibt, zu generieren.
Obwohl 4 das Einsetzen des neuronalen Generator-Netzwerkes 408 zum Generieren einer Strukturbildanleitung darstellt, sind alternative Ausführungsformen möglich. Bei einigen Ausführungsformen generiert das die angeleitete Wiederherstellung betreffende System 102 beispielsweise eine Bildtiefenanleitung und/oder eine Segmentierungsbildanleitung unter Einsatz des neuronalen Generator-Netzwerkes 408. Zum Generieren einer Bildtiefenanleitung generiert das die angeleitete Wiederherstellung betreffende System 102 ein Zwischendigitalbild (beispielsweise unter Einsatz eines neuronalen Bildtiefennetzwerkes), das Tiefen in Abschnitten des Eingabedigitalbildes 402 außerhalb der Bereiche 403a und 403b angibt. Zusätzlich gibt das die angeleitete Wiederherstellung betreffende System 102 das Zwischendigitalbild in das neuronale Generator-Netzwerk 408 ein, um eine Tiefe für die Bereiche 403a und eine Tiefe für den Bereich 403b vorherzusagen. Daher kombiniert das die angeleitete Wiederherstellung betreffende System 102 die vorhergesagten Tiefen mit dem Zwischendigitalbild, um eine tiefe visuelle Anleitung in Form einer Bildtiefenanleitung zu generieren.
Um eine Segmentierungsbildanleitung zu generieren, generiert das die angeleitete Wiederherstellung betreffende System 102 ein Zwischendigitalbild (beispielsweise unter Einsatz eines neuronalen Segmentierungsbildnetzwerkes), das semantische Segmentierungen für Abschnitte des Eingabedigitalbildes 402 außerhalb der Bereiche 403a und 403b angibt. Zusätzlich gibt das die angeleitete Wiederherstellung betreffende System 102 das Zwischendigitalbild in das neuronale Generator-Netzwerk 408 ein, um eine oder mehrere Segmentierungen für die Bereiche 403a sowie eine oder mehrere Segmentierungen für den Bereich 403b vorherzusagen. Daher kombiniert das die angeleitete Wiederherstellung betreffende System 102 die vorhergesagten Segmentierungen mit dem Zwischendigitalbild, um eine tiefe visuelle Anleitung in Form einer Segmentierungsbildanleitung zu generieren.
Bei einer oder mehreren Ausführungsformen trainiert das die angeleitete Wiederherstellung betreffende System 102 das neuronale Generator-Netzwerk 408, um eine Struktur vorherzusagen. Das die angeleitete Wiederherstellung betreffende System 102 lernt beispielsweise Parameter für das konstituierende neuronale Encoder-Netzwerk und das konstituierende neuronale Decoder-Netzwerk, die das neuronale Generator-Netzwerk 408 bilden. Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System 102 ein Probedigitalbild in das neuronale Encoder-Netzwerk eingibt, das einen latenten Code oder eine Merkmalsdarstellung des Probedigitalbildes codiert oder extrahiert. Zusätzlich leitet das die angeleitete Wiederherstellung betreffende System 102 die codierte Merkmalsdarstellung an das neuronale Decoder-Netzwerk weiter, das die Merkmalsdarstellung decodiert, um das Probedigitalbild zu generieren oder zu reproduzieren (oder optimal anzunähern).
Des Weiteren setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales Diskriminator-Netzwerk ein, um das generierte oder reproduzierte Digitalbild zu testen und so vorherzusagen, ob das Bild echt (beispielsweise aus einer Digitalbilddatenbank) oder künstlich (beispielsweise von dem neuronalen Generator-Netzwerk 408 generiert) ist. Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 einen Adversativverlustfunktionsverlust ein, um einen Fehler oder ein Maß für den Verlust, der dem neuronalen Generator-Netzwerk 408 (beispielsweise zwischen dem neuronalen Generator-Netzwerk 408 und dem neuronalen Diskriminator-Netzwerk) zugeordnet ist, zu bestimmen. Das die angeleitete Wiederherstellung betreffende System 102 bestimmt einen Adversativverlust, der in einigen Fällen angibt, wie akkurat (oder nicht akkurat) ein rekonstruiertes Digitalbild ist und/oder wie effektiv das neuronale Generator-Netzwerk 408 dabei ist, das neuronale Diskriminator-Netzwerk dazu zu verleiten, ein künstliches Digitalbild als echtes Digitalbild zu identifizieren. Das die angeleitete Wiederherstellung betreffende System 102 verbessert das neuronale Generator-Netzwerk 408, indem es Parameter modifiziert, um den Adversativverlust über mehrere Iterationen des Generierens von rekonstruierten Digitalbildern und des Bestimmens, ob diese echt oder gefälscht sind, zu verringern.
Zusätzlich setzt das die angeleitete Wiederherstellung betreffende System 102 bei einigen Ausführungsformen das Konzept des überwachten Lernens mit einem L1-Verlust ein, um Parameter zu modifizieren und das neuronale Generator-Netzwerk 408 zu verbessern. Das die angeleitete Wiederherstellung betreffende System 102 gibt beispielsweise ein Probedigitalbild in das neuronale Generator-Netzwerk 408 ein, woraufhin das neuronale Generator-Netzwerk 408 eine vorhergesagte tiefe visuelle Anleitung (beispielsweise die tiefe visuelle Anleitung 410) generiert. Zusätzlich setzt das die angeleitete Wiederherstellung betreffende System 102 eine L1-Verlustfunktion ein, um die vorhergesagte tiefe visuelle Anleitung mit einer tiefen visuellen Ground-Truth-Anleitung (beispielsweise einer tiefen visuellen Ground-Truth-Anleitung, die entsprechend dem Probedigitalbild gespeichert ist) zu vergleichen. Unter Einsatz der L1-Verlustfunktion bestimmt das die angeleitete Wiederherstellung betreffende System 102 ein Maß für den Verlust, der dem neuronalen Generator-Netzwerk 408 zugeordnet ist. Des Weiteren modifiziert das die angeleitete Wiederherstellung betreffende System 102 Parameter des neuronalen Generator-Netzwerkes 408, um den L1-Verlust zu verringern oder zu minimieren. Das die angeleitete Wiederherstellung betreffende System 102 wiederholt den Prozess des Eingebens von Probedigitalbildern, des Generierens von vorhergesagten tiefen visuellen Anleitungen, des Vergleichens von vorhergesagten tiefen visuellen Anleitungen mit tiefen visuellen Ground-Truth-Anleitungen und des Modifizierens von Parametern für mehrere Iterationen oder Epochen (beispielsweise bis der L1-Verlust einen Schwellenverlust erfüllt).
Wie erwähnt worden ist, setzt das die angeleitete Wiederherstellung betreffende System 102 bei gewissen beschriebenen Ausführungsformen ein Framework eines neuronalen Lehrer-Lerner-Netzwerkes ein, um eine tiefe visuelle Anleitung zu generieren. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales Lerner-Netzwerk mit Parametern ein, die von einem neuronalen Lehrer-Netzwerk erlernt worden sind, um eine tiefe visuelle Anleitung direkt aus einem Eingabedigitalbild zu generieren. 5 zeigt das Generieren einer tiefen visuellen Anleitung 508 unter Einsatz eines neuronalen Lerner-Netzwerkes 512 mit Parametern, die von dem neuronalen Lehrer-Netzwerk 510 erlernt worden sind, entsprechend einer oder mehreren Ausführungsformen.
Bei einigen Ausführungsformen beinhaltet das neuronale Lerner-Netzwerk ein neuronales Netzwerk, das Parameter von einem neuronalen Lehrer-Netzwerk lernt oder transferiert. Ein neuronales Lehrer-Netzwerk beinhaltet andererseits ein neuronales Netzwerk, das Parameter durch mehrere Lerniterationen lernt (beispielsweise durch Generieren von Vorhersagen auf Grundlage eines Probedatensatzes und Modifizieren von Parametern, um Maße für den Verlust, der den Vorhersagen zugeordnet ist, zu verringern).
Wie in 5 dargestellt ist, setzt das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 ein, um die tiefe visuelle Anleitung 508 in Form einer Bildtiefenanleitung zu generieren. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 ein, um das unvollständige Digitalbild 506, das den Lochbereich 507 von zu ersetzenden Pixeln beinhaltet, zu verarbeiten, woraufhin das neuronale Lerner-Netzwerk 512 die tiefe visuelle Anleitung 508 entsprechend Parametern, die von dem neuronalen Lehrer-Netzwerk 510 erlernt werden, generiert.
Das neuronale Lerner-Netzwerk 512 beinhaltet Parameter, die von dem neuronalen Lehrer-Netzwerk 510 erlernt werden. Wie gezeigt ist, lernt das die angeleitete Wiederherstellung betreffende System 102 Parameter für das neuronale Lerner-Netzwerk 512, indem es Parameter von dem neuronalen Lehrer-Netzwerk 510 transferiert oder anpasst. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise ein neuronales Lehrer-Netzwerk 510 ein, das an einem Datensatz von Probedigitalbildern vorab trainiert worden ist, um Tiefen von Digitalbildern zu etikettieren. Wie gezeigt ist, gibt das die angeleitete Wiederherstellung betreffende System 102 das vollständige Digitalbild 502 (beispielsweise ein Digitalbild ohne Bereiche von zu ersetzenden Pixeln) in das neuronale Lehrer-Netzwerk 510 ein. Das neuronale Lehrer-Netzwerk 510 bestimmt wiederum Lehrer-Etiketten für verschiedene Tiefen und generiert die Bildtiefenanleitung 504 unter Nutzung von gesperrten (locked) oder eingefrorenen (frozen) Parametern.
Wie weiter in 5 dargestellt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 das unvollständige Digitalbild 506 aus dem vollständigen Digitalbild 502. Das unvollständige Digitalbild 506 beinhaltet einen Lochbereich 507 von zu ersetzenden Pixeln. Das die angeleitete Wiederherstellung betreffende System 102 initialisiert des Weiteren die Gewichtungen oder die Parameter des neuronalen Lerner-Netzwerkes 512 mit den erlernten Parametern des neuronalen Lehrer-Netzwerkes 510.
Das die angeleitete Wiederherstellung betreffende System 102 gibt das unvollständige Digitalbild 506 des Weiteren in das neuronale Lerner-Netzwerk 512 ein, woraufhin das neuronale Lerner-Netzwerk 512 die tiefe visuelle Anleitung 508 entsprechend den erlernten Parametern generiert. Das die angeleitete Wiederherstellung betreffende System 102 setzt das neuronale Lerner-Netzwerk 512 beispielsweise ein, um vorhergesagte Etiketten für verschiedene Tiefen des unvollständigen Digitalbildes 506 zu generieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt die Parameter, die von dem neuronalen Lehrer-Netzwerk 510 erlernt oder transferiert worden sind, ein, um eine tiefe visuelle Anleitung 508 aus dem unvollständigen Digitalbild 506 mit dem Lochbereich 507 zu generieren.
Bei einer oder mehreren Ausführungsformen modifiziert das die angeleitete Wiederherstellung betreffende System 102 Parameter des neuronalen Lerner-Netzwerkes 512, um die Akkuratheit beim Generieren einer Ausgabe, die der Ausgabe des neuronalen Lehrer-Netzwerkes 510 ähnelt, zu verbessern. Insbesondere vergleicht das die angeleitete Wiederherstellung betreffende System 102 die vorhergesagten Etiketten aus dem neuronalen Lerner-Netzwerk 512 mit den Lehrer-Etiketten aus dem neuronalen Lehrer-Netzwerk 510. In einigen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 eine Gradientenverlustfunktion ein, um ein Maß für den Verlust, der dem neuronalen Lerner-Netzwerk 512 (oder zwischen dem neuronalen Lerner-Netzwerk 512 und dem neuronalen Lehrer-Netzwerk 510) zugeordnet ist, zu bestimmen. Zusätzlich modifiziert das die angeleitete Wiederherstellung betreffende System 102 Parameter des neuronalen Lerner-Netzwerkes 512, um das Maß für den Verlust zu verringern. Bei gewissen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales SRGL-Netzwerk (Structure Guided Ranking Loss SRGL) für das neuronale Lehrer-Netzwerk 510 und/oder das neuronale Lerner-Netzwerk 512 beim Generieren einer Bildtiefenanleitung ein. Durch iteratives Modifizieren von Parametern des neuronalen Lerner-Netzwerkes 512 auf Grundlage von Lehrer-Etiketten, die von dem neuronalen Lehrer-Netzwerk 510 generiert werden, kann das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 trainieren, um akkurate tiefe visuelle Anleitungen aus Digitalbildern, die Löcher oder andere Ersetzungsbereiche beinhalten, zu generieren.
Obwohl 5 das Generieren der tiefen visuellen Anleitung 508 in Form einer Bildtiefenanleitung zeigt, sind zusätzliche Ausführungsformen möglich. Bei einigen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 das Framework des neuronalen Lehrer-Lerner-Netzwerkes beispielsweise ein, um eine tiefe visuelle Anleitung in Form einer Segmentierungsbildanleitung zu generieren. Bei einem weiteren Beispiel setzt das die angeleitete Wiederherstellung betreffende System 102 das Framework des neuronalen Lehrer-Lerner-Netzwerkes ein, um eine tiefe visuelle Anleitung in Form einer Strukturbildanleitung zu generieren. Zum Generieren einer Segmentierungsbildanleitung setzt das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 ein, um das unvollständige Digitalbild 506 zu verarbeiten und eine Segmentierungsbildanleitung entsprechend Parametern, die von dem neuronalen Lehrer-Netzwerk 510 erlernt worden sind, zu generieren.
Um die Parameter für das neuronale Lerner-Netzwerk 512 zu erlernen, verarbeitet das die angeleitete Wiederherstellung betreffende System 102 das vollständige Digitalbild 502 unter Einsatz des neuronalen Lehrer-Netzwerkes 510, woraufhin das neuronale Lehrer-Netzwerk Lehrer-Etiketten für eine Segmentierungsbildanleitung generiert, die semantische Segmentierungen des vollständigen Digitalbildes 502 angeben. Wie vorstehend erläutert worden ist, transferiert das die angeleitete Wiederherstellung betreffende System 102 die Parameter des Weiteren von dem neuronalen Lehrer-Netzwerk 510 an das neuronale Lerner-Netzwerk 512. Zusätzlich setzt das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 ein, um vorhergesagte Etiketten für die semantischen Segmentierungen des unvollständigen Digitalbildes 506 zu generieren.
Wie beschrieben worden ist, unterstützt das die angeleitete Wiederherstellung betreffende System 102 das neuronale Lerner-Netzwerk 512 dabei, (aus dem unvollständigen Digitalbild 506) eine Segmentierungsbildanleitung zu generieren, die zu derjenigen, die von dem neuronalen Lehrer-Netzwerk 510 (aus dem vollständigen Digitalbild 502) generiert worden ist, ähnlich ist. Insbesondere setzt das die angeleitete Wiederherstellung betreffende System 102 eine Negative-Log-Likelihood-Verlustfunktion ein, um ein Maß für den Verlust, der dem neuronalen Lerner-Netzwerk 512 zugeordnet ist, zu bestimmen. Des Weiteren modifiziert das die angeleitete Wiederherstellung betreffende System 102 die Parameter des neuronalen Lerner-Netzwerkes 512, um das Maß für den Verlust zu verringern und hierdurch eine Ausgabe zu generieren, die der Ausgabe des neuronalen Lehrer-Netzwerkes 510 stärker ähnelt. Bei gewissen Ausführungsformen setzt das die angeleitete Wiederherstellung betreffende System 102 ein neuronales HRNet-Netzwerk, das an dem ADE20K-Datensatz für das neuronale Lehrer-Netzwerk 510 und/oder das neuronale Lerner-Netzwerk 512 vorab trainiert worden ist, beim Generieren einer Segmentierungsbildanleitung ein.
Wie erwähnt worden ist, kombiniert das die angeleitete Wiederherstellung betreffende System 102 bei gewissen Ausführungsformen ein Patchabgleichsmodell mit einer oder mehreren tiefen visuellen Anleitungen zum Identifizieren und Auswählen von Ersetzungspixeln. Insbesondere nutzt das die angeleitete Wiederherstellung betreffende System 102 eine Kostenfunktion als Teil eines Patchabgleichsmodells, um Ersetzungspixel zum Füllen eines Bereiches eines Digitalbildes zu identifizieren und auszuwählen. 6 zeigt das Modifizieren und Einsetzen einer Patchabgleichskostenfunktion, um eine oder mehrere tiefe visuelle Anleitungen einzubeziehen, entsprechend einer oder mehreren Ausführungsformen.
Wie in 6 dargestellt ist, bestimmt das die angeleitete Wiederherstellung betreffende System 102 Gewichtungen für tiefe visuelle Anleitungen 602 (oder ihre entsprechenden die visuelle Anleitung betreffenden Algorithmen). Insbesondere bestimmt das die angeleitete Wiederherstellung betreffende System 102 eine Strukturgewichtung für die Strukturbildanleitung, eine Tiefengewichtung für die Bildtiefenanleitung und eine Segmentierungsanleitung bzw. Segmentierungsgewichtung für die Segmentierungsbildanleitung. Auf Grundlage der Gewichtungen kombiniert das die angeleitete Wiederherstellung betreffende System 102 die tiefen visuellen Anleitungen (oder ihre entsprechenden die visuelle Anleitung betreffenden Algorithmen), um Ersetzungspixel zu identifizieren und auszuwählen. In einigen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 Standardgewichtungen ein, bei denen die Strukturgewichtung, die Tiefengewichtung und die Segmentierungsgewichtung gleich oder voneinander verschieden sind.
Wie weiter in 6 dargestellt ist, setzt das die angeleitete Wiederherstellung betreffende System 102 eine Anfangskostenfunktion 604 ein. Im Detail bedeutet dies, dass das die angeleitete Wiederherstellung betreffende System 102 eine Anfangskostenfunktion 604 als Teil eines Patchabgleichsmodells (beispielsweise des Patchabgleichsmodells 218) einsetzt, um Ersetzungspixel aus einem Digitalbild zu identifizieren und auszuwählen. Das die angeleitete Wiederherstellung betreffende System 102 setzt die Anfangskostenfunktion 604 beispielsweise ein, um Beziehungen oder Abstände zwischen Pixeln in einem fehlenden Bereich und Pixeln in einem Abschnitt von potenziellen Ersetzungspixeln zu bestimmen. In einigen Fällen implementiert das die angeleitete Wiederherstellung betreffende System 102 die Anfangskostenfunktion 604 zum Bestimmen einer Summe von Quadratdifferenzen (Sum of Square Differences „SSD“) zwischen einem Zielpixel oder einem Abschnitt (beispielsweise einem potenziellen Ersetzungspixel oder einem Abschnitt, das/der aktuell von dem Patchabgleichsmodell analysiert wird) in einem Zielabschnitt (der beispielsweise durch einen zweidimensionalen Punkt „dst_xy“ spezifiziert ist) und einem Pixel oder Patch, das/der durch einen zweidimensionalen Punkt (beispielsweise „scrProposedPt“) ersetzt werden soll. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise eine Anfangskostenfunktion 604 ein, die folgendermaßen gegeben ist: $S S D (t a r g e t [d s t_{x y}], s o u r c e [s r c P r o p o s e d P t])$
Hierbei bezeichnet SSD(.) die Summe von Quadratdifferenzen zwischen den zwei Termen target[dst_xy] und source[srcProposedPt], target[dst_xy] bezeichnet das potenzielle Ersetzungspixel / die potenziellen Ersetzungspixel, und source[srcProposedPt] bezeichnet das fehlende oder unerwünschte Pixel / die fehlenden oder unerwünschten Pixel, das/die ersetzt werden soll/sollen.
Wie in 6 dargestellt ist, generiert das die angeleitete Wiederherstellung betreffende System 102 des Weiteren eine modifizierte Kostenfunktion 606. Insbesondere modifiziert das die Anleitung betreffende System 102 die Anfangsverlustfunktion 604 mit den Gewichtungen für die tiefen visuellen Anleitungen 602. Das die angeleitete Wiederherstellung betreffende System 102 generiert beispielsweise eine gewichtete Kombination aus der Anfangsverlustfunktion und den gewichteten Fassungen der Strukturbildanleitung, der Bildtiefenanleitung und der Segmentierungsbildanleitung. Das die angeleitete Wiederherstellung betreffende System 102 kombiniert zwei oder mehr tiefe visuelle Anleitungen entsprechend Gewichtungen, die jeweiligen tiefen visuellen Anleitungen (oder den entsprechenden die visuelle Anleitung betreffenden Algorithmen) zugewiesen sind. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise eine modifizierte Kostenfunktion ein, die folgendermaßen aussieht: $\begin{array}{l} W_{c o l o r} * S S D (c o l o r) + W_{d e p t h} * S S D (d e p t h_g u i d e) + W_{s t r u c t} * S S D (s t r u c t_g u i d e) + W_{s e g} \\ * S S D (s e g_g u i d e) \end{array}$
Hierbei bezeichnet SSD(color) die Anfangskostenfunktion 604, die vorstehend definiert worden ist (beispielsweise einen Farbterm), W_color bezeichnet eine Farbgewichtung für die Anfangskostenfunktion 604, W_depth bezeichnet eine Tiefengewichtung, W_struct bezeichnet eine Strukturgewichtung, W_seg bezeichnet eine Segmentierungsgewichtung, SSD(depth_guide) bezeichnet eine Kostenfunktion zum Bestimmen der Summe von Quadratdifferenzen zwischen zu ersetzenden Pixeln und Pixeln, die als potenzielle Ersetzungspixel von einer Bildtiefenanleitung angegeben werden, SSD(struct_guide) bezeichnet eine Kostenfunktion zum Bestimmen der Summe von Quadratdifferenzen zwischen zu ersetzenden Pixeln und Pixeln, die als potenzielle Ersetzungspixel von einer Strukturbildanleitung angegeben werden, und SSD(seg_guide) bezeichnet eine Kostenfunktion zum Bestimmen der Summe von Quadratdifferenzen zwischen zu ersetzenden Pixeln und Pixeln, die als potenzielle Ersetzungspixel von einer Segmentierungsbildanleitung angegeben werden.
Unter Einsatz der modifizierten Kostenfunktion 606 setzt das die angeleitete Wiederherstellung betreffende System 102 mehr als eine tiefe visuelle Anleitung (beispielsweise eine kombinierte tiefe visuelle Anleitung) ein, um ein Patchabgleichsmodell dazu anzuleiten, Ersetzungspixel zu identifizieren. Insbesondere generiert das die angeleitete Wiederherstellung betreffende System 102 eine gewichtete Kombination aus zweien oder mehr von der Strukturbildanleitung, der Bildtiefenanleitung und/oder der Segmentierungsbildanleitung für den Einsatz zum Identifizieren von Ersetzungspixeln (beispielsweise zusammen mit einem Patchabgleichsmodell). In einigen Fällen bestimmt das die angeleitete Wiederherstellung betreffende System 102 die jeweiligen Gewichtungen für die tiefen visuellen Anleitungen automatisch (indem diese beispielsweise gleichmäßig oder in einer bestimmten aufsteigenden oder absteigenden Reihenfolge gewichtet werden). In diesen oder anderen Fällen setzt das die angeleitete Wiederherstellung betreffende System 102 eine oder mehrere von den gewichteten tiefen visuellen Anleitungen ein (muss jedoch nicht unbedingt alle drei einsetzen), um die Kostenfunktion des Patchabgleichsmodells zu modifizieren. Das die angeleitete Wiederherstellung betreffende System 102 setzt beispielsweise die nachfolgende modifizierte Kostenfunktion ein:
$0,6 * S S D (g u i d e) + 0,2 * S S D (d e p r h_g u i d e) + 0,2 * S S D (s t r u c t_g u i d e)$
Wie vorstehend erwähnt worden ist, verbessert das die angeleitete Wiederherstellung betreffende System 102 bei einigen Ausführungsformen die Akkuratheit gegenüber herkömmlichen Digitalbildbearbeitungssystemen. Insbesondere kann das die angeleitete Wiederherstellung betreffende System 102 modifizierte Digitalbilder generieren, die semantisch stärker konsistent sind und die Ersetzungspixel beinhalten, die Füllbereiche von fehlenden oder unerwünschten Pixeln akkurater füllen. 7 bis 9 zeigen exemplarische Vergleiche zwischen modifizierten Digitalbildern, die von dem die angeleitete Wiederherstellung betreffenden System 102 generiert werden, und modifizierten Digitalbildern, die von einem herkömmlichen Patchabgleichssystem generiert werden, entsprechend einer oder mehreren Ausführungsformen.
7 zeigt als Beispiel ein modifiziertes Digitalbild 708, das von einer exemplarischen Ausführungsform des die angeleitete Wiederherstellung betreffenden Systems 102 unter Nutzung einer Strukturbildanleitung 704 generiert worden ist. Die exemplarische Ausführungsform des die angeleitete Wiederherstellung betreffenden Systems 102 generiert die Strukturbildanleitung aus dem Eingabedigitalbild 702 und generiert des Weiteren das modifizierte Digitalbild 708 durch Füllen des fehlenden Bereiches des Eingabedigitalbildes 702 unter Einsatz eines strukturangeleiteten Patchabgleichsmodells. Bei einem Vergleich des modifizierten Digitalbildes 708 mit dem modifizierten Digitalbild 706, das von einem herkömmlichen Patchabgleichssystem generiert worden ist, liefert die exemplarische Ausführungsform des die angeleitete Wiederherstellung betreffenden Systems 102 bessere Leistungen, indem sie Ersetzungspixel nutzt, die keine ungewollten oder semantisch inkohärenten Artefakte (die bei dem modifizierten Digitalbildes 706 hinzugefügt sind) hinzufügen. Das modifizierte Digitalbild 706 beinhaltet Phantomtischbeine, die in dem modifizierten Digitalbild 708 nicht vorhanden sind.
8 zeigt einen Vergleich zwischen der Ausgabe des die angeleitete Wiederherstellung betreffenden Systems 102 unter Nutzung einer Bildtiefenanleitung 804 und der Ausgabe eines herkömmlichen Patchabgleichssystems entsprechend einer oder mehreren Ausführungsformen. Wie gezeigt ist, generiert die exemplarische Ausführungsform des die angeleitete Wiederherstellung betreffenden Systems 102 eine Bildtiefenanleitung 804 aus dem Eingabedigitalbild 802. Zusätzlich generiert das die angeleitete Wiederherstellung betreffende System 102 das modifizierte Digitalbild 808 unter Einsatz eines tiefenangeleiteten Patchabgleichsmodells. Bei einem Vergleich des modifizierten Digitalbildes 808 mit dem modifizierten Digitalbild 806, das von einem herkömmlichen Patchabgleichssystem generiert worden ist, beinhaltet das modifizierte Digitalbild 808 Pixel, die weniger unerwünscht sind und realistischer als in dem modifizierten Digitalbild 806 aussehen.
9 zeigt einen Vergleich zwischen der Ausgabe des die angeleitete Wiederherstellung betreffenden Systems 102 unter Nutzung einer Segmentierungsbildanleitung 904 und der Ausgabe eines herkömmlichen Patchabgleichssystems entsprechend einer oder mehreren Ausführungsformen. Wie gezeigt ist, generiert die exemplarische Ausführungsform des die angeleitete Wiederherstellung betreffenden Systems 102 eine Segmentierungsbildanleitung 904 aus dem Eingabedigitalbild 902. Zusätzlich generiert das die angeleitete Wiederherstellung betreffende System 102 das modifizierte Digitalbild 908 unter Einsatz eines segmentierungsangeleiteten Patchabgleichsmodells. Bei einem Vergleich des modifizierten Digitalbildes 908 mit dem modifizierten Digitalbild 906, das von einem herkömmlichen Patchabgleichssystem generiert worden ist, beinhaltet das modifizierte Digitalbild 908 Pixel, die besser an den Himmel des Eingabedigitalbildes 902 angepasst sind und die keine hinzugefügten Artefakte beinhalten (im Gegensatz zu dem modifizierten Digitalbild 906, das Pixel beinhaltet, die wie ein im Himmel schwebender Teil des Gebäudes aussehen).
Anhand 10 sind zusätzliche Details im Zusammenhang mit Komponenten und Fähigkeiten des die angeleitete Wiederherstellung betreffenden Systems 102 angegeben. Insbesondere zeigt 10 ein exemplarisches schematisches Diagramm des die angeleitete Wiederherstellung betreffenden Systems 102 auf einer exemplarischen Rechenvorrichtung 1000 (beispielsweise einer oder mehreren von der Clientvorrichtung 108 und/oder dem Server / den Servern 104). Wie in 10 gezeigt ist, beinhaltet das die angeleitete Wiederherstellung betreffende System 102 einen die tiefe Wiederherstellung betreffenden Verwalter 1002, einen die tiefe visuelle Anleitung betreffenden Verwalter 1004, einen Ersetzungspixelverwalter 1006, einen Digitalbildverwalter 1008 und einen Speicherverwalter 1010.
Wie eben erwähnt worden ist, beinhaltet das die angeleitete Wiederherstellung betreffende System 102 den die tiefe Wiederherstellung betreffenden Verwalter 1002. Insbesondere nimmt der die tiefe Wiederherstellung betreffende Verwalter 1002 ein Verwalten, Vorhalten, Speichern, Zugreifen, Anwenden, Einsetzen, Implementieren oder Identifizieren eines neuronalen die tiefe Wiederherstellung betreffenden Netzwerkes vor. Der die tiefe Wiederherstellung betreffende Verwalter 1002 generiert oder schafft ein vorläufiges wiederhergestelltes Digitalbild aus einem Eingabedigitalbild, indem er einen Anfangssatz von Ersetzungspixeln identifiziert, um diese zum Füllen eines oder mehrerer Bereiche von zu ersetzenden Pixeln innerhalb des Eingabedigitalbildes zu nutzen.
Zusätzlich beinhaltet das die angeleitete Wiederherstellung betreffende System 102 einen die tiefe visuelle Anleitung betreffenden Verwalter 1004. Insbesondere nimmt der die tiefe visuelle Anleitung betreffende Verwalter 1004 ein Verwalten, Vorhalten, Speichern, Zugreifen, Bestimmen, Generieren oder Identifizieren einer tiefen visuellen Anleitung vor. Der die tiefe visuelle Anleitung betreffende Verwalter 1004 generiert eine tiefe visuelle Anleitung beispielsweise aus einem wiederhergestellten Digitalbild unter Einsatz eines oder mehrerer die visuelle Anleitung betreffender Algorithmen. In einigen Fällen generiert der die tiefe visuelle Anleitung betreffende Verwalter 1004 eine tiefe visuelle Anleitung direkt aus einem Eingabedigitalbild (beispielsweise ohne Nutzung eines wiederhergestellten Digitalbildes) über ein neuronales Generator-Netzwerk und/oder ein Framework eines neuronalen Lehrer-Lerner-Netzwerkes. Bei einigen Ausführungsformen generiert der die tiefe visuelle Anleitung betreffende Verwalter 1004 eine kombinierte tiefe visuelle Anleitung und/oder lernt Parameter für ein oder mehrere neuronale Netzwerke zum Generieren von tiefen visuellen Anleitungen, wie vorstehend beschrieben worden ist.
Wie gezeigt ist, beinhaltet das die angeleitete Wiederherstellung betreffende System 102 zudem einen Ersetzungspixelverwalter 1006. Insbesondere nimmt der Ersetzungspixelverwalter 1006 ein Verwalten, Vorhalten, Speichern, Bestimmen, Zugreifen, Auswählen oder Identifizieren von Ersetzungspixeln aus einem Eingabedigitalbild (oder einem anderen Digitalbild) vor. Der Ersetzungspixelverwalter 1006 setzt ein Patchabgleichsmodell zusammen mit einer tiefen visuellen Anleitung ein oder wird von dieser informiert, um Ersetzungspixel zu identifizieren.
Des Weiteren beinhaltet das die angeleitete Wiederherstellung betreffende System 102 einen Digitalbildverwalter 1008. Insbesondere nimmt der Digitalbildverwalter 1008 ein Verwalten, Speichern, Zugreifen, Generieren, Schaffen, Modifizieren, Füllen, Wiederherstellen oder Identifizieren von Digitalbildern vor. Der Digitalbildverwalter 1008 setzt beispielsweise ein Patchabgleichsmodell und eine tiefe visuelle Anleitung ein, um ein modifiziertes Digitalbild zu generieren, indem er einen Bereich eines Eingabedigitalbildes mit Ersetzungspixeln füllt.
Das die angeleitete Wiederherstellung betreffende System 102 beinhaltet des Weiteren einen Speicherverwalter 1010. Der Speicherverwalter 1010 arbeitet zusammen mit einer oder mehreren Speichervorrichtungen, so beispielsweise der Datenbank 1012 (beispielsweise der Datenbank 112), die verschiedene Daten speichert, so beispielsweise einen Vorrat von Digitalbildern, und verschiedene neuronale Netzwerke, oder beinhaltet diese. Der Speicherverwalter 1010 speichert (beispielsweise innerhalb der Datenbank 1012) (beispielsweise über einen nichttemporären Computerspeicher / eine oder mehrere Speichervorrichtungen) Daten und hält diese vor, die dem Generieren von wiederhergestellten Digitalbildern, dem Generieren von tiefen visuellen Anleitungen, dem Lernen von Parametern für neuronale Netzwerke und dem Generieren von modifizierten Digitalbildern über ein angeleitetes Patchabgleichsmodell zugeordnet sind. Der Speicherverwalter 1010 speichert beispielsweise ein neuronales Wiederherstellungsnetzwerk, einen die visuelle Anleitung betreffenden Algorithmus, darunter wenigstens eines von einem Strukturbildmodell, einem neuronalen Bildtiefennetzwerk oder einem neuronalen Segmentierungsbildnetzwerk, ein Patchabgleichsmodell und ein Digitalbild, das einen Bereich von zu ersetzenden Pixeln beinhaltet.
Bei einer oder mehreren Ausführungsformen kommuniziert jede der Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 mit einer anderen unter Nutzung von beliebigen geeigneten Kommunikationstechnologien. Zusätzlich sind die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 in Kommunikation mit einer oder mehreren anderen Vorrichtungen, die eine oder mehrere der vorbeschriebenen Clientvorrichtungen beinhalten. Es sollte einsichtig sein, dass ungeachtet dessen, dass die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 in 10 als separat gezeigt sind, beliebige der Teilkomponenten zu weniger Komponenten, so beispielsweise auch nur zu einer einzigen Komponente, kombiniert oder in mehr Komponenten unterteilt werden können, so dies einer bestimmten Implementierung dient. Obwohl die Komponenten von 10 des Weiteren in Verbindung mit dem die angeleitete Wiederherstellung betreffenden System 102 beschrieben sind, können wenigstens einige der Komponenten zur Durchführung von Vorgängen in Zusammenwirkung mit dem hier beschriebenen die angeleitete Wiederherstellung betreffenden System 102 auch auf anderen Vorrichtungen innerhalb der Umgebung implementiert sein.
Die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 können Software, Hardware oder beides beinhalten. Die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 können beispielsweise eine oder mehrere Anweisungen beinhalten, die auf einem computerlesbaren Speichermedium gespeichert sind und durch Prozessoren einer oder mehrerer Rechenvorrichtungen (beispielsweise der Rechenvorrichtung 1000) ausführbar sind. Bei Ausführung durch den einen oder die mehreren Prozessoren können die computerausführbaren Anweisungen des die angeleitete Wiederherstellung betreffenden Systems 102 veranlassen, dass die Rechenvorrichtung 1000 die hier beschriebenen Verfahren durchführt. Alternativ können die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 Hardware umfassen, so beispielsweise eine Spezialzweckverarbeitungsvorrichtung zur Übernahme einer gewissen Funktion oder Gruppe von Funktionen. Zusätzlich oder alternativ können die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 eine Kombination von computerausführbaren Anweisungen und Hardware beinhalten.
Implementiert sein können die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102, die die hier beschriebenen Funktionen übernehmen, des Weiteren beispielsweise als Teil einer eigenständigen Anwendung, als Modul einer Anwendung, als Plug-in für Anwendungen, die Contentverwaltungsanwendungen beinhalten, als Bibliotheksfunktion oder Funktionen, die von anderen Funktionen aufgerufen werden können, und/oder als Cloudrechenmodell. Die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 können als Teil einer eigenständigen Anwendung auf einer PC-Vorrichtung oder einer mobilen Vorrichtung implementiert sein. Alternativ oder zusätzlich können die Komponenten des die angeleitete Wiederherstellung betreffenden Systems 102 in einer beliebigen Anwendung implementiert sein, die die Schaffung und an Nutzer erfolgende Verteilung von Marketingcontent erlaubt, darunter unter anderem Anwendungen in ADOBE® EXPERIENCE MANAGER und CREATIVE CLOUD®, so beispielsweise ADOBE® STOCK, PHOTOSHOP®, ILLUSTRATOR® und INDESIGN®. „ADOBE“, „ADOBE EXPERIENCE MANAGER“, „CREATIVE CLOUD“, „ADOBE STOCK“, „PHOTOSHOP“, „ILLUSTRATOR“ und „INDESIGN“ sind entweder eingetragene Marken oder Marken von Adobe Inc. in den Vereinigten Staaten und/oder anderen Ländern.
1 bis 10, der entsprechende Text und die Beispiele stellen eine Anzahl von verschiedenen Systemen, Verfahren und nichttemporären computerlesbaren Medien zum Generieren eines modifizierten Digitalbildes durch Identifizieren von Ersetzungspixeln unter Einsatz eines angeleiteten Patchabgleichsmodells bereit. Zusätzlich zum Vorbeschriebenen können Ausführungsformen auch anhand von Flussdiagrammen beschrieben werden, die Handlungen zum Erreichen eines bestimmten Ergebnisses umfassen. 11 zeigt beispielsweise ein Flussdiagramm für exemplarische Sequenzen oder Abfolgen von Handlungen entsprechend einer oder mehreren Ausführungsformen.
Obwohl 11 Handlungen entsprechend einer Ausführungsform zeigt, können alternative Ausführungsformen eine beliebige der in 11 gezeigten Handlungen weglassen, hinzufügen, umordnen und/oder modifizieren. Die Handlungen von 11 können als Teil eines Verfahrens durchgeführt werden. Alternativ kann ein nichttemporäres computerlesbares Medium Anweisungen umfassen, die bei Ausführung durch einen oder mehrere Prozessoren veranlassen, dass eine Rechenvorrichtung die Handlungen von 11 durchführt. Bei wieder anderen Ausführungsformen kann ein System die Handlungen von 11 durchführen. Zusätzlich können die hier beschriebenen Handlungen wiederholt oder parallel zueinander oder parallel zu anderen Instanzen bzw. Versionen derselben oder anderer ähnlicher Handlungen durchgeführt werden.
11 zeigt eine exemplarische Abfolge von Handlungen 1100 des Generierens eines modifizierten Digitalbildes durch Identifizieren von Ersetzungspixeln unter Einsatz eines angeleiteten Patchabgleichsmodells. Insbesondere beinhaltet die Abfolge von Handlungen 1100 eine Handlung 1102 des Generierens eines wiederhergestellten Digitalbildes. Die Handlung 1102 impliziert beispielsweise ein Generieren eines wiederhergestellten Digitalbildes aus dem Digitalbild unter Einsatz eines neuronalen Wiederherstellungsnetzwerkes, wobei das wiederhergestellte Digitalbild einen Anfangssatz von Ersetzungspixeln für den Bereich umfasst.
Wie gezeigt ist, beinhaltet die Abfolge von Handlungen 1100 zudem eine Handlung 1104 des Generierens einer tiefen visuellen Anleitung. Insbesondere impliziert die Handlung 1104 ein Generieren einer tiefen visuellen Anleitung aus dem wiederhergestellten Digitalbild unter Einsatz eines die visuelle Anleitung betreffenden Algorithmus. Die Handlung 1104 impliziert beispielsweise ein Generieren eines die tiefe visuelle Anleitung betreffenden Bildes, das eines oder mehrere von einer Struktur, einer Tiefe oder einer semantischen Segmentierung innerhalb des Bereiches des Digitalbildes angibt. Bei einigen Ausführungsformen impliziert die Handlung 1104 ein Generieren einer tiefen visuellen Anleitung, die wenigstens eines von einer Strukturbildanleitung, einer Bildtiefenanleitung oder einer Segmentierungsbildanleitung umfasst, aus dem wiederhergestellten Digitalbild unter Einsatz des die visuelle Anleitung betreffenden Algorithmus. In einigen Fällen impliziert das Identifizieren von Ersetzungspixeln ein Einsetzen des Patchabgleichsmodells zum Identifizieren von Pixeln innerhalb des Digitalbildes entsprechend der Struktur, der Tiefe oder der semantischen Segmentierung innerhalb des Bereiches des Digitalbildes, wie durch die tiefe visuelle Anleitung angegeben ist.
Bei einigen Ausführungsformen impliziert die Handlung 1104 ein Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein Strukturbildmodell umfasst, zum Generieren einer Strukturbildanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus einer oder mehreren Strukturen, die innerhalb des wiederhergestellten Digitalbildes identifiziert werden. In einigen Fällen impliziert die Handlung 1104 ein Generieren der Strukturbildanleitung als die tiefe visuelle Anleitung unter Einsatz des Strukturbildmodells zum Bestimmen von Kanten zwischen verschiedenen Strukturkomponenten des wiederhergestellten Digitalbildes. Bei diesen oder anderen Ausführungsformen impliziert die Handlung 1104 ein Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein neuronales Bildtiefennetzwerk umfasst, zum Generieren einer Bildtiefenanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus einer Tiefenkarte des wiederhergestellten Digitalbildes. Bei derselben oder anderen Ausführungsformen impliziert die Handlung 1104 ein Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein neuronales Bildtiefennetzwerk umfasst, zum Generieren einer Bildtiefenanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus einer Tiefenkarte des wiederhergestellten Digitalbildes. Bei gewissen Ausführungsformen impliziert die Handlung 1104 ein Einsetzen eines die visuelle Anleitung betreffenden Algorithmus, der ein neuronales Segmentierungsbildnetzwerk umfasst, zum Generieren einer Segmentierungsbildanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus semantischen Segmentierungen des wiederhergestellten Digitalbildes.
Des Weiteren beinhaltet die Abfolge von Handlungen 1100 eine Handlung 1106 des Identifizierens von Ersetzungspixeln. Insbesondere impliziert die Handlung 1106 ein Identifizieren von Ersetzungspixeln aus dem Digitalbild für den Bereich des Digitalbildes unter Einsatz eines Patchabgleichsmodells und der tiefen visuellen Anleitung. Beispielsweise impliziert die Handlung 1106 ein Einsetzen des Patchabgleichsmodells zum Identifizieren von einem oder mehreren von: Pixeln des Digitalbildes, die zu einer Struktur des Bereiches von Pixeln gehören, unter Einsatz der Strukturbildanleitung, Pixeln des Digitalbildes mit Tiefen, die einer Tiefe des Bereiches von Pixeln entsprechen, unter Einsatz der Bildtiefenanleitung, oder Pixeln des Digitalbildes, die zu einem Segment des Bereiches von Pixeln gehören, unter Einsatz der Segmentierungsbildanleitung.
Wie in 11 dargestellt ist, beinhaltet die Abfolge von Handlungen 1100 eine Handlung 1108 zum Generieren eines modifizierten Digitalbildes. Insbesondere impliziert die Handlung 1108 ein Generieren des modifizierten Digitalbildes durch Ersetzen des Bereiches des Digitalbildes durch die Ersetzungspixel. Die Handlung 1108 impliziert beispielsweise ein Ersetzen des Bereiches des Digitalbildes durch die Ersetzungspixel, wobei das modifizierte Digitalbild eine höhere Auflösung als das wiederhergestellte Digitalbild aufweist.
Bei einigen Beispielen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Auswählens des die visuelle Anleitung betreffenden Algorithmus zum Generieren der tiefen visuellen Anleitung aus einem Satz von die visuelle Anleitung betreffenden Algorithmen aus dem Digitalbild unter Einsatz eines faltungstechnischen neuronalen Netzwerkes. Bei denselben oder anderen Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Generierens einer kombinierten tiefen visuellen Anleitung, die zwei oder mehr von einer Strukturbildanleitung, einer Bildtiefenanleitung oder einer Segmentierungsbildanleitung umfasst. Bei diesen Ausführungsformen impliziert die Handlung 1108 ein Identifizieren der Ersetzungspixel unter Einsatz des Patchabgleichsmodells und der kombinierten tiefen visuellen Anleitung.
Bei einer oder mehreren Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Auswählens des die visuelle Anleitung betreffenden Algorithmus zum Generieren der tiefen visuellen Anleitung aus einem Satz von tiefen visuellen Anleitungen, die die Strukturbildanleitung, die Bildtiefenanleitung und die Segmentierungsanleitung beinhalten, aus dem Digitalbild unter Einsatz eines faltungstechnischen neuronalen Netzwerkes. In gewissen Fällen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Bestimmens von Maßen für die Entsprechung zwischen dem Digitalbild und jedem von dem Strukturbildmodell, dem neuronalen Bildtiefennetzwerk und dem neuronalen Segmentierungsbildnetzwerk unter Einsatz eines faltungstechnischen neuronalen Netzwerkes.
Zusätzlich beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Zuweisens von Gewichtungen an jedes von dem Strukturbildmodell, dem neuronalen Bildtiefennetzwerk und dem neuronalen Segmentierungsbildnetzwerk entsprechend Maßen für die Entsprechung. Die Abfolge von Handlungen 1100 beinhaltet des Weiteren eine Handlung des Generierens der tiefen visuellen Anleitung durch Kombinieren von zwei oder mehr von der Strukturbildanleitung, der Bildtiefenanleitung oder der Segmentierungsbildanleitung entsprechend den Gewichtungen. Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Lernens von Parametern für das faltungstechnische neuronale Netzwerk aus einer Datenbank von Digitalbildern, die derart klassifiziert sind, dass sie einem oder mehreren von dem Strukturbildmodell, dem neuronalen Bildtiefennetzwerk oder dem neuronalen Segmentierungsbildnetzwerk entsprechen.
Bei bestimmten Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Empfangens eines Digitalbildes, das einen Bereich von zu ersetzenden Pixeln umfasst. Bei dieser oder anderen Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Generierens eines Zwischendigitalbildes, das eine Struktur für einen Abschnitt des Digitalbildes außerhalb des Bereiches angibt, und eine Handlung des Generierens einer Binärmaske, die den Bereich des Digitalbildes angibt. Zusätzlich beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Einsetzens eines neuronalen Generator-Netzwerkes zum Vorhersagen einer Struktur innerhalb des Bereiches des Digitalbildes aus dem Digitalbild, dem Zwischendigitalbild und der Binärmaske. In einigen Fällen beinhaltet die Abfolge von Handlungen 1100 Handlungen des Generierens einer Binärmaske, die den Bereich des Digitalbildes angibt, und des Generierens der tiefen visuellen Anleitung unter Einsatz eines neuronalen Generator-Netzwerkes, um eine Struktur innerhalb des Bereiches des Digitalbildes auf Grundlage der Binärmaske vorherzusagen.
Bei einer oder mehreren Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Einsetzens eines neuronalen Lerner-Netzwerkes zum Vorhersagen eines oder mehrerer von einer Tiefe oder einer Segmentierung innerhalb des Bereiches des Digitalbildes entsprechend Parametern, die von einem neuronalen Lehrer-Netzwerk erlernt werden. Die Abfolge von Handlungen 1100 beinhaltet des Weiteren Handlungen des Bestimmens von Lehrer-Etiketten für eines oder mehrere von Tiefen oder Segmentierungen für ein vollständiges Digitalbild unter Einsatz des neuronalen Lehrer-Netzwerkes, ein Generieren eines unvollständigen Digitalbildes, das einen Lochbereich umfasst, aus dem vollständigen Digitalbild, ein Generieren von vorhergesagten Etiketten für eines oder mehrere von den Tiefen oder den Segmentierungen für das unvollständige Digitalbild unter Einsatz des neuronalen Lerner-Netzwerkes und ein Modifizieren von Parametern des neuronalen Lerner-Netzwerkes durch Vergleichen der vorhergesagten Etiketten mit den Lehrer-Etiketten.
Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Einsetzens einer Kostenfunktion des Patchabgleichsmodells zum Identifizieren der Ersetzungspixel aus dem Digitalbild und der tiefen visuellen Anleitung. Implizieren kann das Identifizieren der Ersetzungspixel beispielsweise ein Einsetzen der Kostenfunktion zum Identifizieren der Ersetzungspixel entsprechend einer gewichteten Kombination einer Strukturbildanleitung, einer Bildtiefenanleitung und einer Segmentierungsbildanleitung.
Beinhalten kann die Abfolge von Handlungen 1100 eine Handlung des Identifizierens der Ersetzungspixel aus dem Digitalbild entsprechend einer Kostenfunktion des Patchabgleichsmodells, das die tiefe visuelle Anleitung einsetzt. In einigen Fällen beinhaltet die Abfolge von Handlungen 1100 eine Handlung des Einsetzens der Kostenfunktion zum Kombinieren der tiefen visuellen Anleitung und einer zusätzlichen tiefen visuellen Anleitung, indem zwei oder mehr von der Strukturbildanleitung, der Bildtiefenanleitung oder der Segmentierungsanleitung Gewichtungen zugewiesen werden. Beinhalten kann das Identifizieren der Ersetzungspixel aus dem Digitalbild ein Einsetzen der modifizierten Kostenfunktion zum entsprechend den Gewichtungen erfolgenden Identifizieren der Ersetzungspixel unter Einsatz der Strukturbildanleitung, der Bildtiefenanleitung und der Segmentierungsbildanleitung.
Ausführungsformen der vorliegenden Offenbarung können einen Spezialzweck- oder Allzweckcomputer, der Computerhardware beinhaltet, umfassen oder einsetzen, so beispielsweise einen oder mehrere Prozessoren und einen Systemspeicher, wie nachstehend noch detaillierter beschrieben wird. Ausführungsformen innerhalb des Umfanges der vorliegenden Offenbarung beinhalten zudem physische bzw. physikalische und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hier beschriebenen Prozesse wenigstens teilweise als Anweisungen implementiert sein, die auf einem nichttemporären computerlesbaren Medium verkörpert und durch eine oder mehrere Rechenvorrichtungen (beispielsweise beliebige der hier beschriebenen Mediencontentzugriffsvorrichtungen) ausführbar sind. Allgemein empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttemporären computerlesbaren Medium (beispielsweise einem Speicher bzw. Memory) und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden.
Computerlesbare Medien können beliebige verfügbare Medien sein, auf die ein Allzweck- oder Spezialzweckcomputersystem zugreifen kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttemporäre computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen, sind Übertragungsmedien. Beispiels- und nicht beschränkungshalber können Ausführungsformen der Offenbarung wenigstens zwei eindeutig verschiedene Arten von computerlesbaren Medien umfassen, nämlich nichttemporäre computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.
Nichttemporäre computerlesbare Speichermedien (Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, SSDs (Solid State Drives) (beispielsweise auf Grundlage eines RAM), einen Flashspeicher, einen Phasenänderungsspeicher (PCM), andere Arten von Memory bzw. Speicher, einen anderen optischen Plattenspeicher, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt wird und auf das ein Allzweck- oder Spezialzweckcomputer zugreift.
Ein „Netzwerk“ ist als ein oder mehrere Datenlinks definiert, die den Transport von elektronischen Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wird Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet oder drahtlos) an einen Computer übertragen oder für diesen bereitgestellt, so betrachtet der Computer die Verbindung in der Praxis als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenlinks beinhalten, die zum Tragen von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden können und auf die ein Allzweck- oder Spezialzweckcomputer zugreifen kann. Kombinationen des Vorbeschriebenen sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Beim Verwirklichen von verschiedenen Computersystemkomponenten können Programmcodemittel zudem in Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nichttemporäre computerlesbare Speichermedien (Vorrichtungen) (oder umgekehrt) übertragen werden. Computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder einen Datenlink empfangen werden, können beispielsweise in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und sodann gegebenenfalls an den Computersystem-RAM und/oder an weniger flüchtige Computerspeichermedien (Vorrichtungen) auf einem Computersystem übertragen werden. Es sollte daher einsichtig sein, dass nichttemporäre computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten beinhaltet sein können, die ebenfalls (oder sogar primär) Übertragungsmedien einsetzen.
Computerausführbare Anweisungen umfassen beispielsweise Anweisungen und Daten, die bei Ausführung durch einen Prozessor veranlassen, dass ein Allzweckcomputer, ein Spezialzweckcomputer oder eine Spezialzweckverarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen wahrnehmen. Bei einigen Ausführungsformen werden computerausführbare Anweisungen auf einem Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialzweckcomputer zu verwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können beispielsweise Binaries, Anweisungen in einem Zwischenformat wie Assemblersprache oder sogar Quellcode sein. Obwohl der Erfindungsgegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Handlungen spezifisch ist, sollte einsichtig sein, dass der in den beigefügten Ansprüchen definierte Erfindungsgegenstand nicht unbedingt auf die vorbeschriebenen Merkmale oder Handlungen beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Handlungen als exemplarische Formen der Implementierung der Ansprüche offenbart.
Einem Fachmann auf dem Gebiet erschließt sich, dass die Offenbarung in Netzwerkrechenumgebungen mit vielen Arten von Computersystemkonfigurationen praktisch umgesetzt werden kann, darunter PCs, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorensysteme, mikroprozessorbasierte oder programmierbare Geräte der Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches bzw. Schalter und dergleichen. Praktisch umgesetzt werden kann die Offenbarung auch in verteilten Systemumgebungen, wo lokale und entfernte (remote) Computersysteme, die (entweder durch festverdrahtete Datenlinks, drahtlose Datenlinks oder durch eine Kombination aus festverdrahteten und drahtlosen Datenlinks) über ein Netzwerk verbunden sind, gleichermaßen Aufgaben erledigen. In einer verteilten Systemumgebung können Programmmodule sowohl in lokalen wie auch entfernten (remote) Memoryspeichervorrichtungen befindlich sein.
Ausführungsformen der vorliegenden Offenbarung können zudem in Cloudrechenumgebungen implementiert sein. In der vorliegenden Beschreibung ist „Cloudcomputing bzw. Cloudrechnen“ als Modell definiert, das einen On-Demand-Netzwerkzugriff auf einen geteilten Vorrat von konfigurierbaren Rechenressourcen ermöglicht. Cloudcomputing bzw. Cloudrechnen kann beispielsweise auf einem Marktplatz eingesetzt werden, um einen umfassenden und bequemen On-Demand-Zugriff auf den geteilten Vorrat von konfigurierbaren Rechenressourcen anzubieten. Der geteilte Vorrat von konfigurierbaren Rechenressourcen kann über eine Virtualisierung schnell bereitgestellt und unter geringem Verwaltungsaufwand oder mit geringer Interaktion eines Dienstanbieters freigegeben und sodann entsprechend skaliert werden.
Ein Cloudrechenmodell kann aus verschiedenen Eigenschaften zusammengesetzt sein, so beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity, Measured Service und dergleichen. Ein Cloudrechenmodell kann zudem verschiedene Dienstmodelle anbieten, so beispielsweise „Software as a Service“ („SaaS“), „Platform as a Service“ („PaaS“) und „Infrastructure as a Service“ („IaaS“). Ein Cloudrechenmodell kann zudem unter Nutzung verschiedener Einsatzmodelle eingesetzt werden, so beispielsweise Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud und dergleichen. In der vorliegenden Beschreibung und in den Ansprüchen ist eine „Cloudrechenumgebung“ eine Umgebung, in der Cloudrechnen bzw. Cloudcomputing eingesetzt wird.
12 zeigt in Form eines Blockdiagramms eine exemplarische Rechenvorrichtung 1200 (beispielsweise die Rechenvorrichtung 1000, die Clientvorrichtung 108 und/oder den Server / die Server 104), die dafür konfiguriert sein kann, einen oder mehrere der vorbeschriebenen Prozesse durchzuführen. Es sollte einsichtig sein, dass das angeleitete Wiederherstellungssystem 102 Implementierungen der Rechenvorrichtung 1200 umfassen kann. Wie in 12 gezeigt ist, kann die Rechenvorrichtung einen Prozessor 1202, einen Speicher 1204, eine Speichervorrichtung 1206, eine I/O-Schnittstelle 1208 und eine Kommunikationsschnittstelle 1210 umfassen. Des Weiteren kann die Rechenvorrichtung 1200 eine Eingabevorrichtung, so beispielsweise einen berührungsempfindlichen Bildschirm, eine Maus, einer Tastatur und dergleichen, beinhalten. Bei bestimmten Ausführungsformen kann die Rechenvorrichtung 1200 weniger oder mehr Komponenten als die in 12 gezeigten beinhalten. Die Komponenten der Rechenvorrichtung 1200, die in 12 gezeigt sind, werden nunmehr detaillierter beschrieben.
Bei bestimmten Ausführungsformen beinhaltet/beinhalten der Prozessor / die Prozessoren 1202 Hardware zum Ausführen von Anweisungen, so beispielsweise solchen, die ein Computerprogramm bilden. Bei einem Beispiel und nicht im Sinne einer Beschränkung kann/können der Prozessor / die Prozessoren 1202 zum Ausführen von Anweisungen die Anweisungen aus einem internen Register, einem internen Cache, dem Memory 1204 oder der Speichervorrichtung 1206 abrufen (oder holen) und sie decodieren und ausführen.
Die Rechenvorrichtung 1200 beinhaltet den Memory 1204, der mit dem Prozessor / den Prozessoren 1202 gekoppelt ist. Der Memory 1204 kann zum Speichern von Daten, Metadaten und Programmen zur Ausführung durch den Prozessor / die Prozessoren benutzt werden. Der Memory 1204 kann eines oder mehrere von flüchtigen und nichtflüchtigen Memorys beinhalten, so beispielsweise einen Speicher mit wahlfreiem Zugriff („RAM“), einen Nur-Lese-Speicher („ROM“), eine Solid-State-Disk („SSD“), einen Flash, einen Phasenänderungsspeicher („PCM“) oder andere Typen von Datenspeicher. Der Memory 1204 kann ein interner oder ein verteilter Memory sein.
Die Rechenvorrichtung 1200 beinhaltet eine Speichervorrichtung 1206 mit einem Speicher zum Speichern von Daten oder Anweisungen. Beispiels- und nicht beschränkungshalber kann die Speichervorrichtung 1206 ein nichttemporäres Speichermedium umfassen, wie es vorstehend beschrieben worden ist. Die Speichervorrichtung 1206 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein USB-Laufwerk (Universeller Serieller Bus USB) oder eine Kombination aus diesen oder anderen Speichervorrichtungen beinhalten.
Die Rechenvorrichtung 1200 beinhaltet zudem eine oder mehrere I/O-Vorrichtungen/Schnittstellen 1208 (I/O Input/Output), die dafür vorgesehen sind, einem Nutzer zu ermöglichen, eine Eingabe (so beispielsweise Nutzertastendrücke bzw. Nutzerstriche) für die Rechenvorrichtung 1200 bereitzustellen, eine Ausgabe von dieser zu empfangen und auf andere Weise Daten an diese und von dieser zu transferieren. Die I/O-Vorrichtungen/Schnittstellen 1208 können eine Maus, ein Tastenfeld (Keypad) oder eine Tastatur, einen berührungsempfindlichen Bildschirm (Touchscreen), eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte I/O-Vorrichtungen oder eine Kombination aus derartigen I/O-Vorrichtungen/Schnittstellen 1208 beinhalten. Der berührungsempfindliche Bildschirm kann mit einer Schreibvorrichtung oder einem Finger aktiviert werden.
Die I/O-Vorrichtungen/Schnittstellen 1208 können eine oder mehrere Vorrichtungen zum Präsentieren einer Ausgabe gegenüber einem Nutzer beinhalten, darunter unter anderem eine Graphics Engine, eine Anzeige (beispielsweise einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. Bei bestimmten Ausführungsformen sind die Vorrichtungen/Schnittstellen 1208 dafür konfiguriert, grafische Daten für eine Anzeige zur Präsentation gegenüber einem Nutzer bereitzustellen. Die grafischen Daten können eine oder mehrere grafische Nutzerschnittstellen und/oder beliebigen anderen grafischen Content, so er für eine bestimmte Implementierung dienlich ist, darstellen.
Die Rechenvorrichtung 1200 kann des Weiteren eine Kommunikationsschnittstelle 1210 beinhalten. Die Kommunikationsschnittstelle 1210 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 1210 kann eine oder mehrere Schnittstellen zur Kommunikation (so beispielsweise zur paketbasierten Kommunikation) zwischen der Rechenvorrichtung und einer oder mehreren anderen Rechenvorrichtungen 1200 oder einem oder mehreren Netzwerken bereitstellen. Beispiels- und nicht beschränkungshalber kann die Kommunikationsschnittstelle 1210 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zur Kommunikation mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einen drahtlosen NIC (WNIC) oder einen Drahtlosadapter zur Kommunikation mit einem Drahtlosnetzwerk, so beispielsweise einem Wl-Fl, beinhalten. Die Rechenvorrichtung 1200 kann des Weiteren einen Bus 1212 beinhalten. Der Bus 1212 kann Hardware, Software oder beides, die Komponenten der Rechenvorrichtung 1200 miteinander koppeln, beinhalten.
In der vorstehenden Beschreibung ist die Erfindung anhand spezifischer exemplarischer Ausführungsformen beschrieben worden. Verschiedene Ausführungsformen und Aspekte der Erfindung/Erfindungen werden anhand der hier erläuterten Details beschrieben, wobei die begleitende Zeichnung die verschiedenen Ausführungsformen zeigt. Die vorstehende Beschreibung und die Zeichnung sind für die Erfindung illustrativ und sollen nicht erfindungsbeschränkend gedeutet werden. Es sind zahlreiche spezifische Details beschrieben worden, um ein eingehendes Verständnis der verschiedenen Ausführungsformen der vorliegenden Erfindung zu ermöglichen.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Wesen oder ihren wesentlichen Eigenschaften abzugehen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht nur als illustrativ und nicht als restriktiv zu betrachten. Die hier beschriebenen Verfahren können beispielsweise mit weniger oder mehr Schritten/Handlungen durchgeführt werden, oder es können die Schritte/Handlungen in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Handlungen wiederholt oder parallel zueinander oder parallel zu anderen bzw. verschiedenen Versionen bzw. Instanzen derselben oder ähnlicher Schritte/Handlungen durchgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben. Alle Änderungen, die der Bedeutung und dem Äquivalenzbereich der Ansprüche entsprechen, sollen in deren Umfang umfasst sein.

Claims

Nichttemporäres bzw. nichttransitorisches, computerlesbares Medium, umfassend Anweisungen, die bei Ausführung durch wenigstens einen Prozessor veranlassen, dass eine Rechenvorrichtung Pixel innerhalb eines Bereiches eines Digitalbildes ersetzt, um ein modifiziertes Digitalbild zu generieren, durch: Generieren eines Inpainting-Digitalbildes bzw. wiederhergestellten Digitalbildes aus dem Digitalbild unter Einsatz eines neuronalen Inpainting- bzw. Wiederherstellungsnetzwerkes, wobei das wiederhergestellte Digitalbild einen Anfangssatz von Ersetzungspixeln für den Bereich umfasst; Generieren einer tiefen visuellen Anleitung aus dem wiederhergestellten Digitalbild unter Einsatz eines die visuelle Anleitung betreffenden Algorithmus; Identifizieren von Ersetzungspixeln aus dem Digitalbild für den Bereich des Digitalbildes unter Einsatz eines Patchabgleichsmodells und der tiefen visuellen Anleitung; und Generieren des modifizierten Digitalbildes durch Ersetzen des Bereiches des Digitalbildes durch die Ersetzungspixel.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Generieren der tiefen visuellen Anleitung umfasst: Generieren eines die tiefe visuelle Anleitung betreffenden Bildes, das eines oder mehrere von einer Struktur, einer Tiefe oder einer semantischen Segmentierung innerhalb des Bereiches des Digitalbildes angibt.
Nichttemporäres computerlesbares Medium nach Anspruch 2, wobei das Identifizieren der Ersetzungspixel umfasst: Einsetzen des Patchabgleichsmodells zum Identifizieren von Pixeln innerhalb des Digitalbildes entsprechend der Struktur, der Tiefe oder der semantischen Segmentierung innerhalb des Bereiches des Digitalbildes so, wie durch die tiefe visuelle Anleitung angegeben ist.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Generieren der tiefen visuellen Anleitung umfasst: Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein Strukturbildmodell umfasst, zum Generieren einer Strukturbildanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus einer oder mehreren Strukturen, die innerhalb des wiederhergestellten Digitalbildes identifiziert werden.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Generieren der tiefen visuellen Anleitung umfasst: Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein neuronales Bildtiefennetzwerk umfasst, zum Generieren einer Bildtiefenanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus einer Tiefenkarte des wiederhergestellten Digitalbildes.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Generieren der tiefen visuellen Anleitung umfasst: Einsetzen des die visuelle Anleitung betreffenden Algorithmus, der ein neuronales Segmentierungsbildnetzwerk umfasst, zum Generieren einer Segmentierungsbildanleitung aus dem wiederhergestellten Digitalbild zum Identifizieren der Ersetzungspixel aus semantischen Segmentierungen des wiederhergestellten Digitalbildes.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor veranlassen, dass die Rechenvorrichtung eine Kostenfunktion des Patchmodells zum Identifizieren der Ersetzungspixel aus dem Digitalbild und die tiefe visuelle Anleitung einsetzt.
Nichttemporäres computerlesbares Medium nach Anspruch 7, wobei das Identifizieren der Ersetzungspixel aus dem Digitalbild umfasst: Einsetzen der Kostenfunktion zum Identifizieren der Ersetzungspixel entsprechend einer gewichteten Kombination einer Strukturbildanleitung, einer Bildtiefenanleitung und einer Segmentierungsbildanleitung.
System, umfassend: eine oder mehrere Speichervorrichtungen, die umfassen: ein neuronales Inpainting- bzw. Wiederherstellungsnetzwerk; einen eine visuelle Anleitung betreffenden Algorithmus, der wenigstens eines von einem Strukturbildmodell, einem neuronalen Bildtiefennetzwerk oder einem neuronalen Segmentierungsbildnetzwerk umfasst; ein Patchabgleichsmodell und ein Digitalbild, das einen Bereich von zu ersetzenden Pixeln umfasst; und eine oder mehrere Rechenvorrichtungen, die dafür konfiguriert sind, das System zu veranlassen zum: Generieren eines Inpainting-Digitalbildes bzw. wiederhergestellten Digitalbildes aus dem Digitalbild unter Einsatz des neuronalen Inpainting- bzw. Wiederherstellungsnetzwerkes, wobei das wiederhergestellte Digitalbild einen Anfangssatz von Ersetzungspixeln für den Bereich umfasst; Generieren einer tiefen visuellen Anleitung, die wenigstens eines von einer Strukturbildanleitung, einer Bildtiefenanleitung oder einer Segmentierungsbildanleitung umfasst, aus dem wiederhergestellten Digitalbild unter Einsatz des die visuelle Anleitung betreffenden Algorithmus; und Identifizieren von Ersetzungspixeln aus dem Digitalbild für den Bereich aus der tiefen visuellen Anleitung unter Einsatz des Patchabgleichsmodells.
System nach Anspruch 9, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Identifizieren der Ersetzungspixel aus dem Digitalbild durch Einsetzen des Patchabgleichsmodells zum Identifizieren von einem oder mehreren von: Pixeln des Digitalbildes, die zu einer Struktur des Bereiches von Pixeln gehören, unter Einsatz der Strukturbildanleitung; Pixeln des Digitalbildes mit Tiefen, die einer Tiefe des Bereiches von Pixeln entsprechen, unter Einsatz der Bildtiefenanleitung; oder Pixeln des Digitalbildes, die zu einem Segment des Bereiches von Pixeln gehören, unter Einsatz der Segmentierungsbildanleitung.
System nach Anspruch 9 oder 10, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren eines modifizierten Digitalbildes durch Ersetzen des Bereiches des Digitalbildes durch die Ersetzungspixel, wobei das modifizierte Digitalbild eine höhere Auflösung als das wiederhergestellte Digitalbild aufweist.
System nach Anspruch 9, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Identifizieren der Ersetzungspixel aus dem Digitalbild entsprechend einer Kostenfunktion des Patchabgleichsmodells unter Einsatz der tiefen visuellen Anleitung.
System nach Anspruch 12, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Einsetzen der Kostenfunktion zum Kombinieren der tiefen visuellen Anleitung und einer zusätzlichen tiefen visuellen Anleitung, indem zweien oder mehr von der Strukturbildanleitung, der Bildtieferianleitung oder der Segmentierungsanleitung Gewichtungen zugewiesen werden.
System nach einem der Ansprüche 9 bis 13, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der Strukturbildanleitung als die tiefe visuelle Anleitung unter Einsatz des Strukturbildmodells zum Bestimmen von Kanten zwischen verschiedenen strukturellen Komponenten des wiederhergestellten Digitalbildes.
System nach Anspruch 13, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren einer Binärmaske, die den Bereich des Digitalbildes angibt; und Generieren der tiefen visuellen Anleitung durch Einsetzen eines neuronalen Generator-Netzwerkes zum Vorhersagen einer Struktur innerhalb des Bereiches des Digitalbildes auf Grundlage der Binärmaske.
Computerimplementiertes Verfahren zum Ersetzen von Bereichen von Pixeln innerhalb von Digitalbildern unter Einsatz von tiefen visuellen Anleitungen zusammen mit Patchabgleichsmodellen, wobei das computerimplementierte Verfahren umfasst: Empfangen eines Digitalbildes, das einen Bereich von zu ersetzenden Pixeln umfasst; Generieren einer tiefen visuellen Anleitung, die wenigstens eines von einer Strukturbildanleitung, einer Bildtiefenanleitung oder einer Segmentierungsbildanleitung umfasst, aus dem Digitalbild unter Einsatz eines die visuelle Anleitung betreffenden Algorithmus; Identifizieren von Ersetzungspixeln für den Bereich des Digitalbildes unter Einsatz eines Patchabgleichsmodells und der tiefen visuellen Anleitung; und Generieren eines modifizierten Digitalbildes durch Ersetzen des Bereiches des Digitalbildes durch die Ersetzungspixel.
Computerimplementiertes Verfahren nach Anspruch 16, wobei das Generieren der tiefen visuellen Anleitung umfasst: Generieren eines Zwischendigitalbildes, das eine Struktur für einen Abschnitt des Digitalbildes außerhalb des Bereiches angibt; und Generieren einer Binärmaske, die den Bereich des Digitalbildes angibt.
Computerimplementiertes Verfahren nach Anspruch 17, wobei das Generieren der tiefen visuellen Anleitung umfasst: Einsetzen eines neuronalen Generator-Netzwerkes zum Vorhersagen einer Struktur innerhalb des Bereiches des Digitalbildes aus dem Digitalbild, dem Zwischendigitalbild und der Binärmaske.
Computerimplementiertes Verfahren nach Anspruch 16, wobei das Generieren der tiefen visuellen Anleitung umfasst: Einsetzen eines neuronalen Lerner-Netzwerkes zum Vorhersagen von einem oder mehreren von einer Tiefe oder einer Segmentierung innerhalb des Bereiches des Digitalbildes entsprechend Parametern, die von einem neuronalen Lehrer-Netzwerk gelernt werden.
Computerimplementiertes Verfahren nach Anspruch 19, des Weiteren umfassend: Lernen der Parameter für das neuronale Lerner-Netzwerk durch: Bestimmen von Lehrer-Etiketten für eines oder mehrere von Tiefen oder Segmentierungen für ein vollständiges Digitalbild unter Einsatz des neuronalen Lehrer-Netzwerkes; Generieren eines unvollständigen Digitalbildes, das einen Lochbereich umfasst, aus dem vollständigen Digitalbild; Generieren von vorhergesagten Etiketten für eines oder mehrere von den Tiefen oder den Segmentierungen für das Unvollständige Digitalbild unter Einsatz des neuronalen Lerner-Netzwerkes; und Modifizieren von Parametern des neuronalen Lerner-Netzwerkes durch Vergleichen der vorhergesagten Etiketten mit den Lehrer-Etiketten.