DE102023119505A1

DE102023119505A1 - Iteratives Modifizieren von rekonstruierten Digitalbildern auf Grundlage von Änderungen an panoptischen Segmentierungskarten

Info

Publication number: DE102023119505A1
Application number: DE102023119505.0A
Authority: DE
Inventors: Zhe Lin; Haitian Zheng; Elya Shechtman; Jianming Zhang; Jingwan Lu; Ning Xu; Qing Liu; Scott Cohen; Sohrab Amirghodsi
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2022-10-03
Filing date: 2023-07-24
Publication date: 2024-04-04
Also published as: GB2623402A; GB202311871D0; CN117830110A; US20240127412A1; AU2023210621A1

Abstract

Die vorliegende Offenbarung betrifft Systeme, Verfahren und nichttemporäre computerlesbare Medien zum panoptischen Anleiten einer Digitalbildrekonstruktion unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes. Bei einigen Ausführungsformen setzen die offenbarten Systeme ein panoptisch rekonstruierendes neuronales Netzwerk ein, um ein rekonstruiertes Digitalbild entsprechend einer panoptischen Segmentierungskarte zu generieren, die Pixelbereiche entsprechend verschiedenen panoptischen Etiketten definiert. In einigen Fällen trainieren die offenbarten Systeme ein neuronales Netzwerk unter Einsatz eines semantischen Diskriminators, der das Generieren von Digitalbildern erleichtert, die realitätsnah sind und dabei auch genau zu einer semantischen Segmentierung passen. Generiert und bereitgestellt wird durch die offenbarten Systeme eine panoptische Rekonstruktionsschnittstelle zum Erleichtern einer Nutzerinteraktion zum Rekonstruieren von Digitalbildern. Bei gewissen Ausführungsformen aktualisieren die offenbarten Systeme ein rekonstruiertes Digitalbild iterativ auf Grundlage von Änderungen an einer panoptischen Segmentierungskarte.

Description

Hintergrund
Auf dem Gebiet der Digitalbildbearbeitung sind generative Tiefenmodelle bei verschiedenen Anwendungen, so beispielsweise beim Herstellen von realitätsnahen Bildern aus zufällig herausgegriffenen Samen (seeds) oder bei der Bildrekonstruktion (image inpainting), zunehmend effektiv geworden. Diese Modelle, so beispielsweise generativ-adversative Netzwerke („GANs“), haben die Digitalbildsynthese revolutioniert und Modifikationen an Digitalbildern durch Extrahieren und Kombinieren von Merkmalen über Digitalbilder hinweg ermöglicht. GANs haben sich bei der Digitalbildrekonstruktion zum Füllen von fehlenden oder fehlerhaften Pixelbereichen merklich weiterentwickelt. Ungeachtet der Fortschritte herkömmlicher Digitalbildsysteme, die solche Modelle einsetzen, zeigen diese herkömmlichen Systeme jedoch weiterhin eine Anzahl von Nachteilen beispielsweise mit Blick auf die Genauigkeit bei der Rekonstruktion von Digitalbildern über Bereiche von Pixeln, die ein semantisches Etikett teilen, jedoch verschiedene Objektinstanzen abbilden.
Zusammenfassung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen von Systemen, Verfahren und nichttemporären computerlesbaren Medien, die eines oder mehrere der vorstehenden Probleme oder auch andere Probleme im Stand der Technik durch panoptisches Anleiten einer Digitalbildrekonstruktion (digital image inpainting) unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes (panoptic inpainting neural network) lösen. Die offenbarten Systeme setzen ein panoptisch rekonstruierendes neuronales Netzwerk ein, um ein rekonstruiertes Digitalbild (inpainted digital image) entsprechend einer panoptischen Segmentierungskarte zu generieren, die Pixelbereiche entsprechend verschiedenen panoptischen Etiketten (label) definiert, die zwischen Instanzen von Objekten mit geteilten semantischen Etiketten differenzieren. Bei einigen Ausführungsformen rekonstruieren die offenbarten Systeme durch Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes Pixel genau in einer vorgesehenen Fläche (beispielsweise einer Fläche mit fehlerhaften oder fehlenden Pixeln) eines Digitalbildes mit Ersetzungspixeln, die verschiedenen panoptischen Etiketten innerhalb der vorgesehenen Fläche entsprechen.
Bei einigen Ausführungsformen nehmen die offenbarten Systeme ein Trainieren oder Abstimmen eines neuronalen Netzwerkes (beispielsweise eines panoptisch rekonstruierenden neuronalen Netzwerkes oder eines anderen neuronalen Netzwerkes) unter Einsatz eines semantischen Diskriminators vor. Die offenbarten Systeme implementieren beispielsweise eine Technik des adversativen Trainings mit einem Generator und einem semantischen Diskriminator zum genauen Lernen von Parametern eines neuronalen Netzwerkes, um semantische (oder panoptische) Etiketten in jeweiligen Netzwerkkanälen zu berücksichtigen. In einigen Fällen weist der semantische Diskriminator eine eindeutige Architektur auf, die das Generieren von Digitalbildern erleichtert, die realitätsnah sind und dabei genau zu einer semantischen Segmentierung passen.
Bei einer oder mehreren Ausführungsformen stellen die offenbarten Systeme eine panoptische Rekonstruktionsschnittstelle zur Anzeige auf einer Clientvorrichtung bereit. Generiert und bereitgestellt wird von den offenbarten Systemen beispielsweise eine panoptische Rekonstruktionsschnittstelle zur Erleichterung einer Nutzerinteraktion zum Rekonstruieren von Digitalbildern. In einigen Fällen beinhaltet die panoptische Rekonstruktionsschnittstelle auswählbare Elemente zum Modifizieren oder Angleichen einer panoptischen Segmentierungskarte, um sich daran anzupassen, wie ein Digitalbild rekonstruiert wird (beispielsweise welche Pixel benutzt werden, um eine vorgesehene Fläche eines Digitalbildes zu rekonstruieren).
Zusätzlich aktualisieren die offenbarten Systeme bei gewissen Ausführungsformen iterativ das rekonstruierte Digitalbild unter Einsatz einer dynamischen panoptischen Anleitung. Die offenbarten Systeme empfangen beispielsweise Modifikationen an einer panoptischen Segmentierungskarte, wenn ein Nutzer panoptische Etiketten und/oder Grenzbereiche innerhalb einer panoptischen Rekonstruktionsschnittstelle ändert. In einigen Fällen aktualisieren die offenbarten Systeme ein rekonstruiertes Digitalbild zur Wiedergabe der Modifikationen, die an der panoptischen Segmentierungskarte vorgenommen werden.
Kurzbeschreibung der Zeichnung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen der Erfindung mit zusätzlicher Spezifität und Detailliertheit unter Verweis auf die begleitenden Figuren. Die nachfolgenden Absätze beschreiben die Figuren kurz.

1 zeigt eine exemplarische Systemumgebung, in der ein panoptisches Rekonstruktionssystem entsprechend einer oder mehreren Ausführungsformen arbeitet.
2 zeigt einen Überblick über das Generieren und Modifizieren von rekonstruierten Digitalbildern unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
3 zeigt ein exemplarisches Diagramm zum Einsetzen eines panoptisch rekonstruierenden neuronalen Netzwerkes zum Generieren eines rekonstruierten Digitalbildes auf Grundlage einer panoptischen Segmentierungskarte entsprechend einer oder mehreren Ausführungsformen.
4 zeigt einen exemplarischen Trainingsprozess zum Lernen von Parametern eines neuronalen Netzwerkes unter Einsatz eines semantischen Diskriminators entsprechend einer oder mehreren Ausführungsformen.
5 zeigt eine exemplarische Architektur für einen semantischen Diskriminator entsprechend einer oder mehreren Ausführungsformen.
6A bis 6D zeigen eine exemplarische Sequenz von panoptischen Rekonstruktionsschnittstellen zum Generieren von Rekonstruktionsdigitalbildern entsprechend einer oder mehreren Ausführungsformen.
7A bis 7D zeigen eine exemplarische Sequenz von panoptischen Rekonstruktionsschnittstellen zum Generieren und Modifizieren von rekonstruierten Digitalbildern und panoptischen Segmentierungskarten entsprechend einer oder mehreren Ausführungsformen.
8 zeigt eine exemplarische Sequenz von Handlungen zum iterativen Modifizieren eines rekonstruierten Digitalbildes entsprechend einer oder mehreren Ausführungsformen.
9 zeigt exemplarische rekonstruierte Digitalbilder in einem Vergleich des panoptischen Rekonstruktionssystems mit bisherigen Systemen entsprechend einer oder mehreren Ausführungsformen.
10 zeigt exemplarische rekonstruierte Digitalbilder in einem Vergleich des panoptischen Rekonstruktionssystems mit bisherigen Systemen entsprechend einer oder mehreren Ausführungsformen.
11 zeigt exemplarische rekonstruierte Digitalbilder in einem Vergleich des panoptischen Rekonstruktionssystems mit bisherigen Systemen entsprechend einer oder mehreren Ausführungsformen.
12 zeigt exemplarische experimentelle Ergebnisse in einem Vergleich des panoptischen Rekonstruktionssystems mit bisherigen Systemen entsprechend einer oder mehreren Ausführungsformen.
13 zeigt exemplarische rekonstruierte Digitalbilder für eine Ablationsstudie zu verschiedenen Aspekten des panoptischen Rekonstruktionssystems entsprechend einer oder mehreren Ausführungsformen.
14 zeigt exemplarische experimentelle Ergebnisse eine Ablationsstudie des panoptischen Rekonstruktionssystems entsprechend einer oder mehreren Ausführungsformen.
15 zeigt ein schematisches Diagramm eines panoptischen Rekonstruktionssystems entsprechend einer oder mehreren Ausführungsformen.
16 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum Trainieren eines neuronalen Netzwerkes unter Einsatz eines semantischen Diskriminators entsprechend einer oder mehreren Ausführungsformen.
17 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum Generieren eines rekonstruierten Digitalbildes unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
18 zeigt ein Flussdiagramm einer Abfolge von Handlungen zur Bereitstellung einer panoptischen Rekonstruktionsschnittstelle zum Generieren und Modifizieren von rekonstruierten Digitalbildern entsprechend einer oder mehreren Ausführungsformen.
19 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum iterativen Modifizieren eines rekonstruierten Digitalbildes, das unter Einsatz einer panoptischen Anleitung generiert wird, entsprechend einer oder mehreren Ausführungsformen.
20 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung entsprechend einer oder mehreren Ausführungsformen.

Detailbeschreibung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen eines panoptischen Rekonstruktionssystems, das die Digitalbildrekonstruktion unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes panoptisch anleitet. Das panoptische Rekonstruktionssystem rekonstruiert beispielsweise eine vorgesehene Fläche eines Digitalbildes entsprechend panoptischen Etiketten, die Abschnitten der vorgesehenen Fläche zugeordnet sind, wobei die panoptischen Etiketten die Ersetzungspixel (deren Arten), die zum Füllen der verschiedenen Abschnitte der vorgesehenen Fläche benutzt werden, definieren. In einigen Fällen lernt das panoptische Rekonstruktionssystem Parameter für ein neuronales Netzwerk (beispielsweise das panoptisch rekonstruierende neuronale Netzwerk oder ein anderes neuronales Netzwerk) unter Einsatz eines semantischen Diskriminators, der eine einzigartige Architektur aufweist, die das Rekonstruieren von realitätsnahen Pixeln in einem Digitalbild erleichtert und dabei genau zu semantischen Randbedingungen passt. Zusätzlich setzt das panoptische Rekonstruktionssystem bei einigen Ausführungsformen eine panoptische Rekonstruktionsschnittstelle ein, um zu ermöglichen, dass Clientvorrichtungen mit rekonstruierten Digitalbildern und/oder entsprechenden panoptischen Segmentierungskarten interagieren, um zu modifizieren, wie die Digitalbilder rekonstruiert werden. In einigen Fällen aktualisiert das panoptische Rekonstruktionssystem zudem iterativ rekonstruierte Digitalbilder entsprechend Anpassungen an eine panoptische Segmentierungskarte, um Pixel entsprechend aktualisierten Grenzen und/oder Etiketten der Karte wiederzugeben.
Wie eben erwähnt worden ist, generiert das panoptische Rekonstruktionssystem bei einer oder mehreren Ausführungsformen rekonstruierte Digitalbilder unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes. Das panoptische Rekonstruktionssystem rekonstruiert beispielsweise eine vorgesehene Fläche eines Digitalbildes, wobei die vorgesehene Fläche Pixel beinhaltet oder abbildet, die fehlerhaft sind oder fehlen oder auf andere Weise als Pixel zur Ersetzung vorgesehen sind. In einigen Fällen gibt das panoptische Rekonstruktionssystem die vorgesehene Fläche unter Einsatz einer Binärmaske an, um zwischen Pixeln zur Ersetzung und Pixeln zur Erhaltung während der Rekonstruktion zu unterscheiden.
Bei gewissen Ausführungsformen nimmt das panoptische Rekonstruktionssystem des Weiteren ein Identifizieren, Generieren oder Empfangen einer panoptischen Segmentierungskarte vor, die panoptische Etiketten für Bereiche von Pixeln definiert, die dem Digitalbild entsprechen, darunter Etiketten für Ersetzungspixel zur Füllung der vorgesehenen Fläche. Wie nachstehend noch detaillierter beschrieben wird, unterscheidet sich ein panoptisches Etikett von einem semantischen Etikett dahingehend, dass ein panoptisches Etikett zwischen verschiedenen Instanzen desselben semantischen Etiketts (beispielsweise einem ersten Baum und einem zweiten Baum) differenziert. Bei einigen Ausführungsformen generiert das panoptische Rekonstruktionssystem des Weiteren ein rekonstruiertes Digitalbild durch Füllen oder Rekonstruieren der vorgesehenen Fläche mit Ersetzungspixeln entsprechend der panoptischen Segmentierungskarte. Zusätzliche Details im Zusammenhang mit dem Rekonstruieren von Digitalbildern unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes sind nachstehend anhand der Figuren angegeben.
Bei einer oder mehreren Ausführungsformen setzt das panoptische Rekonstruktionssystem einen semantischen Diskriminator ein, um ein neuronales Netzwerk, beispielsweise ein panoptisch rekonstruierendes neuronales Netzwerk oder ein anderes generatives neuronales Netzwerk, aufzubauen oder zu trainieren. Das panoptische Rekonstruktionssystem setzt beispielsweise einen semantischen Diskriminator ein, um Parameter für ein neuronales Netzwerk zu lernen, das Digitalbilder generiert, die sowohl realitätsnah sind, aber auch genau zu gewissen semantischen Randbedingungen passen.
In einigen Fällen weist der semantische Diskriminator eine einzigartige Architektur auf, die bei anderen diskriminierenden neuronalen Netzwerken nicht zu finden ist. Der semantische Diskriminator beinhaltet beispielsweise ein Bildeinbettungsmodell und eine Abfolge von faltungstechnischen Schichten, die zusammen eine Realitätsnähevorhersage für ein Digitalbild, das von einem generierenden neuronalen Netzwerk generiert wird, generieren. Insbesondere beinhaltet der semantische Diskriminator bei einigen Ausführungsformen einen ersten Codierer (zur Analyse des Digitalbildes) und einen zweiten Codierer zur Analyse des Digitalbildes und einer panoptischen Bedingung, die dem Digitalbild entspricht (beispielsweise eine Maske, eine semantische Etikettenkarte und eine Kantenkarte, die aus der panoptischen Segmentierungskarte hergeleitet ist/sind). Das optische Rekonstruktionssystem kann Codierungen aus dem ersten Codierer und dem zweiten Codierer einsetzen, um eine Realitätsnähevorhersage und einen adversativen Verlust beim Trainieren des rekonstruierenden neuronalen Netzwerkes zu generieren. Darüber hinaus setzt das panoptische Rekonstruktionssystem bei einigen Ausführungsformen mehrere semantische Diskriminatoren auf verschiedenen Ebenen ein. Das panoptische Rekonstruktionssystem kann beispielsweise einen bildebenensemantischen Diskriminator (auf das gesamte Digitalbild) und einen objektebenensemantischen Diskriminator (beispielsweise auf ein Objekt, das in dem Digitalbild abgebildet ist) anwenden.
Bestimmen kann das panoptische Rekonstruktionssystem des Weiteren verschiedene Verluste, die der Realitätsnähevorhersage zugeordnet sind, so beispielsweise einen oder mehrere adversative Verluste, die verschiedenen Diskriminatoren zugeordnet sind, wobei die adversativen Verluste benutzt werden, um Parameter eines neuronalen Netzwerkes (beispielsweise des generierenden neuronalen Netzwerkes und/oder des semantischen Diskriminators) anzupassen, um wiederum die Genauigkeit zu verbessern. Zusätzliche Details im Zusammenhang mit dem semantischen Diskriminator und dem Trainieren von neuronalen Netzwerken unter Nutzung des semantischen Diskriminators sind nachstehend anhand der Figuren angegeben.
Generiert und bereitgestellt wird durch das panoptische Rekonstruktionssystem bei einer oder mehreren Ausführungsformen eine Nutzerschnittstelle zum Generieren und Modifizieren von rekonstruierten Digitalbildern. Das panoptische Rekonstruktionssystem stellt beispielsweise eine panoptische Rekonstruktionsschnittstelle zur Anzeige auf einer Clientvorrichtung (beispielsweise auf einer Digitalbildbearbeitungsvorrichtung) bereit. Bereitgestellt werden durch das panoptische Rekonstruktionssystem innerhalb der panoptischen Rekonstruktionsschnittstelle bei einigen Ausführungsformen auswählbare Elemente zum Definieren einer vorgesehenen Fläche eines Digitalbildes (und zwar beispielsweise durch Zeichnen oder auf andere Weise erfolgendes Anwenden einer Binärmaske auf Pixel des Digitalbildes), Generieren eines rekonstruierten Digitalbildes durch Füllen einer vorgesehenen Fläche mit Ersetzungspixeln und/oder Generieren oder Modifizieren einer panoptischen Segmentierungskarte, die Ersetzungspixel zur Füllung einer vorgesehenen Fläche von Pixeln zur Ersetzung (oder Typen hiervon) definiert. In einigen Fällen stellt das panoptische Rekonstruktionssystem Rekonstruktionswerkzeuge bereit, so beispielsweise panoptische Segmentpinsel, die Bereiche von Pixeln für gewisse Objekte oder panoptische Etiketten definieren, wie auch einen Kantenstift zum Definieren von Kanten oder Grenzen verschiedener panoptischer Bereiche einer panoptischen Segmentierungskarte. Zusätzliche Details im Zusammenhang mit der panoptischen Rekonstruktionsschnittstelle, darunter verschiedene auswählbare Elemente zur Nutzung beim Modifizieren von Digitalbildern, Binärmasken und/oder panoptischen Segmentierungskarten, sind nachstehend anhand der Figuren angegeben.
Bei gewissen Ausführungsformen aktualisiert oder modifiziert das panoptische Rekonstruktionssystem iterativ ein rekonstruiertes Digitalbild. Das panoptische Rekonstruktionssystem empfängt (beispielsweise von einer Clientvorrichtung über eine panoptische Rekonstruktionsschnittstelle) beispielsweise eine Angabe einer Nutzerinteraktion zur Anpassung oder Modifizierung von panoptischen Etiketten und/oder Bereichsgrenzen einer panoptischen Segmentierungskarte. Auf Grundlage der Modifikationen an der panoptischen Segmentierungskarte modifiziert oder aktualisiert das panoptische Rekonstruktionssystem das rekonstruierte Digitalbild (oder generiert ein neues), um Änderungen an der Karte wiederzugeben. Empfängt das panoptische Rekonstruktionssystem beispielsweise eine Nutzerinteration zur Vergrößerung der Fläche eines Himmelsbereiches innerhalb einer panoptischen Segmentierungskarte, so modifiziert das panoptische Rekonstruktionssystem das rekonstruierte Digitalbild ebenfalls durch Vergrößern der Fläche der Himmelspixel in dem rekonstruierten Digitalbild (beispielsweise derart, dass dies zu der aktualisierten panoptischen Segmentierungskarte passt).
Wie vorstehend erläutert worden ist, zeigen viele herkömmliche Digitalbildsysteme eine Anzahl von Unzulänglichkeiten oder Nachteilen insbesondere mit Blick auf Genauigkeit, Flexibilität und rechentechnische Effizienz. Auf dem Gebiet der Digitalbildbearbeitung rekonstruieren gewisse bestehende Systeme Digitalbilder beispielsweise ungenau. Veranschaulichungshalber können viele bisherige Systeme nur mit semantischen Definitionen für Bereiche von Pixeln umgehen (oder beruhen hierauf), weshalb diese Systeme im Ergebnis oftmals rekonstruierte Digitalbilder generieren, die unstimmig sind. In einigen Fällen, in denen eine vorgesehene Fläche eines Digitalbildes zwei Objekte abbildet, die benachbart zueinander sind (oder die in einem gewissen Abschnitt überlappen) und die ein gemeinsames semantisches Etikett teilen, rekonstruieren viele bisherige Systeme die vorgesehene Fläche durch Generieren eines unförmigen Kleckses von Pixeln, der bei dem Versuch entsteht, ein Objekt des semantischen Etiketts zu erzeugen, wo zwei separate Objekte erscheinen sollten.
Gemäß einem Faktor, der zu diesen Ungenauigkeiten beiträgt, sind einige bestehende Digitalbildsysteme unflexibel. Insbesondere sind, wie vorstehend erwähnt worden ist, bisherige Systeme starr auf semantische Randbedingungen fixiert. Als Folge dessen können sich herkömmliche Systeme nicht an Umstände anpassen, unter denen Pixel zur Ersetzung innerhalb von Digitalbildern mehrere überlappende Objekte oder Bereiche, die semantische Etiketten teilen, abbilden. Anstelle des Generierens eines rekonstruierten Digitalbildes, das zwischen den verschiedenen Objekten unterscheidet, generieren bisherige Systeme Ersetzungspixel, die die separaten Objekte während des Rekonstruierens zu einem großen Objekt zusammenführen.
Zusätzlich zu ihrer Ungenauigkeit und fehlenden Flexibilität sind einige herkömmliche Digitalbildsysteme auch rechentechnisch ineffizient. Viele bisherige Systeme stellen beispielsweise ineffiziente Nutzerschnittstellen bereit, die eine Vielzahl von Nutzerinteraktionen erfordern, um zu vielen Bildbearbeitungswerkzeugen, Schnittstellen und Fenstern zur Durchführung einer Rekonstruktion an Digitalbildern zu navigieren. Viele bestehende Systeme nutzen komplizierte Bildbearbeitungswerkzeuge, die eine feinabgestimmte Anwendung durch einen professionellen Nutzer mittels vieler Hunderter oder Tausender von Einzeleingaben erfordern, um Pixel für eine Rekonstruktionsaufgabe geeignet zu bearbeiten. Das Verarbeiten einer übermäßig großen Anzahl von Nutzerinteraktionen zum Rekonstruieren von Digitalbildern über herkömmliche Schnittstellen erfordert, dass Rechenvorrichtungen große Mengen an Rechenressourcen, so beispielsweise Verarbeitungsleistung und Speicher, aufwenden, die andernfalls mit effizienteren Nutzerschnittstellen, die Nutzerinteraktionen verringern, eingespart werden könnten.
Beim Beheben einer oder mehrerer der vorgenannten Unzulänglichkeiten bisheriger Systeme bieten Ausführungsformen des panoptischen Rekonstruktionssystems eine Vielzahl von Verbesserungen oder Vorteilen gegenüber herkömmlichen Digitalbildsystemen. Ausführungsformen des panoptischen Rekonstruktionssystems führen beispielsweise eine neue Funktionalität ein, die bei bisherigen Systemen nicht zu finden ist. Veranschaulichungshalber führt das panoptische Rekonstruktionssystem im Gegensatz zu bisherigen Systemen, die auf semantische Information beschränkt sind, eine Digitalbildrekonstruktion auf Grundlage einer panoptischen Information durch, wozu bisherige Systeme nicht in der Lage sind. Das panoptische Rekonstruktionssystem setzt beispielsweise ein panoptisch rekonstruierendes neuronales Netzwerk ein, um ein Digitalbild entsprechend panoptischen Segmentierungen zu rekonstruieren, die zwischen verschiedenen Instanzen von Objekten desselben Typs (die beispielsweise ein gemeinsames semantisches Etikett teilen) differenzieren.
Wenigstens teilweise infolge der Einführung der panoptischen Digitalbildrekonstruktion verbessert das panoptische Rekonstruktionssystem bei einigen Ausführungsformen die Genauigkeit gegenüber herkömmlichen Systemen. Während bisherige Systeme fälschlicherweise oftmals Objekte desselben semantischen Etiketts zu Einzelstrukturen oder Pixelbereichen mischen oder kombinieren, setzt das panoptische Rekonstruktionssystem ein panoptisch rekonstruierendes neuronales Netzwerk ein, das eine panoptische Segmentierungskarte einsetzt, um zwischen Instanzen eines semantischen Etiketts zu unterscheiden, damit Pixel genauer rekonstruiert werden. Das panoptische Rekonstruktionssystem rekonstruiert beispielsweise eine vorgesehene Fläche von Pixeln, die von mehreren panoptischen Bereichen bedeckt ist, die jeweils als „Baum“ etikettiert sind, durch Generieren eines einzelnen Baumes für jede Instanz anstelle eines einzigen unförmigen Baumes, wie er von vielen bisherigen Systemen generiert wird.
Zusätzlich weist das panoptische Rekonstruktionssystem bei einigen Ausführungsformen eine bessere Flexibilität gegenüber herkömmlichen Digitalbildsystemen auf. Im Gegensatz zu herkömmlichen Systemen, die starr auf semantische Betrachtungen fixiert sind, ist das panoptische Rekonstruktionssystem für die Rekonstruktion von Digitalbildern entsprechend panoptischer Information zusätzlich zu semantischer Information und/oder Kanteninformation ausgelegt. Das panoptische Rekonstruktionssystem geht flexibel mit der Digitalbildrekonstruktion auf Grundlage von semantischen Segmentierungskarten, panoptischen Segmentierungskarten und/oder Kantenkarten um.
Zusätzlich verbessern Ausführungsformen des panoptischen Rekonstruktionssystems die rechentechnische Effizienz gegenüber herkömmlichen Digitalbildsystemen. Während bisherige Systeme ineffiziente Nutzerschnittstellen bereitstellen, die übermäßige große Anzahlen von Nutzerinteraktionen erfordern, um Digitalbilder unter Nutzung von vielen Anwendungen mit komplexen, raffinierten Werkzeugen zu rekonstruieren, stellt das panoptische Rekonstruktionssystem eine vereinfachte Schnittstelle bereit, die weit weniger Nutzerinteraktionen erfordert. Generiert und bereitgestellt wird durch das panoptische Rekonstruktionssystem eine panoptische Rekonstruktionsschnittstelle, die (bei einigen Ausführungsformen) ein einziges auswählbares Element beinhaltet, um ein Digitalbild panoptisch zu rekonstruieren. Das panoptische Rekonstruktionssystem verringert daher die Nutzerinteraktionen beim Rekonstruieren von Hunderten oder gar Tausenden bei Nutzung herkömmlicher Bearbeitungswerkzeuge auf eine einzige Nutzerinteraktion (oder eine Handvoll Interaktionen). In diesem Zusammenhang stellt das panoptische Rekonstruktionssystem zudem einfache Werkzeuge zur effizienten Bearbeitung von panoptischen Segmentierungskarten und Binärmasken bereit, um rekonstruierte Digitalbilder zu aktualisieren. Durch Verringern der Anzahl von Nutzerinteraktionen verringert das panoptische Rekonstruktionssystem zudem die rechentechnische Last der Verarbeitung der Nutzerinteraktionen unter Nutzung einer effizienteren Nutzerschnittstelle.
Zusätzliche Details im Zusammenhang mit dem panoptischen Rekonstruktionssystem werden nunmehr anhand der Figuren angegeben. 1 zeigt beispielsweise ein schematisches Diagramm einer exemplarischen Systemumgebung zur Implementierung eines panoptischen Rekonstruktionssystems 102 entsprechend einer oder mehreren Ausführungsformen. Eine Übersicht über das panoptische Rekonstruktionssystem 102 wird anhand 1 gegeben. Anschließend folgt eine detailliertere Beschreibung der Komponenten und Prozesse des panoptischen Rekonstruktionssystems 102 anhand der nachfolgenden Figuren.
Wie gezeigt ist, beinhaltet die Umgebung einen Server / (mehrere) Server 104, eine Clientvorrichtung / Clientvorrichtungen 108, eine Datenbank 112 und ein Netzwerk 114. Jede der Komponenten der Umgebung kommuniziert über das Netzwerk 114, und das Netzwerk 114 ist ein beliebiges geeignetes Netzwerk, über das Rechenvorrichtungen kommunizieren. Exemplarische Netzwerke werden nachstehend detaillierter anhand 20 beschrieben.
Wie erwähnt worden ist, beinhaltet die Umgebung die Clientvorrichtung 108. Die Clientvorrichtung 108 ist eine aus einer Vielzahl von Rechenvorrichtungen, darunter ein Smartphone, ein Tablet, ein intelligenter (smart) Fernseher, ein Desktopcomputer, ein Laptopcomputer, eine Vorrichtung der virtuellen Realität, eine Vorrichtung der erweiterten Realität oder eine beliebige andere Rechenvorrichtung, wie sie anhand 20 beschrieben wird. Die Clientvorrichtung 108 kommuniziert mit dem Server / den Servern 104 über das Netzwerk 114. Die Clientvorrichtung 108 stellt für den Server / die Server 104 beispielsweise Informationen bereit, die Clientvorrichtungsinteraktionen (beispielsweise Digitalbildauswahlvorgänge, Bildrekonstruktionsanforderungen, Anforderungen der Bearbeitung einer panoptischen Segmentierungskarte oder eine andere Eingabe) angeben, und empfängt Informationen von dem Server / den Servern 104, so beispielsweise rekonstruierte Digitalbilder. In einigen Fällen stellt das panoptische Rekonstruktionssystem 102 daher auf dem Server / den Servern 104 Information auf Grundlage einer Clientvorrichtungsinteraktion über die Clientvorrichtung 108 bereit und empfängt diese.
Wie in 1 gezeigt ist, beinhaltet die Clientvorrichtung 108 eine Clientanwendung 110. Insbesondere ist die Clientanwendung 110 eine Webanwendung, eine native Anwendung, die auf der Clientvorrichtung 108 installiert ist (beispielsweise eine mobile Anwendung, eine Desktopanwendung und dergleichen), oder eine cloudbasierte Anwendung, bei der die Funktionalität gänzlich oder in Teilen von dem Server / den Servern 104 übernommen wird. Auf Grundlage von Anweisungen von der Clientanwendung 110 nimmt die Clientvorrichtung 108 ein gegenüber einem Nutzer erfolgendes Präsentieren oder Anzeigen von Informationen vor, darunter Digitalbilder, so beispielsweise rekonstruierte Digitalbilder, panoptische Segmentierungsmasken und/oder auswählbare Optionen zum Generieren und Rekonstruieren von Digitalbildern und/oder panoptischen Segmentierungsmasken. In einigen Fällen beinhaltet die Clientvorrichtung 110 das panoptische Rekonstruktionssystem 102 und/oder das panoptisch rekonstruierende neuronale Netzwerk 103 gänzlich oder in Teilen.
Wie in 1 dargestellt ist, beinhaltet die Umgebung den Server / die Server 104. Der Server / die Server 104 nimmt/nehmen ein Generieren, Nachverfolgen, Speichern, Verarbeiten, Empfangen und Übertragen von elektronischen Daten vor, so beispielsweise von Bildrekonstruktionseingaben, Binärmasken und/oder panoptischen Segmentierungskarten. Der Server / die Server 104 empfängt/empfangen beispielsweise Daten von der Clientvorrichtung 108 in Form einer Angabe einer Clientvorrichtungsinteraktion zum Generieren oder Modifizieren eines rekonstruierten Digitalbildes. In Reaktion hierauf überträgt/übertragen der Server / die Server 104 Daten an die Clientvorrichtung, um zu veranlassen, dass die Clientvorrichtung 108 ein modifiziertes rekonstruiertes Digitalbild auf Grundlage der Clientvorrichtungsinteraktion anzeigt oder präsentiert.
Bei einer Ausführungsform kommuniziert/kommunizieren der Server / die Server 104 mit der Clientvorrichtung 108, um Daten über das Netzwerk 114 zu übertragen und/oder zu empfangen, darunter Clientvorrichtungsinteraktionen, Bildrekonstruktionsanforderungen, Binärmasken, panoptische Segmentierungskarten und/oder andere Daten. Bei einigen Ausführungsformen umfasst/umfassen der Server / die Server 104 einen verteilten Server, bei dem der Server / die Server 104 eine Anzahl von Servervorrichtungen beinhaltet, die über das Netzwerk 114 verteilt und an verschiedenen physischen Orten befindlich sind. Der Server / die Server 104 umfasst/umfassen einen Contentserver, einen Anwendungsserver, einen Kommunikationsserver, einen Webhostingsserver, einen mehrdimensionalen Server, einen Containerorchestrierungsserver oder einen Server des maschinellen Lernens. Der Server / die Server 104 nimmt/nehmen des Weiteren ein Zugreifen auf und Einsetzen der Datenbank 112 zum Speichern und Abrufen von Information vor, so beispielsweise von gespeicherten Digitalbildern, rekonstruierten Digitalbildern, Binärmasken, panoptischen Segmentierungskarten und/oder generierten Bilddifferenzialmetriken.
Wie weiter in 1 gezeigt ist, beinhaltet/beinhalten der Server / die Server 104 das panoptische Rekonstruktionssystem 102 zudem als Teil eines Digitalcontentbearbeitungssystems 106. Bei einer oder mehreren Implementierungen kann das Digitalcontentbearbeitungssystem 106 beispielsweise ein Speichern, Generieren, Modifizieren, Bearbeiten, Nachbessern, Bereitstellen, Verteilen und/oder Teilen von Digitalcontent, so beispielsweise von rekonstruierten Digitalbildern und panoptischen Segmentierungskarten, vornehmen. Das Digitalcontentbearbeitungssystem 106 stellt beispielsweise Werkzeuge für die Clientvorrichtung 108 über die Clientanwendung 110 zum Generieren und Modifizieren von rekonstruierten Digitalbildern und panoptischen Segmentierungskarten bereit.
Bei einer oder mehreren Ausführungsformen beinhaltet/beinhalten der Server / die Server 104 das panoptische Rekonstruktionssystem 102 gänzlich oder in Teilen. Das panoptische Rekonstruktionssystem 102 arbeitet auf dem Server / den Servern beispielsweise zum Generieren und Bereitstellen von rekonstruierten Digitalbildern. In einigen Fällen setzt das panoptische Rekonstruktionssystem 102 lokal auf dem Server / den Servern 104 oder von einem anderen Netzwerkort (beispielsweise der Datenbank 112) aus ein panoptisch rekonstruierendes neuronales Netzwerk 103 zum Generieren von rekonstruierten Digitalbildern ein. Zusätzlich beinhaltet das panoptische Rekonstruktionssystem 102 ein panoptisch rekonstruierendes neuronales Netzwerk 103 (und/oder einen semantischen Diskriminator zum Trainieren) oder kommuniziert mit diesen.
In gewissen Fällen beinhaltet die Clientvorrichtung 108 das panoptische Rekonstruktionssystem 102 gänzlich oder in Teilen. Die Clientvorrichtung 108 nimmt beispielsweise ein Generieren, Beziehen (beispielsweise Herunterladen) oder Einsetzen eines oder mehrerer Aspekte des panoptischen Rekonstruktionssystems 102 von dem Server / den Servern 104 vor. Bei einigen Implementierungen ist, wie in 1 dargestellt ist, das panoptische Rekonstruktionssystem 102 gänzlich oder in Teilen auf der Clientvorrichtung 108 befindlich. Das panoptische Rekonstruktionssystem 102 beinhaltet beispielsweise eine Webhostinganwendung, die ermöglicht, dass die Clientvorrichtung 108 mit dem Server / den Servern 104 interagiert. Veranschaulichungshalber greift die Clientvorrichtung 108 bei einer oder mehreren Implementierungen auf eine Webpage zu, die von dem Server / den Servern 104 unterstützt und/oder gehostet wird.
Bei einer oder mehreren Ausführungsformen arbeiten die Clientvorrichtung 108 und der Server / die Server 104 zusammen, um das panoptische Rekonstruktionssystem 102 zu implementieren. Bei einigen Ausführungsformen trainiert/trainieren der Server / die Server 104 beispielsweise ein oder mehrere neuronale Netzwerke, die hier beschrieben werden, und stellt/stellen das eine oder die mehreren neuronalen Netzwerke für die Clientvorrichtung 108 zur Implementierung bereit. Bei einigen Ausführungsformen trainiert/trainieren der Server/die Server 104 ein oder mehrere neuronale Netzwerke, die Clientvorrichtung 108 fordert eine Bildbearbeitung an, und der Server / die Server 104 generiert/generieren rekonstruierte Digitalbilder und panoptische Segmentierungskarten unter Einsatz des einen oder der mehreren neuronalen Netzwerke. Bei einigen Implementierungen unterstützt die Clientvorrichtung 108 zudem das Training eines oder mehrerer neuronaler Netzwerke.
Obwohl 1 eine bestimmte Anordnung der Umgebung zeigt, weist die Umgebung bei einigen Ausführungsformen eine andere Anordnung von Komponenten auf und/oder kann insgesamt eine andere Anzahl oder einen anderen Satz von Komponenten aufweisen. Wie erwähnt worden ist, ist das panoptische Rekonstruktionssystem 102 beispielsweise von der Clientvorrichtung 108 implementiert (ist beispielsweise gänzlich oder in Teilen darauf befindlich). Zusätzlich kommuniziert die Clientvorrichtung 108 bei einer oder mehreren Ausführungsformen direkt mit dem panoptischen Rekonstruktionssystem 102 unter Umgehung des Netzwerkes 114. Des Weiteren beinhaltet das panoptisch rekonstruierende neuronale Netzwerk 103 bei einigen Ausführungsformen eine oder mehrere Komponenten, die in der Datenbank 112 gespeichert sind, die von dem Server / den Servern 104, der Clientvorrichtung 108 und/oder einer Vorrichtung dritter Seite vorgehalten wird.
Wie erwähnt worden ist, generiert und/oder modifiziert das panoptische Rekonstruktionssystem 102 bei einer oder mehreren Ausführungsformen ein rekonstruiertes Digitalbild unter Einsatz eines panoptischen rekonstruierenden neuronalen Netzwerkes. Insbesondere lernt das panoptische Rekonstruktionssystem 102 Parameter für ein panoptisch rekonstruierendes neuronales Netzwerk unter Einsatz eines semantischen Diskriminators, und das panoptische Rekonstruktionssystem 102 implementiert das panoptisch rekonstruierende neuronale Netzwerk zum Generieren eines rekonstruierten Digitalbildes durch Generieren von Ersetzungspixeln zum Füllen von fehlenden oder fehlerhaften Pixeln eines Digitalbildes. 2 zeigt eine exemplarische Übersicht über das Generieren und Modifizieren eines rekonstruierten Digitalbildes unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen. Zusätzliche Details im Zusammenhang mit verschiedenen in 2 dargestellten Handlungen sind im Folgenden anhand nachstehender Figuren angegeben.
Wie in 2 dargestellt ist, führt das panoptische Rekonstruktionssystem 102 bei einer oder mehreren Ausführungsformen eine Handlung 202 zum Lernen von Parametern für ein panoptisch rekonstruierendes neuronales Netzwerk durch. Veranschaulichungshalber lernt das panoptische Rekonstruktionssystem 102 interne Parameter für das panoptisch rekonstruierende neuronale Netzwerk durch Trainieren des panoptisch rekonstruierenden neuronalen Netzwerkes unter Einsatz eines semantischen Diskriminators. Ein neuronales Netzwerk bezeichnet beispielsweise ein maschinell lernendes Modell, das auf Grundlage von Eingaben auf das Generieren von Vorhersagen, Bestimmen von Klassifizierungen oder Nähern von unbekannten Funktionen trainiert und/oder abgestimmt werden kann. Ein neuronales Netzwerk beinhaltet beispielsweise ein Modell von (in Schichten organisierten) wechselseitig verbundenen künstlichen Neuronen, die kommunizieren und lernen, komplexe Funktionen zu nähern und Ausgaben (beispielsweise erzeugte Digitalbilder) auf Grundlage von mehreren Eingaben, die für das neuronale Netzwerk bereitgestellt werden, zu generieren. In einigen Fällen bezeichnet ein neuronales Netzwerk einen Algorithmus (oder einen Satz von Algorithmen), der Techniken des Deep Learning implementiert, um auf hoher Ebene gegebene Abstraktionen an Daten zu modellieren. Beinhalten kann ein neuronales Netzwerk beispielsweise ein faltungstechnisches neuronales Netzwerk, ein rekurrentes neuronales Netzwerk (beispielsweise ein LSTM), ein neuronales Graphennetzwerk oder ein generativ-adversatives neuronales Netzwerk.
In diesem Zusammenhang beinhaltet ein panoptisch rekonstruierendes neuronales Netzwerk bei einigen Ausführungsformen ein neuronales Netzwerk, das ein rekonstruiertes Digitalbild auf Grundlage einer panoptischen Segmentierungskarte generiert. Ein panoptisch rekonstruierendes neuronales Netzwerk bezeichnet ein generativ-adversatives neuronales Netzwerk, das eine vorgesehene Fläche eines Digitalbildes mit Ersetzungspixeln, die von einer panoptischen Segmentierungskarte vorgegeben werden, rekonstruiert. Ein generativ-adversatives neuronales Netzwerk („GAN“) bezeichnet ein neuronales Netzwerk, das über einen adversativen Prozess abgestimmt oder trainiert wird, um ein Ausgabebild aus einer Eingabe, so beispielsweise einem Rauschvektor, zu generieren.
In einigen Fällen beinhaltet ein generativ-adversatives neuronales Netzwerk mehrere konstituierende neuronale Netzwerke, so beispielsweise ein codierendes neuronales Netzwerk und ein oder mehrere generierende neuronale Netzwerke. Ein codierendes neuronales Netzwerk extrahiert beispielsweise Latentcode aus einem Rauschvektor oder aus einem Digitalbild. Ein generierendes neuronales Netzwerk (oder eine Kombination von generierenden neuronalen Netzwerken) generiert ein modifiziertes Digitalbild durch Kombinieren von extrahiertem Latentcode (beispielsweise aus dem codierenden neuronalen Netzwerk). Ein diskriminierendes neuronales Netzwerk analysiert im Wettbewerb mit dem generierenden neuronalen Netzwerk ein generiertes Digitalbild zum Generieren einer Realitätsnähevorhersage durch Bestimmen dessen, ob das generierte Digitalbild real (beispielsweise aus einem Satz von gespeicherten Digitalbildern) ist oder gefälscht (beispielsweise nicht aus dem Satz von gespeicherten Digitalbildern) ist. Das diskriminierende neuronale Netzwerk modifiziert zudem Parameter eines codierenden neuronalen Netzwerkes, eines generierenden neuronalen Netzwerkes / generierender neuronaler Netzwerke und/oder eines diskriminierenden neuronalen Netzwerkes zum etwaigen Generieren von Digitalbildern, die das diskriminierende neuronale Netzwerk zu der Angabe verleiten, dass ein generiertes Digitalbild ein reales Digitalbild ist.
In diesem Zusammenhang bezeichnet ein semantischer Diskriminator bei einigen Ausführungsformen ein diskriminierendes neuronales Netzwerk zum Generieren einer Realitätsnähevorhersage auf Grundlage einer semantischen Einbettung eines Digitalbildes. Ein semantischer Diskriminator generiert beispielsweise eine Realitätsnähevorhersage aus einer Kombination einer semantischen Bildeinbettung, die aus einem Digitalbild extrahiert ist, und einer Bildeinbettung, die aus dem Digitalbild generiert wird (beispielsweise unter Nutzung eines Codierers oder eines Bildeinbettungsmodells).
Obwohl 2 das Lernen von Parametern für ein panoptisch rekonstruierendes neuronales Netzwerk unter Nutzung des semantischen Diskriminators zeigt, setzt das panoptische Rekonstruktionssystem 102 bei einigen Ausführungsformen den semantischen Diskriminator zum Lernen von Parametern anderer neuronaler Netzwerke (beispielsweise außerhalb des Kontextes einer panoptischen Rekonstruktion) ein. Das panoptische Rekonstruktionssystem 102 führt beispielsweise die Handlung 202 zum Lernen von Parametern für ein neuronales Netzwerk, das Digitalbilder generiert, durch. Veranschaulichungshalber generiert das panoptische Rekonstruktionssystem 102 ein vorhergesagtes Digitalbild unter Einsatz eines generativen neuronalen Netzwerkes. Zudem generiert das panoptische Rekonstruktionssystem 102 eine semantische Einbettung aus dem vorhergesagten Digitalbild unter Einsatz eines semantischen Diskriminators und generiert des Weiteren eine Realitätsnähevorhersage aus der semantischen Einbettung. In einigen Fällen generiert das panoptische Rekonstruktionssystem 102 eine Realitätsnähevorhersage in Form eines Realitätsnähekennwertes, der ein Maß (beispielsweise eine Probabilität oder eine Wahrscheinlichkeit) dafür angibt, dass ein vorhergesagtes Digitalbild, das von einem neuronalen Netzwerk generiert wird, real ist. In einigen Fällen generiert das panoptische Rekonstruktionssystem 102 eine binäre Realitätsnähevorhersage, die angibt, ob das vorhergesagte Digitalbild real ist.
Auf Grundlage der Realitätsnähevorhersage modifiziert das panoptische Rekonstruktionssystem 102 Parameter des neuronalen Netzwerkes (beispielsweise des panoptisch rekonstruierenden neuronalen Netzwerkes). Das panoptische Rekonstruktionssystem 102 passt interne Gewichtungen und Tendenzen (biases) eines codierenden neuronalen Netzwerkes, eines generierenden neuronalen Netzwerkes und/oder eines diskriminierenden neuronalen Netzwerkes innerhalb des gesamten neuronalen Netzwerkes an, um die Genauigkeit beim Generieren von realitätsnahen Digitalbildern zu verbessern. Das panoptische Rekonstruktionssystem 102 passt nicht nur die Parameter an, um die Realitätsnähe der generierten Digitalbilder zu verbessern; vielmehr passt das panoptische Rekonstruktionssystem 102 des Weiteren Parameter an, um die Passgenauigkeit für die semantische Information zu verbessern. Insbesondere durch Einsetzen des semantischen Diskriminators, der die Realitätsnähevorhersage auf Grundlage einer semantischen Einbettung eines vorhergesagten Digitalbildes generiert, lernt das panoptische Rekonstruktionssystem 102 Parameter für die Realitätsnähe wie auch das Festhalten an semantischen Randbedingungen.
Wie weiter in 2 dargestellt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 204 zum Empfangen einer Angabe zum Generieren eines panoptisch rekonstruierten Digitalbildes durch. Das panoptische Rekonstruktionssystem 102 empfängt von einer Clientvorrichtung beispielsweise eine Angabe einer Nutzerinteraktion, die das Generieren eines rekonstruierten Digitalbildes anfordert. In einigen Fällen empfängt das panoptische Rekonstruktionssystem 102 von einer panoptischen Rekonstruktionsschnittstelle, die auf einer Clientvorrichtung angezeigt wird, eine Nutzerinteraktion, die ein Rekonstruktionselement auswählt, um das Rekonstruieren eines Digitalbildes anzufordern (beispielsweise zum Füllen einer vorgesehenen Fläche von Pixeln zur Ersetzung unter Nutzung von Ersetzungspixeln). Wie gezeigt ist, identifiziert das panoptische Rekonstruktionssystem 102 die vorgesehene Fläche von fehlenden oder fehlerhaften Pixeln, die durch eine Binärmaske angegeben wird, die einen Abschnitt des Digitalbildes, der vier Frauen vor einer Berglandschaft abbildet, verdunkelt oder verdeckt.
Zusätzlich führt das panoptische Rekonstruktionssystem 102 eine Handlung 206 zum Bestimmen einer panoptischen Segmentierungskarte durch. In einigen Fällen beinhaltet eine panoptische Segmentierungskarte ein Layout oder eine Anordnung von panoptischen Segmenten, die einem Digitalbild entsprechen. Eine panoptische Segmentierungskarte beinhaltet beispielsweise Grenzen oder Kanten, die verschiedene Flächen oder Bereiche trennen, die jeweiligen panoptischen Etiketten zugeordnet sind, die Objekte oder Typen von Pixeln eines entsprechenden Digitalbildes angeben (beispielsweise „Himmel“-Pixel oder „Auto“-Pixel). Eine panoptische Segmentierungskarte unterscheidet des Weiteren zwischen Instanzen von Objekten oder Bereichen, die Pixel eines geteilten semantischen Etiketts (beispielsweise „Person“) abbilden, sodass die Objekte oder Bereiche unterscheidbare panoptische Etiketten (beispielsweise eine erste Person und eine zweite Person) aufweisen.
Zum Bestimmen der panoptischen Segmentierungskarte setzt das panoptische Rekonstruktionssystem 102 in einigen Fällen ein segmentierendes neuronales Netzwerk ein, um panoptische Segmente aus einem Digitalbild zu generieren oder vorherzusagen, wobei die panoptischen Segmente Grenzen oder Kanten für verschiedene Pixelbereiche wie auch Etiketten entsprechend Pixelbereichen angeben. Bei gewissen Ausführungsformen bestimmt das panoptische Rekonstruktionssystem 102 die panoptische Segmentierungskarte aus einer Nutzerinteraktion über eine Clientvorrichtung zum Zeichnen oder auf andere Weise erfolgenden Definieren von Grenzen für Pixelbereiche und zum Eingeben von Etiketten für die panoptischen Bereiche. Wie gezeigt ist, gibt die panoptische Segmentierungskarte verschiedene Grenzen und Etiketten für Pixel eines Digitalbildes an, darunter mehrere Instanzen von „Person“-Pixeln, die voneinander unterscheidbar sind.
Wie weiter in 2 gezeigt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 208 zum Generieren eines rekonstruierten Digitalbildes durch. Veranschaulichungshalber setzt das panoptische Rekonstruktionssystem 102 auf Grundlage von gelernten Parametern für ein panoptisch rekonstruierendes neuronales Netzwerk, das Digitalbilder mit Blick auf Realitätsnähe und semantische Passgenauigkeit (wie beispielsweise bei Handlung 202 beschrieben wird) genau generiert, das trainierte panoptisch rekonstruierende neuronale Netzwerk ein, um ein rekonstruiertes Digitalbild zu generieren. Insbesondere setzt das panoptische Rekonstruktionssystem 102 das panoptisch rekonstruierende neuronale Netzwerk ein, um eine Generierung eines rekonstruierten Digitalbildes entsprechend einer panoptischen Segmentierungskarte (wie beispielsweise über die Handlung 206 bestimmt) panoptisch anzuleiten. Das panoptisch rekonstruierende System 102 rekonstruiert ein Digitalbild zur Ersetzung von Pixeln einer vorgesehenen Fläche von Pixeln zur Ersetzung durch Verfolgen einer semantischen Segmentierungskarte, die angibt, welche Pixel (beispielsweise Himmel-Pixel oder Person-Pixel oder Baum-Pixel) in welchen Abschnitten der vorgesehenen Fläche (wobei Pixel außerhalb der vorgesehenen Fläche nicht betroffen sind) rekonstruiert werden sollen. Wie gezeigt ist, bildet das rekonstruierte Digitalbild Pixel ab, die für vier Frauen rekonstruiert worden sind, die innerhalb der vorgesehenen (beispielsweise maskierten) Fläche sind, während zwischen jeder der Frauen entsprechend der panoptischen Segmentierungskarte unterschieden wird.
Wie weiter in 2 dargestellt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 210 zum Detektieren einer Modifikation an einer panoptischen Segmentierungskarte durch. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise eine Nutzerinteraktion über eine Clientvorrichtung zum Anpassen einer Grenze oder Kante eines oder mehrerer Bereiche innerhalb einer panoptischen Segmentierungskarte. Bei einem weiteren Beispiel empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion zum Ändern eines panoptischen Etiketts, das einer oder mehreren Bereichen einer panoptischen Segmentierungskarte zugeordnet ist. In einigen Fällen detektiert oder empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion zum Löschen einer Grenze, Löschen eines Etiketts und/oder Löschen eines Bereiches der panoptischen Segmentierungskarte. Bei gewissen Ausführungsformen empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion zum Zeichnen und Etikettieren eines neuen Bereiches, der nicht innerhalb eines Digitalbildes abgebildet ist (beispielsweise zum Hinzufügen von Pixeln für ein Objekt, das in dem Digitalbild nicht gezeigt ist).
Zusätzlich führt das panoptische Rekonstruktionssystem 102 auf Grundlage des Detektierens einer Modifikation an einer panoptischen Segmentierungskarte eine Handlung 212 zum Generieren eines modifizierten rekonstruierten Digitalbildes durch. Insbesondere generiert das panoptische Rekonstruktionssystem 102 ein modifiziertes rekonstruiertes Digitalbild zur Wiedergabe der Modifikation, die an der panoptischen Segmentierungskarte vorgenommen wird. Das panoptische Rekonstruktionssystem 102 aktualisiert ein rekonstruiertes Digitalbild zur Wiedergabe neuer Grenzen und/oder Etiketten für Bereiche einer panoptischen Segmentierungskarte durch Generieren von passenden Ersetzungspixeln zur Füllung der jeweiligen Bereiche.
Wie gezeigt ist, wiederholt das panoptische Rekonstruktionssystem 102 bei einigen Beispielen die Handlungen 210 und 212. In einigen Fällen empfängt das panoptische Rekonstruktionssystem 102 eine zusätzliche Nutzerinteraktion zum weiteren Aktualisieren oder Modifizieren einer panoptischen Segmentierungskarte, und das panoptische Rekonstruktionssystem 102 aktualisiert das rekonstruierte Digitalbild sodann entsprechend. Bei einigen Ausführungsformen aktualisiert das panoptische Rekonstruktionssystem 102 das rekonstruierte Digitalbild automatisch mit jeder Eingabe zur Änderung der panoptischen Segmentierungskarte (beispielsweise ohne eine weitere Eingabe zur Anforderung der Aktualisierung an dem rekonstruierten Digitalbild anzufordern), während bei anderen Ausführungsformen das panoptische Rekonstruktionssystem 102 ein modifiziertes rekonstruiertes Digitalbild in Reaktion auf eine Nutzerinteraktion mit einem Rekonstruktionselement generiert.
Wie vorstehend erläutert worden ist, generiert das panoptische Rekonstruktionssystem 102 bei gewissen beschriebenen Ausführungsformen ein rekonstruiertes Digitalbild unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes. Insbesondere rekonstruiert das panoptische Rekonstruktionssystem 102 ein Digitalbild durch Füllen einer vorgesehenen Fläche von Pixeln zur Ersetzung mit Ersetzungspixeln entsprechend einer panoptischen Segmentierungskarte. 3 zeigt ein exemplarisches Diagramm des Generierens eines rekonstruierten Digitalbildes unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
Wie in 3 dargestellt ist, identifiziert das panoptische Rekonstruktionssystem 102 ein Digitalbild 302. Insbesondere identifiziert oder empfängt das panoptische Rekonstruktionssystem 102 das Digitalbild 302 von einem Client (beispielsweise der Clientvorrichtung 108). Das panoptische Rekonstruktionssystem 102 empfängt das Digitalbild 302 beispielsweise als Upload oder Angabe eines Digitalbildes zur Rekonstruktion. Wie gezeigt ist, bildet das Digitalbild 302 eine vorgesehene Fläche von Pixeln zur Ersetzung ab, wie durch die graue Verdeckung dargestellt ist, die einige der Pixel des Digitalbildes 302 verbirgt oder entfernt.
Bei einer oder mehreren Ausführungsformen bestimmt oder identifiziert das panoptische Rekonstruktionssystem 102 die vorgesehene Fläche auf Grundlage einer Binärmaske 304. Veranschaulichungshalber identifiziert oder empfängt das panoptische Rekonstruktionssystem 102 (beispielsweise von der Clientvorrichtung 108) die Binärmaske 304, die einen Bereich von Pixeln zur Ersetzung angibt (beispielsweise einen Bereich von Pixeln zur Rekonstruktion entweder durch Füllen eines Abschnittes eines Digitalbildes oder durch Hinzufügen von Pixeln zu dem Digitalbild). In einigen Fällen generiert das panoptische Rekonstruktionssystem 102 die Binärmaske 304 unter Einsatz eines maskengenerierenden neuronalen Netzwerkes. Das panoptische Rekonstruktionssystem 102 setzt das maskengenerierende neuronale Netzwerk des CoModGAN-Modells ein, das beschrieben wird bei: „High-Resolution Image Inpainting with Iterative Confidence Feedback and Guided Upsampling" von Yu Zheng, Zhe Lin, Jimei Yang, Jianming Zhang, Eli Shechtman und Huchuan Lu, veröffentlicht bei arXiv:2005.11742 (2020), oder bei „Large Scale Image Completion via Co-Modulated Generative Adversarial Networks" von Shengyu Zhao, Jonathan Cui, Yilun Sheng, Yue Dong, Xiao Lian, Eric I. Chang und Yan Xu, veröffentlicht bei arXiv:2103.10428 (2021). Wie gezeigt ist, gibt die Binärmaske 304 Flächen von maskierten Pixeln (beispielsweise Pixel zur Ersetzung durch Rekonstruktion) in Schwarz und Flächen von nichtmaskierten Pixeln (Pixel, die während der Rekonstruktion erhalten bleiben oder nicht betroffen sind) in Weiß an.
Zusätzlich zum Identifizieren des Digitalbildes 302 und der Binärmaske identifiziert das panoptische Rekonstruktionssystem 102 eine panoptische Segmentierungskarte 306. Veranschaulichungshalber empfängt das panoptische Rekonstruktionssystem 102 bei einigen Ausführungsformen eine Nutzerinteraktion zum Generieren einer panoptischen Segmentierungskarte von der Clientvorrichtung 108. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise eine Nutzerinteraktion über eine panoptische Rekonstruktionsschnittstelle zum Auswählen eines panoptischen Etikettelementes und empfängt des Weiteren eine Nutzerinteraktion zum Zeichnen und Etikettieren der panoptischen Segmentierungskarte 306.
Bei einigen Ausführungsformen generiert das panoptische Rekonstruktionssystem 102 die panoptische Segmentierungskarte 306. Insbesondere setzt das panoptische Rekonstruktionssystem 102 ein neuronales Netzwerk ein, so beispielsweise ein panoptisch segmentierendes neuronales Netzwerk zum Generieren der panoptischen Segmentierungskarte 306. Das panoptische Rekonstruktionssystem 102 setzt ein segmentierendes neuronales Netzwerk ein, um Kanten oder Grenzen für verschiedene Bereiche von Pixeln innerhalb eines Digitalbildes (beispielsweise des Digitalbildes 302) vorherzusagen. Zusätzlich setzt das panoptische Rekonstruktionssystem 102 das segmentierende neuronale Netzwerk ein, um Etiketten vorherzusagen, die den verschiedenen Bereichen, die durch die Grenzen getrennt sind, entsprechen. In einigen Fällen setzt das panoptische Rekonstruktionssystem 102 ein (panoptisch) segmentierendes neuronales Netzwerk ein, wie es beschrieben wird bei: „Fully Convolutional Networks for Panoptic Segmentation" von Yanwei Li, Henghsuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun und Jiaya Jia, veröffentlicht bei „Proceedings of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 214-23 (2021)“.
Bei gewissen Ausführungsformen rekonstruiert das panoptische Rekonstruktionssystem 102 zum Generieren der panoptischen Segmentierungskarte 306 für das Digitalbild 302 zunächst vorläufig das Loch oder die vorgesehene Fläche des Digitalbildes 302. Zum Bestimmen der panoptischen Segmentierung für die fehlenden Pixel des Digitalbildes 302 generiert das panoptische Rekonstruktionssystem 102 zunächst Pixel, aus denen die panoptische Segmentierung bestimmt werden soll. Das panoptische Rekonstruktionssystem 102 setzt ein bildgenerierendes neuronales Netzwerk (beispielsweise ein vorläufig rekonstruierendes neuronales Netzwerk) ein, um ein Zwischendigitalbild durch Rekonstruktion des Digitalbildes 302 zu generieren. In einigen Fällen setzt das panoptische Rekonstruktionssystem 102 ein bestimmtes bildgenerierendes neuronales Netzwerk ein, um das Zwischendigitalbild (beispielsweise eine vorläufige rekonstruierte Version des Digitalbildes 302) zu generieren, so beispielsweise das Cascaded-Modulation-GAN („CM-GAN“); Beschrieben wird dieses in der am 4. Mai 2022 eingereichten US-Patentanmeldung Nr. 17/661,985 von Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Eli Shechtman, Connelly Barnes, Jianming Zhang, Ning Xu und Sohrab Amirghodsi mit dem Titel „Digital Image Inpainting Utilizing a Cascaded Modulation Inpainting Neural Network“. Die Quelle wird hiermit in Gänze durch Verweis mit aufgenommen. Aus dem Zwischendigitalbild bestimmt das panoptische Rekonstruktionssystem 102 sodann die panoptische Segmentierungskarte 306, wie beschrieben worden ist.
Wie in 3 dargestellt ist, setzt das panoptische Rekonstruktionssystem 102 die panoptische Segmentierungskarte 306 wie auch das Digitalbild 302 und die Binärmaske 304 als Eingabe für das panoptisch rekonstruierende neuronale Netzwerk 312 ein. In einigen Fällen setzt das panoptische Rekonstruktionssystem 102 die panoptische Segmentierungskarte 306 nicht direkt als Eingabe ein, sondern nimmt anstatt dessen ein Umwandeln oder Zerlegen der panoptischen Segmentierungskarte in konstituierende Komponenten vor, um panoptische Information zu erfassen (beispielsweise unter Nutzung mehrerer Kanäle für verschiedene Komponenten der panoptischen Information). Das panoptische Rekonstruktionssystem 102 generiert die panoptische Segmentierungskarte 306 derart, dass diese Komponenten beinhaltet, so beispielsweise eine feinkörnige semantische Annotation und Instanzebenenkontur (beispielsweise eine semantische Etikettenkarte beziehungsweise eine Kantenkarte), und zwar entsprechend der panoptischen Segmentierung, wie sie beschrieben wird bei: „Panoptic Segmenation" von Alexander Kirillov, Kaming He, Ross Girshick, Carsten Rother und Piotr Dollar, veröffentlicht bei „Proceedings of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 9404-13 (2019). Das panoptische Rekonstruktionssystem 102 zerlegt daher die panoptische Segmentierungskarte 306 in konstituierende Komponenten zur Analyse durch das panoptisch rekonstruierende neuronale Netzwerk 312.
Insbesondere generiert oder bestimmt das panoptische Rekonstruktionssystem 102 eine Etikettenkarte 308 und eine Kantenkarte 310 aus der panoptischen Segmentierungskarte 306. Das panoptische Rekonstruktionssystem 102 bestimmt eine Etikettenkarte 308, die ein Layout von semantischen Etiketten bei verschiedenen Pixelkoordinaten wiedergibt oder angibt. Zusätzlich bestimmt das panoptische Rekonstruktionssystem 102 eine Kantenkarte 310, die Pixelorte von Kanten oder Grenzen zwischen Bereichen der panoptischen Segmentierungskarte 306 wiedergibt oder angibt (beispielsweise zur Unterscheidung zwischen überlappenden Instanzen eines gemeinsam geteilten semantischen Etiketts). Bei einer oder mehreren Ausführungsformen definiert das panoptische Rekonstruktionssystem 102 eine panoptische Segmentierungskarte P bei jedem Pixel i als Tupel (l_i,z_i), wobei l_i ∈ {0, ..., L - 1} das semantische Etikett eines Pixels i darstellt und wobei z_i ∈ ℕ eine entsprechende Instanzidentifikation darstellt. Das panoptische Rekonstruktionssystem 102 wandelt die panoptische Segmentierungskarte P in eine semantische Etikettenkarte L und eine Binärkantenkarte E um.
Wie weiter in 3 dargestellt ist, setzt das panoptische Rekonstruktionssystem 102 das panoptisch rekonstruierende neuronale Netzwerk 312 ein, um ein rekonstruiertes Digitalbild 314 zu generieren. Insbesondere setzt das panoptische Rekonstruktionssystem 102 das panoptisch rekonstruierende neuronale Netzwerk 312 ein, um das rekonstruierte Digitalbild 314 aus dem Digitalbild 302, der Binärmaske 304 und/oder der panoptischen Segmentierungskarte 306 zu generieren (oder die konstituierenden Komponenten, die Etikettenkarte 308 und die Kantenkarte 310 hiervon). Bei einigen Ausführungsformen beruht das panoptisch rekonstruierende neuronale Netzwerk 312 dem Konzept nach auf konditionellen GANs, wie sie beschrieben sind bei: „Conditional Generative Adversarial Nets" von Mehdi Mirza und Simon Osindero, veröffentlicht bei arXiv: 1411.1784 (2014).
Zum Generieren des rekonstruierten Digitalbildes setzt das panoptische Rekonstruktionssystem 102 einen Generator G des panoptisch rekonstruierenden neuronalen Netzwerkes 312 ein. Insbesondere generiert das panoptische Rekonstruktionssystem 102 das rekonstruierte Digitalbild 314 folgendermaßen: $\hat{X} = G (X ⊙ (1 - M), M, L, E)$
Hierbei bezeichnet X ein vollständiges Digitalbild (beispielsweise eine vollständige Version des Digitalbildes 302), X ⊙ (1 - M) bezeichnet das Digitalbild 302, X̂ bezeichnet das rekonstruierte Digitalbild 314, M bezeichnet die Binärmaske 304, L bezeichnet die Etikettenkarte 308, und E bezeichnet die Kantenkarte 310. Wie gezeigt ist, bildet das rekonstruierte Digitalbild 314 realitätsnahe, semantisch konsistente Ersetzungspixel ab, die den vorgesehenen Bereich des Digitalbildes 302 (beispielsweise die Fläche von fehlenden Pixeln) füllen. Das panoptische Rekonstruktionssystem 102 setzt das panoptisch rekonstruierende neuronale Netzwerk 312 ein, um die verschiedenen Abschnitte der vorgesehenen Fläche innerhalb des Digitalbildes 302 unter Nutzung von Ersetzungspixeln, die zu entsprechenden panoptischen Etiketten passen, zu rekonstruieren.
Wie vorstehend erwähnt worden ist, lernt das panoptische Rekonstruktionssystem 102 bei gewissen beschriebenen Ausführungsformen Parameter für ein panoptisch rekonstruierendes neuronales Netzwerk unter Einsatz eines semantischen Diskriminators. Insbesondere setzt das panoptische Rekonstruktionssystem 102 einen semantischen Diskriminator ein, um Parameter für verschiedene neuronale Netzwerke, darunter generative neuronale Netzwerke, so beispielsweise ein panoptisch rekonstruierendes neuronales Netzwerk, zu trainieren, aufzubauen oder zu lernen. 4 zeigt ein exemplarisches Diagramm des Trainierens eines neuronalen Netzwerkes unter Einsatz eines semantischen Diskriminators entsprechend einer oder mehreren Ausführungsformen.
Wie in 4 dargestellt ist, greift das panoptische Rekonstruktionssystem 102 auf ein Digitalbild 402 zu oder empfängt dieses. Wie gezeigt ist, beinhaltet das Digitalbild 402 eine vorgesehene Fläche (gemäß Definition durch eine Nutzerinteraktion über eine Clientvorrichtung oder gemäß einer anderen Bestimmung) von Pixeln zur Ersetzung, die durch den grauen Abschnitt von entfernten, verdeckten oder verdunkelten Pixeln dargestellt werden. Zusätzlich identifiziert, generiert oder empfängt das panoptische Rekonstruktionssystem 102 eine panoptische Segmentierungskarte 404, die ein panoptisches Layout zum Generieren von Pixeln und Anleiten des Rekonstruktionsprozesses definiert. Das panoptische Rekonstruktionssystem 102 identifiziert, generiert oder empfängt des Weiteren eine Binärmaske 406, die die vorgesehene Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes 402 definiert oder wiedergibt.
Auf Grundlage des Identifizierens des Digitalbildes 402, der panoptischen Segmentierungskarte 404 und der Binärmaske 406 setzt das panoptische Rekonstruktionssystem 102 einen Generator 408 (beispielsweise ein generierendes neuronales Netzwerk, wie vorstehend beschrieben worden ist) ein, um ein vorhergesagtes Digitalbild 410 zu generieren. Insbesondere setzt das panoptische Rekonstruktionssystem 102 den Generator 408 ein, um Ersetzungspixel zum Füllen der vorgesehenen Fläche des Digitalbildes 402 (wobei die Fläche durch die Binärmaske 406 definiert ist) und entsprechend einem oder mehreren panoptischen Etiketten, die der Anleitung der panoptischen Segmentierungskarte 404 folgen, zu generieren. Wie gezeigt ist, beinhaltet das vorhergesagte Digitalbild 410 Ersetzungspixel, die die vorgesehene Fläche füllen, wobei die Ersetzungspixel den panoptischen Etiketten der panoptischen Segmentierungskarte 404 für die verschiedenen Abschnitte folgen.
Bei einigen Ausführungsformen weist der Generator 408 eine bestimmte Architektur auf, so beispielsweise die Generatorarchitektur von CM-GAN, wie sie in der genannten US-Patentanmeldung Nr. 17/661,985 beschrieben ist. In einigen Fällen setzt das panoptische Rekonstruktionssystem 102 eine modifizierte CM-GAN-Architektur ein, um eine semantische Etikettenkarte und eine Kantenkarte als Eingaben zu nehmen. Zum Generieren des vorhergesagten Digitalbildes 410 unter Einsatz von Eingabedaten, die mit dem Generator 408 (beispielsweise dem CM-GAN-Generator) kompatibel sind, zerlegt das panoptische Rekonstruktionssystem 102 die panoptische Segmentierungskarte 404 in zwei Komponenten, nämlich eine semantische Etikettenkarte, die Etiketten für die verschiedenen Abschnitte der panoptischen Segmentierungskarte 404 definiert, und eine Kantenkarte, die die Grenzen oder Kanten zwischen den panoptischen Etiketten definiert. Insbesondere leitet das panoptische Rekonstruktionssystem 102 die semantische Etikettenkarte an eine Einbettungsschicht weiter und führt sodann eine Normierungstechnik (beispielsweise eine ℓ₂-Normierung) durch, um eine normierte semantische Einbettung zu erzeugen. Das panoptische Rekonstruktionssystem 102 generiert das vorhergesagte Digitalbild 410 sodann entsprechend der nachfolgenden mathematischen Darstellung: $\hat{X} = G (X ⊙ (1 - M), M, S, E)$
Hierbei bezeichnet X̂ das vorhergesagte Digitalbild 410, G bezeichnet den Generator 408, X bezeichnet ein vollständiges Digitalbild (beispielsweise eine vollständige Version des Digitalbildes 402), X ⊙ (1 - M) bezeichnet das Digitalbild 402, S bezeichnet eine normierte semantische Einbettung, und E bezeichnet eine Kantenkarte. In einigen Fällen bezeichnet man eine Kombination oder Verkettung von M, S, E als panoptische Bedingung. Das panoptische Rekonstruktionssystem 102 verkettet die Eingaben und generiert das vorhergesagte Digitalbild 410 aus der Verkettung.
Als Teil des Trainings eines neuronalen Netzwerkes (beispielsweise eines neuronalen Netzwerkes, das den Generator 408 beinhaltet) setzt das panoptische Rekonstruktionssystem 102 des Weiteren einen Bildebenendiskriminator 414 und einen Objektebenendiskriminator 424 ein. Zum Generieren von realitätsnahen Digitalbildern setzt das panoptische Rekonstruktionssystem 102 sowohl Bildebenen- wie auch Objektebenendiskriminatoren ein, um einen unerwünschten Fokus auf Artefakte oder nicht wahrnehmbare Merkmale von Digitalbildern zu verhindern oder zu verringern. Durch Nutzung sowohl des Bildebenendiskriminators 414 wie auch des Objektebenendiskriminators lernt das panoptische Rekonstruktionssystem 102 Parameter zum Generieren von realitätsnahen Digitalbildern, die auch zu einem komplexen semantischen Layout genau passen, und zwar sogar für einzelne Objekte oder Bereiche eines Digitalbildes.
Zur Veranschaulichung des Bildebenendiskriminators 414 beinhaltet der Bildebenendiskriminator 414 einen generativ-adversativen Diskriminator 416 und einen semantischen Diskriminator 418. Bei einer oder mehreren Ausführungsformen generiert der Bildebenendiskriminator 414 eine Realitätsnähevorhersage auf Grundlage der Gesamtheit des vorhergesagten Digitalbildes 410. Insbesondere vergleicht der Bildebenendiskriminator 414 das vorhergesagte Digitalbild 410 mit einem realen Digitalbild 412 (beispielsweise einem realen Digitalbild, das innerhalb einer Datenbank 430 gespeichert ist und derart vorgesehen ist, dass es einer vervollständigten Version des Digitalbildes 402 entspricht oder diese darstellt), um eine Realitätsnähevorhersage dessen zu generieren, wie wahrscheinlich es ist, dass das Digitalbild 410 ein reales Bild aus der Datenbank 430 ist.
Wie gezeigt worden ist, beinhaltet der Bildebenendiskriminator 414 zwei konstituierende Diskriminatoren, nämlich einen generativ-adversativen Diskriminator 416 und einen semantischen Diskriminator 418. Das panoptische Rekonstruktionssystem 102 setzt den generativ-adversativen Diskriminator 416 ein, um einen ersten Realitätsnähekennwert zu generieren, und setzt des Weiteren den semantischen Diskriminator 418 ein, um einen zweiten Realitätsnähekennwert zu generieren. Das panoptische Rekonstruktionssystem 102 kombiniert des Weiteren den Realitätsnähekennwert des generativ-adversativen Diskriminators 416 und den Realitätsnähekennwert des semantischen Diskriminators 418 zur Bestimmung eines Realitätsnähekennwertes für den Bildebenendiskriminator 414. In einigen Fällen weist der generativ-adversative Diskriminator 416 eine bestimmte Architektur auf, so beispielsweise diejenige eines StyleGAN-Diskriminators, wie er beschrieben wird bei: „Analyzing and Improving the Image Quality of StyleGAN“ von Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen und Timo Aila, veröffentlicht bei CVPR (2020). Bei einigen Ausführungsformen setzt das panoptische Rekonstruktionssystem 102 den generativ-adversativen Diskriminator 416 zum Generieren eines Bildebenenrealitätsnähekennwertes entsprechend der nachfolgenden Gleichung ein: ${\hat{y}}_{g} = D_{g} (\hat{X}, M, S, E)$
Hierbei bezeichnet ŷ_g, den Bildebenenrealitätsnähekennwert, D_g bezeichnet den generativ-adversativen Diskriminator 416, X̂ bezeichnet das vorhergesagte Digitalbild 410, und M, S,E bezeichnet die vorbeschriebene panoptische Bedingung.
Zusätzlich setzt das panoptische Rekonstruktionssystem 102 den semantischen Diskriminator 418 ein, um einen bildebenensemantischen Realitätsnähekennwert zu bestimmen, wie er durch die nachfolgende Gleichung angegeben wird: ${\hat{y}}_{s} = D_{s} (\hat{X}, M, S, E)$
Hierbei bezeichnet ŷ_s den bildebenensemantischen Realitätsnähekennwert, D_s bezeichnet den semantischen Diskriminator 418, X̂ bezeichnet das vorhergesagte Digitalbild 410, und M, S, E bezeichnen die vorbeschriebene panoptische Bedingung. Zusätzliche Details im Zusammenhang mit der Architektur des semantischen Diskriminators 418 (und des semantischen Diskriminators 428) sind nachstehend anhand 5 angegeben.
Zur Veranschaulichung des Objektebenendiskriminators 424 beinhaltet der Objektebenendiskriminator 424 einen generativ-adversativen Diskriminator 426 und einen semantischen Diskriminator 428, wie dies auch bei dem Bildebenendiskriminator 414 der Fall ist. Bei einigen Ausführungsformen generiert der Objektebenendiskriminator 424 eine Realitätsnähevorhersage auf Grundlage eines Abschnittes des vorhergesagten Digitalbildes 410. Das panoptische Rekonstruktionssystem 102 generiert insbesondere einen Ausschnitt des vorhergesagten Digitalbildes 410 zur Fokussierung auf ein bestimmtes Objekt oder einen Bereich von Pixeln, beispielsweise den vorhergesagten Ausschnitt 420. Bei gewissen Ausführungsformen generiert das panoptische Rekonstruktionssystem 102 den vorhergesagten Ausschnitt 420 derart, dass dieser rechteckige Abmessungen bzw. Dimensionen aufweist, und setzt zudem eine Binärmaske ein, um zwischen Vordergrundpixeln und Hintergrundpixeln des Ausschnittes zu unterscheiden (um beispielsweise nur einen Realitätsnähekennwert für die Vordergrundpixel zu generieren). Das panoptische Rekonstruktionssystem 102 generiert eine Binärmaske zum Ausmaskieren der Pixel rings um die Person, die in dem vorhergesagten Ausschnitt 420 abgebildet ist, sodass nur die Pixel, die die Person darstellen, übrig bleiben.
Wie gezeigt ist, bestimmt der Objektebenendiskriminator 424 eine oder mehrere Realitätsnähevorhersagen für den vorhergesagten Ausschnitt 420 in Bezug auf einen realen Ausschnitt 422 (beispielsweise einen Ausschnitt eines realen Digitalbildes, der innerhalb der Datenbank 430 gespeichert und derart vorgesehen ist, dass er einer vervollständigten Version des Digitalbildes 402 entspricht oder diese darstellt). Das panoptische Rekonstruktionssystem 102 generiert eine Realitätsnähevorhersage dessen, wie wahrscheinlich es ist, dass das vorhergesagte Digitalbild 410 ein realer Ausschnitt aus der Datenbank 430 (oder ein Ausschnitt eines realen Bildes aus der Datenbank 430) ist. In einigen Fällen generiert das panoptische Rekonstruktionssystem 102 mehrere Ausschnitte und bestimmt Realitätsnähevorhersagen für jeden Ausschnitt oder ein entsprechendes Objekt. Das panoptische Rekonstruktionssystem 102 nutzt eine Objektebenenausrichtung zur Verbesserung der Realitätsnähe und der semantischen Passgenauigkeit von generierten Bildern.
Wie gezeigt ist, beinhaltet der Objektebenendiskriminator 424 zwei konstituierende Diskriminatoren, nämlich einen generativ-adversativen Diskriminator 426 und einen semantischen Diskriminator 428. Das panoptische Rekonstruktionssystem 102 setzt den generativ-adversativen Diskriminator 426 ein, um einen ersten Realitätsnähekennwert zu generieren, und setzt zudem den semantischen Diskriminator 428 ein, um einen zweiten Realitätsnähekennwert für den vorhergesagten Ausschnitt 420 zu generieren. Das panoptische Rekonstruktionssystem 102 kombiniert des Weiteren den Realitätsnähekennwert des generativ-adversativen Diskriminators 416 und den Realitätsnähekennwert des semantischen Diskriminators 428 zur Bestimmung eines Realitätsnähekennwertes für den Objektebenendiskriminator 424. In einigen Fällen weist der generativ-adversative Diskriminator 426 eine bestimmte Architektur auf, so beispielsweise diejenige des generativ-adversativen Diskriminators 426. Auf ähnliche Weise weist der semantische Diskriminator 428 eine Architektur wie diejenige des semantischen Diskriminators 418 auf, wie nachstehend noch detaillierter anhand 5 beschrieben wird.
Bei einer oder mehreren Ausführungsformen generiert das panoptische Rekonstruktionssystem 102 einen Objektebenenrealitätsnähekennwert entsprechend der nachfolgenden Gleichung: ${\hat{y}}^{o b j} = D^{o b j} ({\hat{X}}_{a}, M_{a}, L_{a}, E_{a}, I_{a})$
Hierbei bezeichnet ŷ^obj den Objektebenenrealitätsnähekennwert (beispielsweise dasjenige, wie wahrscheinlich es ist, dass der vorhergesagte Ausschnitt 420 tatsächlich der reale Ausschnitt 422 ist), D^obj bezeichnet den generativ-adversativen Diskriminator 426, X̂_a bezeichnet den vorhergesagten Ausschnitt 420 des Begrenzungskastens b = (x₀, y₀, x₁, y₁), M_a bezeichnet eine ausgeschnittene Binärmaske (beispielsweise einen ausgeschnittenen Abschnitt der Binärmaske 406), L_a bezeichnet eine ausgeschnittene Etikettenkarte, E_a bezeichnet eine ausgeschnittene Kantenkarte, und I_a bezeichnet eine Ausschnittsebenenbinärmaske zur Trennung von Vordergrundpixeln und Hintergrundpixeln des vorhergesagten Ausschnittes 420 (beispielsweise zur Entfernung von Pixeln rings um ein abgebildetes Objekt, um so die Form des Objektes wiederzugeben). In einigen Fällen wird die Kombination oder Verkettung von M_a, L_a, E_a, I_a als objektebenenpanoptische Bedingung betrachtet. Das panoptische Rekonstruktionssystem 102 bestimmt jede der Komponenten der Gleichung durch Ausschneiden des vorhergesagten Digitalbildes 410 und der entsprechenden Karten und Masken.
Bei gewissen Ausführungsformen generiert das panoptische Rekonstruktionssystem 102 einen objektebenensemantischen Realitätsnähekennwert entsprechend der nachfolgenden Gleichung. ${\hat{y}}_{s}^{o b j} = D_{s}^{o b j} ({\hat{X}}_{a}, M_{a}, L_{a}, E_{a}, I_{a})$
Hierbei bezeichnet ${\hat{y}}_{s}^{o b j}$
den objektebenensemantischen Realitätsnähekennwert (beispielsweise dasjenige, wie wahrscheinlich es ist, dass der vorhergesagte Ausschnitt 420 semantisch zu dem realen Ausschnitt 422 passt), und $D_{s}^{o b j}$
bezeichnet den semantischen Diskriminator 428; die anderen Terme sind vorstehend definiert. In einigen Fällen kombiniert das panoptische Rekonstruktionssystem 102 des Weiteren Realitätsnähekennwerte zum Generieren eines gesamten Realitätsnähekennwertes. Veranschaulichungshalber kombiniert das panoptische Rekonstruktionssystem 102 den Objektebenenrealitätsnähekennwert und den objektebenensemantischen Realitätsnähekennwert zur Bestimmung eines gesamten Objektebenenrealitätsnähekennwertes. Insbesondere kombiniert das panoptische Rekonstruktionssystem 102 den Bildebenenrealitätsnähekennwert mit dem bildebenensemantischen Realitätsnähekennwert zur Bestimmung eines gesamten Bildebenenrealitätsnähekennwertes. Das panoptische Rekonstruktionssystem 102 kombiniert beispielsweise den gesamten Objektebenenrealitätsnähekennwert mit dem gesamten Bildebenenrealitätsnähekennwert zur Bestimmung einer gesamten Realitätsnähevorhersage.
Auf Grundlage einer gesamten Realitätsnähevorhersage bestimmt das panoptische Rekonstruktionssystem 102 einen oder mehrere Verluste, die vorgeben, wie das panoptische Rekonstruktionssystem 102 Parameter eines neuronalen Netzwerkes (beispielsweise den Generator 408, den Bildebenendiskriminator 414, den Objektebenendiskriminator 424 und/oder andere neuronale Netzwerke) über mehrere Iterationen anpasst, um die Genauigkeit zu verbessern. Das panoptische Rekonstruktionssystem 102 setzt ein spezielles Trainingsziel ein, um gewisse Verlustmaße zu verringern, bis die Verlustmaße jeweiligen Schwellen genügen. Das panoptische Rekonstruktionssystem 102 bestimmt beispielsweise einen adversativen Verlust für die verschiedenen Diskriminatoren, darunter den generativ-adversativen Diskriminator 416, den semantischen Diskriminator 418, den generativ-adversativen Diskriminator 426 und den semantischen Diskriminator 428.
Veranschaulichungshalber bestimmt das panoptische Rekonstruktionssystem 102 vier nichtsättigende adversative Verluste, und zwar einen für den generativ-adversativen Diskriminator 416, einen für den semantischen Diskriminator 418, einen für den generativ-adversativen Diskriminator 426 und einen für den semantischen Diskriminator 428. Das panoptische Rekonstruktionssystem 102 bestimmt die adversativen Verluste beispielsweise entsprechend der nachfolgenden Gleichung: $L_{a d v} = \sum_{D \in D} l o g D (X) + log (- D (\hat{X}))$
Hierbei bezeichnet L_adv den gesamten adversativen Verlust über alle vier Diskriminatoren $D = {D, D_{s}, D^{o b j}, D_{s}^{o b j}};$
die anderen Terme sind vorstehend definiert.
Zusätzlich zu dem adversativen Verlust bestimmt das panoptische Rekonstruktionssystem 102 des Weiteren einen oder mehrere Rekonstruktionsverluste und setzt diese ein. Zur Verbesserung der generierten Texturen und gleichzeitigen Stabilisierung des Trainingsprozesses bezieht das panoptische Rekonstruktionssystem 102 beispielsweise einen wahrnehmungsbasierten (perceptual) Verlust als Rekonstruktionsverlust ein. Zur Bestimmung eines wahrnehmungsbasierten/Rekonstruktionsverlustes vergleicht das panoptische Rekonstruktionssystem 102 bei einigen Ausführungsformen ein generiertes Digitalbild (beispielsweise das vorhergesagte Digitalbild 410 oder den vorhergesagten Ausschnitt 420 mit einem realen Digitalbild (beispielsweise dem realen Digitalbild 412 oder dem realen Ausschnitt 422). Das panoptische Rekonstruktionssystem 102 vergleicht beispielsweise Pixel des vorhergesagten Digitalbildes 410 mit Pixeln des realen Digitalbildes 412, um Abstände zwischen ihnen in einem Einbettungsraum (pixelweise) zu bestimmen. Bei einem weiteren Beispiel vergleicht das panoptische Rekonstruktionssystem 102 Pixel des vorhergesagten Ausschnittes 420 mit Pixeln des realen Ausschnittes 422 zur (pixelweise erfolgenden) Bestimmung von Abständen zwischen ihnen in einem Einbettungsraum.
Bei einer oder mehreren Ausführungsformen setzt das panoptische Rekonstruktionssystem 102 einen Rekonstruktionsverlust ein, der durch die nachfolgende Gleichung gegeben ist: $L_{r e c} = {\sum_{l = 1}^{L} ‖ Φ^{(l)} (\hat{X}) - Φ^{(l)} (X) ‖}_{1}$
Hierbei bezeichnet L_rec den Rekonstruktionsverlust, und Φ^(l) ist eine Merkmalsdarstellung eines vortrainierten Netzwerkes auf einer Skala von $l \in {1, \dots, L}$
mit $L = 4.$
In einigen Fällen ist das vortrainierte Netzwerk ein vortrainiertes Segmentierungsmodell mit einem hochrezeptiven Feld zur Verbesserung einer Großmaskenrekonstruktion. Das vortrainierte Netzwerk ist beispielsweise ein LaMa-Netzwerk, wie es beschrieben ist bei: „Resolution-Robust Large Mask Inpainting with Fourier Convolutions" von Roman Suvorov, Elizaveta Logacheva, Anton Mashikin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park und Victor Lempitsky, veröffentlicht bei arXiv:2109:07161 (2021).
Wie erwähnt worden ist, aktualisiert das panoptische Rekonstruktionssystem 102 Parameter eines neuronalen Netzwerkes auf Grundlage der vorbeschriebene Verluste. Insbesondere bestimmt das panoptische Rekonstruktionssystem 102 Verluste für eine erste Iteration eines Trainingsprozesses, passt neuronale Netzwerkparameter (beispielsweise Gewichtungen und Tendenzen des Generators 408 und/oder anderer neuronaler Netzwerke) an und führt eine nachfolgende Iteration mit neuen Bildern unter Nutzung der angepassten Parameter durch. Das panoptische Rekonstruktionssystem 102 wiederholt den Trainingsprozess, bis ein oder mehrere Verlustmaße (beispielsweise der adversative Verlust oder der Rekonstruktionsverlust) einem Schwellenverlustmaß genügen.
Wie vorstehend erwähnt worden ist, setzt das panoptische Rekonstruktionssystem 102 bei gewissen beschriebenen Ausführungsformen einen oder mehrere semantische Diskriminatoren als Teil eines Trainingsprozesses ein. Insbesondere setzt das panoptische Rekonstruktionssystem 102 einen semantischen Diskriminator ein, der eine bestimmte Architektur zum Bestimmen von Verlusten auf Bildebene und auf Objektebene aufweist. 5 zeigt ein exemplarisches Diagramm der Architektur für einen semantischen Diskriminator entsprechend einer oder mehreren Ausführungsformen.
Wie in 5 dargestellt ist, generiert der semantische Diskriminator 500 eine Realitätsnähevorhersage 514 aus einem Digitalbild 502 und einer panoptischen Bedingung 504. Der semantische Diskriminator 500 setzt verschiedene Neuronen und Schichten ein, um die Realitätsnähevorhersage 514 zu generieren, um wiederum ein Maß für die semantische Realitätsnähe, die dem Digitalbild 502 zugeordnet ist, anzugeben. Der semantische Diskriminator 500 generiert die Realitätsnähevorhersage 514 entsprechend einer panoptischen Bedingung 504, die eine Binärmaske M, eine normierte semantische Einbettung S, eine Segmentierungskarte (beispielsweise eine panoptische Segmentierungskarte) und eine Kantenkarte E für die Segmentierungskarte beinhaltet oder darstellt.
Wie gezeigt ist, beinhaltet der semantische Diskriminator 500 ein Bildeinbettungsmodell 506. Insbesondere ist das Bildeinbettungsmodell 506 ein Codierer, der eine Bildeinbettung 508 aus dem Digitalbild 502 codiert oder generiert (oder beinhaltet diesen). Insbesondere generiert das Bildeinbettungsmodell 506 die Bildeinbettung 508 (beispielsweise eine Vektordarstellung des Digitalbildes 502), um das Digitalbild 502 im einem Einbettungsraum darzustellen. In einigen Fällen weist das Bildeinbettungsmodell 506 eine bestimmte Architektur auf, so beispielsweise diejenige eines vortrainierten CLIP-Modells (Contrastive Language-Image Pretraining CLIP), wie es beschrieben wird bei: „Learning Transferrable Visual Models from Natural Language Supervision" von Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin und Jack Clark, veröffentlicht bei Int'l Conf. on Maschine Learning, 8748-63 (2021). Durch Einsetzen des semantischen Wissens des Bildeinbettungsmodells 506 bestimmt der semantische Diskriminator 500 die semantische Realitätsnähe als Teil der Realitätsnähevorhersage 514 besser.
Wie weiter in 5 dargestellt ist, beinhaltet der semantische Diskriminator 500 einen weiteren Codierer 510, der aus einer Abfolge oder einem Satz von faltungstechnischen Schichten besteht. Insbesondere analysiert der Codierer 510 eine panoptische Bedingung 504 (beispielsweise eine Binärmaske M, eine normierte semantische Einbettung S und eine Kantenkarte E) zusammen mit dem Digitalbild 502, um eine semantische Bildeinbettung 512 zu generieren oder zu codieren. Die semantische Bildeinbettung 512 ist eine codierte Darstellung einer Kombination des Digitalbildes 502 und der panoptischen Bedingung 504 mit einer Bildinformation und einer semantischen Layoutinformation. Insbesondere codiert der Codierer 510 die panoptische Bedingung 504 auf Grundlage einer Faltung mit Stride (strided convolution) zu einer Vektordarstellung in einem Einbettungsraum entsprechend dem Einbettungsraum der Bildeinbettung 508 (beispielsweise passend zu den Dimensionen bzw. Abmessungen hiervon). Der Codierer 510 generiert die semantische Bildeinbettung 512, um semantische Charakteristiken des Digitalbildes 502 entsprechend der Binärmaske M, der normierten semantischen Einbettungen S (beispielsweise aus einer panoptischen Segmentierungskarte) und der Kantenkarte E (beispielsweise einer panoptischen Segmentierungskarte) darzustellen.
Der semantische Diskriminator 500 kombiniert (beispielsweise durch Verkettung) die Bildeinbettung 508 mit der semantischen Bildeinbettung 512. Wie gezeigt ist, verkettet der semantische Diskriminator 500 die Bildeinbettung 508 und die semantische Bildeinbettung 512 und generiert des Weiteren die Realitätsnähevorhersage 514 auf Grundlage des verketteten Ergebnisses. Der semantische Diskriminator 500 generiert beispielsweise die Realitätsnähevorhersage 514, um anzugeben, ob das Digitalbild 502 real ist oder nicht (oder wie wahrscheinlich es ist, dass das Digitalbild 502 real ist oder nicht).
Zum Generieren der Realitätsnähevorhersage 514 nutzt der semantische Diskriminator 500 in einigen Fällen eine oder mehrere einem neuronalen Netzwerk zu eigene Schichten. Der semantische Diskriminator 500 beinhaltet beispielsweise Schichten zum Generieren einer objektebenensemantischen Realitätsnähevorhersage oder einer bildebenensemantischen Realitätsnähevorhersage (beispielsweise in Abhängigkeit davon, wo der semantische Diskriminator 500 innerhalb der Architektur eines neuronalen Netzwerkes befindlich ist). In einigen Fällen beinhaltet der semantische Diskriminator 500 eine oder mehrere Ausgabeschichten, die aus der Verkettung der Bildeinbettung 508 und der semantischen Bildeinbettung 512 die Realitätsnähevorhersage 514 in Form eines Realitätsnähekennwertes generieren, der eine Probabilität oder Wahrscheinlichkeit dafür angibt, dass das Digitalbild 502 real ist.
Generiert und bereitgestellt werden, wie vorstehend erwähnt worden ist, durch das panoptische Rekonstruktionssystem 102 bei gewissen Ausführungsformen verschiedene Nutzerschnittstellen zum Rekonstruieren eines Digitalbildes unter Einsatz von panoptischen Anleitungen. Generiert und bereitgestellt wird durch das panoptische Rekonstruktionssystem 102 insbesondere eine panoptische Rekonstruktionsschnittstelle, die auswählbare Elemente beinhaltet zum: Generieren von rekonstruierten Digitalbildern, Modifizieren einer panoptischen Segmentierungskarte und/oder Durchführen anderer Vorgänge. 6A bis 6D zeigen exemplarische panoptische Rekonstruktionsschnittstellen zum Rekonstruieren von Digitalbildern entsprechend einer oder mehreren Ausführungsformen.
Wie in 6A gezeigt ist, zeigt die Clientvorrichtung 108 eine panoptische Rekonstruktionsschnittstelle 602, die ein Digitalbild 604 beinhaltet. Wie gezeigt ist, beinhaltet die panoptische Rekonstruktionsschnittstelle 602 einen Vorgesehene-Fläche-Indikator 606, der eine vorgesehene Fläche von Pixeln innerhalb des Digitalbildes 604 hervorhebt oder angibt. Beim Empfangen oder Identifizieren des Digitalbildes 604 analysiert das panoptische Rekonstruktionssystem 102 (beispielsweise automatisch ohne eine Nutzerinteraktion, die zur Analyse auffordert) das Digitalbild 604, um eine vorgesehene Fläche von Pixeln, die ersetzt werden könnte, zu identifizieren. Insbesondere identifiziert oder detektiert das panoptische Rekonstruktionssystem 102 verschwommene Pixel, fehlende Pixel, Off-Color-Pixel, qualitativ minderwertige Pixel, schlecht bearbeitete Pixel oder Pixel, die auf andere Weise mangelhaft oder inkonsistent zu dem Digitalbild 604 sind und die ersetzt werden könnten, um die Qualität des Gesamtbildes zu verbessern.
Generiert und bereitgestellt wird auf Grundlage der Detektion der vorgesehenen Fläche durch das panoptische Rekonstruktionssystem 102 ein Vorgesehene-Fläche-Indikator 606 zur Angabe der vorgesehenen Fläche des Digitalbildes 604. Generiert und bereitgestellt wird durch das panoptische Rekonstruktionssystem 102 zusätzlich ein Rekonstruktionselement 608, das auswählbar ist, um das Digitalbild 604 zu rekonstruieren. Das panoptische Rekonstruktionssystem 102 stellt das Rekonstruktionselement 608 beispielsweise auf Grundlage einer Detektion der vorgesehenen Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes 604 bereit. In Reaktion auf das Empfangen einer Nutzerinteraktion, die das Rekonstruktionselement 608 empfängt (beispielsweise durch Auswahl der Option „Ja“ innerhalb des Rekonstruktionselementes 608), führt das panoptische Rekonstruktionssystem 102 einen Rekonstruktionsvorgang durch, um die vorgesehene Fläche des Digitalbildes 604 unter Einsatz einer panoptischen Segmentierung entsprechend der vorliegenden Offenbarung zu rekonstruieren.
Bei einigen Ausführungsformen beinhaltet das panoptische Rekonstruktionssystem 102 die Clientvorrichtung 108 als Teil des Rekonstruktionsprozesses zum Erbitten oder Annehmen einer Eingabe oder Anleitung dafür, wie das Digitalbild 604 unterwegs rekonstruiert werden soll. Auf Grundlage des Empfangens einer Angabe einer Nutzerinteraktion zum Rekonstruieren des Digitalbildes 604 stellt das panoptische Rekonstruktionssystem 102 beispielsweise die in 6B dargestellte Schnittstelle bereit. Dies bedeutet, dass das panoptische Rekonstruktionssystem 102 eine panoptische Rekonstruktionsschnittstelle 610 zum Generieren oder Zeichnen einer Binärmaske bereitstellt, um die vorgesehene Fläche des Digitalbildes 604 spezifischer zu definieren oder zu bearbeiten. Die panoptische Rekonstruktionsschnittstelle 610 beinhaltet eine Maskeneingabeaufforderung 614, die den Nutzer der Clientvorrichtung 108 auffordert, eine Maske (beispielsweise eine Binärmaske oder eine Softmaske mit Alpha-Werten für eine bessere Unterscheidung von Pixeln zur Aufnahme oder Ausschließung) rings um die Pixel zur Rekonstruktion einzugeben oder zu zeichnen. Wie gezeigt ist, empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion, die eine Binärmaske 612 rings um die vorgesehene Fläche des Digitalbildes 604 oder an anderer Stelle innerhalb des Digitalbildes definiert. In einigen Fällen kann der Nutzer den Verzicht auf das Zeichnen einer Binärmaske auswählen und kann anstatt dessen das panoptische Rekonstruktionssystem 102 auffordern, mit der Rekonstruktion des Digitalbildes 604 auf Grundlage der bisher bestimmten vorgesehenen Fläche fortzufahren.
Beim Empfangen der Eingabe für die Binärmaske 612 stellt das panoptische Rekonstruktionssystem 102 bei einigen Ausführungsformen ein Rekonstruktionselement bereit, um den ausgewählten Abschnitt zu rekonstruieren. Generiert und bereitgestellt wird, wie in 6C gezeigt ist, durch das panoptische Rekonstruktionssystem 102 beispielsweise eine panoptische Rekonstruktionsschnittstelle 616, die das Digitalbild 604 und ein panoptisches Rekonstruktionselement 618 beinhaltet, das auswählbar ist, um die Pixel innerhalb der Binärmaske 612 (oder innerhalb einer vorgesehenen Fläche, die automatisch bestimmt wird) auszuwählen.
Auf Grundlage des Empfangens einer Angabe einer Nutzerinteraktion, die das panoptische Rekonstruktionselement 618 auswählt (beispielsweise durch Auswahl der Option „Ja“), generiert das panoptische Rekonstruktionssystem 102 ein rekonstruiertes Digitalbild aus dem Digitalbild 604 unter Nutzung eines panoptisch rekonstruierenden neuronalen Netzwerkes, wie es hier beschrieben wird. Das panoptische Rekonstruktionssystem 102 bestimmt oder identifiziert beispielsweise eine panoptische Segmentierungskarte, die dem Digitalbild 604 zugeordnet ist, und generiert Ersetzungspixel, um die vorgesehene Fläche entsprechend der panoptischen Segmentierungskarte zu füllen.
Wie in 6D gezeigt ist, generiert das panoptische Rekonstruktionssystem 102 beispielsweise das rekonstruierte Digitalbild 622 aus dem Digitalbild 604. Generiert und bereitgestellt werden durch das panoptische Rekonstruktionssystem 102 die panoptische Rekonstruktionsschnittstelle 620 zur Anzeige auf der Clientvorrichtung 108. Wie gezeigt ist, beinhaltet die panoptische Rekonstruktionsschnittstelle 620 das rekonstruierte Digitalbild 622 oder bildet dieses ab, und zwar zusätzlich zu einem panoptischen Rekonstruktionselement 624, das auswählbar ist, um das rekonstruierte Digitalbild 622 weiter zu rekonstruieren oder zu modifizieren (beispielsweise durch Modifizieren einer panoptischen Segmentierungskarte und/oder einer Binärmaske, die das panoptisch rekonstruierende neuronale Netzwerk angeleitet hat/haben, das rekonstruierte Digitalbild 622 zu generieren).
Wie eben erwähnt worden ist, ermöglicht das panoptische Rekonstruktionssystem 102 bei gewissen beschriebenen Ausführungsformen, dass die Clientvorrichtung 108 gewisse Aspekte eines Digitalbildes bearbeitet oder modifiziert, darunter eine panoptische Segmentierungskarte und/oder eine Binärmaske, die den Rekonstruktionsprozess anleiten. Insbesondere stellt das panoptische Rekonstruktionssystem 102 panoptische Rekonstruktionsschnittstellen bereit, die auswählbare Elemente beinhalten zum Bearbeiten oder Modifizieren von panoptischen Segmentierungskarten, Binärmasken und/oder anderen Aspekten eines Digitalbildes. 7A bis 7D zeigen exemplarische panoptische Rekonstruktionsschnittstellen zum Generieren und Modifizieren von rekonstruierten Digitalbildern auf Grundlage von Bearbeitungen oder Modifikationen an verschiedenen Aspekten von Digitalbildern entsprechend einer oder mehreren Ausführungsformen.
Wie in 7A dargestellt ist, zeigt die Clientvorrichtung 108 eine panoptische Rekonstruktionsschnittstelle 702 an, die eine vorgesehene Fläche oder einen maskierten Abschnitt beinhaltet. In einigen Fällen empfängt das panoptische Rekonstruktionssystem 102 von der Clientvorrichtung 108 (oder aus einer anderen Quelle) das Digitalbild 704 zusammen mit einer Binärmaske, die die vorgesehene Fläche von Pixeln zur Rekonstruktion innerhalb des Digitalbildes 704 angibt. Wie gezeigt ist, beinhaltet die panoptische Rekonstruktionsschnittstelle 702 des Weiteren ein panoptisches Rekonstruktionselement 706, das auswählbar ist, um die vorgesehene Fläche (oder den maskierten Abschnitt) des Digitalbildes 704 zu rekonstruieren.
In einigen Fällen beinhaltet das panoptische Rekonstruktionselement 706 (oder die panoptische Rekonstruktionsschnittstelle 702) ein Bildmaskenelement (beispielsweise durch die Schaltfläche „Maske bearbeiten“ dargestellt), das auswählbar ist, um die Binärmaske, die die vorgesehene Fläche des Digitalbildes 704 definiert, zu bearbeiten oder zu modifizieren. Auf Grundlage des Empfangens einer Nutzerinteraktion, die das Bildmaskenelement auswählt, stellt das panoptische Rekonstruktionssystem 102 ein oder mehrere Elemente oder Werkzeuge für einen Nutzer bereit, um eine Binärmaske, die dem Digitalbild 704 zugeordnet ist, zu definieren oder zu modifizieren. Das panoptische Rekonstruktionssystem 102 stellt beispielsweise ein Maskendefinitionswerkzeug zum Zeichnen, Hervorheben oder Bemalen einer Fläche einer Binärmaske bereit, um eine vorgesehene Fläche von Pixeln zur Ersetzung innerhalb eines Digitalbildes zu definieren.
Auf Grundlage des Empfangens einer Nutzerinteraktion, die das panoptische Rekonstruktionselement 706 auswählt, nimmt das panoptische Rekonstruktionssystem 102 ein Generieren und Bereitstellen von zusätzlichen Nutzerschnittstellen zum Empfangen einer Eingabe vor, um den Rekonstruktionsprozess anzuleiten. Wie in 7B dargestellt ist, nimmt das panoptische Rekonstruktionssystem 102 beispielsweise ein Generieren und Bereitstellen einer panoptischen Rekonstruktionsschnittstelle 708 vor, die eine panoptische Segmentierungskarte 710 beinhaltet, die Bereiche eines Digitalbildes abgrenzt, indem panoptische Etiketten und Grenzen, die Pixelbereichen des Digitalbildes 704 zugeordnet sind, angegeben werden. Das panoptische Rekonstruktionssystem 102 generiert die panoptische Segmentierungskarte 710 (darunter Bereiche und entsprechende Etiketten) unter Einsatz eines segmentierenden neuronalen Netzwerkes. Das panoptische Rekonstruktionssystem 102 setzt ein segmentierendes neuronales Netzwerk ein, so beispielsweise das Netzwerk PanopticFCN, wie es, wie vorstehend erwähnt worden ist, von Yanwei Li et al. beschrieben wird.
In einigen Fällen ist die panoptische Segmentierungskarte 710 mit einer Nutzereingabe modifizierbar, um Etiketten und/oder Grenzen von Bereichen zu ändern. Das panoptische Rekonstruktionssystem 102 nimmt ein Generieren und Bereitstellen eines panoptischen Etikettenelementes 712 vor, das auswählbar ist, um die panoptische Segmentierungskarte 710 zu modifizieren. Die panoptische Rekonstruktionsschnittstelle 708 beinhaltet des Weiteren ein panoptisches Rekonstruktionselement 713, das auswählbar ist, um das Digitalbild 704 entsprechend der panoptischen Segmentierungskarte 710 zu rekonstruieren.
Auf Grundlage des Empfangens einer Nutzerinteraktion, die das panoptische Etikettenelement 712 auswählt, stellt das panoptische Rekonstruktionssystem 102 zusätzliche Elemente oder Werkzeuge zum Bearbeiten oder Modifizieren der panoptischen Segmentierungskarte 710 bereit. Wie in 7C dargestellt ist, nimmt das panoptische Rekonstruktionssystem 102 ein Generieren und Bereitstellen einer panoptischen Rekonstruktionsschnittstelle 714 vor, die eine modifizierte panoptische Segmentierungskarte 716 beinhaltet. Im Vergleich zu der panoptischen Segmentierungskarte 710 bildet die modifizierte panoptische Segmentierungskarte 716 Änderungen an dem Bergbereich ab, wenn ein Nutzer die Grenze derart bewegt, dass mehr Himmel-Pixel in der Fläche nahe an dem dargestellten Cursor beinhaltet sind. Zum Generieren der modifizierten panoptischen Segmentierungskarte 716 empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion mit einer oder mehreren Werkzeugen oder Elementen innerhalb der panoptischen Rekonstruktionsschnittstelle 714.
Wie gezeigt ist, beinhaltet die panoptische Rekonstruktionsschnittstelle 714 zudem verschiedene Elemente oder Werkzeuge zum Bearbeiten oder Modifizieren der panoptischen Segmentierungskarte 716 oder bildet diese ab. Das panoptische Rekonstruktionssystem 102 stellt beispielsweise panoptische Grenzzeichenwerkzeuge bereit, so beispielsweise panoptische Segmentpinsel 718, einen Kantenstift 720, einen Kantenlöscher 722 und/oder einen Kantenbeweger 724. Bei einigen Ausführungsformen beinhalten die panoptischen Segmentpinsel 718 ein oder mehrere auswählbare Pinselwerkzeuge zum Bemalen oder Zeichnen von Bereichen entsprechend bestimmten panoptischen Segmenten. Die panoptischen Segmentpinsel 718 beinhalten beispielsweise einen Himmel-Pinsel, einen Person-Pinsel, einen Berg-Pinsel, einen Gras-Pinsel und/oder andere etikettenspezifische Pinsel zur Anwendung innerhalb eines Gestaltungsfensters einer panoptischen Segmentierungskarte. Zusätzlich können die panoptischen Segmentpinsel 718 einen üblichen Pinsel beinhalten, der derart über die Clientvorrichtung 108 definiert werden kann, dass er eine nutzerdefinierte Farbe und ein nutzerdefiniertes Etikett aufweist. In einigen Fällen weist jeder panoptische Segmentpinsel 718 seine eigene Farbe entsprechend einem jeweiligen panoptischen Etikett auf. In einigen Fällen stellt das panoptische Rekonstruktionssystem 102 die panoptischen Segmentpinsel 718 zusammen mit einem Digitalbild (beispielsweise dem Digitalbild 704) bereit, sodass der Nutzer direkt auf eine vorgesehene Fläche des Digitalbildes mit gewünschten panoptischen Etiketten zur Rekonstruktion malen kann.
Zusätzlich stellt das panoptische Rekonstruktionssystem 102 einen Kantenstift 720 bereit. Insbesondere ist der Kantenstift 720 auswählbar, um Grenzen oder Kanten, die panoptischen Bereichen der panoptischen Segmentierungskarte 716 zugeordnet sind, zu zeichnen. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise eine Angabe einer Nutzerinteraktion, die den Kantenstift 720 auswählt und den Kantenstift 720 auf eine oder mehrere Flächen der panoptischen Segmentierungskarte 716 anwendet. Das panoptische Rekonstruktionssystem 102 kann des Weiteren eine Nutzerinteraktion empfangen, um ein panoptisches Etikett einzugeben, das einer neu gezeichneten Grenze innerhalb der panoptischen Segmentierungskarte 716 zugeordnet ist. In einigen Fällen stellt das panoptische Rekonstruktionssystem 102 den Kantenstift 720 (und/oder den Kantenlöscher 722 und/oder den Kantenbeweger 724) zusammen mit einem Digitalbild (beispielsweise dem Digitalbild 704) derart bereit, dass der Nutzer panoptische Bereiche einer vorgesehenen Fläche von Pixeln zur Ersetzung direkt innerhalb des Digitalbildes bearbeiten kann.
Bei einigen Ausführungsformen empfängt das panoptische Rekonstruktionssystem 102 Eingabestriche mit dem Kantenstift 720 und/oder den panoptischen Segmentpinseln 718. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise Eingabestriche zum Zeichnen von Grenzen, Kanten oder Bereichen einer panoptischen Segmentierungskarte (beispielsweise der modifizierten panoptischen Segmentierungskarte 716). In einigen Fällen empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion zur Eingabe von Etiketten entsprechend einem oder mehreren Bereichen der panoptischen Segmentierungskarte.
Bei einer oder mehreren Ausführungsformen empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion mit dem Kantenstift 720 oder den panoptischen Segmentpinseln 718 zum Hinzufügen von neuen Objekten oder Bereichen, die ursprünglich nicht innerhalb einer vorgesehenen Fläche eines Digitalbildes beinhaltet waren. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise eine Nutzerinteraktion zur Hinzufügung von Menschen innerhalb einer vorgesehenen Fläche, in der nur Graspixel abgebildet gewesen sind. Bei einem weiteren Beispiel empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion zur Hinzufügung einer fünften Person zu der panoptischen Segmentierungskarte 716. Auf Grundlage der Nutzerinteraktion, die einen neuen Bereich hinzufügt, setzt das panoptische Rekonstruktionssystem 102 ein panoptisch rekonstruierendes neuronales Netzwerk ein, um Ersetzungspixel zu generieren, die dem neuen Bereich entsprechen, und rekonstruiert das Digitalbild derart, dass dieses entsprechende Pixel (die beispielsweise ein neues Objekt abbilden) beinhaltet.
Wie weiter in 7C dargestellt ist, stellt das panoptische Rekonstruktionssystem 102 einen Kantenlöscher 722 bereit. Insbesondere empfängt das panoptische Rekonstruktionssystem 102 eine Angabe einer Nutzerinteraktion mit dem Kantenlöscher 722. Zusätzlich empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion, um den Kantenlöscher 722 auf eine oder mehrere Grenzen oder Kanten innerhalb der panoptischen Segmentierungskarte 716 anzuwenden. Auf Grundlage der Nutzerinteraktion entfernt oder löscht das panoptische Rekonstruktionssystem 102 eine oder mehrere Grenzen innerhalb der panoptischen Segmentierungskarte. In einigen Fällen empfängt das panoptische Rekonstruktionssystem 102 zudem eine Nutzerinteraktion, die eine oder mehrere panoptische Etiketten, die einer oder mehreren entfernten Grenzen entsprechen, löscht oder entfernt. In einigen Fällen entfernt das panoptische Rekonstruktionssystem 102 automatisch (beispielsweise ohne zusätzliche Nutzerinteraktion, die spezifisch auffordern würde) panoptische Etiketten, die entfernten Grenzen entsprechen.
Zusätzlich stellt das panoptische Rekonstruktionssystem 102 einen Kantenbeweger 724 bereit. Insbesondere empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion, die den Kantenbeweger 724 auswählt, um eine Grenze innerhalb der panoptischen Segmentierungskarte 716 zu bewegen oder umzuordnen. Zusätzlich empfängt das panoptische Rekonstruktionssystem 102 eine Nutzerinteraktion, die den Kantenbeweger 724 auf eine oder mehrere Kanten oder Grenzen innerhalb der panoptischen Segmentierungskarte 716 anwendet. Das panoptische Rekonstruktionssystem 102 kann des Weiteren die panoptische Segmentierungskarte 716 modifizieren, um panoptische Bereiche entsprechend der Bewegung einer Grenze zu erweitern oder zu verringern (um beispielsweise eine Fläche, die einem bestimmten panoptischen Etikett zugeordnet ist, zu vergrößern).
Wie weiter gezeigt ist, stellt das panoptische Rekonstruktionssystem 102 ein Kartenerstellungselement 726 bereit, das eine neue panoptische Segmentierungskarte generiert oder erstellt. Das panoptische Rekonstruktionssystem 102 empfängt insbesondere eine Angabe einer Nutzerinteraktion mit dem Kartenerstellungselement 726. In Reaktion hierauf stellt das panoptische Rekonstruktionssystem 102 ein Gestaltungsfenster der panoptischen Karte bereit, um eine Nutzerinteraktion zur Erstellung einer gängigen panoptischen Segmentierungskarte zu erleichtern (beispielsweise unter Einsatz eines oder mehrerer Werkzeuge, so beispielsweise der panoptischen Segmentpinsel 718, des Kantenstiftes 720, des Kantenlöschers 722 und/oder des Kantenbewegers 724). Die panoptische Rekonstruktionsschnittstelle 714 beinhaltet des Weiteren ein panoptisches Rekonstruktionselement 728, das auswählbar ist, um ein rekonstruiertes Digitalbild zu generieren, und zwar gemäß der Anleitung durch die modifizierte panoptische Segmentierungskarte 716 (beispielsweise auf Grundlage von Bearbeitungen oder Modifikationen an panoptischen Segmenten unter Nutzung eines oder mehrerer der dargestellten Werkzeuge) und/oder einer Binärkarte, die über die Clientvorrichtung 108 definiert wird.
Wie eben ausgeführt worden ist, generiert das panoptische Rekonstruktionssystem 102 auf Grundlage einer Nutzerinteraktion mit dem panoptischen Rekonstruktionselement 728 ein rekonstruiertes Digitalbild. Wie in 7D dargestellt ist, nimmt das panoptische Rekonstruktionssystem 102 ein Generieren und Bereitstellen einer panoptischen Rekonstruktionsschnittstelle 730 vor, die das rekonstruierte Digitalbild 732 beinhaltet oder abbildet. Wie gezeigt ist, beinhaltet das rekonstruierte Digitalbild 732 Ersetzungspixel, die innerhalb der vorgesehenen Fläche entsprechend der panoptischen Segmentierungskarte 716 rekonstruiert werden, wobei die Himmel-Pixel im Vergleich ein wenig erweitert werden, damit sie zu der Modifikationswiedergabe durch die modifizierte panoptische Segmentierungskarte 716 passen. Zusätzlich nimmt das panoptische Rekonstruktionssystem 102 ein Generieren und Bereitstellen eines Segmentmodifikationselementes 734 vor, das auswählbar ist, um die panoptische Segmentierungskarte 716 zu modifizieren. Auf Grundlage einer Auswahl des Segmentmodifizierungselementes 734 nimmt das panoptische Rekonstruktionssystem 102 eine Ausgabe an die panoptische Rekonstruktionsschnittstelle 714 von 7C vor, und zwar beispielsweise zur Bearbeitung der panoptischen Segmentierungskarte 716 und zum Aktualisieren der rekonstruierten Digitalbildes 732.
Wie erwähnt worden ist, aktualisiert das panoptische Rekonstruktionssystem 102 bei gewissen beschriebenen Ausführungsformen iterativ ein aktualisiertes Digitalbild. Insbesondere aktualisiert das panoptische Rekonstruktionssystem 102 iterativ ein rekonstruiertes Digitalbild auf Grundlage von Modifikationen an einer panoptischen Segmentierungskarte (und/oder einer Binärkarte) entsprechend dem rekonstruierten Digitalbild. 8 zeigt ein exemplarisches Flussdiagramm zur iterativen Aktualisierung eines rekonstruierten Digitalbildes entsprechend einer oder mehreren Ausführungsformen.
Wie in 8 dargestellt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 802 zum Bestimmen einer panoptischen Segmentierungskarte durch. Insbesondere bestimmt oder generiert das panoptische Rekonstruktionssystem 102 eine panoptische Segmentierungskarte unter Einsatz eines segmentierenden neuronalen Netzwerkes und/oder einer Nutzerinteraktion mit einer Clientvorrichtung, wie vorstehend beschrieben worden ist. Das panoptische Rekonstruktionssystem 102 generiert beispielsweise eine panoptische Segmentierungskarte unter Einsatz eines segmentierenden neuronalen Netzwerkes zur Vorhersage von Grenzen für Pixelbereiche und entsprechenden panoptischen Etiketten eines Digitalbildes.
Wie weiter in 8 dargestellt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 804 zum Generieren eines rekonstruierten Digitalbildes durch. Insbesondere setzt das panoptische Rekonstruktionssystem 102 ein panoptisch rekonstruierendes neuronales Netzwerk ein, um ein rekonstruiertes Digitalbild auf Grundlage der panoptischen Segmentierungskarte, die durch die Handlung 802 bestimmt worden ist, zu generieren. Wie hier beschrieben wird, generiert das panoptische Rekonstruktionssystem 102 beispielsweise ein rekonstruiertes Digitalbild durch Rekonstruieren einer vorgesehenen Fläche eines Digitalbildes mit Ersetzungspixeln, die durch ein panoptisch rekonstruierendes neuronales Netzwerk so, wie durch die panoptische Segmentierungskarte angeleitet, bestimmt sind.
Zusätzlich führt das panoptische Rekonstruktionssystem 102 eine Handlung 806 zum Detektieren einer Modifikation der panoptischen Segmentierungskarte durch. Veranschaulichungshalber empfängt das panoptische Rekonstruktionssystem 102 eine Angabe einer Nutzerinteraktion zum Bearbeiten oder Modifizieren von Grenzen und/oder Etiketten, die einer panoptischen Segmentierungskarte zugeordnet sind (wie beispielsweise vorstehend anhand 7A bis 7D beschrieben worden ist). Wie vorstehend erwähnt worden ist, empfängt das panoptische Rekonstruktionssystem 102 beispielsweise eine Nutzerinteraktion zum Hinzufügen eines neuen Bereiches zu einer panoptischen Segmentierungskarte, woraufhin das panoptische Rekonstruktionssystem 102 das entsprechende rekonstruierte Digitalbild aktualisiert, indem Pixel für den neuen Bereich rekonstruiert werden.
Wie gezeigt ist, führt das panoptische Rekonstruktionssystem 102 eine Handlung 808 durch, um ein modifiziertes rekonstruiertes Digitalbild zu generieren, und zwar in Reaktion auf das Detektieren der Modifikation an der panoptischen Segmentierungskarte (oder in Reaktion auf das Detektieren einer Auswahl eines Rekonstruktionselementes nach einer Modifikation an einer panoptischen Segmentierungskarte). Zum Generieren des modifizierten rekonstruierten Digitalbildes setzt das panoptische Rekonstruktionssystem 102 das panoptisch rekonstruierende neuronale Netzwerk ein, das von der modifizierten panoptischen Segmentierungskarte angeleitet wird. Das panoptische Rekonstruktionssystem 102 generiert, wie gezeigt ist, das modifizierte rekonstruierte Digitalbild derart, dass es Pixeländerungen entsprechend panoptischen Änderungen an der panoptischen Segmentierungskarte wiedergibt.
Bei einigen Ausführungsformen wiederholt das panoptische Rekonstruktionssystem 102 die Handlungen 806 und 808 über mehrere Iterationen. Das panoptische Rekonstruktionssystem 102 empfängt beispielsweise mehrere Aktualisierungen in Abhängigkeit von der Zeit an einer panoptischen Segmentierungskarte und generiert anschließend ein modifiziertes rekonstruiertes Digitalbild, um jede der Aktualisierungen an der Karte wiederzugeben. In einigen Fällen aktualisiert das panoptische Rekonstruktionssystem 102 automatisch das rekonstruierte Digitalbild mit jeder Änderung an der Karte rasch in Echtzeit, wenn die Eingabe bereitgestellt wird. In anderen Fällen aktualisiert das panoptische Rekonstruktionssystem 102 das rekonstruierte Digitalbild nur beim Detektieren einer Auswahl eines Rekonstruktionselementes, um die an der Karte vorgenommenen Änderungen anzuwenden.
Wie vorstehend erwähnt worden ist, verbessert das panoptische Rekonstruktionssystem 102 bei gewissen Ausführungsformen die Genauigkeit gegenüber bisherigen Digitalbildsystemen. Man hat experimentell die Genauigkeit des panoptischen Rekonstruktionssystems 102 im Vergleich zu anderen Systemen nachgewiesen. Insbesondere setzt das panoptische Rekonstruktionssystem 102 ein panoptisch rekonstruierendes neuronales Netzwerk ein, das eine verbesserte Rekonstruktionsgenauigkeit für realitätsnähere, semantisch kohärentere generierte Digitalbilder bietet. 9 zeigt einen exemplarischen Vergleich von Digitalbildern, die von dem panoptischen Rekonstruktionssystem 102 generiert werden, mit denjenigen, die von bisherigen Digitalbildsystemen generiert werden, entsprechend einer oder mehreren Ausführungsformen.
Wie in 9 dargestellt ist, beinhaltet Tabelle 900 zwei Reihen, von denen jede einem anderen exemplarischen Digitalbild zur Rekonstruktion entspricht. Für jede der beiden Reihen beinhaltet Tabelle 900 mehrere Spalten. Die Spalte „Eingabe“ gibt beispielsweise ein Eingabedigitalbild zur Rekonstruktion an. Wie gezeigt ist, bildet jedes der Eingabedigitalbilder Löcher oder vorgesehene Flächen von Pixeln zur Ersetzung ab. Die am weitesten rechts befindliche Spalte „Ground Truth“ gibt eine Ground-Truth-Version des Eingabedigitalbildes an, bevor beliebige Pixel in den vorgesehenen Flächen entfernt worden sind. Jedes der Modelle der verbleibenden Spalten zwischen „Eingabe“ und „Ground Truth“ generiert rekonstruierte Digitalbilder bei dem Versuch, die Ground-Truth-Version so gut wie möglich nachzuahmen.
Wie gezeigt ist, rekonstruiert das LaMa-Netzwerk (beschrieben von Roman Suvorov et al.) Digitalbilder mit verschwommenen Effekten für die vorgesehenen Flächen und strebt dabei danach, Pixelklarheit und Definition für verschiedene Bereiche zu erreichen. Das CoModGAN-Modell (beschrieben von Shengyu Zhao et al.) generiert zusätzlich unstimmige Pixel, um die vorgesehenen Flächen der Eingabebilder zu füllen, was rekonstruierte Bilder ergibt, die wenig stimmig und nicht realitätsnah sind. Auf ähnliche Weise generiert das CM-GAN-Modell nicht realitätsnahe Ersetzungspixel, wo Bildartefakte an verschiedenen Stellen eingefügt sind, und strebt nach Erhaltung einer semantischen Kohärenz. Von der Gruppe innerhalb Tabelle 900 generiert das panoptische Rekonstruktionssystem 102 die am meisten realitätsnahen, semantisch kohärenten rekonstruierten Digitalbilder, die den Ground-Truth-Bildern am stärksten ähneln.
Bei einer oder mehreren Ausführungsformen generiert das panoptische Rekonstruktionssystem 102 rekonstruierte Digitalbilder unter Nutzung eines Abschnittes einer panoptischen Segmentierungskarte. Insbesondere setzt das panoptische Rekonstruktionssystem 102 in einigen Fällen, anstatt dass sowohl die semantischen Etiketten wie auch die Kantenkarte einer panoptischen Segmentierungskarte erforderlich wären, entweder die semantischen Etiketten oder die Kantenkarte (jedoch nicht unbedingt beide) ein, um ein panoptisch rekonstruierendes neuronales Netzwerk beim Rekonstruieren eines Digitalbildes anzuleiten. 10 zeigt exemplarische Ergebnisse und Vergleiche einer Bildrekonstruktion unter Nutzung von semantischen Etiketten für das panoptische Rekonstruktionssystem 102 und andere Systeme entsprechend einer oder mehreren Ausführungsformen.
Wie in 10 dargestellt ist, beinhaltet Tabelle 1000 drei Reihen, und zwar jede für ein anderes Digitalbild. Innerhalb jeder Reihe ist eine Spalte „Eingabe“ vorhanden, die Eingabedigitalbilder angibt, die Löcher oder vorgesehene Flächen von Pixeln zur Ersetzung abbilden. Tabelle 1000 beinhaltet zudem eine Spalte „Ground Truth“, die Ground-Truth-Bilder mit tatsächlichen Pixeln in Flächen angibt, die entfernt worden sind, um die Eingabedigitalbilder zu generieren. Tabelle 1000 beinhaltet zudem eine Spalte „Semantisches Etikett“, die semantische Etiketten zur Anleitung des Rekonstruktionsprozesses angibt.
Auf Grundlage der semantischen Etiketten hat man experimentell rekonstruierte Bilder unter Nutzung des SESAME-Modells generiert, das durch die jeweiligen semantischen Etiketten angeleitet wird. Beschrieben wird das SESAME-Modell insbesondere bei: „Sesame: Semantic Editing of Scenes by Adding, Manipulating or Erasing Objects" von Evangelos Ntavelis, Andres Romero, lason Kastanis, Luc Van Gool und Radu Timofte, veröffentlicht bei European Conf. on Computer Vision, 394-411 (2020). Zusätzlich hat das panoptische Rekonstruktionssystem 102 rekonstruierte Digitalbilder auch aus den jeweiligen semantischen Etiketten generiert. Anstatt Instanzen von Etiketten zur panoptischen Segmentierung zu separieren, generiert das panoptische Rekonstruktionssystem 102 rekonstruierte Digitalbilder entsprechend semantischen Etiketten, die Etiketteninstanzen überlappen. Wie gezeigt ist, sind die rekonstruierten Digitalbilder des panoptischen Rekonstruktionssystems sogar bei Nutzung semantischer Etiketten realitätsnäher und semantisch kohärenter als diejenigen Bilder, die von dem SESAME-Modell generiert worden sind.
Wie erwähnt worden ist, generiert das panoptische Rekonstruktionssystem 102 bei einigen Ausführungsformen rekonstruierte Digitalbilder so, wie durch eine Kantenkarte angeleitet wird. Insbesondere setzt das panoptische Rekonstruktionssystem 102 eine Kantenkarte (aus einer panoptischen Segmentierungskarte) ein, um ein panoptisch rekonstruierendes neuronales Netzwerk beim Rekonstruieren eines Digitalbildes anzuleiten. 11 zeigt exemplarische Ergebnisse und Vergleiche der Bildrekonstruktion unter Nutzung von Kantenkarten für das panoptische Rekonstruktionssystem 102 und andere Systeme entsprechend einer oder mehreren Ausführungsformen.
Wie in 11 dargestellt ist, beinhaltet Tabelle 1100 zwei Reihen, und zwar jede für ein anderes Digitalbild. Wie ebenfalls gezeigt ist, beinhaltet Tabelle 1100 zudem verschiedene Spalten, darunter eine Spalte „Eingabe“, die Eingabedigitalbilder angibt, die Löcher oder vorgesehene Flächen von Pixeln zur Ersetzung abbilden. Zusätzlich beinhaltet Tabelle 1100 eine Spalte „Ground Truth“, die Ground-Truth-Bilder beinhaltet, die den Eingabebildern mit den aktuellen Pixeln entsprechen, bevor diese entfernt worden sind. Tabelle 1100 beinhaltet des Weiteren eine Spalte „Kante“, die Kantenkarten angibt, die zum Anleiten des Rekonstruktionsprozesses benutzt werden.
Experimentell eingesetzt worden sind, wie gezeigt ist, ein SketchEdit-Modell und das panoptische Rekonstruktionsmodell 102 zum Generieren von rekonstruierten Digitalbildern, die jeweils durch die Kantenkarten angeleitet werden. Das SketchEdit-Modell ist beschrieben bei: „SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches" von Yu Zeng, Zhe Lin und Vishal M. Patel, veröffentlicht bei arXiv:2111.15078 (2021). Bei einem Vergleich der Ergebnisse generiert das panoptische Rekonstruktionssystem 102 sogar bei Nutzung der Kantenkarten realitätsnähere Digitalbilder als das SketchEdit-Modell, wobei die Pixel denjenigen der Ground-Truth-Bilder stärker ähneln.
Um den Vergleich des panoptischen Rekonstruktionssystems 102 mit bisherigen Systemen zu veranschaulichen, sind die Verbesserungen der hier beschriebenen panoptischen Rekonstruktionstechniken experimentell demonstriert worden. Experimente zeigen tabulierte Ergebnisse, um die Genauigkeitsverbesserungen empirisch zu demonstrieren. 12 zeigt eine exemplarische Tabelle von experimentellen Ergebnissen entsprechend einer oder mehreren Ausführungsformen.
Wie in 12 dargestellt ist, bildet Tabelle 1200 verschiedene experimentelle Ergebnisse für verschiedene Modelle ab. Tabelle 1200 beinhaltet beispielsweise zwei Hauptkategorien, und zwar eine, wo jeweilige Modelle rekonstruierte Digitalbilder auf Grundlage von CoModGAN-Masken generiert haben, und eine, wo jeweilige Modelle rekonstruierte Digitalbilder auf Grundlage von Objektmasken generiert haben. Innerhalb jeder Kategorie beinhaltet Tabelle 1200 verschiedene Metriken, so beispielsweise FID (Frechet Inception Distance), P-IDS (Paired Inception Discriminative Score) und U-IDS (Unpaired Inception Discriminative Score). Wie durch die Pfeile in der Tabelle angegeben ist, geben niedrigere FID-Kennwerte eine höhere Genauigkeit an, während höhere P-IDS- und U-IDS-Kennwerte eine höhere Genauigkeit angeben. Wie gezeigt ist, zeigt das panoptische Rekonstruktionssystem 102 eine bessere Genauigkeit auf Grundlage aller drei Metriken und für jedes getestete Szenario. Egal, ob man mit panoptischer Segmentierung, semantischer Segmentierung oder Kantenkarten rekonstruiert oder ob man dies auf Grundlage von CoModGAN-Masken oder Objektmasken macht, das panoptische Rekonstruktionssystem 102 übertrifft das SESAME-Modell das LaMa-Modell, das CoModGAN-Modell und auch die anderen abgebildeten Modelle.
Zusätzlich zur Demonstration der Genauigkeitsverbesserung des panoptischen Rekonstruktionssystems 102 im Vergleich zu bisherigen Modellen sind die Effekte von verschiedenen Aspekten des panoptischen Rekonstruktionssystems 102 unter Nutzung einer Ablationsstudie ebenfalls experimentell demonstriert worden. Insbesondere ist experimentell demonstriert worden, dass gewisse Verluste und Abwandlungen an der Modellarchitektur die Ergebnisse der Bildrekonstruktion beeinflussen. 13 zeigt einen exemplarischen Vergleich von Ergebnissen unter Nutzung verschiedener Aspekte des panoptischen Rekonstruktionssystems 102 entsprechend der Ablationsstudie entsprechend einer oder mehreren Ausführungsformen. Anschließend stellt 14 eine exemplarische Tabelle der Ergebnisse der Ablationsstudie entsprechend den in 13 abgebildeten Vergleichen dar.
Wie in 13 dargestellt ist, ist experimentell eine Anzahl von Modellen trainiert worden, und zwar unter Einschluss wie auch Ausschluss verschiedener Aspekte oder Komponenten des gesamten panoptischen Rekonstruktionssystems 102. Bei einem Experiment wurde beispielsweise ein panoptisches rekonstruierendes neuronales Netzwerk unter Nutzung nur eines adversativen Verlustes (beispielsweise ohne wahrnehmungsbasierten/rekonstruktiven Verlust) ohne Nutzung von semantischen Diskriminatoren experimentell trainiert. Bei einem anderen Beispiel wurde ein panoptisch rekonstruierendes neuronales Netzwerk sowohl mit einem adversativen Verlust wie auch mit einem wahrnehmungsbasierten/rekonstruktiven Verlust ohne Nutzung semantischer Diskriminatoren experimentell trainiert. Bei einem dritten Beispiel wurde ein panoptisch rekonstruierendes neuronales Netzwerk sowohl unter Nutzung von Verlusten wie auch unter Nutzung eines semantischen Diskriminators (beispielsweise nur auf der Bildebene, jedoch nicht auf der Objektebene) experimentell trainiert. Bei einem vierten Beispiel wurde ein vollständiges panoptisch rekonstruierendes neuronales Netzwerk mit sämtlichen Verlusten und semantischen Diskriminatoren auf Objektebene und Bildebene trainiert. Bei einem fünften Beispiel wurde ein panoptisch rekonstruierendes neuronales Netzwerk an einer semantischen Segmentierung (jedoch nicht panoptisch) experimentell trainiert. Tabelle 1300 zeigt die Ergebnisse eines jeden dieser Experimente für verschiedene Bilder innerhalb der jeweiligen Spalten.
Wie in 14 dargestellt ist, beinhaltet Tabelle 1400 nummerische Ergebnisse der Experimente, die vorstehend im Zusammenhang mit 13 dargestellt worden sind. Wie in der Tabelle gezeigt ist, zeigen die verschiedenen Versionen des panoptisch rekonstruierenden neuronalen Netzwerkes verschiedene Leistungsmetriken, wobei das vollständige panoptisch rekonstruierende neuronale Netzwerk mit einem adversativen Verlust, einem wahrnehmungsbasierten Verlust und semantischen Diskriminatoren sowohl auf der Bildebene wie auch der Objektebene die genauste Leistung zeigt. Das vollständig trainierte panoptisch rekonstruierende neuronale Netzwerk zeigt den niedrigsten FID-Kennwert, den höchsten U-IDS-Kennwert und den höchsten P-IDS-Kennwert.
15 zeigt zusätzliche Details im Zusammenhang mit Komponenten und Fähigkeiten des panoptischen Rekonstruktionssystems 102. Insbesondere zeigt 15 ein exemplarisches schematisches Diagramm des panoptischen Rekonstruktionssystems 102 auf einer exemplarischen Rechenvorrichtung 1500 (beispielsweise einer oder mehreren von der Clientvorrichtung 108 und/oder dem Server / den Servern 104). Wie in 15 gezeigt ist, beinhaltet das panoptische Rekonstruktionssystem 102 einen für die panoptische Segmentierung gedachten Verwalter 1502, einen für die Binärmaske gedachten Verwalter 1504, einen für das panoptische Rekonstruktionsmodell gedachten Verwalter 1506, einen für den semantischen Diskriminator gedachten Verwalter 1508 und einen Speicherverwalter 1510.
Wie eben erwähnt worden ist, beinhaltet das panoptische Rekonstruktionssystem 102 einen für die panoptische Segmentierung gedachten Verwalter 1502. Insbesondere nimmt der für die panoptische Segmentierung gedachte Verwalter 1502 ein Verwalten, Vorhalten, Bestimmen, Generieren, Empfangen oder Identifizieren einer panoptischen Segmentierungskarte für ein Digitalbild vor. Der für die panoptische Segmentierung gedachte Verwalter 1502 bestimmt beispielsweise Kanten und Etiketten für verschiedene Pixelbereiche eines Digitalbildes. In einigen Fällen generiert der für die panoptische Segmentierung gedachte Verwalter 1502 die panoptische Segmentierungskarte auf Grundlage einer Nutzerinteraktion über eine Clientvorrichtung. In anderen Fällen generiert der für die panoptische Segmentierung gedachte Verwalter 1502 die panoptische Segmentierungskarte unter Einsatz eines segmentierenden neuronalen Netzwerkes, wie vorstehend beschrieben worden ist.
Wie gezeigt ist, beinhaltet das panoptische Rekonstruktionssystem 102 des Weiteren einen für die Binärmaske gedachten Verwalter 1504. Insbesondere nimmt der für die Binärmaske gedachte Verwalter 1504 ein Verwalten, Vorhalten, Generieren, Bestimmen, Empfangen oder Identifizieren einer Binärmaske, die einem Digitalbild zugeordnet ist, vor. Insbesondere bestimmt der für die Binärmaske gedachte Verwalter 1504 eine Binärmaske, die eine vorgesehene Fläche von Pixeln zur Ersetzung innerhalb eines Digitalbildes definiert. In einigen Fällen bestimmt der für die Binärmaske gedachte Verwalter 1504 eine Binärmaske aus einer Nutzerinteraktion über eine Clientvorrichtung. In anderen Fällen bestimmt der für die Binärmaske gedachte Verwalter 1504 eine Binärmaske unter Einsatz eines maskengenerierenden neuronalen Netzwerkes, wie vorstehend beschrieben worden ist.
Zusätzlich beinhaltet das panoptische Rekonstruktionssystem 102 einen für das panoptische Rekonstruktionsmodell gedachten Verwalter 1506. Insbesondere nimmt der für das panoptische Rekonstruktionsmodell gedachte Verwalter 1506 ein Verwalten, Vorhalten, Bestimmen, Generieren, Trainieren, Abstimmen, Anwenden, Implementieren, Einsetzen oder Lernen von Parametern für ein panoptisches Rekonstruktionsmodell, so beispielsweise für ein panoptisch rekonstruierendes neuronales Netzwerk, vor. Wie hier beschrieben wird, trainiert der für das panoptische Rekonstruktionsmodell gedachte Verwalter 1506 ein panoptisch rekonstruierendes neuronales Netzwerk und wendet das panoptisch rekonstruierende neuronale Netzwerk an, um ein rekonstruiertes Digitalbild auf Grundlage einer panoptischen Segmentierungskarte zu generieren.
Wie weiter in 15 dargestellt ist, beinhaltet das panoptische Rekonstruktionssystem 102 einen für den semantischen Diskriminator gedachten Verwalter 1508. Insbesondere arbeitet der für den semantischen Diskriminator gedachte Verwalter 1508 in Verbindung mit dem für das panoptische Rekonstruktionsmodell gedachten Verwalter 1506, um ein panoptisch rekonstruierendes neuronales Netzwerk zu trainieren. Der für den semantischen Diskriminator gedachte Verwalter 1508 nimmt ein Verwalten oder Einsetzen eines oder mehrerer semantischer Diskriminatoren zum Lernen von Parametern für ein panoptisch rekonstruierendes neuronales Netzwerk vor. Wie beschrieben worden ist, setzt der für den semantischen Diskriminator gedachte Verwalter 1508 einen bildebenensemantischen Diskriminator und einen objektebenensemantischen Diskriminator zum Generieren von Realitätsnähevorhersagen für generierte Digitalbilder als Teil eines Trainingsprozesses ein.
Das panoptische Rekonstruktionssystem 102 beinhaltet des Weiteren einen Speicherverwalter 1510. Der Speicherverwalter 1510 arbeitet in Verbindung mit den anderen Komponenten des panoptischen Rekonstruktionssystems 102 und beinhaltet eine oder mehrere Speichervorrichtungen, so beispielsweise die Datenbank 1512 (beispielsweise die Datenbank 112), die verschiedene Daten speichert, so beispielsweise Digitalbilder, neuronale Netzwerke, rekonstruierte Digitalbilder und panoptische Segmentierungskarten.
Bei einer oder mehreren Ausführungsformen kommuniziert jede der Komponenten des panoptischen Rekonstruktionssystems 102 mit einer anderen unter Nutzung beliebiger geeigneter Kommunikationstechnologien. Zusätzlich kommunizieren die Komponenten des panoptischen Rekonstruktionssystems 102 mit einer oder mehreren anderen Vorrichtungen, darunter einer oder mehreren der vorbeschriebenen Clientvorrichtungen. Es sollte einsichtig sein, dass ungeachtet dessen, dass die Komponenten des panoptischen Rekonstruktionssystems 102 in 15 getrennt gezeigt sind, beliebige der Subkomponenten auch zu weniger Komponenten, so beispielsweise auch nur zu einer einzigen Komponente, kombiniert oder in mehr Komponenten unterteilt werden können, so dies bei einer bestimmten Implementierung dienlich ist. Obwohl die Komponenten von 15 in Verbindung mit dem panoptischen Rekonstruktionssystem 102 beschrieben werden, können wenigstens einige der Komponenten zur Durchführung von Vorgängen in Verbindung mit dem panoptischen Rekonstruktionssystem 102 auch auf anderen Vorrichtungen innerhalb der Umgebung implementiert sein.
Die Komponenten des panoptischen Rekonstruktionssystems 102 beinhalten Software, Hardware oder beides. Die Komponenten des panoptischen Rekonstruktionssystems 102 beinhalten eine oder mehrere Anweisungen, die auf einem computerlesbaren Speichermedium gespeichert und von Prozessoren einer oder mehrerer Rechenvorrichtungen (beispielsweise der Rechenvorrichtung 1500) ausführbar sind. Bei Ausführung durch den einen oder die mehreren Prozessoren veranlassen die computerausführbaren Anweisungen des panoptischen Rekonstruktionssystems 102, dass die Rechenvorrichtung 1500 die hier beschriebenen Verfahren durchführt. Alternativ umfassen Komponenten des panoptischen Rekonstruktionssystems 102 Hardware, so beispielsweise eine Spezialzweckverarbeitungsvorrichtung zur Durchführung einer gewissen Funktion oder Gruppe von Funktionen. Zusätzlich oder alternativ beinhalten die Komponenten des panoptischen Rekonstruktionssystems 102 eine Kombination von computerausführbaren Anweisungen und Hardware.
Des Weiteren können die Komponenten des panoptischen Rekonstruktionssystems 102, die die hier beschriebenen Funktionen durchführen, beispielsweise als Teil einer eigenständigen Anwendung, als Modul einer Anwendung, als Plug-in für Anwendungen, darunter Contentverwaltungsanwendungen, als Bibliotheksfunktion oder Funktionen, die von anderen Anwendungen aufgerufen werden können, und/oder als Cloudrechenmodell implementiert sein. Die Komponenten des panoptischen Rekonstruktionssystems 102 können daher als Teil einer eigenständigen Anwendung auf einer PC-Vorrichtung oder eine Mobilvorrichtung implementiert sein. Alternativ oder zusätzlich können die Komponenten des panoptischen Rekonstruktionssystems 102 in einer beliebigen Anwendung implementiert sein, die die Erstellung und Verteilung von Content an Nutzer ermöglicht, darunter unter anderem Anwendungen in ADOBE® EXPERIENCE MANAGER und CREATIVE CLOUD®, so beispielsweise PHOTOSHOP®, LIGHTROOM® und INDESIGN®. „ADOBE“, „ADOBE EXPERIENCE MANAGER“, „CREATIVE CLOUD“, „PHOTOSHOP“, „LIGHTROOM“ und „INDESIGN“ sind entweder eingetragene Marken oder Marken von Adobe Inc. in den Vereinigten Staaten und/oder anderen Ländern.
1 bis 15, der entsprechende Text und die Beispiele bieten eine Anzahl von verschiedenen Systemen, Verfahren und nichttemporären computerlesbaren Medien zum Generieren von rekonstruierten Digitalbildern unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes wie auch Trainieren des panoptisch rekonstruierenden neuronalen Netzwerkes, Bereitstellen einer panoptischen Rekonstruktionsschnittstelle und iterativen Aktualisieren von rekonstruierten Digitalbildern. Zusätzlich zum Vorbeschriebenen können Ausführungsformen auch anhand von Flussdiagrammen beschrieben werden, die Handlungen zum Erreichen eines bestimmten Ergebnisses umfassen. 16 bis 19 zeigen beispielsweise Flussdiagramme von exemplarischen Sequenzen oder Abfolgen von Handlungen entsprechend einer oder mehreren Ausführungsformen.
Während 16 bis 19 Handlungen entsprechend bestimmten Ausführungsformen zeigen, können bei alternativen Ausführungsformen beliebige der in 16 bis 19 gezeigten Handlungen auch weggelassen, hinzugefügt, umgeordnet und/oder modifiziert werden. Die Handlungen der Vorgänge 16 bis 19 können als Teil eines Verfahrens durchgeführt werden. Alternativ kann ein nichttemporäres computerlesbares Medium Anweisungen umfassen, die bei Ausführung durch einen oder mehrere Prozessoren veranlassen, dass eine Rechenvorrichtung die Handlungen von 16 bis 19 durchführt. Bei wieder anderen Ausführungsformen kann ein System die Handlungen von 16 bis 19 durchführen. Zusätzlich können die hier beschriebenen Handlungen auch wiederholt werden oder parallel zueinander durchgeführt werden oder parallel zu anderen Instanzen derselben oder ähnlicher Handlungen durchgeführt werden.
16 zeigt eine exemplarische Abfolge von Handlungen 1600 zum Trainieren eines neuronalen Netzwerkes unter Einsatz eines semantischen Diskriminators entsprechend einer oder mehreren Ausführungsformen. Insbesondere beinhaltet die Abfolge von Handlungen 1600 eine Handlung 1602 des Generierens eines vorhergesagten Digitalbildes aus einer semantischen Segmentierung. Implizieren kann die Handlung 1602 beispielsweise ein Generieren eines vorhergesagten Digitalbildes aus einer semantischen Segmentierung eines Digitalbildes unter Einsatz eines neuronalen Netzwerkes. In einigen Fällen impliziert die Handlung 1602 ein Generieren eines vorhergesagten Digitalbildes aus einem Digitalbild und einer semantischen Segmentierung unter Einsatz des neuronalen Netzwerkes.
Wie gezeigt ist, beinhaltet die Abfolge von Handlungen 1600 zudem eine Handlung 1604 des Einsetzens eines semantischen Diskriminators. Beinhalten kann die Handlung 1604 eine oder mehrere konstituierende Handlungen, so beispielsweise eine Handlung 1606 des Generierens einer semantischen Bildeinbettung aus dem vorhergesagten Digitalbild und einer Handlung 1608 des Generierens einer Realitätsnähevorhersage aus der semantischen Bildeinbettung. In einigen Fällen beinhaltet die Handlung 1606 beispielsweise ein unter Einsatz eines semantischen Diskriminators erfolgendes Generieren einer semantischen Bildeinbettung aus dem vorhergesagten Digitalbild und der semantischen Segmentierung. In einigen Fällen beinhaltet die Handlung 1608 ein Generieren einer Realitätsnähevorhersage unter Nutzung des semantischen Diskriminators aus der semantischen Bildeinbettung.
Bei einer oder mehreren Ausführungsformen impliziert die Handlung 1608 ein Generieren einer Bildeinbettung aus dem vorhergesagten Digitalbild unter Einsatz eines ersten Codierers des semantischen Diskriminators. In einigen Fällen impliziert die Handlung 1608 des Weiteren ein Generieren der semantischen Bildeinbettung aus dem vorhergesagten Digitalbild und der semantischen Segmentierung unter Einsatz eines zweiten Codierers des semantischen Diskriminators. In diesen oder weiteren Fällen impliziert die Handlung 1608 ein Bestimmen der Realitätsnähevorhersage aus einer Kombination der ersten Bildeinbettung und der semantischen Bildeinbettung. Bei einigen Ausführungsformen impliziert die Handlung 1608 ein Einsetzen des semantischen Diskriminators zum Bestimmen einer Realitätsnähe des vorhergesagten Digitalbildes zusammen mit einer Passgenauigkeit des vorhergesagten Digitalbildes für die semantische Segmentierung. Bei diesen oder weiteren Ausführungsformen impliziert die Handlung 1608 ein Einsetzen des semantischen Diskriminators als Teil eines Bildebenendiskriminators zum Bestimmen eines Realitätsnähekennwertes für die Gesamtheit des vorhergesagten Digitalbildes.
In gewissen Fällen impliziert die Handlung 1608 ein Einsetzen des semantischen Diskriminators als Teil eines Objektebenendiskriminators zum Bestimmen eines Realitätsnähekennwertes für einen Ausschnitt des vorhergesagten Digitalbildes. Bei einer oder mehreren Implementierungen impliziert die Handlung 1608 ein Einsetzen des semantischen Diskriminators zum Generieren eines ersten Realitätsnähekennwertes und ein Einsetzen eines generativ-adversativen Diskriminators zum Generieren eines zweiten Realitätsnähekennwertes. Bei diesen oder anderen Implementierungen impliziert die Handlung 1608 ein Bestimmen eines Begrenzungskastens für einen Ausschnitt des vorhergesagten Digitalbildes und ein Einsetzen des objektebenensemantischen Diskriminators zum Bestimmen eines Realitätsnähekennwertes für den Ausschnitt des vorhergesagten Digitalbildes.
Bei einer oder mehreren Ausführungsformen impliziert die Handlung 1608 ein Identifizieren einer Binärmaske zur Angabe von Hintergrundpixeln und Vordergrundpixeln für den Ausschnitt des vorhergesagten Digitalbildes. Zusätzlich impliziert die Handlung 1608 ein Einsetzen des objektebenensemantischen Diskriminators zum Bestimmen des Realitätsnähekennwertes für die Vordergrundpixel des Ausschnittes des vorhergesagten Digitalbildes so, wie von der Binärmaske angegeben wird. In einigen Fällen impliziert die Handlung 1608 ein aus den Abtastdigitalbilddaten erfolgendes Bestimmen einer panoptischen Bedingung, die eine Binärmaske, eine semantische Einbettung und eine Kantenkarte umfasst. Des Weiteren impliziert die Handlung 1608 bisweilen ein Einsetzen eines Bildeinbettungsmodells zum Extrahieren einer Bildeinbettung aus dem vorhergesagten Digitalbild und ein Bestimmen der Realitätsnähevorhersage aus einer Kombination der Bildeinbettung und der panoptischen Bedingung.
Bei gewissen Ausführungsformen impliziert die Handlung 1608 ein Einsetzen des semantischen Diskriminators als Teil eines Bildebenendiskriminators zum Bestimmen eines Realitätsnähekennwertes für eine Gesamtheit des vorhergesagten Digitalbildes. Die Handlung 1608 impliziert zusätzlich bisweilen ein Einsetzen eines zusätzlichen semantischen Diskriminators als Teil eines Objektebenendiskriminators zum Bestimmen eines Realitätsnähekennwertes für einen Ausschnitt des vorhergesagten Digitalbildes.
Bei einigen Ausführungsformen impliziert das Bestimmen der panoptischen Bedingung ein Identifizieren der Binärmaske zur Angabe von Pixeln zur Ersetzung innerhalb eines Abtastdigitalbildes, ein Generieren der semantischen Einbettung zur Angabe von semantischen Etiketten für Objekte, die innerhalb des Abtastdigitalbildes abgebildet sind, und ein Bestimmen der Kantenkarte zum Definieren von Grenzen zwischen den Objekten, die innerhalb des Abtastdigitalbildes angegeben sind. Die Handlung 1608 impliziert bisweilen ein Generieren eines Ausschnittes des vorhergesagten Digitalbildes, ein Generieren einer ausgeschnittenen Binärmaske, einer ausgeschnittenen semantischen Etikettenkarte und einer ausgeschnittenen Kantenkarte, die Abtastdigitalbilddaten zugeordnet ist/sind, und ein Einsetzen des objektebenensemantischen Diskriminators zum Generieren der Realitätsnähevorhersage aus dem Ausschnitt des vorhergesagten Digitalbildes, der ausgeschnittenen Binärmaske, der ausgeschnittenen semantischen Etikettenkarte und der ausgeschnittenen Kantenkarte.
Zusätzlich beinhaltet die Abfolge von Handlungen 1600, wie in 16 dargestellt ist, eine Handlung 1610 des Modifizierens der Parameter eines neuronalen Netzwerkes auf Grundlage der Realitätsnähevorhersage. Insbesondere impliziert die Handlung 1610 ein Bestimmen eines adversativen Verlustes unter Einsatz des semantischen Diskriminators. In einigen Fällen impliziert die Handlung 1610 ein Bestimmen eines Rekonstruktionsverlustes durch Vergleichen des vorhergesagten Digitalbildes mit dem Digitalbild. In diesen oder weiteren Fällen impliziert die Handlung 1610 ein Modifizieren der Parameter des neuronalen Netzwerkes auf Grundlage des adversativen Verlustes und des Rekonstruktionsverlustes. Bei gewissen Ausführungsformen impliziert die Handlung 1610 ein Bestimmen eines gesamten adversativen Verlustes durch Kombinieren eines ersten adversativen Verlustes, der dem bildebenensemantischen Diskriminator zugeordnet ist, und eines zweiten adversativen Verlustes, der dem objektebenensemantischen Diskriminator zugeordnet ist, und ein Modifizieren der Parameter auf Grundlage des gesamten adversativen Verlustes.
Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1600 eine Handlung des unter Einsatz eines ersten Codierers eines semantischen Diskriminators erfolgenden Generierens einer Bildeinbettung aus dem vorhergesagten Digitalbild. Das Bestimmen der Realitätsnähevorhersage beinhaltet bisweilen ein Bestimmen der Realitätsnähevorhersage aus der Bildeinbettung und der semantischen Bildeinbettung unter Einsatz des semantischen Diskriminators. In einigen Fällen beinhaltet die Abfolge von Handlungen 1600 eine Handlung des aus den Abtastdigitalbilddaten erfolgenden Bestimmens einer panoptischen Bedingung, die umfasst: eine Binärmaske, die Pixel zur Ersetzung innerhalb eines Abtastdigitalbildes angibt, eine semantische Einbettung, die semantische Etiketten für Objekte innerhalb des Abtastdigitalbildes darstellt, und eine Kantenkarte, die Grenzen zwischen den Objekten innerhalb des Abtastdigitalbildes wiedergibt. Das Bestimmen der Realitätsnähevorhersage beinhaltet bisweilen ein Einsetzen des semantischen Diskriminators zum Generieren eines Realitätsnähekennwertes für das vorhergesagte Digitalbild auf Grundlage der panoptischen Bedingung.
In gewissen Fällen beinhaltet die Abfolge von Handlungen 1600 eine Handlung des Bestimmens eines gesamten adversativen Verlustes durch Kombinieren eines ersten adversativen Verlustes, der einem bildebenensemantischen Diskriminator zugeordnet ist, eines zweiten adversativen Verlustes, der einem objektebenensemantischen Diskriminator zugeordnet ist, eines dritten adversativen Verlustes, der einem bildebenengenerativen adversativen Diskriminator zugeordnet ist, und eines vierten adversativen Verlustes, der einem objektebenengenerativen adversativen Diskriminator zugeordnet ist. Das Modifizieren der Parameter des neuronalen Netzwerkes beinhaltet bisweilen ein Modifizieren der Parameter zur Verringerung des gesamten adversativen Verlustes.
17 zeigt eine exemplarische Abfolge von Handlungen 1700 zum Generieren eines rekonstruierten Digitalbildes unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen. Die Abfolge von Handlungen 1700 beinhaltet eine Handlung 1702 des Empfangens eines Digitalbildes, das eine vorgesehene Fläche von Pixeln zur Ersetzung abbildet. In einigen Fällen beinhaltet die Handlung 1702 eine zusätzliche Handlung 1704 des Identifizierens einer Binärmaske, die die vorgesehene Fläche definiert. Die Handlung 1704 impliziert beispielsweise ein Identifizieren einer Binärmaske, die eine vorgesehene Fläche innerhalb des Digitalbildes für die Pixel zur Ersetzung definiert. In einigen Fällen impliziert die Handlung 1704 ein Einsetzen eines maskengenerierenden neuronalen Netzwerkes zum Bestimmen der vorgesehenen Fläche aus dem Digitalbild.
Wie gezeigt ist, beinhaltet die Abfolge von Handlungen 1700 eine Handlung 1706 des Bestimmens einer panoptischen Segmentierungskarte für das Digitalbild. Insbesondere impliziert die Handlung 1706 ein für das Digitalbild erfolgendes Bestimmen einer panoptischen Segmentierungskarte, die panoptische Etiketten für Bereiche des Digitalbildes umfasst. Die Handlung 1706 impliziert beispielsweise ein Bestimmen von verschiedenen panoptischen Etiketten für Bereiche des Digitalbildes, die ein gemeinsames semantisches Etikett teilen. In einigen Fällen impliziert die Handlung 1706 ein Einsetzen eines segmentierenden neuronalen Netzwerkes zum Generieren der panoptischen Etiketten für die Bereiche des Digitalbildes. Bei gewissen Ausführungsformen impliziert die Handlung 1706 ein Bestimmen von Grenzen zwischen Bereichen des Digitalbildes entsprechend verschiedenen semantischen Etiketten und ein Bestimmen von Grenzen zwischen Bereichen des Digitalbildes entsprechend verschiedenen Instanzen von geteilten semantischen Etiketten.
Bei einigen Ausführungsformen impliziert die Handlung 1706 ein Generieren eines Zwischendigitalbildes aus dem Digitalbild unter Einsatz eines bildgenerierenden neuronalen Netzwerkes. Zusätzlich impliziert die Handlung 1706 ein Einsetzen eines panoptisch segmentierenden neuronalen Netzwerkes zum Generieren der panoptischen Etiketten für die panoptische Segmentierungskarte aus dem Zwischendigitalbild. In einigen Fällen impliziert die Handlung 1706 ein Empfangen einer Angabe einer Nutzerinteraktion von einer Clientvorrichtung, die die panoptischen Etiketten für die Bereiche des Digitalbildes definiert.
Wie weiter in 17 dargestellt ist, beinhaltet die Abfolge von Handlungen 1700 eine Handlung 1708 des Generierens eines rekonstruierten Digitalbildes aus der panoptischen Segmentierungskarte. Insbesondere impliziert die Handlung 1708 ein aus dem Digitalbild und der panoptischen Segmentierungskarte und unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes erfolgendes Generieren eines rekonstruierten Digitalbildes, das Ersetzungspixel für die vorgesehene Fläche von Pixeln innerhalb des Digitalbildes abbildet. Die Handlung 1708 impliziert beispielsweise ein Einsetzen des panoptisch rekonstruierten neuronalen Netzwerkes zum Rekonstruieren eines ersten Abschnittes der vorgesehenen Fläche des Digitalbildes mit Pixeln, die einem ersten optischen Etikett entsprechen. Die Handlung 1708 impliziert des Weiteren ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren eines zweiten Abschnittes der vorgesehenen Fläche des Digitalbildes mit Pixeln, die einem zweiten optischen Etikett entsprechen. In einigen Fällen impliziert die Handlung 1708 ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes durch Füllen von fehlenden Pixeln der vorgesehenen Fläche.
Bei einigen Ausführungsformen beinhaltet die Abfolge der Handlungen 1700 eine Handlung des Identifizierens eine Binärmaske, die die vorgesehene Fläche innerhalb des Digitalbildes für die Pixel zur Ersetzung definiert. Bei diesen und weiteren Ausführungsformen impliziert das Generieren eines rekonstruierten Digitalbildes ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes mit den Ersetzungspixeln entsprechend der panoptischen Segmentierungskarte und der Binärmaske. In einigen Fällen impliziert die Handlung 1708 ein aus dem Digitalbild, der panoptischen Segmentierungskarte und der Binärmaske und unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes erfolgendes Generieren des rekonstruierten Digitalbildes, das Ersetzungspixel für die vorgesehene Fläche von Pixeln innerhalb des Digitalbildes abbildet.
Bei einer oder mehreren Implementierungen impliziert die Handlung 1708 ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes durch Füllen der vorgesehenen Fläche mit Pixeln entsprechend panoptischen Etiketten von Objekten, die innerhalb des Digitalbildes abgebildet sind. In gewissen Fällen impliziert die Handlung 1708 ein Empfangen einer Angabe einer Nutzerinteraktion von einer Clientvorrichtung, die die panoptische Segmentierungskarte modifiziert. Die Handlung 1708 impliziert beispielsweise ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes entsprechend der panoptischen Segmentierungskarte, die über die Clientvorrichtung modifiziert worden ist. In gewissen Fällen impliziert die Handlung 1708 ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes durch Füllen der vorgesehenen Fläche mit Pixeln entsprechend einem panoptischen Etikett eines Objektes, das innerhalb des Digitalbildes nicht abgebildet ist.
Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1700 eine Handlung des Empfangens einer Angabe einer Nutzerinteraktion von einer Clientvorrichtung zum Modifizieren der panoptischen Segmentierungskarte derart, dass diese das panoptische Etikett des Objektes, das nicht in dem Digitalbild abgebildet ist, beinhaltet.
18 zeigt eine exemplarische Abfolge von Handlungen 1800 zur Bereitstellung einer panoptischen Rekonstruktionsschnittstelle zum Generieren und Modifizieren von rekonstruierten Digitalbildern unter Einsatz von panoptischen Anleitungen entsprechend einer oder mehreren Ausführungsformen. Insbesondere beinhaltet die Abfolge von Handlungen 1800 eine Handlung 1802 des Bereitstellens einer panoptischen Rekonstruktionsschnittstelle zur Anzeige auf einer Clientvorrichtung. In einigen Fällen beinhaltet die Handlung 1802 eine zusätzliche Handlung 1804 des Bereitstellens eines panoptischen Etikettenelementes, das auswählbar ist, um eine panoptische Segmentierungskarte zu erstellen. Die Handlung 1804 beinhaltet beispielsweise ein Bereitstellen eines panoptischen Etikettenelementes, das auswählbar ist, um eine panoptische Segmentierungskarte zum Rekonstruieren eines Digitalbildes zu erstellen. In einigen Fällen beinhaltet die Handlung 1802 ein zur Anzeige zusammen mit dem panoptischen Etikettenelement erfolgendes Bereitstellen eines Rekonstruktionselementes, das auswählbar ist, um das rekonstruierte Digitalbild unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes zu generieren. In einigen Fällen beinhaltet die Handlung 1802 ein zur Anzeige innerhalb der panoptischen Rekonstruktionsschnittstelle erfolgendes Bereitstellen eines panoptischen Grenzzeichenwerkzeuges, das auswählbar ist, um panoptische Bereiche des Digitalbildes zu definieren.
Zusätzlich beinhaltet die Abfolge von Handlungen 1800 eine Handlung 1806 des Empfangens einer Angabe einer Nutzerinteraktion mit dem panoptischen Etikettenelement. Insbesondere impliziert die Handlung 1806 ein von der Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion mit dem panoptischen Etikettenelement zum Definieren der panoptischen Segmentierungskarte innerhalb der panoptischen Rekonstruktionsschnittstelle. Beispielsweise impliziert die Handlung 1806 ein Empfangen von panoptischen Etiketten für Bereiche des Digitalbildes. Bei einem weiteren Beispiel impliziert die Handlung 1806 ein Empfangen von Angaben von Grenzen für Bereiche des Digitalbildes. Das Empfangen der Grenzen beinhaltet bisweilen ein Empfangen von Eingaben zum Definieren der Bereiche mit verschiedenen Farben entsprechend jeweiligen panoptischen Etiketten und ein Einzeichnen der Bereiche des Digitalbildes.
Wie weiter gezeigt ist, beinhaltet die Abfolge von Handlungen 1800 bei einigen Ausführungsformen eine Handlung 1808 des Empfangens einer Nutzerinteraktion, die eine panoptische Segmentierungskarte definiert. Insbesondere impliziert die Handlung 1808 ein Empfangen von panoptischen Segmentierungsgrenzen, die Bereiche des Digitalbildes innerhalb der panoptischen Rekonstruktionsschnittstelle definieren. Zusätzlich impliziert die Handlung 1808 ein Empfangen von panoptischen Etiketten, die über die panoptische Rekonstruktionsschnittstelle für die Bereiche des Digitalbildes eingegeben worden sind. In einigen Fällen impliziert die Handlung 1808 ein Empfangen von Eingabestrichen unter Nutzung des panoptischen Grenzzeichenwerkzeuges zum Definieren von Bereichen des Digitalbildes. Das Empfangen der Eingabestriche beinhaltet bisweilen ein Empfangen von Eingabestrichen zum Definieren von Bereichen für panoptische Etiketten, die Objekten, die innerhalb des Digitalbildes abgebildet sind, zugeordnet sind. In einigen Fällen beinhaltet das Empfangen der Eingabestriche ein Definieren von Bereichen für ein panoptisches Etikett, das einem Objekt, das nicht innerhalb des Digitalbildes abgebildet ist, zugeordnet ist.
Des Weiteren beinhaltet die Abfolge von Handlungen 1810 eine Handlung 1810 des Bereitstellens eines rekonstruierten Digitalbildes zur Anzeige auf Grundlage der panoptischen Segmentierungskarte. Insbesondere impliziert die Handlung 1810 ein zur Anzeige innerhalb der panoptischen Rekonstruktionsschnittstelle erfolgendes Bereitstellen eines rekonstruierten Digitalbildes mit Generierung unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes auf Grundlage eines Empfangens der Angabe der Nutzerinteraktion zum Definieren der panoptischen Segmentierungskarte. Die Handlung 1810 impliziert beispielsweise ein zur Anzeige innerhalb der panoptischen Rekonstruktionsschnittstelle auf Grundlage eines Empfangens der Angabe der Nutzerinteraktion zum Definieren der panoptischen Segmentierungskarte erfolgendes Bereitstellen eines rekonstruierten Digitalbildes mit Generierung unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes, das unter Nutzung eines semantischen Diskriminators zum Generieren von realitätsnahen Digitalbildern, die genau zu panoptischen Grenzen passen, trainiert worden ist.
Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1800 eine Handlung des zur Anzeige innerhalb der panoptischen Rekonstruktionsschnittstelle in Reaktion auf die Angabe der Nutzerinteraktion mit dem panoptischen Etikettenelement erfolgenden Bereitstellens eines Gestaltungsfensters einer panoptischen Segmentierungskarte, das modifizierbar ist, um die panoptische Segmentierungskarte für das Digitalbild zu definieren. In einigen Fällen beinhaltet die Abfolge von Handlungen 1800 eine Handlung des von der Clientvorrichtung erfolgenden Empfangens einer zusätzlichen Angabe einer Nutzerinteraktion mit einem Bildmaskenelement zum Definieren einer Binärmaske für Pixel des Digitalbildes zur Ersetzung.
Zusätzlich beinhaltet die Abfolge von Handlungen 1800 eine Handlung des Generierens des rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes zur Ersetzung der Pixel des Digitalbildes aus der Angabe durch die Binärmaske entsprechend der panoptischen Segmentierungsmaske. Das Bereitstellen des rekonstruierten Digitalbildes beinhaltet daher bisweilen ein zur Anzeige innerhalb der panoptischen Rekonstruktionsschnittstelle erfolgendes Bereitstellen eines rekonstruierten Digitalbildes mit Generierung unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes auf Grundlage einer ersten Angabe einer Nutzerinteraktion mit einem panoptischen Etikettenelement und einer zweiten Angabe einer Nutzerinteraktion mit einem Bildmaskenelement. In einigen Fällen beinhaltet das Empfangen der zweiten Angabe der Nutzerinteraktion zum Definieren einer Binärmaske ein über die panoptische Rekonstruktionsschnittstelle erfolgendes Empfangen einer Angabe von Pixeln des Digitalbildes zum Vorsehen als Pixel zur Ersetzung durch das panoptisch rekonstruierende neuronale Netzwerk.
In einigen Fällen beinhaltet die Abfolge von Handlungen 1800 eine Handlung des Einsetzens eines segmentierenden neuronalen Netzwerkes zum Bestimmen von verschiedenen Bereichen des Digitalbildes. In diesen und weiteren Fällen beinhaltet die Handlung 1808 ein Empfangen von panoptischen Etiketten, die über die panoptische Rekonstruktionsschnittstelle für die verschiedenen Bereiche des Digitalbildes eingegeben worden sind. In gewissen Bereichen beinhaltet die Abfolge von Handlungen 1800 eine Handlung des Einsetzens des panoptisch rekonstruierenden neuronalen Netzwerkes zum Generieren des rekonstruierten Digitalbildes durch Ersetzen von Pixeln innerhalb einer vorgesehenen Fläche des Digitalbildes entsprechend der panoptischen Segmentierungskarte. Die Abfolge von Handlungen 1800 beinhaltet bisweilen eine Handlung des Einsetzens eines segmentierenden neuronalen Netzwerkes zum Bestimmen von panoptischen Etiketten für die Bereiche des Digitalbildes.
19 zeigt eine exemplarische Abfolge von Handlungen 1900 zum iterativen Aktualisieren eines rekonstruierten Digitalbildes unter Einsatz von panoptischen Anleitungen entsprechend einer oder mehreren Ausführungsformen. Insbesondere beinhaltet die Abfolge von Handlungen 1900 eine Handlung 1902 des Bestimmens einer panoptischen Segmentierungskarte für ein Digitalbild. Die Handlung 1902 impliziert beispielsweise ein Bestimmen einer panoptischen Segmentierungskarte, die panoptische Etiketten für Bereiche eines Digitalbildes definiert. In einigen Fällen impliziert die Handlung 1902 ein Einsetzen eines panoptisch segmentierenden neuronalen Netzwerkes zum Bestimmen der Bereiche von Pixeln, die innerhalb des Digitalbildes abgebildet sind, und der panoptischen Etiketten entsprechend den Bereichen.
Wie gezeigt ist, beinhaltet die Abfolge von Handlungen 1900 eine Handlung 1904 des Generierens eines rekonstruierten Digitalbildes aus dem Digitalbild und der panoptischen Segmentierungskarte. Insbesondere impliziert die Handlung 1904 ein Generieren eines rekonstruierten Digitalbildes aus dem Digitalbild und der panoptischen Segmentierungskarte unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes. In einigen Fällen beinhaltet die Abfolge von Handlungen 1900 eine Handlung des Bestimmens einer Binärmaske, die eine vorgesehene Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes definiert. In diesen oder weiteren Fällen impliziert die Handlung 1904 ein Generieren eines rekonstruierten Digitalbildes aus dem Digitalbild, der panoptischen Segmentierungskarte und der Binärmaske unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes.
Wie weiter in 19 gezeigt ist, beinhaltet die Abfolge von Handlungen 1900 eine Handlung 1906 des iterativen Aktualisierens des rekonstruierten Digitalbildes. Insbesondere beinhaltet die Handlung 1906 ein Detektieren einer Modifikation an der Binärmaske zum Definieren einer neuen vorgesehenen Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes und Generieren des modifizierten rekonstruierten Digitalbildes durch Rekonstruieren der neuen vorgesehenen Fläche mit Ersetzungspixeln unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der Binärmaske. Bei einigen Ausführungsformen impliziert die Handlung 1906 ein Detektieren einer Sequenz von zusätzlichen Modifikationen an der panoptischen Segmentierungskarte und ein iteratives Aktualisieren des modifizierten rekonstruierten Digitalbildes unter Einsatz der panoptischen Segmentierungskarte für jede der Sequenz von zusätzlichen Modifikationen.
In einigen Fällen beinhaltet die Handlung 1906 zusätzliche Handlungen, darunter eine Handlung 1908 des Detektierens einer Modifikation an der panoptischen Segmentierungskarte und eine Handlung 1910 des Generierens eines modifizierten rekonstruierten Digitalbildes auf Grundlage der Modifikation an der panoptischen Segmentierungskarte. Beispielsweise beinhaltet die Handlung 1910 ein Generieren eines modifizierten rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der panoptischen Segmentierung.
Bei gewissen Ausführungsformen impliziert die Handlung 1910 ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren eines vorgesehenen Bereiches des Digitalbildes mit Ersetzungspixeln. Die Abfolge von Handlungen 1900 beinhaltet bisweilen eine Handlung des Bestimmens des vorgesehenen Bereiches des Digitalbildes entsprechend einer Binärmaske, die den vorgesehenen Bereich angibt. Bei einer oder mehreren Implementierungen beinhaltet die Handlung 1910 ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren eines vorgesehenen Bereiches des Digitalbildes mit Ersetzungspixeln entsprechend dem neuen Bereich und dem neuen panoptischen Etikett. Die Handlung 1910 impliziert bisweilen ein Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren eines vorgesehenen Bereiches des Digitalbildes mit Ersetzungspixeln entsprechend verbleibenden Bereichen innerhalb der panoptischen Segmentierungskarte.
In einigen Fällen impliziert die Handlung 1908 ein von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren eines panoptischen Etiketts, das einem Bereich des Digitalbildes zugeordnet ist. In diesen oder weiteren Fällen impliziert die Handlung 1908 ein von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren eines Bereiches von Pixeln, die innerhalb des Digitalbildes abgebildet sind. Die Handlung 1908 beinhaltet beispielsweise ein von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Hinzufügen eines neuen Bereiches und eines neuen panoptischen Etiketts entsprechend dem neuen Bereich zu der panoptischen Segmentierungskarte. In einigen Fällen impliziert die Handlung 1908 ein von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Empfangen eines Bereiches und eines entsprechenden panoptischen Etiketts von der panoptischen Segmentierungskarte. Die Handlung 1908 beinhaltet bisweilen ein von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren einer Grenze, die einem Bereich des Digitalbildes zugeordnet ist.
Bei einer oder mehreren Ausführungsformen beinhaltet die Abfolge von Handlungen 1900 eine Handlung des Detektierens einer zusätzlichen Modifikation an der panoptischen Segmentierungskarte. Bei diesen oder weiteren Ausführungsformen beinhaltet die Abfolge von Handlungen 1900 eine Handlung des Aktualisierens des modifizierten rekonstruierten Digitalbildes unter Einsatz der panoptischen Segmentierungskarte auf Grundlage der zusätzlichen Modifikation. Die Abfolge von Handlungen 1900 beinhaltet bisweilen eine Handlung des Bestimmens einer Binärmaske zum Definieren einer vorgesehenen Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes. In gewissen Fällen impliziert die Handlung 1910 ein Nutzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes mit Ersetzungspixeln entsprechend der panoptischen Segmentierungskarte und der Binärmaske.
Ausführungsformen der vorliegenden Offenbarung können einen Spezialzweck- oder Allzweckcomputer, der Computerhardware beinhaltet, umfassen oder einsetzen, so beispielsweise einen oder mehrere Prozessoren und einen Systemspeicher, wie nachstehend noch detaillierter beschrieben wird. Ausführungsformen innerhalb des Umfanges der vorliegenden Offenbarung beinhalten zudem physische bzw. physikalische und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hier beschriebenen Prozesse wenigstens teilweise als Anweisungen implementiert sein, die auf einem nichttemporären computerlesbaren Medium verkörpert und durch eine oder mehrere Rechenvorrichtungen (beispielsweise beliebige der hier beschriebenen Mediencontentzugriffsvorrichtungen) ausführbar sind. Allgemein empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttemporären computerlesbaren Medium (beispielsweise einem Speicher bzw. Memory) und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden.
Computerlesbare Medien können beliebige verfügbare Medien sein, auf die ein Allzweck- oder Spezialzweckcomputersystem zugreifen kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttemporäre computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen, sind Übertragungsmedien. Beispiels- und nicht beschränkungshalber können Ausführungsformen der Offenbarung daher wenigstens zwei eindeutig verschiedene Arten von computerlesbaren Medien umfassen, nämlich nichttemporäre computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.
Nichttemporäre computerlesbare Speichermedien (Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, SSDs (Solid State Drives) (beispielsweise auf Grundlage eines RAM), einen Flashspeicher, einen Phasenänderungsspeicher (PCM), andere Arten von Memory bzw. Speicher, einen anderen optischen Plattenspeicher, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden und auf das ein Allzweck- oder Spezialzweckcomputer zugreifen kann.
Ein „Netzwerk“ ist als ein oder mehrere Datenlinks definiert, die den Transport von elektronischen Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wird Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet oder drahtlos) an einen Computer übertragen oder für diesen bereitgestellt, so betrachtet der Computer die Verbindung in der Praxis als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenlinks beinhalten, die zum Tragen von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden können und auf die ein Allzweck- oder Spezialzweckcomputer zugreifen kann. Kombinationen des Vorbeschriebenen sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Beim Verwirklichen von verschiedenen Computersystemkomponenten können Programmcodemittel zudem in Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nichttemporäre computerlesbare Speichermedien (Vorrichtungen) (oder umgekehrt) übertragen werden. Computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder einen Datenlink empfangen werden, können beispielsweise in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und sodann gegebenenfalls an einen Computersystem-RAM und/oder an weniger flüchtige Computerspeichermedien (Vorrichtungen) auf einem Computersystem übertragen werden. Es sollte daher einsichtig sein, dass nichttemporäre computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten beinhaltet sein können, die ebenfalls (oder sogar primär) Übertragungsmedien einsetzen.
Computerausführbare Anweisungen umfassen beispielsweise Anweisungen und Daten, die bei Ausführung durch einen Prozessor veranlassen, dass ein Allzweckcomputer, ein Spezialzweckcomputer oder eine Spezialzweckverarbeitungsvorrichtung eine gewisse Funktion oder Gruppe von Funktionen wahrnehmen. Bei einigen Ausführungsformen werden computerausführbare Anweisungen auf einem Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialzweckcomputer zu verwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können beispielsweise Binaries, Anweisungen in einem Zwischenformat wie Assemblersprache oder sogar Quellcode sein. Obwohl der Erfindungsgegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Handlungen spezifisch ist, sollte einsichtig sein, dass der in den beigefügten Ansprüchen definierte Erfindungsgegenstand nicht unbedingt auf die vorbeschriebenen Merkmale oder Handlungen beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Handlungen als exemplarische Formen der Implementierung der Ansprüche offenbart.
Einem Fachmann auf dem Gebiet erschließt sich, dass die Offenbarung in Netzwerkrechenumgebungen mit vielen Arten von Computersystemkonfigurationen praktisch umgesetzt werden kann, darunter PCs, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorensysteme, mikroprozessorbasierte oder programmierbare Geräte der Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches bzw. Schalter und dergleichen. Praktisch umgesetzt werden kann die Offenbarung auch in verteilten Systemumgebungen, wo lokale und entfernte (remote) Computersysteme, die (entweder durch festverdrahtete Datenlinks, drahtlose Datenlinks oder durch eine Kombination aus festverdrahteten und drahtlosen Datenlinks) über ein Netzwerk verbunden sind, gleichermaßen Aufgaben erledigen. In einer verteilten Systemumgebung können Programmmodule sowohl in lokalen wie auch entfernten (remote) Memoryspeichervorrichtungen befindlich sein.
Ausführungsformen der vorliegenden Offenbarung können zudem in Cloudrechenumgebungen implementiert sein. Im Sinne des Vorliegenden bezeichnet der Begriff „Cloudcomputing bzw. Cloudrechnen“ ein Modell, das einen On-Demand-Netzwerkzugriff auf einen geteilten Pool von konfigurierbaren Rechenressourcen ermöglicht. Cloudcomputing bzw. Cloudrechnen kann beispielsweise auf einem Marktplatz eingesetzt werden, um einen allumfassenden und bequemen On-Demand-Zugriff auf den geteilten Pool von konfigurierbaren Rechenressourcen anzubieten. Der geteilte Pool von konfigurierbaren Rechenressourcen kann über eine Virtualisierung schnell bereitgestellt und mit wenig Verwaltungsaufwand oder wenig Eingreifen eines Dienstanbieters freigegeben und sodann entsprechend skaliert werden.
Ein Cloudrechenmodell kann aus verschiedenen Eigenschaften zusammengesetzt sein, so beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity, Measured Service und dergleichen. Ein Cloudrechenmodell kann zudem verschiedene Dienstmodelle anbieten, so beispielsweise „Software as a Service“ („SaaS“), „Platform as a Service“ („PaaS“) und „Infrastructure as a Service“ („IaaS“). Ein Cloudrechenmodell kann zudem unter Nutzung verschiedener Einsatzmodelle eingesetzt werden, so beispielsweise Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud und dergleichen. Im Sinne des Vorliegenden bezeichnet der Begriff „Cloudrechenumgebung“ zudem eine Umgebung, in der Cloudrechnen bzw. Cloudcomputing eingesetzt wird.
20 zeigt in Form eines Blockdiagramms eine exemplarische Rechenvorrichtung 2000 (beispielsweise die Rechenvorrichtung 1500, die Clientvorrichtung 108 und/oder den Server / die Server 104), die dafür konfiguriert sein kann, einen oder mehrere der vorbeschriebenen Prozesse durchzuführen. Es sollte einsichtig sein, dass das panoptische Rekonstruktionssystem 102 Implementierungen der Rechenvorrichtung 2000 umfassen kann. Wie in 20 gezeigt ist, kann die Rechenvorrichtung einen Prozessor 2002, einen Memory bzw. Speicher 2004, eine Speichervorrichtung 2006, eine I/O-Schnittstelle 2008 und eine Kommunikationsschnittstelle 2010 umfassen. Des Weiteren kann die Rechenvorrichtung 2000 eine Eingabevorrichtung, so beispielsweise einen berührungsempfindlichen Schirm, eine Maus, eine Tastatur und dergleichen beinhalten. Bei gewissen Ausführungsformen kann die Rechenvorrichtung 2000 weniger oder mehr Komponenten als die in 20 gezeigten beinhalten. Komponenten der Rechenvorrichtung 2000, die in 20 gezeigt sind, werden nunmehr noch detaillierter beschrieben.
Bei bestimmten Ausführungsformen beinhaltet/beinhalten der Prozessor / die Prozessoren 2002 Hardware zum Ausführen von Anweisungen, so beispielsweise solchen, die ein Computerprogramm bilden. Bei einem Beispiel und nicht im Sinne einer Beschränkung kann/können der Prozessor / die Prozessoren 2002 zum Ausführen von Anweisungen die Anweisungen aus einem internen Register, einem internen Cache, dem Memory 2004 oder der Speichervorrichtung 2006 abrufen (oder holen) und sie decodieren und ausführen.
Die Rechenvorrichtung 2000 beinhaltet den Memory 2004, der mit dem Prozessor / den Prozessoren 2002 gekoppelt ist. Der Memory 2004 kann zum Speichern von Daten, Metadaten und Programmen zur Ausführung durch den Prozessor / die Prozessoren benutzt werden. Der Memory 2004 kann eines oder mehrere von flüchtigen und nichtflüchtigen Memorys beinhalten, so beispielsweise einen Speicher mit wahlfreiem Zugriff („RAM“), einen Nur-Lese-Speicher („ROM“), eine Solid-State-Disk („SSD“), einen Flash, einen Phasenänderungsspeicher („PCM“) oder andere Typen von Datenspeicher. Der Memory 2004 kann ein interner oder ein verteilter Memory sein.
Die Rechenvorrichtung 2000 beinhaltet eine Speichervorrichtung 2006 mit einem Speicher zum Speichern von Daten oder Anweisungen. Beispiels- und nicht beschränkungshalber kann die Speichervorrichtung 2006 ein nichttemporäres Speichermedium umfassen, wie es vorstehend beschrieben worden ist. Die Speichervorrichtung 2006 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein USB-Laufwerk (Universeller Serieller Bus USB) oder eine Kombination aus diesen oder anderen Speichervorrichtungen beinhalten.
Die Rechenvorrichtung 2000 beinhaltet, wie gezeigt ist, zudem eine oder mehrere I/O-Vorrichtungen/Schnittstellen 2008 (I/O Input/Output), die dafür vorgesehen sind, einem Nutzer zu ermöglichen, eine Eingabe (so beispielsweise Nutzertastendrücke bzw. Nutzerstriche) für die Rechenvorrichtung 2000 bereitzustellen, eine Ausgabe von dieser zu empfangen und auf andere Weise Daten an diese und von dieser zu transferieren. Die I/O-Vorrichtungen/Schnittstellen 2008 können eine Maus, ein Tastenfeld (Keypad) oder eine Tastatur, einen berührungsempfindlichen Bildschirm (Touchscreen), eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte I/O-Vorrichtungen oder eine Kombination aus derartigen I/O-Vorrichtungen/Schnittstellen 2008 beinhalten. Der berührungsempfindliche Bildschirm kann mit einer Schreibvorrichtung oder Finger aktiviert werden.
Die I/O-Vorrichtungen/Schnittstellen 2008 können eine oder mehrere Vorrichtungen zum Präsentieren einer Ausgabe gegenüber einem Nutzer beinhalten, darunter unter anderem eine Graphics Engine, eine Anzeige (beispielsweise einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. Bei manchen Ausführungsformen sind die Vorrichtungen/Schnittstellen 2008 dafür konfiguriert, grafische Daten für eine Anzeige zur Präsentation gegenüber einem Nutzer bereitzustellen. Die grafischen Daten können eine oder mehrere grafische Nutzerschnittstellen und/oder beliebigen anderen grafischen Content darstellen, so dieser für eine bestimmte Implementierung dienlich ist.
Die Rechenvorrichtung 2000 kann des Weiteren eine Kommunikationsschnittstelle 2010 beinhalten. Die Kommunikationsschnittstelle 2010 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 2010 kann eine oder mehrere Schnittstellen zur Kommunikation (so beispielsweise zur paketbasierten Kommunikation) zwischen der Rechenvorrichtung und einer oder mehreren anderen Rechenvorrichtungen 2000 oder einem oder mehreren Netzwerken bereitstellen. Beispiels- und nicht beschränkungshalber kann die Kommunikationsschnittstelle 2010 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zur Kommunikation mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einen drahtlosen NIC (WNIC) oder einen Drahtlosadapter zur Kommunikation mit einem Drahtlosnetzwerk, so beispielsweise einem Wl-Fl, beinhalten. Die Rechenvorrichtung 2000 kann des Weiteren einen Bus 2012 beinhalten. Der Bus 2012 kann Hardware, Software oder beides, die Komponenten der Rechenvorrichtung 2000 miteinander koppeln, beinhalten.
In der vorstehenden Beschreibung ist die Erfindung anhand spezifischer exemplarischer Ausführungsformen beschrieben worden. Verschiedene Ausführungsformen und Aspekte der Erfindung/Erfindungen werden anhand der hier erläuterten Details beschrieben, wobei die begleitende Zeichnung die verschiedenen Ausführungsformen zeigt. Die vorstehende Beschreibung und die Zeichnung sind für die Erfindung illustrativ und sollen nicht erfindungsbeschränkend gedeutet werden. Es sind zahlreiche spezifische Details beschrieben worden, um ein eingehendes Verständnis der verschiedenen Ausführungsformen der vorliegenden Erfindung zu ermöglichen.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Wesen oder ihren wesentlichen Eigenschaften abzugehen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht nur als illustrativ und nicht als restriktiv zu betrachten. Die hier beschriebenen Verfahren können beispielsweise mit weniger oder mehr Schritten/Handlungen durchgeführt werden, oder es können die Schritte/Handlungen in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Handlungen wiederholt oder parallel zueinander durchgeführt oder parallel zu anderen bzw. verschiedenen Versionen bzw. Instanzen derselben oder ähnlicher Schritte/Handlungen durchgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung gegeben. Alle Änderungen, die der Bedeutung und dem Äquivalenzbereich der Ansprüche entsprechen, sollen in deren Umfang umfasst sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17/661985 [0052]
US 17661985 [0061]

Zitierte Nicht-Patentliteratur

„High-Resolution Image Inpainting with Iterative Confidence Feedback and Guided Upsampling” von Yu Zheng, Zhe Lin, Jimei Yang, Jianming Zhang, Eli Shechtman und Huchuan Lu, veröffentlicht bei arXiv:2005.11742 [0049]
„Large Scale Image Completion via Co-Modulated Generative Adversarial Networks” von Shengyu Zhao, Jonathan Cui, Yilun Sheng, Yue Dong, Xiao Lian, Eric I. Chang und Yan Xu, veröffentlicht bei arXiv:2103.10428 [0049]
„Fully Convolutional Networks for Panoptic Segmentation” von Yanwei Li, Henghsuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun und Jiaya Jia, veröffentlicht bei „Proceedings of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 214-23 [0051]
„Panoptic Segmenation” von Alexander Kirillov, Kaming He, Ross Girshick, Carsten Rother und Piotr Dollar, veröffentlicht bei „Proceedings of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 9404-13 [0053]
„Conditional Generative Adversarial Nets” von Mehdi Mirza und Simon Osindero, veröffentlicht bei arXiv: 1411.1784 [0055]
„Resolution-Robust Large Mask Inpainting with Fourier Convolutions” von Roman Suvorov, Elizaveta Logacheva, Anton Mashikin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park und Victor Lempitsky, veröffentlicht bei arXiv:2109:07161 [0081]
„Learning Transferrable Visual Models from Natural Language Supervision” von Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin und Jack Clark, veröffentlicht bei Int'l Conf. on Maschine Learning, 8748-63 [0085]
„Sesame: Semantic Editing of Scenes by Adding, Manipulating or Erasing Objects” von Evangelos Ntavelis, Andres Romero, lason Kastanis, Luc Van Gool und Radu Timofte, veröffentlicht bei European Conf. on Computer Vision, 394-411 [0121]
„SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches” von Yu Zeng, Zhe Lin und Vishal M. Patel, veröffentlicht bei arXiv:2111.15078 [0124]

Claims

Nichttransitorisches bzw. nichttemporäres computerlesbares Medium, das ausführbare Anweisungen speichert, die bei Ausführung durch eine Verarbeitungsvorrichtung die Verarbeitungsvorrichtung veranlassen, Vorgänge durchzuführen, die umfassen: Bestimmen einer panoptischen Segmentierungskarte, die panoptische Etiketten für Bereiche eines Digitalbildes definiert; Generieren eines Inpainting-Digitalbildes bzw. rekonstruierten Digitalbildes aus dem Digitalbild und der panoptischen Segmentierungskarte unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes; Detektieren einer Modifikation an der panoptischen Segmentierungskarte; und Generieren eines modifizierten rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der panoptischen Segmentierungskarte.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren eines panoptischen Etiketts, das einem Bereich des Digitalbildes zugeordnet ist.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren eines Bereiches von Pixeln, die innerhalb des Digitalbildes abgebildet sind.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, das des Weiteren ausführbare Anweisungen speichert, die bei Ausführung durch die Verarbeitungsvorrichtung veranlassen, dass die Verarbeitungsvorrichtung Vorgänge durchführt, die umfassen: Detektieren einer zusätzlichen Modifikation an der panoptischen Segmentierungskarte; und Aktualisieren des modifizierten rekonstruierten Digitalbildes unter Einsatz der panoptischen Segmentierungskarte auf Grundlage der zusätzlichen Modifikation.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, wobei das Generieren des modifizierten rekonstruierten Digitalbildes umfasst: Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren einer vorgesehenen Fläche des Digitalbildes mit Ersetzungspixeln.
Nichttemporäres computerlesbares Medium nach Anspruch 5, das des Weiteren ausführbare Anweisungen speichert, die bei Ausführung durch die Verarbeitungsvorrichtung veranlassen, dass die Verarbeitungsvorrichtung Vorgänge durchführt, die umfassen: Bestimmen der vorgesehenen Fläche des Digitalbildes entsprechend einer Binärmaske, die die vorgesehene Fläche angibt.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, wobei das Bestimmen der panoptischen Segmentierungskarte umfasst: Einsetzen eines segmentierenden neuronalen Netzwerkes zum Bestimmen der Bereiche von Pixeln, die innerhalb des Digitalbildes abgebildet sind, und der panoptischen Etiketten entsprechend den Bereichen.
System, umfassend: eine oder mehrere Speichervorrichtungen, die ein panoptisch rekonstruierendes neuronales Netzwerk umfassen; und einen oder mehrere Prozessoren, die dafür konfiguriert sind, das System zu veranlassen zum: iterativen Aktualisieren eines rekonstruierten Digitalbildes unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes durch: Bestimmen einer panoptischen Segmentierungskarte, die panoptische Etiketten für Bereiche eines Digitalbildes definiert; Bestimmen einer Binärmaske, die eine vorgesehene Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes definiert; Generieren eines rekonstruierten Digitalbildes aus dem Digitalbild, der panoptischen Segmentierungskarte und der Binärmaske unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes; Detektieren einer Modifikation an der panoptischen Segmentierungskarte; und Generieren eines modifizierten rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der panoptischen Segmentierungskarte.
System nach Anspruch 8, wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Hinzufügen eines neuen Bereiches und eines neuen panoptischen Etiketts entsprechend dem neuen Bereich zu der panoptischen Segmentierungskarte.
System nach Anspruch 9, wobei das Generieren des modifizierten rekonstruierten Digitalbildes umfasst: Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren einer vorgesehenen Fläche des Digitalbildes mit Ersetzungspixeln entsprechend dem neuen Bereich und dem neuen panoptischen Etikett.
System nach einem der Ansprüche 8 bis 10, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: iterativen Aktualisieren des rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes durch: Detektieren einer Modifikation an der Binärmaske zum Definieren einer neuen vorgesehenen Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes; und Generieren des modifizierten rekonstruierten Digitalbildes durch Rekonstruieren der neu vorgesehenen Fläche mit Ersetzungspixeln unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der Binärmaske.
System nach einem der Ansprüche 8 bis 10, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: iterativen Aktualisieren des rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes durch: Detektieren einer Sequenz von zusätzlichen Modifikationen an der panoptischen Segmentierungskarte; und iteratives Aktualisieren des modifizierten rekonstruierten Digitalbildes unter Einsatz der panoptischen Segmentierungskarte für jede der Sequenz von zusätzlichen Modifikationen.
System nach einem der Ansprüche 8 bis 12, wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Entfernen eines Bereiches und eines entsprechenden panoptischen Etiketts aus der panoptischen Segmentierungskarte.
System nach Anspruch 13, wobei das Generieren des modifizierten rekonstruierten Digitalbildes umfasst: Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren einer vorgesehenen Fläche des Digitalbildes mit Ersetzungspixeln entsprechend verbleibenden Bereichen innerhalb der panoptischen Segmentierungskarte.
Computerimplementiertes Verfahren, umfassend: Bestimmen einer panoptischen Segmentierungskarte, die panoptische Etiketten für Bereiche eines Digitalbildes definiert; Generieren eines rekonstruierten Digitalbildes aus dem Digitalbild und der panoptischen Segmentierungskarte unter Einsatz eines panoptisch rekonstruierenden neuronalen Netzwerkes; Detektieren einer Modifikation an der panoptischen Segmentierungskarte; und Generieren eines modifizierten rekonstruierten Digitalbildes unter Einsatz des panoptisch rekonstruierenden neuronalen Netzwerkes entsprechend der Modifikation an der panoptischen Segmentierungskarte.
Computerimplementiertes Verfahren nach Anspruch 15 wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Modifizieren einer Grenze, die einem Bereich des Digitalbildes zugeordnet ist.
Computerimplementiertes Verfahren nach Anspruch 15 oder 16, des Weiteren umfassend: Bestimmen einer Binärmaske, die eine vorgesehene Fläche von Pixeln zur Ersetzung innerhalb des Digitalbildes definiert.
Computerimplementiertes Verfahren nach Anspruch 17, wobei das Generieren des modifizierten rekonstruierten Digitalbildes umfasst: Einsetzen des panoptisch rekonstruierenden neuronalen Netzwerkes zum Rekonstruieren der vorgesehenen Fläche des Digitalbildes mit Ersetzungspixeln entsprechend der panoptischen Segmentierungskarte und der Binärmaske.
Computerimplementiertes Verfahren nach einem der Ansprüche 15 bis 18, wobei das Detektieren der Modifikation an der panoptischen Segmentierungskarte umfasst: von einer Clientvorrichtung erfolgendes Empfangen einer Angabe einer Nutzerinteraktion zum Hinzufügen eines Bereiches für ein Objekt, das nicht innerhalb des Digitalbildes abgebildet ist.
Computerimplementiertes Verfahren nach einem der Ansprüche 15 bis 19, des Weiteren umfassend: Detektieren einer zusätzlichen Modifikation an der panoptischen Segmentierungskarte; und Aktualisieren des modifizierten rekonstruierten Digitalbildes unter Einsatz der panoptischen Segmentierungskarte entsprechend der zusätzlichen Modifikation.