DE102020002964A1

DE102020002964A1 - Verwenden eines neuronalen Netzwerks mit einer Zwei-Strom Encoder-Architektur zur Erzeugung digitaler Kompositbilder

Info

Publication number: DE102020002964A1
Application number: DE102020002964.7A
Authority: DE
Inventors: Zhe Lin; Jianming Zhang; He Zhang; Federico PERAZZI
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2019-07-26
Filing date: 2020-05-18
Publication date: 2021-01-28
Also published as: GB2587841B; US20210027470A1; US11568544B2; US20220012885A1; US11158055B2; AU2020203216A1; AU2020203216B2; CN112308763A; GB2587841A; GB202007986D0

Abstract

Die vorliegende Offenbarung bezieht sich auf die Verwendung eines neuronalen Netzwerks mit einer Zwei-Strom-Encoder-Architektur zur genauen Erzeugung digitaler Kompositbilder, die ein Vordergrundobjekt aus einem digitalen Bild realistisch gegen eine Szene aus einem anderen digitalen Bild darstellen. Zum Beispiel können die offenbarten Systeme einen Vordergrundencoder von dem neuronalen Netzwerk benutzen, um Merkmale von einem Vordergrundbild zu identifizieren, und weiter einen Hintergrundencoder, um Merkmale von einem Hintergrundbild zu identifizieren. Die offenbarten Systeme können dann einen Encoder benutzen, um die Merkmale miteinander zu verschmelzen und ein digitales Kompositbild zu erzeugen. Die offenbarten Systeme können das neuronale Netzwerk trainieren, indem sie ein einfach handzuhabendes Datenerweiterungsschema verwenden, das durch Selbstunterricht implementiert wird. Die offenbarten Systeme können weiter das neuronale Netzwerk innerhalb eines Ende-zu-Ende-Rahmens für die Automatisierung des Bildkompositionsprozesses inkorporieren.

Description

Hintergrund
In den letzten Jahren gab es signifikante Verbesserungen in Hardware- und Software-Plattformen, die verschiedene Aufgaben zur Bearbeitung digitaler Bilder ausführen. Zum Beispiel führen viele herkömmliche Systeme Bildkomposition aus, indem Regionen von verschiedenen digitalen Bildern kombiniert werden, um ein neues digitales Kompositbild zu erzeugen. Beispielsweise können einige herkömmliche Systeme ein digitales Kompositbild erzeugen durch Überlagern eines Bilds eines Vordergrundobjekts (beispielsweise einer Person), das in einem digitalen Bild dargestellt ist, über eine Szene (beispielsweise einem Hintergrundbild), die in einem anderen digitalen Bild dargestellt ist. Somit kann das resultierende Kompositbild den Anschein erwecken, dass das Bild des Vordergrundobjekts tatsächlich vor dem Hintergrund aufgenommen wurde.
Trotz dieser Fortschritte leiden herkömmliche Bildkompositionssysteme jedoch unter mehreren technologischen Mängeln, welche in einer ungenauen und unflexiblen Operation resultieren. Zum Beispiel scheitern herkömmliche Bildkompositionssysteme oftmals dabei, akkurat digitale Kompositbilder zu erzeugen, die ein Vordergrundobjekt von einem ersten digitalen Bild vor einem Hintergrund von einem zweiten digitalen Bild realistisch darstellen. Beispielsweise erzeugen viele herkömmliche Systeme ein digitales Kompositbild, indem sie den Bereich extrahieren, die das Vordergrundbild enthält, und dann den Bereich direkt auf den gewünschten Hintergrund einfügen. Ein solcher Cut-and-Paste bzw. Ausschneiden und Einsetzen Ansatz führt jedoch typischerweise zu unnatürlichen Artefakten entlang der Grenze des Vordergrundobjekts, da die Pixel entlang der Grenze eine Linearkombination von sowohl dem Vordergrundobjekt als auch dem Hintergrundobjekt darstellen. Manche herkömmlichen Bildkompositionssysteme versuchen, Grenzartefakte zu adressieren, indem sie Bildverschmelzungs- bzw. Blending-Methoden auf niedriger Ebene implementieren (beispielsweise Poisson-Blending, Laplacian Pyramid Blending, Feathering, geführtes Filtern, und so weiter). Diese Methoden führen jedoch oft zu anderen unerwünschten Effekten, wie etwa Farbverzerrung oder nicht glatte Halo-Artefakte, etc. Somit können solche herkömmlichen Systeme zusätzliche Ungenauigkeiten in das finale digitale Kompositbild einführen.
Zusätzlich zu Genauigkeitsbedenken sind herkömmliche Bildkompositionssysteme auch unflexibel. Zum Beispiel sind herkömmliche Bildkompositionssysteme oft in der Hinsicht unflexibel, dass sie es nicht schaffen, digitale Kompositbilder ohne Anleitung, die durch eine manuelle Benutzereingabe bereitgestellt wird, zu erzeugen. Als eine Alternative zu Bild-Blending-Methoden auf niedriger Ebene verwenden manche herkömmlichen Systeme beispielsweise Bildmattierungsverfahren, um Grenzartefakte zu bekämpfen. Bildmattierung erfordert jedoch typischerweise menschliche Eingaben (beispielsweise eine Trimap), um den Vordergrund, den Hintergrund und die zu verarbeitenden unsicheren Bereiche zu identifizieren. Tatsächlich können viele herkömmliche Systeme viele andere essentielle Bearbeitungsschritte des Bildkompositionsprozesses (beispielsweise Segmentierung, Mattierung, Vordergrundfarbdekontamination) nicht ohne signifikante Benutzereingaben durchführen. Weiter passen sich viele herkömmliche Systeme nicht an die begrenzte Verfügbarkeit von Trainingsdaten an, was zu einem minimalen Training der Modelle führt, die zur Erzeugung digitaler Kompositbilder verwendet werden.
Diese und andere Probleme und Unzulänglichkeiten existieren in Bezug auf herkömmliche Bildkompositionssysteme.
Zusammenfassung
Eine oder mehrere der hierin beschriebenen Ausführungsformen bieten Vorteile und/oder lösen eines der vorstehenden oder andere Probleme im Stand der Technik mit Systemen, Verfahren und nichttransitorischen (Englisch: non-transitory), computerlesbaren Medien, die ein neuronales Netzwerk mit Mehrebenen-Fusion verwenden, welches eine Zwei-Strom Encoder-Architektur besitzt, zum akkuraten Erzeugen von realistischen digitalen Kompositbildern. Zum Beispiel stellt in einer oder in mehreren Ausführungsformen ein System ein Vordergrundbild und ein Hintergrundbild einem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung. Das neuronale Netzwerk mit Mehrebenen-Fusion kann zwei separate Encoder verwenden, um mehrstufige Merkmale von dem Vordergrundbild und dem Hintergrundbild jeweils separat zu extrahieren. Das neuronale Netzwerk mit Mehrebenen-Fusion kann dann einen Decoder verwenden, um das digitale Kompositbild basierend auf den mehrstufigen Merkmalen zu erzeugen, wodurch eine natürliche Verbindung zwischen Objekten, die vom Vordergrundbild extrahiert wurden, und einer Szene, die im Hintergrundbild dargestellt ist, erreicht wird. In einer oder in mehreren Ausführungsformen trainiert das System das neuronale Netzwerk mit Mehrebenen-Fusion, digitale Kompositbilder über ein von-einfach-zu-schwer Datenaugmentierungsschema zu erzeugen, indem Selbstlernen implementiert ist. In manchen Ausführungsformen inkorporiert das System das neuronale Netzwerk mit Mehrebenen-Fusion in einem Deep Learning Bildkompositions-Rahmenwerk, welches automatische, durchgehende Bildkomposition bereitstellt. Auf diese Weise kann das System flexible digitale Kompositbilder erzeugen, welche akkurat Vordergrundobjekte vor Hintergründen darstellen.
Beispielsweise identifiziert das System in einer oder in mehreren Ausführungsformen ein Vordergrundbild, ein Hintergrundbild und eine Segmentierungsmaske, die dem Vordergrundbild entspricht. Das System kann dann ein digitales Kompositbild erzeugen basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske. Insbesondere kann das System einen Vordergrundencoder des neuronalen Netzwerks mit Mehrebenen-Fusion verwenden, um eine Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske zu erzeugen. Das System kann weiter einen Hintergrundencoder des neuronalen Netzwerks mit Mehrebenen-Fusion verwenden, um eine Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske zu erzeugen. Anschließend kann das System einen Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion verwenden, um das digitale Kompositbild basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte zu erzeugen.
Zusätzliche Eigenschaften und Vorteile einer oder mehrerer der Ausführungsformen der vorliegenden Offenbarung sind in der folgenden Beschreibung skizziert und werden zum Teil aus der Beschreibung ersichtlich sein oder können durch die Realisierung solcher Beispiels-Ausführungsformen erlernt werden.
Figurenliste
Diese Offenbarung wird eine oder mehrere Ausführungsformen der Erfindung in größeren Einzelheiten und Detail beschreiben, mit Bezug auf die beigefügten Zeichnungen. Die folgenden Absätze beschreiben kurz diese Zeichnungen, in welchen:

1 eine beispielhafte Umgebung darstellt, in welcher ein Bildkompositionssystem in Übereinstimmung mit einer oder mehreren Ausführungsformen arbeiten kann;
2 ein Blockdiagramm eines Bildkompositionssystems darstellt, das ein digitales Kompositbild erzeugt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
3 ein schematisches Diagramm eines neuronalen Netzwerks mit Mehrebenen-Fusion darstellt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
4 mehrere Tabellen darstellt, welche neuronale Netzwerkebenen enthalten, die im Vordergrundencoder, im Hintergrundencoder und im Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion enthalten sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
5 ein Blockdiagramm zum Erzeugen einer Segmentierungsmaske darstellt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
6A bis 6C ein Blockdiagramm der Verwendung eines von-einfach-zu-schwer Datenaugmentierungsschemas darstellen, um ein neuronales Netzwerk mit Mehrebenen-Fusion durch Selbstlernen zu trainieren, digitale Kompositbilder zu erzeugen, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
7 eine Tabelle zeigt, die experimentelle Ergebnisse widerspiegelt bezüglich der Wirksamkeit des Bildkompositionssystems, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
8 eine weitere Tabelle darstellt, die zusätzliche experimentelle Ergebnisse zur Wirksamkeit des Bildkompositionssystems widerspielt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
9 eine weitere Tabelle darstellt, die weitere experimentelle Ergebnisse zur Wirksamkeit des Bildkompositionssystems widerspiegelt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
10 ein beispielhaftes schematisches Diagramm eines Bildkompositionssystems darstellt, in Übereinstimmung mit einer oder mehreren Ausführungsformen;
11 ein Flussdiagramm einer Reihe von Aktionen zum Erzeugen eines digitalen Kompositbilds darstellt, in Übereinstimmung mit einer oder mehreren Ausführungsformen; und
12 ein Blockdiagramm einer beispielhaften Rechenvorrichtung darstellt, in Übereinstimmung mit einer oder mehreren Ausführungsformen.

Detaillierte Beschreibung
Eine oder mehrere hierin beschriebene Ausführungsformen beinhalten ein Bildkompositionssystem, das ein neuronales Netzwerk mit Mehrebenen-Fusion verwendet, welches eine Zwei-Strom Encoder-Architektur besitzt, um akkurat digitale Kompositbilder zu erzeugen, die realistisch Vordergrundobjekte mit einem Hintergrund verbinden. Zum Beispiel kann das Bildkompositionssystem ein Vordergrundbild und ein Hintergrundbild einem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung stellen, um ein digitales Kompositbild zu erzeugen. Das neuronale Netzwerk mit Mehrebenen-Fusion kann eine Zwei-Strom Encoder-Pipeline implementieren, um verschiedene Ebenen von Merkmalskarten für jedes Bild zu extrahieren, und dann einen Decoder verwenden, um die Merkmalskarten Ebene für Ebene zu fusionieren, um das digitale Kompositbild zu erzeugen. Das digitale Kompositbild kann zum Beispiel ein oder mehrere vom Vordergrundbild extrahierte Objekte vor einer Szene aus dem Hintergrundbild darstellen. In einer oder in mehreren Ausführungsformen implementiert das Bildkompositionssystem eine Selbstlern-Strategie, um das neuronale Netzwerk mit Mehrebenen-Fusion über ein von-einfach-zu-schwer Datenaugmentierungsschema progressiv zu trainieren. In manchen Ausführungsformen implementiert das Bildkompositionssystem das neuronale Netzwerk mit Mehrebenen-Fusion als Teil eines Deep Learning Bildkompositions-Rahmenwerks, das eine Ende-zu-Ende Automatisierung des Bildkompositionsprozesses bereitstellt.
Beispielsweise identifiziert das Bildkompositionssystem in einer oder in mehreren Ausführungsformen ein Vordergrundbild, ein Hintergrundbild und eine Segmentierungsmaske, die dem Vordergrundbild entspricht. Das Bildkompositionssystem kann dann ein digitales Kompositbild erzeugen. Insbesondere kann das Bildkompositionssystem eine Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske erzeugen, unter Verwendung eines Vordergrundencoders eines neuronalen Netzwerks mit Mehrebenen-Fusion. Das Bildkompositionssystem kann weiter eine Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske erzeugen, unter Verwendung eines Hintergrundencoders des neuronalen Netzwerks mit Mehrebenen-Fusion. Anschließend kann das Bildkompositionssystem das digitale Kompositbild basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte erzeugen, indem ein Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion verwendet wird.
Wie gerade erwähnt, verwendet das Bildkompositionssystem in einer oder in mehreren Ausführungsformen ein neuronales Netzwerk mit Mehrebenen-Fusion, das zwei Encoder besitzt, um ein digitales Kompositbild zu erzeugen, welches ein Vordergrundbild und ein Hintergrundbild kombiniert. Tatsächlich beinhaltet das neuronale Netzwerk mit Mehrebenen-Fusion in einer oder in mehreren Ausführungsformen einen Vordergrundencoder und einen Hintergrundencoder, um separate Merkmalskarten zu erzeugen, die dem Vordergrundbild bzw. dem Hintergrundbild entsprechen. Das neuronale Netzwerk mit Mehrebenen-Fusion kann dann einen Decoder verwenden, um das finale digitale Kompositbild basierend auf den Merkmalskarten zu erzeugen.
In einer oder in mehreren Ausführungsformen verwendet das neuronale Netzwerk mit Mehrebenen-Fusion weiter Skip Links bzw. Übersprung-Verbindungen, um Ebenen-spezifische Merkmalskarten zwischen den Encodern und dem Decoder zu übertragen. Zum Beispiel kann das neuronale Netzwerk mit Mehrebenen-Fusion zumindest eine Ebenen-spezifische Merkmalskarte von jedem der Vordergrund- und Hintergrundencoder (d.h. auf der gleichen Encoderebene erzeugt) zu dem Decoder (d.h. zu einer spezifischen Ebene des Decoders) bereitstellen. Dementsprechend kann der Decoder das digitale Kompositbild erzeugen basierend auf den Ebenen-spezifischen Merkmalskarten zusätzlich zu den Merkmalskarten, die von dem Vordergrundencoder und dem Hintergrundencoder erzeugt wurden.
Wie oben beschrieben, trainiert das Bildkompositionssystem in einer oder in mehreren Ausführungsformen das neuronale Netzwerk mit Mehrebenen-Fusion, digitale Kompositbilder zu erzeugen durch Verwenden eines von-einfach-zu-schwer Datenaugmentierungsschemas über Selbstlernen. Zum Beispiel kann das Bildkompositionssystem zuerst das neuronale Netzwerk mit Mehrebenen-Fusion trainieren, digitale Kompositbilder basierend auf einfachen digitalen Bildern zu erzeugen (die zum Beispiel Vordergrundbilder beinhalten, die ein Vordergrundbild vor einem reinen Farbhintergrund darstellen). Das Bildkompositionssystem kann dann das halb-trainierte neuronale Netzwerk mit Mehrebenen-Fusion verwenden, um schwerere Trainingsbilder zu erzeugen (die zum Beispiel Vordergrundbilder beinhalten, die ein Vordergrundbild vor einem Hintergrund darstellen, der in Detailliertheit variiert - mit anderen Worten, ein Hintergrund, der keine reine Farbe ist). Das Bildkompositionssystem kann dann die schweren Trainingsbilder verwenden, um das neuronale Netzwerk mit Mehrebenen-Fusion weiter zu trainieren, um digitale Kompositbilder basierend auf schweren digitalen Bildern zu erzeugen. Somit kann das Bildkompositionssystem das neuronale Netzwerk mit Mehrebenen-Fusion verwenden, um Trainingsbilder zu erzeugen, die dann verwendet werden, um das neuronale Netzwerk mit Mehrebenen-Fusion weiter zu trainieren, um schwerere (d.h. komplexere) Bilder zu verarbeiten.
Wie oben weiter erwähnt, implementiert das Bildkompositionssystem in einer oder in mehreren Ausführungsformen das neuronale Netzwerk mit Mehrebenen-Fusion innerhalb eines Deep Learning Bildkompositions-Rahmenwerks, welches Ende-zu-Ende-Funktionalität für den Bildkompositionsprozess bereitstellt. Tatsächlich kann das neuronale Netzwerk mit Mehrebenen-Fusion, wie bereits erwähnt, eine Segmentierungsmaske zusätzlich zu den Vordergrund- und Hintergrundbildern verwenden, um das digitale Kompositbild zu erzeugen. Dementsprechend erzeugt in manchen Ausführungsformen das Bildkompositionssystem die Segmentierungsmaske, die dann dem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung gestellt wird. Zum Beispiel erzeugt in manchen Ausführungsformen das Bildkompositionssystem eine Segmentierungsmaske, die einem Vordergrundbild entspricht, durch Verwenden eines Vordergrundsegmentierungs-neuronalen Netzwerks. In manchen Ausführungsformen kann das Bildkompositionssystem weiter die Segmentierungsmaske modifizieren (d.h. Details entlang den Grenzen eines in der Segmentierungsmaske dargestellten Vordergrundobjekts verfeinern) durch Verwenden eines Maskenverfeinerungs-neuronalen Netzwerks. Das Bildkompositionssystem kann dann die modifizierte Segmentierungsmaske dem neuronalen Netzwerk mit Mehrebenen-Fusion zusammen mit den Vordergrund- und Hintergrundbildern zur Verfügung stellen, um das digitale Kompositbild zu erzeugen.
Das Bildkompositionssystem bietet mehrere Vorteile gegenüber herkömmlichen Systemen. Zum Beispiel verbessert das Bildkompositionssystem die Genauigkeit. Insbesondere kann das Bildkompositionssystem durch Verwenden eines neuronalen Netzwerks mit Mehrebenen-Fusion und einer Zwei-Strom Encoder-Architektur Merkmale aus den Vordergrund- und Hintergrundbildern auf verschiedenen Ebenen extrahieren und verschmelzen. Tatsächlich optimiert das Bildkompositionssystem die Nutzung von Kontext- und Farbmerkmalen dieser Bilder, was für ein natürliches Blending zwischen dem Vordergrundobjekt und dem Hintergrund sorgt. Insbesondere kann das Bildkompositionssystem durch Verwenden des neuronalen Netzwerks mit Mehrebenen-Fusion unerwünschte Artefakte entfernen, die durch Farbkontamination, Aliasing und Ungenauigkeiten der Segmentierungsmaske verursacht wurden.
Weiter verbessert das Bildkompositionssystem Flexibilität. Zum Beispiel benötigt das Bildkompositionssystem weniger Führung furch manuelle Benutzereingaben, da das neuronale Netzwerk mit Mehrebenen-Fusion akkuratere digitale Kompositbilder erzeugt. Insbesondere kann das Bildkompositionssystem wesentliche Bearbeitungsschritte, wie etwa Farbdekontamination und die Entfernung von Grenzartefakten, automatisch ausführen. Weiter kann das Bildkompositionssystem durch Inkorporieren des neuronalen Netzwerks mit Mehrebenen-Fusion in ein Ende-zu-Ende-Rahmenwerk andere wesentliche Bearbeitungsschritte ausführen, wie Segmentierung, ohne Benutzereingabe zu erfordern. Tatsächlich kann das Bildkompositionssystem ein digitales Kompositbild lediglich auf der Bereitstellung eines Vordergrundbilds und eines Hintergrundbilds erzeugen. Zusätzlich passt sich das Bildkompositionssystem flexibel an die begrenzte Verfügbarkeit von Trainingsdaten an, indem es zusätzliche und komplexere Trainingsdaten durch Verwenden des von-einfach-zu-schwer Datenaugmentierungsschemas erzeugt, welches über Selbstlernen implementiert ist.
Wie durch die vorstehende Beschreibung dargestellt, verwendet die vorliegende Offenbarung eine Vielfalt von Begriffen, um Eigenschaften und Vorteile des Bildkompositionssystems zu beschreiben. Zusätzliches Detail hinsichtlich der Bedeutung dieser Begriffe wird nun bereitgestellt. Zum Beispiel bezieht sich der Begriff „digitales Kompositbild“, wie hierin, auf ein digitales Bild. Insbesondere kann sich ein digitales Kompositbild auf ein digitales Bild beziehen, das von Teilen von zwei oder mehreren digitalen Bildern erzeugt wurde. Zum Beispiel kann ein digitales Kompositbild ein digitales Bild beinhalten, welches ein Vordergrundobjekt (beispielsweise eine Person) von einem ersten digitalen Bild und eine Szene von einem zweiten digitalen Bild umfasst.
In diesem Zusammenhang bezieht sich der Begriff „Vordergrundbild“, wie hierin verwendet, auf ein digitales Bild, das ein Vordergrundobjekt darstellt. Insbesondere kann sich ein Vordergrundbild auf ein digitales Bild beziehen, welches zum Bereitstellen eines Vordergrundbilds für ein digitales Kompositbild verwendet werden kann. Zum Beispiel kann ein Vordergrundbild ein digitales Bild beinhalten, das eine Person oder ein anderes Objekt darstellt, das verwendet wird, um ein digitales Kompositbild zu erzeugen, welches die gleiche Darstellung der Person oder des Objekts hat.
Ähnlich bezieht sich der Begriff „Hintergrundbild“, wie hierin verwendet, auf ein digitales Bild, das eine Szene darstellt. Insbesondere kann ein Hintergrundbild sich auf ein digitales Bild beziehen, das eine Szene darstellt, die verwendet werden kann, um einen Hintergrund für ein digitales Kompositbild bereitzustellen. Zum Beispiel kann ein Hintergrundbild ein digitales Bild beinhalten, das eine Szene darstellt, die dann verwendet wird, um ein digitales Kompositbild zu erzeugen, das die gleiche Szene als einen Hintergrund darstellt.
Der Begriff „Segmentierungsmaske“, wie hierin verwendet, bezieht sich auf eine Identifikation von Pixeln in einem Bild, die ein Objekt darstellen. Insbesondere kann eine Segmentierungsmaske sich auf einen Bildfilter beziehen, der für die Partitionierung eines digitalen Bilds in separate Teile nützlich ist. Zum Beispiel kann eine Segmentierungsmaske einen Filter beinhalten, der einem digitalen Bild (beispielsweise einem Vordergrundbild) entspricht, und der einen Teil des digitalen Bilds (d.h. Pixel des digitalen Bilds) identifiziert, der zu einem Vordergrundbild gehört, und einen Teil, der zu einem Hintergrund gehört. Zum Beispiel kann eine Segmentierungskarte sich auf eine Karte des digitalen Bilds beziehen, die für jedes Pixel eine Indikation aufweist, ob dieses Pixel Teil eines Objekts (d.h. Vordergrundobjekts) ist oder nicht. In solchen Implementierungen kann die Indikation eine binäre Indikation umfassen (eine 1 für Pixel, die zu dem Objekt gehören, und eine Null für Pixel, die nicht zu dem Objekt gehören). In alternativen Implementierungen kann die Indikation eine Wahrscheinlichkeit umfassen (d.h. eine Zahl zwischen 1 und 0), die die Wahrscheinlichkeit angibt, dass ein Pixel zu dem Objekt gehört. In solchen Implementierungen ist es wahrscheinlicher, dass der Pixel zu dem Vordergrund oder Objekt gehört, je näher der Wert an 1 ist, und umgekehrt.
Weiter bezieht sich der Begriff „neuronales Netzwerk mit Mehrebenen-Fusion“, wie hierin verwendet, auf einen Computeralgorithmus oder ein Modell, das digitale Kompositbilder erzeugt. Insbesondere kann sich ein neuronales Netzwerk mit Mehrebenen-Fusion auf einen Computeralgorithmus beziehen, der ein Vordergrundbild und ein Hintergrundbild analysiert, um ein digitales Kompositbild zu erzeugen. Zum Beispiel kann sich das neuronale Netzwerk mit Mehrebenen-Fusion auf ein neuronales Netzwerk beziehen. In einer oder in mehreren Ausführungsformen beinhaltet das neuronale Netzwerk mit Mehrebenen-Fusion eine Zwei-Strom Encoder-Architektur. Zum Beispiel kann das neuronale Netzwerk mit Mehrebenen-Fusion einen „Vordergrundencoder“ zur Verarbeitung von Vordergrundbildern und einen „Hintergrundencoder“ zur Verarbeitung von Hintergrundbildern beinhalten.
Zusätzlich bezieht sich der Begriff „Vordergrundsegmentierungs-neuronales Netzwerk“, wie hierin verwendet, auf einen Computeralgorithmus oder ein Modell, das Segmentierungsmasken erzeugt. Insbesondere kann sich ein Vordergrundsegmentierungs-neuronales Netzwerk auf einen Computeralgorithmus beziehen, der ein Vordergrundbild analysiert, um eine Segmentierungsmaske zu erzeugen, die dem Vordergrundbild entspricht. Zum Beispiel kann das Vordergrundsegmentierungs-neuronale Netzwerk generell ein neuronales Netzwerk beinhalten, oder genauer, kann ein Modell zur Segmentierung herausstechender Objekte beinhalten - wie etwa ein Porträt-Segmentierungsmodell.
Weiter bezieht sich der Begriff „Maskenverfeinerungs-neuronales Netzwerk“, wie hierin verwendet, auf einen Computeralgorithmus oder ein Modell, das Segmentierungsmasken modifiziert. Insbesondere kann sich ein Maskenverfeinerungs-neuronales Netzwerk auf einen Computeralgorithmus beziehen, der eine Segmentierungsmaske analysiert, um eine modifizierte (beispielsweise verfeinerte) Segmentierungsmaske zu erzeugen. Zum Beispiel kann das Maskenverfeinerungs-neuronale Netzwerk ein neuronales Netzwerk beinhalten.
Der Begriff „neuronales Netzwerk“, wie hierin verwendet, bezieht sich auf ein Modell für maschinelles Lernen, das abgestimmt (beispielsweise trainiert) werden kann basieren auf Eingaben, unbekannte Funktionen zu approximieren. Insbesondere kann der Begriff neuronales Netzwerk ein Modell von miteinander verbundenen künstlichen Neuronen (beispielsweise in Ebenen organisiert) beinhalten, die kommunizieren und lernen, um komplexe Funktionen zu approximieren und Ausgaben basierend auf einer Mehrzahl von Eingaben, die dem Modell bereitgestellt wurden, zu erzeugen. Zum Beispiel beinhaltet der Begriff neuronales Netzwerk einen oder mehrere Algorithmen für maschinelles Lernen. Zusätzlich kann ein neuronales Netzwerk sich auf einen Algorithmus (oder eine Reihe von Algorithmen) beziehen, die Techniken des Deep Learnings implementieren, welche eine Reihe von Algorithmen verwenden, um Abstraktionen auf hoher Ebene in Daten zu modellieren.
Zusätzlich bezieht sich der Begriff „Merkmalskarte“, wie hierin verwendet, auf eine Sammlung von einem oder mehreren Merkmalswerten. Insbesondere kann sich eine Merkmalskarte auf ein Gitter, eine Matrix, einen Vektor oder auf eine andere mehrdimensionale Sammlung von Merkmalswerten beziehen. Zusätzlich kann eine Merkmalskarte Positionen oder Orte für einzelne Merkmalswerte beinhalten, aus denen sich eine Merkmalskarte zusammensetzt. Zum Beispiel kann eine Merkmalskarte Merkmalswerte beinhalten, die Pixeln eines digitalen Bilds entsprechen, so dass die Merkmalskarte das digitale Bild in Merkmalswertform darstellt. Konkret kann eine „Vordergrundmerkmalskarte“ sich auf eine Merkmalskarte beziehen, die einem Vordergrundbild entspricht, und eine „Hintergrundmerkmalskarte“ kann sich auf eine Merkmalskarte beziehen, die einem Hintergrundbild entspricht. In ähnlicher Weise kann sich eine „Ebenen-spezifische Merkmalskarte“ auf eine Merkmalskarte beziehen, die von einer spezifischen neuronalen Netzwerkebene eines Encoders erzeugt wurde, und nicht auf die Merkmalskarte, die von dem Encoder in seiner Gesamtheit ausgegeben wird.
Weiter bezieht sich der Begriff „von-einfach-zu-schwer Datenaugmentierungsschema“ auf einen Prozess, ein Modell zu trainieren. Insbesondere kann ein von-einfach-zu-schwer Datenaugmentierungsschema sich auf ein Verfahren beziehen, ein Modell unter Verwendung zunehmend komplexerer Trainingsdaten zu trainieren. Zum Beispiel kann sich ein von-einfach-zu-schwer Datenaugmentierungsschema auf ein Verfahren beziehen, ein Modell (beispielsweise ein neuronales Netzwerk mit Mehrebenen-Fusion) zu trainieren, digitale Kompositbilder durch Verwenden einfacher digitaler Bilder (beispielsweise einfache Vordergrundbilder) zu erzeugen, und dann weiter das Modell zu trainieren, indem schwere digitale Bilder (beispielsweise schwere Vordergrundbilder) verwendet werden. Weitere Einzelheiten über das von-einfach-zu-schwer Datenaugmentierungsschema werden unten aufgeführt.
Der Begriff „einfaches Vordergrundbild“, wie hierin verwendet, bezieht sich auf ein digitales Bild, das einen relativ simplen Hintergrund hat (beispielsweise verglichen mit einem schweren Vordergrundbild). Insbesondere kann sich ein einfaches Vordergrundbild auf ein digitales Bild beziehen, das ein Vordergrundobjekt vor einem relativ simplen Hintergrund darstellt, und das verwendet wird, um ein digitales Kompositbild zu erzeugen, welches das Vordergrundobjekt vor einem anderen Hintergrund darstellt. Zum Beispiel kann ein einfaches Vordergrundbild ein digitales Bild beinhalten, das ein Vordergrundobjekt vor einem reinen Farbhintergrund darstellt. Ein „einfaches Trainingsvordergrundbild“ kann sich auf ein einfaches Vordergrundbild beziehen, das verwendet wird, um ein Modell zu trainieren, digitale Kompositbilder zu erzeugen (beispielsweise als Teil des von-einfach-zu-schwer Datenaugmentierungsschemas) basierend auf Vordergrundbildern, die einen relativ simplen Hintergrund haben.
In ähnlicher Weise kann sich der Begriff „hartes Vordergrundbild“ auf ein digitales Bild beziehen, das einen relativ komplexen Hintergrund hat (beispielsweise im Vergleich zu einem einfachen Vordergrundbild). Insbesondere kann ein schweres Vordergrundbild sich auf ein digitales Bild beziehen, das ein Vordergrundobjekt vor einem relativ komplexen Hintergrund darstellt und verwendet wird, um ein digitales Kompositbild zu erzeugen, welches das Vordergrundobjekt vor einem anderen Hintergrund darstellt. Zum Beispiel kann ein schweres Vordergrundbild ein digitales Bild beinhalten, das ein Vordergrundobjekt vor einem in Detailliertheit variierendem Hintergrund darstellt (beispielsweise ein Hintergrund, der keine reine Farbe ist). Ein „schweres Trainingsvordergrundbild“ kann sich auf ein schweres Vordergrundbild beziehen, das verwendet wird, um ein Modell zu trainieren, digitale Kompositbilder zu erzeugen (beispielsweise als Teil eines von-einfach-zu-schwer Datenaugmentierungsschemas) basierend auf Vordergrundbildern, die einen relativ komplexen Hintergrund haben.
Weitere Einzelheiten hinsichtlich des Bildkompositionssystems werden nun in Bezug auf die Figuren bereitgestellt. Zum Beispiel zeigt 1 ein schematisches Diagramm einer beispielhaften Systemumgebung („Umgebung“) 100, in der ein Bildkompositionssystem 106 implementiert werden kann. Wie in 1 gezeigt, kann die Umgebung 100 einen/mehrere Server 102, ein Netzwerk 108, Client-Vorrichtungen 110a-110n und Benutzer 114a-114n beinhalten.
Obwohl die Umgebung 100 aus 1 so dargestellt ist, eine bestimmte Anzahl von Komponenten aufzuweisen, kann die Umgebung 100 jede beliebige Anzahl an zusätzlichen oder alternativen Komponenten aufweisen (beispielsweise jede beliebige Anzahl von Servern, Client-Vorrichtungen oder anderen Komponenten in Kommunikation mit dem Bildkompositionssystem 106 über das Netzwerk 108). In ähnlicher Weise sind, obwohl 1 eine bestimmte Anordnung des/der Server 102, des Netzwerks 108, der Client-Vorrichtungen 110a-110n und der Benutzer 114a-114n darstellt, verschiedene zusätzliche Anordnungen möglich.
Der/die Server 102, das Netzwerk 108 und die Client-Vorrichtungen 110a-110n können kommunikativ miteinander gekoppelt sein, entweder direkt oder indirekt (beispielsweise durch das Netzwerk 108, das im Folgenden in Bezug auf 12 ausführlicher erörtert wird). Darüber hinaus können der/die Server und die Client-Vorrichtungen 110a-110n eine Rechenvorrichtung beinhalten (einschließlich einer oder mehrerer Rechenvorrichtungen, wie genauer in Bezug auf 12 erörtert).
Wie oben erwähnt, beinhaltet die Umgebung 100 den/die Server 102. Der/die Server 102 kann/können Daten, inklusive digitalen Kompositbildern, erzeugen, speichern, empfangen und/oder übertragen. Zum Beispiel kann der / können die Server 102 ein Vordergrundbild und ein Hintergrundbild (und möglicherweise eine Segmentierungsmaske, die dem Vordergrundbild entspricht) von einer Client-Vorrichtung empfangen (beispielsweise einer der Client-Vorrichtungen 110a-110n) und ein digitales Kompositbild zurück zur Client-Vorrichtung zu übertragen. In einer oder in mehreren Ausführungsformen umfasst der / umfassen die Server 102 einen Datenserver. Der/die Server 102 kann/können auch einen Kommunikationsserver oder einen Webhosting-Server umfassen.
Wie in 1 gezeigt, kann der / können die Server 102 ein Bildbearbeitungssystem 104 beinhalten. Insbesondere kann das Bildbearbeitungssystem 104 eine Funktionalität bereitstellen, mit der ein Benutzer (beispielsweise ein beliebiger der Benutzer 114a-114n) digitale Bilder erzeugen, bearbeiten, verwalten und/oder speichern kann. Zum Beispiel kann der Benutzer 114a digitale Bilder erzeugen oder sonst auf ein oder mehrere digitale Bilder zugreifen, indem er die Client-Vorrichtung 110a verwendet. Anschließend kann der Benutzer 114a die Client-Vorrichtung 110a verwenden, um das digitale Bild / die digitalen Bilder über das Netzwerk 108 zu dem Bildbearbeitungssystem 104, das auf dem Server / den Servern 102 gehostet wird, zu schicken. Das Bildbearbeitungssystem 104 bietet dann viele Optionen, die der Benutzer 114a verwenden kann, um das digitale Bild / die digitalen Bilder zu bearbeiten, das digitale Bild / die digitalen Bilder zu speichern und anschließend nach dem digitalen Bild / den digitalen Bildern zu suchen, auf sie zuzugreifen und sie zu betrachten.
Zusätzlich beinhalten der/die Server 102 das Bildkompositionssystem 106. Insbesondere verwendet in einer oder in mehreren Ausführungsformen das Bildkompositionssystem 106 den/die Server 102, um digitale Kompositbilder zu erzeugen. Zum Beispiel kann das Bildkompositionssystem 106 den/die Server 102 verwenden, um ein digitales Kompositbild basierend auf einem Vordergrundbild, einem Hintergrundbild und einer Segmentierungsmaske, die dem Vordergrundbild entspricht, zu erzeugen, indem ein neuronales Netzwerk mit Mehrebenen-Fusion verwendet wird.
Zum Beispiel können der/die Server 102 in einer oder in mehreren Ausführungsformen ein Vordergrundbild, ein Hintergrundbild und eine Segmentierungsmaske identifizieren. Der/die Server 102 können dann einen Vordergrundencoder eines neuronalen Netzwerks mit Mehrebenen-Fusion verwenden, um eine Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske zu erzeugen. Der/die Server 102 können weiter einen Hintergrundencoder des neuronalen Netzwerks mit Mehrebenen-Fusion verwenden, um eine Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske zu erzeugen. Basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte können der/die Server 102 unter Verwendung eines Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion ein digitales Kompositbild erzeugen.
In einer oder in mehreren Ausführungsformen beinhalten die Client-Vorrichtungen 110a-110n Rechenvorrichtungen, die es Benutzern der Vorrichtungen (beispielsweise den Benutzern 114a-114n) erlauben, auf digitale Bilder zuzugreifen, sie zu bearbeiten und sie zu betrachten, inklusive digitalen Kompositbildern. Zum Beispiel können die Client-Vorrichtungen 110a-110n Smartphones, Tablets, Arbeitsplatzcomputer, Laptops oder andere elektronische Vorrichtungen umfassen. Die Client-Vorrichtungen 110a-110n können eine oder mehrere Anwendungen beinhalten (beispielsweise die Bildkompositionsanwendung 112), die es den Benutzern 114a-114n ermöglichen, auf digitale Bilder, inklusive digitaler Kompositbilder, zuzugreifen, sie zu bearbeiten und sie zu betrachten. Zum Beispiel kann die Bildkompositionsanwendung 112 eine Softwareanwendung beinalten, die auf den Client-Vorrichtungen 110a-110n installiert ist. Zusätzlich oder alternativ dazu kann die Bildkompositionsanwendung 112 eine Softwareanwendung beinhalten, die auf dem/den Servern 102 gehostet ist, und auf die von den Client-Vorrichtungen 110a-110n aus durch eine weitere Anwendung, wie etwa einem Webbrowser, zugegriffen werden kann.
Das Bildkompositionssystem 106 kann im Ganzen oder teilweise durch die einzelnen Elemente der Umgebung 100 implementiert werden. In der Tat können verschiedene Komponenten des Bildkompositionssystems 106 in jeder beliebigen der Komponenten der Umgebung 100 implementiert werden, auch wenn 1 das Bildkompositionssystem 106 im Hinblick auf den/die Server 102 implementiert darstellt. Insbesondere kann ein Teil des oder das ganze Bildkompositionssystem 106 von einer Client-Vorrichtung implementiert werden. Die Komponenten des Bildkompositionssystems 106 werden weiter unten im Hinblick auf 10 genauer beschrieben.
Wie oben erwähnt, kann das Bildkompositionssystem 106 digitale Kompositbilder erzeugen. 2 zeigt ein Blockdiagramm, in der das Bildkompositionssystem 106 ein digitales Kompositbild 212 erzeugt, in Übereinstimmung mit einer oder mehreren Ausführungsformen. Wie in 2 dargestellt, identifiziert das Bildkompositionssystem 106 ein Vordergrundbild 202 und ein Hintergrundbild 206. In einer oder in mehreren Ausführungsformen identifiziert das Bildkompositionssystem 106 das Vordergrundbild 202 und das Hintergrundbild 206, indem es das Vordergrundbild 202 und das Hintergrundbild 206 von einer externen Quelle erhält, wie etwa ein Drittsystem oder eine Client-Vorrichtung. In manchen Ausführungsformen identifiziert das Bildkompositionssystem 106 das Vordergrundbild 202 und das Hintergrundbild 206 aus einer Datenbank, die digitale Bilder speichert.
Wie in 2 gezeigt, zeigt das Vordergrundbild 202 ein Vordergrundobjekt 204 (d.h. eine Person) vor einem Hintergrund. Obwohl das Vordergrundbild 202 ein Vordergrundobjekt zeigt, kann das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen Vordergrundbilder identifizieren, die mehrere Vordergrundobjekte vor einem Hintergrund zeigen. Weiter zeigt das Hintergrundbild 206, wie in 2 gezeigt, eine Szene 208 (d.h. eine Szene, die als Hintergrund verwendbar ist).
Wie in 2 gezeigt, verwendet das Bildkompositionssystem 106 ein neuronales Netzwerk 210 mit Mehrebenen-Fusion, um das Vordergrundbild 202 und das Hintergrundbild 206 zu analysieren. In einer oder in mehreren Ausführungsformen beinhaltet das neuronale Netzwerk 210 mit Mehrebenen-Fusion eine Zwei-Strom Encoder neuronale Netzwerk-Architektur zum getrennten Analysieren des Vordergrundbilds 202 und des Hintergrundbilds 206. Die Architektur des neuronalen Netzwerks 210 mit Mehrebenen-Fusion wird im Folgenden hinsichtlich 3 bis 4 ausführlicher besprochen.
Wie in 2 gezeigt, erzeugt das Bildkompositionssystem 106 das digitale Kompositbild 212 basierend auf der Analyse des Vordergrundbilds 202 und des Hintergrundbilds 206 durch das neuronale Netzwerk 210 mit Mehrebenen-Fusion. Insbesondere zeigt das digitale Kompositbild 212 das Vordergrundobjekt 204 aus dem Vordergrundbild 202 über der Szene 208 aus dem Hintergrundbild 206 positioniert.
Es sei darauf hingewiesen, dass das Bildkompositionssystem 106 Hintergrundbilder identifizieren kann, die eine Szene haben, welche ein oder mehrere hervorstechende Vordergrundobjekte darstellt, obwohl die Szene 208 des Hintergrundbilds 206 kein hervorstechendes (d.h. erkennbares) Vordergrundobjekt zeigt. Tatsächlich kann das Bildkompositionssystem 106 in manchen Ausführungsformen eine Vielfalt an digitalen Bildern als ein Hintergrundbild identifizieren. Als ein Ergebnis des Identifizierens eines bestimmten digitalen Bilds als ein digitales Hintergrundbild kann das resultierende digitale Kompositbild ein Vordergrundobjekt vor der Szene zeigen, die vom Hintergrundbild gezeigt wird, unabhängig davon, ob die Szene schon ein oder mehrere Vordergrundobjekte darstellt oder nicht. Weiter sei bemerkt, dass eine oder mehrere Ausführungsformen des Bildkompositionssystems 106 digitale Kompositbilder erzeugen können, die eine Vielzahl von Objekten als ein Vordergrundbild zeigen, auch wenn im Folgenden das Bildkompositionssystem 106 diskutiert wird, das die Bildkomposition im Kontext von Porträts durchführt, bei denen eine Person als das Vordergrundobjekt gezeigt wird.
Wie oben erwähnt, kann das Bildkompositionssystem 106 ein neuronales Netzwerk mit Mehrebenen-Fusion verwenden, um aus einem Vordergrundbild und einem Hintergrundbild ein digitales Kompositbild zu erzeugen. 3 zeigt ein schematisches Diagramm eines neuronalen Netzwerks 300 mit Mehrebenen-Fusion, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
Wie in 3 gezeigt, beinhaltet das neuronale Netzwerk 300 mit Mehrebenen-Fusion eine Zwei-Strom Encoder-Architektur. Indem die Zwei-Strom Encoder-Architektur verwendet wird, kann das neuronale Netzwerk 300 mit Mehrebenen-Fusion Vordergrundbilder und Hintergrundbilder separat analysieren. Insbesondere beinhaltet das neuronale Netzwerk 300 mit Mehrebenen-Fusion, wie in 3 gezeigt, einen Vordergrundencoder 302, um Vordergrundbilder zu analysieren, und einen Hintergrundencoder 304, um Hintergrundbilder zu analysieren.
Wie in 3 gezeigt, beinhaltet das neuronale Netzwerk 300 mit Mehrebenen-Fusion weiter einen Decoder 306 und Skip Links 308a-308f. Der Decoder 306 kann digitale Kompositbilder basierend auf der Analyse sowohl des Vordergrundencoders 302 als auch des Hintergrundencoders 304 erzeugen (d.h. basierend auf Merkmalskarten, die von den Vordergrund- und Hintergrundencodern 302, 304 erzeugt wurden). In einer oder in mehreren Ausführungsformen stellt jeder der Skip Links 308a-308f einer bestimmten Ebene des Decoders 306 eine Merkmalskarte bereit, die von einer bestimmten Ebene entweder des Vordergrundencoders 302 oder des Hintergrundencoders 304 erzeugt wurde (d.h. eine Ebenen-spezifische Merkmalskarte). In einer oder in mehreren Ausführungsformen stellt einer oder mehrere der Skip Links 308a-308c eine Ebenen-spezifische Merkmalskarte von einer neuronalen Netzwerkebene des Vordergrundencoders 302 bereit, welche sich auf der gleichen Encoderebene wie eine neuronale Netzwerkebene des Hintergrundencoders 304 befindet, von der einer der Skip Links 308d-308f eine Ebenen-spezifische Merkmalskarte bereitstellt. In manchen Ausführungsformen stellen die Skip Links 308a-308c jedoch merkmalsebenen-spezifische Merkmalskarten bereit, die von neuronalen Netzwerkebenen des Vordergrundencoders 302 erzeugt wurden, die sich auf einer anderen Encoderebene befinden. Zusätzlich kann das neuronale Netzwerk 300 mit Mehrebenen-Fusion in manchen Ausführungsformen mehr oder weniger Skip Links beinhalten, auch wenn 3 das neuronale Netzwerk 300 mit Mehrebenen-Fusion als eine bestimmte Anzahl an Skip Links habend darstellt.
Wie in 3 gezeigt, erhält das neuronale Netzwerk 300 mit Mehrebenen-Fusion ein Vordergrundbild 310 und ein Hintergrundbild 312 als Eingabe. Weiter erhält, oder optional erzeugt, das neuronale Netzwerk 300 mit Mehrebenen-Fusion eine Segmentierungsmaske 314 und eine invertierte Segmentierungsmaske 316, die dem Vordergrundbild 310 entsprechen. In einer oder in mehreren Ausführungsformen erhält das neuronale Netzwerk 300 mit Mehrebenen-Fusion eine Eingabe als eine Aneinanderreihung zwischen einem digitalen Bild und einer korrespondierenden Maske. Zum Beispiel erhält das neuronale Netzwerk 300 mit Mehrebenen-Fusion, wie in 3 gezeigt, am Vordergrundencoder 302 eine Aneinanderreihung des Vordergrundbilds 310 und der Segmentierungsmaske 314. In ähnlicher Weise erhält das neuronale Netzwerk 300 mit Mehrebenen-Fusion am Hintergrundencoder 304 eine Aneinanderreihung des Hintergrundbilds 312 und der invertierten Segmentierungsmaske 316.
Das neuronale Netzwerk 300 mit Mehrebenen-Fusion kann den Vordergrundencoder 302 verwenden, um eine Vordergrundmerkmalskarte basierend auf dem Vordergrundbild 310 und der Segmentierungsmaske 314 zu erzeugen. Das neuronale Netzwerk 300 mit Mehrebenen-Fusion kann weiter den Hintergrundencoder 304 verwenden, um eine Hintergrundmerkmalskarte zu erzeugen (nicht gezeigt) basierend auf dem Hintergrundbild 312 und der invertierten Segmentierungsmaske 316.
In einer oder mehrerer Ausführungsformen stellt das neuronale Netzwerk 300 mit Mehrebenen-Fusion die Vordergrundmerkmalskarte und die Hintergrundmerkmalskarte, die von dem Vordergrundencoder 302 bzw. dem Hintergrundencoder 304 erzeugt wurden, dem Decoder 306 zur Verfügung. Zum Beispiel kann das neuronale Netzwerk 300 mit Mehrebenen-Fusion die Vordergrundmerkmalskarte und die Hintergrundmerkmalskarte kombinieren (beispielsweise über Aneinanderreihung) und die kombinierte Merkmalskarte dem Decoder 306 zur Verfügung stellen. Das neuronale Netzwerk 300 mit Mehrebenen-Fusion kann dann den Decoder 306 verwenden, um das digitale Kompositbild 318 basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte zu erzeugen. Wie in 3 gezeigt, stellt das neuronale Netzwerk 300 mit Mehrebenen-Fusion in manchen Ausführungsformen weiter Ebenen-spezifische Merkmalskarten von dem Vordergrundencoder 302 und dem Hintergrundencoder 304 dem Decoder 306 (d.h. zu bestimmten Ebenen des Decoders 306) zur Verfügung unter Verwendung der Skip Links 308a-308f. Dementsprechend kann der Decoder 306 das digitale Bild weiter basierend auf den Ebenen-spezifischen Merkmalskarten erzeugen.
Durch Benutzen eines neuronalen Netzwerks mit Mehrebenen-Fusion kann das Bildkompositionssystem 106 genauer als herkömmliche Systeme arbeiten. Tatsächlich verbessert das Bildkompositionssystem 106 den Realismus, mit welchem Vordergrundobjekte vor Hintergründen dargestellt sind, da das neuronale Netzwerk mit Mehrebenen-Fusion eines natürlicheren Blendings an der Grenze des Vordergrundobjekts bietet und Artefakte entfernt, die durch Farbkontamination, Aliasing und Ungenauigkeiten der Segmentierungsmaske verursacht werden. Wie unten in Hinsicht auf 7 bis 9 genauer beschrieben, verbessert das Bildkompositionssystem 106 die Qualität des resultierenden digitalen Kompositbilds in mehreren Metriken.
In einer oder in mehreren Ausführungsformen beinhalten der Vordergrundencoder und der Hintergrundencoder des neuronalen Netzwerks mit Mehrebenen-Fusion jeweils eine Mehrzahl an neuronalen Netzwerkebenen. Weiter beinhaltet in manchen Ausführungsformen der Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion eine Mehrzahl an neuronalen Netzwerkebenen. 4 zeigt mehrere Tabellen, welche die neuronalen Netzwerkebenen beinhalten, die in dem Vordergrundencoder, dem Hintergrundencoder und dem Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion enthalten sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
Wie in der Tabelle 402 und der Tabelle 404 in 4 gezeigt, beinhalten in einer oder in mehreren Ausführungsformen sowohl der Vordergrundencoder (bezeichnet als „FGE“) und der Hintergrundencoder (bezeichnet als „BGE“) des neuronalen Netzwerks die gleiche Encoder-Architektur. Insbesondere können der Vordergrundencoder und der Hintergrundencoder die gleiche Anzahl an neuronalen Netzwerkebenen und dieselbe Art von neuronaler Netzwerkebene bei jeder Encoderebene beinhalten. In einer oder in mehreren Ausführungsformen beinhalten der Vordergrundencoder und der Hintergrundencoder jedoch unterschiedliche Encoder-Architekturen (d.h. eine andere Anzahl an neuronalen Netzwerkebenen und/oder eine andere neuronale Netzwerkebene bei einer oder mehreren Encoderebenen).
Wie in der Tabelle 406 in 4 gezeigt, beinhaltet der Decoder des neuronalen Netzwerks mit Mehrebenfusion in einer oder in mehreren Ausführungsformen eine Mehrzahl von neuronalen Netzwerkebenen, inklusive mehrere neuronale Netzwerkebenen, die Aneinanderreihungsverfahren ausführen (d.h. „D-Concat1“, „D-Concat2“ und „D-Concat3“). Jede dieser neuronalen Netzwerkebenen hängt an die Ausgabe der vorhergehenden neuronalen Netzwerkebene (oder an die Vordergrund- und Hintergrundmerkmalskarten, die von den Vordergrund- bzw. Hintergrundencodern ausgegeben werden) Ebenen-spezifische Merkmalskarten an, die von den Vordergrund- und Hintergrundencodern über Skip Links bereitgestellt werden (wie oben mit Bezug auf 3 diskutiert). Zum Beispiel hängt die neuronale Netzwerkebene des Decoders mit der Bezeichnung „D-Concat1“ an die Vordergrundmerkmalskarte und die Hintergrundmerkmalskarte die Ebenen-spezifischen Merkmalskarten an, die von neuronalen Netzwerkebenen mit den Bezeichnungen „FGE-TD2“ und „BGE-TD2“ erzeugt wurden. In ähnlicher Weise hängt die neuronale Netzwerkebene des Decoders mit der Bezeichnung „D-Concat2“ an die Ausgabe der „D-Non-local“-Ebene die Ebenen-spezifischen Merkmalskarten an, die von den neuronalen Netzwerkebenen „FGE-TD1“ und „BGE-TD1“ des Vordergrundencoders bzw. des Hintergrundencoders erzeugt wurden. Weiter hängt die „D-Concat3“-Ebene des Decoders an die Ausgabe der „D-Dense2 (12)“-Ebene die Ebenen-spezifischen Merkmalskarten an, die von den neuronalen Netzwerkebenen „FGE-Conv1-BN-Relu“ und „BGE Conv1-BN-Reul“ des Vordergrundencoders bzw. des Hintergrundencoders erzeugt wurden. Wie oben erwähnt, kann das neuronale Netzwerk mit Mehrebenen-Fusion jedoch mehr oder weniger Skip Links als die im Hinblick auf 3 bis 4 diskutierten beinhalten. Weiter kann das neuronale Netzwerk mit Mehrebenen-Fusion in einer oder in mehreren Ausführungsformen Skip Links verwenden, um Ebenen-spezifische Merkmalskarten von verschiedenen Neuronales Netzwerkebenen der Vordergrund- und Hintergrundencoder und/ oder an verschiedenen neuronalen Netzwerkebenen des Decoders bereitzustellen.
Demnach identifiziert das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen ein Vordergrundbild, ein Hintergrundbild und eine Segmentierungsmaske, die dem Vordergrundbild entspricht. Das Bildkompositionssystem 106 kann dann unter Verwendung eines neuronalen Netzwerks mit Mehrebenen-Fusion ein digitales Kompositbild basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske, die dem Vordergrundbild entspricht, erzeugen. Die Algorithmen und Aktionen, die im Hinblick auf 3 bis 4 beschrieben sind, können die korrespondierende Struktur zum Ausführen eines Schrittes zum Erzeugen eines digitalen Kompositbilds unter Verwendung eines neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf einem Vordergrundbild, einem Hintergrundbild und einer Segmentierungsmaske umfassen. Zusätzlich können die im Hinblick auf 3 bis 4 beschriebenen Neuronales-Netzwerk-Architekturen mit Mehrebenen-Fusion die korrespondierende Struktur zum Ausführen eines Schritts zur Erzeugung eines digitalen Kompositbilds unter Verwendung eines neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf einem Vordergrundbild, einem Hintergrundbild und einer Segmentierungsmaske umfassen.
Wie oben erwähnt, implementiert das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen das neuronale Netzwerk mit Mehrebenen-Fusion innerhalb eines Rahmenwerks, das eine Ende-zu-Ende Bildkomposition ermöglicht. Tatsächlich identifiziert das Bildkompositionssystem 106, wie oben erwähnt, in einer oder in mehreren Ausführungsformen eine Segmentierungsmaske, die einem Vordergrundbild entspricht, und verwendet die Segmentierungsmaske zusätzlich zu dem Vordergrundbild und einem Hintergrundbild beim Erzeugen eines digitalen Kompositbilds. Dementsprechend erzeugt das Bildkompositionssystem in einer oder in mehreren Ausführungsformen die Segmentierungsmaske, die dem Vordergrundbild entspricht. 5 zeigt ein Blockdiagramm zum Erzeugen einer Segmentierungsmaske, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
Wie in 5 gezeigt, stellt das Bildkompositionssystem einem Vordergrundsegmentierungs-neuronalen Netzwerk 504 ein Vordergrundbild 502 zur Verfügung (d.h. ein digitales Bild, das von einem neuronalen Netzwerk mit Mehrebenen-Fusion als Vordergrundbild verwendet werden wird, um ein digitales Kompositbild zu erzeugen). In einer oder in mehreren Ausführungsformen beinhaltet das Vordergrundsegmentierungs-neuronale Netzwerk 504 ein Modell (beispielsweise ein neuronales Netzwerk), das zuvor trainiert wurde, Segmentierungsmasken zu erzeugen. In einer oder in mehreren Ausführungsformen trainiert das Bildkompositionssystem 106 das Vordergrundsegmentierungs-neuronale Netzwerk 504, Segmentierungsmasken zu erzeugen. In manchen Ausführungsformen trainiert jedoch ein Drittsystem das Vordergrundsegmentierungs-neuronale Netzwerk 504, Segmentierungsmasken zu erzeugen.
Das Bildkompositionssystem 106 verwendet das Vordergrundsegmentierungs-neuronale Netzwerk 504, um eine rohe Segmentierungsmaske 506 basierend auf dem Vordergrundbild 502 zu erzeugen. Wie in 5 gesehen werden kann, beinhaltet die rohe Segmentierungsmaske 506 zwei separate Teile - ein Vordergrundobjekt 508 und einen Hintergrund 510 - korrespondierend mit zwei Teilen, die aus dem Vordergrundbild 502 durch das Vordergrundsegmentierungs-neuronale Netzwerk 504 identifiziert wurden. Wie weiter in 5 ersichtlich, ist die Grenze zwischen dem Vordergrundobjekt 508 und dem Hintergrund 510 nicht klar definiert (d.h. die Grenze hat eine gewisse Unschärfe). Tatsächlich erzeugt das Vordergrundsegmentieruns-neuronale Netzwerk 504 in einer oder in mehreren Ausführungsformen Segmentierungsmasken, die nicht klar die Grenze zwischen dem Vordergrundobjekt und dem Hintergrund beschreiben. Zum Beispiel verarbeitet das Vordergrundsegmentierungs-neuronale Netzwerk 504 in manchen Ausführungsformen Vordergrundbilder bei niedriger Auflösung, was zu Segmentierungsmasken führt, die unter Hochsampelartefakten leiden, wie etwa gezackte Grenzen. In manchen Ausführungsformen kann das Vordergrundsegmentierungs-neuronale Netzwerk 504 jedoch Segmentierungsmasken mit einer klar definierten Grenze zwischen dem Vordergrundobjekt und dem Hintergrund erzeugen.
Wie in 5 gezeigt, stellt das Bildkompositionssystem 106 dann die rohe Segmentierungsmaske 506 einem Maskenverfeinerungs-neuronalen Netzwerk 512 zur Verfügung. In einer oder in mehreren Ausführungsformen beinhaltet das Maskenverfeinerungs-neuronale Netzwerk 512 ein Modell (beispielsweise ein neuronales Netzwerk), das vorher trainiert wurde, Segmentierungsmasken zu modifizieren (beispielsweise verfeinern). In einer oder in mehreren Ausführungsformen trainiert das Bildkompositionssystem 106 das Maskenverfeinerungs-neuronale Netzwerk 512, Segmentierungsmasken zu modifizieren. Zum Beispiel kann das Bildkompositionssystem 106 das Maskenverfeinerungs-neuronale Netzwerk 512 trainieren, indem es Beispielbildflecken verschiedener Größen verwendet, sodass das Maskenverfeinerungs-neuronale Netzwerk 512 lernt, sich auf verschiedene Ebenen lokaler Details zu konzentrieren. Tatsächlich kann das Bildkompositionssystem 106 die abgetasteten Flecken und eine vorberechnete Segmentierungsmaske (beispielsweise erzeugt durch das Vordergrundsegmentierungs-neuronale Netzwerk 504) dem Maskenverfeinerungs-neuronalen Netzwerk 512 zur Verfügung stellen und dann einen bestimmten Verlust nutzen, um seine Parameter zu modifizieren. In manchen Ausführungsformen trainiert jedoch ein Drittsystem das Maskenverfeinerungs-neuronale Netzwerk 512, Segmentierungsmasken zu modifizieren.
In einer oder in mehreren Ausführungsformen hat das Maskenverfeinerungs-neuronale Netzwerk 512 eine ähnliche Architektur wie das Vordergrundsegmentierungs-neuronale Netzwerk 504, mit der Ausnahme, dass das Maskenverfeinerungs-neuronale Netzwerk 512 ein Vierkanal-RGB-A Digitalbild als Eingabe nimmt, wobei der vierte Kanal eine rohe Segmentierungsmaske (beispielsweise die rohe Segmentierungsmaske 506) enthält. Weiter trainiert das Bildkompositionssystem 106 in manchen Ausführungsformen das Maskenverfeinerungs-neuronale Netzwerk 512 unter Verwendung derselben Trainingsdaten und derselben Verlustfunktion, die zum Trainieren des Vordergrundsegmentierungs-neuronalen Netzwerks 504 verwendet wurden. Zum Beispiel trainiert das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen das Vordergrundsegmentierungs-neuronale Netzwerk 504 und das Maskenverfeinerungs-neuronale Netzwerk 512 unter Verwendung derselben Kreuzentropie- V erl ustfu nktion.
Wie in 5 gezeigt, verwendet das Bildkompositionssystem 106 das Maskenverfeinerungs-neuronale Netzwerk 512, um die rohe Segmentierungsmaske 506 zu modifizieren. Tatsächlich erzeugt das Maskenverfeinerungs-neuronale Netzwerk 512 eine modifizierte Segmentierungsmaske 514 basierend auf der rohen Segmentierungsmaske 506. Wie in 5 ersichtlich, beinhaltet die modifizierte Segmentierungsmaske 514 eine klarer definierte Grenze zwischen dem Vordergrundobjekt 516 und dem Hintergrund 518 im Vergleich zu der rohen Segmentierungsmaske 506.
Das Bildkompositionssystem 106 kann die modifizierte Segmentierungsmaske 514 zusammen mit dem korrespondierenden Vordergrundbild und Hintergrundbild einem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung stellen, um ein digitales Kompositbild zu erzeugen. In einer oder in mehreren Ausführungsformen stellt das Bildkompositionssystem 106 die rohe Segmentierungsmaske 506 dem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung, um das digitale Kompositbild zu erzeugen. In manchen Ausführungsformen empfängt das Bildkompositionssystem 106 eine Segmentierungsmaske (d.h. eine rohe Segmentierungsmaske oder eine modifizierte Segmentierungsmaske), die beim Erzeugen eines digitalen Kompositbilds verwendet wird, oder greift anderweitig auf sie zu, anstatt sie zu erzeugen. Zum Beispiel kann das Bildkompositionssystem 106 eine Segmentierungsmaske von einer Benutzervorrichtung oder einem Drittsystem empfangen. Das Bildkompositionssystem 106 kann auch auf eine Segmentierungsmaske aus einer Datenbank oder einem anderen Speicher zugreifen.
In einer oder in mehreren Ausführungsformen erzeugt das Bildkompositionssystem 106 weiter eine invertierte Segmentierungsmaske basierend auf der rohen Segmentierungsmaske 506 oder der modifizierten Segmentierungsmaske 514 (welche auch immer dem neuronalen Netzwerk mit Mehrebenen-Fusion zur Verfügung wird). Das Bildkompositionssystem 106 kann dann die invertierte Segmentierungsmaske dem neuronalen Netzwerk mit Mehrebenen-Fusion zum Erzeugen des digitalen Kompositbilds zur Verfügung stellen.
Demnach implementiert das Bildkompositionssystem 106 ein neuronales Netzwerk mit Mehrebenen-Fusion innerhalb eines Rahmenwerks, das durch die Einbindung eines Vordergrundsegmentierungs-neuronalen Netzwerks innerhalb des Rahmenwerks eine Ende-zu-Ende-Bildkomposition ermöglicht. Zusätzlich kann das Bildkompositionssystem 106 ein Maskenverfeinerungs-neuronales Netzwerk innerhalb des Rahmenwerks inkorporieren. Tatsächlich führt eine qualitativ hochwertigere Segmentierungsmaske in einer oder in mehreren Ausführungsformen zu einem qualitativ hochwertigerem digitalen Kompositbild. Dementsprechend kann das Bildkompositionssystem 106 das Rahmenwerk verwenden, um ein Vordergrundbild und ein Hintergrundbild zu identifizieren, eine Segmentierungsmaske zu erzeugen, die dem Vordergrundbild entspricht, und dann ein digitales Kompositbild basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske zu erzeugen.
In einer oder in mehreren Ausführungsformen trainiert das Bildkompositionssystem 106 die Komponenten des Ende-zu-Ende-Rahmenwerks (d.h. das Vordergrundsegmentierungs-neuronale Netzwerk, das Maskenverfeinerungs-neuronale Netzwerk und das neuronale Netzwerk mit Mehrebenen-Fusion) zusammen. In manchen Ausführungsformen trainiert das Bildkompositionssystem 106 jedoch jede Komponente einzeln. Wie oben erwähnt, kann das Bildkompositionssystem 106 auch auf ein Drittsystem zum Trainieren des Vordergrundsegmentierungs-neuronalen Netzwerks und/oder des Maskenverfeinerungs-neuronalen Netzwerks zurückgreifen.
Durch Verwenden eines Rahmenwerks, das eine Ende-zu-Ende Bildkomposition ermöglicht, arbeitet das Bildkompositionssystem 106 flexibler als herkömmliche Systeme. Tatsächlich verbessert das Bildkompositionssystem 106 die Automatisierung des Bildkompositionsprozesses. Folglich kann das Bildkompositionssystem 106 digitale Kompositbilder ohne die Anleitung durch manuelle Benutzereingaben erzeugen, auf die sich viele herkömmliche Systeme verlassen.
Wie oben erwähnt, kann das Bildkompositionssystem 106 ein von-einfach-zu-schwer Datenaugmentierungsschema verwenden, um ein neuronales Netzwerk mit Mehrebenen-Fusion zu trainieren, digitale Kompositbilder zu erzeugen. Weiter kann das Bildkompositionssystem 106 das Training in einem Selbstlernansatz implementieren. 6A bis 6C zeigen ein Blockdiagramm der Verwendung eines von-einfach-zu-schwer Datenaugmentierungsschemas, um ein neuronales Netzwerk mit Mehrebenen-Fusion durch Selbstlernen zu trainieren, digitale Kompositbilder zu erzeugen, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
Insbesondere zeigt 6A ein Blockdiagramm des Bildkompositionssystems 106, in dem ein neuronales Netzwerk 616 mit Mehrebenen-Fusion trainiert wird, digitale Kompositbilder basierend auf einfachen Vordergrundbildern zu erzeugen in Übereinstimmung mit einer oder mehreren Ausführungsformen. Wie in 6A gezeigt, implementiert das Bildkompositionssystem 106 das Training, indem es ein einfaches Trainingsvordergrundbild 604 dem neuronalen Netzwerk 616 mit Mehrebenen-Fusion zur Verfügung stellt. Das einfache Vordergrundbild 604 zeigt ein Vordergrundobjekt 610 vor einem reinen Farbhintergrund 612. In einer oder in mehreren Ausführungsformen erzeugt das Bildkompositionssystem 106 das einfache Trainingsvordergrundbild durch Zusammensetzen eines Mattierungsbilds (d.h. es enthält das Vordergrundobjekt 610) aus einem Mattierungsdatensatz mit dem reinen Farbhintergrund 612 unter Verwendung eines Alphakanals des Mattierungsbilds.
Wie in 6A gezeigt, stellt das Bildkompositionssystem 106 weiter ein Trainingshintergrundbild 606 dem neuronalen Netzwerk 616 mit Mehrebenen-Fusion zur Verfügung. Das Trainingshintergrundbild 606 zeigt eine Szene 614, die als ein Hintergrund des resultierenden prädizierten digitalen Kompositbilds verwendet werden soll. In einer oder in mehreren Ausführungsformen ruft das Bildkompositionssystem 106 das Trainingshintergrundbild 606 aus einer Datenbank digitaler Bilder ab. Zum Beispiel kann das Bildkompositionssystem 106 ein digitales Bild aus dem Internet abrufen und das abgerufene digitale Bild als das Trainingshintergrundbild 606 verwenden.
Wie in 6A gezeigt, stellt das Bildkompositionssystem 106 weiter eine Trainingssegmentierungsmaske 602 und eine invertierte Trainingssegmentierungsmaske 608, die dem einfachen Trainingsvordergrundbild 604 entsprechen, dem neuronalen Netzwerk 616 mit Mehrebenen-Fusion zur Verfügung. In einer oder in mehreren Ausführungsformen erzeugt das Bildkompositionssystem 106 die Trainingssegmentierungsmaske 602 und die invertierte Trainingssegmentierungsmaske 608 basierend auf dem einfachen Trainingsvordergrundbild 604. In manchen Ausführungsformen ruft das Bildkompositionssystem 106 jedoch die Trainingssegmentierungsmaske 602 und/oder die invertierte Trainingssegmentierungsmaske 608 über ein Drittsystem ab oder greift anderweitig darauf zu.
Das Bildkompositionssystem 106 verwendet das neuronale Netzwerk 616 mit Mehrebenen-Fusion, um ein prädiziertes digitales Kompositbild 618 basierend auf dem einfachen Trainingsvordergrundbild 604, dem Trainingshintergrundbild 606, der Trainingssegmentierungsmaske 602 und der invertierten Trainingssegmentierungsmaske 608 zu erzeugen. In einer oder in mehreren Ausführungsformen erzeugt das neuronale Netzwerk 616 mit Mehrebenen-Fusion das prädizierte digitale Kompositbild 618, wie oben im Hinblick auf 3 bis 4 diskutiert. Das Bildkompositionssystem 106 verwendet dann die Verlustfunktion 620, um den Verlust (d.h. den Fehler) zu bestimmen, der sich aus dem neuronalen Netzwerk mit Mehrebenen-Fusion ergibt, basierend auf einem Vergleich zwischen dem prädizierten digitalen Kompositbild 618 und einem digitalen Zielkompositbild 622. In einer oder in mehreren Ausführungsformen erzeugt das Bildkompositionssystem 106 das digitale Zielkompositbild 622 unter Verwendung desselben Alphakanals des Mattierungsbilds, der zur Erzeugung des einfachen Trainingsvordergrundbilds 604 verwendet wurde (beispielsweise der Alphakanal, der zur Komposition des Vordergrundobjekts 610 mit dem reinen Farbhintergrund 612 verwendet wurde).
In einer oder in mehreren Ausführungsformen beinhaltet die Verlustfunktion 620 mehrere verschiedene Verluste. Tatsächlich kann das Bildkompositionssystem 106 den Verlust bestimmen, der sich aus dem neuronalen Netzwerk 616 mit Mehrebenen-Fusion ergibt, indem es mehrere verschiedene Verluste bestimmt und dann diese Verluste kombiniert. Zum Beispiel bestimmt in einer oder in mehreren Ausführungsformen das Bildkompositionssystem 106 den Verlust, der sich aus dem neuronalen Netzwerk 616 mit Mehrebenen-Fusion ergibt, durch Vergleichen des prädizierten digitalen Kompositbilds 618 mit dem digitalen Zielkompositbild 622, um einen L1-Verlust und einen Wahrnehmungsverlust bzw. ein „perceptual loss“ zu bestimmen. Das Bildkompositionssystem 106 kann dann den L1-Verlust und den Wahrnehmungsverlust kombinieren, um einen kombinierten Verlust wie folgt zu bestimmen: $L_{a l l} = L_{1} + λ_{P} L_{P}$
In Gleichung 1 repräsentiert λ_P eine Gewichtung, die auf den Wahrnehmungsverlust L_P angewendet wird. In einer oder in mehreren Ausführungsformen gewichtet das Bildkompositionssystem 106 den L1-Verlust und den Wahrnehmungsverlust gleich. In manchen Ausführungsformen wendet das Bildkompositionssystem 106 jedoch eine relativ höhere oder niedrigere Gewichtung auf den Wahrnehmungsverlust an.
In einer oder in mehreren Ausführungsformen bestimmt das Bildkompositionssystem 106 den Wahrnehmungsverlust, indem es ein vortrainiertes visuelle-Geometriegruppe (VGG) -neuronales Netzwerk verwendet, um einen Merkmalsvektor sowohl für das prädizierte digitale Kompositbild 618 als auch für das digitale Zielkompositbild 622 zu extrahieren. Das Bildkompositionssystem 106 vergleicht dann die Merkmalsvektoren, um den Wahrnehmungsverlust zu bestimmen. In einer oder in mehreren Ausführungsformen bestimmt das Bildkompositionssystem 106 den Wahrnehmungsverlust wie in J. Johnson et al., Perceptual Losses for Real-Time Style Transfer and Super-Resolution, https://arxiv.org/abs/1603.08155 beschrieben, das hier durch Verweis in seiner Gesamtheit einbezogen ist. In einer oder in mehreren Ausführungsformen wertet das Bildkompositionssystem den Wahrnehmungsverlust auf den relu 1-1 und relu 2-1 Ebenen des VGG-neuronalen Netzwerks aus.
Wie in 6A gezeigt, propagiert das Bildkompositionssystem 106 dann den bestimmten Verlust zurück auf das neuronale Netzwerk 616 mit Mehrebenen-Fusion (wie durch die gestrichelte Linie 624 angezeigt), um seine Parameter zu ändern. Folglich erhöht das Bildkompositionssystem 106 mit jeder Iteration des Trainings nach und nach die Genauigkeit, mit der das neuronale Netzwerk 616 mit Mehrebenen-Fusion digitale Kompositbilder basierend auf einfachen Vordergrundbildern erzeugen kann. Wie gezeigt, kann das Bildkompositionssystem 106 somit das semi-trainierte neuronale Netzwerk 626 mit Mehrebenen-Fusion erzeugen.
6B zeigt ein Blockdiagramm des Bildkompositionssystems 106, das ein neuronales Netzwerk 640 mit Mehrebenen-Fusion 640 verwendet (d.h. das semi-trainierte neuronale Netzwerk 626 mit Mehrebenen-Fusion aus 6A), um ein schweres Trainings-Triplett 648 zum weiteren Trainieren des neuronalen Netzwerks 640 mit Mehrebenen-Fusion zu erzeugen, in Übereinstimmung mit einer oder mehreren Ausführungsformen. Wie gezeigt, beinhaltet das schwere Trainings-Triplett 648 ein digitales Zielkompositbild 642, ein schweres Trainingsvordergrundbild 644 und ein Trainingshintergrundbild 646.
Wie in 6B gezeigt, erzeugt das Bildkompositionssystem 106 das schwere Trainings-Triplett 648 basierend auf einem einfachen Trainingsvordergrundbild 630, einem ersten Trainingshintergrundbild 632, einem zweiten Trainingshintergrundbild 634, einer Segmentierungsmaske 636, die dem einfachen Vordergrundbild 630 entspricht, und einer invertierten Segmentierungsmaske 638, die dem einfachen Vordergrundbild 630 entspricht. Insbesondere verwendet das Bildkompositionssystem 106 das neuronale Netzwerk 640 mit Mehrebenen-Fusion, um das digitale Zielkompositbild 642 basierend auf dem einfachen Trainingsvordergrundbild 630, dem ersten Trainingshintergrundbild 632, der Segmentierungsmaske 636 und der invertierten Segmentierungsmaske 638 zu erzeugen. Das Bildkompositionssystem 106 verwendet weiter das neuronale Netzwerk 640 mit Mehrebenen-Fusion, um das schwere Trainingsvordergrundbild 644 basierend auf dem einfachen Trainingsvordergrundbild 630, dem zweiten Trainingshintergrundbild 634, der Segmentierungsmaske 636 und der invertierten Segmentierungsmaske 638 zu erzeugen. In einer oder in mehreren Ausführungsformen erzeugt das neuronale Netzwerk 640 mit Mehrebenen-Fusion das digitale Zielkompositbild 642 und das schwere Trainingsvordergrundbild 644, wie oben im Hinblick auf 3 bis 4 diskutiert. Zusätzlich beinhaltet das Bildkompositionssystem 106 das erste Trainingshintergrundbild 632 in dem schweren Trainings-Triplett 648 als das Trainingshintergrundbild 646.
6C zeigt ein Blockdiagramm des Bildkompositionssystems 106, in dem das neuronale Netzwerk 640 mit Mehrebenen-Fusion (d.h. das semi-trainierte neuronale Netzwerk 626 mit Mehrebenen-Fusion aus 6A) unter Verwendung des schweren Trainings-Tripletts 648 trainiert wird, digitale Kompositbilder basierend auf schweren Vordergrundbildern zu erzeugen, in Übereinstimmung mit einer oder mehreren Ausführungsformen. Wie in 6C gezeigt, kann das Bildkompositionssystem 106 das neuronale Netzwerk 640 mit Mehrebenen-Fusion verwenden, um ein prädiziertes digitales Kompositbild 650 basierend auf dem schweren Trainingsvordergrundbild 644, dem Trainingshintergrundbild 646, der Segmentierungsmaske 636 und der invertierten Segmentierungsmaske 638 zu erzeugen. In einer oder in mehreren Ausführungsformen erzeugt das neuronale Netzwerk 640 mit Mehrebenen-Fusion das prädizierte digitale Kompositbild 650, wie oben im Hinblick auf 3 bis 4 diskutiert.
Das Bildkompositionssystem 106 verwendet dann die Verlustfunktion 652, um den Verlust zu bestimmen, der sich aus dem neuronalen Netzwerk 640 mit Mehrebenen-Fusion ergibt, basierend auf einem Vergleich zwischen dem prädizierten digitalen Kompositbild 650 und dem digitalen Zielkompositbild 642. In einer oder in mehreren Ausführungsformen verwendet das Bildkompositionssystem 106 dieselbe Verlustfunktion wie oben im Hinblick auf 6A beschrieben und in Gleichung 1 ausgedrückt.
Wie in 6C gezeigt, propagiert das Bildkompositionssystem 106 dann den bestimmten Verlust zurück zu dem neuronalen Netzwerk 640 mit Mehrebenen-Fusion (wie durch die gestrichelte Linie 654 angezeigt), um dessen Parameter zu modifizieren. Folglich erhöht das Bildkompositionssystem 106 mit jeder Iteration des Trainings allmählich die Genauigkeit, mit der das neuronale Netzwerk 640 mit Mehrebenen-Fusion digitale Kompositbilder basierend auf schweren Vordergrundbildern erzeugen kann. Wie gezeigt, kann das Bildkompositionssystem 106 somit das trainierte neuronale Netzwerk 656 mit Mehrebenen-Fusion erzeugen.
Somit kann das Bildkompositionssystem 106 einen selbstlernenden Trainingsansatz implementieren, indem es ein neuronales Netzwerk mit Mehrebenen-Fusion verwendet, um zusätzliche Trainingsbilder zu erzeugen und dann diese Trainingsbilder zu verwenden, um das neuronale Netzwerk mit Mehrebenen-Fusion weiter zu trainieren. Zusätzlich kann das Bildkompositionssystem 106 ein von-einfach-zu-schwer Datenaugmentierungsschema implementieren, indem es die Komplexität der Trainingsbilder während des Trainingsprozesses erhöht. Durch Verwenden von Selbstlernen und von-einfach-zu-schwer Datenaugmentierung arbeitet das Bildkompositionssystem 106 flexibler als herkömmliche Systeme. Insbesondere kann das Bildkompositionssystem 106 flexibel dem neuronalen Netzwerk mit Mehrebenen-Fusion extensives Training zur Verfügung stellen, selbst dort, wo die Verfügbarkeit von Trainingsbildern begrenzt ist. Somit kann das Bildkompositionssystem 106 die Trainingsbeschränkungen umgehen, die herkömmlichen Systemen aufgrund fehlender Trainingsbilder auferlegt sind.
Wie oben erwähnt, erlaubt das Verwenden eines neuronalen Netzwerks mit Mehrebenen-Fusion dem Bildkompositionssystem 106, genauer digitale Kompositbilder zu erzeugen, die ein Vordergrundobjekt aus einem digitalen Bild vor einer Szene (d.h. einem Hintergrund), die von einem anderen Bild geliefert ist, realistisch zeigen. Forscher haben Studien durchgeführt, um die Genauigkeit einer oder mehrerer Ausführungsformen des neuronalen Netzwerks mit Mehrebenen-Fusion zu bestimmen, das vom Bildkompositionssystem 106 verwendet wird. 7 bis 9 zeigen jeweils eine Tabelle, die experimentelle Ergebnissen hinsichtlich der Wirksamkeit des neuronalen Netzwerks mit Mehrebenen-Fusion wiedergibt, das vom Bildkompositionssystem verwendet wird, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
7 zeigt eine Tabelle, die experimentelle Ergebnisse wiederspiegelt, basierend auf der Leistung einer oder mehrerer Ausführungsformen des Bildkompositionssystems 106. Die Forscher haben das neuronale Netzwerk mit Mehrebenen-Fusion unter Verwendung eines synthetisierten Datensatzes mittels dem selbstlernenden von-einfach-zu-schwer Datenaugmentierungsschema trainiert, das oben mit Bezug auf 6A bis 6C beschrieben wurde, zusammen mit einem Mattingbasierten Kompositionsdatensatz. Die Forscher haben eine Optimierung mit dem Adam-Optimierungsalgorithmus durchgeführt.
Die in 7 gezeigte Tabelle vergleicht die Leistung des Bildkompositionssystems 106 mit der Leistung einer oder mehrerer typischerweise von herkömmlichen Systemen verwendeten anderen Methoden. Zum Beispiel messen die Ergebnisse auch die Leistung verschiedener traditioneller blending-basierter Kompositionsmethoden, wie etwa Feathering und Laplacian Pyramid Blending. Die Ergebnisse zeigen weiter die Leistung des mattierungs-basierten Kompositionsansatzes unter Verwendung von Mattierungsmethoden nach Stand der Technik, wie etwa Geschlossene-Form (Geschlossen), KNN und Informationsfluss (Info-fluss). Die Ergebnisse beinhalten die Leistung der Copy-and-Paste bzw. Kopieren und Einfügen Methode als Vergleichsbasis.
Die Forscher haben für jede gemessene Methode dieselbe verfeinerte Segmentierungsmaske zur Verfügung gestellt. Die Forscher haben das Vordergrundsegmentierungs-neuronale Netzwerk und das Maskenverfeinerungs-neuronale Netzwerk mit den DUTS, MSRA-10K und Porträt Segmentierungs-Datensätzen trainiert und haben die Modelle unter Verwendung des Adam-Optimierungsalgorithmus optimiert. Für die Copy-and-Paste bzw. Kopieren und Einsetzen Methode wird die verfeinerte Segmentierungsmaske als Soft-Alpha-Matte für die Komposition verwendet. Für die Feathering-Methode haben die Forscher Gaußsche Unschärfe mit σ = 2 angewendet, um die Maske zu glätten. Für das Laplacian Pyramid Blending haben die Forscher die OpenCV-Implementierung verwendet. Für die mattierungsbasierten Methoden haben die Forscher die verfeinerte Segmentierungsmaske binarisiert und haben dann eine Pseudo-Trimap erzeugt, indem sie ein schmales Band der Breite 16 als unbekannt gekennzeichnet haben.
Wie in 7 gezeigt, vergleichen die Ergebnisse die Leistung jeder Methode unter Verwendung des Spitzen-Signal-Rausch-Verhältnisses (PSNR), gemessen in dB, und der strukturellen Ähnlichkeit (SSIM). Bei beiden Metriken entspricht eine höhere Punktezahl einer qualitativ hochwertigeren Bildkomposition (d.h. höherer Genauigkeit). Wie in 7 zu sehen ist, schneidet das Bildkompositionssystem 106 mit 26,06 PSNR und 0,9291 SSIM deutlich besser ab als die anderen Modelle.
8 zeigt eine andere Tabelle, die zusätzliche experimentelle Ergebnisse wiederspiegelt, in der die Leistung des Bildkompositionssystems 106 mit der Leistung eines oder mehrerer herkömmlicher Systeme verglichen wird, die traditionelle Methoden der Bildkomposition verwenden. Insbesondere veranschaulichen die in 8 gezeigten Ergebnisse die Wahrnehmungsqualität, die jede Methode bietet, wie über eine Benutzerstudie erhoben wurde. Die Benutzerstudie umfasste vierundvierzig Teilnehmer, einschließlich Bildbearbeitungsexperten. Jedem Teilnehmer wurden zwanzig Bildsätze gezeigt, jeweils bestehend aus den Vordergrundbildern und Kompositionsergebnissen der verglichenen Methoden. Bei jedem Satz von Bildern baten die Forscher die Teilnehmer, eine Rangfolge ihrer drei favorisierten Ergebnisse zu nennen. Die in 8 gezeigten Ergebnisse geben die durchschnittliche Rangplatzierung für die verglichenen Methoden an, wobei ein niedrigerer Durchschnitt einer besseren Wahrnehmungsqualität entspricht.
Ähnlich wie bei dem in 7 dargestellten Experiment vergleichen die Ergebnisse die Leistung des Bildkompositionssystems 106 mit der Leistung von Laplacian Pyramid Blending (Lap-Pyramid), Geschlossene-Form (Geschlossen), Informations-fluss (Info-fluss) und Copy-and-Paste bzw. Kopieren und Einsetzen als Vergleichsbasis. Die Ergebnisse vergleichen weiter die Leistung des Bildkompositionssystems 106 mit der Leistung eines neuronalen Netzwerks, das eine Ein-Strom Encoder-Architektur (Einzel-Enc) besitzt.
Wie in 8 gezeigt, bietet das Bildkompositionssystem 106 mit einer Durchschnittsplatzierung von 2,84 eine gegenüber den anderen verglichenen Methoden verbesserte Wahrnehmungsqualität. Unter den zwanzig Bildsätzen belegten die digitalen Kompositbilder, die mit dem Bildkompositionssystem 106 erzeugt wurden, bei elf Bildern den ersten Platz. Im Vergleich dazu belegten sechs der digitalen Kompositbilder, die mit der zweitplatzierten Methode (der Copy-Paste Vergleichsbasis) erzeugt wurden, den ersten Platz.
9 zeigt eine nochmals weitere Tabelle, die zusätzliche experimentelle Ergebnisse wiederspiegelt, die die Leistung verschiedener Ausführungsformen des Bildkompositionssystems 106 vergleichen. Insbesondere spiegeln die Ergebnisse aus 9 mehrere Ablationsstudien wieder, in denen ein oder mehrere Merkmale des Bildkompositionssystems 106 entfernt wurden, wobei die resultierende Leistung mit einer oder mehreren Ausführungsformen verglichen wurde, in denen das Bildkompositionssystem 106 ein neuronales Netzwerk mit Mehrebenen-Fusion innerhalb eines Ende-zu-Ende-Rahmenwerks implementiert, das unter Verwendung des oben besprochenen von-einfach-zu-schwer Datenaugmentierungsschemas trainiert wurde. Konkret spiegeln die Ergebnisse die Leistung einer Ausführungsform des Bildkompositionssystems 106 wieder, die das neuronale Netzwerk mit Mehrebenen-Fusion ohne Verwendung eines von-einfach-zu-schwer Datenaugmentierungsschemas (ohne Datenaug.) trainiert, einer Ausführungsform, in der das neuronale Netzwerk mit Mehrebenen-Fusion eine Ein-Strom Encoder-Architektur (Einzel-Encoder) beinhaltet, und einer Ausführungsform, in der das Bildkompositionssystem 106 keine Verfeinerung der Segmentierungsmaske unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks (ohne RefNet) ausführt, wieder. Wie in 9 gezeigt, schneidet die Ausführungsform des Bildkompositionssystems 106, welche die oben genannten Merkmale enthält, deutlich besser ab als die Ausführungsformen, bei denen mindestens ein Merkmal entfernt wurde, und erreicht einen PSNR-Wert von 26,06 und einen SSIM-Wert von 0,9291.
Um zu 10 zu kommen, werden nun zusätzliche Details hinsichtlich verschiedener Komponenten und Fähigkeiten des Bildkompositionssystems 106 angegeben. Insbesondere zeigt 10 das Bildkompositionssystem 106, das von dem/den Servern 102 und dem Bildbearbeitungssystem 104 implementiert ist. Wie gezeigt, kann das Bildkompositionssystem 106 einen Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk, einen Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk, einen Invertierte-Segmentierungsmaske-Generator 1006, ein Trainingswerk 1008 für neuronale Netzwerke mit Mehrebenen-Fusion, einen Anwendungsmanager 1010 für das neuronale Netzwerk mit Mehrebenen-Fusion und einen Datenspeicher 1012 (welcher digitale Trainingsbilder 1014, ein Vordergrundsegmentierungs-neuronales Netzwerk 1016, ein Maskenverfeinerungs-neuronales Netzwerk 1018 und ein neuronales Netzwerk 1020 mit Mehrebenen-Fusion beinhaltet) umfassen, ist aber nicht darauf eingeschränkt.
Wie gerade erwähnt und in 10 gezeigt, beinhaltet das Bildkompositionssystem 106 einen Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk. Insbesondere kann der Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk ein Vordergrundbild empfangen und eine korrespondierende Segmentierungsmaske erzeugen, indem er ein Vordergrundsegmentierungs-neuronales Netzwerk verwendet. In einer oder mehrerer Ausführungsformen kann der Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk beim Erzeugen der Segmentierungsmaske das Vordergrundbild in zwei separate Teile unterteilen - ein Vordergrundobjekt und einen Hintergrund - die zwei Teilen entsprechen, die durch das Vordergrundsegmentierungs-neuronale Netzwerk aus dem Vordergrundbild identifiziert wurden.
Wie in 10 gezeigt, kann das Bildkompositionssystem 106 weiter den Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk beinhalten. Insbesondere kann der Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk ein Maskenverfeinerungs-neuronales Netzwerk verwenden, um zuvor erzeugte Segmentierungsmasken zu modifizieren. Zum Beispiel empfängt der Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk in einer oder in mehreren Ausführungsformen eine Segmentierungsmaske, die von dem Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk erzeugt wurde (d.h. eine rohe Segmentierungsmaske), und verwendet das Maskenverfeinerungs-neuronale Netzwerk, um die Segmentierungsmaske zu modifizieren (d.h. durch Verfeinern der Grenze zwischen dem Vordergrundobjekt und dem Hintergrund).
Zusätzlich beinhaltet das Bildkompositionssystem 106, wie in 10 gezeigt, den Invertierte-Segmentierungsmaske-Generator 1006. Insbesondere kann der Invertierte-Segmentierungsmaske-Generator 1006 eine invertierte Segmentierungsmaske erzeugen, die einer zuvor erzeugten Segmentierungsmaske entspricht. Zum Beispiel erzeugt der Invertierte-Segmentierungsmaske-Generator 1006 in einer oder in mehreren Ausführungsformen eine invertierte Segmentierungsmaske basierend auf der Segmentierungsmaske, die von dem Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk erzeugt wurde. In manchen Ausführungsformen erzeugt der Invertierte-Segmentierungsmaske-Generator 1006 die invertierte Segmentierungsmaske basierend auf der Segmentierungsmaske, die von dem Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk erzeugt wurde.
Weiter beinhaltet das Bildkompositionssystem 106, wie in 10 gezeigt, das Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion. Insbesondere kann das Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion ein neuronales Netzwerk mit Mehrebenen-Fusion trainieren, digitale Kompositbilder zu erzeugen. In einer oder in mehreren Ausführungsformen trainiert das Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion das neuronale Netzwerk mit Mehrebenen-Fusion, indem es ein von-einfach-zu-schwer Datenaugmentierungsschema verwendet. In manchen Ausführungsformen trainiert das Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion das neuronale Netzwerk mit Mehrebenen-Fusion weiter unter Verwendung einer Selbstlernmethode, indem es das neuronale Netzwerk mit Mehrebenen-Fusion verwendet, um zusätzliche Trainingsdaten für weiteres Training zu erzeugen.
Wie in 10 gezeigt, beinhaltet das Bildkompositionssystem 106 weiter den Anwendungsmanager 1010 für das neuronale Netzwerk mit Mehrebenen-Fusion. Insbesondere kann der Anwendungsmanager 1010 für das neuronale Netzwerk mit Mehrebenen-Fusion das neuronale Netzwerk mit Mehrebenen-Fusion verwenden, das von dem Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion trainiert wurde. Zum Beispiel kann der Anwendungsmanager 1010 für das neuronale Netzwerk mit Mehrebenen-Fusion ein Vordergrundbild, ein Hintergrundbild und eine Segmentierungsmaske, die dem Vordergrundbild entspricht, identifizieren, und dann das trainierte neuronale Netzwerk mit Mehrebenen-Fusion verwenden, um ein digitales Kompositbild zu erzeugen, das ein Vordergrundobjekt vor einer Szene aus dem Hintergrundbild darstellt.
Weiter beinhaltet das Bildkompositionssystem 106 einen Datenspeicher 1012. Insbesondere kann der Datenspeicher 1012 digitale Trainingsbilder 1014, das Vordergrundsegmentierungs-neuronale Netzwerk 1016, das Maskenverfeinerungs-neuronale Netzwerk 1018 und das neuronale Netzwerk 1020 mit Mehrebenen-Fusion beinhalten. Digitale Trainingsbilder 1014 können digitale Bilder beinhalten, die zum Trainieren des neuronalen Netzwerks mit Mehrebenen-Fusion verwendet werden (beispielsweise einfache Trainingsvordergrundbilder und schwere Trainingsvordergrundbilder). Die digitalen Trainingsbilder 1014 können weiter die digitalen Zielbilder beinhalten, die zum Trainieren verwendet werden. Das Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion kann die digitalen Trainingsbilder von den digitalen Trainingsbildern 1014 erhalten, wenn es das neuronale Netzwerk mit Mehrebenen-Fusion trainiert. Das Vordergrundsegmentierungs-neuronale Netzwerk 1016 kann das Vordergrundsegmentierungs-neuronale Netzwerk speichern, das von dem Anwendungsmanager 1002 für das Vordergrundsegmentierungs-neuronale Netzwerk verwendet wird zum Erzeugen von Segmentierungsmasken. In ähnlicher Weise kann das Maskenverfeinerungs-neuronale Netzwerk 1018 das Maskenverfeinerungs-neuronale Netzwerk speichern, das von dem Anwendungsmanager 1004 für das Maskenverfeinerungs-neuronale Netzwerk zum Modifizieren von Segmentierungsmasken verwendet wird. Weiter kann das neuronale Netzwerk 1020 mit Mehrebenen-Fusion das neuronale Netzwerk mit Mehrebenen-Fusion speichern, das von dem Trainingswerk 1008 für das neuronale Netzwerk mit Mehrebenen-Fusion trainiert wurde und von dem Anwendungsmanager 1010 für das neuronale Netzwerk mit Mehrebenen-Fusion verwendet wurde, um digitale Kompositbilder zu erzeugen.
Jede der Komponenten 1002-1020 des Bildkompositionssystems 106 kann Software, Hardware oder beides umfassen. Zum Beispiel können die Komponenten 1002-1020 eine oder mehrere Anweisungen umfassen, die auf einem computerlesbaren Speichermedium gespeichert sind und durch Prozessoren einer oder mehrerer Rechenvorrichtungen ausführbar sind, wie etwa eine Client-Vorrichtung oder eine Servervorrichtung. Wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, können die computerausführbaren Anweisungen des Bildkompositionssystems 106 die Rechenvorrichtung(en) dazu veranlassen, die hierin beschriebenen Methoden auszuführen. Alternativ können die Komponenten 1002-1020 Hardware umfassen, wie etwa eine Spezial-Verarbeitungsvorrichtung, um eine bestimmte Funktion oder eine Gruppe von Funktionen auszuführen. Alternativ können die Komponenten 1002-1020 des Bildkompositionssystems 106 eine Kombination von computerausführbaren Anweisungen und Hardware umfassen.
Darüber hinaus können die Komponenten 1002-1020 des Bildkompositionssystems 106 zum Beispiel implementiert sein als ein oder mehrere Betriebssysteme, als eine oder mehrere eigenständige Anwendungen, als ein oder mehrere Module einer Anwendung, als ein oder mehrere Plug-Ins, als eine oder mehrere Bibliotheksfunktionen oder Funktionen, die von anderen Anwendung aufgerufen werden können, und/oder als Cloud-Computing-Modell. Somit können die Komponenten 1002-1020 des Bildkompositionssystems 106 implementiert sein als eine eigenständige Anwendung, wie etwa eine Desktop- oder mobile Anwendung. Darüber hinaus können die Komponenten 1002-1020 des Bildkompositionssystems 106 implementiert sein als eine oder mehrere web-basierte Anwendungen, die auf einem entfernten Server gehostet werden. Alternativ oder zusätzlich dazu können die Komponenten 1002-1020 des Bildkompositionssystems 106 implementiert werden in einer Reihe mobiler Anwendungen oder „Apps“. Zum Beispiel kann das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen digitale Softwareanwendungen wie ADOBE® CREATIVE CLOUD® oder ADOBE® PHOTOSHOP® umfassen oder in Verbindung mit diesen arbeiten. „ADOBE“, „CREATIVE CLOUD“ und „PHOTOSHOP“ sind entweder eingetragene Marken oder Marken von Adobe Inc. in den Vereinigten Staaten und/oder anderen Ländern.
1 bis 10, der korrespondierende Text und die Beispiele bieten eine Reihe von verschiedenen Methoden, Systemen, Vorrichtungen und nichttransitorischen, computerlesbaren Medien des Bildkompositionssystems 106. Zusätzlich zu dem Vorstehenden können ein oder mehrere Ausführungsformen auch in Form von Flussdiagrammen beschrieben werden, die Aktionen zum Erreichen des jeweiligen Ergebnisses umfassen, wie in 11 gezeigt. 11 kann mit mehr oder weniger Aktionen ausgeführt werden. Weiter können die Aktionen in verschiedenen Reihenfolgen ausgeführt werden. Zusätzlich können die hierin beschriebenen Aktionen wiederholt oder parallel zueinander oder parallel mit verschiedenen Instanzen gleicher oder ähnlicher Aktionen ausgeführt werden.
11 zeigt, wie erwähnt, ein Flussdiagramm einer Reihe von Aktionen 1100 zum Erzeugen eines digitalen Kompositbilds, in Übereinstimmung mit einer oder mehreren Ausführungsformen. Während 11 Aktionen nach einer Ausführungsform darstellt, können alternative Ausführungsformen jede der in 11 gezeigten Aktionen auslassen, ergänzen, neu anordnen und/oder modifizieren. Die Aktionen aus 11 können als Teil einer Methode ausgeführt werden. Zum Beispiel können die Aktionen aus 11 in manchen Ausführungsformen in einer digitalen Medienumgebung zum Verarbeiten digitaler Bilder als Teil einer computerimplementierten Methode ausgeführt werden. Alternativ kann ein nichttransitorisches, computerlesbares Medium Anweisungen speichern, die, wenn sie von mindestens einem Prozessor ausgeführt werden, eine Rechenvorrichtung dazu veranlassen, die Aktionen aus 11 auszuführen. In manchen Ausführungsformen kann ein System die Aktionen aus 11 ausführen. Zum Beispiel umfasst ein System in einer oder in mehreren Ausführungsformen mindestens eine Speichervorrichtung, umfassend ein neuronales Netzwerk mit Mehrebenen-Fusion, das trainiert ist, digitale Kompositbilder zu erzeugen, wobei das neuronale Netzwerk mit Mehrebenen-Fusion einen Vordergrundencoder, einen Hintergrundencoder und einen Decoder umfasst. Das System kann weiter mindestens eine Servervorrichtung beinhalten, die das System veranlasst, die Aktionen aus 11 auszuführen.
Die Reihe von Aktionen 1100 beinhaltet eine Aktion 1102 des Identifizierens von Bildern und einer Segmentierungsmaske. Zum Beispiel beinhaltet die Aktion 1102 das Identifizieren eines Vordergrundbilds, eines Hintergrundbilds und einer Segmentierungsmaske, die dem Vordergrundbild entspricht. In einer oder in mehreren Ausführungsformen umfasst das Identifizieren der Segmentierungsmaske, die dem Vordergrundbild entspricht, das Erzeugen der Segmentierungsmaske basierend auf dem Vordergrundbild unter Verwendung eines Vordergrundsegmentierungs-neuronalen Netzwerks. Tatsächlich identifiziert das Bildkompositionssystem 106 in einer oder in mehreren Ausführungsformen ein Vordergrundbild und ein Hintergrundbild und erzeugt die Segmentierungsmaske basierend auf dem Vordergrundbild unter Verwendung eines Vordergrundsegmentierungs-neuronalen Netzwerks. In einer oder in mehreren Ausführungsformen modifiziert das Bildkompositionssystem 106 weiter die Segmentierungsmaske, die dem Vordergrundbild entspricht, unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks. Zum Beispiel kann das Bildkompositionssystem 106 eine Grenze eines Vordergrundobjekts modifizieren, das in der Segmentierungsmaske dargestellt ist, basierend auf dem Vordergrundbild und der Segmentierungsmaske unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks.
Die Reihe von Aktionen 1100 beinhaltet auch eine Aktion 1104 des Erzeugens einer Vordergrundmerkmalskarte. Zum Beispiel beinhaltet die Aktion 1104 das Erzeugen eines digitalen Kompositbilds basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske durch Erzeugen einer Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske unter Verwendung eines Vordergrundencoders eines neuronalen Netzwerks mit Mehrebenen-Fusion.
Die Reihe von Aktionen 1100 beinhaltet weiter eine Aktion 1106 des Erzeugens einer Hintergrundmerkmalskarte. Zum Beispiel beinhaltet die Aktion 1106 das Erzeugen des digitalen Kompositbilds basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske durch weiteres Erzeugen einer Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske unter Verwendung eines Hintergrundencoders des neuronalen Netzwerks mit Mehrebenen-Fusion. In einer oder in mehreren Ausführungsformen erzeugt das Bildkompositionssystem 106 zusätzlich eine invertierte Segmentierungsmaske basierend auf der Segmentierungsmaske, die dem Vordergrundbild entspricht. Dementsprechend kann das Bildkompositionssystem 106 die Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske erzeugen durch Erzeugen der Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der invertierten Segmentierungsmaske.
Zusätzlich beinhaltet die Reihe an Aktionen 1100 eine Aktion 1108 des Erzeugens eines digitalen Kompositbilds. Zum Beispiel beinhaltet die Aktion 1108 das Erzeugen des digitalen Kompositbilds basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske durch weiteres Erzeugen des digitalen Kompositbilds basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte unter Verwendung eines Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion. Zum Beispiel kann das Bildkompositionssystem 106 die Vordergrundmerkmalskarte und die Hintergrundmerkmalskarte kombinieren, um eine kombinierte Merkmalskarte zu erzeugen und dann das digitale Kompositbild basierend auf der kombinierten Merkmalskarte unter Verwendung des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion zu erzeugen. In einer oder in mehreren Ausführungsformen umfasst das digitale Kompositbild ein Vordergrundobjekt aus dem Vordergrundbild, das vor einer Szene aus dem Hintergrundbild dargestellt ist.
In einer oder in mehreren Ausführungsformen verwendet das Bildkompositionssystem 106 weiter Skip Links, um dem Decoder des neuronalen Netzwerks mit Mehrebenen-Fusion Ebenen-spezifische Merkmalskarten zur Verfügung zu stellen. Zum Beispiel kann das Bildkompositionssystem 106 eine erste Ebenen-spezifische Merkmalskarte, die von dem Vordergrundencoder erzeugt wurde, und eine zweite Ebenen-spezifische Merkmalskarte, die von dem Hintergrundencoder erzeugt wurde, identifizieren. Das Bildkompositionssystem 106 kann dann die erste Ebenen-spezifische Merkmalskarte und die zweite Ebenen-spezifische Merkmalskarte einer Ebene des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion über Skip Links zur Verfügung stellen. Dementsprechend kann das Erzeugen des digitalen Kompositbilds basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte unter Verwendung des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion ein Erzeugen des digitalen Kompositbilds weiter basierend auf der ersten Ebenen-spezifischen Merkmalskarte und der zweiten Ebenen-spezifischen Merkmalskarte unter Verwendung des Decoders beinhalten. In einer oder in mehreren Ausführungsformen ist eine Ebene des Vordergrundencoders, die der ersten Ebenen-spezifischen Merkmalskarte entspricht, auf derselben Encoderebene wie eine Ebene des Hintergrundencoders, die der zweiten Ebenen-spezifischen Merkmalskarte entspricht.
In einer oder in mehreren Ausführungsformen umfasst das Vordergrundbild ein Trainingsvordergrundbild und das Hintergrundbild umfasst ein Trainingshintergrundbild. Dementsprechend kann die Reihe an Aktionen 1100 weiter Aktionen zum Trainieren des neuronalen Netzwerks mit Mehrebenen-Fusion beinhalten. Tatsächlich kann das Bildkompositionssystem 106 das neuronale Netzwerk mit Mehrebenen-Fusion trainieren, digitale Kompositbilder zu erzeugen durch Vergleichen des digitalen Kompositbilds mit einem digitalen Zielkompositbild, um einen Verlust zu bestimmen; und Modifizieren von Parametern des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf dem bestimmten Verlust. In einer oder in mehreren Ausführungsformen kann das Bildkompositionssystem 106 das Vordergrundbild identifizieren, indem es das Vordergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion erzeugt. Weiter kann das Bildkompositionssystem 106 in einer oder in mehreren solchen Ausführungsformen das digitale Zielkompositbild erzeugen, indem es das neuronale Netzwerk mit Mehrebenen-Fusion verwendet.
Wie erwähnt, beinhaltet die Reihe an Aktionen 1100 in einer oder in mehreren Ausführungsformen Aktionen zum Trainieren eines neuronalen Netzwerks mit Mehrebenen-Fusion, um digitale Kompositbilder zu erzeugen. Zum Beispiel trainiert das Bildkompositionssystem 106 das neuronale Netzwerk mit Mehrebenen-Fusion, digitale Kompositbilder zu erzeugen durch Erzeugen eines digitalen Kompositbilds basierend auf einem einfachen Trainingsvordergrundbild und einem ersten Trainingshintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen eines schweren Trainingsvordergrundbilds basierend auf dem einfachen Trainingsvordergrundbild und einem zweiten Trainingshintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen eines prädizierten digitalen Kompositbilds basierend auf dem schweren Trainingsvordergrundbild und dem ersten Trainingshintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; und Modifizieren von Parametern des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf einem Vergleich des prädizierten digitalen Kompositbilds mit dem digitalen Zielkompositbild. In einer oder in mehreren Ausführungsformen umfasst das einfache Trainingsvordergrundbild ein Vordergrundobjekt, das vor einem reinen Farbhintergrund dargestellt ist. In manchen Ausführungsformen umfasst das schwere Trainingsvordergrundbild das Vordergrundobjekt, dargestellt vor einem Hintergrund von dem zweiten Trainingshintergrundbild, wobei der Hintergrund an Detailliertheit variiert.
In einer oder in mehreren Ausführungsformen beinhalten die Aktionen zum Trainieren des neuronalen Netzwerks mit Mehrebenen-Fusion, um digitale Kompositbilder zu erzeugen, weiter das Vergleichen des prädizierten digitalen Kompositbilds und des digitalen Zielkompositbilds, um einen L1-Verlust und einen Wahrnehmungsverlust zu bestimmen; und das Bestimmen eines kombinierten Verlusts basierend auf dem L1-Verlust und dem Wahrnehmungsverlust. Dementsprechend kann das Bildkompositionssystem 106 die Parameter des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf dem prädizierten digitalen Kompositbild und dem digitalen Zielkompositbild modifizieren, indem es die Parameter basierend auf dem kombinierten Verlust modifiziert. In einer oder in mehreren Ausführungsformen beinhaltet das Bestimmen des kombinierten Verlusts ein Anwenden einer Gewichtung auf den Wahrnehmungsverlust, um einen gewichteten Wahrnehmungsverlust zu erzeugen; und ein Kombinieren des L1-Verlusts und des gewichteten Wahrnehmungsverlusts, um den kombinierten Verlust zu erzeugen.
Ausführungsformen der vorliegenden Offenbarung können einen Allzweck-oder Spezialcomputer umfassen oder verwenden, einschließlich Computer-Hardware, wie etwa ein oder mehrere Prozessoren und Systemspeicher, wie nachstehend näher erläutert. Ausführungsformen innerhalb des Anwendungsrahmens der vorliegenden Offenbarung umfassen auch physische und andere computerlesbare Medien zum Tragen oder Speichern computerausführbarer Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hierin beschriebenen Prozesse zumindest teilweise als Anweisungen als Anweisungen implementiert werden, die in einem nichttransitorischen, computerlesbaren Medium verkörpert und von einer oder mehreren Rechenvorrichtungen (beispielsweise eine beliebige der hierin beschriebenen Vorrichtungen für den Zugriff auf Medieninhalte) ausführbar sind. Im Allgemeinen empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttransitorischen, computerlesbaren Medium (beispielsweise ein Speicher, etc.) und führt diese Anweisungen aus und führt dabei einen oder mehrere Prozesse aus, darunter einen oder mehrere der hierin beschriebenen Prozesse.
Computerlesbare Medien können alle verfügbaren Medien sein, auf die von einem Allzweck- oder Spezial-Computersystem zugegriffen werden kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttransitorische, computerlesbare Speichermedien (-Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen sind Übertragungsmedien. Als Beispiel, und nicht als Beschränkung, können somit Ausführungsformen der Offenbarung mindestens zwei deutlich verschiedene Arten von computerlesbaren Medien umfassen: nichttransitorische computerlesbare Speichermedien (-Vorrichtungen) und Übertragungsmedien.
Nichttransitorisch, computerlesbare Speichermedien (-Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, Halbleiterspeicherlaufwerke („SSDs“) (beispielsweise basierend auf RAM), Flash-Speicher, Phasenwechselspeicher („PCM“), andere Arten von Speichern, andere optische Plattenspeicher, Plattenspeicher oder andere Magnetspeichervorrichtungen, oder jedes andere Medium, das zur Speicherung gewünschter Programmcode-Mittel in Form von computerausführbaren Anweisungen oder Datenstrukturen verwendet werden kann und auf welche von einem Allzweck-oder Spezialcomputer zugegriffen werden kann.
Ein „Netzwerk“ ist definiert als eine oder mehrere Datenverbindungen, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet und drahtlos) an einen Computer übertragen oder bereitgestellt werden, betrachtet der Computer die Verbindung ordnungsgemäß als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen umfassen, die zur Übertragung gewünschter Programmcode-Mittel in Form von computerausführbaren Anweisungen oder Datenstrukturen verwendet werden können und auf die von einem Allzweck- oder Spezialcomputer aus zugegriffen werden kann. Kombinationen der oben genannten Punkte sollten auch in den Anwendungsbereich der computerlesbaren Medien einbezogen werden.
Weiter können beim Erreichen verschiedener Computersystemkomponenten Programmcode-Mittel in Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nichttransitorische, computerlesbare Speichermedien (Vorrichtungen) übertragen werden (oder umgekehrt). Zum Beispiel computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder eine Datenverbindung empfangen werden, im RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und dann schließlich in den RAM des Computersystems und/oder auf weniger instabile Speichermedien (-Vorrichtungen) in einem Computersystem übertragen werden. Es sollte daher verstanden werden, dass nichttransitorische, computerlesbare Speichermedien (-Vorrichtungen) in Computersystemkomponenten enthalten sein können, die ebenfalls (oder sogar hauptsächlich) Übertragungsmedien verwenden.
Computerausführbare Anweisungen umfassen zum Beispiel Anweisungen und Daten, die, wenn die von einem Prozessor ausgeführt werden, bewirken, dass ein Allzweckcomputer ein Spezialcomputer oder eine Spezialverarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen ausführt. In manchen Ausführungsformen werden computerausführbare Anweisungen auf einem Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialcomputer umzuwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können zum Beispiel Binärdateien, Zwischenformatanweisungen, wie etwa Assemblersprache, oder sogar Quellcode sein. Auch wenn der Gegenstand in einer Sprache beschrieben wurde, die sich auf strukturelle Merkmale und/oder methodische Aktionen bezieht, ist zu verstehen, dass der in den beigefügten Ansprüchen definierte Gegenstand nicht notwendigerweise auf die oben beschriebenen Merkmale oder Aktionen beschränkt ist. Vielmehr werden die beschriebenen Merkmale und Aktionen als beispielhafte Formen der Implementierung der Ansprüche offenbart.
Der Fachmann wird verstehen, dass die Offenbarung in Netzwerk-Computerumgebungen mit vielen Arten von Computersystemkonfigurationen praktiziert werden kann, einschließlich PCs, Desktopcomputern, Laptops, Nachrichtenprozessoren, Handheld-Vorrichtungen, Multiprozessorsystemen, mikroprozessor-basierender oder programmierbarer Verbraucherelektronik, Netzwerk-PCs, Minicomputern, Großrechnern, Mobiltelefonen, PDAs, Tablets, Pagern, Routern, Switches und dergleichen. Die Offenbarung kann auch in verteilten Systemumgebungen praktiziert werden, wo lokale und entfernte Computersysteme, die über ein Netzwerk verbunden sind (entweder durch drahtgebundene Datenverbindungen, drahtlose Datenverbindungen oder eine Kombination von drahtgebundenen und drahtlosen Datenverbindungen), beide Aufgaben erfüllen. In einer verteilten Systemumgebung können Programm-Module sich sowohl in lokalen als auch in entfernten Speichervorrichtungen befinden.
Ausführungsformen der vorliegenden Offenbarung können auch in Cloud-Computing-Umgebungen implementiert werden. In dieser Beschreibung ist „Cloud Computing“ als ein Modell zur Ermöglichung des Netzzugangs auf Abruf zu einem gemeinsamen Pool konfigurierbarer Rechenressourcen definiert. Zum Beispiel kann Cloud Computing auf dem Markt eingesetzt werden, um einen allgegenwärtigen und bequemen On-Demand-Zugriff auf dem gemeinsamen Pool konfigurierbarer Rechenressourcen anzubieten. Der gemeinsame Pool konfigurierbarer Rechenressourcen kann durch Virtualisierung schnell bereitgestellt und mit geringem Verwaltungsaufwand oder Service-Provider-Interaktion freigegeben und dann entsprechend skaliert werden.
Ein Cloud-Computing-Modell kann aus verschiedenen Merkmalen zusammengesetzt sein, wie zum Beispiel, On-Demand Selbstbedienung, breitem Netzwerkzugang, Ressourcenbündelung, schnelle Elastizität, gemessener Dienst, und so weiter. Ein Cloud-Computing-Modell kann auch verschiedene Servicemodelle offenlegen, wie zum Beispiel Software als ein Dienst („SaaS“), Plattform als ein Dienst („Plattform-as-a-Service“, PaaS) und Infrastruktur als ein Dienst („Infrastructure-as-a-Service“, laaS). Ein Cloud-Computing-Modell kann auch unter Verwendung verschiedener Einsatzmodelle wie Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud, usw. eingesetzt werden. In dieser Beschreibung und in den Ansprüchen ist eine „Cloud-Computing-Umgebung“ eine Umgebung, in der Cloud Computing eingesetzt wird.
12 zeigt ein Blockdiagramm einer beispielhaften Rechenvorrichtung 1200, die konfiguriert werden kann, einen oder mehrere der oben beschriebenen Prozesse auszuführen. Man wird es zu würdigen wissen, dass eine oder mehrere Rechenvorrichtungen, wie etwa die Rechenvorrichtung 1200, die oben beschriebenen Computergeräte darstellen können (beispielsweise der/die Server 102 und die Client-Vorrichtungen 110a bis 110n). In einer oder in mehreren Ausführungsformen kann die Rechenvorrichtung 1200 eine mobile Vorrichtung sein (beispielsweise ein Mobiltelefon, ein Smartphone, ein PDA, ein Tablet, ein Laptop, eine Kamera, ein Tracker, eine Uhr, eine tragbare Vorrichtung, etc.). In manchen Ausführungsformen kann die Rechenvorrichtung 1200 eine nicht mobile Vorrichtung sein (beispielsweise ein Desktopcomputer oder eine andere Art von Client-Vorrichtung). Weiter kann die Rechenvorrichtung 1200 eine Servervorrichtung sein, die Cloud-basierte Verarbeitungs- und Speicherfunktionen beinhaltet.
Wie in 12 gezeigt kann die Rechenvorrichtung 1200 einen oder mehrere Prozessoren 1202, einen Speicher 1204, eine Speichervorrichtung 1206, Eingabe-/Ausgabeschnittstellen 1208 (oder „E/A-Schnittstellen 1208“), oder eine Kommunikationsschnittstelle 1210, die über eine Kommunikationsinfrastruktur (beispielsweise Bus 1212) kommunikativ gekoppelt werden kann, beinhalten. Während die Rechenvorrichtung 1200 in 12 gezeigt ist, sind die in 12 dargestellten Komponenten nicht als begrenzend gedacht. Zusätzliche oder alternative Komponenten können in anderen Ausführungsformen verwendet werden. Darüber hinaus beinhaltet die Rechenvorrichtung 1200 in bestimmten Ausführungsformen weniger Komponenten als die in 12 gezeigten. Die in 12 gezeigten Komponenten der Rechenvorrichtung 1200 werden nun genauer beschrieben werden.
In bestimmten Ausführungsformen beinhalten der/die Prozessoren 1202 Hardware zum Ausführen von Anweisungen, so wie die, aus denen ein Computerprogramm besteht. Als Beispiel, und nicht als Einschränkung, für die Ausführung von Befehlen können der/die Prozessor(en) 1202 die Anweisungen aus einem internen Register, einem internen Cache, einem Speicher 1204 oder einer Speichervorrichtung 1206 abrufen (oder holen) und sie dekodieren und ausführen.
Die Rechenvorrichtung 1200 beinhaltet den Speicher 1204, welcher mit dem/den Prozessor(en) 1202 gekoppelt ist. Der Speicher 1204 kann für das Speichern von Daten, Metadaten und Programmen zur Ausführung von dem/den Prozessor(en) verwendet werden. Der Speicher 1204 kann einen oder mehrere flüchtige und nichtflüchtige Speicher beinhalten, wie beispielsweise Speicher mit wahlfreiem Zugriff („RAM“), Nur-Lese-Speicher („ROM“), ein Halbleiterspeicherlaufwerk („SSD“), Flash, Phasenübergangsspeicher („PCM“) oder andere Arten der Datenspeicherung. Der Speicher 1204 kann ein interner oder verteilter Speicher sein.
Die Rechenvorrichtung 1200 beinhaltet eine Speichervorrichtung 1206, die einen Speicher zum Speichern von Daten oder Anweisungen enthält. Als Beispiel, und nicht als Einschränkung, kann die Speichervorrichtung 1206 ein oben beschriebenes nichttransitorisches Speichermedium umfassen. Die Speichervorrichtung 1206 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein Universal Serial Bus (USB) Laufwerk oder eine Kombination dieser oder anderer Speichervorrichtungen beinhalten.
Wie gezeigt beinhaltet die Rechenvorrichtung 1200 eine oder mehrere E/A-Schnittstellen 1208, die bereitgestellt werden, um es einem Benutzer zu ermöglichen, Eingaben zu machen (wie beispielsweise Benutzeranschläge), Ausgaben von der Rechenvorrichtung 1200 zu empfangen und anderweitig Daten zu und von der Rechenvorrichtung 1200 zu übertragen. Diese E/A-Schnittstellen 1208 können eine Maus, ein Tastenfeld oder eine Tastatur, einen Touchscreen, eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte E/A-Vorrichtungen oder eine Kombination solcher E/A-Schnittstellen 1208 umfassen. Der Touchscreen kann mit einem Stift oder einem Finger aktiviert werden.
Die E/A-Schnittstellen 1208 können eine oder mehrere Vorrichtungen zur Darstellung der Ausgabe für einen Benutzer beinhalten, einschließlich, aber nicht beschränkt auf, eine Grafikmaschine, eine Anzeige (beispielsweise einen Bildschirm), einen oder mehrere Ausgangstreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. In bestimmten Ausführungsformen sind die E/A-Schnittstellen 1208 dazu konfiguriert, grafische Daten einer Anzeige zur Darstellung für einen Benutzer zur Verfügung zu stellen. Die grafischen Daten können repräsentativ für eine oder mehrere grafische Benutzerschnittstellen und/oder jeden anderen grafischen Inhalt sein, der einer bestimmten Implementierung dient.
Die Rechenvorrichtung 1200 kann weiter eine Kommunikationsschnittstelle 1210 beinhalten. Die Kommunikationsschnittstelle 1210 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 1210 bietet eine oder mehrere Schnittstellen zur Kommunikation (wie zum Beispiel paketbasierte Kommunikation) zwischen der Rechenvorrichtung und einer oder mehrerer anderer Rechenvorrichtungen oder einem oder mehreren Netzwerken. Als Beispiel, und nicht als Einschränkung, kann die Kommunikationsschnittstelle 1210 einen Netzwerkschnittstellencontroller (NIC) oder Netzwerkadapter für die Kommunikation mit einem Ethernet- oder einem anderen drahtgebundenen Netzwerk oder eine drahtlose NIC (WNIC) oder einen drahtlosen Adapter für die Kommunikation mit einem drahtlosen Netzwerk, wie etwa einem WLan, beinhalten. Die Rechenvorrichtung 1200 kann weiter einen Bus 1212 beinhalten. Der Bus 1212 kann Hardware, Software oder beides beinhalten, die die Komponenten der Rechenvorrichtung 1200 miteinander verbindet.
In der vorstehenden Spezifikation wurde die Erfindung in Bezug auf spezifische Beispielsausführungen davon beschrieben. Verschiedene Ausführungsformen und Aspekte der Erfindung(en) werden in Bezug auf die hierin diskutierten Details beschrieben und die zugehörigen Bilder zeigen die verschiedenen Ausführungsformen. Die obige Beschreibung und die Zeichnungen veranschaulichen die Erfindung und sind nicht als erfindungseinschränkend zu verstehen. Zahlreiche spezifische Details werden beschrieben, um ein gründliches Verständnis verschiedener Ausführungsformen der vorliegenden Erfindung zu bieten.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Geist oder ihren wesentlichen Merkmalen abzuweichen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht nur als veranschaulichend und nicht als einschränkend zu betrachten. Zum Beispiel können die hierin beschriebenen Methoden mit mehr oder weniger Schritten/Aktionen ausgeführt werden oder die Schritte/Aktionen können in unterschiedlicher Reihenfolge ausgeführt werden. Zusätzlich können die hierin beschriebenen Schritte/Aktionen wiederholt oder parallel zueinander oder parallel zu verschiedenen Instanzen der gleichen oder ähnlicher Schritte/Aktionen ausgeführt werden. Der Umfang der Erfindung wird daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben. Alle Änderungen, die in die Bedeutung und den Äquivalenzbereich der Ansprüche fallen, sind in ihren Geltungsbereich einzubeziehen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

J. Johnson et al., Perceptual Losses for Real-Time Style Transfer and Super-Resolution, https://arxiv.org/abs/1603.08155 [0072]

Claims

Nichttransitorisches, computerlesbares Medium, auf dem Anweisungen gespeichert sind, die, wenn sie von mindestens einem Prozessor ausgeführt werden, eine Rechenvorrichtung veranlassen zum: Identifizieren eines Vordergrundbilds, eines Hintergrundbilds und einer Segmentierungsmaske, die dem Vordergrundbild entspricht; und Erzeugen eines digitalen Kompositbilds basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske durch: Erzeugen einer Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske unter Verwendung eines Vordergrundencoders eines neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen einer Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske unter Verwendung eines Hintergrundencoders des neuronalen Netzwerks mit Mehrebenen-Fusion; und Erzeugen eines digitalen Kompositbilds basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte unter Verwendung eines Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion.
Nichttransitorisches, computerlesbares Medium nach Anspruch 1, welches weiter Anweisungen umfasst, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung dazu veranlassen, eine invertierte Segmentierungsmaske zu erzeugen basierend auf der Segmentierungsmaske, die dem Vordergrundbild entspricht, wobei das Erzeugen der Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske ein Erzeugen der Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der invertierten Segmentierungsmaske umfasst.
Nichttransitorisches, computerlesbares Medium nach Anspruch 1 oder 2, wobei die Anweisungen, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen, die Segmentierungsmaske, die dem Vordergrundbild entspricht, zu identifizieren durch Erzeugen der Segmentierungsmaske basierend auf dem Vordergrundbild unter Verwendung eines Vordergrundsegmentierungs-neuronalen Netzwerks.
Nichttransitorisches, computerlesbares Medium nach Anspruch 3, weiter umfassend Anweisungen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen, die Segmentierungsmaske, die dem Vordergrundbild entspricht, unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks zu modifizieren.
Nichttransitorisches, computerlesbares Medium nach einem der vorstehenden Ansprüche, weiter umfassend Anweisungen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen zum: Identifizieren einer ersten Ebenen-spezifischen Merkmalskarte, welche von dem Vordergrundencoder erzeugt wurde, und einer zweiten Ebenen-spezifischen Merkmalskarte, welche von dem Hintergrundencoder erzeugt wurde; und Bereitstellen der ersten Ebenen-spezifischen Merkmalskarte und der zweiten Ebenen-spezifischen Merkmalskarte über Skip Links bzw. Übersprung-Verbindungen zu einer Ebene des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion, wobei Erzeugen des digitalen Kompositbilds basierend auf der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte unter Verwendung des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion ein Erzeugen des digitalen Kompositbilds weiter basierend auf der ersten Ebenen-spezifischen Merkmalskarte und der zweiten Ebenen-spezifischen Merkmalskarte unter Verwendung des Decoders umfasst.
Nichttransitorisches, computerlesbares Medium nach Anspruch 5, wobei eine Ebene des Vordergrundencoders, welche der ersten Ebenen-spezifischen Merkmalskarte entspricht, auf einer gleichen Encoderebene ist wie eine Ebene des Hintergrundencoders, welche der zweiten Ebenen-spezifischen Merkmalskarte entspricht.
Nichttransitorisches, computerlesbares Medium nach einem der vorstehenden Ansprüche, wobei das digitale Kompositbild ein Vordergrundobjekt von dem Vordergrundbild umfasst, das vor einer Szene aus dem Hintergrundbild dargestellt ist.
Nichttransitorisches, computerlesbares Medium nach einem der vorstehenden Ansprüche, wobei das Vordergrundbild ein Trainings-Vordergrundbild umfasst und das Hintergrundbild ein Trainings-Hintergrundbild umfasst; und weiter umfassend Anweisungen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen, das neuronale Netzwerk mit Mehrebenen-Fusion zu trainieren, digitale Kompositbilder zu erzeugen durch: Vergleichen des digitalen Kompositbilds mit einem digitalen Zielkompositbild, um einen Verlust zu bestimmen; und Modifizieren von Parametern des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf dem ermittelten Verlust.
Nichttransitorisches, computerlesbares Medium nach Anspruch 8, wobei die Anweisungen, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen, das Vordergrundbild zu identifizieren durch Erzeugen des Vordergrundbilds unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion.
Nichttransitorisches, computerlesbares Medium nach Anspruch 8 oder 9, weiter umfassend Anweisungen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, die Rechenvorrichtung veranlassen, das digitale Zielkompositbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion zu erzeugen.
System, umfassend: mindestens eine Speichervorrichtung, welches ein neuronales Netzwerk mit Mehrebenen-Fusion umfasst, das trainiert ist, digitale Kompositbilder zu erzeugen, wobei das neuronale Netzwerk mit Mehrebenen-Fusion einen Vordergrundencoder, einen Hintergrundencoder und einen Decoder umfasst; mindestens eine Servervorrichtung, welche das System veranlasst zum: Identifizieren eines Vordergrundbilds und eines Hintergrundbilds; Erzeugen einer Segmentierungsmaske basierend auf dem Vordergrundbild unter Verwendung eines Vordergrundsegmentierungs-neuronalen Netzwerks; Erzeugen einer Vordergrundmerkmalskarte basierend auf dem Vordergrundbild und der Segmentierungsmaske unter Verwendung des Vordergrundencoders des neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen einer Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske unter Verwendung des Hintergrundencoders des neuronalen Netzwerks mit Mehrebenen-Fusion; Kombinieren der Vordergrundmerkmalskarte und der Hintergrundmerkmalskarte, um eine kombinierte Merkmalskarte zu erzeugen; und Erzeugen eines digitalen Kompositbilds basierend auf der kombinierten Merkmalskarte unter Verwendung des Decoders des neuronalen Netzwerks mit Mehrebenen-Fusion.
System nach Anspruch 11, wobei die mindestens eine Servervorrichtung das System veranlasst, das neuronale Netzwerk mit Mehrebenen-Fusion zu trainieren, digitale Kompositbilder zu erzeugen durch: Erzeugen eines digitalen Zielkompositbilds basierend auf einem einfachen Trainings-Vordergrundbild und einem ersten Trainings-Hintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen eines schweren Trainings-Vordergrundbilds basierend auf einem einfachen Trainings-Vordergrundbild und einem zweiten Trainings-Hintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; Erzeugen eines vorhergesagten bzw. prädizierten digitalen Kompositbilds basierend auf dem schweren Trainings-Vordergrundbild und dem ersten Trainings-Hintergrundbild unter Verwendung des neuronalen Netzwerks mit Mehrebenen-Fusion; und Modifizieren von Parametern des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf einem Vergleich des prädizierten digitalen Kompositbilds und des digitalen Zielkompositbilds.
System nach Anspruch 12, wobei: das einfache Trainings-Vordergrundbild ein Vordergrundobjekt umfasst, welches vor einem reinen Farbhintergrund dargestellt ist; und das schwere Trainings-Vordergrundbild das Vordergrundbild umfasst, welches vor einem Hintergrund von dem zweiten Trainings-Hintergrundbild dargestellt ist, wobei der Hintergrund im Detail variiert.
System nach Anspruch 12 oder 13, wobei die mindestens eine Servervorrichtung das System veranlasst zum: Vergleichen des prädizierten digitalen Kompositbilds und des digitalen Zielkompositbilds, um einen L1-Verlust und einen Wahrnehmungsverlust zu bestimmen; und Bestimmen eines kombinierten Verlusts basierend auf dem L1-Verlust und dem Wahrnehmungsverlust, wobei das Modifizieren der Parameter des neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf dem Vergleich des prädizierten digitalen Kompositbilds mit dem digitalen Zielkompositbild ein Modifizieren der Parameter basierend auf dem kombinierten Verlust umfasst.
System nach Anspruch 14, wobei die mindestens eine Servervorrichtung das System veranlasst, den kombinierten Verlust zu bestimmen durch: Anwenden einer Gewichtung auf den Wahrnehmungsverlust, um einen gewichteten Wahrnehmungsverlust zu erzeugen; und Kombinieren des L1 -Verlusts mit dem gewichteten Wahrnehmungsverlust, um den kombinierten Verlust zu erzeugen.
System nach einem der Ansprüche 11 bis 15, wobei die mindestens eine Servervorrichtung das System veranlasst zum: Erzeugen einer invertierten Segmentierungsmaske basierend auf der Segmentierungsmaske, die dem Vordergrundbild entspricht, und Erzeugen der Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der Segmentierungsmaske durch Erzeugen der Hintergrundmerkmalskarte basierend auf dem Hintergrundbild und der invertierten Segmentierungsmaske.
System nach einem der Ansprüche 11 bis 16, wobei die mindestens eine Servervorrichtung das System veranlasst, eine Grenze eines in der Segmentierungsmaske dargestellten Vordergrundobjekts zu modifizieren basierend auf dem Vordergrundbild und der Segmentierungsmaske unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks.
Computerimplementiertes Verfahren in einer digitalen Medienumgebung zur Bearbeitung digitaler Bilder, umfassend: Identifizieren eines Vordergrundbilds, eines Hintergrundbilds und einer Segmentierungsmaske, welche dem Vordergrundbild entspricht; und Ausführen eines Schritts zum Erzeugen eines digitalen Kompositbilds unter Verwendung eines neuronalen Netzwerks mit Mehrebenen-Fusion basierend auf dem Vordergrundbild, dem Hintergrundbild und der Segmentierungsmaske.
Computerimplementiertes Verfahren nach Anspruch 18, wobei das Identifizieren der Segmentierungsmaske, welche dem Vordergrundbild entspricht, ein Erzeugen der Segmentierungsmaske basierend auf dem Vordergrundbild unter Verwendung eines Vordergrundsegmentierungs-neuronalen Netzwerks umfasst.
Computerimplementiertes Verfahren nach Anspruch 19, weiter umfassend Modifizieren der Segmentierungsmaske, die dem Vordergrundbild entspricht, unter Verwendung eines Maskenverfeinerungs-neuronalen Netzwerks.