DE102015009981A1

DE102015009981A1 - Verfahren und Vorrichtung zur Bildsynthese

Info

Publication number: DE102015009981A1
Application number: DE102015009981.7A
Authority: DE
Inventors: Matthias Bethge; Leon Gatys
Original assignee: Eberhard Karls Universitaet Tuebingen
Current assignee: Eberhard Karls Universitaet Tuebingen
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2017-02-02
Also published as: US20180158224A1; EP3329463A1; WO2017021322A1; US11610351B2; EP3329463B1

Abstract

Ein Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern umfasst die Schritte des Extrahierens zumindest einer Eigenschaft eines Quellbildes und des Erzeugens eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes. Gemäß der Erfindung wird die Eigenschaft des Quellbildes mit einer nicht-linearen Transformation des Quellbildes extrahiert.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Synthese eines Bildes, insbesondere zur Synthese eines Bildes, in welchem Eigenschaften eines Quellbildes, wie zum Beispiel eine Textur, auf ein Zielbild übertragen wurden.
Verfahren zur Übertragung der Textur eines Quellbildes auf Gegenstände eines Zielbildes sind im Stand der Technik bekannt. Ashikhmin („Fast Texture Transfer", IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) zeigt ein schnelles, auf Pixelebene arbeitendes Verfahren. Das ebenfalls pixelbasierte Verfahren von Lee et al („Directional Texture Transfer", NPAR 2010, 43 bis 50) verwendet den Gradienten des Zielbildes, um beispielsweise die Richtung von Pinselstrichen zu simulieren. Xie et al („Feature Guided Synthesis for Artistic Style Transfer", DIMEA 2007, 44 bis 49) zeigen ein Verfahren zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, basierend auf einem aus dem Zielbild erzeugten Merkmalsfeld aus grundlegenden statistischen Merkmalen. Keines der genannten Verfahren berücksichtigt sowohl lokale als auch globale Texturmerkmale des Quellbildes in gleicher Weise. Zudem sind die Verfahren abhängig von festen Annahmen über die Art der Textur.
Aufgabe der vorliegenden Erfindung ist daher, ein allgemeines, flexibles und effizientes Verfahren und eine Vorrichtung zur Bildsynthese bereit zu stellen, insbesondere zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, welches die lokalen und globalen Texturmerkmales des Quellbildes besser reproduziert, ohne die Identität der Objekte des Zielbildes wesentlich zu beinträchtigen.
Diese Aufgabe wird gelöst durch ein Verfahren und eine Vorrichtung nach den unabhängigen Patentansprüchen. Vorteilhafte Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen definiert.
Das erfindungsgemäße Verfahren beruht im Wesentlichen auf der Verwendung geeigneter nichtlinearer Transformationen des Quellbildes zur Extraktion relevanter Eigenschaften. Die Nichtlinearität erlaubt insbesondere, auch komplexere Eigenschaften des Quellbildes zu berücksichtigen. Die extrahierten Eigenschaften repräsentieren die Bildinformation so, dass semantische Bildinformation (z. B. Objekte) einfach (z. B. linear) dekodierbar sind, d. h. sie kann bereits mit einem linearen Klassifikator hinreichend genau beschrieben werden, was umgekehrt ihre effiziente Berücksichtigung bei der Bildsynthese sicherstellt. Damit erzielt das erfindungsgemäße Verfahren insgesamt eine hohe Güte der erzeugten Bilder bei verhältnismäßig geringem Aufwand. Werden die nichtlinearen Transformationen mit einem neuronalen Netzwerk realisiert, erreicht das erfindungsgemäße Verfahren überdies eine hohe Allgemeinheit und Flexibilität, da Bildmerkmale nicht vorgegeben werden müssen, sondern aus einem Satz von Trainingsdaten gelernt werden können.
1A zeigt zunächst einen Überblick eines Verfahrens zur Extraktion von Inhaltseigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Die Merkmale eines oder mehrerer digitaler Quellbilder werden mit einem „faltenden” neuronalen Netzwerk (engl.: Convolutional Neural Network bzw. CNN) extrahiert. CNNs bestehen aus Schichten kleiner Berechnungseinheiten, die visuelle Informationen in einer vorwärtsverarbeitenden Weise hierarchisch verarbeiten. Jede Schicht von Einheiten kann gemäß der Erfindung als eine Menge von Bildfiltern verstanden werden, von welchen jede ein bestimmtes Merkmal aus dem eingegebenen Bild extrahiert. Daher besteht die Ausgabe einer gegebenen Schicht aus sog. „Merkmalsabbildungen” („feature maps”), d. h. unterschiedlich gefilterten Versionen des Eingangsbildes. Typischerweise nimmt die Anzahl von „feature maps” in jeder Schicht entlang der Verarbeitungshierarchie zu, aber ihre räumliche Ausdehnung kann mittels Downsampling verringert werden, um eine Reduktion der gesamten Anzahl von Einheiten pro Schicht zu erreichen. Da jede Schicht eine nicht-lineare Filteroperation auf der Ausgabe der vorhergehenden Schicht definiert, extrahieren Schichten weiter oben in der Hierarchie zunehmend komplexere Merkmale.
Das gemäß der vorliegenden Ausführungsform verwendete CNN ist auf Objekterkennung trainiert. In diesem Fall entwickelt das CNN eine Repräsentation des Bildes, welche Objektinformationen entlang der Verarbeitungshierarchie zunehmend explizit macht [Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376]. In jeder Schicht des Netzwerks wird das Eingangsbild durch eine Menge von Merkmalsabbildungen in dieser Schicht repräsentiert.
Diese in jeder Schicht über das Bild enthaltene Information kann direkt durch Rekonstruktion des Bildes ausschließlich aus diesen Merkmalsabbildungen visualisiert werden [Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035]. Rekonstruktionen aus den unteren Schichten sind nahezu perfekt, während Rekonstruktionen aus höheren Schichten die exakten Pixelwerte des Originalbildes weniger genau reproduzieren, während sie weiter seinen Inhalt erfassen. Ein gewisser Informationsverlust ist zu erwarten, wenn die Gesamtanzahl von Einheiten, welche das Bild repräsentieren, mit zunehmenden Schichten abnimmt. Da das Netzwerk auf die Erkennung von Objekten trainiert ist, sind seine Filter zudem optimiert, das Eingangsbild in eine Repräsentation umzuformen, in welchem Objektinformationen explizit gemacht sind. Daher wird das Eingangsbild entlang der Verarbeitungshierarchie des Netzwerks in Repräsentation transformiert, die zunehmend den semantischen Inhalt des Bildes expliziter repräsentieren, verglichen mit seinen detaillierten Pixelwerten.
Die Ergebnisse gemäß dem Ausführungsbeispiel der Erfindung, wurden auf Basis des frei verfügbaren VGG-Netzwerks [Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014] erzielt, welchen die Erfinder in geeigneter Weise modifiziert haben. Insbesondere wurde der Merkmalsraum verwendet, welcher durch die 16 faltenden und 5 pooling Schichten des 19-schichtigen VGG-Netzwerks bereitgestellt wird. Keine der voll verbundenen Schichten wurde verwendet. Für die Bildsynthese wurde die max. Pooling-Operation in dem bekannten Netzwerk erfindungsgemäß durch eine Durchschnitts-Pooling-Operation ersetzt, welche den Gradientenfluss verbessert und bessere Bildergebnisse liefert.
Im Allgemeinen definiert jede Schicht in dem Netzwerk eine nicht-lineare Filterbank, deren Komplexität mit der Position der Schicht in dem Netzwerk zunimmt. Daher wird ein gegebenes Eingangsbild x in jeder Schicht des CNN durch Filter antworten auf dieses Bild kodiert. Eine Schicht mit N₁ unterschiedlichen Filtern hat N₁ Merkmalsabbildungen der Größe M₁, wobei M₁ die Höhe mal der Breite der Merkmalsabbildungen ist. So können die Antworten in einer Schicht l in einer Matrix F^l Element R gespeichert werden, wobei F_ij die Aktivierung des i-ten Filters an Position j in Schicht l ist.
Auf den Antworten des CNN in jeder Schicht des Netzwerks wird erfindungsgemäß eine Stilrepräsentation aufgebaut, welche die Korrelation zwischen unterschiedlichen Filterantworten berechnet, wobei der Erwartungswert über die räumliche Ausdehnung des Eingangsbildes genommen wird. Diese Merkmalskorrelation ist vorliegend durch die Gram-Matrix G gegeben, wobei G das innere Produkt zwischen der vektorisierten Merkmalsabbildung i und j in der Schicht l ist:
Durch Hinzunahme der Merkmalskorrelation mehrerer Schichten, wird eine stationäre, mehrskalige Repräsentation des Quellbildes erreicht, welche die Texturinformation des Bildes erfasst, aber nicht die globale Anordnung. Zusammenfassend werden damit aus den Schichten des Netzwerks zwei Merkmalsräume gebildet, welche Information über den Inhalt und den Stil eines gegebenen Quellbildes fassen. Zunächst erfasst die Aktivierung von Einheiten in den höheren Schichten des neuronalen Netzwerks hauptsächlich den Inhalt des Quellbildes, ohne detaillierte Pixelinformationen zu erfassen. Dann erfassen die Korrelationen zwischen unterschiedlichen Filterantworten in einer Anzahl von Schichten in dem Netzwerk die Stilinformation eines gegebenen Quellbildes. Diese Stil- oder Texturrepräsentation ignoriert die globale Anordnung des Quellbildes, erhält jedoch das allgemeine Erscheinungsbild im Hinblick auf Farbe und lokale Bildstrukturen.
Die Erfindung erlaubt damit, den Inhalt und Stil eines Bildes getrennt voneinander zu repräsentieren. Damit können Inhalt und Stil auch unabhängig voneinander manipuliert werden. Dies erlaubt insbesondere die Erzeugung neuer Bilder, welche den Inhalt beliebiger Fotographien mit dem Aussehen verschiedener Kunstwerke kombinieren.
2 zeigt eine Übersicht eines Verfahrens zur Erzeugung eines Bildes gemäß einer Ausführungsform der Erfindung.
Um ein Bild zu erzeugen, welches den Inhalt eines Zielbildes, wie etwa einer Fotographie mit dem Stil eines Quellbildes, wie etwa eines gemalten Bildes mischt, kann eine Urbildsuche durchgeführt werden, die mit einem geeigneten Ausgangsbild initialisiert wird, beispielsweise einem Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, oder dem Quellbild oder dem Zielbild selbst als Ausgangsbild.
Dabei werden erfindungsgemäß der Abstand einer Inhalts- und einer Stilrepräsentation des Ausgangsbildes von einer Inhaltsrepräsentation der Zielbildes in einer Schicht des Netzwerks und der Stilrepräsentation des Quellbildes in einer Anzahl von Schichten des neuronalen Netzwerks gemeinsam minimiert.
Der jeweilige Abstand zwischen Inhalts- bzw. Stilmerkmalen des Ausgangsbildes und des Ziel- bzw. Quellbildes kann mittels geeigneter Verlustfunktionen L_content und L_style ausgedrückt werden. Wenn p → die Fotographie und a → das Kunstwerk ist, lautet die zu minimierende Gesamtverlustfunktion dann: L_total(p →, a →, x →) = αL_content(p →, x →) + βL_style(a →, x →) wobei α und β jeweils Gewichtungsfaktoren sind. Bevorzugt sind die Gewichtungsfaktoren stufenlos einstellbar, beispielsweise über einen Regler als Teil einer graphischen Benutzeroberfläche einer Software, welche das erfindungsgemäße Verfahren implementiert.
Eine stärkere Betonung des Stils ergibt Bilder, welche der Erscheinung des Kunstwerks entsprechen, ohne dem wesentlichen Inhalt des Zielbildes, d. h. der Fotografie zu zeigen. Bei starker Betonung des Inhalts kann die Fotografie klar identifiziert werden, jedoch entspricht der Stil weniger dem des Quellbildes.
3 zeigt eine schematische Darstellung eines Verfahrens zur Synthese eines Bildes, basierend auf den extrahierten Eigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Ein Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, wird als Eingabe für das neuronale Netzwerk verwendet, um Merkmalsaktivierungen F in den Schichten l, a, b, c zu erhalten. Sodann werden zusammenfassende Statistiken G für die Schichten a, b, und c berechnet. In einem weiteren Schritt wird eine Verlustfunktion L die Schichten l, a, b und c berechnet. Der Verlust für das Zielbild in Schicht l ist von der Form L_content(F ^^l, F^l) = 1 / 2Σ_i,j(F ^ l / ij – F l / ij)².
Der Verlust für das Quellbild in Schicht a, b, c ist von der Form
Danach wird der Gradient des Verlusts in jeder Schicht mit Rücksicht auf die Merkmalsaktivierung F in dieser Schicht berechnet. Der Gradient für das Zielbild in Schicht l ist von der Form
Der Gradient für das Quellbild in Schichten a, b, c ist von der Form
Sodann werden die Gradienten mittels Fehlerrückpropagierung zurück durch das Netzwerk propagiert und der Gradient bezüglich des weißen Rauschbildes berechnet.
Danach wird das weiße Rauschbild angepasst, um den Verlust in Schichten l, a, b, c zu minimieren.
Dieses Verfahren wird mit dem angepassten Bild fortgesetzt, bis der Verlust einem geeigneten Abbruchkriterium genügt, beispielsweisend hinreichend klein wird.
In einer weiteren Ausführungsform der Erfindung kann die explizite und im Wesentlichen vom Inhalt getrennte Repräsentation des Stils eines Bildes auch als Basis für ein Verfahren zur Stilklassifikation bzw. zur Zuordnung von Kunstwerken zu einem bestimmten Künstler dienen. Dabei gewährleistet die Transformation des zu identifizierenden Quellbildes in einen stationären Merkmalsraum wie die Stilrepräsentation gemäß der Erfindung einen höheren Effizienzgrad als bekannte Ansätze, bei welchen Klassifikatoren direkt auf den primären Netzwerkaktivierungen arbeiten.
4 zeigt Bilder, welche den Inhalt einer Fotografie mit dem Stil verschiedener wohlbekannter Kunstwerke kombinieren. Die Bilder wurden gemäß der Erfindung erzeugt durch Suche eines Bildes, das gleichzeitig zu der Inhaltsrepräsentation der Fotografie und der Stilrepräsentation des Kunstwerks passt. Die ursprüngliche Fotografie zeigt die Neckarfront in Tübingen, Deutschland, und ist in A gezeigt. Das Gemälde, welches den Stil für das jeweils erzeugte Bild bereitgestellt hat, ist in der linken unteren Ecke jedes Paneels gezeigt. Bei B wurde das Gemälde „The Shipwreck of the Minotaur” von J. M. W. Turner, 1805, verwendet. Bei C wurde die ”Sternennacht” von Vincent van Gogh, 1889, verwendet. Bei D wurde „Der Schrei” von Eduard Munch, 1893, verwendet. Bei E wurde die „nackte sitzende Frau” von Pablo Picasso verwendet und bei F wurde die „Komposition VII” von Wassily Kandinsky von 1913, verwendet.
Bei den in 4 gezeigten Bildern wurde eine Stilrepräsentation verwendet, welche Schichten aus der gesamten Netzwerkhierarchie beinhaltete. Alternativ kann Stil auch lokaler definiert werden, in dem nur eine kleinere Anzahl von unteren Schichten verwendet wird, was zu anderen visuellen Eindrücken führt. Wenn die Stilrepräsentation bis zu höheren Schichten in dem Netzwerk abgeglichen werden, werden lokale Bildstrukturen auf einer zunehmend größeren Skala abgeglichen, was zu einem visuell kontinuierlicheren Eindruck führt. Daher werden die visuell am meisten ansprechenden Bilder gewöhnlich durch Abgleich der Stilrepräsentation bis zu den höchsten Schichten in dem Netzwerk erzielt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Ashikhmin („Fast Texture Transfer”, IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) [0002]
Lee et al („Directional Texture Transfer”, NPAR 2010, 43 bis 50) [0002]
Xie et al („Feature Guided Synthesis for Artistic Style Transfer”, DIMEA 2007, 44 bis 49) [0002]
Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376 [0007]
Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035 [0008]
Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014 [0009]

Claims

Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend die Schritte: – Extrahieren zumindest einer Eigenschaft eines Quellbildes; – Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-invariante Eigenschaft ist.
Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass die nicht-lineare Transformation des Quellbildes auf einem neuronalen Netzwerk basiert.
Verfahren nach Patentanspruch 3, dadurch gekennzeichnet, dass das neuronale Netzwerk darauf trainiert ist, Objekte in einem Bild zu erkennen.
Verfahren nach Patentanspruch 3 oder 4, dadurch gekennzeichnet, dass das neuronale Netzwerk ein faltendes neuronales Netzwerk ist.
Verfahren nach Patentanspruch 5, dadurch gekennzeichnet, dass das neuronale Netzwerk das VGG-Netzwerk ist.
Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine Textur ist.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-variante Eigenschaft ist.
Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die orts-invariante Eigenschaft eine Korrelation zwischen orts-varianten, d. h. vom Ort abhängigen Eigenschaften eines Quellbildes darstellt.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das Ergebnisbild erzeugt wird, indem ein Bild gesucht wird, dessen Eigenschaften der oder den extrahierten Eigenschaften des oder der Quellbilder entsprechen.
Verfahren nach Patentanspruch 10, dadurch gekennzeichnet, dass die Bildsuche mit einem Gradientenverfahren erfolgt.
Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Zufallsbild initialisiert wird, wobei die Verteilung der Helligkeitswerte der Bildpunkte einem weißen Rauschen entspricht.
Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Quellbild initialisiert wird.
Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass der Gradient basierend auf der Eigenschaft des Quellbildes berechnet wird.
Verfahren nach Patentanspruch 14, dadurch gekennzeichnet, dass der Gradient ferner basierend auf einer Eigenschaft des Ergebnisbilds berechnet wird.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass es auf einem Computer implementiert ist.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das erzeugte Bild in einem sozialen Netzwerk bereitgestellt wird.
Computerprogramm-Produkt, umfassend eine Software mit Instruktionen zur Durchführung eines Verfahrens gemäß Patentanspruch 1 auf einem Computer.
Bildträger, hergestellt aus einem nicht-flüchtigen Material, der ein Bild trägt, das nach einem Verfahren gemäß Patentanspruch 1 erzeugt wurde.
Vorrichtung zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend – einen Extraktionsabschnitt zum Extrahieren zumindest einer Eigenschaft eines Quellbildes; – einen Erzeugungsabschnitt zum Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, – eine Ausgabeeinheit zur Ausgabe des erzeugten Ergebnisbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
Vorrichtung nach Patentanspruch 20, ferner umfassend eine digitale Kamera zur Erfassung von einem oder mehreren Quellbildern, welche dem Extraktionsabschnitt zugeführt werden.