DE102015009981A1 - Verfahren und Vorrichtung zur Bildsynthese - Google Patents

Verfahren und Vorrichtung zur Bildsynthese Download PDF

Info

Publication number
DE102015009981A1
DE102015009981A1 DE102015009981.7A DE102015009981A DE102015009981A1 DE 102015009981 A1 DE102015009981 A1 DE 102015009981A1 DE 102015009981 A DE102015009981 A DE 102015009981A DE 102015009981 A1 DE102015009981 A1 DE 102015009981A1
Authority
DE
Germany
Prior art keywords
image
property
source image
source
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102015009981.7A
Other languages
English (en)
Inventor
Matthias Bethge
Leon Gatys
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eberhard Karls Universitaet Tuebingen
Original Assignee
Eberhard Karls Universitaet Tuebingen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eberhard Karls Universitaet Tuebingen filed Critical Eberhard Karls Universitaet Tuebingen
Priority to DE102015009981.7A priority Critical patent/DE102015009981A1/de
Priority to EP16748287.6A priority patent/EP3329463B1/de
Priority to PCT/EP2016/068206 priority patent/WO2017021322A1/en
Publication of DE102015009981A1 publication Critical patent/DE102015009981A1/de
Priority to US15/880,750 priority patent/US11610351B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

Ein Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern umfasst die Schritte des Extrahierens zumindest einer Eigenschaft eines Quellbildes und des Erzeugens eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes. Gemäß der Erfindung wird die Eigenschaft des Quellbildes mit einer nicht-linearen Transformation des Quellbildes extrahiert.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Synthese eines Bildes, insbesondere zur Synthese eines Bildes, in welchem Eigenschaften eines Quellbildes, wie zum Beispiel eine Textur, auf ein Zielbild übertragen wurden.
  • Verfahren zur Übertragung der Textur eines Quellbildes auf Gegenstände eines Zielbildes sind im Stand der Technik bekannt. Ashikhmin („Fast Texture Transfer", IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) zeigt ein schnelles, auf Pixelebene arbeitendes Verfahren. Das ebenfalls pixelbasierte Verfahren von Lee et al („Directional Texture Transfer", NPAR 2010, 43 bis 50) verwendet den Gradienten des Zielbildes, um beispielsweise die Richtung von Pinselstrichen zu simulieren. Xie et al („Feature Guided Synthesis for Artistic Style Transfer", DIMEA 2007, 44 bis 49) zeigen ein Verfahren zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, basierend auf einem aus dem Zielbild erzeugten Merkmalsfeld aus grundlegenden statistischen Merkmalen. Keines der genannten Verfahren berücksichtigt sowohl lokale als auch globale Texturmerkmale des Quellbildes in gleicher Weise. Zudem sind die Verfahren abhängig von festen Annahmen über die Art der Textur.
  • Aufgabe der vorliegenden Erfindung ist daher, ein allgemeines, flexibles und effizientes Verfahren und eine Vorrichtung zur Bildsynthese bereit zu stellen, insbesondere zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, welches die lokalen und globalen Texturmerkmales des Quellbildes besser reproduziert, ohne die Identität der Objekte des Zielbildes wesentlich zu beinträchtigen.
  • Diese Aufgabe wird gelöst durch ein Verfahren und eine Vorrichtung nach den unabhängigen Patentansprüchen. Vorteilhafte Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen definiert.
  • Das erfindungsgemäße Verfahren beruht im Wesentlichen auf der Verwendung geeigneter nichtlinearer Transformationen des Quellbildes zur Extraktion relevanter Eigenschaften. Die Nichtlinearität erlaubt insbesondere, auch komplexere Eigenschaften des Quellbildes zu berücksichtigen. Die extrahierten Eigenschaften repräsentieren die Bildinformation so, dass semantische Bildinformation (z. B. Objekte) einfach (z. B. linear) dekodierbar sind, d. h. sie kann bereits mit einem linearen Klassifikator hinreichend genau beschrieben werden, was umgekehrt ihre effiziente Berücksichtigung bei der Bildsynthese sicherstellt. Damit erzielt das erfindungsgemäße Verfahren insgesamt eine hohe Güte der erzeugten Bilder bei verhältnismäßig geringem Aufwand. Werden die nichtlinearen Transformationen mit einem neuronalen Netzwerk realisiert, erreicht das erfindungsgemäße Verfahren überdies eine hohe Allgemeinheit und Flexibilität, da Bildmerkmale nicht vorgegeben werden müssen, sondern aus einem Satz von Trainingsdaten gelernt werden können.
  • 1A zeigt zunächst einen Überblick eines Verfahrens zur Extraktion von Inhaltseigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Die Merkmale eines oder mehrerer digitaler Quellbilder werden mit einem „faltenden” neuronalen Netzwerk (engl.: Convolutional Neural Network bzw. CNN) extrahiert. CNNs bestehen aus Schichten kleiner Berechnungseinheiten, die visuelle Informationen in einer vorwärtsverarbeitenden Weise hierarchisch verarbeiten. Jede Schicht von Einheiten kann gemäß der Erfindung als eine Menge von Bildfiltern verstanden werden, von welchen jede ein bestimmtes Merkmal aus dem eingegebenen Bild extrahiert. Daher besteht die Ausgabe einer gegebenen Schicht aus sog. „Merkmalsabbildungen” („feature maps”), d. h. unterschiedlich gefilterten Versionen des Eingangsbildes. Typischerweise nimmt die Anzahl von „feature maps” in jeder Schicht entlang der Verarbeitungshierarchie zu, aber ihre räumliche Ausdehnung kann mittels Downsampling verringert werden, um eine Reduktion der gesamten Anzahl von Einheiten pro Schicht zu erreichen. Da jede Schicht eine nicht-lineare Filteroperation auf der Ausgabe der vorhergehenden Schicht definiert, extrahieren Schichten weiter oben in der Hierarchie zunehmend komplexere Merkmale.
  • Das gemäß der vorliegenden Ausführungsform verwendete CNN ist auf Objekterkennung trainiert. In diesem Fall entwickelt das CNN eine Repräsentation des Bildes, welche Objektinformationen entlang der Verarbeitungshierarchie zunehmend explizit macht [Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376]. In jeder Schicht des Netzwerks wird das Eingangsbild durch eine Menge von Merkmalsabbildungen in dieser Schicht repräsentiert.
  • Diese in jeder Schicht über das Bild enthaltene Information kann direkt durch Rekonstruktion des Bildes ausschließlich aus diesen Merkmalsabbildungen visualisiert werden [Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035]. Rekonstruktionen aus den unteren Schichten sind nahezu perfekt, während Rekonstruktionen aus höheren Schichten die exakten Pixelwerte des Originalbildes weniger genau reproduzieren, während sie weiter seinen Inhalt erfassen. Ein gewisser Informationsverlust ist zu erwarten, wenn die Gesamtanzahl von Einheiten, welche das Bild repräsentieren, mit zunehmenden Schichten abnimmt. Da das Netzwerk auf die Erkennung von Objekten trainiert ist, sind seine Filter zudem optimiert, das Eingangsbild in eine Repräsentation umzuformen, in welchem Objektinformationen explizit gemacht sind. Daher wird das Eingangsbild entlang der Verarbeitungshierarchie des Netzwerks in Repräsentation transformiert, die zunehmend den semantischen Inhalt des Bildes expliziter repräsentieren, verglichen mit seinen detaillierten Pixelwerten.
  • Die Ergebnisse gemäß dem Ausführungsbeispiel der Erfindung, wurden auf Basis des frei verfügbaren VGG-Netzwerks [Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014] erzielt, welchen die Erfinder in geeigneter Weise modifiziert haben. Insbesondere wurde der Merkmalsraum verwendet, welcher durch die 16 faltenden und 5 pooling Schichten des 19-schichtigen VGG-Netzwerks bereitgestellt wird. Keine der voll verbundenen Schichten wurde verwendet. Für die Bildsynthese wurde die max. Pooling-Operation in dem bekannten Netzwerk erfindungsgemäß durch eine Durchschnitts-Pooling-Operation ersetzt, welche den Gradientenfluss verbessert und bessere Bildergebnisse liefert.
  • Im Allgemeinen definiert jede Schicht in dem Netzwerk eine nicht-lineare Filterbank, deren Komplexität mit der Position der Schicht in dem Netzwerk zunimmt. Daher wird ein gegebenes Eingangsbild x in jeder Schicht des CNN durch Filter antworten auf dieses Bild kodiert. Eine Schicht mit N1 unterschiedlichen Filtern hat N1 Merkmalsabbildungen der Größe M1, wobei M1 die Höhe mal der Breite der Merkmalsabbildungen ist. So können die Antworten in einer Schicht l in einer Matrix Fl Element R gespeichert werden, wobei Fij die Aktivierung des i-ten Filters an Position j in Schicht l ist.
  • Auf den Antworten des CNN in jeder Schicht des Netzwerks wird erfindungsgemäß eine Stilrepräsentation aufgebaut, welche die Korrelation zwischen unterschiedlichen Filterantworten berechnet, wobei der Erwartungswert über die räumliche Ausdehnung des Eingangsbildes genommen wird. Diese Merkmalskorrelation ist vorliegend durch die Gram-Matrix G gegeben, wobei G das innere Produkt zwischen der vektorisierten Merkmalsabbildung i und j in der Schicht l ist:
    Figure DE102015009981A1_0002
  • Durch Hinzunahme der Merkmalskorrelation mehrerer Schichten, wird eine stationäre, mehrskalige Repräsentation des Quellbildes erreicht, welche die Texturinformation des Bildes erfasst, aber nicht die globale Anordnung. Zusammenfassend werden damit aus den Schichten des Netzwerks zwei Merkmalsräume gebildet, welche Information über den Inhalt und den Stil eines gegebenen Quellbildes fassen. Zunächst erfasst die Aktivierung von Einheiten in den höheren Schichten des neuronalen Netzwerks hauptsächlich den Inhalt des Quellbildes, ohne detaillierte Pixelinformationen zu erfassen. Dann erfassen die Korrelationen zwischen unterschiedlichen Filterantworten in einer Anzahl von Schichten in dem Netzwerk die Stilinformation eines gegebenen Quellbildes. Diese Stil- oder Texturrepräsentation ignoriert die globale Anordnung des Quellbildes, erhält jedoch das allgemeine Erscheinungsbild im Hinblick auf Farbe und lokale Bildstrukturen.
  • Die Erfindung erlaubt damit, den Inhalt und Stil eines Bildes getrennt voneinander zu repräsentieren. Damit können Inhalt und Stil auch unabhängig voneinander manipuliert werden. Dies erlaubt insbesondere die Erzeugung neuer Bilder, welche den Inhalt beliebiger Fotographien mit dem Aussehen verschiedener Kunstwerke kombinieren.
  • 2 zeigt eine Übersicht eines Verfahrens zur Erzeugung eines Bildes gemäß einer Ausführungsform der Erfindung.
  • Um ein Bild zu erzeugen, welches den Inhalt eines Zielbildes, wie etwa einer Fotographie mit dem Stil eines Quellbildes, wie etwa eines gemalten Bildes mischt, kann eine Urbildsuche durchgeführt werden, die mit einem geeigneten Ausgangsbild initialisiert wird, beispielsweise einem Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, oder dem Quellbild oder dem Zielbild selbst als Ausgangsbild.
  • Dabei werden erfindungsgemäß der Abstand einer Inhalts- und einer Stilrepräsentation des Ausgangsbildes von einer Inhaltsrepräsentation der Zielbildes in einer Schicht des Netzwerks und der Stilrepräsentation des Quellbildes in einer Anzahl von Schichten des neuronalen Netzwerks gemeinsam minimiert.
  • Der jeweilige Abstand zwischen Inhalts- bzw. Stilmerkmalen des Ausgangsbildes und des Ziel- bzw. Quellbildes kann mittels geeigneter Verlustfunktionen Lcontent und Lstyle ausgedrückt werden. Wenn p → die Fotographie und a → das Kunstwerk ist, lautet die zu minimierende Gesamtverlustfunktion dann: Ltotal(p →, a →, x →) = αLcontent(p →, x →) + βLstyle(a →, x →) wobei α und β jeweils Gewichtungsfaktoren sind. Bevorzugt sind die Gewichtungsfaktoren stufenlos einstellbar, beispielsweise über einen Regler als Teil einer graphischen Benutzeroberfläche einer Software, welche das erfindungsgemäße Verfahren implementiert.
  • Eine stärkere Betonung des Stils ergibt Bilder, welche der Erscheinung des Kunstwerks entsprechen, ohne dem wesentlichen Inhalt des Zielbildes, d. h. der Fotografie zu zeigen. Bei starker Betonung des Inhalts kann die Fotografie klar identifiziert werden, jedoch entspricht der Stil weniger dem des Quellbildes.
  • 3 zeigt eine schematische Darstellung eines Verfahrens zur Synthese eines Bildes, basierend auf den extrahierten Eigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Ein Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, wird als Eingabe für das neuronale Netzwerk verwendet, um Merkmalsaktivierungen F in den Schichten l, a, b, c zu erhalten. Sodann werden zusammenfassende Statistiken G für die Schichten a, b, und c berechnet. In einem weiteren Schritt wird eine Verlustfunktion L die Schichten l, a, b und c berechnet. Der Verlust für das Zielbild in Schicht l ist von der Form Lcontent(F ^l, Fl) = 1 / 2Σi,j(F ^ l / ij – F l / ij)2.
  • Der Verlust für das Quellbild in Schicht a, b, c ist von der Form
    Figure DE102015009981A1_0003
  • Danach wird der Gradient des Verlusts in jeder Schicht mit Rücksicht auf die Merkmalsaktivierung F in dieser Schicht berechnet. Der Gradient für das Zielbild in Schicht l ist von der Form
    Figure DE102015009981A1_0004
  • Der Gradient für das Quellbild in Schichten a, b, c ist von der Form
    Figure DE102015009981A1_0005
  • Sodann werden die Gradienten mittels Fehlerrückpropagierung zurück durch das Netzwerk propagiert und der Gradient bezüglich des weißen Rauschbildes berechnet.
  • Danach wird das weiße Rauschbild angepasst, um den Verlust in Schichten l, a, b, c zu minimieren.
  • Dieses Verfahren wird mit dem angepassten Bild fortgesetzt, bis der Verlust einem geeigneten Abbruchkriterium genügt, beispielsweisend hinreichend klein wird.
  • In einer weiteren Ausführungsform der Erfindung kann die explizite und im Wesentlichen vom Inhalt getrennte Repräsentation des Stils eines Bildes auch als Basis für ein Verfahren zur Stilklassifikation bzw. zur Zuordnung von Kunstwerken zu einem bestimmten Künstler dienen. Dabei gewährleistet die Transformation des zu identifizierenden Quellbildes in einen stationären Merkmalsraum wie die Stilrepräsentation gemäß der Erfindung einen höheren Effizienzgrad als bekannte Ansätze, bei welchen Klassifikatoren direkt auf den primären Netzwerkaktivierungen arbeiten.
  • 4 zeigt Bilder, welche den Inhalt einer Fotografie mit dem Stil verschiedener wohlbekannter Kunstwerke kombinieren. Die Bilder wurden gemäß der Erfindung erzeugt durch Suche eines Bildes, das gleichzeitig zu der Inhaltsrepräsentation der Fotografie und der Stilrepräsentation des Kunstwerks passt. Die ursprüngliche Fotografie zeigt die Neckarfront in Tübingen, Deutschland, und ist in A gezeigt. Das Gemälde, welches den Stil für das jeweils erzeugte Bild bereitgestellt hat, ist in der linken unteren Ecke jedes Paneels gezeigt. Bei B wurde das Gemälde „The Shipwreck of the Minotaur” von J. M. W. Turner, 1805, verwendet. Bei C wurde die ”Sternennacht” von Vincent van Gogh, 1889, verwendet. Bei D wurde „Der Schrei” von Eduard Munch, 1893, verwendet. Bei E wurde die „nackte sitzende Frau” von Pablo Picasso verwendet und bei F wurde die „Komposition VII” von Wassily Kandinsky von 1913, verwendet.
  • Bei den in 4 gezeigten Bildern wurde eine Stilrepräsentation verwendet, welche Schichten aus der gesamten Netzwerkhierarchie beinhaltete. Alternativ kann Stil auch lokaler definiert werden, in dem nur eine kleinere Anzahl von unteren Schichten verwendet wird, was zu anderen visuellen Eindrücken führt. Wenn die Stilrepräsentation bis zu höheren Schichten in dem Netzwerk abgeglichen werden, werden lokale Bildstrukturen auf einer zunehmend größeren Skala abgeglichen, was zu einem visuell kontinuierlicheren Eindruck führt. Daher werden die visuell am meisten ansprechenden Bilder gewöhnlich durch Abgleich der Stilrepräsentation bis zu den höchsten Schichten in dem Netzwerk erzielt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Ashikhmin („Fast Texture Transfer”, IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) [0002]
    • Lee et al („Directional Texture Transfer”, NPAR 2010, 43 bis 50) [0002]
    • Xie et al („Feature Guided Synthesis for Artistic Style Transfer”, DIMEA 2007, 44 bis 49) [0002]
    • Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376 [0007]
    • Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035 [0008]
    • Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014 [0009]

Claims (21)

  1. Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend die Schritte: – Extrahieren zumindest einer Eigenschaft eines Quellbildes; – Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
  2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-invariante Eigenschaft ist.
  3. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass die nicht-lineare Transformation des Quellbildes auf einem neuronalen Netzwerk basiert.
  4. Verfahren nach Patentanspruch 3, dadurch gekennzeichnet, dass das neuronale Netzwerk darauf trainiert ist, Objekte in einem Bild zu erkennen.
  5. Verfahren nach Patentanspruch 3 oder 4, dadurch gekennzeichnet, dass das neuronale Netzwerk ein faltendes neuronales Netzwerk ist.
  6. Verfahren nach Patentanspruch 5, dadurch gekennzeichnet, dass das neuronale Netzwerk das VGG-Netzwerk ist.
  7. Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine Textur ist.
  8. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-variante Eigenschaft ist.
  9. Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die orts-invariante Eigenschaft eine Korrelation zwischen orts-varianten, d. h. vom Ort abhängigen Eigenschaften eines Quellbildes darstellt.
  10. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das Ergebnisbild erzeugt wird, indem ein Bild gesucht wird, dessen Eigenschaften der oder den extrahierten Eigenschaften des oder der Quellbilder entsprechen.
  11. Verfahren nach Patentanspruch 10, dadurch gekennzeichnet, dass die Bildsuche mit einem Gradientenverfahren erfolgt.
  12. Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Zufallsbild initialisiert wird, wobei die Verteilung der Helligkeitswerte der Bildpunkte einem weißen Rauschen entspricht.
  13. Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Quellbild initialisiert wird.
  14. Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass der Gradient basierend auf der Eigenschaft des Quellbildes berechnet wird.
  15. Verfahren nach Patentanspruch 14, dadurch gekennzeichnet, dass der Gradient ferner basierend auf einer Eigenschaft des Ergebnisbilds berechnet wird.
  16. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass es auf einem Computer implementiert ist.
  17. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das erzeugte Bild in einem sozialen Netzwerk bereitgestellt wird.
  18. Computerprogramm-Produkt, umfassend eine Software mit Instruktionen zur Durchführung eines Verfahrens gemäß Patentanspruch 1 auf einem Computer.
  19. Bildträger, hergestellt aus einem nicht-flüchtigen Material, der ein Bild trägt, das nach einem Verfahren gemäß Patentanspruch 1 erzeugt wurde.
  20. Vorrichtung zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend – einen Extraktionsabschnitt zum Extrahieren zumindest einer Eigenschaft eines Quellbildes; – einen Erzeugungsabschnitt zum Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, – eine Ausgabeeinheit zur Ausgabe des erzeugten Ergebnisbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
  21. Vorrichtung nach Patentanspruch 20, ferner umfassend eine digitale Kamera zur Erfassung von einem oder mehreren Quellbildern, welche dem Extraktionsabschnitt zugeführt werden.
DE102015009981.7A 2015-07-31 2015-07-31 Verfahren und Vorrichtung zur Bildsynthese Pending DE102015009981A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102015009981.7A DE102015009981A1 (de) 2015-07-31 2015-07-31 Verfahren und Vorrichtung zur Bildsynthese
EP16748287.6A EP3329463B1 (de) 2015-07-31 2016-07-29 Verfahren und vorrichtung zur bildsynthese
PCT/EP2016/068206 WO2017021322A1 (en) 2015-07-31 2016-07-29 Method and device for image synthesis
US15/880,750 US11610351B2 (en) 2015-07-31 2018-01-26 Method and device for image synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102015009981.7A DE102015009981A1 (de) 2015-07-31 2015-07-31 Verfahren und Vorrichtung zur Bildsynthese

Publications (1)

Publication Number Publication Date
DE102015009981A1 true DE102015009981A1 (de) 2017-02-02

Family

ID=56615950

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015009981.7A Pending DE102015009981A1 (de) 2015-07-31 2015-07-31 Verfahren und Vorrichtung zur Bildsynthese

Country Status (4)

Country Link
US (1) US11610351B2 (de)
EP (1) EP3329463B1 (de)
DE (1) DE102015009981A1 (de)
WO (1) WO2017021322A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110780A (zh) * 2019-04-30 2019-08-09 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147459B2 (en) 2016-09-22 2018-12-04 Apple Inc. Artistic style transfer for videos
US10198839B2 (en) 2016-09-22 2019-02-05 Apple Inc. Style transfer-based image content correction
CN108734749A (zh) * 2017-04-20 2018-11-02 微软技术许可有限责任公司 图像的视觉风格变换
CN107392842B (zh) * 2017-06-30 2021-05-21 北京奇虎科技有限公司 图像风格化处理方法、装置、计算设备及计算机存储介质
US10832387B2 (en) * 2017-07-19 2020-11-10 Petuum Inc. Real-time intelligent image manipulation system
CN110914834B (zh) 2017-08-01 2024-04-16 3M创新有限公司 用于图像变型和识别的神经风格迁移
CN109426858B (zh) * 2017-08-29 2021-04-06 京东方科技集团股份有限公司 神经网络、训练方法、图像处理方法及图像处理装置
US10664718B1 (en) 2017-09-11 2020-05-26 Apple Inc. Real-time adjustment of hybrid DNN style transfer networks
CN107895191B (zh) 2017-10-30 2022-02-22 上海寒武纪信息科技有限公司 一种信息处理方法及相关产品
US10896307B2 (en) 2017-11-07 2021-01-19 Digimarc Corporation Generating and reading optical codes with variable density to adapt for visual quality and reliability
US10872392B2 (en) 2017-11-07 2020-12-22 Digimarc Corporation Generating artistic designs encoded with robust, machine-readable data
CN107886491A (zh) * 2017-11-27 2018-04-06 深圳市唯特视科技有限公司 一种基于像素最近邻的图像合成方法
WO2019113471A1 (en) 2017-12-08 2019-06-13 Digimarc Corporation Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork
US20190213705A1 (en) 2017-12-08 2019-07-11 Digimarc Corporation Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork
KR20190078543A (ko) * 2017-12-26 2019-07-04 삼성전자주식회사 이미지 획득 장치 및 그의 제어 방법
US11328396B2 (en) 2017-12-26 2022-05-10 Samsung Electronics Co., Ltd. Image acquisition device and method of controlling the same
US10839262B2 (en) 2018-04-24 2020-11-17 Here Global B.V. Machine learning a feature detector using synthetic training data
EP3815048B1 (de) 2018-06-08 2024-01-31 Digimarc Corporation Erzeugung eines künstlerischen signalträgerelements mit punktierungs-, voronoi- und delaunay-verfahren und lesen davon
CN108920623B (zh) * 2018-06-29 2020-09-29 深圳软通动力科技有限公司 一种数据挖掘方法及装置
CN108846386B (zh) * 2018-07-10 2022-06-24 深圳市前海手绘科技文化有限公司 一种手绘图案智能识别和纠正方法
KR102543650B1 (ko) * 2018-07-30 2023-06-15 주식회사 엔씨소프트 모션 합성 장치 및 모션 합성 방법
US10963748B1 (en) * 2018-08-31 2021-03-30 Snap Inc. Generative neural network distillation
US10789769B2 (en) 2018-09-05 2020-09-29 Cyberlink Corp. Systems and methods for image style transfer utilizing image mask pre-processing
US11996105B2 (en) 2018-09-13 2024-05-28 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN109472270B (zh) * 2018-10-31 2021-09-24 京东方科技集团股份有限公司 图像风格转换方法、装置及设备
DE102018127383A1 (de) 2018-11-02 2020-05-07 Universität Bremen Datenverarbeitungsvorrichtung mit einem künstlichen neuronalen Netzwerk und Verfahren zur Datenverarbeitung
US11354791B2 (en) * 2018-12-19 2022-06-07 General Electric Company Methods and system for transforming medical images into different styled images with deep neural networks
CN109670476A (zh) * 2018-12-28 2019-04-23 网易(杭州)网络有限公司 用户头像的生成方法及装置、电子设备、存储介质
CN111383289A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 图像处理方法、装置、终端设备及计算机可读存储介质
KR102586014B1 (ko) * 2019-03-05 2023-10-10 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11367163B2 (en) 2019-05-31 2022-06-21 Apple Inc. Enhanced image processing techniques for deep neural networks
TWI723547B (zh) * 2019-09-19 2021-04-01 宏碁股份有限公司 風格移轉的方法及其電腦程式產品
KR102623148B1 (ko) * 2019-10-15 2024-01-11 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102172644B1 (ko) * 2020-01-13 2020-11-02 (주)에스프레소미디어 스타일 변환 외부 연동 시스템, 그리고 스타일 변환 외부 연동 서버
EP4162449A1 (de) * 2020-06-05 2023-04-12 Unity IPR APS Verfahren und systeme für den optimalen transport nichtlinearer transformationen
EP4029579A1 (de) * 2021-01-18 2022-07-20 Société BIC Erzeugung von druckvorlagentutorials
WO2022183730A1 (zh) * 2021-03-05 2022-09-09 上海商汤智能科技有限公司 图像分割方法、装置、电子设备及计算机可读存储介质
WO2023082162A1 (zh) * 2021-11-12 2023-05-19 华为技术有限公司 图像处理方法和装置
CN114926322B (zh) * 2022-05-12 2024-03-15 北京百度网讯科技有限公司 图像生成方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6977659B2 (en) * 2001-10-11 2005-12-20 At & T Corp. Texture replacement in video sequences and images

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035
Ashikhmin („Fast Texture Transfer", IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43)
DRORI, I. [et al.]: Example-Based Style Synthesis. Proc. Of the 2003 IEEE Computer Society Conference on Computer Vision on Pattern Recognition (CVPR ’03), 2003, Vol. 2, S. 143-150.
DRORI, I. [et al.]: Example-Based Style Synthesis. Proc. Of the 2003 IEEE Computer Society Conference on Computer Vision on Pattern Recognition (CVPR '03), 2003, Vol. 2, S. 143-150. *
GATYS, L. A.: [et al.]: Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv.org-Eintrag vom 27.5.2015, im Internet verfügbar unter der URL http://arxiv.org/abs/1505.07376 , [recherchiert am 27.11.2015]. *
Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014
Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376
MORDVINTSEV, A. [et al.]: Inceptionism: Going Deeper into Neural Networks. Google Research Blog vom 17.6.2015, im Internet verfügbar am 4.7.2015 unter der URLhttps://web.archive.org/web/20150704083023/http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html ,[recherchiert am 27.11.2015]. *
XIAO, X. [et al.]: Color Transfer in Correlated Color Space. In: Proceedings of the 2006 ACM international conference on Virtual reality continuum and its applications, Hong Kong, 14-17 June 2006, S. 305-309. *
Xie et al („Feature Guided Synthesis for Artistic Style Transfer", DIMEA 2007, 44 bis 49)
ZHANG, W. [et al.]: Style Transfer Via Image Component Analysis. IEEE Trans. On Multimedia, Vol. 15, 2013, S. 1594-1601. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110780A (zh) * 2019-04-30 2019-08-09 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN110110780B (zh) * 2019-04-30 2023-04-07 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法

Also Published As

Publication number Publication date
US20180158224A1 (en) 2018-06-07
EP3329463A1 (de) 2018-06-06
WO2017021322A1 (en) 2017-02-09
US11610351B2 (en) 2023-03-21
EP3329463B1 (de) 2022-06-08

Similar Documents

Publication Publication Date Title
DE102015009981A1 (de) Verfahren und Vorrichtung zur Bildsynthese
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE10197062B4 (de) Bildextraktion aus komplexen Szenen bei digitalen Videos
DE102018006317A1 (de) Tiefe neurale Netzwerke für hervorstechenden Inhalt für eine effiziente Segmentierung eines digitalen Objekts
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
EP3336800B1 (de) Bestimmen einer trainingsfunktion zum generieren von annotierten trainingsbildern
CN106934766A (zh) 一种基于稀疏表示的红外图像超分辨率重建方法
DE102018006247A1 (de) Digitalbildvervollständigung unter Verwendung des Deep Learning
DE102017009049A1 (de) Ermöglichen von Transformationen Skizze-zu-Gemälde
DE102018111407A1 (de) Methode zum maschinellen lernen für automatisches modellieren von mehrwertigen ausgaben
DE112007002225B4 (de) Erstellen und Codieren von Glyphen
CN110097617B (zh) 基于卷积神经网络与显著性权重的图像融合方法
Yin Content aware neural style transfer
DE112019001702T5 (de) Verfahren, systeme, herstellungsgegenstände und vorrichtungen zur erzeugung digitaler szenen
CN112184606A (zh) 一种基于拉普拉斯金字塔的可见光图像与红外图像融合方法
DE102021203021A1 (de) Semantisch konsistente erweiterte trainingsdaten zur ampelerkennung
DE102022113243A1 (de) Score-basierte generative Modellierung im latenten Raum
DE102005060503A1 (de) Verfahren und Vorrichtung für die effiziente Berechnung von Morphologie-Operationen
DE10250781B4 (de) Verfahren und Vorrichtung zur automatischen Segmentierung eines Vordergrundobjektes in einem Bild
DE112020006088T5 (de) Computerimplementiertes verfahren zum umwandeln eines eingangsbildes in ein ausgangsbild basierend auf einem referenzbild
Liu et al. Infrared and visible image fusion with edge detail implantation
Wang et al. Selective extraction of entangled textures via adaptive PDE transform
DE102020110243A1 (de) Computerimplementiertes Verfahren zur Datenaugmentation
DE102018128088A1 (de) Bilaterales konvolutionsschichtnetz zur verarbeitung von punktwolken
DE102017003942B4 (de) Steuerung einer Patchnutzung bei der Bildsynthese

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R016 Response to examination communication