DE102015009981A1 - Verfahren und Vorrichtung zur Bildsynthese - Google Patents
Verfahren und Vorrichtung zur Bildsynthese Download PDFInfo
- Publication number
- DE102015009981A1 DE102015009981A1 DE102015009981.7A DE102015009981A DE102015009981A1 DE 102015009981 A1 DE102015009981 A1 DE 102015009981A1 DE 102015009981 A DE102015009981 A DE 102015009981A DE 102015009981 A1 DE102015009981 A1 DE 102015009981A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- property
- source image
- source
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
Ein Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern umfasst die Schritte des Extrahierens zumindest einer Eigenschaft eines Quellbildes und des Erzeugens eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes. Gemäß der Erfindung wird die Eigenschaft des Quellbildes mit einer nicht-linearen Transformation des Quellbildes extrahiert.
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Synthese eines Bildes, insbesondere zur Synthese eines Bildes, in welchem Eigenschaften eines Quellbildes, wie zum Beispiel eine Textur, auf ein Zielbild übertragen wurden.
- Verfahren zur Übertragung der Textur eines Quellbildes auf Gegenstände eines Zielbildes sind im Stand der Technik bekannt. Ashikhmin („Fast Texture Transfer", IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) zeigt ein schnelles, auf Pixelebene arbeitendes Verfahren. Das ebenfalls pixelbasierte Verfahren von Lee et al („Directional Texture Transfer", NPAR 2010, 43 bis 50) verwendet den Gradienten des Zielbildes, um beispielsweise die Richtung von Pinselstrichen zu simulieren. Xie et al („Feature Guided Synthesis for Artistic Style Transfer", DIMEA 2007, 44 bis 49) zeigen ein Verfahren zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, basierend auf einem aus dem Zielbild erzeugten Merkmalsfeld aus grundlegenden statistischen Merkmalen. Keines der genannten Verfahren berücksichtigt sowohl lokale als auch globale Texturmerkmale des Quellbildes in gleicher Weise. Zudem sind die Verfahren abhängig von festen Annahmen über die Art der Textur.
- Aufgabe der vorliegenden Erfindung ist daher, ein allgemeines, flexibles und effizientes Verfahren und eine Vorrichtung zur Bildsynthese bereit zu stellen, insbesondere zur Übertragung von Textureigenschaften eines Quellbildes auf ein Zielbild, welches die lokalen und globalen Texturmerkmales des Quellbildes besser reproduziert, ohne die Identität der Objekte des Zielbildes wesentlich zu beinträchtigen.
- Diese Aufgabe wird gelöst durch ein Verfahren und eine Vorrichtung nach den unabhängigen Patentansprüchen. Vorteilhafte Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen definiert.
- Das erfindungsgemäße Verfahren beruht im Wesentlichen auf der Verwendung geeigneter nichtlinearer Transformationen des Quellbildes zur Extraktion relevanter Eigenschaften. Die Nichtlinearität erlaubt insbesondere, auch komplexere Eigenschaften des Quellbildes zu berücksichtigen. Die extrahierten Eigenschaften repräsentieren die Bildinformation so, dass semantische Bildinformation (z. B. Objekte) einfach (z. B. linear) dekodierbar sind, d. h. sie kann bereits mit einem linearen Klassifikator hinreichend genau beschrieben werden, was umgekehrt ihre effiziente Berücksichtigung bei der Bildsynthese sicherstellt. Damit erzielt das erfindungsgemäße Verfahren insgesamt eine hohe Güte der erzeugten Bilder bei verhältnismäßig geringem Aufwand. Werden die nichtlinearen Transformationen mit einem neuronalen Netzwerk realisiert, erreicht das erfindungsgemäße Verfahren überdies eine hohe Allgemeinheit und Flexibilität, da Bildmerkmale nicht vorgegeben werden müssen, sondern aus einem Satz von Trainingsdaten gelernt werden können.
-
1A zeigt zunächst einen Überblick eines Verfahrens zur Extraktion von Inhaltseigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Die Merkmale eines oder mehrerer digitaler Quellbilder werden mit einem „faltenden” neuronalen Netzwerk (engl.: Convolutional Neural Network bzw. CNN) extrahiert. CNNs bestehen aus Schichten kleiner Berechnungseinheiten, die visuelle Informationen in einer vorwärtsverarbeitenden Weise hierarchisch verarbeiten. Jede Schicht von Einheiten kann gemäß der Erfindung als eine Menge von Bildfiltern verstanden werden, von welchen jede ein bestimmtes Merkmal aus dem eingegebenen Bild extrahiert. Daher besteht die Ausgabe einer gegebenen Schicht aus sog. „Merkmalsabbildungen” („feature maps”), d. h. unterschiedlich gefilterten Versionen des Eingangsbildes. Typischerweise nimmt die Anzahl von „feature maps” in jeder Schicht entlang der Verarbeitungshierarchie zu, aber ihre räumliche Ausdehnung kann mittels Downsampling verringert werden, um eine Reduktion der gesamten Anzahl von Einheiten pro Schicht zu erreichen. Da jede Schicht eine nicht-lineare Filteroperation auf der Ausgabe der vorhergehenden Schicht definiert, extrahieren Schichten weiter oben in der Hierarchie zunehmend komplexere Merkmale. - Das gemäß der vorliegenden Ausführungsform verwendete CNN ist auf Objekterkennung trainiert. In diesem Fall entwickelt das CNN eine Repräsentation des Bildes, welche Objektinformationen entlang der Verarbeitungshierarchie zunehmend explizit macht [Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376]. In jeder Schicht des Netzwerks wird das Eingangsbild durch eine Menge von Merkmalsabbildungen in dieser Schicht repräsentiert.
- Diese in jeder Schicht über das Bild enthaltene Information kann direkt durch Rekonstruktion des Bildes ausschließlich aus diesen Merkmalsabbildungen visualisiert werden [Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035]. Rekonstruktionen aus den unteren Schichten sind nahezu perfekt, während Rekonstruktionen aus höheren Schichten die exakten Pixelwerte des Originalbildes weniger genau reproduzieren, während sie weiter seinen Inhalt erfassen. Ein gewisser Informationsverlust ist zu erwarten, wenn die Gesamtanzahl von Einheiten, welche das Bild repräsentieren, mit zunehmenden Schichten abnimmt. Da das Netzwerk auf die Erkennung von Objekten trainiert ist, sind seine Filter zudem optimiert, das Eingangsbild in eine Repräsentation umzuformen, in welchem Objektinformationen explizit gemacht sind. Daher wird das Eingangsbild entlang der Verarbeitungshierarchie des Netzwerks in Repräsentation transformiert, die zunehmend den semantischen Inhalt des Bildes expliziter repräsentieren, verglichen mit seinen detaillierten Pixelwerten.
- Die Ergebnisse gemäß dem Ausführungsbeispiel der Erfindung, wurden auf Basis des frei verfügbaren VGG-Netzwerks [Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014] erzielt, welchen die Erfinder in geeigneter Weise modifiziert haben. Insbesondere wurde der Merkmalsraum verwendet, welcher durch die 16 faltenden und 5 pooling Schichten des 19-schichtigen VGG-Netzwerks bereitgestellt wird. Keine der voll verbundenen Schichten wurde verwendet. Für die Bildsynthese wurde die max. Pooling-Operation in dem bekannten Netzwerk erfindungsgemäß durch eine Durchschnitts-Pooling-Operation ersetzt, welche den Gradientenfluss verbessert und bessere Bildergebnisse liefert.
- Im Allgemeinen definiert jede Schicht in dem Netzwerk eine nicht-lineare Filterbank, deren Komplexität mit der Position der Schicht in dem Netzwerk zunimmt. Daher wird ein gegebenes Eingangsbild x in jeder Schicht des CNN durch Filter antworten auf dieses Bild kodiert. Eine Schicht mit N1 unterschiedlichen Filtern hat N1 Merkmalsabbildungen der Größe M1, wobei M1 die Höhe mal der Breite der Merkmalsabbildungen ist. So können die Antworten in einer Schicht l in einer Matrix Fl Element R gespeichert werden, wobei Fij die Aktivierung des i-ten Filters an Position j in Schicht l ist.
- Auf den Antworten des CNN in jeder Schicht des Netzwerks wird erfindungsgemäß eine Stilrepräsentation aufgebaut, welche die Korrelation zwischen unterschiedlichen Filterantworten berechnet, wobei der Erwartungswert über die räumliche Ausdehnung des Eingangsbildes genommen wird. Diese Merkmalskorrelation ist vorliegend durch die Gram-Matrix G gegeben, wobei G das innere Produkt zwischen der vektorisierten Merkmalsabbildung i und j in der Schicht l ist:
- Durch Hinzunahme der Merkmalskorrelation mehrerer Schichten, wird eine stationäre, mehrskalige Repräsentation des Quellbildes erreicht, welche die Texturinformation des Bildes erfasst, aber nicht die globale Anordnung. Zusammenfassend werden damit aus den Schichten des Netzwerks zwei Merkmalsräume gebildet, welche Information über den Inhalt und den Stil eines gegebenen Quellbildes fassen. Zunächst erfasst die Aktivierung von Einheiten in den höheren Schichten des neuronalen Netzwerks hauptsächlich den Inhalt des Quellbildes, ohne detaillierte Pixelinformationen zu erfassen. Dann erfassen die Korrelationen zwischen unterschiedlichen Filterantworten in einer Anzahl von Schichten in dem Netzwerk die Stilinformation eines gegebenen Quellbildes. Diese Stil- oder Texturrepräsentation ignoriert die globale Anordnung des Quellbildes, erhält jedoch das allgemeine Erscheinungsbild im Hinblick auf Farbe und lokale Bildstrukturen.
- Die Erfindung erlaubt damit, den Inhalt und Stil eines Bildes getrennt voneinander zu repräsentieren. Damit können Inhalt und Stil auch unabhängig voneinander manipuliert werden. Dies erlaubt insbesondere die Erzeugung neuer Bilder, welche den Inhalt beliebiger Fotographien mit dem Aussehen verschiedener Kunstwerke kombinieren.
-
2 zeigt eine Übersicht eines Verfahrens zur Erzeugung eines Bildes gemäß einer Ausführungsform der Erfindung. - Um ein Bild zu erzeugen, welches den Inhalt eines Zielbildes, wie etwa einer Fotographie mit dem Stil eines Quellbildes, wie etwa eines gemalten Bildes mischt, kann eine Urbildsuche durchgeführt werden, die mit einem geeigneten Ausgangsbild initialisiert wird, beispielsweise einem Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, oder dem Quellbild oder dem Zielbild selbst als Ausgangsbild.
- Dabei werden erfindungsgemäß der Abstand einer Inhalts- und einer Stilrepräsentation des Ausgangsbildes von einer Inhaltsrepräsentation der Zielbildes in einer Schicht des Netzwerks und der Stilrepräsentation des Quellbildes in einer Anzahl von Schichten des neuronalen Netzwerks gemeinsam minimiert.
- Der jeweilige Abstand zwischen Inhalts- bzw. Stilmerkmalen des Ausgangsbildes und des Ziel- bzw. Quellbildes kann mittels geeigneter Verlustfunktionen Lcontent und Lstyle ausgedrückt werden. Wenn p → die Fotographie und a → das Kunstwerk ist, lautet die zu minimierende Gesamtverlustfunktion dann:
Ltotal(p →, a →, x →) = αLcontent(p →, x →) + βLstyle(a →, x →) - Eine stärkere Betonung des Stils ergibt Bilder, welche der Erscheinung des Kunstwerks entsprechen, ohne dem wesentlichen Inhalt des Zielbildes, d. h. der Fotografie zu zeigen. Bei starker Betonung des Inhalts kann die Fotografie klar identifiziert werden, jedoch entspricht der Stil weniger dem des Quellbildes.
-
3 zeigt eine schematische Darstellung eines Verfahrens zur Synthese eines Bildes, basierend auf den extrahierten Eigenschaften gemäß einem Ausführungsbeispiel der Erfindung. Ein Zufallsbild, dessen Helligkeitswerte gemäß einem weißen Rauschen verteilt sind, wird als Eingabe für das neuronale Netzwerk verwendet, um Merkmalsaktivierungen F in den Schichten l, a, b, c zu erhalten. Sodann werden zusammenfassende Statistiken G für die Schichten a, b, und c berechnet. In einem weiteren Schritt wird eine Verlustfunktion L die Schichten l, a, b und c berechnet. Der Verlust für das Zielbild in Schicht l ist von der FormLcontent(F ^l, Fl) = 1 / 2Σi,j(F ^ l / ij – F l / ij)2. -
-
-
- Sodann werden die Gradienten mittels Fehlerrückpropagierung zurück durch das Netzwerk propagiert und der Gradient bezüglich des weißen Rauschbildes berechnet.
- Danach wird das weiße Rauschbild angepasst, um den Verlust in Schichten l, a, b, c zu minimieren.
- Dieses Verfahren wird mit dem angepassten Bild fortgesetzt, bis der Verlust einem geeigneten Abbruchkriterium genügt, beispielsweisend hinreichend klein wird.
- In einer weiteren Ausführungsform der Erfindung kann die explizite und im Wesentlichen vom Inhalt getrennte Repräsentation des Stils eines Bildes auch als Basis für ein Verfahren zur Stilklassifikation bzw. zur Zuordnung von Kunstwerken zu einem bestimmten Künstler dienen. Dabei gewährleistet die Transformation des zu identifizierenden Quellbildes in einen stationären Merkmalsraum wie die Stilrepräsentation gemäß der Erfindung einen höheren Effizienzgrad als bekannte Ansätze, bei welchen Klassifikatoren direkt auf den primären Netzwerkaktivierungen arbeiten.
-
4 zeigt Bilder, welche den Inhalt einer Fotografie mit dem Stil verschiedener wohlbekannter Kunstwerke kombinieren. Die Bilder wurden gemäß der Erfindung erzeugt durch Suche eines Bildes, das gleichzeitig zu der Inhaltsrepräsentation der Fotografie und der Stilrepräsentation des Kunstwerks passt. Die ursprüngliche Fotografie zeigt die Neckarfront in Tübingen, Deutschland, und ist in A gezeigt. Das Gemälde, welches den Stil für das jeweils erzeugte Bild bereitgestellt hat, ist in der linken unteren Ecke jedes Paneels gezeigt. Bei B wurde das Gemälde „The Shipwreck of the Minotaur” von J. M. W. Turner, 1805, verwendet. Bei C wurde die ”Sternennacht” von Vincent van Gogh, 1889, verwendet. Bei D wurde „Der Schrei” von Eduard Munch, 1893, verwendet. Bei E wurde die „nackte sitzende Frau” von Pablo Picasso verwendet und bei F wurde die „Komposition VII” von Wassily Kandinsky von 1913, verwendet. - Bei den in
4 gezeigten Bildern wurde eine Stilrepräsentation verwendet, welche Schichten aus der gesamten Netzwerkhierarchie beinhaltete. Alternativ kann Stil auch lokaler definiert werden, in dem nur eine kleinere Anzahl von unteren Schichten verwendet wird, was zu anderen visuellen Eindrücken führt. Wenn die Stilrepräsentation bis zu höheren Schichten in dem Netzwerk abgeglichen werden, werden lokale Bildstrukturen auf einer zunehmend größeren Skala abgeglichen, was zu einem visuell kontinuierlicheren Eindruck führt. Daher werden die visuell am meisten ansprechenden Bilder gewöhnlich durch Abgleich der Stilrepräsentation bis zu den höchsten Schichten in dem Netzwerk erzielt. - ZITATE ENTHALTEN IN DER BESCHREIBUNG
- Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
- Zitierte Nicht-Patentliteratur
-
- Ashikhmin („Fast Texture Transfer”, IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) [0002]
- Lee et al („Directional Texture Transfer”, NPAR 2010, 43 bis 50) [0002]
- Xie et al („Feature Guided Synthesis for Artistic Style Transfer”, DIMEA 2007, 44 bis 49) [0002]
- Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376 [0007]
- Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035 [0008]
- Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014 [0009]
Claims (21)
- Verfahren zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend die Schritte: – Extrahieren zumindest einer Eigenschaft eines Quellbildes; – Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
- Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-invariante Eigenschaft ist.
- Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, dass die nicht-lineare Transformation des Quellbildes auf einem neuronalen Netzwerk basiert.
- Verfahren nach Patentanspruch 3, dadurch gekennzeichnet, dass das neuronale Netzwerk darauf trainiert ist, Objekte in einem Bild zu erkennen.
- Verfahren nach Patentanspruch 3 oder 4, dadurch gekennzeichnet, dass das neuronale Netzwerk ein faltendes neuronales Netzwerk ist.
- Verfahren nach Patentanspruch 5, dadurch gekennzeichnet, dass das neuronale Netzwerk das VGG-Netzwerk ist.
- Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine Textur ist.
- Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes eine orts-variante Eigenschaft ist.
- Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass die orts-invariante Eigenschaft eine Korrelation zwischen orts-varianten, d. h. vom Ort abhängigen Eigenschaften eines Quellbildes darstellt.
- Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das Ergebnisbild erzeugt wird, indem ein Bild gesucht wird, dessen Eigenschaften der oder den extrahierten Eigenschaften des oder der Quellbilder entsprechen.
- Verfahren nach Patentanspruch 10, dadurch gekennzeichnet, dass die Bildsuche mit einem Gradientenverfahren erfolgt.
- Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Zufallsbild initialisiert wird, wobei die Verteilung der Helligkeitswerte der Bildpunkte einem weißen Rauschen entspricht.
- Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass das Gradientenverfahren mit einem Quellbild initialisiert wird.
- Verfahren nach Patentanspruch 11, dadurch gekennzeichnet, dass der Gradient basierend auf der Eigenschaft des Quellbildes berechnet wird.
- Verfahren nach Patentanspruch 14, dadurch gekennzeichnet, dass der Gradient ferner basierend auf einer Eigenschaft des Ergebnisbilds berechnet wird.
- Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass es auf einem Computer implementiert ist.
- Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass das erzeugte Bild in einem sozialen Netzwerk bereitgestellt wird.
- Computerprogramm-Produkt, umfassend eine Software mit Instruktionen zur Durchführung eines Verfahrens gemäß Patentanspruch 1 auf einem Computer.
- Bildträger, hergestellt aus einem nicht-flüchtigen Material, der ein Bild trägt, das nach einem Verfahren gemäß Patentanspruch 1 erzeugt wurde.
- Vorrichtung zur Bilderzeugung aus einem oder mehreren Quellbildern, umfassend – einen Extraktionsabschnitt zum Extrahieren zumindest einer Eigenschaft eines Quellbildes; – einen Erzeugungsabschnitt zum Erzeugen eines Ergebnisbildes, basierend auf der Eigenschaft des Quellbildes, – eine Ausgabeeinheit zur Ausgabe des erzeugten Ergebnisbildes, dadurch gekennzeichnet, dass die Eigenschaft des Quellbildes mit einer nichtlinearen Transformation des Quellbildes extrahiert wird.
- Vorrichtung nach Patentanspruch 20, ferner umfassend eine digitale Kamera zur Erfassung von einem oder mehreren Quellbildern, welche dem Extraktionsabschnitt zugeführt werden.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015009981.7A DE102015009981A1 (de) | 2015-07-31 | 2015-07-31 | Verfahren und Vorrichtung zur Bildsynthese |
EP16748287.6A EP3329463B1 (de) | 2015-07-31 | 2016-07-29 | Verfahren und vorrichtung zur bildsynthese |
PCT/EP2016/068206 WO2017021322A1 (en) | 2015-07-31 | 2016-07-29 | Method and device for image synthesis |
US15/880,750 US11610351B2 (en) | 2015-07-31 | 2018-01-26 | Method and device for image synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015009981.7A DE102015009981A1 (de) | 2015-07-31 | 2015-07-31 | Verfahren und Vorrichtung zur Bildsynthese |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102015009981A1 true DE102015009981A1 (de) | 2017-02-02 |
Family
ID=56615950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102015009981.7A Pending DE102015009981A1 (de) | 2015-07-31 | 2015-07-31 | Verfahren und Vorrichtung zur Bildsynthese |
Country Status (4)
Country | Link |
---|---|
US (1) | US11610351B2 (de) |
EP (1) | EP3329463B1 (de) |
DE (1) | DE102015009981A1 (de) |
WO (1) | WO2017021322A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110780A (zh) * | 2019-04-30 | 2019-08-09 | 南开大学 | 一种基于对抗神经网络和海量噪声数据的图片分类方法 |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147459B2 (en) | 2016-09-22 | 2018-12-04 | Apple Inc. | Artistic style transfer for videos |
US10198839B2 (en) | 2016-09-22 | 2019-02-05 | Apple Inc. | Style transfer-based image content correction |
CN108734749A (zh) * | 2017-04-20 | 2018-11-02 | 微软技术许可有限责任公司 | 图像的视觉风格变换 |
CN107392842B (zh) * | 2017-06-30 | 2021-05-21 | 北京奇虎科技有限公司 | 图像风格化处理方法、装置、计算设备及计算机存储介质 |
US10832387B2 (en) * | 2017-07-19 | 2020-11-10 | Petuum Inc. | Real-time intelligent image manipulation system |
CN110914834B (zh) | 2017-08-01 | 2024-04-16 | 3M创新有限公司 | 用于图像变型和识别的神经风格迁移 |
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
US10664718B1 (en) | 2017-09-11 | 2020-05-26 | Apple Inc. | Real-time adjustment of hybrid DNN style transfer networks |
CN107895191B (zh) | 2017-10-30 | 2022-02-22 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
US10896307B2 (en) | 2017-11-07 | 2021-01-19 | Digimarc Corporation | Generating and reading optical codes with variable density to adapt for visual quality and reliability |
US10872392B2 (en) | 2017-11-07 | 2020-12-22 | Digimarc Corporation | Generating artistic designs encoded with robust, machine-readable data |
CN107886491A (zh) * | 2017-11-27 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于像素最近邻的图像合成方法 |
WO2019113471A1 (en) | 2017-12-08 | 2019-06-13 | Digimarc Corporation | Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork |
US20190213705A1 (en) | 2017-12-08 | 2019-07-11 | Digimarc Corporation | Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork |
KR20190078543A (ko) * | 2017-12-26 | 2019-07-04 | 삼성전자주식회사 | 이미지 획득 장치 및 그의 제어 방법 |
US11328396B2 (en) | 2017-12-26 | 2022-05-10 | Samsung Electronics Co., Ltd. | Image acquisition device and method of controlling the same |
US10839262B2 (en) | 2018-04-24 | 2020-11-17 | Here Global B.V. | Machine learning a feature detector using synthetic training data |
EP3815048B1 (de) | 2018-06-08 | 2024-01-31 | Digimarc Corporation | Erzeugung eines künstlerischen signalträgerelements mit punktierungs-, voronoi- und delaunay-verfahren und lesen davon |
CN108920623B (zh) * | 2018-06-29 | 2020-09-29 | 深圳软通动力科技有限公司 | 一种数据挖掘方法及装置 |
CN108846386B (zh) * | 2018-07-10 | 2022-06-24 | 深圳市前海手绘科技文化有限公司 | 一种手绘图案智能识别和纠正方法 |
KR102543650B1 (ko) * | 2018-07-30 | 2023-06-15 | 주식회사 엔씨소프트 | 모션 합성 장치 및 모션 합성 방법 |
US10963748B1 (en) * | 2018-08-31 | 2021-03-30 | Snap Inc. | Generative neural network distillation |
US10789769B2 (en) | 2018-09-05 | 2020-09-29 | Cyberlink Corp. | Systems and methods for image style transfer utilizing image mask pre-processing |
US11996105B2 (en) | 2018-09-13 | 2024-05-28 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109472270B (zh) * | 2018-10-31 | 2021-09-24 | 京东方科技集团股份有限公司 | 图像风格转换方法、装置及设备 |
DE102018127383A1 (de) | 2018-11-02 | 2020-05-07 | Universität Bremen | Datenverarbeitungsvorrichtung mit einem künstlichen neuronalen Netzwerk und Verfahren zur Datenverarbeitung |
US11354791B2 (en) * | 2018-12-19 | 2022-06-07 | General Electric Company | Methods and system for transforming medical images into different styled images with deep neural networks |
CN109670476A (zh) * | 2018-12-28 | 2019-04-23 | 网易(杭州)网络有限公司 | 用户头像的生成方法及装置、电子设备、存储介质 |
CN111383289A (zh) * | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 图像处理方法、装置、终端设备及计算机可读存储介质 |
KR102586014B1 (ko) * | 2019-03-05 | 2023-10-10 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11367163B2 (en) | 2019-05-31 | 2022-06-21 | Apple Inc. | Enhanced image processing techniques for deep neural networks |
TWI723547B (zh) * | 2019-09-19 | 2021-04-01 | 宏碁股份有限公司 | 風格移轉的方法及其電腦程式產品 |
KR102623148B1 (ko) * | 2019-10-15 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
KR102172644B1 (ko) * | 2020-01-13 | 2020-11-02 | (주)에스프레소미디어 | 스타일 변환 외부 연동 시스템, 그리고 스타일 변환 외부 연동 서버 |
EP4162449A1 (de) * | 2020-06-05 | 2023-04-12 | Unity IPR APS | Verfahren und systeme für den optimalen transport nichtlinearer transformationen |
EP4029579A1 (de) * | 2021-01-18 | 2022-07-20 | Société BIC | Erzeugung von druckvorlagentutorials |
WO2022183730A1 (zh) * | 2021-03-05 | 2022-09-09 | 上海商汤智能科技有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
WO2023082162A1 (zh) * | 2021-11-12 | 2023-05-19 | 华为技术有限公司 | 图像处理方法和装置 |
CN114926322B (zh) * | 2022-05-12 | 2024-03-15 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6977659B2 (en) * | 2001-10-11 | 2005-12-20 | At & T Corp. | Texture replacement in video sequences and images |
-
2015
- 2015-07-31 DE DE102015009981.7A patent/DE102015009981A1/de active Pending
-
2016
- 2016-07-29 WO PCT/EP2016/068206 patent/WO2017021322A1/en unknown
- 2016-07-29 EP EP16748287.6A patent/EP3329463B1/de active Active
-
2018
- 2018-01-26 US US15/880,750 patent/US11610351B2/en active Active
Non-Patent Citations (11)
Title |
---|
Aravindh Mahendran and Andrea Vedaldi. Understanding Deep Image Representations by Inverting Theme. arXiv:1412.0035 [cs], November 2014. arXiv: 1412.0035 |
Ashikhmin („Fast Texture Transfer", IEEE Computer Graphics and Applications 23, 2003, 4, 38 bis 43) |
DRORI, I. [et al.]: Example-Based Style Synthesis. Proc. Of the 2003 IEEE Computer Society Conference on Computer Vision on Pattern Recognition (CVPR ’03), 2003, Vol. 2, S. 143-150. |
DRORI, I. [et al.]: Example-Based Style Synthesis. Proc. Of the 2003 IEEE Computer Society Conference on Computer Vision on Pattern Recognition (CVPR '03), 2003, Vol. 2, S. 143-150. * |
GATYS, L. A.: [et al.]: Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv.org-Eintrag vom 27.5.2015, im Internet verfügbar unter der URL http://arxiv.org/abs/1505.07376 , [recherchiert am 27.11.2015]. * |
Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556; Yangqing Jia, Evan Shellhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference an Multimedia, pages 675–678. ACM, 2014 |
Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio], May 2015. arXIV: 1505.07376 |
MORDVINTSEV, A. [et al.]: Inceptionism: Going Deeper into Neural Networks. Google Research Blog vom 17.6.2015, im Internet verfügbar am 4.7.2015 unter der URLhttps://web.archive.org/web/20150704083023/http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html ,[recherchiert am 27.11.2015]. * |
XIAO, X. [et al.]: Color Transfer in Correlated Color Space. In: Proceedings of the 2006 ACM international conference on Virtual reality continuum and its applications, Hong Kong, 14-17 June 2006, S. 305-309. * |
Xie et al („Feature Guided Synthesis for Artistic Style Transfer", DIMEA 2007, 44 bis 49) |
ZHANG, W. [et al.]: Style Transfer Via Image Component Analysis. IEEE Trans. On Multimedia, Vol. 15, 2013, S. 1594-1601. * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110780A (zh) * | 2019-04-30 | 2019-08-09 | 南开大学 | 一种基于对抗神经网络和海量噪声数据的图片分类方法 |
CN110110780B (zh) * | 2019-04-30 | 2023-04-07 | 南开大学 | 一种基于对抗神经网络和海量噪声数据的图片分类方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180158224A1 (en) | 2018-06-07 |
EP3329463A1 (de) | 2018-06-06 |
WO2017021322A1 (en) | 2017-02-09 |
US11610351B2 (en) | 2023-03-21 |
EP3329463B1 (de) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102015009981A1 (de) | Verfahren und Vorrichtung zur Bildsynthese | |
DE112017002799B4 (de) | Verfahren und system zum generieren multimodaler digitaler bilder | |
DE10197062B4 (de) | Bildextraktion aus komplexen Szenen bei digitalen Videos | |
DE102018006317A1 (de) | Tiefe neurale Netzwerke für hervorstechenden Inhalt für eine effiziente Segmentierung eines digitalen Objekts | |
DE102017010210A1 (de) | Bild-Matting mittels tiefem Lernen | |
EP3336800B1 (de) | Bestimmen einer trainingsfunktion zum generieren von annotierten trainingsbildern | |
CN106934766A (zh) | 一种基于稀疏表示的红外图像超分辨率重建方法 | |
DE102018006247A1 (de) | Digitalbildvervollständigung unter Verwendung des Deep Learning | |
DE102017009049A1 (de) | Ermöglichen von Transformationen Skizze-zu-Gemälde | |
DE102018111407A1 (de) | Methode zum maschinellen lernen für automatisches modellieren von mehrwertigen ausgaben | |
DE112007002225B4 (de) | Erstellen und Codieren von Glyphen | |
CN110097617B (zh) | 基于卷积神经网络与显著性权重的图像融合方法 | |
Yin | Content aware neural style transfer | |
DE112019001702T5 (de) | Verfahren, systeme, herstellungsgegenstände und vorrichtungen zur erzeugung digitaler szenen | |
CN112184606A (zh) | 一种基于拉普拉斯金字塔的可见光图像与红外图像融合方法 | |
DE102021203021A1 (de) | Semantisch konsistente erweiterte trainingsdaten zur ampelerkennung | |
DE102022113243A1 (de) | Score-basierte generative Modellierung im latenten Raum | |
DE102005060503A1 (de) | Verfahren und Vorrichtung für die effiziente Berechnung von Morphologie-Operationen | |
DE10250781B4 (de) | Verfahren und Vorrichtung zur automatischen Segmentierung eines Vordergrundobjektes in einem Bild | |
DE112020006088T5 (de) | Computerimplementiertes verfahren zum umwandeln eines eingangsbildes in ein ausgangsbild basierend auf einem referenzbild | |
Liu et al. | Infrared and visible image fusion with edge detail implantation | |
Wang et al. | Selective extraction of entangled textures via adaptive PDE transform | |
DE102020110243A1 (de) | Computerimplementiertes Verfahren zur Datenaugmentation | |
DE102018128088A1 (de) | Bilaterales konvolutionsschichtnetz zur verarbeitung von punktwolken | |
DE102017003942B4 (de) | Steuerung einer Patchnutzung bei der Bildsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R016 | Response to examination communication | ||
R016 | Response to examination communication |