DE112019005672T5 - Erzeugung stellungsvarianter 3d-gesichtsattribute - Google Patents

Erzeugung stellungsvarianter 3d-gesichtsattribute Download PDF

Info

Publication number
DE112019005672T5
DE112019005672T5 DE112019005672.7T DE112019005672T DE112019005672T5 DE 112019005672 T5 DE112019005672 T5 DE 112019005672T5 DE 112019005672 T DE112019005672 T DE 112019005672T DE 112019005672 T5 DE112019005672 T5 DE 112019005672T5
Authority
DE
Germany
Prior art keywords
gan
map
texture map
spatial position
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112019005672.7T
Other languages
English (en)
Inventor
Xiang Yu
Feng-Ju Chang
Manmohan Chandraker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112019005672T5 publication Critical patent/DE112019005672T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/40Hidden part removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

Es wird ein System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Eine erste Stufe hat ein auf einem Hardware-Prozessor basierendes 3D-Regressionsnetzwerk zum direkten Erzeugen einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts und hat weiterhin eine Renderebene zum Rendern einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Eine zweite Stufe hat ein auf einem Hardware-Prozessor basierendes zweiteiliges gestapeltes generisches gegnerisches Netzwerk (GAN), das eine Texturvervollständigungs-GAN (TC-GAN) gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) enthält. Das TC-GAN vervollständigt die Teiltexturabbildung, um eine vollständige Texturabbildung auszubilden, basierend auf der Teiltexturabbildung und der Raumpositionsabbildung. Das 3DA-GAN erzeugt ein Soll-Gesichtsattribut für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.

Description

  • INFORMATION ÜBER ZUGEHÖRIGE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der provisorischen US-Patentanmeldung mit der seriellen Nr. 62/760,135 , eingereicht am 13. November 2018, und der US-Gebrauchsmusteranmeldung mit der seriellen Nr. 16/673,256 , eingereicht am 4. November 2019, die hierin durch Bezugnahme hierin in ihrer Gesamtheit enthalten sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft Gesichtserkennung und, genauer, eine Erzeugung stellungsvarianter 3D-Gesichtsattribute.
  • Beschreibung des zugehörigen Standes der Technik
  • Ein Erkennen eines Gesichts kann aufgrund einer Stellungsvarianz eine entmutigende bzw. hoffnungslose Aufgabe sein. Demgemäß gibt es eine Notwendigkeit für einen Weg, um stellungsvariante 3D-Gesichtsattribute zu erzeugen.
  • ZUSAMMENFASSUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das System enthält eine erste Stufe mit einem auf einem Hardware-Prozessor basierenden 3D-Regressionsnetzwerk zum direkten Erzeugen einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts und weiterhin mit einer Renderebene zum Rendern einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das System enthält weiterhin eine zweite Stufe mit einem auf einem Hardware-Prozessor basierenden zweiteiligen gestapelten generativen gegnerischen Netzwerk (GAN) einschließlich eines Texturvervollständigungs-GANs (TC-GAN) gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN). Das TC-GAN dient zum Vervollständigen der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das 3DA-GAN dient zum Erzeugen eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das Verfahren enthält ein direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Das Verfahren enthält weiterhin ein Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das Verfahren enthält auch ein Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines generativen gegnerischen Netzwerk zur Texturvervollständigung (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das Verfahren enthält zusätzlich ein Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Attributenerzeugungs-GANs (3DA-GAN), eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das Computerprogrammprodukt enthält ein nichtflüchtiges computerlesbares Speichermedium mit damit verkörperten Programmanweisungen. Die Programmanweisungen sind durch einen Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Das Verfahren enthält weiterhin ein Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das Verfahren enthält auch ein Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines generativen gegnerischen Netzwerk zur Texturvervollständigung (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das Verfahren enthält zusätzlich ein Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Attributenerzeugungs-GANs (3DA-GAN), eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung ihrer illustrativen Ausführungsformen offensichtlich werden, welche in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren zur Verfügung stellen, wobei:
    • 1 ein Blockdiagramm ist, das ein beispielhaftes Verarbeitungssystem gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 2 ein Blockdiagramm ist, das ein beispielhaftes System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
    • 3 ein Ablaufdiagramm ist, das ein beispielhaftes Verfahren zur Erzeugung von stellungsvarianten 3D-Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Ausführungsformen der vorliegenden Erfindung sind auf eine Erzeugung von stellungsvarianten 3D-Gesichtsattributen ausgerichtet.
  • Ausführungsformen der vorliegenden Erfindung zielen auf ein Erzeugen von Gesichtsattributen für ein stellungsvariantes Gesichtsbild aus einer allgemeinen Situation ab. Das Verfahren basiert auf einer 3D-Darstellung, die eine andere als das herkömmliche 2D-Bild ist. Das Framework bzw. die Rahmenstruktur kann sich mit großen Stellungsvariationseingaben und einem Hineinmalen (Inpainting) von erwünschten Gesichtsattributen, wie beispielsweise Bärten, Lächeln, Sonnenbrille, oben auf das ursprüngliche Bild beschäftigen. Dies ist sehr hilfreich, da es einen wichtigen Weg zur Verfügung stellt, um Gesichtsdaten für viele Anwendungen, wie beispielsweise eine Gesichtserkennung und eine Gesichtsbearbeitung, zu vermehren. Natürlich kann die vorliegende Erfindung basierend auf den Lehren der hierin zur Verfügung gestellten Erfindung für andere Anwendungen verwendet werden.
  • Bei einer Ausführungsform wird vorgeschlagen, die Aufgabe in zwei primäre Stufen zu entzerren, wie es folgt. Die erste Stufe enthält eine sanduhrbasierte tiefe dichte Regression mit einer differentiellen Renderebene, um eine 3D-Form und eine schwache perspektivische Matrix aus einem einzelnen eingegebenen Bild direkt zur erreichen und die Information zu verwenden, um eine Teiltexturdarstellung aufgrund einer durch eine Stellungsvarianz verursachten Selbstokklusion bzw. Selbstverdunklung zu rendern. Die zweite Stufe enthält ein gestapeltes generatives gegnerisches Netzwerk (GAN) mit zwei Schritten. Der erste Schritt ist ein Texturvervollständigungs-GAN (TC-GAN), das sowohl eine 3D-Form als auch eine Teiltextur verwendet, die aus der ersten Stufe erhalten sind, um die Texturabbildung zu vervollständigen. Der zweite Schritt ist ein 3D-Attributenerzeugungs-GAN (3DA-GAN), das Soll-Attribute auf die vervollständigte 3D-Texturdarstellung erzeugt. In der ersten Stufe wenden wir die UV-Darstellung für sowohl eine 3D-Punktwolke als auch die Textur an, die jeweils UVpos und UVtex genannt werden. Die UV-Darstellung stellt die dichte Forminformation zur Verfügung und bildet auch die Eins-zu-Eins-Entsprechung von einer Punktwolke zur Textur. In der zweiten Stufe sind das TC-GAN und das 3DA-GAN zwei funktionell unabhängige Aufgaben mit unabhängigen Zielen. Das 3DA-GAN empfängt die Ausgabe vom TC-GAN als Eingabe für eine Attributenerzeugung und bildet somit die gestapelte Konfiguration aus. Die gestapelten zwei GANs nehmen sowohl UVpos als auch UVtex als Eingabe, weil die vervollständigte Textur und das neu erzeugte Attribut bezüglich der 3D-Form korreliert sind.
  • 1 ist ein Blockdiagramm, das ein beispielhaftes Verarbeitungssystem 100 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das Verarbeitungssystem 100 enthält eine Gruppe von Verarbeitungseinheiten (z.B. CPUs) 101, eine Gruppe von GPUs 102, eine Gruppe von Speichervorrichtungen 103, eine Gruppe von Kommunikationsvorrichtungen 104 und eine Gruppe von Peripheriegeräten 105. Die CPUs 101 können Einzel- oder Mehrkern-CPUs sein. Die GPUs 102 können Einzel- oder Mehrkern-GPUs sein. Die eine oder die mehreren Speichervorrichtungen 103 kann oder können Caches, RAMs, ROMs und andere Speicher (Flash, optisch, magnetisch, etc.) enthalten. Die Kommunikationsvorrichtungen 104 können drahtlose und/oder verdrahtete Kommunikationsvorrichtungen (z.B. Netzwerk (z.B. WIFI, etc.) Adapter, etc.) enthalten. Die Peripheriegeräte 105 können eine Anzeigevorrichtung, eine Anwender-Eingabevorrichtung, einen Drucker, eine Bildgebungsvorrichtung (z.B. eine RGBD-Bildgebungsvorrichtung, etc.), ein Mikrofon, einen Lautsprecher und so weiter enthalten. Elemente des Verarbeitungssystems 100 sind durch einen oder mehrere Busse oder Netzwerke (die gemeinsam durch das Figuren-Bezugszeichen 110 bezeichnet sind).
  • Bei einer Ausführungsform können die Speichervorrichtungen 103 speziell programmierte Softwaremodule speichern, um das Computer-Verarbeitungssystem in einen speziellen Computer zu transformieren, der konfiguriert ist, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren. Bei einer Ausführungsform kann spezielle Hardware (z.B. anwendungsspezifische integrierte Schaltungen, feldprogrammierbare Gate-Arrays (FPGAs) und so weiter) verwendet werden, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren.
  • Bei einer Ausführungsform können die Speichervorrichtungen 103 einen Code zum Implementieren von einem oder mehreren von folgendem speichern: ein 3D-Regressionsnetzwerk 103A; eine Renderebene 103B; ein gestapeltes generatives generisches Netzwerk (GAN) mit 2 Schritten 103C mit einem Texturvervollständigungs-GAN (TC-GAN) 103C1, gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) 103C2; ein Gesichtserkennungssystem 103D und ein Gesichtsbearbeitungssystem 103E. Diese und andere Elemente, die hierin beschrieben sind, können wenigstens zum Teil durch die Speichervorrichtungen 103 implementiert sein.
  • Natürlich kann das Verarbeitungssystem 100 auch andere Elemente (die nicht gezeigt sind) enthalten, wie es durch einen Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können im Verarbeitungssystem 100 in Abhängigkeit von der bestimmten Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen enthalten sein, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen, Speicher und so weiter in verschiedenen Konfigurationen verwendet werden. Weiterhin kann bei einer weiteren Ausführungsform ein Cloud-Konfiguration verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung angegeben werden.
  • Darüber hinaus ist es einzusehen, dass verschiedene Figuren, wie sie nachstehend in Bezug auf verschiedene Elemente und Schritte beschrieben sind, sich auf die vorliegende Erfindung beziehen, die, insgesamt oder zum Teil, durch eines oder mehrere der Elemente des Systems 100 implementiert werden kann.
  • Wie er hierin verwendet wird, bezieht sich der Ausdruck „Hardware-Prozessoruntersystem“ oder Hardware-Prozessor‟ kurz auf eine Kombination aus Prozessor, Speicher und Software, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, etc.) enthalten. Bei einer Ausführungsform kann oder können ein oder mehrere Datenverarbeitungselemente in einer zentralen Verarbeitungseinheit, einer Grafik-Verarbeitungseinheit und/oder einer separaten prozessor- oder computerelementbasierenden (z.B. Logikgatter, etc.) Steuerung enthalten sein. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem einen oder mehrere integrierte Speicher (z.B. Caches) enthalten. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem einen oder mehrere andere Speicher (z.B. ROM, RAM, BIOS) enthalten. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem eine oder mehrere Software-Anwendungen enthalten und ausführen. Bei einer Ausführungsform kann oder können die eine oder die mehreren Software-Anwendungen das Betriebssystem und/oder eine oder mehrere andere Anwendungen und/oder einen spezifischen Code, um ein spezifiziertes Ergebnis zu erreichen, enthalten. Diese und andere Variationen eines Hardware-Prozessoruntersystems werden bei angegebenen Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung ohne weiteres bestimmt.
  • 2 ist ein Blockdiagramm, das ein beispielhaftes System 200 für eine Erzeugung von stellungsvarianten Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Das System 200 enthält eine erste Stufe 210 und eine zweite Stufe 250.
  • Die erste Stufe 210 hat ein 3D-Regressionsnetzwerk 220 zum direkten Erzeugen einer Raumpositionsabbildung 221 für eine 3D-Form und einer Kameraperspektivenmatrix 222 aus einem einzelnen Bild 201 eines Gesichts.
  • Die erste Stufe 210 hat weiterhin eine Renderebene 230 zum Rendern einer Teiltexturabbildung 231 des einzelnen eingegebenen Bilds 201 basierend auf der Raumpositionsabbildung 221 und der Kameraperspektivenmatrix 222.
  • Die zweite Stufe 250 hat ein zweiteiliges gestapeltes generisches gegnerisches Netzwerk (GAN) 260. Das zweitteilige gestapelte GAN 260 enthält ein Texturvervollständigungs-GAN (TC-GAN) 270 gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) 280.
  • Das TC-GAN 270 dient zum Vervollständigen der Teiltexturabbildung 231, um eine vollständige Texturabbildung 271 basierend auf der Teiltexturabbildung 231A und der Raumpositionsabbildung 221 auszubilden.
  • Das 3DA-GAN 280 dient zum Erzeugen eines Soll-Gesichtsattributs 281 für das einzelne eingegebene Bild 201 basierend auf der vollständigen Texturabbildung 271 und der Raumpositionsabbildung 221.
  • Bei einer Ausführungsform ist eine Codierer-Decodierer-Struktur mit einem Codierer 272 und einem Decodierer 273 als das Rückgrat des TC-GANs 270 vorgesehen. Eine solche Struktur kann auch im Regressionsnetzwerk 220 und im 3DA-GAN 280 vorgesehen sein. Bei einer nichtbeschränkenden Ausführungsform haben sowohl der Codierer 272 als auch der Decodierer 273 vier Blöcke. Jeder Block des Codierers 272 enthält eine Faltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine ReLU-Schicht. Gleichermaßen enthält jeder Block des Decodierers 273 einen Entfaltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine Leck-ReLU-Schicht bzw. undichte ReLU-Schicht bzw. Leaky ReLU-Schicht. Die Eingabe für den Codierer 272, wie in 2, ist die Verkettung einer Teiltexturabbildung, einer umgedrehten Teiltexturabbildung und der Raumpositionsabbildung. Die Ausgabe für den Codierer 272 ist das von 272 erzeugte Zwischen-Merkmal. Die Eingabe für den Decodierer 273 ist die vervollständigte Texturabbildung 271. Sprungverbindungen bzw. Sprung-Links sind eine Einstellung, die den Codierer und den Decodierer auf eine symmetrische Weise verbinden, d.h., dass der erste Block des Codierers mit dem letzten Block des Decodierers gemeinsam genutzt wird. Es ist herausgefunden worden, dass Sprungverbindungen Sprung-Links eine wichtige Rolle beim Bewahren der Hochfrequenzinformation spielen, und zwar insbesondere ab den niedrigeren Schichten, die mehr Information niedriger Ebene bewahren.
  • 3 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren zur Erzeugung von stellungsvarianten 3D-Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Bei einem Block 310 erfolgt ein direktes Erzeugen, durch ein 3D-Regressionsnetzwerk, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Bei einer Ausführungsform kann das 3D-Regressionsnetzwerk eine eieruhrgeformte Regressionsfunktion verwenden.
  • Bei einem Block 320 erfolgt ein Rendern, durch eine Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Bei einer Ausführungsform kann die Teiltexturabbildung sich auf eine stellungsvarianzverursachte Selbstokklusion beziehen. Bei einer Ausführungsform kann die stellungsvarianzverursachte Selbstokklusion verwendet werden, um eine Gesichtsregion zu simulieren, die beim einzelnen eingegebenen Bild nicht vorhanden ist.
  • Bei einem Block 330 erfolgt ein Vervollständigen, durch ein texturvervollständigendes generisches gegnerisches Netzwerk (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden.
  • Bei einem Block 340 erfolgt ein Erzeugen, durch ein 3D-Attributenerzeugungs-GAN (3DA-GAN), eines Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
  • Bei einem Block 350 erfolgt ein Durchführen einer Gesichtsbearbeitungsoperation relativ zum Soll-Gesichtsattribut.
  • Bei einer Ausführungsform kann der Block 350 einen Block 350A enthalten.
  • Beim Block 350A erfolgt ein Ausbilden eines neuen Bilds aus der vollständigen Texturabbildung und dem Soll-Gesichtsattribut. Zum Beispiel kann die vollständige Texturabbildung von einem sauber rasierten Mann sein und kann das Soll-Gesichtsattribut ein Bart sein, der bei der vollständigen Texturabbildung zum Mann hinzugefügt ist.
  • Bei einem Block 360 erfolgt ein Durchführen einer Gesichtserkennungsoperation, um ein Individuum zu erkennen, basierend auf dem neuen Bild, das aus der vollständigen Texturabbildung und dem Soll-Gesichtsattribut ausgebildet ist (z.B. durch den Block 350A ausgebildet ist), und der Raumpositionsabbildung. Auf diese Weise können unterschiedliche Stellungen und unterschiedliche Gesichtsattribute einer selben Person erzeugt werden und dazu verwendet werden, diese Person zu identifizieren.
  • Somit führt die vorliegende Erfindung eine dichte 3D-Darstellung ein, die eine spätere Erscheinungsbilderzeugung unterstützt. Dann wird ein Rendern durchgeführt, um ein sichtbares Erscheinungsbild aus der ursprünglichen Eingabe zu erzeugen. Weiterhin wird ein Texturvervollständigungs-GAN präsentiert, um eine vollständig sichtbare Texturabbildung zu erreichen. Am Ende wird ein 3D-Attributenerzeugungs-GAN vorgeschlagen, um direkt an der 3D-Positions- und Texturdarstellung zu arbeiten und ein attributengestörtes Erscheinungsbild mit vollständig kontrollierter Stellungsgeometrie auszugeben.
  • Nun wird eine Beschreibung in Bezug auf eine UV-Positionsabbildungsregression gemäß einer Ausführungsform der vorliegenden Erfindung angegeben.
  • Um das sichtbare Erscheinungsbild wirklichkeitsgetreu zu rendern, suchen wir eine dichte 3D-Wiederherstellung von Form und Textur.
  • Es soll eine 3D-Punktwolke S 2 RNx3 angenommen werden, wobei N die Anzahl von Eckpunkten ist. Jeder Eckpunkt s = (x, y, z) besteht aus dreidimensionalen Koordinaten im Bildraum. (u, v) sind wie folgt definiert: u = arccos ( x x 2 + z 2 ) , ν = 1 1 π arccos ( y )
    Figure DE112019005672T5_0001
  • Die Gleichung (1) richtet eine eindeutige Abbildung von einer dichten Punktwolke zu den UV-Abbildungen ein. Durch Quantisieren des UV-Raums mit unterschiedlicher Granularität kann man die Dichte des UV-Raums gegenüber der Bildauflösung steuern. Bei dieser Arbeit quantisieren wir die UV-Abbildungen in 256x256 und man erhält somit 65k Eck- bzw. Scheitelpunkte. Eine UV-Positionsabbildung UVpos ist auf dem UV-Raum definiert, wobei jeder Eintrag die entsprechende dreidimensionale Koordinate (x, y, z) ist. Eine UV-Texturabbildung UVtex ist auch auf dem UV-Raum definiert, wobei jeder Eintrag die entsprechende Koordinaten-RGB-Farbe ist.
  • Basierend auf der Definition des UV-Raums schlagen wir eine tiefe Regression von der Eingabe zu UVpos anstelle der ursprünglichen dichten Punktwolke vor. Gleichzeitig führen wir die Stellungsschätzung durch Regressionsbearbeitung der schwachen Perspektivenmatrix W ∈ ℝ3x4 durch. Bezeichnet man die tiefe Regression als eine nichtlineare Funktion Φ, das eingegebene Bild mit I, ist das Ziel wie folgt: a r g   m i n Φ , W { Φ ( I ) U V p o s 1 + W W 2   + W L W 1 Φ ( I ) L S 2 }
    Figure DE112019005672T5_0002
  • Die ersten zwei Ausdrücke in der Gleichung (2) sind ein regulärer überwachter Verlust für die vorhergesagte UV-Abbildung Φ(i) ∈ ℝ256×256×3 und die schwache Perspektivenmatrix W. UV*, W* und S* sind als die entsprechende Grundwahrheit bezeichnet. Der dritte Ausdruck schaut in die vordefinierten Orientierungspunkte des Gesichts. Die durch die UV-Abbildung vorhergesagten Orientierungspunktkoordinaten sollten ebenso nahe bei der Grundwahrheit sein. In der Praxis finden wir, dass ein kleiner UV-Abbildungsfehler nicht kleine Orientierungspunktfehler garantiert. Das ist deshalb so, weil die dichte Punktwolke eine bestimmte Menge an Vieldeutigkeit hat, wenn man sie auf die spärlichen Orientierungspunkte abbildet. Um die Formregression strenger zu beschränken, führen wir einen indizierenden Vektor L ∈ ℝ1×N ein, dessen Eintrag 1 ist, wenn der entsprechende Eck- bzw. Scheitelpunkt ausgewählt ist, und sonst 0. Es ist zu beachten, dass Φ(I) stellungsspezifisch ist und wir es zurück zu einer Referenzstellung transferieren müssen, indem man W*-1 anwendet. Es soll angenommen werden, dass W = [R|T] aus einer Rotationsmatrix R3×1 und einem Translationsvektor T 2 R3x1 besteht. Wir setzen W*-\1 als [R*-1l-T] ein. Wenn der dritte Ausdruck berechnet wird, formen wir das ursprüngliche Φ(i) in ℝN×3 um.
  • Nun wird eine Beschreibung in Bezug auf ein Rendern der UV-Texturabbildung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden. Die UVtex eines stellungsvarianten Gesichts ist mit teilweise sichtbarer Erscheinungsform. Dies ist deshalb so, weil die durch Stellungsvariation verursachte Selbstokklusion den unsichtbaren Gesichtsbereich erzeugt. Im ursprünglichen Koordinatenraum führen wir einen z-Pufferalgorithmus durch, um die sichtbare Bedingung von jedem 3D-Scheitelpunkt zu etikettieren. Diejenigen Scheitelpunkte mit größter Tiefeninformation sind sichtbar, während alle anderen unsichtbar sind. Es soll angenommen werden, dass der Sichtbarkeitsvektor M mit einem Eintrag 1 sichtbar bedeutet und mit 0 unsichtbar. Das Rendern ist eine Nachschauoperation durch Assoziieren der Farbe der spezifischen Koordinate mit der entsprechenden UV-Koordinate. Wir formulieren den Prozess in einer Gleichung (3), wie es folgt: U V t e x ( u , v ) = I ( x , y ) M ( x , y , z )
    Figure DE112019005672T5_0003
    wobei (u, v) durch Gleichung (1) bestimmt ist.
  • Nun wird eine Beschreibung in Bezug auf die UV-Texturabbildungsvervollständigung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Die unvollständige UVtex von dem Rendern ist nicht ausreichend, um die Attributenerzeugung durchzuführen, da der unsichtbare Bereich Artefakte einführt. Wir suchen eine Texturvervollständigung, die nicht nur eine fotorealistische Erscheinungsbildwiedergewinnung zur Verfügung stellen kann, sondern auch die Identitätsbewahrung. UV-GAN schlägt eine ähnliches Rahmenstruktur bzw. ein ähnliches Framework vor, um die UV-Texturabbildung durch Anwenden eines gegnerischen Netzwerks zu vervollständigen. Jedoch berücksichtigt es nur die Texturinformation. Wir argumentieren, dass für eine 3D-UV-Darstellung ein Vervollständigen des Erscheinungsbilds sowohl Texturinformation als auch die Forminformation berücksichtigen sollte. Zum Beispiel wird ein Kombinieren der ursprünglichen und der umgedrehten Eingabe eine gute Initialisierung für eine Erscheinungsbildvorhersage zur Verfügung stellen. Aber sie wendet nur die Symmetriebeschränkung bei der Form an, was nicht ausreichend ist, um die Forminformation zu bewahren. Somit nehmen wir UVpos, UVtex und umgedrehtes UVtex als Eingabe. Wir entwickeln eine Codierer-Decodierer-Struktur als das Rückgrat von TC-GAN. Sowohl der Codierer als auch der Decodierer ist mit vier Blöcken versehen. Jeder Block des Codierers enthält eine Faltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine ReLU-Schicht. Gleichermaßen enthält jeder Block des Decodierers eine Entfaltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine Leck-ReLU-Schicht bzw. Leaky-ReLU-Schicht. Sprungverbindungen bzw. Sprung-Links sind eine Einstellung, die den Codierer und den Decodierer auf eine symmetrische Weise verbinden, d.h. der erste Block des Codierers wird mit dem letzten Block des Decodierers gemeinsam genutzt. Wir finden, dass Sprungverbindungen bzw. Sprung-Links eine wichtige Rolle beim Bewahren von Hochfrequenzinformation spielen, insbesondere von den zwei Schichten, die mehr Information niedrigerer Ebene bewahren.
  • Nun wird eine Beschreibung eines Wiederherstellungsmoduls gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Mit der vorgeschlagenen dichten 3D-Punktwolken-Wiederherstellung können wir aktuell bzw. tatsächlich die Grundwahrheit dieser Aufgabe ohne irgendeine Etikettierung vorbereiten. Wir beginnen mit nahezu frontalen Gesichtsbildern, wo alle Pixel sichtbar sind. Dann stören wir die Kopfstellung dieses ursprünglichen Bilds bei einem zufälligen Winkel. Es ist zu beachten, dass alle stellungsvarianten Bilder dieselbe frontale Grundwahrheit gemeinsam nutzen, die das ursprüngliche Bild ist. Durch das eingeführte Rendern erhalten wir die unvollständige Texturabbildung für die Eingabe. Da eine Grundwahrheit zur Verfügung gestellt ist, schlagen wir den überwachten Wiederherstellungsverlust vor, um die Vervollständigung wie folgt zu führen: L r e c o n = | | G t c ( I , I ˜ , U V p o s ) I | | 1
    Figure DE112019005672T5_0004
  • Gtc(■) bezeichnet den Generator, der den Codierer und den Decodierer enthält. I bezeichnet die Eingabe, Ĩ bezeichnet die umgedrehte Eingabe und I* bezeichnet die vollständige Grundwahrheit der Eingabe. Ein ledigliches Verlassen auf die Wiederherstellung bzw. Rekonstruktion kann ein Ergebnis hoher Qualität nicht garantieren, weil der L2- oder L1-Verlust normalerweise einen verschwommenen Effekt hereinbringt. Somit führen wir ein gegnerisches Trainieren ein, um die Erzeugungsqualität zu verbessern.
  • Nun wird eine Beschreibung in Bezug auf das Diskriminatormodul gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Bei gegebenen Grundwahrheitsbildern als positive Proben I* ∈ R, und Gtc erzeugten Proben als negative, trainieren wir einen Diskriminator D mit dem folgenden Ziel. a r g   m i n D   L D = I R log ( d ( I ) )           G t c ( I , I ˜ , U V p o s ) F log ( 1 D ( G t c ( I , I ˜ , U V p o s ) ) )
    Figure DE112019005672T5_0005
  • Nun wird eine Beschreibung in Bezug auf das Generatormodul gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Nach dem gegnerischen Trainieren zielt Gtc darauf ab, D zu täuschen und somit das Ziel zur anderen Richtung zu drücken bzw. stoßen. L a d v = G t c ( I , I ˜ , U V p o s ) F log ( D ( G t c ( I , I ˜ , U V p o s ) ) )
    Figure DE112019005672T5_0006
  • Nun wird eine Beschreibung in Bezug auf einen Glattheitsausdruck gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Um das Artefakt zu entfernen, schlagen wir vor, den gesamten Variationsverlust anzuwenden, um die Glätte der Ausgabe lokal zu beschränken, wie es folgt: L t ν = 1 | I | | G t c ( I , I ˜ , U V p o s ) |
    Figure DE112019005672T5_0007
  • ∇Gtc(I,Ĩ, UVpos) ist der Gradient der Ausgabe. |/| ist die Anzahl von Einträgen eines eingegebenen Bilds, die äquivalent zu der Anzahl von Ausgabe-Einträgen ist. Um eine Identität zu bewahren, wie es die meisten der Arbeiten tun, müssen wir eine Gesichtserkennungsmaschine einführen, um zu garantieren, dass das Erkennungsmerkmal aus dem erzeugten Bild nahe dem Merkmal aus dem Grundwahrheits-Bild ist. In der Praxis finden wir, dass die Wiederherstellungsbeschränkung in Gleichung 4 ausreichend ist, um die Identität bei dieser Aufgabe zu bewahren. Somit wird der gesamte Verlust für TC-GAN zusammengefasst, wie es folgt: L T C G A N = λ r e c o n L r e c o n + λ a d ν L a d ν + λ t ν L t ν
    Figure DE112019005672T5_0008
  • Eine Gewichtungsverteilung ist empirisch jeweils eingestellt als λrecon = 1,λadv = 0.1,λtv = 0.05.
  • Nun wird eine Beschreibung in Bezug auf eine 3D-Gesichtsattributenerzeugung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Wir führen die 3D-Darstellung, die vervollständigten UVtex und UVpos als die Eingabe ein. Wir glauben, dass ein Einführen einer 3D-geometrischen Information ein Attribut besser synthetisieren kann, d.h. mit einer 3D-Forminformation wird eine Sonnenbrille als Oberfläche erzeugt werden. Wir formulieren die Soll-Attributenerzeugung als ein konditionales GAN-Framework durch Einfügen des Attributencodes p in den Datenfluss. Wir wählen manuell 8 aus 40 beispielhaften Attributen, die lediglich den Gesichtsbereich berücksichtigen bzw. reflektieren und nicht mit der Gesichtsidentität korreliert sind, d.h. Sonnenbrille (SG), Mund offen (MO), Lippenstift tragen (LS), Schatten um 5 Uhr (SH), Lächeln (SM), Augenringe (EB), blasse Haut (PS) und Pony (BA). Somit gilt p ∈ ℝ8 und jedes Element steht für ein Attribut, und zwar bei 1 mit dem Attribut und bei 0 ohne. Die Eieruhr wird als die Struktur von Gattr angewendet. Der Codierer und der Decodierer sind, gleich einer Einstellung wie beim TC-GAN, jeweils mit vier Blöcken versehen. Der Attributencode p wird mit zwei Blöcken verschlungen und dann mit dem dritten Block des Codierers von Gattr verkettet.
  • Unsere Trainingsprozedur kann in zwei Phasen aufgeteilt werden.
  • (1) Rekonstruktion bzw. Wiederherstellung. Unter der Annahme einer Eingabe UVtex, UVpos und der Grundwahrheit p Ausgeben von den wiedergestellten UVtex, UVpos mit genau denselben Attributen bei p.
  • (2) Attributengestörte Erzeugung. Bei dieser Stufe drehen wir ein Attribut pro Zeit von p um, unter Berücksichtigung eines Umdrehens von 0 zu 1, was auch bekannt ist als ein Erzeugen eines Attributs, was anders ist als ein Eliminieren eines Attributs. Die Eingabe ist noch UVtex, UVpos und das gestörte p', dessen Hamming-Distanz zu p genau Eins ist. Die Ausgabe ist gestörtes UV́tex, UV́pos, was das neu erzeugte Attribut zeigt, das durch das umgedrehte Bit bei p' angezeigt ist, wo alle anderen Teile bewahrt werden sollten. Der Zweck für ein Einstellen von Phase (1) liegt darin, dass wir eine pro-Attribut-Erzeugung berücksichtigen, wo das meiste von einem nicht auf ein Attribut bezogenen Bereich derselbe bleiben sollte. Ein Durchführen der Wiederherstellung wird zuerst einen großen Vorteil für diese Prozedur bringen, während Phase (2) sich nur auf die lokale Störung konzentrieren kann. Weiterhin garantiert es, dass das gestörte Attribut nur den neu erzeugten Attributenbereich durch Kontrastieren dieser zwei Phasen bestimmt.
  • Wir führen die Verlustentwicklung durch funktionelles Abstrahieren von denselben Komponenten ein, die durch die zweiphasige Prozedur meistens gemeinsam genutzt werden.
  • Die vorliegende Erfindung kann ein System, ein Verfahren und/oder ein Computerprogrammprodukt bei irgendeiner technischen Detailebene einer Integration sein. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder Medien) mit computerlesbaren Programmanweisungen darauf zum Veranlassen, dass ein Prozessor Aspekte der vorliegenden Erfindung ausführt, enthalten.
  • Ein Bezugnahme in der Beschreibung auf „eine Ausführungsform“ oder „irgendeine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das bzw. die in Verbindung mit der Ausführungsform beschrieben ist, in wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungsformen der Phrase „bei einer Ausführungsform“ oder „bei irgendeiner Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Beschreibung erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform.
  • Es ist einzusehen, dass beabsichtigt ist, dass die Verwendung von irgendetwas von dem folgenden „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“ die Auswahl der ersten aufgelisteten Option nur (A) oder die Auswahl der zweiten aufgelisteten Option nur (B) oder die Auswahl von beiden Optionen (A und B) umfasst. Als ein weiteres Beispiel ist in den Fällen von „A, B und/oder C“ und „wenigstens eines von A, B und C“ für eine solche Phrasierung beabsichtigt, dass sie die Auswahl der ersten aufgelisteten Option nur (A) oder die Auswahl der zweiten aufgelisteten Option nur (B) oder die Auswahl der dritten aufgelisteten Option nur (C) umfasst, oder die Auswahl der ersten und der zweiten aufgelisteten Option nur (A und B) oder die Auswahl der ersten und der dritten aufgelisteten Option nur (A und C) oder die Auswahl der zweiten und der dritten aufgelisteten Option nur (B und C) oder die Auswahl von allen drei Optionen (A und B und C). Dies kann für so viele Elemente erweitert werden, wie sie aufgelistet sind.
  • Das Voranstehende ist in jederlei Hinsicht als illustrativ und beispielhaft, aber nicht als beschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern eher aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch das Patentrecht zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Sind somit die Aspekte der Erfindung mit den Details und der Besonderheit, die durch das Patentrecht erforderlich sind, beschrieben worden, ist das, was beansprucht ist und durch das Patent als geschützt zu sein erwünscht ist, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62/760135 [0001]
    • US 16/673256 [0001]

Claims (20)

  1. System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute, umfassend: eine erste Stufe mit einem auf einem Hardware-Prozessor basierenden 3D-Regressionsnetzwerk zum direkten Erzeugen einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts und weiterhin mit einer Renderebene zum Rendern einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix; und eine zweite Stufe mit einem auf einem Hardware-Prozessor basierenden zweiteiligen gestapelten generischen gegnerischen Netzwerk (GAN), das eine Texturvervollständigungs-GAN (TC-GAN) gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) umfasst, wobei das TC-GAN zum Vervollständigen der Teiltexturabbildung, um eine vollständige Texturabbildung auszubilden, basierend auf der Teiltexturabbildung und der Raumpositionsabbildung dient, und wobei das 3DA-GAN zum Erzeugen eines Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung dient.
  2. System nach Anspruch 1, wobei sich die Teiltexturabbildung auf eine durch eine Stellungsvarianz verursachte Selbstokklusion bezieht.
  3. System nach Anspruch 1, wobei die durch eine Stellungsvarianz verursachte Selbstokklusion verwendet wird, um einen Gesichtsbereich zu simulieren, der beim einzelnen eingegebenen Bild nicht vorhanden ist.
  4. System nach Anspruch 1, das weiterhin eine Erkennungsstufe zum Erkennen einer Person basierend auf dem Soll-Gesichtsattribut umfasst.
  5. System nach Anspruch 1, wobei das TC-GAN die Teiltexturabbildung durch gemeinsames Verarbeiten der Teiltexturabbildung und der Raumpositionsabbildung vervollständigt, um die vollständige Texturabbildung auszubilden.
  6. System nach Anspruch 5, wobei das TC-GAN die Teiltexturabbildung unter Verwendung einer nicht umgedrehten Version und einer umgedrehten Version der Teiltexturabbildung vervollständigt, um die vollständige Texturabbildung auszubilden.
  7. System nach Anspruch 1, das weiterhin ein Synthetisieren eines Bilds aus der vollständigen Texturabbildung und der Raumpositionsabbildung umfasst, wobei das Bild das Gesicht mit dem darauf gerenderten Soll-Gesichtsattribut hat.
  8. System nach Anspruch 1, wobei das System eine Gesichtserkennungssystem ist.
  9. System nach Anspruch 1, wobei das System ein Gesichtsbearbeitungssystem ist.
  10. System nach Anspruch 1, wobei das 3D-Regressionsnetzwerk eine eieruhrgeformte Regressionsfunktion verwendet.
  11. System nach Anspruch 1, wobei ein Index-Vektor, der auf eine Verwendung eines bestimmten Eck- bzw. Scheitelpunkts unter mehreren Scheitelpunkten bezogen ist, verwendet wird, um eine Regressionsform zu beschränken.
  12. System nach Anspruch 1, wobei das TC-GAN und das 3DA-GAN funktionell unabhängige Aufgaben mit unabhängigen Zielen sind.
  13. System nach Anspruch 1, das weiterhin ein Erzeugen eines Bilds, das ein attributengestörtes Erscheinungsbild umfasst, unter Verwendung des Soll-Gesichtsattributs umfasst.
  14. System nach Anspruch 13, das weiterhin ein Durchführen einer Gesichtserkennung auf dem Bild umfasst, das ein attributengestörtes Erscheinungsbild umfasst, um eine Person darin zu erkennen.
  15. System nach Anspruch 1, wobei die Renderebene die Teiltexturabbildung so rendert, dass Scheitelpunkte von Gesichtsmerkmalen mit einer Tiefe oberhalb einer Schwellentiefe in der Teiltexturabbildung gerendert werden, während die Scheitelpunkte der Gesichtsmerkmale mit der Tiefe gleich der Schwellentiefe oder kleiner als diese in der Teiltexturabbildung unsichtbar gemacht werden.
  16. System nach Anspruch 1, wobei das TC-GAN eine Faltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht, gefolgt durch eine ReLU-Schicht umfasst.
  17. System nach Anspruch 1, wobei das TC-GAN eine Codierer-Decodierer-Struktur umfasst, die einen Codierer und einen Decodierer hat, die durch Sprung-Links bzw. Sprungverbindungen verbunden sind, so dass ein erster Block des Codierers mit einem letzten Block des Decodierers verbunden ist.
  18. Computerimplementiertes Verfahren zur Erzeugung stellungsvarianter 3D-Gesichtsattribute, umfassend: direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts; Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix; Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines texturvervollständigenden generischen gegnerischen Netzwerks (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung auszubilden, basierend auf der Teiltexturabbildung und der Raumpositionsabbildung; und Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Atributenerzeugungs-GANs (3DA-GAN), eines Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
  19. Computerimplementiertes Verfahren nach Anspruch 18, wobei das 3D-Regressionsnetzwerk und die Renderebene eine erste Stufe ausbilden und das TC-GAN und das 3DA-GAN einen zweite Stufe mit einem zweiteiligen gestapelten GAN ausbilden.
  20. Computerprogrammprodukt zur Erzeugung stellungsvarianter 3D-Gesichtsattribute, wobei das Computerprogrammprodukt ein nichtflüchtiges computerlesbares Speichermedium mit damit verkörperten Programmanweisungen umfasst, welche Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer einer Verfahren durchführt, das folgendes umfasst: direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts; Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix; Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines texturvervollständigenden generischen gegnerischen Netzwerks (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung auszubilden, basierend auf der Teiltexturabbildung und der Raumpositionsabbildung; und Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Atributenerzeugungs-GANs (3DA-GAN), eines Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
DE112019005672.7T 2018-11-13 2019-11-06 Erzeugung stellungsvarianter 3d-gesichtsattribute Pending DE112019005672T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862760135P 2018-11-13 2018-11-13
US62/760,135 2018-11-13
US16/673,256 2019-11-04
US16/673,256 US10991145B2 (en) 2018-11-13 2019-11-04 Pose-variant 3D facial attribute generation
PCT/US2019/059960 WO2020101960A1 (en) 2018-11-13 2019-11-06 Pose-variant 3d facial attribute generation

Publications (1)

Publication Number Publication Date
DE112019005672T5 true DE112019005672T5 (de) 2021-08-05

Family

ID=70551911

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019005672.7T Pending DE112019005672T5 (de) 2018-11-13 2019-11-06 Erzeugung stellungsvarianter 3d-gesichtsattribute

Country Status (4)

Country Link
US (1) US10991145B2 (de)
JP (1) JP7142162B2 (de)
DE (1) DE112019005672T5 (de)
WO (1) WO2020101960A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102366777B1 (ko) * 2019-04-01 2022-02-24 한국전자통신연구원 도메인 적응 기반 객체 인식 장치 및 그 방법
EP3956807A1 (de) * 2019-05-13 2022-02-23 Huawei Technologies Co., Ltd. Neuronales netzwerk zur kopfhaltungs- und blickschätzung mittels fotorealistischer synthetischer daten
CN110321872B (zh) * 2019-07-11 2021-03-16 京东方科技集团股份有限公司 人脸表情识别方法及装置、计算机设备、可读存储介质
US11386633B2 (en) * 2020-06-13 2022-07-12 Qualcomm Incorporated Image augmentation for analytics
CN111899328B (zh) * 2020-07-10 2022-08-09 西北工业大学 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN112199603B (zh) * 2020-12-07 2021-03-09 平安科技(深圳)有限公司 基于对抗网络的信息推送方法、装置及计算机设备
CN112734910B (zh) * 2021-01-05 2024-07-26 厦门美图之家科技有限公司 基于rgb单图实时人脸三维图像重建方法、装置及电子设备
US11663775B2 (en) * 2021-04-19 2023-05-30 Adobe, Inc. Generating physically-based material maps
US12111880B2 (en) * 2021-05-20 2024-10-08 Disney Enterprises, Inc. Face swapping with neural network-based geometry refining
CN113420866B (zh) * 2021-06-23 2022-10-11 新疆大学 基于双重生成对抗网络的评分预测方法
CN113610958A (zh) * 2021-07-09 2021-11-05 云南联合视觉科技有限公司 一种基于风格迁移的3d图像构建方法、装置及终端
CN113808277B (zh) * 2021-11-05 2023-07-18 腾讯科技(深圳)有限公司 一种图像处理方法及相关装置
CN114240736B (zh) * 2021-12-06 2024-09-20 中国科学院沈阳自动化研究所 基于VAE和cGAN的同时生成和编辑任意人脸属性的方法
CN117876609B (zh) * 2024-03-11 2024-05-24 国网电商科技有限公司 一种多特征三维人脸重建方法、系统、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015162012A (ja) 2014-02-26 2015-09-07 沖電気工業株式会社 顔照合装置及び顔照合方法並びにプログラム
WO2017223530A1 (en) * 2016-06-23 2017-12-28 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
JP6732668B2 (ja) * 2017-01-26 2020-07-29 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
US10474880B2 (en) * 2017-03-15 2019-11-12 Nec Corporation Face recognition using larger pose face frontalization
US10572979B2 (en) * 2017-04-06 2020-02-25 Pixar Denoising Monte Carlo renderings using machine learning with importance sampling
KR101906431B1 (ko) * 2017-07-20 2018-10-11 네이버랩스 주식회사 2d 이미지 인식에 기반한 3d 모델링 방법 및 그 시스템
CN109427080A (zh) * 2017-08-31 2019-03-05 爱唯秀股份有限公司 快速生成大量复杂光源人脸图像的方法
US10586370B2 (en) * 2018-01-08 2020-03-10 Facebook Technologies, Llc Systems and methods for rendering avatars with deep appearance models
US10796476B1 (en) * 2018-08-31 2020-10-06 Amazon Technologies, Inc. Self-supervised bootstrap for single image 3-D reconstruction

Also Published As

Publication number Publication date
JP7142162B2 (ja) 2022-09-26
JP2022505657A (ja) 2022-01-14
US20200151940A1 (en) 2020-05-14
WO2020101960A1 (en) 2020-05-22
US10991145B2 (en) 2021-04-27

Similar Documents

Publication Publication Date Title
DE112019005672T5 (de) Erzeugung stellungsvarianter 3d-gesichtsattribute
Pumarola et al. Ganimation: Anatomically-aware facial animation from a single image
DE102019130702A1 (de) Stilbasierte architektur für generative neuronale netzwerke
DE102018130924A1 (de) Systeme und Verfahren zur dynamischen Gesichtsanalyse mittels eines rekurrenten neuronalen Netzes
Dundar et al. Panoptic-based image synthesis
DE102017009049A1 (de) Ermöglichen von Transformationen Skizze-zu-Gemälde
DE3750784T2 (de) Generation eines intrapolierten charakteristischen Wertes zur Anzeige.
DE102018126342A1 (de) Transformieren von faltenden neuronalen netzen zum lernen von visuellen sequenzen
DE102018006247A1 (de) Digitalbildvervollständigung unter Verwendung des Deep Learning
DE102015113240A1 (de) System, verfahren und computerprogrammprodukt für schattierung unter verwendung eines dynamischen objektraumgitters
DE102018111407A1 (de) Methode zum maschinellen lernen für automatisches modellieren von mehrwertigen ausgaben
DE102017009910A1 (de) Bearbeiten von Digitalbildern unter Nutzung eines neuronalen Netzwerkes mit einer netzwerkinternen Erstellungsschicht
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102020131265A1 (de) Segmentieren von video-rahmen unter verwendung eines neuronalen netzes mit verringerter auflösung und von masken aus vorhergehenden rahmen
DE102015107869A1 (de) Vergabe von Primitiven an Primitiv-Blöcke
DE69130127T2 (de) System und Verfahren zur Farbbilderanzeige
DE112005003003T5 (de) System, Verfahren und Programm zum Komprimieren von dreidimensionalen Bilddaten sowie Aufzeichnungsmedium hierfür
US20220207790A1 (en) Image generation method and apparatus, and computer
DE112019007949T5 (de) Objektreidentifikation unter verwendung von poseteilbasierten modellen
DE102021109050A1 (de) Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung
DE69008766T2 (de) Verfahren und Vorrichtung zur linearen Abschattung für ein Rastergrafikdisplay.
DE102021109501A1 (de) Durch erzeugendes gegnerisches neuronales netzwerk unterstützte videorekonstruktion
DE102020209853A1 (de) Vorrichtung und system für das lernen unüberwachter geordneter darstellung mit einem residual-variational-autoencoder
DE69031204T2 (de) "Polygon-mit-Rändern"-Primitivzeichnung in einem graphischen rechnergesteuerten Anzeigesystem
DE102023127131A1 (de) Techniken der künstlichen intelligenz zur extrapolation von hdr-panoramen aus ldr-bildern mit geringem blickfeld (fov)

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009460000

Ipc: G06V0030180000