-
INFORMATION ÜBER ZUGEHÖRIGE ANMELDUNGEN
-
Diese Anmeldung beansprucht die Priorität der provisorischen US-Patentanmeldung mit der seriellen Nr.
62/760,135 , eingereicht am 13. November 2018, und der US-Gebrauchsmusteranmeldung mit der seriellen Nr.
16/673,256 , eingereicht am 4. November 2019, die hierin durch Bezugnahme hierin in ihrer Gesamtheit enthalten sind.
-
HINTERGRUND
-
Technisches Gebiet
-
Die vorliegende Erfindung betrifft Gesichtserkennung und, genauer, eine Erzeugung stellungsvarianter 3D-Gesichtsattribute.
-
Beschreibung des zugehörigen Standes der Technik
-
Ein Erkennen eines Gesichts kann aufgrund einer Stellungsvarianz eine entmutigende bzw. hoffnungslose Aufgabe sein. Demgemäß gibt es eine Notwendigkeit für einen Weg, um stellungsvariante 3D-Gesichtsattribute zu erzeugen.
-
ZUSAMMENFASSUNG
-
Gemäß einem Aspekt der vorliegenden Erfindung wird ein System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das System enthält eine erste Stufe mit einem auf einem Hardware-Prozessor basierenden 3D-Regressionsnetzwerk zum direkten Erzeugen einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts und weiterhin mit einer Renderebene zum Rendern einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das System enthält weiterhin eine zweite Stufe mit einem auf einem Hardware-Prozessor basierenden zweiteiligen gestapelten generativen gegnerischen Netzwerk (GAN) einschließlich eines Texturvervollständigungs-GANs (TC-GAN) gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN). Das TC-GAN dient zum Vervollständigen der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das 3DA-GAN dient zum Erzeugen eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das Verfahren enthält ein direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Das Verfahren enthält weiterhin ein Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das Verfahren enthält auch ein Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines generativen gegnerischen Netzwerk zur Texturvervollständigung (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das Verfahren enthält zusätzlich ein Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Attributenerzeugungs-GANs (3DA-GAN), eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt zur Erzeugung stellungsvarianter 3D-Gesichtsattribute zur Verfügung gestellt. Das Computerprogrammprodukt enthält ein nichtflüchtiges computerlesbares Speichermedium mit damit verkörperten Programmanweisungen. Die Programmanweisungen sind durch einen Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein direktes Erzeugen, durch einen Hardware-Prozessor unter Verwendung eines 3D-Regressionsnetzwerks, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Das Verfahren enthält weiterhin ein Rendern, durch den Hardware-Prozessor unter Verwendung einer Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Das Verfahren enthält auch ein Vervollständigen, durch den Hardware-Prozessor unter Verwendung eines generativen gegnerischen Netzwerk zur Texturvervollständigung (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden. Das Verfahren enthält zusätzlich ein Erzeugen, durch den Hardware-Prozessor unter Verwendung eines 3D-Attributenerzeugungs-GANs (3DA-GAN), eines Ziel- bzw. Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
-
Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung ihrer illustrativen Ausführungsformen offensichtlich werden, welche in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
-
Figurenliste
-
Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren zur Verfügung stellen, wobei:
- 1 ein Blockdiagramm ist, das ein beispielhaftes Verarbeitungssystem gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
- 2 ein Blockdiagramm ist, das ein beispielhaftes System zur Erzeugung stellungsvarianter 3D-Gesichtsattribute gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
- 3 ein Ablaufdiagramm ist, das ein beispielhaftes Verfahren zur Erzeugung von stellungsvarianten 3D-Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
-
DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
Ausführungsformen der vorliegenden Erfindung sind auf eine Erzeugung von stellungsvarianten 3D-Gesichtsattributen ausgerichtet.
-
Ausführungsformen der vorliegenden Erfindung zielen auf ein Erzeugen von Gesichtsattributen für ein stellungsvariantes Gesichtsbild aus einer allgemeinen Situation ab. Das Verfahren basiert auf einer 3D-Darstellung, die eine andere als das herkömmliche 2D-Bild ist. Das Framework bzw. die Rahmenstruktur kann sich mit großen Stellungsvariationseingaben und einem Hineinmalen (Inpainting) von erwünschten Gesichtsattributen, wie beispielsweise Bärten, Lächeln, Sonnenbrille, oben auf das ursprüngliche Bild beschäftigen. Dies ist sehr hilfreich, da es einen wichtigen Weg zur Verfügung stellt, um Gesichtsdaten für viele Anwendungen, wie beispielsweise eine Gesichtserkennung und eine Gesichtsbearbeitung, zu vermehren. Natürlich kann die vorliegende Erfindung basierend auf den Lehren der hierin zur Verfügung gestellten Erfindung für andere Anwendungen verwendet werden.
-
Bei einer Ausführungsform wird vorgeschlagen, die Aufgabe in zwei primäre Stufen zu entzerren, wie es folgt. Die erste Stufe enthält eine sanduhrbasierte tiefe dichte Regression mit einer differentiellen Renderebene, um eine 3D-Form und eine schwache perspektivische Matrix aus einem einzelnen eingegebenen Bild direkt zur erreichen und die Information zu verwenden, um eine Teiltexturdarstellung aufgrund einer durch eine Stellungsvarianz verursachten Selbstokklusion bzw. Selbstverdunklung zu rendern. Die zweite Stufe enthält ein gestapeltes generatives gegnerisches Netzwerk (GAN) mit zwei Schritten. Der erste Schritt ist ein Texturvervollständigungs-GAN (TC-GAN), das sowohl eine 3D-Form als auch eine Teiltextur verwendet, die aus der ersten Stufe erhalten sind, um die Texturabbildung zu vervollständigen. Der zweite Schritt ist ein 3D-Attributenerzeugungs-GAN (3DA-GAN), das Soll-Attribute auf die vervollständigte 3D-Texturdarstellung erzeugt. In der ersten Stufe wenden wir die UV-Darstellung für sowohl eine 3D-Punktwolke als auch die Textur an, die jeweils UVpos und UVtex genannt werden. Die UV-Darstellung stellt die dichte Forminformation zur Verfügung und bildet auch die Eins-zu-Eins-Entsprechung von einer Punktwolke zur Textur. In der zweiten Stufe sind das TC-GAN und das 3DA-GAN zwei funktionell unabhängige Aufgaben mit unabhängigen Zielen. Das 3DA-GAN empfängt die Ausgabe vom TC-GAN als Eingabe für eine Attributenerzeugung und bildet somit die gestapelte Konfiguration aus. Die gestapelten zwei GANs nehmen sowohl UVpos als auch UVtex als Eingabe, weil die vervollständigte Textur und das neu erzeugte Attribut bezüglich der 3D-Form korreliert sind.
-
1 ist ein Blockdiagramm, das ein beispielhaftes Verarbeitungssystem 100 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das Verarbeitungssystem 100 enthält eine Gruppe von Verarbeitungseinheiten (z.B. CPUs) 101, eine Gruppe von GPUs 102, eine Gruppe von Speichervorrichtungen 103, eine Gruppe von Kommunikationsvorrichtungen 104 und eine Gruppe von Peripheriegeräten 105. Die CPUs 101 können Einzel- oder Mehrkern-CPUs sein. Die GPUs 102 können Einzel- oder Mehrkern-GPUs sein. Die eine oder die mehreren Speichervorrichtungen 103 kann oder können Caches, RAMs, ROMs und andere Speicher (Flash, optisch, magnetisch, etc.) enthalten. Die Kommunikationsvorrichtungen 104 können drahtlose und/oder verdrahtete Kommunikationsvorrichtungen (z.B. Netzwerk (z.B. WIFI, etc.) Adapter, etc.) enthalten. Die Peripheriegeräte 105 können eine Anzeigevorrichtung, eine Anwender-Eingabevorrichtung, einen Drucker, eine Bildgebungsvorrichtung (z.B. eine RGBD-Bildgebungsvorrichtung, etc.), ein Mikrofon, einen Lautsprecher und so weiter enthalten. Elemente des Verarbeitungssystems 100 sind durch einen oder mehrere Busse oder Netzwerke (die gemeinsam durch das Figuren-Bezugszeichen 110 bezeichnet sind).
-
Bei einer Ausführungsform können die Speichervorrichtungen 103 speziell programmierte Softwaremodule speichern, um das Computer-Verarbeitungssystem in einen speziellen Computer zu transformieren, der konfiguriert ist, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren. Bei einer Ausführungsform kann spezielle Hardware (z.B. anwendungsspezifische integrierte Schaltungen, feldprogrammierbare Gate-Arrays (FPGAs) und so weiter) verwendet werden, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren.
-
Bei einer Ausführungsform können die Speichervorrichtungen 103 einen Code zum Implementieren von einem oder mehreren von folgendem speichern: ein 3D-Regressionsnetzwerk 103A; eine Renderebene 103B; ein gestapeltes generatives generisches Netzwerk (GAN) mit 2 Schritten 103C mit einem Texturvervollständigungs-GAN (TC-GAN) 103C1, gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) 103C2; ein Gesichtserkennungssystem 103D und ein Gesichtsbearbeitungssystem 103E. Diese und andere Elemente, die hierin beschrieben sind, können wenigstens zum Teil durch die Speichervorrichtungen 103 implementiert sein.
-
Natürlich kann das Verarbeitungssystem 100 auch andere Elemente (die nicht gezeigt sind) enthalten, wie es durch einen Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können im Verarbeitungssystem 100 in Abhängigkeit von der bestimmten Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen enthalten sein, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen, Speicher und so weiter in verschiedenen Konfigurationen verwendet werden. Weiterhin kann bei einer weiteren Ausführungsform ein Cloud-Konfiguration verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung angegeben werden.
-
Darüber hinaus ist es einzusehen, dass verschiedene Figuren, wie sie nachstehend in Bezug auf verschiedene Elemente und Schritte beschrieben sind, sich auf die vorliegende Erfindung beziehen, die, insgesamt oder zum Teil, durch eines oder mehrere der Elemente des Systems 100 implementiert werden kann.
-
Wie er hierin verwendet wird, bezieht sich der Ausdruck „Hardware-Prozessoruntersystem“ oder Hardware-Prozessor‟ kurz auf eine Kombination aus Prozessor, Speicher und Software, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, etc.) enthalten. Bei einer Ausführungsform kann oder können ein oder mehrere Datenverarbeitungselemente in einer zentralen Verarbeitungseinheit, einer Grafik-Verarbeitungseinheit und/oder einer separaten prozessor- oder computerelementbasierenden (z.B. Logikgatter, etc.) Steuerung enthalten sein. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem einen oder mehrere integrierte Speicher (z.B. Caches) enthalten. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem einen oder mehrere andere Speicher (z.B. ROM, RAM, BIOS) enthalten. Bei einer Ausführungsform kann das Hardware-Prozessoruntersystem eine oder mehrere Software-Anwendungen enthalten und ausführen. Bei einer Ausführungsform kann oder können die eine oder die mehreren Software-Anwendungen das Betriebssystem und/oder eine oder mehrere andere Anwendungen und/oder einen spezifischen Code, um ein spezifiziertes Ergebnis zu erreichen, enthalten. Diese und andere Variationen eines Hardware-Prozessoruntersystems werden bei angegebenen Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung ohne weiteres bestimmt.
-
2 ist ein Blockdiagramm, das ein beispielhaftes System 200 für eine Erzeugung von stellungsvarianten Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
-
Das System 200 enthält eine erste Stufe 210 und eine zweite Stufe 250.
-
Die erste Stufe 210 hat ein 3D-Regressionsnetzwerk 220 zum direkten Erzeugen einer Raumpositionsabbildung 221 für eine 3D-Form und einer Kameraperspektivenmatrix 222 aus einem einzelnen Bild 201 eines Gesichts.
-
Die erste Stufe 210 hat weiterhin eine Renderebene 230 zum Rendern einer Teiltexturabbildung 231 des einzelnen eingegebenen Bilds 201 basierend auf der Raumpositionsabbildung 221 und der Kameraperspektivenmatrix 222.
-
Die zweite Stufe 250 hat ein zweiteiliges gestapeltes generisches gegnerisches Netzwerk (GAN) 260. Das zweitteilige gestapelte GAN 260 enthält ein Texturvervollständigungs-GAN (TC-GAN) 270 gestapelt mit einem 3D-Attributenerzeugungs-GAN (3DA-GAN) 280.
-
Das TC-GAN 270 dient zum Vervollständigen der Teiltexturabbildung 231, um eine vollständige Texturabbildung 271 basierend auf der Teiltexturabbildung 231A und der Raumpositionsabbildung 221 auszubilden.
-
Das 3DA-GAN 280 dient zum Erzeugen eines Soll-Gesichtsattributs 281 für das einzelne eingegebene Bild 201 basierend auf der vollständigen Texturabbildung 271 und der Raumpositionsabbildung 221.
-
Bei einer Ausführungsform ist eine Codierer-Decodierer-Struktur mit einem Codierer 272 und einem Decodierer 273 als das Rückgrat des TC-GANs 270 vorgesehen. Eine solche Struktur kann auch im Regressionsnetzwerk 220 und im 3DA-GAN 280 vorgesehen sein. Bei einer nichtbeschränkenden Ausführungsform haben sowohl der Codierer 272 als auch der Decodierer 273 vier Blöcke. Jeder Block des Codierers 272 enthält eine Faltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine ReLU-Schicht. Gleichermaßen enthält jeder Block des Decodierers 273 einen Entfaltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine Leck-ReLU-Schicht bzw. undichte ReLU-Schicht bzw. Leaky ReLU-Schicht. Die Eingabe für den Codierer 272, wie in 2, ist die Verkettung einer Teiltexturabbildung, einer umgedrehten Teiltexturabbildung und der Raumpositionsabbildung. Die Ausgabe für den Codierer 272 ist das von 272 erzeugte Zwischen-Merkmal. Die Eingabe für den Decodierer 273 ist die vervollständigte Texturabbildung 271. Sprungverbindungen bzw. Sprung-Links sind eine Einstellung, die den Codierer und den Decodierer auf eine symmetrische Weise verbinden, d.h., dass der erste Block des Codierers mit dem letzten Block des Decodierers gemeinsam genutzt wird. Es ist herausgefunden worden, dass Sprungverbindungen Sprung-Links eine wichtige Rolle beim Bewahren der Hochfrequenzinformation spielen, und zwar insbesondere ab den niedrigeren Schichten, die mehr Information niedriger Ebene bewahren.
-
3 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren zur Erzeugung von stellungsvarianten 3D-Gesichtsattributen gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
-
Bei einem Block 310 erfolgt ein direktes Erzeugen, durch ein 3D-Regressionsnetzwerk, einer Raumpositionsabbildung für eine 3D-Form und einer Kameraperspektivenmatrix aus einem einzelnen eingegebenen Bild eines Gesichts. Bei einer Ausführungsform kann das 3D-Regressionsnetzwerk eine eieruhrgeformte Regressionsfunktion verwenden.
-
Bei einem Block 320 erfolgt ein Rendern, durch eine Renderebene, einer Teiltexturabbildung des einzelnen eingegebenen Bilds basierend auf der Raumpositionsabbildung und der Kameraperspektivenmatrix. Bei einer Ausführungsform kann die Teiltexturabbildung sich auf eine stellungsvarianzverursachte Selbstokklusion beziehen. Bei einer Ausführungsform kann die stellungsvarianzverursachte Selbstokklusion verwendet werden, um eine Gesichtsregion zu simulieren, die beim einzelnen eingegebenen Bild nicht vorhanden ist.
-
Bei einem Block 330 erfolgt ein Vervollständigen, durch ein texturvervollständigendes generisches gegnerisches Netzwerk (TC-GAN), der Teiltexturabbildung, um eine vollständige Texturabbildung basierend auf der Teiltexturabbildung und der Raumpositionsabbildung auszubilden.
-
Bei einem Block 340 erfolgt ein Erzeugen, durch ein 3D-Attributenerzeugungs-GAN (3DA-GAN), eines Soll-Gesichtsattributs für das einzelne eingegebene Bild basierend auf der vollständigen Texturabbildung und der Raumpositionsabbildung.
-
Bei einem Block 350 erfolgt ein Durchführen einer Gesichtsbearbeitungsoperation relativ zum Soll-Gesichtsattribut.
-
Bei einer Ausführungsform kann der Block 350 einen Block 350A enthalten.
-
Beim Block 350A erfolgt ein Ausbilden eines neuen Bilds aus der vollständigen Texturabbildung und dem Soll-Gesichtsattribut. Zum Beispiel kann die vollständige Texturabbildung von einem sauber rasierten Mann sein und kann das Soll-Gesichtsattribut ein Bart sein, der bei der vollständigen Texturabbildung zum Mann hinzugefügt ist.
-
Bei einem Block 360 erfolgt ein Durchführen einer Gesichtserkennungsoperation, um ein Individuum zu erkennen, basierend auf dem neuen Bild, das aus der vollständigen Texturabbildung und dem Soll-Gesichtsattribut ausgebildet ist (z.B. durch den Block 350A ausgebildet ist), und der Raumpositionsabbildung. Auf diese Weise können unterschiedliche Stellungen und unterschiedliche Gesichtsattribute einer selben Person erzeugt werden und dazu verwendet werden, diese Person zu identifizieren.
-
Somit führt die vorliegende Erfindung eine dichte 3D-Darstellung ein, die eine spätere Erscheinungsbilderzeugung unterstützt. Dann wird ein Rendern durchgeführt, um ein sichtbares Erscheinungsbild aus der ursprünglichen Eingabe zu erzeugen. Weiterhin wird ein Texturvervollständigungs-GAN präsentiert, um eine vollständig sichtbare Texturabbildung zu erreichen. Am Ende wird ein 3D-Attributenerzeugungs-GAN vorgeschlagen, um direkt an der 3D-Positions- und Texturdarstellung zu arbeiten und ein attributengestörtes Erscheinungsbild mit vollständig kontrollierter Stellungsgeometrie auszugeben.
-
Nun wird eine Beschreibung in Bezug auf eine UV-Positionsabbildungsregression gemäß einer Ausführungsform der vorliegenden Erfindung angegeben.
-
Um das sichtbare Erscheinungsbild wirklichkeitsgetreu zu rendern, suchen wir eine dichte 3D-Wiederherstellung von Form und Textur.
-
Es soll eine 3D-Punktwolke S 2 RNx3 angenommen werden, wobei N die Anzahl von Eckpunkten ist. Jeder Eckpunkt s = (x, y, z) besteht aus dreidimensionalen Koordinaten im Bildraum. (u, v) sind wie folgt definiert:
-
Die Gleichung (1) richtet eine eindeutige Abbildung von einer dichten Punktwolke zu den UV-Abbildungen ein. Durch Quantisieren des UV-Raums mit unterschiedlicher Granularität kann man die Dichte des UV-Raums gegenüber der Bildauflösung steuern. Bei dieser Arbeit quantisieren wir die UV-Abbildungen in 256x256 und man erhält somit 65k Eck- bzw. Scheitelpunkte. Eine UV-Positionsabbildung UVpos ist auf dem UV-Raum definiert, wobei jeder Eintrag die entsprechende dreidimensionale Koordinate (x, y, z) ist. Eine UV-Texturabbildung UVtex ist auch auf dem UV-Raum definiert, wobei jeder Eintrag die entsprechende Koordinaten-RGB-Farbe ist.
-
Basierend auf der Definition des UV-Raums schlagen wir eine tiefe Regression von der Eingabe zu UV
pos anstelle der ursprünglichen dichten Punktwolke vor. Gleichzeitig führen wir die Stellungsschätzung durch Regressionsbearbeitung der schwachen Perspektivenmatrix W ∈ ℝ
3x4 durch. Bezeichnet man die tiefe Regression als eine nichtlineare Funktion Φ, das eingegebene Bild mit I, ist das Ziel wie folgt:
-
Die ersten zwei Ausdrücke in der Gleichung (2) sind ein regulärer überwachter Verlust für die vorhergesagte UV-Abbildung Φ(i) ∈ ℝ256×256×3 und die schwache Perspektivenmatrix W. UV*, W* und S* sind als die entsprechende Grundwahrheit bezeichnet. Der dritte Ausdruck schaut in die vordefinierten Orientierungspunkte des Gesichts. Die durch die UV-Abbildung vorhergesagten Orientierungspunktkoordinaten sollten ebenso nahe bei der Grundwahrheit sein. In der Praxis finden wir, dass ein kleiner UV-Abbildungsfehler nicht kleine Orientierungspunktfehler garantiert. Das ist deshalb so, weil die dichte Punktwolke eine bestimmte Menge an Vieldeutigkeit hat, wenn man sie auf die spärlichen Orientierungspunkte abbildet. Um die Formregression strenger zu beschränken, führen wir einen indizierenden Vektor L ∈ ℝ1×N ein, dessen Eintrag 1 ist, wenn der entsprechende Eck- bzw. Scheitelpunkt ausgewählt ist, und sonst 0. Es ist zu beachten, dass Φ(I) stellungsspezifisch ist und wir es zurück zu einer Referenzstellung transferieren müssen, indem man W*-1 anwendet. Es soll angenommen werden, dass W = [R|T] aus einer Rotationsmatrix R∈ℝ3×1 und einem Translationsvektor T 2 R3x1 besteht. Wir setzen W*-\1 als [R*-1l-T] ein. Wenn der dritte Ausdruck berechnet wird, formen wir das ursprüngliche Φ(i) in ℝN×3 um.
-
Nun wird eine Beschreibung in Bezug auf ein Rendern der UV-Texturabbildung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden. Die UV
tex eines stellungsvarianten Gesichts ist mit teilweise sichtbarer Erscheinungsform. Dies ist deshalb so, weil die durch Stellungsvariation verursachte Selbstokklusion den unsichtbaren Gesichtsbereich erzeugt. Im ursprünglichen Koordinatenraum führen wir einen z-Pufferalgorithmus durch, um die sichtbare Bedingung von jedem 3D-Scheitelpunkt zu etikettieren. Diejenigen Scheitelpunkte mit größter Tiefeninformation sind sichtbar, während alle anderen unsichtbar sind. Es soll angenommen werden, dass der Sichtbarkeitsvektor M mit einem Eintrag 1 sichtbar bedeutet und mit 0 unsichtbar. Das Rendern ist eine Nachschauoperation durch Assoziieren der Farbe der spezifischen Koordinate mit der entsprechenden UV-Koordinate. Wir formulieren den Prozess in einer Gleichung (3), wie es folgt:
wobei (u, v) durch Gleichung (1) bestimmt ist.
-
Nun wird eine Beschreibung in Bezug auf die UV-Texturabbildungsvervollständigung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Die unvollständige UVtex von dem Rendern ist nicht ausreichend, um die Attributenerzeugung durchzuführen, da der unsichtbare Bereich Artefakte einführt. Wir suchen eine Texturvervollständigung, die nicht nur eine fotorealistische Erscheinungsbildwiedergewinnung zur Verfügung stellen kann, sondern auch die Identitätsbewahrung. UV-GAN schlägt eine ähnliches Rahmenstruktur bzw. ein ähnliches Framework vor, um die UV-Texturabbildung durch Anwenden eines gegnerischen Netzwerks zu vervollständigen. Jedoch berücksichtigt es nur die Texturinformation. Wir argumentieren, dass für eine 3D-UV-Darstellung ein Vervollständigen des Erscheinungsbilds sowohl Texturinformation als auch die Forminformation berücksichtigen sollte. Zum Beispiel wird ein Kombinieren der ursprünglichen und der umgedrehten Eingabe eine gute Initialisierung für eine Erscheinungsbildvorhersage zur Verfügung stellen. Aber sie wendet nur die Symmetriebeschränkung bei der Form an, was nicht ausreichend ist, um die Forminformation zu bewahren. Somit nehmen wir UVpos, UVtex und umgedrehtes UVtex als Eingabe. Wir entwickeln eine Codierer-Decodierer-Struktur als das Rückgrat von TC-GAN. Sowohl der Codierer als auch der Decodierer ist mit vier Blöcken versehen. Jeder Block des Codierers enthält eine Faltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine ReLU-Schicht. Gleichermaßen enthält jeder Block des Decodierers eine Entfaltungsschicht, gefolgt durch eine Batch-Normalisierungsschicht und eine Leck-ReLU-Schicht bzw. Leaky-ReLU-Schicht. Sprungverbindungen bzw. Sprung-Links sind eine Einstellung, die den Codierer und den Decodierer auf eine symmetrische Weise verbinden, d.h. der erste Block des Codierers wird mit dem letzten Block des Decodierers gemeinsam genutzt. Wir finden, dass Sprungverbindungen bzw. Sprung-Links eine wichtige Rolle beim Bewahren von Hochfrequenzinformation spielen, insbesondere von den zwei Schichten, die mehr Information niedrigerer Ebene bewahren.
-
Nun wird eine Beschreibung eines Wiederherstellungsmoduls gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Mit der vorgeschlagenen dichten 3D-Punktwolken-Wiederherstellung können wir aktuell bzw. tatsächlich die Grundwahrheit dieser Aufgabe ohne irgendeine Etikettierung vorbereiten. Wir beginnen mit nahezu frontalen Gesichtsbildern, wo alle Pixel sichtbar sind. Dann stören wir die Kopfstellung dieses ursprünglichen Bilds bei einem zufälligen Winkel. Es ist zu beachten, dass alle stellungsvarianten Bilder dieselbe frontale Grundwahrheit gemeinsam nutzen, die das ursprüngliche Bild ist. Durch das eingeführte Rendern erhalten wir die unvollständige Texturabbildung für die Eingabe. Da eine Grundwahrheit zur Verfügung gestellt ist, schlagen wir den überwachten Wiederherstellungsverlust vor, um die Vervollständigung wie folgt zu führen:
-
Gtc(■) bezeichnet den Generator, der den Codierer und den Decodierer enthält. I bezeichnet die Eingabe, Ĩ bezeichnet die umgedrehte Eingabe und I* bezeichnet die vollständige Grundwahrheit der Eingabe. Ein ledigliches Verlassen auf die Wiederherstellung bzw. Rekonstruktion kann ein Ergebnis hoher Qualität nicht garantieren, weil der L2- oder L1-Verlust normalerweise einen verschwommenen Effekt hereinbringt. Somit führen wir ein gegnerisches Trainieren ein, um die Erzeugungsqualität zu verbessern.
-
Nun wird eine Beschreibung in Bezug auf das Diskriminatormodul gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Bei gegebenen Grundwahrheitsbildern als positive Proben I* ∈ R, und G
tc erzeugten Proben als negative, trainieren wir einen Diskriminator D mit dem folgenden Ziel.
-
Nun wird eine Beschreibung in Bezug auf das Generatormodul gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Nach dem gegnerischen Trainieren zielt G
tc darauf ab, D zu täuschen und somit das Ziel zur anderen Richtung zu drücken bzw. stoßen.
-
Nun wird eine Beschreibung in Bezug auf einen Glattheitsausdruck gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Um das Artefakt zu entfernen, schlagen wir vor, den gesamten Variationsverlust anzuwenden, um die Glätte der Ausgabe lokal zu beschränken, wie es folgt:
-
∇G
tc(I,Ĩ, UV
pos) ist der Gradient der Ausgabe. |/| ist die Anzahl von Einträgen eines eingegebenen Bilds, die äquivalent zu der Anzahl von Ausgabe-Einträgen ist. Um eine Identität zu bewahren, wie es die meisten der Arbeiten tun, müssen wir eine Gesichtserkennungsmaschine einführen, um zu garantieren, dass das Erkennungsmerkmal aus dem erzeugten Bild nahe dem Merkmal aus dem Grundwahrheits-Bild ist. In der Praxis finden wir, dass die Wiederherstellungsbeschränkung in Gleichung 4 ausreichend ist, um die Identität bei dieser Aufgabe zu bewahren. Somit wird der gesamte Verlust für TC-GAN zusammengefasst, wie es folgt:
-
Eine Gewichtungsverteilung ist empirisch jeweils eingestellt als λrecon = 1,λadv = 0.1,λtv = 0.05.
-
Nun wird eine Beschreibung in Bezug auf eine 3D-Gesichtsattributenerzeugung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
-
Wir führen die 3D-Darstellung, die vervollständigten UVtex und UVpos als die Eingabe ein. Wir glauben, dass ein Einführen einer 3D-geometrischen Information ein Attribut besser synthetisieren kann, d.h. mit einer 3D-Forminformation wird eine Sonnenbrille als Oberfläche erzeugt werden. Wir formulieren die Soll-Attributenerzeugung als ein konditionales GAN-Framework durch Einfügen des Attributencodes p in den Datenfluss. Wir wählen manuell 8 aus 40 beispielhaften Attributen, die lediglich den Gesichtsbereich berücksichtigen bzw. reflektieren und nicht mit der Gesichtsidentität korreliert sind, d.h. Sonnenbrille (SG), Mund offen (MO), Lippenstift tragen (LS), Schatten um 5 Uhr (SH), Lächeln (SM), Augenringe (EB), blasse Haut (PS) und Pony (BA). Somit gilt p ∈ ℝ8 und jedes Element steht für ein Attribut, und zwar bei 1 mit dem Attribut und bei 0 ohne. Die Eieruhr wird als die Struktur von Gattr angewendet. Der Codierer und der Decodierer sind, gleich einer Einstellung wie beim TC-GAN, jeweils mit vier Blöcken versehen. Der Attributencode p wird mit zwei Blöcken verschlungen und dann mit dem dritten Block des Codierers von Gattr verkettet.
-
Unsere Trainingsprozedur kann in zwei Phasen aufgeteilt werden.
-
(1) Rekonstruktion bzw. Wiederherstellung. Unter der Annahme einer Eingabe UVtex, UVpos und der Grundwahrheit p Ausgeben von den wiedergestellten UVtex, UVpos mit genau denselben Attributen bei p.
-
(2) Attributengestörte Erzeugung. Bei dieser Stufe drehen wir ein Attribut pro Zeit von p um, unter Berücksichtigung eines Umdrehens von 0 zu 1, was auch bekannt ist als ein Erzeugen eines Attributs, was anders ist als ein Eliminieren eines Attributs. Die Eingabe ist noch UVtex, UVpos und das gestörte p', dessen Hamming-Distanz zu p genau Eins ist. Die Ausgabe ist gestörtes UV́tex, UV́pos, was das neu erzeugte Attribut zeigt, das durch das umgedrehte Bit bei p' angezeigt ist, wo alle anderen Teile bewahrt werden sollten. Der Zweck für ein Einstellen von Phase (1) liegt darin, dass wir eine pro-Attribut-Erzeugung berücksichtigen, wo das meiste von einem nicht auf ein Attribut bezogenen Bereich derselbe bleiben sollte. Ein Durchführen der Wiederherstellung wird zuerst einen großen Vorteil für diese Prozedur bringen, während Phase (2) sich nur auf die lokale Störung konzentrieren kann. Weiterhin garantiert es, dass das gestörte Attribut nur den neu erzeugten Attributenbereich durch Kontrastieren dieser zwei Phasen bestimmt.
-
Wir führen die Verlustentwicklung durch funktionelles Abstrahieren von denselben Komponenten ein, die durch die zweiphasige Prozedur meistens gemeinsam genutzt werden.
-
Die vorliegende Erfindung kann ein System, ein Verfahren und/oder ein Computerprogrammprodukt bei irgendeiner technischen Detailebene einer Integration sein. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder Medien) mit computerlesbaren Programmanweisungen darauf zum Veranlassen, dass ein Prozessor Aspekte der vorliegenden Erfindung ausführt, enthalten.
-
Ein Bezugnahme in der Beschreibung auf „eine Ausführungsform“ oder „irgendeine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das bzw. die in Verbindung mit der Ausführungsform beschrieben ist, in wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungsformen der Phrase „bei einer Ausführungsform“ oder „bei irgendeiner Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Beschreibung erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform.
-
Es ist einzusehen, dass beabsichtigt ist, dass die Verwendung von irgendetwas von dem folgenden „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“ die Auswahl der ersten aufgelisteten Option nur (A) oder die Auswahl der zweiten aufgelisteten Option nur (B) oder die Auswahl von beiden Optionen (A und B) umfasst. Als ein weiteres Beispiel ist in den Fällen von „A, B und/oder C“ und „wenigstens eines von A, B und C“ für eine solche Phrasierung beabsichtigt, dass sie die Auswahl der ersten aufgelisteten Option nur (A) oder die Auswahl der zweiten aufgelisteten Option nur (B) oder die Auswahl der dritten aufgelisteten Option nur (C) umfasst, oder die Auswahl der ersten und der zweiten aufgelisteten Option nur (A und B) oder die Auswahl der ersten und der dritten aufgelisteten Option nur (A und C) oder die Auswahl der zweiten und der dritten aufgelisteten Option nur (B und C) oder die Auswahl von allen drei Optionen (A und B und C). Dies kann für so viele Elemente erweitert werden, wie sie aufgelistet sind.
-
Das Voranstehende ist in jederlei Hinsicht als illustrativ und beispielhaft, aber nicht als beschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern eher aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch das Patentrecht zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Sind somit die Aspekte der Erfindung mit den Details und der Besonderheit, die durch das Patentrecht erforderlich sind, beschrieben worden, ist das, was beansprucht ist und durch das Patent als geschützt zu sein erwünscht ist, in den beigefügten Ansprüchen dargelegt.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 62/760135 [0001]
- US 16/673256 [0001]