DE112018000298T5 - System und verfahren zur poseninvarianten gesichtsausrichtung - Google Patents

System und verfahren zur poseninvarianten gesichtsausrichtung Download PDF

Info

Publication number
DE112018000298T5
DE112018000298T5 DE112018000298.5T DE112018000298T DE112018000298T5 DE 112018000298 T5 DE112018000298 T5 DE 112018000298T5 DE 112018000298 T DE112018000298 T DE 112018000298T DE 112018000298 T5 DE112018000298 T5 DE 112018000298T5
Authority
DE
Germany
Prior art keywords
visualization
image
data
facial
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018000298.5T
Other languages
English (en)
Inventor
Amin Jourabloo
Liu Ren
Mao Ye
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of DE112018000298T5 publication Critical patent/DE112018000298T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

Ein Rechensystem schließt ein Verarbeitungssystem mit wenigstens einer Verarbeitungseinheit ein. Das Verarbeitungssystem ist konfiguriert, um ein Gesichtsausrichtungsverfahren beim Empfangen von Bilddaten mit einem Gesichtsbild auszuführen. Das Verarbeitungssystem ist konfiguriert, um ein neuronales Netz auf das Gesichtsbild anzuwenden. Das neuronale Netz ist konfiguriert, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen. Das neuronale Netz weist wenigstens eine Visualisierungsschicht auf, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren. Die Parameterdaten schließen Kopfposendaten und Gesichtsformdaten ein.

Description

  • GEBIET DER ERFINDUNG
  • Diese Offenbarung betrifft Systeme und Verfahren zur Gesichtsausrichtung.
  • HINTERGRUND
  • Im Allgemeinen weisen Gesichtsausrichtungstechnologien, die mit Kaskaden von konvolutionellen neuronalen Netzen (CNNs, Convolutional Neural Networks) implementiert werden, wenigstens die folgenden Nachteile auf: fehlendes End-to-End-Training, Extraktion handgefertigter Merkmale und langsame Trainingsgeschwindigkeit. Beispielsweise können die CNNs ohne End-to-End-Training nicht gemeinsam optimiert werden, was zu einer suboptimalen Lösung führt. Zusätzlich implementieren diese Typen von Gesichtsausrichtungstechnologien häufig einfache Verfahren zur Extraktion handgefertigter Merkmale, die verschiedene Gesichtsfaktoren, wie beispielsweise Pose, Ausdruck usw., nicht berücksichtigen. Darüber hinaus weisen diese Kaskaden von CNNs typischerweise flache Frameworks auf, die nicht in der Lage sind, tiefere Merkmale zu extrahieren, indem sie auf den extrahierten Merkmalen von CNN im Frühstadium aufbauen. Ferner ist das Training für diese CNNs in der Regel zeitaufwendig, da jedes der CNNs unabhängig und sequenziell trainiert wird und auch, weil eine Extraktion handgefertigter Merkmale zwischen zwei aufeinanderfolgenden CNNs erforderlich ist.
  • KURZFASSUNG
  • Das Folgende ist eine Kurzfassung bestimmter Ausführungsformen, die nachstehend detailliert beschrieben werden. Die beschriebenen Aspekte werden lediglich präsentiert, um dem Leser eine kurze Zusammenfassung dieser bestimmten Ausführungsformen bereitzustellen, und die Beschreibung dieser Aspekte soll den Schutzbereich dieser Offenbarung nicht einschränken. In der Tat kann diese Offenbarung eine Vielzahl von Aspekten umfassen, die im Folgenden nicht explizit dargelegt werden.
  • In einer beispielhaften Ausführungsform weist ein Rechensystem ein Verarbeitungssystem mit wenigstens einer Verarbeitungseinheit auf. Das Verarbeitungssystem ist konfiguriert, um ein Gesichtsausrichtungsverfahren beim Empfangen von Bilddaten mit einem Gesichtsbild auszuführen. Das Verarbeitungssystem ist konfiguriert, um ein neuronales Netz auf das Gesichtsbild anzuwenden. Das neuronale Netz ist konfiguriert, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen. Das neuronale Netz weist wenigstens eine Visualisierungsschicht auf, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren. Die Parameterdaten schließen Kopfposendaten und Gesichtsformdaten ein.
  • In einer beispielhaften Ausführungsform beinhaltet ein computerimplementiertes Verfahren das Empfangen von Bilddaten mit einem Gesichtsbild. Das computerimplementierte Verfahren beinhaltet das Implementieren eines neuronalen Netzes, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen. Das neuronale Netz weist wenigstens eine Visualisierungsschicht auf, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren. Die Parameterdaten schließen Kopfposendaten und Gesichtsformdaten ein.
  • In einer beispielhaften Ausführungsform umfasst ein nichtflüchtiges computerlesbares Medium wenigstens computerlesbare Daten, die, wenn sie durch ein Verarbeitungssystem mit wenigstens einer Verarbeitungseinheit ausgeführt werden, ein Verfahren durchführen, das das Empfangen von Bilddaten mit einem Gesichtsbild beinhaltet. Das Verfahren beinhaltet das Implementieren eines neuronalen Netzes, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen. Das neuronale Netz weist wenigstens eine Visualisierungsschicht auf, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren. Die Parameterdaten schließen Kopfposendaten und Gesichtsformdaten ein.
  • Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden durch die folgende detaillierte Beschreibung bestimmter beispielhafter Ausführungsformen im Hinblick auf die beigefügten Zeichnungen weiter erläutert, in denen gleiche Zeichen gleiche Teile repräsentieren.
  • Figurenliste
    • 1 ist ein Blockschaltbild eines Systems gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 2 veranschaulicht ein poseninvariantes Gesichtsausrichtungsmodul des Systems aus 1 gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 3 ist ein Blockschaltbild der Architektur des CNN aus 2 gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 4 ist eine konzeptionelle Darstellung eines Visualisierungsblocks gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 5 ist eine beispielhafte Darstellung einer Architektur eines Visualisierungsblocks gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 6 veranschaulicht ein Beispiel einer Maske gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 7 veranschaulicht ein Beispiel einer Maske gemäß einer alternativen beispielhaften Ausführungsform dieser Offenbarung.
    • 8 veranschaulicht ein Beispiel zum Auswählen eines gewünschten Oberflächenpunkts während der Projektion basierend auf Oberflächennormalenvektoren für ein 3D-Objekt gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9A ist ein Beispiel von Bilddaten gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9C ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem ersten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9D ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem zweiten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9E ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem dritten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9F ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem vierten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9G ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem fünften Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 9H ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem sechsten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10A ist ein Beispiel von Bilddaten gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10C ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem ersten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10D ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem zweiten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10E ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem dritten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10F ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem vierten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10G ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem fünften Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 10H ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem sechsten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11A ist ein Beispiel von Bilddaten gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11C ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem ersten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11D ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem zweiten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11E ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem dritten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11F ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem vierten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11G ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem fünften Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
    • 11H ist ein Beispiel von Visualisierungsdaten einer Visualisierungsschicht, die mit einem sechsten Visualisierungsblock eines CNN assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung.
  • DETAILLIERTE BESCHREIBUNG
  • Die oben beschriebenen Ausführungsformen, die beispielhaft gezeigt und beschrieben wurden, und viele ihrer Vorteile werden durch die vorstehende Beschreibung verständlich, und es ist offensichtlich, dass verschiedene Änderungen an der Form, Konstruktion und Anordnung der Komponenten vorgenommen werden können, ohne vom offenbarten Gegenstand abzuweichen oder ohne einen oder mehrere seiner Vorteile zu beeinträchtigen. In der Tat sind die beschriebenen Formen dieser Ausführungsformen lediglich erläuternd. Diese Ausführungsformen sind verschiedenen Modifikationen und alternativen Formen zugänglich, und die nachfolgenden Ansprüche sollen derartige Änderungen umfassen und einschließen und nicht auf die bestimmten offenbarten Formen beschränkt sein, sondern vielmehr alle Modifikationen, Äquivalente und Alternativen abdecken, die in das Wesen und den Schutzbereich dieser Offenbarung fallen.
  • 1 ist ein Blockschaltbild eines Computersystems 100, das zum Implementieren einer poseninvarianten Gesichtsausrichtung konfiguriert ist. In dieser Hinsicht umfasst das Computersystem 100 verschiedene Software- und Hardwarekomponenten. Beispielsweise beinhaltet das Computersystem 100 wenigstens ein Speichersystem 110, ein Gesichtserkennungsmodul 120, ein poseninvariantes Gesichtsausrichtungsmodul 130, ein Verarbeitungssystem 140, ein Kommunikationssystem 150 und andere Funktionsmodule 160. In einer beispielhaften Ausführungsform ist das Computersystem 100 konfiguriert, um ein poseninvariantes Gesichtsausrichtungsverfahren zu implementieren und auszuführen, wie hierin offenbart und wie vom poseninvarianten Gesichtsausrichtungsmodul 130 bereitgestellt. Zusätzlich ist in einer beispielhaften Ausführungsform das Computersystem 100 auch konfiguriert, um eine Gesichtserkennung zu implementieren und auszuführen, wie hierin offenbart und wie vom Gesichtserkennungsmodul 120 bereitgestellt, bevor das poseninvariante Gesichtsausrichtungsverfahren implementiert und ausgeführt wird.
  • In einer beispielhaften Ausführungsform beinhaltet das Speichersystem 110 verschiedene Daten, unter anderem Trainingsdaten und andere Daten, die mit dem poseninvarianten Gesichtsausrichtungsmodul 130 assoziiert sind. In einer beispielhaften Ausführungsform ist das Speichersystem 110 ein Computer- oder elektronisches Speicherungssystem, das konfiguriert ist, um verschiedene Daten zu speichern und Zugriff darauf bereitzustellen, um wenigstens die Operationen und Funktionalität zu ermöglichen, wie hierin offenbart. In einer beispielhaften Ausführungsform umfasst das Speichersystem 110 eine einzelne Vorrichtung oder eine Mehrzahl von Vorrichtungen. In einer beispielhaften Ausführungsform kann das Speichersystem 110 eine elektrische, elektronische, magnetische, optische, Halbleiter-, elektromagnetische oder eine beliebige geeignete Technologie aufweisen. Beispielsweise kann das Speichersystem 110 in einer beispielhaften Ausführungsform einen Direktzugriffsspeicher (RAM, Random Access Memory), einen Nur-Lese-Speicher (ROM, Read Only Memory), einen Flash-Speicher, ein Plattenlaufwerk, eine Speicherkarte, eine optische Speicherungsvorrichtung, eine magnetische Speicherungsvorrichtung, ein Speichermodul, einen beliebigen geeigneten Typ von Speichervorrichtung oder eine beliebige Kombination davon aufweisen. In einer beispielhaften Ausführungsform ist das Speichersystem 110 in Bezug auf das Computersystem 100 lokal, entfernt oder eine Kombination davon (z. B. teilweise lokal und teilweise entfernt). In einer beispielhaften Ausführungsform kann das Speichersystem 110 wenigstens ein Cloud-basiertes Speicherungssystem (z. B. ein Cloud-basiertes Datenbanksystem) aufweisen, das von den anderen Komponenten des Computersystems 100 entfernt ist.
  • In einer beispielhaften Ausführungsform weist das Gesichtserkennungsmodul 120 Hardware, Software oder eine Kombination davon auf. In einer beispielhaften Ausführungsform ist das Gesichtserkennungsmodul 120 wenigstens konfiguriert, um ein Bild zu empfangen, ein Gesichtsbild innerhalb des Bilds zu identifizieren und Bilddaten 220 bereitzustellen, die sich auf das Gesichtsbild beziehen. In einer beispielhaften Ausführungsform weist das Verarbeitungssystem 140 wenigstens eine zentrale Verarbeitungseinheit (CPU, Central Processing Unit), eine Grafikverarbeitungseinheit (GPU, Graphics Processing Unit), ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC, Application-Specific Integrated Circuit), ein System-on-a-Chip-System (SOC), eine programmierbare Logikvorrichtung (PLD, Programmable Logic Device), eine beliebige geeignete Rechentechnologie oder eine beliebige Kombination davon auf.
  • In einer beispielhaften Ausführungsform weist das Kommunikationssystem 150 eine geeignete Kommunikationstechnologie auf, die es einer beliebigen geeigneten Kombination von Komponenten des Computersystems 100 ermöglicht, miteinander zu kommunizieren. In einer beispielhaften Ausführungsform weist das Kommunikationssystem 150 eine drahtgebundene Technologie, eine drahtlose Technologie und/oder eine Kombination davon auf. In einer beispielhaften Ausführungsform weist das Kommunikationssystem 150 ein drahtgebundenes Netz, ein drahtloses Netz und/oder eine Kombination davon auf. In einer beispielhaften Ausführungsform weist das Kommunikationssystem 150 einen beliebigen geeigneten Typ von Computernetz und/oder Architektur auf. In einer beispielhaften Ausführungsform weist das Kommunikationssystem 150 eine Verbindung zum Internet auf.
  • In einer beispielhaften Ausführungsform weisen die anderen Funktionsmodule 160 Hardware, Software oder eine Kombination davon auf. Beispielsweise weisen die anderen Funktionsmodule 28 Logikschaltungen, ein Betriebssystem, E/A-Vorrichtungen (z. B. eine Anzeige usw.), eine andere Computertechnologie oder eine beliebige Kombination davon auf. Insbesondere ermöglichen die anderen Funktionsmodule 28 in einer beispielhaften Ausführungsform, dass das poseninvariante Gesichtsausrichtungsmodul 130 arbeitet und funktioniert, wie hierin offenbart. In einer beispielhaften Ausführungsform weisen die anderen Funktionsmodule 160 eine Kamera und/oder ein optisches System auf. In dieser Hinsicht sind die Kamera und/oder das optische System konfiguriert, um dem Gesichtserkennungsmodul 120 und/oder dem Verarbeitungssystem 140 ein Bild bereitzustellen, so dass Bilddaten 220 an das poseninvariante Gesichtsausrichtungsmodul 130 bereitgestellt werden. Auch weisen die anderen Funktionsmodule 160 in einer beispielhaften Ausführungsform ein Gesichtsanalysemodul auf, wie beispielsweise ein Gesichtserkennungsmodul, ein Ausdrucksschätzungsmodul, ein 3D-Gesichtsrekonstruktionsmodul, ein beliebiges geeignetes Gesichtsanalysemodul oder eine beliebige Kombination davon. In dieser Hinsicht ist das Gesichtsanalysemodul konfiguriert, um eine Gesichtsanalyse gemäß einer Ausgabe, wie beispielsweise einer endgültigen Schätzung von Parameterdaten, die sich auf das Gesichtsbild beziehen, vom CNN 200 durchzuführen.
  • 2 veranschaulicht ein poseninvariantes Gesichtsausrichtungsmodul 130 gemäß einer beispielhaften Ausführungsform. In einer beispielhaften Ausführungsform weist das poseninvariante Gesichtsausrichtungsmodul 130 einen einzelnen CNN 200 auf. In einer beispielhaften Ausführungsform ist dieses CNN 200 konfiguriert, um wenigstens Bilddaten 220 und einen Satz von Parametern 230 als Eingabe zu empfangen. Beim Empfangen der Bilddaten 220 (d. h. eines einzelnen Gesichtsbilds mit einer beliebigen Kopfpose) vom Gesichtserkennungsmodul 120 und beim Erhalten eines Satzes von Parametern 230 ist das poseninvariante Gesichtsausrichtungsmodul 130 konfiguriert, um die 2D-Landmarken mit ihren Sichtbarkeitskennzeichnungen durch Anpassen eines 3D-Gesichtsmodells zu schätzen. In dieser Hinsicht weist das poseninvariante Gesichtsausrichtungsmodul 130 ein einzelnes CNN 200 mit End-to-End-Training für die Modellanpassung auf.
  • 3 veranschaulicht eine beispielhafte Architektur des CNN 200 gemäß einer beispielhaften Ausführungsform. Wie gezeigt, weist das CNN 200 eine Mehrzahl von verbundenen Visualisierungsblöcken 210 auf. Beispielsweise weist das CNN 200 als nicht einschränkendes Beispiel wenigstens sechs Visualisierungsblöcke 210 auf. In dieser Hinsicht weist das CNN 200 eine beliebige geeignete Anzahl von Visualisierungsblöcken 210 auf, die die gewünschten Ergebnisse liefern. In einer beispielhaften Ausführungsform beinhalten die Eingaben Bilddaten 220 und eine anfängliche Schätzung von wenigstens einem Parameter, z. B. Parameter P0, und die Ausgabe ist die endgültige Schätzung 290 des Parametersatzes. Im Vergleich zu einem verwandten System mit einer Kaskade von CNN 200s weist das poseninvariante Gesichtsausrichtungsmodul 130 aufgrund der gemeinsamen Optimierung aller Visualisierungsblöcke 210 mit Backpropagation der Verlustfunktionen ein CNN 200 mit einer Architektur auf, die in der Lage ist, während des Trainings in wesentlich weniger Epochen zu konvergieren.
  • In einer beispielhaften Ausführungsform weist das System 100 ein 3D Morphable Model (3DMM) auf. In einer beispielhaften Ausführungsform weisen das Speichersystem 110 (z. B. Trainingsdaten), das poseninvariante Gesichtsausrichtungsmodul 130 oder eine Kombination davon das 3DMM auf. In einer beispielhaften Ausführungsform repräsentiert das 3DMM die 3D-Form eines Gesichts. Insbesondere repräsentiert das 3DMM ein 3D-Gesicht Sp als eine lineare Kombination aus mittlerer Form So, Identitätsbasen SI und Ausdrucksbasen SE mittels der folgenden Gleichung:
  • S p = S 0 + k N I p k I S k I + k N E p k E S k E
    Figure DE112018000298T5_0001
  • In einer beispielhaften Ausführungsform verwendet das poseninvariante Gesichtsausrichtungsmodul 130 einen Vektor p = [pI, pE] für die 3D-Formparameter, wobei p I = [ p 0 I , , p N I I ]
    Figure DE112018000298T5_0002
    die Identitätsparameter sind und p E = [ p 0 E , , p N E E ]
    Figure DE112018000298T5_0003
    die Ausdrucksparameter sind. In einer beispielhaften Ausführungsform verwendet das poseninvariante Gesichtsausrichtungsmodul 130 ein Basel-3D-Gesichtsmodell, das 199 Basen aufweist, als Identitätsbasen und das Face-Warehouse-Modell mit 29 Basen als die Ausdrucksbasen. In diesem Fall umfasst jede 3D-Gesichtsform einen Satz von Q 3D-Scheitelpunkten:
  • S p = [ x 1 p x 2 p x Q p y 1 p y 2 p y Q p z 1 p z 2 p z Q p ]
    Figure DE112018000298T5_0004
  • In einer beispielhaften Ausführungsform sind die 2D-Gesichtsformen die Projektion von 3D-Formen. In einer beispielhaften Ausführungsform wird das schwache perspektivische Projektionsmodell mit 6 Freiheitsgraden verwendet, d. h. einem für die Skala, drei für Rotationswinkel und zwei für Translationen, wodurch die 3D-Gesichtsform Sp auf 2D-Bilder projiziert wird, um die 2D-Form U zu erhalten, wie mittels der folgenden Gleichung ausgedrückt:
  • U = f ( P ) = M ( S p ( ; , b ) 1 ) ,
    Figure DE112018000298T5_0005
    wobei
  • M = [ m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 ]
    Figure DE112018000298T5_0006
    und
  • U = ( x 1 t x 2 t x N t y 1 t y 2 t y N t )
    Figure DE112018000298T5_0007
  • In diesem Fall sammelt U einen Satz von N 2D-Landmarken, M ist die Kameraprojektionsmatrix mit missbräuchlicher Verwendung der Notation P = {M, p}, und der N-dim-Vektor b beinhaltet 3D-Vertex-Indizes, die semantisch 2D-Landmarken entsprechen. In einer beispielhaften Ausführungsform bezeichnen m1 = [m1 m2 m3] und m2 = [m5 m6 m7] die ersten beiden Zeilen der skalierten Rotationskomponente, während m4 und m8 die Translationen sind.
  • Gleichung 3 stellt die Beziehung oder Äquivalenz zwischen 2D-Landmarken U und P her, d. h. 3D-Formparameter p und Kameraprojektionsmatrix M. Da fast alle Trainingsbilder für die Gesichtsausrichtung nur 2D-Labels aufweisen, d. h. U, führt das Verarbeitungssystem 140 einen Datenaugmentierungsschritt durch, um ihr entsprechendes P zu berechnen. Bei gegebenen Bilddaten 220 ist das poseninvariante Gesichtsausrichtungsmodul 130 konfiguriert, um den Parameter P zu schätzen, auf dessen Grundlage die 2D-Landmarken und ihre Sichtbarkeiten abgeleitet werden können.
  • 4 veranschaulicht eine konzeptionelle Darstellung eines Visualisierungsblocks 210 gemäß einer beispielhaften Ausführungsform. Wie in 4 gezeigt, weist der Visualisierungsblock 210 eine Visualisierungsschicht 240 auf, die die 3D-Gesichtsform aus den geschätzten Parametern innerhalb des CNN 200 rekonstruiert und ein 2D-Bild über die Oberflächennormalenvektoren 808/810 der sichtbaren Scheitelpunkte synthetisiert. In einer beispielhaften Ausführungsform visualisiert die Visualisierungsschicht 240 das Ausrichtungsergebnis des vorherigen Visualisierungsblocks 210 und nutzt es für den aktuellen Visualisierungsblock 210. In einer beispielhaften Ausführungsform wird die Visualisierungsschicht 240 von den Oberflächennormalen 808/810 des zugrunde liegenden 3D-Gesichtsmodells 806 abgeleitet und codiert die relative Pose zwischen einem Gesicht und einer Kamera (8). In einer beispielhaften Ausführungsform ist die Visualisierungsschicht 240 auch differenzierbar, wodurch der Gradient analytisch berechnet werden kann, wodurch ein End-to-End-Training des CNN 200 ermöglicht wird. Wie in 4 gezeigt, nutzt die Visualisierungsschicht 240 ferner eine Maske 600/700, um zwischen Pixeln in den Mittel- und Konturteilen eines Gesichtsbilds zu unterscheiden und um auch den Pixelwert der visualisierten Bilder über verschiedene Posen hinweg ähnlich zu machen. Darüber hinaus kann, wie in 4 gezeigt, die endgültige Schätzung 290 der Parameter des Gesichtsbilds, wie durch den letzten Visualisierungsblock 210 des CNN 200 bereitgestellt, an ein Gesichtsanalysemodul bereitgestellt werden, um Gesichtslandmarkenerkennungsergebnisse 300 zu erhalten.
  • 5 veranschaulicht einen Visualisierungsblock 210 des CNN 200 gemäß einer beispielhaften Ausführungsform. Wie oben erwähnt, weist jeder Visualisierungsblock 210 eine Visualisierungsschicht 240 auf, die auf der neuesten Parameterschätzung basiert. In dieser Hinsicht dient jede Visualisierungsschicht 240 als Brücke zwischen aufeinanderfolgenden Visualisierungsblöcken 210. In einer beispielhaften Ausführungsform generiert jede Visualisierungsschicht 240 eine Merkmalskarte 250 basierend auf dem aktuell geschätzten oder eingegebenen Parameter P. Auf jede Faltungsschicht 260 folgen eine Schicht zur Batch-Normalisierung (BN) und eine Schicht für gleichgerichtete lineare Einheiten (ReLU, Rectified Linear Units). Jede Faltungsschicht 260 extrahiert tiefere Merkmale basierend auf Eingabemerkmalen, die durch den vorherigen Visualisierungsblock 210 und die Visualisierungsschicht 240 bereitgestellt werden. Zwischen den zwei vollständig verbundenen Schichten 270 folgen auf die erste Faltungsschicht 260 eine ReLU-Schicht und eine Dropout-Schicht, während die zweite Faltungsschicht 260 gleichzeitig die Aktualisierung von M und p, ΔP, schätzt. In einer beispielhaften Ausführungsform beinhalten die Ausgaben des Visualisierungsblocks 210 die Ausgabedaten 280A und eine neue Schätzung (oder aktuelle Schätzung) 280B der Parameter 230, wenn beispielsweise ΔP zur Eingabe P hinzugefügt wird. In 5 beinhalten die Ausgabedaten 280A tiefere Merkmale und die Bilddaten 220. In einer alternativen beispielhaften Ausführungsform beinhalten die Ausgabedaten 280A tiefere Merkmale. In einer anderen alternativen beispielhaften Ausführungsform beinhalten die Ausgabedaten 280A die Bilddaten 220. In einer beispielhaften Ausführungsform, wie in 5 gezeigt, konzentriert sich der obere Teil des Visualisierungsblocks 210 im Wesentlichen auf das Lernen tieferer Merkmale, während der untere Teil derartige Merkmale nutzt, um die Parameter 230 in einer ResNet-ähnlichen Struktur zu schätzen. Während eines Rückwärtsdurchgangs der Trainingsphase führt der Visualisierungsblock 210 eine Backpropagation des Verlusts durch seine beiden Eingänge zurück, um die Faltungsschichten 260 und die vollständig verbundenen Schichten 270 in den vorherigen Visualisierungsblöcken 210 anzupassen. Diese Operation ermöglicht dem Visualisierungsblock 210, bessere Merkmale zu extrahieren, die für den nächsten Visualisierungsblock 210 geeignet sind, und die Gesamtparameterschätzung zu verbessern.
  • In einer beispielhaften Ausführungsform ist das CNN 200 konfiguriert, um wenigstens zwei Typen von Verlustfunktionen zu verwenden. In diesem Fall ist beispielsweise der erste Typ der Verlustfunktion ein euklidischer Verlust zwischen der Schätzung und dem Ziel der Parameteraktualisierung, wobei jeder Parameter separat gewichtet wird, wie mittels der folgenden Gleichung ausgedrückt:
  • E P i = ( Δ P i Δ P ι ¯ ) T W ( Δ P i Δ P ι ¯ ) T
    Figure DE112018000298T5_0008
    wobei E P i
    Figure DE112018000298T5_0009
    der Verlust ist, ΔPi die Schätzung ist und ΔP j das Ziel (oder die Grundwahrheit) im i-ten Visualisierungsblock 210 ist. In dieser Gleichung enthält die Diagonalmatrix W die Gewichte. Für jedes Element des Formparameters p ist sein Gewicht das Inverse der Standardabweichung, die aus den beim 3DMM-Training verwendeten Daten erhalten wurde. Um die relative Skala unter den Parametern von M zu kompensieren, berechnet das Verarbeitungssystem 140 das Verhältnis r zwischen dem Durchschnitt der skalierten Rotationsparameter und dem Durchschnitt der Translationsparameter in den Trainingsdaten. In dieser Hinsicht sind die Gewichte der skalierten Rotationsparameter von M auf 1 r
    Figure DE112018000298T5_0010
    und die Gewichte der Translation von M auf 1 festgelegt. Zusätzlich ist der zweite Typ der Verlustfunktion der euklidische Verlust auf den resultierenden 2D-Landmarken, wie mittels der folgenden Gleichung ausgedrückt:
  • E S i = f ( P i Δ P i ) U ¯ 2
    Figure DE112018000298T5_0011
    wobei U die Grundwahrheit-2D-Landmarken sind und Pi der Eingabeparameter für den i-ten Block ist, d. h. die Ausgabe des i-1-ten Blocks. In dieser Hinsicht berechnet f (·) 2D-Landmarkenpositionen unter Verwendung der aktuell aktualisierten Parameter mittels der Gleichung 3. In einer beispielhaften Ausführungsform wird zur Backpropagation dieser Verlustfunktion zum Parameter ΔP die Kettenregel verwendet, um den Gradienten zu berechnen, wie mittels der folgenden Gleichung ausgedrückt:
  • E S i Δ P i = E S i f f Δ P i
    Figure DE112018000298T5_0012
  • In einer beispielhaften Ausführungsform wird für die ersten drei Visualisierungsblöcke 210 des CNN 200 der euklidische Verlust bei den Parameteraktualisierungen (Gleichung 6) verwendet, während der euklidische Verlust bei 2D-Landmarken (Gleichung 7) auf die letzten drei Blöcke des CNN 200 angewendet wird. Die ersten drei Blöcke schätzen Parameter, um die 3D-Form grob mit dem Gesichtsbild auszurichten, und die letzten drei Blöcke nutzen die gute Initialisierung, um die Parameter und die 2D-Landmarkenpositionen präziser zu schätzen.
  • In einer beispielhaften Ausführungsform basiert die Visualisierungsschicht 240 auf Oberflächennormalen des 3D-Gesichts, die Oberflächenorientierungen in lokalen Nachbarschaften bereitstellen. In einer beispielhaften Ausführungsform verwendet das Verarbeitungssystem 140 die z-Koordinate von Oberflächennormalen jedes mit der Pose transformierten Scheitelpunkts. In dieser Hinsicht ist die z-Koordinate ein Indikator für eine „Frontabilität“ eines Scheitelpunkts, d. h. den Betrag, um den die Oberflächennormale auf eine Kamera 800 zeigt. Diese Größe wird verwendet, um einen Intensitätswert an seiner projizierten 2D-Position zuzuweisen, um Visualisierungsdaten 242 (z. B. ein Visualisierungsbild) zu konstruieren. In einer beispielhaften Ausführungsform kann das Frontabilitätsmaß g, ein Q-dim-Vektor, mittels der folgenden Gleichung berechnet werden:
  • g = m a x ( 0, ( m 1 × m 2 ) m 1 m 2 N 0 )
    Figure DE112018000298T5_0013
    wobei × das Kreuzprodukt ist und ||·|| die L2-Norm bezeichnet. Die 3×Q-Matrix No sind die Oberflächennormalenvektoren einer 3D-Gesichtsform. Um die hohen Rechenkosten für die Berechnung der Oberflächennormalen nach jeder Formaktualisierung zu vermeiden, approximiert das Verarbeitungssystem 140 No als die Oberflächennormalen des mittleren 3D-Gesichts.
  • In einer beispielhaften Ausführungsform werden sowohl die Gesichtsform als auch die Kopfpose über verschiedene Visualisierungsblöcke 210 hinweg noch kontinuierlich aktualisiert und werden verwendet, um die projizierte 2D-Position zu bestimmen. Somit würde diese Approximation den Intensitätswert nur geringfügig beeinträchtigen. Um die Oberflächennormale basierend auf der Kopfpose zu transformieren, wendet das Verarbeitungssystem 140 die Schätzung der skalierten Rotationsmatrix (m1 und m2) auf die Oberflächennormalen an, die aus dem mittleren Gesicht berechnet werden. Der Wert wird dann mit der unteren Grenze von 0 abgeschnitten, wie in Gleichung 9 gezeigt. Die Pixelintensität eines visualisierten Bilds V(u,v) wird als gewichteter Durchschnitt der Frontabilitätsmaße innerhalb einer lokalen Nachbarschaft berechnet, wie mittels der folgenden Gleichung ausgedrückt:
  • V ( u , v ) = q D ( u , v ) g ( q ) a ( q ) w ( u , v , x q t , y q t ) q D ( u , v ) w ( u , v , x q t , y q t )
    Figure DE112018000298T5_0014
    wobei D (u, v) der Satz von Indizes von Scheitelpunkten ist, deren 2D-projizierte Positionen innerhalb der lokalen Nachbarschaft des Pixels (u, v) liegen. ( x q t , y q t )
    Figure DE112018000298T5_0015
    ist die 2D-projizierte Position des q-ten 3D-Scheitelpunkts. Das Gewicht w ist die Abstandsmetrik zwischen dem Pixel (u, v) und der projizierten Position ( x q t , y q t )
    Figure DE112018000298T5_0016
  • w ( u , v , x q t , y q t ) = exp ( ( u x q t ) 2 + ( v y q t ) 2 2 σ 2 ) .
    Figure DE112018000298T5_0017
  • Zusätzlich ist a ein Q-dim-Maskenvektor mit positiven Werten für Scheitelpunkte im Mittelbereich des Gesichts und negativen Werten für Scheitelpunkte um den Konturbereich des Gesichts herum, wie mittels der folgenden Gleichung ausgedrückt:
  • a ( q ) = exp ( ( x n x q p ) 2 + ( y n y q p ) 2 + ( z n z q p ) 2 2 σ 2 ) ,
    Figure DE112018000298T5_0018
    wobei (xn; yn; zn) die Scheitelpunktkoordinate der Nasenspitze ist.
  • In dieser Gleichung wird a(q) auch vorberechnet und für den Nullmittelwert und die Einheitsstandardabweichung normalisiert. In einer beispielhaften Ausführungsform verwendet das Verarbeitungssystem 140 die Maske 600, um zwischen dem zentralen und dem Grenzbereich des Gesichts zu unterscheiden sowie die Ähnlichkeit über die Visualisierung verschiedener Gesichter hinweg zu erhöhen.
  • In einer beispielhaften Ausführungsform berechnet das Verarbeitungssystem 140 die Ableitung von V in Bezug auf die Elemente der Parameter M und p, um eine Backpropagation der Verlustfunktionen durch die Visualisierungsschicht 240 zu ermöglichen. In dieser Hinsicht berechnet das Verarbeitungssystem 140 die partiellen Ableitungen g m k ,   w ( u , v , x i t , y i t ) m k
    Figure DE112018000298T5_0019
    und w ( u , v , x i t , y i t ) p j .
    Figure DE112018000298T5_0020
    In einer beispielhaften Ausführungsform berechnet das Verarbeitungssystem 140 dann die Ableitungen von v m k  und  v p j
    Figure DE112018000298T5_0021
    basierend auf der Gleichung 10.
  • 6 veranschaulicht zwei Ansichten einer Visualisierung einer beispielhaften Maske 600 gemäß einer beispielhaften Ausführungsform. Insbesondere weist 6 eine Frontalansicht 602 der Maske 600 und eine Seitenansicht 604 (oder Profilansicht) der Maske 600 auf. In diesem Fall wird die Maske 600 beispielsweise mittels wenigstens Gleichung 12 ausgedrückt. Wie in 6 gezeigt, weist die Maske 600, wie mittels a(q)) ausgedrückt, positive Werte im Mittelbereich und negative Werte im Konturbereich auf, wie durch die Skala 606 angezeigt.
  • 7 veranschaulicht ein anderes Beispiel einer Maske 700 gemäß einer alternativen beispielhaften Ausführungsform. Insbesondere weist 7 eine Frontalansicht 702 der Maske 700 und eine Seitenansicht 704 (oder Profilansicht) der Maske 700 auf. In diesem Beispiel weist die Maske 700 fünf positive Bereiche auf, die die zwei Augenbereiche, den Nasenspitzenbereich und die zwei Lippeneckenbereiche einschließen, wie durch die Skala 706 angezeigt. Auch in diesem Beispiel werden die Werte auf den Nullmittelwert und die Einheitsstandardabweichung normalisiert. In dieser Hinsicht macht die Maske 700 den Pixelwert von visualisierten Bildern für Gesichter mit unterschiedlichen Posen ähnlich und unterscheidet zwischen dem Mittelbereich und den Konturbereichen des Gesichts. Die Maske 700 aus 7 ist komplexer und vermittelt mehr Informationen über die informativen Gesichtsbereiche im Vergleich zu denen, die durch die Maske 600 aus 5 bereitgestellt werden.
  • 8 veranschaulicht eine Position einer Kamera 800 relativ zu einer Bildebene 802 mit einer Mehrzahl von Pixeln. Zusätzlich zeigt 8 eine Pixelachse 804, die sich entlang eines Bildpixels der Bildebene 802 zusammen mit einer Visualisierung eines menschlichen Gesichtsbilds der Bildebene 802 als ein 3D-Objekt 806 erstreckt. 8 weist auch Oberflächennormalenvektoren mit negativen z-Koordinaten, wie durch Pfeil 808 gezeigt, und einen Oberflächennormalenvektor mit einer positiven z-Koordinate und einer kleineren Tiefe, wie durch Pfeil 810 gezeigt, auf. In dieser Hinsicht erfordert die Visualisierung des menschlichen Gesichts als ein 3D-Objekt 806 unter einem beliebigen Ansichtswinkel die Schätzung der Sichtbarkeit jedes 3D-Scheitelpunkts. Um den rechenintensiven Sichtbarkeitstest durch Rendering zu vermeiden, ist das Verarbeitungssystem 140 konfiguriert, um wenigstens zwei Strategien zur Approximation zu implementieren. Als eine Strategie ist das Verarbeitungssystem 140 beispielsweise konfiguriert, um die Scheitelpunkte zu beschneiden, deren Frontabilitätsmaße g gleich 0 sind, d. h. die Scheitelpunkte zeigen gegen die Kamera 800. Zweitens ist, falls mehrere Scheitelpunkte über die Pixelachse 804 auf ein und dasselbe Bildpixel projizieren, das Verarbeitungssystem 140 so konfiguriert, dass nur derjenige mit den kleinsten Tiefenwerten beibehalten wird, wie beispielsweise durch Pfeil 810 in 8 angezeigt.
  • 9A ist ein Beispiel von Bilddaten 220 gemäß einer beispielhaften Ausführungsform. Wie in 9A gezeigt, beinhalten die Bilddaten 220 in diesem Beispiel wenigstens eine große Gesichtspose mit einem Ausdruck mit offenem Mund (z. B. ein Lächeln). 9B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht 240 gemäß einer beispielhaften Ausführungsform. 9C ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem ersten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 9D ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem zweiten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 9E ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem dritten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 9F ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem vierten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 9G ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem fünften Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 9H ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem sechsten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung. Wie in 9C-9H stufenweise gezeigt, ist das poseninvariante Gesichtsausrichtungsmodul 130 in der Lage, den Ausdruck und die Kopfpose des Gesichtsbilds der Bilddaten 220, wie in 9A gezeigt, wiederherzustellen. In einer beispielhaften Ausführungsform kann das poseninvariante Gesichtsausrichtungsmodul 130 diese Ergebnisse liefern, indem es wenigstens tiefere Merkmale extrahiert und die Backpropagation von Verlustfunktionen einsetzt.
  • 10A ist ein Beispiel von Bilddaten 220 gemäß einer beispielhaften Ausführungsform dieser Offenbarung. Wie in 10A gezeigt, beinhalten die Bilddaten 220 in diesem Beispiel wenigstens eine große Gesichtspose mit einem relativ neutralen Ausdruck. 10B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht 240 gemäß einer beispielhaften Ausführungsform dieser Offenbarung. 10C ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem ersten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung. 10D ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem zweiten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung. 10E ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem dritten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform dieser Offenbarung. 10F ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem vierten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 10G ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem fünften Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 10H ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem sechsten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. Wie in 10C-10H stufenweise gezeigt, ist das poseninvariante Gesichtsausrichtungsmodul 130 in der Lage, den Ausdruck und die Kopfpose des Gesichtsbilds der Bilddaten 220, wie in 10A gezeigt, wiederherzustellen. In einer beispielhaften Ausführungsform kann das poseninvariante Gesichtsausrichtungsmodul 130 diese Ergebnisse liefern, indem es wenigstens tiefere Merkmale extrahiert und die Backpropagation von Verlustfunktionen einsetzt.
  • 11A ist ein Beispiel von Bilddaten 220 gemäß einer beispielhaften Ausführungsform dieser Offenbarung. Wie in 11A gezeigt, beinhalten die Bilddaten 220 in diesem Beispiel wenigstens eine große Gesichtspose mit einem relativ neutralen Ausdruck. Auch beinhalten die Bilddaten 220 aus 11A eine Seite eines Gesichts, die sich von einer Seite eines Gesichts unterscheidet, das in den Bilddaten 220 aus 10A eingeschlossen ist. 11B ist ein Beispiel einer Initialisierung einer Visualisierungsschicht 240 gemäß einer beispielhaften Ausführungsform. 11C ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem ersten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 11D ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem zweiten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 11E ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem dritten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 11F ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem vierten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 11G ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem fünften Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. 11H ist ein Beispiel von Visualisierungsdaten 242 einer Visualisierungsschicht 240, die mit einem sechsten Visualisierungsblock 210 eines CNN 200 assoziiert ist, gemäß einer beispielhaften Ausführungsform. Wie in 11C-11H stufenweise gezeigt, ist das poseninvariante Gesichtsausrichtungsmodul 130 in der Lage, den Ausdruck und die Kopfpose des Gesichtsbilds der Bilddaten 220, wie in 11A gezeigt, wiederherzustellen. In einer beispielhaften Ausführungsform kann das poseninvariante Gesichtsausrichtungsmodul 130 diese Ergebnisse liefern, indem es wenigstens tiefere Merkmale extrahiert und die Backpropagation von Verlustfunktionen einsetzt.
  • Wie oben beschrieben, weist das System 100 eine Reihe von vorteilhaften Merkmalen auf. Beispielsweise ist das System 100 konfiguriert, um ein Gesichtsausrichtungsverfahren für eine große Pose mit einem End-to-End-Training über ein einzelnes CNN 200 zu implementieren. Zusätzlich beinhaltet das CNN 200 wenigstens eine differenzierbare Visualisierungsschicht 240, die in das neuronale Netz, d. h. das CNN 200, integriert ist und ermöglicht eine gemeinsame Optimierung durch Backpropagation des Fehlers von wenigstens einem späteren Visualisierungsblock 210 zu wenigstens einem früheren Visualisierungsblock 210. Zusätzlich ist das System 100 so konfiguriert, dass jeder Visualisierungsblock 210 in der Lage ist, tiefere Merkmale durch Nutzung der extrahierten Merkmale aus vorherigen Visualisierungsblöcken 210 zu extrahieren, ohne dass handgefertigte Merkmale extrahiert werden müssen. Auch konvergiert das poseninvariante Ausrichtungsverfahren während der Trainingsphase schneller als das, was von einem verwandten System bereitgestellt wird, das eine Kaskade von CNNs beinhaltet. In dieser Hinsicht ist beispielsweise einer der Hauptvorteile des End-to-End-Trainings eines einzelnen CNN 200 die reduzierte Trainingszeit. Zusätzlich beinhaltet das CNN 200 wenigstens eine Visualisierungsschicht 240, die differenzierbar ist und die Gesichtsgeometriedetails über Oberflächennormalen codiert. Darüber hinaus ist das poseninvariante Gesichtsausrichtungsmodul 130 in der Lage, das CNN 200 zu führen, um sich auf den Gesichtsbereich zu konzentrieren, der sowohl die Posen- als auch die Ausdrucksinformationen enthält. Ferner kann das CNN 200 konfiguriert werden, um ein höheres Maß an Präzision und Genauigkeit zu erreichen, indem einfach die Anzahl der Visualisierungsblöcke 210 in seiner Architektur erhöht wird.
  • Das heißt, die obige Beschreibung soll veranschaulichend und nicht einschränkend sein und im Zusammenhang mit einer bestimmten Anwendung und ihren Anforderungen bereitgestellt werden. Fachleute auf dem Gebiet werden aus der vorstehenden Beschreibung erkennen können, dass die vorliegende Erfindung in einer Vielzahl von Formen implementiert werden kann und dass die verschiedenen Ausführungsformen allein oder in Kombination implementiert werden können. Obgleich die Ausführungsformen der vorliegenden Erfindung in Verbindung mit bestimmten Beispielen davon beschrieben wurden, können die hierin definierten allgemeinen Prinzipien daher auf andere Ausführungsformen und Anwendungen angewendet werden, ohne vom Wesen und Schutzbereich der beschriebenen Ausführungsformen abzuweichen, und der wahre Schutzbereich der Ausführungsformen und/oder Verfahren der vorliegenden Erfindung ist nicht auf die gezeigten und beschriebenen Ausführungsformen beschränkt, da Fachleuten beim Studium der Zeichnungen, der Beschreibung und der nachfolgenden Ansprüche verschiedene Modifikationen ersichtlich werden. Beispielsweise können Komponenten und Funktionalität anders als in der Art der verschiedenen beschriebenen Ausführungsformen getrennt oder kombiniert werden und können unter Verwendung unterschiedlicher Terminologie beschrieben werden. Diese und andere Variationen, Modifikationen, Hinzufügungen und Verbesserungen können innerhalb des Schutzbereichs der Offenbarung fallen, wie in den nachfolgenden Ansprüchen definiert.

Claims (20)

  1. Rechensystem, umfassend ein Verarbeitungssystem mit wenigstens einer Verarbeitungseinheit, wobei das Verarbeitungssystem konfiguriert ist, um ein Gesichtsausrichtungsverfahren auszuführen, einschließlich: Empfangen von Bilddaten mit einem Gesichtsbild; und Implementieren eines neuronalen Netzes, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen, wobei das neuronale Netz wenigstens eine Visualisierungsschicht aufweist, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren, wobei die Parameterdaten Kopfposendaten und Gesichtsformdaten einschließen.
  2. Rechensystem nach Anspruch 1, ferner umfassend: ein Gesichtserkennungsmodul, das konfiguriert ist, um wenigstens (i) ein Bild zu empfangen, (ii) das Gesichtsbild innerhalb des Bilds zu identifizieren und (iii) die Bilddaten, die sich auf das Gesichtsbild beziehen, an das Verarbeitungssystem bereitzustellen, wobei das Gesichtsbild eine Gesichtsansicht bereitstellt, die sich innerhalb eines Bereichs von einer Frontalansicht bis zu einer Profilansicht befindet.
  3. Rechensystem nach Anspruch 1, wobei die Gesichtsformdaten Gesichtsidentitätsparameter und Gesichtsausdrucksparameter einschließen.
  4. Rechensystem nach Anspruch 1, wobei das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit End-to-End-Training für die Modellanpassung ist.
  5. Rechensystem nach Anspruch 1, wobei: das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit einer Mehrzahl von Visualisierungsblöcken ist, die verbunden sind; und jeder Visualisierungsblock wenigstens eine Visualisierungsschicht, Faltungsschichten und vollständig verbundene Schichten einschließt.
  6. Rechensystem nach Anspruch 1, wobei jede Visualisierungsschicht auf Oberflächennormalen eines 3D-Gesichtsmodells basiert und eine relative Kopfpose zwischen einem Gesicht und einer Kamera codiert.
  7. Rechensystem nach Anspruch 1, wobei jede Visualisierungsschicht eine Maske nutzt, um zwischen Pixeln in verschiedenen Teilen des Gesichtsbilds zu unterscheiden und Pixelwerte von visualisierten Bildern über verschiedene Kopfposen hinweg ähnlich zu machen.
  8. Computerimplementiertes Verfahren zur Gesichtsausrichtung, umfassend: Empfangen von Bilddaten mit einem Gesichtsbild; und Implementieren eines neuronalen Netzes, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen, wobei das neuronale Netz wenigstens eine Visualisierungsschicht aufweist, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren, wobei die Parameterdaten Kopfposendaten und Gesichtsformdaten einschließen.
  9. Computerimplementiertes Verfahren nach Anspruch 8, ferner umfassend: Durchführen einer Gesichtserkennung an einem Bild, das (i) Empfangen des Bilds, (ii) Identifizieren des Gesichtsbilds innerhalb des Bilds und (iii) Bereitstellen der Bilddaten, die sich auf das Gesichtsbild beziehen, an das Verarbeitungssystem einschließt, wobei das Gesichtsbild eine Gesichtsansicht bereitstellt, die sich innerhalb eines Bereichs von einer Frontalansicht bis zu einer Profilansicht befindet.
  10. Computerimplementiertes Verfahren nach Anspruch 8, wobei die Gesichtsformdaten Gesichtsidentitätsparameter und Gesichtsausdrucksparameter einschließen.
  11. Computerimplementiertes Verfahren nach Anspruch 8, wobei das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit End-to-End-Training für die Modellanpassung ist.
  12. Computerimplementiertes Verfahren nach Anspruch 8, wobei: das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit einer Mehrzahl von Visualisierungsblöcken ist, die verbunden sind; und jeder Visualisierungsblock wenigstens die Visualisierungsschicht, Faltungsschichten und vollständig verbundene Schichten einschließt.
  13. Computerimplementiertes Verfahren nach Anspruch 8, wobei jede Visualisierungsschicht auf Oberflächennormalen eines 3D-Gesichtsmodells basiert und eine relative Kopfpose zwischen einem Gesicht und einer Kamera codiert.
  14. Computerimplementiertes Verfahren nach Anspruch 8, wobei jede Visualisierungsschicht eine Maske nutzt, um zwischen Pixeln in verschiedenen Teilen des Gesichtsbilds zu unterscheiden und Pixelwerte von visualisierten Bildern über verschiedene Kopfposen hinweg ähnlich zu machen.
  15. Nichtflüchtiges computerlesbares Medium mit wenigstens computerlesbaren Daten, die, wenn sie durch ein Verarbeitungssystem mit wenigstens einer Verarbeitungseinheit ausgeführt werden, ein Gesichtsausrichtungsverfahren durchführen, einschließlich: Empfangen von Bilddaten mit einem Gesichtsbild; und Implementieren eines neuronalen Netzes, um eine endgültige Schätzung von Parameterdaten für das Gesichtsbild basierend auf den Bilddaten und einer anfänglichen Schätzung der Parameterdaten bereitzustellen, wobei das neuronale Netz wenigstens eine Visualisierungsschicht aufweist, die konfiguriert ist, um eine Merkmalskarte basierend auf einer aktuellen Schätzung der Parameterdaten zu generieren, wobei die Parameterdaten Kopfposendaten und Gesichtsformdaten einschließen.
  16. Nichtflüchtiges computerlesbares Medium nach Anspruch 15, wobei die Gesichtsformdaten Gesichtsidentitätsparameter und Gesichtsausdrucksparameter einschließen.
  17. Nichtflüchtiges computerlesbares Medium nach Anspruch 15, wobei das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit End-to-End-Training für die Modellanpassung ist.
  18. Nichtflüchtiges computerlesbares Medium nach Anspruch 15, wobei: das neuronale Netz ein einzelnes konvolutionelles neuronales Netz mit einer Mehrzahl von Visualisierungsblöcken ist, die verbunden sind; und jeder Visualisierungsblock wenigstens die Visualisierungsschicht, Faltungsschichten und vollständig verbundene Schichten einschließt.
  19. Nichtflüchtiges computerlesbares Medium nach Anspruch 15, wobei jede Visualisierungsschicht auf Oberflächennormalen eines 3D-Gesichtsmodells basiert und eine relative Kopfpose zwischen einem Gesicht und einer Kamera codiert.
  20. Nichtflüchtiges computerlesbares Medium nach Anspruch 15, wobei jede Visualisierungsschicht eine Maske nutzt, um zwischen Pixeln in verschiedenen Teilen des Gesichtsbilds zu unterscheiden und Pixelwerte von visualisierten Bildern über verschiedene Kopfposen hinweg ähnlich zu machen.
DE112018000298.5T 2017-07-13 2018-07-11 System und verfahren zur poseninvarianten gesichtsausrichtung Pending DE112018000298T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/649230 2017-07-13
US15/649,230 US10380413B2 (en) 2017-07-13 2017-07-13 System and method for pose-invariant face alignment
PCT/EP2018/068734 WO2019011958A1 (en) 2017-07-13 2018-07-11 INVARIANT FACE ALIGNMENT SYSTEM AND METHOD FOR INSTALLATION

Publications (1)

Publication Number Publication Date
DE112018000298T5 true DE112018000298T5 (de) 2019-10-10

Family

ID=62904469

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018000298.5T Pending DE112018000298T5 (de) 2017-07-13 2018-07-11 System und verfahren zur poseninvarianten gesichtsausrichtung

Country Status (5)

Country Link
US (1) US10380413B2 (de)
JP (1) JP6918198B2 (de)
CN (1) CN110832501B (de)
DE (1) DE112018000298T5 (de)
WO (1) WO2019011958A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020122023B3 (de) 2020-08-24 2022-02-17 Technische Universität Ilmenau Verfahren und Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12062249B2 (en) * 2018-05-04 2024-08-13 Northeastern University System and method for generating image landmarks
CN109191507B (zh) * 2018-08-24 2019-11-05 北京字节跳动网络技术有限公司 三维人脸图像重建方法、装置和计算机可读存储介质
US10796476B1 (en) * 2018-08-31 2020-10-06 Amazon Technologies, Inc. Self-supervised bootstrap for single image 3-D reconstruction
WO2020048620A1 (en) * 2018-09-07 2020-03-12 Toyota Motor Europe Method and system for processing an image by determining rotation hypotheses
US10713544B2 (en) * 2018-09-14 2020-07-14 International Business Machines Corporation Identification and/or verification by a consensus network using sparse parametric representations of biometric images
US11710034B2 (en) * 2019-02-27 2023-07-25 Intel Corporation Misuse index for explainable artificial intelligence in computing environments
CN110210456A (zh) * 2019-06-19 2019-09-06 贵州理工学院 一种基于3d卷积神经网络的头部姿态估计方法
CN110599395B (zh) * 2019-09-17 2023-05-12 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质
CN111144556B (zh) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
CN111199543A (zh) * 2020-01-07 2020-05-26 南京航空航天大学 一种基于卷积神经网络的冰柜表面缺陷检测
US20210224610A1 (en) * 2020-01-17 2021-07-22 Insurance Services Office, Inc. Systems and Methods for Disentangling Factors of Variation in Computer Vision Systems Using Cycle-Consistent Variational Auto-Encoders
US11272164B1 (en) 2020-01-17 2022-03-08 Amazon Technologies, Inc. Data synthesis using three-dimensional modeling
CN111260774B (zh) * 2020-01-20 2023-06-23 北京百度网讯科技有限公司 生成3d关节点回归模型的方法和装置
CN113159081B (zh) * 2020-01-23 2024-06-21 华为技术有限公司 一种图像处理方法以及相关设备
CN111582376B (zh) * 2020-05-09 2023-08-15 抖音视界有限公司 神经网络的可视化方法、装置、电子设备和介质
CN112200024B (zh) * 2020-09-24 2022-10-11 复旦大学 一种通过三维可形变模型学习的二维人脸表情识别方法
EP3985573A1 (de) * 2020-10-13 2022-04-20 Imagination Technologies Limited Implementierung eines neuronalen netzwerks in mehrkern-hardware

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298643A1 (en) * 2007-05-30 2008-12-04 Lawther Joel S Composite person model from image collection
US7848548B1 (en) * 2007-06-11 2010-12-07 Videomining Corporation Method and system for robust demographic classification using pose independent model from sequence of face images
US8180112B2 (en) * 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
EP2869239A3 (de) 2013-11-04 2015-08-19 Facebook, Inc. Systeme und Verfahren zur Gesichtsdarstellung
US10095917B2 (en) * 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9400922B2 (en) 2014-05-29 2016-07-26 Beijing Kuangshi Technology Co., Ltd. Facial landmark localization using coarse-to-fine cascaded neural networks
JP6754619B2 (ja) 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
WO2017040519A1 (en) * 2015-08-31 2017-03-09 Sri International Method and system for monitoring driving behaviors
US11132543B2 (en) * 2016-12-28 2021-09-28 Nvidia Corporation Unconstrained appearance-based gaze estimation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020122023B3 (de) 2020-08-24 2022-02-17 Technische Universität Ilmenau Verfahren und Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr

Also Published As

Publication number Publication date
JP6918198B2 (ja) 2021-08-11
CN110832501B (zh) 2024-07-05
US10380413B2 (en) 2019-08-13
CN110832501A (zh) 2020-02-21
US20190019014A1 (en) 2019-01-17
WO2019011958A1 (en) 2019-01-17
JP2020526845A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
DE112018000298T5 (de) System und verfahren zur poseninvarianten gesichtsausrichtung
EP3657440B1 (de) Verfahren und system zur dreidimensionalen rekonstruktion eines menschlichen kopfes aus mehreren bildern
DE102020000810A1 (de) 3D-Objektrekonstruktion unter Nutzung einer fotometrischen Netzdarstellung
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE112011101927B4 (de) Semantisches Parsen von Objekten in Videos
DE60223361T2 (de) Objektidentifikation
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE112016004266T5 (de) Verfahren zur Gesichtsausrichtung
DE602004009863T2 (de) Gesichtsformregistrierung aus Stereobildern
DE69817879T2 (de) Erkennung verzerrter bilder durch schnelle faltung und mittels bilderfassung von markanten punkten und volumeninformation
DE60133840T2 (de) Vorrichtung und verfahren zur erzeugung einer dreidimensionalen darstellung aus einem zweidimensionalen bild
DE69914370T2 (de) Bestimmung von gesichtsunterräumen
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE112005001743T5 (de) System und Verfahren zur Registrierung und Modellierung verformbarer Formen durch direkte Faktorisierung
DE102005003605B4 (de) Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE112016002995T5 (de) Verfahren zum Bestimmen einer Bewegung zwischen einem ersten Koordinatensystem und einem zweiten Koordinatensystem
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
DE102015209822A1 (de) Erfassungseinrichtung, Erfassungsprogramm, Erfassungsverfahren, mit Erfassungseinrichtung ausgerüstetes Fahrzeug, Parameterberechnungseinrichtung, Parameter berechnende Parameter, Parameterberechnungsprogramm, und Verfahren zum Berechnen von Parametern
DE102004046237A1 (de) Verfahren und System für die gemischte rigide Registrierung von medizinischen 2D/3D-Bildern
DE102019104516A1 (de) Tiefe geometrische Modellanpassung
DE102007046582A1 (de) System und Verfahren zum Segmentieren von Kammern eines Herzens in einem dreidimensionalen Bild
DE112020005584T5 (de) Verdeckung berücksichtigende Innenraumszenenanalyse
DE112018003571T5 (de) Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
DE10304360A1 (de) Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000