DE112020005590T5 - Lernen einer universellen merkmalsdarstellung zur gesichtserkennung - Google Patents

Lernen einer universellen merkmalsdarstellung zur gesichtserkennung Download PDF

Info

Publication number
DE112020005590T5
DE112020005590T5 DE112020005590.6T DE112020005590T DE112020005590T5 DE 112020005590 T5 DE112020005590 T5 DE 112020005590T5 DE 112020005590 T DE112020005590 T DE 112020005590T DE 112020005590 T5 DE112020005590 T5 DE 112020005590T5
Authority
DE
Germany
Prior art keywords
sub
loss
confidence
variations
embeddings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020005590.6T
Other languages
English (en)
Inventor
Xiang Yu
Manmohan Chandraker
Kihyuk Sohn
Yichun Shi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112020005590T5 publication Critical patent/DE112020005590T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

Ein computerimplementiertes Verfahren zum Implementieren von Gesichtserkennung enthält ein Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebilder entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; ein Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; ein Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und ein Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.

Description

  • INFORMATION ÜBER ZUGEHÖRIGE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der provisorischen Anmeldung mit der seriellen Nummer 62/934,620 , eingereicht am 13. November 2019, und der US-Patentanmeldung Nr. 17/091,011 , eingereicht am 6. November 2020, welche Anmeldungen durch Bezugnahme hierin in ihrer Gesamtheit enthalten sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft künstliche Intelligenz und maschinelles Lernen und insbesondere Gesichtserkennung.
  • Beschreibung des zugehörigen Standes der Technik
  • Tiefe Gesichtserkennung strebt an, Eingabebilder auf einen Merkmalsraum mit geringem Abstand innerhalb von Identitäten und großem Abstand zwischen Identitäten abzubilden. Gesichtserkennung kann schwierig sein, da Gesichter in vielen Varianten erscheinen können, die nicht einfach synthetisiert oder vorhergesagt werden können. Herkömmliche Gesichtserkennungstechniken trainieren entweder mit spezifisch kommentierten bzw. annotierten Variationsdaten oder durch Einführen von Variationsdaten, um sich von den Trainingsdaten aus anzupassen. Alternativ können individuelle Modelle an verschiedenen Datensätzen trainiert und zusammengeführt werden, um einen Nutzeffekt gegenüber jedem einzelnen Modell zu erhalten.
  • ZUSAMMENFASSUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Implementieren von Gesichtserkennung bereitgestellt. Das computerimplementierte Verfahren enthält ein Empfangen von Trainingsdaten einschließlich einer Vielzahl von erweiterten Bildern entsprechend einem jeweiligen einer Vielzahl von durch eine einer Vielzahl von Variationen erweiterten Eingabebildern, Aufteilen einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von jeweils mit einer der Vielzahl von Variationen assoziierten Untereinbettungen, Assoziieren jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten und Anwenden einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung zu verbessern.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Implementieren von Gesichtserkennung bereitgestellt. Das System enthält eine Speichervorrichtung, die einen Programmcode speichert, und wenigstens eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist. Die wenigstens eine Prozessorvorrichtung ist konfiguriert, um einen auf der Speichervorrichtung gespeicherten Programmcode auszuführen, um Trainingsdaten zu empfangen, einschließlich einer Vielzahl von erweiterten Bildern entsprechend einem jeweiligen einer Vielzahl von durch eine einer Vielzahl von Variationen erweiterten Eingabebildern, eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von jeweils mit einer Vielzahl von Variationen assoziierten Untereinbettungen aufzuteilen, jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten zu assoziieren und eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten anzuwenden, um eine Gesichtserkennungsleistung zu verbessern.
  • Diese und weitere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung von illustrativen Ausführungsformen davon offensichtlich werden, die im Zusammenhang mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:
    • 1 ein Diagramm ist, das ein Gesichtserkennungs-Trainingsframework gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
    • 2 ein Diagramm ist, das den vertrauensbewussten Identifikationsverlust und den Variationsdekorrelationsverlust gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
    • 3 ein Block-/Ablaufdiagramm ist, das eine beispielhafte Umgebung zum Implementieren von Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
    • 4 ein Block-/Ablaufdiagramm ist, das ein System/Verfahren zum Implementieren von Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung darstellt; und
    • 5 ein Block-/Ablaufdiagramm ist, das ein Computersystem gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Gemäß Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren zum Implementieren von Gesichtserkennung bereitgestellt. Spezifischer können die hierin beschriebenen Ausführungsformen ein Framework für ein Lernen universeller Merkmalsdarstellung für tiefe Gesichtserkennung bereitstellen, das ein Framework für ein Lernen einer Gesichtsdarstellung ist, das universelle Merkmale durch Assoziieren von ihnen mit verschiedenen Variationen lernt, um dadurch zu einer verbesserten Verallgemeinerung an unsichtbaren Variationen zu führen. Während eines Trainierens kann eine einzelne universelle Merkmalsdarstellung gezielt zur Gesichtserkennung auf erweiterten Bildern (z.B. Bildern geringer Qualität) eingesetzt werden, ohne die Bilder für ein Trainieren oder zur Domänenanpassung zu nutzen. Zum Beispiel können die erweiterten Bilder durch Variationen erweitert werden, einschließlich, aber nicht darauf beschränkt, von Unschärfe (z.B. niedrige Auflösung), Okklusion und Pose bzw. Stellung (z.B. Kopfstellung). Die hierin beschriebenen Ausführungsformen führen einen vertrauensbewussten Identifikationsverlust ein, um aus harten Beispielen zu lernen, der weiterhin durch Aufteilen einer Merkmalseinbettung (z.B. Merkmalsvektor) in eine Vielzahl von Untereinbettungen mit unabhängiger Konfidenz erweitert wird. Die Variationen werden angewendet, um die Merkmalseinbettung unter Verwendung des Variationsdekorrelationsverlusts weiter zu dekorrelieren. Die hierin beschriebenen Ausführungsformen können weitere nicht erweiterbare Variationen entdecken, um eine bessere Dekorrelation zu erreichen. Eine unsicherheitsgeführte paarweise Metrik kann für eine Inferenz verwendet werden.
  • Hierin beschriebene Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente sein. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, einen Microcode etc. enthält, ist aber nicht darauf beschränkt.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch einen oder in Verbindung mit einem Computer, oder irgendein oder irgendeinem Anweisungsausführungssystem, bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das Befehlsausführungssystem, die Vorrichtung oder das Gerät, oder in Verbindung damit, speichert, kommuniziert, aus- bzw. verbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, infrarotes oder Halbleitersystem (oder eine Vorrichtung oder ein Gerät) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium enthalten, wie beispielsweise einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Wechsel-Computerdiskette, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), eine feste bzw. starre Magnetplatte und eine optische Scheibe etc.
  • Jedes Computerprogramm kann konkret bzw. materiell in einem maschinenlesbaren Speichermedium oder einer -vorrichtung (z.B. Programmspeicher oder Magnetplatte) gespeichert sein, das oder die durch einem allgemeinen oder speziellen programmierbaren Computer lesbar ist, zum Konfigurieren und Steuern eines Betriebs eines Computers, wenn das Speichermedium bzw. die Speichermedien oder die Vorrichtung durch den Computer gelesen wird bzw. werden, um die hierin beschriebenen Prozeduren durchzuführen. Das erfinderische System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wobei das Speichermedium so konfiguriert ist, dass es veranlasst, dass ein Computer auf eine spezifische und vordefinierte Weise arbeitet, um die hierin beschriebenen Funktionen durchzuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen eines Programmcodes geeignet ist, kann wenigstens einen Prozessor enthalten, der direkt oder indirekt über einen Systembus mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während einer tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher, die eine temporäre Speicherung von wenigstens etwas von einem Programmcode zur Verfügung zu stellen, um die Anzahl von Malen zu reduzieren, für welche der Code während einer Ausführung aus einem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht darauf beschränkt, von Tastaturen, Anzeigen, Zeigevorrichtungen etc.) können entweder direkt oder über dazwischenliegende I/O-Steuerungen mit dem System gekoppelt sein.
  • Netzwerkadapter können auch mit dem System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernten bzw. Remote-Druckern oder Speichervorrichtungen gekoppelt werden. Modems, ein Kabelmodem und Ethernet-Karten sind nur einige wenige der derzeit verfügbaren Typen von Netzwerkadaptern.
  • Wie er hierin verwendet wird, kann sich der Begriff „Hardwareprozessor-Untersystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen etc.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder computerelementbasierten Steuerung (z.B. Logikgatter etc.) enthalten sein. Das Hardwareprozessor-Untersystem kann einen oder mehrere integrierte Speicher bzw. Onboard-Speicher (z.B. Caches, bestimmte bzw. dedizierte Speicherarrays, einen Nurlesespeicher etc.) enthalten. Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem einen oder mehrere Speicher enthalten, die onboard oder offboard sein können oder die zur Verwendung durch das Hardwareprozessor-Untersystem bestimmt bzw. dediziert sein können (z.B. ROM, RAM, BIOS (Basic Input/Output System (= Grundlegendes Eingabe-/Ausgabe-System)) etc.).
  • Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Softwareelemente umfassen und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder einen spezifischen Code enthalten, um ein spezifiziertes bzw. bestimmtes Ergebnis zu erzielen.
  • Bei anderen Ausführungsformen kann das Hardwareprozessor-Untersystem eine dedizierte, spezialisierte Schaltung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen durchführt, um ein bestimmtes Ergebnis zu erzielen. Eine solche Schaltung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs und/oder PLAs enthalten.
  • Diese und andere Variationen eines Hardwareprozessor-Untersystems werden gemäß Ausführungsformen der vorliegenden Erfindung auch in Betracht gezogen.
  • Nimmt man nun im Detail Bezug auf die Figuren, in welchen gleiche Bezugszeichen dieselben oder ähnliche Elemente darstellen, und anfangs auf 1, wird ein Block-/Ablaufdiagramm bereitgestellt, das ein Gesichtserkennungs-Trainingsframework bzw. einen Gesichtserkennungs-Trainingsrahmen 100 darstellt.
  • Wie es gezeigt ist, enthält das Framework 100 Trainingsdaten 110, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils ein Gesichtsbild enthalten. Genauer gesagt kann das eine oder können die mehreren erweiterten Bilder eine Vielzahl von erweiterten Gesichtsbildern enthalten. Bei einer Ausführungsform kann die Vielzahl von erweiterten Gesichtsbildern menschliche Gesichtsbilder enthalten. Eine solche Ausführungsform sollte jedoch nicht als beschränkend angesehen werden und die hierin beschriebenen Ausführungsformen können angewendet werden, um Gesichtserkennungstraining in Bezug auf irgendwelche geeigneten Gesichtsbilder durchzuführen.
  • Wie er hierin verwendet ist, bezieht sich der Begriff „erweitertes Bild“ auf ein Bild, das durch Modifizieren eines Eingabebildes (z.B. Bild „hoher Qualität“) erzeugt wird, um eine oder mehrere vordefinierte Variationen zu enthalten. Zum Beispiel können die Trainingsdaten 110 erzeugt werden, indem eine Online-Variationsdatenerweiterung angewendet wird, um die eine oder die mehreren (vordefinierten) Variationen in ein oder mehrere Eingabebilder einzuführen. Beispiele für Variationen enthalten, sind aber nicht darauf beschränkt, Unschärfe (z.B. niedrige Auflösung), Okklusion bzw. Verdeckung und Pose bzw. Haltung bzw. Stellung (z.B. Kopfhaltung bzw. -stellung). Demgemäß entspricht die Vielzahl der erweiterten Bilder Bildern „niedriger Qualität“, die absichtlich zu Trainingszwecken erzeugt werden.
  • Wie es weiterhin gezeigt ist, werden die Trainingsdaten 110 in eine neuronale Backbone-Netzwerkstruktur 120 eingespeist, die konfiguriert ist, um eine Merkmalsdarstellung oder -einbettung zu erzeugen. Bei einer Ausführungsform ist die neuronale Backbone-Netzwerkstruktur 120 eine tiefe neuronale Backbone-Netzwerkstruktur, die konfiguriert ist, um eine tiefe Merkmalseinbettung zu erzeugen. Zum Beispiel kann die neuronale Backbone-Netzwerkstruktur 120 ein neuronales Restnetz (ResNet) enthalten. Bei einer Ausführungsform kann die neuronale Backbone-Netzwerkstruktur 120 ein iteratives ResNet (iResNet) enthalten.
  • Wie es weiterhin gezeigt ist, wird die Merkmalseinbettung in einen Satz bzw. eine Gruppe von Untereinbettungen 130 aufgeteilt. Zum Beispiel kann, wie es gezeigt ist, die Gruppe von Untereinbettungen 130 eine Vielzahl von Untereinbettungen 132-1 bis 132-3 enthalten, die jeweils Unschärfe, Okklusion und Pose darstellen. Demgemäß stellt die Vielzahl von Untereinbettungen 132-1 bis 132-3 jeweils unterschiedliche Faktoren von Variationen dar.
  • Wenn das Training unter Proben verschiedenartiger Qualität durchgeführt wird, wird dann, wenn wir bei allen Proben dieselbe Konfidenz annehmen, ein gelernter Prototyp im Mittelpunkt von allen Proben stehen. Dies ist irrational, da Proben niedriger Qualität mehrdeutigere Identitätsinformation vermitteln. Im Gegensatz dazu wird dann, wenn wir eine probenspezifische Konfidenz einrichten, bei welcher Proben hoher Qualität eine höhere Konfidenz zeigen, der Prototyp dazu gedrängt, ähnlicher zu Proben hoher Qualität zu sein, um die A-posteriori-Wahrscheinlichkeit zu maximieren.
  • Somit enthält das Framework 100 weiterhin eine Gruppe von Konfidenzen 140. Alternativ kann die Gruppe von Konfidenzen 140 als eine Gruppe von Unsicherheiten angesehen werden und kann die Gruppe von Konfidenzen 140 eine Vielzahl von probenspezifischen Konfidenzen 142-1 bis 142-3 enthalten, die mit jeweiligen der Vielzahl von Untereinbettungen 132-1 bis 132-3 assoziiert sind.
  • Bei diesem illustrativen Beispiel enthält die Gruppe von Untereinbettungen 130 drei Untereinbettungen und enthält die Gruppe von Konfidenzen 140 drei Konfidenzen. Die Gruppe von Untereinbettungen 130 und die Gruppe von Konfidenzen 140 können gemäß den hierin beschriebenen Ausführungsformen jedoch eine beliebige geeignete Anzahl von Untereinbettungen bzw. Konfidenzen enthalten.
  • Wie es weiterhin gezeigt ist, enthält das Framework 100 weiterhin eine Komponente für einen vertrauensbewussten Identifikationsverlust 150. Die Komponente für einen vertrauensbewussten Identifikationsverlust 150 ist konfiguriert, um einen vertrauensbewussten Identifikationsverlust auf die Gruppe von Untereinbettungen 130 und die Gruppe von Konfidenzen 140 anzuwenden. Genauer gesagt kann der vertrauensbewusste Identifikationsverlust auf einer vertrauensbewussten A-posteriori-Wahrscheinlichkeit basieren, bei welcher eine probenspezifische Konfidenz verwendet wird, um einen Prototypvektor (z.B. eine Identitätsvorlagenfunktion) zu drängen, dass er Trainingsbildern hoher Qualität ähnlicher ist, um die vertrauensbewusste A-posteriori-Wahrscheinlichkeit zu maximieren. Inzwischen kann dann, wenn eine Merkmalseinbettung des Trainingsbilds von niedriger Qualität ist, die probenspezifische Konfidenz einen stärkeren Schub bzw. ein stärkeres Drängen für die Merkmalseinbettung bereitstellen, um während einer Aktualisierung bzw. eines Updates der Merkmalseinbettung näher an einem Prototypvektor zu sein.
  • Ein Einrichten der Gruppe von Untereinbettungen 130 zusammen garantiert nicht, dass die Merkmale in unterschiedlichen Gruppen komplementäre Information lernen. Zum Beispiel kann die Vielzahl von Untereinbettungen 132-1 bis 132-3 stark korreliert sein. Durch Bestrafen der Vielzahl von Untereinbettungen 132-1 bis 132-3 mit unterschiedlicher Regularisierung kann die Korrelation zwischen ihnen reduziert werden. Durch Assoziieren von unterschiedlichen der Vielzahl von Untereinbettungen 132-1 bis 132-3 mit unterschiedlichen Variationen können wir einen Variationsklassifikationsverlust an einer Untergruppe von all den Untereinbettungen während eines Durchführens von gegnerischem Verlust für Variationen bezüglich anderer Variationstypen durchführen. Angesichts mehrerer Variationen können solche zwei Regularisierungsbedingungen an unterschiedlichen Untergruppen erzwungen werden, was zu einer besseren Untereinbettungsdekorrelation führt.
  • Um diese Dekorrelation zu erreichen, wird, wie es weiterhin gezeigt ist, die Gruppe von Untereinbettungen 130 auch in eine Variationsdekorrelationsverlustkomponente 160 eingespeist. Die Variationsdekorrelationsverlustkomponente 160 ist konfiguriert, um einen Variationsdekorrelationsverlust auf die Gruppe von Untereinbettungen 130 anzuwenden, um die Korrelation unter diesen der Vielzahl von Untereinbettungen 130 zu reduzieren. Genauer gesagt entkoppelt der Variationsdekorrelationsverlust unterschiedliche der Vielzahl von Untereinbettungen 132-1 bis 132-3 durch Assoziieren von ihnen mit unterschiedlichen Domänen in den Trainingsdaten 110. Zum Beispiel kann die Anwendung des Variationsdekorrelationsverlusts auf die Vielzahl von Untereinbettungen 132-1 bis 132-3 die Vielzahl von Untereinbettungen 132-1 bis 132-3 zwingen, weniger invariant gegenüber Unschärfe, Okklusion, Pose usw. zu sein. Demgemäß kann der Variationsdekorrelationsverlust ein Gesichtserkennungstraining verbessern.
  • Um das Framework 100, einschließlich der Komponenten 150 und 160, weiterhin darzustellen, sei y eine Identitätsbezeichnung und sei N die Anzahl von Identitäten. Wir untersuchen die A-posteriori-Wahrscheinlichkeit, angesichts der Eingabeprobe xi zur Identität j ∈{1,2, ...,J} klassifiziert zu werden. Wir bezeichnen die Merkmalseinbettung einer Probe i als ƒi und den j-ten Identitäts-Prototypvektor als wj, der das Identitätsvorlagenmerkmal ist. Ein probabilistisches Einbettungsnetzwerk θ kann jede Probe xi als Gauß- oder Normalverteilung im Merkmalsraum darstellen. Die Wahrscheinlichkeit, dass xi eine Probe der Klasse j ist, kann dann gegeben sein durch: p ( x i | y = j ) p θ ( w j | x i ) = 1 ( 2 σ i 2 ) D 2 exp ( ƒ i w j 2 2 σ i 2 )
    Figure DE112020005590T5_0001
    wobei σ i 2
    Figure DE112020005590T5_0002
    die Varianz der Gaußverteilung und D die Merkmalsdimension ist. Weiterhin kann unter der Annahme, dass die A-priori-Wahrscheinlichkeit eines Zuordnens einer Probe zu irgendeiner Identität gleich ist, die A-posteriori-Wahrscheinlichkeit, dass xi zur j-ten Klasse gehört, gegeben sein durch: p ( y   =   j | x i ) = p ( x i | y = j ) p ( y = j ) Σ c = 1 J   p ( x i | y = c ) p ( y = c ) = exp ( ƒ i w j 2 2 σ i 2 ) Σ c = 1 J exp ( ƒ i w c 2 2 σ i 2 )
    Figure DE112020005590T5_0003
  • Der Einfachheit halber erfolgt ein Definieren eines Konfidenzwerts s i = 1 σ i 2 ,
    Figure DE112020005590T5_0004
    der die Konfidenz bzw. das Vertrauen eines Zuordnens von einer Identität wj zu ƒi anzeigt. Beschränkt man beide von wj zu ƒi auf die I2-normalisierte Einheitskugel, haben wir ƒ i w j 2 2 σ i 2 = s i ( 1 w j T ƒ i ) ,
    Figure DE112020005590T5_0005
    und somit p ( y = j | x i ) = exp ( s i w j T ƒ i ) Σ c = 1 J  exp ( s i w c T ƒ i )
    Figure DE112020005590T5_0006
    wobei w j T
    Figure DE112020005590T5_0007
    die Transponierte von darstellt wj.
  • Während einer Aktualisierung der Einbettung ƒi wird ein stärkerer Schub für ƒi niedriger Qualität bereitgestellt, um näher am Prototyp zu sein. Demgemäß wird der gelernte Prototypvektor wj durch ein Durchführen einer Konfidenzführung in Übereinstimmung mit z.B. Gleichung 5 näher zu den Proben hoher Qualität gedrückt, um die Identität besser darzustellen.
  • Eine zusätzliche Verlustspanne kann verwendet werden, um die Verteilung innerhalb der Identität einzuengen und eine Verteilung zwischen den Identitäten zu erweitern. Eine solche zusätzliche Verlustspanne kann in die Verlustform wie folgt eingebaut werden: L i d t ' =  log exp ( s i w j T ƒ i m ) exp ( s i w y i T ƒ i m ) + j y i exp ( s i w j T ƒ i )
    Figure DE112020005590T5_0008
    wobei yi die Ground-Truth-Bezeichnung von xi ist und m die Verlustspanne ist.
  • Der vertrauensbewusste Identifikationsverlust kann vertrauensbewusster Softmax-(C-Softmax-)Verlust sein, der unterschiedlich vom Kosinusverlust ist, wie es folgt: (1) Jedes Bild hat eher einen unabhängigen und dynamischen Konfidenzwert si als einen konstanten gemeinsam genutzten bzw. geteilten Skalar und (2) der Spannen- bzw. Margenparameter m wird nicht mit si multipliziert. Die Unabhängigkeit von si lässt es zu, die Gradientensignale von wi und ƒi auf probenspezifische Weise anzusteuern, da das Vertrauen bzw. die Konfidenz (Variationsgrad) jeder Trainingsprobe stark unterschiedlich sein könnte. Obwohl Proben spezifisch sind, kann ein heterogener Merkmalsraum so betrieben werden, dass die Metrik über unterschiedliche Identitäten hinweg konsistent sein sollte. Durch Zulassen, dass si einen Konfidenzunterschied der Proben kompensiert, kann die Verlustspanne m isoliert werden, um konstant über alle Identitäten hinweg geteilt zu werden.
  • Obwohl die durch eine probenspezifische Ansteuerung si gelernte Merkmalseinbettung ƒi mit Variationen auf Probenebene umgehen kann, kann die Korrelation unter den Einträgen von ƒi selbst noch hoch sein. Um die Darstellungsleistung zu maximieren und eine kompakte Merkmalsgröße zu erreichen, kann eine Dekorrelation der Einträge der Einbettung nötig sein.
  • Um dies zu erreichen, und wie es oben beschrieben ist, wird die Merkmalseinbettung ƒi in die Gruppe von Untereinbettungen 130 partitioniert, von welchen jede einen anderen Konfidenzwert aus der Gruppe von Konfidenzwerten 140 übertragen bekommen hat. Genauer gesagt kann ƒi in K Untereinbettungen gleicher Länge partitioniert werden und können der Prototypvektor wj und der Konfidenzwert si in dieselben K bemaßten Gruppen partitioniert bzw. unterteilt werden, wie es folgt: w j = [ w j ( 1 ) T , w j ( 2 ) T , , w j ( K ) T ] ƒ i = [ ƒ i ( 1 ) T , ƒ i ( 2 ) T , , ƒ i ( K ) T ] s i = [ s i ( 1 ) T , s i ( 2 ) T , , s i ( K ) T ]
    Figure DE112020005590T5_0009
  • Wobei jede Gruppe von Untereinbettungen ƒ i ( k )
    Figure DE112020005590T5_0010
    separat auf die Einheitskugel 1-2-normalisiert ist. Der endgültige Identifikationsverlust kann somit gegeben sein durch: L i d t = log exp ( a i , y i m ) exp ( a i , y i m ) + j y i exp ( a i , j )
    Figure DE112020005590T5_0011
    a i , j = 1 K Σ k = 1 K s i ( k ) w j ( k ) T ƒ i ( k )
    Figure DE112020005590T5_0012
  • Ein allgemeines Problem für neuronale Netzwerke besteht darin, dass sie dazu neigen, bei Vorhersagen „zu optimistisch“ zu sein. Um dies zu beheben, kann eine zusätzliche I2-Regularisierung hinzugefügt werden, um die Konfidenz von beliebig groß anwachsend einzuschränken, wie es folgt: L r e g = 1 K Σ k = 1 K s i ( k )
    Figure DE112020005590T5_0013
  • Für jede erweiterbare Variante t ∈{1, 2, ..., M} kann eine binäre Maske Vt erzeugt werden, die eine zufällige erste K/2 Untergruppe von allen Untereinbettungen auswählt, während die zweite K/2 Untergruppe auf Nullen eingestellt wird. Die Masken können zu Beginn des Trainings erzeugt werden und können während des Trainings festbleiben. Die Masken sind für unterschiedliche Variationen unterschiedlich. Es wird erwartet, dass Vti) die t-te Variation wiedergibt, während sie gegenüber den anderen Variationen invariant ist. Demgemäß kann ein Mehrfachbezeichnungs- bzw. Multi-Label-Binärdiskriminator C durch Lernen gebildet werden, um alle Variationen aus jeder maskierten Untergruppe vorherzusagen, wie es folgt: min ( L C ) C = t = 1 M log p c ( u i = u ^ i | V t ( ƒ i ) ) =   Σ t = 1 M Σ t ' = 1 M  log p c ( u i ( t ' ) = u ^ i ( t ' ) | V t ( ƒ i ) )
    Figure DE112020005590T5_0014
    wobei u i = [ u i ( 1 ) , u i ( 2 ) , , u i ( M ) ]
    Figure DE112020005590T5_0015
    die binären Bezeichnungen (0/1) der bekannten Variationen sind und u ^ i
    Figure DE112020005590T5_0016
    die Ground-Truth-Bezeichnung ist. Wenn zum Beispiel t = 1 der Auflösung entspricht, würde u ^ i ( 1 )
    Figure DE112020005590T5_0017
    1 sein für Bilder mit hoher Auflösung und 0 für Bilder mit niedriger Auflösung. Es wird angemerkt, dass Gleichung 9 nur zum Trainieren des Diskriminators C verwendet wird.
  • Der entsprechende Klassifikationsverlust Lcls und der gegnerische Verlust Ladv des Einbettungsnetzwerks kann dann gegeben sein durch: L c l s =   Σ t = 1 M log p c ( u i ( t ' ) = u ^ i ( t ) | V t ( ƒ i ) )
    Figure DE112020005590T5_0018
    L a d v = Σ t = 1 M t ' t ( 1 2 log p c ( u i ( t ' ) = 0 | V t ( ƒ i ) ) + 1 2 log p c ( u i ( t ' ) = 1 | V t ( ƒ i ) ) )
    Figure DE112020005590T5_0019
  • Der Klassifikationsverlust Lcls ermutigt Vt dazu, variationsspezifisch zu sein, während der kontradiktorische bzw. gegnerische Verlust Lcls eine Invarianz zu den anderen Variationen fördert. Solange keine zwei Masken dieselben sind, garantiert es, dass die ausgewählte Untergruppe Vt funktional unterschiedlich von einer anderen Untergruppe Vt, ist, um dadurch eine Dekorrelation zwischen Vt und Vt, zu erreichen. Die Gesamtverlustfunktion für jede Probe kann bereitgestellt sein als min  L θ = L i d t + λ r e g L r e g + λ c l s L c l s + λ a d v L a d v
    Figure DE112020005590T5_0020
  • Wobei bei der Gleichung 12 während einer Optimierung über die Proben im Mini-Batch gemittelt wird.
  • Wie es oben angemerkt ist, gibt es bei einer Ausführungsform drei erweiterbare Variationen (Unschärfe, Okklusion und Pose). Eine solche Anzahl kann jedoch einem begrenzten Dekorrelationseffekt entsprechen, da die Anzahl von Untergruppen Vt zu klein sein kann. Somit können, um die Dekorrelation weiter zu verbessern und mehr Variationen für eine bessere Verallgemeinerungsfähigkeit einzuführen, bei einigen Ausführungsformen zusätzliche Variationen mit semantischer Bedeutung gewonnen werden. Nicht alle Variationen sind einfach zu verwenden, um Daten zu erweitern (z.B. lächeln oder nicht lächeln kann schwer zu erweitern sein). Für solche Variationen können wir Variationsbezeichnungen aus ursprünglichen Trainingsdaten gewinnen. Insbesondere kann ein Attributen-Datensatz genutzt werden, um ein Attributen-Klassifikationsmodell θA mit gegnerischem Identitätsverlust zu trainieren, wie es folgt: m i n   L θ A θ A =  log p ( l A | x A ) 1 N A c N A log p ( y A = c | x A ) m i n   L D A D A =  log p ( y A = y x A | x A )
    Figure DE112020005590T5_0021
  • Wobei IA die Attributbezeichnung ist, yA die Identitätsbezeichnung ist, xA das Eingabe-Gesichtsbild ist und NA die Anzahl von Identitäten im Attributen-Datensatz ist. Der erste Ausdruck, LθA , bestraft das Merkmal, um Gesichtsattribute zu klassifizieren, und der zweite Ausdruck, LDA , bestraft das Merkmal, um invariant gegenüber Identitäten zu sein.
  • Der Attributen-Klassifikator kann dann auf die Erkennungstrainingsgruppe angewendet werden, um T zusätzliche Bezeichnungen für weiche Variationen (z.B. lächelnd oder nicht lächelnd, jung oder alt) zu erzeugen. Diese zusätzlichen Bezeichnungen für weiche Variationen können mit den ursprünglichen erweiterbaren Variationsbezeichnungen als u i = [ u i ( 1 ) , u i ( 2 ) , , u i ( M ) , u i ( M + 1 ) , , u i ( M + T ) ]
    Figure DE112020005590T5_0022
    zusammengeführt werden und dann in das durch die Komponente 160 durchgeführte Lernen von Dekorrelationen eingebaut werden.
  • Unter Berücksichtigung der Metrik für eine Inferenz kann es eine suboptimale Option sein, einfach den Durchschnitt der gelernten Untereinbettungen zu nehmen. Dies ist deshalb so, weil unterschiedliche Untereinbettungen eine unterschiedliche Unterscheidungskraft für unterschiedliche Variationen zeigen können und ihre Wichtigkeit gemäß gegebenen Bildpaaren variieren sollte. Somit können paarweise Ähnlichkeitswerte bzw. -bewertungen gemäß jeweiligen Bildpaaren erhalten werden, wie es folgt: W e r t ( x i , x j ) = 1 2 Σ k = 1 K ƒ i ( k ) ƒ j ( k ) 2 σ i ( k ) 2 + σ j ( k ) 2 D 2 K Σ k = 1 K log ( σ i ( k ) 2 + σ j ( k ) 2 )
    Figure DE112020005590T5_0023
    wobei jeder der paarweisen Ähnlichkeitswerte Wert(xi,xj) einer gelernten Untereinbettungswichtigkeit entspricht. Mit der Gleichung 8 zur Regularisierung kann gesehen werden, dass die mit dem Identifikationsverlust gelernte Konfidenz noch dazu neigen kann, zu optimistisch zu sein, und daher nicht direkt für die Gleichung 14 verwendet werden kann. Somit kann der ursprüngliche Konfidenzzweig fein abgestimmt werden, um σ vorherzusagen, während die anderen Teile festgelegt sind.
  • Weitere Details bezüglich vertrauensbewussten Identifizierungsverlusts und Variationsdekorrelationsverlusts werden nun unter Bezugnahme auf 2 beschrieben werden.
  • Nimmt man nun Bezug auf 2 wird ein Diagramm 200 bereitgestellt, das einen Block 210 darstellt, der einem vertrauensbewussten Identifikationsverlust entspricht, und einen Block 220, der einem Variationsdekorrelationsverlust entspricht.
  • Wie es im Block 210 zur Veranschaulichung eines vertrauensbewussten Softmax-(C-Softmax-)Verlusts gezeigt ist, sind eine Vielzahl von Proben einer Klasse A 212 und eine Vielzahl of Proben einer Klasse B 214 durch eine Marge bzw. Spanne m getrennt. Der Durchmesser von jeder der Proben 212 und 214 entspricht einem Konfidenzwert s.
  • Wie es im Block 220 zur Veranschaulichung eines Variationsdekorrelationsverlusts gezeigt ist, betrachten wir zwei Variationen als zwei Achsen u(t) und u(t+1) und eine Untergruppe Vt. Durch Anwenden des hierin beschriebenen Variationsdekorrelationsverlusts kann die Korrelation von Merkmalen entlang den zwei Achsen verringert werden.
  • Das gemäß den oben beschriebenen Ausführungsformen unter Bezugnahme auf die 1 und 2 durchgeführte Gesichtserkennungstraining kann implementiert werden, um eine Gesichtserkennung innerhalb eines geeigneten Systems oder Kontextes durchzuführen.
  • Zum Beispiel ist, nimmt man nun Bezug auf 3, eine beispielhafte Umgebung 300 zum Implementieren von Gesichtserkennung gezeigt. Genauer gesagt enthält die Umgebung 300 einen Benutzer 310 und ein Computersystem oder eine -vorrichtung 320. Das Computersystem 320 kann ein biometrisches System implementieren, das dem Benutzer 310 einen Zugang zum Computersystem 320 basierend auf einer Analyse des Gesichts des Benutzers 310 gewährt oder verweigert. Zum Beispiel ist das Computersystem 320 bei dieser illustrativen Ausführungsform ein Smartphone, das eine Kamera enthält. Diese Ausführungsform ist rein beispielhaft und die hierin beschriebenen Ausführungsformen können innerhalb von irgendeiner geeigneten Umgebung verwendet werden.
  • Wie es weiterhin gezeigt ist, kann die Umgebung 300 weiterhin wenigstens eine Prozessorvorrichtung 330 enthalten. Die Prozessorvorrichtung 330 kann konfiguriert werden, um das hierin beschriebene System/Verfahren zum Implementieren von Gesichtserkennung zu implementieren. Obwohl die Verarbeitungsvorrichtung 330 als eine vom Computersystem 320 getrennte Einheit dargestellt ist, kann die Prozessorvorrichtung 300 alternativ eine Unterkomponente des Computersystems 320 sein oder kann das Computersystem 320 eine Unterkomponente der Prozessorvorrichtung 330 sein.
  • Nimmt man nun Bezug auf 4, wird ein Block-/Ablaufdiagramm bereitgestellt, das ein System/Verfahren 400 zum Implementieren von Gesichtserkennung darstellt.
  • Bei einem Block 410 werden Trainingsdaten einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind, empfangen.
  • Bei einem Block 420 wird eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von Untereinbettungen aufgeteilt, die jeweils mit einer der vielen Variationen assoziiert sind. Zum Beispiel kann eine erste Untereinbettung mit Unschärfe assoziiert sein, kann eine zweite Untereinbettung mit Okklusion assoziiert sein und kann eine dritte Untereinbettung mit Pose assoziiert sein.
  • Bei einem Block 430 ist jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten assoziiert.
  • Bei einem Block 440 wird eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten angewendet, um eine Gesichtserkennungsleistung zu verbessern, indem die Vielzahl von Untereinbettungen gelernt wird.
  • Der vertrauensbewusste Identifikationsverlust verwendet die Konfidenz- bzw. Vertrauensführung, um einen gelernten Prototyp näher an Bilder hoher Qualität zu bringen, um die A-posteriori-Wahrscheinlichkeit zu maximieren. Während eines Aktualisierens der Merkmalseinbettung bietet er auch einen stärkeren Schub für eine Merkmalseinbettung niedriger Qualität, um näher am gelernten Prototyp zu sein. Bei einer Ausführungsform enthält der vertrauensbewusste Identifikationsverlust eine Verlustspanne, um die Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern. Bei einer Ausführungsform wird der vertrauensbewusste Identifikationsverlust als C-Softmax-Verlust implementiert.
  • Der Variationsdekorrelationsverlust assoziiert unterschiedliche der Vielzahl von Untereinbettungen durch Assoziieren von ihnen mit unterschiedlichen der Vielzahl von Variationen. Zum Beispiel können eine oder mehrere Untereinbettungen gezwungen werden, invariant gegenüber Okklusion, Unschärfe und/oder Pose zu sein. Durch Schieben bzw. Drücken zu einer stärkeren Invarianz für jede Variation kann die Korrelation/Überlappung zwischen zwei Variationen reduziert werden. Bei einer Ausführungsform wendet der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen an.
  • Bei einer Ausführungsform enthält die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung, um ein Vertrauen bzw. eine Konfidenz bezüglich eines willkürlichen großen Anwachsens einzuschränken.
  • Bei einem Block 450 werden paarweise Ähnlichkeitswerte jeweils entsprechend einer gelernten Untereinbettungswichtigkeit gemäß jeweiligen Bildpaaren erhalten.
  • Weitere Details bezüglich der Blöcke 410-450 sind oben unter Bezugnahme auf 1-2 beschrieben.
  • Nimmt man nun Bezug auf 5, ist ein beispielhaftes Computersystem 600, das einen Server oder eine Netzwerkvorrichtung darstellen kann, gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Computersystem 500 enthält wenigstens einen Prozessor (CPU) 505, der über einen Systembus 502 operativ mit anderen Komponenten gekoppelt ist. Ein Cache 506, ein Nurlesespeicher (ROM) 508, ein Direktzugriffsspeicher (RAM) 510, ein Eingabe/Ausgabe-(I/O-) Adapter 520, ein Klangadapter 530, ein Netzwerkadapter 590, ein Benutzerschnittstellenadapter 550 und ein Anzeigeadapter 560 sind operativ mit dem Systembus 502 gekoppelt.
  • Eine erste Speichervorrichtung 522 und eine zweite Speichervorrichtung 529 sind durch den I/O-Adapter 520 operativ mit dem Systembus 502 gekoppelt. Die Speichervorrichtungen 522 und 529 können irgendetwas von einer Plattenspeichervorrichtung (z.B. einer magnetischen oder optischen Plattenspeichervorrichtung), einer magnetischen Festkörpervorrichtung und so weiter sein. Die Speichervorrichtungen 522 und 529 können derselbe Typ von Speichervorrichtung oder unterschiedliche Typen von Speichervorrichtungen sein.
  • Ein Lautsprecher 532 kann durch den Klangadapter 530 operativ mit dem Systembus 502 gekoppelt sein. Ein Transceiver 595 ist durch den Netzwerkadapter 590 operativ mit dem Systembus 502 gekoppelt. Eine Anzeigevorrichtung 562 ist durch einen Anzeigeadapter 560 operativ mit dem Systembus 502 gekoppelt.
  • Eine erste Benutzereingabevorrichtung 552, eine zweite Benutzereingabevorrichtung 559 und eine dritte Benutzereingabevorrichtung 556 sind durch einen Benutzerschnittstellenadapter 550 operativ mit dem Systembus 502 gekoppelt. Die Benutzereingabevorrichtungen 552, 559 und 556 können irgendetwas von einem Sensor, einer Tastatur, einer Maus, einer kleinen Tastatur, einem Joystick, einer Bilderfassungsvorrichtung, einer Bewegungserfassungsvorrichtung, einer Leistungsmessvorrichtung, einem Mikrofon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorherigen Vorrichtungen enthält, und so weiter sein. Natürlich können auch andere Typen von Eingabevorrichtungen verwendet werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird. Die Benutzereingabevorrichtungen 552, 559 und 556 können derselbe Typ von Benutzereingabevorrichtungen oder unterschiedliche Typen von Benutzereingabevorrichtungen sein. Die Benutzereingabevorrichtungen 552, 559 und 556 werden dazu verwendet, Informationen zu dem System 500 einzugeben und aus diesem auszugeben.
  • Eine Gesichtserkennungs-(FR(= Face Recognition)-)Komponente 570 kann operativ mit dem Systembus 502 gekoppelt sein. Die FR-Komponente 570 ist konfiguriert, um eine oder mehrere der oben beschriebenen Operationen durchzuführen. Die FR-Komponente 570 kann als eigenständige spezielle Hardwarevorrichtung oder als auf einer Speichervorrichtung gespeicherte Software implementiert werden. Bei der Ausführungsform, bei welcher die FR-Komponente 570 softwareimplementiert ist, kann die FR-Komponente 570, obwohl sie als separate Komponente des Computersystems 500 dargestellt ist, auf z.B. der ersten Speichervorrichtung 522 und/oder der zweiten Speichervorrichtung 529 gespeichert sein. Alternativ kann die FR-Komponente 570 auf einer separaten Speichervorrichtung gespeichert werden (nicht gezeigt).
  • Natürlich kann das Computersystem 500 auch andere Elemente (die nicht gezeigt sind) enthalten, wie es von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen im Computersystem 500 enthalten sein, abhängig von der besonderen Implementierung desselben, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen verwendet werden, wie es von einem Fachmann auf dem Gebiet ohne weiteres eingesehen wird. Diese und andere Variationen des Computersystems 500 werden von einem Fachmann auf dem Gebiet angesichts der hierin zur Verfügung gestellten Lehren der vorliegenden Erfindung, ohne weiteres in Erwägung gezogen.
  • Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch einzusehen, dass Merkmale von einer oder von mehreren Ausführungsformen bei den hierin zur Verfügung gestellten gegebenen Lehren der vorliegenden Erfindung kombiniert werden können.
  • Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
  • Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt erwünscht wird, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62/934620 [0001]
    • US 17/091011 [0001]

Claims (20)

  1. Computerimplementiertes Verfahren zum Durchführen von Gesichtserkennung, umfassend: Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
  2. Verfahren nach Anspruch 1, das weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen.
  3. Verfahren nach Anspruch 1, wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
  4. Verfahren nach Anspruch 1, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
  5. Verfahren nach Anspruch 1, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
  6. Verfahren nach Anspruch 1, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
  7. Verfahren nach Anspruch 1, das weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.
  8. Computerprogrammprodukt, das ein nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium umfasst, das damit verkörperte Programmanweisungen hat, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahren zum Implementieren von Gesichtserkennung durchführt, wobei das durch den Computer durchgeführte Verfahren folgendes umfasst: Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
  9. Computerprogrammprodukt nach Anspruch 8, wobei das Verfahren weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen.
  10. Computerprogrammprodukt nach Anspruch 8, wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
  11. Computerprogrammprodukt nach Anspruch 8, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
  12. Computerprogrammprodukt nach Anspruch 8, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
  13. Computerprogrammprodukt nach Anspruch 8, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
  14. Computerprogrammprodukt nach Anspruch 8, wobei das Verfahren weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.
  15. System zum Durchführen von Gesichtserkennung, umfassend: eine Speichervorrichtung, die einen Programmcode speichert; und wenigstens eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist und konfiguriert ist, um einen auf der Speichervorrichtung gespeicherten Programmcode auszuführen, um: Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem jeweiligen einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind, zu empfangen (410); eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit einer der Vielzahl von Variationen assoziiert sind, aufzuteilen (420); jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten zu assoziieren (430); eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten anzuwenden (440), um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
  16. System nach Anspruch 15, wobei das Verfahren weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen, und wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
  17. System nach Anspruch 15, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
  18. System nach Anspruch 15, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
  19. System nach Anspruch 15, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
  20. System nach Anspruch 15, wobei das Verfahren weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.
DE112020005590.6T 2019-11-13 2020-11-09 Lernen einer universellen merkmalsdarstellung zur gesichtserkennung Pending DE112020005590T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962934620P 2019-11-13 2019-11-13
US62/934,620 2019-11-13
US17/091,011 2020-11-06
US17/091,011 US11580780B2 (en) 2019-11-13 2020-11-06 Universal feature representation learning for face recognition
PCT/US2020/059642 WO2021096797A1 (en) 2019-11-13 2020-11-09 Universal feature representation learning for face recognition

Publications (1)

Publication Number Publication Date
DE112020005590T5 true DE112020005590T5 (de) 2022-08-25

Family

ID=75846673

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020005590.6T Pending DE112020005590T5 (de) 2019-11-13 2020-11-09 Lernen einer universellen merkmalsdarstellung zur gesichtserkennung

Country Status (4)

Country Link
US (1) US11580780B2 (de)
JP (1) JP7270839B2 (de)
DE (1) DE112020005590T5 (de)
WO (1) WO2021096797A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091896B (zh) * 2023-04-12 2023-07-25 无锡学院 基于IResNet模型网络的防风药材产地识别方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219756A (ja) * 2014-05-19 2015-12-07 カシオ計算機株式会社 画像比較方法、装置並びにプログラム
US9852492B2 (en) * 2015-09-18 2017-12-26 Yahoo Holdings, Inc. Face detection
US20200042883A1 (en) * 2016-12-21 2020-02-06 Nec Corporation Dictionary learning device, dictionary learning method, data recognition method, and program storage medium
US20180189228A1 (en) * 2017-01-04 2018-07-05 Qualcomm Incorporated Guided machine-learning training using a third party cloud-based system
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
KR102370063B1 (ko) * 2017-03-28 2022-03-04 삼성전자주식회사 얼굴 인증 방법 및 장치
US10453366B2 (en) * 2017-04-18 2019-10-22 Samsung Display Co., Ltd. System and method for white spot mura detection
US10943096B2 (en) * 2017-12-31 2021-03-09 Altumview Systems Inc. High-quality training data preparation for high-performance face recognition systems
US11600113B2 (en) * 2019-11-13 2023-03-07 Nec Corporation Deep face recognition based on clustering over unlabeled face data
US11710346B2 (en) * 2020-05-28 2023-07-25 Nec Corporation Facial recognition for masked individuals
US11977602B2 (en) * 2020-11-10 2024-05-07 Nec Corporation Domain generalized margin via meta-learning for deep face recognition

Also Published As

Publication number Publication date
WO2021096797A1 (en) 2021-05-20
JP2022544853A (ja) 2022-10-21
JP7270839B2 (ja) 2023-05-10
US11580780B2 (en) 2023-02-14
US20210142043A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102019005851A1 (de) Objektdetektion in Bildern
DE102019000675A1 (de) Nutzen eines modells auf der basis eines tiefen neuronalen netzwerks zum identifizieren von visuell ähnlichen digitalen bildern auf der basis von nutzer-ausgewählten visuellen eigenschaften
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE112016006360T5 (de) Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust
DE102017006558A1 (de) Semantische lnstanzebenensegmentierung
DE112017006166T5 (de) Verfahren und system zur erzeugung eines multi-relevanten labels
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
DE102015009910A1 (de) Automatische Aggregation von Online-Benutzerprofilen
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE112005000569T5 (de) System und Verfahren zur Patientenidentifikation für klinische Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und Lernen
DE102018005611A1 (de) Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens
DE112021000392T5 (de) Leistungsfähiges kommentieren der grundwahrheit
DE102017005964A1 (de) Techniken zum Auswählen von Objekten in Bildern
DE112020005560T5 (de) Gesichtsmanipulationsdetektion unter Verwendung eines durch physische Hinweise geführten Mehrquellen-Mehrkanal-Rahmens
DE102022202017A1 (de) Konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
US20220207322A1 (en) Data processing method and apparatus based on neural population coding, storage medium, and processor
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung
DE112020005590T5 (de) Lernen einer universellen merkmalsdarstellung zur gesichtserkennung
DE102021124537A1 (de) Energiebasierte variational autoencoder
Vanegas et al. Unsupervised feature learning for content-based histopathology image retrieval

Legal Events

Date Code Title Description
R012 Request for examination validly filed