DE112020005590T5

DE112020005590T5 - Lernen einer universellen merkmalsdarstellung zur gesichtserkennung

Info

Publication number: DE112020005590T5
Application number: DE112020005590.6T
Authority: DE
Inventors: Xiang Yu; Manmohan Chandraker; Kihyuk Sohn; Yichun Shi
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-11-13
Filing date: 2020-11-09
Publication date: 2022-08-25
Also published as: WO2021096797A1; JP2022544853A; JP7270839B2; US11580780B2; US20210142043A1

Abstract

Ein computerimplementiertes Verfahren zum Implementieren von Gesichtserkennung enthält ein Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebilder entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; ein Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; ein Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und ein Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.

Description

INFORMATION ÜBER ZUGEHÖRIGE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der provisorischen Anmeldung mit der seriellen Nummer 62/934,620 , eingereicht am 13. November 2019, und der US-Patentanmeldung Nr. 17/091,011 , eingereicht am 6. November 2020, welche Anmeldungen durch Bezugnahme hierin in ihrer Gesamtheit enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft künstliche Intelligenz und maschinelles Lernen und insbesondere Gesichtserkennung.
Beschreibung des zugehörigen Standes der Technik
Tiefe Gesichtserkennung strebt an, Eingabebilder auf einen Merkmalsraum mit geringem Abstand innerhalb von Identitäten und großem Abstand zwischen Identitäten abzubilden. Gesichtserkennung kann schwierig sein, da Gesichter in vielen Varianten erscheinen können, die nicht einfach synthetisiert oder vorhergesagt werden können. Herkömmliche Gesichtserkennungstechniken trainieren entweder mit spezifisch kommentierten bzw. annotierten Variationsdaten oder durch Einführen von Variationsdaten, um sich von den Trainingsdaten aus anzupassen. Alternativ können individuelle Modelle an verschiedenen Datensätzen trainiert und zusammengeführt werden, um einen Nutzeffekt gegenüber jedem einzelnen Modell zu erhalten.
ZUSAMMENFASSUNG
Gemäß einem Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Implementieren von Gesichtserkennung bereitgestellt. Das computerimplementierte Verfahren enthält ein Empfangen von Trainingsdaten einschließlich einer Vielzahl von erweiterten Bildern entsprechend einem jeweiligen einer Vielzahl von durch eine einer Vielzahl von Variationen erweiterten Eingabebildern, Aufteilen einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von jeweils mit einer der Vielzahl von Variationen assoziierten Untereinbettungen, Assoziieren jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten und Anwenden einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung zu verbessern.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Implementieren von Gesichtserkennung bereitgestellt. Das System enthält eine Speichervorrichtung, die einen Programmcode speichert, und wenigstens eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist. Die wenigstens eine Prozessorvorrichtung ist konfiguriert, um einen auf der Speichervorrichtung gespeicherten Programmcode auszuführen, um Trainingsdaten zu empfangen, einschließlich einer Vielzahl von erweiterten Bildern entsprechend einem jeweiligen einer Vielzahl von durch eine einer Vielzahl von Variationen erweiterten Eingabebildern, eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von jeweils mit einer Vielzahl von Variationen assoziierten Untereinbettungen aufzuteilen, jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten zu assoziieren und eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten anzuwenden, um eine Gesichtserkennungsleistung zu verbessern.
Diese und weitere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung von illustrativen Ausführungsformen davon offensichtlich werden, die im Zusammenhang mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:

1 ein Diagramm ist, das ein Gesichtserkennungs-Trainingsframework gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
2 ein Diagramm ist, das den vertrauensbewussten Identifikationsverlust und den Variationsdekorrelationsverlust gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
3 ein Block-/Ablaufdiagramm ist, das eine beispielhafte Umgebung zum Implementieren von Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
4 ein Block-/Ablaufdiagramm ist, das ein System/Verfahren zum Implementieren von Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung darstellt; und
5 ein Block-/Ablaufdiagramm ist, das ein Computersystem gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Gemäß Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren zum Implementieren von Gesichtserkennung bereitgestellt. Spezifischer können die hierin beschriebenen Ausführungsformen ein Framework für ein Lernen universeller Merkmalsdarstellung für tiefe Gesichtserkennung bereitstellen, das ein Framework für ein Lernen einer Gesichtsdarstellung ist, das universelle Merkmale durch Assoziieren von ihnen mit verschiedenen Variationen lernt, um dadurch zu einer verbesserten Verallgemeinerung an unsichtbaren Variationen zu führen. Während eines Trainierens kann eine einzelne universelle Merkmalsdarstellung gezielt zur Gesichtserkennung auf erweiterten Bildern (z.B. Bildern geringer Qualität) eingesetzt werden, ohne die Bilder für ein Trainieren oder zur Domänenanpassung zu nutzen. Zum Beispiel können die erweiterten Bilder durch Variationen erweitert werden, einschließlich, aber nicht darauf beschränkt, von Unschärfe (z.B. niedrige Auflösung), Okklusion und Pose bzw. Stellung (z.B. Kopfstellung). Die hierin beschriebenen Ausführungsformen führen einen vertrauensbewussten Identifikationsverlust ein, um aus harten Beispielen zu lernen, der weiterhin durch Aufteilen einer Merkmalseinbettung (z.B. Merkmalsvektor) in eine Vielzahl von Untereinbettungen mit unabhängiger Konfidenz erweitert wird. Die Variationen werden angewendet, um die Merkmalseinbettung unter Verwendung des Variationsdekorrelationsverlusts weiter zu dekorrelieren. Die hierin beschriebenen Ausführungsformen können weitere nicht erweiterbare Variationen entdecken, um eine bessere Dekorrelation zu erreichen. Eine unsicherheitsgeführte paarweise Metrik kann für eine Inferenz verwendet werden.
Hierin beschriebene Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente sein. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, einen Microcode etc. enthält, ist aber nicht darauf beschränkt.
Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch einen oder in Verbindung mit einem Computer, oder irgendein oder irgendeinem Anweisungsausführungssystem, bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das Befehlsausführungssystem, die Vorrichtung oder das Gerät, oder in Verbindung damit, speichert, kommuniziert, aus- bzw. verbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, infrarotes oder Halbleitersystem (oder eine Vorrichtung oder ein Gerät) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium enthalten, wie beispielsweise einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Wechsel-Computerdiskette, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), eine feste bzw. starre Magnetplatte und eine optische Scheibe etc.
Jedes Computerprogramm kann konkret bzw. materiell in einem maschinenlesbaren Speichermedium oder einer -vorrichtung (z.B. Programmspeicher oder Magnetplatte) gespeichert sein, das oder die durch einem allgemeinen oder speziellen programmierbaren Computer lesbar ist, zum Konfigurieren und Steuern eines Betriebs eines Computers, wenn das Speichermedium bzw. die Speichermedien oder die Vorrichtung durch den Computer gelesen wird bzw. werden, um die hierin beschriebenen Prozeduren durchzuführen. Das erfinderische System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wobei das Speichermedium so konfiguriert ist, dass es veranlasst, dass ein Computer auf eine spezifische und vordefinierte Weise arbeitet, um die hierin beschriebenen Funktionen durchzuführen.
Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen eines Programmcodes geeignet ist, kann wenigstens einen Prozessor enthalten, der direkt oder indirekt über einen Systembus mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während einer tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher, die eine temporäre Speicherung von wenigstens etwas von einem Programmcode zur Verfügung zu stellen, um die Anzahl von Malen zu reduzieren, für welche der Code während einer Ausführung aus einem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht darauf beschränkt, von Tastaturen, Anzeigen, Zeigevorrichtungen etc.) können entweder direkt oder über dazwischenliegende I/O-Steuerungen mit dem System gekoppelt sein.
Netzwerkadapter können auch mit dem System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernten bzw. Remote-Druckern oder Speichervorrichtungen gekoppelt werden. Modems, ein Kabelmodem und Ethernet-Karten sind nur einige wenige der derzeit verfügbaren Typen von Netzwerkadaptern.
Wie er hierin verwendet wird, kann sich der Begriff „Hardwareprozessor-Untersystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen etc.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder computerelementbasierten Steuerung (z.B. Logikgatter etc.) enthalten sein. Das Hardwareprozessor-Untersystem kann einen oder mehrere integrierte Speicher bzw. Onboard-Speicher (z.B. Caches, bestimmte bzw. dedizierte Speicherarrays, einen Nurlesespeicher etc.) enthalten. Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem einen oder mehrere Speicher enthalten, die onboard oder offboard sein können oder die zur Verwendung durch das Hardwareprozessor-Untersystem bestimmt bzw. dediziert sein können (z.B. ROM, RAM, BIOS (Basic Input/Output System (= Grundlegendes Eingabe-/Ausgabe-System)) etc.).
Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Softwareelemente umfassen und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder einen spezifischen Code enthalten, um ein spezifiziertes bzw. bestimmtes Ergebnis zu erzielen.
Bei anderen Ausführungsformen kann das Hardwareprozessor-Untersystem eine dedizierte, spezialisierte Schaltung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen durchführt, um ein bestimmtes Ergebnis zu erzielen. Eine solche Schaltung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs und/oder PLAs enthalten.
Diese und andere Variationen eines Hardwareprozessor-Untersystems werden gemäß Ausführungsformen der vorliegenden Erfindung auch in Betracht gezogen.
Nimmt man nun im Detail Bezug auf die Figuren, in welchen gleiche Bezugszeichen dieselben oder ähnliche Elemente darstellen, und anfangs auf 1, wird ein Block-/Ablaufdiagramm bereitgestellt, das ein Gesichtserkennungs-Trainingsframework bzw. einen Gesichtserkennungs-Trainingsrahmen 100 darstellt.
Wie es gezeigt ist, enthält das Framework 100 Trainingsdaten 110, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils ein Gesichtsbild enthalten. Genauer gesagt kann das eine oder können die mehreren erweiterten Bilder eine Vielzahl von erweiterten Gesichtsbildern enthalten. Bei einer Ausführungsform kann die Vielzahl von erweiterten Gesichtsbildern menschliche Gesichtsbilder enthalten. Eine solche Ausführungsform sollte jedoch nicht als beschränkend angesehen werden und die hierin beschriebenen Ausführungsformen können angewendet werden, um Gesichtserkennungstraining in Bezug auf irgendwelche geeigneten Gesichtsbilder durchzuführen.
Wie er hierin verwendet ist, bezieht sich der Begriff „erweitertes Bild“ auf ein Bild, das durch Modifizieren eines Eingabebildes (z.B. Bild „hoher Qualität“) erzeugt wird, um eine oder mehrere vordefinierte Variationen zu enthalten. Zum Beispiel können die Trainingsdaten 110 erzeugt werden, indem eine Online-Variationsdatenerweiterung angewendet wird, um die eine oder die mehreren (vordefinierten) Variationen in ein oder mehrere Eingabebilder einzuführen. Beispiele für Variationen enthalten, sind aber nicht darauf beschränkt, Unschärfe (z.B. niedrige Auflösung), Okklusion bzw. Verdeckung und Pose bzw. Haltung bzw. Stellung (z.B. Kopfhaltung bzw. -stellung). Demgemäß entspricht die Vielzahl der erweiterten Bilder Bildern „niedriger Qualität“, die absichtlich zu Trainingszwecken erzeugt werden.
Wie es weiterhin gezeigt ist, werden die Trainingsdaten 110 in eine neuronale Backbone-Netzwerkstruktur 120 eingespeist, die konfiguriert ist, um eine Merkmalsdarstellung oder -einbettung zu erzeugen. Bei einer Ausführungsform ist die neuronale Backbone-Netzwerkstruktur 120 eine tiefe neuronale Backbone-Netzwerkstruktur, die konfiguriert ist, um eine tiefe Merkmalseinbettung zu erzeugen. Zum Beispiel kann die neuronale Backbone-Netzwerkstruktur 120 ein neuronales Restnetz (ResNet) enthalten. Bei einer Ausführungsform kann die neuronale Backbone-Netzwerkstruktur 120 ein iteratives ResNet (iResNet) enthalten.
Wie es weiterhin gezeigt ist, wird die Merkmalseinbettung in einen Satz bzw. eine Gruppe von Untereinbettungen 130 aufgeteilt. Zum Beispiel kann, wie es gezeigt ist, die Gruppe von Untereinbettungen 130 eine Vielzahl von Untereinbettungen 132-1 bis 132-3 enthalten, die jeweils Unschärfe, Okklusion und Pose darstellen. Demgemäß stellt die Vielzahl von Untereinbettungen 132-1 bis 132-3 jeweils unterschiedliche Faktoren von Variationen dar.
Wenn das Training unter Proben verschiedenartiger Qualität durchgeführt wird, wird dann, wenn wir bei allen Proben dieselbe Konfidenz annehmen, ein gelernter Prototyp im Mittelpunkt von allen Proben stehen. Dies ist irrational, da Proben niedriger Qualität mehrdeutigere Identitätsinformation vermitteln. Im Gegensatz dazu wird dann, wenn wir eine probenspezifische Konfidenz einrichten, bei welcher Proben hoher Qualität eine höhere Konfidenz zeigen, der Prototyp dazu gedrängt, ähnlicher zu Proben hoher Qualität zu sein, um die A-posteriori-Wahrscheinlichkeit zu maximieren.
Somit enthält das Framework 100 weiterhin eine Gruppe von Konfidenzen 140. Alternativ kann die Gruppe von Konfidenzen 140 als eine Gruppe von Unsicherheiten angesehen werden und kann die Gruppe von Konfidenzen 140 eine Vielzahl von probenspezifischen Konfidenzen 142-1 bis 142-3 enthalten, die mit jeweiligen der Vielzahl von Untereinbettungen 132-1 bis 132-3 assoziiert sind.
Bei diesem illustrativen Beispiel enthält die Gruppe von Untereinbettungen 130 drei Untereinbettungen und enthält die Gruppe von Konfidenzen 140 drei Konfidenzen. Die Gruppe von Untereinbettungen 130 und die Gruppe von Konfidenzen 140 können gemäß den hierin beschriebenen Ausführungsformen jedoch eine beliebige geeignete Anzahl von Untereinbettungen bzw. Konfidenzen enthalten.
Wie es weiterhin gezeigt ist, enthält das Framework 100 weiterhin eine Komponente für einen vertrauensbewussten Identifikationsverlust 150. Die Komponente für einen vertrauensbewussten Identifikationsverlust 150 ist konfiguriert, um einen vertrauensbewussten Identifikationsverlust auf die Gruppe von Untereinbettungen 130 und die Gruppe von Konfidenzen 140 anzuwenden. Genauer gesagt kann der vertrauensbewusste Identifikationsverlust auf einer vertrauensbewussten A-posteriori-Wahrscheinlichkeit basieren, bei welcher eine probenspezifische Konfidenz verwendet wird, um einen Prototypvektor (z.B. eine Identitätsvorlagenfunktion) zu drängen, dass er Trainingsbildern hoher Qualität ähnlicher ist, um die vertrauensbewusste A-posteriori-Wahrscheinlichkeit zu maximieren. Inzwischen kann dann, wenn eine Merkmalseinbettung des Trainingsbilds von niedriger Qualität ist, die probenspezifische Konfidenz einen stärkeren Schub bzw. ein stärkeres Drängen für die Merkmalseinbettung bereitstellen, um während einer Aktualisierung bzw. eines Updates der Merkmalseinbettung näher an einem Prototypvektor zu sein.
Ein Einrichten der Gruppe von Untereinbettungen 130 zusammen garantiert nicht, dass die Merkmale in unterschiedlichen Gruppen komplementäre Information lernen. Zum Beispiel kann die Vielzahl von Untereinbettungen 132-1 bis 132-3 stark korreliert sein. Durch Bestrafen der Vielzahl von Untereinbettungen 132-1 bis 132-3 mit unterschiedlicher Regularisierung kann die Korrelation zwischen ihnen reduziert werden. Durch Assoziieren von unterschiedlichen der Vielzahl von Untereinbettungen 132-1 bis 132-3 mit unterschiedlichen Variationen können wir einen Variationsklassifikationsverlust an einer Untergruppe von all den Untereinbettungen während eines Durchführens von gegnerischem Verlust für Variationen bezüglich anderer Variationstypen durchführen. Angesichts mehrerer Variationen können solche zwei Regularisierungsbedingungen an unterschiedlichen Untergruppen erzwungen werden, was zu einer besseren Untereinbettungsdekorrelation führt.
Um diese Dekorrelation zu erreichen, wird, wie es weiterhin gezeigt ist, die Gruppe von Untereinbettungen 130 auch in eine Variationsdekorrelationsverlustkomponente 160 eingespeist. Die Variationsdekorrelationsverlustkomponente 160 ist konfiguriert, um einen Variationsdekorrelationsverlust auf die Gruppe von Untereinbettungen 130 anzuwenden, um die Korrelation unter diesen der Vielzahl von Untereinbettungen 130 zu reduzieren. Genauer gesagt entkoppelt der Variationsdekorrelationsverlust unterschiedliche der Vielzahl von Untereinbettungen 132-1 bis 132-3 durch Assoziieren von ihnen mit unterschiedlichen Domänen in den Trainingsdaten 110. Zum Beispiel kann die Anwendung des Variationsdekorrelationsverlusts auf die Vielzahl von Untereinbettungen 132-1 bis 132-3 die Vielzahl von Untereinbettungen 132-1 bis 132-3 zwingen, weniger invariant gegenüber Unschärfe, Okklusion, Pose usw. zu sein. Demgemäß kann der Variationsdekorrelationsverlust ein Gesichtserkennungstraining verbessern.
Um das Framework 100, einschließlich der Komponenten 150 und 160, weiterhin darzustellen, sei y eine Identitätsbezeichnung und sei N die Anzahl von Identitäten. Wir untersuchen die A-posteriori-Wahrscheinlichkeit, angesichts der Eingabeprobe x_i zur Identität j ∈{1,2, ...,J} klassifiziert zu werden. Wir bezeichnen die Merkmalseinbettung einer Probe i als ƒ_i und den j-ten Identitäts-Prototypvektor als w_j, der das Identitätsvorlagenmerkmal ist. Ein probabilistisches Einbettungsnetzwerk θ kann jede Probe x_i als Gauß- oder Normalverteilung im Merkmalsraum darstellen. Die Wahrscheinlichkeit, dass x_i eine Probe der Klasse j ist, kann dann gegeben sein durch: $p (x_{i} | y = j) \propto p_{θ} (w_{j} | x_{i}) = \frac{1}{{(2 σ_{i}^{2})}^{\frac{D}{2}}} exp (- \frac{{‖ ƒ_{i} - w_{j} ‖}^{2}}{2 σ_{i}^{2}})$
wobei $σ_{i}^{2}$
die Varianz der Gaußverteilung und D die Merkmalsdimension ist. Weiterhin kann unter der Annahme, dass die A-priori-Wahrscheinlichkeit eines Zuordnens einer Probe zu irgendeiner Identität gleich ist, die A-posteriori-Wahrscheinlichkeit, dass x_i zur j-ten Klasse gehört, gegeben sein durch: $p (y = j | x_{i}) = \frac{p (x_{i} | y = j) p (y = j)}{Σ_{c = 1}^{J} p (x_{i} | y = c) p (y = c)} = \frac{exp (- \frac{{‖ ƒ_{i} - w_{j} ‖}^{2}}{2 σ_{i}^{2}})}{Σ_{c = 1}^{J} exp (- \frac{{‖ ƒ_{i} - w_{c} ‖}^{2}}{2 σ_{i}^{2}})}$
Der Einfachheit halber erfolgt ein Definieren eines Konfidenzwerts $s_{i} = \frac{1}{σ_{i}^{2}},$
der die Konfidenz bzw. das Vertrauen eines Zuordnens von einer Identität w_j zu ƒ_i anzeigt. Beschränkt man beide von w_j zu ƒ_i auf die I₂-normalisierte Einheitskugel, haben wir $\frac{{‖ ƒ_{i} - w_{j} ‖}^{2}}{2 σ_{i}^{2}} = s_{i} (1 - w_{j}^{T} ƒ_{i}),$
und somit $p (y = j | x_{i}) = \frac{exp (s_{i} w_{j}^{T} ƒ_{i})}{Σ_{c = 1}^{J} exp (s_{i} w_{c}^{T} ƒ_{i})}$
wobei $w_{j}^{T}$
die Transponierte von darstellt w_j.
Während einer Aktualisierung der Einbettung ƒ_i wird ein stärkerer Schub für ƒ_i niedriger Qualität bereitgestellt, um näher am Prototyp zu sein. Demgemäß wird der gelernte Prototypvektor w_j durch ein Durchführen einer Konfidenzführung in Übereinstimmung mit z.B. Gleichung 5 näher zu den Proben hoher Qualität gedrückt, um die Identität besser darzustellen.
Eine zusätzliche Verlustspanne kann verwendet werden, um die Verteilung innerhalb der Identität einzuengen und eine Verteilung zwischen den Identitäten zu erweitern. Eine solche zusätzliche Verlustspanne kann in die Verlustform wie folgt eingebaut werden: $L_{i d t}^{'} = - log \frac{exp (s_{i} w_{j}^{T} ƒ_{i} - m)}{exp (s_{i} w_{y i}^{T} ƒ_{i} - m) + \sum_{j \neq y_{i}} exp (s_{i} w_{j}^{T} ƒ_{i})}$
wobei y_i die Ground-Truth-Bezeichnung von x_i ist und m die Verlustspanne ist.
Der vertrauensbewusste Identifikationsverlust kann vertrauensbewusster Softmax-(C-Softmax-)Verlust sein, der unterschiedlich vom Kosinusverlust ist, wie es folgt: (1) Jedes Bild hat eher einen unabhängigen und dynamischen Konfidenzwert s_i als einen konstanten gemeinsam genutzten bzw. geteilten Skalar und (2) der Spannen- bzw. Margenparameter m wird nicht mit s_i multipliziert. Die Unabhängigkeit von s_i lässt es zu, die Gradientensignale von w_i und ƒ_i auf probenspezifische Weise anzusteuern, da das Vertrauen bzw. die Konfidenz (Variationsgrad) jeder Trainingsprobe stark unterschiedlich sein könnte. Obwohl Proben spezifisch sind, kann ein heterogener Merkmalsraum so betrieben werden, dass die Metrik über unterschiedliche Identitäten hinweg konsistent sein sollte. Durch Zulassen, dass s_i einen Konfidenzunterschied der Proben kompensiert, kann die Verlustspanne m isoliert werden, um konstant über alle Identitäten hinweg geteilt zu werden.
Obwohl die durch eine probenspezifische Ansteuerung s_i gelernte Merkmalseinbettung ƒ_i mit Variationen auf Probenebene umgehen kann, kann die Korrelation unter den Einträgen von ƒ_i selbst noch hoch sein. Um die Darstellungsleistung zu maximieren und eine kompakte Merkmalsgröße zu erreichen, kann eine Dekorrelation der Einträge der Einbettung nötig sein.
Um dies zu erreichen, und wie es oben beschrieben ist, wird die Merkmalseinbettung ƒ_i in die Gruppe von Untereinbettungen 130 partitioniert, von welchen jede einen anderen Konfidenzwert aus der Gruppe von Konfidenzwerten 140 übertragen bekommen hat. Genauer gesagt kann ƒ_i in K Untereinbettungen gleicher Länge partitioniert werden und können der Prototypvektor w_j und der Konfidenzwert s_i in dieselben K bemaßten Gruppen partitioniert bzw. unterteilt werden, wie es folgt: $\begin{array}{l} w_{j} = [w_{j}^{(1) T}, w_{j}^{(2) T}, \dots, w_{j}^{(K) T}] \\ ƒ_{i} = [ƒ_{i}^{(1) T}, ƒ_{i}^{(2) T}, \dots, ƒ_{i}^{(K) T}] \\ s_{i} = [s_{i}^{(1) T}, s_{i}^{(2) T}, \dots, s_{i}^{(K) T}] \end{array}$
Wobei jede Gruppe von Untereinbettungen $ƒ_{i}^{(k)}$
separat auf die Einheitskugel 1-2-normalisiert ist. Der endgültige Identifikationsverlust kann somit gegeben sein durch: $L_{i d t} = - log \frac{exp (a_{i, y_{i}} - m)}{exp (a_{i, y_{i}} - m) + \sum_{j \neq y_{i}} exp (a_{i, j})}$
$a_{i, j} = \frac{1}{K} Σ_{k = 1}^{K} s_{i}^{(k)} w_{j}^{(k) T} ƒ_{i}^{(k)}$
Ein allgemeines Problem für neuronale Netzwerke besteht darin, dass sie dazu neigen, bei Vorhersagen „zu optimistisch“ zu sein. Um dies zu beheben, kann eine zusätzliche I₂-Regularisierung hinzugefügt werden, um die Konfidenz von beliebig groß anwachsend einzuschränken, wie es folgt: $L_{r e g} = \frac{1}{K} Σ_{k = 1}^{K} s_{i}^{(k)}$
Für jede erweiterbare Variante t ∈{1, 2, ..., M} kann eine binäre Maske V_t erzeugt werden, die eine zufällige erste K/2 Untergruppe von allen Untereinbettungen auswählt, während die zweite K/2 Untergruppe auf Nullen eingestellt wird. Die Masken können zu Beginn des Trainings erzeugt werden und können während des Trainings festbleiben. Die Masken sind für unterschiedliche Variationen unterschiedlich. Es wird erwartet, dass V_t(ƒ_i) die t-te Variation wiedergibt, während sie gegenüber den anderen Variationen invariant ist. Demgemäß kann ein Mehrfachbezeichnungs- bzw. Multi-Label-Binärdiskriminator C durch Lernen gebildet werden, um alle Variationen aus jeder maskierten Untergruppe vorherzusagen, wie es folgt: $\begin{array}{l} \underset{C}{min (L_{C})} = - \sum_{t = 1}^{M} log p_{c} (u_{i} = {\hat{u}}_{i} | V_{t} (ƒ_{i})) = \\ - Σ_{t = 1}^{M} Σ_{t' = 1}^{M} log p_{c} (u_{i}^{(t')} = {\hat{u}}_{i}^{(t')} | V_{t} (ƒ_{i})) \end{array}$
wobei $u_{i} = [u_{i}^{(1)}, u_{i}^{(2)}, \dots, u_{i}^{(M)}]$
die binären Bezeichnungen (0/1) der bekannten Variationen sind und ${\hat{u}}_{i}$
die Ground-Truth-Bezeichnung ist. Wenn zum Beispiel t = 1 der Auflösung entspricht, würde ${\hat{u}}_{i}^{(1)}$
1 sein für Bilder mit hoher Auflösung und 0 für Bilder mit niedriger Auflösung. Es wird angemerkt, dass Gleichung 9 nur zum Trainieren des Diskriminators C verwendet wird.
Der entsprechende Klassifikationsverlust L_cls und der gegnerische Verlust L_adv des Einbettungsnetzwerks kann dann gegeben sein durch: $L_{c l s} = - Σ_{t = 1}^{M} log p_{c} (u_{i}^{(t')} = {\hat{u}}_{i}^{(t)} | V_{t} (ƒ_{i}))$
$L_{a d v} = - Σ_{t = 1}^{M} \sum_{t' \neq t} (\frac{1}{2} log p_{c} (u_{i}^{(t')} = 0 | V_{t} (ƒ_{i})) + \frac{1}{2} log p_{c} (u_{i}^{(t')} = 1 | V_{t} (ƒ_{i})))$
Der Klassifikationsverlust L_cls ermutigt V_t dazu, variationsspezifisch zu sein, während der kontradiktorische bzw. gegnerische Verlust L_cls eine Invarianz zu den anderen Variationen fördert. Solange keine zwei Masken dieselben sind, garantiert es, dass die ausgewählte Untergruppe V_t funktional unterschiedlich von einer anderen Untergruppe V_t, ist, um dadurch eine Dekorrelation zwischen V_t und V_t, zu erreichen. Die Gesamtverlustfunktion für jede Probe kann bereitgestellt sein als $\underset{θ}{min L} = L_{i d t} + λ_{r e g} L_{r e g} + λ_{c l s} L_{c l s} + λ_{a d v} L_{a d v}$
Wobei bei der Gleichung 12 während einer Optimierung über die Proben im Mini-Batch gemittelt wird.
Wie es oben angemerkt ist, gibt es bei einer Ausführungsform drei erweiterbare Variationen (Unschärfe, Okklusion und Pose). Eine solche Anzahl kann jedoch einem begrenzten Dekorrelationseffekt entsprechen, da die Anzahl von Untergruppen V_t zu klein sein kann. Somit können, um die Dekorrelation weiter zu verbessern und mehr Variationen für eine bessere Verallgemeinerungsfähigkeit einzuführen, bei einigen Ausführungsformen zusätzliche Variationen mit semantischer Bedeutung gewonnen werden. Nicht alle Variationen sind einfach zu verwenden, um Daten zu erweitern (z.B. lächeln oder nicht lächeln kann schwer zu erweitern sein). Für solche Variationen können wir Variationsbezeichnungen aus ursprünglichen Trainingsdaten gewinnen. Insbesondere kann ein Attributen-Datensatz genutzt werden, um ein Attributen-Klassifikationsmodell θ_A mit gegnerischem Identitätsverlust zu trainieren, wie es folgt: $\begin{array}{l} \underset{θ_{A}}{m i n L_{θ_{A}}} = - log p (l_{A} | x_{A}) - \frac{1}{N_{A}} \sum_{c}^{N_{A}} log p (y_{A} = c | x_{A}) \\ \underset{D_{A}}{m i n L_{D_{A}}} = - log p (y_{A} = y_{x_{A}} | x_{A}) \end{array}$
Wobei I_A die Attributbezeichnung ist, y_A die Identitätsbezeichnung ist, x_A das Eingabe-Gesichtsbild ist und N_A die Anzahl von Identitäten im Attributen-Datensatz ist. Der erste Ausdruck, L_θA, bestraft das Merkmal, um Gesichtsattribute zu klassifizieren, und der zweite Ausdruck, L_DA, bestraft das Merkmal, um invariant gegenüber Identitäten zu sein.
Der Attributen-Klassifikator kann dann auf die Erkennungstrainingsgruppe angewendet werden, um T zusätzliche Bezeichnungen für weiche Variationen (z.B. lächelnd oder nicht lächelnd, jung oder alt) zu erzeugen. Diese zusätzlichen Bezeichnungen für weiche Variationen können mit den ursprünglichen erweiterbaren Variationsbezeichnungen als $u_{i} = [u_{i}^{(1)}, u_{i}^{(2)}, \dots, u_{i}^{(M)}, u_{i}^{(M + 1)}, \dots, u_{i}^{(M + T)}]$
zusammengeführt werden und dann in das durch die Komponente 160 durchgeführte Lernen von Dekorrelationen eingebaut werden.
Unter Berücksichtigung der Metrik für eine Inferenz kann es eine suboptimale Option sein, einfach den Durchschnitt der gelernten Untereinbettungen zu nehmen. Dies ist deshalb so, weil unterschiedliche Untereinbettungen eine unterschiedliche Unterscheidungskraft für unterschiedliche Variationen zeigen können und ihre Wichtigkeit gemäß gegebenen Bildpaaren variieren sollte. Somit können paarweise Ähnlichkeitswerte bzw. -bewertungen gemäß jeweiligen Bildpaaren erhalten werden, wie es folgt: $W e r t (x_{i}, x_{j}) = - \frac{1}{2} Σ_{k = 1}^{K} \frac{{‖ ƒ_{i}^{(k)} - ƒ_{j}^{(k)} ‖}^{2}}{σ_{i}^{{(k)}^{2}} + σ_{j}^{{(k)}^{2}}} - \frac{D}{2 K} Σ_{k = 1}^{K} log (σ_{i}^{{(k)}^{2}} + σ_{j}^{{(k)}^{2}})$
wobei jeder der paarweisen Ähnlichkeitswerte Wert(x_i,x_j) einer gelernten Untereinbettungswichtigkeit entspricht. Mit der Gleichung 8 zur Regularisierung kann gesehen werden, dass die mit dem Identifikationsverlust gelernte Konfidenz noch dazu neigen kann, zu optimistisch zu sein, und daher nicht direkt für die Gleichung 14 verwendet werden kann. Somit kann der ursprüngliche Konfidenzzweig fein abgestimmt werden, um σ vorherzusagen, während die anderen Teile festgelegt sind.
Weitere Details bezüglich vertrauensbewussten Identifizierungsverlusts und Variationsdekorrelationsverlusts werden nun unter Bezugnahme auf 2 beschrieben werden.
Nimmt man nun Bezug auf 2 wird ein Diagramm 200 bereitgestellt, das einen Block 210 darstellt, der einem vertrauensbewussten Identifikationsverlust entspricht, und einen Block 220, der einem Variationsdekorrelationsverlust entspricht.
Wie es im Block 210 zur Veranschaulichung eines vertrauensbewussten Softmax-(C-Softmax-)Verlusts gezeigt ist, sind eine Vielzahl von Proben einer Klasse A 212 und eine Vielzahl of Proben einer Klasse B 214 durch eine Marge bzw. Spanne m getrennt. Der Durchmesser von jeder der Proben 212 und 214 entspricht einem Konfidenzwert s.
Wie es im Block 220 zur Veranschaulichung eines Variationsdekorrelationsverlusts gezeigt ist, betrachten wir zwei Variationen als zwei Achsen u^(t) und u^(t+1) und eine Untergruppe V_t. Durch Anwenden des hierin beschriebenen Variationsdekorrelationsverlusts kann die Korrelation von Merkmalen entlang den zwei Achsen verringert werden.
Das gemäß den oben beschriebenen Ausführungsformen unter Bezugnahme auf die 1 und 2 durchgeführte Gesichtserkennungstraining kann implementiert werden, um eine Gesichtserkennung innerhalb eines geeigneten Systems oder Kontextes durchzuführen.
Zum Beispiel ist, nimmt man nun Bezug auf 3, eine beispielhafte Umgebung 300 zum Implementieren von Gesichtserkennung gezeigt. Genauer gesagt enthält die Umgebung 300 einen Benutzer 310 und ein Computersystem oder eine -vorrichtung 320. Das Computersystem 320 kann ein biometrisches System implementieren, das dem Benutzer 310 einen Zugang zum Computersystem 320 basierend auf einer Analyse des Gesichts des Benutzers 310 gewährt oder verweigert. Zum Beispiel ist das Computersystem 320 bei dieser illustrativen Ausführungsform ein Smartphone, das eine Kamera enthält. Diese Ausführungsform ist rein beispielhaft und die hierin beschriebenen Ausführungsformen können innerhalb von irgendeiner geeigneten Umgebung verwendet werden.
Wie es weiterhin gezeigt ist, kann die Umgebung 300 weiterhin wenigstens eine Prozessorvorrichtung 330 enthalten. Die Prozessorvorrichtung 330 kann konfiguriert werden, um das hierin beschriebene System/Verfahren zum Implementieren von Gesichtserkennung zu implementieren. Obwohl die Verarbeitungsvorrichtung 330 als eine vom Computersystem 320 getrennte Einheit dargestellt ist, kann die Prozessorvorrichtung 300 alternativ eine Unterkomponente des Computersystems 320 sein oder kann das Computersystem 320 eine Unterkomponente der Prozessorvorrichtung 330 sein.
Nimmt man nun Bezug auf 4, wird ein Block-/Ablaufdiagramm bereitgestellt, das ein System/Verfahren 400 zum Implementieren von Gesichtserkennung darstellt.
Bei einem Block 410 werden Trainingsdaten einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind, empfangen.
Bei einem Block 420 wird eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von Untereinbettungen aufgeteilt, die jeweils mit einer der vielen Variationen assoziiert sind. Zum Beispiel kann eine erste Untereinbettung mit Unschärfe assoziiert sein, kann eine zweite Untereinbettung mit Okklusion assoziiert sein und kann eine dritte Untereinbettung mit Pose assoziiert sein.
Bei einem Block 430 ist jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Konfidenzwerten assoziiert.
Bei einem Block 440 wird eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifikationsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten angewendet, um eine Gesichtserkennungsleistung zu verbessern, indem die Vielzahl von Untereinbettungen gelernt wird.
Der vertrauensbewusste Identifikationsverlust verwendet die Konfidenz- bzw. Vertrauensführung, um einen gelernten Prototyp näher an Bilder hoher Qualität zu bringen, um die A-posteriori-Wahrscheinlichkeit zu maximieren. Während eines Aktualisierens der Merkmalseinbettung bietet er auch einen stärkeren Schub für eine Merkmalseinbettung niedriger Qualität, um näher am gelernten Prototyp zu sein. Bei einer Ausführungsform enthält der vertrauensbewusste Identifikationsverlust eine Verlustspanne, um die Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern. Bei einer Ausführungsform wird der vertrauensbewusste Identifikationsverlust als C-Softmax-Verlust implementiert.
Der Variationsdekorrelationsverlust assoziiert unterschiedliche der Vielzahl von Untereinbettungen durch Assoziieren von ihnen mit unterschiedlichen der Vielzahl von Variationen. Zum Beispiel können eine oder mehrere Untereinbettungen gezwungen werden, invariant gegenüber Okklusion, Unschärfe und/oder Pose zu sein. Durch Schieben bzw. Drücken zu einer stärkeren Invarianz für jede Variation kann die Korrelation/Überlappung zwischen zwei Variationen reduziert werden. Bei einer Ausführungsform wendet der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen an.
Bei einer Ausführungsform enthält die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung, um ein Vertrauen bzw. eine Konfidenz bezüglich eines willkürlichen großen Anwachsens einzuschränken.
Bei einem Block 450 werden paarweise Ähnlichkeitswerte jeweils entsprechend einer gelernten Untereinbettungswichtigkeit gemäß jeweiligen Bildpaaren erhalten.
Weitere Details bezüglich der Blöcke 410-450 sind oben unter Bezugnahme auf 1-2 beschrieben.
Nimmt man nun Bezug auf 5, ist ein beispielhaftes Computersystem 600, das einen Server oder eine Netzwerkvorrichtung darstellen kann, gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Computersystem 500 enthält wenigstens einen Prozessor (CPU) 505, der über einen Systembus 502 operativ mit anderen Komponenten gekoppelt ist. Ein Cache 506, ein Nurlesespeicher (ROM) 508, ein Direktzugriffsspeicher (RAM) 510, ein Eingabe/Ausgabe-(I/O-) Adapter 520, ein Klangadapter 530, ein Netzwerkadapter 590, ein Benutzerschnittstellenadapter 550 und ein Anzeigeadapter 560 sind operativ mit dem Systembus 502 gekoppelt.
Eine erste Speichervorrichtung 522 und eine zweite Speichervorrichtung 529 sind durch den I/O-Adapter 520 operativ mit dem Systembus 502 gekoppelt. Die Speichervorrichtungen 522 und 529 können irgendetwas von einer Plattenspeichervorrichtung (z.B. einer magnetischen oder optischen Plattenspeichervorrichtung), einer magnetischen Festkörpervorrichtung und so weiter sein. Die Speichervorrichtungen 522 und 529 können derselbe Typ von Speichervorrichtung oder unterschiedliche Typen von Speichervorrichtungen sein.
Ein Lautsprecher 532 kann durch den Klangadapter 530 operativ mit dem Systembus 502 gekoppelt sein. Ein Transceiver 595 ist durch den Netzwerkadapter 590 operativ mit dem Systembus 502 gekoppelt. Eine Anzeigevorrichtung 562 ist durch einen Anzeigeadapter 560 operativ mit dem Systembus 502 gekoppelt.
Eine erste Benutzereingabevorrichtung 552, eine zweite Benutzereingabevorrichtung 559 und eine dritte Benutzereingabevorrichtung 556 sind durch einen Benutzerschnittstellenadapter 550 operativ mit dem Systembus 502 gekoppelt. Die Benutzereingabevorrichtungen 552, 559 und 556 können irgendetwas von einem Sensor, einer Tastatur, einer Maus, einer kleinen Tastatur, einem Joystick, einer Bilderfassungsvorrichtung, einer Bewegungserfassungsvorrichtung, einer Leistungsmessvorrichtung, einem Mikrofon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorherigen Vorrichtungen enthält, und so weiter sein. Natürlich können auch andere Typen von Eingabevorrichtungen verwendet werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird. Die Benutzereingabevorrichtungen 552, 559 und 556 können derselbe Typ von Benutzereingabevorrichtungen oder unterschiedliche Typen von Benutzereingabevorrichtungen sein. Die Benutzereingabevorrichtungen 552, 559 und 556 werden dazu verwendet, Informationen zu dem System 500 einzugeben und aus diesem auszugeben.
Eine Gesichtserkennungs-(FR(= Face Recognition)-)Komponente 570 kann operativ mit dem Systembus 502 gekoppelt sein. Die FR-Komponente 570 ist konfiguriert, um eine oder mehrere der oben beschriebenen Operationen durchzuführen. Die FR-Komponente 570 kann als eigenständige spezielle Hardwarevorrichtung oder als auf einer Speichervorrichtung gespeicherte Software implementiert werden. Bei der Ausführungsform, bei welcher die FR-Komponente 570 softwareimplementiert ist, kann die FR-Komponente 570, obwohl sie als separate Komponente des Computersystems 500 dargestellt ist, auf z.B. der ersten Speichervorrichtung 522 und/oder der zweiten Speichervorrichtung 529 gespeichert sein. Alternativ kann die FR-Komponente 570 auf einer separaten Speichervorrichtung gespeichert werden (nicht gezeigt).
Natürlich kann das Computersystem 500 auch andere Elemente (die nicht gezeigt sind) enthalten, wie es von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen im Computersystem 500 enthalten sein, abhängig von der besonderen Implementierung desselben, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen verwendet werden, wie es von einem Fachmann auf dem Gebiet ohne weiteres eingesehen wird. Diese und andere Variationen des Computersystems 500 werden von einem Fachmann auf dem Gebiet angesichts der hierin zur Verfügung gestellten Lehren der vorliegenden Erfindung, ohne weiteres in Erwägung gezogen.
Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch einzusehen, dass Merkmale von einer oder von mehreren Ausführungsformen bei den hierin zur Verfügung gestellten gegebenen Lehren der vorliegenden Erfindung kombiniert werden können.
Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt erwünscht wird, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/934620 [0001]
US 17/091011 [0001]

Claims

Computerimplementiertes Verfahren zum Durchführen von Gesichtserkennung, umfassend: Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
Verfahren nach Anspruch 1, das weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen.
Verfahren nach Anspruch 1, wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
Verfahren nach Anspruch 1, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
Verfahren nach Anspruch 1, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
Verfahren nach Anspruch 1, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
Verfahren nach Anspruch 1, das weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.
Computerprogrammprodukt, das ein nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium umfasst, das damit verkörperte Programmanweisungen hat, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahren zum Implementieren von Gesichtserkennung durchführt, wobei das durch den Computer durchgeführte Verfahren folgendes umfasst: Empfangen (410) von Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind; Aufteilen (420) einer aus den Trainingsdaten erzeugten Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit jeweiligen einer Vielzahl von Variationen assoziiert sind; Assoziieren (430) von jeder der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten; und Anwenden (440) einer Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten, um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
Computerprogrammprodukt nach Anspruch 8, wobei das Verfahren weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen.
Computerprogrammprodukt nach Anspruch 8, wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
Computerprogrammprodukt nach Anspruch 8, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
Computerprogrammprodukt nach Anspruch 8, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
Computerprogrammprodukt nach Anspruch 8, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
Computerprogrammprodukt nach Anspruch 8, wobei das Verfahren weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.
System zum Durchführen von Gesichtserkennung, umfassend: eine Speichervorrichtung, die einen Programmcode speichert; und wenigstens eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist und konfiguriert ist, um einen auf der Speichervorrichtung gespeicherten Programmcode auszuführen, um: Trainingsdaten, einschließlich einer Vielzahl von erweiterten Bildern, die jeweils einem jeweiligen einer Vielzahl von Eingabebildern entsprechen, die durch eine einer Vielzahl von Variationen erweitert sind, zu empfangen (410); eine aus den Trainingsdaten erzeugte Merkmalseinbettung in eine Vielzahl von Untereinbettungen, die jeweils mit einer der Vielzahl von Variationen assoziiert sind, aufzuteilen (420); jede der Vielzahl von Untereinbettungen mit jeweiligen einer Vielzahl von Vertrauens- bzw. Konfidenzwerten zu assoziieren (430); eine Vielzahl von Verlusten, einschließlich eines vertrauensbewussten Identifizierungsverlusts und eines Variationsdekorrelationsverlusts, auf die Vielzahl von Untereinbettungen und die Vielzahl von Konfidenzwerten anzuwenden (440), um eine Gesichtserkennungsleistung durch Lernen der Vielzahl von Untereinbettungen zu verbessern.
System nach Anspruch 15, wobei das Verfahren weiterhin ein Empfangen der Vielzahl von Eingabebildern und ein Erzeugen der Vielzahl von erweiterten Bildern durch Anwenden einer Online-Variationsdatenerweiterung umfasst, um die Vielzahl von Variationen in die Vielzahl von Eingabebilder einzuführen, und wobei die Vielzahl von Variationen Unschärfe, Okklusion und Pose umfasst.
System nach Anspruch 15, wobei der vertrauensbewusste Identifikationsverlust einen Konfidenzwert enthält, der mit einer Verlustspanne assoziiert ist, um eine Verteilung innerhalb einer Identität einzuengen und eine Verteilung zwischen Identitäten zu erweitern.
System nach Anspruch 15, wobei der Variationsdekorrelationsverlust einen Klassifikationsverlust auf die Vielzahl von Variationen und einen kontradiktorischen bzw. gegnerischen Verlust auf unterschiedliche Partitionen der Vielzahl von Untereinbettungen anwendet.
System nach Anspruch 15, wobei die Vielzahl von Verlusten weiterhin eine zusätzliche Regularisierung enthält, um ein Vertrauen bzw. eine Konfidenz bezüglich eines beliebigen großen Anwachsens zu beschränken.
System nach Anspruch 15, wobei das Verfahren weiterhin ein Erhalten von paarweisen Ähnlichkeitswerten gemäß jeweiligen Bildpaaren umfasst, wobei jeder der paarweisen Ähnlichkeitswerte der gelernten Untereinbettungswichtigkeit entspricht.