DE112021005925T5 - Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung - Google Patents

Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung Download PDF

Info

Publication number
DE112021005925T5
DE112021005925T5 DE112021005925.4T DE112021005925T DE112021005925T5 DE 112021005925 T5 DE112021005925 T5 DE 112021005925T5 DE 112021005925 T DE112021005925 T DE 112021005925T DE 112021005925 T5 DE112021005925 T5 DE 112021005925T5
Authority
DE
Germany
Prior art keywords
training
batch
samples
face recognition
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021005925.4T
Other languages
English (en)
Inventor
Xiang Yu
Yi-Hsuan Tsai
Masoud Faraki
Ramin Moslemi
Manmohan Chandraker
Chang Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112021005925T5 publication Critical patent/DE112021005925T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

Es wird ein Verfahren zum Trainieren eines Modells zur Gesichtserkennung bereitgestellt. Das Verfahren trainiert (61 0) einen Trainingsbatch von Proben vorwärts, um ein Gesichtserkennungsmodell w(t) auszubilden, und berechnet (620) Probengewichtungen für den Batch. Das Verfahren erhält (630) einen Trainingsbatch-Gradienten in Bezug auf Modellgewichtungen davon und aktualisiert, unter Verwendung des Gradienten, das Modell w(t) zu einem Gesichtserkennungsmodell what(t). Das Verfahren leitet (640) einen Validierungsbatch von Proben weiter zum Gesichtserkennungsmodell what(t). Das Verfahren erhält (650) einen Validierungsbatch-Gradienten und aktualisiert, unter Verwendung des Validierungsbatch-Gradienten und what(t), eine Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Stichprobenebene zu erhalten. Das Verfahren erhält (660) einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Trainingsbatch-Proben auf Probenebene und aktualisiert (660), unter Verwendung des aktualisierten Gradienten, das Modell w(t) zu einem trainierten Modell w(t+1 ) entsprechend einer nächsten Iteration.

Description

  • INFORMATION ÜBER VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der am 8. November 2021 eingereichten US-Patentanmeldung Nr. 17/521, 252 , der am 10. November 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/111,658 und der am 16. November 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/114,014 , die hierin in ihren Gesamtheiten durch Bezugnahme enthalten sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Gesichtserkennung und insbesondere einen domänenverallgemeinerten Spielraum bzw. eine domänenverallgemeinerte Marge über Metalernen zur tiefen Gesichtserkennung.
  • Beschreibung des zugehörigen Standes der Technik
  • Tiefe Gesichtserkennung hat einen bemerkenswerten Fortschritt mit mehreren Verfahren bzw. Methoden erreicht, die bei öffentlichen Benchmarks starke Ergebnisse erreichen. Verteilungen von Trainingsdaten sind jedoch nach wie vor verzerrt, wodurch ein mit einer einheitlichen Abtastung bzw. Stichprobe der Daten trainiertes Verfahren zu unerwünschten Effekten führen könnte, wie beispielsweise einer geringeren Genauigkeit entlang bestimmter Faktoren (sagen wir mal Okklusionen) oder einer Wahrnehmung von Modellungerechtigkeit (sagen wir mal gegenüber ethnischen Minderheiten).
  • Da es unpraktisch ist, Trainingsdaten zu sammeln, die eine weite Vielzahl von Variationen ausreichend abdecken, besteht die dringende Notwendigkeit, Trainingsmethoden zu entwickeln, die die Verzerrung eines Datensatzes entlang mehrerer Variationsfaktoren algorithmisch abschwächen.
  • ZUSAMMENFASSUNG
  • Gemäß Aspekten der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Verfahren enthält ein Durchführen eines Vorwärtstrainings an einem Trainingsstapel bzw. -batch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden. Das Verfahren enthält weiterhin ein Berechnen von Probengewichten für den Trainingsbatch basierend auf einem Metalerner. Das Verfahren enthält auch ein Erhalten, durch eine Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell what(t). Das Verfahren enthält auch ein Weiterleiten eines Validierungsstapels bzw. -batchs von Proben zum Gesichtserkennungsmodell What(t). Das Verfahren enthält zusätzlich ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells what(t), eines Wichtigkeitsgewichts auf Probenebene von Proben im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Das Verfahren enthält weiterhin ein Erhalten, durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
  • Gemäß anderen Aspekten der vorliegenden Erfindung wird ein Computerprogrammprodukt zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Computerprogrammprodukt enthält ein nicht-transitorisches computerlesbares Speichermedium mit damit Programmanweisungen. Die Programmanweisungen sind von einem Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein Durchführen, durch eine Prozessorvorrichtung des Computers, eines Vorwärtstrainings an einem Trainingsstapel bzw. -batch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden. Das Verfahren enthält weiterhin ein Berechnen, durch die Prozessorvorrichtung, von Probengewichten für den Trainingsbatch basierend auf einem Metalerner. Das Verfahren enthält auch ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell What(t). Das Verfahren enthält zusätzlich ein Weiterleiten, durch die Prozessorvorrichtung, eines Validierungsstapels bzw. -batchs von Proben zum Gesichtserkennungsmodell What(t). Das Verfahren enthält weiterhin ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), eines Wichtigkeitsgewichts auf Probenebene von Proben im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Das Verfahren enthält auch ein Erhalten, durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
  • Gemäß noch anderen Aspekten der vorliegenden Erfindung wird ein Computerverarbeitungssystem zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Computerverarbeitungssystem enthält eine Speichervorrichtung zum Speichern eines Programmcodes. Das Computerverarbeitungssystem enthält weiterhin eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist, um den Programmcode auszuführen, um ein Vorwärtstraining an einem Trainingsstapel bzw. -batch von Abtastungen bzw. Proben durchzuführen, um ein Gesichtserkennungsmodell w(t) auszubilden. Die Prozessorvorrichtung führt weiterhin den Programmcode aus, um Probengewichte für den Trainingsbatch basierend auf einem Metalerner zu berechnen. Die Prozessorvorrichtung führt den Programmcode auch aus, um einen Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs zu erhalten und, unter Verwendung des Gradienten des Trainingsbatchs das Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell what(t) zu aktualisieren. Die Prozessorvorrichtung führt den Programmcode zusätzlich aus, um einen Validierungsstapel bzw. -batch von Proben zum Gesichtserkennungsmodell what(t) weiterzuleiten. Die Prozessorvorrichtung führt den Programmcode weiterhin aus, um einen Gradienten des Validierungsbatchs in Bezug auf ein Metalerner theta(t) zu erhalten und, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), eine Wichtigkeitsgewichtung auf Probenebene von Proben im Trainingsbatch zu aktualisieren, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Die Prozessorvorrichtung führt den Programmcode auch aus, um einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten und, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration zu aktualisieren.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:
    • 1 ein Blockdiagramm ist, das eine beispielhafte Computing- bzw. Rechenvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 2 ein Blockdiagramm ist, das das ein beispielhaftes Framework 200 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 3 ein Blockdiagramm auf hoher Ebene ist, das ein System/Verfahren zur tiefen Gesichtserkennung 300 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 4 ein Diagramm ist, das einen Pseudocode 400 für Metalernen zur Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 5 ein Diagramm ist, das einen Pseudocode 500 für eine Spielraum-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
    • 6 ein Flussdiagramm ist, das ein beispielhaftes Verfahren 600 für ein Spielraum-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Ausführungsformen der vorliegenden Erfindung sind einen domänenverallgemeinerten Spielraum über Metalernen zur tiefen Gesichtserkennung gerichtet. Die Begriffe „Spielraum“ bzw. „Marge“ und verschiedene Formen gleicher Bedeutung und „Wichtigkeit bzw. Bedeutung auf Probenebene“ werden hier austauschbar verwendet. Die Begriffe „Instanzen“ und „Proben“ werden hier auch austauschbar verwendet.
  • Ausführungsformen der vorliegenden Erfindung stellen ein Trainingsverfahren bereit, um gleichzeitig mehrere Faktoren eines Datenungleichgewichts, wie beispielsweise Volumen, ethnische Zugehörigkeit, Okklusion und Kopfhaltung, in einem einheitlichen Rahmen bzw. Framework zu überwinden. Dies stellt einen Fortschritt gegenüber früheren Arbeiten dar, die Strategien zur Neugewichtung von Klassen verwenden und nur Volumenungleichgewichte behandeln.
  • Bei Ausführungsformen der vorliegenden Erfindung wird ein variationsbewusster Verlust auf Instanzenebene (ILVA (= Instance-Level Variation-Aware)) bereitgestellt, der jeden langfristigen Variationsfaktor in eine Wichtigkeitsmodellierung formuliert. Als nächstes wird ein additives Modell der Wichtigkeit vorher mit seinem Residuum vorgeschlagen, wobei das Residuum durch Metalernen unter einem ausgehaltenen Meta-Trainingssatz erlernt wird. Schließlich werden mehrere erlernte Wichtigkeiten kombiniert, um die Verteilung von Trainingsdaten über mehrere Variationsfaktoren hinweg neu auszugleichen.
  • 1 ist ein Blockdiagramm, das eine beispielhafte Computing- bzw. Computer- bzw. Rechenvorrichtung 100 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Die Rechenvorrichtung 100 ist konfiguriert, um einen domänenverallgemeinerten Spielraum über Metalernen zur tiefen Gesichtserkennung bereitzustellen.
  • Die Computing- bzw. Computer- bzw. Rechenvorrichtung 100 kann als irgendein Typ von Berechnungs- oder Computervorrichtung verkörpert sein, die die hierin beschriebenen Funktionen durchführen kann, einschließlich, ohne Beschränkung, eines Computers, eines Servers, eines auf einem Rack basierenden Servers, eines Blade-Servers, einer Workstation, eines Desktop-Computers, eines Laptop-Computers, eines Notebook-Computers, eines Tablet-Computers, einer mobilen Computingvorrichtung, einer tragbare Computingvorrichtung, eines Netzwerkgeräts, eines Webgeräts, eines verteilten Computingsystems, eines prozessorbasierten Systems und/oder einer Unterhaltungselektronikvorrichtung. Zusätzlich oder alternativ kann die Computingvorrichtung 100 als ein oder mehrere Rechenschlitten, Speicherschlitten oder andere Racks, Schlitten, Computing-Gehäuse oder andere Komponenten einer physikalisch disaggregierten Computingvorrichtung verkörpert sein. Wie es in 1 gezeigt ist, enthält die Computingvorrichtung 100 illustrativ den Prozessor 110, ein Eingabe-/Ausgabe-Untersystem 120, einen Speicher 130, eine Datenspeichervorrichtung 140 und ein Kommunikations-Untersystem 150 und/oder andere Komponenten und Vorrichtungen, die üblicherweise in einem Server oder einer ähnlichen Computingvorrichtung zu finden sind. Natürlich kann die Computingvorrichtung 100 bei anderen Ausführungsformen andere oder zusätzliche Komponenten enthalten, wie beispielsweise diejenigen, die üblicherweise in einem Servercomputer zu finden sind (zB. verschiedene Eingabe-/Ausgabe-Vorrichtungen). Zusätzlich kann oder können bei einigen Ausführungsformen eine oder mehrere der illustrativen Komponenten in eine andere Komponente eingebaut sein oder anderweitig einen Teilbereich davon bilden. Zum Beispiel kann der Speicher 1 30, oder können Teilbereiche davon, bei einigen Ausführungsformen im Prozessor 110 eingebaut sein.
  • Der Prozessor 110 kann als irgendein Typ von Prozessor verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Der Prozessor 110 kann als einzelner Prozessor, mehrere Prozessoren, zentrale Verarbeitungseinheit(en) (CPU(s)), Grafikverarbeitungseinheit(en) (GPU(s)), Einzel- oder Mehrkern- prozessor(en), Digitalsignalprozessor(en), Mikrosteuerung(en) oder anderer Prozessor (andere Prozessoren) oder Verarbeitungs-/Steuerungs-Schaltung(en) verkörpert sein.
  • Der Speicher 130 kann als irgendein Typ von flüchtigem oder nichtflüchtigem Speicher oder Datenspeicher verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Im Betrieb kann der Speicher 130 verschiedene Daten und Software speichern, die während des Betriebs bzw. einer Operation der Computingvorrichtung 100, wie beispielsweise von Betriebssystemen, Anwendungen, Programmen, Bibliotheken und Treibern, verwendet werden. Der Speicher 130 ist kommunikativ mit dem Prozessor 110 über das I/O-Untersystem 120 gekoppelt, das als Schaltung und/oder Komponenten verkörpert sein kann, um Eingabe-/Ausgabe-Operationen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 zu ermöglichen. Zum Beispiel kann das I/O-Untersystem 120 als Speichersteuerungs-Hubs, Eingabe-/Ausgabe-Steuerungs-Hubs, Plattformsteuerungs-Hubs, integrierte Steuerschaltung, Firmware-Vorrichtungen, Kommunikationsverbindungen (zB. Punkt-zu-Punkt-Verbindungen, Busverbindungen, Drähte, Kabel, Lichtleiter, Leiterbahnen der Leiterplatten etc.) und/oder andere Komponenten und Untersysteme verkörpert sein oder diese anderweitig enthalten, um die Eingabe-/Ausgabe-Operationen zu ermöglichen bzw. erleichtern. Bei einigen Ausführungsformen kann das I/O-Untersystem 120 einen Teilbereich eines Systems auf einem Chip (SOC (= system-on-a-chip)) bilden und zusammen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 auf einem einzigen integrierten Schaltungschip eingebaut sein.
  • Die Datenspeichervorrichtung 140 kann als irgendein Typ von Vorrichtung oder Vorrichtungen verkörpert sein, die für die kurzfristige oder langfristige Speicherung von Daten konfiguriert ist oder sind, wie zum Beispiel Speichervorrichtungen und -schaltungen, Speicherkarten, Festplattenlaufwerke, Festkörperlaufwerke oder andere Datenspeichervorrichtungen. Die Datenspeichervorrichtung 140 kann einen Programmcode zur ordinalen Zeitreihenklassifikation mit fehlenden Informationen speichern. Das Kommunikations-Subsystem bzw. -Untersystem 150 der Computingvorrichtung 100 kann als irgendeine Netzwerkschnittstellensteuerung oder irgendeine andere Kommunikationsschaltung, -vorrichtung oder -sammlung bzw. -kollektion davon verkörpert sein, die Kommunikationen zwischen der Computingvorrichtung 100 und anderen entfernten Geräten bzw. Vorrichtungen über ein Netzwerk ermöglichen bzw. freigeben kann. Das Kommunikations-Untersystem 150 kann konfiguriert sein, um irgendeine oder mehrere Kommunikationstechnologien (zB. drahtgebundene oder drahtlose Kommunikationen) und assoziierte bzw. zugehörige Protokolle (zB. Ethernet, InfiniBand®, Bluetooth®, Wi-Fi®, WiMAX usw.) zu verwenden, um eine solche Kommunikation zu bewirken.
  • Wie es gezeigt ist, kann die Computingvorrichtung 100 auch eine oder mehrere periphere Vorrichtungen 160 enthalten. Die peripheren Vorrichtungen 160 können irgendeine Anzahl zusätzlicher Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder anderer peripherer Vorrichtungen enthalten. Zum Beispiel können die peripheren Vorrichtungen 160 bei einigen Ausführungsformen eine Anzeige, einen Berührungsbildschirm, eine Grafikschaltung, eine Tastatur, eine Maus, ein Lautsprechersystem, ein Mikrofon, eine Netzwerkschnittstelle und/oder andere Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder periphere Vorrichtungen enthalten.
  • Natürlich kann die Computingvorrichtung 100 auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in der Computingvorrichtung 100 enthalten sein, und zwar abhängig von der bestimmten Implementierung derselben, wie es von einem Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder drahtgebundenen Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen auch verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung von einem Fachmann auf dem Gebiet leicht in Betracht gezogen.
  • Wie er hierin verwendet ist, kann sich der Begriff „Hardwareprozessor-Subsystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Datenverarbeitungselemente (zB. logische Schaltungen, Verarbeitungsschaltungen, Befehlsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder rechenelementbasierten Steuerung (z.B. Logikgatter usw.) enthalten sein. Das Hardwareprozessor-Subsystem kann einen oder mehrere On-Board-Speicher enthalten (z.B. Caches, dedizierte Speicherarrays, schreibgeschützten Speicher bzw. Nurlesespeicher usw.). Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem einen oder mehrere Speicher enthalten, die sich auf oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardwareprozessor-Subsystem dediziert sein können (z B. ROM, RAM, Basic Input / Output System (BI OS) usw.).
  • Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Softwareelemente enthalten und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein bestimmtes Ergebnis zu erzielen.
  • Bei anderen Ausführungsformen kann das Hardwareprozessor-Subsystem dedizierte, spezialisierte Schaltkreise umfassen, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführen, um ein spezifiziertes Ergebnis zu erzielen. Solche Schaltungen können einen oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs (feldprogrammierbare Gate-Arrays) und/oder speicherprogrammierbare Logikarrays (PLAs) umfassen.
  • Diese und andere Variationen eines Hardwareprozessor-Subsystems werden ebenfalls gemäß Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
  • 2 ist ein Blockdiagramm, das ein beispielhaftes Framework 200 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das Framework enthält einen Trainingssatz 210 mit einem Trainingsbatch T 211, einen Probenauswertungsprozess 215, einen Validierungssatz 220, einen Validierungsbatch V 221, ein gemeinsames Backbone 230, eine Marge bzw. einen Spielraum für Wichtigkeit 240, einen Metalerner 250, eine Multi-Variations-Marge 260 und einen IVLA-Verlust 270. Diese Elemente werden hierin nachstehend in weiterem Detail beschrieben.
  • 3 ist ein Blockdiagramm auf hoher Ebene, das ein System/Verfahren zur tiefen Gesichtserkennung 300 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Das System/Verfahren 300 enthält einen Gesichtserkennungs-Engine-Trainingsblock 310, einen Verlustberechnungsblock 320, einen Validierungssatz 330, einen Metalernen-für-Wichtigkeitsgewichtung-Block 340, einen Metatrainings-Update-Block 350 und einen Erkennungs-Engine-Update-Block 360.
  • Der Erkennungs-Engine-Trainingsblock 310 verwendet ein ResNet-101-basiertes Backbone, das die beschnittenen Gesichtsbilder mit einer Größe von 1 00x1 00x3 als die Eingabe empfängt
  • Der Verlustberechnungsblock 320 nimmt die Ausgabe, einen Merkmalsvektor aus dem Erkennungs-Engine-Block als die Eingabe und verarbeitet das Merkmal in ein identitätsbezogenes Logit und bestraft es gegen das Ground-Truth-Identitäts-Label für den Verlust.
  • Der Validierungssatz 330 wird unabhängig ausgewählt, um die Metalernphase durchzuführen.
  • Das Metalernen für eine Wichtigkeitsgewichtung 340 ist ein modellunabhängiges Metalern-Framework, indem der Variationsverlust bestraft wird, um die Stichproben bzw. Proben bzw. Abtastungen aus dem Validierungssatz 330 auszuwählen, die die maximale komplementäre Verteilungsinformation aus dem aktuellen Trainingssatz-Batch haben, um dadurch die Trainingsverteilung derart anzureichern, dass sie ausgeglichener ist.
  • Der Metatrainings-Update-Block 350 verwendet die neuen Rückkoppel- bzw. Feedback-Validierungsdaten, um die Wichtigkeitsgewichtung für den aktuellen Trainingsbatch zu aktualisieren.
  • Der Erkennungs-Engine-Update-Block 360: Basierend auf der aktualisierten neuen Wichtigkeitsgewichtung führen wir die Verlustberechnung 320 erneut durch, um die Gewichte bzw. Gewichtungen der Erkennungs-Engine zu aktualisieren, um diese typische Aktualisierungsiteration abzuschließen.
  • Hier werden drei beispielhafte vermehrungsfähige Variationen vorgestellt, nämlich Unschärfe, Okklusion und Kopfhaltung, um die Trainingsdaten zu vermehren. Natürlich können auch andere Variationen verwendet werden, während der Sinngehalt der vorliegenden Erfindung erhalten bleibt.
  • Im Folgenden wird ein vertrauensbewusster bzw. konfidenzbewusster Identifikationsverlust eingeführt, um aus harten Beispielen zu lernen, was danach durch Aufteilen der Merkmalsvektoren in Untereinbettungen mit unabhängiger Konfidenz weiter erweitert wird. Später werden die eingeführten vermehrungsfähigen Variationen angewendet, um die Merkmals-Einbettungen weiter zu dekorrelieren. Eine Entdeckung von nicht vermehrungsfähiger Variation wird vorgeschlagen, um mehr Variationen für eine bessere Dekorrelation zu untersuchen. Schließlich wird eine unsicherheitsgesteuerte paarweise Metrik für Inferenz vorgeschlagen.
  • Selbstüberwachtes Multitasking-Lernen.
  • Die Variablendefinitionen lauten wie folgt:
    • x: die eingegebenen Gesichtsbilder
    • Y: das Ground-Truth-Identitätslabel
    • θ: die Erkennungs-Engine-Modellparameter
    • w: der Erkennungsklassifikator-Parameter
    • V: Anzeigen der spezifischen Domäne (Variation)
    • Fl: der Merkmals-(Ausgabe von 31 0)Vektor
    • si: der Skalierungsfaktor für den Lidt-Verlust (Gl. (2))
    • m: die Lidt-Verlustmarge
  • (1) Vorteil ziehen aus dem Lernen des harten Beispiels; Helfen bei Optimierung L M T ( x , y ; θ , w , v ) = L i d t ( x , y ; θ , w ) + t = 1 T L d o m a i n t ( x , y ; θ , v t )
    Figure DE112021005925T5_0001
    L i d t ( x , y ; θ , w ) = log exp ( s i w y i T f i m ) exp ( s i w y i T f i m ) + j y i exp ( s i w y i T f i )
    Figure DE112021005925T5_0002
    L d o m a i n = log exp ( w y i T f i ) j = y i exp ( w j T ƒ i ) ,
    Figure DE112021005925T5_0003
  • Domänenabgleich über Metalernen θ ˜ t + 1 ( ε t ) θ t n i T L ( ƒ ( x i ; θ t ) , y i ; m y i + ε i t ) θ
    Figure DE112021005925T5_0004
    ε t + 1 ε t τ i D L ( ƒ ( x i ;   θ ˜ t + 1 ( ε t ) ) , y i ) ε
    Figure DE112021005925T5_0005
    θ t + 1 θ t n i T L ( ƒ ( x i ;   θ t ) , y i ;   m y i + ε i t + 1 ) ) θ
    Figure DE112021005925T5_0006
  • Klassenabgleich als Domänenanpassung
  • Angenommen, es gibt einen Trainingssatz (Quelldomäne) { ( x i ,   y i ) } i = 1 n ,
    Figure DE112021005925T5_0007
    der unabhängig und identisch verteilt bzw. i.i.d. aus einer langfristigen Verteilung Ps(x, y) gezogen wird - genauer gesagt, die marginale Verteilung Ps(y) von Klassen ist mit schweren Rändern, da es bei visueller Erkennung oft schwierig ist, Beispiele für seltene Klassen zu sammeln. Nichtsdestotrotz wird erwartet, dass ein Modell für visuelle Erkennung erlernt wird, um bei allen Klassen so wenig Fehler wie möglich zu machen: Fehler = E P t ( x , y ) L ( ƒ ( x ; θ ) , y ) ,
    Figure DE112021005925T5_0008
    wobei eine Zieldomäne Pt(x, y) gewünscht wird, deren marginale Klassenverteilung Pt(y) zum Inferenzzeitpunkt ausgeglichener ist (z.B. eine gleichmäßige Verteilung), f(.;θ) das Erkennungsmodell, parametrisiert durch θ, ist, und L(·,·) ein 0-1 -Verlust ist. Die Notation L(·,·) wird ein wenig gelockert und während eines Trainings ein differenzierbare Ersatzverlust (d. h. Kreuzentropie) sein gelassen.
  • Als Nächstes wird ein Trick zur Wichtigkeitsprobenerstellung angewendet, um den erwarteten Fehler wie folgt mit der langfristigen bzw. Long-Tail-Quelldomäne zu verbinden: Fehler = E P t ( x , y ) L ( ƒ ( x ; θ ) , y )
    Figure DE112021005925T5_0009
    = E P s ( x , y ) L ( ƒ ( x ; θ ) , y ) P t ( x , y ) / P s ( x , y )
    Figure DE112021005925T5_0010
    = E P s ( x , y ) L ( ƒ ( x ; θ ) , y ) P t ( y ) P t ( x | y ) P s ( y ) P s ( x | y )
    Figure DE112021005925T5_0011
    : = E P s ( x , y ) L ( ƒ ( x ; θ ) , y ) w y ( 1 + ε ˜ x , y ) ,
    Figure DE112021005925T5_0012
    wobei wy = Pt(y)/Ps(y) und ε̃x,y = Pt(x,y)/Ps(x|y)-1.
  • Bestehende klassenausgeglichene Verfahren konzentrieren sich auf eine Bestimmung der klassenweisen Gewichtungen {wy} und resultieren in der folgenden Zielfunktion für ein Training: min θ 1 n i = 1 n w y i L ( ƒ ( x i ; θ ) , y i ) ,
    Figure DE112021005925T5_0013
    die den erwarteten Inferenzfehler (Gleichung (8)) durch Annehmen von ε̃x,y = 0 oder, anders ausgedrückt, durch Annehmen von Ps(x|y) = Pt(x|y) für eine beliebige Klasse y annähert. Diese Annahme wird als Zielverschiebung bei einer Domänenanpassung bezeichnet.
  • Es wird behauptet, dass die Annahme einer gemeinsam genutzten bedingten Verteilung Ps(x|y) = Pt(x|y) im Allgemeinen, insbesondere für die Endklassen, nicht gilt. Man kann leicht einen repräsentativen Trainingssatz für Hund zusammenstellen, aber nicht für King Eider. Die vorliegende Erfindung schlägt vor, den Unterschied ε̃x,y zwischen den bedingten Verteilungen von Quelle und Ziel explizit zu modellieren und zu einem verbesserten Algorithmus bei den klassenausgeglichenen Verfahren zu gelangen.
  • Modellierung der bedingten Unterschieden bzw. Differenzen
  • Der Einfachheit halber wird eine bedingte Gewichtung εx,y := wy ε̃x,y eingeführt und der erwartete Inferenzfehler wie folgt umgeschrieben: Fehler = E P s ( x , y ) L ( ƒ ( x ; θ ) , y ) ( w y + ε x , y )
    Figure DE112021005925T5_0014
    1 n i = 1 n ( w y i + ε i ) L ( ƒ ( x i ; θ ) , y i ) ,
    Figure DE112021005925T5_0015
    wobei der letzte Term eine unverzerrte Schätzung des Fehlers ist. Insbesondere geht die vorliegende Erfindung nicht davon aus, dass die bedingten Verteilungen der Quell- und Zieldomänen gleich sind, d.h. es ist zulässig, dass Ps(x|y) ≠ Pt(x|y) und εi≠0 gilt. Daher besteht die Gewichtung für jedes Trainingsbeispiel aus zwei Teilen. Eine Komponente ist die klassenweise Gewichtung wyii, und die andere ist die bedingte Gewichtung εi. Die vorliegende Erfindung muss beide Komponenten schätzen, um einen praktischen Algorithmus aus Gleichung (11) abzuleiten, da die zugrunde liegenden Verteilungen von Daten unbekannt sind, obwohl geglaubt wird, dass die Klassenverteilung des Trainingssatzes langfristig sein muss.
  • Schätzen der klassenweisen Gewichtungen {wy}
  • Die vorliegende Erfindung lässt die klassenweisen Gewichtungen dem empirisch erfolgreichen Design in der Literatur ähneln. Insbesondere schätzt die vorliegende Erfindung klassenweise Gewichtungen durch die kürzlich vorgeschlagenen „effektiven Zahlen“. Angenommen, es gibt ny Trainingsbeispiele für die y-te Klasse, dann gilt wy ≈ (1 - β)/(1 - βny ), wobei β ∈ [0,1) ein Hyperparameter mit dem empfohlenen Wert β = (n - 1)/n ist und n die Anzahl von Trainingsbeispielen ist.
  • Meta-Lernen der bedingten Gewichtungen {εi}
  • Die bedingten Gewichtungen werden durch Anpassen (für Kunden) eines Frameworks für Metalernen geschätzt.
  • Die Hauptidee besteht darin, einen ausgewogenen Entwicklungssatz D aus dem Trainingssatz herauszuhalten und ihn zu verwenden, um die Suche nach den bedingten Gewichtungen zu leiten, die das leistungsstärkste Erkennungsmodell f(·; θ) bei dem Entwicklungssatz ergeben. Die verbleibenden Trainingsdaten seien durch T bezeichnet. Die vorliegende Erfindung sucht die bedingten Gewichtungen ε := {εi} durch Lösen des folgenden Problems: min ε 1 | D | i D L ( x i ;   θ * ( ε ) , y i )
    Figure DE112021005925T5_0016
    mit θ * ( ε ) arg  min θ 1 | T | i T ( w y i + ε i ) L ( ƒ ( x i ; θ ) , y i )
    Figure DE112021005925T5_0017
    wobei die vorliegende Erfindung die Verluste über dem Entwicklungssatz nicht gewichtet, der bereits ausgeglichen ist. Im Wesentlichen sucht das obige Problem nach den optimalen bedingten Gewichtungen, so dass, nachdem die vorliegende Erfindung ein Erkennungsmodell f(·; θ) durch Minimieren der Fehlerschätzung (Gleichungen (13) und (11)) lernt, das Modell die beste Leistung bei dem Entwicklungssatz erbringt (Gleichung (12)).
  • Es wäre entmutigend, das obige Problem durch Brute-Force- bzw. Holzhammer-Suche zu lösen, zB. durch Iterieren aller möglichen Sätze {ε} von bedingten Gewichtungen. Selbst wenn dies möglich ist, ist es rechnerisch unerschwinglich bzw. untragbar, für jeden Satz von Gewichtungen ein Erkennungsmodell f(· ; θ*(ε)) zu trainieren und dann das beste Modell von allen herauszufinden.
  • Stattdessen modifiziert die vorliegende Erfindung das Framework für Metalernen und sucht gierig nach den bedingten Gewichtungen. Die vorliegende Erfindung verschachtelt die Suche nach den Gewichtungen ε mit den Aktualisierungen bzw. Updates der Modellparameter θ unter Berücksichtigung des aktuellen Zeitschritts t. θ ˜ t + 1 ( ε t ) θ t n i T ( w y i + ε i t ) L ( ƒ ( x i ; θ t ) , y i θ
    Figure DE112021005925T5_0018
    ε t + 1 ε t τ i D L ( ƒ ( x i ; θ ˜ t + 1 ( ε t ) ) , y i ) ε
    Figure DE112021005925T5_0019
    θ t + 1 θ t n i T ( w y i + ε i t + 1 ) L ( ƒ ( x i ; θ t ) , y i ) θ
    Figure DE112021005925T5_0020
  • Die erste Gleichung versucht einen einstufigen Gradientenabstieg für θt unter Verwendung der durch die aktuellen bedingten Gewichtungen εt (plus den klassenweisen Gewichtungen) gewichteten Verluste. Die aktualisierten Modellparameter θ̃t+1t) werden dann beim ausgeglichenen Entwicklungssatz D untersucht, der die bedingten Gewichtungen um einen Schritt aktualisiert. Die aktualisierten Gewichtungen εt+1 sind besser als die alten, was bedeutet, dass die von der letzten Gleichung zurückgegebenen Modellparameter θt+1 zu einem geringeren Erkennungsfehler beim Entwicklungssatz führen sollten als dies der Fall für θt+1 ist. Ausgehend von θt+1 und εt+1 bewegt sich die vorliegende Erfindung dann zur nächsten Aktualisierungsrunde.
  • 4 ist ein Diagramm, das einen beispielhaften Pseudocode 400 für ein Spielraum- bzw. Margen-Metalernen auf Instanzenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Eine weitere Beschreibung wird nun bezüglich eines Ansatzes gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Zunächst wird gezeigt, dass die Kosinusverlustspanne bzw. -marge als Abtast- bzw. Probenwichtigkeit interpretiert werden kann, die in der Literatur nicht gezeigt worden ist. Im Gegensatz zu einem Kosinusverlust, der eine vordefinierte Konstante als die Marge sicherstellt, schlägt die vorliegende Erfindung eine variationsbewusste Marge auf Instanzenebene für jede Trainingsprobe vor, um ihre Wichtigkeit bzw. Bedeutung widerzuspiegeln. Darüber hinaus wird die Marge in eine vorhergehende Konstante und residuale dynamische Terme zerlegt, wobei das letztere mehrere Variationsfaktoren darstellt. Schließlich führt die vorliegende Erfindung ein Framework für Metalernen ein, um den residualen Term der Marge für jede Probe anzupassen.
  • Es wird nun eine Beschreibung bezüglich eines Interpretationsspielraums als Abtast- bzw. Probenwichtigkeit gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • {(xi,yi)}N soll als der Trainingssatz mit xi und yi als i-te Eingabe und entsprechender Bezeichnung angenommen werden. Ein Kosinusverlust mit der konstanten Marge m wird für positive Proben durch Gleichung 1 definiert, die den CNN-Backbone des Modells zur tiefen Erkennung modelliert als f(x; Ω), wobei mit Ω als den Netzwerkparametern cosθi,yi das innere Produkt zwischen Merkmalsvektor f(xi;Ω) und y i t h Klassenvorlage
    Figure DE112021005925T5_0021
    wyi ist, nämlich c o s θ i , y i = w y i T ƒ ( x i ; Ω ) .
    Figure DE112021005925T5_0022
    Die Marge m wird als positive Konstante eingestellt, um das innere Produkt cosθi,yi so zu drücken, dass es größer als die Marge ist. s ist ein Skalierungsfaktor, um die Trainingskonvergenz zu gewährleisten. L c o s = l o g e s c o s θ i , y i m ¯ e s c o s θ i , y i m ¯ + k y i C e s c o s θ i , k
    Figure DE112021005925T5_0023
  • Auf der anderen Seite führten Wichtigkeits-Neugewichtungsmethoden im Allgemeinen die Wichtigkeitsgewichtung σyi ein, um jede Probenverlustkomponente gemäß einen langfristigen bzw. Long-Tail-Situation der Probe neu zu gewichten. Somit kann das Netzwerktraining als Minimierung einer vorgeschlagenen gewichteten Verlustfunktion wie folgt formuliert werden: min Ω 1 N i = 1 N σ y i L c o s ( ƒ ( x i ; Ω ) , y i ) ) ,
    Figure DE112021005925T5_0024
    wobei N die Anzahl von Klassen ist Die klassenweise Gewichtung σyi ist im Allgemeinen derart entworfen, dass sie proportional zum Inversen der Anzahl von Proben pro Klasse ist Eine regelbasierte Methode bestimmt σyi als die „effektive Zahl“, die als 1 β 1 β n y i
    Figure DE112021005925T5_0025
    definiert ist, wobei nyi das Klassenvolumen ist. Kombiniert man Gleichung 14 mit Gleichung 15, erhält man Folgendes: min Ω 1 N i = 1 N l o g [ e s c o s θ i , y i m ¯ ] σ y i [ e s c o s θ i , y i m ¯ + k y i C e s c o s θ i , k ] σ y i
    Figure DE112021005925T5_0026
  • Normalerweise ist der Nennerteil für verschiedene Klassen yi im Allgemeinen ähnlich, d.h. alle nahe zu [es-m + C - 1]σyi . Der Zähler wird weiter umgerechnet in: [ e s c o s θ i , y i m ¯ ] θ y i = e σ y i s c o s θ i , y i σ y i m ¯ = e s ' c o s θ i , y i m i
    Figure DE112021005925T5_0027
  • Es ist herausgefunden worden, dass die Gleichung 16 des Neugewichtungsverlusts tatsächlich äquivalent zu einem modifizierten Kosinusverlust ist, wobei s' = σyi s und mi = σyi m jeweils als neuer Skalierer und Marge bzw. Rand definiert sind. Der Unterschied gegenüber Gleichung 14 besteht darin, dass bei der neuen Formulierung der Skalierer und die Marge beide proportional zur klassenbewussten Gewichtung σyi sind. Daher kann das Lernproblem der Probenwichtigkeit als Erlernen der Pro-Klassen-Marge mi und des Skalierers s' im neuen Kosinusverlust-Framework übersetzt werden. Die vorliegende Erfindung betrachtet den festen Skalar s = 2 l o g ( C 1 )
    Figure DE112021005925T5_0028
    und konzentriert sich hauptsächlich auf den Rand bzw. die Marge von dem Aspekt einer Wichtigkeitsabtastung aus, was in der Literatur nicht gut untersucht ist. Angesichts der obigen Diskussion spiegelt eine klassenbewusste Marge mi die Probenwichtigkeit der Klasse yi wider. Anstatt ein regelbasiertes Verfahren zur Zuweisung von mi Werten zu verwenden, nutzt hier die vorliegende Erfindung ein auf Metalernen basierendes Verfahren, um adaptiv zu lernen, dass die optimale Wichtigkeit die Variation der Instanzen nicht ausreichend erfasst, d.h. zwei Gesichtsbilder von derselben Identität könnten unterschiedliche Wichtigkeit zeigen, da eines unter einer normalen Bedingung aufgenommen sein kann, während das andere mit großer Kopfhaltung oder unter schweren Lichtbedingungen aufgenommen sind kann.
  • Es wird nun eine Beschreibung bezüglich der Multi-Variations-Kosinusmarge gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • CosFace und andere auf einem Kosinusabstand basierende Methoden bzw. Verfahren gehen von einer konstanten Marge aus, die über den gesamten Datensatz geteilt bzw. gemeinsam genutzt wird, was äquivalent zu einer Zuweisung einer gleichen Probenwichtigkeit für alle Trainingsdaten ist. Wie es hierin erwähnt ist, bietet die Probenwichtigkeit auf Instanzenebene ein Erfassen besserer Variationen und sie spiegelt diese Variationen im Identifikationsverlust wider, was beim Kompensieren der Verzerrung der Trainingsdaten hilfreich sein kann.
  • Zu diesem Zweck schlägt die vorliegende Erfindung eine variationsbewusste Marge auf Instanzenebene myi,j vor, um jeder Probe eine Wichtigkeitsgewichtung zuzuweisen. Unterschiedliche Faktoren können zu einer langfristigen Verteilung in Bezug auf Trainingsdaten führen, und ein Betrachten von jedem dieser Faktoren würde zu einem anderen Satz von Marge auf Instanzenebene führen. Die vorliegende Erfindung zielt darauf ab, eine Reihe bzw. einen Satz von aufzählbaren Faktoren, wie beispielsweise ethnische Zugehörigkeit, Kopfhaltung, Bildunschärfegrad und Okklusionsgrad, zu kombinieren, um eine integrierte einzelne Marge bereitzustellen, die als Multi-Variations-Kosinusmarge bezeichnet wird, die alle vorgenannten Variationsfaktoren darstellt. Formal nutzt die vorliegende Erfindung ein additives Modell durch Kombinieren der regelbasierten Marge als vorherige m y i c l s
    Figure DE112021005925T5_0029
    und eines residualen bzw. verbleibenden dynamischen Terms, der eine Wichtigkeit jeder Variation darstellt: m y i , j = m y i c l s + k λ k r y i , j k , k { e t h , p o s e , o c c ., b l u r } ,
    Figure DE112021005925T5_0030
    wobei m y i c l s
    Figure DE112021005925T5_0031
    die Marge auf Klassenebene ist, die zuvor für eine Klasse yi berechnet ist, und j für den Index auf Instanzenebene steht. m y i c l s = α n y i 1 / 4 ,
    Figure DE112021005925T5_0032
  • α ist ein Hyperparameter und nyi ist ein Probenvolumen der Klasse yi. Intuitiv erhalten Kopfklassenproben (großes ny) eine kleine Marge, während Leitklassenproben (kleines ny) eine große Marge erhalten.
  • In Gleichung 15 ist k der Index, der die durch die vorliegenden Erfindungen definierten Variationen aufzählt, einschließlich eth für ethnische Zugehörigkeit, pose für Variation der Kopfhaltung, occ für Okklusionsverhältnisse über das gesamte Bild und blur für einen Bildunschärfegrad, wobei die vorliegende Erfindung synthetisierte Okklusion und Gaußsche Unschärfe zum Trainieren verwendet. λk ist der Kombinationsfaktor bezüglich jeder Variation, das umgekehrte Verhältnis der Anzahl der langfristigen bzw. Long-Tail-Proben in Bezug auf jede Variation. Es ist erwähnenswert, dass Σkλk = 1 gilt und diese Werte während des Trainings konstant sind. Schließlich definiert die vorliegende Erfindung unter Verwendung der vorgeschlagenen Marge auf Instanzenebene eine ILVA-Verlustfunktion wie folgt: L I   L   V   A = l o g e s c o s θ i , y i m y i , j e s c o s θ i , y i m y i , j + k y i C e s c o s θ i , k
    Figure DE112021005925T5_0033
  • Es wird nun eine Beschreibung bezüglich variationsbewusstem residualem Metalernen gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Es wird nun eine Beschreibung bezüglich variationsbewusstem residualen Metalernen in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Um den residualen Term bzw. Restterm der Wichtigkeitsgewichtung zu erhalten, nutzt die vorliegende Erfindung ein Framework für Metalernen, das einen vordefinierten Validierungssatz V als Eingabe verwendet. Der Validierungssatz teilt keinerlei gemeinsame Identität mit dem ursprünglichen Trainingssatz Die Hauptidee besteht darin, dass durch Überprüfen der Variation jeder Probe in einem Trainingsbatch erwartet wird, dass das Metalernen die Wichtigkeitsgewichtung für jede Probe dynamisch aktualisiert, so dass die Unzulänglichkeit jeder Variation (d. h. ethnische Zugehörigkeit, Kopfhaltung usw.) aus dieser spezifischen Probe hervorgehoben werden kann. Durch Rückkopplung eines solchen hervorgehobenen Residuums bzw. Rests zur Bildung der adaptiven Kosinusverlustmarge aktualisiert der vorgeschlagene ILVA-Verlust das Merkmalslernen auf alternative Weise.
  • Es wird nun eine Beschreibung bezüglich einer mehrzweigigen Basislinie gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Wie es hierin eingeführt ist, modelliert die vorliegende Erfindung die Marge als additive Formulierung, einschließlich eines vorherigen konstanten Terms, der auf der Grundlage einer Klassenvolumenungleichgewichtung vorbestimmt ist, und des Restterms r = k r y i , j k
    Figure DE112021005925T5_0034
    in Gleichung 1 5. Die vorliegende Erfindung betrachtet die mit g(·; u) bezeichnete Identifikationsaufgabe als die Hauptaufgabe und wendet den vorgeschlagenen ILVA-Verlust an, um das Erkennungs-Backbone zu aktualisieren. Zusätzlich entspricht jede Variation einem Restterm in der Formulierung. Um alle Margen zu modellieren, die sich auf diese Variationen beziehen, richtet die vorliegende Erfindung ein auf mehreren Zweigen basierendes Framework ein. Insbesondere richtet die vorliegende Erfindung für jeden der aufgezählten Faktoren von Variation, ethnischer Zugehörigkeit, Kopfhaltung, Unschärfe und Okklusion einen Klassifikator ein g(·: vk). Zum Beispiel richtet die vorliegende Erfindung den Ethnizitätsklassifikator mit vier Klassen ein, um die Ethnizitätsbezeichnungen bzw. -Labels y i k
    Figure DE112021005925T5_0035
    vorherzusagen, die als kaukasisch, afroamerikanisch, ostasiatisch und südasiatisch definiert sind.
  • Im Gegensatz zum klassischen Multitasking-Lernen tragen die Variationsaufgaben nicht zum Erlernen des gemeinsam genutzten Backbones f(·; Ω) bei und sie werden nur zur Aktualisierung der Parameter in Klassifikatoren g(·: vk) verwendet. Die Variationsklassifikatoren werden implementiert, um Verlustfeedback bzw. -rückkopplung für die Aktualisierung des Moduls für Metalernen bereitzustellen. Der Grund, warum Variationsklassifikatoren nicht verwendet werden, um das Identitätsmerkmal zu aktualisieren, besteht darin, dass die Variationen tatsächlich das Identifizierungsmerkmal für irrelevante ID-Aufgaben fördern, was zu einem id-varianten Merkmal führt. Das Training ähnelt dem kontradiktorischen bzw. gegnerischen Lernen: Die Hauptaufgabe verwendet ILVA, um das ID-Merkmal zu lernen, das für andere Variationen unveränderlich bzw. invariant ist, während die Variationsaufgaben den Klassifikator lernen und das Metalernen mit einem Validierungssatz verwenden, um die Marge auf Instanzenebene im ILVA-Verlust zu entzerren bzw. korrigieren, um die Ausläuferproben hervorzuheben.
  • Das Ziel beim Trainieren der Variationsklassifikatoren ist der Kreuzentropieverlust: L v a r k ( x , y k ; v k ) = j L c e ( g ( f ( x j ; Ω ) ; v k ) , y j k ) ,
    Figure DE112021005925T5_0036
    wobei L v a r k
    Figure DE112021005925T5_0037
    der Kreuzentropieverlust für eine Variationsaufgabe k ist und y j k
    Figure DE112021005925T5_0038
    die Bezeichnung bzw. das Label für eine Probe j unter der Variationsaufgabe k ist.
  • Es wird nun eine Beschreibung des Multi-Variations-Metalernens gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Es wird realisiert, dass die Basislinie bzw. Baseline die Wichtigkeitsgewichtung nicht ändert. Um das Verteilungsungleichgewicht entlang jeder Variation herauszufinden, verwendet die vorliegende Erfindung die vorhergesagten Logits von trainierten Klassifikatoren vk, um die Punktzahl bzw. die Auswertung bzw. den Wert anzuzeigen. Es wird angenommen, dass Proben, die bei einer Variationsverteilung nahe beieinander liegen, die ähnlichen Klassifikatorlogits bringen.
  • Es wird nun eine Beschreibung bezüglich einer harten Auswertung bzw. Gewinndung von Validierungsproben gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Um die Ausläuferverteilungsinformation basierend auf einem Trainingsbatch effektiv zurück zu koppeln bzw. zu melden, führt die vorliegende Erfindung eine harte Probenauswertung durch, um nach den markantesten Proben aus einem vordefinierten Validierungssatz V zu suchen, der keine Identitätsüberschneidung mit dem Trainingssatz hat. { x j } : argmax x j V | | v k ( x j ) v k ( x b ) | | 2 , x b B ,
    Figure DE112021005925T5_0039
    wobei xb eine Probe aus dem aktuellen Trainingsbatch B ist. vk(.) stellt vorhergesagte Logits durch einen k-ten Variationsklassifikator dar. Im nächsten Schritt werden ausgewählte Proben der vorgeschlagenen Technik einer harten Auswertung (Hard-Mining) verwendet, um das Modul für Metalernen zu trainieren.
  • Als nächstes werden die erforderlichen Schritte erklärt, um eine Iteration des vorgeschlagenen Frameworks für Metalernen durchzuführen. Der Einfachheit halber wird bei den Formulierungen der Klassenindex i weggelassen und wird nur der Probenindex j beibehalten.
  • Es wird nun eine Beschreibung bezüglich der Pseudomodellaktualisierung gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Bei jeder Iteration t tastet die vorliegende Erfindung einheitlich einen Stapel bzw. Stapel T aus den Trainingsdaten ab und speist ihn in das Erkennungsmodell ein, um die Modellparameter Ω zu aktualisieren. Es ist zu beachten, dass die Aktualisierung des Modells Ω auf die vorherige Iteration t - 1 zurückgesetzt werden kann, wenn das aktuelle Modell Ω keine bessere Leistung erzielt. Ω t :   argmin Ω   j T L I L V A ( f ( x j ; Ω , m j , t ) , y j )
    Figure DE112021005925T5_0040
  • Es wird nun eine Beschreibung bezüglich einer Metaaktualisierung am Margenrest gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Die vorliegende Erfindung nutzt das durch Gleichung 22 beschriebene onlinemäßige Verfahren zur harten Auswertung von Proben, um den Validierungsbatch aus einem Validierungssatz V vorzubereiten. Unter Verwendung des im vorherigen Schritt aktualisierten Modellparameters Ωt nutzt dann die vorliegende Erfindung den Verlust der Klassifizierung von Variationen mit mehreren Zweigen, um Margen-Restterme zu aktualisieren: r j , t + 1 : argmin m j , t k , j V L v a r k ( f ( x j ; Ω t , m j , t ) , v k , y j k ) ) .
    Figure DE112021005925T5_0041
  • Mit rj,t+1 wird eine Marge mj,t+1 über Gleichung 15 erhalten. Die aktualisierte Marge mj,t+1 wäre besser als die vorherige Aktualisierung mj,t in dem Sinne, dass sie in kleineren Klassifizierungsfehlern bei Variationsaufgaben führt, indem mehrere Variationsfaktoren ausgeglichen werden.
  • Es wird nun eine Beschreibung bezüglich einer realen Modellaktualisierung gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
  • Die vorliegende Erfindung wendet die erhaltene neue Wichtigkeitsspanne bzw. -marge mj,t+1 an, um die Aktualisierung des realen Erkennungsmodells durchzuführen: Ω t + 1 : argmin Ω j T L I L V A ( f ( x j ; Ω , m j , t + 1 ) , y j )
    Figure DE112021005925T5_0042
  • Der Gesamtalgorithmus ist im Algorithmus 2 in 5 zusammengefasst. Die vorliegende Erfindung verfolgt die optimale Marge mj, die den Verlust in Gleichung 24 minimiert, während sie gleichzeitig eine optimale Leistung für die Aktualisierung des Gesichtserkennungsmodells f(·; Ω) erbringt. Die vorliegende Erfindung betrachtet mehrere Verzweigungen für r j k ,
    Figure DE112021005925T5_0043
    um das Residuum bzw. den Rest zu schätzen, wobei eine einzelne Domänengewichtung selbst zu einer Schätzungsverzerrung führen würde.
  • 6 ist ein Flussdiagramm, das ein beispielhaftes Verfahren für ein Margen-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Bei einem Block 610 erfolgt ein Durchführen eines Vorwärtstrainings für einen Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden.
  • Bei einem Block 620 erfolgt ein Berechnen von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner.
  • Bei einem Block 630 erfolgt ein Erhalten eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell What(t).
  • Bei einem Block 640 erfolgt ein Weiterleiten eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell What(t).
  • Bei einem Block 650 erfolgt ein Erhalten eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten.
  • Bei einem Block 660 erfolgt ein Erhalten eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
  • Die Bedeutung einer Entsprechung einer nächsten Iteration: Das auf Metalernen basierende Aktualisieren eines Modells w(t) ist von entscheidender Bedeutung, da es die ergänzende Information aus dem Validierungssatz nutzt und das Verteilungsungleichgewicht basierend auf dem Feedback bzw. der Rückmeldung des Domänenklassifikators (Variationsklassifikators) automatisch erkennt, um das Ungleichgewicht beim Gesichtserkennungstraining zu mildern. Da das Training iterativ ist, basiert jede Phase des Trainingsmodells auf der vorherigen Aktualisierung des Trainingsmodells. Das aktualisierte Trainingsmodell w(t+1) ist der Ausgangspunkt der nächsten Iteration.
  • Die vorliegende Erfindung kann ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailebene einer Integration sein. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder Medien) mit computerlesbaren Programmanweisungen darauf enthalten, um zu veranlassen, dass ein Prozessor Aspekte der vorliegenden Erfindung auszuführt.
  • Das computerlesbare Speichermedium kann ein konkretes Gerät sein, das Anweisungen zur Verwendung durch ein Anweisungs- bzw. Befehlsausführungsgerät beibehalten und speichern kann. Das computerlesbare Speichermedium kann zum Beispiel eine elektronische Speichervorrichtung, eine magnetische Speichervorrichtung, eine optische Speichervorrichtung, eine elektromagnetische Speichervorrichtung, eine Halbleiterspeichervorrichtung oder eine geeignete Kombination aus dem Vorstehenden sein, ist aber nicht darauf beschränkt. Eine nicht erschöpfende Liste spezifischerer Beispiele für das computerlesbare Speichermedium enthält das Folgende: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nurlese-Speicher (ROM), einen löschbaren programmierbaren Nurlese-Speicher (EPROM- oder Flash-Speicher), einen statischer Direktzugriffsspeicher (SRAM), einen tragbaren CD-Nurlese-Speicher (CD-ROM), eine digitale vielseitige Diskette (DVD), einen Speicherstick, eine Diskette, eine mechanisch codierte Vorrichtung, wie beispielsweise Lochkarten oder erhöhte Strukturen in einer Rille mit darauf aufgezeichneten Anweisungen, und irgendeine geeignete Kombination von dem Vorstehenden. Ein computerlesbares Speichermedium, wie es hierin verwendet wird, ist nicht derart auszulegen, dass es für flüchtige Signale per se steht, wie beispielsweise Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, sich durch einen Hohlleiter oder andere Übertragungsmedien ausbreitende elektromagnetische Wellen (zB. Lichtimpulse, die durch ein Glasfaserkabel laufen) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene computerlesbare Programmanweisungen können zu jeweiligen Computing-/Verarbeitungsvorrichtung von einem computerlesbaren Speichermedium oder zu einem externen Computer oder einer externen Speichervorrichtung über ein Netzwerk, zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, optische Übertragungsfasern, eine drahtlose Übertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Computing-/Verarbeitungsvorrichtung empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der jeweiligen Computing-/Verarbeitungsvorrichtung weiter.
  • Computerlesbare Programmanweisungen zum Ausführen von Operationen der vorliegenden Erfindung können Assembler-Anweisungen, Befehlssatz-Architektur-(ISA(= Instruction-Set-Architecture)-)Anweisungen, Maschinenanweisungen, maschinenabhängige Anweisungen, ein Mikrocode, Firmware-Anweisungen, Zustandseinstellungsdaten sein, oder entweder ein Quellcode oder ein Objektcode, der in irgendeiner Kombination von einer oder mehreren Programmiersprachen geschrieben ist, einschließlich einer objektorientierten Programmiersprache, wie beispielsweise SMALLTALK, C++ oder dergleichen, und konventionellen prozeduralen Programmiersprachen, wie beispielsweise der Programmiersprache „C“, oder ähnlichen Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer eines Anwenders, teilweise auf dem Computer eines Anwenders, als eigenständiges Softwarepaket, teilweise auf dem Computer eines Anwenders und teilweise auf einem entfernten Computer bzw. Remotecomputer oder vollständig auf dem entfernten Computer bzw. Remotecomputer oder einem Server ausgeführt werden. Im letzteren Szenario kann der Remotecomputer mit dem Computer des Benutzers über irgendeinen Typ von Netzwerk verbunden sein, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzwerks (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). Bei einigen Ausführungsformen kann eine elektronische Schaltung, einschließlich zum Beispiel einer programmierbaren Logikschaltung, feldprogrammierbarer Gate-Arrays (FPGA) oder programmierbarer Logikarrays (PLA), die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformation der computerlesbaren Programmanweisungen verwendet, um die elektronische Schaltung zu personalisieren, um Aspekte der vorliegenden Erfindung auszuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Flussdiagrammdarstellungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß den Ausführungsformen der Erfindung beschrieben. Es wird verstanden werden, dass jeder Block der Flussdiagrammdarstellungen und/oder Blockdiagramme und Kombinationen von Blöcken in den Flussdiagrammdarstellungen und/oder Blockdiagrammen durch computerlesbare Programmanweisungen implementiert werden können.
  • Diese computerlesbaren Programmanweisungen können einem Prozessor eines allgemeinen Computers, eines speziellen Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zur Verfügung gestellt werden, um eine Maschine herzustellen, so dass die Anweisungen, die über den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausführen, Mittel zum Implementieren der im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagrammblocks spezifizierten Funktionen/Handlungen schaffen. Diese computerlesbaren Programmanweisungen können auch in einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Vorrichtungen anweisen kann, auf eine bestimmte Weise zu funktionieren, so dass das computerlesbare Speichermedium mit darin gespeicherten Anweisungen einen Herstellungsgegenstand einschließlich Anweisungen umfasst, die Aspekte der im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagramms spezifizierten Funktion/Handlung implementieren.
  • Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Vorrichtung geladen werden, um zu veranlassen, dass eine Reihe von Betriebs- bzw. Operations- bzw. Arbeitsschritten auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Vorrichtung durchgeführt wird, um einen computerimplementierten Prozess zu erzeugen, so dass die Anweisungen, die auf dem Computer, einer anderen programmierbaren Vorrichtungen oder einer anderen Vorrichtung ausführen, die im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagramms spezifizierten Funktionen/Handlungen implementieren.
  • Das Flussdiagramm und die Blockdiagramme in den Figuren stellen die Architektur, die Funktionalität und eine Operation bzw. einen Betrieb von möglichen Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung dar. In diesem Zusammenhang kann jeder Block im Flussdiagramm oder in den Blockdiagrammen ein Modul, ein Segment oder einen Teilbereich von Anweisungen darstellen, das oder der eine oder mehrere ausführbare Anweisungen zum Implementieren der spezifizierten logischen Funktion(en) umfasst. Bei einigen alternativen Implementierungen können die im Block vermerkten Funktionen außerhalb der in den Figuren angegebenen Reihenfolge auftreten. Zum Beispiel können zwei Blöcke, die nacheinander angezeigt sind, tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal in umgekehrter Reihenfolge ausgeführt werden, und zwar abhängig von der beteiligten Funktionalität. Es wird bemerkt werden, dass jeder Block der Blockdiagramme und/oder der Flussdiagrammdarstellung und Kombinationen von Blöcken in den Blockdiagrammen und/oder der Flussdiagrammdarstellung durch spezielle hardwarebasierte Systeme implementiert werden kann oder können, die die spezifizierten Funktionen oder Handlungen durchführen oder Kombinationen von spezieller Hardware und Computeranweisungen ausführen.
  • Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform.
  • Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann, wie es für Fachleute auf dem Gebiet ohne weiteres offensichtlich ist, für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
  • Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern vielmehr aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt erwünscht wird, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 17/521252 [0001]
    • US 63/111658 [0001]
    • US 63/114014 [0001]

Claims (20)

  1. Computerimplementiertes Verfahren zum Trainieren eines Modells für tiefe Gesichtserkennung, umfassend: Durchführen (610) eines Vorwärtstrainings an einem Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden; Berechnen (620) von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner; Erhalten (630), durch eine Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell what(t); Weiterleiten (640) eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell what(t); Erhalten (650), durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und Erhalten (660), durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und Aktualisieren (660), unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
  2. Computerimplementiertes Verfahren nach Anspruch 1, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.
  3. Computerimplementiertes Verfahren nach Anspruch 2, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch proportional zu klassenbewussten Gewichtungen für die Proben im Trainingsbatch ist.
  4. Computerimplementiertes Verfahren nach Anspruch 1, wobei dem Validierungssatz ein gemeinsames Nutzen von Identitäten mit dem Trainingssatz fehlt.
  5. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Trainingssatz Variationen umfasst, die ethnische Variationen, Haltungsvariationen, Okklusionsverhältnisse über ganze Bilder und Bildunschärfegrade enthalten.
  6. Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Überprüfen einer Probenvariation von jeder einer Vielzahl von Proben im Trainingsbatch umfasst, um die Wichtigkeitsgewichtung auf Probenebene für jede der Vielzahl von Proben dynamisch zu aktualisieren, so dass jede Variationsunzulänglichkeit hervorgehoben wird.
  7. Computerimplementiertes Verfahren nach Anspruch 6, wobei die Variation unzureichend aus der Gruppe ausgewählt wird, die aus ethnischen Variationen, Haltungsvariationen, Okklusionsverhältnissen über ganze Bilder und Bildunschärfestufen besteht.
  8. Computerimplementiertes Verfahren nach Anspruch 1, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch über die Proben im Trainingsbatch nicht konstant ist.
  9. Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Durchführen, unter Verwendung des trainierten Modells w(t+1), einer Gesichtserkennungssession umfasst, um eine Identität eines Individuums zu erzeugen.
  10. Computerprogrammprodukt zum Trainieren eines Modells für tiefe Gesichtserkennung, wobei das Computerprogrammprodukt ein nicht-transitorisches computerlesbares Speichermedium mit damit verkörperten Programmanweisungen umfasst, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahren durchführt, das folgendes umfasst Durchführen (610), durch eine Prozessorvorrichtung des Computers, eines Vorwärtstrainings an einem Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden; Berechnen (620), durch die Prozessorvorrichtung, von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner; Erhalten (630), durch die Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell what(t); Weiterleiten (640), durch die Prozessorvorrichtung, eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell what(t); Erhalten (650), durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und Erhalten (660), durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und Aktualisieren (660), unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
  11. Computerprogrammprodukt nach Anspruch 10, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.
  12. Computerprogrammprodukt nach Anspruch 11, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch proportional zu klassenbewussten Gewichtungen für die Proben im Trainingsbatch ist.
  13. Computerprogrammprodukt nach Anspruch 10, wobei dem Validierungssatz ein gemeinsames Nutzen von Identitäten mit dem Trainingssatz fehlt.
  14. Computerprogrammprodukt nach Anspruch 10, wobei der Trainingssatz Variationen umfasst, die ethnische Variationen, Haltungsvariationen, Okklusionsverhältnisse über ganze Bilder und Bildunschärfegrade enthalten.
  15. Computerprogrammprodukt nach Anspruch 10, das weiterhin ein Überprüfen einer Probenvariation von jeder einer Vielzahl von Proben im Trainingsbatch umfasst, um die Wichtigkeitsgewichtung auf Probenebene für jede der Vielzahl von Proben dynamisch zu aktualisieren, so dass jede Variationsunzulänglichkeit hervorgehoben wird.
  16. Computerprogrammprodukt nach Anspruch 15, wobei die Variation unzureichend aus der Gruppe ausgewählt wird, die aus ethnischen Variationen, Haltungsvariationen, Okklusionsverhältnissen über ganze Bilder und Bildunschärfestufen besteht.
  17. Computerprogrammprodukt nach Anspruch 10, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch über die Proben im Trainingsbatch nicht konstant ist.
  18. Computerprogrammprodukt nach Anspruch 10, das weiterhin ein Durchführen, unter Verwendung des trainierten Modells w(t+1), einer Gesichtserkennungssession umfasst, um eine Identität eines Individuums zu erzeugen.
  19. Computerverarbeitungssystem zum Trainieren eines Modells für tiefe Gesichtserkennung, umfassend: eine Speichervorrichtung (140) zum Speichern von Programmcode; und eine Prozessorvorrichtung (110), die operativ mit der Speichervorrichtung gekoppelt ist, um den Programmcode auszuführen, um: ein Vorwärtstraining an einem Trainingsbatch von Proben durchzuführen, um ein Gesichtserkennungsmodell w(t) auszubilden; Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner zu berechnen; einen Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs zu erhalten und, unter Verwendung des Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell what(t) zu aktualisieren; einen Validierungsbatch von Proben zum Gesichtserkennungsmodell what(t) weiterzuleiten; einen Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) zu erhalten und, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells What(t), eine Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch zu aktualisieren, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten und, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration zu aktualisieren.
  20. Computerverarbeitungssystem nach Anspruch 19, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.
DE112021005925.4T 2020-11-10 2021-11-09 Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung Pending DE112021005925T5 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063111658P 2020-11-10 2020-11-10
US63/111,658 2020-11-10
US202063114014P 2020-11-16 2020-11-16
US63/114,014 2020-11-16
US17/521,252 US11977602B2 (en) 2020-11-10 2021-11-08 Domain generalized margin via meta-learning for deep face recognition
US17/521,252 2021-11-08
PCT/US2021/058612 WO2022103748A1 (en) 2020-11-10 2021-11-09 Domain generalized margin via meta-learning for deep face recognition

Publications (1)

Publication Number Publication Date
DE112021005925T5 true DE112021005925T5 (de) 2023-08-31

Family

ID=81453495

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021005925.4T Pending DE112021005925T5 (de) 2020-11-10 2021-11-09 Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung

Country Status (4)

Country Link
US (1) US11977602B2 (de)
JP (1) JP2023548915A (de)
DE (1) DE112021005925T5 (de)
WO (1) WO2022103748A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580780B2 (en) * 2019-11-13 2023-02-14 Nec Corporation Universal feature representation learning for face recognition
CN114861842B (zh) * 2022-07-08 2022-10-28 中国科学院自动化研究所 少样本目标检测方法、装置和电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754105B (zh) * 2017-11-07 2024-01-05 华为技术有限公司 一种预测方法及终端、服务器
AU2018368279A1 (en) * 2017-11-14 2020-05-14 Magic Leap, Inc. Meta-learning for multi-task learning for neural networks
KR20200015048A (ko) * 2018-08-02 2020-02-12 삼성전자주식회사 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치
CN109886337B (zh) * 2019-02-22 2021-09-14 清华大学 基于自适应采样的深度度量学习方法及系统
CN112561050B (zh) * 2019-09-25 2023-09-05 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN111737426B (zh) * 2020-05-09 2021-06-01 中国科学院深圳先进技术研究院 问答模型的训练方法、计算机设备以及可读存储介质
CN111582199B (zh) * 2020-05-12 2023-05-23 佛山市玖章智能科技有限公司 一种人脸识别模型训练方法和人脸识别方法
US20210374547A1 (en) * 2020-06-01 2021-12-02 Nvidia Corporation Selecting annotations for training images using a neural network
CN111898739B (zh) * 2020-07-30 2024-02-20 平安科技(深圳)有限公司 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2022103748A1 (en) 2022-05-19
JP2023548915A (ja) 2023-11-21
US11977602B2 (en) 2024-05-07
US20220147767A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE102019000675A1 (de) Nutzen eines modells auf der basis eines tiefen neuronalen netzwerks zum identifizieren von visuell ähnlichen digitalen bildern auf der basis von nutzer-ausgewählten visuellen eigenschaften
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE112017006166T5 (de) Verfahren und system zur erzeugung eines multi-relevanten labels
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE102020211853A1 (de) Effiziente gegnerische blackbox-angriffe unter ausnutzung einer eingabedatenstruktur
DE112017006685T5 (de) Verfahren und System für ein multimodales Fusionsmodell
DE102018009243A1 (de) Abstrahierendes Zusammenfassen langer Dokumente unter Nutzung des Deep-Learning strukturierter Dokumente
DE102016011173A1 (de) Erstellen von Zusammenfassungen von Multimediadokumenten
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
DE112020000584T5 (de) Verfahren für unüberwachte bild-zu-bild-übersetzung mit wenigen aufnahmen
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112018005813T5 (de) Erleichterung von domänen- und kundenspezifischen empfehlungen für anwendungsprogramm-schnittstellen
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE112020005610T5 (de) Identifizieren von optimalen gewichtungen zum verbessern einervorhersagegenauigkeit bei methoden für maschinelles lernen
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung
DE112018005205T5 (de) Komprimierung von vollständig verbundenen / wiederkehrenden Schichten von einem oder mehreren tiefen Netzen durch Durchsetzen von räumlicher Lokalität für Gewichtsmatrizen und erwirken von Frequenzkomprimierung
DE112020003538T5 (de) Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern
DE112017008151T5 (de) Schaltungen geringer tiefe als quantenklassifikatoren
DE112020002961T5 (de) Übersetzen einer abfrage in natürlicher sprache in eine formale datenabfrage
DE112013007333T5 (de) Mustererkennungsvorrichtung und Mustererkennungsverfahren
DE102016100046A1 (de) Verfahren, System und Benutzerschnittstelle zur Expertensuche auf der Basis von Aufzeichnungen zu Lösungen von Problemstellungen
DE112021006604T5 (de) Dynamisches in-rangordnung-bringen von facetten
DE112016002275T5 (de) Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort
DE102018008188A1 (de) Erstellen von Inhalt basierend auf einer Mehr-Satz-Komprimierung eines Quellinhalts

Legal Events

Date Code Title Description
R012 Request for examination validly filed