DE112021005925T5

DE112021005925T5 - Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung

Info

Publication number: DE112021005925T5
Application number: DE112021005925.4T
Authority: DE
Inventors: Xiang Yu; Yi-Hsuan Tsai; Masoud Faraki; Ramin Moslemi; Manmohan Chandraker; Chang Liu
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-11-10
Filing date: 2021-11-09
Publication date: 2023-08-31
Also published as: US20220147767A1; JP2023548915A; US11977602B2; WO2022103748A1

Abstract

Es wird ein Verfahren zum Trainieren eines Modells zur Gesichtserkennung bereitgestellt. Das Verfahren trainiert (61 0) einen Trainingsbatch von Proben vorwärts, um ein Gesichtserkennungsmodell w(t) auszubilden, und berechnet (620) Probengewichtungen für den Batch. Das Verfahren erhält (630) einen Trainingsbatch-Gradienten in Bezug auf Modellgewichtungen davon und aktualisiert, unter Verwendung des Gradienten, das Modell w(t) zu einem Gesichtserkennungsmodell what(t). Das Verfahren leitet (640) einen Validierungsbatch von Proben weiter zum Gesichtserkennungsmodell what(t). Das Verfahren erhält (650) einen Validierungsbatch-Gradienten und aktualisiert, unter Verwendung des Validierungsbatch-Gradienten und what(t), eine Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Stichprobenebene zu erhalten. Das Verfahren erhält (660) einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Trainingsbatch-Proben auf Probenebene und aktualisiert (660), unter Verwendung des aktualisierten Gradienten, das Modell w(t) zu einem trainierten Modell w(t+1 ) entsprechend einer nächsten Iteration.

Description

INFORMATION ÜBER VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der am 8. November 2021 eingereichten US-Patentanmeldung Nr. 17/521, 252 , der am 10. November 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/111,658 und der am 16. November 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/114,014 , die hierin in ihren Gesamtheiten durch Bezugnahme enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft eine Gesichtserkennung und insbesondere einen domänenverallgemeinerten Spielraum bzw. eine domänenverallgemeinerte Marge über Metalernen zur tiefen Gesichtserkennung.
Beschreibung des zugehörigen Standes der Technik
Tiefe Gesichtserkennung hat einen bemerkenswerten Fortschritt mit mehreren Verfahren bzw. Methoden erreicht, die bei öffentlichen Benchmarks starke Ergebnisse erreichen. Verteilungen von Trainingsdaten sind jedoch nach wie vor verzerrt, wodurch ein mit einer einheitlichen Abtastung bzw. Stichprobe der Daten trainiertes Verfahren zu unerwünschten Effekten führen könnte, wie beispielsweise einer geringeren Genauigkeit entlang bestimmter Faktoren (sagen wir mal Okklusionen) oder einer Wahrnehmung von Modellungerechtigkeit (sagen wir mal gegenüber ethnischen Minderheiten).
Da es unpraktisch ist, Trainingsdaten zu sammeln, die eine weite Vielzahl von Variationen ausreichend abdecken, besteht die dringende Notwendigkeit, Trainingsmethoden zu entwickeln, die die Verzerrung eines Datensatzes entlang mehrerer Variationsfaktoren algorithmisch abschwächen.
ZUSAMMENFASSUNG
Gemäß Aspekten der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Verfahren enthält ein Durchführen eines Vorwärtstrainings an einem Trainingsstapel bzw. -batch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden. Das Verfahren enthält weiterhin ein Berechnen von Probengewichten für den Trainingsbatch basierend auf einem Metalerner. Das Verfahren enthält auch ein Erhalten, durch eine Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell w_hat(t). Das Verfahren enthält auch ein Weiterleiten eines Validierungsstapels bzw. -batchs von Proben zum Gesichtserkennungsmodell W_hat(t). Das Verfahren enthält zusätzlich ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells w_hat(t), eines Wichtigkeitsgewichts auf Probenebene von Proben im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Das Verfahren enthält weiterhin ein Erhalten, durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
Gemäß anderen Aspekten der vorliegenden Erfindung wird ein Computerprogrammprodukt zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Computerprogrammprodukt enthält ein nicht-transitorisches computerlesbares Speichermedium mit damit Programmanweisungen. Die Programmanweisungen sind von einem Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein Durchführen, durch eine Prozessorvorrichtung des Computers, eines Vorwärtstrainings an einem Trainingsstapel bzw. -batch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden. Das Verfahren enthält weiterhin ein Berechnen, durch die Prozessorvorrichtung, von Probengewichten für den Trainingsbatch basierend auf einem Metalerner. Das Verfahren enthält auch ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell W_hat(t). Das Verfahren enthält zusätzlich ein Weiterleiten, durch die Prozessorvorrichtung, eines Validierungsstapels bzw. -batchs von Proben zum Gesichtserkennungsmodell W_hat(t). Das Verfahren enthält weiterhin ein Erhalten, durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), eines Wichtigkeitsgewichts auf Probenebene von Proben im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Das Verfahren enthält auch ein Erhalten, durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
Gemäß noch anderen Aspekten der vorliegenden Erfindung wird ein Computerverarbeitungssystem zum Trainieren eines Modells zur tiefen Gesichtserkennung bereitgestellt. Das Computerverarbeitungssystem enthält eine Speichervorrichtung zum Speichern eines Programmcodes. Das Computerverarbeitungssystem enthält weiterhin eine Prozessorvorrichtung, die operativ mit der Speichervorrichtung gekoppelt ist, um den Programmcode auszuführen, um ein Vorwärtstraining an einem Trainingsstapel bzw. -batch von Abtastungen bzw. Proben durchzuführen, um ein Gesichtserkennungsmodell w(t) auszubilden. Die Prozessorvorrichtung führt weiterhin den Programmcode aus, um Probengewichte für den Trainingsbatch basierend auf einem Metalerner zu berechnen. Die Prozessorvorrichtung führt den Programmcode auch aus, um einen Gradienten des Trainingsbatchs in Bezug auf Modellgewichte des Trainingsbatchs zu erhalten und, unter Verwendung des Gradienten des Trainingsbatchs das Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell w_hat(t) zu aktualisieren. Die Prozessorvorrichtung führt den Programmcode zusätzlich aus, um einen Validierungsstapel bzw. -batch von Proben zum Gesichtserkennungsmodell w_hat(t) weiterzuleiten. Die Prozessorvorrichtung führt den Programmcode weiterhin aus, um einen Gradienten des Validierungsbatchs in Bezug auf ein Metalerner theta(t) zu erhalten und, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), eine Wichtigkeitsgewichtung auf Probenebene von Proben im Trainingsbatch zu aktualisieren, um eine aktualisierte Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten. Die Prozessorvorrichtung führt den Programmcode auch aus, um einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung auf Probenebene der Proben im Trainingsbatch zu erhalten und, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration zu aktualisieren.
Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:

1 ein Blockdiagramm ist, das eine beispielhafte Computing- bzw. Rechenvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
2 ein Blockdiagramm ist, das das ein beispielhaftes Framework 200 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
3 ein Blockdiagramm auf hoher Ebene ist, das ein System/Verfahren zur tiefen Gesichtserkennung 300 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
4 ein Diagramm ist, das einen Pseudocode 400 für Metalernen zur Gesichtserkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
5 ein Diagramm ist, das einen Pseudocode 500 für eine Spielraum-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
6 ein Flussdiagramm ist, das ein beispielhaftes Verfahren 600 für ein Spielraum-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Ausführungsformen der vorliegenden Erfindung sind einen domänenverallgemeinerten Spielraum über Metalernen zur tiefen Gesichtserkennung gerichtet. Die Begriffe „Spielraum“ bzw. „Marge“ und verschiedene Formen gleicher Bedeutung und „Wichtigkeit bzw. Bedeutung auf Probenebene“ werden hier austauschbar verwendet. Die Begriffe „Instanzen“ und „Proben“ werden hier auch austauschbar verwendet.
Ausführungsformen der vorliegenden Erfindung stellen ein Trainingsverfahren bereit, um gleichzeitig mehrere Faktoren eines Datenungleichgewichts, wie beispielsweise Volumen, ethnische Zugehörigkeit, Okklusion und Kopfhaltung, in einem einheitlichen Rahmen bzw. Framework zu überwinden. Dies stellt einen Fortschritt gegenüber früheren Arbeiten dar, die Strategien zur Neugewichtung von Klassen verwenden und nur Volumenungleichgewichte behandeln.
Bei Ausführungsformen der vorliegenden Erfindung wird ein variationsbewusster Verlust auf Instanzenebene (ILVA (= Instance-Level Variation-Aware)) bereitgestellt, der jeden langfristigen Variationsfaktor in eine Wichtigkeitsmodellierung formuliert. Als nächstes wird ein additives Modell der Wichtigkeit vorher mit seinem Residuum vorgeschlagen, wobei das Residuum durch Metalernen unter einem ausgehaltenen Meta-Trainingssatz erlernt wird. Schließlich werden mehrere erlernte Wichtigkeiten kombiniert, um die Verteilung von Trainingsdaten über mehrere Variationsfaktoren hinweg neu auszugleichen.
1 ist ein Blockdiagramm, das eine beispielhafte Computing- bzw. Computer- bzw. Rechenvorrichtung 100 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Die Rechenvorrichtung 100 ist konfiguriert, um einen domänenverallgemeinerten Spielraum über Metalernen zur tiefen Gesichtserkennung bereitzustellen.
Die Computing- bzw. Computer- bzw. Rechenvorrichtung 100 kann als irgendein Typ von Berechnungs- oder Computervorrichtung verkörpert sein, die die hierin beschriebenen Funktionen durchführen kann, einschließlich, ohne Beschränkung, eines Computers, eines Servers, eines auf einem Rack basierenden Servers, eines Blade-Servers, einer Workstation, eines Desktop-Computers, eines Laptop-Computers, eines Notebook-Computers, eines Tablet-Computers, einer mobilen Computingvorrichtung, einer tragbare Computingvorrichtung, eines Netzwerkgeräts, eines Webgeräts, eines verteilten Computingsystems, eines prozessorbasierten Systems und/oder einer Unterhaltungselektronikvorrichtung. Zusätzlich oder alternativ kann die Computingvorrichtung 100 als ein oder mehrere Rechenschlitten, Speicherschlitten oder andere Racks, Schlitten, Computing-Gehäuse oder andere Komponenten einer physikalisch disaggregierten Computingvorrichtung verkörpert sein. Wie es in 1 gezeigt ist, enthält die Computingvorrichtung 100 illustrativ den Prozessor 110, ein Eingabe-/Ausgabe-Untersystem 120, einen Speicher 130, eine Datenspeichervorrichtung 140 und ein Kommunikations-Untersystem 150 und/oder andere Komponenten und Vorrichtungen, die üblicherweise in einem Server oder einer ähnlichen Computingvorrichtung zu finden sind. Natürlich kann die Computingvorrichtung 100 bei anderen Ausführungsformen andere oder zusätzliche Komponenten enthalten, wie beispielsweise diejenigen, die üblicherweise in einem Servercomputer zu finden sind (zB. verschiedene Eingabe-/Ausgabe-Vorrichtungen). Zusätzlich kann oder können bei einigen Ausführungsformen eine oder mehrere der illustrativen Komponenten in eine andere Komponente eingebaut sein oder anderweitig einen Teilbereich davon bilden. Zum Beispiel kann der Speicher 1 30, oder können Teilbereiche davon, bei einigen Ausführungsformen im Prozessor 110 eingebaut sein.
Der Prozessor 110 kann als irgendein Typ von Prozessor verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Der Prozessor 110 kann als einzelner Prozessor, mehrere Prozessoren, zentrale Verarbeitungseinheit(en) (CPU(s)), Grafikverarbeitungseinheit(en) (GPU(s)), Einzel- oder Mehrkern- prozessor(en), Digitalsignalprozessor(en), Mikrosteuerung(en) oder anderer Prozessor (andere Prozessoren) oder Verarbeitungs-/Steuerungs-Schaltung(en) verkörpert sein.
Der Speicher 130 kann als irgendein Typ von flüchtigem oder nichtflüchtigem Speicher oder Datenspeicher verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Im Betrieb kann der Speicher 130 verschiedene Daten und Software speichern, die während des Betriebs bzw. einer Operation der Computingvorrichtung 100, wie beispielsweise von Betriebssystemen, Anwendungen, Programmen, Bibliotheken und Treibern, verwendet werden. Der Speicher 130 ist kommunikativ mit dem Prozessor 110 über das I/O-Untersystem 120 gekoppelt, das als Schaltung und/oder Komponenten verkörpert sein kann, um Eingabe-/Ausgabe-Operationen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 zu ermöglichen. Zum Beispiel kann das I/O-Untersystem 120 als Speichersteuerungs-Hubs, Eingabe-/Ausgabe-Steuerungs-Hubs, Plattformsteuerungs-Hubs, integrierte Steuerschaltung, Firmware-Vorrichtungen, Kommunikationsverbindungen (zB. Punkt-zu-Punkt-Verbindungen, Busverbindungen, Drähte, Kabel, Lichtleiter, Leiterbahnen der Leiterplatten etc.) und/oder andere Komponenten und Untersysteme verkörpert sein oder diese anderweitig enthalten, um die Eingabe-/Ausgabe-Operationen zu ermöglichen bzw. erleichtern. Bei einigen Ausführungsformen kann das I/O-Untersystem 120 einen Teilbereich eines Systems auf einem Chip (SOC (= system-on-a-chip)) bilden und zusammen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 auf einem einzigen integrierten Schaltungschip eingebaut sein.
Die Datenspeichervorrichtung 140 kann als irgendein Typ von Vorrichtung oder Vorrichtungen verkörpert sein, die für die kurzfristige oder langfristige Speicherung von Daten konfiguriert ist oder sind, wie zum Beispiel Speichervorrichtungen und -schaltungen, Speicherkarten, Festplattenlaufwerke, Festkörperlaufwerke oder andere Datenspeichervorrichtungen. Die Datenspeichervorrichtung 140 kann einen Programmcode zur ordinalen Zeitreihenklassifikation mit fehlenden Informationen speichern. Das Kommunikations-Subsystem bzw. -Untersystem 150 der Computingvorrichtung 100 kann als irgendeine Netzwerkschnittstellensteuerung oder irgendeine andere Kommunikationsschaltung, -vorrichtung oder -sammlung bzw. -kollektion davon verkörpert sein, die Kommunikationen zwischen der Computingvorrichtung 100 und anderen entfernten Geräten bzw. Vorrichtungen über ein Netzwerk ermöglichen bzw. freigeben kann. Das Kommunikations-Untersystem 150 kann konfiguriert sein, um irgendeine oder mehrere Kommunikationstechnologien (zB. drahtgebundene oder drahtlose Kommunikationen) und assoziierte bzw. zugehörige Protokolle (zB. Ethernet, InfiniBand®, Bluetooth®, Wi-Fi®, WiMAX usw.) zu verwenden, um eine solche Kommunikation zu bewirken.
Wie es gezeigt ist, kann die Computingvorrichtung 100 auch eine oder mehrere periphere Vorrichtungen 160 enthalten. Die peripheren Vorrichtungen 160 können irgendeine Anzahl zusätzlicher Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder anderer peripherer Vorrichtungen enthalten. Zum Beispiel können die peripheren Vorrichtungen 160 bei einigen Ausführungsformen eine Anzeige, einen Berührungsbildschirm, eine Grafikschaltung, eine Tastatur, eine Maus, ein Lautsprechersystem, ein Mikrofon, eine Netzwerkschnittstelle und/oder andere Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder periphere Vorrichtungen enthalten.
Natürlich kann die Computingvorrichtung 100 auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in der Computingvorrichtung 100 enthalten sein, und zwar abhängig von der bestimmten Implementierung derselben, wie es von einem Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder drahtgebundenen Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen auch verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung von einem Fachmann auf dem Gebiet leicht in Betracht gezogen.
Wie er hierin verwendet ist, kann sich der Begriff „Hardwareprozessor-Subsystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Datenverarbeitungselemente (zB. logische Schaltungen, Verarbeitungsschaltungen, Befehlsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder rechenelementbasierten Steuerung (z.B. Logikgatter usw.) enthalten sein. Das Hardwareprozessor-Subsystem kann einen oder mehrere On-Board-Speicher enthalten (z.B. Caches, dedizierte Speicherarrays, schreibgeschützten Speicher bzw. Nurlesespeicher usw.). Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem einen oder mehrere Speicher enthalten, die sich auf oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardwareprozessor-Subsystem dediziert sein können (z B. ROM, RAM, Basic Input / Output System (BI OS) usw.).
Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Softwareelemente enthalten und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein bestimmtes Ergebnis zu erzielen.
Bei anderen Ausführungsformen kann das Hardwareprozessor-Subsystem dedizierte, spezialisierte Schaltkreise umfassen, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführen, um ein spezifiziertes Ergebnis zu erzielen. Solche Schaltungen können einen oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs (feldprogrammierbare Gate-Arrays) und/oder speicherprogrammierbare Logikarrays (PLAs) umfassen.
Diese und andere Variationen eines Hardwareprozessor-Subsystems werden ebenfalls gemäß Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
2 ist ein Blockdiagramm, das ein beispielhaftes Framework 200 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das Framework enthält einen Trainingssatz 210 mit einem Trainingsbatch T 211, einen Probenauswertungsprozess 215, einen Validierungssatz 220, einen Validierungsbatch V 221, ein gemeinsames Backbone 230, eine Marge bzw. einen Spielraum für Wichtigkeit 240, einen Metalerner 250, eine Multi-Variations-Marge 260 und einen IVLA-Verlust 270. Diese Elemente werden hierin nachstehend in weiterem Detail beschrieben.
3 ist ein Blockdiagramm auf hoher Ebene, das ein System/Verfahren zur tiefen Gesichtserkennung 300 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Das System/Verfahren 300 enthält einen Gesichtserkennungs-Engine-Trainingsblock 310, einen Verlustberechnungsblock 320, einen Validierungssatz 330, einen Metalernen-für-Wichtigkeitsgewichtung-Block 340, einen Metatrainings-Update-Block 350 und einen Erkennungs-Engine-Update-Block 360.
Der Erkennungs-Engine-Trainingsblock 310 verwendet ein ResNet-101-basiertes Backbone, das die beschnittenen Gesichtsbilder mit einer Größe von 1 00x1 00x3 als die Eingabe empfängt
Der Verlustberechnungsblock 320 nimmt die Ausgabe, einen Merkmalsvektor aus dem Erkennungs-Engine-Block als die Eingabe und verarbeitet das Merkmal in ein identitätsbezogenes Logit und bestraft es gegen das Ground-Truth-Identitäts-Label für den Verlust.
Der Validierungssatz 330 wird unabhängig ausgewählt, um die Metalernphase durchzuführen.
Das Metalernen für eine Wichtigkeitsgewichtung 340 ist ein modellunabhängiges Metalern-Framework, indem der Variationsverlust bestraft wird, um die Stichproben bzw. Proben bzw. Abtastungen aus dem Validierungssatz 330 auszuwählen, die die maximale komplementäre Verteilungsinformation aus dem aktuellen Trainingssatz-Batch haben, um dadurch die Trainingsverteilung derart anzureichern, dass sie ausgeglichener ist.
Der Metatrainings-Update-Block 350 verwendet die neuen Rückkoppel- bzw. Feedback-Validierungsdaten, um die Wichtigkeitsgewichtung für den aktuellen Trainingsbatch zu aktualisieren.
Der Erkennungs-Engine-Update-Block 360: Basierend auf der aktualisierten neuen Wichtigkeitsgewichtung führen wir die Verlustberechnung 320 erneut durch, um die Gewichte bzw. Gewichtungen der Erkennungs-Engine zu aktualisieren, um diese typische Aktualisierungsiteration abzuschließen.
Hier werden drei beispielhafte vermehrungsfähige Variationen vorgestellt, nämlich Unschärfe, Okklusion und Kopfhaltung, um die Trainingsdaten zu vermehren. Natürlich können auch andere Variationen verwendet werden, während der Sinngehalt der vorliegenden Erfindung erhalten bleibt.
Im Folgenden wird ein vertrauensbewusster bzw. konfidenzbewusster Identifikationsverlust eingeführt, um aus harten Beispielen zu lernen, was danach durch Aufteilen der Merkmalsvektoren in Untereinbettungen mit unabhängiger Konfidenz weiter erweitert wird. Später werden die eingeführten vermehrungsfähigen Variationen angewendet, um die Merkmals-Einbettungen weiter zu dekorrelieren. Eine Entdeckung von nicht vermehrungsfähiger Variation wird vorgeschlagen, um mehr Variationen für eine bessere Dekorrelation zu untersuchen. Schließlich wird eine unsicherheitsgesteuerte paarweise Metrik für Inferenz vorgeschlagen.
Selbstüberwachtes Multitasking-Lernen.
Die Variablendefinitionen lauten wie folgt:

x: die eingegebenen Gesichtsbilder
Y: das Ground-Truth-Identitätslabel
θ: die Erkennungs-Engine-Modellparameter
w: der Erkennungsklassifikator-Parameter
V: Anzeigen der spezifischen Domäne (Variation)
F_l: der Merkmals-(Ausgabe von 31 0)Vektor
s_i: der Skalierungsfaktor für den L_idt-Verlust (Gl. (2))
m: die L_idt-Verlustmarge

(1) Vorteil ziehen aus dem Lernen des harten Beispiels; Helfen bei Optimierung $L_{M T} (x, y; θ, w, v) = L_{i d t} (x, y; θ, w) + \sum_{t = 1}^{T} L_{d o m a i n}^{t} (x, y; θ, v_{t})$
$L_{i d t} (x, y; θ, w) = - log \frac{exp (s_{i} w_{y_{i}}^{T} f_{i} - m)}{exp (s_{i} w_{y_{i}}^{T} f_{i} - m) + \sum_{j \neq y_{i}} exp (s_{i} w_{y_{i}}^{T} f_{i})}$
$L_{d o m a i n} = - log \frac{exp (w_{y_{i}}^{T} f_{i})}{\sum_{j = y_{i}} exp (w_{j}^{T} ƒ_{i})},$
Domänenabgleich über Metalernen ${\tilde{θ}}^{t + 1} (ε^{t}) \leftarrow θ^{t} - n \frac{\partial \sum_{i \in T} L (ƒ (x_{i}; θ^{t}), y_{i}; m_{y i} + ε_{i}^{t})}{\partial θ}$
$ε^{t + 1} \leftarrow ε^{t} - τ \frac{\partial \sum_{i \in D} L (ƒ (x_{i}; {\tilde{θ}}^{t + 1} (ε^{t})), y_{i})}{\partial ε}$
$θ^{t + 1} \leftarrow θ^{t} - n \frac{\partial \sum_{i \in T} L (ƒ (x_{i}; θ^{t}), y_{i}; m_{y i} + ε_{i}^{t + 1}))}{\partial θ}$
Klassenabgleich als Domänenanpassung
Angenommen, es gibt einen Trainingssatz (Quelldomäne) ${(x_{i}, y_{i})}_{i = 1}^{n},$
der unabhängig und identisch verteilt bzw. i.i.d. aus einer langfristigen Verteilung P_s(x, y) gezogen wird - genauer gesagt, die marginale Verteilung P_s(y) von Klassen ist mit schweren Rändern, da es bei visueller Erkennung oft schwierig ist, Beispiele für seltene Klassen zu sammeln. Nichtsdestotrotz wird erwartet, dass ein Modell für visuelle Erkennung erlernt wird, um bei allen Klassen so wenig Fehler wie möglich zu machen: $Fehler = E_{P_{t} (x, y)} L (ƒ (x; θ), y),$
wobei eine Zieldomäne P_t(x, y) gewünscht wird, deren marginale Klassenverteilung P_t(y) zum Inferenzzeitpunkt ausgeglichener ist (z.B. eine gleichmäßige Verteilung), f(.;θ) das Erkennungsmodell, parametrisiert durch θ, ist, und L(·,·) ein 0-1 -Verlust ist. Die Notation L(·,·) wird ein wenig gelockert und während eines Trainings ein differenzierbare Ersatzverlust (d. h. Kreuzentropie) sein gelassen.
Als Nächstes wird ein Trick zur Wichtigkeitsprobenerstellung angewendet, um den erwarteten Fehler wie folgt mit der langfristigen bzw. Long-Tail-Quelldomäne zu verbinden: $Fehler = E_{P_{t} (x, y)} L (ƒ (x; θ), y)$
$= E_{P_{s} (x, y)} L (ƒ (x; θ), y) P_{t} (x, y) / P_{s} (x, y)$
$= E_{P_{s} (x, y)} L (ƒ (x; θ), y) \frac{P_{t} (y) P_{t} (x | y)}{P_{s} (y) P_{s} (x | y)}$
$: = E_{P_{s} (x, y)} L (ƒ (x; θ), y) w_{y} (1 + {\tilde{ε}}_{x, y}),$
wobei w_y = P_t(y)/P_s(y) und ε̃_x,y = P_t(x,y)/P_s(x|y)-1.
Bestehende klassenausgeglichene Verfahren konzentrieren sich auf eine Bestimmung der klassenweisen Gewichtungen {w_y} und resultieren in der folgenden Zielfunktion für ein Training: $min_{θ} \frac{1}{n} \sum_{i = 1}^{n} w_{y i} L (ƒ (x_{i}; θ), y_{i}),$
die den erwarteten Inferenzfehler (Gleichung (8)) durch Annehmen von ε̃_x,y = 0 oder, anders ausgedrückt, durch Annehmen von P_s(x|y) = P_t(x|y) für eine beliebige Klasse y annähert. Diese Annahme wird als Zielverschiebung bei einer Domänenanpassung bezeichnet.
Es wird behauptet, dass die Annahme einer gemeinsam genutzten bedingten Verteilung P_s(x|y) = P_t(x|y) im Allgemeinen, insbesondere für die Endklassen, nicht gilt. Man kann leicht einen repräsentativen Trainingssatz für Hund zusammenstellen, aber nicht für King Eider. Die vorliegende Erfindung schlägt vor, den Unterschied ε̃_x,y zwischen den bedingten Verteilungen von Quelle und Ziel explizit zu modellieren und zu einem verbesserten Algorithmus bei den klassenausgeglichenen Verfahren zu gelangen.
Modellierung der bedingten Unterschieden bzw. Differenzen
Der Einfachheit halber wird eine bedingte Gewichtung ε_x,y := w_y ε̃_x,y eingeführt und der erwartete Inferenzfehler wie folgt umgeschrieben: $Fehler = E_{P_{s} (x, y)} L (ƒ (x; θ), y) (w_{y} + ε_{x, y})$
$\approx \frac{1}{n} \sum_{i = 1}^{n} (w_{y i} + ε_{i}) L (ƒ (x_{i}; θ), y_{i}),$
wobei der letzte Term eine unverzerrte Schätzung des Fehlers ist. Insbesondere geht die vorliegende Erfindung nicht davon aus, dass die bedingten Verteilungen der Quell- und Zieldomänen gleich sind, d.h. es ist zulässig, dass P_s(x|y) ≠ P_t(x|y) und ε_i≠0 gilt. Daher besteht die Gewichtung für jedes Trainingsbeispiel aus zwei Teilen. Eine Komponente ist die klassenweise Gewichtung w_yii, und die andere ist die bedingte Gewichtung ε_i. Die vorliegende Erfindung muss beide Komponenten schätzen, um einen praktischen Algorithmus aus Gleichung (11) abzuleiten, da die zugrunde liegenden Verteilungen von Daten unbekannt sind, obwohl geglaubt wird, dass die Klassenverteilung des Trainingssatzes langfristig sein muss.
Schätzen der klassenweisen Gewichtungen {w_y}
Die vorliegende Erfindung lässt die klassenweisen Gewichtungen dem empirisch erfolgreichen Design in der Literatur ähneln. Insbesondere schätzt die vorliegende Erfindung klassenweise Gewichtungen durch die kürzlich vorgeschlagenen „effektiven Zahlen“. Angenommen, es gibt n_y Trainingsbeispiele für die y-te Klasse, dann gilt w_y ≈ (1 - β)/(1 - β^ny), wobei β ∈ [0,1) ein Hyperparameter mit dem empfohlenen Wert β = (n - 1)/n ist und n die Anzahl von Trainingsbeispielen ist.
Meta-Lernen der bedingten Gewichtungen {ε_i}
Die bedingten Gewichtungen werden durch Anpassen (für Kunden) eines Frameworks für Metalernen geschätzt.
Die Hauptidee besteht darin, einen ausgewogenen Entwicklungssatz D aus dem Trainingssatz herauszuhalten und ihn zu verwenden, um die Suche nach den bedingten Gewichtungen zu leiten, die das leistungsstärkste Erkennungsmodell f(·; θ) bei dem Entwicklungssatz ergeben. Die verbleibenden Trainingsdaten seien durch T bezeichnet. Die vorliegende Erfindung sucht die bedingten Gewichtungen ε := {ε_i} durch Lösen des folgenden Problems: $min_{ε} \frac{1}{| D |} \sum_{i \in D} L (x_{i}; θ * (ε), y_{i})$
mit $θ * (ε) \leftarrow arg min_{θ} \frac{1}{| T |} \sum_{i \in T} (w_{y_{i}} + ε_{i}) L (ƒ (x_{i}; θ), y_{i})$
wobei die vorliegende Erfindung die Verluste über dem Entwicklungssatz nicht gewichtet, der bereits ausgeglichen ist. Im Wesentlichen sucht das obige Problem nach den optimalen bedingten Gewichtungen, so dass, nachdem die vorliegende Erfindung ein Erkennungsmodell f(·; θ) durch Minimieren der Fehlerschätzung (Gleichungen (13) und (11)) lernt, das Modell die beste Leistung bei dem Entwicklungssatz erbringt (Gleichung (12)).
Es wäre entmutigend, das obige Problem durch Brute-Force- bzw. Holzhammer-Suche zu lösen, zB. durch Iterieren aller möglichen Sätze {ε} von bedingten Gewichtungen. Selbst wenn dies möglich ist, ist es rechnerisch unerschwinglich bzw. untragbar, für jeden Satz von Gewichtungen ein Erkennungsmodell f(· ; θ*(ε)) zu trainieren und dann das beste Modell von allen herauszufinden.
Stattdessen modifiziert die vorliegende Erfindung das Framework für Metalernen und sucht gierig nach den bedingten Gewichtungen. Die vorliegende Erfindung verschachtelt die Suche nach den Gewichtungen ε mit den Aktualisierungen bzw. Updates der Modellparameter θ unter Berücksichtigung des aktuellen Zeitschritts t. ${\tilde{θ}}^{t + 1} (ε^{t}) \leftarrow θ^{t} - n \frac{\partial \sum_{i \in T} (w_{y_{i}} + ε_{i}^{t}) L (ƒ (x_{i}; θ^{t}), y_{i}}{\partial θ}$
$ε^{t + 1} \leftarrow ε^{t} - τ \frac{\partial \sum_{i \in D} L (ƒ (x_{i}; {\tilde{θ}}^{t + 1} (ε^{t})), y_{i})}{\partial ε}$
$θ^{t + 1} \leftarrow θ^{t} - n \frac{\partial \sum_{i \in T} (w_{y_{i}} + ε_{i}^{t + 1}) L (ƒ (x_{i}; θ^{t}), y_{i})}{\partial θ}$
Die erste Gleichung versucht einen einstufigen Gradientenabstieg für θ^t unter Verwendung der durch die aktuellen bedingten Gewichtungen ε^t (plus den klassenweisen Gewichtungen) gewichteten Verluste. Die aktualisierten Modellparameter θ̃^t+1(ε^t) werden dann beim ausgeglichenen Entwicklungssatz D untersucht, der die bedingten Gewichtungen um einen Schritt aktualisiert. Die aktualisierten Gewichtungen ε^t+1 sind besser als die alten, was bedeutet, dass die von der letzten Gleichung zurückgegebenen Modellparameter θ^t+1 zu einem geringeren Erkennungsfehler beim Entwicklungssatz führen sollten als dies der Fall für θ^t+1 ist. Ausgehend von θ^t+1 und ε^t+1 bewegt sich die vorliegende Erfindung dann zur nächsten Aktualisierungsrunde.
4 ist ein Diagramm, das einen beispielhaften Pseudocode 400 für ein Spielraum- bzw. Margen-Metalernen auf Instanzenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Eine weitere Beschreibung wird nun bezüglich eines Ansatzes gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Zunächst wird gezeigt, dass die Kosinusverlustspanne bzw. -marge als Abtast- bzw. Probenwichtigkeit interpretiert werden kann, die in der Literatur nicht gezeigt worden ist. Im Gegensatz zu einem Kosinusverlust, der eine vordefinierte Konstante als die Marge sicherstellt, schlägt die vorliegende Erfindung eine variationsbewusste Marge auf Instanzenebene für jede Trainingsprobe vor, um ihre Wichtigkeit bzw. Bedeutung widerzuspiegeln. Darüber hinaus wird die Marge in eine vorhergehende Konstante und residuale dynamische Terme zerlegt, wobei das letztere mehrere Variationsfaktoren darstellt. Schließlich führt die vorliegende Erfindung ein Framework für Metalernen ein, um den residualen Term der Marge für jede Probe anzupassen.
Es wird nun eine Beschreibung bezüglich eines Interpretationsspielraums als Abtast- bzw. Probenwichtigkeit gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
{(x_i,y_i)}^N soll als der Trainingssatz mit x_i und y_i als i-te Eingabe und entsprechender Bezeichnung angenommen werden. Ein Kosinusverlust mit der konstanten Marge m wird für positive Proben durch Gleichung 1 definiert, die den CNN-Backbone des Modells zur tiefen Erkennung modelliert als f(x; Ω), wobei mit Ω als den Netzwerkparametern cosθ_i,yi das innere Produkt zwischen Merkmalsvektor f(x_i;Ω) und $y_{i}^{t h} - Klassenvorlage$
w_yi ist, nämlich $c o s θ_{i,_{y_{i}}} = w_{y_{i}}^{T} ƒ (x_{i}; Ω) .$
Die Marge m wird als positive Konstante eingestellt, um das innere Produkt cosθ_i,yi so zu drücken, dass es größer als die Marge ist. s ist ein Skalierungsfaktor, um die Trainingskonvergenz zu gewährleisten. $L_{c o s} = - l o g \frac{e^{s c o s θ_{i,_{y_{i}} - \bar{m}}}}{e^{s c o s θ_{i,_{y_{i} - \bar{m}}}} + \sum_{k \neq y_{i}}^{C} e^{s \cdot c o s θ_{i, k}}}$
Auf der anderen Seite führten Wichtigkeits-Neugewichtungsmethoden im Allgemeinen die Wichtigkeitsgewichtung σ_yi ein, um jede Probenverlustkomponente gemäß einen langfristigen bzw. Long-Tail-Situation der Probe neu zu gewichten. Somit kann das Netzwerktraining als Minimierung einer vorgeschlagenen gewichteten Verlustfunktion wie folgt formuliert werden: $min_{Ω} \frac{1}{N} \sum_{i = 1}^{N} σ_{y_{i}} L_{c o s} (ƒ (x_{i}; Ω), y_{i})),$
wobei N die Anzahl von Klassen ist Die klassenweise Gewichtung σ_yi ist im Allgemeinen derart entworfen, dass sie proportional zum Inversen der Anzahl von Proben pro Klasse ist Eine regelbasierte Methode bestimmt σ_yi als die „effektive Zahl“, die als $\frac{1 - β}{1 - β^{n_{y_{i}}}}$
definiert ist, wobei n_yi das Klassenvolumen ist. Kombiniert man Gleichung 14 mit Gleichung 15, erhält man Folgendes: $min_{Ω} \frac{1}{N} \sum_{i = 1}^{N} - l o g \frac{{[e^{s c o s θ_{i,_{y_{i} - \bar{m}}}}]}^{σ_{y_{i}}}}{{[e^{s c o s θ_{i,_{y_{i} - \bar{m}}}} + \sum_{k \neq y_{i}}^{C} e^{s \cdot c o s θ_{i,}} k]}^{σ_{y_{i}}}}$
Normalerweise ist der Nennerteil für verschiedene Klassen y_i im Allgemeinen ähnlich, d.h. alle nahe zu [e^s-m + C - ₁]^σyi. Der Zähler wird weiter umgerechnet in: $\begin{matrix} {[e^{s c o s θ_{i,_{y_{i} - \bar{m}}}}]}^{θ_{y_{i}}} = e^{σ_{y_{i}}} s c o s θ_{i,_{y_{i}}} - σ_{y_{i}} \bar{m} \\ = e^{s' c o s θ_{i,_{y_{i}}}} - m_{i} \end{matrix}$
Es ist herausgefunden worden, dass die Gleichung 16 des Neugewichtungsverlusts tatsächlich äquivalent zu einem modifizierten Kosinusverlust ist, wobei s' = σ_yis und m_i = σ_yi m jeweils als neuer Skalierer und Marge bzw. Rand definiert sind. Der Unterschied gegenüber Gleichung 14 besteht darin, dass bei der neuen Formulierung der Skalierer und die Marge beide proportional zur klassenbewussten Gewichtung σ_yi sind. Daher kann das Lernproblem der Probenwichtigkeit als Erlernen der Pro-Klassen-Marge m_i und des Skalierers s' im neuen Kosinusverlust-Framework übersetzt werden. Die vorliegende Erfindung betrachtet den festen Skalar $s = \sqrt{2} l o g (C - 1)$
und konzentriert sich hauptsächlich auf den Rand bzw. die Marge von dem Aspekt einer Wichtigkeitsabtastung aus, was in der Literatur nicht gut untersucht ist. Angesichts der obigen Diskussion spiegelt eine klassenbewusste Marge m_i die Probenwichtigkeit der Klasse y_i wider. Anstatt ein regelbasiertes Verfahren zur Zuweisung von m_i Werten zu verwenden, nutzt hier die vorliegende Erfindung ein auf Metalernen basierendes Verfahren, um adaptiv zu lernen, dass die optimale Wichtigkeit die Variation der Instanzen nicht ausreichend erfasst, d.h. zwei Gesichtsbilder von derselben Identität könnten unterschiedliche Wichtigkeit zeigen, da eines unter einer normalen Bedingung aufgenommen sein kann, während das andere mit großer Kopfhaltung oder unter schweren Lichtbedingungen aufgenommen sind kann.
Es wird nun eine Beschreibung bezüglich der Multi-Variations-Kosinusmarge gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
CosFace und andere auf einem Kosinusabstand basierende Methoden bzw. Verfahren gehen von einer konstanten Marge aus, die über den gesamten Datensatz geteilt bzw. gemeinsam genutzt wird, was äquivalent zu einer Zuweisung einer gleichen Probenwichtigkeit für alle Trainingsdaten ist. Wie es hierin erwähnt ist, bietet die Probenwichtigkeit auf Instanzenebene ein Erfassen besserer Variationen und sie spiegelt diese Variationen im Identifikationsverlust wider, was beim Kompensieren der Verzerrung der Trainingsdaten hilfreich sein kann.
Zu diesem Zweck schlägt die vorliegende Erfindung eine variationsbewusste Marge auf Instanzenebene m_yi,j vor, um jeder Probe eine Wichtigkeitsgewichtung zuzuweisen. Unterschiedliche Faktoren können zu einer langfristigen Verteilung in Bezug auf Trainingsdaten führen, und ein Betrachten von jedem dieser Faktoren würde zu einem anderen Satz von Marge auf Instanzenebene führen. Die vorliegende Erfindung zielt darauf ab, eine Reihe bzw. einen Satz von aufzählbaren Faktoren, wie beispielsweise ethnische Zugehörigkeit, Kopfhaltung, Bildunschärfegrad und Okklusionsgrad, zu kombinieren, um eine integrierte einzelne Marge bereitzustellen, die als Multi-Variations-Kosinusmarge bezeichnet wird, die alle vorgenannten Variationsfaktoren darstellt. Formal nutzt die vorliegende Erfindung ein additives Modell durch Kombinieren der regelbasierten Marge als vorherige $m_{y_{i}}^{c l s}$
und eines residualen bzw. verbleibenden dynamischen Terms, der eine Wichtigkeit jeder Variation darstellt: $m_{y_{i}, j} = m_{y_{i}}^{c l s} + \sum_{k} λ_{k} r_{y_{i,} j}^{k}, k \in {e t h, p o s e, o c c ., b l u r},$
wobei $m_{y_{i}}^{c l s}$
die Marge auf Klassenebene ist, die zuvor für eine Klasse y_i berechnet ist, und j für den Index auf Instanzenebene steht. $m_{y_{i}}^{c l s} = \frac{α}{n_{y_{i}}^{1 / 4}},$
α ist ein Hyperparameter und n_yi ist ein Probenvolumen der Klasse y_i. Intuitiv erhalten Kopfklassenproben (großes n_y) eine kleine Marge, während Leitklassenproben (kleines n_y) eine große Marge erhalten.
In Gleichung 15 ist k der Index, der die durch die vorliegenden Erfindungen definierten Variationen aufzählt, einschließlich eth für ethnische Zugehörigkeit, pose für Variation der Kopfhaltung, occ für Okklusionsverhältnisse über das gesamte Bild und blur für einen Bildunschärfegrad, wobei die vorliegende Erfindung synthetisierte Okklusion und Gaußsche Unschärfe zum Trainieren verwendet. λ_k ist der Kombinationsfaktor bezüglich jeder Variation, das umgekehrte Verhältnis der Anzahl der langfristigen bzw. Long-Tail-Proben in Bezug auf jede Variation. Es ist erwähnenswert, dass Σ_kλ_k = 1 gilt und diese Werte während des Trainings konstant sind. Schließlich definiert die vorliegende Erfindung unter Verwendung der vorgeschlagenen Marge auf Instanzenebene eine ILVA-Verlustfunktion wie folgt: $L_{I L V A} = - l o g \frac{e^{s c o s θ_{i,_{y_{i}} - m_{y_{i}, j}}}}{e^{s c o s θ_{i,_{y_{i}} - m_{y_{i}, j}}} + \sum_{k \neq y_{i}}^{C} e^{s \cdot c o s θ_{i_{, k}}}}$
Es wird nun eine Beschreibung bezüglich variationsbewusstem residualem Metalernen gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Es wird nun eine Beschreibung bezüglich variationsbewusstem residualen Metalernen in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Um den residualen Term bzw. Restterm der Wichtigkeitsgewichtung zu erhalten, nutzt die vorliegende Erfindung ein Framework für Metalernen, das einen vordefinierten Validierungssatz V als Eingabe verwendet. Der Validierungssatz teilt keinerlei gemeinsame Identität mit dem ursprünglichen Trainingssatz Die Hauptidee besteht darin, dass durch Überprüfen der Variation jeder Probe in einem Trainingsbatch erwartet wird, dass das Metalernen die Wichtigkeitsgewichtung für jede Probe dynamisch aktualisiert, so dass die Unzulänglichkeit jeder Variation (d. h. ethnische Zugehörigkeit, Kopfhaltung usw.) aus dieser spezifischen Probe hervorgehoben werden kann. Durch Rückkopplung eines solchen hervorgehobenen Residuums bzw. Rests zur Bildung der adaptiven Kosinusverlustmarge aktualisiert der vorgeschlagene ILVA-Verlust das Merkmalslernen auf alternative Weise.
Es wird nun eine Beschreibung bezüglich einer mehrzweigigen Basislinie gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Wie es hierin eingeführt ist, modelliert die vorliegende Erfindung die Marge als additive Formulierung, einschließlich eines vorherigen konstanten Terms, der auf der Grundlage einer Klassenvolumenungleichgewichtung vorbestimmt ist, und des Restterms $r = \sum_{k} r_{y i, j}^{k}$
in Gleichung 1 5. Die vorliegende Erfindung betrachtet die mit g(·; u) bezeichnete Identifikationsaufgabe als die Hauptaufgabe und wendet den vorgeschlagenen ILVA-Verlust an, um das Erkennungs-Backbone zu aktualisieren. Zusätzlich entspricht jede Variation einem Restterm in der Formulierung. Um alle Margen zu modellieren, die sich auf diese Variationen beziehen, richtet die vorliegende Erfindung ein auf mehreren Zweigen basierendes Framework ein. Insbesondere richtet die vorliegende Erfindung für jeden der aufgezählten Faktoren von Variation, ethnischer Zugehörigkeit, Kopfhaltung, Unschärfe und Okklusion einen Klassifikator ein g(·: v_k). Zum Beispiel richtet die vorliegende Erfindung den Ethnizitätsklassifikator mit vier Klassen ein, um die Ethnizitätsbezeichnungen bzw. -Labels $y_{i}^{k}$
vorherzusagen, die als kaukasisch, afroamerikanisch, ostasiatisch und südasiatisch definiert sind.
Im Gegensatz zum klassischen Multitasking-Lernen tragen die Variationsaufgaben nicht zum Erlernen des gemeinsam genutzten Backbones f(·; Ω) bei und sie werden nur zur Aktualisierung der Parameter in Klassifikatoren g(·: v_k) verwendet. Die Variationsklassifikatoren werden implementiert, um Verlustfeedback bzw. -rückkopplung für die Aktualisierung des Moduls für Metalernen bereitzustellen. Der Grund, warum Variationsklassifikatoren nicht verwendet werden, um das Identitätsmerkmal zu aktualisieren, besteht darin, dass die Variationen tatsächlich das Identifizierungsmerkmal für irrelevante ID-Aufgaben fördern, was zu einem id-varianten Merkmal führt. Das Training ähnelt dem kontradiktorischen bzw. gegnerischen Lernen: Die Hauptaufgabe verwendet ILVA, um das ID-Merkmal zu lernen, das für andere Variationen unveränderlich bzw. invariant ist, während die Variationsaufgaben den Klassifikator lernen und das Metalernen mit einem Validierungssatz verwenden, um die Marge auf Instanzenebene im ILVA-Verlust zu entzerren bzw. korrigieren, um die Ausläuferproben hervorzuheben.
Das Ziel beim Trainieren der Variationsklassifikatoren ist der Kreuzentropieverlust: $L_{v a r}^{k} (x, y^{k}; v_{k}) = \sum_{j} L_{c e} (g (f (x_{j}; Ω); v_{k}), y_{j}^{k}),$
wobei $L_{v a r}^{k}$
der Kreuzentropieverlust für eine Variationsaufgabe k ist und $y_{j}^{k}$
die Bezeichnung bzw. das Label für eine Probe j unter der Variationsaufgabe k ist.
Es wird nun eine Beschreibung des Multi-Variations-Metalernens gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Es wird realisiert, dass die Basislinie bzw. Baseline die Wichtigkeitsgewichtung nicht ändert. Um das Verteilungsungleichgewicht entlang jeder Variation herauszufinden, verwendet die vorliegende Erfindung die vorhergesagten Logits von trainierten Klassifikatoren v_k, um die Punktzahl bzw. die Auswertung bzw. den Wert anzuzeigen. Es wird angenommen, dass Proben, die bei einer Variationsverteilung nahe beieinander liegen, die ähnlichen Klassifikatorlogits bringen.
Es wird nun eine Beschreibung bezüglich einer harten Auswertung bzw. Gewinndung von Validierungsproben gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Um die Ausläuferverteilungsinformation basierend auf einem Trainingsbatch effektiv zurück zu koppeln bzw. zu melden, führt die vorliegende Erfindung eine harte Probenauswertung durch, um nach den markantesten Proben aus einem vordefinierten Validierungssatz V zu suchen, der keine Identitätsüberschneidung mit dem Trainingssatz hat. ${x_{j}} : \underset{x_{j} \in V}{argmax} | | v_{k} (x_{j}) - v_{k} (x_{b}) | |_{2}, x_{b} \in B,$
wobei x_b eine Probe aus dem aktuellen Trainingsbatch B ist. v_k(.) stellt vorhergesagte Logits durch einen k-ten Variationsklassifikator dar. Im nächsten Schritt werden ausgewählte Proben der vorgeschlagenen Technik einer harten Auswertung (Hard-Mining) verwendet, um das Modul für Metalernen zu trainieren.
Als nächstes werden die erforderlichen Schritte erklärt, um eine Iteration des vorgeschlagenen Frameworks für Metalernen durchzuführen. Der Einfachheit halber wird bei den Formulierungen der Klassenindex i weggelassen und wird nur der Probenindex j beibehalten.
Es wird nun eine Beschreibung bezüglich der Pseudomodellaktualisierung gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Bei jeder Iteration t tastet die vorliegende Erfindung einheitlich einen Stapel bzw. Stapel T aus den Trainingsdaten ab und speist ihn in das Erkennungsmodell ein, um die Modellparameter Ω zu aktualisieren. Es ist zu beachten, dass die Aktualisierung des Modells Ω auf die vorherige Iteration t - 1 zurückgesetzt werden kann, wenn das aktuelle Modell Ω keine bessere Leistung erzielt. $Ω_{t} : \underset{Ω}{argmin} \sum_{j \in T} L_{I L V A} (f (x_{j}; Ω, m_{j, t}), y_{j})$
Es wird nun eine Beschreibung bezüglich einer Metaaktualisierung am Margenrest gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Die vorliegende Erfindung nutzt das durch Gleichung 22 beschriebene onlinemäßige Verfahren zur harten Auswertung von Proben, um den Validierungsbatch aus einem Validierungssatz V vorzubereiten. Unter Verwendung des im vorherigen Schritt aktualisierten Modellparameters Ω_t nutzt dann die vorliegende Erfindung den Verlust der Klassifizierung von Variationen mit mehreren Zweigen, um Margen-Restterme zu aktualisieren: $r_{j, t + 1} : \underset{m_{j, t}}{argmin} \sum_{k, j \in V} L_{v a r}^{k} (f (x_{j}; Ω_{t}, m_{j, t}), v_{k}, y_{j}^{k})) .$
Mit r_j,t+1 wird eine Marge m_j,t+1 über Gleichung 15 erhalten. Die aktualisierte Marge m_j,t+1 wäre besser als die vorherige Aktualisierung m_j,t in dem Sinne, dass sie in kleineren Klassifizierungsfehlern bei Variationsaufgaben führt, indem mehrere Variationsfaktoren ausgeglichen werden.
Es wird nun eine Beschreibung bezüglich einer realen Modellaktualisierung gemäß einer Ausführungsform der vorliegenden Erfindung gegeben werden.
Die vorliegende Erfindung wendet die erhaltene neue Wichtigkeitsspanne bzw. -marge m_j,t+1 an, um die Aktualisierung des realen Erkennungsmodells durchzuführen: $Ω_{t + 1} : \underset{Ω}{argmin} \sum_{j \in T} L_{I L V A} (f (x_{j}; Ω, m_{j, t + 1}), y_{j})$
Der Gesamtalgorithmus ist im Algorithmus 2 in 5 zusammengefasst. Die vorliegende Erfindung verfolgt die optimale Marge m_j, die den Verlust in Gleichung 24 minimiert, während sie gleichzeitig eine optimale Leistung für die Aktualisierung des Gesichtserkennungsmodells f(·; Ω) erbringt. Die vorliegende Erfindung betrachtet mehrere Verzweigungen für $r_{j}^{k},$
um das Residuum bzw. den Rest zu schätzen, wobei eine einzelne Domänengewichtung selbst zu einer Schätzungsverzerrung führen würde.
6 ist ein Flussdiagramm, das ein beispielhaftes Verfahren für ein Margen-Metalernen auf Probenebene gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Bei einem Block 610 erfolgt ein Durchführen eines Vorwärtstrainings für einen Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden.
Bei einem Block 620 erfolgt ein Berechnen von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner.
Bei einem Block 630 erfolgt ein Erhalten eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und ein Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell W_hat(t).
Bei einem Block 640 erfolgt ein Weiterleiten eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell W_hat(t).
Bei einem Block 650 erfolgt ein Erhalten eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und ein Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten.
Bei einem Block 660 erfolgt ein Erhalten eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und ein Aktualisieren, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
Die Bedeutung einer Entsprechung einer nächsten Iteration: Das auf Metalernen basierende Aktualisieren eines Modells w(t) ist von entscheidender Bedeutung, da es die ergänzende Information aus dem Validierungssatz nutzt und das Verteilungsungleichgewicht basierend auf dem Feedback bzw. der Rückmeldung des Domänenklassifikators (Variationsklassifikators) automatisch erkennt, um das Ungleichgewicht beim Gesichtserkennungstraining zu mildern. Da das Training iterativ ist, basiert jede Phase des Trainingsmodells auf der vorherigen Aktualisierung des Trainingsmodells. Das aktualisierte Trainingsmodell w(t+1) ist der Ausgangspunkt der nächsten Iteration.
Die vorliegende Erfindung kann ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailebene einer Integration sein. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder Medien) mit computerlesbaren Programmanweisungen darauf enthalten, um zu veranlassen, dass ein Prozessor Aspekte der vorliegenden Erfindung auszuführt.
Das computerlesbare Speichermedium kann ein konkretes Gerät sein, das Anweisungen zur Verwendung durch ein Anweisungs- bzw. Befehlsausführungsgerät beibehalten und speichern kann. Das computerlesbare Speichermedium kann zum Beispiel eine elektronische Speichervorrichtung, eine magnetische Speichervorrichtung, eine optische Speichervorrichtung, eine elektromagnetische Speichervorrichtung, eine Halbleiterspeichervorrichtung oder eine geeignete Kombination aus dem Vorstehenden sein, ist aber nicht darauf beschränkt. Eine nicht erschöpfende Liste spezifischerer Beispiele für das computerlesbare Speichermedium enthält das Folgende: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nurlese-Speicher (ROM), einen löschbaren programmierbaren Nurlese-Speicher (EPROM- oder Flash-Speicher), einen statischer Direktzugriffsspeicher (SRAM), einen tragbaren CD-Nurlese-Speicher (CD-ROM), eine digitale vielseitige Diskette (DVD), einen Speicherstick, eine Diskette, eine mechanisch codierte Vorrichtung, wie beispielsweise Lochkarten oder erhöhte Strukturen in einer Rille mit darauf aufgezeichneten Anweisungen, und irgendeine geeignete Kombination von dem Vorstehenden. Ein computerlesbares Speichermedium, wie es hierin verwendet wird, ist nicht derart auszulegen, dass es für flüchtige Signale per se steht, wie beispielsweise Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, sich durch einen Hohlleiter oder andere Übertragungsmedien ausbreitende elektromagnetische Wellen (zB. Lichtimpulse, die durch ein Glasfaserkabel laufen) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können zu jeweiligen Computing-/Verarbeitungsvorrichtung von einem computerlesbaren Speichermedium oder zu einem externen Computer oder einer externen Speichervorrichtung über ein Netzwerk, zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, optische Übertragungsfasern, eine drahtlose Übertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Computing-/Verarbeitungsvorrichtung empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der jeweiligen Computing-/Verarbeitungsvorrichtung weiter.
Computerlesbare Programmanweisungen zum Ausführen von Operationen der vorliegenden Erfindung können Assembler-Anweisungen, Befehlssatz-Architektur-(ISA(= Instruction-Set-Architecture)-)Anweisungen, Maschinenanweisungen, maschinenabhängige Anweisungen, ein Mikrocode, Firmware-Anweisungen, Zustandseinstellungsdaten sein, oder entweder ein Quellcode oder ein Objektcode, der in irgendeiner Kombination von einer oder mehreren Programmiersprachen geschrieben ist, einschließlich einer objektorientierten Programmiersprache, wie beispielsweise SMALLTALK, C++ oder dergleichen, und konventionellen prozeduralen Programmiersprachen, wie beispielsweise der Programmiersprache „C“, oder ähnlichen Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer eines Anwenders, teilweise auf dem Computer eines Anwenders, als eigenständiges Softwarepaket, teilweise auf dem Computer eines Anwenders und teilweise auf einem entfernten Computer bzw. Remotecomputer oder vollständig auf dem entfernten Computer bzw. Remotecomputer oder einem Server ausgeführt werden. Im letzteren Szenario kann der Remotecomputer mit dem Computer des Benutzers über irgendeinen Typ von Netzwerk verbunden sein, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzwerks (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). Bei einigen Ausführungsformen kann eine elektronische Schaltung, einschließlich zum Beispiel einer programmierbaren Logikschaltung, feldprogrammierbarer Gate-Arrays (FPGA) oder programmierbarer Logikarrays (PLA), die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformation der computerlesbaren Programmanweisungen verwendet, um die elektronische Schaltung zu personalisieren, um Aspekte der vorliegenden Erfindung auszuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Flussdiagrammdarstellungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß den Ausführungsformen der Erfindung beschrieben. Es wird verstanden werden, dass jeder Block der Flussdiagrammdarstellungen und/oder Blockdiagramme und Kombinationen von Blöcken in den Flussdiagrammdarstellungen und/oder Blockdiagrammen durch computerlesbare Programmanweisungen implementiert werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines allgemeinen Computers, eines speziellen Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zur Verfügung gestellt werden, um eine Maschine herzustellen, so dass die Anweisungen, die über den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausführen, Mittel zum Implementieren der im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagrammblocks spezifizierten Funktionen/Handlungen schaffen. Diese computerlesbaren Programmanweisungen können auch in einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Vorrichtungen anweisen kann, auf eine bestimmte Weise zu funktionieren, so dass das computerlesbare Speichermedium mit darin gespeicherten Anweisungen einen Herstellungsgegenstand einschließlich Anweisungen umfasst, die Aspekte der im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagramms spezifizierten Funktion/Handlung implementieren.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Vorrichtung geladen werden, um zu veranlassen, dass eine Reihe von Betriebs- bzw. Operations- bzw. Arbeitsschritten auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Vorrichtung durchgeführt wird, um einen computerimplementierten Prozess zu erzeugen, so dass die Anweisungen, die auf dem Computer, einer anderen programmierbaren Vorrichtungen oder einer anderen Vorrichtung ausführen, die im Flussdiagramm und/oder im Block oder in Blöcken des Blockdiagramms spezifizierten Funktionen/Handlungen implementieren.
Das Flussdiagramm und die Blockdiagramme in den Figuren stellen die Architektur, die Funktionalität und eine Operation bzw. einen Betrieb von möglichen Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung dar. In diesem Zusammenhang kann jeder Block im Flussdiagramm oder in den Blockdiagrammen ein Modul, ein Segment oder einen Teilbereich von Anweisungen darstellen, das oder der eine oder mehrere ausführbare Anweisungen zum Implementieren der spezifizierten logischen Funktion(en) umfasst. Bei einigen alternativen Implementierungen können die im Block vermerkten Funktionen außerhalb der in den Figuren angegebenen Reihenfolge auftreten. Zum Beispiel können zwei Blöcke, die nacheinander angezeigt sind, tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal in umgekehrter Reihenfolge ausgeführt werden, und zwar abhängig von der beteiligten Funktionalität. Es wird bemerkt werden, dass jeder Block der Blockdiagramme und/oder der Flussdiagrammdarstellung und Kombinationen von Blöcken in den Blockdiagrammen und/oder der Flussdiagrammdarstellung durch spezielle hardwarebasierte Systeme implementiert werden kann oder können, die die spezifizierten Funktionen oder Handlungen durchführen oder Kombinationen von spezieller Hardware und Computeranweisungen ausführen.
Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform.
Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann, wie es für Fachleute auf dem Gebiet ohne weiteres offensichtlich ist, für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern vielmehr aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt erwünscht wird, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17/521252 [0001]
US 63/111658 [0001]
US 63/114014 [0001]

Claims

Computerimplementiertes Verfahren zum Trainieren eines Modells für tiefe Gesichtserkennung, umfassend: Durchführen (610) eines Vorwärtstrainings an einem Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden; Berechnen (620) von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner; Erhalten (630), durch eine Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell w_hat(t); Weiterleiten (640) eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell w_hat(t); Erhalten (650), durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und Erhalten (660), durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und Aktualisieren (660), unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
Computerimplementiertes Verfahren nach Anspruch 1, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.
Computerimplementiertes Verfahren nach Anspruch 2, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch proportional zu klassenbewussten Gewichtungen für die Proben im Trainingsbatch ist.
Computerimplementiertes Verfahren nach Anspruch 1, wobei dem Validierungssatz ein gemeinsames Nutzen von Identitäten mit dem Trainingssatz fehlt.
Computerimplementiertes Verfahren nach Anspruch 1, wobei der Trainingssatz Variationen umfasst, die ethnische Variationen, Haltungsvariationen, Okklusionsverhältnisse über ganze Bilder und Bildunschärfegrade enthalten.
Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Überprüfen einer Probenvariation von jeder einer Vielzahl von Proben im Trainingsbatch umfasst, um die Wichtigkeitsgewichtung auf Probenebene für jede der Vielzahl von Proben dynamisch zu aktualisieren, so dass jede Variationsunzulänglichkeit hervorgehoben wird.
Computerimplementiertes Verfahren nach Anspruch 6, wobei die Variation unzureichend aus der Gruppe ausgewählt wird, die aus ethnischen Variationen, Haltungsvariationen, Okklusionsverhältnissen über ganze Bilder und Bildunschärfestufen besteht.
Computerimplementiertes Verfahren nach Anspruch 1, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch über die Proben im Trainingsbatch nicht konstant ist.
Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Durchführen, unter Verwendung des trainierten Modells w(t+1), einer Gesichtserkennungssession umfasst, um eine Identität eines Individuums zu erzeugen.
Computerprogrammprodukt zum Trainieren eines Modells für tiefe Gesichtserkennung, wobei das Computerprogrammprodukt ein nicht-transitorisches computerlesbares Speichermedium mit damit verkörperten Programmanweisungen umfasst, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahren durchführt, das folgendes umfasst Durchführen (610), durch eine Prozessorvorrichtung des Computers, eines Vorwärtstrainings an einem Trainingsbatch von Proben, um ein Gesichtserkennungsmodell w(t) auszubilden; Berechnen (620), durch die Prozessorvorrichtung, von Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner; Erhalten (630), durch die Prozessorvorrichtung, eines Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs und Aktualisieren, unter Verwendung des Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem Gesichtserkennungsmodell w_hat(t); Weiterleiten (640), durch die Prozessorvorrichtung, eines Validierungsbatchs von Proben zum Gesichtserkennungsmodell w_hat(t); Erhalten (650), durch die Prozessorvorrichtung, eines Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) und Aktualisieren, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), einer Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und Erhalten (660), durch die Prozessorvorrichtung, eines aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch und Aktualisieren (660), unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, des Gesichtserkennungsmodells w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration.
Computerprogrammprodukt nach Anspruch 10, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.
Computerprogrammprodukt nach Anspruch 11, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch proportional zu klassenbewussten Gewichtungen für die Proben im Trainingsbatch ist.
Computerprogrammprodukt nach Anspruch 10, wobei dem Validierungssatz ein gemeinsames Nutzen von Identitäten mit dem Trainingssatz fehlt.
Computerprogrammprodukt nach Anspruch 10, wobei der Trainingssatz Variationen umfasst, die ethnische Variationen, Haltungsvariationen, Okklusionsverhältnisse über ganze Bilder und Bildunschärfegrade enthalten.
Computerprogrammprodukt nach Anspruch 10, das weiterhin ein Überprüfen einer Probenvariation von jeder einer Vielzahl von Proben im Trainingsbatch umfasst, um die Wichtigkeitsgewichtung auf Probenebene für jede der Vielzahl von Proben dynamisch zu aktualisieren, so dass jede Variationsunzulänglichkeit hervorgehoben wird.
Computerprogrammprodukt nach Anspruch 15, wobei die Variation unzureichend aus der Gruppe ausgewählt wird, die aus ethnischen Variationen, Haltungsvariationen, Okklusionsverhältnissen über ganze Bilder und Bildunschärfestufen besteht.
Computerprogrammprodukt nach Anspruch 10, wobei die aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch über die Proben im Trainingsbatch nicht konstant ist.
Computerprogrammprodukt nach Anspruch 10, das weiterhin ein Durchführen, unter Verwendung des trainierten Modells w(t+1), einer Gesichtserkennungssession umfasst, um eine Identität eines Individuums zu erzeugen.
Computerverarbeitungssystem zum Trainieren eines Modells für tiefe Gesichtserkennung, umfassend: eine Speichervorrichtung (140) zum Speichern von Programmcode; und eine Prozessorvorrichtung (110), die operativ mit der Speichervorrichtung gekoppelt ist, um den Programmcode auszuführen, um: ein Vorwärtstraining an einem Trainingsbatch von Proben durchzuführen, um ein Gesichtserkennungsmodell w(t) auszubilden; Probengewichtungen für den Trainingsbatch basierend auf einem Metalerner zu berechnen; einen Gradienten des Trainingsbatchs in Bezug auf Modellgewichtungen des Trainingsbatchs zu erhalten und, unter Verwendung des Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem Gesichtserkennungsmodell w_hat(t) zu aktualisieren; einen Validierungsbatch von Proben zum Gesichtserkennungsmodell w_hat(t) weiterzuleiten; einen Gradienten des Validierungsbatchs in Bezug auf einen Metalerner theta(t) zu erhalten und, unter Verwendung des Gradienten des Validierungsbatchs und des Gesichtserkennungsmodells W_hat(t), eine Wichtigkeitsgewichtung von Proben auf Probenebene im Trainingsbatch zu aktualisieren, um eine aktualisierte Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten; und einen aktualisierten Gradienten des Trainingsbatchs basierend auf der aktualisierten Wichtigkeitsgewichtung der Proben auf Probenebene im Trainingsbatch zu erhalten und, unter Verwendung des aktualisierten Gradienten des Trainingsbatchs, das Gesichtserkennungsmodell w(t) zu einem trainierten Modell w(t+1) entsprechend einer nächsten Iteration zu aktualisieren.
Computerverarbeitungssystem nach Anspruch 19, wobei eine Gewichtung für jede der Proben im Trainingsbatch, verwendet für ein Modelltraining, eine Gewichtung auf Klassenebene und die aktualisierte Wichtigkeitsgewichtung auf Probenebene umfasst.