DE102018218767A1

DE102018218767A1 - Verfahren und einrichtung zum trainieren von gesichtserkennungsmodell

Info

Publication number: DE102018218767A1
Application number: DE102018218767.3A
Authority: DE
Inventors: Meng Zhang; Rujie Liu; Jun Sun
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-03
Filing date: 2018-11-02
Publication date: 2019-05-09
Also published as: CN109753850B; CN109753850A; US20190138854A1; US10769499B2; JP7119907B2; JP2019087242A

Abstract

Ein Verfahren und eine Einrichtung zum Trainieren eines Gesichtserkennungsmodells werden bereitgestellt durch Entfernen schwarzer Augenhöhlen und von Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, das aus einem tatsächlichen Szenario erfasst wird, um zweite tatsächliche Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Unterteilen von aus einem, ein Gesicht enthaltenden Bild aufgebauten Original-Trainingsdaten in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger ist als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen von vierten Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in dem zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells basierend auf den vierten Trainingsdaten.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich allgemein auf das Gebiet von Informationsverarbeitungstechnologie. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren und eine Einrichtung, die zum Trainieren eines Gesichtserkennungsmodells in der Lage sind, mit Trainingsdaten, die mit einem Anteil des Tragens von Brillen in einem tatsächlichen Szenario koinzidieren.
HINTERGRUND
In den letzten Jahren hat es mit der Entwicklung von Informationstechnologie mehr und mehr Systeme und Applikationen gegeben, die auf menschlicher Gesichtserkennung basieren, welche von einer großen Menge an Trainingsdaten und konvolutionalen neuronalen Netzwerken, CNNs, profitieren. Jedoch existiert eine große Herausforderung zum Durchführen von menschlicher Gesichtserkennung für ein Brillentrag-Human-Gesichtsbild. Der Hauptgrund liegt in einem Mangel an Brillentrag-Human-Gesichtsbildern für das Training eines Human-Gesichtserkennungsmodells. Derzeit gibt es offene Human-Gesichtsdatenbanken, wie etwa WebFace und MS-Celeb-1M-Datenbanken. Jedoch beinhalten diese Datenbanken hauptsächlich Bilddaten berühmter Personen, wohingegen die berühmten Personen im Allgemeinen selten Brillen tragen. Daher sind Anteile des Tragens von Brillen in diesen Datenbanken niedriger als Anteile des Tragens von Brillen in den konventionellen Mengen. Zusätzlich sind die meisten der durch die berühmten Personen getragenen Brillen Sonnenbrillen, die sich von Nahsichtbrillen, die allgemein in konventionellen Mengen getragen werden, unterscheiden. Es ist offensichtlich arbeitsaufwendig und ressourcenaufwendig, eine große Anzahl von Brillentrag-Human-Gesichtsdaten zu sammeln.
Um das vorstehende Problem zu lösen, schlägt die vorliegende Erfindung ein Verfahren zum Erzeugen eines Brillentragbildes so vor, dass ein Anteil des Tragens von Brillen in einem Trainingsbild mit einem Anteil des Tragens von Brillen in einem tatsächlichen Szenario koinzidiert, wodurch es vorteilhaft beim Trainieren eines Gesichtserkennungsmodells ist.
Daher intendiert die vorliegende Erfindung, ein Verfahren und eine Einrichtung bereitzustellen, die zum Trainieren eines Gesichtserkennungsmodells mit Trainingsdaten in der Lage sind, die mit einem Anteil des Tragens von Brillen in einem tatsächlichen Szenario koinzidieren.
ZUSAMMENFASSUNG DER ERFINDUNG
Eine kurze Zusammenfassung der vorliegenden Erfindung ist unten angegeben, um ein grundlegendes Verständnis einiger Aspekte der vorliegenden Erfindung bereitzustellen. Es versteht sich, dass die Zusammenfassung nicht erschöpfend ist und sie nicht beabsichtigt ist, einen Schlüssel oder wichtigem Teil der vorliegenden Erfindung zu definieren und nicht beabsichtigt ist, den Schutzumfang der vorliegenden Erfindung zu beschränken. Die Aufgabe der Zusammenfassung ist es nur, kurz einige Konzepte zu präsentieren, was als eine Präambel der detaillierten Beschreibung dient, die nachfolgt.
Eine Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Einrichtung zum Trainieren eines Gesichtserkennungsmodells mit Trainingsdaten vorzuschlagen, die mit einem Anteil des Tragens von Brillen in einem tatsächlichen Szenario koinzidieren.
Um die vorstehende Aufgabe zu lösen, wird gemäß einem Aspekt der vorliegenden Erfindung ein Verfahren zum Trainieren eines Gesichtserkennungsmodells bereitgestellt, welches umfasst: Entfernen von schwarzen Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, das aus einem tatsächlichen Szenario erfasst wird, um tatsächliche zweite Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Unterteilen von Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist; Erzeugen von Brillentrag-Dritt- Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen vierter Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Einrichtung zum Trainieren eines Gesichtserkennungsmodells bereitgestellt, umfassend: eine Entfernungsvorrichtung, die konfiguriert ist, schwarze Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten zu entfernen, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, welches aus einem tatsächlichen Szenario erfasst wird, um zweite tatsächliche Szenariodaten zu ermitteln; eine Zählvorrichtung, die konfiguriert ist: einen Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten zu zählen; eine Unterteilungsvorrichtung, die konfiguriert ist: Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten zu unterteilen, wobei ein Anteil des Tragens von Brillen in den ursprünglichen Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist; eine Hinzufüge-Brillenvorrichtung, die konfiguriert ist: Brillentrag-Dritt-Trainingsdaten zu erzeugen, basierend auf Brillendaten und den zweiten Trainingsdaten; eine Anteilsjustiervorrichtung, die konfiguriert ist: vierte Trainingsdaten zu erzeugen, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den ursprünglichen Trainingsdaten; und eine Modelltrainingsvorrichtung, die konfiguriert ist: das Gesichtserkennungsmodell, basierend auf den vierten Trainingsdaten, zu trainieren.
Zusätzlich wird gemäß einem anderen Aspekt der vorliegenden Erfindung weiter ein Speichermedium bereitgestellt. Das Speichermedium umfasst maschinenlesbare Programmcodes, die bei Ausführung auf einer Informationsverarbeitungsvorrichtung die Informationsverarbeitungseinrichtung veranlassen, das vorstehende Verfahren gemäß der vorliegenden Erfindung zu implementieren.
Darüber hinaus wird gemäß noch einem anderen Aspekt der vorliegenden Erfindung weiterhin ein Programmprodukt bereitgestellt. Das Programmprodukt umfasst maschinenausführbare Anweisungen, die bei Ausführung auf einer Informationsverarbeitungseinrichtung die Informationsverarbeitungseinrichtung veranlassen, das vorstehende Verfahren gemäß der vorliegenden Erfindung zu implementieren.
Figurenliste
Die vorstehenden und anderen Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden leichter unter Bezugnahme auf die Beschreibung von Ausführungsformen der vorliegenden Erfindung, die zusammen mit den Zeichnungen nachfolgend gegeben wird, verstanden werden. Die Komponenten in den Zeichnungen ziehen nur darauf, das Prinzip der vorliegenden Erfindung zu zeigen. Die gleichen oder ähnliche technische Merkmale oder Komponenten werden mit den gleichen oder ähnlichen Bezugszeichen in den Zeichnungen bezeichnet werden. In den Zeichnungen:

zeigt 1 ein Flussdiagramm eines Verfahrens zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung;
zeigt 2 ein Flussdiagramm eines Verfahrens zum Unterteilen eines Bildes, das ein Gesicht in den Original-Trainingsdaten entsprechend dem, ob das Bild eine Brille trägt, beinhaltet;
zeigt 3 ein Verfahren zum Erzeugen von Brillentrag-Dritt-Trainingsdaten;
zeigt 4 ein Verschmelzungsverfahren, um die Augen dazu zu bringen, kleiner zu werden;
zeigt 5 ein Strukturblockdiagramm einer Einrichtung zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung; und
zeigt 6 ein schematisches Blockdiagramm eines Computers, der zum Implementieren des Verfahrens und der Einrichtung gemäß den Ausführungsformen der vorliegenden Erfindung verwendet werden kann.

DETAILIERTE BESCHREIBUNG DER ERFINDUNG
Beispielhafte Ausführungsformen der vorliegenden Erfindung werden im Detail in Kombination mit den Zeichnungen nachfolgend beschrieben. Aus Gründen der Klarheit und Knappheit beschreibt die Beschreibung nicht alle Merkmale von tatsächlichen Ausführungsformen. Es versteht sich jedoch, dass beim Entwickeln irgendeiner solchen tatsächlichen Ausführungsform viele für die Ausführungsformen spezifische Entscheidungen gefällt werden müssen, um so die spezifischen Vorgaben eines Entwicklers zu erfüllen; beispielsweise werden jene sich auf System und Dienste beziehenden Beschränkungsbedingen erfüllt und diese Beschränkungsbedingungen variieren möglicher Weise, bei unterschiedlichen Ausführungsformen. Zusätzlich sollte angemerkt werden, dass, obwohl das Entwickeln von Aufgaben möglicherweise kompliziert und zeitraubend ist, solche Entwicklungsaufgaben nicht nur für Fachleute auf dem Gebiet Routineaufgaben sind, die von der vorliegenden Offenbarung profitieren.
Es sollte auch hierin angemerkt werden, dass, um zu vermeiden, dass die vorliegende Erfindung aufgrund unnötiger Details unklar wird, nur jene Vorrichtungsstrukturen und/oder Verarbeitungsschritte, die eng mit der Lösung gemäß der vorliegenden Erfindung zusammenhängen, in den Zeichnungen gezeigt werden, während andere Details, die nicht eng mit der vorliegenden Erfindung zusammenhängen, weggelassen werden. Zusätzlich sollte auch angemerkt werden, dass in einer Figur oder einer Ausführungsform der vorliegenden Erfindung beschriebene Elemente und Merkmale mit Elementen und Merkmalen kombiniert werden können, die in einer oder mehreren anderen Figuren und Ausführungsformen gezeigt sind.
Der Ablauf eines Verfahrens zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung wird unter Bezugnahme auf 1 unten beschrieben.
1 zeigt ein Flussdiagramm eines Verfahrens zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung. Wie in 1 gezeigt, umfasst das Verfahren die Schritte: Entfernen von schwarzen Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, das aus einem tatsächlichen Szenario erfasst wird, um zweite tatsächliche Szenariodaten zu erhalten (Schritt S1); Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten (Schritt S2); Unterteilen von Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist (Schritt S3); Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten (Schritt S4); Erzeugen von vierten Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten (Schritt S5); und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten (Schritt S6).
Das Training des Gesichtserkennungsmodells hat große Einflüsse auf Erkennungspräzision und Genauigkeitsrate. Das Training des Gesichtserkennungsmodells hängt auch hauptsächlich von Trainingsdaten ab. Wie zuvor erwähnt, liegt der Hauptgrund, warum es schwierig für existierende Gesichtserkennungsmodelle ist, ein Brillentrag-Human-Gesichtsbild zu erkennen, am Fehlen einer großen Menge an Korrektionsbrillen-Trainingsdaten liegt. Tatsächlich unterscheiden sich Anteile des Tragens von Brillen in verschiedenen tatsächlichen Anwendungsszenarien. Beispielsweise wird eine Stechuhr in jedem Unternehmen hauptsächlich auf das Personal in spezifischen Unternehmen angewendet, unterscheiden sich Anteile des Tragens von Brillen in unterschiedlichen Unternehmen und sind auch Anteile des Tragens von Brillen in Grundschulen, Universitäten und Krankenhäusern in jedem Fall inkonsistent. Es wird gewünscht, in Bezug auf ein tatsächliches Szenario jeder Anwendung, Trainingsdaten zu erzeugen, in welchen ein Anteil des Tragens von Brillen der gleiche ist wie ein Anteil des Tragens von Brillen in dem tatsächlichen Szenario, um ein Gesichtserkennungsmodell zu trainieren, wodurch eine Genauigkeitsrate der Erkennung des Gesichtserkennungsmodells im tatsächlichen Szenario verbessert wird.
Daher ist es zuerst notwendig, einen Anteil des Tragens von Brillen in einem tatsächlichen Szenario einer spezifischen Anwendung zu erfassen.
Ein Bild, das ein Gesicht enthält, wird aus einem tatsächlichen Szenario einer spezifischen Applikation erfasst, um erste tatsächliche Szenariodaten zu bilden.
Im Vergleich mit der allgemein verwendeten Weise des Direkt-Bewertens, ob Bilddaten eine Brille tragen, führt die vorliegende Erfindung Vorverarbeitung durch, um so die Genauigkeit der Bewertung zu verbessern.
Schwarze Augenhöhlen und Sonnenbrillen haben relativ starke Interferenz-Effekte auf das Bewerten, ob die Bilddaten Brillen tragen; daher werden im Schritt S1 schwarze Augenhöhlen und Sonnenbrillen in den ersten tatsächlichen Szenariodaten entfernt, um zweite tatsächliche Szenariodaten zu erhalten. Es ist genauer, die Bewertung hinsichtlich des Tragens von Brillen unter Verwendung der zweiten tatsächlichen Szenariodaten durchzuführen.
Im Schritt S2 wird ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten gezählt.
Beispielsweise ist es möglich, unter Verwendung eines Klassifizierers oder konvolutionalen neuronalen Netzwerks, die trainiert worden sind, zu bewerten, ob ein ein Gesicht enthaltendes Bild in den zweiten tatsächlichen Szenariodaten eine Brille trägt, und ein Zählen durchzuführen, um so einen Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten zu erfassen, als einen Anteil des Tragens von Brillen in einem tatsächlichen Szenario einer spezifischen Anwendung. Dies ist das Ziel des Justierens eines Anteils des Tragens von Brillen in der vorliegenden Erfindung. Trainingsdaten des Klassifizierers oder des konvolutionalen neuronalen Netzwerkes sind beispielsweise markierte Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in welchem markiert worden ist, ob die Daten eine Brille tragen.
Im Schritt S3 werden die aus einem ein Gesicht enthaltenden Bild aufgebauten Original-Trainingsdaten in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten unterteilt, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist.
Die Original-Trainingsdaten werden beispielsweise aus dem Internet erfasst und wie zuvor ausgesagt, beispielsweise aus WebFace und MS-Celeb-1M-Datenbanken erfasst, und können auch manuell gesammelt werden. Da der Anteil des Tragens von Brillen in den Original-Trainingsdaten im Allgemeinen niedriger als der Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, ist es notwendig, den Anteil des Tragens von Brillen in den Original-Trainingsdaten zu justieren, um gleich zu sein dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten, durch Erhöhen der Anzahl von Brillentragbildern.
Es ist notwendig, zuerst die Original-Trainingsdaten in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten zu unterteilen und dann die Menge an Brillentragdaten durch Hinzufügen von Brillen zu den zweiten Trainingsdaten zu erhöhen.
Um genau zu bewerten, ob das ein Gesicht in den Original-Trainingsdaten enthaltene Bild Brille trägt, wie in 2 gezeigt, wird im Schritt S21 eine Position des Gesichts in den Original-Trainingsdaten detektiert. Human-Gesichts-Detektion ist eine Basis für die Human-Gesichtserkennung und der Schritt S21 kann unter Verwendung des Stands der Technik implementiert werden.
Im Schritt S22 wird das Gesicht in den Original-Trainingsdaten an einem Standardgesicht ausgerichtet. Das Standardgesicht ist eine Standardvorlage eines menschlichen Gesichts und Positionen von Augen und Mundecken im Standardgesicht sind fixiert. Durch Ausrichten des im Schritt S21 detektierten Gesichts am Standardgesicht wird es ermöglicht, eine Genauigkeitsrate der Bewertung zu verbessern, ob das ausgerichtete Gesicht eine Brille trägt. Die Ausrichtungstechnologie ist existierende Technologie auf dem Gebiet der Bildverarbeitung.
Im Schritt S23 wird unter Verwendung eines Klassifizierers oder eines konvolutionalen neuronalen Netzwerkes, das trainiert worden ist (welches beispielsweise das konvolutionale neuronale Netzwerk oder der Klassifizierer ist, das/der im vorstehenden Schritt S2 verwendet wird) bewertet, ob das ausgerichtete Gesicht in den Original-Trainingsdaten eine Brille trägt, wodurch die Original-Trainingsdaten in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-trag-Zweit-Trainingsdaten unterteilt wird.
Da die Position des Gesichtes detektiert worden ist und das Gesicht am Standardgesicht ausgerichtet worden ist, ist die Genauigkeit der Bewertung, ob das Bild in den Original-Trainingsdaten eine Brille trägt, relativ hoch.
Es ist notwendig, die Menge an Brillentragdaten unten hinzuzufügen und die Basis für das Hinzufügen sind die Brillen-Nicht-trag-Zweit-Trainingsdaten.
Im Schritt S4 werden Brillentrag-Dritt-Trainingsdaten erzeugt, basierend auf Brillendaten und den zweiten Trainingsdaten.
Brillendaten sind Daten, die vorab vorbereitet werden und beinhalten verschiedene Arten von Brillen, wie etwa einfache Brillen, Nahsichtbrillen, Fernsichtbrillen und Sonnenbrillen, unterschiedlichen Rahmen und Gläserformen, Rahmendicken, Gläserfarben und dergleichen. Die Brillendaten umfassen Schlüsselpunktinformation, Brillenbilder und Gläserinformation jedes Typs von Brillen. Die Schlüsselpunktinformation ist ausreichend, um eine Form und eine Struktur der Brillen zu repräsentieren, die Brillenbilder sind Inhalte, die überlagert werden, wenn die Brillen hinzugefügt werden und die Gläserinformation identifiziert eine Grenze zwischen Gläsern und einem Rahmen. Existierende Brillen können in einen Rahmen und Gläser durch einen Segmentationsalgorithmus segmentiert werden, wodurch die Gläserinformation erfasst wird.
Wie in 3 gezeigt, umfasst das Verfahren zum Erzeugen von Brillen-Trag-Dritt-Trainingsdaten: zufälliges Auswählen eines Brillentyps aus existierenden Brillentypen (Schritt S31); zufälliges Ändern eines Brillenbilds entsprechend dem ausgewählten Brillentyp (Schritt S32); Erkennen von Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten (Schritt S33); Verschmelzen des das Gesicht in den zweiten Trainingsdaten enthaltenen Bildes mit dem zufällig geänderten Brillenbild unter Verwendung affiner Information, basierend auf Schlüsselpunktinformation entsprechend dem zufällig geänderten Brillenbild und der erkannten Schlüsselpunktinformation nahe den Augen, um die dritten Trainingsdaten zu erhalten (Schritt S34).
Im Schritt S31 wird ein Brillentyp zufällig aus existierenden Brillentypen ausgewählt. Das heißt, dass ein Typ von Brillendaten, wie etwa Nahsichtbrillen, ein gewisser Rahmen und Gläserformen, eine gewisse Rahmendicke, eine gewisse Gläserfarbe und dergleichen ausgewählt wird; entsprechende Schlüsselpunktinformation kann eine Form und eine Struktur der Brillen zum Verschmelzen repräsentieren; ein entsprechendes Brillenbild spiegelt Rahmen und Gläserformen, eine Rahmendicke, eine Gläserfarbe und dergleichen wieder; und Gläserinformation identifiziert eine Grenze zwischen den Gläsern und einem Rahmen zum nachfolgenden Zoomverarbeiten in Bezug auf Nahsichtbrillen.
Im Schritt S32 wird ein Brillenbild entsprechend dem ausgewählten Brillentyp zufällig geändert.
Die Menge an Daten, die in den existierenden Brillentypen in Datenbanken enthalten ist, ist sehr beschränkt. Jedoch sind die Arten von Permutationen und Kombinationen von verschiedenen Aspekten der Brillendaten divers. Daher können die Arten von Brillen angereichert werden, indem zufällig ein Brillenbild entsprechend dem ausgewählten Brillentyp geändert wird, was vorteilhaft ist, um ein Gesichtserkennungsmodul besser zu trainieren.
Spezifisch kann ein Brillenrahmen in dem Brillenbild ausgetauscht werden. Der Brillenrahmen ist auf einen existierenden Typ von Brillenrahmen einschließlich spezifischer Form, Dicke, Farbe und dergleichen beschränkt. Darüber hinaus kann eine Dicke eines Brillenrahmens zufällig geändert werden, das heißt, dass der Brillenrahmen verdickt oder dünner gemacht wird innerhalb eines vorgegebenen sinnvollen Bereichs. Zusätzlich kann eine Form des Brillenrahmens zufällig geändert werden, das heißt, dass nur die Form des Brillenrahmens verändert wird, während die existierende Dicke und Farbe des Brillenrahmens aufrechterhalten wird. Selbstverständlich kann eine Farbe von Brillengläsern auch zufällig verändert werden. Die Farbe ist nicht auf Farben der existierenden Gläser in den Datenbanken beschränkt, sondern kann verschiedene Farben sein, die von menschlichen Augen wahrnehmbar sind.
Im Schritt S33 wird Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten erkannt. Ein Gesichtsmerkmals-Detektionsalgorithmus kann 68 Gesichtsschlüsselpunkte detektieren. Indem etwa 9 Schlüsselpunktdaten nahe dem Augen verwendet werden, wird es möglich gemacht, beim Hinzufügen von Brillen an einer angemessenen Position zu helfen.
Im Schritt S34 wird das, das Gesicht der zweiten Trainingsdaten enthaltende Bild mit den zufällig veränderten Brillenbild unter Verwendung affiner Transformation verschmolzen, basierend auf Schlüsselpunktinformation, die dem zufällig geänderten Brillenbild und der erkannten Schlüsselpunktinformation nahe den Augen entspricht, um die dritten Trainingsdaten zu ermitteln.
Indem die Schlüsselpunktinformation des Brillenbilds und die Schlüsselpunktinformation nahe den Augen verwendet wird, wird es möglich gemacht, das Gesichtsbild in den zweiten Trainingsdaten mit dem Brillenbild zu verschmelzen, das durch zufällige Selektion ermittelt wird und zufälliges Ändern, um so einen Effekt des Hinzufügens von Brillen zu erzielen. Die affine Transformation ist eine Fachleuten auf dem Gebiet bekannte Technologie und wird hierin nicht redundant beschrieben.
Insbesondere wenn die ausgewählten Brillen Nahsichtbrillen sind, da die Nahsichtbrillen Konkavgläser aufweisen und das Auge kleiner erscheinen lassen, wird die folgende spezielle Verarbeitung angewendet, um die Größen der Augen im Gesichtsbild in den zweiten Trainingsdaten heraus zu zoomen.
Spezifisch, wie in 4 gezeigt, werden zuerst im Schritt S41 der erkannte verschmolzene Bereich und der Glasbereich um die Augen herum unter Verwendung affiner Transformation bestimmt, basierend auf Schlüsselpunktinformation und Glasinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen. Der verschmolzene Bereich ist ein mit dem Brillenbild zu verschmelzender Bereich und der Glasbereich ist ein mit einem Bereich zu verschmelzender Bereich, wo die Gläser in dem Brillenbild liegen, das heißt ein Bereich in dem verschmolzenen Bereich, der den Gläsern entspricht.
Im Schritt S42 wird ein Original-Bild um die Augen herum und größer als der Glasbereich aus dem Gesichtsbild in den zweiten Trainingsdaten extrahiert, wird dieser Teil des Original-Bildes herausgezoomt, um dieselbe Größe wie der Glasbereich aufzuweisen und wird dann ein Zooming-Ergebnis dem zufällig veränderten Brillenbild überlagert und wird ein Überlagerungsergebnis Kartierungsdaten genannt.
Im Schritt S43 werden Original-Daten im verschmolzenen Bereich im Gesichtsbild in den zweiten Trainingsdaten durch die Kartierungsdaten ersetzt.
Da der Original-Bildteil in den Kartierungsdaten Augen beinhaltet und in Bezug auf die Original-Daten im Gesichtsbild in den zweiten Trainingsdaten herausgezoomt worden ist, kann er einen Effekt erzielen, die Augen kleiner zu machen.
Auf diese Weise werden im Schritt S4 Brillentrag-Dritt-Trainingsdaten erzeugt. Bei Anwesenheit der Brillentrag-Dritt-Trainingsdaten kann ein Anteil von dem Tragen von Brillen in den Original-Trainingsdaten erhöht werden, so dass ein Anteil des Tragens von Brillen in den Trainingsdaten, der letztlich erhalten wird, konsistent mit dem Anteil des Tragens von Brillen in dem tatsächlichen Anwendungsszenario ist.
Im Schritt S5 werden vierte Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten erzeugt.
Beispielsweise kann ein angemessener Datenbetrag zufällig aus den dritten Trainingsdaten ausgewählt werden und zu den Original-Trainingsdaten hinzugefügt werden, bis ein Anteil des Tragens von Brillen in den vierten Trainingsdaten, der nach dem Hinzufügen erhalten wird, gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist.
Der Anteil des Tragens von Brillen in den vierten Trainingsdaten, der anhand des Verfahrens der vorliegenden Erfindung erhalten wird, erfüllt das tatsächliche Anwendungsszenario und die Arten von Brillen sind divers.
Im Schritt S6 wird das Gesichtserkennungsmodell basierend auf den vierten Trainingsdaten trainiert.
Da der Anteil des Tragens von Brillen in den vierten Trainingsdaten mit dem Anteil des Tragens von Brillen in dem tatsächlichen Anwendungsszenario koinzidiert, ist ein Trainingseffekt des Gesichtserkennungsmodells exzellent und ist eine Genauigkeitsrate der Erkennung des trainierten Gesichtserkennungsmodells hoch.
Eine Einrichtung zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung wird unter Bezugnahme auf 5 unten beschrieben.
5 zeigt ein Strukturblockdiagramm einer Einrichtung zum Trainieren eines Gesichtserkennungsmodells gemäß einer Ausführungsform der vorliegenden Erfindung. Wie in 5 gezeigt, umfasst eine Einrichtung 500 zum Trainieren eines Gesichtserkennungsmodells gemäß der vorliegenden Erfindung: eine Entfernungsvorrichtung 51, die konfiguriert ist: schwarze Augenhöhlen und Sonnenbrillen in aus einem ein Gesicht enthaltenden Bild aufgebauten ersten tatsächlichen Szenariodaten, die aus einem tatsächlichen Szenario erhalten werden, zu entfernen, um zweite tatsächliche Szenariodaten zu erhalten; eine Zählvorrichtung 52, die konfiguriert ist: einen Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten zu zählen; eine Unterteilungsvorrichtung 53, die konfiguriert ist: Original-Trainingsdaten, die aus einem ein Gesicht enthaltenden Bild aufgebaut sind, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten zu unterteilen, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger ist als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; eine Hinzufüg-Brillenvorrichtung 54, die konfiguriert ist: Brillentrag-Dritt-Trainingsdaten zu erzeugen, basierend auf Brillendaten und den zweiten Trainingsdaten; eine Anteiljustiervorrichtung 55, die konfiguriert ist: vierte Trainingsdaten zu erzeugen, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Trainingsdaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und eine Modelltrainingsvorrichtung 56, die konfiguriert ist: das Gesichtserkennungsmodell, basierend auf den vierten Trainingsdaten zu trainieren.
In einer Ausführungsform umfasst die Unterteilungsvorrichtung 53: eine Detektionseinheit, die konfiguriert, eine Position des Gesichtes in den Original-Trainingsdaten zu detektieren; eine Ausrichteinheit, die konfiguriert ist, das Gesicht in den Original-Trainingsdaten an einem Standardgesicht auszurichten; ein tiefes konvolutionales neuronales Netzwerk oder einen Klassifizierer zum Bewerten, ob das ausgerichtete Gesicht in den Original-Trainingsdaten eine Brille trägt, um die Original-Trainingsdaten in die ersten Trainingsdaten und die zweiten Trainingsdaten zu unterteilen.
In einer Ausführungsform umfassen die Brillendaten Schlüsselpunktinformation, Brillenbilder und Glasinformation verschiedener Typen von Brillen, wobei die Schlüsselpunktinformation eine Form und eine Struktur der Brillen repräsentiert, wobei die Glasinformation eine Grenze zwischen den Gläsern und einem Rahmen identifiziert.
In einer Ausführungsform umfasst die Hinzufüg-Brillenvorrichtung 54: eine Typ-Auswahleinheit, die konfiguriert ist, zufällig einen Brillentyp aus existierenden Brillentypen auszuwählen; eine Bildänderungseinheit, die konfiguriert ist, zufällig ein Brillenbild entsprechend dem ausgewählten Brillentyp zu ändern; eine Erkennungseinheit, die konfiguriert ist, Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten zu erkennen; eine Verschmelzungseinheit, die konfiguriert ist, die, das Gesicht in den zweiten Trainingsdaten enthaltenden Bild mit dem zufällig geänderten Brillenbild unter Verwendung affiner Transformation zu verschmelzen, basierend auf Schlüsselpunktinformation, die dem zufällig geänderten Brillenbild entspricht, und der erkannten Schlüsselpunktinformation nahe den Augen, um die dritten Trainingsdaten zu erhalten.
In einer Ausführungsform ist die Bildänderungseinheit weiter konfiguriert, zumindest eine der Operationen durchzuführen von: zufällig im Auswählen eines Brillenrahmens eines existierenden Typs, um einen Brillenrahmen in dem Brillenbild zu substituieren; zufälliges Ändern einer Dicke des Brillenrahmens; zufälliges Ändern einer Form des Brillenrahmens und zufälliges Ändern einer Farbe der Brillengläser.
In einer Ausführungsform, in einem Fall, bei dem der ausgewählte Brillentyp Nahsichtbrille ist, ist die Verschmelzungseinheit weiter konfiguriert: den erkannten verschmolzenen Bereich und Gläserbereich um die Augen herum unter Verwendung affiner Transformation zu bestimmen, basierend auf Schlüsselpunktinformation und Glasinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen; aus dem das Gesicht enthaltenden Bild in den zweiten Trainingsdaten einen Bereich im Bild zu extrahieren, der um die Augen herum liegt und größer als der Glasbereich ist, und ihn zu zoomen, so dass er eine Größe wie der Glasbereich aufweist und ein Zooming-Ergebnis mit dem zufällig geänderten Brillenbild zu überlagern, um Kartierungsdaten zu erhalten; und Original-Daten in dem verschmolzenen Bereich mit den Kartierungsdaten zu substituieren.
In einer Ausführungsform werden die Original-Trainingsdaten aus dem Internet erfasst oder manuell gesammelt.
Da die in der Einrichtung 500 gemäß der vorliegenden Erfindung enthaltene Verarbeitung der Verarbeitung in den in dem oben beschriebenen Verfahren umfassten jeweiligen Schritten ähnlich sind, wird eine detaillierte Beschreibung dieser Verarbeitung hier aus Gründen der Knappheit weggelassen.
Zusätzlich sollte auch hier angemerkt werden, dass die entsprechenden Bestandteilsvorrichtungen und Einheiten in der obigen Einrichtung durch Software, Firmware, Hardware oder eine Kombination derselben konfiguriert werden können. Die spezifischen Mittel oder die Weise, die für die Konfiguration verwendet werden können, sind für Fachleute auf dem Gebiet bekannt und werden hier nicht wiederholt beschrieben. In einem Fall, bei dem die Konfiguration durch Software oder Firmware implementiert wird, werden die softwarebildenden Programme aus einem Speichermedium oder einem Netzwerk auf einem Computer mit einer dedizierten Hardwarestruktur (z. B. dem Universalcomputer 600, wie in 6 gezeigt) installiert. Der Computer, wenn auf ihm verschiedene Programme installiert sind, ist in der Lage, verschiedene Funktionen und dergleichen zu implementieren.
6 zeigt ein schematisches Blockdiagramm eines Computers, der zum Implementieren des Verfahrens und der Einrichtung gemäß den Ausführungsformen der vorliegenden Erfindung verwendet werden kann.
In 6 führt eine Zentraleinheit (CPU) 601 verschiedene Prozesse gemäß in einem Nur-Lesespeicher (ROM) 602 gespeicherten Programmen oder aus einem Speicherteil 608 in einem Wahlfrei-Zugriffsspeicher (RAM) 603 geladenen Programmen durch. Im RAM 603 werden nach Bedarf auch Daten gespeichert, die benötigt werden, wenn die CPU 601 verschiedene Prozesse und dergleichen durchführt. Die CPU 601, das ROM 602 und das RAM 603 sind miteinander über einen Bus 604 verbunden. Eine Eingabe/Ausgabe-Schnittstelle 605 ist auch mit dem Bus 604 verbunden.
Die nachfolgende Komponenten sind mit der Eingabe/Ausgabe-Schnittstelle 605 verbunden; ein Eingabeteil 606 (einschließlich Tastatur, Maus und dergleichen), ein Ausgabeteil 607 (einschließlich Anzeige wie etwa Kathodenstrahlröhre (CRT), Flüssigkristallanzeige (LCD) und dergleichen und Lautsprecher und dergleichen), ein Speicherteil 608 (einschließlich Festplatte und dergleichen) und ein Kommunikationsteil 609 (einschließlich Netzwerkschnittstellenkarte wie etwa LAN-Karte, Modem und dergleichen). Der Kommunikationsteil 609 führt Kommunikationsverarbeitung über ein Netzwerk durch, wie etwa das Internet. Ein Treiber 610 kann auch mit der Eingabe/Ausgabe-Schnittstelle 605 nach Bedarf verbunden sein. Nach Bedarf kann ein entnehmbares Medium 611, wie etwa eine Magnetplatte, eine optische Platte, kein magnetoptische Platte, ein Halbleiterspeicher und dergleichen im Treiber 610 installiert sein, so dass ein daraus ausgelesenes Computerprogramm nach Bedarf im Speicherteil 608 installiert wird.
In dem Fall, bei dem die vorstehende Serie von Verarbeitung durch Software implementiert wird, werden die softwarekonstituierenden Programme aus einem Netzwerk wie etwa dem Internet oder einem Speichermedium wie etwa einem entnehmbaren Medium 611 installiert.
Fachleute sollten verstehen, dass solch ein Speichermedium nicht auf die entnehmbaren Medien 611 beschränkt ist, wie in 6 gezeigt, in dem Programme gespeichert werden und die getrennt aus der Einrichtung verteilt werden, um die Programme den Anwendern bereitzustellen. Beispiele des entnehmbaren Mediums 611 beinhalten eine Magnetplatte (einschließlich Floppy-Disk (registriertes Warenzeichen)), eine Compact-Disk (einschließlich Compact-Disk-Nur-Lesespeicher (CD-ROM) und Digital-Video-Disk (DVD), eine magnetoptische Disk (einschließlich Minidisk (MD) (registrierte Marke)) und einen Halbleiterspeicher. Alternativ können die Speichermedien Festplatten sein, die im ROM 602 und dem Speicherteil 608 und dergleichen enthalten sind, in welchem Programme gespeichert werden und die zusammen mit einer sie enthaltenden Einrichtung an Anwender distributiert werden.
Die vorliegende Erfindung stellt weiter ein Programmprodukt bereit, dass darauf gespeicherte maschinenlesbare Anweisungscodes aufweist. Die Anweisungscodes, wenn durch eine Maschine gelesen und ausgeführt, können die vorstehenden Verfahren gemäß den Ausführungsformen der vorliegenden Erfindung implementieren.
Entsprechend ist ein Speichermedium zum Ausführen des vorgenannten Programmproduktes mit darauf gespeicherten computerlesbaren Anweisungscodes auch in der vorliegenden Erfindung beinhaltet. Das Speichermedium beinhaltet, ist aber nicht beschränkt auf ein Floppy-Disk, eine optische Disk, eine magnetoptische Disk, eine Speicherkarte, einen Speicherstick und dergleichen.
In der vorstehenden Beschreibung spezifischer Ausführungsformen der vorliegenden Erfindung können die beschriebenen und/oder für eine Implementierung gezeigten Merkmale in einem oder mehreren anderen Implementierungsmodi in derselben oder ähnlichen Weise verwendet werden oder mit jenen in den anderen Implementierungsmodi kombiniert werden oder jene in den anderen Implementierungsmodi ersetzen.
Es sollte betont werden, dass die Ausdrücke „umfassen/beinhalten“, wie hierin verwendet, sich auf die Anwesenheit eines Merkmals, eines Elements, eines Schritts oder einer Baugruppe bezieht, nicht aber die Anwesenheit oder Hinzufügung anderer oder mehrerer anderer Merkmale, Elemente, Schritte oder Baugruppen ausschließt.
Zusätzlich sind die Verfahren der vorliegenden Erfindung nicht darauf beschränkt, anhand der in der Beschreibung beschriebenen Zeitreihenfolge implementiert zu werden, sondern können auch sequentiell, parallel oder unabhängig entsprechend anderen Zeitreihenfolgen implementiert werden. Somit ist nicht gedacht, dass die Implementierungsreihenfolge der in der Beschreibung beschriebenen Verfahren den technischen Schutzumfang der vorliegenden Erfindung beschränkt.
Während die vorliegende Erfindung oben unter Bezugnahme auf Beschreibungen der spezifischen Ausführungsformen der vorliegenden Erfindung offenbart worden ist, versteht sich, dass alle vorgenannten Ausführungsformen und Beispiele beispielhaft sind, aber nicht beschränkend. Eine Vielzahl von Modifikationen, Verbesserungen oder Äquivalenten der vorliegenden Erfindung können durch Fachleute auf dem Gebiet innerhalb des Geistes und Schutzumfang der anhängigen Ansprüche erdacht werden. Die Modifikationen, Verbesserungen oder Äquivalente sollten als im Schutzumfang der vorliegenden Erfindung enthalten angesehen werden.
Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Verfahren zum Trainieren eines Gesichtserkennungsmodells: Entfernen schwarzer Augenhöhlen und von Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, welche aus einem tatsächlichen Szenario erfasst sind, um zweite tatsächliche Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten Szenariodaten; Unterteilen von Original-Trainingsdaten, die aus einem, ein Gesicht enthaltenden Bild aufgebaut sind, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zwei-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger ist als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen von vierten Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten. Das Unterteilen umfasst: Detektieren einer Position des Gesichts in den Original-Trainingsdaten; Ausrichten des Gesichts in den Original-Trainingsdaten an einem Standardgesicht; Bewerten, unter Verwendung eines tiefen konvolutionalen neuronalen Netzwerkes oder Klassifizierers, ob das ausgerichtete Gesicht in den Original-Trainingsdaten eine Brille trägt, um die Original-Trainingsdaten in die ersten Trainingsdaten und die zweiten Trainingsdaten zu unterteilen. Die Brillendaten umfassen Schlüsselpunktdaten, Brillenbilder und Gläserinformation verschiedener Typen von Brillen, wobei die Schlüsselpunktinformation eine Form und eine Struktur der Brillen repräsentiert, wobei die Glasinformation eine Grenze zwischen Gläsern und einem Rahmen identifiziert. Das Erzeugen von Brillentrag-Dritt-Trainingsdaten basierend auf den Brillendaten und den zweiten Trainingsdaten umfasst: zufälliges Auswählen eines Brillentyps aus existierenden Brillentypen; zufälliges Ändern eines Brillenbilds entsprechend dem ausgewählten Brillentyp; Erkennen von Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten; Verschmelzen des das Gesicht enthaltenden Bilds in den zweiten Trainingsdaten mit dem zufällig geänderten Brillenbild unter Verwendung affiner Transformation, basierend auf Schlüsselpunktinformation, die dem zufällig geänderten Brillenbild und der Kantenschlüsselpunktinformation nahe den Augen entspricht, um die dritten Trainingsdaten zu ermitteln. Das zufällige Ändern eines Brillenbilds entsprechend dem ausgewählten Brillentyp umfasst zumindest eins von: zufälliges Auswählen eines Brillenrahmens eines existierenden Typs, um einen Brillenrahmen in das Brillenbild zu substituieren; zufälliges Ändern einer Dicke des Brillenrahmens; zufälliges Ändern einer Form des Brillenrahmens; zufälliges Ändern einer Farbe von Brillengläsern. In einem Fall, bei dem der ausgewählte Brillentyp eine Nahsichtbrille ist, umfasst das Verschmelzen: Bestimmen des erkannten verschmolzenen Bereichs und des Glasbereichs um die Augen herum unter Verwendung affiner Transformation, basierend auf Schlüsselpunktinformation und Glasinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen; Extrahieren, aus dem Gesicht in den zweiten Trainingsdaten enthaltenen Bild einen Bereich im Bild, der um die Augen herum liegt und größer als der Glasbereich ist und ihn zoomen, um dieselbe Größe wie der Glasbereich aufzuweisen, und Überlagern eines Zoomergebnisses auf das zufällig geänderte Brillenbild, um Kartierungsdaten zu erhalten; Substituieren von Original-Daten in dem verschmolzenen Bereich mit den Kartierungsdaten. Die Original-Trainingsdaten werden aus dem Internet erfasst oder manuell gesammelt.
Gemäß einem anderen Aspekt der vorliegenden Erfindung umfasst eine Einrichtung zum Trainieren eines Gesichtserkennungsmodells: eine Entfernungsvorrichtung, die konfiguriert ist: schwarze Augenhöhlen und Sonnenbrillen in aus einem ein Gesicht enthaltenden Bild aufgebauten ersten tatsächlichen Szenariodaten, die aus einem tatsächlichen Szenario erfasst werden, zu entfernen, um zweite tatsächliche Szenariodaten zu erhalten; eine Zählvorrichtung, die konfiguriert ist: einen Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten zu zählen; eine Unterteilungsvorrichtung, die konfiguriert ist: aus einem, ein Gesicht enthaltenden Bild aufgebaute Trainingsdaten in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten zu unterteilen, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger ist als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; eine Addierbrillenvorrichtung, die konfiguriert ist: Brillentrag-Dritt-Trainingsdaten basierend auf Brillendaten und den zweiten Trainingsdaten zu erzeugen; eine Anteilsjustiervorrichtung, die konfiguriert ist: vierte Trainingsdaten, in welchen ein Anteil des Tragens von Gläsern gleich dem Anteil des Tragens von Gläsern in den zweiten tatsächlichen Szenariodaten ist, zu erzeugen, basierend auf den dritten Trainingsdaten und Original-Trainingsdaten, und eine Modelltrainingsvorrichtung, die konfiguriert ist: ein Gesichtserkennungsmodell, basierend auf den vierten Trainingsdaten, zu trainieren. Die Unterteilungsvorrichtung umfasst: eine Detektionseinheit, die konfiguriert ist: eine Position des Gesichts in den Original-Trainingsdaten zu detektieren; eine Ausrichteinheit, die konfiguriert ist: das Gesicht in den Original-Trainingsdaten an einem Standardgesicht auszurichten; ein tiefes konvolutionales neuronales Netzwerk oder Klassifizierer zum Bewerten, ob das ausgerichtete Gesicht in den Original-Trainingsdaten eine Brille trägt, um die Original-Trainingsdaten in erste Trainingsdaten und zweite Trainingsdaten zu unterteilen. Die Brillendaten umfassen Schlüsselpunktinformation, Brillenbilder und Glasinformation verschiedener Arten von Brillen, wobei die Schlüsselpunktinformation eine Form und eine Struktur der Brille repräsentiert, die Glasinformation eine Grenze zwischen Gläsern und einem Rahmen identifiziert. Die Hinzufüg-Brillenvorrichtung umfasst: eine Typauswahleinheit, die konfiguriert ist, zufällig einen Brillentyp aus existierenden Brillentyparten auszuwählen; eine Bildänderungseinheit, die konfiguriert ist, zufällig ein Brillenbild entsprechend dem ausgewählten Brillentyp zu ändern; eine Erkennungseinheit, die konfiguriert ist, Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten zu erkennen; eine Verschmelzungseinheit, die konfiguriert ist, das das Gesicht in den zweiten Trainingsdaten enthaltende Bild mit dem zufällig geänderten Brillenbild unter Verwendung affiner Transformation zu verschmelzen, basierend auf Schlüsselpunktinformation, die dem zufällig geänderten Brillenbild entspricht, und der erkannten Schlüsselpunktinformation nahe der Augen, um die dritten Trainingsdaten zu erhalten. Die Bildänderungseinheit ist weiter konfiguriert, zumindest eine der Operationen durchzuführen von: zufälliges Auswählen eines Brillenrahmens eines existierenden Typs, um einen Brillenrahmen in dem Brillenbild zu substituieren; zufälliges Ändern einer Dicke des Brillenrahmens; zufälliges Ändern einer Form des Brillenrahmens; zufälliges Ändern einer Farbe der Brillengläser. In einem Fall, bei dem der ausgewählte Brillentyp Nahsichtbrille ist, ist die Verschmelzungseinheit weiter konfiguriert: den erkannten verschmolzenen Bereich und den Glasbereich um die Augen herum unter Verwendung affiner Transformation zu bestimmen, basierend auf Schlüsselpunktinformation und Gläserinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen; aus dem das Gesicht in den zweiten Trainingsdaten enthaltenden Bild einen Bereich in dem Bild zu extrahieren, der um die Augen herum liegt und größer als der Glasbereich ist und ihn auf dieselbe Größe wie den Glasbereich zu zoomen, und ein Zoomergebnis auf das zufällig geänderte Brillenbild zu überlagern, um Kartierungsdaten zu erhalten; Originaldaten in den verschmolzenen Bereich mit den Kartierungsdaten zu substituieren. Die Original-Trainingsdaten werden aus dem Internet erfasst oder manuell gesammelt.
Gemäß noch einem anderen Aspekt der vorliegenden Erfindung speichert ein computerlesbares Speichermedium darauf ein Programm, dass, wenn durch eine Informationsverarbeitungseinrichtung ausgeführt, die Informationsverarbeitungseinrichtung veranlasst, die Operation auszuführen von: Entfernen schwarzer Augenhöhlen und von Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem, ein Gesicht enthaltenden Bild aufgebaut sind, welche aus einem tatsächlichen Szenario erfasst werden, um zweite Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Unterteilen von Original-Trainingsdaten, die aus einem, ein Gesicht enthaltenden Bild aufgebaut sind, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger ist als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen von vierten Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten.

Claims

Verfahren zum Trainieren eines Gesichtserkennungsmodells, welches umfasst: Entfernen von schwarzen Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, das aus einem tatsächlichen Szenario erfasst wird, um tatsächliche zweite Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Unterteilen von Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist; Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen vierter Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten.
Verfahren gemäß Anspruch 1, wobei das Unterteilen umfasst: Detektieren einer Position des Gesichts in den Original-Trainingsdaten; Ausrichten des Gesichts in den Original-Trainingsdaten an einem Standardgesicht; Bewerten, unter Verwendung eines tiefen konvolutionalen neuronalen Netzwerks oder Klassifizierers, ob das ausgerichtete Gesicht in den Original-Trainingsdaten eine Brille trägt, um die Original-Trainingsdaten in die ersten Trainingsdaten und die zweiten Trainingsdaten zu unterteilen.
Verfahren gemäß Anspruch 1, wobei die Brillendaten Schlüsselpunktdaten, Brillenbilder und Gläserinformation verschiedener Typen von Brillen umfasst, wobei die Schlüsselpunktinformation eine Form und eine Struktur der Brillen repräsentiert, wobei die Gläserinformation eine Grenze zwischen Gläsern und einem Rahmen identifiziert.
Verfahren gemäß Anspruch 3, wobei das Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf den Brillendaten und den zweiten Trainingsdaten umfasst: zufälliges Auswählen eines Brillentyps aus existierenden Brillentypen; zufälliges Ändern eines Brillenbilds entsprechend dem ausgewählten Brillentyp; Erkennen von Schlüsselpunktinformation nahe den Augen in den zweiten Trainingsdaten; Verschmelzen des das Gesicht in den Trainingsdaten enthaltenden Bilds mit dem zufällig geänderten Brillenbild unter Verwendung affiner Transformation, basierend auf Schlüsselpunktinformation, die dem zufällig geänderten Brillenbild und der erkannten Schlüsselpunktinformation nahe den Augen entspricht, um die dritten Trainingsdaten zu erhalten.
Verfahren gemäß Anspruch 4, wobei das zufällige Ändern eines Brillenbilds entsprechend dem ausgewählten Brillentyp zumindest eins umfasst von: zufälligem Auswählen eines Brillenrahmens eines existierenden Typs, um einen Brillenrahmen in dem Brillenbild zu substituieren; zufälligem Ändern einer Dicke des Brillenrahmens; zufälligem Ändern einer Form des Brillenrahmens; zufälligem Ändern einer Farbe von Brillengläsern.
Verfahren gemäß Anspruch 4, wobei in einem Fall, bei dem der ausgewählte Brillentyp Nahsichtbrille ist, das Verschmelzen umfasst: Bestimmen des erkannten verschmolzenen Bereichs und Gläserbereichs um die Augen herum unter Verwendung affiner Transformation, basierend auf Schlüsselpunktinformation und Glasinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen; Extrahieren, aus dem das Gesicht enthaltenden Bild in den zweiten Trainingsdaten, eines Bereichs im Bild, welches um die Augen herum und größer als der Glasbereich ist, und ihn Zoomen, umso dieselbe Größe wie der Glasbereich aufzuweisen, und Überlagern eines Zoomergebnisses mit dem zufällig veränderten Brillenbild, um Kartierungsdaten zu erhalten; Substituieren von Originaldaten in dem verschmolzenen Bereich durch die Kartierungsdaten.
Verfahren gemäß Anspruch 1, wobei die Original-Trainingsdaten aus dem Internet erfasst oder manuell gesammelt werden.
Einrichtung zum Trainieren eines Gesichtserkennungsmodells, umfassend: eine Entfernungsvorrichtung, die konfiguriert ist, schwarze Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten zu entfernen, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, welches aus einem tatsächlichen Szenario erfasst wird, um zweite tatsächliche Szenariodaten zu erhalten; eine Zählvorrichtung, die konfiguriert ist: einen Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten zu zählen; eine Unterteilungsvorrichtung, die konfiguriert ist: Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten zu unterteilen, wobei ein Anteil des Tragens von Brillen in den ursprünglichen Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist; eine Hinzufüge-Brillenvorrichtung, die konfiguriert ist: Brillentrag-Dritt-Trainingsdaten zu erzeugen, basierend auf Brillendaten und den zweiten Trainingsdaten; eine Anteilsjustiervorrichtung, die konfiguriert ist: vierte Trainingsdaten zu erzeugen, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den ursprünglichen Trainingsdaten; und eine Modelltrainingsvorrichtung, die konfiguriert ist: das Gesichtserkennungsmodell, basierend auf den vierten Trainingsdaten, zu trainieren.
Einrichtung gemäß Anspruch 8, wobei die Unterteilungsvorrichtung umfasst: eine Detektionseinheit, welche konfiguriert ist: eine Position des Gesichts in den Original-Trainingsdaten zu detektieren; eine Ausrichtungseinheit, die konfiguriert ist: das Gesicht in den Original-Trainingsdaten an einem Standardgesicht auszurichten; ein tiefes konvolutionales neuronales Netzwerk oder Klassifizierer zum Bewerten, ob das ausgerichtete Gesicht in den Original-Trainingsdaten Brille trägt, um die Original-Trainingsdaten in die ersten Trainingsdaten und die zweiten Trainingsdaten zu unterteilen.
Einrichtung gemäß Anspruch 8, wobei die Brillendaten Schlüsselpunktinformation, Brillenbilder und Gläserinformation verschiedener Typen von Brillen umfasst, wobei die Schlüsselpunktinformation eine Form und eine Struktur der Brillen repräsentiert, wobei die Gläserinformation eine Grenze zwischen Gläsern und einem Rahmen identifiziert.
Einrichtung gemäß Anspruch 10, wobei die Hinzufüg-Brillenvorrichtung umfasst: eine Typauswahleinheit, die konfiguriert ist, zufällig einen Brillentyp aus existierenden Brillentypen auszuwählen; eine Bildänderungseinheit, die konfiguriert ist, zufällig ein Brillenbild entsprechend dem ausgewählten Brillentyp zu ändern; eine Erkennungseinheit, die konfiguriert ist, Schlüsselpunktinformation nahe Augen in den zweiten Trainingsdaten zu erkennen; eine Verschmelzungseinheit, die konfiguriert ist, die Bilddaten, die das Bild enthalten, in den zweiten Trainingsdaten mit dem zufällig geänderten Brillenbild unter Verwendung affiner Transformation zu verschmelzen, basierend auf Schlüsselpunktinformation entsprechend dem zufällig geänderten Brillenbild und der erkannten Schlüsselpunktinformation nahe den Augen, um die dritten Trainingsdaten zu erhalten.
Einrichtung gemäß Anspruch 11, wobei die Bildänderungseinheit weiter konfiguriert ist, zumindest eine der Operationen durchzuführen von: zufälligem Auswählen eines Brillenrahmens eines existierenden Typs, um einen Brillenrahmen in dem Brillenbild zu substituieren; zufälligem Ändern einer Dicke des Brillenrahmens; zufälligem Ändern einer Form des Brillenrahmens; zufälligem Ändern einer Farbe von Brillengläsern.
Einrichtung gemäß Anspruch 11, wobei in einem Fall, bei dem der ausgewählte Brillentyp Nahsichtbrille ist, die Verschmelzungseinheit weiter konfiguriert ist: den erkannten verschmolzenen Bereich und Glasbereich um die Augen herum unter Verwendung affiner Transformation zu bestimmen, basierend auf Schlüsselpunktinformation und Glasinformation entsprechend dem zufällig geänderten Brillenbild, wie auch der erkannten Schlüsselpunktinformation nahe den Augen; aus dem das Gesicht enthaltenden Bild in den zweiten Trainingsdaten einen Bereich in dem Bild zu extrahieren, der um die Augen liegt und größer als der Glasbereich ist, und ihn zu zoomen, die gleiche Größe wie der Glasbereich aufzuweisen und ein Zoomergebnis dem zufällig geänderten Brillenbild zu überlagern, um Kartierungsdaten zu erhalten; Originaldaten in dem verschmolzenen Bereich mit den Kartierungsdaten zu substituieren.
Einrichtung gemäß Anspruch 8, wobei die Original-Trainingsdaten aus dem Internet erfasst oder manuell gesammelt werden.
Computerlesbares Speichermedium, das darauf ein Programm speichert, das bei Ausführung durch eine Informationsverarbeitungseinrichtung, die Informationsverarbeitungseinrichtung veranlasst, die Operationen auszuführen von: Entfernen von schwarzen Augenhöhlen und Sonnenbrillen in ersten tatsächlichen Szenariodaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, das aus einem tatsächlichen Szenario erfasst wird, um tatsächliche zweite Szenariodaten zu erhalten; Zählen eines Anteils des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten; Unterteilen von Original-Trainingsdaten, die aus einem Bild aufgebaut sind, das ein Gesicht enthält, in Brillentrag-Erst-Trainingsdaten und Brillen-Nicht-Trag-Zweit-Trainingsdaten, wobei ein Anteil des Tragens von Brillen in den Original-Trainingsdaten niedriger als ein Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist; Erzeugen von Brillentrag-Dritt-Trainingsdaten, basierend auf Brillendaten und den zweiten Trainingsdaten; Erzeugen vierter Trainingsdaten, in welchen ein Anteil des Tragens von Brillen gleich dem Anteil des Tragens von Brillen in den zweiten tatsächlichen Szenariodaten ist, basierend auf den dritten Trainingsdaten und den Original-Trainingsdaten; und Trainieren des Gesichtserkennungsmodells, basierend auf den vierten Trainingsdaten.