DE102012020301A1

DE102012020301A1 - Verfahren, Vorrichtung und Erzeugnis zum Erkennen lächelnder Gesichter

Info

Publication number: DE102012020301A1
Application number: DE102012020301A
Authority: DE
Inventors: Ben-Zion Shaick
Original assignee: CSR Technology Inc
Current assignee: Qualcomm Inc
Priority date: 2012-03-16
Filing date: 2012-10-16
Publication date: 2013-09-19
Also published as: GB201216254D0; GB2500738A; US20130243241A1; GB2500738B; US20150193652A1; US9195884B2; US8965046B2

Abstract

Es wird ein Verfahren, eine Vorrichtung und ein Erzeugnis zum Erkennen lächelnder Gesichter bereitgestellt. Für jeden Rahmen wird eine Liste neuer lächelnder Gesichter für den Rahmen erzeugt, indem eine Ermittlung lächelnder Gesichter ausgeführt wird, wobei ein Objektklassifizierer verwendet wird, der dazu trainiert ist, zwischen lächelnden Gesichtern und allen Objekten im Rahmen, die keine lächelnden Gesichter sind, zu unterscheiden. Für den ersten Rahmen wird die Liste neuer lächelnder Gesichter als eine Eingabeliste lächelnder Gesichter für den nächsten Rahmen verwendet. Für jeden Rahmen nach dem ersten Rahmen wird eine Liste verfolgter Lächeln für den Rahmen erzeugt, indem lächelnde Gesichter im Rahmen aus der Eingabeliste lächelnder Gesichter für den Rahmen verfolgt werden. Ferner wird eine Liste neuer lächelnder Gesichter für den nächsten Rahmen erzeugt, indem die Liste neuer lächelnder Gesichter für den Rahmen mit der Liste verfolgter Lächeln für den Rahmen kombiniert wird.

Description

Technisches Gebiet
Die Erfindung betrifft das Erkennen und Verfolgen (Tracking) von Objekten und insbesondere, aber nicht ausschließlich, ein Verfahren, eine Vorrichtung und ein Erzeugnis zum Erkennen lächelnder Gesichter, bei denen der Objektklassifizierer dazu trainiert ist, zwischen lächelnden Gesichtern und allen Objekten im Rahmen (Frame), die keine lächelnden Gesichter sind, zu unterscheiden.
Hintergrund
Elektronische Kameras bilden Szenen auf einen zweidimensionalen Sensor, wie z. B. eine ladungsgekoppelte Schaltung (CCD), ein komplementäres Metall-Oxid-Halbleiter(CMOS)-Bauelement oder andere Arten von Lichtsensoren, ab. Diese Vorrichtungen umfassen eine große Zahl von Fotodetektoren (üblicherweise zwei, drei, vier oder mehr Millionen), die über eine kleine zweidimensionale Fläche verteilt sind, welche einzeln ein Signal erzeugen, das proportional zur Intensität des Lichts oder einer anderen optischen Strahlung (einschließlich der infraroten und ultravioletten Bereiche des Spektrums, die an die sichtbaren Lichtwellenlängen anschließen) ist, die auf das Element auftrifft. Diese Elemente, welche die Pixel eines Bildes bilden, werden üblicherweise in einem Rastermuster abgetastet, um einen seriellen Datenstrom zu erzeugen, der die Intensität der Strahlung kennzeichnet, die auf ein Sensorelement nach dem anderen auftrifft, wenn sie abgetastet werden. Farbdaten werden gewöhnlich unter Verwendung von abwechselnd über den Sensor hinweg verteilten Fotodetektoren erhalten, die für jede der unterschiedlichen Farbkomponenten (wie z. B. rot, grün und blau) empfindlich sind.
Eine weit verbreitete Form einer derartigen elektronischen Kamera ist eine kleine, in der Hand haltbare Digitalkamera, die Daten von einer großen Zahl von Bildrahmen entweder als Standfoto-”Schnappschüsse” oder als Rahmenfolgen aufzeichnen, die einen Film erzeugen. Vor dem Speichern auf einem herausnehmbaren nichtflüchtigen Speicher, wie z. B. einer Magnetbandkassette, einer Flash-Speicherkarte, einem Laufwerk mit einer beschreibbaren optischen Platte oder einer magnetischen Festplatte, wird üblicherweise in der Kamera an den Daten eines jeden Rahmens eine Bildbearbeitung in einem beträchtlichen Umfang ausgeführt. Die bearbeiteten Daten werden üblicherweise als ein Bild mit einer verminderten Auflösung auf einer Flüssigkristallanzeige(LCD)-Vorrichtung auf der Außenseite der Kamera angezeigt. Üblicherweise werden die bearbeiteten Daten vor dem Speichern im nichtflüchtigen Speicher auch komprimiert, um die Größe des Speicherplatzes, der von den Daten für jeden Rahmen eingenommen wird, zu verringern.
Die vom Bildsensor erfassten Daten werden üblicherweise bearbeitet, um Unzulänglichkeiten der Kamera zu kompensieren und allgemein die Qualität des Bildes zu verbessern, das aus den Daten erhalten werden kann. Eine Bearbeitungsfunktion ist die Korrektur bezüglich beliebiger fehlerhafter Pixel-Fotodetektorelemente des Sensors. Eine weitere ist die Weißabgleichkorrektur, bei der die relativen Größen der verschiedenen Pixel der Primärfarben eingestellt werden, um Weiß darzustellen. Diese Bearbeitung schließt auch das Demosaicing der einzelnen Pixeldaten zum Überlagern der Daten aus den räumlich getrennten monochromatischen Pixeldetektoren des Sensors ein, so dass sich übereinanderliegende mehrfarbige Pixel in den Bilddaten ergeben. Dieses Demosaicing macht dann eine Bearbeitung der Daten zum Verstärken und Glätten der Kanten des Bildes wünschenswert. Auch der Ausgleich der Bilddaten hinsichtlich des Rauschens und der Streuungen der Optik der Kamera über das Bild hinweg sowie der Abweichungen unter den Sensor-Fotodetektoren wird üblicherweise in der Kamera ausgeführt. Die sonstige Bearbeitung schließt üblicherweise die Gammakorrektur und/oder die Kontraststeigerung und/oder das Chrominanzfiltern und dergleichen ein.
Elektronische Kameras weisen nahezu immer eine automatische Belichtungsregelungsfähigkeit auf, welche die Belichtungsdauer, die Größe ihrer Blendenöffnung und die elektronische Analogverstärkung des Sensors festlegt, sodass sich eine Lumineszenz des Bildes oder der Bildfolge ergibt, die auf Grundlage der Kalibrierungen für den verwendeten Sensor und der Präferenzen des Benutzers auf einer bestimmten Stufe liegt. Diese Belichtungsparameter werden berechnet, bevor das Bild aufgenommen wird, und dann verwendet, um die Kamera während der Erfassung der Bilddaten zu steuern. Für eine Szene mit einem speziellen Beleuchtungspegel wird eine Abnahme der Belichtungsdauer durch Vergrößern der Blendenöffnung oder Erhöhen der Verstärkung des Sensors oder durch beides ausgeglichen, um die Daten innerhalb eines bestimmten Lumineszenzbereichs zu erhalten. Eine vergrößerte Blende führt zu einem Bild mit einer verringerten Schärfentiefe und einer erhöhten optischen Unschärfe, und ein Erhöhen der Verstärkung zieht eine Zunahme des Rauschens im Bild nach sich. Wenn die Szene dagegen hell beleuchtet ist, werden die Blende und/oder die Verstärkung verringert und ausgeglichen durch die Zunahme der Belichtungsdauer, wobei das entstehende Bild eine größere Tiefenschärfe und/oder ein verringertes Rauschen umfasst. Zusätzlich zu einer oder anstelle einer Anpassung der analogen Verstärkung wird oft die digitale Verstärkung eines Bildes angepasst, nachdem die Daten erfasst worden sind.
Eine weitere Bearbeitung, die auch durch elektronische Kameras ausgeführt werden kann, umfasst ein Ermitteln der Wahrscheinlichkeit, dass ein bestimmter Objekttyp in einem Bild vorhanden ist. Ein Beispiel für ein Objekt ist das Gesicht eines Menschen. Besteht eine Wahrscheinlichkeit, dass das Objekt im Bild vorkommt, dann wird auch seine Lage bestimmt. Das ermöglicht es der Kamera, während der Erfassung und/oder der Bearbeitung der erfassten Daten unterschiedlich auf diesen Teil des Bildes einzuwirken.
Kurzbeschreibung der Zeichnungen
Es werden nicht einschränkende und keinen Anspruch auf Vollständigkeit erhebende Ausführungsformen der vorliegenden Erfindung mit Bezugnahme auf die nachfolgenden Zeichnungen beschrieben, in denen:
1 ein Blockdiagramm einer Ausführungsform einer Bildgebungsvorrichtung darstellt;
2 ein vereinfachtes Blockdiagramm einer Ausführungsform eines Systems zum Erkennen lächelnder Gesichter zeigt; und
3 ein Flussdiagramm einer Ausführungsform eines Vorgangs zum Erkennen lächelnder Gesichter gemäß Aspekten der Erfindung darstellt.
Ausführliche Beschreibung
Es werden verschiedene Ausführungsformen der vorliegenden Erfindung ausführlich mit Bezugnahme auf die Zeichnungen beschrieben, wobei gleiche Bezugsziffern gleiche Teile und Anordnungen durchgehend in den verschiedenen Ansichten darstellen. Die Bezugnahme auf verschiedene Ausführungsformen schränkt den Umfang der Erfindung nicht ein, der allein durch den Umfang der hierzu angefügten Ansprüche beschränkt ist. Außerdem sollen beliebige in dieser Beschreibung dargelegte Beispiele nicht einschränkend sein und stellen lediglich einige der vielen möglichen Ausführungsformen der beanspruchten Erfindung dar.
In der Beschreibung und den Ansprüchen haben die nachfolgenden Begriffe durchgehend wenigstens die Bedeutungen, die hier explizit zugeordnet sind, wenn der Zusammenhang nicht etwas anderes vorschreibt. Die unten festgelegten Begriffsinhalte schränken die Begriffe nicht notwendigerweise ein, sondern liefern nur veranschaulichende Beispiele für die Begriffe. Die Begriffsinhalte von ”einer/eine/eines” und ”der/die/das” schließt die Bezugnahme auf die Mehrzahl ein, und der Begriffsinhalt von ”in” schließt ”in” und ”auf” ein. Die Formulierung ”in einer Ausführungsform”, wie sie hier verwendet wird, bezieht sich nicht notwendigerweise auf die gleiche Ausführungsform, obwohl es so sein kann. Ebenso bezieht sich die Formulierung ”in einigen Ausführungsformen”, wie sie hier verwendet wird, bei mehrfacher Verwendung nicht notwendigerweise auf die gleichen Ausführungsformen, obwohl es so sein kann. Wie er hier verwendet wird, ist der Begriff ”oder” ein inklusives ”oder” und gleichwertig zum Ausdruck ”und/oder”, wenn der Zusammenhang nicht eindeutig etwas anderes vorschreibt. Der Ausdruck ”teilweise auf Grundlage von”, ”wenigstens teilweise auf Grundlage von” oder ”auf Grundlage von” schließt anderes nicht aus, sondern erlaubt es, dass zusätzliche Faktoren, die nicht beschrieben sind, zur Grundlage beitragen, außer wenn der Zusammenhang eindeutig etwas anderes vorschreibt, Der Begriff ”Signal” bedeutet wenigstens ein Strom-, Spannungs-, Ladungs-, Temperatur-, Daten- oder anderes Signal.
Kurz gesagt betrifft die Erfindung ein Verfahren, eine Vorrichtung und ein Erzeugnis zum Erkennen lächelnder Gesichter. Für jeden Rahmen wird eine Liste neuer lächelnder Gesichter für den Rahmen erzeugt, indem eine Ermittlung lächelnder Gesichter ausgeführt wird, wobei ein Objektklassifizierer verwendet wird, der dazu trainiert ist, zwischen lächelnden Gesichtern und allen Objekten im Rahmen, die keine lächelnden Gesichter sind, zu unterscheiden. Für den ersten Rahmen wird die Liste neuer lächelnder Gesichter als eine Eingabeliste lächelnder Gesichter für den nächsten Rahmen verwendet. Für jeden Rahmen nach dem ersten Rahmen wird eine Liste verfolgter (getrackter) Lächeln für den Rahmen erzeugt, indem lächelnde Gesichter im Rahmen von der für den Rahmen eingegebenen Liste lächelnder Gesichter verfolgt werden. Ferner wird eine Liste neuer lächelnder Gesichter für den nächsten Rahmen erzeugt, indem die Liste neuer lächelnder Gesichter für den Rahmen mit der Liste verfolgter Lächeln für den Rahmen kombiniert wird.
1 zeigt ein Blockdiagramm einer Ausführungsform der Vorrichtung 100, die eine Digitalkamera oder dergleichen sein kann. Die Digitalkamera 100 weist eine Optikgruppe (z. B. eine oder mehrere Linsen und/oder Lichtführungen) 101, einen Satz Bildsensoren 102, die optisch an die Optik 101 gekoppelt sind, einen Satz Analog-Digital(A/D)-Wandler 103 mit Eingängen, die elektrisch mit den Ausgängen der Bildsensoren 102 verbunden sind, und einen oder mehrere Prozessoren und Hardware 104 auf, die gekoppelt sind, um die Ausgaben der A/D-Wandler 103 aufzunehmen. Die Bildsensoren 102 können getrennte R-, G- und B-Farbsignale erzeugen. Die Kamera 100 umfasst ferner eine Anzeigevorrichtung 106, die mit den Ausgängen des Prozessors (der Prozessoren) und der Hardware 104 verbunden ist, und einen Speicher 105, der eine bidirektionale Kommunikation mit dem (den) Prozessor(en) 104 umfasst. Die Anzeigevorrichtung 106 ist optional und nicht in allen Ausführungsformen der Digitalkamera 100 enthalten.
Im Einsatz empfangen die Bildsensoren 102 durch die Optik 101 hindurch eingegebenes Licht und erzeugen als Reaktion darauf ausgegebene analoge Farbsignale R, G und B für die A/D-Wandler. Die A/D-Wandler wandeln diese eingegebenen Farbsignale in eine digitale Form um, die dem (den) Prozessor(en) 104 zur Verfügung gestellt werden.
Der (die) Prozessor(en) und die Hardware 104 können eine CPU sowie eine spezialisierte Hardware aufweisen, wie nachfolgend ausführlicher dargelegt wird. Der (die) Prozessor(en) 104 kann (können) beliebige von verschiedenen wohl bekannten Arten der Bearbeitung an diesen eingegebenen Farbsignalen vornehmen. Der (die) Prozessor(en) 104 kann (können) zum Beispiel eines oder mehreres sein oder umfassen: ein programmierter Mikroprozessor oder digitaler Signalprozessor (DSP), ein Mikrocontroller, eine anwendungsspezifische integrierte Schaltung (ASIC), ein programmierbarer Logikbaustein (PLD) usw. Prozessor(en) und Hardware 104 können verschiedene Prozesse ausführen, wie z. B. einen Teil oder alle Prozesse aus einer Ausführungsform des Prozesses, der in 3 dargestellt ist.
Der Speicher 105 kann zum Beispiel einen beliebigen oder mehrere der Folgenden umfassen: Flash-Speicher, Festwertspeicher (ROM), Speicher mit wahlfreiem Zugriff (RAM) usw. Der Speicher 105 kann ein dinghaftes prozessorlesbares Speichermedium aufweisen, das ausgelegt ist, prozessorlesbaren Code zu codieren, welcher Aktionen ermöglicht, wenn er durch den (die) Prozessor (en) 104 ausgeführt wird. Die vom (den) Prozessor(en) 104 ermöglichten Aktionen, die eine Aktion (Aktionen) umfassen können, die vom (den) Prozessor(en) 104 gesteuert wird (werden), tatsächlich aber von anderen Teilen der Digitalkamera 100 ausgeführt wird (werden), können verschiedene Prozesse ausführen, wie z. B. einen Teil oder alle Prozesse aus einer Ausführungsform des Prozesses, der in 3 dargestellt ist.
Die Digitalkamera 100 ist nicht beschränkt auf handelsübliche Digitalkameras, sondern kann andere Arten von Abbildungsvorrichtungen umfassen, die Bilder auf vielen unterschiedlichen Wegen aufnehmen.
Die bearbeiteten oder unbearbeiteten Farbdaten können zur Anzeige an die Anzeigevorrichtung 106 und/oder ein oder mehrere externe Geräte, wie z. B. einen Computer oder einen Drucker, ausgegeben werden.
2 zeigt eine Ausführungsform des Systems 200 zum Erkennen eines Lächelns, das eine Bildstreueinheit 210, eine Einheit 230 zum Erkennen lächelnder Gesichter und eine Einheit 220 zum Verfolgen lächelnder Gesichter umfasst. Die Bildstreueinheit (ISU) 210 ist ausgelegt, Daten eines Rahmens als Eingabe zu erhalten. Eingabebeispiele in das System umfassen das Quarter-Video-Graphics-Array (QVGA), codierte Bild- und/oder Filmdaten (z. B. YUV) und komprimierte Daten (z. B lediglich in Y herunterskalierte Kopien), ohne Beschränkung darauf.
Die ISU 210 kann an eine Erkennungsvorrichtung und/oder einen Prozessor zum Empfang der Daten für den einen oder die mehreren Rahmen gekoppelt sein. Wie hier verwendet, kann sich ein Rahmen auf ein Bildfenster oder einen Erkennungsbereich einer Abbildungsvorrichtung, wie z. B. einen Fotosensor, eine Kamera, einen Videodetektor usw., beziehen. In bestimmten Ausführungsformen können sich die von der ISU 210 aufgenommenen Daten auf ein Vorschaubild des Detektors beziehen. Ein Rahmen kann auch die Ermittlungsdaten für einen speziellen Zeitabschnitt beschreiben. Die ISU 210 kann ausgelegt sein, die empfangenen Rahmendaten für ein Gerätedisplay auszugeben. Im Anschluss an den Empfang eines oder mehrerer Rahmen ist die ISU 210 ausgelegt, der Einheit 230 zum Erkennen lächelnder Gesichter (SD) und der Einheit 220 zum Verfolgen lächelnder Gesichter (ST) den einen oder die mehreren Rahmen bereitzustellen. SD 230 und ST 220 sind Bildbearbeitungskomponenten, die zum Ausführen von Aktionen ausgelegt sind. In einer Ausführungsform kann ST 220 eine Liste von Koordinaten der lächelnden Gesichter und eine Skala zum Verfolgen eines oder mehrerer lächelnder Gesichter verwenden.
Die SD 230 ist ausgelegt, Fenster mit einem potenziell lächelnden Gesicht bereitzustellen. Erfassung und Bearbeitung von Bildern können auf dem Erkennen und Scharfeinstellen beruhen, das mit dem einen oder den mehreren Fenstern innerhalb eines Rahmens verbunden ist. Auf Grundlage des einen oder der mehreren Fenster, die durch die Bilderkennungsvorrichtung unterstützt werden, kann die Erkennung lächelnder Gesichter innerhalb des Rahmens ausgeführt werden. Die SD 230 weist eine Objekterkennungseinheit auf, die zwischen lächelnden Gesichtern und allen Objekten unterscheidet, die keine lächelnden Gesichter sind. In einigen Ausführungsformen können die lächelnden Gesichter, die durch die SD 230 erkannt wurden, mit den lächelnden Gesichtern kombiniert werden, die durch die ST 220 verfolgt wurden, um eine Liste lächelnder Gesichter bereitzustellen, die von der ST 220 für den nächsten Rahmen verfolgt werden müssen, wie nachstehend ausführlicher dargelegt wird.
Gemäß einigen Ausführungsformen der Erfindung kann das System zum Erkennen des Lächelns 200 eine Liste oder einen Satz von einem oder mehreren lächelnden Gesichtern verwenden, die innerhalb eines Rahmens verfolgt werden müssen. Die ST 220 kann ausgelegt sein, eine Liste lächelnder Gesichter bereitzustellen, die durch eine Bildgebungsvorrichtung, wie z. B. eine Kamera, verwendet werden kann, in der ein oder mehrere Konfidenzniveaus enthalten sind, die dem erkannten lächelnden Gesicht zugeordnet sind. Die Gesichtsliste kann für jedes Gesicht in der Gesichtsliste auf dem Grad des Vertrauens (Konfidenz) darauf beruhen, dass es tatsächlich ein lächelndes Menschengesicht ist. Eine Ausgabeliste 240 lächelnder Gesichter kann erzeugt werden, indem die verfolgten lächelnden Gesichter herausgefiltert werden, die unterhalb eines speziellen Konfidenzniveau-Schwellenwerts liegen. In einigen Ausführungsformen ist das Konfidenzniveau ein Konfidenzniveau für jedes lächelnde Gesicht, welches verfolgt und über die Zeit gemittelt wird. In einigen Ausführungsformen wird die Ausgabeliste 240 lächelnder Gesichter zum Beispiel erzeugt, indem aus der Liste verfolgter lächelnder Gesichter jedes lächelnde Gesicht entfernt wird, das ein mittleres Konfidenzniveau umfasst, das unter einem Konfidenzniveau-Schwellenwert liegt.
Obwohl sie in 2 als Hardwareeinheiten beschrieben sind, sollte anerkannt werden, dass die Funktionen der Einheiten auf verschiedenen Wegen realisiert werden können, wobei Hardware, Firmware, Software und/oder Kombinationen davon eingeschlossen sind. In einigen Ausführungsformen kann insbesondere die Einheit 220 zum Verfolgen lächelnder Gesichter als eine Kombination aus Hardware und Software realisiert werden, und die Einheit 230 zum Erkennen lächelnder Gesichter kann als eine Kombination aus Hardware und Software realisiert werden. Die Softwarekomponenten können ein dinghaftes prozessorlesbares Speichermedium aufweisen, das ausgelegt ist, den prozessorlesbaren Code zu codieren, der Aktionen ermöglicht, wenn er durch den einen oder die mehreren Prozessoren ausgeführt wird.
3 zeigt ein Flussdiagramm einer Ausführungsform eines Prozesses (350) zum Erkennen lächelnder Gesichter.
In einigen Ausführungsformen kann der Prozess 350 eine Anzahl von eingegebenen Bildern oder Rahmen bearbeiten. In einigen Ausführungsformen sind die Rahmen einem Vorschaubild einer Digitalkamera zugeordnet. Für jeden Rahmen wird eine Liste neuer lächelnder Gesichter für den Rahmen erzeugt, indem bei Einheit 360 zum Erkennen lächelnder Gesichter eine Ermittlung der lächelnden Gesichter vorgenommen wird, wobei ein Objektklassifizierer verwendet wird, der dazu trainiert ist, zwischen lächelnden Gesichtern und allen Objekten im Rahmen zu unterscheiden, die keine lächelnden Gesichter sind. Für den ersten Rahmen/das erste Eingabebild wird die Liste neuer lächelnder Gesichter als eine Eingabeliste lächelnder Gesichter für den nächsten Rahmen das nächste Eingabebild (d. h. den zweiten Rahmen/das zweite Eingabebild) verwendet. Für jeden Rahmen nach dem ersten Rahmen wird bei Verfolgungsblock 370 von lächelnden Gesichtern eine Liste verfolgter lächelnder Gesichter für den Rahmen erzeugt, indem lächelnde Gesichter im Rahmen von der für den Rahmen eingegebenen Liste lächelnder Gesichter verfolgt werden. Ferner wird bei Kombinierungsblock 380 eine Liste neuer lächelnder Gesichter für den nächsten Rahmen erzeugt, indem die Liste neuer lächelnder Gesichter für den Rahmen mit der Liste verfolgter Lächeln für den Rahmen kombiniert wird. In einigen Ausführungsformen kann die Liste verfolgter Lächeln mit einem Stördatenfilter 390 gefiltert werden, um eine Ausgabeliste lächelnder Gesichter zu erzeugen.
In einigen Ausführungsformen beginnt der Prozess 350, wenn eine Digitalkamera in den automatischen Erfassungsmodus oder Modus zum Erkennen eines Lächelns versetzt wird, um immer dann automatisch ein Standbild zu erfassen, wenn eine Person im Gesichtsfeld der Kamera lächelt, wobei die Kamera schnell genug reagiert, bevor die Person zu lächeln aufhört. In einigen Ausführungsformen kann ein Benutzer die Digitalkamera dazu veranlassen, in den Modus zum Erkennen eines Lächelns überzugehen, indem der Modus zum Erkennen eines Lächelns als eine Option aus einem Menü ausgewählt wird. In einigen Ausführungsformen kann die Erkennung eines Lächelns in einem Selbstauslösermodus umfasst sein, der eine Bildaufnahme auslöst, nachdem ein Zeitgeber endet, wenn ein Lächeln erkannt ist.
In einigen Ausführungsformen wird der Prozess 350 zum Erkennen des Lächelns in einem Kamera-Vorschaumodus ausgeführt, in dem die Algorithmeneingaben eine Bildfolge sind. Die Ausgabe des Algorithmus ist eine Liste lächelnder Gesichter, welche die Koordinaten der Gesichter und die Größe für jedes eingegebene Bild enthält. In einigen Ausführungsformen kann die Folge von eingegebenen Bildern aus Bildern im Vorschaumodus der Kamera bestehen. In verschiedenen Ausführungsformen können die eingegebenen Rahmen sich auf eine Vorschau von Bilddaten beziehen, die Standbilder, Bewegungsbilder, Video und/oder abgebildete Daten umfassen.
Die Einheit 360 zum Erkennen lächelnder Gesichter ist ausgelegt, neue Gesichter über den gesamten Eingaberahmen hinweg aufzufinden. In einigen Ausführungsformen kann die Einheit 360 zum Erkennen lächelnder Gesichter unter Verwendung der Objekterkennungseinheit ausgeführt sein, die beschrieben ist in der US-Patentschrift 7961908 mit dem Titel ”Detecting objects in an image being acquired by a digital camera or other eletronic image acquisition device”, die hiermit durch Verweis einbezogen ist. Die Objekterkennungseinheit wird mit zwei vorbereiteten Datenbanksätzen trainiert. Die erste Datenbank umfasst eine große Anzahl von Bildern lächelnder Gesichter von verschiedenen Personen. Der Satz wird als ein Satz positiver Beispiele verwendet. Die zweite Datenbank umfasst eine große Anzahl von Bildern unterschiedlicher Objekttypen, die keine lächelnden Gesichter umfassen. Der Satz wird als ein Satz negativer Beispiele verwendet. Hintereinandergeschaltete Klassifizierer werden durch Trainieren der Klassifizierer mit den positiven und negativen Sätzen eingestellt. Dann wird die Objekterkennungseinheit mit den hintereinandergeschalteten Klassifizierern gespeist. Auf diese Weise arbeitet die Objekterkennungseinheit als Klassifizierer, die den Ort und die Größe von lächelnden Gesichtern im eingegebenen Bild erkennen, während beliebige andere Objekttypen ausgesondert werden. Dementsprechend ist der Objektklassifizierer trainiert, alle Objekte im Bild auszusondern, die keine lächelnden Gesichter sind. Das Erkennen lächelnder Gesichter erfolgt ausschließlich unter Verwendung der Objekterkennungseinheit. Die Objekterkennungseinheit unterscheidet zwischen lächelnden Gesichtern und allen Objekten, die keine lächelnden Gesichter sind. Das Trainieren wird offline im Werk ausgeführt, bevor die Parameter in die Kamera eingegeben werden. Nach dem Abschluss des Trainierens werden die Parameter, die sich aus dem Trainieren ergeben, in die Kamera geladen.
In einigen Ausführungsformen arbeitet die Einheit 360 zum Erkennen lächelnder Gesichter wie die Objekterkennungseinheit, die in der US-Patentschrift 7961908 beschrieben ist, abgesehen davon, dass das lächelnde Menschengesicht das zu erkennende Objekt ist, anstatt das Menschengesicht als das zu erkennende Objekt zu verwenden. Die Klassifizierer unterscheiden zwischen lächelnden Menschengesichtern und allen Objekten, die keine lächelnden Menschengesichter sind. Anstelle eines zweistufigen Prozesses, in dem zuerst eine Objekterkennungseinheit zwischen Gesichtern und Nicht-Gesichtern unterscheidet, und dann eine anschließende Bestimmung ausgeführt wird, ob die Gesichter lächeln oder nicht, führt die Einheit 360 zum Erkennen lächelnder Gesichter einen einstufigen Prozess aus, in dem die Objekterkennungseinheit zwischen lächelnden Gesichtern und den Objekten unterscheidet, die keine lächelnden Gesichter sind. Statt die Klassifizierer zwischen Beispielen, die Gesichter sind, und Beispielen, die keine Gesichter sind, trainieren zu lassen, trainieren die Klassifizierer zwischen Beispielen, die lächelnde Gesichter sind, und Beispielen, die keine lächelnden Gesichter sind.
Obwohl in der US-Patentschrift 7961908 eine Ausführungsform der Objekterkennung ausführlicher beschrieben ist, arbeitet in einer Ausführungsform jeder Klassifizierer kurz gesagt wie folgt. Für jeden Rahmen ist der Klassifizierer ausgelegt, Grenzen von Fenstern im Rahmen festzulegen. Der Klassifizierer bewertet dann die Daten innerhalb einzelner Fenster mit Bezug auf die gespeicherten Daten eines ersten Satzes von Merkmalen des speziellen Objekttyps und weist den einzelnen Fenstern erste Punktwerte zu, die eine Wahrscheinlichkeit für das Vorliegen des ersten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern wiedergeben. Der Klassifizierer vergleicht dann die ersten Punktwerte mit einem vorgegebenen ersten Schwellenwert, um eine erste Gruppe von Fenstern zu bestimmen, die Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des ersten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dementsprechend diejenigen der einzelnen Fenster auszusondern, die anders als die der ersten Gruppe sind.
Die erste Gruppe der Fenster besteht aus einem oder mehreren, aber aus weniger als allen Fenstern. Der Klassifizierer bewertet dann die Daten in den einzelnen ausgewählten Fenstern der ersten Gruppe, aber nicht die ausgesonderten Fenster, bezüglich gespeicherter Daten eines zweiten Satzes von Merkmalen des speziellen Objekttyps. Der Klassifizierer weist dann den einzelnen Fenstern der ersten Gruppe zweite Punktwerte zu, die eine Wahrscheinlichkeit für das Vorliegen des zweiten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern der ersten Gruppe wiedergeben. Der Klassifizierer vergleicht dann die zweiten Punktwerte mit einem vorgegebenen zweiten Schwellenwert, um eine zweite Gruppe von Fenstern zu bestimmen, die zweite Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des zweiten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dementsprechend diejenigen der einzelnen Fenstern der ersten Gruppe auszusondern, die nicht die der zweiten Gruppe sind. Wie oben dargelegt wurde, ist der Klassifizierer derart trainiert, dass ”der spezielle Bildtyp” ein lächelndes Gesicht ist.
Die Klassifizierer arbeiten derart in Reihe, dass die Bestimmung, ob die Fenster ein lächelndes Gesicht aufweisen oder nicht, in jeder nachfolgenden Runde detaillierter und komplizierter ist. Die Fenster, die durch den ersten Klassifizierer nicht zurückgewiesen wurden, gehen zum nächsten Klassifizierer über und so weiter. Jeder nachfolgende Klassifizierer ist stärker als die vorhergehenden Klassifizierer in der Reihenfolge, derart, dass das Objekt mehr und mehr einem lächelnden Gesicht ähneln muss, um in den nachfolgenden Runden nicht ausgesondert zu werden. Das ermöglicht es, dass Fenster, die offensichtlich keine lächelnden Gesichter enthalten, wie z. B. ein Fenster, das nichts außer eine weiße Wand im Hintergrund enthält, schnell ausgesondert werden.
In einigen Ausführungsformen kann anstelle des Verfahrens, das in der US-Patentschrift 7961908 beschrieben ist, ein anderes geeignetes Verfahren zur Objektverfolgung verwendet werden, aber auf alle Fälle sollte das Verfahren die Objekterkennung verwenden, die zwischen lächelnden Gesichtern und den Objekten unterscheidet, die keine lächelnden Gesichter sind.
Die Verfolgungseinheit 370 von lächelnden Gesichtern ist ausgelegt, lächelnde Gesichter im eingegebenen Bild zu verfolgen. In einigen Ausführungsformen ist die Lächeleinheit 370 auf die gleiche Weite ausgeführt wie die Gesichtsverfolgungseinheit, die in der Patentanmeldung 2010/0021008 mit dem Titel ”System and Method for Face Tracking” beschrieben ist, die hier durch Verweis einbezogen ist, außer dass die Verfolgungseinheit 370 von lächelnden Gesichtern statt den Gesichtern den lächelnden Gesichtern nachfolgt. Während des Trainierens der Verfolgungseinheit 370 von lächelnden Gesichtern wird in die Verfolgungseinheit 370 von lächelnden Gesichtern eine Liste lächelnder Gesichtsobjekten anstelle einer Verfolgungsliste von Gesichtsobjekten eingegeben, wie in der US-Patentanmeldung 2010/0021008 beschrieben ist.
In einigen Ausführungsformen kann von der Verfolgungseinheit 370 von lächelnden Gesichtern ein anderes geeignetes Verfolgungsverfahren anstelle des Verfahrens, das in der US-Patentanmeldung 2010/0021008 beschrieben ist, verwendet werden, aber statt der Gesichter werden durch die Einheit 370 lächelnde Gesichter verfolgt.
Die Kombinierungseinheit 380 ist ausgelegt, die Liste neu erkannter lächelnder Gesichter und die verfolgten lächelnden Gesichter zu kombinieren, um die Liste lächelnder Gesichter bereitzustellen, die durch die Verfolgungseinheit 370 verfolgt werden sollen.
Bei dem System 350 ist es möglich, dass fälschlicherweise Störobjekte oder nicht lächelnde Gesichter als lächelnde Gesichter erkannt werden. Das unrichtige Erkennen lächelnder Gesichter im Algorithmus zum Erkennen des Lächelns ist vorzugsweise, da die Kamera sonst leere Bilder ohne ein Gesicht in der Bildfläche oder mit Gesichtern, die nicht lächeln, erfassen könnte. Die Stördatenfiltereinheit 390 ist dafür ausgelegt, die Anzahl der Falscherkennungen zu verringern. Die Stördatenfiltereinheit 390 ist ausgelegt, das mittlere Erkennungs-Konfidenzniveau über n Rahmen (n > 1) hinweg zu berechnen und nur Gesichter mit einem mittleren Erkennungs-Konfidenzniveau weiterzuleiten, das höher als ein vorgegebener Schwellenwert ist. Das Konfidenzniveau bezieht sich hier auf das Vertrauen, dass das verfolgte lächelnde Gesicht tatsächlich ein lächelndes Gesicht ist.
In einigen Anwendungen einiger Ausführungsformen des Prozesses 350 stellt sich die Kamera auf die lächelnden Gesichter scharf ein und erfasst das Bild. In einigen Ausführungsformen ist jedoch in einigen Anwendungen die Scharfeinstellungszeit der Kamera kritisch, und der Scharfeinstellungsvorgang wird vor dem Erkennen des Lächelns ausgeführt. Dementsprechend stellt sich die Kamera in einigen Ausführungsformen auf nicht lächelnde Gesichter im Bild ein und erfasst das Bild sofort, wenn ein nicht lächelndes Gesicht zu lächeln beginnt. In einigen Ausführungsformen, in denen die Scharfeinstellungszeit der Kamera kritisch ist, wird das bewerkstelligt, indem die Anwendungen zur Gesichtserkennung und zum Erkennen des lächelnden Gesichts unabhängig und gleichzeitig ausgeführt und die Gesichtserkennungsanwendung zum Scharfeinstellen verwendet und der Algorithmus zum Erkennen des lächelnden Gesichts für die Bilderfassung eingesetzt wird.
Obwohl verschiedene oben dargelegte Ausführungsformen das Erkennen und Verfolgen lächelnder Gesichter beinhalten, können einige Ausführungsformen nur das Erkennen lächelnder Gesichter und nicht das Verfolgen lächelnder Gesichtern einsetzen, wobei das oben dargelegte Verfahren zum Erkennen eines lächelnden Gesichts verwendet wird. Zum Beispiel kann das Erkennen lächelnder Gesichter nach dem Erfassen des Fotos im Standmodus angewendet werden. Diese Ausführungsformen und weitere liegen auch im Umfang und Wesen der Erfindung.
Beschreibung, Beispiele und Daten, die oben gegeben sind, liefern eine Darstellung der Herstellung und Verwendung des Aufbaus der Erfindung. Da viele Ausführungsformen der Erfindung ausgeführt werden können, ohne das Wesen und den Umfang der Erfindung zu verlassen, beruht die Erfindung auch auf den Ansprüchen, die hier nachfolgend angefügt sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 7961908 [0029, 0030, 0031, 0034]

Claims

Verfahren, umfassend: für jeden Rahmen von mehreren Rahmen, die wenigstens einen ersten Rahmen, einen zweiten Rahmen und einen letzten Rahmen umfassen: Erzeugen einer Liste neuer lächelnder Gesichter für den Rahmen durch Ausführen einer Erkennung lächelnder Gesichter unter Verwendung eines Objektklassifizierers, der trainiert ist, zwischen lächelnden Gesichtern und allen Objekten im Rahmen, die keine lächelnden Gesichter sind, zu unterscheiden; Verwenden der Liste neuer lächelnder Gesichter aus dem ersten Rahmen der mehreren Rahmen als eine Eingabeliste lächelnder Gesichter für den zweiten Rahmen der mehreren Rahmen; für jeden Rahmen der mehreren Rahmen nach dem ersten Rahmen: Erzeugen einer Liste verfolgter Lächeln für den Rahmen durch Verfolgen lächelnder Gesichter in dem Rahmen aus der Eingabeliste lächelnder Gesichter für den Rahmen; und für jeden Rahmen der mehreren Rahmen nach dem ersten Rahmen der mehreren Rahmen und vor dem letzten Rahmen der mehreren Rahmen: Erzeugen einer Liste neuer lächelnder Gesichter für den nächsten Rahmen der mehreren Rahmen durch Kombinieren der Liste neuer lächelnder Gesichter für den Rahmen mit der Liste verfolgter Lächeln für den Rahmen.
Verfahren nach Anspruch 1, wobei die mehreren Rahmen einem Vorschaubild einer Digitalkamera zugeordnet sind.
Verfahren nach Anspruch 1, wobei das Erzeugen der Liste verfolgter Lächeln umfasst: Erkennen eines Bildes im Rahmen auf der Grundlage von wenigstens einem von: Koordinatenwerten und Skalenwerten lächelnder Gesichter in der Eingabeliste lächelnder Gesichter für den Rahmen.
Verfahren nach Anspruch 1, ferner umfassend: Ausführen der Gesichtserkennung und Gesichtsverfolgung und Ausführen der Scharfeinstellung der Kamera auf der Grundlage der Gesichtsverfolgung, wobei das Ausführen der Gesichtserkennung und Gesichtsverfolgung gleichzeitig mit und unabhängig von der Erkennung lächelnder Gesichter und der Verfolgung lächelnder Gesichter geschieht.
Verfahren nach Anspruch 1, wobei der Objektklassifizierer mehrere Klassifizierer umfasst.
Verfahren nach Anspruch 5, ferner für jeden Rahmen umfassend, wobei wenigstens einer der mehreren Klassifizierern ausgelegt ist zum: Einrichten von Fenstergrenzen im Rahmen, Auswerten von Daten innerhalb einzelner Fenster mit Bezug auf gespeicherte Daten eines ersten Satzes von Merkmalen des speziellen Objekttyps und Zuweisen erster Punktwerte für die einzelnen Fenster, die eine Wahrscheinlichkeit für das Vorliegen des ersten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern wiedergeben, Vergleichen der ersten Punktwerte mit einem vorgegebenen ersten Schwellenwert, um eine erste Gruppe von Fenstern zu bestimmen, die erste Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des ersten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dadurch diejenigen der einzelnen Fenstern auszusondern, die nicht die der ersten Gruppe sind, wobei die erste Gruppe der Fenster aus einem oder mehreren, aber aus weniger als allen Fenstern besteht, anschließend Auswerten der Daten in den einzelnen ausgewählten Fenster der ersten Gruppe, aber nicht die ausgesonderten Fenster, bezüglich gespeicherter Daten eines zweiten Satzes von Merkmalen des speziellen Objekttyps und Zuweisen zweiter Punktwerte an die einzelnen Fenster der ersten Gruppe, die die Wahrscheinlichkeit für das Vorliegen des zweiten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern der ersten Gruppe wiedergeben, und Vergleichen der zweiten Punktwerte mit einem vorgegebenen zweiten Schwellenwert, um eine zweite Gruppe von Fenstern zu bestimmen, die zweite Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des zweiten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dadurch diejenigen der einzelnen Fenstern der ersten Gruppe auszusondern, die nicht die der zweiten Gruppe sind, wobei der spezielle Bildtyp ein lächelndes Gesicht ist.
Verfahren nach Anspruch 1, ferner umfassend: Erzeugen einer Liste ausgegebener lächelnder Gesichter durch Filtern der Liste verfolgter lächelnder Gesichter.
Verfahren nach Anspruch 7, wobei das Filtern der Liste verfolgter Lächeln ein Beseitigen eines jeden lächelnden Gesichts umfasst, das ein durchschnittliches Konfidenzniveau aufweist, das unter einem Konfidenzniveau-Schwellenwert liegt.
Vorrichtung mit: einem Bilddetektor, der ausgelegt ist, mehrere Rahmen auszugeben, wobei die mehreren Rahmen wenigstens einen ersten Rahmen, einen zweiten Rahmen und einen letzten Rahmen umfassen; und Bildbearbeitungskomponenten, die zum Ausführen von Aktionen ausgelegt sind, die umfassen: für jeden Rahmen der mehreren Rahmen: Erzeugen einer Liste neuer lächelnder Gesichter für den Rahmen durch Ausführen einer Erkennung lächelnder Gesichter unter Verwendung eines Objektklassifizierers, der trainiert ist, zwischen lächelnden Gesichtern und allen Objekten in dem Rahmen, die keine lächelnden Gesichter sind, zu unterscheiden; Verwenden der Liste neuer lächelnder Gesichter aus dem ersten Rahmen der mehreren Rahmen als eine Eingabeliste lächelnder Gesichter für den zweiten Rahmen der mehreren Rahmen; für jeden Rahmen der mehreren Rahmen nach dem ersten Rahmen: Erzeugen einer Liste verfolgter Lächeln für den Rahmen durch Verfolgen lächelnder Gesichter im Rahmen aus der Eingabeliste lächelnder Gesichter für den Rahmen; und für jeden Rahmen der mehreren Rahmen nach dem ersten Rahmen der mehreren Rahmen und vor dem letzten Rahmen der mehreren Rahmen: Erzeugen einer Liste neuer lächelnder Gesichter für den nächsten Rahmen der mehreren Rahmen durch Kombinieren der Liste neuer lächelnder Gesichter für den Rahmen mit der Liste verfolgter Lächeln für den Rahmen.
Vorrichtung nach Anspruch 9, wobei die Vorrichtung eine Digitalkamera umfasst, die den Bilddetektor und die Bildbearbeitungskomponenten umfasst, wobei die mehreren Rahmen einem Vorschaubild der Digitalkamera zugeordnet sind.
Vorrichtung nach Anspruch 9, wobei die Bildbearbeitungskomponenten ferner derart ausgelegt sind, dass das Erzeugen der Liste verfolgter Lächeln umfasst: Erkennen eines Bildes in dem Rahmen auf der Grundlage von Koordinatenwerten und/oder Skalenwerten der lächelnden Gesichter in der Eingabeliste lächelnder Gesichter für den Rahmen.
Vorrichtung nach Anspruch 9, wobei die Bildbearbeitungskomponenten ausgelegt sind, weitere Aktionen bereitzustellen, die umfassen: Ausführen der Gesichtserkennung und Gesichtsverfolgung und Ausführen der Scharfeinstellung der Kamera auf der Grundlage der Gesichtsverfolgung, wobei das Ausführen der Gesichtserkennung und Gesichtsverfolgung gleichzeitig mit und unabhängig von der Erkennung lächelnder Gesichter und der Verfolgung lächelnder Gesichter geschieht.
Vorrichtung nach Anspruch 9, wobei der Objektklassifizierer mehrere Klassifizierer umfasst.
Vorrichtung nach Anspruch 13, wobei die Bildbearbeitungskomponenten derart ausgelegt sind, dass wenigstens einer der Objektklassifizierer für jeden Rahmen ausgelegt ist zum: Einrichten von Fenstergrenzen in dem Rahmen, Auswerten von Daten innerhalb einzelner Fenster mit Bezug auf die gespeicherten Daten eines ersten Satzes von Merkmalen des speziellen Objekttyps und Zuweisen erster Punktwerte für die einzelnen Fenster, die eine Wahrscheinlichkeit für das Vorliegen des ersten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern wiedergeben, Vergleichen der ersten Punktwerte mit einem vorgegebenen ersten Schwellenwert, um eine erste Gruppe von Fenstern zu bestimmen, die erste Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des ersten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dadurch diejenigen der einzelnen Fenstern auszusondern, die nicht die der ersten Gruppe sind, wobei die erste Gruppe der Fenster aus einem oder mehreren, aber aus weniger als allen Fenstern besteht, anschließend Auswerten der Daten in den einzelnen ausgewählten Fenstern der ersten Gruppe, aber nicht die ausgesonderten Fenster, bezüglich gespeicherter Daten eines zweiten Satzes von Merkmalen des speziellen Objekttyps und Zuweisen zweiter Punktwerte für die einzelnen Fenster der ersten Gruppe, die die Wahrscheinlichkeit für das Vorliegen des zweiten Satzes von Merkmalen des speziellen Objekttyps in den entsprechenden einzelnen Fenstern der ersten Gruppe wiedergeben, und Vergleichen der zweiten Punktwerte mit einem vorgegebenen zweiten Schwellenwert, um eine zweite Gruppe von Fenstern zu bestimmen, die zweite Punktwerte aufweisen, die auf die Wahrscheinlichkeit des Vorliegens des zweiten Satzes von Merkmalen des speziellen Objekttyps hinweisen, und um dadurch diejenigen der einzelnen Fenstern der ersten Gruppe auszusondern, die nicht die der zweiten Gruppe sind, wobei der spezielle Bildtyp ein lächelndes Gesicht ist.
Vorrichtung nach Anspruch 9, wobei die Bildbearbeitungskomponenten ausgelegt sind, weitere Aktionen bereitzustellen, die umfassen: Erzeugen einer Liste ausgegebener lächelnder Gesichter durch Filtern der Liste verfolgter Lächeln.
Vorrichtung nach Anspruch 15, wobei die Bildbearbeitungskomponenten derart ausgelegt sind, dass: das Filtern der Liste verfolgter Lächeln ein Beseitigen eines jeden lächelnden Gesichts umfasst, das ein durchschnittliches Konfidenzniveau aufweist, das unter einem Konfidenzniveau-Schwellenwert liegt.