-
Ausführungsbeispiele gemäß der Erfindung beziehen sich auf die Erkennung von Mimiken, Emotionen oder allgemein Bewegungen in Gesichtern und insbesondere auf ein Verfahren und eine Vorrichtung zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz.
-
Menschliche Empfindungen wie Emotionen oder Schmerz lösen Kontraktionen der Gesichtsmuskulatur aus, die für Gesichtsbewegungen oder Mimik verantwortlich sind. Zur Beschreibung von Veränderungen im mimischen Erscheinungsbild durch Muskelbewegungen wird z. B. das Facial Action Coding System (FACS, Gesichtsbewegungen-Codierungssystem, siehe z. B. „Ekman P et al. Facial Action Coding System The Manual [On CD ROM]. Nexus division of Network Information Research Corporation; 2002”) verwendet, das kleinste sichtbare Muskelbewegungen im Gesicht beschreibt und zu einzelnen Action Units (Bewegungseinheiten) kategorisiert, wodurch ein indirekter Rückschluss auf die zugehörigen Empfindungen ermöglicht wird.
-
Die automatische Klassifikation von Action Units zur Erkennung von Emotionen wurde bisher durch klassische Ansätze der Gesichtserkennung oder Bewegungsanalyse gelöst. Hierbei werden Aufnahmen von Gesichtern mit unterschiedlichen Action Units anhand von verschiedenen Merkmalen trainiert und anschließend klassifiziert. Diese Merkmale können Farbinformationen oder Grauwertverteilungen („J. Whitehill, C. W. Omlin. Haar Features for FACS AU Recognition. Face and Gesture Recognition 2006”) sein oder auf Deformationsparametern (”S. Lucey, B. A. Ashraf, J. F. Cohn. Investigating spontaneous facial action recognition through AAM representations of the face. In K. Delac & M. Grgic (Eds.) Face recognition, pp. 275–284, 2007, Vienna: I-TECH” oder „Black MJ et al. Recognizing Facial Expressions in Image Sequences Using Local Parameterized Models of Image Motion. Int J Computer Vis 1997; 25 (1): 23–48”) von Gitterstrukturen beruhen, welche an die Gesichtskonturen angepasst wurden.
-
Die Klassifikation von abstrakten Merkmalen hat den Nachteil, dass keine direkte Ablesbarkeit der entsprechenden Klasse (hier die Action Unit) durch den Menschen möglich ist und immer eine „Übersetzung” durch das System notwendig ist. Neben der Unsicherheit bei der Bestimmung der Merkmale bleibt zudem eine Unsicherheit in der Zuordnung der Merkmale zu einer bestimmten Klasse. Insbesondere technisch nicht versierten Personen ist diese Zuordnung oft unklar und die z. B. im klinischen Anwendungsfall oft geforderte oder zumindest gewünschte „Erklärungskomponente” für den Arzt entfällt.
-
Weitere Beispiele für bekannte Verfahren sind in der
DE 000009403971 U1 (Gerät zur Messung von Bewegungen im Gesicht eines Menschen) und in der
WO 2008156184 A1 (Facial Expression Recognition Apparatus and Method, and Image Capturing Apparatus) gezeigt sowie in „
„Real-time active shape models for face segmentation" Fröbä, B.; Kastner, T.; Zink, W.; Küblbeck, C., International Conference on Image Processing, ICIP 2001. Proceedings. Vol. 1: 7–10 October 2001, Makedonia Palace Hotel, Thessaloniki, Greece”, „
„An improved active shape model for face alignment", Wie Wang, Shiguang Shan, Wen Gao, Bo Cao, Boacai Yin, icmi, pp. 523, Fourth IEEE International Conference on Multimodal Interfaces (ICMI ’02), 2002” und unter
http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/Models/pdms.html zu finden.
-
Ein weiterer Nachteil von bekannten Verfahren ist die aufwendige Erstellung einer Datenbank mit Referenzgitterstrukturen. Für jede Action Unit (Bewegungseinheit) muss zumindest eine Referenzgitterstruktur erstellt werden, die mit der aus dem Bild extrahierten Gitterstruktur verglichen werden muss. Neben dem Aufwand zum Erstellen der Referenzdatenbank ergibt sich ein erheblicher Zeitaufwand, um eine aus einem Bild extrahierte Gitterstruktur mit jeder Referenzgitterstruktur der Datenbank zu vergleichen.
-
Die Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Konzept zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz zu schaffen, die es ermöglicht, Gesichtsbewegungen leichter, schneller und/oder mit geringerem Aufwand zu erkennen.
-
Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 oder eine Vorrichtung gemäß Anspruch 13 gelöst.
-
Ein Ausführungsbeispiel gemäß der Erfindung schafft ein Verfahren zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz. Das Verfahren umfasst ein Bestimmen einer Mehrzahl von Referenzpunkten des Gesichts in einem ersten Bild der Bildsequenz und ein Bestimmen der Mehrzahl von Referenzpunkten des Gesichts in einem zweiten Bild der Bildsequenz. Des Weiteren umfasst das Verfahren ein Berechnen einer Positionsdifferenz zwischen einer Position eines Referenzpunkts der Mehrzahl von Referenzpunkten in dem ersten Bild und einer Position des Referenzpunkts in dem zweiten Bild. Zusätzlich weist das Verfahren ein Erkennen einer Gesichtsbewegung in dem Gesicht in der Bildsequenz basierend auf der berechneten Positionsdifferenz auf.
-
Ausführungsbeispiele gemäß der Erfindung basieren auf dem Kerngedanken, dass für mehrere Bilder der Bildsequenz eine Mehrzahl von Referenzpunkten bestimmt wird und die Positionen der Referenzpunkte miteinander verglichen werden, um eine Positionsveränderung festzustellen. Zum Beispiel können die Referenzpunkte an markanten Gesichtsmerkmalen, wie beispielsweise der Nase, den Augen, den Mundwinkeln oder den Augenbrauen angeordnet werden. Die festgestellten Positionsänderungen der Referenzpunkte können dann beispielsweise standardisierten Gesichtsbewegungen, wie z. B. nach dem Facial Action Coding System (FACS, Gesichtsbewegungen-Codierungssystem), zugeordnet und somit erkannt werden. Es kann also direkt aus einem Bereich des Gesichts, der sich verändert, auf die entsprechende Gesichtsbewegung geschlossen werden. Dadurch kann eine leicht nachvollziehbare Zuordnung der erkannten Gesichtsbewegung erfolgen.
-
Da durch das beschriebene Konzept eine Gesichtsbewegungserkennung direkt durch den Vergleich von extrahierten Daten (Referenzpunkten) der Bilder der Bildsequenz erfolgt ist das Erstellen einer aufwendigen Referenzdatenbank (z. B. mit Referenzgitterstrukturen für jede zu erkennende Gesichtsbewegung oder Action Unit), wie es bei bekannten Verfahren notwendig ist, überflüssig. Dadurch kann sowohl der Aufwand für das Erstellen einer solchen Referenzdatenbank sowie für den dafür notwendigen Speicher entfallen. Zusätzlich kann das beschriebene Konzept deutlich schneller Gesichtsbewegungen erkennen, da kein Vergleich von extrahierten Daten (in Form von Gitterstrukturen oder Referenzpunkten) mit allen Referenzdatensätzen in der Referenzdatenbank durchgeführt werden muss, sondern ein Vergleich der extrahierten Daten der Bilder der Bildsequenz untereinander ausreichend ist.
-
Einige Ausführungsbeispiele gemäß der Erfindung beziehen sich auf das Erkennen von Bewegungseinheiten oder Action Units aus dem standardisierten Gesichtsbewegungen-Codierungssystem (Facial Action Coding System).
-
Bei einigen Ausführungsbeispielen gemäß der Erfindung gibt für jede zu erkennende Gesichtsbewegungen eine vordefinierte Regel an, wie groß und in welche Richtung Positionsdifferenzen in dem ersten Bild und in dem zweiten Bild für welche Referenzpunkte der Mehrzahl von Referenzpunkten sein müssen, um eine entsprechende Gesichtsbewegung zu erkennen. Beispielsweise kann für jede Bewegungseinheit des standardisierten Gesichtsbewegungen-Codierungssystems eine Regel definiert werden, wodurch eine entsprechende Gesichtsbewegung erkannt werden kann, bei der die in der Regel definierten Voraussetzungen bezüglich der Größe und Richtung der Positionsdifferenz eines oder mehrerer in der Regel definierten Referenzpunkte erfüllt sind.
-
Einige Ausführungsbeispiele gemäß der Erfindung beziehen sich auf eine Vorrichtung zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz. Die Vorrichtung umfasst einen Referenzpunktbestimmer, eine Recheneinheit und einen Gesichtsbewegungserkenner. Der Referenzpunktbestimmer ist ausgelegt, um eine Mehrzahl von Referenzpunkten des Gesichts in einem ersten Bild der Bildsequenz zu bestimmen und die Mehrzahl von Referenzpunkten des Gesichts in einem zweiten Bild der Bildsequenz zu bestimmen. Die Recheneinheit ist ausgelegt, um eine Positionsdifferenz zwischen einer Position eines Referenzpunkts der Mehrzahl von Referenzpunkten in dem ersten Bild und einer Position des Referenzpunkts in dem zweiten Bild zu berechnen. Des Weiteren ist der Gesichtsbewegungserkenner ausgelegt, um eine Gesichtsbewegung in dem Gesicht in der Bildsequenz basierend auf der berechneten Positionsdifferenz zu erkennen.
-
Ausführungsbeispiele gemäß der Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Figuren näher erläutert. Es zeigen:
-
1 ein Flussdiagramm eines Verfahrens zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz;
-
2 ein Blockdiagramm eines Verfahrens zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz;
-
3a eine Gitterstruktur an markanten Gesichtspunkten;
-
3b eine schematische Darstellung eines Gesichts mit Gitterstruktur an markanten Gesichtspunkten;
-
4a eine Gitterstruktur im Bereich einer rechten Augenbraue;
-
4b eine schematische Darstellung der Positionsdifferenz eines Referenzpunkts in unterschiedlichen Bildern einer Bildsequenz;
-
5a ein erstes Bild einer untersuchten Bildfolge oder Bildsequenz;
-
5b ein letztes (zweites Bild) der untersuchten Bildfolge passend zur 5a;
-
5c das letzte Bild der untersuchten Bildfolge (5b) und die Gesamtbewegung zwischen erstem und letztem Bild (als Linien eingezeichnet); und
-
6 ein Blockdiagramm einer Vorrichtung zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz.
-
Im Folgenden werden teilweise für Objekte und Funktionseinheiten, die gleiche oder ähnliche funktionelle Eigenschaften aufweisen, gleiche Bezugszeichen verwendet. Des Weiteren können optionale Merkmale der verschiedenen Ausführungsbeispiele miteinander kombinierbar oder zueinander austauschbar sein.
-
1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz entsprechend einem Ausführungsbeispiel gemäß der Erfindung. Das Verfahren 100 umfasst ein Bestimmen 110 einer Mehrzahl von Referenzpunkten des Gesichts in einem ersten Bild der Bildsequenz und ein Bestimmen 120 der Mehrzahl von Referenzpunkten des Gesichts in einem zweiten Bild der Bildsequenz. Des Weiteren umfasst das Verfahren 100 ein Berechnen 130 einer Positionsdifferenz zwischen einer Position eines Referenzpunkts der Mehrzahl von Referenzpunkten in dem ersten Bild und einer Position des Referenzpunkts in dem zweiten Bild. Zusätzlich weist das Verfahren 100 ein Erkennen 140 einer Gesichtsbewegung in dem Gesicht in der Bildsequenz basierend auf der berechneten Positionsdifferenz auf.
-
Eine Bildsequenz umfasst eine Mehrzahl von Bildern, wobei die Mehrzahl von Bildern beispielsweise zeitlich aufeinanderfolgende Bilder sind. Die Bildsequenz kann von einer oder mehreren Kameras aufgenommen worden sein und jedes Bild der Bildsequenz zeigt eine Momentaufnahme von einem oder mehreren Gesichtern. Beispielsweise zeigt jedes Bild eine Frontalaufnahme oder eine Profilaufnahme desselben Gesichts.
-
In zwei (erstes und zweites Bild), mehreren (erstes, zweites und weitere Bilder) oder allen Bildern der Bildsequenz wird die Mehrzahl von Referenzpunkten bestimmt. Dabei bezieht sich das Bestimmen der Referenzpunkte auf das Bestimmen der Position der Referenzpunkte in einem Bild. Die Position eines Referenzpunkts in unterschiedlichen Bildern (z. B. dem ersten und zweiten Bild) kann sich durch eine Gesichtsbewegung ändern.
-
Die Mehrzahl von Referenzpunkten kann vollautomatisch, z. B. durch entsprechende Bilderkennungsverfahren, oder basierend auf einer Mehrzahl von vordefinierten Basisreferenzpunkten bestimmt werden. Die vordefinierten Basisreferenzpunkte können beispielsweise manuell in einem Bild festgelegt werden. Basierend auf den Basisreferenzpunkten kann die Mehrzahl von Referenzpunkten bestimmt werden. Dabei kann jeder Basisreferenzpunkt als ein Referenzpunkt der Mehrzahl von Referenzpunkten verwendet werden und darüber hinausgehend zusätzliche Referenzpunkte über geometrische Beziehungen oder Bilderkennungsverfahren bestimmt werden. Alternativ kann die Mehrzahl von Basisreferenzpunkten direkt als Teil der Mehrzahl von Referenzpunkten verwendet sowie zusätzliche Referenzpunkte bestimmt werden. In anderen Worten, die Basisreferenzpunkte können ebenfalls Referenzpunkte der Mehrzahl von Referenzpunkten sein.
-
Referenzpunkte können beispielsweise an Positionen mit markanten Gesichtsmerkmalen (z. B. Augen, Augenbrauen, Mundwinkel oder Nase) gelegt werden. Dadurch kann ein direkter Zusammenhang zwischen einzelnen Gesichtsbewegungen und Positionsänderungen von einzelnen oder mehreren Referenzpunkten erreicht werden.
-
Durch das Berechnen 130 der Positionsdifferenzen der Positionen der Referenzpunkte in den verschiedenen Bildern kann einfach und schnell ermittelt werden, welche Bereiche des Gesichts sich bewegt haben. Eine Gesichtsbewegung in dem Gesicht kann somit basierend auf den berechneten Positionsdifferenzen erkannt 140 werden. Ein aufwendiger Vergleich mit Gesichtern oder extrahierten Daten aus Gesichtern in einer Referenzdatenbank, wie bei bekannten Verfahren, ist nicht notwendig.
-
Das erste Bild und das zweite Bild können direkt aufeinanderfolgende Bilder der Bildsequenz sein. Alternativ können zwischen dem ersten Bild und dem zweiten Bild ein oder mehrere weitere Bilder der Bildsequenz liegen. Jedes Bild der Bildsequenz kann eine Zeitinformation, wie beispielsweise Uhrzeit und/oder Datum, aufweisen, um eine absolute zeitliche Aussage (z. B. Dauer, Startzeit) über die Gesichtsbewegungen in dem Gesicht in der Bildsequenz machen zu können. Alternativ können die Bilder der Bildsequenz in gleichen zeitlichen Abständen aufgenommen worden sein, wodurch eine relative zeitliche Aussage über die Gesichtsbewegungen in dem Gesicht in der Bildsequenz gemacht werden kann.
-
Als Positionsdifferenz kann beispielsweise eine Vektorgröße berechnet 130 werden, um gleichzeitig eine Aussage über Größe und Richtung der Positionsveränderung eines Referenzpunkts machen zu können. Alternativ ist es auch möglich, nur die Größe der Positionsänderung zu berechnen.
-
Das Erkennen 140 einer Gesichtsbewegung in dem Gesicht kann sich im einfachsten Fall darauf beziehen, allgemein eine Bewegung in dem Gesicht zu detektieren. Dazu ist es beispielsweise ausreichend, die berechnete Positionsdifferenz mit einem Schwellwert zu vergleichen, wobei der Schwellwert angibt, wie groß eine Positionsveränderung eines Referenzpunkts sein muss, um als Gesichtsbewegung bewertet zu werden. Alternativ kann die Position eines Referenzpunkts zusammen mit der zugehörigen berechneten Positionsdifferenz zum Erkennen 140 einer Gesichtsbewegung in dem Gesicht herangezogen werden. Dadurch kann nicht nur festgestellt werden, dass eine Bewegung erfolgt ist, sondern es kann auch festgestellt werden, wo die Bewegung erfolgt ist, wodurch eine Bewertung der Art der Gesichtsbewegung ermöglicht wird. So kann beispielsweise ein Heben oder Senken einer Augenbraue, eines Mundwinkels oder eines Lids, ein Augenschließen, ein Blinzeln, ein Zwinkern oder ein Stirnrunzeln erkannt und auch voneinander unterschieden werden. Wird zusätzlich zur Größe auch die Richtung einer Positionsänderung berücksichtigt, kann beispielsweise auch ein Heben eines Gesichtsteils von einem Senken unterschieden werden. Auf diese Art kann das Erkennen 140 einer Gesichtsbewegung in dem Gesicht in der Bildsequenz auch beispielsweise eine Zuordnung zu einer Bewegungseinheit (Action Unit) aus dem standardisierten Gesichtsbewegungen-Codierungssystem (FACS) umfassen. In anderen Worten, es kann direkt aus der Positionsdifferenz und der Position eines oder mehrerer Referenzpunkte eine Bewegungseinheit aus dem standardisierten Gesichtsbewegungen-Codierungssystem erkannt werden bzw. eine erkannte Gesichtsbewegung einer Bewegungseinheit aus dem standardisierten Gesichtsbewegungen-Codierungssystem zugeordnet werden.
-
Das Erkennen 140 einer Gesichtsbewegung kann beispielsweise ein Auswerten der Position zumindest eines Referenzpunkts und der zugehörigen berechneten Positionsdifferenz in einem Vergleich zu einer Mehrzahl von vordefinierten Regeln für Gesichtsbewegungen umfassen. Beispielsweise kann für jede Bewegungseinheit, auch Action Unit genannt, aus dem standardisierten Gesichtsbewegungen-Codierungssystem, auch Facial Action Coding System genannt, eine Regel abgeleitet werden, die angibt, wie groß und in welche Richtung eine Positionsdifferenz für den selben Referenzpunkte in dem ersten Bild und dem zweiten Bild sein muss, um eine entsprechende Gesichtsbewegung zu erkennen. Des Weiteren kann die vordefinierte Regel für eine Gesichtsbewegung z. B. angeben, wie groß eine Zeitdifferenz einer Aufnahme des ersten Bildes und einer Aufnahme des zweiten Bildes maximal oder minimal sein darf, um die entsprechende Gesichtsbewegung zu erkennen oder als die entsprechende Gesichtsbewegung erkannt zu werden. Die Zeitdifferenz kann beispielsweise auf der zuvor erwähnten optionalen Zeitinformation der einzelnen Bilder oder basierend auf einer relativen Zeitangabe von zeitlich äquidistant aufgenommenen Bildern erfolgen.
-
Wie bereits erwähnt, kann die Mehrzahl von Referenzpunkten in jedem Bild der Bildsequenz bestimmt werden. Zusätzlich kann für jeweils zeitlich aufeinanderfolgende Bilder der Bildsequenz eine Positionsdifferenz für jeden Referenzpunkt der Mehrzahl von Referenzpunkten berechnet 130 werden. Alternativ können auch Positionsdifferenzen von Referenzpunkten von nicht direkt zeitlich aufeinanderfolgenden Bildern berechnet 130 werden oder berechnete Positionsdifferenzen eines Referenzpunkts von zeitlich direkt aufeinanderfolgenden Bildern summiert werden, um Positionsdifferenzen zwischen zeitlich nicht direkt aufeinanderfolgenden Bildern zu berechnen.
-
Bei einigen Ausführungsbeispielen gemäß der Erfindung wird basierend auf der Mehrzahl von Referenzpunkten eine Gitterstruktur erzeugt. Basierend auf der berechneten Positionsdifferenz oder auf mehreren berechneten Positionsdifferenzen kann eine Deformation der Gitterstruktur ermittelt werden. Das Erkennen der Gesichtsbewegung kann dann auf der ermittelten Deformation der Gitterstruktur basieren. Die Gitterstruktur kann beispielsweise zur besseren Veranschaulichung der Referenzpunkte und einer Veränderung der Position der Referenzpunkte verwendet werden. Im Allgemeinen ist jedoch das Verbinden der Referenzpunkte durch Gitterlinien für das beschriebene Konzept nicht notwendig.
-
3a und 3b zeigen dazu ein Beispiel für eine Gitterstruktur 300 und für eine Gitterstruktur 300 über einer schematischen Darstellung eines Gesichts 310.
-
Im Folgenden werden Referenzpunkte auch Gitterpunkte genannt.
-
2 zeigt ein Flussdiagramms eines Verfahrens 200 zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz entsprechend einem Ausführungsbeispiel gemäß der Erfindung. In diesem Beispiel wird eine Gitterstruktur 210 an markante Gesichtspunkte der Bildsequenz 202 eines Gesichts angepasst, was dem Bestimmen der Mehrzahl von Referenzpunkten des Gesichts aus dem in 1 beschriebenen Verfahren entspricht. Des Weiteren werden die Gitterpunkte (Referenzpunkte) anhand der sichtbaren Gesichtsbewegungen verfolgt 230 (durch ein Berechnen von Positionsdifferenzen). Zusätzlich wird die Bewegung anhand eines Regelsystems ausgewertet 240, um eine klassifizierte Action Unit (Bewegungseinheit) zu klassifizieren 242 (Erkennen einer Gesichtsbewegung des Gesichts).
-
Für die Klassifikation von Action Units (Bewegungseinheit) können die zu untersuchenden Personen mit einer Kamera beobachtet und deren Gesicht möglichst frontal aufgenommen werden. Das Verfahren beruht auf der Auswertung der Bildinformationen. Hierzu wird z. B. eine spezifische Gitterstruktur über das im Bild sichtbare Gesicht gelegt und an entsprechenden Konturen angepasst (siehe z. B. 3b). Somit beschreibt die Gitterstruktur für Action Units relevante Gesichtspartien wie zum Beispiel die Augenbrauen, den Mund aber auch homogenere Regionen wir die Stirn durch beispielsweise gleichmäßige Verteilung von Gitterpunkten (über das gesamte Gesicht).
-
Die auftretende Bewegung kann nun an den durch die Gitterstruktur beschriebenen Punkten und Regionen analysiert werden. Da die verschiedenen Punkte und Regionen der Gitterstruktur spezifische Punkte und Regionen im Gesicht beschreiben, können die hierzu gehörigen Action Units direkt anhand der Gitterdeformation erkannt und beschrieben werden. Bei diesem Ansatz können beispielsweise eine Zuordnung von Bewegungen zu bestimmten Gesichtsregionen erfolgen. Dies kann z. B. durch eine Anpassung des Gitters an die Gesichtskontur (durch das Bestimmen der Mehrzahl von Referenzpunkten) und dem „Wissen” welche Gitterpunkte zu welchen Gesichtsmerkmalen gehören realisiert werden.
-
Gegenüber bekannten Verfahren hat dieser Ansatz z. B. den Vorteil einen direkten Zusammenhang zwischen der Deformation der Gitterstruktur und der auslösenden Muskelbewegung und dadurch direkt der zugehörigen Action Unit darzustellen. Eine Klassifikation z. B. anhand von abstrakten Merkmalen kann entfallen und die Zuordnung der entsprechenden Action Unit ist auch technisch nicht versierten Personen, wie zum Beispiel medizinischem Personal eingängig.
-
In diesem Beispiel kann das beschriebene Verfahren durch Unterstützung von Gitterstrukturen die Mimikbewegungen im Gesicht erkennen und diese bestimmten Action Units zuordnen. Somit kann das Verfahren die sichtbaren Action Units benennen und z. B. einem Arzt erklären, anhand welcher Muskelbewegungen diese entstanden sind.
-
In anderen Worten, um einem Beobachter eine nachvollziehbare Erklärungskomponente zu liefern, kann sich das entwickelte Verfahren an den Beschreibungen des Facial Action Coding System orientieren. Es kann z. B. automatisch die Mimikbewegungen spezieller Muskelgruppen erkennen und anhand dieser direkt die zugehörigen Action Units klassifizieren.
-
Im Detail bedeutet dies z. B., dass beim Erlernen der Gesichtsausdrücke, die in Action Units kodiert werden, ein Regelsystem, das den Beschreibungen der Erscheinungsänderungen der Action Units entspricht, aufgebaut werden kann. Diese Vorgehensweise bietet dem Beobachter eine Erklärungskomponente für das Auftreten einer Action Unit und es kann anhand des Facial Action Coding Systems nachvollzogen werden, aus welcher Gesichtsbewegung welche Action Unit klassifiziert wird. Wie bereits erwähnt beschreibt eine Action Unit, wie sich Gesichtsmerkmale, wie zum Beispiel Augenbrauen oder Mund, verändern müssen, damit diese Action Unit klassifiziert werden kann.
-
Um die geforderten Erscheinungsänderungen einer Action Unit oder die Bewegung der dadurch beschriebenen Gesichtsmerkmale überprüfen zu können, können Punkte, die auf den Merkmalen liegen, definiert und verfolgt werden. Die Position der Punkte, die charakteristische Gesichtsmerkmale repräsentieren, können durch ein Gitter erhalten werden. Zum Beispiel kann anhand von 18 (oder z. B. 5, 15 oder 25 Punkten oder zwischen 10 und 30 Punkten) manuell gesetzten Punkten (Basisreferenzpunkten) auf dem ersten Bild einer Bildsequenz ein Gitter erzeugt werden. Dieses passt sich der Gesichtskontur an und kann weitere Punkte (Referenzpunkte) auf markanten Gesichtsmerkmalen liefern. Somit können die Gesichtsmerkmale über die generierten Gitterpunkte verfolgt werden.
-
Treten Mimikbewegungen auf, können diese mittels Verfahren der Bewegungserkennung verfolgt werden. Ansätze hierzu (zur Bildverarbeitung) sind z. B. Verfahren der Differentialbestimmung in Bildsequenzen wie der Optische Fluss („Horn BKP et al. Determining Optical Flow. Artiff Intell 1984; 17: 185–203.”) oder Verfolgen von bestimmten Punkten („Tomasi C, Kanade T. Detection and Tracking of Point Features. Technical report; Carneggie Mellon University; 1991.”) über die Bildfolge. Beim Erstellen des Regelwerks werden Bewegungen an Gesichtsmerkmalen oder den zugeordneten Gitterpunkten überprüft. Daher können zur Berechnung der Gesichtsbewegungen die eben genannten Methoden verwendet werden, da diese gezielt an einzelnen Punkten Bewegungen berechnen können.
-
Die Gitterpunkte repräsentieren z. B. Gesichtsmerkmale, die durch die Gesichtsmuskulatur bewegt werden. Die auftretende Mimikbewegung kann an den durch die Gitterstruktur beschriebenen Punkte analysiert werden. Da jedem der z. B. 151 Gitterpunkte (oder 50, 70, 100, 200 oder 500 Punkte oder zwischen 50 und 1000 Punkten) eine spezifische Stelle im Gesicht zugeordnet ist, kann aus der Gitterdeformation (Bewegungsverlauf der Gitterpunkte) auf die auslösende Muskulatur und dadurch auf die zugehörige Action Unit geschlossen werden.
-
Wie Untersuchungen zeigen, treten einige Action Units z. B. in Kombination mit Schmerz auf (siehe z. B. „Kunz M. Veränderungen in der Schmerzverarbeitung bei Demenzpatienten: subjektive, mimische, motorische und vegetative Indikatoren. Dissertation; Otto-Friedrich Universität Bamberg; Fakultät Pädagogik, Philosophie, Psychologie; (o. J.)”). Anhand ihres Auftretens kann auf das Vorhandensein von Schmerzausdrücken in der untersuchten Bildsequenz geschlossen werden. Durch diese Information können z. B. medizinische Behandlungen unterstützt werden.
-
Das Regelwerk prüft z. B. für jede Erscheinungsänderung einer Action Unit (für jede Gesichtbewegung) beispielsweise folgende drei Aspekte:
-
1. Bewegungsrichtung:
-
Die zu einer Erscheinungsänderung betrachteten Gitterpunkte müssen sich in die durch die Action Unit beschriebene Richtung bewegen. (Gitterpunkte müssen sich z. B. nach oben oder nach unten bewegen.)
-
2. Bewegungslänge:
-
Die Länge der Bewegung des Gitterpunkts von der Ausgangsposition im ersten Bild der Bildfolge zur Endposition in einem zeitlich späteren Bild der Bildfolge muss ausreichend größer sein. Ist dies der Fall kann z. B. eine Stoppmarke gesetzt werden. (Schwellwerte zur Mindestlänge einer Bewegung können z. B. manuell festgelegt werden.)
-
3. Bewegungsdauer:
-
Durch z. B. Rückwärtsprüfen der Bewegung von der Stoppmarke bis zu einem zeitlich früheren Bild kann eine Startmarke gesetzt werden. Die Startmarke kann zu dem Zeitpunkt oder Bild gesetzt werden, bei dem die Bewegungslänge zwischen Stoppmarke und Startmarke den Schwellwert zur Bewegungslänge überschreitet. Das Intervall, das durch die Start- und Stoppmarke definiert wird, beschreibt beispielsweise die Dauer der betrachteten Bewegung. (Schwellwerte zur Bewegungsdauer werden nur zum Teil in dem Facial Action Coding System gegeben.) Am Beispiel der Erscheinungsänderung (Augenbraue bewegt sich nach unten) der Action Unit 4, werden die ersten zwei Aspekte, die im Regelwerk geprüft werden, in 4a graphisch verdeutlicht. Die Pfeilrichtung gibt die Bewegungsrichtung an und die Pfeillänge die Bewegungslänge. Das Intervall der Bewegungsdauer kann zuerst durch Vorwärtsprüfen der Bewegung und anschließend durch Rückwärtsprüfen bestimmt werden, wie es beispielsweise in 4b gezeigt ist.
-
4a und 4b zeigen also eine Veranschaulichung der drei möglichen Abfragepunkte des Regelwerks anhand des Beispiels der Erscheinungsänderung (Augenbraue bewegt sich nach unten) der Action Unit 4 (nach dem Gesichtsbewegungen-Codiersystem) anhand der rechten Augenbraue, die durch die Gitterpunkte 21 bis 28 in 4a repräsentiert werden.
-
4b zeigt eine schematische Darstellung 450 der Start- und Stoppmarken, die gesetzt werden, wenn die Bewegungslänge (Positionsdifferenz) zwischen Gitterpositionen (Positionen eines Referenzpunkts) im ersten Bild und Bild 9 und zwischen Bild 9 und Bild 4 ausreichend ist. Dabei zeigt die X-Achse die Bildnummer oder die den Bilder entsprechenden Zeiten und die Y-Achse die Positionen eines Referenzpunkts. So kann beispielsweise die absolute oder relative Zeit festgestellt werden, die für eine Gesichtsbewegung benötigt wurde.
-
5 zeigt ein Beispiel der Bewegungsverfolgung der Action Unit 4 (Augenbraue bewegt sich nach unten), die z. B. in vier von fünf Durchläufen mittels des Verfahrens nach Horn und Schunck (zur Ermittlung der Positionsdifferenz der Referenzpunkte) erfolgreich klassifiziert wurde. 5a zeigt dabei das erste Bild der untersuchten Bildfolge (Bildsequenz) und 5b zeigt das letzte Bild der untersuchten Bildfolge (ein zweites Bild der Bildsequenz). Des Weiteren zeigt 5c das letzte (zweite) Bild der untersuchten Bildfolge und die Gesamtbewegung zwischen erstem und letztem Bild (als Linien eingezeichnet).
-
Einige Ausführungsbeispiele gemäß der Erfindung beziehen sich auf ein Verfahren zur automatischen Klassifikation von Facial Action Units (Gesichtsbewegungseinheiten) durch gittergestützte Bewegungsschätzung.
-
Das erfindungsgemäße Konzept betrifft unter anderem die Klassifikation von sogenannten „Action Units” (AU) aus dem „Facial Action Coding System” (FACS) („P. Ekman, W. V. Friesen. Manual for the facial action coding system. Palo Alto, CA: Consulting Psychologists Press, 1978”). Diese Action Units werden genutzt um Emotionen, Schmerz und andere Empfindungen des Menschen anhand der Gesichtsmimik zu erkennen, beschreiben und messen zu können.
-
Das Verfahren kann automatisch die Mimikbewegungen spezieller Muskelgruppen erkennen und anhand dieser direkt die zugehörigen Action Units klassifizieren.
-
Beispielsweise können exemplarische Ausführung des beschriebenen Konzepts einen Fokus auf schmerzrelevante Action Units haben. Dadurch können medizinische Behandlungen unterstützt werden.
-
Das beschriebene Verfahren kann auch kurz als FACS-Klassifikation (Facial-Action-Coding-System-Klassifikation oder Gesichtsbewegungen-Codierungs-System-Klassifikation) bezeichnet werden.
-
Einige weitere Ausführungsbeispiele gemäß der Erfindung beziehen sich auf ein Tracking (Verfolgen) von Gesichtsmimik mit Hilfe von Gitterstrukturen zur Klassifikation von schmerzrelevanten Action Units (Bewegungseinheiten).
-
Das Verfahren erkennt und verfolgt z. B. Mimikbewegungen, unterstützt durch ein Gitter, und ordnet diese Bewegungen Action Units nach dem Facial Action Coding System (FACS) zu. Somit kann das Verfahren die sichtbaren Action Units benennen und kann als Erklärungskomponente dienen, anhand welcher Muskelbewegungen die jeweiligen Action Units entstanden sind. Ein Aspekt des hier vorgestellten Ansatzes liegt z. B. darauf Schmerzausdrücke aus Mimiken semiautomatisch erkennen zu können. Die Intention, die damit z. B. verfolgt wird, ist die Unterstützung von FACS Kodierern, die Bildsequenzen basierend auf bekannten Verfahren manuell untersuchen und für eine Minute an Bildmaterial zehn Stunden Arbeitszeit benötigen. Durch das beschriebene Konzept kann der Zeitaufwand deutlich verringert und die Arbeit eines FACS Kodierers deutlich erleichtert werden.
-
6 zeigt ein Blockdiagramm einer Vorrichtung 600 zum Erkennen einer Gesichtsbewegung in einem Gesicht in einer Bildsequenz entsprechend einem Ausführungsbeispiel gemäß der Erfindung. Die Vorrichtung 600 umfasst einen Referenzpunktbestimmer 610, eine Recheneinheit 620 und einen Gesichtsbewegungserkenner 630. Der Referenzpunktbestimmer 610 ist mit der Recheneinheit 620 und die Recheneinheit 620 ist mit dem Gesichtsbewegungserkenner 630 verbunden. Der Referenzpunktbestimmer 610 bestimmt eine Mehrzahl von Referenzpunkten des Gesichts in einem ersten Bild der Bildsequenz und bestimmt die Mehrzahl von Referenzpunkten des Gesichts in einem zweiten Bild der Bildsequenz. Die Recheneinheit 620 berechnet eine Positionsdifferenz zwischen einer Position eines Referenzpunkts der Mehrzahl von Referenzpunkten in dem ersten Bild und einer Position des Referenzpunkts in dem zweiten Bild. Des Weiteren erkennt der Gesichtsbewegungserkenner 630 eine Gesichtsbewegung in dem Gesicht in der Bildsequenz basierend auf der berechneten Positionsdifferenz.
-
Der Referenzpunktbestimmer 610, die Recheneinheit 620 und der Gesichtsbewegungserkenner 630 können z. B. eigens konzipierte Hardware-Einheiten oder Teil eines Prozessors oder Computers sein oder können als Computerprogramme oder Computerprogrammprodukte zur Ausführung auf einem Computer oder Mikrokontroller implementiert sein.
-
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar.
-
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
-
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
-
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
-
Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
-
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
-
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
-
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
-
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
-
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 000009403971 U1 [0005]
- WO 2008156184 A1 [0005]
-
Zitierte Nicht-Patentliteratur
-
- Ekman P et al. Facial Action Coding System The Manual [On CD ROM]. Nexus division of Network Information Research Corporation; 2002 [0002]
- J. Whitehill, C. W. Omlin. Haar Features for FACS AU Recognition. Face and Gesture Recognition 2006 [0003]
- S. Lucey, B. A. Ashraf, J. F. Cohn. Investigating spontaneous facial action recognition through AAM representations of the face. In K. Delac & M. Grgic (Eds.) Face recognition, pp. 275–284, 2007, Vienna: I-TECH [0003]
- Black MJ et al. Recognizing Facial Expressions in Image Sequences Using Local Parameterized Models of Image Motion. Int J Computer Vis 1997; 25 (1): 23–48 [0003]
- „Real-time active shape models for face segmentation” Fröbä, B.; Kastner, T.; Zink, W.; Küblbeck, C., International Conference on Image Processing, ICIP 2001. Proceedings. Vol. 1: 7–10 October 2001, Makedonia Palace Hotel, Thessaloniki, Greece [0005]
- „An improved active shape model for face alignment”, Wie Wang, Shiguang Shan, Wen Gao, Bo Cao, Boacai Yin, icmi, pp. 523, Fourth IEEE International Conference on Multimodal Interfaces (ICMI ’02), 2002 [0005]
- http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/Models/pdms.html [0005]
- Horn BKP et al. Determining Optical Flow. Artiff Intell 1984; 17: 185–203 [0049]
- Tomasi C, Kanade T. Detection and Tracking of Point Features. Technical report; Carneggie Mellon University; 1991 [0049]
- Kunz M. Veränderungen in der Schmerzverarbeitung bei Demenzpatienten: subjektive, mimische, motorische und vegetative Indikatoren. Dissertation; Otto-Friedrich Universität Bamberg; Fakultät Pädagogik, Philosophie, Psychologie; (o. J.) [0051]
- P. Ekman, W. V. Friesen. Manual for the facial action coding system. Palo Alto, CA: Consulting Psychologists Press, 1978 [0060]