DE102011107295A1

DE102011107295A1 - Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation

Info

Publication number: DE102011107295A1
Application number: DE201110107295
Authority: DE
Inventors: Kang Liu; Jörn Ostermann
Original assignee: Leibniz Universitaet Hannover
Current assignee: Leibniz Universitaet Hannover
Priority date: 2011-07-06
Filing date: 2011-07-06
Publication date: 2013-01-10

Abstract

Die Erfindung betrifft ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation (15), die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank (1), die eine Vielzahl von Visemen (vi) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (vi) mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank (2) mit Visemen (vj) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation (15) ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation (15) von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme (vj) aus der zweiten Datenbank (2) ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank (2) wenigstens ein Visem (vj) mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem (vi) der ersten Datenbank (1) ausgewählt wird. Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers sowie Computerprogramme mit Programmcodemitteln.

Description

Die Erfindung betrifft ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation gemäß dem Oberbegriff des Anspruchs 1. Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers gemäß dem Anspruch 8 sowie Computerprogramme mit Programmcodemitteln gemäß den Ansprüchen 9 und 10.
Allgemein betrifft die Erfindung das Gebiet der automatischen Erzeugung einer fotorealistischen Gesichtsanimation, die zu einer Sprachausgabe passt. Etwas Derartiges wird auch als „Talking Head” bezeichnet. Ziel ist es hierbei, bei einer Sprachausgabe, die synthetisch oder natürlich erzeugt sein kann, ein zu der Sprachausgabe passendes Gesicht darzustellen, wobei in Folge der Sprachausgabe insbesondere im Mundbereich größere Änderungen in den Bildinhalten auftreten. Eine solche automatisch erzeugte Gesichtsanimation kann z. B. als Nachrichtensprecher oder als Avatar verwendet werden.
Bekannte Ansätze für eine Gesichtsanimation sind z. B. eine Mesh-Animation oder eine Animation mit veränderlicher Textur. Hierdurch wird jedoch noch kein besonders realistischer Eindruck erzeugt. Bekannte Verfahren gehen z. B. aus JP 2010-250761 A oder WO 2008/156437 A1 hervor.
Ein Ziel bei solchen Gesichtsanimationen besteht darin, die Animation so realistisch wie möglich zu gestalten, und zwar sowohl im Hinblick auf die Nähe zu fotografischen Aufnahmen als auch im Hinblick auf den Gesichtsausdruck. Als Gesichtsausdruck werden hierbei dem Sprechvorgang unterlegte Gesichtsveränderungen verstanden, durch die z. B. Gefühle wie Freude, Traurigkeit, Erstaunen, Angst, Ärger oder Ekel ausgedrückt werden. So unterscheidet sich z. B. ein sprechendes Gesicht bereits dann, wenn von einem neutralen Gesichtsausdruck in einen lächelnden Gesichtsaudruck gewechselt wird.
Der Erfindung liegt die Aufgabe zugrunde, den realistischen Eindruck einer sprechenden Gesichtsanimation sowohl im Hinblick auf die Nähe zu fotografischen Aufnahmen als auch im Hinblick auf eine realistische Wiedergabe von Gesichtsausdrücken, wie z. B. einem Lächeln, zu verbessern.
Diese Aufgabe wird gemäß Anspruch 1 durch ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation gelöst, die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank, die eine Vielzahl von Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank Viseme mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme aus der zweiten Datenbank ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der ersten Datenbank ausgewählt wird. Die Erfindung hat den Vorteil, dass ein erheblich verbesserter, von der Realität praktisch nicht mehr zu unterscheidender Eindruck der fotorealistischen Gesichtsanimation erzielt werden kann, da nun die Möglichkeit besteht, bei der Gesichtsanimation auch Gesichtsausdrücke und Übergänge zwischen Gesichtsausdrücken zu integrieren, mit denen z. B. Gefühle ausgedrückt werden, wie z. B. ein Lächeln. Ein Vorteil ist, dass die gewünschten Gesichtsausdrücke des Talking Head beliebig willkürlich vorgegeben werden können. Verschiedene Versuche mit Testpersonen haben gezeigt, dass diese nicht mehr zwischen realen Videoaufnahmen einer Person und synthetisch erzeugten Videoaufnahmen mittels der fotorealistischen Gesichtsanimation unterscheiden können. Damit ist nun die Möglichkeit gegeben, mit vernünftigen Aufwand und vertretbaren Kosten die Wiedergabe von Nachrichten im Fernsehen zu automatisieren und synthetisch zu erzeugen. Weitere Anwendungsfelder der erfindungsgemäßen Gesichtsanimation sind z. B. Avatare in Computerspielen und anderen Computeranwendungen. Die Sprachausgabe kann dabei synthetisch oder natürlich, z. B. durch vorherige Aufzeichnung, erzeugt sein.
Als Visem wird hierbei das visuelle Gegenstück zu einem Phonemen verstanden, d. h. zum Beispiel ein Bild eines Mundes mit einer bestimmten Mundform, entsprechend dem im Bereich der Gesichtsanimation üblichen Verständnis dieses Begriffs. Die erste und die zweite Datenbank, sowie die später noch erwähnte dritte Datenbank, weisen Viseme aus zuvor aufgezeichneten Videosequenzen auf. Eine Videosequenz ist eine Folge von Bildern in der Art eines kurzen Films. Für die Sprachausgabe ist es z. B. vorteilhaft, hierfür die Mundpartie eines Gesichts aufzuzeichnen. Zusätzlich können auch andere Teile des Gesichts, wie z. B. der Augenbereich, die Augenbrauen oder die Kopfhaltung aufgenommen werden. Zur Erstellung der Datenbank mit den Visemen kann z. B. vorgesehen sein, die einzelnen Bilder der Videosequenz aufzuteilen und den verschiedenen Phonemen zuzuordnen, wobei es vorteilhaft ist, jedem Phonem mehrere Einzelbilder zuzuordnen, um bessere Auswahlmöglichkeiten für die spätere synthetische Erzeugung der Gesichtsanimation zu haben.
Gemäß einer vorteilhaften Weiterbildung der Erfindung kann analog zu der zuvor beschriebenen Verfahrensweise verfahren werden, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen. In diesem Fall werden ein oder mehrere Viseme aus der ersten Datenbank ausgewählt und visuell ausgegeben, wobei aus der ersten Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der zweiten Datenbank ausgewählt wird. Dies hat den Vorteil, dass in gleicher Qualität und Realitätstreue sowohl ein Übergang von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck als auch umgekehrt möglich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung werden beim Übergang von einem Visem zu einem anderen Visem der gleichen Datenbank während der visuellen Ausgabe automatisch gleichmäßige Übergänge zwischen den Visemen bestimmt, indem aus der Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem derselben Datenbank ausgewählt wird. Hierbei werden in der Datenbank z. B. mittels eines Viterbi-Algorithmus die jeweils am Besten passenden Viseme aus der einen Datenbank ausgewählt und nach Art eines Films nacheinander ausgegeben, so dass wiederum neue Videosequenzen entstehen. In vielen Fällen wird dabei eine zuvor für die Erstellung der Datenbank aufgesplittete Videosequenz ganz oder zum Teil wieder rekonstruiert. Dies hat den Vorteil, dass rechenaufwendige grafische Interpolationen zwischen den einzelnen Bildern nicht erforderlich sind, was den gesamten Rechenaufwand minimiert. Zum schnellen Wiederfinden zueinander gehöriger Bilder von Videosequenzen können die in den Datenbanken gespeicherten Bilder mit Zusatzinformationen versehen sein, z. B. einer Nummerierung des jeweiligen Bildes in der jeweiligen Videosequenz.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine erste Übergangsmatrix vorgesehen, die Übergangswahrscheinlichkeiten für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme der ersten Datenbank mit den Visemen der zweiten Datenbank aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, aus der zweiten Datenbank wenigstens ein Visem mit der höchsten Übergangswahrscheinlichkeit ausgewählt wird.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine zweite Übergangsmatrix vorgesehen, die Übergangswahrscheinlichkeiten für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme der zweiten Datenbank mit den Visemen der ersten Datenbank aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen, aus der ersten Datenbank wenigstens ein Visem mit der höchsten Übergangswahrscheinlichkeit ausgewählt wird.
Die Verwendung der ersten und/oder der zweiten Übergangsmatrix hat den Vorteil, dass eine schnelle automatische Auswahl eines Visems mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der anderen Datenbank durchgeführt werden kann. Die Verwendung von Übergangswahrscheinlichkeiten erlaubt einfache Rechenvorgänge, die schnell ausführbar sind. Die Übergangsmatrizen enthalten bereits die entsprechenden Korrelationsinformationen zwischen den Visemen der ersten und der zweiten Datenbank, was den Vorteil hat, dass die relativ rechen- und zeitaufwändige Bestimmung dieser Korrelationsinformationen in einen Zeitraum verlagert werden kann, der der Vorbereitung der Datenbanken dient. Während der eigentlichen Erzeugung der fotorealistischen Gesichtsanimation kann auf die vorverarbeiteten Daten in den Übergangsmatrizen zurückgegriffen werden, so dass eine schnelle Verarbeitung in Echtzeit auch mit preisgünstigen Computern möglich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung werden die erste und/oder die zweite Übergangsmatrix anhand von euklidischen Distanzen der nach vorgegebenen Merkmalen charakterisierten Viseme in einem jeweiligen Charakterisierungsraum bestimmt. Dies kann z. B. dadurch erfolgen, dass die Übergangswahrscheinlichkeiten von Visemen v_i der ersten Datenbank auf Viseme v_j der zweiten Datenbank wie folgt bestimmt werden:
Für den umgekehrten Übergang von einem Visem v_j auf ein Visem v_i können die Übergangswahrscheinlichkeiten bestimmt werden als:
Hierbei gibt
die Anzahl der dem Visem v_i zugeordneten Einzelbilder an,
ist die Anzahl der dem Visem v_j zugeordneten Einzelbilder. m_i,j ist die Anzahl der dem Visem v_i zugeordneten Einzelbilder, in dessen Nachbarschaft sich ein dem Visem v_j zugeordnetes Einzelbild befindet, bei denen die euklidische Distanz im gewählten Charakterisierungsraum kleiner ist als ein vordefinierter Grenzwert. m_j,i ist die Anzahl der dem Visem v_j zugeordneten Einzelbilder, in dessen Nachbarschaft sich ein dem Visem v_i zugeordnetes Einzelbild befindet, bei denen die euklidische Distanz im gewählten Charakterisierungsraum kleiner ist als ein vordefinierter Grenzwert. Der Grenzwert wird dabei derart festgelegt, dass Übergänge zwischen den einzelnen Bildern bzw. den Visemen gleichmäßig erscheinen.
Gemäß einer vorteilhaften Weiterbildung der Erfindung charakterisiert der Charakterisierungsraum geometrische Maße von einem, mehreren oder allen Teilen des Gesichts. In diesem Fall ist der Charakterisierungsraum ein die geometrische Form berücksichtigender Charakterisierungsraum (Shape Space). In einer vorteilhaften Weiterbildung der Erfindung ist der Charakterisierungsraum der PCA-Raum oder der LLE-Raum. Der PCA-Raum wird im Bereich der automatischen Gesichtserkennung verwendet. PCA steht für Principle Component Analysis. Hierbei wird das zu untersuchende Bild in eine Vektorform gewandelt und ausgewählte Komponenten des Bilds (Principle Components) der Analyse unterzogen. Der LLE-Raum wird ebenfalls im Bereich der Gesichtserkennung verwendet. LLE steht für Locally Linear Embedding, wie z. B. beschrieben in der Masterarbeit von Samuel Kadoury, „Face detection using locally linear embedding", November 2005.
Gemäß einer vorteilhaften Weiterbildung der Erfindung weist die erste Datenbank Viseme beim Sprechen mit neutralem Gesichtsausdruck auf. Die zweite Datenbank weist Viseme beim Sprechen mit nicht-neutralem Gesichtsausdruck auf, z. B. mit einem Lächeln. Auch andere nicht-neutrale Gesichtsausdrücke, die Gefühle ausdrücken, können in der zweiten Datenbank oder ggf. in weiteren Datenbanken vorgesehen werden, wie z. B. Traurigkeit, Erstaunen, Angst, Ärger oder Ekel.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine dritte Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts vorgesehen. Die dritte Datenbank weist Viseme mit nicht-neutralem Gesichtsausdruck ohne Sprechen auf. Im Gegensatz zur ersten und zur zweiten Datenbank sind somit Bilder vorgesehen, die das aufgezeichnete Gesicht bzw. wenigstens einen Teil davon darstellen, wenn nicht gesprochen wird. Es hat sich gezeigt, dass durch eine Komposition der Gesichtsanimation aus den Visemen der ersten, der zweiten und der dritten Datenbank ein besonders hoher Realitätsgrad erzeugt werden kann, wobei insbesondere auch Phasen der Sprachausgabe gut darstellbar sind, in denen Sprechpausen auftreten.
Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers, der eingerichtet ist zur Ausführung eines Verfahrens der zuvor beschriebenen Art, z. B. durch ein auf dem Computer auszuführendes Computerprogramm.
Die Erfindung betrifft ferner ein Computerprogramm mit Programmcodemitteln, das eingerichtet ist zur Durchführung des Verfahrens der zuvor beschriebenen Art, wenn das Computerprogramm auf einem Rechner ausgeführt wird. Die Erfindung betrifft ferner ein Computerprogramm mit Programmcodemitteln, die auf einem maschinenlesbaren Träger, z. B. einem Memory-Stick, einer DVD oder einer CD-Rom gespeichert sind, das eingerichtet ist zur Durchführung eines Verfahrens der zuvor beschriebenen Art, wenn das Computerprogramm auf einem Rechner ausgeführt wird.
Die Erfindung wird nachfolgend anhand von Ausführungsbeispielen unter Verwendung von Zeichnungen näher erläutert.
Es zeigen:
1 eine Einrichtung zur Ausführung des Verfahrens und
2 eine Darstellung geometrischer Merkmale von Visemen in einem geometrischen Charakterisierungsraum und
3 eine Darstellung visueller Merkmale von Visemen in einem PCA-Charakterisierungsraum und
4 eine erste Übergangsmatrix und
5 eine zweite Übergangsmatrix und
6 eine Videosynthese beim Sprechen des Worts „hello” und
7 Übergänge zwischen Gesichtsausdrücken beim Sprechen des Worts „smile”.
In den Figuren werden gleiche Bezugszeichen für einander entsprechende Elemente verwendet.
Die 1 zeigt in schematischer Darstellung eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit den Blöcken 1 bis 7. Die Blöcke 1 bis 7 können ganz oder teilweise in Form von Softwaremodulen zur Ausführung auf einem Computer oder als Hardwarebausteine ausgebildet sein.
Die Einrichtung 10 weist eine erste Datenbank 1 mit Visemen mit einem ersten Gesichtsausdruck, hier einem neutralen Gesichtsausdruck, und eine zweite Datenbank 2 von Visemen mit einem zweiten Gesichtsausdruck, hier einem Lächeln, auf. Ferner ist eine Zusatzdatenbank mit Visemen einer Hintergrundbildsequenz 3 vorgesehen. Die Viseme der ersten und der zweiten Datenbank 1, 2 weisen Bilder aus Videosequenzen nur von Teilen eines Gesichts auf, und zwar jeweils von der Mundpartie. Die Zusatzdatenbank 3 weist Bilder aus Videosequenzen des gesamten Gesichts bzw. des Kopfs auf. Zur Veranschaulichung des jeweiligen Inhalts der Datenbanken 1, 2, 3 ist darüber jeweils, bezeichnet mit dem Bezugszeichen 11, 12, 13 beispielhaft der Aufbau und der Inhalt des jeweiligen Datenbank dargestellt. Die erste und die zweite Datenbank 1, 2 weisen jeweils eine Vielzahl von Visemen auf, die entlang einer y-Achse den zugehörigen Phonemen, d. h. den Audioeinheiten bei der Sprachausgabe, zugeordnet sind. Entlang einer x-Achse sind verschiedene Größen der aufgenommenen Gesichtsteile gespeichert, z. B. den unterschiedlich weit geöffneten Mund während des Aussprechens des Phonems „a”. Als dritte Dimension der Datenbank ist eine z-Achse vorgesehen, entlang der verschiedene alternative Viseme für ein jeweiliges Phonem und eine jeweilige Größe gespeichert sind, aus denen dann jeweils das am besten geeignete Visem ausgewählt werden kann. Dies gilt jeweils für die mit dem Bezugszeichen 11 und 12 dargestellten Inhalte der ersten und der zweiten Datenbank 1, 2. Die Inhalte 13 der Zusatzdatenbank 3 sind eindimensional strukturiert, wobei entlang der dargestellten Achse jeweils Viseme mit einer Zuordnung zu den Phonemen gespeichert sind.
Die Einrichtung 10 weist einen Eingang 8 auf, über den Eingangsdaten zugeführt werden, z. B. eine Gesichtsausdrucksanforderung und der synthetisch zu sprechende Text, z. B. in alphanumerischer Codierung. Mit der Gesichtsausdrucksanforderung wird der Einrichtung 10 mitgeteilt, zu welcher Zeit bzw. bei welchem Phonem welcher Gesichtsausdruck anzunehmen ist. Die über den Eingang 8 zugeführten Eingangsdaten werden einer Umwandlungseinheit 6 zugeführt, die dazu eingerichtet ist, die zugeführte Textinformation einerseits in eine Audioinformation zu wandeln, die über einen Ausgang 16 abgegeben wird. Zudem wird über einen Ausgang 17 eine entsprechende Eingangsinformation für eine Auswahleinheit 4 abgegeben. Die über den Ausgang 17 abgegebene Information beinhaltet die zu sprechenden Phoneme, deren Dauer sowie die über den Eingang 8 zugeführten Gesichtsausdrucksanforderungen. Die Auswahleinheit 4 wertet die zugeführten Daten aus und wählt aus der ersten Datenbank 1 oder der zweiten Datenbank 2 passende Viseme aus, die zu dem zu sprechenden Text passen, wobei die Viseme so ausgewählt werden, dass jeweils ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem ausgewählt wird. Hierbei werden bei der Entscheidung, ob Viseme aus der ersten Datenbank 1 oder der zweiten Datenbank 2 ausgewählt werden, die Gesichtsausdrucksanforderungen berücksichtigt. Die Auswahleinheit 4 gibt das ausgewählte Visem über einen Ausgang 14 an eine Renderingeinheit 5 ab. Die Renderingeinheit 5 erzeugt aus der von der Auswahleinheit 4 abgegebenen Videoinformation und einer aus der Zusatzdatenbank 3 ausgewählten, zugehörigen Videoinformation eine resultierende Videoinformation, die visuell als Gesichtsanimation dargestellt wird. Die von der Renderingeinheit 5 abgegebene Videoinformation wird in einer Kombinationseinheit 7 mit der über den Ausgang 16 abgegebenen Audioinformation kombiniert und als kombinierte Gesichtsanimation mit Sprachausgabe über einen Ausgang 9 als fotorealistische Gesichtsanimation mit Sprachausgabe 15 in Form eines Video/Tonsignals ausgegeben, z. B. auf einem Computerbildschirm oder einem Fernseher.
Die 2 zeigt ein Beispiel für eine Verteilung von Visemen v_i der ersten Datenbank (jeweils mit einem Punkt wiedergegeben) und Visemen v_j der zweiten Datenbank (jeweils mit einem Pluszeichen wiedergegeben) in einem geometrischen Charakterisierungsraum. An der Abzisse ist die Mundbreite des aufgenommenen Gesichtsteils dargestellt, an der Ordinate die Mundhöhe, jeweils in der Einheit Bildpixel. Wie erkennbar ist, gibt es Bereiche starker Überlappungen, aber auch Bereiche, in denen wenig Korrelation zwischen den Visemen der verschiedenen Gesichtsausdrücke besteht. Die 3 zeigt in der gleichen Art der Darstellung wie die 2 eine Verteilung der Viseme der ersten und der zweiten Datenbank, wobei für die Darstellung der PCA-Charakterisierungsraum verwendet wurde. An der Abzisse ist z. B. Maß für die Textur wiedergegeben, an der Ordinate ein Maß für die Erscheinung (Appearance).
Aus den in den 2 und 3 wiedergegebenen Daten kann ein Maß für die Ähnlichkeit zwischen Visemen gebildet werden. Dies ist in den 4 und 5 beispielhaft dargestellt. Die 4 zeigt eine erste Übergangsmatrix 40 mit Übergangswahrscheinlichkeiten für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme der ersten Datenbank (Koordinate i) mit den Visemen der zweiten Datenbank (Koordinate j). Zur besseren Veranschaulichung sind die Übergangswahrscheinlichkeiten, die Werte zwischen 0 und 1 annehmen können, in unterschiedlichen Graustufen dargestellt. Der Balken 41 gibt die Zuordnung zwischen den Graustufen und den Werten der Übergangswahrscheinlichkeiten an.
Je heller die Flächen sind, desto höher sind die Übergangswahrscheinlichkeiten.
Analog dazu gibt 5 die zweite Übergangsmatrix 50 wieder, die die Übergangswahrscheinlichkeiten für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme der zweiten Datenbank mit den Visemen der ersten Datenbank aufweist. Die Darstellung entspricht im Übrigen der 4, der Balken 51 gibt hier die Zuordnung zwischen den Graustufen und den Übergangswahrscheinlichkeiten wieder. Insgesamt ist erkennbar, dass die zweite Übergangsmatrix 50 überwiegend dunklere Grauwerte als erste Übergangsmatrix 40 aufweist, die auf geringere Übergangswahrscheinlichkeiten beim Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck hindeuten als umgekehrt. Dies bedeutet, dass bei der Gesichtsanimation der Übergang z. B. von einem neutralen Gesichtsausdruck zu einem Lächeln einfacher animierbar ist als in der umgekehrten Richtung.
In der Auswahleinheit 4 werden gleichmäßige Übergänge zwischen dem ersten und dem zweiten Gesichtsaudruck und umgekehrt unter Verwendung der ersten und der zweiten Übergangsmatrix automatisch bestimmt. Die erste und die zweite Übergangsmatrix können dabei in der Auswahleinheit 4 gespeichert sein. Die Auswahleinheit 4 kann hierfür z. B. als Größen gewichtete Zielaufwendungen und Datenverknüpfungsaufwendungen verwenden. Die Zielaufwendungen sind ein Maß für die Synchronisation der Lippenbewegung mit dem Audiosignal. Die Datenverknüpfungsaufwendungen sind ein Maß für die Gleichmäßigkeit des Übergangs von einer Bildsequenz zur nächsten. Die Zielaufwendungen können bestimmt werden, indem der Abstand zwischen dem Phonemkontext eines jeweiligen Mundbilds und einem Phonemkontext der Eingangsdaten bestimmt wird. Hierfür sind als zusätzliche Daten die jeweiligen Phonemkontexte den Eingangsdaten und den gespeicherten Phonemen hinzuzufügen. Die Datenverknüpfungsaufwendungen für zwei Videosequenzen können bestimmt werden, indem gewichtete geometrische Abstände und Abstände im PCA-Charakterisierungsraum zwischen den jeweiligen Mundbildern bestimmt werden. Hierbei kann vorteilhaft ausgenutzt werden, dass die Auswahleinheit bei einer großen Anzahl von gespeicherten Visemen sehr viele Auswahlmöglichkeiten für die Auswahl eines geeigneten Visems hat, was das Auffinden eines geeigneten Visems für eine gegebene Phonemsequenz vereinfacht. Zum Auffinden der optimalen Viseme kann ein Viterbi-Suchalgoritmus verwendet werden, der die Datenbanken durchsucht und hierbei die Zielaufwendungen und die Datenverknüpfungsaufwendungen minimiert.
Dies wird nachfolgend anhand des in 6 dargestellten Beispiels näher erläutert. In 6 ist die Durchführung der Auswahl der Mundbilder durch die Auswahleinheit 4 beim Aussprechen des Wortes „Hello” dargestellt. Die in 6 wiedergegebenen Darstellungen 60 bis 66 sind über die Zeit dargestellt. Die Darstellung 60 stellt das Audiosignal dar. Die Darstellung 61 zeigt die Folge von Phonemen. Die Darstellung 62 zeigt jeweils mehrere geeignete Kandidaten für das nächste auszugebende Bild aus der ersten oder der zweiten Datenbank. Die Darstellung 63 zeigt das jeweilige Ergebnis der Auswahl, d. h. das ausgegebene Mundbild. Die Darstellung 64 gibt die Bildnummer des entsprechenden Bildes aus der zuvor aufgenommenen Videosequenz an. Die Darstellung 65 gibt die Nummer der verwendeten Videosequenz aus der Menge der aufgenommenen Videosequenzen an. Die Darstellung 66 gibt wieder, welche Anzahl von Bildern aus einer der zuvor aufgenommenen Videosequenzen bei der Ausgabe der Gesichtsanimation ausgewählt und ausgegeben wird. In der Darstellung 62 ist durch die mit fetter Linie wiedergegebenen Pfeile von einem Bild zum nächsten dargestellt, welches Folgebild die höchste Ähnlichkeit zu einem vorangehenden Bild hat. Dieses wird ausgewählt, so dass sich der durch die in fetten Linien wiedergegebenen Pfeile dargestellte Graph bildet.
Zur Durchführung der in der 6 wiedergegebenen Suche wird zunächst ein Suchgraph gebildet. Für jedes bei der Gesichtsanimation auszugebende Bild gibt es eine gewisse Menge von Kandidatenbildern, wie in der Darstellung 62 jeweils untereinander dargestellt, die zum selben Visem gehören, das mit dem jeweils auszusprechenden Phonem korrespondiert. Jedes Kandidatenbild weist diverse Verbindungen zu den Kandidatenbildern des nächsten auszugebenden Bildes auf. Die Menge an Verbindungen zwischen den Kandidatenbildern bildet einen Suchgraph, wie in 6 durch die diversen Pfeile in der Darstellung 62 dargestellt. Jedem Kandidatenbild werden nun Zielaufwendungen zugeordnet. Zudem werden jedem Verbindungspfeil des Suchgraphen Datenverknüpfungsaufwendungen zugeordnet. Eine Viterbi-Suche durch den Suchgraphen findet dabei den optimalen Pfad durch den Suchgraphen mit den geringstmöglichen Gesamtaufwendungen auf. Hierbei kann für eine gute Lippensynchronisation mit dem Audiosignal gesorgt werden, indem Zielaufwendungen definiert werden, die klein sind für Bilder, die mit demselben phonetischen Kontext aufgenommen sind wie das gerade ausgegebene Bild.
Die Zielaufwendungen TC sind als Distanz zwischen dem Phonem eines auszugebenden Bildes i und dem Phonem eines Bildes u aus den Kandidatenbildern bestimmt:
Hierbei ist ein Zielphonem-Merkmalsvektor bestimmt als: T →_i = (T_i–n, ..., T_i, ..., T_i+n), wobei T_i das Phonem des auszugebenden Bilds i repräsentiert. Zudem ist ein Kandidatenphonem-Merkmalsvektor bestimmt als: P →_u = (P_u–n, ..., P_u, ..., P_u+n),
Dieser besteht aus den Phonemen vor und nach dem Phonem mit der Nummer u in der aufgenommenen Videosequenz und einem Gewichtungsfaktor, der bestimmt ist als: v →_i = (v_i–n, ..., v_i, ..., v_i+n),
Hierbei ist
und n ist die Phonemkontext-Beeinflussungslänge, die von der Sprachgeschwindigkeit und der Bildrate der aufgenommenen Videosequenz abhängt. Zum Beispiel ist n = 10, wenn die Bildrate 50 Hz beträgt, oder n = 5 bei 25 Hz. β₁ kann z. B. den Wert –0,3 haben. M ist eine Phonemdistanzmatrix z. B. mit der Größe 43×43, die visuelle Ähnlichkeiten zwischen Phonempaaren wiedergibt. M wird bestimmt durch gewichtete oder euklidische Distanzen in dem PCA-Raum gemäß:
Hierbei sind PCA _Phi und PCA _Phj jeweils die mittleren PCA-Gewichte der Phoneme i und j. K ist die verringerte Dimension des PCA-Raumes von Mundbildern. γ_k ist das Gewicht der k-ten PCA-Komponente, die die Unterscheidung zwischen den Komponenten beschreibt. So können z. B. folgende Werte vorgesehen werden:
Die Datenverknüpfungsaufwendungen CC werden berechnet unter Verwendung visueller Aufwendungen f und Sprungaufwendungen g_s in folgender Art: CC(u₁, u₂) = wccf·f(U₁,U₂) + wccg·g_s(u₁,u₂) (3)
Hierbei sind wccf und wccg Gewichtungsfaktoren. u₁ und u₂ sind jeweilige Kandidatenbilder für das auszugebende Bild i und das auszugebende Bild i – 1. U₁ und U₂ korrespondieren mit dem Merkmalsvektor von u₁ bzw. u₂. Der Merkmalsvektor berücksichtigt bestimmte Gesichtsmerkmale wie z. B. Zähne, Zunge, Lippen, Erscheinungsbild und geometrische Merkmale.
Die visuellen Aufwendungen sind ein Maß für die visuellen Differenzen zwischen zwei Mundbildern. Geringe visuelle Aufwendungen deuten auf einen gleichmäßigen Übergang zwischen den Bildern hin. Die visuellen Aufwendungen f sind bestimmt als:
||U d / 1 – U d / 2 ||_L2 ist ein Maß für die euklidische Distanz im Ausdrucksmerkmalsraum mit D Dimensionen. Jedem Merkmal wird ein bestimmter Gewichtungsfaktor k_d zugeordnet, der proportional zu deren Unterschieden ist. Zum Beispiel ist der Gewichtungsfaktor für jede Komponente der PCA-Parameter proportional zu seinen korrespondierenden Eigenwerten der PCA-Analyse.
Die Sprungaufwendungen haben den Zweck, dass der Pfad durch den Suchgraph durch möglichst wenige unterschiedliche Videosequenzen geführt wird. Es hat sich gezeigt, dass besonders gleichmäßige Gesichtsanimationen durch die Verwendung möglichst langer Ausschnitte aus den aufgenommenen Videosequenzen mit möglichst wenig Wechseln zwischen den Videosequenzen begünstigt werden. Die Sprungaufwendungen g_s werden bestimmt als:
Hierbei ist f die Nummer eines Bildes in der aufgenommenen Videosequenz und s die Nummer der Videosequenz. Zudem geht
Es gelten weiterhin β₃ = 0,6 und p = 5.
Ein Pfad (p₁, p₂, ..., p_i, ..., p_N) durch den Suchgraphen erzeugt die folgenden Pfadaufwendungen PC:
Hierbei gehören die Kandidatenbilder
zu dem auszugebenden Bild i. wtc und wcc sind Gewichtsfaktoren der zwei Aufwendungen.
Durch Einsetzen von Gleichung 3 in Gleichung 6 ergibt sich: PC = wtc·C1 + wcc·wccf·C2 + wcc·wccg·C3 (7) mit
Der beste Pfad durch den Suchgraph ist somit der Pfad, der die geringsten Pfadaufwendungen erzeugt. Die Gewichtsfaktoren wtc und wcc werden hierbei für eine Feinabstimmung verwendet, um die Datenverknüpfungsaufwendungen stärker als die Zielaufwendungen zu berücksichtigen, oder in anderen Worten ausgedrückt, um Lippensynchronisation gegenüber den gleichmäßigen Übergängen zwischen den Bildern hervorzuheben.
Auf diese Weise können alle Situationen einer Sprachausgabe besonders realistisch mit einer Gesichtsanimation verbunden werden, insbesondere die Fälle

– Sprechen mit neutralem Gesichtsausdruck,
– Lächeln während des Sprechens,
– Wechsel im Gesichtsausdruck von neutral zu lächelnd während des Sprechens, und
– das Einfügen eines Lächelns, wenn nicht gesprochen wird, um eine nonverbale Kommunikation auszudrücken.

Die 7 zeigt eine Sequenz von Mundbildern, die jeweiligen Visemen der ersten und/oder der zweiten Datenbank entsprechen. Auf der unten abgebildeten Zeitachse sind die zu den Visemen jeweils zugeordneten Phoneme beim Aussprechen des Worts „smile” wiedergegeben. Die in 7 als Segment 1 dargestellte Bildfolge zeigt den Mund mit neutralem Gesichtsausdruck, d. h. es handelt sich um Daten aus der ersten Datenbank 1. Die weiteren Segmente 2 bis 5 zeigen Mundabbildungen mit einem lächelnden Gesichtsausdruck, d. h. es handelt sich um Daten aus der zweiten Datenbank 2. Im dargestellten Beispiel wurde durch die Gesichtsausdrucksanforderung, die über die Eingangsdaten zugeführt wird, ein Wechsel von neutralem Gesichtsausdruck in einen lächelnden Gesichtsausdruck beim Aussprechen des Phonems „m” angefordert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2010-250761 A [0003]
WO 2008/156437 A1 [0003]

Zitierte Nicht-Patentliteratur

Samuel Kadoury, „Face detection using locally linear embedding”, November 2005 [0016]

Claims

Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation (15), die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank (1), die eine Vielzahl von Visemen (v_i) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (v_i) mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank (2) mit Visemen (v_j) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation (15) ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation (15) von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme (v_j) aus der zweiten Datenbank (2) ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank (2) wenigstens ein Visem (v_j) mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem (v_i) der ersten Datenbank (1) ausgewählt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine erste Übergangsmatrix (40) vorgesehen ist, die Übergangswahrscheinlichkeiten
für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme (v_j) der ersten Datenbank (1) mit den Visemen (v_j) der zweiten Datenbank (2) aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, aus der zweiten Datenbank (2) wenigstens ein Visem (v_j) mit der höchsten Übergangswahrscheinlichkeit
ausgewählt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine zweite Übergangsmatrix (50) vorgesehen ist, die Übergangswahrscheinlichkeiten
für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme (v_j) der zweiten Datenbank (2) mit den Visemen (v_i) der ersten Datenbank (1) aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen, aus der ersten Datenbank (1) wenigstens ein Visem (v_i) mit der höchsten Übergangswahrscheinlichkeit
ausgewählt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die erste und/oder die zweite Übergangsmatrix (40, 50) anhand von euklidischen Distanzen der nach vorgegebenen Merkmalen charakterisierten Viseme (v_i, v_j) in einem jeweiligen Charakterisierungsraum bestimmt werden.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Charakterisierungsraum geometrische Maße von einem, mehreren oder allen Teilen des Gesichts charakterisiert, und/oder der Charakterisierungsraum der PCA-Raum oder LLE-Raum ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (v_i) beim Sprechen mit neutralem Gesichtsausdruck aufweist und die zweite Datenbank (2) Viseme (v_j) beim Sprechen mit nichtneutralem Gesichtsausdruck aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine dritte Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts vorgesehen ist, wobei die dritte Datenbank Viseme mit nicht-neutralem Gesichtsausdruck ohne Sprechen aufweist.
Einrichtung (10) zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers, der eingerichtet ist zur Ausführung eines Verfahrens nach einem der vorhergehenden Ansprüche.
Computerprogramm mit Programmcodemitteln, eingerichtet zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7, wenn das Computerprogramm auf einem Rechner ausgeführt wird.
Computerprogramm mit Programmcodemitteln, die auf einem maschinenlesbaren Träger gespeichert sind, eingerichtet zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7, wenn das Computerprogramm auf einem Rechner ausgeführt wird.