DE102011107295A1 - Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation - Google Patents

Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation Download PDF

Info

Publication number
DE102011107295A1
DE102011107295A1 DE201110107295 DE102011107295A DE102011107295A1 DE 102011107295 A1 DE102011107295 A1 DE 102011107295A1 DE 201110107295 DE201110107295 DE 201110107295 DE 102011107295 A DE102011107295 A DE 102011107295A DE 102011107295 A1 DE102011107295 A1 DE 102011107295A1
Authority
DE
Germany
Prior art keywords
database
facial expression
facial
transition
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE201110107295
Other languages
English (en)
Inventor
Kang Liu
Jörn Ostermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leibniz Universitaet Hannover
Original Assignee
Leibniz Universitaet Hannover
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leibniz Universitaet Hannover filed Critical Leibniz Universitaet Hannover
Priority to DE201110107295 priority Critical patent/DE102011107295A1/de
Publication of DE102011107295A1 publication Critical patent/DE102011107295A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation (15), die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank (1), die eine Vielzahl von Visemen (vi) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (vi) mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank (2) mit Visemen (vj) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation (15) ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation (15) von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme (vj) aus der zweiten Datenbank (2) ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank (2) wenigstens ein Visem (vj) mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem (vi) der ersten Datenbank (1) ausgewählt wird. Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers sowie Computerprogramme mit Programmcodemitteln.

Description

  • Die Erfindung betrifft ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation gemäß dem Oberbegriff des Anspruchs 1. Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers gemäß dem Anspruch 8 sowie Computerprogramme mit Programmcodemitteln gemäß den Ansprüchen 9 und 10.
  • Allgemein betrifft die Erfindung das Gebiet der automatischen Erzeugung einer fotorealistischen Gesichtsanimation, die zu einer Sprachausgabe passt. Etwas Derartiges wird auch als „Talking Head” bezeichnet. Ziel ist es hierbei, bei einer Sprachausgabe, die synthetisch oder natürlich erzeugt sein kann, ein zu der Sprachausgabe passendes Gesicht darzustellen, wobei in Folge der Sprachausgabe insbesondere im Mundbereich größere Änderungen in den Bildinhalten auftreten. Eine solche automatisch erzeugte Gesichtsanimation kann z. B. als Nachrichtensprecher oder als Avatar verwendet werden.
  • Bekannte Ansätze für eine Gesichtsanimation sind z. B. eine Mesh-Animation oder eine Animation mit veränderlicher Textur. Hierdurch wird jedoch noch kein besonders realistischer Eindruck erzeugt. Bekannte Verfahren gehen z. B. aus JP 2010-250761 A oder WO 2008/156437 A1 hervor.
  • Ein Ziel bei solchen Gesichtsanimationen besteht darin, die Animation so realistisch wie möglich zu gestalten, und zwar sowohl im Hinblick auf die Nähe zu fotografischen Aufnahmen als auch im Hinblick auf den Gesichtsausdruck. Als Gesichtsausdruck werden hierbei dem Sprechvorgang unterlegte Gesichtsveränderungen verstanden, durch die z. B. Gefühle wie Freude, Traurigkeit, Erstaunen, Angst, Ärger oder Ekel ausgedrückt werden. So unterscheidet sich z. B. ein sprechendes Gesicht bereits dann, wenn von einem neutralen Gesichtsausdruck in einen lächelnden Gesichtsaudruck gewechselt wird.
  • Der Erfindung liegt die Aufgabe zugrunde, den realistischen Eindruck einer sprechenden Gesichtsanimation sowohl im Hinblick auf die Nähe zu fotografischen Aufnahmen als auch im Hinblick auf eine realistische Wiedergabe von Gesichtsausdrücken, wie z. B. einem Lächeln, zu verbessern.
  • Diese Aufgabe wird gemäß Anspruch 1 durch ein Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation gelöst, die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank, die eine Vielzahl von Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank Viseme mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme aus der zweiten Datenbank ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der ersten Datenbank ausgewählt wird. Die Erfindung hat den Vorteil, dass ein erheblich verbesserter, von der Realität praktisch nicht mehr zu unterscheidender Eindruck der fotorealistischen Gesichtsanimation erzielt werden kann, da nun die Möglichkeit besteht, bei der Gesichtsanimation auch Gesichtsausdrücke und Übergänge zwischen Gesichtsausdrücken zu integrieren, mit denen z. B. Gefühle ausgedrückt werden, wie z. B. ein Lächeln. Ein Vorteil ist, dass die gewünschten Gesichtsausdrücke des Talking Head beliebig willkürlich vorgegeben werden können. Verschiedene Versuche mit Testpersonen haben gezeigt, dass diese nicht mehr zwischen realen Videoaufnahmen einer Person und synthetisch erzeugten Videoaufnahmen mittels der fotorealistischen Gesichtsanimation unterscheiden können. Damit ist nun die Möglichkeit gegeben, mit vernünftigen Aufwand und vertretbaren Kosten die Wiedergabe von Nachrichten im Fernsehen zu automatisieren und synthetisch zu erzeugen. Weitere Anwendungsfelder der erfindungsgemäßen Gesichtsanimation sind z. B. Avatare in Computerspielen und anderen Computeranwendungen. Die Sprachausgabe kann dabei synthetisch oder natürlich, z. B. durch vorherige Aufzeichnung, erzeugt sein.
  • Als Visem wird hierbei das visuelle Gegenstück zu einem Phonemen verstanden, d. h. zum Beispiel ein Bild eines Mundes mit einer bestimmten Mundform, entsprechend dem im Bereich der Gesichtsanimation üblichen Verständnis dieses Begriffs. Die erste und die zweite Datenbank, sowie die später noch erwähnte dritte Datenbank, weisen Viseme aus zuvor aufgezeichneten Videosequenzen auf. Eine Videosequenz ist eine Folge von Bildern in der Art eines kurzen Films. Für die Sprachausgabe ist es z. B. vorteilhaft, hierfür die Mundpartie eines Gesichts aufzuzeichnen. Zusätzlich können auch andere Teile des Gesichts, wie z. B. der Augenbereich, die Augenbrauen oder die Kopfhaltung aufgenommen werden. Zur Erstellung der Datenbank mit den Visemen kann z. B. vorgesehen sein, die einzelnen Bilder der Videosequenz aufzuteilen und den verschiedenen Phonemen zuzuordnen, wobei es vorteilhaft ist, jedem Phonem mehrere Einzelbilder zuzuordnen, um bessere Auswahlmöglichkeiten für die spätere synthetische Erzeugung der Gesichtsanimation zu haben.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung kann analog zu der zuvor beschriebenen Verfahrensweise verfahren werden, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen. In diesem Fall werden ein oder mehrere Viseme aus der ersten Datenbank ausgewählt und visuell ausgegeben, wobei aus der ersten Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der zweiten Datenbank ausgewählt wird. Dies hat den Vorteil, dass in gleicher Qualität und Realitätstreue sowohl ein Übergang von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck als auch umgekehrt möglich ist.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung werden beim Übergang von einem Visem zu einem anderen Visem der gleichen Datenbank während der visuellen Ausgabe automatisch gleichmäßige Übergänge zwischen den Visemen bestimmt, indem aus der Datenbank wenigstens ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem derselben Datenbank ausgewählt wird. Hierbei werden in der Datenbank z. B. mittels eines Viterbi-Algorithmus die jeweils am Besten passenden Viseme aus der einen Datenbank ausgewählt und nach Art eines Films nacheinander ausgegeben, so dass wiederum neue Videosequenzen entstehen. In vielen Fällen wird dabei eine zuvor für die Erstellung der Datenbank aufgesplittete Videosequenz ganz oder zum Teil wieder rekonstruiert. Dies hat den Vorteil, dass rechenaufwendige grafische Interpolationen zwischen den einzelnen Bildern nicht erforderlich sind, was den gesamten Rechenaufwand minimiert. Zum schnellen Wiederfinden zueinander gehöriger Bilder von Videosequenzen können die in den Datenbanken gespeicherten Bilder mit Zusatzinformationen versehen sein, z. B. einer Nummerierung des jeweiligen Bildes in der jeweiligen Videosequenz.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine erste Übergangsmatrix vorgesehen, die Übergangswahrscheinlichkeiten für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme der ersten Datenbank mit den Visemen der zweiten Datenbank aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, aus der zweiten Datenbank wenigstens ein Visem mit der höchsten Übergangswahrscheinlichkeit ausgewählt wird.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine zweite Übergangsmatrix vorgesehen, die Übergangswahrscheinlichkeiten für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme der zweiten Datenbank mit den Visemen der ersten Datenbank aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen, aus der ersten Datenbank wenigstens ein Visem mit der höchsten Übergangswahrscheinlichkeit ausgewählt wird.
  • Die Verwendung der ersten und/oder der zweiten Übergangsmatrix hat den Vorteil, dass eine schnelle automatische Auswahl eines Visems mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem der anderen Datenbank durchgeführt werden kann. Die Verwendung von Übergangswahrscheinlichkeiten erlaubt einfache Rechenvorgänge, die schnell ausführbar sind. Die Übergangsmatrizen enthalten bereits die entsprechenden Korrelationsinformationen zwischen den Visemen der ersten und der zweiten Datenbank, was den Vorteil hat, dass die relativ rechen- und zeitaufwändige Bestimmung dieser Korrelationsinformationen in einen Zeitraum verlagert werden kann, der der Vorbereitung der Datenbanken dient. Während der eigentlichen Erzeugung der fotorealistischen Gesichtsanimation kann auf die vorverarbeiteten Daten in den Übergangsmatrizen zurückgegriffen werden, so dass eine schnelle Verarbeitung in Echtzeit auch mit preisgünstigen Computern möglich ist.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung werden die erste und/oder die zweite Übergangsmatrix anhand von euklidischen Distanzen der nach vorgegebenen Merkmalen charakterisierten Viseme in einem jeweiligen Charakterisierungsraum bestimmt. Dies kann z. B. dadurch erfolgen, dass die Übergangswahrscheinlichkeiten von Visemen vi der ersten Datenbank auf Viseme vj der zweiten Datenbank wie folgt bestimmt werden:
    Figure 00060001
  • Für den umgekehrten Übergang von einem Visem vj auf ein Visem vi können die Übergangswahrscheinlichkeiten bestimmt werden als:
    Figure 00060002
  • Hierbei gibt
    Figure 00060003
    die Anzahl der dem Visem vi zugeordneten Einzelbilder an,
    Figure 00060004
    ist die Anzahl der dem Visem vj zugeordneten Einzelbilder. mi,j ist die Anzahl der dem Visem vi zugeordneten Einzelbilder, in dessen Nachbarschaft sich ein dem Visem vj zugeordnetes Einzelbild befindet, bei denen die euklidische Distanz im gewählten Charakterisierungsraum kleiner ist als ein vordefinierter Grenzwert. mj,i ist die Anzahl der dem Visem vj zugeordneten Einzelbilder, in dessen Nachbarschaft sich ein dem Visem vi zugeordnetes Einzelbild befindet, bei denen die euklidische Distanz im gewählten Charakterisierungsraum kleiner ist als ein vordefinierter Grenzwert. Der Grenzwert wird dabei derart festgelegt, dass Übergänge zwischen den einzelnen Bildern bzw. den Visemen gleichmäßig erscheinen.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung charakterisiert der Charakterisierungsraum geometrische Maße von einem, mehreren oder allen Teilen des Gesichts. In diesem Fall ist der Charakterisierungsraum ein die geometrische Form berücksichtigender Charakterisierungsraum (Shape Space). In einer vorteilhaften Weiterbildung der Erfindung ist der Charakterisierungsraum der PCA-Raum oder der LLE-Raum. Der PCA-Raum wird im Bereich der automatischen Gesichtserkennung verwendet. PCA steht für Principle Component Analysis. Hierbei wird das zu untersuchende Bild in eine Vektorform gewandelt und ausgewählte Komponenten des Bilds (Principle Components) der Analyse unterzogen. Der LLE-Raum wird ebenfalls im Bereich der Gesichtserkennung verwendet. LLE steht für Locally Linear Embedding, wie z. B. beschrieben in der Masterarbeit von Samuel Kadoury, „Face detection using locally linear embedding", November 2005.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung weist die erste Datenbank Viseme beim Sprechen mit neutralem Gesichtsausdruck auf. Die zweite Datenbank weist Viseme beim Sprechen mit nicht-neutralem Gesichtsausdruck auf, z. B. mit einem Lächeln. Auch andere nicht-neutrale Gesichtsausdrücke, die Gefühle ausdrücken, können in der zweiten Datenbank oder ggf. in weiteren Datenbanken vorgesehen werden, wie z. B. Traurigkeit, Erstaunen, Angst, Ärger oder Ekel.
  • Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine dritte Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts vorgesehen. Die dritte Datenbank weist Viseme mit nicht-neutralem Gesichtsausdruck ohne Sprechen auf. Im Gegensatz zur ersten und zur zweiten Datenbank sind somit Bilder vorgesehen, die das aufgezeichnete Gesicht bzw. wenigstens einen Teil davon darstellen, wenn nicht gesprochen wird. Es hat sich gezeigt, dass durch eine Komposition der Gesichtsanimation aus den Visemen der ersten, der zweiten und der dritten Datenbank ein besonders hoher Realitätsgrad erzeugt werden kann, wobei insbesondere auch Phasen der Sprachausgabe gut darstellbar sind, in denen Sprechpausen auftreten.
  • Die Erfindung betrifft ferner eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers, der eingerichtet ist zur Ausführung eines Verfahrens der zuvor beschriebenen Art, z. B. durch ein auf dem Computer auszuführendes Computerprogramm.
  • Die Erfindung betrifft ferner ein Computerprogramm mit Programmcodemitteln, das eingerichtet ist zur Durchführung des Verfahrens der zuvor beschriebenen Art, wenn das Computerprogramm auf einem Rechner ausgeführt wird. Die Erfindung betrifft ferner ein Computerprogramm mit Programmcodemitteln, die auf einem maschinenlesbaren Träger, z. B. einem Memory-Stick, einer DVD oder einer CD-Rom gespeichert sind, das eingerichtet ist zur Durchführung eines Verfahrens der zuvor beschriebenen Art, wenn das Computerprogramm auf einem Rechner ausgeführt wird.
  • Die Erfindung wird nachfolgend anhand von Ausführungsbeispielen unter Verwendung von Zeichnungen näher erläutert.
  • Es zeigen:
  • 1 eine Einrichtung zur Ausführung des Verfahrens und
  • 2 eine Darstellung geometrischer Merkmale von Visemen in einem geometrischen Charakterisierungsraum und
  • 3 eine Darstellung visueller Merkmale von Visemen in einem PCA-Charakterisierungsraum und
  • 4 eine erste Übergangsmatrix und
  • 5 eine zweite Übergangsmatrix und
  • 6 eine Videosynthese beim Sprechen des Worts „hello” und
  • 7 Übergänge zwischen Gesichtsausdrücken beim Sprechen des Worts „smile”.
  • In den Figuren werden gleiche Bezugszeichen für einander entsprechende Elemente verwendet.
  • Die 1 zeigt in schematischer Darstellung eine Einrichtung zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit den Blöcken 1 bis 7. Die Blöcke 1 bis 7 können ganz oder teilweise in Form von Softwaremodulen zur Ausführung auf einem Computer oder als Hardwarebausteine ausgebildet sein.
  • Die Einrichtung 10 weist eine erste Datenbank 1 mit Visemen mit einem ersten Gesichtsausdruck, hier einem neutralen Gesichtsausdruck, und eine zweite Datenbank 2 von Visemen mit einem zweiten Gesichtsausdruck, hier einem Lächeln, auf. Ferner ist eine Zusatzdatenbank mit Visemen einer Hintergrundbildsequenz 3 vorgesehen. Die Viseme der ersten und der zweiten Datenbank 1, 2 weisen Bilder aus Videosequenzen nur von Teilen eines Gesichts auf, und zwar jeweils von der Mundpartie. Die Zusatzdatenbank 3 weist Bilder aus Videosequenzen des gesamten Gesichts bzw. des Kopfs auf. Zur Veranschaulichung des jeweiligen Inhalts der Datenbanken 1, 2, 3 ist darüber jeweils, bezeichnet mit dem Bezugszeichen 11, 12, 13 beispielhaft der Aufbau und der Inhalt des jeweiligen Datenbank dargestellt. Die erste und die zweite Datenbank 1, 2 weisen jeweils eine Vielzahl von Visemen auf, die entlang einer y-Achse den zugehörigen Phonemen, d. h. den Audioeinheiten bei der Sprachausgabe, zugeordnet sind. Entlang einer x-Achse sind verschiedene Größen der aufgenommenen Gesichtsteile gespeichert, z. B. den unterschiedlich weit geöffneten Mund während des Aussprechens des Phonems „a”. Als dritte Dimension der Datenbank ist eine z-Achse vorgesehen, entlang der verschiedene alternative Viseme für ein jeweiliges Phonem und eine jeweilige Größe gespeichert sind, aus denen dann jeweils das am besten geeignete Visem ausgewählt werden kann. Dies gilt jeweils für die mit dem Bezugszeichen 11 und 12 dargestellten Inhalte der ersten und der zweiten Datenbank 1, 2. Die Inhalte 13 der Zusatzdatenbank 3 sind eindimensional strukturiert, wobei entlang der dargestellten Achse jeweils Viseme mit einer Zuordnung zu den Phonemen gespeichert sind.
  • Die Einrichtung 10 weist einen Eingang 8 auf, über den Eingangsdaten zugeführt werden, z. B. eine Gesichtsausdrucksanforderung und der synthetisch zu sprechende Text, z. B. in alphanumerischer Codierung. Mit der Gesichtsausdrucksanforderung wird der Einrichtung 10 mitgeteilt, zu welcher Zeit bzw. bei welchem Phonem welcher Gesichtsausdruck anzunehmen ist. Die über den Eingang 8 zugeführten Eingangsdaten werden einer Umwandlungseinheit 6 zugeführt, die dazu eingerichtet ist, die zugeführte Textinformation einerseits in eine Audioinformation zu wandeln, die über einen Ausgang 16 abgegeben wird. Zudem wird über einen Ausgang 17 eine entsprechende Eingangsinformation für eine Auswahleinheit 4 abgegeben. Die über den Ausgang 17 abgegebene Information beinhaltet die zu sprechenden Phoneme, deren Dauer sowie die über den Eingang 8 zugeführten Gesichtsausdrucksanforderungen. Die Auswahleinheit 4 wertet die zugeführten Daten aus und wählt aus der ersten Datenbank 1 oder der zweiten Datenbank 2 passende Viseme aus, die zu dem zu sprechenden Text passen, wobei die Viseme so ausgewählt werden, dass jeweils ein Visem mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem ausgewählt wird. Hierbei werden bei der Entscheidung, ob Viseme aus der ersten Datenbank 1 oder der zweiten Datenbank 2 ausgewählt werden, die Gesichtsausdrucksanforderungen berücksichtigt. Die Auswahleinheit 4 gibt das ausgewählte Visem über einen Ausgang 14 an eine Renderingeinheit 5 ab. Die Renderingeinheit 5 erzeugt aus der von der Auswahleinheit 4 abgegebenen Videoinformation und einer aus der Zusatzdatenbank 3 ausgewählten, zugehörigen Videoinformation eine resultierende Videoinformation, die visuell als Gesichtsanimation dargestellt wird. Die von der Renderingeinheit 5 abgegebene Videoinformation wird in einer Kombinationseinheit 7 mit der über den Ausgang 16 abgegebenen Audioinformation kombiniert und als kombinierte Gesichtsanimation mit Sprachausgabe über einen Ausgang 9 als fotorealistische Gesichtsanimation mit Sprachausgabe 15 in Form eines Video/Tonsignals ausgegeben, z. B. auf einem Computerbildschirm oder einem Fernseher.
  • Die 2 zeigt ein Beispiel für eine Verteilung von Visemen vi der ersten Datenbank (jeweils mit einem Punkt wiedergegeben) und Visemen vj der zweiten Datenbank (jeweils mit einem Pluszeichen wiedergegeben) in einem geometrischen Charakterisierungsraum. An der Abzisse ist die Mundbreite des aufgenommenen Gesichtsteils dargestellt, an der Ordinate die Mundhöhe, jeweils in der Einheit Bildpixel. Wie erkennbar ist, gibt es Bereiche starker Überlappungen, aber auch Bereiche, in denen wenig Korrelation zwischen den Visemen der verschiedenen Gesichtsausdrücke besteht. Die 3 zeigt in der gleichen Art der Darstellung wie die 2 eine Verteilung der Viseme der ersten und der zweiten Datenbank, wobei für die Darstellung der PCA-Charakterisierungsraum verwendet wurde. An der Abzisse ist z. B. Maß für die Textur wiedergegeben, an der Ordinate ein Maß für die Erscheinung (Appearance).
  • Aus den in den 2 und 3 wiedergegebenen Daten kann ein Maß für die Ähnlichkeit zwischen Visemen gebildet werden. Dies ist in den 4 und 5 beispielhaft dargestellt. Die 4 zeigt eine erste Übergangsmatrix 40 mit Übergangswahrscheinlichkeiten für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme der ersten Datenbank (Koordinate i) mit den Visemen der zweiten Datenbank (Koordinate j). Zur besseren Veranschaulichung sind die Übergangswahrscheinlichkeiten, die Werte zwischen 0 und 1 annehmen können, in unterschiedlichen Graustufen dargestellt. Der Balken 41 gibt die Zuordnung zwischen den Graustufen und den Werten der Übergangswahrscheinlichkeiten an.
  • Je heller die Flächen sind, desto höher sind die Übergangswahrscheinlichkeiten.
  • Analog dazu gibt 5 die zweite Übergangsmatrix 50 wieder, die die Übergangswahrscheinlichkeiten für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme der zweiten Datenbank mit den Visemen der ersten Datenbank aufweist. Die Darstellung entspricht im Übrigen der 4, der Balken 51 gibt hier die Zuordnung zwischen den Graustufen und den Übergangswahrscheinlichkeiten wieder. Insgesamt ist erkennbar, dass die zweite Übergangsmatrix 50 überwiegend dunklere Grauwerte als erste Übergangsmatrix 40 aufweist, die auf geringere Übergangswahrscheinlichkeiten beim Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck hindeuten als umgekehrt. Dies bedeutet, dass bei der Gesichtsanimation der Übergang z. B. von einem neutralen Gesichtsausdruck zu einem Lächeln einfacher animierbar ist als in der umgekehrten Richtung.
  • In der Auswahleinheit 4 werden gleichmäßige Übergänge zwischen dem ersten und dem zweiten Gesichtsaudruck und umgekehrt unter Verwendung der ersten und der zweiten Übergangsmatrix automatisch bestimmt. Die erste und die zweite Übergangsmatrix können dabei in der Auswahleinheit 4 gespeichert sein. Die Auswahleinheit 4 kann hierfür z. B. als Größen gewichtete Zielaufwendungen und Datenverknüpfungsaufwendungen verwenden. Die Zielaufwendungen sind ein Maß für die Synchronisation der Lippenbewegung mit dem Audiosignal. Die Datenverknüpfungsaufwendungen sind ein Maß für die Gleichmäßigkeit des Übergangs von einer Bildsequenz zur nächsten. Die Zielaufwendungen können bestimmt werden, indem der Abstand zwischen dem Phonemkontext eines jeweiligen Mundbilds und einem Phonemkontext der Eingangsdaten bestimmt wird. Hierfür sind als zusätzliche Daten die jeweiligen Phonemkontexte den Eingangsdaten und den gespeicherten Phonemen hinzuzufügen. Die Datenverknüpfungsaufwendungen für zwei Videosequenzen können bestimmt werden, indem gewichtete geometrische Abstände und Abstände im PCA-Charakterisierungsraum zwischen den jeweiligen Mundbildern bestimmt werden. Hierbei kann vorteilhaft ausgenutzt werden, dass die Auswahleinheit bei einer großen Anzahl von gespeicherten Visemen sehr viele Auswahlmöglichkeiten für die Auswahl eines geeigneten Visems hat, was das Auffinden eines geeigneten Visems für eine gegebene Phonemsequenz vereinfacht. Zum Auffinden der optimalen Viseme kann ein Viterbi-Suchalgoritmus verwendet werden, der die Datenbanken durchsucht und hierbei die Zielaufwendungen und die Datenverknüpfungsaufwendungen minimiert.
  • Dies wird nachfolgend anhand des in 6 dargestellten Beispiels näher erläutert. In 6 ist die Durchführung der Auswahl der Mundbilder durch die Auswahleinheit 4 beim Aussprechen des Wortes „Hello” dargestellt. Die in 6 wiedergegebenen Darstellungen 60 bis 66 sind über die Zeit dargestellt. Die Darstellung 60 stellt das Audiosignal dar. Die Darstellung 61 zeigt die Folge von Phonemen. Die Darstellung 62 zeigt jeweils mehrere geeignete Kandidaten für das nächste auszugebende Bild aus der ersten oder der zweiten Datenbank. Die Darstellung 63 zeigt das jeweilige Ergebnis der Auswahl, d. h. das ausgegebene Mundbild. Die Darstellung 64 gibt die Bildnummer des entsprechenden Bildes aus der zuvor aufgenommenen Videosequenz an. Die Darstellung 65 gibt die Nummer der verwendeten Videosequenz aus der Menge der aufgenommenen Videosequenzen an. Die Darstellung 66 gibt wieder, welche Anzahl von Bildern aus einer der zuvor aufgenommenen Videosequenzen bei der Ausgabe der Gesichtsanimation ausgewählt und ausgegeben wird. In der Darstellung 62 ist durch die mit fetter Linie wiedergegebenen Pfeile von einem Bild zum nächsten dargestellt, welches Folgebild die höchste Ähnlichkeit zu einem vorangehenden Bild hat. Dieses wird ausgewählt, so dass sich der durch die in fetten Linien wiedergegebenen Pfeile dargestellte Graph bildet.
  • Zur Durchführung der in der 6 wiedergegebenen Suche wird zunächst ein Suchgraph gebildet. Für jedes bei der Gesichtsanimation auszugebende Bild gibt es eine gewisse Menge von Kandidatenbildern, wie in der Darstellung 62 jeweils untereinander dargestellt, die zum selben Visem gehören, das mit dem jeweils auszusprechenden Phonem korrespondiert. Jedes Kandidatenbild weist diverse Verbindungen zu den Kandidatenbildern des nächsten auszugebenden Bildes auf. Die Menge an Verbindungen zwischen den Kandidatenbildern bildet einen Suchgraph, wie in 6 durch die diversen Pfeile in der Darstellung 62 dargestellt. Jedem Kandidatenbild werden nun Zielaufwendungen zugeordnet. Zudem werden jedem Verbindungspfeil des Suchgraphen Datenverknüpfungsaufwendungen zugeordnet. Eine Viterbi-Suche durch den Suchgraphen findet dabei den optimalen Pfad durch den Suchgraphen mit den geringstmöglichen Gesamtaufwendungen auf. Hierbei kann für eine gute Lippensynchronisation mit dem Audiosignal gesorgt werden, indem Zielaufwendungen definiert werden, die klein sind für Bilder, die mit demselben phonetischen Kontext aufgenommen sind wie das gerade ausgegebene Bild.
  • Die Zielaufwendungen TC sind als Distanz zwischen dem Phonem eines auszugebenden Bildes i und dem Phonem eines Bildes u aus den Kandidatenbildern bestimmt:
    Figure 00140001
  • Hierbei ist ein Zielphonem-Merkmalsvektor bestimmt als: T →i = (Ti–n, ..., Ti, ..., Ti+n), wobei Ti das Phonem des auszugebenden Bilds i repräsentiert. Zudem ist ein Kandidatenphonem-Merkmalsvektor bestimmt als: P →u = (Pu–n, ..., Pu, ..., Pu+n),
  • Dieser besteht aus den Phonemen vor und nach dem Phonem mit der Nummer u in der aufgenommenen Videosequenz und einem Gewichtungsfaktor, der bestimmt ist als: v →i = (vi–n, ..., vi, ..., vi+n),
  • Hierbei ist
    Figure 00150001
    und n ist die Phonemkontext-Beeinflussungslänge, die von der Sprachgeschwindigkeit und der Bildrate der aufgenommenen Videosequenz abhängt. Zum Beispiel ist n = 10, wenn die Bildrate 50 Hz beträgt, oder n = 5 bei 25 Hz. β1 kann z. B. den Wert –0,3 haben. M ist eine Phonemdistanzmatrix z. B. mit der Größe 43×43, die visuelle Ähnlichkeiten zwischen Phonempaaren wiedergibt. M wird bestimmt durch gewichtete oder euklidische Distanzen in dem PCA-Raum gemäß:
    Figure 00150002
  • Hierbei sind PCA Phi und PCA Phj jeweils die mittleren PCA-Gewichte der Phoneme i und j. K ist die verringerte Dimension des PCA-Raumes von Mundbildern. γk ist das Gewicht der k-ten PCA-Komponente, die die Unterscheidung zwischen den Komponenten beschreibt. So können z. B. folgende Werte vorgesehen werden:
    Figure 00150003
  • Die Datenverknüpfungsaufwendungen CC werden berechnet unter Verwendung visueller Aufwendungen f und Sprungaufwendungen gs in folgender Art: CC(u1, u2) = wccf·f(U1,U2) + wccg·gs(u1,u2) (3)
  • Hierbei sind wccf und wccg Gewichtungsfaktoren. u1 und u2 sind jeweilige Kandidatenbilder für das auszugebende Bild i und das auszugebende Bild i – 1. U1 und U2 korrespondieren mit dem Merkmalsvektor von u1 bzw. u2. Der Merkmalsvektor berücksichtigt bestimmte Gesichtsmerkmale wie z. B. Zähne, Zunge, Lippen, Erscheinungsbild und geometrische Merkmale.
  • Die visuellen Aufwendungen sind ein Maß für die visuellen Differenzen zwischen zwei Mundbildern. Geringe visuelle Aufwendungen deuten auf einen gleichmäßigen Übergang zwischen den Bildern hin. Die visuellen Aufwendungen f sind bestimmt als:
    Figure 00160001
  • ||U d / 1 – U d / 2 ||L2 ist ein Maß für die euklidische Distanz im Ausdrucksmerkmalsraum mit D Dimensionen. Jedem Merkmal wird ein bestimmter Gewichtungsfaktor kd zugeordnet, der proportional zu deren Unterschieden ist. Zum Beispiel ist der Gewichtungsfaktor für jede Komponente der PCA-Parameter proportional zu seinen korrespondierenden Eigenwerten der PCA-Analyse.
  • Die Sprungaufwendungen haben den Zweck, dass der Pfad durch den Suchgraph durch möglichst wenige unterschiedliche Videosequenzen geführt wird. Es hat sich gezeigt, dass besonders gleichmäßige Gesichtsanimationen durch die Verwendung möglichst langer Ausschnitte aus den aufgenommenen Videosequenzen mit möglichst wenig Wechseln zwischen den Videosequenzen begünstigt werden. Die Sprungaufwendungen gs werden bestimmt als:
    Figure 00170001
  • Hierbei ist f die Nummer eines Bildes in der aufgenommenen Videosequenz und s die Nummer der Videosequenz. Zudem geht
    Figure 00170002
    Es gelten weiterhin β3 = 0,6 und p = 5.
  • Ein Pfad (p1, p2, ..., pi, ..., pN) durch den Suchgraphen erzeugt die folgenden Pfadaufwendungen PC:
    Figure 00170003
  • Hierbei gehören die Kandidatenbilder
    Figure 00170004
    zu dem auszugebenden Bild i. wtc und wcc sind Gewichtsfaktoren der zwei Aufwendungen.
  • Durch Einsetzen von Gleichung 3 in Gleichung 6 ergibt sich: PC = wtc·C1 + wcc·wccf·C2 + wcc·wccg·C3 (7) mit
  • Figure 00180001
  • Der beste Pfad durch den Suchgraph ist somit der Pfad, der die geringsten Pfadaufwendungen erzeugt. Die Gewichtsfaktoren wtc und wcc werden hierbei für eine Feinabstimmung verwendet, um die Datenverknüpfungsaufwendungen stärker als die Zielaufwendungen zu berücksichtigen, oder in anderen Worten ausgedrückt, um Lippensynchronisation gegenüber den gleichmäßigen Übergängen zwischen den Bildern hervorzuheben.
  • Auf diese Weise können alle Situationen einer Sprachausgabe besonders realistisch mit einer Gesichtsanimation verbunden werden, insbesondere die Fälle
    • – Sprechen mit neutralem Gesichtsausdruck,
    • – Lächeln während des Sprechens,
    • – Wechsel im Gesichtsausdruck von neutral zu lächelnd während des Sprechens, und
    • – das Einfügen eines Lächelns, wenn nicht gesprochen wird, um eine nonverbale Kommunikation auszudrücken.
  • Die 7 zeigt eine Sequenz von Mundbildern, die jeweiligen Visemen der ersten und/oder der zweiten Datenbank entsprechen. Auf der unten abgebildeten Zeitachse sind die zu den Visemen jeweils zugeordneten Phoneme beim Aussprechen des Worts „smile” wiedergegeben. Die in 7 als Segment 1 dargestellte Bildfolge zeigt den Mund mit neutralem Gesichtsausdruck, d. h. es handelt sich um Daten aus der ersten Datenbank 1. Die weiteren Segmente 2 bis 5 zeigen Mundabbildungen mit einem lächelnden Gesichtsausdruck, d. h. es handelt sich um Daten aus der zweiten Datenbank 2. Im dargestellten Beispiel wurde durch die Gesichtsausdrucksanforderung, die über die Eingangsdaten zugeführt wird, ein Wechsel von neutralem Gesichtsausdruck in einen lächelnden Gesichtsausdruck beim Aussprechen des Phonems „m” angefordert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2010-250761 A [0003]
    • WO 2008/156437 A1 [0003]
  • Zitierte Nicht-Patentliteratur
    • Samuel Kadoury, „Face detection using locally linear embedding”, November 2005 [0016]

Claims (10)

  1. Verfahren zur Erzeugung einer fotorealistischen Gesichtsanimation (15), die zu einer Sprachausgabe passt, wobei aus einer ersten Datenbank (1), die eine Vielzahl von Visemen (vi) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen eines Gesichts aufweist und für jedes Phonem der Sprachausgabe wenigstens ein zugeordnetes Visem beinhaltet, während der Sprachausgabe fortlaufend ein jeweils einem zu sprechenden Phonem zugeordnetes Visem ausgewählt und visuell ausgegeben wird, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (vi) mit einem ersten Gesichtsausdruck aufweist, eine zweite Datenbank (2) mit Visemen (vj) aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts mit einem zweiten Gesichtsausdruck vorgesehen ist, wobei sich der zweite Gesichtsausdruck vom ersten Gesichtsausdruck unterscheidet, Eingangsdaten zur Auswahl eines gewünschten Gesichtsausdrucks der Gesichtsanimation (15) ausgewertet werden und, wenn die Eingangsdaten einen Übergang der Gesichtsanimation (15) von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, ein oder mehrere Viseme (vj) aus der zweiten Datenbank (2) ausgewählt und visuell ausgegeben werden, wobei aus der zweiten Datenbank (2) wenigstens ein Visem (vj) mit der höchsten Ähnlichkeit zu einem zuvor visuell ausgegebenen Visem (vi) der ersten Datenbank (1) ausgewählt wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine erste Übergangsmatrix (40) vorgesehen ist, die Übergangswahrscheinlichkeiten
    Figure 00210001
    für den Übergang vom ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck für alle Kombinationen der Viseme (vj) der ersten Datenbank (1) mit den Visemen (vj) der zweiten Datenbank (2) aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem ersten Gesichtsausdruck auf den zweiten Gesichtsausdruck verlangen, aus der zweiten Datenbank (2) wenigstens ein Visem (vj) mit der höchsten Übergangswahrscheinlichkeit
    Figure 00210002
    ausgewählt wird.
  3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine zweite Übergangsmatrix (50) vorgesehen ist, die Übergangswahrscheinlichkeiten
    Figure 00210003
    für den Übergang vom zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck für alle Kombinationen der Viseme (vj) der zweiten Datenbank (2) mit den Visemen (vi) der ersten Datenbank (1) aufweist, wobei, wenn die Eingangsdaten einen Übergang der Gesichtsanimation von dem zweiten Gesichtsausdruck auf den ersten Gesichtsausdruck verlangen, aus der ersten Datenbank (1) wenigstens ein Visem (vi) mit der höchsten Übergangswahrscheinlichkeit
    Figure 00210004
    ausgewählt wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die erste und/oder die zweite Übergangsmatrix (40, 50) anhand von euklidischen Distanzen der nach vorgegebenen Merkmalen charakterisierten Viseme (vi, vj) in einem jeweiligen Charakterisierungsraum bestimmt werden.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Charakterisierungsraum geometrische Maße von einem, mehreren oder allen Teilen des Gesichts charakterisiert, und/oder der Charakterisierungsraum der PCA-Raum oder LLE-Raum ist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die erste Datenbank (1) Viseme (vi) beim Sprechen mit neutralem Gesichtsausdruck aufweist und die zweite Datenbank (2) Viseme (vj) beim Sprechen mit nichtneutralem Gesichtsausdruck aufweist.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine dritte Datenbank mit Visemen aus zuvor aufgezeichneten Videosequenzen von einem, mehreren oder allen Teilen des Gesichts vorgesehen ist, wobei die dritte Datenbank Viseme mit nicht-neutralem Gesichtsausdruck ohne Sprechen aufweist.
  8. Einrichtung (10) zur automatischen Erzeugung einer fotorealistischen Gesichtsanimation mit Hilfe eines Computers, der eingerichtet ist zur Ausführung eines Verfahrens nach einem der vorhergehenden Ansprüche.
  9. Computerprogramm mit Programmcodemitteln, eingerichtet zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7, wenn das Computerprogramm auf einem Rechner ausgeführt wird.
  10. Computerprogramm mit Programmcodemitteln, die auf einem maschinenlesbaren Träger gespeichert sind, eingerichtet zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7, wenn das Computerprogramm auf einem Rechner ausgeführt wird.
DE201110107295 2011-07-06 2011-07-06 Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation Ceased DE102011107295A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE201110107295 DE102011107295A1 (de) 2011-07-06 2011-07-06 Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201110107295 DE102011107295A1 (de) 2011-07-06 2011-07-06 Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation

Publications (1)

Publication Number Publication Date
DE102011107295A1 true DE102011107295A1 (de) 2013-01-10

Family

ID=47426650

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201110107295 Ceased DE102011107295A1 (de) 2011-07-06 2011-07-06 Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation

Country Status (1)

Country Link
DE (1) DE102011107295A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682153B2 (en) 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US20040068408A1 (en) * 2002-10-07 2004-04-08 Qian Richard J. Generating animation from visual and audio input
WO2008156437A1 (en) 2006-04-10 2008-12-24 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
JP2010250761A (ja) 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム
US7961986B1 (en) * 2008-06-30 2011-06-14 Google Inc. Ranking of images and image labels

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20040068408A1 (en) * 2002-10-07 2004-04-08 Qian Richard J. Generating animation from visual and audio input
WO2008156437A1 (en) 2006-04-10 2008-12-24 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
US7961986B1 (en) * 2008-06-30 2011-06-14 Google Inc. Ranking of images and image labels
JP2010250761A (ja) 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANG, Y. [et al.]: Manifold based analysis of facial expression. Image Vision and Computing 24, 2006, S. 605-614. *
LIU, K. [et al.]: Optimization of an Image-Based Talking Head System. Eurasip Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 174192, S. 1-13. *
Samuel Kadoury, "Face detection using locally linear embedding", November 2005
VERMA, A. [et al.]: Animating Expressive Faces Across Languages. IEEE Trans. on Multimedia, Vol. 6, December 2004, S. 791-800. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682153B2 (en) 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech

Similar Documents

Publication Publication Date Title
DE102019001775B4 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
DE602005000896T2 (de) Sprachsegmentierung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69832663T2 (de) Verfahren zum Erstellen von photo-realistischen beweglichen Figuren
DE60105995T2 (de) Animation von personen
DE3687915T2 (de) Änderung von Gesichtsausdrücken in der Kinematographie.
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE60219548T2 (de) Verfahren und Vorrichtung zur Kodierung der Verformunginformation eines 3D Objektes
Zhou et al. An image-based visual speech animation system
DE102021206286A1 (de) Tiefer hierarchischer variational autocodierer
DE212020000467U1 (de) Vorrichtung, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
DE202017007534U1 (de) Multiskalige 3D-Textursynthese
EP3940692B1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE102011107295A1 (de) Verfahren, Einrichtung und Computerprogramm zur Erzeugung einer fotorealistischen Gesichtsanimation
DE60020234T2 (de) Verfahren und vorrichtung zur bildwiedergabe
US11461948B2 (en) System and method for voice driven lip syncing and head reenactment
DE69817550T2 (de) Verfahren zur sprachsynthese
DE102008057979B4 (de) Lerneinheit für ein Objekterkennungssystem und Objekterkennungssytem
DE102007039603A1 (de) Verfahren zum Synchronisieren von medialen Datenströmen
Han et al. A Keypoint Based Enhancement Method for Audio Driven Free View Talking Head Synthesis
DE69829947T2 (de) Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal
DE10334105B4 (de) Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle
DE102020102468B3 (de) Verfahren zur Steuerung einer Anzeigevorrichtung und Anzeigevorrichtung zur dynamischen Anzeige eines vordefinierten Textes

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final

Effective date: 20131126