DE60101540T2 - Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale - Google Patents

Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale Download PDF

Info

Publication number
DE60101540T2
DE60101540T2 DE60101540T DE60101540T DE60101540T2 DE 60101540 T2 DE60101540 T2 DE 60101540T2 DE 60101540 T DE60101540 T DE 60101540T DE 60101540 T DE60101540 T DE 60101540T DE 60101540 T2 DE60101540 T2 DE 60101540T2
Authority
DE
Germany
Prior art keywords
points
model
face
transformations
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60101540T
Other languages
English (en)
Other versions
DE60101540D1 (de
Inventor
G. Francini
C. Lande
S. Lepsoy
M. Quaglia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Publication of DE60101540D1 publication Critical patent/DE60101540D1/de
Application granted granted Critical
Publication of DE60101540T2 publication Critical patent/DE60101540T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Toys (AREA)

Description

  • Technisches Gebiet
  • Die Erfindung bezieht sich auf audiovisuelle oder Multimedia-Kommunikationssysteme und betrifft speziell ein Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Steuerung durch ein Audiosignal.
  • Stand der Technik
  • Es wächst das Interesse an Techniken der Integration natürlicher oder synthetischer Objekte bei der Entwicklung von Multimedia-Anwendungen zur Erleichterung und Erhöhung der Wechselbeziehung zwischen Anwender und Anwendung, und in diesem Zusammenhang wird die Verwendung anthropomorpher Modelle in Betracht gezogen, die dazu bestimmt sind, die Mensch-Maschine-Beziehung zu erleichtern. Dieses Interesse ist kürzlich auch durch internationale Standardisierungsorganisationen anerkannt worden. Der ISO/IEC-Standard 14496 "Generic Coding of Audio-Visual Objects", "generische Kodierung von audio-visuellen Objekten" (im allgemeinen bekannt als "Standard MPEG-4", wie er auch im folgenden genannt wird) zielt unter anderem darauf, ein allgemeines Rahmenwerk für solche Anwendungen festzulegen.
  • Bei solchen Anwendungen werden allgemein und unabhängig von den spezifischen Lösungen, die im Standard MPEG-4 angegeben sind, anthropomorphe Modelle dazu geschaffen, weitere Informationsflüsse zu unterstützen, und diese Modelle werden als Objekte angesehen, die animiert werden können, wobei die Animation durch Audiosignale wie z. B. Sprache gesteuert wird. Diese Signale können auch als phonetische Sequenzen angesehen werden, nämlich als Folge von "Phonemen", wobei ein "Phonem" die kleinste linguistische Einheit ist (entsprechend der Idee eines unterscheidenden Lauts in einer Sprache).
  • In diesem Fall müssen für die künstlichen Gesichter, damit sie die typischen Gesichtsausdrücke des Sprechens annehmen, Animationssysteme entwickelt werden, die die Geometrie und die Erscheinungsform des mit der Stimme synchronisierten Modells deformieren. Das schließliche Ergebnis, auf das die Entwicklung zuläuft, ist ein sprechender Kopf oder ein sprechendes Gesicht, der bzw. das so natürlich als möglich erscheint.
  • Die Anwendungszusammenhänge von animierten Modellen dieser Art können von Internetanwendungen wie Begrüßungs- oder Online-Hilfe-Ansagen bis zu kooperativen Arbeitsanwendungen (beispielsweise E-Mail-Browsers), zu professionellen Anwendungen wie die Erzeugung von Kino- oder Fernseh-Post-Produktions-Effekten, zu Videospielen usw. reichen.
  • Die üblicherweise verwendeten Modelle menschlicher Gesichter sind im allgemeinen auf der Basis einer geometrischen Repräsentation hergestellt, die aus einer dreidimensionalen Gitterstruktur besteht (bekannt als "Wire-Frame", Draht- oder Gitterrahmen). Die Animation beruht auf der aufeinanderfolgenden Anwendung geeigneter Verformungen (Transformationen) der Polygone, die den Gitterrahmen (oder eine jeweilige Untergruppe) bilden, um den gewünschten Effekt zu reproduzieren, nämlich in diesem speziellen Fall die Reproduktion von auf das Sprechen bezogenen Bewegungen.
  • Die für diesen Zweck vom Standard MPEG-4 vorgesehene Lösung nennt die Verwendung einer Gruppe von Gesichts-Animations-Parametern, die hinsichtlich des Modells unabhängig definiert sind, um die interoperative Betriebsart des Systems sicherzustellen. Diese Gruppe von Parametern ist in drei Ebenen organisiert: Die höchste Ebene besteht aus sogenannten "Visemen" und "Expressionen", während die unterste Ebene aus den elementaren Verformungen besteht, die die allgemeine Gesichtshaltung ermöglichen. Gemäß dem Standard MPEG-4 ist ein Visem das visuelle Äquivalent eines oder mehrerer gleicher Phoneme.
  • Im Rahmen der Erfindung wird der Ausdruck Visem dazu verwendet, eine Form des Gesichts anzugeben, die der Abgabe eines Phonems zugeordnet ist und erhalten wird mit Hilfe der Anwendung von MPEG-4-Parametern der niedrigen Ebene, und die sich deshalb nicht auf MPEG-4-Parameter der hohen Ebene bezieht.
  • In der Literatur sind verschiedene Systeme zum Animieren von Gesichtsmodellen, die durch die Stimme gesteuert werden, bekannt. Als Beispiele können die folgenden Dokumente genannt werden: "Converting Speech into Lip Movements: A Multimedia Telephone for Hard of Hearing People" von F. Lavagetto, IEEE Transactions of Rehabilitation Engineering, Band 3, Nr. 1, März 1995; DIST, Genua Universität "Description of Algorithms for Speech-to-Facial Movements Transformation", ACTS "SPLIT" Projekt, November 1995; TUB, Technische Universität Berlin, "Analysis and Synthesis of Visual Speech Movements", ACTS "SPLTI" Projekt, November 1995. Diese Systeme implementieren jedoch nicht die nachgiebigen Parameter des Standards MPEG-4 und sind aus diesem Grund nicht sehr flexibel.
  • Ein Animationsverfahren mit dem nachgiebigen Standard MPEG-4 ist in der italienischen Patentanmeldung Nr. TO 98A000842 der Anmelderin beschrieben, diese Anmeldung entspricht der EP 0993197A. Dieses Verfahren ordnet Viseme, die aus einer Gruppe ausgewählt sind, die vom Standard MPEG-4 definierte Viseme und spezifische Viseme einer speziellen Sprache umfassen, Phonemen oder Gruppen von Phonemen zu. Gemäß diesem Verfahren sind die Viseme in eine Gruppe von Makroparametern aufgeteilt, die die Form und/oder Position des Lippenbereichs und der Mundöffnung des Modells charakterisieren, und sind bestimmten Intensitätswerten zugeordnet, die die Abweichung von einer neutralen Position angeben und eine angemessene Natürlichkeit des animierten Modells sichern. Außerdem sind die Makroparameter in die Gesichtsanimationsparameter der niedrigen Ebene, die im Standard MPEG-4 definiert sind, geteilt, denen ebenfalls mit den Makroparameterwerten verbundene Intensitätswerte zugeordnet sind, was eine angemessen Natürlichkeit des animierten Modells sichert.
  • Dieses Verfahren kann für verschiedene Sprachen verwendet werden und sichert eine angemessene Natürlichkeit des resultierenden künstlichen Modells. Jedoch basiert das Verfahren nicht auf einer Bewegungsdatenanalyse, die am Gesicht eines realen Sprechers abgenommen wird. Aus diesem Grund ist das Ergebnis der Animation nicht sehr realistisch oder natürlich.
  • Beschreibung der Erfindung
  • Das erfindungsgemäße Verfahren ist nicht sprachenabhängig und macht das animierte künstliche Modell natürlicher aufgrund der Tatsache, daß es auf einer simultanen Analyse der Stimme und der Bewegungen des Gesichts, die von realen Sprechern abgenommen wurden, basiert. Das erfindungsgemäße Verfahren ist in den nachfolgenden Ansprüchen angegeben.
  • In den nachfolgend genannten Dokumenten wird die Verwendung sogenannter "Aktivformmodelle" (Activ Shape Models oder ASM, eine Abkürzung, die auch im Folgenden verwendet wird) vorgeschlagen zum Animieren eines Gesichtsmodells, das durch gesprochene Sprache geführt wird: "Conversion of articulatory parameters into activ shape model coefficients for lip motion representation and synthesis", S. Lepsøy und S. Curinga, Image Communication 13 (1998), Seiten 209 bis 225; und "Active shape models for lip motion synthesis", S. Lepsøy, Proceedings of the International Workshop on Synthetic-Natural Hybrid Coding and Three Dimensional Imaging (IWSNHC3DI 97), Rhodos (Griechenland), September 1997, Seiten 200 bis 203. Diese Dokumente befassen sich speziell mit dem Problem der Konversion von Bewegungswiedergabe. Das Aktivformmodell-Verfahren ist eine Repräsentationstechnik zum Verteilen von Punkten im Raum, das speziell nützlich ist zum Beschreiben von Gesichtern und anderen verformbaren Objekten mit Hilfe einiger weniger Parameter. Diese Aktivformmodelle erlauben somit eine Reduktion der Datenmenge. Dies ist die Eigenschaft, die für den Zweck dieser Erfindung ausgenützt wird.
  • Weitere Einzelheiten über die Theorie der Aktivformmodelle können beispielsweise gefunden werden im Dokument von T. F. Cootes, D. Cooper, C. J. Taylor und J. Graham "Active Shape Models – Their Training and Application", Computer Vision and Image Understanding, Band 61, Nr. 1, Januar 1995, Seiten 38 bis 59.
  • Kurze Angabe der Zeichnungen
  • Zur weiteren Klärung wird auf die folgenden Zeichnungen Bezug genommen. Es zeigen:
  • 1 drei Abbildungen eines Modells eines menschlichen Gesichts: links nur ein Gitterrahmenbild; in der Mitte ein Bild mit homogener Färbung und Schattierung; und rechts ein Bild mit hinzugefügter Struktur;
  • 2 ein Ablaufdiagramm, das die Analysevorgänge veranschaulicht, die die sprachenspezifischen phonetischen Daten und die jeweiligen Bewegungen des menschlichen Gesichts einander zuordnen;
  • 3 ein Beispiel einer phonetischen Ausrichtung;
  • 4 die Gruppe von Markierstellen, die während einer Sitzung mit generischer Bewegungsabnahme verwendet werden;
  • 5 ein Ablaufdiagramm, das die Synthesevorgänge veranschaulicht, die den phonetischen Fluß eines Texts, der zum Steuern der naturgetreuen Gesichtsmodellanimation verwendet wird, konvertieren;
  • 6 ein Beispiel der Modellanimation.
  • Bestes Verfahren zum Ausführen der Erfindung
  • Vor der Beschreibung der Erfindung im einzelnen müssen die folgenden allgemeinen Vorbemerkungen gemacht werden.
  • Die Animation wird gesteuert durch phonetische Sequenzen, wobei der Zeitpunkt, zu dem das einzelne Phonem geäußert wird, bekannt ist. Die Erfindung beschreibt ein Animationsverfahren, das nicht sprachenabhängig ist: Dies bedeutet, daß für jede Sprache, für die die Sprechbewegung reproduziert werden soll, die zu verfolgende Sequenz der Operationen gleich ist. Die Erfindung ermöglicht die Zuordnung der jeweiligen Bewegungen des menschlichen Gesichts zu den phonetischen Daten, die für eine Sprache spezifisch ist. Solche Bewegungen werden mit Hilfe statistischer Analysen erhalten, wobei sehr realistische Animationseffekte geschaffen werden. In der Praxis und im Fall eines Modells, das auf der Basis eines Gitterrahmens erhalten wird, besteht die Animation darin, daß man an den Scheitel- oder Eckpunkten des Gitterrahmens eine Gruppe von Bewegungen anwendet, die als auf ein Basismodell bezogene Bewegungen erzeugt werden, das ein ausdrucksloses oder neutrales Gesicht, wie es im Standard MPEG-4 definiert ist, wiedergibt. Diese relativen Bewegungen sind das Ergebnis einer linearen Kombination bestimmter Grundvektoren, die als Auto-Transformationen bezeichnet werden. Ein Teil der Analyse, wie sie nachfolgend beschrieben wird, dient dazu, eine Gruppe solcher Vektoren zu finden. Ein anderer Teil wird dazu verwendet, jedem Phonem eine Transformation zuzuordnen, die als Animationsparameter der niedrigen Ebene ausgedrückt wird – die sogenannten FAPs (Facial Animation Parameters, Gesichtsanimationsparameter), die im Standard MPEG-4 definiert sind.
  • Die Animations- oder Synthesephase besteht dann darin, die Folge von Visemen, die den Phonemen im speziellen antreibenden Text entspricht, in die Folge von Bewegungen der Eckpunkte des Gitterrahmens zu transformieren, auf dem das Modell beruht.
  • Zur Erleichterung des Verständnisses der folgenden Beschreibung ist in 1 das Modell eines menschlichen Gesichts gezeigt, das auf der Basis einer Gitterrahmenstruktur geschaffen ist. Nummer 1 bezeichnet die Gitterrahmenstruktur, Nummer 2 bezieht sich auf die Gewebestruktur (also auf eine Oberfläche, die den Gitterrahmen füllt und durch die Eck- oder Scheitelpunkte des Gitterrahmens verläuft) und Nummer 3 bezeichnet das mit dem Abbild einer realen Person vervollständigte Modell. Das Verfahren der Schaffung eines Modells auf der Basis des Gitterrahmens ist nicht Teil dieser Erfindung und wird im folgenden nicht weiter beschrieben. Ein Beispiel des auf diese Schaffung bezogenen Prozesses ist durch die Anmelderin in der italienischen Patentanmeldung Nr. TO 98A000828 beschrieben, die der EP 0 991 023 A entspricht.
  • 2 veranschaulicht im einzelnen die analytische Phase, die sich auf das erfindungsgemäße Verfahren bezieht.
  • Ein Sprecher 4 gibt in einer oder mehreren Sitzungen die Ausdrücke oder Sprachpartien (Sätze, Sprechstrecken) einer Gruppe von Trainings-Sprachpartien ab, und während die Person spricht, werden sowohl die Stimme als auch die Gesichts bewegungen mit Hilfe einer geeigneten Schallaufnahmevorrichtung 5 und einer Fernsehkamera 6 aufgezeichnet. Gleichzeitig wird eine phonetische Transkription der abgegebenen Texte durchgeführt, um die im Text vorhandenen Phoneme zu erhalten.
  • Die Sprachaufnahmevorrichtungen können analoge oder digitale Vorrichtungen sein, die eine angemessene Qualität liefern, um die nachfolgende phonetische Ausrichtung oder Zuordnung zu ermöglichen, also um die Identifikation der Zeitpunkte zu ermöglichen, in der die verschiedenen Phoneme abgegeben werden. Dies bedeutet, daß die Zeitachse in Intervalle eingeteilt ist, und zwar so, daß jedes Intervall der Abgabe eines bestimmten Phonems entspricht (Schritt "Audiosegmentierung" in 2). Jedem Intervall ist ein Zeitpunkt zugeordnet, zu dem das Phonem dem kleinsten Einfluß der benachbarten Phoneme unterworfen ist. Wenn im folgenden auf einen mit einem Phonem verbunden Zeitpunkt Bezug genommen wird, wird dieser oben beschriebene Zeitpunkt gemeint.
  • Es wird auf 3 und auf die nachstehende Tabelle 1 Bezug genommen, die sich beide auf die phonetische Analyse und die phonetische Transkription, mit entsprechender Zeitsteuerung, des italienischen Satzes "Un trucchetto geniale gli valse l'assoluzione" beziehen, um das Konzept der phonetischen Zuordnung zu klären. Tabelle 1
    # 0,014000
    u 0,077938
    n 0,16625
    t 0,216313
    r 0,246125
    u 0,29625
    k: 0,431375
    'e 0,521872
    t: 0,61925
    o 0,695438
    Dg 0,749188
    e 0,811375
    n 0,858938
    j 0,920625
    'a 1,054101
    l 1,095313
    e 1,153359
    Gl 1,254
    i 1,288125
    v 1,339656
    'a 1,430313
    l 1,464
    s 1,582188
    e 1,615688
    l 1,654813
    a 1,712982
    s: 1,84
    o 1,873063
    l 1,899938
    u 1,966375
    Ts: 2,155938
    j 2,239875
    'o 2,36425
    n 2,416875
    e 2,606188
    @ 2,6175
  • Sprache und Bewegung werden in synchronisierter Weise aufgenommen. Folglich liefert die phonetische Zuordnung die Information darüber, welches Phonem in jedem Rahmen abgegeben wurde. Diese Information ermöglicht die Abschätzung eines geometrischen Äquivalents des Gesichts für jedes Phonem des Alphabets.
  • Wiederum unter Bezugnahme auf 2 und bei Betrachtung des Aufzeichnens der Gesichtsbewegungen, wird dieses Aufzeichnen vorteilhafterweise erhalten mit Hilfe der "Bewegungsverfolgung"("motion tracking")-Technik, die eine sehr plausible Animation erlaubt, die auf der Prüfung von Bewegungen einer Gruppe von Markierstellen beruht, die an signifikanten Gesichtspunkten angeordnet sind, beispielsweise an den Augenspitzen und den Rändern der Lippen und des Gesichts. Diese Markierstellen sind in 4 mit der Bezugszahl 7 bezeichnet. Die für die Markierstellen gewählten Punkte werden als "Marksteine" (landmarks) oder "charakteristische Punkte" (feature points) bezeichnet. Sie sind allgemein kleine Objekte, deren spezielle Position mit Hilfe von optischen oder magnetischen Vorrichtungen festgestellt werden kann. Die Bewegungsverfolgungstechnik ist in diesem Sektor gut bekannt und braucht hier nicht weiter beschrieben zu werden. Eine bestimmte Anzahl von Sprachpartien, zumindest einhundert, muß für jede Sprache aufgenommen werden, um eine signifikante Datengruppe zu erhalten. Folglich sollte aufgrund der Beschränkungen der internen Speicherkapazität der Bewegungsverfolgungsvorrichtung und aufgrund von Fehlern beim Lesen der Sprachpartien das Aufzeichnen vorzugsweise in mehreren Sitzungen durchgeführt werden, von denen jede einer oder mehreren Sprachpartien gewidmet ist.
  • Die beim Verfolgen der Bewegung der Markierstellen 7 erhalten Daten bestehen aus einer Gruppe von Koordinaten, die sich aus verschiedenen Gründen nicht für die unmittelbare Analyse eignen, da sich Unterschiede in der Position des Subjekts ergeben, wenn verschiedene Photositzungen durchgeführt werden. Außerdem müssen die unvermeidlichen Kopfbewegungen aus den Daten entfernt werden. Es ist das Ziel, die auf eine neutrale Position bezogenen Bewegungen des Gesichts zu modellieren und nicht die absoluten Bewegungen. Es hängen auch Aspekte von den verwendeten Vorrichtungen ab. In den aufgenommenen Daten können Fehler vorkommen, wie plötzliche Bewegungen und das Verschwinden bestimmter Markierstellen für eine bestimmte Zeit. Diese Fehler erfordern eine Korrekturphase, um verläßliche Daten zu erhalten. Anders ausgedrückt, bedarf es einer Korrektur und Normalisierung der Rohdaten.
  • Aus diesem Grund muß zu Beginn jeder Aufzeichnung das Gesicht des Sprechers soweit als möglich die im Standard MPEG-4 definierte neutrale Position annehmen. Die entsprechende Normalisierung (oder Säuberung der Trainingsdaten) besteht darin, eine Gruppe von Punkten, die Markierstellen 7 entsprechen, mit den entsprechenden charakteristischen Punkten eines allgemeinen Modells eines neutralen Gesichts in Übereinstimmung zu bringen. Die räumliche Orientierung, die Position und die Dimension dieses Gesichtsmodells sind bekannt. Die Parameter dieser Transformation werden auf der Basis des ersten Bildrahmens bei der Aufzeichnung berechnet. Die Bezugnahme auf einen Rahmen in der Folge ist notwendig, da die Markierstellen 7 bei verschiedenen Aufzeichnungen nicht in der selben Position sein müssen. Diese Operation wird für jede aufgenommene Sequenz durchgeführt.
  • In der Praxis liegt eine bestimmte Anzahl der für die Aufzeichnung verwendeten Markierstellen, beispielsweise drei, auf einem steifen Objekt, das an der Stirn angebracht wird (der in 4 mit der Bezugszahl 8 bezeichnete Gegenstand), und diese Markierstellen werden dazu verwendet, die unvermeidlichen Bewegungen des Gesamtkopfs des Subjekts während der Aufzeichnung zu Null zu machen. Als Beispiel kann man zum Zweck der Einfachheit annehmen, daß die ersten drei Markierstellen verwendet werden. Folglich werden die Gruppen von Koordinaten für alle Rahmen, die dem ersten Rahmen folgen, so verdreht und verschoben, daß die ersten drei Markierstellen mit den entsprechenden Markierstellen im ersten Rahmen übereinstimmen. Nach dieser Operation werden die ersten drei Markierstellen nicht mehr weiter verwendet. Außerdem müssen die Positionen der charakteristischen Punkte auf dem realen Gesicht jeder Photographie im höchstmöglichen Umfang mit den Positionen des als neutrales Gesicht gewählten Modells übereinstimmen, und dies bringt die Größenanpassung des aufgenommenen Bilds mit sich, um dieses an die Dimensionen des Modells anzupassen, sowie dessen Translation. Wie erwähnt, werden für diese Phase die ersten drei Markierstellen nicht mehr verwendet.
  • Um eine größere Menge von Bewegungsdaten zu behandeln (und, bei einigen Ausführungsformen, auch zum Reduzieren der zu übertragenden Datenmenge) muß eine komprimierte Wiedergabe der Bewegungen gefunden werden. Diese Kompression nützt die Tatsache aus, daß die Bewegung in verschiedenen Bereichen des Gesichts korreliert ist: Als Folge hiervon wird gemäß der Erfindung die numerische Repräsentation der Bewegungen komprimiert und, wie oben angegeben wurde, als Kombinationen einiger Basisvektoren ausgedrückt, die Auto-Transformationen genannt werden. Die Auto-Transformationen müssen die bestmögliche Annäherung an Gesichtsbewegungen ermöglichen, die in der aufgezeichneten und transformierten Sequenz enthalten sind. Es wird betont, daß die hier behandelten Bewegungen sich auf eine neutrale Pose beziehen. Das Ziel der Kompression wird erreicht mit Hilfe der prinzipiellen Komponenten Analyse (PCA), einem Bestandteil von ASM. Die aus dieser Analyse resultierenden Hauptkomponenten sind identisch den Auto-Transformationen und haben in der Erfindung die selbe Bedeutung.
  • Die Gesichtspose (d. i. die Positionen der charakteristischen Punkte), die während des Sprechens angenommen wird, kann mit einer gewissen Genauigkeit als lineare Kombination von Auto-Transformationen angenähert werden. Diese linearen Kombinationen bieten eine Wiedergabe von Visemen, die ausgedrückt wird als Positionen von charakteristischen Punkten (mit Hilfe von Parametern der unteren Ebene). Die Koeffizienten der linearen Kombination werden als ASM-Parameter bezeichnet. Zusammengefaßt dargestellt, ist ein Vektor x, der die Koordinaten der charakteristischen Punkte enthält, die resultierende Transformation in Bezug auf ein neutrales Gesicht, mit Koordinaten in einem Vektor x, mit Hilfe der Summe x = x + Pν, wobei P eine Matrix ist, die die Auto-Transformationen als Spalten enthält, und ν ein Vektor mit ASM-Parametern ist.
  • Das ASM-Modell ermöglicht den Ausdruck der vom Gesicht angenommenen Pose während der Bewegungsabtastung mit Hilfe eines Vektors, der aus wenigen Parametern besteht. Zum Beispiel können die Koordinaten von 41 Markierstellen mit zufriedenstellenden Ergebnissen unter Verwendung von 10 ASM-Parametern angenähert werden. Außerdem unterdrücken diese Operationen eine Rauschkomponente, die dem Aquisitionssystem innewohnt, die also nicht mit den Gesichtsbewegungen korreliert ist.
  • Nach dem Sammeln der Sprech- und Bewegungsinformationen folgt die Phase der Berechnung der Viseme.
  • Das Ziel dieser Phase ist es, einen Vektor von ASM-Parametern zu bestimmen, der jedem einzelnen Phonem zugeordnet ist, nämlich das Visem. Das Grundkriterium ist es, eine Synthese (nämlich eine Animation) zu erzeugen, die die aufgezeichnete Bewegung am besten annähert. Es muß betont werden, daß dieses Kriterium in der Erfindung dazu verwendet wird, die in der Synthesephase verwendeten Parameter zu schätzen; dies bedeutet, daß man die Bewegung jeder beliebigen Sprachpartie reproduzieren kann und nicht nur von Sprachpartien, die zu der Gruppe von Sprachpartien gehören, die während der Bewegungsabtastung aufgenommen worden sind. Wie erwähnt, wird die Animation durch Phoneme geführt, die den jeweiligen Zeitpunkten zugeordnet sind. Eine sehr diskontinuierliche Bewegungswiedergabe entsprechend den Zeitpunkten, die den Phonemen zugeordnet sind, wäre die Folge, wenn die den einzelnen Phonemen eines Animationssteuerungstests zugeordneten Viseme direkt verwendet würden. In der Praxis ist die Bewegung des Gesichts eine kontinuierliche Erscheinung und folglich müssen aneinandergrenzende Viseme interpoliert werden, um eine stetige (und folglich natürlichere) Bewegungswiedergabe zu schaffen.
  • Die Interpolation ist eine zu berechnende konvexe Kombination von Visemen, bei der die Koeffizienten der Kombination (Gewichtungen) gemäß der Zeit definiert werden. Man beachte, daß eine lineare Kombination als konvex definiert ist, wenn alle Koeffizienten sich im [0,1]-Intervall befinden und ihre Summe gleich 1 ist. Die Interpolationskoeffizienten haben im allgemeinen einen Wert ungleich null nur in einem kleinen Intervall, das den Zeitpunkt der Lautabgabe umgibt, in dem der Wert des Koeffizienten das Maximum erreicht. Im Fall, in dem eine Interpolation, die durch die Viseme läuft, gefordert ist (Bilden von Interpolationsknoten), müssen im Zeitpunkt eines bestimmten Phonems alle Koeffizienten gleich null sein mit Ausnahme des Koeffizienten dieses spezifischen Visems, das gleich eins sein muß.
  • Ein Beispiel für eine Funktion, die für die Koeffizienten verwendet werden kann, ist folgende:
    Figure 00140001
    wobei tn der Zeitpunkt der Abgabe des n-ten Phonems ist.
  • Die im folgenden beschriebenen Operationen werden dazu verwendet, das Annäherungskriterium der aufgezeichneten Bewegung mit der künstlichen Bewegung in Beziehung zu setzen. Die Visemvektoren können in Zeilen gruppiert werden, die eine Matrix V bilden. Die Koeffizienten der konvexen Kombination können ihrerseits in einem Zeilenvektor c gruppiert werden. Die konvexe Kombination der Viseme wird folglich gebildet durch das Produkt cV. Der Vektor der Koeffizienten ist eine Funktion der Zeit und es kann eine Matrix C gebildet werden, in der jede Zeile die Koeffizienten eines Zeitpunkts enthält. Für die Analyse werden die Zeitpunkte gewählt, für die Bewegungsverfolgungsdaten existieren. Das Produkt CV enthält Zeilen von ASM-Vektoren, die die in den Verfolgungsdaten enthaltene natürliche Bewegung annähern. Der Zweck dieses Schrittes ist es, die Elemente in der Matrix V zu bestimmen, die die Viseme enthalten, und zwar so, daß die Differenz zwischen der natürlichen Bewegung (der der beobachteten Rahmen) und der künstlichen Bewegung minimiert wird. Vorteilhafterweise wird der mittlere quadratische Abstand zwischen den Zeilen des Produkts CV und den ASM Vektoren, die die aufgezeichnete Bewegung wiedergeben, minimiert, wie es durch die Regel von Euclid definiert ist.
  • Nach dem Berechnen der Viseme besteht der folgende Schritt aus dem Übergang von der komprimierten Darstellung, die mit Hilfe der oben beschriebenen Operationen erzielt wird, zu einer Position im Raum der charakteristischen Punkte, die im Standard MPEG-4 definiert ist. Davon ausgehend, daß die berechneten Viseme Vektoren sind, die ASM-Koeffizienten enthalten, kann die Konversion erhalten werden mit Hilfe eines einfachen Matrixprodukts, wie es in der Theorie des Aktivformmodells beschrieben ist. Ein die Transformation des charakteristischen Punkts enthaltender Vektor wird erhalten durch Multiplizieren der Autotransformationsmatrix mit dem ASM Vektor (als eine Spalte).
  • Die Gesichtsanimationsparameter auf einer niedrigeren Ebene geben ihrerseits die Position der auf ein ausdrucksloses Gesicht bezogenen charakteristischen Punkte an. Also folgt als nächstes die Translation der Viseme, die als Positionen von charakteristischen Punkten auf diesen Parametern der unteren Ebene wiedergegeben sind.
  • Nach der Durchführung der beschriebenen Operationen an allen Sprachpartien der Trainingsgruppe wird die Tabelle erstellt, die die Gesichtsanimationsparameter der niedrigen Ebene mit den Phonemen, die dann in der Synthesephase (oder Animationsphase) verwendet werden, verknüpft.
  • Hierzu wird auf das Diagramm von 5 Bezug genommen, das die Operationen veranschaulicht, die sich auf die Synthese oder Animation des Modells beziehen, ausgehend von einem gegebenen Steuerungstext.
  • "Synthese" bedeutet hier das Berechnen der Bewegungen für einen Gitterrahmen auf der Basis von phonetischen und zeitlichen Informationen, so daß die Transformationen mit zugeordneten Geräuschen synchronisiert sind und die Lippenbewegung mit großer Annäherung reproduzieren. Die Synthese ist folglich der Prozeß, der eine Folge von Visemen in eine Folge von Gitterkoordinaten umwandelt, die das zu animierende Gesicht wiedergeben. Die Synthese basiert auf der entsprechenden Tabelle zwischen den Phonemen und den MPEG-4-FAPs (Gesichtsanimationsparametern)niedriger Ebene, die aus dem Analyseprozeß resultieren. Der Animationsprozeß nimmt also als Signaleingänge den zu animierenden Gitterrahmen, die in der zu reproduzierenden Sprachpartie enthaltenen Phoneme und die mi/FAPs-Tabelle der niedrigen Ebene. Der Gitterrahmen wird spezifiziert durch eine Gruppe von Punkten im Raum, durch eine Gruppe von Polygonen, die die genannten Punkte als Eckpunkte verwenden, und durch Informationen, die der Erscheinung der Oberfläche innewohnen, wie Farbe und Gewebestruktur.
  • Zum Reproduzieren eines gegebenen Steuersignals (im allgemeinen einer Sprachpartie) muß zuerst die Sprachpartie als Folge von Phonemen umgeschrieben werden, von denen jedes mit dem Zeitpunkt etikettiert wird, zu dem es abgegeben wird, wie es beim Beispiel in Tabelle 1 gezeigt ist. Eine diskrete Folge von Visemen entspricht dieser diskreten Folge. Die Phonemfolge kann in unterschiedlicher Weise erhalten werden, entsprechend der Quelle der zu reproduzierenden Sprachpartie. Im Fall von künstlichem Ton erzeugt der Synthetisierer zusätzlich zur Erzeugung der Wellenform der gesprochenen Sprache die phonetische Transkription und die jeweilige Zeitreferenz. Im Fall von natürlicher gesprochener Sprache muß diese Information aus dem Audiosignal extrahiert werden. Diese Operation kann typischerweise auf zwei verschiedene Weisen durchgeführt werden in Abhängigkeit davon, ob die in der abgegebenen Sprachpartie enthaltenen Phoneme bekannt sind oder nicht. Der erste Fall wird bezeichnet als "phonetische Zuordnung" (oder Ausrichtung) (phonetic alignment) und der zweite Fall wird bezeichnet als "phonetische Erkennung" (phonetic recognition) und liefert im allgemeinen Ergebnisse niedrigerer Qualität. Diese Vorgehensweisen sind alle aus der Literatur bekannt und sind nicht Gegenstand dieser Erfindung.
  • Zur Sicherstellung der Natürlichkeit und Flüssigkeit der Bewegung des animierten Gesichtes bedarf es einer hohen Zahl von Bildern oder Bildrahmen pro Sekunde (beispielsweise wenigstens 16 Rahmen). Diese Zahl ist erheblich höher als die Anzahl der im treibenden Steuersignal enthaltenen Phoneme. Folglich müssen zahlreiche Zwischenbewegungen des Gesichts, die zwischen zwei aufeinanderfolgenden Phonemen enthalten sind, bestimmt werden, wie im einzelnen nachfolgend gezeigt wird.
  • Hinsichtlich der Erzeugung eines einzigen Bildrahmens wird betont, daß die Gesichtsanimationsparameter von den charakteristischen Punkten genommen werden. Aus diesem Grund muß bekannt sein, welche Eckpunkte im Gitterrahmen den betrachteten charakteristischen Punkten entsprechen. Diese Information wird mit Hilfe eines Verfahrens erhalten, das ähnlich dem in der analytischen Phase verwendeten Verfahren ist, nämlich durch Multiplizieren des auf die Primärkomponenten bezogenen Koeffizientenvektors mit der Primärkomponentenmatrix. Auf diese Weise werden FAPs in Bewegungen der Eckpunkte transformiert. Wird berücksichtigt, daß der Standard MPEG-4 festlegt, daß der Gitterrahmen eine vordefinierte räumliche Orientierung haben soll, ist die FAP Transformation in Bewegungen die Folge, wobei berücksichtigt wird, daß die FAPs in Maßeinheiten spezifiziert sind, die sich auf die Abmessung des Gesichts beziehen.
  • Das das Gesicht wiedergebende Modell umfaßt im allgemeinen eine Anzahl von Eck- oder Scheitelpunkten, die viel höher ist als die Anzahl der charakteristischen Punkte. Die Bewegung der charakteristischen Punkte muß extrapoliert werden, um eine definierte Bewegung aller Eckpunkte zu erhalten. Die Bewegung jedes nicht einem charakteristischen Punkt zugeordneten Eckpunkts ist eine konvexe Kombination der Bewegungen von charakteristischen Punkten. Die relativen Koeffizienten werden auf der Basis des Abstands zwischen dem zu bewegenden Eckpunkt und jedem der charakteristischen Punkte berechnet, und für diesen Zweck wird die Minimallänge des Abstands entlang den Bögen des Gitterrahmens, bekannt als Dijkstra'scher Abstand, verwendet (E. Dijkstra, "A note on two problems in connection with graphs", Numerische Mathematik, Band 1, Seiten 269–271, Springer Verlag, Berlin 1959). Der von einem charakteristischen Punkt auf einen Eckpunkt ausgeübte Einflußbeitrag ist umgekehrt proportional dem Dijkstra'schen Abstand zwischen zwei Punkten, zur n-ten Potenz. Diese Potenz wird bestimmt mit dem Ziel der Schaffung einer größeren Wichtigkeit für die charakteristischen Punkte nahe dem zu bewegenden Eckpunkt und ist unabhängig von der Abmessung des Gitterrahmens.
  • Die letztere Operation führt zu einer Repräsentation des Visems auf dem gesamten Gitterrahmen. Die Anwendung des oben beschriebenen Verfahrens bietet den Vorteil, daß alle charakteristischen Punkte auf alle Eckpunkte wirken und deshalb die Spezifizierung einer Untergruppe dieser Punkte für jeden zu bewegenden Eckpunkt nicht mehr erforderlich ist. Dies ermöglicht die Elimination einer Arbeitsphase, die andernfalls manuell ausgeführt werden muß und folglich extrem teuer ist, wenn man die große Zahl von Eckpunkten in den Gitterrahmen selbst im Fall von relativ einfachen Modellen berücksichtigt.
  • 6 zeigt, wie die den Phonemen a, m, p:, u (EURO-MPPA-Phonetiksymbole) der italienischen Sprache entsprechenden Viseme ausgedrückt werden, indem man die Struktur eines gesamten texturierten Gitterrahmens ändert.
  • Wie zuvor erwähnt, muß die zeitliche Evolution zum Synthetisieren einer Sprechstrecke in Betracht gezogen werden. Der Ausgangspunkt ist die Folge bekannter Viseme zu diskreten Zeitpunkten. Um eine variable oder nicht variable Bildrahmenfrequenz willkürlich zu verwenden, wird die Bewegung des Modells als zeitlich kontinuierliche Funktion wiedergegeben. Die Wiedergabe als zeitlich kontinuierliche Funktion wird erhalten durch die Interpolation der Viseme, die in ähnlicher Weise erzielt wird, wie es für die analytische Phase beschrieben wurde. Jedem Visem ist eine Größenanpassung zugeordnet, die als Koeffizient in einer konvexen Kombination wirkt; dieser Koeffizient ist eine kontinuierliche Funktion der Zeit und wird gemäß der Interpolationsroutine berechnet, die vorher in der analytischen Phase zum Berechnen der Viseme angewandt wurde. Aus Gründen der Effizienz wird die Berechnung vorzugsweise durch Interpolation durchgeführt und die Zahl der charakteristischen Punkte ist niedriger als die Zahl der Scheitelpunkte. Die kontinuierliche Repräsentation kann willkürlich abgetastet werden, um die einzelnen Rahmen zu erhalten, die in der Folge dargestellt und mit dem Ton synchronisiert eine Animation am Rechner reproduzieren.
  • Die hier gegebene Beschreibung wird als nicht begrenzendes Beispiel präsentiert und offensichtlich sind Variationen und Veränderungen innerhalb des Schutzumfangs der Erfindung möglich.

Claims (7)

  1. Verfahren zum Animieren eines künstlichen Modells eines menschlichen Gesichts unter Steuerung durch ein Audiosignal, umfassend eine analytische Phase, in der ein Alphabet von Visemen bestimmt wird, nämlich eine Gruppe von Informationen, die die Form des Gesichts eines Sprechers entsprechend den phonetischen Einheiten, die aus einer Gruppe von Audio-Trainingssignalen extrahiert sind, wiedergeben, und eine Synthesephase, in der das Audio-Steuersignal in eine Folge von phonetischen Einheiten umgewandelt wird, die jeweiligen Zeitinformationen zugeordnet sind, während die Folge der Viseme, die den phonetischen Einheiten der im Audio-Steuersignal enthaltenen Gruppe entsprechen, in der analytischen Phase bestimmt werden, und die zum Reproduzieren der Folge von Visemen erforderlichen Transformationen auf das Modell angewandt werden, dadurch gekennzeichnet, daß die analytische Phase ein Alphabet von Visemen liefert, die als Aktivformmodell-Parametervektoren bestimmt werden, denen die jeweiligen Transformationen des Modells, ausgedrückt als Parameter der Gesichtsanimation auf unterer Ebene in Übereinstimmung mit dem Standard ISO/IEC 14496, zugeordnet werden, wobei sowohl während der analytischen Phase als auch während der Synthesephase die Folgen von Visemen entsprechend den phonetischen Einheiten des Audio-Trainingssignals bzw. des Audio-Animationssteuersignals in kontinuierliche Bewegungswiedergaben mit Hilfe einer Viseminterpolation transformiert werden, die durchgeführt wird als konvexe Kombinationen der Viseme selbst, denen Kombinationskoeffizienten, die kontinuierliche Funktionen der Zeit sind, zugeordnet sind, wobei die in der Synthesephase geschaffenen Kombinationskoeffizienten die gleichen sind wie die für die Kombination der analytischen Phase verwendeten.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Koeffizienten der konvexen Kombinationen Funktionen der folgenden Art sind:
    Figure 00200001
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß man zum Animieren eines auf einem Gitterrahmen basierenden Modells diejenigen Eckpunkte des Gitterrahmens, die den charakteristischen Punkten des Modells entsprechen, auf deren Basis in der analytischen Phase Gesichtsanimationsparameter bestimmt werden, identifiziert und die Operationen der Viseminterpolation durchführt durch Anwenden von Transformationen auf die charakteristischen Punkte für jedes Visem.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß man für jede vom Modell in der Synthesephase einzunehmende Position die Transformationen nur auf diejenigen Eckpunkte des Gitterrahmens anwendet, die den charakteristischen Punkten entsprechen, und die Transformationen auf die übrigen Eckpunkte mit Hilfe einer konvexen Kombination der Transformationen, die man auf die den charakteristischen Punkten entsprechenden Eckpunkte des Gitterrahmens anwendet, erstreckt.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß man die Viseme in Koordinaten der charakteristischen Punkte des Gesichts des Sprechers konvertiert, gefolgt von einer Umwandlung dieser Koordinaten in die Gesichtsanimationsparameter der niedrigen Ebene, wie sie beschrieben sind im Standard ISO/IEC 14496.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß man die Gesichtsanimationsparameter der niedrigen Ebene, die die Koordinaten der charakteristischen Punkten wiedergeben, durch Analysieren der Bewegungen einer Gruppe von Mark erstellen (7), die die charakteristischen Punkte identifizieren, erhält.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß man die Daten, die die Koordinaten der charakteristischen Punkte des Gesichts wiedergeben, gemäß dem folgenden Verfahren normalisiert: – eine Untergruppe der Markierstellen wird einem steifen Objekt (8) zugeordnet, das an der Stirn des Sprechers angebracht wird; – das Gesicht des Sprechers wird zu Beginn der Aufzeichnung so positioniert, daß es eine Stellung einnimmt, die soweit als möglich der Stellung eines neutralen Gesichtsmodells entspricht, wie es im Standard ISO/IEC 14496 definiert ist, und es wird ein erster Rahmen des Gesichts in dieser neutralen Position erhalten; – für alle dem ersten Rahmen folgenden Rahmen werden die Koordinatengruppen so rotiert und querversetzt, daß die den Mark erstellen der Untergruppe entsprechenden Koordinaten mit den Koordinaten der Markierstellen der selben Untergruppe im ersten Rahmen zusammenfallen.
DE60101540T 2000-03-31 2001-03-09 Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale Expired - Lifetime DE60101540T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ITTO000303 2000-03-31
IT2000TO000303A IT1320002B1 (it) 2000-03-31 2000-03-31 Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
PCT/IT2001/000117 WO2001075805A1 (en) 2000-03-31 2001-03-09 Method of animating a synthesised model of a human face driven by an acoustic signal

Publications (2)

Publication Number Publication Date
DE60101540D1 DE60101540D1 (de) 2004-01-29
DE60101540T2 true DE60101540T2 (de) 2004-11-04

Family

ID=11457634

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60101540T Expired - Lifetime DE60101540T2 (de) 2000-03-31 2001-03-09 Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale

Country Status (7)

Country Link
US (1) US7123262B2 (de)
EP (1) EP1203352B1 (de)
JP (1) JP4913973B2 (de)
CA (1) CA2375350C (de)
DE (1) DE60101540T2 (de)
IT (1) IT1320002B1 (de)
WO (1) WO2001075805A1 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
CN1313979C (zh) * 2002-05-03 2007-05-02 三星电子株式会社 产生三维漫画的装置和方法
ITTO20020724A1 (it) * 2002-08-14 2004-02-15 Telecom Italia Lab Spa Procedimento e sistema per la trasmissione di messaggi su
US8421804B2 (en) 2005-02-16 2013-04-16 At&T Intellectual Property Ii, L.P. System and method of streaming 3-D wireframe animations
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
US7142107B2 (en) * 2004-05-27 2006-11-28 Lawrence Kates Wireless sensor unit
TW200540732A (en) * 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation
JP2006004158A (ja) * 2004-06-17 2006-01-05 Olympus Corp 画像処理プログラム、画像処理方法、画像処理装置及び記録媒体
GB2423905A (en) * 2005-03-03 2006-09-06 Sean Smith Animated messaging
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
US20080158230A1 (en) * 2006-12-29 2008-07-03 Pictureal Corp. Automatic facial animation using an image of a user
WO2008154622A1 (en) * 2007-06-12 2008-12-18 Myweather, Llc Presentation of personalized weather information by an animated presenter
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
US8180167B2 (en) * 2008-07-16 2012-05-15 Seiko Epson Corporation Model-based error resilience in data communication
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8194097B2 (en) * 2008-12-12 2012-06-05 Seiko Epson Corporation Virtual masking using rigid parametric modeling
CN101488346B (zh) * 2009-02-24 2011-11-02 深圳先进技术研究院 语音可视化系统及语音可视化方法
JP5178607B2 (ja) * 2009-03-31 2013-04-10 株式会社バンダイナムコゲームス プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置
JP5423379B2 (ja) * 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
TWI443601B (zh) * 2009-12-16 2014-07-01 Ind Tech Res Inst 擬真臉部動畫系統及其方法
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US9728203B2 (en) 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
TWI521469B (zh) * 2012-06-27 2016-02-11 Reallusion Inc Two - dimensional Roles Representation of Three - dimensional Action System and Method
US9113036B2 (en) 2013-07-17 2015-08-18 Ebay Inc. Methods, systems, and apparatus for providing video communications
US9600742B2 (en) * 2015-05-05 2017-03-21 Lucasfilm Entertainment Company Ltd. Determining control values of an animation model using performance capture
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US10586368B2 (en) 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
EP3664100A1 (de) * 2018-12-05 2020-06-10 Koninklijke Philips N.V. Zuordnung von nonverbalen kommunikationsinhalten zu verbalen kommunikationsinhalten
CN110399849B (zh) * 2019-07-30 2021-07-27 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
CN113592986B (zh) * 2021-01-14 2023-05-23 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN116309988A (zh) * 2023-02-09 2023-06-23 华南理工大学 一种基于音频驱动的三维人脸动画生成方法、装置及介质
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
AU3668095A (en) 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
FR2749420B1 (fr) * 1996-06-03 1998-10-02 Alfonsi Philippe Procede et dispositif de formation d'images animees d'un interlocuteur
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
JP2974655B1 (ja) * 1998-03-16 1999-11-10 株式会社エイ・ティ・アール人間情報通信研究所 アニメーションシステム
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing

Also Published As

Publication number Publication date
JP2003529861A (ja) 2003-10-07
WO2001075805A1 (en) 2001-10-11
JP4913973B2 (ja) 2012-04-11
CA2375350C (en) 2006-07-18
DE60101540D1 (de) 2004-01-29
ITTO20000303A1 (it) 2001-10-01
IT1320002B1 (it) 2003-11-12
CA2375350A1 (en) 2001-10-11
EP1203352B1 (de) 2003-12-17
ITTO20000303A0 (it) 2000-03-31
US7123262B2 (en) 2006-10-17
US20060012601A1 (en) 2006-01-19
EP1203352A1 (de) 2002-05-08

Similar Documents

Publication Publication Date Title
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
DE3687915T2 (de) Änderung von Gesichtsausdrücken in der Kinematographie.
Morishima et al. A media conversion from speech to facial image for intelligent man-machine interface
DE69716413T2 (de) Automatische synchronisierung von videobildsequenzen mit neuen tonspuren
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69932619T2 (de) Verfahren und system zum aufnehmen und repräsentieren von dreidimensionaler geometrie, farbe und schatten von animierten objekten
DE112013001461B4 (de) Modifizieren des Aussehens eines Teilnehmers während einer Videokonferenz
US6097381A (en) Method and apparatus for synthesizing realistic animations of a human speaking using a computer
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
JP2518683B2 (ja) 画像合成方法及びその装置
DE69922898T2 (de) Verfahren zur dreidimensionalen Gesichtsmodellerzeugung aus Gesichtsbildern
DE60105995T2 (de) Animation von personen
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
US7109993B2 (en) Method and system for the automatic computerized audio visual dubbing of movies
JPS62120179A (ja) 画像合成装置
JPH11514479A (ja) 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法
Zhou et al. An image-based visual speech animation system
CN116528019B (zh) 基于语音驱动和人脸自驱动的虚拟人视频合成方法
DE69331419T2 (de) Bilddatenverarbeitung
CN113850169B (zh) 一种基于图像分割和生成对抗网络的人脸属性迁移方法
CN113221840B (zh) 一种人像视频处理方法
JP2795084B2 (ja) 口形状画像合成方法及び装置
JPH11328440A (ja) アニメーションシステム

Legal Events

Date Code Title Description
8364 No opposition during term of opposition