-
Technisches
Gebiet
-
Die
Erfindung bezieht sich auf audiovisuelle oder Multimedia-Kommunikationssysteme
und betrifft speziell ein Verfahren zur Animation eines künstlichen
Modells eines menschlichen Gesichts unter Steuerung durch ein Audiosignal.
-
Stand der Technik
-
Es
wächst
das Interesse an Techniken der Integration natürlicher oder synthetischer
Objekte bei der Entwicklung von Multimedia-Anwendungen zur Erleichterung
und Erhöhung
der Wechselbeziehung zwischen Anwender und Anwendung, und in diesem Zusammenhang
wird die Verwendung anthropomorpher Modelle in Betracht gezogen,
die dazu bestimmt sind, die Mensch-Maschine-Beziehung zu erleichtern.
Dieses Interesse ist kürzlich
auch durch internationale Standardisierungsorganisationen anerkannt worden.
Der ISO/IEC-Standard 14496 "Generic
Coding of Audio-Visual
Objects", "generische Kodierung von
audio-visuellen Objekten" (im
allgemeinen bekannt als "Standard
MPEG-4", wie er
auch im folgenden genannt wird) zielt unter anderem darauf, ein
allgemeines Rahmenwerk für
solche Anwendungen festzulegen.
-
Bei
solchen Anwendungen werden allgemein und unabhängig von den spezifischen Lösungen,
die im Standard MPEG-4 angegeben sind, anthropomorphe Modelle dazu
geschaffen, weitere Informationsflüsse zu unterstützen, und
diese Modelle werden als Objekte angesehen, die animiert werden können, wobei
die Animation durch Audiosignale wie z. B. Sprache gesteuert wird.
Diese Signale können auch
als phonetische Sequenzen angesehen werden, nämlich als Folge von "Phonemen", wobei ein "Phonem" die kleinste linguistische
Einheit ist (entsprechend der Idee eines unterscheidenden Lauts
in einer Sprache).
-
In
diesem Fall müssen
für die
künstlichen Gesichter,
damit sie die typischen Gesichtsausdrücke des Sprechens annehmen,
Animationssysteme entwickelt werden, die die Geometrie und die Erscheinungsform
des mit der Stimme synchronisierten Modells deformieren. Das schließliche Ergebnis,
auf das die Entwicklung zuläuft,
ist ein sprechender Kopf oder ein sprechendes Gesicht, der bzw.
das so natürlich
als möglich
erscheint.
-
Die
Anwendungszusammenhänge
von animierten Modellen dieser Art können von Internetanwendungen
wie Begrüßungs- oder
Online-Hilfe-Ansagen bis zu kooperativen Arbeitsanwendungen (beispielsweise
E-Mail-Browsers), zu professionellen Anwendungen wie die Erzeugung
von Kino- oder Fernseh-Post-Produktions-Effekten, zu Videospielen
usw. reichen.
-
Die üblicherweise
verwendeten Modelle menschlicher Gesichter sind im allgemeinen auf
der Basis einer geometrischen Repräsentation hergestellt, die
aus einer dreidimensionalen Gitterstruktur besteht (bekannt als "Wire-Frame", Draht- oder Gitterrahmen).
Die Animation beruht auf der aufeinanderfolgenden Anwendung geeigneter
Verformungen (Transformationen) der Polygone, die den Gitterrahmen
(oder eine jeweilige Untergruppe) bilden, um den gewünschten
Effekt zu reproduzieren, nämlich
in diesem speziellen Fall die Reproduktion von auf das Sprechen
bezogenen Bewegungen.
-
Die
für diesen
Zweck vom Standard MPEG-4 vorgesehene Lösung nennt die Verwendung einer Gruppe
von Gesichts-Animations-Parametern, die hinsichtlich des Modells
unabhängig
definiert sind, um die interoperative Betriebsart des Systems sicherzustellen.
Diese Gruppe von Parametern ist in drei Ebenen organisiert: Die
höchste
Ebene besteht aus sogenannten "Visemen" und "Expressionen", während die
unterste Ebene aus den elementaren Verformungen besteht, die die
allgemeine Gesichtshaltung ermöglichen.
Gemäß dem Standard
MPEG-4 ist ein Visem das visuelle Äquivalent eines oder mehrerer
gleicher Phoneme.
-
Im
Rahmen der Erfindung wird der Ausdruck Visem dazu verwendet, eine
Form des Gesichts anzugeben, die der Abgabe eines Phonems zugeordnet ist
und erhalten wird mit Hilfe der Anwendung von MPEG-4-Parametern
der niedrigen Ebene, und die sich deshalb nicht auf MPEG-4-Parameter
der hohen Ebene bezieht.
-
In
der Literatur sind verschiedene Systeme zum Animieren von Gesichtsmodellen,
die durch die Stimme gesteuert werden, bekannt. Als Beispiele können die
folgenden Dokumente genannt werden: "Converting Speech into Lip Movements:
A Multimedia Telephone for Hard of Hearing People" von F. Lavagetto,
IEEE Transactions of Rehabilitation Engineering, Band 3, Nr. 1,
März 1995;
DIST, Genua Universität "Description of Algorithms
for Speech-to-Facial Movements Transformation", ACTS "SPLIT" Projekt, November 1995; TUB, Technische
Universität Berlin, "Analysis and Synthesis
of Visual Speech Movements",
ACTS "SPLTI" Projekt, November
1995. Diese Systeme implementieren jedoch nicht die nachgiebigen
Parameter des Standards MPEG-4 und sind aus diesem Grund nicht sehr
flexibel.
-
Ein
Animationsverfahren mit dem nachgiebigen Standard MPEG-4 ist in
der italienischen Patentanmeldung Nr. TO 98A000842 der Anmelderin
beschrieben, diese Anmeldung entspricht der EP 0993197A. Dieses
Verfahren ordnet Viseme, die aus einer Gruppe ausgewählt sind,
die vom Standard MPEG-4 definierte Viseme und spezifische Viseme einer
speziellen Sprache umfassen, Phonemen oder Gruppen von Phonemen
zu. Gemäß diesem
Verfahren sind die Viseme in eine Gruppe von Makroparametern aufgeteilt,
die die Form und/oder Position des Lippenbereichs und der Mundöffnung des
Modells charakterisieren, und sind bestimmten Intensitätswerten
zugeordnet, die die Abweichung von einer neutralen Position angeben
und eine angemessene Natürlichkeit
des animierten Modells sichern. Außerdem sind die Makroparameter
in die Gesichtsanimationsparameter der niedrigen Ebene, die im Standard MPEG-4
definiert sind, geteilt, denen ebenfalls mit den Makroparameterwerten
verbundene Intensitätswerte
zugeordnet sind, was eine angemessen Natürlichkeit des animierten Modells
sichert.
-
Dieses
Verfahren kann für
verschiedene Sprachen verwendet werden und sichert eine angemessene
Natürlichkeit
des resultierenden künstlichen
Modells. Jedoch basiert das Verfahren nicht auf einer Bewegungsdatenanalyse,
die am Gesicht eines realen Sprechers abgenommen wird. Aus diesem Grund
ist das Ergebnis der Animation nicht sehr realistisch oder natürlich.
-
Beschreibung
der Erfindung
-
Das
erfindungsgemäße Verfahren
ist nicht sprachenabhängig
und macht das animierte künstliche
Modell natürlicher
aufgrund der Tatsache, daß es auf
einer simultanen Analyse der Stimme und der Bewegungen des Gesichts,
die von realen Sprechern abgenommen wurden, basiert. Das erfindungsgemäße Verfahren
ist in den nachfolgenden Ansprüchen angegeben.
-
In
den nachfolgend genannten Dokumenten wird die Verwendung sogenannter "Aktivformmodelle" (Activ Shape Models
oder ASM, eine Abkürzung, die
auch im Folgenden verwendet wird) vorgeschlagen zum Animieren eines
Gesichtsmodells, das durch gesprochene Sprache geführt wird: "Conversion of articulatory
parameters into activ shape model coefficients for lip motion representation
and synthesis",
S. Lepsøy
und S. Curinga, Image Communication 13 (1998), Seiten 209 bis 225;
und "Active shape models
for lip motion synthesis",
S. Lepsøy,
Proceedings of the International Workshop on Synthetic-Natural Hybrid
Coding and Three Dimensional Imaging (IWSNHC3DI 97), Rhodos (Griechenland),
September 1997, Seiten 200 bis 203. Diese Dokumente befassen sich
speziell mit dem Problem der Konversion von Bewegungswiedergabe.
Das Aktivformmodell-Verfahren ist eine Repräsentationstechnik zum Verteilen
von Punkten im Raum, das speziell nützlich ist zum Beschreiben
von Gesichtern und anderen verformbaren Objekten mit Hilfe einiger
weniger Parameter. Diese Aktivformmodelle erlauben somit eine Reduktion
der Datenmenge. Dies ist die Eigenschaft, die für den Zweck dieser Erfindung
ausgenützt
wird.
-
Weitere
Einzelheiten über
die Theorie der Aktivformmodelle können beispielsweise gefunden werden
im Dokument von T. F. Cootes, D. Cooper, C. J. Taylor und J. Graham "Active Shape Models – Their
Training and Application",
Computer Vision and Image Understanding, Band 61, Nr. 1, Januar
1995, Seiten 38 bis 59.
-
Kurze Angabe
der Zeichnungen
-
Zur
weiteren Klärung
wird auf die folgenden Zeichnungen Bezug genommen. Es zeigen:
-
1 drei Abbildungen eines
Modells eines menschlichen Gesichts: links nur ein Gitterrahmenbild;
in der Mitte ein Bild mit homogener Färbung und Schattierung; und
rechts ein Bild mit hinzugefügter Struktur;
-
2 ein Ablaufdiagramm, das
die Analysevorgänge
veranschaulicht, die die sprachenspezifischen phonetischen Daten
und die jeweiligen Bewegungen des menschlichen Gesichts einander
zuordnen;
-
3 ein Beispiel einer phonetischen
Ausrichtung;
-
4 die Gruppe von Markierstellen,
die während
einer Sitzung mit generischer Bewegungsabnahme verwendet werden;
-
5 ein Ablaufdiagramm, das
die Synthesevorgänge
veranschaulicht, die den phonetischen Fluß eines Texts, der zum Steuern
der naturgetreuen Gesichtsmodellanimation verwendet wird, konvertieren;
-
6 ein Beispiel der Modellanimation.
-
Bestes Verfahren
zum Ausführen
der Erfindung
-
Vor
der Beschreibung der Erfindung im einzelnen müssen die folgenden allgemeinen
Vorbemerkungen gemacht werden.
-
Die
Animation wird gesteuert durch phonetische Sequenzen, wobei der
Zeitpunkt, zu dem das einzelne Phonem geäußert wird, bekannt ist. Die
Erfindung beschreibt ein Animationsverfahren, das nicht sprachenabhängig ist:
Dies bedeutet, daß für jede Sprache,
für die
die Sprechbewegung reproduziert werden soll, die zu verfolgende
Sequenz der Operationen gleich ist. Die Erfindung ermöglicht die Zuordnung
der jeweiligen Bewegungen des menschlichen Gesichts zu den phonetischen
Daten, die für eine
Sprache spezifisch ist. Solche Bewegungen werden mit Hilfe statistischer
Analysen erhalten, wobei sehr realistische Animationseffekte geschaffen werden.
In der Praxis und im Fall eines Modells, das auf der Basis eines
Gitterrahmens erhalten wird, besteht die Animation darin, daß man an
den Scheitel- oder Eckpunkten des Gitterrahmens eine Gruppe von
Bewegungen anwendet, die als auf ein Basismodell bezogene Bewegungen
erzeugt werden, das ein ausdrucksloses oder neutrales Gesicht, wie
es im Standard MPEG-4 definiert ist, wiedergibt. Diese relativen
Bewegungen sind das Ergebnis einer linearen Kombination bestimmter
Grundvektoren, die als Auto-Transformationen bezeichnet werden.
Ein Teil der Analyse, wie sie nachfolgend beschrieben wird, dient dazu,
eine Gruppe solcher Vektoren zu finden. Ein anderer Teil wird dazu
verwendet, jedem Phonem eine Transformation zuzuordnen, die als
Animationsparameter der niedrigen Ebene ausgedrückt wird – die sogenannten FAPs (Facial
Animation Parameters, Gesichtsanimationsparameter), die im Standard MPEG-4
definiert sind.
-
Die
Animations- oder Synthesephase besteht dann darin, die Folge von
Visemen, die den Phonemen im speziellen antreibenden Text entspricht,
in die Folge von Bewegungen der Eckpunkte des Gitterrahmens zu transformieren,
auf dem das Modell beruht.
-
Zur
Erleichterung des Verständnisses
der folgenden Beschreibung ist in
1 das
Modell eines menschlichen Gesichts gezeigt, das auf der Basis einer
Gitterrahmenstruktur geschaffen ist. Nummer 1 bezeichnet die Gitterrahmenstruktur,
Nummer 2 bezieht sich auf die Gewebestruktur (also auf eine Oberfläche, die
den Gitterrahmen füllt
und durch die Eck- oder Scheitelpunkte des Gitterrahmens verläuft) und
Nummer 3 bezeichnet das mit dem Abbild einer realen Person vervollständigte Modell.
Das Verfahren der Schaffung eines Modells auf der Basis des Gitterrahmens
ist nicht Teil dieser Erfindung und wird im folgenden nicht weiter
beschrieben. Ein Beispiel des auf diese Schaffung bezogenen Prozesses
ist durch die Anmelderin in der italienischen Patentanmeldung Nr.
TO 98A000828 beschrieben, die der
EP 0 991 023 A entspricht.
-
2 veranschaulicht im einzelnen
die analytische Phase, die sich auf das erfindungsgemäße Verfahren
bezieht.
-
Ein
Sprecher 4 gibt in einer oder mehreren Sitzungen die Ausdrücke oder
Sprachpartien (Sätze, Sprechstrecken)
einer Gruppe von Trainings-Sprachpartien ab, und während die
Person spricht, werden sowohl die Stimme als auch die Gesichts bewegungen
mit Hilfe einer geeigneten Schallaufnahmevorrichtung 5 und
einer Fernsehkamera 6 aufgezeichnet. Gleichzeitig wird
eine phonetische Transkription der abgegebenen Texte durchgeführt, um
die im Text vorhandenen Phoneme zu erhalten.
-
Die
Sprachaufnahmevorrichtungen können analoge
oder digitale Vorrichtungen sein, die eine angemessene Qualität liefern,
um die nachfolgende phonetische Ausrichtung oder Zuordnung zu ermöglichen,
also um die Identifikation der Zeitpunkte zu ermöglichen, in der die verschiedenen
Phoneme abgegeben werden. Dies bedeutet, daß die Zeitachse in Intervalle
eingeteilt ist, und zwar so, daß jedes
Intervall der Abgabe eines bestimmten Phonems entspricht (Schritt "Audiosegmentierung" in 2). Jedem Intervall ist ein Zeitpunkt
zugeordnet, zu dem das Phonem dem kleinsten Einfluß der benachbarten Phoneme
unterworfen ist. Wenn im folgenden auf einen mit einem Phonem verbunden
Zeitpunkt Bezug genommen wird, wird dieser oben beschriebene Zeitpunkt
gemeint.
-
Es
wird auf
3 und auf die
nachstehende Tabelle 1 Bezug genommen, die sich beide auf die phonetische
Analyse und die phonetische Transkription, mit entsprechender Zeitsteuerung,
des italienischen Satzes "Un
trucchetto geniale gli valse l'assoluzione" beziehen, um das
Konzept der phonetischen Zuordnung zu klären. Tabelle
1
# | 0,014000 |
u | 0,077938 |
n | 0,16625 |
t | 0,216313 |
r | 0,246125 |
u | 0,29625 |
k: | 0,431375 |
'e | 0,521872 |
t: | 0,61925 |
o | 0,695438 |
Dg | 0,749188 |
e | 0,811375 |
n | 0,858938 |
j | 0,920625 |
'a | 1,054101 |
l | 1,095313 |
e | 1,153359 |
Gl | 1,254 |
i | 1,288125 |
v | 1,339656 |
'a | 1,430313 |
l | 1,464 |
s | 1,582188 |
e | 1,615688 |
l | 1,654813 |
a | 1,712982 |
s: | 1,84 |
o | 1,873063 |
l | 1,899938 |
u | 1,966375 |
Ts: | 2,155938 |
j | 2,239875 |
'o | 2,36425 |
n | 2,416875 |
e | 2,606188 |
@ | 2,6175 |
-
Sprache
und Bewegung werden in synchronisierter Weise aufgenommen. Folglich
liefert die phonetische Zuordnung die Information darüber, welches
Phonem in jedem Rahmen abgegeben wurde. Diese Information ermöglicht die
Abschätzung
eines geometrischen Äquivalents
des Gesichts für
jedes Phonem des Alphabets.
-
Wiederum
unter Bezugnahme auf 2 und bei
Betrachtung des Aufzeichnens der Gesichtsbewegungen, wird dieses
Aufzeichnen vorteilhafterweise erhalten mit Hilfe der "Bewegungsverfolgung"("motion tracking")-Technik, die eine sehr plausible Animation
erlaubt, die auf der Prüfung
von Bewegungen einer Gruppe von Markierstellen beruht, die an signifikanten
Gesichtspunkten angeordnet sind, beispielsweise an den Augenspitzen
und den Rändern
der Lippen und des Gesichts. Diese Markierstellen sind in 4 mit der Bezugszahl 7 bezeichnet.
Die für
die Markierstellen gewählten
Punkte werden als "Marksteine" (landmarks) oder "charakteristische Punkte" (feature points)
bezeichnet. Sie sind allgemein kleine Objekte, deren spezielle Position
mit Hilfe von optischen oder magnetischen Vorrichtungen festgestellt
werden kann. Die Bewegungsverfolgungstechnik ist in diesem Sektor
gut bekannt und braucht hier nicht weiter beschrieben zu werden. Eine
bestimmte Anzahl von Sprachpartien, zumindest einhundert, muß für jede Sprache
aufgenommen werden, um eine signifikante Datengruppe zu erhalten.
Folglich sollte aufgrund der Beschränkungen der internen Speicherkapazität der Bewegungsverfolgungsvorrichtung
und aufgrund von Fehlern beim Lesen der Sprachpartien das Aufzeichnen
vorzugsweise in mehreren Sitzungen durchgeführt werden, von denen jede
einer oder mehreren Sprachpartien gewidmet ist.
-
Die
beim Verfolgen der Bewegung der Markierstellen 7 erhalten
Daten bestehen aus einer Gruppe von Koordinaten, die sich aus verschiedenen Gründen nicht
für die
unmittelbare Analyse eignen, da sich Unterschiede in der Position
des Subjekts ergeben, wenn verschiedene Photositzungen durchgeführt werden.
Außerdem
müssen
die unvermeidlichen Kopfbewegungen aus den Daten entfernt werden.
Es ist das Ziel, die auf eine neutrale Position bezogenen Bewegungen
des Gesichts zu modellieren und nicht die absoluten Bewegungen.
Es hängen auch
Aspekte von den verwendeten Vorrichtungen ab. In den aufgenommenen
Daten können
Fehler vorkommen, wie plötzliche
Bewegungen und das Verschwinden bestimmter Markierstellen für eine bestimmte
Zeit. Diese Fehler erfordern eine Korrekturphase, um verläßliche Daten
zu erhalten. Anders ausgedrückt,
bedarf es einer Korrektur und Normalisierung der Rohdaten.
-
Aus
diesem Grund muß zu
Beginn jeder Aufzeichnung das Gesicht des Sprechers soweit als möglich die
im Standard MPEG-4 definierte neutrale Position annehmen. Die entsprechende
Normalisierung (oder Säuberung
der Trainingsdaten) besteht darin, eine Gruppe von Punkten, die
Markierstellen 7 entsprechen, mit den entsprechenden charakteristischen
Punkten eines allgemeinen Modells eines neutralen Gesichts in Übereinstimmung
zu bringen. Die räumliche
Orientierung, die Position und die Dimension dieses Gesichtsmodells
sind bekannt. Die Parameter dieser Transformation werden auf der
Basis des ersten Bildrahmens bei der Aufzeichnung berechnet. Die
Bezugnahme auf einen Rahmen in der Folge ist notwendig, da die Markierstellen 7 bei
verschiedenen Aufzeichnungen nicht in der selben Position sein müssen. Diese
Operation wird für
jede aufgenommene Sequenz durchgeführt.
-
In
der Praxis liegt eine bestimmte Anzahl der für die Aufzeichnung verwendeten
Markierstellen, beispielsweise drei, auf einem steifen Objekt, das
an der Stirn angebracht wird (der in 4 mit
der Bezugszahl 8 bezeichnete Gegenstand), und diese Markierstellen
werden dazu verwendet, die unvermeidlichen Bewegungen des Gesamtkopfs
des Subjekts während
der Aufzeichnung zu Null zu machen. Als Beispiel kann man zum Zweck
der Einfachheit annehmen, daß die
ersten drei Markierstellen verwendet werden. Folglich werden die
Gruppen von Koordinaten für
alle Rahmen, die dem ersten Rahmen folgen, so verdreht und verschoben,
daß die
ersten drei Markierstellen mit den entsprechenden Markierstellen
im ersten Rahmen übereinstimmen.
Nach dieser Operation werden die ersten drei Markierstellen nicht
mehr weiter verwendet. Außerdem
müssen die
Positionen der charakteristischen Punkte auf dem realen Gesicht
jeder Photographie im höchstmöglichen
Umfang mit den Positionen des als neutrales Gesicht gewählten Modells übereinstimmen,
und dies bringt die Größenanpassung
des aufgenommenen Bilds mit sich, um dieses an die Dimensionen des
Modells anzupassen, sowie dessen Translation. Wie erwähnt, werden
für diese
Phase die ersten drei Markierstellen nicht mehr verwendet.
-
Um
eine größere Menge
von Bewegungsdaten zu behandeln (und, bei einigen Ausführungsformen,
auch zum Reduzieren der zu übertragenden Datenmenge)
muß eine
komprimierte Wiedergabe der Bewegungen gefunden werden. Diese Kompression
nützt die
Tatsache aus, daß die
Bewegung in verschiedenen Bereichen des Gesichts korreliert ist: Als
Folge hiervon wird gemäß der Erfindung
die numerische Repräsentation
der Bewegungen komprimiert und, wie oben angegeben wurde, als Kombinationen
einiger Basisvektoren ausgedrückt,
die Auto-Transformationen genannt werden. Die Auto-Transformationen
müssen
die bestmögliche
Annäherung
an Gesichtsbewegungen ermöglichen,
die in der aufgezeichneten und transformierten Sequenz enthalten
sind. Es wird betont, daß die
hier behandelten Bewegungen sich auf eine neutrale Pose beziehen.
Das Ziel der Kompression wird erreicht mit Hilfe der prinzipiellen
Komponenten Analyse (PCA), einem Bestandteil von ASM. Die aus dieser
Analyse resultierenden Hauptkomponenten sind identisch den Auto-Transformationen
und haben in der Erfindung die selbe Bedeutung.
-
Die
Gesichtspose (d. i. die Positionen der charakteristischen Punkte),
die während
des Sprechens angenommen wird, kann mit einer gewissen Genauigkeit
als lineare Kombination von Auto-Transformationen angenähert werden.
Diese linearen Kombinationen bieten eine Wiedergabe von Visemen,
die ausgedrückt
wird als Positionen von charakteristischen Punkten (mit Hilfe von
Parametern der unteren Ebene). Die Koeffizienten der linearen Kombination
werden als ASM-Parameter bezeichnet. Zusammengefaßt dargestellt,
ist ein Vektor x, der die Koordinaten der charakteristischen Punkte
enthält, die
resultierende Transformation in Bezug auf ein neutrales Gesicht,
mit Koordinaten in einem Vektor x, mit
Hilfe der Summe x = x + Pν, wobei P
eine Matrix ist, die die Auto-Transformationen als Spalten enthält, und ν ein Vektor
mit ASM-Parametern ist.
-
Das
ASM-Modell ermöglicht
den Ausdruck der vom Gesicht angenommenen Pose während der Bewegungsabtastung
mit Hilfe eines Vektors, der aus wenigen Parametern besteht. Zum
Beispiel können
die Koordinaten von 41 Markierstellen mit zufriedenstellenden Ergebnissen
unter Verwendung von 10 ASM-Parametern angenähert werden. Außerdem unterdrücken diese
Operationen eine Rauschkomponente, die dem Aquisitionssystem innewohnt,
die also nicht mit den Gesichtsbewegungen korreliert ist.
-
Nach
dem Sammeln der Sprech- und Bewegungsinformationen folgt die Phase
der Berechnung der Viseme.
-
Das
Ziel dieser Phase ist es, einen Vektor von ASM-Parametern zu bestimmen,
der jedem einzelnen Phonem zugeordnet ist, nämlich das Visem. Das Grundkriterium ist
es, eine Synthese (nämlich eine
Animation) zu erzeugen, die die aufgezeichnete Bewegung am besten
annähert.
Es muß betont
werden, daß dieses
Kriterium in der Erfindung dazu verwendet wird, die in der Synthesephase
verwendeten Parameter zu schätzen;
dies bedeutet, daß man
die Bewegung jeder beliebigen Sprachpartie reproduzieren kann und
nicht nur von Sprachpartien, die zu der Gruppe von Sprachpartien
gehören,
die während
der Bewegungsabtastung aufgenommen worden sind. Wie erwähnt, wird
die Animation durch Phoneme geführt,
die den jeweiligen Zeitpunkten zugeordnet sind. Eine sehr diskontinuierliche
Bewegungswiedergabe entsprechend den Zeitpunkten, die den Phonemen
zugeordnet sind, wäre
die Folge, wenn die den einzelnen Phonemen eines Animationssteuerungstests
zugeordneten Viseme direkt verwendet würden. In der Praxis ist die
Bewegung des Gesichts eine kontinuierliche Erscheinung und folglich
müssen
aneinandergrenzende Viseme interpoliert werden, um eine stetige
(und folglich natürlichere)
Bewegungswiedergabe zu schaffen.
-
Die
Interpolation ist eine zu berechnende konvexe Kombination von Visemen,
bei der die Koeffizienten der Kombination (Gewichtungen) gemäß der Zeit
definiert werden. Man beachte, daß eine lineare Kombination
als konvex definiert ist, wenn alle Koeffizienten sich im [0,1]-Intervall
befinden und ihre Summe gleich 1 ist. Die Interpolationskoeffizienten haben
im allgemeinen einen Wert ungleich null nur in einem kleinen Intervall,
das den Zeitpunkt der Lautabgabe umgibt, in dem der Wert des Koeffizienten
das Maximum erreicht. Im Fall, in dem eine Interpolation, die durch
die Viseme läuft,
gefordert ist (Bilden von Interpolationsknoten), müssen im
Zeitpunkt eines bestimmten Phonems alle Koeffizienten gleich null
sein mit Ausnahme des Koeffizienten dieses spezifischen Visems,
das gleich eins sein muß.
-
Ein
Beispiel für
eine Funktion, die für
die Koeffizienten verwendet werden kann, ist folgende:
wobei t
n der
Zeitpunkt der Abgabe des n-ten Phonems ist.
-
Die
im folgenden beschriebenen Operationen werden dazu verwendet, das
Annäherungskriterium
der aufgezeichneten Bewegung mit der künstlichen Bewegung in Beziehung
zu setzen. Die Visemvektoren können
in Zeilen gruppiert werden, die eine Matrix V bilden. Die Koeffizienten
der konvexen Kombination können
ihrerseits in einem Zeilenvektor c gruppiert
werden. Die konvexe Kombination der Viseme wird folglich gebildet
durch das Produkt cV. Der Vektor
der Koeffizienten ist eine Funktion der Zeit und es kann eine Matrix
C gebildet werden, in der jede Zeile die Koeffizienten eines Zeitpunkts
enthält.
Für die
Analyse werden die Zeitpunkte gewählt, für die Bewegungsverfolgungsdaten
existieren. Das Produkt CV enthält
Zeilen von ASM-Vektoren,
die die in den Verfolgungsdaten enthaltene natürliche Bewegung annähern. Der
Zweck dieses Schrittes ist es, die Elemente in der Matrix V zu bestimmen,
die die Viseme enthalten, und zwar so, daß die Differenz zwischen der
natürlichen
Bewegung (der der beobachteten Rahmen) und der künstlichen Bewegung minimiert
wird. Vorteilhafterweise wird der mittlere quadratische Abstand
zwischen den Zeilen des Produkts CV und den ASM Vektoren, die die
aufgezeichnete Bewegung wiedergeben, minimiert, wie es durch die
Regel von Euclid definiert ist.
-
Nach
dem Berechnen der Viseme besteht der folgende Schritt aus dem Übergang
von der komprimierten Darstellung, die mit Hilfe der oben beschriebenen
Operationen erzielt wird, zu einer Position im Raum der charakteristischen
Punkte, die im Standard MPEG-4 definiert ist. Davon ausgehend, daß die berechneten
Viseme Vektoren sind, die ASM-Koeffizienten enthalten, kann die
Konversion erhalten werden mit Hilfe eines einfachen Matrixprodukts,
wie es in der Theorie des Aktivformmodells beschrieben ist. Ein
die Transformation des charakteristischen Punkts enthaltender Vektor
wird erhalten durch Multiplizieren der Autotransformationsmatrix mit
dem ASM Vektor (als eine Spalte).
-
Die
Gesichtsanimationsparameter auf einer niedrigeren Ebene geben ihrerseits
die Position der auf ein ausdrucksloses Gesicht bezogenen charakteristischen
Punkte an. Also folgt als nächstes
die Translation der Viseme, die als Positionen von charakteristischen
Punkten auf diesen Parametern der unteren Ebene wiedergegeben sind.
-
Nach
der Durchführung
der beschriebenen Operationen an allen Sprachpartien der Trainingsgruppe
wird die Tabelle erstellt, die die Gesichtsanimationsparameter der
niedrigen Ebene mit den Phonemen, die dann in der Synthesephase
(oder Animationsphase) verwendet werden, verknüpft.
-
Hierzu
wird auf das Diagramm von 5 Bezug
genommen, das die Operationen veranschaulicht, die sich auf die
Synthese oder Animation des Modells beziehen, ausgehend von einem
gegebenen Steuerungstext.
-
"Synthese" bedeutet hier das
Berechnen der Bewegungen für
einen Gitterrahmen auf der Basis von phonetischen und zeitlichen
Informationen, so daß die
Transformationen mit zugeordneten Geräuschen synchronisiert sind
und die Lippenbewegung mit großer
Annäherung
reproduzieren. Die Synthese ist folglich der Prozeß, der eine
Folge von Visemen in eine Folge von Gitterkoordinaten umwandelt,
die das zu animierende Gesicht wiedergeben. Die Synthese basiert
auf der entsprechenden Tabelle zwischen den Phonemen und den MPEG-4-FAPs
(Gesichtsanimationsparametern)niedriger Ebene, die aus dem Analyseprozeß resultieren.
Der Animationsprozeß nimmt also
als Signaleingänge
den zu animierenden Gitterrahmen, die in der zu reproduzierenden
Sprachpartie enthaltenen Phoneme und die mi/FAPs-Tabelle der niedrigen
Ebene. Der Gitterrahmen wird spezifiziert durch eine Gruppe von
Punkten im Raum, durch eine Gruppe von Polygonen, die die genannten
Punkte als Eckpunkte verwenden, und durch Informationen, die der
Erscheinung der Oberfläche
innewohnen, wie Farbe und Gewebestruktur.
-
Zum
Reproduzieren eines gegebenen Steuersignals (im allgemeinen einer
Sprachpartie) muß zuerst
die Sprachpartie als Folge von Phonemen umgeschrieben werden, von
denen jedes mit dem Zeitpunkt etikettiert wird, zu dem es abgegeben
wird, wie es beim Beispiel in Tabelle 1 gezeigt ist. Eine diskrete Folge
von Visemen entspricht dieser diskreten Folge. Die Phonemfolge kann
in unterschiedlicher Weise erhalten werden, entsprechend der Quelle
der zu reproduzierenden Sprachpartie. Im Fall von künstlichem
Ton erzeugt der Synthetisierer zusätzlich zur Erzeugung der Wellenform
der gesprochenen Sprache die phonetische Transkription und die jeweilige Zeitreferenz.
Im Fall von natürlicher
gesprochener Sprache muß diese
Information aus dem Audiosignal extrahiert werden. Diese Operation
kann typischerweise auf zwei verschiedene Weisen durchgeführt werden
in Abhängigkeit
davon, ob die in der abgegebenen Sprachpartie enthaltenen Phoneme
bekannt sind oder nicht. Der erste Fall wird bezeichnet als "phonetische Zuordnung" (oder Ausrichtung)
(phonetic alignment) und der zweite Fall wird bezeichnet als "phonetische Erkennung" (phonetic recognition)
und liefert im allgemeinen Ergebnisse niedrigerer Qualität. Diese
Vorgehensweisen sind alle aus der Literatur bekannt und sind nicht
Gegenstand dieser Erfindung.
-
Zur
Sicherstellung der Natürlichkeit
und Flüssigkeit
der Bewegung des animierten Gesichtes bedarf es einer hohen Zahl
von Bildern oder Bildrahmen pro Sekunde (beispielsweise wenigstens
16 Rahmen). Diese Zahl ist erheblich höher als die Anzahl der im treibenden
Steuersignal enthaltenen Phoneme. Folglich müssen zahlreiche Zwischenbewegungen
des Gesichts, die zwischen zwei aufeinanderfolgenden Phonemen enthalten
sind, bestimmt werden, wie im einzelnen nachfolgend gezeigt wird.
-
Hinsichtlich
der Erzeugung eines einzigen Bildrahmens wird betont, daß die Gesichtsanimationsparameter
von den charakteristischen Punkten genommen werden. Aus diesem Grund
muß bekannt sein,
welche Eckpunkte im Gitterrahmen den betrachteten charakteristischen
Punkten entsprechen. Diese Information wird mit Hilfe eines Verfahrens
erhalten, das ähnlich
dem in der analytischen Phase verwendeten Verfahren ist, nämlich durch
Multiplizieren des auf die Primärkomponenten
bezogenen Koeffizientenvektors mit der Primärkomponentenmatrix. Auf diese
Weise werden FAPs in Bewegungen der Eckpunkte transformiert. Wird
berücksichtigt,
daß der Standard
MPEG-4 festlegt, daß der
Gitterrahmen eine vordefinierte räumliche Orientierung haben
soll, ist die FAP Transformation in Bewegungen die Folge, wobei
berücksichtigt
wird, daß die
FAPs in Maßeinheiten
spezifiziert sind, die sich auf die Abmessung des Gesichts beziehen.
-
Das
das Gesicht wiedergebende Modell umfaßt im allgemeinen eine Anzahl
von Eck- oder Scheitelpunkten,
die viel höher
ist als die Anzahl der charakteristischen Punkte. Die Bewegung der
charakteristischen Punkte muß extrapoliert
werden, um eine definierte Bewegung aller Eckpunkte zu erhalten.
Die Bewegung jedes nicht einem charakteristischen Punkt zugeordneten
Eckpunkts ist eine konvexe Kombination der Bewegungen von charakteristischen
Punkten. Die relativen Koeffizienten werden auf der Basis des Abstands
zwischen dem zu bewegenden Eckpunkt und jedem der charakteristischen Punkte
berechnet, und für
diesen Zweck wird die Minimallänge
des Abstands entlang den Bögen
des Gitterrahmens, bekannt als Dijkstra'scher Abstand, verwendet (E. Dijkstra, "A note on two problems
in connection with graphs",
Numerische Mathematik, Band 1, Seiten 269–271, Springer Verlag, Berlin
1959). Der von einem charakteristischen Punkt auf einen Eckpunkt
ausgeübte
Einflußbeitrag
ist umgekehrt proportional dem Dijkstra'schen Abstand zwischen zwei Punkten,
zur n-ten Potenz. Diese Potenz wird bestimmt mit dem Ziel der Schaffung
einer größeren Wichtigkeit
für die
charakteristischen Punkte nahe dem zu bewegenden Eckpunkt und ist
unabhängig von
der Abmessung des Gitterrahmens.
-
Die
letztere Operation führt
zu einer Repräsentation
des Visems auf dem gesamten Gitterrahmen. Die Anwendung des oben
beschriebenen Verfahrens bietet den Vorteil, daß alle charakteristischen Punkte
auf alle Eckpunkte wirken und deshalb die Spezifizierung einer Untergruppe
dieser Punkte für jeden
zu bewegenden Eckpunkt nicht mehr erforderlich ist. Dies ermöglicht die
Elimination einer Arbeitsphase, die andernfalls manuell ausgeführt werden muß und folglich
extrem teuer ist, wenn man die große Zahl von Eckpunkten in den
Gitterrahmen selbst im Fall von relativ einfachen Modellen berücksichtigt.
-
6 zeigt, wie die den Phonemen
a, m, p:, u (EURO-MPPA-Phonetiksymbole) der italienischen Sprache
entsprechenden Viseme ausgedrückt
werden, indem man die Struktur eines gesamten texturierten Gitterrahmens ändert.
-
Wie
zuvor erwähnt,
muß die
zeitliche Evolution zum Synthetisieren einer Sprechstrecke in Betracht
gezogen werden. Der Ausgangspunkt ist die Folge bekannter Viseme
zu diskreten Zeitpunkten. Um eine variable oder nicht variable Bildrahmenfrequenz
willkürlich
zu verwenden, wird die Bewegung des Modells als zeitlich kontinuierliche
Funktion wiedergegeben. Die Wiedergabe als zeitlich kontinuierliche
Funktion wird erhalten durch die Interpolation der Viseme, die in ähnlicher
Weise erzielt wird, wie es für die
analytische Phase beschrieben wurde. Jedem Visem ist eine Größenanpassung
zugeordnet, die als Koeffizient in einer konvexen Kombination wirkt;
dieser Koeffizient ist eine kontinuierliche Funktion der Zeit und
wird gemäß der Interpolationsroutine
berechnet, die vorher in der analytischen Phase zum Berechnen der
Viseme angewandt wurde. Aus Gründen
der Effizienz wird die Berechnung vorzugsweise durch Interpolation
durchgeführt
und die Zahl der charakteristischen Punkte ist niedriger als die
Zahl der Scheitelpunkte. Die kontinuierliche Repräsentation
kann willkürlich
abgetastet werden, um die einzelnen Rahmen zu erhalten, die in der
Folge dargestellt und mit dem Ton synchronisiert eine Animation
am Rechner reproduzieren.
-
Die
hier gegebene Beschreibung wird als nicht begrenzendes Beispiel
präsentiert
und offensichtlich sind Variationen und Veränderungen innerhalb des Schutzumfangs
der Erfindung möglich.