DE10334105B4 - A method of generating facial animation parameters for displaying spoken speech using graphical computer models - Google Patents
A method of generating facial animation parameters for displaying spoken speech using graphical computer models Download PDFInfo
- Publication number
- DE10334105B4 DE10334105B4 DE2003134105 DE10334105A DE10334105B4 DE 10334105 B4 DE10334105 B4 DE 10334105B4 DE 2003134105 DE2003134105 DE 2003134105 DE 10334105 A DE10334105 A DE 10334105A DE 10334105 B4 DE10334105 B4 DE 10334105B4
- Authority
- DE
- Germany
- Prior art keywords
- word
- mood
- bookmark
- phoneme
- viseme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001815 facial effect Effects 0.000 title claims abstract description 17
- 238000005094 computer simulation Methods 0.000 title claims abstract description 7
- 230000036651 mood Effects 0.000 claims abstract description 42
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 1
- 230000008921 facial expression Effects 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000009278 visceral effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
Verfahren
zur Generierung von Gesichts-Animationsparametern
zur Darstellung gesprochener Sprache mittels graphischer Computermodelle,
dadurch gekennzeichnet, dass
a) mittels eines Mikrofons (11)
ein gesprochenes Wort oder eine Wortfolge aufgenommen werden,
b)
mittels einer Stimmungslageerkennungseinrichtung (1) aus dem gesprochenen
Wort oder der Wortfolge einer Person deren Stimmungslage ermittelt
wird, und die Stimmungslage in Gesichts-Animationsparameter zu Darstellungszwecken
umgesetzt wird,
c) die dem gesprochenen Wort oder der Wortfolge
zugeordnete Stimmungslage in ein Lesezeichen gewandelt wird,
d)
das gesprochene Wort oder die Wortfolge gemeinsam mit dem Lesezeichen über eine
Kommunikationseinrichtung (10) an ein Mobiltelefon übermittelt
wird,
e) das Lesezeichen dem zu diesem Wort oder dieser Wortfolge
gehörigen
Visem oder Visemen zugeordnet wird,
f) das Zuordnen des Lesezeichen
zu einem Visem oder mehreren Visemen automatisch erfolgt,
g)
das gesprochene Wort durch eine Phonemerkennungseinrichtung (2)
in eine Phonemfolge umgewandelt und dem Visem oder den Visemen direkt
zugeordnet wird,
h) aus...A method for generating facial animation parameters for displaying spoken speech by means of graphical computer models, characterized in that
a) a spoken word or a word sequence is recorded by means of a microphone (11),
b) by means of a mood position recognition device (1) from the spoken word or the word sequence of a person whose mood is determined, and the mood is converted into facial animation parameters for purposes of illustration,
c) the sentiment associated with the spoken word or phrase is converted into a bookmark;
d) the spoken word or the word sequence is transmitted together with the bookmark via a communication device (10) to a mobile telephone,
e) the bookmark is associated with the viseme or viseme associated with that word or phrase,
f) assigning the bookmark to a viseme or multiple visems is done automatically,
g) the spoken word is converted into a phoneme sequence by a phoneme recognition device (2) and assigned directly to the viseme or the viseme,
House...
Description
Virtuelle Repräsentanten von Menschen bzw. Agentenprogrammen können in einem Computer durch zwei- oder drei-dimensionale geometrische Modelle realisiert werden. Deren Hauptzweck besteht darin, mit anderen Menschen zu kommunizieren. Diese virtuellen Repräsentanten werden auch als Avatare bzw. Bots bezeichnet. Die Kommunikation wird dadurch realisiert, dass die geometrischen Modelle mit Hilfe von Computerprogrammen bildhaft dargestellt werden. Mittels üblicherweise modellspezifischen Programmanweisungen können diese bildhaften Darstellungen über die Zeit hinweg verändert, d.h. animiert, werden.virtual representatives of people or agent programs can be through in a computer two- or three-dimensional geometric models can be realized. Their main purpose is to communicate with other people. These virtual representatives are also called avatars or bots. The communication is realized by using the geometric models with help be represented graphically by computer programs. By convention model specific program instructions can use these pictorial representations on the Time changed, i. be animated.
Für die gesprochene Sprache sind einzelne Befehle definiert, die die entsprechende Veränderung der Mundregion des Computermodells bei der Äußerung eines entsprechenden Phonems (eines Lauts oder einer Lautfolge) definiert. Die zu einem Phonem korrespondierenden Veränderungen der Mundregion werden als Viseme bezeichnet.For the spoken Language are individual commands that define the appropriate change the mouth region of the computer model in the expression of a corresponding Phonems (of a sound or a sequence of sounds) defined. The to a phoneme corresponding changes The oral region is called Viseme.
Daneben gibt es eine weitere Anzahl von Befehlen, die es erlauben, jeden einzelnen Gesichtsbereich ähnlich der Muskelbewegungen zu verändern. Darauf aufbauend können grundlegende Gesichtsausdrücke oder Kombinationen aus diesen gebildet werden. So sind beispielsweise im Kodierungsverfahren MPEG-4 die Grundstimmungen Freude, Trauer, Überraschung, Enttäuschung, Angst oder Ärger definiert.Besides There are a further number of commands that allow everyone similar to facial area to change the muscle movements. Thereon can build up basic facial expressions or combinations of these are formed. Such are, for example in the encoding process MPEG-4 the basic moods joy, sadness, surprise, Disappointment, Fear or anger defined.
Möchte nun ein Mensch über einen Avatar bzw. einen Bot mit einem anderen Menschen verbal kommunizieren, so müssen parallel zu dessen Lautäußerungen die korrespondierenden seme kann dann zusammen mit der aufgenommenen Sprache zum Empfänger übermittelt und dort mit einem entsprechenden Computerprogramm bildhaft und akustisch wiedergegeben werden.I want it now a human about verbally communicate an avatar or bot with another person so must parallel to its vocalizations the corresponding seme can then be recorded together with the Language transmitted to the recipient and there with a corresponding computer program pictorially and be reproduced acoustically.
Zur Erzeugung der Viseme werden bislang Spracherkennungsprogramme eingesetzt, um die von dem Menschen abgegebenen Lautäußerungen, d.h. die gesprochenen Wörter, aus einer Datenbank zu ermitteln. Dies geschieht dadurch, dass in dem Spracherkennungsprogramm die durch die akustische Vorverarbeitung entstandene Folge von Merkmalsvektoren auf die wahrscheinlichste Teilwortabfolge abgebildet werden. Die durch die akustische Vorverarbeitung entstandene Folge von Merkmalsvektoren wird dann mit Einträgen in einer Datenbank verglichen, um die gesprochenen Wörter in schriftliche Form umzuwandeln. Die nun als Text vorliegenden gesprochenen Wörter werden dann mit einem Sprachsyntheseprogramm in Phonemfolgen umgewandelt und hernach entsprechenden Visemen zugeordnet.to Generation of the viseme are so far used speech recognition programs, around the vocalizations given by the human, i. the spoken ones words, from a database. This happens because in the voice recognition program by the acoustic preprocessing resulting sequence of feature vectors most likely Partial word sequence are mapped. The by the acoustic preprocessing resulting sequence of feature vectors is then with entries in a Database compared to convert the spoken words into written form. The spoken words that are now available as text are then used with a speech synthesis program converted into phoneme sequences and afterwards assigned to corresponding visems.
Es wäre nun für eine realistische Darstellung vorteilhaft, wenn neben den Visemen auch die Stimmungs- oder Gemütslage des die Lautäußerungen abgebenden Menschen dargestellt werden könnten.It would be now for one realistic representation advantageous if in addition to the visemen also the mood or mood of the vocal utterances People could be represented.
Aus Yu, Feng et al:" Emotion Detection from Speech to Enrich Multimedia Content; in: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Bejing, China, October 24–26, 2001, Teil 550, S. 1–4, ist eine experimentelle Studie beschrieben, die sich damit befasst, wie eine Detektion von Emotionen aus einer gesprochenen Wortfolge durchgeführt werden kann. Hierzu wird im Rahmen der Studie eine Sammlung von 721 kurzen Äußerungen angelegt, welche vier Grundemotionen, wie Ärger, Freude, Trauer und Neutralität ausdrücken, wobei diese Sammlung zur Realisierung des Ausdrucks von Emotionen bei virtuellen Gesichtern herangezogen wird.Out Yu, Feng et al: "Emotion Detection from Speech to Enrich Multimedia Content; in: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Beijing, China, October 24-26, 2001, part 550, p. 1-4, describes an experimental study that deals with like a detection of emotions from a spoken word sequence carried out can be. For this purpose, a collection of Created 721 short statements, which four basic emotions, such as anger, joy, Grief and neutrality express, this collection is for the realization of the expression of emotions used in virtual faces.
Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, ein Verfahren und eine Anordnung zur Generierung von Ge sichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle anzugeben, welches einfach und effizient durchzuführen ist und dem Zuhörer bzw. Empfänger ein besseres Verständnis der von einem Sprecher abgegebenen Lautäußerungen ermöglicht.The The object of the present invention is therefore a method and an arrangement for generating facial animation parameters to represent spoken language by means of graphic computer models specify which is easy and efficient to perform and the listener or receiver a better understanding of made possible by a speaker vocalizations.
Diese Aufgabe wird mit einem Verfahren mit den Merkmalen des Patentanspruches 1 sowie mit einer Anordnung mit den Merkmalen des Patentanspruche 9 gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Ansprüchen.These Task is with a method with the features of claim 1 and with an arrangement having the features of the patent claims 9 solved. Advantageous embodiments emerge from the dependent claims.
Erfindungsgemäß ist vorgesehen, mittels einer Stimmungslage-Erkennungseinrichtung aus einem gesprochenen Wort oder einer Wortfolge einer Person deren Stimmungslage zu ermitteln und die Stimmungslage in Gesichts-Animationsparameter zu Darstellungszwecken umzusetzen.According to the invention, it is provided by means of a mood detection device from a spoken word or phrase of a person whose To determine mood and mood in facial animation parameters for illustration purposes.
Visuelle Sprach-Animationen gewinnen durch das Einbringen von non-verbalen Kommunikationsbestandteilen mehr an Natürlichkeit und Überzeugungskraft.visual Win voice animations by introducing non-verbal Communication components more natural and persuasive.
Ein Verfahren zum Erkennen der Gemütslage von gesprochener Sprache ist beispielsweise aus der Veröffentlichung „Approaching Automatic Recognition of Emotion from Voice: A Rough Benchmark", von S. McGilloway et al, ICSA 2000, Belfast bekannt. Bei diesem Verfahren werden fünf Stimmungslagen, nämlich Angst, Ärger, Glück, Trauer und Neutralität mittels statistischer Entscheidungsmethoden ermittelt. Eine Umwandlung in Gesichtanimationsparameter findet jedoch nicht statt. Erfindungsgemäß werden die Stimmungslagen aus der gesprochenen Sprache ermittelt und automatisch einer Sprachanimationseinrichtung zur Umsetzung in Gesichts-Animationsparameter zugeführt.For example, one method of recognizing the mood of spoken language is known from the publication "Approaching Automatic Recognition of Emotion from Voice: A Rough Benchmark," by S. McGilloway et al, ICSA 2000, Belfast, in which five moods, fear, are expressed , Anger, happiness, grief and neutrality through statistical decision making telt. However, conversion to facial animation parameters does not occur. According to the invention, the mood positions are determined from the spoken language and automatically supplied to a speech animation device for conversion into facial animation parameters.
Dies geschieht in einer Ausgestaltung der Erfindung dadurch, dass die einem gesprochenen Wort oder der Wortfolge zugeordnete Stimmungslage in ein Lesezeichen gewandelt und das Lesezeichen dem zu diesem Wort oder dieser Wortfolge gehörigem Visem oder Visemen zugeordnet wird. Zu diesem Zweck ist der Stimmungserkennungseinrichtung eine Transformationseinrichtung zur Erzeugung von Signalen nachgeschaltet, aus der die Sprachanimationseinrichtung die Gesichtsanimationsparameter erzeugt.This happens in one embodiment of the invention in that the a spoken word or the word order associated mood converted into a bookmark and the bookmark to this word or this word order belonging Visem or viseme is assigned. For this purpose, the mood recognition device is a Transformation device downstream of the generation of signals, from the the speech animation device the facial animation parameters generated.
Vorzugsweise wird das Lesezeichen vor dem zu diesem Wort oder dieser Wortfolge gehörigen Visem oder Visemen, vorteilhafterweise automatisch, eingefügt. Wird das gesprochene Wort durch eine Phonemerkennungseinrichtung in eine Phonemfolge umgewandelt und den Visemen direkt zugeordnet, so können die Sprachanimationsparameter der Viseme und der Sprachanimationsparameter des Lesezeichens verknüpft, z.B. überlagert, werden. Die Verknüpfung kann auch in einer Mittelwertbildung bestehen, welche den Avatar neben der Veränderung der Mundregion beispielsweise dazu veranlasst, die Augen- und/oder Stirnregion zu verändern.Preferably the bookmark will be in front of this word or phrase related Visem or viseme, advantageously automatically inserted. Becomes the spoken word by a phoneme recognition device into a Converted phoneme order and directly assigned to the viseme, so the Speech animation parameters of the viseme and the speech animation parameters linked to the bookmark, e.g. superimposed become. The link can also consist in averaging which the avatar next to the change For example, the mouth region causes the eye and / or Change forehead region.
Zwar ist aus dem Stand der Technik (Face Animation im MPEG-4 von I. Pandic, R. Forchheimer, Wiley 2002, Seiten 34 bis 36) ein Verfahren bekannt, mit dem Lesezeichen manuell und interaktiv durch eine Person in Sprachanimationsparameter eingefügt werden können. Bei diesen Verfahren ist es jedoch erforderlich, dass die von dem Avatar darzustellenden Lautäußerungen in schriftlicher Form vorliegen. Eine automatische Synchronisation bei der Umwandlung des Textes in Viseme mit Gesichtsausdrücken ist auch nicht möglich. Zur Erzeugung von Gesichtsausdrücken, welche Stimmungen wiedergeben, werden deshalb manuelle Lesezeichen im Text verwendet. Die Lesezeichen werden an solchen Positionen im Text eingefügt, an denen eine Veränderung des Gesichtsausdrucks erzeugt werden soll. Dies erfolgt an den Stellen, an denen der Beginn des ersten Phonems des folgenden Worts liegt. Das Lesezeichen definiert den Startzeitpunkt und die Dauer der Überlagerung mit einem Gesichtsausdruck. Das aus dem Stand der Technik bekannte Verfahren ermöglicht damit kein präzises Timing zwischen der Änderung der Gesichtsausdrücke und den zugehörigen Visemen.Though is from the prior art (Face Animation in MPEG-4 by I. Pandic, R. Forchheimer, Wiley 2002, pages 34 to 36) discloses a method with the bookmark manually and interactively by a person in voice animation parameters added can be. However, these methods require that of the Avatar to be presented vocalizations in written form. An automatic synchronization when converting the text into viseme with facial expressions not possible. For generating facial expressions, which moods reflect are therefore manual bookmarks used in the text. The bookmarks will be in such positions inserted in the text, where a change the facial expression is to be generated. This is done in the places where the beginning of the first phoneme of the following word is located. The bookmark defines the start time and duration of the overlay with a facial expression. That known from the prior art Procedure allows so no precise Timing between the change the facial expressions and its associated Visemes.
Die Erfindung ermöglicht hingegen ein automatisches Einfügen dieser Lesezeichen. Möglich wird dies dadurch, dass auf eine Umwandlung der gesprochenen Sprache in einen Text verzichtet wird. Statt dessen wird eine Phonemerkennungseinrichtung eingesetzt, die ein gesprochenes Wort bzw. eine gesprochene Wortfolge direkt in eine Phonemfolge umwandelt, so dass dieses unmittelbar mittels einer Phonem-/Visem- Transformationseinrichtung den zugehörigen Visemen zugeordnet werden kann. Im Rahmen dieses Vorgehens, genauer bei der Erzeugung der Sprachanimationsparameter, lässt sich der Schritt des Einfügens der Lesezeichen überlagern, wodurch eine automatische Generierung derselben an den richtigen Stellen möglich ist.The Invention allows however, an automatic insertion this bookmark. Possible this is due to a conversion of the spoken language is omitted in a text. Instead, a phoneme recognition device becomes used, which is a spoken word or a spoken word sequence converted directly into a phoneme sequence, so this immediately by means of a phoneme / visem transformation device the associated Visemen can be assigned. In the context of this procedure, more precisely when generating the speech animation parameters, can be the step of inserting overlay the bookmarks, causing an automatic generation of the same in the right places possible is.
In der Phonemerkennungseinrichtung werden dabei Eingangsfaktoren auf die wahrscheinlichste Phonemfolge abgebildet. Vorzugsweise geschieht dies unter Verwendung des Hidden-Markov-Modells.In The phoneme recognition device thereby becomes input factors mapped the most likely phoneme sequence. This is preferably done using the hidden Markov model.
Im Gegensatz zu konventionellen Spracherkennungsprogrammen, bei denen zur Erkennung der gesprochenen Worte eine Datenbank durchsucht werden muss, wobei im Laufe des Verarbeitungsprozesses die wahrscheinlichsten Wörter verfolgt werden, benötigt eine Phonemerkennung kein Lexikon, in dem einzelne Phoneme gesprochenen Wörtern zugeordnet sind. Vielmehr können in der Phonemerkennungseinrichtung Einzelphoneme sofort auf ein Erkennungswort abgebildet werden.in the Unlike conventional speech recognition programs, where to search the spoken words a database will be searched which, in the course of the processing process, is the most likely words be pursued, needed a phoneme recognition no lexicon in which individual phonemes are spoken Associated with words are. Rather, you can in the phoneme recognition device Einzelphoneme immediately to a recognition word be imaged.
Besonders bevorzugt werden das erfindungsgemäße Verfahren sowie die erfindungsgemäße Anordnung zu Kommunikationszwecken eingesetzt, bei welcher Bild und Ton übertragen werden. So könnte beispielsweise an eine Voicemail gedacht sein, bei dessen Abhören der Empfänger nicht nur die Stimme des Sprechers, sondern auch einen animierten Avatar präsentiert bekommt, wodurch eine bessere Verständlichkeit beim Abhören der Nachricht erzielt wird.Especially preferred are the inventive method and the inventive arrangement used for communication purposes, in which image and sound transmitted become. So could For example, be thought of a voicemail, when listening to the receiver not only the voice of the speaker, but also an animated one Avatar presents gets better intelligibility while listening to the Message is achieved.
Obwohl die Stimmungslage-Erkennungseinrichtung und die Phonem-Erkennungseinrichtung von einander getrennte Einheiten sein könnten, die voneinander unabhängig eingesetzt werden können, ist es bevorzugt, wenn diese beiden Einheiten in kombinierter Form zum Einsatz gelangen.Even though the mood detection device and the phoneme recognition device of could be separate units used independently can be it is preferred if these two units in combined form to Get used.
Die Erfindung wird anhand der nachfolgenden Figuren weiter erläutert. Es zeigen:The Invention will be further explained with reference to the following figures. It demonstrate:
Erfindungsgemäß wird aus
einem gesprochenen Wort bzw. einer gesprochenen Wortfolge automatisch
die Stimmungslage erkannt (
Ein
besonders bevorzugtes Verfahren ist in
Aus
dem Blockschaltbild der
Die
Stimmungslageerkennungseinrichtung
Die
Stimmungslage-Erkennungseinrichtung
Der
Avatar-Darstellungs-Einrichtung
Der
Betrachter erhält über den
Lautsprecher
Optional – und deshalb
gestrichelt eingezeichnet – kann
eine Kommunikationseinrichtung
Durch das erfindungsgemäße Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle wird die Erzeugung von Viseme-Abfolgen zu Lautäußerungen einerseits stark vereinfacht und wirkt andererseits äußerst realistisch.By the inventive method for generating facial animation parameters for display spoken language by means of graphic computer models becomes the Generation of viseme sequences to vocalizations on the one hand greatly simplified and on the other hand it is extremely realistic.
Das erfindungsgemäße Verfahren weist den Vorteil auf, dass Lautäußerungen, die nach dem konventionellen Verfahren nicht einem (Teil-)Wort zuordenbar sind, und deshalb üblicherweise von einem Spracherkennungsprogramm konventioneller Art unterdrückt oder ausgefiltert werden, ermittelt und auch visuell wiedergegeben werden können. Dies sind einerseits Binde- oder Füllworte, die eine Person von sich gibt, um nachzudenken oder Zeit zu gewinnen. Andererseits wird durch die Darstellung der Stimmungslage ein wichtiges non-verbales Kommunikationselement miteinbezogen.The inventive method has the advantage that vocalizations, which can not be assigned to a (partial) word according to the conventional method are, and therefore usually suppressed by a conventional speech recognition program or be filtered out, determined and visually reproduced can. These are on the one hand binding or filling words that a person of himself gives to think or to gain time. On the other hand is through the presentation of the mood is an important non-verbal communication element involved.
Das erfindungsgemäße Verfahren ist weitestgehend sprachunabhängig, da die in den verschiedenen Sprachen vorkommenden Phoneme und damit auch die Stimmungslagen je nach Verwandtheitsgrad der Sprache eine Ähnlichkeit aufweisen.The inventive method is largely language-independent, since the phonemes occurring in the different languages and thus The moods are also similar depending on the degree of familiarity of the language exhibit.
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003134105 DE10334105B4 (en) | 2003-07-25 | 2003-07-25 | A method of generating facial animation parameters for displaying spoken speech using graphical computer models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003134105 DE10334105B4 (en) | 2003-07-25 | 2003-07-25 | A method of generating facial animation parameters for displaying spoken speech using graphical computer models |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10334105A1 DE10334105A1 (en) | 2005-02-24 |
DE10334105B4 true DE10334105B4 (en) | 2005-08-25 |
Family
ID=34088844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2003134105 Expired - Fee Related DE10334105B4 (en) | 2003-07-25 | 2003-07-25 | A method of generating facial animation parameters for displaying spoken speech using graphical computer models |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10334105B4 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090079547A1 (en) * | 2007-09-25 | 2009-03-26 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing a Determination of Implicit Recommendations |
CN113827959B (en) * | 2021-08-27 | 2024-06-21 | 网易(杭州)网络有限公司 | Game animation processing method and device and electronic device |
-
2003
- 2003-07-25 DE DE2003134105 patent/DE10334105B4/en not_active Expired - Fee Related
Non-Patent Citations (8)
Title |
---|
BRAND, M.: Voice puppetry * |
BRAND, M.: Voice puppetry; In: Proceedings of the 26th annual conference on Computer graphics and interactive techniques, Los Angeles, CA, 1999, pp. 21-28 |
HONG, Pengyu et al: IFACE: A 3D synthetic talking face, International Journal of Image and Graphics, Vol. 1, No. 1 (2001), pp. 19-26 |
HONG, Pengyu et al: IFACE: A 3D synthetic talking face, International Journal of Image and Graphics,Vol. 1, No. 1 (2001), pp. 19-26 * |
In: Proceedings of the 26th annual conference on Computer graphics and interactive techniques, Los Angeles, CA, 1999, pp. 21-28 * |
In: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Bejing, China, October 24-26, 2001, p. 550, S.1-4 (http://research.microsoft.com/asia/dload_files/ group/speeches/PCM2001-Yufeng-4th.pdf)(recher- chiert am 26.03.04) * |
YU, Feng et al: Emotion Detection from Speech to Enrich Multimedia Content * |
YU, Feng et al: Emotion Detection from Speech to Enrich Multimedia Content; In: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Bejing, China, October 24-26, 2001, p. 550, S.1-4 (http://research.microsoft.com/asia/dload_files/ group/speeches/PCM2001-Yufeng-4th.pdf)(recher- chiert am 26.03.04) |
Also Published As
Publication number | Publication date |
---|---|
DE10334105A1 (en) | 2005-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102019001775B4 (en) | Using machine learning models to determine mouth movements according to live speech | |
DE69632901T2 (en) | Apparatus and method for speech synthesis | |
DE60105995T2 (en) | ANIMATION OF PEOPLE | |
DE69719270T2 (en) | Speech synthesis using auxiliary information | |
DE69716413T2 (en) | AUTOMATIC SYNCHRONIZATION OF VIDEO IMAGE SEQUENCES WITH NEW SOUND TRACKS | |
DE60216069T2 (en) | LANGUAGE-TO-LANGUAGE GENERATION SYSTEM AND METHOD | |
DE69506037T2 (en) | Audio output device and method | |
DE19753453B4 (en) | System for synchronizing a film with a text / speech converter | |
EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
EP1264301A1 (en) | Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system | |
DE60019248T2 (en) | Voice-controlled oral animation system | |
EP2047668B1 (en) | Method, spoken dialog system, and telecommunications terminal device for multilingual speech output | |
DE60020504T2 (en) | ADJUSTING A LANGUAGE IDENTIFIER TO CORRECTED TEXTS | |
EP1670165A2 (en) | Method and model-based audio and visual system for displaying an avatar | |
DE10334105B4 (en) | A method of generating facial animation parameters for displaying spoken speech using graphical computer models | |
EP1110203B1 (en) | Device and method for digital voice processing | |
Kirkland et al. | Perception of smiling voice in spontaneous speech synthesis | |
DE69817550T2 (en) | METHOD FOR VOICE SYNTHESIS | |
DE102006056286A1 (en) | A method of reproducing text information by voice in a vehicle | |
EP1344211B1 (en) | Device and method for differentiated speech output | |
DE69816078T2 (en) | IMPROVEMENTS REGARDING VISUAL LANGUAGE SYNTHESIS | |
DE69419846T2 (en) | SENDING AND RECEIVING PROCEDURES FOR CODED LANGUAGE | |
DE102024100947A1 (en) | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD FOR GENERATING ARTIFICIAL SPOKEN LANGUAGE | |
WO2023222287A1 (en) | Speech synthesiser and method for speech synthesis | |
DE102007039603A1 (en) | Method for synchronizing media data streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |