DE10334105B4

DE10334105B4 - A method of generating facial animation parameters for displaying spoken speech using graphical computer models

Info

Publication number: DE10334105B4
Application number: DE2003134105
Authority: DE
Inventors: Klaus Lukas; Thomas Riegel
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-07-25
Filing date: 2003-07-25
Publication date: 2005-08-25
Anticipated expiration: 2023-07-26
Also published as: DE10334105A1

Abstract

Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle, dadurch gekennzeichnet, dass
a) mittels eines Mikrofons (11) ein gesprochenes Wort oder eine Wortfolge aufgenommen werden,
b) mittels einer Stimmungslageerkennungseinrichtung (1) aus dem gesprochenen Wort oder der Wortfolge einer Person deren Stimmungslage ermittelt wird, und die Stimmungslage in Gesichts-Animationsparameter zu Darstellungszwecken umgesetzt wird,
c) die dem gesprochenen Wort oder der Wortfolge zugeordnete Stimmungslage in ein Lesezeichen gewandelt wird,
d) das gesprochene Wort oder die Wortfolge gemeinsam mit dem Lesezeichen über eine Kommunikationseinrichtung (10) an ein Mobiltelefon übermittelt wird,
e) das Lesezeichen dem zu diesem Wort oder dieser Wortfolge gehörigen Visem oder Visemen zugeordnet wird,
f) das Zuordnen des Lesezeichen zu einem Visem oder mehreren Visemen automatisch erfolgt,
g) das gesprochene Wort durch eine Phonemerkennungseinrichtung (2) in eine Phonemfolge umgewandelt und dem Visem oder den Visemen direkt zugeordnet wird,
h) aus...A method for generating facial animation parameters for displaying spoken speech by means of graphical computer models, characterized in that
a) a spoken word or a word sequence is recorded by means of a microphone (11),
b) by means of a mood position recognition device (1) from the spoken word or the word sequence of a person whose mood is determined, and the mood is converted into facial animation parameters for purposes of illustration,
c) the sentiment associated with the spoken word or phrase is converted into a bookmark;
d) the spoken word or the word sequence is transmitted together with the bookmark via a communication device (10) to a mobile telephone,
e) the bookmark is associated with the viseme or viseme associated with that word or phrase,
f) assigning the bookmark to a viseme or multiple visems is done automatically,
g) the spoken word is converted into a phoneme sequence by a phoneme recognition device (2) and assigned directly to the viseme or the viseme,
House...

Description

Virtuelle Repräsentanten von Menschen bzw. Agentenprogrammen können in einem Computer durch zwei- oder drei-dimensionale geometrische Modelle realisiert werden. Deren Hauptzweck besteht darin, mit anderen Menschen zu kommunizieren. Diese virtuellen Repräsentanten werden auch als Avatare bzw. Bots bezeichnet. Die Kommunikation wird dadurch realisiert, dass die geometrischen Modelle mit Hilfe von Computerprogrammen bildhaft dargestellt werden. Mittels üblicherweise modellspezifischen Programmanweisungen können diese bildhaften Darstellungen über die Zeit hinweg verändert, d.h. animiert, werden.virtual representatives of people or agent programs can be through in a computer two- or three-dimensional geometric models can be realized. Their main purpose is to communicate with other people. These virtual representatives are also called avatars or bots. The communication is realized by using the geometric models with help be represented graphically by computer programs. By convention model specific program instructions can use these pictorial representations on the Time changed, i. be animated.

Für die gesprochene Sprache sind einzelne Befehle definiert, die die entsprechende Veränderung der Mundregion des Computermodells bei der Äußerung eines entsprechenden Phonems (eines Lauts oder einer Lautfolge) definiert. Die zu einem Phonem korrespondierenden Veränderungen der Mundregion werden als Viseme bezeichnet.For the spoken Language are individual commands that define the appropriate change the mouth region of the computer model in the expression of a corresponding Phonems (of a sound or a sequence of sounds) defined. The to a phoneme corresponding changes The oral region is called Viseme.

Daneben gibt es eine weitere Anzahl von Befehlen, die es erlauben, jeden einzelnen Gesichtsbereich ähnlich der Muskelbewegungen zu verändern. Darauf aufbauend können grundlegende Gesichtsausdrücke oder Kombinationen aus diesen gebildet werden. So sind beispielsweise im Kodierungsverfahren MPEG-4 die Grundstimmungen Freude, Trauer, Überraschung, Enttäuschung, Angst oder Ärger definiert.Besides There are a further number of commands that allow everyone similar to facial area to change the muscle movements. Thereon can build up basic facial expressions or combinations of these are formed. Such are, for example in the encoding process MPEG-4 the basic moods joy, sadness, surprise, Disappointment, Fear or anger defined.

Möchte nun ein Mensch über einen Avatar bzw. einen Bot mit einem anderen Menschen verbal kommunizieren, so müssen parallel zu dessen Lautäußerungen die korrespondierenden seme kann dann zusammen mit der aufgenommenen Sprache zum Empfänger übermittelt und dort mit einem entsprechenden Computerprogramm bildhaft und akustisch wiedergegeben werden.I want it now a human about verbally communicate an avatar or bot with another person so must parallel to its vocalizations the corresponding seme can then be recorded together with the Language transmitted to the recipient and there with a corresponding computer program pictorially and be reproduced acoustically.

Zur Erzeugung der Viseme werden bislang Spracherkennungsprogramme eingesetzt, um die von dem Menschen abgegebenen Lautäußerungen, d.h. die gesprochenen Wörter, aus einer Datenbank zu ermitteln. Dies geschieht dadurch, dass in dem Spracherkennungsprogramm die durch die akustische Vorverarbeitung entstandene Folge von Merkmalsvektoren auf die wahrscheinlichste Teilwortabfolge abgebildet werden. Die durch die akustische Vorverarbeitung entstandene Folge von Merkmalsvektoren wird dann mit Einträgen in einer Datenbank verglichen, um die gesprochenen Wörter in schriftliche Form umzuwandeln. Die nun als Text vorliegenden gesprochenen Wörter werden dann mit einem Sprachsyntheseprogramm in Phonemfolgen umgewandelt und hernach entsprechenden Visemen zugeordnet.to Generation of the viseme are so far used speech recognition programs, around the vocalizations given by the human, i. the spoken ones words, from a database. This happens because in the voice recognition program by the acoustic preprocessing resulting sequence of feature vectors most likely Partial word sequence are mapped. The by the acoustic preprocessing resulting sequence of feature vectors is then with entries in a Database compared to convert the spoken words into written form. The spoken words that are now available as text are then used with a speech synthesis program converted into phoneme sequences and afterwards assigned to corresponding visems.

Es wäre nun für eine realistische Darstellung vorteilhaft, wenn neben den Visemen auch die Stimmungs- oder Gemütslage des die Lautäußerungen abgebenden Menschen dargestellt werden könnten.It would be now for one realistic representation advantageous if in addition to the visemen also the mood or mood of the vocal utterances People could be represented.

Aus Yu, Feng et al:" Emotion Detection from Speech to Enrich Multimedia Content; in: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Bejing, China, October 24–26, 2001, Teil 550, S. 1–4, ist eine experimentelle Studie beschrieben, die sich damit befasst, wie eine Detektion von Emotionen aus einer gesprochenen Wortfolge durchgeführt werden kann. Hierzu wird im Rahmen der Studie eine Sammlung von 721 kurzen Äußerungen angelegt, welche vier Grundemotionen, wie Ärger, Freude, Trauer und Neutralität ausdrücken, wobei diese Sammlung zur Realisierung des Ausdrucks von Emotionen bei virtuellen Gesichtern herangezogen wird.Out Yu, Feng et al: "Emotion Detection from Speech to Enrich Multimedia Content; in: Proceedings of the Second IEEE Pacific Rim Conference on Multimedia, Beijing, China, October 24-26, 2001, part 550, p. 1-4, describes an experimental study that deals with like a detection of emotions from a spoken word sequence carried out can be. For this purpose, a collection of Created 721 short statements, which four basic emotions, such as anger, joy, Grief and neutrality express, this collection is for the realization of the expression of emotions used in virtual faces.

Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, ein Verfahren und eine Anordnung zur Generierung von Ge sichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle anzugeben, welches einfach und effizient durchzuführen ist und dem Zuhörer bzw. Empfänger ein besseres Verständnis der von einem Sprecher abgegebenen Lautäußerungen ermöglicht.The The object of the present invention is therefore a method and an arrangement for generating facial animation parameters to represent spoken language by means of graphic computer models specify which is easy and efficient to perform and the listener or receiver a better understanding of made possible by a speaker vocalizations.

Diese Aufgabe wird mit einem Verfahren mit den Merkmalen des Patentanspruches 1 sowie mit einer Anordnung mit den Merkmalen des Patentanspruche 9 gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Ansprüchen.These Task is with a method with the features of claim 1 and with an arrangement having the features of the patent claims 9 solved. Advantageous embodiments emerge from the dependent claims.

Erfindungsgemäß ist vorgesehen, mittels einer Stimmungslage-Erkennungseinrichtung aus einem gesprochenen Wort oder einer Wortfolge einer Person deren Stimmungslage zu ermitteln und die Stimmungslage in Gesichts-Animationsparameter zu Darstellungszwecken umzusetzen.According to the invention, it is provided by means of a mood detection device from a spoken word or phrase of a person whose To determine mood and mood in facial animation parameters for illustration purposes.

Visuelle Sprach-Animationen gewinnen durch das Einbringen von non-verbalen Kommunikationsbestandteilen mehr an Natürlichkeit und Überzeugungskraft.visual Win voice animations by introducing non-verbal Communication components more natural and persuasive.

Ein Verfahren zum Erkennen der Gemütslage von gesprochener Sprache ist beispielsweise aus der Veröffentlichung „Approaching Automatic Recognition of Emotion from Voice: A Rough Benchmark", von S. McGilloway et al, ICSA 2000, Belfast bekannt. Bei diesem Verfahren werden fünf Stimmungslagen, nämlich Angst, Ärger, Glück, Trauer und Neutralität mittels statistischer Entscheidungsmethoden ermittelt. Eine Umwandlung in Gesichtanimationsparameter findet jedoch nicht statt. Erfindungsgemäß werden die Stimmungslagen aus der gesprochenen Sprache ermittelt und automatisch einer Sprachanimationseinrichtung zur Umsetzung in Gesichts-Animationsparameter zugeführt.For example, one method of recognizing the mood of spoken language is known from the publication "Approaching Automatic Recognition of Emotion from Voice: A Rough Benchmark," by S. McGilloway et al, ICSA 2000, Belfast, in which five moods, fear, are expressed , Anger, happiness, grief and neutrality through statistical decision making telt. However, conversion to facial animation parameters does not occur. According to the invention, the mood positions are determined from the spoken language and automatically supplied to a speech animation device for conversion into facial animation parameters.

Dies geschieht in einer Ausgestaltung der Erfindung dadurch, dass die einem gesprochenen Wort oder der Wortfolge zugeordnete Stimmungslage in ein Lesezeichen gewandelt und das Lesezeichen dem zu diesem Wort oder dieser Wortfolge gehörigem Visem oder Visemen zugeordnet wird. Zu diesem Zweck ist der Stimmungserkennungseinrichtung eine Transformationseinrichtung zur Erzeugung von Signalen nachgeschaltet, aus der die Sprachanimationseinrichtung die Gesichtsanimationsparameter erzeugt.This happens in one embodiment of the invention in that the a spoken word or the word order associated mood converted into a bookmark and the bookmark to this word or this word order belonging Visem or viseme is assigned. For this purpose, the mood recognition device is a Transformation device downstream of the generation of signals, from the the speech animation device the facial animation parameters generated.

Vorzugsweise wird das Lesezeichen vor dem zu diesem Wort oder dieser Wortfolge gehörigen Visem oder Visemen, vorteilhafterweise automatisch, eingefügt. Wird das gesprochene Wort durch eine Phonemerkennungseinrichtung in eine Phonemfolge umgewandelt und den Visemen direkt zugeordnet, so können die Sprachanimationsparameter der Viseme und der Sprachanimationsparameter des Lesezeichens verknüpft, z.B. überlagert, werden. Die Verknüpfung kann auch in einer Mittelwertbildung bestehen, welche den Avatar neben der Veränderung der Mundregion beispielsweise dazu veranlasst, die Augen- und/oder Stirnregion zu verändern.Preferably the bookmark will be in front of this word or phrase related Visem or viseme, advantageously automatically inserted. Becomes the spoken word by a phoneme recognition device into a Converted phoneme order and directly assigned to the viseme, so the Speech animation parameters of the viseme and the speech animation parameters linked to the bookmark, e.g. superimposed become. The link can also consist in averaging which the avatar next to the change For example, the mouth region causes the eye and / or Change forehead region.

Zwar ist aus dem Stand der Technik (Face Animation im MPEG-4 von I. Pandic, R. Forchheimer, Wiley 2002, Seiten 34 bis 36) ein Verfahren bekannt, mit dem Lesezeichen manuell und interaktiv durch eine Person in Sprachanimationsparameter eingefügt werden können. Bei diesen Verfahren ist es jedoch erforderlich, dass die von dem Avatar darzustellenden Lautäußerungen in schriftlicher Form vorliegen. Eine automatische Synchronisation bei der Umwandlung des Textes in Viseme mit Gesichtsausdrücken ist auch nicht möglich. Zur Erzeugung von Gesichtsausdrücken, welche Stimmungen wiedergeben, werden deshalb manuelle Lesezeichen im Text verwendet. Die Lesezeichen werden an solchen Positionen im Text eingefügt, an denen eine Veränderung des Gesichtsausdrucks erzeugt werden soll. Dies erfolgt an den Stellen, an denen der Beginn des ersten Phonems des folgenden Worts liegt. Das Lesezeichen definiert den Startzeitpunkt und die Dauer der Überlagerung mit einem Gesichtsausdruck. Das aus dem Stand der Technik bekannte Verfahren ermöglicht damit kein präzises Timing zwischen der Änderung der Gesichtsausdrücke und den zugehörigen Visemen.Though is from the prior art (Face Animation in MPEG-4 by I. Pandic, R. Forchheimer, Wiley 2002, pages 34 to 36) discloses a method with the bookmark manually and interactively by a person in voice animation parameters added can be. However, these methods require that of the Avatar to be presented vocalizations in written form. An automatic synchronization when converting the text into viseme with facial expressions not possible. For generating facial expressions, which moods reflect are therefore manual bookmarks used in the text. The bookmarks will be in such positions inserted in the text, where a change the facial expression is to be generated. This is done in the places where the beginning of the first phoneme of the following word is located. The bookmark defines the start time and duration of the overlay with a facial expression. That known from the prior art Procedure allows so no precise Timing between the change the facial expressions and its associated Visemes.

Die Erfindung ermöglicht hingegen ein automatisches Einfügen dieser Lesezeichen. Möglich wird dies dadurch, dass auf eine Umwandlung der gesprochenen Sprache in einen Text verzichtet wird. Statt dessen wird eine Phonemerkennungseinrichtung eingesetzt, die ein gesprochenes Wort bzw. eine gesprochene Wortfolge direkt in eine Phonemfolge umwandelt, so dass dieses unmittelbar mittels einer Phonem-/Visem- Transformationseinrichtung den zugehörigen Visemen zugeordnet werden kann. Im Rahmen dieses Vorgehens, genauer bei der Erzeugung der Sprachanimationsparameter, lässt sich der Schritt des Einfügens der Lesezeichen überlagern, wodurch eine automatische Generierung derselben an den richtigen Stellen möglich ist.The Invention allows however, an automatic insertion this bookmark. Possible this is due to a conversion of the spoken language is omitted in a text. Instead, a phoneme recognition device becomes used, which is a spoken word or a spoken word sequence converted directly into a phoneme sequence, so this immediately by means of a phoneme / visem transformation device the associated Visemen can be assigned. In the context of this procedure, more precisely when generating the speech animation parameters, can be the step of inserting overlay the bookmarks, causing an automatic generation of the same in the right places possible is.

In der Phonemerkennungseinrichtung werden dabei Eingangsfaktoren auf die wahrscheinlichste Phonemfolge abgebildet. Vorzugsweise geschieht dies unter Verwendung des Hidden-Markov-Modells.In The phoneme recognition device thereby becomes input factors mapped the most likely phoneme sequence. This is preferably done using the hidden Markov model.

Im Gegensatz zu konventionellen Spracherkennungsprogrammen, bei denen zur Erkennung der gesprochenen Worte eine Datenbank durchsucht werden muss, wobei im Laufe des Verarbeitungsprozesses die wahrscheinlichsten Wörter verfolgt werden, benötigt eine Phonemerkennung kein Lexikon, in dem einzelne Phoneme gesprochenen Wörtern zugeordnet sind. Vielmehr können in der Phonemerkennungseinrichtung Einzelphoneme sofort auf ein Erkennungswort abgebildet werden.in the Unlike conventional speech recognition programs, where to search the spoken words a database will be searched which, in the course of the processing process, is the most likely words be pursued, needed a phoneme recognition no lexicon in which individual phonemes are spoken Associated with words are. Rather, you can in the phoneme recognition device Einzelphoneme immediately to a recognition word be imaged.

Besonders bevorzugt werden das erfindungsgemäße Verfahren sowie die erfindungsgemäße Anordnung zu Kommunikationszwecken eingesetzt, bei welcher Bild und Ton übertragen werden. So könnte beispielsweise an eine Voicemail gedacht sein, bei dessen Abhören der Empfänger nicht nur die Stimme des Sprechers, sondern auch einen animierten Avatar präsentiert bekommt, wodurch eine bessere Verständlichkeit beim Abhören der Nachricht erzielt wird.Especially preferred are the inventive method and the inventive arrangement used for communication purposes, in which image and sound transmitted become. So could For example, be thought of a voicemail, when listening to the receiver not only the voice of the speaker, but also an animated one Avatar presents gets better intelligibility while listening to the Message is achieved.

Obwohl die Stimmungslage-Erkennungseinrichtung und die Phonem-Erkennungseinrichtung von einander getrennte Einheiten sein könnten, die voneinander unabhängig eingesetzt werden können, ist es bevorzugt, wenn diese beiden Einheiten in kombinierter Form zum Einsatz gelangen.Even though the mood detection device and the phoneme recognition device of could be separate units used independently can be it is preferred if these two units in combined form to Get used.

Die Erfindung wird anhand der nachfolgenden Figuren weiter erläutert. Es zeigen:The Invention will be further explained with reference to the following figures. It demonstrate:

1 einen möglichen Ablauf des erfindungsgemäßen Verfahrens zur Generierung von Gesichts-Animationsparametern, 1 a possible sequence of the method according to the invention for generating facial animation parameters,

2 einen weiteren möglichen Ablauf des erfindungsgemäßen Verfahrens zur Generierung von Gesichts-Animationsparametern, und 2 a further possible sequence of the method according to the invention for generating facial animation parameters, and

3 ein schematisches Blockschaltbild, aus der die Elemente zur Durchführung des erfindungsgemäßen Verfahrens hervorgehen. 3 a schematic block diagram, from which emerge the elements for carrying out the method according to the invention.

Erfindungsgemäß wird aus einem gesprochenen Wort bzw. einer gesprochenen Wortfolge automatisch die Stimmungslage erkannt (1). Dies kann mittels bekannter Verfahren aus dem Stand der Technik erfolgen. Nachdem die Stimmungslage ermittelt wurde, wird diese sogenannten Lesezeichen zugeordnet. Anhand der Lesezeichen kann eine Sprachanimationseinrichtung, welche die Sprachanimationsparameter für einen Avatar erzeugt, erkennen, welche Gemütslage der Darstellung zu unterlegen ist. Das Lesezeichen beinhaltet eine Information über den Startzeitpunkt und die Dauer, für welche eine Stimmungslage beibehalten werden muss.According to the invention, the mood is automatically detected from a spoken word or a spoken word sequence ( 1 ). This can be done by known methods of the prior art. After the mood has been determined, these so-called bookmarks are assigned. On the basis of the bookmarks, a voice animation device which generates the speech animation parameters for an avatar can recognize which mood of the presentation is to be underlaid. The bookmark includes information about the start time and duration for which a mood must be maintained.

Ein besonders bevorzugtes Verfahren ist in 2 dargestellt. Bei diesem wird ein gesprochenes Wort bzw. eine gesprochene Wortfolge einer Einrichtung zugeführt, welche in der Lage ist, sowohl die Stimmungslage als auch die Phoneme zu erkennen. Nachdem die entsprechenden Informationen gewonnen wurden, werden das Phonem bzw. die Phoneme dem entsprechenden Visem oder den entsprechenden Visemen zugeordnet. In entsprechender Weise werden die Stimmungslagen in Lesezeichen umgewandelt. Die kombinierte Erkennung von Stimmungslage und Phonemen erlaubt ein besonders einfaches Einfügen der Lesezeichen in die erzeugte Visemfolge. Aus den nunmehr vorliegenden Informationen können die Sprachanimationsparameter für einen Avatar erzeugt werden. Zusammen mit den Lautäußerungen der sprechenden Person ergibt sich für den Betrachter des Avatars eine besonders lebendige und realistische Darstellung, da nunmehr nicht ausschließlich eine Animation des Mundbereichs sondern des gesamten Gesichts möglich ist.A particularly preferred method is in 2 shown. In this, a spoken word or phrase is supplied to a device which is capable of recognizing both the mood and the phonemes. After the appropriate information has been obtained, the phoneme or phonemes are assigned to the corresponding viseme or visas. In a similar way, the moods are converted into bookmarks. The combined recognition of mood and phonemes allows a particularly easy insertion of the bookmarks in the Visemfolge generated. From the information now available, the speech animation parameters for an avatar can be generated. Together with the vocalizations of the person speaking, the observer of the avatar has a particularly vivid and realistic representation, since now not only an animation of the mouth area but of the entire face is possible.

Aus dem Blockschaltbild der 3 werden die Elemente, die zur Durchführung des erfindungsgemäßen Verfahrens notwendig sind, erkennbar. Über ein Mikrofon 11 werden Lautäußerungen einer Person aufgenommen und einer Stimmungslageerkennungseinrichtung 1 sowie einer Phonemerkennungseinrichtung 2 zugeführt. Die Phonemerkennungseinrichtung 2, die optional ist, ermittelt aus den Lautäußerungen, z.B. unter Verwendung des Hidden-Markov-Modells, Einzelphoneme und bildet diese auf ein Erkennungswort ab. In einer der Phonemerkennungseinrichtung 2 nachgeschalteten Phonem-/Visem-Transformationseinrichtung 3 werden die Einzelphoneme dann in zugehörige Viseme verwandelt und einer mit dieser verbundenen Sprachanimationseinrichtung 5 zugeführt. Diese erzeugt aus den Visemen Sprachanimationsparameter, die einer Avatar-Darstellungs-Einrichtung 7 zugeführt werden.From the block diagram of 3 be the elements that are necessary for carrying out the method according to the invention, recognizable. About a microphone 11 are vocalizations of a person recorded and a mood detection device 1 and a phoneme recognition device 2 fed. The phoneme recognition device 2 , which is optional, determines from the vocalizations, eg using the hidden Markov model, individual phonemes and maps them to a recognition word. In one of the phoneme recognition device 2 Downstream phoneme / visem transformation device 3 The individual phonemes are then transformed into associated visemes and a voice animation device associated with them 5 fed. This generates from the visems speech animation parameters that an avatar presentation device 7 be supplied.

Die Stimmungslageerkennungseinrichtung 1 ermittelt aus den Lautäußerungen die Stimmungslage der sprechenden Person, welche in der Stimmungslage-/Lesezeichen-Transformationseinrichtung 4 in ein oder mehrere Lesezeichen umgewandelt wird. Diese werden ebenfalls der Sprachanimationseinrichtung 5 zugeführt. Die Sprachanimationseinrichtung 5 erzeugt aus den Lesezeichen ebenfalls Sprachanimationsparameter, die mit den Sprachanimationsparametern der Viseme verknüpft werden.The mood detection device 1 determines from the vocalizations the mood of the speaking person who is in the mood attitude / bookmark transformation facility 4 converted into one or more bookmarks. These also become the voice animation device 5 fed. The voice animation device 5 also generates speech animation parameters from the bookmarks, which are linked to the speech animation parameters of the viseme.

Die Stimmungslage-Erkennungseinrichtung 1 sowie die Phonem-Erkennungseinrichtung 2 brauchen nicht notwendigerweise als separate Elemente ausgeführt zu sein, sondern können stattdessen auch in einer Einheit vorliegen. Bei der gleichzeitigen Ermittlung von Phonemen und der Stimmungslage ist es jedoch besonders einfach, die in Lesezeichen umgewandelten Stimmungslagen an die entsprechenden Stellen des Visemstrangs in der Sprachanimations-Einrichtung 5 einzuführen.The mood detection device 1 and the phoneme recognition device 2 need not necessarily be implemented as separate elements, but instead may be present in a unit. However, with the simultaneous determination of phonemes and mood, it is particularly easy to translate the bookmark converted moods to the corresponding locations of the visceral strand in the voice enhancement facility 5 introduce.

Der Avatar-Darstellungs-Einrichtung 7 wird gleichfalls das von dem Mikrofon 11 aufgezeichnete Audio-Signal über eine Audio-Signal-Übertragungseinrichtung 6 zugeführt. Die Avatar-Darstellungs-Einrichtung 7 synchronisiert die beiden Eingangssignale und gibt das Audio-Signal, über einen Lautsprecher 8 und die bearbeitete Viseme-Sequenz über einen Monitor 9 wieder.The Avatar Appearance 7 is also the microphone 11 recorded audio signal via an audio signal transmission device 6 fed. The Avatar Appearance 7 synchronizes the two input signals and outputs the audio signal through a speaker 8th and the edited viseme sequence via a monitor 9 again.

Der Betrachter erhält über den Lautsprecher 8 und den Monitor 9 die von einer Person oder einem Agentenprogramm gesprochenen Lautäußerungen, wobei diese über einen Avatar bzw. einen Bot visualisiert sind. Die Visualisierung in der gesprochenen Sprache zusammen mit der Darstellung der Stimmungslage des Sprechers über einen Avatar bzw. Bot hilft dem Empfänger, die primär auditive Information besser zu verstehen. Sofern der Empfänger aus dem Audio-Signal alleine Verständnisschwierigkeiten haben sollte, kann er auf die visuelle Information zurückgreifen. Durch die Beobachtung der Lippenbewegung des Avatars wird der Empfänger in die Lage versetzt, die übermittelte auditive Information besser zu verstehen.The viewer receives over the speaker 8th and the monitor 9 the vocalizations spoken by a person or an agent program, visualized via an avatar or a bot. The visualization in the spoken language together with the presentation of the mood of the speaker via an avatar or bot helps the recipient to better understand the primary auditory information. If the receiver of the audio signal alone should have difficulty understanding, he can rely on the visual information. By observing the lip movement of the avatar, the recipient is able to better understand the transmitted auditory information.

Optional – und deshalb gestrichelt eingezeichnet – kann eine Kommunikationseinrichtung 10 vorgesehen sein, die zwischen der Avatar-Darstellungs-Einrichtung 7 und der Audio-Signal-Übertragungseinrichtung 6 bzw. der Sprachanimations-Einrichtung 5 gelegen ist. Bei der Kommunikationsübertragungs-Einrichtung 10 kann es sich beispielsweise um ein Telefonnetz, eine drahtlose Signalübertragungsstrecke oder dergleichen handeln. Bei dieser Ausführung wird davon ausgegangen, dass die erfindungsgemäße Anordnung zu Kommunikationszwecken, wie beispielsweise einer Voicemail eines Telefons oder Mobilfunktelefons, eingesetzt wird.Optionally - and therefore shown in dashed lines - may be a communication device 10 be provided between the avatar presentation device 7 and the audio signal transmission device 6 or the voice animation device 5 is located. In the communication transmission device 10 it may be, for example, a telephone network, a wireless signal transmission path or the like. In this embodiment, it is assumed that the arrangement according to the invention is used for communication purposes, such as a voice mail of a telephone or mobile telephone.

Durch das erfindungsgemäße Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle wird die Erzeugung von Viseme-Abfolgen zu Lautäußerungen einerseits stark vereinfacht und wirkt andererseits äußerst realistisch.By the inventive method for generating facial animation parameters for display spoken language by means of graphic computer models becomes the Generation of viseme sequences to vocalizations on the one hand greatly simplified and on the other hand it is extremely realistic.

Das erfindungsgemäße Verfahren weist den Vorteil auf, dass Lautäußerungen, die nach dem konventionellen Verfahren nicht einem (Teil-)Wort zuordenbar sind, und deshalb üblicherweise von einem Spracherkennungsprogramm konventioneller Art unterdrückt oder ausgefiltert werden, ermittelt und auch visuell wiedergegeben werden können. Dies sind einerseits Binde- oder Füllworte, die eine Person von sich gibt, um nachzudenken oder Zeit zu gewinnen. Andererseits wird durch die Darstellung der Stimmungslage ein wichtiges non-verbales Kommunikationselement miteinbezogen.The inventive method has the advantage that vocalizations, which can not be assigned to a (partial) word according to the conventional method are, and therefore usually suppressed by a conventional speech recognition program or be filtered out, determined and visually reproduced can. These are on the one hand binding or filling words that a person of himself gives to think or to gain time. On the other hand is through the presentation of the mood is an important non-verbal communication element involved.

Das erfindungsgemäße Verfahren ist weitestgehend sprachunabhängig, da die in den verschiedenen Sprachen vorkommenden Phoneme und damit auch die Stimmungslagen je nach Verwandtheitsgrad der Sprache eine Ähnlichkeit aufweisen.The inventive method is largely language-independent, since the phonemes occurring in the different languages and thus The moods are also similar depending on the degree of familiarity of the language exhibit.

Claims

Method for generating facial animation parameters for displaying spoken speech by means of graphical computer models, characterized in that a) by means of a microphone ( 11 ) a spoken word or a word sequence are recorded, b) by means of a mood situation recognition device ( 1 ) from the spoken word or phrase of a person whose mood is being determined, and the mood is translated into facial animation parameters for purposes of illustration; c) the mood associated with the spoken word or phrase is converted to a bookmark, d) the spoken word or the word sequence together with the bookmark via a communication device ( 10 ) is assigned to a mobile telephone, e) the bookmark is associated with the vises or vises associated with that word or phrase, f) the bookmark is automatically assigned to one or more vises, g) the spoken word is represented by a phoneme recognition device ( 2 ) is converted into a phoneme sequence and directly assigned to the viseme or vises, h) voice animation parameters for an avatar presentation device (h) are respectively defined from the viseme or vises and the bookmark associated with the mood 7 ) be generated.

Method according to claim 1, characterized in that that bookmark before going to that word or phrase related Visem or visemen inserted becomes.

Method according to claim 1, characterized in that in the phoneme recognition device ( 2 ) Input vectors are mapped to the most probable phoneme sequence.

Method according to claim 3, the mapping of the input vectors to the most likely phoneme sequence using the hidden Markov model he follows.

Method according to one of claims 1 to 4, characterized in that in the phoneme recognition device ( 2 ) Individual phonemes are mapped to a recognition word.

Method according to claim 1, characterized in that that the speech animation parameter of the viseme and the speech animation parameters linked to the bookmark become.

Method according to claim 6, characterized in that the avatar presentation device ( 7 ) the audio signal is supplied.

Use of the method according to one of the previous ones claims for communication purposes, in which image and sound is transmitted.

Arrangement for generating facial animation parameters for displaying spoken speech by means of graphical computer models, characterized in that a) a microphone ( 11 ) a mood detection device ( 1 ), which is out of the microphone ( 11 ) a corresponding mood via a communication device ( 10 ) is transmitted to a mobile telephone which is a voice-conditioning device ( 5 ) for conversion into facial animation parameters, b) a phoneme recognition device ( 2 ), which is parallel to the mood detection device ( 1 ) that of the microphone ( 11 supplied signal), c) the phoneme recognition device ( 2 ) a phoneme / viseme transformation device ( 3 ), d) an avatar presentation device ( 7 ) provided by the voice animation device ( 5 ) visualizes the animation parameters supplied, e) the avatar presentation device ( 7 ) via the communication transmission device ( 10 ) with the voice animation device ( 5 ) connected is.

Arrangement according to claim 9, characterized in that the mood position recognition device ( 1 ) a transformation device ( 4 ) is followed by the generation of signals from which the voice animation device ( 5 ) generates the facial animation parameters.

Arrangement according to claim 9, characterized in that the speech animation device ( 5 ) from the phoneme / viseme transformation device ( 3 ) generated signals can be fed.

Arrangement according to one of Claims 9 to 11, characterized in that the avatar display device ( 7 ) via an audio signal transmission device ( 6 ) with the microphone ( 11 ) is connected to the simultaneous provision of audio and video signals.