DE102010012427B4 - Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern - Google Patents

Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern Download PDF

Info

Publication number
DE102010012427B4
DE102010012427B4 DE102010012427.3A DE102010012427A DE102010012427B4 DE 102010012427 B4 DE102010012427 B4 DE 102010012427B4 DE 102010012427 A DE102010012427 A DE 102010012427A DE 102010012427 B4 DE102010012427 B4 DE 102010012427B4
Authority
DE
Germany
Prior art keywords
speech
signal
features
movement
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102010012427.3A
Other languages
English (en)
Other versions
DE102010012427A1 (de
Inventor
Lenard F. Krawinkel
Dr. Fagel Sascha
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZOOBE GMBH, DE
Original Assignee
ZOOBE GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZOOBE GmbH filed Critical ZOOBE GmbH
Priority to DE102010012427.3A priority Critical patent/DE102010012427B4/de
Priority to PCT/EP2011/001424 priority patent/WO2011116937A1/de
Priority to EP11714929A priority patent/EP2572357A1/de
Publication of DE102010012427A1 publication Critical patent/DE102010012427A1/de
Application granted granted Critical
Publication of DE102010012427B4 publication Critical patent/DE102010012427B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern, umfassend die folgenden Schritte: a) Spracheingabe (α) in ein Sprachanalysesystem (10); b) Transformation der Spracheingabe (α) in ein erstes Sprachsignal (β1) durch eine Spracherfassungseinheit; d) Erstellen eines Merkmalsvektors (μ) aus dem ersten Sprachsignal (β1) mit Sprachmerkmalen (δ1, δ2, δ3, ... δn) durch eine Sprachanalyseeinheit (30); e) Zuordnung der Sprachmerkmale (δ1, δ2, δ3, ... δn) des Merkmalsvektors (μ) zu Bewegungsmustern (ε1, ε2, ε3, ... εn) durch eine Rechnereinheit (40), wobei die Zuordnung der Sprachmerkmale (δ1, δ2, δ3, ... δn) zu Bewegungsmustern (ε1, ε2, ε3, ... εn) über direktes Feature-Mapping erfolgt; f) Formen eines Bewegungsablaufes (γ) durch die Aneinanderreihung der Bewegungsmuster (ε1, ε2, ε3, ... εn); g) Übertragung des Bewegungsablaufes (γ) auf einen Avatar (50); wobei die Sprachmerkmale (δ1, δ2, δ3, ... δn) prosodische und/oder segmentale und/oder suprasegmentale Merkmale sind, dadurch gekennzeichnet, dass die Zeitfenster der Sprachsignale anhand von mehreren Geräuschmodellen verglichen werden und die Signalart mit der größten Übereinstimmung dem entsprechenden Signalabschnitt zugeordnet wird.

Description

  • Die Erfindung betrifft ein Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern.
  • Als Stand der Technik wurden die zwei folgenden Schriften aufgefunden.
  • Die DE 602 10 295 T2 beschreibt ein Verfahren zur Feststellung emotionaler Erregung eines Probanden durch Sprachanalyse.
  • Die DE 699 35 909 T2 beschreibt ein Informationsverarbeitungsgerät, eine tragbare Einrichtung, ein Informationsverarbeitungsprozeduren speicherndes Aufzeichnungsmedium und ein Informationsverarbeitungsverfahren, welches auf unterschiedliche Arten auf einer Informationseinrichtung wie beispielsweise Mobiltelefonen und Personalcomputer angewendet werden kann.
  • Ausgehend von diesem Stand der Technik ist es die Aufgabe der vorliegenden Erfindung ein Verfahren bereit zu stellen, mit welchem aus einer Spracheingabe auf eine Bewegung geschlossen werden kann.
  • Die der Erfindung zugrunde liegende Aufgabe wird in einem ersten Aspekt durch ein Verfahren gelöst, bei dem eine Spracheingabe in ein Sprachanalysesystem eingebracht wird, die Spracheingabe in ein erstes Sprachsignal durch eine Spracherfassungseinheit transformiert wird, ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen durch eine Sprachanalyseeinheit erstellt wird und eine Zuordnung der Sprachmerkmale des Merkmalsvektors zu Bewegungsmustern durch eine Rechnereinheit durchgeführt wird.
  • Unter Spracheingabe versteht man im Sinne dieser Anmeldung jede Wiedergabe von Phonemen (Lauten) und/oder Wörtern und/oder Sätzen einer Person. Des Weiteren können unter einer Spracheingabe auch Laute von Tieren verstanden werden. Meist handelt es sich jedoch bei der Spracheingabe entweder um eine diskrete Spracheingabe, d. h. eine deutliche bewusste Eingabe von aneinander gereihten Wörtern mit Pausen zwischen den einzelnen Wörtern oder um eine kontinuierliche Spracheingabe, bei welcher die einzelnen Wörter ineinander übergehen. Die Spracheingabe kann Wörter aus sämtlichen Sprachen, Dialekten, Akzenten umfassen. Insbesondere kann eine Spracheingabe eine Voice Message sein. Bevorzugt wird diese Voice Message über das Sprachanalysesystem erfasst.
  • Unter Sprachanalysesystem im Sinne dieser Anmeldung versteht man eine Kombination aus Hardware und Software, mit welcher die Emotion einer Spracheingabe, sowie der sprachliche Inhalt analysiert werden und in verbale und/oder nonverbale Kommunikation und/oder Bewegungsmuster übersetzt wird.
  • Das Sprachanalysesystem besteht bevorzugt aus einer Spracherfassungseinheit und/oder Vorverarbeitungseinheit und/oder einer Hauptverarbeitungseinheit und/oder einer Sprachanalyseeinheit und/oder einem Speicher und/oder einer Rechnereinheit.
  • Diese genannten Komponenten liegen als Hardware und/oder Software als Teil des Sprachanalysesystems vor. Bevorzugt sind die Hardware und/oder die Software des Sprachanalysesystem in einer Einheit zusammengefasst, d. h. dass die oben genannten Komponenten sich beispielsweise alle auf einem PC befinden. Besonders bevorzugt ist die Hardware des Sprachanalysesystem auf verschiedenen Einheiten aufgeteilt. Beispielsweise fungiert der PC des Users nur als Webinterface mit einem Mikrophon und einem Bildschirm. Die Vorverarbeitungseinheit, die Sprachanalyseeinheit, der Speicher und die Rechnereinheit des Sprachanalysesystems sind beispielsweise auf einem Server untergebracht.
  • Mit der Spracherfassungseinheit wird die Spracheingabe in ein erstes Sprachsignal transformiert.
  • Bevorzugt wird zwischen Spracherfassungseinheit und Vorverarbeitungseinheit unterteilt.
  • Ist dies der Fall, wird bei der Spracherfassungseinheit die Spracheingabe (akustisches Signal) von einem Mikrofon (bevorzugt mit Audio-Hardware) aufgenommen und in ein digitales Sprachsignal umgewandelt. Die Spracherfassungseinheit und/oder das Mikrofon sind bevorzugt Bestandteil eines Handys oder eines PCs. Hier wird bevorzugt die Art des Signals erkannt und somit eine Annotation von Signalabschnitten vorgenommen und bspw. das Signal als Sprache erkannt und/oder Geräusche (bspw. Stille, Musik, Hintergrundgeräusche) erkannt.
  • Die Vorverarbeitungseinheit umfasst bevorzugt eine „Voice Activity Detection”. Hier werden/wird bevorzugt die Annotation von Signalabschnitten erkannt und/oder Sprache erkannt und/oder Geräusche (bspw. Stille, Musik, Hintergrundgeräusche) erkannt.
  • Des Weiteren umfasst das Sprachanalysesystem bevorzugt eine Hauptverarbeitungseinheit, welche sich in eine erste Hauptverarbeitungseinheit und eine zweite Hauptverarbeitungseinheit unterteilen lässt. Die erste Hauptverarbeitungseinheit übernimmt die Analyse verbaler Eigenschaften des Sprachsignals. Die zweite Hauptverarbeitungseinheit übernimmt die Analyse von nonverbalen Eigenschaften des Sprachsignals (bspw. Emotionen, Ausdruck).
  • Mit der Sprachanalyseeinheit, bzw. einer ersten Signalverarbeitung (VAD) wird ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen erstellt. Auf dem Speicher ist bevorzugt eine Referenzliste abgelegt, auf welcher einzelne Sprachmerkmale oder die Gesamtheit der Sprachmerkmale eines Zeitfensters einem Bewegungsmuster und/oder einem Wort und/oder einem Gebärdenzeichen zugeordnet sind/ist.
  • Des Weiteren sind auf dem Speicher bevorzugt Modelle in Form von „Support Vector Machines” oder „Hidden Markov Models” oder „Gaussian Mixture Models” oder abgelegt. Diese logischen Modelle dienen der Zuordnung von Sprachmerkmalen zu Bewegungsmustern, wobei die Logischen Modelle mit der Rechnereinheit verknüpft sind. Die Rechnereinheit stellt bevorzugt die Rechenleistung für die logischen Modelle zur Verfügung. Als logisches Modell ist bevorzugt auch die Referenzliste anzusehen.
  • Das Hidden Markov Model (HMM) ist ein stochastisches Modell, das sich durch Zufallsprozesse beschreiben lässt. Die Aufgabe besteht bevorzugt darin, aus einer Sequenz eines Sprachsignals bzw. Merkmalsvektors in zufälliger Weise, nach einem bestimmten Zufallsprozess, auf ein Bewegungsmuster zu schließen.
  • Eine Support Vector Machine wird bevorzugt als Klassifikator eingesetzt. Ausgangsbasis für eine solche Support Vector Machine ist eine Menge von Objekten (eine Objekt besteht aus einem oder mehreren Sprachsignalen), für die jeweils bekannt ist, welchen Bewegungsmerkmalen sie zugehören. Jedes Objekt wird durch einen Merkmalsvektor repräsentiert. Aufgabe der Support Vector Machine ist es die Objekte zu klassifizieren, d. h. Bewegungsmerkmalen zuzuordnen. Auch Objekte, die nicht genau den erkannten Objekten (Sprachsignalen) entsprechen, werden dadurch möglichst zuverlässig klassifiziert, d. h. Bewegungsmustern zugeordnet.
  • Die Rechnereinheit trägt zur Verarbeitung der Sprachsignale bzw. des Merkmalsvektors bzw. der Sprachmerkmale bei und ordnet die Sprachmerkmale bevorzugt über die abgespeicherte Referenzliste oder über Feature-Mapping entweder einem Bewegungsmuster und/oder einem Wort und/oder einem Gebärdenzeichen zu.
  • In einem weiteren Schritt, der der Spracheingabe in das Sprachanalysesystem bevorzugt nachgeschaltet ist wird die Spracheingabe in ein erstes Sprachsignal durch eine Spracherfassungseinheit transformiert.
  • Als Sprachsignal im Sinne dieser Anmeldung versteht man nicht das analoge Signal der Spracheingabe, sondern das digitale Signal der Spracheingabe. Das Sprachsignal ist eine digitale Bitfolge, was von den elektronischen Komponenten des Sprachanalysesystems verarbeitet wird.
  • In dem oben genannten Schritt wird das diskrete analoge Signal (zeitdiskret oder wertediskret) der Spracheingabe abgetastet und digitalisiert. Es entsteht eine elektronisch verarbeitbare Bitfolge (erstes Sprachsignal). In diesem Schritt werden bevorzugt Umgebungsgeräusche oder Rauschen oder Musik oder Stille erkannt. Diese Information wird dem Merkmalsvektor bevorzugt hinzugefügt.
  • Bevorzugt wird die Dauer des Sprachsignals, bzw. die Dauer der Spracheingabe gemessen und auf einem Speicher gespeichert. Auf den Speicher sind bevorzugt Modelle für die zu erkennenden Arten des Signals, bspw. Geräusche, Hintergrundgeräusche, Sprache, Musik, Stille, abgelegt. Mit diesen Modellen wird bevorzugt jedes Zeitfenster des Signals verglichen und die Signalart mit der größten Übereinstimmung wird dem entsprechenden Signalabschnitt zugeordnet.
  • In einem weiteren Schritt wird ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen durch eine Sprachanalyseeinheit erstellt.
  • Unter einer Sprachanalyseeinheit im Sinne dieser Anmeldung versteht man eine logische Einheit des Sprachanalysesystems. Die Sprachanalyseeinheit extrahiert aus dem Sprachsignal die Sprachmerkmale, die dem Sprachanalysesystem bekannt sind und formt daraus einen Merkmalsvektor. Unter Sprachanalyseeinheit können die oben genannten logischen Modelle angesehen werden, also bspw. SVM, HMM, GMM.
  • Als bekannte Sprachmerkmale werden diejenigen eingestuft, die auf einem Speicher des Sprachanalysesystems abgelegt sind, bevorzugt in einer Referenzliste auf dem Speicher des Sprachanalysesystems abgelegt sind. Als Referenzliste ist bevorzugt keine tatsächliche Liste mit Spalten und Zeilen anzusehen, sondern eine logische Einheit, welche nach Maßgabe einer Art Liste bestimmte Sprachmerkmale bestimmten Bewegungsmustern zuordnet.
  • Der Merkmalsvektor ist eine Signalfolge, welche aus Sprachmerkmalen besteht, welche dem Sprachanalysesystem bekannt sind. Bevorzugt umfasst der Merkmalsvektor nicht nur eine Sammlung von einzelnen bekannten Sprachmerkmalen, sondern auch eine zeitliche Zuordnung zu jedem Sprachmerkmal. Das heißt, die im Merkmalsvektor dargestellten Sprachmerkmale sind bevorzugt chronologisch geordnet.
  • Unter Sprachmerkmal versteht man jegliche physikalisch messbare Größe des Sprachsignals, welche zur Bewertung der in der Spracheingabe enthaltenen sprachlichen Information und/oder enthaltenen emotionalen Färbung (Emotion) und/oder enthaltenen stimmlichen Ausdrucks ausgewertet werden kann.
  • Diese physikalisch messbaren Größen des Sprachsignals können sein z. B. Grundfrequenz und/oder Energie und/oder Dauer und/oder Tonhöhe und/oder Lautheit und/oder Signalenergie und/oder spektrale Koeffizienten und/oder cepstrale Koeffizienten und/oder Formanten und/oder Noise-to-Harmonic-Ration und/oder deren Derivate, unter anderem ergänzt durch weitere prosodische Merkmale wie z. B. Intonation (Phonetik) und/oder Akzent und/oder Betonung und/oder Sprechpausen und/oder Sprechrhythmus und/oder Sprechtempo und/oder Quantität.
  • Des Weiteren ist es möglich Sprachmerkmale wie die Welligkeiten und akkumulierten absoluten Beschleunigungen der Sprachmelodie und der Signalenergie, Segmentdauern und Maße der Sprechgeschwindigkeit zu bestimmen. Auch ist es möglich Sprachmerkmale wie das Maß der Sprachmelodie oder die Fluktuation der Spracheingabe oder die Intensität der Spracheingabe zu bestimmen. Bevorzugt werden die Sprachmerkmale segmental gewonnen, d. h. durch Analyse von einzelnen Lauteinheiten innerhalb von begrenzten Zeitfenstern der Spracheingabe, besonders bevorzugt werden Sprachmerkmale auch supra-segmental, d. h. Zeitfensterübergreifend bzw. Lautsegmentübergreifend bis hin zur gesamten Analyse des gesamten Sprachsignals gewonnen.
  • Bevorzugt sind die Sprachmerkmale prosodische Merkmale.
  • In einem weiteren Schritt werden diese Sprachmerkmale des Merkmalsvektors einzelnen Bewegungsmustern durch eine Rechnereinheit zugeordnet. Bevorzugt wird einem Sprachmerkmal ein Bewegungsmuster zugeordnet, besonders bevorzugt wird mehreren Sprachmerkmalen ein Bewegungsmuster zugeordnet, am meisten bevorzugt werden mehreren Sprachmerkmalen mehrere Bewegungsmuster zugeordnet.
  • Diese Bewegungsmuster sind bevorzugt emotionalisierte Animationsdaten und/oder verbale und non-verbale Animationsdaten. Unter Bewegungsmustern versteht man beispielsweise Elemente der Gestik und/oder Elemente der Mimik und/oder Elemente des Blicks (Augenbewegung, Augenposition, Puppillenweite, Augenlidbewegung, Zwinkern, usw.) und/oder Bewegungen des Mundes, der Lippen, der Zunge, des Kiefers. Bevorzugt sind die Bewegungsmuster als ausführbare Programme hinterlegt, besonders bevorzugt als Animationsdaten. Diese Programme oder Animationsdaten sind bevorzugt auf jegliche Avatare anwendbar, bevorzugt schon auf einen Avatar zugeschnitten. Die Bewegungsmuster sind bevorzugt vorgefertigte Bewegungsschemata, welche auf sämtliche animierte Computerwesen frei übertragbar sind.
  • Unter Bewegungsmustern werden bevorzugt alle Bewegungen der nonverbalen Kommunikation oder der Gebärdensprache (also Gebärdenzeichen) gesehen. Die Bewegungsmuster sollen insbesondere den emotionalen Gehalt der Spracheingabe, des Sprachsignals, der Sprachmerkmale wiedergeben bzw. Emotion vermitteln. Die gewonnenen Sprachmerkmale aus der Spracheingabe werden bevorzugt durch direktes Feature-Mapping Bewegungsmustern bzw. Animationsparametern zugeordnet. Bevorzugt werden Bewegungsmuster per Zufallsgenerator einem oder mehreren Sprachmerkmalen zugeordnet.
  • Bevorzugt wird jedem Sprachmerkmal ein Zeitpunkt zugeordnet. Die Zeit beginnt bevorzugt ab dem Start-Zeitpunkt zu laufen, an dem das erste Sprachsignal detektiert wird, besonders bevorzugt, wenn der Start-Zeitpunkt manuell ausgelöst wird, z. B. durch drücken eines Knopfes am Sprachanalysesystem oder durch anklicken eines Buttons, dargestellt auf dessen Bildschirm. Die Zeit stoppt bevorzugt wenn das Sprachsignal verschwindet, besonders bevorzugt nach einer einstellbaren Nachlaufzeit nach dem Ende des Sprachsignals, am meisten bevorzugt wird die Zeit manuell gestoppt. Die Zuordnung einzelner, detektierter Sprachmerkmale zu einzelnen Zwischenzeitpunkten erfolgt entlang der Zeitachse des aufgezeichneten Sprachsignals.
  • Bevorzugt werden die Bewegungsmuster einzelnen Sprachmerkmalen in einer Referenzliste gegenüber gestellt. Die Referenzliste ist eine auf dem Speicher des Sprachanalysesystems abgelegte Datei, welche eine Gegenüberstellung von Sprachmerkmalen und zugehörigen Bewegungsmustern beinhaltet. Die Referenzliste ist eine wichtige Bezugsdatei für die Sprachanalyseeinheit. Die Sprachanalyseeinheit orientiert sich bevorzugt an der Referenzliste, wenn dieser nach bekannten Sprachmerkmalen sucht. Des Weiteren wird der Merkmalsvektor bevorzugt mit den Sprachmerkmalen der Referenzliste verglichen. Da jedem Sprachmerkmal in der Referenzliste ein Bewegungsmuster zugeordnet ist, kann auch einem bekannten detektierten Sprachmerkmal des Sprachsignals ein Bewegungsmuster zugeordnet werden.
  • Die einem Sprachmerkmal zugeordneten Zeitpunkte werden bevorzugt auf das zugehörige Bewegungsmuster übertragen. Die Referenzliste ist bevorzugt auf einem Speicher eines PCs abgelegt, besonders bevorzugt auf einem Speicher eines Servers, besonders bevorzugt auf dem Speicher des Sprachanalysesystems. Dabei kann ein Sprachmerkmal einem Bewegungsmuster zugeordnet sein, bevorzugt einer Kombination aus Sprachmerkmalen und einem Bewegungsmuster zugeordnet sein, besonders bevorzugt einer Kombination aus Sprachmerkmalen und einer Kombination aus Bewegungsmustern zugeordnet sein.
  • Bei der Erstellung der Referenzliste wird bevorzugt darauf geachtet, dass eine Kombination an Sprachmerkmalen eine bestimmte Emotion vermittelt, welche durch ein oder mehrere Bewegungsmuster oder durch ein oder mehrere verbale Bewegungsmuster dargestellt werden kann.
  • Bei den gespeicherten Bewegungsmustern sollen bevorzugt Emotionen wie beispielsweise Freude, Lust, Geborgenheit, Liebe, Trauer, Ärger, Glücklichsein, Wohlbehagen, usw. ausgedrückt werden. Das Verfahren soll es ermöglichen übermittelte Emotionen der Spracheingabe zu analysieren und diese Emotionen in Form von aneinandergereihten Bewegungsmustern wiederzugeben.
  • Beispielsweise lässt sich die Intonation der Spracheingabe aufgrund der Grundfrequenz dieser Spracheingabe beschreiben. Ausgehend von der Grundfrequenz lässt sich die Intonation, also der Tonhöhenverlauf ausgehend von dieser Grundfrequenz, innerhalb eines Satzes oder Sprechaktes feststellen. Über die Intonation lässt sich beispielsweise die verwendete Ironie oder der Ausdruck von Überraschung aus der Spracheingabe extrahieren. Lässt die Intonation der Spracheingabe, bzw. lassen die Sprachmerkmale beispielsweise auf einen Ausdruck von Überraschung schließen, so würde die Rechnereinheit nun diese konkreten Sprachmerkmale mit der Referenzliste abgleichen und das diesen Sprachmerkmalen zugeordnete Bewegungsmuster ermitteln. Das Bewegungsmuster wird bevorzugt abgespeichert besonders bevorzugt in Echtzeit wiedergegeben (bspw. Auf einem Bildschirm).
  • Den Sprachmerkmalen, welchen beispielsweise die Emotion „überrascht sein” entnommen wurde, werden damit einem Bewegungsmuster zugeordnet, welches Überraschung vermittelt. Das ermittelte, zugeordnete Bewegungsmuster wäre beispielsweise komponiert aus den Elementen: weit aufgerissene Augen, hochgezogene Augenbrauen, runzlige Stirn, offener Mund. Beispielsweise werden verbale aus audiovisuellen Sprachaufnahmen trainiert, non-verbale Bewegungen werden bevorzugt von einem Animator designt.
  • Die (Sprachmerkmale) prosodischen Dauermerkmale wie beispielsweise Rhythmus, Sprechgeschwindigkeit, Pausen, Gedehntheit usw. lassen sich durch Messung der zeitlichen Länge dieser Signalabschnitte oder bspw. durch Bildung von Mittelwerten (mittlere Sprechgeschwindigkeit) messen. Aus diesen Sprachmerkmalen lässt sich beispielsweise ableiten ob der Sprecher der Spracheingabe beispielsweise aufregt war (schneller, ununterbrochener Sprachfluss) oder ängstlich war (Stottern, stakkatoähnlicher Sprachaufbau) oder nachdenklich war (lange Sprechpausen, Gedehntheit der Wörter). Wird durch die Sprachmerkmale bspw. die Gemütsregung „Aufgeregtheit” detektiert, so würde sich das zugeordnete Bewegungsmuster bspw. aus den folgenden Komponenten zusammensetzen: schnelle Mundbewegung, Wippen mit den Füßen, schnelles Heben und Senken des Brustkorbes.
  • Sprachmerkmale werden bevorzugt den zu erkennenden Emotionen durch trainieren von vorhandenem Sprachmaterial, bei dem die ausgedrückte Emotion bekannt ist, zugeordnet.
  • In einem bevorzugten weiteren Schritt werden die Bewegungsmuster durch Aneinanderreihung in einen Bewegungsablauf geformt. Bevorzugt kann ein Vorspann und/oder ein Abspann gewählt werden. Dieser Vorspann (oder Abspann) besteht ebenfalls aus Bewegungsmustern, welche aber nicht aufgrund der Spracheingabe generiert werden. Diese Bewegungsmuster sind durch den User (Sprecher) frei wählbar und werden dem Bewegungsablauf vor- bzw. nachgeschaltet. Nach dem die Sprachmerkmale über die Dauer der Spracheingabe ausgewertet wurden und diesen einzelnen Sprachmerkmalen über die Dauer der Spracheingabe Bewegungsmuster zugeordnet wurden, werden diese Bewegungsmuster in einen fließenden Bewegungsablauf durch die Rechnereinheit umgeformt. Das Aneinanderreihen der einzelnen Bewegungsmuster erfolgt dabei bevorzugt nach den Zeitpunkten die den Bewegungsmustern zugeordnet wurden. Der generierte Bewegungsablauf ist bevorzugt genauso lang, wie die aufgezeichnete Spracheingabe, bspw. auch zuzüglich des möglichen Vor- und Abspanns.
  • In einem weiteren Schritt wird dieser Bewegungsablauf dann auf einen Avatar übertragen. Als Avatar im Sinne der Anmeldung versteht man eine künstliche Person oder ein künstliches Tier als grafischen Stellvertreter des Sprechers der Spracheingabe in einer virtuellen Welt (also ein virtueller Charakter). Der Avatar ist beispielsweise eine dreidimensionale animierte Figur, welche beispielsweise mit einem CAD-Programm von einem User selbst erstellt wird oder welche beispielsweise als Charakter bereits besteht (Shrek, Tom & Jerry, Wall-E, ...). Der Avatar kann von dem Sprecher (User) bevorzugt frei auf einer Webseite gewählt werden, besonders bevorzugt wird dem Sprecher aufgrund seiner Spracheingabe, bzw. der zugehörigen Sprachmerkmale ein Avatar zugewiesen.
  • Der Bewegungsablauf wird bevorzugt auf den Avatar übertragen, sodass dieser die (verbalen) Bewegungsmuster, sowie die Emotion der Spracheingabe in Form von nonverbaler Kommunikation widerspiegelt. Einen Avatar mit einem zugewiesenen Bewegungsablauf bezeichnet man bevorzugt als Animationsskript.
  • Bevorzugt agiert der Avatar in einer „Szene”, die ein Set, also Szenenelemente, wie Hintergründe, Props und Accessoires, sowie Kameraeinstellungen und Beleuchtungssituationen enthält. Bevorzugt sind nicht nur der Avatar, sondern auch diese Szenenelemente frei wählbar. Die Szenenelemente werden bevorzugt über einen Zufallsgenerator bestimmt. Aus diesen Szenenelementen wird ein Szenenskript erzeugt, welches bevorzugt in Kombination mit dem schon erzeugten Animationsskript den visuellen Teil der späteren in weiteren Schritten zu erzeugenden Video-Botschaft (Message) darstellt.
  • In einem weiteren bevorzugten Schritt wird der Bewegungsablauf des Avatars mit dem ersten Sprachsignal überlagert. D. h. dass das Sprachsignal bevorzugt als Tonspur unter den Bewegungsablauf des Avatars gelegt wird, bevorzugt unter die Filmdatei oder die Bildsequenz. Dies hat den Effekt, dass die Emotion der verbalen und/oder nonverbalen Kommunikation durch den Bewegungsablauf des Avatars vermittelt wird und das dazugehörige Sprachsignal mit der Stimme des Sprechers darüber gelagert wird. Bevorzugt wird die Spracheingabe lippensynchron von dem Avatar wiedergegeben. Des Weiteren wird bevorzugt der emotionale Ausdruck synchron zu der im Sprachsignal enthaltenen Emotion wiedergegeben. Besonders bevorzugt erfolgen die Wiedergabe der Spracheingabe und die dazugehörige Bewegung des Avatars in Echtzeit. Das Sprachsignal wird bevorzugt als Sprachskript abgespeichert.
  • Die Zusammenfügung von Szenenskript, Animationsskript und Sprachskript übernimmt bevorzugt eine 2D Applikation oder eine 3D Applikation, welche daraus bevorzugt ein Renderfile erzeugt.
  • In einem weiteren bevorzugten Schritt wird der Bewegungsablauf des Avatars und/oder das darüber gelagerte Sprachsignal in eine Filmdatei gerendert. Dies bedeutet bevorzugt, dass das durch die oben genannte Applikation entstandene Renderfile in eine Bildinformation umgesetzt wird. Bevorzugt entsteht ein Videoclip von einem Avatar, welcher eine der gängigen Filmdateien wie beispielsweise DIVX, XVID, AVI, RM, RMVB, usw. umfasst. Der Bewegungsablauf kann auch eine Bildsequenz sein. Zwischen den einzelnen Bildern der Sequenz kann bevorzugt die Darstellungszeit eines Bildes eingestellt werden. Die Darstellungszeit ist die Zeit, die das Bild bis zum Wechsel des nächsten Bildes für den Betrachter zu sehen ist.
  • In einem weiteren bevorzugten Schritt wird die Filmdatei oder Sequenz elektronisch versandt. Die Filmdatei kann bevorzugt Teil einer E-Mail sein oder Anhang einer E-Mail sein oder Teil einer MMS sein oder Teil eines jeglichen gängigen elektronischen Versandmediums sein. Bevorzugt wird die Datei als SMS, in einer SMS als Downloadlink, als Videocall, in einer Applikation, als Applikation versandt.
  • Bevorzugt entsteht eine multimediale Botschaft, welche in allen Kanälen des WorldWideWeb oder der Mobiltelefonie versandt werden kann. Des Weiteren kann die Videodatei im Internet anstatt eines Forumsbeitrages gepostet werden oder in einem Internetblog angebracht werden oder als Statusinformation in ein Instant Messenger-System oder ein Netzwerksystem (wie beispielsweise Facebook, Xing, MySpace, usw.) eingepflegt werden.
  • In einem weiteren bevorzugten Schritt wird das erste Sprachsignal in ein zweites Sprachsignal umgewandelt. Durch die Umwandlung kann die Klangfarbe sowie die Sprachcharakteristik geändert werden. Beispielsweise bleiben der Sinngehalt und die Wortwahl der Spracheingabe identisch, jedoch bekommt der Zuhörer den Eindruck, dass beispielsweise eine prominente Persönlichkeit die Spracheingabe verfasst hat. Dadurch kann beispielsweise der Bewegungsablauf des Avatars mit einer Stimme von Arnold Schwarzenegger, Cameron Diaz, usw. überlagert werden. Dadurch wird der Bewegungsablauf des Avatars mit dem umgewandelten zweiten Sprachsignal überlagert.
  • In einem weiteren bevorzugten Schritt werden einzelne oder alle Bewegungsmuster durch einen Multiplikator verstärkt. Dadurch kann die Emotion, welche der Avatar vermitteln soll in sämtliche Richtungen verstärkt werden. Beispielsweise wird durch den Multiplikator das Bewegungsmuster „Grinsen” in ein überbreites Grinsen verwandelt.
  • In einer weiteren bevorzugten Ausführungsform lässt sich der Avatar welcher sich nach seinem zugeordneten Bewegungsablauf bewegt auf einem Bildschirm abspielen. Bevorzugt wird das zugehörige Sprachsignal über einen Lautsprecher wiedergegeben. Denkbar ist auch, dass gleichzeitig oder anstatt des Sprachsignals ein Untertitel auf dem Bildschirm angezeigt wird. Der Untertitel wird bevorzugt durch das Sprachanalysesystem erzeugt, wobei den einzelnen Sprachmerkmalen keine Bewegungsmuster, sondern Wörter oder Silben zugeordnet werden.
  • In einer weiteren bevorzugten Ausführungsform erfolgt die Zuordnung der Sprachmerkmale des Merkmalsvektors zu Gebärden durch Abgleich mit einer Gebärdensammlung durch die Rechnereinheit. Unter einer Gebärde im Sinne der Anmeldung versteht man ein durch eine Bewegung ausgedrücktes Wort der Schriftsprache, also ein Zeichen der Taubstummensprache.
  • Weitere vorteilhafte Ausgestaltungen finden sich in der Figurenbeschreibung. Die Figur zeigt:
  • 1 ein Ablaufschema zum Aufnehmen und Verschicken einer Videobotschaft
  • In 1 wird ein Ablaufschema eines Verfahrens zum Aufnehmen und Verschicken einer Videobotschaft beschrieben.
  • Der User besucht über seinen PC 150 eine „Zoobe” Website 120. Auf der Website 120, welche auf dem Bildschirm 160 des PCs 150 angezeigt wird, sind verschiedene Avatare abgebildet, von welchen sich der User einen Avatar 50 aussucht und diesen mit einem Klick bestätigt. Danach wählt der User vorgefertigte, auf dem Bildschirm 160 angezeigte, Szenenelemente 130 für den Avatar 50 aus, also das Szenenskript. In diesem Fall soll der Avatar 50 auf einer Bühne auftreten, wobei ein Spotlight direkt auf ihn gerichtet wird. Es werden weiter auf dem Bildschirm 160 Vor- und ein Abspanne 170 angezeigt, welche durch den User gewählt werden können. In diesem Fall werden der folgende Vor- und Abspann gewählt. Vorspann: Der Avatar 50 läuft in das Bild bleibt stehen und wendet sich dem Betrachter zu. Abspann: Der Avatar 50 verlässt das Bild.
  • Danach klickt der User auf den Start Button, womit die Aufzeichnung der Spracheingabe α beginnt. Durch den Klick auf den Start Button wird das Mikrophon 140 am PC 150 aktiviert. Der User spricht seine Voicemessage (Spracheingabe α) und beendet die Aufzeichnung (Spracheingabe α), indem er den Stop Button anklickt. Die Voicemessage hat eine Dauer t1 von x Sekunden. Die Nachricht beinhaltet das Wort: „Party!” Die Nachricht wird mit lautstarker, freudiger Stimme aufgesprochen.
  • Die Voicemessage (Spracheingabe α) wird in Form eines Sprachsignals β1 (A/D-umgewandelt durch die Audio-Hardware 200) direkt auf den Server 110 übertragen, auf welchem auch die „Zoobe” Website gespeichert ist. Die Spracheingabe α wird durch eine Spracherfassungseinheit in ein erstes Sprachsignal β1 transformiert.
  • Aus dem ersten Sprachsignal β1 wird ein Merkmalsvektor μ mit bestimmten Sprachmerkmalen durch eine Sprachanalyseeinheit 30 erstellt. Die Sprachanalyseeinheit 30 ist Teil des Servers 110. Die oben genannten Spracheigenschaften (bspw. spektrale Koeffizienten) werden für alle Zeitfenster des Sprachsignals berechnet und in chronologischer Reihenfolge abgelegt. Es wird die Zweisilbigkeit der Nachricht erkannt. Auch wird das Phonem „a” mit seinem lang gezogenen Charakter erkannt. Genauso das „y”.
  • Es erfolgt die Zuordnung der Sprachmerkmale δ1, δ2 des Merkmalsvektors μ zu bestimmten Bewegungsmustern (Animationsdaten). Dabei werden die auf Speicher 70 in der Referenzliste 80 gespeicherten Bewegungsmuster ε1, ε2 den detektierten Sprachmerkmalen δl, δ2 zugewiesen. Dem lang gezogenen Phonem „a”, bzw. dessen Merkmalen wird das Bewegungsmuster ε1 weit geöffneter Mund zugeordnet. Dem „y” ist ein leicht geöffneter, leicht gespreizter Mund als Bewegungsmuster ε2 zugeordnet, bei dem die Zähne zu sehen sind. Diese Animationsdaten (Bewegungsmuster ε1 und ε2) Formen durch Aneinanderreihung den Bewegungsablauf γ.
  • Der Bewegungsablauf γ wird nun auf den ausgewählten Avatar 50 übertragen mit Hilfe der Rechnereinheit 40 übertragen. Der Avatar 50 mit seinem zugewiesenen Bewegungsablauf γ bildet das Animationsskript 180. Der Avatar spiegelt den sprachlichen Inhalt (das Gesagte-Spracheingabe) und die Emotion, der Spracheingabe in Form von nonverbaler, bzw. verbalen Kommunikation wider.
  • Über die Rechnereinheit 40 wird das gewählte Szenenskript 130, das automatisch erstellte Animationsskript 180 und der Vor- und Abspann 170 verarbeitet. Dabei wird der Bewegungsablauf γ an die Eingabezeit t1 der Spracheingabe angepasst. Der Bewegungsablauf γ wird mit dem aufgezeichneten Sprachsignal (β1) in identischer Länge t1 unterlegt.
  • Die Daten werden über den Renderer 100 gerendert und die entstandene Filmdatei, bzw. Videosequenz in einem Fenster 200 auf dem Bildschirm 160 des User-PCs 150 angezeigt. Der User bestätigt nun die Filmdatei. Der User gibt jetzt die Telefonnummern und/oder die Emailadressen der Empfänger in das auf der Website dafür vorgesehene Eingabefeld 190 ein und klickt auf versenden. Die Nachricht erscheint nun als Email oder MMS oder SMS oder SMS mit Downloadlink (auf welchem die Filmdatei hinterlegt ist) oder Applikation oder Videocall auf den Empfängergeräten (Handys oder andere Engeräte) der Empfänger.
  • Der Empfänger sieht nun den Inhalt der Message wie folgt: Der ausgewählte Avatar 50 des Users, betritt bspw. den Bildschirm des Empfängergerätes, positioniert sich in der Mitte des Bildschirmes. Der Spot richtet sich auf den Avatar. Der Empfänger sieht, dass der Avatar auf einer Bühne steht. Der Avatar teilt mit freudigem Ausdruck in Form des Bewegungsablaufes γ seine Botschaft „Party!” mit der Stimme des Users mit. Dabei folgen die Mundbewegungen dem gesprochenen Wort. Bspw. öffnet sich dabei der Mund bei der Silbe „Par”. Der Mund schließt sich bei der Silbe „ty” leicht und formt ein grinsen. Danach verlässt der Avatar die Bühne.
  • Bezugszeichenliste
  • α
    Spracheingabe
    β1
    erstes Sprachsignal
    β2
    zweites Sprachsignal
    γ
    Bewegungsablauf des Avatars
    δ
    Sprachmerkmal
    ε
    Bewegungsmuster
    μ
    Merkmalsvektor
    10
    Sprachanalysesystem
    20
    Vorverarbeitungseinheit
    30
    Sprachanalyseeinheit
    40
    Rechnereinheit
    50
    Avatar
    60
    Filmdatei
    70
    Speicher
    80
    Referenzliste
    90
    Multiplikator
    100
    Renderer
    110
    Server
    120
    Website „ZOOBE”
    130
    Szenenskript
    140
    Mikrophon
    150
    PC
    160
    Bildschirm
    170
    Abspann, Vorspann
    180
    Animationsskript
    190
    Fenster
    200
    Audio-Hardware

Claims (8)

  1. Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern, umfassend die folgenden Schritte: a) Spracheingabe (α) in ein Sprachanalysesystem (10); b) Transformation der Spracheingabe (α) in ein erstes Sprachsignal (β1) durch eine Spracherfassungseinheit; d) Erstellen eines Merkmalsvektors (μ) aus dem ersten Sprachsignal (β1) mit Sprachmerkmalen (δ1, δ2, δ3, ... δn) durch eine Sprachanalyseeinheit (30); e) Zuordnung der Sprachmerkmale (δ1, δ2, δ3, ... δn) des Merkmalsvektors (μ) zu Bewegungsmustern (ε1, ε2, ε3, ... εn) durch eine Rechnereinheit (40), wobei die Zuordnung der Sprachmerkmale (δ1, δ2, δ3, ... δn) zu Bewegungsmustern (ε1, ε2, ε3, ... εn) über direktes Feature-Mapping erfolgt; f) Formen eines Bewegungsablaufes (γ) durch die Aneinanderreihung der Bewegungsmuster (ε1, ε2, ε3, ... εn); g) Übertragung des Bewegungsablaufes (γ) auf einen Avatar (50); wobei die Sprachmerkmale (δ1, δ2, δ3, ... δn) prosodische und/oder segmentale und/oder suprasegmentale Merkmale sind, dadurch gekennzeichnet, dass die Zeitfenster der Sprachsignale anhand von mehreren Geräuschmodellen verglichen werden und die Signalart mit der größten Übereinstimmung dem entsprechenden Signalabschnitt zugeordnet wird.
  2. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: i) Rendern des Bewegungsablaufes (γ) des Avatars (50) in eine Filmdatei (60) oder eine Bildsequenz über einen Renderer (100);
  3. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: j) Elektronischer Versandt der Filmdatei (60) oder Bildsequenz;
  4. Verfahren nach einem der vorherigen Ansprüche, wobei die Bewegungsmuster (ε1, ε2, ε3, ... εn) gestische Elemente und/oder mimische Elemente und/oder Blickelemente beinhalten.
  5. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: b1) Geräusche und/oder die Annotation von Signalabschnitten des Sprachsignals (β1) werden durch die Vorverarbeitungseinheit erkannt.
  6. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: c) Umwandlung des ersten Sprachsignals (β1) in ein zweites Sprachsignal (β2);
  7. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: h) Überlagern des Bewegungsablaufes (γ) des Avatars (50) mit dem ersten Sprachsignal (β1) oder mit dem umgewandelten zweiten Sprachsignal (β2);
  8. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: e) Verstärken einzelner oder aller Bewegungsmuster (ε1, ε2, ε3, ... εn) durch einen Multiplikator (90);
DE102010012427.3A 2010-03-23 2010-03-23 Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern Expired - Fee Related DE102010012427B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102010012427.3A DE102010012427B4 (de) 2010-03-23 2010-03-23 Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
PCT/EP2011/001424 WO2011116937A1 (de) 2010-03-23 2011-03-22 Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern
EP11714929A EP2572357A1 (de) 2010-03-23 2011-03-22 Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102010012427.3A DE102010012427B4 (de) 2010-03-23 2010-03-23 Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern

Publications (2)

Publication Number Publication Date
DE102010012427A1 DE102010012427A1 (de) 2011-09-29
DE102010012427B4 true DE102010012427B4 (de) 2014-04-24

Family

ID=44310325

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102010012427.3A Expired - Fee Related DE102010012427B4 (de) 2010-03-23 2010-03-23 Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern

Country Status (3)

Country Link
EP (1) EP2572357A1 (de)
DE (1) DE102010012427B4 (de)
WO (1) WO2011116937A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015114216B4 (de) * 2015-08-27 2017-07-06 Til Gmbh Verfahren zur Kontrolle eines Lernerfolges

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
GB2328849A (en) * 1997-07-25 1999-03-03 Motorola Inc System for animating virtual actors using linguistic representations of speech for visual realism.
EP0992933A2 (de) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Verfahren zur direkten Erzeugung realistischer Gesichtsanimation aus Sprache mittels verborgenen Markovmodells
WO2001038959A2 (en) * 1999-11-22 2001-05-31 Talkie, Inc. An apparatus and method for determining emotional and conceptual context from a user input
WO2001050726A1 (en) * 1999-12-29 2001-07-12 Speechview Ltd. Apparatus and method for visible indication of speech
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
WO2003073417A2 (en) * 2002-02-26 2003-09-04 Sap Aktiengesellschaft Intelligent personal assistants
DE60210295T2 (de) * 2001-08-09 2006-12-07 Voicesense Ltd. Verfahren und vorrichtung zur sprachanalyse
DE69935909T2 (de) * 1998-12-24 2008-01-10 Sony Corp. Vorrichtung zur Informationsverarbeitung
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235489A (en) * 1991-06-28 1993-08-10 Sgs-Thomson Microelectronics, Inc. Integrated solution to high voltage load dump conditions
KR101015975B1 (ko) * 2008-07-29 2011-02-23 주식회사 제노웰 Ria 기반 인터페이스를 이용하여 캐릭터 동영상을생성하는 시스템 및 방법
DE102008045128A1 (de) * 2008-09-01 2010-03-04 Volkswagen Ag Informationsvermittlungseinrichtung in einem Fahrzeug zum grafischen Ausgeben von Information unter Verwendung eines an einen Zustand angepassten animierten anthropomorphen Charakters (Avatar)

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
GB2328849A (en) * 1997-07-25 1999-03-03 Motorola Inc System for animating virtual actors using linguistic representations of speech for visual realism.
EP0992933A2 (de) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Verfahren zur direkten Erzeugung realistischer Gesichtsanimation aus Sprache mittels verborgenen Markovmodells
DE69935909T2 (de) * 1998-12-24 2008-01-10 Sony Corp. Vorrichtung zur Informationsverarbeitung
WO2001038959A2 (en) * 1999-11-22 2001-05-31 Talkie, Inc. An apparatus and method for determining emotional and conceptual context from a user input
WO2001050726A1 (en) * 1999-12-29 2001-07-12 Speechview Ltd. Apparatus and method for visible indication of speech
DE60210295T2 (de) * 2001-08-09 2006-12-07 Voicesense Ltd. Verfahren und vorrichtung zur sprachanalyse
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
WO2003073417A2 (en) * 2002-02-26 2003-09-04 Sap Aktiengesellschaft Intelligent personal assistants

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Goran Zoric: "AUTOMATIC LIP SYNCHRONIZATION BY SPEECH SIGNAL ANALYSIS. Dissertation Universität Zagreb (2005) *
Goran Zoric: „AUTOMATIC LIP SYNCHRONIZATION BY SPEECH SIGNAL ANALYSIS. Dissertation Universität Zagreb (2005)
Zoric, G et al.: "Towards Facial Gestures Generation by Speech Signal Analysis Using HUGE Architecture". In: Multimodal Signals: Cognitive and Algorithmic Issues. Hrsg: Esposito, A., Hussain, A. et al. (ISBN: 978-3-642-00524-4). Springer Verlag Berlin, Heidelberg (2009), Seiten 112 - 120. *
Zoric, G et al.: „Towards Facial Gestures Generation by Speech Signal Analysis Using HUGE Architecture". In: Multimodal Signals: Cognitive and Algorithmic Issues. Hrsg: Esposito, A., Hussain, A. et al. (ISBN: 978-3-642-00524-4). Springer Verlag Berlin, Heidelberg (2009), Seiten 112 – 120.

Also Published As

Publication number Publication date
EP2572357A1 (de) 2013-03-27
WO2011116937A1 (de) 2011-09-29
DE102010012427A1 (de) 2011-09-29

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
McKeown et al. The semaine database: Annotated multimodal records of emotionally colored conversations between a person and a limited agent
Vuoskoski et al. Crossmodal interactions in the perception of expressivity in musical performance
Chou et al. NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus
Françoise et al. Vocalizing dance movement for interactive sonification of laban effort factors
Kshirsagar et al. Visyllable based speech animation
Trouvain et al. Laughter
WO2020081872A1 (en) Characterizing content for audio-video dubbing and other transformations
Albrecht et al. Automatic generation of non-verbal facial expressions from speech
Bucy et al. Image bite analysis of presidential debates
Heald et al. Talker variability in audio-visual speech perception
US20210326372A1 (en) Human centered computing based digital persona generation
Priego-Valverde et al. “Cheese!”: a Corpus of Face-to-face French Interactions. A Case Study for Analyzing Smiling and Conversational Humor
Krahmer et al. Audiovisual prosody—introduction to the special issue
Mattheij et al. Mirror mirror on the wall
Pathak et al. Recognizing emotions from speech
Nordstrand et al. Measurements of articulatory variation in expressive speech for a set of Swedish vowels
DE102010012427B4 (de) Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
Wolfe et al. State of the art and future challenges of the portrayal of facial nonmanual signals by signing avatar
Perlman et al. Talking fast: The use of speech rate as iconic gesture
Geiger et al. Perceptual evaluation of video-realistic speech
Kirkland et al. Perception of smiling voice in spontaneous speech synthesis
Burkhardt et al. How should Pepper sound-Preliminary investigations on robot vocalizations
Klessa et al. Paralingua–a new speech corpus for the studies of paralinguistic features
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置

Legal Events

Date Code Title Description
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R082 Change of representative

Representative=s name: DTS MUENCHEN PATENT- UND RECHTSANWAELTE, DE

R081 Change of applicant/patentee

Owner name: ZOOBE GMBH, DE

Free format text: FORMER OWNER: ZOOBE GMBH, 10557 BERLIN, DE

Effective date: 20140407

R082 Change of representative

Representative=s name: DTS MUENCHEN PATENT- UND RECHTSANWAELTE, DE

Effective date: 20140407

Representative=s name: DTS PATENT- UND RECHTSANWAELTE SCHNEKENBUEHL U, DE

Effective date: 20140407

R020 Patent grant now final
R020 Patent grant now final

Effective date: 20150127

R081 Change of applicant/patentee

Owner name: ZOOBE GMBH, DE

Free format text: FORMER OWNER: ZOOBE GMBH, 10719 BERLIN, DE

R082 Change of representative

Representative=s name: DTS PATENT- UND RECHTSANWAELTE SCHNEKENBUEHL U, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee