EP2059926A2 - Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur - Google Patents

Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur

Info

Publication number
EP2059926A2
EP2059926A2 EP07848234A EP07848234A EP2059926A2 EP 2059926 A2 EP2059926 A2 EP 2059926A2 EP 07848234 A EP07848234 A EP 07848234A EP 07848234 A EP07848234 A EP 07848234A EP 2059926 A2 EP2059926 A2 EP 2059926A2
Authority
EP
European Patent Office
Prior art keywords
avatar
state
animation
parameters
elementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP07848234A
Other languages
German (de)
English (en)
Inventor
Laurent Ach
Serge Vieillescaze
Benoît MOREL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LA CANTOCHE PRODUCTION SA
Original Assignee
LA CANTOCHE PRODUCTION SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LA CANTOCHE PRODUCTION SA filed Critical LA CANTOCHE PRODUCTION SA
Publication of EP2059926A2 publication Critical patent/EP2059926A2/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • the present invention relates to a method for animating an avatar in real time from the voice of an interlocutor.
  • the invention finds. a particularly important application although not exclusive, in the field of mobile devices such as mobile phones or more generally personal devices for portable communication or PDA (English initials for Personal Digital Apparatus).
  • Such graphics can then be ⁇ previously integrated the phone and then be referred to when necessary in a telephone conversation.
  • Such a system does not solve the control of facial expressions of the avatar depending on the speaker, especially in a synchronized manner.
  • Also known is a method of animating an entity on a mobile phone consisting of selecting and digitally processing the words of a message from which "visemes" are identified which are used to modify the mouth of the entity when the voice message is output.
  • Such a method in addition to being based on the use of words, and not sounds as such, is limited and gives a mechanical appearance to the visual image of the entity.
  • the present invention aims at providing a method and a system for animating a real-time avatar better than those previously known to the requirements of the practice, in particular in that it allows real-time animation not only of the mouth, but also the body of an avatar on a mobile device of reduced capacity such as a mobile phone, with excellent synchronization of movements.
  • the invention starts with the idea of using the richness of sound and not just the words themselves.
  • the present invention notably proposes a method of animation on a mobile device screen of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor.
  • the sound input signal is converted in real time into an audio and video stream in which on the one hand the movements of the mouth of the avatar are synchronized with the phonemes detected in said sound input signal.
  • at least one other part of the avatar is animated coherently with said signal by changes of attitudes and movements by analysis of said signal, and in that in addition to the phonemes, the signal is analyzed.
  • level 1 parameters namely the periods of silence, the speech periods and / or other elements contained in said sound signal taken from the ( prosody, intonation, rhythm and / or tonic accent, so that the entire avatar moves and seems to speak in real time or substantially in real time in place of the interlocutor.
  • avatars include body and / or arms, neck, legs, eyes, eyebrows, hair, etc., other than the actual mouth. These are therefore not set in motion independently of the signal.
  • the avatar is chosen and / or configured through an on-line service on the Internet;
  • the mobile device is a mobile phone;
  • to animate the avatar we exploit elementary sequences, consisting of images generated by a calculation of 3D rendering, or generated from drawings; elementary sequences are loaded into memory at the beginning of the animation and stored in said memory for the duration of the animation for several simultaneous and / or successive interlocutors;
  • the elementary sequence to be played is selected in real time, according to previously calculated and / or determined parameters;
  • the list of elementary sequences being common to all the avatars that can be used in the mobile device, an animation graph is defined in which each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the elementary sequences connected through the same state to be visually compatible with the transition from the end of one elementary sequence to the beginning of the other; each elementary sequence is duplicated so as to show a character who speaks or is silent according to the detection or not of a voice sound;
  • P e ⁇ Pi x Ci with Pi value of the level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, this calculation being carried out for all states connected to the state to which the current sequence ends in the graph; when an elementary sequence is in progress, the elementary sequence is allowed to go on until the end or we go on to the duplicated sequence that speaks when the voice is detected and vice versa, then, when the sequence ends and When a new state is reached, the next target state is chosen according to a probability defined by the calculations of the probability value of the states connected to the current state.
  • the invention also proposes a system implementing the above method.
  • an animation system of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor characterized in that it comprises a mobile telecommunication device for receiving the sound input signal emitted by an external telephone source, a signal receiving proprietary server comprising means for analyzing said signal and transforming in real time said sound input signal into an audio and video stream, calculating means arranged on the one hand to synchronize the movements of the mouth of the avatar transmitted • in said stream with the phonemes detected in said input sound signal and secondly to animate at least another portion of the avatar in a manner coherent with said signal by changes of attitudes and movements, in that it comprises means for analyzing the input sound signal to detect and use to animate one or more additional parameters said parameters level 1 1, namely silence periods, periods of speech and / or other elements contained in said sound signal taken from prosody, intonation, rhythm and / or tonic accent, and that it comprises means for transmitting the images of the avatar and the corresponding sound signal, so that the avatar seems to move and speak
  • the system comprises means for configuring the avatar through an online service on the Internet network.
  • it comprises means for constituting and storing on a server, elementary animated sequences for animating the avatar, consisting of images generated by a 3D rendering calculation, or generated from drawings.
  • it comprises means for selecting in real time the elementary sequence to be played, according to parameters previously calculated and / or determined.
  • each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the sequences connected through the same state to be visually compatible with the transition from the end of an elementary sequence to the beginning of the other.
  • it comprises means for duplicating each elementary sequence so as to make it possible to show a character who speaks or is silent according to the detection or not of a voice.
  • level 2 parameters are used to calculate the so-called level 2 parameters that correspond to features such as the character slow, fast, jerky, happy, sad, or other equivalent type of characters and animating the avatar at least in part from said level 2 parameters.
  • parameter of type equivalent to a level 2 parameter we mean a more complex parameter designed from the level 1 parameters, which are themselves simpler.
  • the level 2 parameters correspond to an analysis and / or a regrouping of the level 1 parameters, which will make it possible to further refine the states of the characters by making them more suitable for what we wish to represent. .
  • Level 2 parameters are considered as dimensions according to which a series of coefficients are defined with values which are fixed for each state of the animation graph.
  • computing means are arranged to calculate for a state e the probability value:
  • FIG. 1 is a block diagram showing an animation system for an avatar according to the invention
  • FIG. 2 gives a state graph as implemented according to the embodiment of the invention more particularly described here.
  • Figure 3 shows three types of image sequences, including that obtained with the invention in connection with a sound input signal.
  • FIG. 4 schematically illustrates another mode of implementation of the state graph implemented according to the invention.
  • Figure 5 shows schematically the method of selecting a state from the relative probabilities, according to an embodiment of the invention.
  • FIG. 6 shows an example of a sound input signal allowing the construction of a series of states, to be used for constructing the behavior of the avatar according to the invention.
  • Figure 7 shows an example of initial setting made from the mobile phone of the calling party.
  • FIG. 1 schematically shows the principle of an animation system 1 for avatar 2, 2 'on a screen 3, 3', 3 '' of mobile apparatus 4, 4 ', 4' '.
  • the avatar 2 is provided with a mouth 5, 5 'and is animated from a sound input signal 6 corresponding to the voice 7 of a communication interlocutor 8 by means of a mobile phone 9, or any other means of communication of the sound (fixed telephone, computer, ).
  • the system 1 comprises, from a server 10 belonging to a network (telephone, Internet ...), a proprietary server 11 for receiving signals 6.
  • This server comprises means 12 for analyzing the signal and real-time transformations of said audio and videomultiplexed stream signal 13 in two voices 14, 15; 14 ', 15' in the case of mobile reception 3D or 2D, or in one voice IG in case of said mobile video.
  • the text is scripted in 20 to be transmitted as sound image files 21, before compression in 22 and sent to the mobile 4 '', in the form video stream 23.
  • the result obtained is that the avatar 2, and in particular its mouth 5, seems to speak in real time in the place of the interlocutor 8 and that the behavior of the avatar (attitude, gestures) is coherent with the voice.
  • the sound signal is analyzed from a buffer corresponding to a small time interval (approximately 10 milliseconds).
  • a small time interval approximately 10 milliseconds.
  • Each sequence consists of a series of images produced by a 3D or 2D animation software known in themselves, such as for example the software 3dsMax and Maya of the American company Autodesk and XSI of the French company Softimage, or classic proprietary 3D rendering tools, or even digitized drawings.
  • 3D or 2D animation software known in themselves, such as for example the software 3dsMax and Maya of the American company Autodesk and XSI of the French company Softimage, or classic proprietary 3D rendering tools, or even digitized drawings.
  • a graph 24 of states is then defined (see FIG. 2) in which each node (or state) 26, 27, 28, 29, 30 is defined as a point of transition between elementary sequences.
  • connection between two states is unidirectional, in one direction or the other (arrows 25).
  • Each elementary sequence is duplicated to show a character who speaks or a character who is silent, depending on whether or not detected words in the voice.
  • FIG. 3 shows a sequence of images as obtained with speech 32, the same sequence without speech 33, and depending on the sound input (curve 34) transmitted by the interlocutor, the resulting sequence 35.
  • level 1 parameters whose value varies over time and whose average is calculated over a certain interval, for example 100 milliseconds.
  • These parameters are, for example: the activity of speech (silence or speech signals) the rhythm of speech the tone (acute or severe) if it is a non-tonal language the length of the vowels the presence more less important tonal accent.
  • the speech activity parameter can be calculated as a first approximation, from the power of the sound signal (integral of the signal squared) by considering that there is speech above a certain threshold.
  • the threshold is dynamically calculable according to the signal-to-noise ratio. Frequency filtering is also possible to avoid considering for example the passage of a truck as the voice.
  • the rhythm of the speech is calculated from the average frequency of the periods of silence and speech.
  • Other parameters are also calculable from a frequency analysis of the signal. According to the mode of the invention more particularly described here, simple mathematical formulas (linear combinations, threshold functions, Boolean functions) make it possible to pass from these level 1 parameters to so-called level 2 parameters which correspond to characteristics such as by example the slow, fast, jerky, happy, sad character, etc.
  • the level 2 parameters are considered as dimensions according to which one defines a series of coefficients Ci with fixed values for each state e of the graph of animation. Examples of such a parameterization are given below.
  • the level 1 parameters are calculated.
  • This sum is a relative probability of the state e (relative to the other states) of being selected.
  • Some sequences are loops that start from a state and return to it (arrow 31), they are used when the sequencer decides to keep the avatar in its current state, that is to say, chooses as target state following the current state itself.
  • Example of generation of animation initialize current state to a predefined starting state initialize state target to null initialize current sequence with zero sequence as long as an incoming audio stream is received: o decode incoming audio stream o calculate level 1 parameters o if current animation sequence is complete:
  • target state zero state o if target state zero:
  • level 1 parameters indicate the presence of lyrics
  • level 2 parameters indicate -. cheerful voice (corresponding to "Hello")
  • the probabilistic draw selects the merry target state.
  • Level 2 parameters indicate an interrogative voice
  • the relative probability of the state 40 is determined with respect to the value calculated above. If the value (arrow 45) is at a certain level, the corresponding state is selected (in the figure, state 42).
  • the state graph connects unidirectionally (in both directions) all these states as a star (link 52).
  • the dimensions are thus defined, for the calculation of the relative probabilities (dimensions of the parameters and the coefficients):
  • IDLE values indicating a silence period
  • SPEAK values indicating a speech period
  • NEUTRAL values indicating a neutrality period
  • GREETING values indicating a reception or presentation phase
  • Formulas for passing from first level to second level parameters are also defined:
  • step 1 • 8 user configures the settings of the movie he wants to customize.
  • step 2 the parameters are transmitted in the form of requests to the server application (server 11) which interprets them, creates the video, and sends it (link 13) to the encoding application.
  • step 3 the video sequences are compressed to the "good" format, that is to say readable by the mobile terminals before step 4 where the compressed video sequences are transmitted (links 18, 19, 18 ', 19' 23) to the recipient for example by MMS.
  • the invention is not limited to the embodiment more particularly described but encompasses all the variants and in particular those where the ' diffusion is done offline and not in real time or near real time.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)

Abstract

II s'agit d'un procédé et d'un système d'animation sur un écran (3, 3', 3'') d'appareil mobile (4, 4', 4'') d'un avatar (2, 2', 2'') muni d'une bouche (5, 5') à partir d'un signal d'entrée sonore (6) correspondant à la voix (7) d'un interlocuteur (8) de communication téléphonique. On transforme en temps réel le signal d'entrée sonore en un flux audio et vidéo dans lequel on synchronise les mouvements de la bouche de l'avatar avec les phonèmes détectés dans ledit signal d'entrée sonore, et on anime l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements par analyse dudit signal, de sorte que l'avatar semble parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.

Description

A
PROCEDE ET SYSTEME D'ANIMATION D'UN AVATAR EN TEMPS REEL A PARTIR DE LA VOIX D'UN INTERLOCUTEUR
La présente invention concerne un procédé d'animation d'un avatar en temps réel à partir de la voix d'un interlocuteur.
Elle concerne également un système d'animation d'un tel avatar.
L'invention trouve . une application particulièrement importante bien que non exclusive, dans le domaine des appareils mobiles comme les téléphones portables ou plus généralement les appareils personnels de communication portable ou PDA (initiales anglosaxonnes pour Personal Digital Apparatus) .
L'amélioration des téléphones portables, de leur esthétique et de la qualité des images et du son qu' ils véhiculent est une préoccupation constante des constructeurs de ce type d'appareils.
Son utilisateur est quant-à-lui particulièrement sensible à la personnalisation de cet outil qui est devenu un vecteur essentiel de communication.
Cependant, même si ses fonctionnalités sont devenues multiples, puisqu' il " permet aujourd'hui le stockage de sons et d' images notamment photographiques, en plus de sa fonction première de téléphone, il reste néanmoins une plate-forme limitée.
Il ne permet pas notamment d'afficher des images de haute définition, qui ne vont de toutes les façons pas pouvoir être visualisées du fait de la dimension réduite de son écran. Par ailleurs, de nombreux services accessibles aux téléphones portables fonctionnant jusqu'à présent uniquement en mode audio, se trouvent devoir répondre aujourd'hui à une demande en mode visiophonie
(services de. messagerie, centre d'appel clients, ...) .
Les prestataires à l'origine de ces services n'ont souvent pas de solution prête pour le passage de 1 ' audio à la vidéo et/ou ne souhaitent pas diffuser l'image d'une personne réelle.
L'une des solutions à ces problèmes consiste dès lors à s'orienter vers l'utilisation d'avatars, c'est à dire l'utilisation d'images graphiques, schématiques et moins complexes, représentant un ou plusieurs utilisateurs.
De tels graphiques peuvent ι alors être intégrés préalablement au téléphone et être ensuite appelés quand nécessaire lors d'une conversation téléphonique .
On connaît ainsi (WO 2004/053799) un système et une méthode pour implémenter des avatars dans un téléphone mobile permettant de les créer et de les modifier en utilisant le standard XML (initiales anglosaxonnes pour Extensible Markup Language) .
Un tel système ne permet cependant pas de résoudre le contrôle des expressions faciales de l'avatar en fonction de l'interlocuteur, en particulier de façon synchronisée .
Tout au plus existe-t-il dans l'art antérieur (EP 1 560 406) des programmes permettant de modifier l'état d'un avatar' de façon simple sur la base d'informations externes générées par un utilisateur, mais sans la finesse et 'la rapidité recherchée dans le cas où. l'avatar doit se comporter de façon parfaitement synchronisée avec le son d'une voix.
Les technologies et programmes actuels conversationnels utilisant les avatars, tels que par exemple ceux mettant en œuvre un programme développé par la société américaine Microsoft dénommé « Microsoft Agent », ne permettent pas, en effet, de reproduire efficacement le comportement d'un avatar en temps réel par rapport à une voix, sur un appareil portable de capacités limitées comme un téléphone mobile.
On connaît également (GB 2 423 905) un procédé d'animation d'une entité sur un téléphone portable consistant à sélectionner et traiter numériquement les mots d'un message à partir desquels on identifie des « visèmes » qui sont utilisés pour modifier la bouche de l'entité lors de la sortie du message vocal .
Un tel procédé, outre le fait qu'il est basé sur l'utilisation de mots, et non des sons en tant que tels, est limité et donne un aspect mécanique à l'image visuelle de l'entité.
La présente invention vise à fournir un procédé et un système d'animation d'un avatar en temps réel répondant mieux que ceux antérieurement connus aux exigences de la pratique, notamment en ce qu'elle permet l'animation en temps réel non seulement de la bouche, mais également du corps d'un avatar sur un appareil mobile de capacité réduite tel qu'un téléphone portable, et ce avec une excellente synchronisation des mouvements.
Avec l'invention il va être possible, tout en fonctionnant dans l'environnement standard des terminaux informatiques ou de communication mobile, et ce sans installer de composants logiciels spécifiques dans le téléphone mobile, d'obtenir une animation de l'avatar en temps réel ou quasi réel cohérente avec le signal d'entrée, et ce uniquement par détection et analyse du son de la voix, c'est à dire des phonèmes .
Une grande qualité esthétique et artistique est ainsi conférée aux avatars et à leur mouvement lors de leur création et ce tout en respectant la complexité du timbre et des finesses de la voix, pour un coût faible et avec une excellente fiabilité.
Pour ce faire l'invention part notamment de l'idée d'utiliser la richesse du son et non plus uniquement les mots eux-mêmes.
Dans ce but la présente invention propose notamment un procédé d'animation sur un écran d'appareil mobile d'un avatar muni d'une bouche à partir d'un signal d'entrée sonore correspondant à la voix d'un interlocuteur de communication téléphonique , caractérisé en ce que on transforme en temps réel le signal d'entrée sonore en un flux audio et vidéo dans lequel d'une part on synchronise les mouvements de la bouche de l'avatar avec les phonèmes détectés dans ledit signal d'entrée sonore, et d'autre part on anime au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements par analyse dudit signal, et en ce que en plus des phonèmes, on analyse le signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenus dans ledit signal sonore pris parmi la( prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'ensemble de l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.
Par autres parties de l'avatar, on entend le corps et/ou les bras, le cou, les jambes, les yeux, les sourcils, les cheveux, etc, autres que la bouche proprement dite. Ceux-ci ne sont donc pas mis en mouvement de façon indépendante du signal .
Il ne s'agit pas non plus ici de détecter l'émotion (réelle) d'un interlocuteur à partir de sa voix mais de créer des réactions artificielles probables de façon mécanique, néanmoins crédibles et compatibles avec ce qui pourrait être la réalité.
Dans des modes de réalisation avantageux on a de plus recours à l'une et/ou à l'autre des dispositions suivantes : on choisit et/ou on configure l'avatar à travers un service en ligné sur le réseau Internet ; l'appareil mobile est un téléphone mobile ; pour animer l'avatar, on exploite des séquences élémentaires, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins ; on charge des séquences élémentaires en mémoire en début d'animation et on les conserve dans ladite mémoire pendant toute la durée de l'animation pour plusieurs interlocuteurs simultanés et/ou successifs ; on sélectionne en temps réel la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés ; la liste des séquences élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, on définit un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences élémentaires connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une séquence élémentaire au début de l'autre ; chaque séquence élémentaire est dupliquée de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une son de voix ; les phonèmes et/ou les autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 à savoir et notamment le caractère lent, rapide, saccadé, joyeux ou triste de l'avatar, à partir desquels est réalisée en tout ou partie l'animation dudit avatar ; les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, on calcule pour un état e la valeur de probabilité :
Pe = ∑ Pi x Ci avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, ce calcul étant effectué pour tous les états connectés à l'état vers lequel la séquence en cours aboutit dans le graphe ; lorsqu'une séquence élémentaire est en cours on laisse se dérouler la séquence élémentaire qui se tait jusqu'au bout ou on passe à la séquence dupliquée qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, on choisit le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à 1 ' état en cours .
L' invention propose également un système mettant en œuvre le procédé ci-dessus.
Elle propose également un système d'animation d'un avatar muni d'une bouche à partir d'un signal d'entrée sonore correspondant à la voix d'un interlocuteur de communication téléphonique, caractérisé en ce que il comporte un appareil mobile de télécommunication, pour réception du signal d'entrée sonore émis par une source téléphonique externe, un serveur propriétaire de réception du signal comprenant des moyens d'analyse dudit signal et de transformation en temps réel dύdit signal d'entrée sonore en un flux audio et vidéo, des moyens de calcul agencés d'une part pour synchroniser les mouvements de la bouche de l'avatar transmis dans, ledit flux avec les phonèmes détectés dans ledit signal d'entrée sonore et d'autre part pour animer au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements, en ce qu'il comporte des moyens d'analyse du signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres1 de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, et en ce qu' il comporte des moyens pour transmettre les images de l'avatar et le signal sonore correspondant, de sorte que l'avatar semble bouger et parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.
Ces paramètres supplémentaires sont par exemple en nombre supérieur à deux, par exemple au moins trois et/ou supérieur à cinq.-
Avantageusement le système comporte des moyens de configuration de l'avatar à travers un service en ligne sur le réseau Internet.
Dans un mode de réalisation avantageux il comporte des moyens de constitution et de stockage sur un serveur, de séquences animées élémentaires pour animer l'avatar, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.
Avantageusement il comporte des moyens de sélection en temps réel de la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.
Egalement avantageusement la liste des séquences animées élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, "il comporte des moyens de calcul et de mise en œuvre d'un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une séquence élémentaire au début de l'autre.
Dans un mode de réalisation avantageux il comporte des moyens pour dupliquer chaque séquence élémentaire de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une voix.
Avantageusement les phonèmes et/ou les* autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 qui correspondent à des caractéristiques telles que le caractère lent, rapide, saccadé, joyeux, triste, ou d'autres caractères de type équivalent et on anime l'avatar au moins en partie à partir desdits paramètres de niveau 2.
Par paramètre de type équivalent à un paramètre de niveau 2, on entend un paramètre plus complexe conçu à partir des paramètres de niveau 1, qui sont eux- mêmes plus simples .
En d'autres termes les paramètres de niveau 2 correspondent à une analyse et/ou à un regroupement des paramètres de niveau 1, qui vont permettre d'affiner encore les états des personnages en les rendant plus adéquats à ce que l'on souhaite représenter.
Les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, les moyens de calculs sont agencés pour calculer pour un état e la valeur de probabilité :
Pe = ∑ Pi x Ci avec Pi valeur diα paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, ce calcul étant effectué pour tous les états connectés à l'état vers lequel la séquence en cours aboutit dans le graphe. Lorsqu'une séquence élémentaire est en cours laisser se dérouler la séquence élémentaire qui se tait jusqu'au bout ou passer à la séquence dupliquée qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, choisir le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à l'état courant.
L'invention sera mieux comprise à la lecture qui suit de modes de réalisation particuliers donnés ci- après à titre d'exemples non limitatifs.
La description se réfère aux dessins qui l'accompagnent dans lesquels :
La figure 1 est un schéma de principe montrant un système d'animation pour avatar selon l'invention,
La figure 2 donne un graphe d'état tel que mis en œuvre selon le mode de réalisation de l'invention plus particulièrement décrit ici.
La figure 3 montre trois types de séquences d'images, dont celle obtenue avec l'invention en relation avec un signal d'entrée sonore.
La figure 4 illustre schématiquement un autre mode d' implémentation du graphe d'état mis en œuvre selon l' invention. La figure 5 montre schématiquement la méthode de sélection d'un état à partir des probabilités relatives, selon un mode de réalisation de 1' invention.
La figure 6 montre un exemple de signal d'entrée sonore permettant la construction d'une suite d'états, pour être utilisés pour construire le comportement de l'avatar selon l'invention.
La figure 7 montre un exemple de paramétrage initial effectué à partir du téléphone portable de 1 ' interlocuteur appelant .
La figure 1 montre schématiquement le principe d'un système 1 d'animation pour avatar 2, 2' sur un écran 3, 3', .3'' d'appareil mobile 4, 4', 4''.
L'avatar 2 est muni d'une bouche 5, 5' et est animé à partir d'un signal d'entrée sonore 6 correspondant à la voix 7 d'un interlocuteur 8 de communication par le biais d'un téléphone mobile 9, ou tout autre moyen de communication du son (téléphone fixe, ordinateur, ...) .
Le système 1 comprend, à partir d'un serveur 10 appartenant à un réseau (téléphonique, Internet ...) , un serveur propriétaire 11 de réception de signaux 6.
Ce serveur comprend des moyens 12 d'analyse du signal et des transformations en temps réel dudit signal en flux audio et vidéomultiplexé 13 en deux voix 14, 15 ; 14', 15' dans le cas d'une réception par mobiles 3D ou 2D, ou en une seule voix IG en cas de mobile dit vidéo.
Il comprend de plus des moyens de calculs agencés pou synchroniser les mouvements de la bouche 5 de l'avatar avec les phénomènes détectés dans le signal d'entrée sonore et pour retransmettre (en cas de mobile 2D et 3D) d'une part les données texte scénarisé en- 17 ; 17', transmises alors en 18, 18' sous forme de script au téléphone mobile 4 ; 4', et d'autre part pour télécharger l'avatar 2D ou 3D, en 19, 19' audit téléphone mobile.
Dans le cas d'utilisation d'un mobile dit de vidéo téléphonie, le texte est scénarisé en 20 pour être transmis sous forme de fichiers d'images de sons 21, avant compression en 22 et envoi au mobile 4'', sous la forme du flux vidéo 23.
Le résultat obtenu est que l'avatar 2, et notamment sa bouche 5, semble parler en temps réel à la place de l'interlocuteur 8 et que le comportement de l'avatar (attitude, gestes) est cohérent avec la voix.
On va maintenant décrire plus avant l'invention en référence aux figures 2 à 7, le procédé plus particulièrement décrit permettant de réaliser les fonctions suivantes : exploiter des séquences animées élémentaires, constituées d'images générées par un calcul de rendu 3D ou bien directement produites à partir de dessins ; choisir et configurer son personnage à travers un service en ligne qui produira de nouvelles séquences élémentaires : rendu 3D sur le serveur ou sélection de catégories de séquences ; charger toutes les séquences élémentaires en mémoire, au lancement de l'application et les conserver en mémoire pendant toute la durée du service pour plusieurs utilisateurs simultanés et successifs ; analyser la voix contenue dans le signal d'entrée afin de détecter les périodes de silence, les périodes de parole et éventuellement d'autres éléments contenus dans le signal sonore, comme les phonèmes, la prosodie (intonation de la voix, rythme de la parole, accents toniques) ; sélectionner en temps réel la séquence élémentaire à jouer, en fonction des paramètres précédemment calculés.
L'analyse du signal sonore s'effectue a partir d'un buffer correspondant à un petit intervalle de temps (environ 10 millisecondes) . Le choix des séquences élémentaires (par ce qu'on appelle le séquenceur) est expliqué plus loin.
Plus précisément et pour obtenir les résultats recherchés par l'invention, on commence par créer une liste de séquences élémentaires d'animation pour un ensemble de personnages.
Chaque séquence est constituée d'une série d'images produites par un logiciel d'animation 3D ou 2D connus en eux-mêmes, comme par exemple les logiciels 3dsMax et Maya de la société américaine Autodesk et XSI de la société française Softimage, ou bien par des outils classiques de rendu 3D propriétaires, ou bien encore constituées de dessins numérisés. Ces séquences sont générées au préalable et placées sur le serveur propriétaire qui diffuse le flux vidéo d'avatar, ou bien générées par le service en ligne de configuration d'avatars et placées sur ce même serveur.
Dans le mode de réalisation plus particulièrement décrit ici la liste des noms des séquences élémentaires disponibles est commune à tous les personnages, mais les images qui les composent peuvent représenter des animations très différentes.
Cela permet de définir un graphe d'état commun à plusieurs avatars mais cette disposition n'est pas obligatoire .
On définit ensuite (cf. figure 2) un graphe 24 d'états dont chaque nœud (ou état) 26, 27, 28, 29, 30 est défini comme un point de transition entre des séquences élémentaires.
La connexion entre deux états est unidirectionnelle, dans un sens ou dans l'autre (flèches 25) .
Plus précisément, dans l'exemple de la figure 2, on a défini cinq états, à savoir les états de début de séquence 26, neutre 27, excité 28, au repos 29 et de fin de séquence 30.
Toutes les séquences connectées à travers un même état du graphe, doivent être visuellement compatibles avec le passage de la fin d'une animation au début de 1 ' autre . Le respect de cette contrainte est géré lors de la création des animations correspondant aux séquences élémentaires .
Chaque séquence élémentaire est dupliquée pour permettre de montrer un personnage qui parle ou bien un personnage qui se tait, suivant qu'on a ou non détecté des paroles dans la voix.
Cela permet de passer d'une version à l'autre de la séquence élémentaire qui se déroule, pour synchroniser l'animation de la bouche du personnage avec les périodes de parole.
On a représenté sur la figure 3 une séquence d'images telle qu'obtenue avec parole 32, la même séquence sans parole 33, et en fonction de l'entrée sonore (courbe 34) émise par l'interlocuteur, la séquence résultante 35.
Il est maintenant décrit ci-après le principe de sélection des séquences d'animation.
L'analyse de la voix produit un certain nombre de paramètres dits de niveau 1, dont la valeur varie au cours du temps et dont on calcule la moyenne sur un certain intervalle, par exemple de 100 millisecondes. Ces paramètres sont, par exemple : l'activité de parole (silence ou signaux de paroles) le rythme de parole le ton (aigu ou grave) s'il s'agit d'un langage non tonal la longueur des voyelles la présence plus au moins importante d'accent tonique .
Le paramètre d'activité de la parole peut-être calculé en première approximation, à partir de la puissance du signal sonore (intégrale du signal au carré) en considérant qu'il y a parole au dessus d'un certain seuil. Le seuil est calculable dynamiquement en fonction du rapport signal / bruit. Un filtrage en fréquence est aussi envisageable pour éviter de considérer par exemple le passage d'un camion comme de la voix. Le rythme de la parole est calculé à partir de la fréquence moyenne des périodes de silence et de parole. D'autres paramètres sont également calculables à partir d'une analyse fréquentielle du signal. Selon le mode de l'invention plus particulièrement décrit ici, des formules mathématiques simples (combinaisons linéaires, fonctions seuil, fonctions booléennes) permettent de passer de ces paramètres de niveau 1 à des paramètres dits de niveau 2 qui correspondent à des caractéristiques telles que par exemple le caractère lent, rapide, saccadé, joyeux, triste, etc.
Les paramètres de niveau 2 sont considérés comme des dimensions suivant lesquelles on définit une série de coefficients Ci avec des valeurs fixées pour chaque état e du graphe d'animation. Des exemples d'un tel paramétrage sont donnés ci-après.
A tout instant c'est à dire par exemple avec une périodicité de 10 millisecondes, on calcule les paramètres de niveau 1. Lorsqu'un nouvel état doit être choisi, c'est-à-dire à la fin du déroulement d'une séquence, on peut donc calculer les paramètres de niveau 2 qui s ' en déduisent et calculer pour un état e la valeur suivante : Pe = ∑ Pi x Ci où les valeurs Pi sont celles des paramètres de niveau 2 et Ci les coefficients de l'état e suivant ladite dimension i.
Cette somme constitue une probabilité relative de l'état e (par rapport aux autres états) d'être sélectionné .
Lorsqu'une séquence élémentaire est en cours, on la laisse alors se dérouler jusqu'au bout c'est-à- dire jusqu'à l'état du graphe auquel elle aboutit mais on passe d'une version à l'autre de la séquence (version avec ou sans parole) à tout instant en fonction du signal de parole détecté. Lorsque la séquence se termine et qu'on arrive à un nouvel état, on choisit le prochain état cible suivant une probabilité définie par les calculs précédents. Si l'état cible est le même que l'état actuel, on s'y maintient en jouant une animation en boucle un certain nombre de fois et on se ramène ainsi au cas précédent.
Certaines séquences sont des boucles qui partent d'un état et y retournent (flèche 31) , elles sont utilisées lorsque le séquenceur décide de maintenir l'avatar dans son état courant, c'est-à-dire, choisit comme état cible suivant l'état courant lui-même.
On a donné ci-après la description en pseudo-code d'un exemple de génération d'animation et la description d'un exemple de déroulement de séquences: Exemple de génération d'animation initialiser état courant à un état de départ prédéfini initialiser état cible à nul initialiser séquence d'animation courante à séquence nulle tant qu'on reçoit un flux audio entrant : o décoder le flux audio entrant o calculer les paramètres de niveau 1 o si séquence d'animation courante terminée :
" séquence d'animation courante = séquence nulle
" état cible = état nul o si état cible nul:
" calculer paramètres de niveau 2 en fonction des paramètres de niveau 1 (et éventuellement de leur historique) " sélectionner les états connectés à l ' état courant
* calcul des probabilités de ces états connectés en fonction de leurs coefficients et des paramètres de niveau 2 précédemment calculés
" tirage parmi ces états connectés de l'état cible en fonction des probabilités précédemment calculées => un nouvel état cible est ainsi défini o si séquence d'animation courante nulle :
" sélectionner dans le graphe la séquence d'animation de l'état courant vers l'état cible => définit la séquence d'animation courante o dérouler la séquence d'animation courante => sélection d'images précalculées correspondantes o mettre en correspondance portion de flux audio entrant et les images sélectionnées à partir de l ' analyse de ces portions de flux audio o générer un flux audio et vidéo compressé à partir des images sélectionnées et du flux audio entrant
Exemple de déroulement des séquences : l'interlocuteur dit : "Bonjour, comment ça va ?" :
1. les paramètres de niveau 1 indiquent la présence de paroles
2. les paramètres de niveau 2 indiquent -. voix enjouée (correspondant à "Bonjour")
3. le tirage probabiliste sélectionne l'état cible joyeux.
4. on déroule la séquence d'animation de l'état de départ vers l'état joyeux (dans sa version avec paroles)
5. on arrive dans la période de silence, reconnue à travers les paramètres de niveau 1
6. la séquence d'animation est toujours en cours, on ne l'interrompt pas mais on sélectionne sa version sans parole
7. l'état cible joyeux est atteint
8. le silence conduit à sélectionner l'état cible neutre (a travers le calcul des paramètres de niveau 1 et 2 et le tirage probabiliste)
S. on déroule la séquence d'animation de l'état joyeux vers l'état neutre (dans sa version sans paroles) 10. l'état cible neutre est atteint 11.1e silence conduit à nouveau à sélectionner l'état cible neutre 12. on déroule la séquence d'animation neutre => neutre
(boucle) dans sa version sans paroles 13. les paramètres de niveau 1 indiquent la présence de paroles (correspondant à "Comment ça va ?")
14. les paramètres de niveau 2 indiquent une voix ' interrogative
15.1 ' état cible neutre est à nouveau atteint
16. on sélectionne l'état cible interrogatif (à travers le calcul des paramètres de niveau 1 et 2 et le tirage probabiliste) 17. etc.
La méthode de sélection d'un état à partir des probabilités relatives est maintenant décrite en référence à la figure 5 qui donne un graphe de probabilité des états 40 à 44.
La probabilité relative de l'état 40 est déterminée par rapport à la valeur calculée ci -avant. Si la valeur (flèche 45) est à un niveau déterminé l'état correspondant est sélectionné (sur la figure l'état 42) .
En référence à la figure 4, on donne un autre exemple de graphe d'états selon l'invention. Ici on a défini les états suivants état neutre (Neutral) : 46 état approprié à une première période de parole (speak 1) : 47 autre état approprié à une seconde période de parole (speak 2) : 48 état approprié à une première période de silence (Idlel) : 49 autre état approprié à une seconde période de silence (IdIe 2) : 50 état approprié à un discours d ' introduction
(greeting) : 51
Le graphe d'états relie quant à lui de façon unidirectionnelle (dans les deux sens) tous ces états sous forme d'étoile (lien 52) .
En d'autres termes, dans l'exemple plus particulièrement décrit en référence à la figure 4, on définit ainsi les dimensions, pour le calcul des probabilités relatives (dimensions des paramètres et des coefficients) :
IDLE : valeurs indiquant une période de silence SPEAK : valeurs indiquant une période de parole NEUTRAL : valeurs indiquant une période de neutralité GREETING : valeurs indiquant une phase d'accueil ou de présentation
On introduit ensuite des paramètres de premier niveau, détectés dans le signal d'entrée et utilisés comme valeurs intermédiaires pour le calcul des paramètres précédents, à savoir :
Speak : valeur binaire qui indique si on est en train de parler
SpeakTime : durée écoulée depuis le début de la période de parole
MuteTime : durée écoulée depuis le début de la période de silence
Speaklndex : numéro de la période de parole depuis un instant déterminé
On définit également les formules permettant de passer des paramètres de premier niveau à ceux de second niveau :
- IDLE : NOT (Speak) x MuteTime
- SPEAK : Speak - NEUTRAL : NOT (Speak)
- GREETING : Speak & (Speaklndex =1) Les coefficients associés aux états sont par exemple donnés par le Tableau I ci-après :
TABLEAU I
Un tel paramétrage, en référence à la figure 6, et pour quatre instants Tl, T2 , T3 , T4, donne l'état courant et les valeurs des paramètres de niveau 1 et 2 dans le Tableau II ci-après.
TABLEAU II
Tl : Etat courant = Neutral
U Speak = 1 " IDLE = 0 a SpeakTime = 0.01 sec " SPEAK = 1 a MuteTime = 0 sec - NEUTRAL = 0 a Speaklndex = 1 " GREETING = 1
T2 : Etat courant = Greeting m - IDLE = 0.01
B Speak = 0 - SPEAK = 0 a SpeakTime = 0 sec » NEUTRAL = 1
B MuteTime = 0 .01 sec " GREETING = 0 m Speaklndex = ]_
T3 : Etat courant = Neutràl m Speak = 0 - IDLE = 0.5 m SpeakTime = 0 sec - SPEAK = 0 a MuteTime = 1 .5 sec - NEUTRAL = 1 a Speaklndex = i • GREETING = 0
T4 : Etat courant = Neutral a Speak = 1 " IDLE = 0 SpeakTime = 0.01 sec SPEAK = 1 MuteTime ≈ 0 sec NEUTRAL = 0 Speaklndex = 2 GREETING = 0
La probabilité relative des états suivants est alors donnée dans le Tableau III ci-après.
TABLEAU III
Tl T2
• Neutral = 0 Neutral = 1
» Speaki = = 1 Speaki = 0
" Speak2 = = 1 .2 Speak2 = 0
• Greeting — 2.5 Greeting = 0
- IdIeI = 0 IdIeI = 0.02
- Idle2 = 0 Idle2 = 0.01
T3 T4
" Neutral = 1 • Neutral = 0
• Speaki = = 0 • Speaki = = 1
- Speak2 = = 0 • Speak2 = = 1 .2
* Greeting = 0 • Greeting = 0
- IdIeI = 1 - IdIeI ≈ 0
- Idle2 = 0 5 - Idle2 = 0
Ce qui donne dans l'exemple choisi le tirage des probabilités correspondant au Tableau IV suivant : TABLEAU IV
Tl : Etat Courant =Neutral T2 : Etat Courant = Greeting
Speakl Neutral tirage
Speak2
Greeting tirage
Etat suivant = Greetiαε Etat suivant = Neutral
T3 : Etat Courant = Neutral T4 : Etat Courant = Neutral
Neutral Speakl tirage
Miel Speak2 tirage
Idle2
Etat suivant = Neutral Etat Suivant = Speak2 Enfin, en référence aux figures 7 et 1 on a représenté l'écran schématisé 52 d'un mobile permettant d'obtenir le paramétrage de l'avatar en temps réel .
A l'étape 1, l'utilisateur 8 configure les paramètres de la séquence vidéo qu'il souhaite personnaliser .
Par exemple :
• Personnage 53
• Expression du personnage (heureux, triste ...) 54
• Réplique du personnage 55
• Fond sonore' 56
• Numéro de téléphone du destinataire 57.
A l'étape 2, les paramètres sont transmis sous forme de requêtes à l'application serveur (serveur 11) qui les interprète, crée la vidéo, et l'envoie (liaison 13) à l'application d'encodage.
A l'étape 3, les séquences vidéo sont compressées au «.bon » format c'est à dire lisibles par les terminaux mobiles avant l'étape 4 où les séquences vidéo compressées sont transmises (liaisons 18, 19, 18', 19' ; 23) au destinataire par exemple par MMS.
Comme il va de soi, et comme il résulte de ce qui précède, l'invention ne se limite pas au mode de réalisation plus particulièrement décrit mais en embrasse au contraire toutes les variantes et notamment celles où la' diffusion se fait en différé et non en temps réel ou quasi réel .

Claims

REVENDICATIONS
1. Procédé d'animation sur un écran (3, 3', 3'') d'appareil mobile (4, 4', 4'') d'un avatar (2, 2', 2'') muni d'une bouche (5, 5') à partir d'un signal d'entrée sonore (6) correspondant à la voix (7) d'un interlocuteur (8) de communication téléphonique, caractérisé en ce que on transforme en temps réel le signal d'entrée sonore en un flux audio et vidéo dans lequel d'une part on synchronise les mouvements de la bouche de l'avatar avec les phonèmes détectés dans ledit signal d' entrée sonore, et d'autre part on anime au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements par analyse dudit signal, et en ce que en plus des phonèmes, on analyse le signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'ensemble de l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.
2. Procédé selon la revendication 1, caractérisé en ce que on choisit et/ou on configure l'avatar à travers un service en ligne sur le réseau Internet .
3. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'appareil mobile est un téléphone mobile.
4. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que, pour animer l'avatar, on exploite des séquences élémentaires, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.
5. Procédé selon la revendication 4, caractérisé en ce que on charge des séquences élémentaires en mémoire en début d'animation et on les conserve dans ladite mémoire pendant toute la durée de l'animation pour plusieurs interlocuteurs simultanés et/ou successifs.
6. ' Procédé selon l'une quelconque des revendications 4 et 5, caractérisé en ce que on sélectionne en temps réel la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.
7. Procédé selon l'une quelconque des revendication 4 à 6, caractérisé en ce que les séquences élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, on définit un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences élémentaires connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une animation au début de l ' autre .
8. Procédé selon la revendication 7, caractérisé en ce que chaque séquence élémentaire est dupliquée de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une son de voix.
*9. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que les phonèmes et/ou les autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 à savoir le caractère lent, rapide, saccadé, joyeux ou triste de l'avatar, a partir desquels est réalisé en tout ou partie l'animation dudit avatar.
10. Procédé selon la revendication 9, caractérisé en ce que les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, on calcule pour un état e la valeur de probabilité :
Pe = ∑ P1 x C1 avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, puis lorsqu'une séquence élémentaire est en cours . on laisse se dérouler la séquence élémentaire qui se tait jusqu'au bout ou on passe à l'autre séquence qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état ,'
. .on choisit le prochain état cible suivant une probabilité définie par les calculs des valeurs de probabilité des états connectés à l'état courant.
11. Système (1) d' animation. d'un avatar (2, 2') muni d'une bouche (5, 5') à partir d'un signal d'entrée sonore (6) correspondant à la voix (7) d'un interlocuteur (8) de communication téléphonique, caractérisé en ce que il comporte un appareil mobile (9) de télécommunication, pour réception du signal d'entrée sonore émis par une source teléphonique externe, un serveur propriétaire (11) de réception du signal comprenant des moyens (12) d'analyse dudit signal et de transformation en temps réel dudit signal d'entrée sonore en un flux audio et vidéo, des moyens de calcul agencés d'une part pour synchroniser les mouvements de la bouche de l'avatar transmis dans ledit flux, avec les phonèmes détectés dans ledit signal d'entrée sonore, et d' autre part pour animer au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements, et en ce qu' il comporte de plus des moyens d' analyse du signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires, dit paramètre de niveau 1, à savoir les périodes de silence, les périodes de parole et /ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l ' interlocuteur .
12. Système selon la revendication 11, caractérisé en ce que il comporte des moyens de configuration de l'avatar à travers un service en ligne sur le réseau Internet .
13. Système selon l'une quelconque des revendications 11 et 12, caractérisé en ce que il comporte des moyens de constitution et de stockage dans un serveur propriétaire, de séquences élémentaires pour animer l'avatar, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.
14. Système selon la revendication 13, caractérisé en ce que il comporte des moyens de sélection en temps réel de la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.
15. Système selon l'une quelconque des revendications 11 à 14, caractérisé en ce que, la liste des séquences élémentaires étant communes à tous les avatars utilisables pour l'envoi vers l'appareil mobile, il comporte des moyens de calcul et de mise en œuvre d'un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une animation au début de l ' autre .
16. Système selon l'une quelconque des revendications 11 à 15, caractérisé en ce que il comporte des moyens pour dupliquer chaque séquence élémentaire de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'un son de voix.
17. Système selon l'une quelconque des revendications 11 à 16 caractérisé en ce que, les phonèmes et/ou les autres paramètres étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, les moyens de calculs sont agencés pour calculer pour un état e la valeur de probabilité :
Pe = Σ Pi X Ci avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, puis lorsqu'une séquence élémentaire est en cours laisser se dérouler la séquence élémentaire qui se tait jusqu'au bout ou passer à l'autre séquence qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, choisir le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à l'état courant .
EP07848234A 2006-09-15 2007-09-14 Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur Withdrawn EP2059926A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0608078A FR2906056B1 (fr) 2006-09-15 2006-09-15 Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur.
PCT/FR2007/001495 WO2008031955A2 (fr) 2006-09-15 2007-09-14 Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur

Publications (1)

Publication Number Publication Date
EP2059926A2 true EP2059926A2 (fr) 2009-05-20

Family

ID=37882253

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07848234A Withdrawn EP2059926A2 (fr) 2006-09-15 2007-09-14 Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur

Country Status (4)

Country Link
US (1) US20090278851A1 (fr)
EP (1) EP2059926A2 (fr)
FR (1) FR2906056B1 (fr)
WO (1) WO2008031955A2 (fr)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2468140A (en) * 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels
US9665563B2 (en) * 2009-05-28 2017-05-30 Samsung Electronics Co., Ltd. Animation system and methods for generating animation based on text-based data and user information
US20120058747A1 (en) * 2010-09-08 2012-03-08 James Yiannios Method For Communicating and Displaying Interactive Avatar
US20120069028A1 (en) * 2010-09-20 2012-03-22 Yahoo! Inc. Real-time animations of emoticons using facial recognition during a video chat
US8948893B2 (en) 2011-06-06 2015-02-03 International Business Machines Corporation Audio media mood visualization method and system
EP2783349A4 (fr) * 2011-11-24 2015-05-27 Nokia Corp Procédé, appareil et produit programme d'ordinateur pour produire une image animée associée à un contenu multimédia
RU2481640C1 (ru) * 2011-12-01 2013-05-10 Корпорация "Самсунг Электроникс Ко., Лтд" Способ и система генерации анимированных художественных эффектов на статичных изображениях
US9035955B2 (en) 2012-05-16 2015-05-19 Microsoft Technology Licensing, Llc Synchronizing virtual actor's performances to a speaker's voice
US9325809B1 (en) * 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
GB201301981D0 (en) * 2013-02-04 2013-03-20 Headcast Ltd Presenting audio/visual animations
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US10291597B2 (en) 2014-08-14 2019-05-14 Cisco Technology, Inc. Sharing resources across multiple devices in online meetings
US10542126B2 (en) 2014-12-22 2020-01-21 Cisco Technology, Inc. Offline virtual participation in an online conference meeting
US9948786B2 (en) 2015-04-17 2018-04-17 Cisco Technology, Inc. Handling conferences using highly-distributed agents
US10592867B2 (en) 2016-11-11 2020-03-17 Cisco Technology, Inc. In-meeting graphical user interface display using calendar information and system
US10516707B2 (en) 2016-12-15 2019-12-24 Cisco Technology, Inc. Initiating a conferencing meeting using a conference room device
US10440073B2 (en) 2017-04-11 2019-10-08 Cisco Technology, Inc. User interface for proximity based teleconference transfer
US10375125B2 (en) 2017-04-27 2019-08-06 Cisco Technology, Inc. Automatically joining devices to a video conference
US10375474B2 (en) 2017-06-12 2019-08-06 Cisco Technology, Inc. Hybrid horn microphone
US10477148B2 (en) 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
US10516709B2 (en) 2017-06-29 2019-12-24 Cisco Technology, Inc. Files automatically shared at conference initiation
US10706391B2 (en) 2017-07-13 2020-07-07 Cisco Technology, Inc. Protecting scheduled meeting in physical room
US10091348B1 (en) 2017-07-25 2018-10-02 Cisco Technology, Inc. Predictive model for voice/video over IP calls
US10812430B2 (en) * 2018-02-22 2020-10-20 Mercury Universe, LLC Method and system for creating a mercemoji
US10580187B2 (en) * 2018-05-01 2020-03-03 Enas TARAWNEH System and method for rendering of an animated avatar
KR20210117066A (ko) * 2020-03-18 2021-09-28 라인플러스 주식회사 음향 기반 아바타 모션 제어 방법 및 장치
CN111988658B (zh) * 2020-08-28 2022-12-06 网易(杭州)网络有限公司 视频生成方法及装置
CN116762103A (zh) * 2021-01-13 2023-09-15 三星电子株式会社 电子装置及在该电子装置中运行化身视频服务的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839672B1 (en) * 1998-01-30 2005-01-04 At&T Corp. Integration of talking heads and text-to-speech synthesizers for visual TTS
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
EP1345179A3 (fr) * 2002-03-13 2004-01-21 Matsushita Electric Industrial Co., Ltd. Procédé et dispositif pour l'animation des images de synthèse
AU2003218320A1 (en) * 2002-03-21 2003-10-08 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
US7136818B1 (en) * 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
GB2423905A (en) * 2005-03-03 2006-09-06 Sean Smith Animated messaging
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2008031955A3 *

Also Published As

Publication number Publication date
WO2008031955A2 (fr) 2008-03-20
US20090278851A1 (en) 2009-11-12
WO2008031955A3 (fr) 2008-06-05
FR2906056B1 (fr) 2009-02-06
FR2906056A1 (fr) 2008-03-21

Similar Documents

Publication Publication Date Title
WO2008031955A2 (fr) Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur
US8326596B2 (en) Method and apparatus for translating speech during a call
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
KR101628050B1 (ko) 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
JP2008529345A (ja) 個人化メディアの生成及び配布のためのシステム及び方法
JP2014512049A (ja) 音声対話型メッセージ交換
TW200947422A (en) Systems, methods, and apparatus for context suppression using receivers
US20180315438A1 (en) Voice data compensation with machine learning
FR3071689A1 (fr) Presentation de communications
FR2923928A1 (fr) Systeme d'interpretation simultanee automatique.
US20200211540A1 (en) Context-based speech synthesis
CN113257218B (zh) 语音合成方法、装置、电子设备和存储介质
US20090201297A1 (en) Electronic device with animated character and method
JP2022020659A (ja) 通話中の感情を認識し、認識された感情を活用する方法およびシステム
JP2005078427A (ja) 携帯端末及びコンピュータ・ソフトウエア
US20120013620A1 (en) Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media
WO2022169534A1 (fr) Systèmes et procédés de gestion d'interruptions de flux audio vocal
CN115312079A (zh) 信息展示方法、装置、电子设备和计算机可读介质
CN110798393B (zh) 声纹气泡的展示方法及使用声纹气泡的终端
CN112492400A (zh) 互动方法、装置、设备以及通信方法、拍摄方法
CN111787986A (zh) 基于面部表情的语音效果
JP2012518308A (ja) メッセージングシステム
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
CN114866856B (zh) 音频信号的处理方法、音频生成模型的训练方法及装置
WO2024001462A1 (fr) Procédé et appareil de lecture de chanson, et dispositif informatique et support d'enregistrement lisible par ordinateur

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20090319

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC MT NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK RS

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20130403