FR2871613A1 - Procede et systeme de diffusion de contenus voix-image a synchronisation labiale - Google Patents

Procede et systeme de diffusion de contenus voix-image a synchronisation labiale Download PDF

Info

Publication number
FR2871613A1
FR2871613A1 FR0406294A FR0406294A FR2871613A1 FR 2871613 A1 FR2871613 A1 FR 2871613A1 FR 0406294 A FR0406294 A FR 0406294A FR 0406294 A FR0406294 A FR 0406294A FR 2871613 A1 FR2871613 A1 FR 2871613A1
Authority
FR
France
Prior art keywords
mouth
labial
file
character
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0406294A
Other languages
English (en)
Other versions
FR2871613B1 (fr
Inventor
Herve Tardif
Michel Notte
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3D CLIC SARL
Original Assignee
3D CLIC SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3D CLIC SARL filed Critical 3D CLIC SARL
Priority to FR0406294A priority Critical patent/FR2871613B1/fr
Publication of FR2871613A1 publication Critical patent/FR2871613A1/fr
Application granted granted Critical
Publication of FR2871613B1 publication Critical patent/FR2871613B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Procédé de diffusion de contenus voix-image à synchronisation labiale, comprenant les étapes suivantes :- collecte d'un fichier audio,- analyse acoustique du contenu de ce fichier,- utilisation d'une pluralité de formes de bouche,- détermination des trajectoires de bouche,- mise en oeuvre d'un modèle labial tridimensionnel, choisi parmi une bibliothèque de modèles de personnage, et- génération d'une animation de bouche d'un personnage.Application notamment pour le marketing par courrier électronique, en messagerie instantanée, et dans des éditions de jeu vidéo.

Description

- 1 -
Procédé et système de diffusion de contenus voix-image à synchronisation labiale La présente invention concerne un procédé de diffusion de contenus voix-image à synchronisation labiale. Elle vise également un système mettant en oeuvre ce procédé.
Le développement considérable des réseaux de communication et des outils de diffusion de contenus voix- données-images a suscité de nombreuses applications de communication personnalisée au nombre desquelles l'utilisation de personnages virtuels animés pour diffuser des messages. En particulier, on connaît déjà des procédés de synchronisation labiale procurant une animation de la bouche d'un personnage virtuel en synchronisme avec l'énoncé vocal d'un message.
Ainsi, le document US2003/0040916 divulgue un système d'animation de bouche comportant un moteur vocal qui traite des signaux d'entrée audio et les convertit en un signal numérique. Ce signal numérique est analysé par FFT (Fast Fourier Transform) pour générer une valeur caractéristique de chaque échantillon du signal d'entrée et qui est associée à l'amplitude maximale de l'échantillon. Le moteur vocal compare chaque valeur obtenue de cette façon au nombre de gammes de valeurs prédéterminées possibles correspondant à un graphique prédéterminé représentant une position de bouche, et adapte ainsi le signal audio d'entrée à une variété de positions de bouche possibles. Les graphiques de bouche sont superposés sur une image d'un personnage sensiblement en temps réel, procurant ainsi une visualisation animée d'un personnage avec sa bouche synchronisée au signal audio d'entrée. - 2 -
Par ailleurs, le document FR2814570 divulgue un procédé interactif de communication d'informations à des utilisateurs d'un réseau de communication informatique, notamment de type Internet. Ce procédé comprend des étapes de diffusion, via un réseau, de données permettant à un équipement d'un utilisateur de calculer des pages d'écran et de les visualiser, d'activation d'un objet virtuel pour un utilisateur, et de diffusion, via le réseau, de données permettant à l'équipement utilisateur de calculer l'objet virtuel et l'animer de manière simultanée et indépendante par rapport aux pages d'écran.
Le but de la présente invention est de proposer un procédé de diffusion de contenus voix-image à synchronisation labiale qui soit plus performant que les procédés existants, en termes de synchronisation labiale et d'accessibilité aux contenus traités.
Suivant l'invention, le procédé de diffusion de contenus voix-image à synchronisation labiale comprend les étapes suivantes: collecte d'un fichier audio, analyse acoustique du contenu de ce fichier, - utilisation d'une pluralité de formes de bouche, détermination des trajectoires, mise en ouvre d'un modèle labial tridimensionnel, 25 choisi parmi une bibliothèque de modèles de personnage, et génération d'une animation de bouche d'un personnage, par un système d'animation d'images.
Dans un mode avantageux d'exploitation du procédé de 30 diffusion, ce procédé comprend en outre une diffusion d'une page à un ou plusieurs destinataires.
L'analyse acoustique peut avantageusement comprendre une détection de 7 groupes de sons différents: - 3
A O I F P CH S
Plus particulièrement, trois paramètres peuvent être élaborés à partir du fichier audio: - la forme de bouche, - l'amplitude (A,A,a) - la nervosité (basse ou forte) Ces trois paramètres sont ensuite traités pour réaliser une interpolation entre les différentes formes de bouche (7) . La nervosité, l'intonation et l'accentuation 10 sont restituées.
Ce procédé de synchronisation labiale présente l'avantage de permettre une détection de clignements d'yeux et une certaine humeur.
Deux modes d'exploitation du procédé de diffusion 15 peuvent être envisagés: un mode Batch, dans lequel l'exploitant met en oeuvre le procédé avec leurs propres personnages, pour fabriquer du contenu multimédia. A titre d'exemple, un fichier audio est déposé sur un site Internet. Un personnage est choisi dans une bibliothèque de personnage. Pour des exploitants Grands Comptes , un personnage mascotte peut être développé en propre; un mode Indirect, dans lequel le procédé est mis en 25 oeuvre via un système de téléphonie.
Ce procédé pourra ainsi être mis en oeuvre sur des téléphones de technologie 3G. Dans ce contexte: - on utilise alors le téléphone comme moyen d'enregistrement du contenu audio, on utilise les touches du téléphone comme touches de menu, on transmet via le réseau sans fil le contenu audio vers un serveur dans lequel ce contenu audio est - 4 analysé et traité pour générer un fichier de commandes labiales qui est transmis à un destinataire via Internet ou tout autre réseau de communication.
Le procédé de diffusion objet de la présente invention peut ainsi être mis en oeuvre dans un système de e-mail marketing , dans des messageries instantanées et dans des éditions de jeux vidéo.
Suivant un autre aspect de l'invention, il est proposé un système de diffusion de contenus voix-image à synchronisation labiale, mettant en oeuvre le procédé de diffusion selon l'invention, ce système comprenant: des moyens pour collecter un fichier audio, des moyens d'analyse acoustique du contenu de ce fichier, des moyens pour déterminer des trajectoires, - des moyens pour mettre en oeuvre un modèle labial tridimensionnel, choisi parmi une bibliothèque de modèles de personnage, et des moyens pour générer une animation de bouche 20 d'un personnage, par un système d'animation d'images.
Le système de diffusion de contenus voix-image peut en outre avantageusement comprendre des moyens pour diffuser une page incluant un contenu voix-image animé, vers un ou plusieurs destinataires.
On peut en outre prévoir des moyens pour détecter 7 groupes de sons différents:A O I F P CH S D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée d'un mode de mise en oeuvre nullement limitatif, et des dessins annexés sur lesquels: - la figure 1 représente un système de diffusion de contenus selon l'invention; 2871613 - 5 - - la figure 2 illustre les étapes essentielles du procédé de diffusion de contenus selon l'invention; - la figure 3 est un synoptique général du processus d'analyse du son; la figure 4 illustre des formes de bouche utilisées dans le système d'animation labiale mis en oeuvre dans le système de diffusion de contenus selon l'invention; - la figure 5 est un synoptique d'un module d'analyse avec prise de décision mis en oeuvre dans un système de diffusion de contenus selon l'invention; et la figure 6 est un synoptique d'un module d'analyse sans prise de décision mis en oeuvre dans un système de diffusion de contenus selon l'invention.
On va maintenant décrire, en référence aux figures précitées, un exemple de réalisation d'un système de diffusion selon l'invention. Le système S de diffusion de contenus voix-image selon l'invention comprend un serveur SA relié à un ou plusieurs réseaux de communication R et accédant à une base de données BP contenant une ensemble de modèles de personnages BP.
Un utilisateur du procédé, par exemple le service communication d'une entreprise, émet à partir d'un poste graphique TG une requête d'animation incluant un fichier audio FA, à destination du serveur SA. Ce fichier audio, après avoir transité via les réseaux de communication, est collecté par le serveur SA et traité pour générer une séquence d'animation labiale sur un personnage virtuel qui peut être défini à partir d'un choix offert à l'utilisateur parmi un ensemble de modèles de personnage BP, ou encore être fourni ou détenu par l'entreprise utilisatrice du service. La séquence d'animation labiale est retournée à l'utilisateur sous la forme d'une page PA - 6 - au format HTML ou tout autre format pouvant supporter une animation. Après réception de la page d'animation, l'utilisateur peut visualiser cette animation labiale sur l'écran E de son poste informatique et la valider. Sur sa demande, l'animation labiale peut être diffusée à un ensemble de destinataires sur leurs ordinateurs TC, terminaux portables de type assistant personnel PDA, ou ordinateurs portables OP respectifs, connectés aux réseaux de communication.
Dans un autre mode d'exploitation du procédé de diffusion selon l'invention, un utilisateur émet à partir de son téléphone portable MO une séquence audio sous la forme d'un fichier audio numérique TA à destination du serveur SA. Cet utilisateur emploie les touches de son téléphone portable pour entrer des commandes selon un menu, par exemple pour sélectionner un modèle de personnage. Ces commandes peuvent être transmises au serveur SA avec le fichier audio TA ou dans un message distinct. Après traitement, le serveur SA transmet au téléphone portable MO requérant un fichier de commandes labiales qui est traité par le processeur interne au téléphone portable pour générer une séquence d'animation labiale. On peut aussi prévoir que le serveur transmette directement à un téléphone portable MO' destinataire une séquence d'animation labiale AN.
On va maintenant décrire, en référence à la figure 2, les étapes du procédé selon l'invention qui sont exécutées au sein du serveur d'exploitation, sous forme d'un logiciel résident sur ce serveur. Après collecte (1) d'un fichier audio, une analyse acoustique (2) de son contenu est effectuée. Cette analyse comprend une détection (21) de 7 groupes de sons: A 0 I F P CH S et une élaboration - 7 - (22) de trois paramètres caractéristiques: la forme de bouche, l'amplitude (A,A,a) et la nervosité.
On accède (23) ensuite aux différentes formes de bouche stockées dans un fichier spécifique FB. On détermine alors des trajectoires de bouche, en mettant en oeuvre une interpolation (24) entre ces différentes formes de bouche en fonction des trois paramètres précités pour calculer et générer (4) une animation labiale sur un modèle de personnage préalablement choisi (3) parmi un ensemble de modèles stockés dans une base de données BP.
La séquence vocale animée ainsi obtenue est alors transmise (5) soit sous de façon ciblé (6) à un ou plusieurs destinataires, soit sous la forme d'une diffusion via un réseau de communication à destination d'un groupe de destinataires.
On va maintenant décrire plus en détail un système d'animation labiale automatique mis en oeuvre dans un système de diffusion à synchronisation labiale selon l'invention. Ce système d'animation labiale automatique permet de générer un flux ou un fichier de données pour réaliser l'animation de la bouche de personnages de synthèse par analyse acoustique du son.
Les informations d'animation sont extraites par calcul, en temps réel ou en temps différé, à partir du signal sonore entrant représenté par un flux de données numériques ou un fichier de valeurs.
Le principe général du fonctionnement s'appuie uniquement sur une analyse des paramètres acoustiques du son, permettant ainsi de s'affranchir de bases de données phonétiques, différentes suivant les langues.
L'analyse du son met en oeuvre, en référence à la figure 3, une source sonore, un fichier son, un fichier - 8 - LPN (mode de sortie natif), un fichier LPI (mode de sortie interpolé), et une interface RS232.
Après analyse les données en sortie indiquent à un système de synthèse d'images animées, le modèle de bouche à utiliser ainsi que l'amplitude d'ouverture de ce modèle.
Des données supplémentaires permettant une interprétation du signal principal sont aussi fournies par le système.
Elles sont au nombre de 3: - Nervosité - Expression ou Humeur Clignements d'yeux Huit modèles de bouche peuvent être utilisés avec, pour chacun, trente-deux pas d'amplitude d'ouverture 15 possibles.
Est fournie ci-dessous un exemple d'une table des modèles.
Modèle Groupe de Amplitude sons 0 (fermé) Silence 0 1 0, Eu 0..31 2 A, Ai 0..31 3 Fe 0..31 4 Me, Pe, Be 0..31 I 0..31 6 Ch 0..31 7 S 0..31 Des formes de bouche correspondant à une amplitude égale à 31, obtenues avec ces modèles sont représentées en figure 4.
Pendant une phase de traitement les données peuvent être émises sur la sortie série de la machine et simultanément enregistrées dans un fichier binaire portant l'extension LPN. - 9 -
Le système d'analyse, pour des raisons de principe, est sensible à la couleur sonore de la voix et doit donc être préréglé pour chaque voix nouvelle.
Ces paramètres sont générés automatiquement ou manuellement. Les paramètres de réglages d'une voix sont enregistrés dans un fichier de configuration portant l'extension CFG.
On va maintenant présenter des modes de sortie mis en oeuvre dans le système d'animation labiale.
Dans un premier mode de sortie, dit natif (sortie LPN), les données sont émises 25 fois par seconde sous un de modèle et son des pondérations des formes de bouche décrit dans la suite de la présente description. Les données sont disponibles sur l'interface série RS232 du micro-ordinateur selon un format des données spécifique, et un fichier portant l'extension LPN enregistre ces données pour un usage différé. C'est le seul format disponible en fonctionnement temps réel.
Dans un seconde mode de sortie LPI, dit interpolé, les données subissent un traitement d'interpolation et sont donc directement prêtes à être intégrées dans la plupart des éditeurs graphiques tridimensionnels 3D.
Est donné ci-après un exemple de table d'interpolation: format brut amplitude. L'affichage du modèle dans ces conditions est très saccadé. Les données reçues par le système graphique doivent impérativement subir un traitement permettant d'assurer des transitions douces entre chaque image, en utilisant par exemple un algorithme de calcul indiquant le numéro - 10 - Modèl Modèl Modèl Modèl Modèl Modèl Modèl Modèl e 0 el e 2 e 3 e 4 e 5 e 6 e 7 Imag 1 0 0 0 0 0 0 0 e 1 Imag 0.8 0 0.2 0 _ 0 0 0 e 2 0 Imag 0.5 0. 1 0.4 0 0 0 0 0 e 3 Imag 0.2 0.2 _ 0 0 0 0 0 e 4 0.6 Imag 0 0.25 0. 75 0 0 0 0 0 e 5 Cette table donne l'exemple d'une séquence de 5 images d'ouverture à 75% du modèle correspondant au son A, Ai en partant d'une bouche fermée (Silence). Pour une image donnée la somme des contenus de la rangée est toujours égale à 1. Ce format n'est disponible que sous forme de fichier.
On va maintenant exposer de façon détaillée le 10 principe du module d'analyse de son.
Deux types de traitements sont appliqués au signal pour extraire les informations de mouvement de bouche: - un traitement dans le domaine des fréquences sous forme de filtrage multi bandes, - des traitements dans le domaine temporel sous la forme générale d'un système d'analyse d'enveloppe du signal sonore.
A titre d'exemple non limitatif, les paramètres de numérisation du signal entrant peuvent être: Fréquence d'échantillonnage Fe = 24KHz Quantification Q = 8 Bits On va maintenant décrire, en référence à la figure 5, un exemple de réalisation d'un système d'analyse du son mis en oeuvre dans un système de diffusion selon l'invention. L'ensemble du système est constitué de 8 - 11 - voies de traitement/analyse séparables en 7 voies pour la prise de décision aboutissant au choix du modèle de bouche et une voie pour l'analyse du niveau sonore permettant de commander l'amplitude d'ouverture de la bouche concernée.
Une première section A est une section de filtrage, concernant toutes les voies.
Le filtre passe bas placé à l'entrée permet de supprimer les signaux de fréquences supérieures à sa fréquence de coupure, car ils ne contiennent que peu d'informations utiles pour l'analyse des mouvements de bouche.
De plus le système doit être compatible avec un signal de faible bande passante comme celui issu d'une ligne téléphonique. La fréquence de coupure du filtre passe bas d'entrée est Fc (PB) = 3500Hz Une seconde section B est une section de filtrage par bandes, qui concerne les voies de 1 à 7.
Un ensemble de 7 filtres passe bande permet d'analyser les signaux dans des bandes de fréquences plus 20 étroites. En sortie des filtres on dispose donc de 7 signaux triés représentatifs de sons émis avec des hauteurs différentes.
Les fréquences de coupure des filtres passe bande sont: Fcl (PB1) = 500Hz750Hz Fc2 (PB2) = 750Hz-1000Hz Fc3 (PB3) = 1000Hz-1500Hz Fc4 (PB4) = 1500Hz-2000Hz Fc5 (PB5) = 2000Hz-2500Hz Fc6 (PB6) = 2500Hz-3000Hz Fc7 (PB7) = 3000Hz-3500Hz A la sortie de cette première analyse réalisée dans 35 le domaine des fréquences, la suite des analyses et traitements sera réalisée dans le domaine temporel.
- 12 - Dans une troisième section C de détection d'enveloppe, concernant l'ensemble des voies, les signaux issus de chaque bande de fréquence sont redressés. L'énergie contenue dans chaque bande de fréquences est ainsi mesurée.
A(t)= IA(t) j Le signal A(t) représente l'évolution de l'énergie du signal sonore en fonction du temps et ne nécessite plus d'être échantillonné avec la fréquence Fe d'origine.
Les variations très rapides de l'enveloppe du signal sont lissées évitant ainsi des changements de décision trop rapides.
Dans une quatrième section D, dite de pré-intégration sous échantillonnage, qui concerne l'ensemble des voies du système d'analyse, le signal est intégré sur 16 périodes et la nouvelle fréquence d'échantillonnage Fel utile dans la suite des traitements se trouve ramenée au 1/16 de la fréquence d'origine.
Fel = Fe/16 A(tl)= 2A(t) pour 16 t Une cinquième section E de gain variable, 25 concernant l'ensemble des voies, assure l'application d'un gain spécifique à chacune des bandes de fréquences analysées.
Il permet de pondérer la valeur de sortie d'une voie d'analyse. Les réglages d'adaptation du système à une nouvelle source sonore (nouvelle voix) agissent sur cette valeur.
A(tl)= G* A(tl) - 13 - Dans une sixième section F d'intégrations variables, qui concerne également toutes les voies du système, les signaux ainsi disponibles sont ensuite intégrés avec des constantes de temps différenciées par bandes et par et par type d'évolution dans le temps (attaque, retour).
Cette opération permet de réaliser un filtrage en fonction du temps indépendamment pour les signaux croissants et décroissants.
Les 2 valeurs de constantes de temps d'intégration 10 par voie Ta et Tr, permettent de faire varier la durée de la période d'intégration.
Ce traitement à pour effet de pouvoir séparer les signaux en fonction de l'évolutions de leurs enveloppes.
Ta = Temps d'Attaque:Constante de temps d'intégration pour les signaux croissants Tr = Temps de Retour:Constante de temps d'intégration pour les signaux décroissants Si A(tl)> A(tl-1) Alors A(tl)= EA(t) pour t =1..Ta Sinon A(tl)= EA(t) pour t =1..Tr Une sixième section G, concernant toutes les voies, est dédiée aux courbes de transfert ? Chaque voie possède une courbe de transfert amplitude/amplitude qui permet: de réduire la dynamique sonore à une plus faible valeur, plus réaliste pour la dynamique visuelle de l'élongation des mouvements de bouche.
- d'obtenir une courbe de transfert spécifique au type d'information que l'on cherche à détecter.
- 14 - Dynamique d'entrée = 50dB {8 bits) Dynamique de sortie = 30dB (6 bits) La forme de la courbe permet d'amplifier/atténuer des 5 variations de niveaux dans certaines zones de niveau.
A(tl)= C (A(tl) ) Les nouvelles données sont transmises non 10 linéairement à un module de prise de décision d'affection de type de bouche à afficher.
Une septième section H est dédiée à la prise de décision et concerne les voies 1 à 7. Vers l'outil de prise de décision convergent deux types de signaux issus de l'analyse: - les signaux des voies de 1 à 7 qui permettront de choisir le modèle de bouche, - le signal de la voie 8 qui contient l'information d'amplitude du mouvement de la bouche.
C'est le signal de la plus forte énergie qui décide du modèle de bouche à proposer (hors bouche fermée).
Un modèle de bouche ne peut pas changer si l'énergie du signal à une valeur décroissante.
Le prochain changement de modèle ne pourra se 25 réaliser que sur le premier plus fort signal à énergie croissante.
Une valeur décroissante d'énergie fait tendre la bouche vers la fermeture. Quelque soit le modèle de bouche utilisé, la décroissance force la sortie au modèle de 30 bouche fermée.
L'algorithme de prise de décision utilise, pour ce faire, un échantillon retardé d'une période Tl prélevé sur - 15 - le signal image de l'amplitude (voie8) pour connaître le sens de l'évolution de la courbe d'amplitude.
Si A8 (tl) ≥ A8 (tl-1) Alors Modèle = "0" Si A2(tl) >Al(tl) Alors Modèle = "A" Si A3(tl) >A2(tl) Alors Modèle = "F" Si A4 (tl) >A3 (tl) Alors Modèle = "P" Si A5(tl) >A4(tl) Alors Modèle = "I" Si A6(tl) >A5(tl) Alors Modèle = "CH" Si A7(tl) >A6(tl) Alors Modèle = "S" Sinon Modèle = "fermé" Des données supplémentaires peuvent être avantageusement prises en compte dans le module d'analyse.
Une première donnée supplémentaire est la nervosité. La nervosité est issue d'un calcul de fréquence de changement de pente du signal principal (non filtré).
Cette valeur est ramenée à un résultat compris entre 0 et 15.Elle sera utilisée pour permettre d'affiner les coefficients d'intégration de l'interpolateur final en fonction des besoins.
Une seconde donnée supplémentaire est l'expression ou l'humeur. Cette valeur est obtenue par combinaison de la valeur de nervosité et de la valeur moyenne du spectre du signal dans les 3 dernières bandes d'analyse. Elle varie entre 0 et 7 avec une valeur centrale de 3 pour exprimer une expression normale. En dessous de 3 on augmente la tristesse. Au dessus de 3 on augmente la Gaité/énervement.
Une troisième donnée supplémentaire est le clignement d'yeux. Un générateur pseudo aléatoire permet de générer un flux d'évènements discrets dans le temps. Une porte - 16 - synchronisée sur les attaques de son permet de manière non régulière de synchroniser certains évènements avec des attaques de signal. Le signal d'événements final est composé d'un entrelacement temporel d'événements asynchrones et synchrones des attaques.
On va maintenant décrire un exemple de format binaire des binaires LPN (mode natif) mis en oeuvre dans l'analyse. Trois octets sont utilisés à chaque image, à l'identique de ce qui est transmis sur la liaison série RS232. Le fichier à donc une longueur totale en octets égale à trois fois le nombre d'images de l'enregistrement son. C'est un fichier binaire pur ne comportant pas d'entête mais relié à un fichier texte d'informations séparé, portant le même nom mais avec une extension .txt . Les données sont organisées en paquets de trois octets ordonnés. Les bits B6 Et B7 ne transportent pas d'information mais permettent de déterminer la fonction des valeurs transmises dans les bits inférieurs.
Dans un premier octet, on peut avoir pour chaque bit 20 les fonctions suivantes: Le bit B5 indique le numéro du canal transmis: C = 0..1 Deux canaux possibles Les bits B4 à BO indiquent l'amplitude d'ouverture de la bouche: AAAAA = 0..31 32 valeurs possibles B6 B5 B4 B3 B2 B1 BO
A
- 17 - Dans le deuxième octet, les bits B5 à B3 indiquent la valeur d'expression: EEE = 0..7 Huit expressions possibles Les bits B2 à BO indiquent le numéro de la bouche à utiliser: BBB = 0..7 Huit valeurs possibles B7 B6 B5 B4 B3 B2 B1 BO
E
E
B
B
Dans le troisième octet, le bit B5 est non affecté, et le bit B4 indique un événement paupière.
Les bits B3 à BO indiquent la valeur de nervosité : NNNN = 0..15 L'offset de départ pour la nervosité est de 25%, les valeurs transmises de 0 à 15 représentent une plage de 75% par pas de 5%.
valeurs de nervosité sont possibles Nervosité finale (%) = 25 + Nervosité transmise * 5(Max 100%) B7 B6 B5 B4 B3 B2 B1 BO 1 NA N N N On va maintenant décrire un exemple d'algorithme de 35 calcul des pondérations des formes de bouche, mis en oeuvre dans le procédé d'animation.
En mode natif, avec une fréquence d'échantillonnage de 25 Hz, les données reçues sont: - le numéro de forme de bouche 2871613 - 18 - l'amplitude d'ouverture de la forme de bouche la nervosité.
Une technique d'interpolation est utilisée pour calculer les pondérations des formes de bouches à un instant t. Cette interpolation opère sur les N échantillons les plus récents.
Les données reçues à une fréquence de 25 Hz sont stockées dans des tableaux: Mouth[N] le numéro de la forme de bouche Amplitude[N] l'amplitude d'ouverture de la forme de bouche Nervosity[N] la nervosité On fait l'hypothèse que la valeur la plus récente est 15 stockée à l'indice i=0, la seconde valeur plus récente est stockée à l'indice i = 1 etc...
Pour calculer les pondérations Weight[i] pour i = 0 à 7 formes de bouche à l'instant t, on utilise les valeurs reçues aux instants T= t (i=0), T= t-40ms (i=l) T= t- N*40ms (i=N).
L'algorithme de calcul des pondérations est le suivant // Initialisations Weight[ Mouth[0] ] = Amplitude[0] * Nervosity[0]; // Interpolation sur N échantillons for ( j = N; j > 0; j--) cte = Amplitude[j] * Nervosity[j]; for ( k = 0; k ≤ j - 1; k++ ) cte *_ (1.0 - Nervosity[k]); Weight[ Mouth[j] ] += cte; Avec le calcul des pondérations des formes de bouche à l'instant t, on utilise une technique d'objets multiples 30 - 19 interpolés pour représenter la forme de bouche résultante à l'instant t: Bres = E Weight[i] * Bmouth[i] pour i = 0 à 7.
Bien sûr, l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention.

Claims (11)

- 20 - REVENDICATIONS
1. Procédé de diffusion de contenus voix-image à synchronisation labiale, comprenant les étapes suivantes: collecte (1) d'un fichier audio, analyse acoustique (2) du contenu de ce fichier, utilisation (23) d'une pluralité de formes de bouche (FB), détermination de trajectoires de bouche, mise en oeuvre d'un modèle labial tridimensionnel, choisi parmi une bibliothèque (BD) de modèles de personnage, et génération (4) d'une animation de bouche d'un personnage.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comprend en outre une diffusion (7) d'une page à un ou plusieurs destinataires.
3. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'étape d'analyse acoustique (2) comprend une détection (21) d'une pluralité de groupes de sons différents.
4. Procédé selon la revendication 3, caractérisé en ce que la pluralité de groupes de sons comprend tout ou partie des groupes de sons suivants: A O I F P CH S
5. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend en outre une détection (22) sur le fichier audio de l'un au moins des trois paramètres suivants: - un paramètre de forme de bouche, - 21 - un paramètre d'amplitude (A,A,a), un paramètre de nervosité (basse ou forte).
6. Procédé selon la revendication 5, caractérisé en ce qu'il comprend en outre un traitement des paramètres détectés sur le fichier audio, pour réaliser une interpolation (24) entre les différentes formes de bouche.
7. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il est exploité dans un mode Batch dans lequel un fichier audio (FA) est déposé sur un site pour être transmis à un serveur (SA), et un modèle de personnage est choisi dans une bibliothèque (BP) de modèles de personnage accessible par ledit serveur.
8. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il est exploité dans un mode Indirect mettant en oeuvre un système de téléphonie.
9. Procédé selon la revendication 8, caractérisé en ce qu'il est exploité selon les étapes suivantes: un contenu audio (TA) est enregistré sur un équipement de téléphonie (MO), - ce contenu audio (TA) enregistré est transmis vers un 25 serveur (SA) dans lequel ce contenu audio est analysé et traité pour générer un fichier de commandes labiales (CL), et - ce fichier de commandes labiales (CL) est transmis à un destinataire (MO, MO') via un réseau de communication (R).
10. Système (S) de diffusion de contenus voix-image à synchronisation labiale, mettant en oeuvre le procédé de - 22 - diffusion selon l'une des revendications 1 à 9, ce système comprenant: - des moyens pour collecter un fichier audio (FA), - des moyens d'analyse acoustique du contenu de ce fichier (FA), - des moyens pour déterminer des trajectoires de bouche, des moyens pour mettre en oeuvre un modèle labial tridimensionnel, choisi parmi une bibliothèque (BP) de modèles de personnage, et - des moyens pour générer une animation de bouche d'un personnage.
11. Système de diffusion selon la revendication 10, caractérisé en ce qu'il comprend en outre des moyens pour diffuser une page incluant un contenu voix-image animé, vers un ou plusieurs destinataires.
FR0406294A 2004-06-10 2004-06-10 Procede et systeme de diffusion de contenus voix-image a synchronisation labiale Expired - Fee Related FR2871613B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0406294A FR2871613B1 (fr) 2004-06-10 2004-06-10 Procede et systeme de diffusion de contenus voix-image a synchronisation labiale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0406294A FR2871613B1 (fr) 2004-06-10 2004-06-10 Procede et systeme de diffusion de contenus voix-image a synchronisation labiale

Publications (2)

Publication Number Publication Date
FR2871613A1 true FR2871613A1 (fr) 2005-12-16
FR2871613B1 FR2871613B1 (fr) 2006-12-01

Family

ID=34946499

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0406294A Expired - Fee Related FR2871613B1 (fr) 2004-06-10 2004-06-10 Procede et systeme de diffusion de contenus voix-image a synchronisation labiale

Country Status (1)

Country Link
FR (1) FR2871613B1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046947A1 (fr) * 1999-12-20 2001-06-28 Thrillionaire Productions, Inc. Systeme d'animation a commande vocale
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US20030117485A1 (en) * 2001-12-20 2003-06-26 Yoshiyuki Mochizuki Virtual television phone apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046947A1 (fr) * 1999-12-20 2001-06-28 Thrillionaire Productions, Inc. Systeme d'animation a commande vocale
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US20030117485A1 (en) * 2001-12-20 2003-06-26 Yoshiyuki Mochizuki Virtual television phone apparatus

Also Published As

Publication number Publication date
FR2871613B1 (fr) 2006-12-01

Similar Documents

Publication Publication Date Title
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP2419900B1 (fr) Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
KR101513888B1 (ko) 멀티미디어 이메일 합성 장치 및 방법
EP2059926A2 (fr) Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur
CN109256136A (zh) 一种语音识别方法和装置
WO2009071795A1 (fr) Systeme d'interpretation simultanee automatique
CN111798821B (zh) 声音转换方法、装置、可读存储介质及电子设备
JP2014512022A (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
CN107430851A (zh) 发言提示装置、发言提示方法以及程序
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN112492400B (zh) 互动方法、装置、设备以及通信方法、拍摄方法
FR2871613A1 (fr) Procede et systeme de diffusion de contenus voix-image a synchronisation labiale
CN106022332B (zh) 终端设备、将纸质读物转为待听读物播放的装置及方法
KR100463706B1 (ko) 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법
US11302308B2 (en) Synthetic narrowband data generation for narrowband automatic speech recognition systems
EP2473996B1 (fr) Procédé pour rendre un signal musical compatible avec un codec à transmission discontinue; et dispositif pour la mise en oeuvre de ce procédé
McCloy et al. Gender, the individual, and intelligibility
FR3085784A1 (fr) Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
JP2004294577A (ja) 文字情報音声変換方法
US11609948B2 (en) Music streaming, playlist creation and streaming architecture
US20240089515A1 (en) Computer-based tools and techniques for real-time optimization of audio and audiovisual content
Janik et al. Combining neural network and sequence analyses to determine animal call repertoires
FR3106691A1 (fr) Conversion de la parole par apprentissage statistique avec modélisation complexe des modifications temporelles
WO2019180973A1 (fr) Dispositif de génération d'informations de classification, procédé de production d'informations de classification et support d'enregistrement

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20100226