FR2807188A1

FR2807188A1 - Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences

Info

Publication number: FR2807188A1
Application number: FR0004064A
Authority: FR
Inventors: Bastien Bouju; Jerome Archambeaud; Jacques Perche; Zorzi Frederic De; Ramon Maceiras
Original assignee: VRTV STUDIOS
Current assignee: VRTV STUDIOS
Priority date: 2000-03-30
Filing date: 2000-03-30
Publication date: 2001-10-05
Anticipated expiration: 2020-03-30
Also published as: WO2001075861A1; JP2003529863A; AU4843501A; FR2807188B1

Abstract

La présente invention se rapporte à un équipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale (13), un module graphique (12) pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en ce qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement (5), un module d'analyse de texte (7) recevant les messages provenant d'une interface (1) d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements (5) en fonction des messages d'entrée, lesdits marqueurs pilotant le module graphique (12), l'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et du module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.La présente invention se rapporte également à un procédé de production automatique, en temps réel, de séquences audiovisuelles virtuelles.

Description

EQUIPEMENT POUR PRODUCTION AUTOMATIQUE EN TEMPS REEL DE SEQUENCES AUDIOVISUELLES VIRTUELLES A PARTIR MESSAGE TEXTUEL ET POUR LA DIFFUSION DE TELLES SEQUENCES. La présente invention concerne domaine des équipements pour la production automatique séquences audiovisuelles virtuelles à partir d'un message textuel et pour la diffusion de telles séquences.

connaît dans l'état de technique différentes solutions pour produire des séquences d'animation virtuelles associées à la synthèse vocale.

brevet américain US 5 970 459 par exemple décrit un système pour la synchronisation entre une image animée et un convertisseur de synthèse vocale.

Le brevet US 5 630 017 décrit un équipement pour l'animation des mouvements de lèvres d'une image de synthèse en fonction de données textuelles.

Le but de l'invention est d'automatiser en temps réel la production d'images animées audiovisuelles dont le comportement est représentatif du contenu syntaxique et grammatical et du contexte des données textuelles provenant de sources extérieures et d'assurer leur diffusion en temps réel ou différé.

L'invention concerne selon son acception la plus générale un équipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale, un module graphique pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en ce qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement, un module d'analyse de texte recevant les messages provenant d'une interface d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements en fonction messages d'entrée, lesdits marqueurs pilotant le module graphique, l'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.

Les moyens et modules peuvent être indifféremment constitués de circuits électroniques ou de modules purement informatiques.' Le terme de signal audiovisuel se rapporte à tout de signal permettant de réaliser au moins une image et du son, y compris, par exemple, à une image programmée.

Le langage naturel du message textuel s'entend de toute langue qui ne soit pas un langage informatique artificiel.

Avantageusement, l'équipement selon l'invention comporte en outre une base de données d'univers virtuels contenant des données numériques pour produire des décors et personnages animés, la base de données de comportements comportant des descripteurs pour le pilotage par le module d'analyse de texte et les animations comportementales de la base d'univers virtuels.

Avantageusement également, l'équipement selon l'invention permet de réaliser des animations en temps réel et de les diffuser en temps réel, voire en temps différé.

Avantageusement enfin, l'équipement selon l'invention permet d'éviter d'utiliser un langage informatique en entrée. Selon une variante, il comporte une machine rendu comportant un automate de traitement du texte dont les états contiennent les actions à réaliser sur les scènes provenant des bases de données.

Selon une autre variante avantageuse, il comporte module de sortie pour numériser et compresser le signal audiovisuel, la sortie dudit module étant reliée à un erveur de diffusion sur un réseau télécommunication, en temps réel ou en temps différé. L'invention concerne également un procédé production automatique, en temps réel, de séquences audiovisuelles virtuelles, caractérisé en ce que l'on procède à une analyse du texte provenant d'une interface d'entrée, pour produire des marqueurs comportementaux issus d'une base de données de comportements en fonction message d'entrée, lesdits marqueurs pilotant un module graphique synchronisé avec un module de synthèse vocale pour générer un signal audiovisuel.

L'invention sera mieux comprise à la lecture la description qui suit, se référant à la figure 1 annexée représentant le schéma de principe d'un équipement selon un mode de réalisation non limitatif de l'invention.

La figure 1 représente l'architecture générale d'un équipement selon l'invention.

Une interface (1) reçoit un fichier texte, par exemple depuis un clavier de saisie, ou une base de données, ou encore par un réseau informatique, par exemple Internet, ou par un réseau téléphonique, par reconnaissance vocale ou analyse de la voix.

Un serveur (2) reçoit le fichier texte, par un canal de réception (3) piloté par une console de commande (6) assurant la définition du contexte de diffusion et le cas échéant la mise à jour en temps réel des données. Le serveur comporte une base de données de comportement (5) contenant des marqueurs correspondant aux correspondances entre les unités lexicales et syntaxiques du texte et les animations comportementales de base de données univers virtuels (4) contenant des scènes en trois dimensions, par exemple, au format vrml.

Un module d'analyse de texte (7) chargé d'insérer dans le texte source des marqueurs comportementaux issus de la base de données (5).

Une machine de rendu (10) produit scènes 3D animées sonorisées, à partir d'un automate et texte. La machine de rendu (10) comprend un automate de traitement (9). Les états de l'automate contiennent les actions les scènes (chargement, animation, . et des scriptes. Les transitions entre les états se feront à partir des mots et marqueurs du texte issus du module d'analyse (7). La définition de l'univers virtuel à charger (décors, personnages) se trouve dans l'état initial de l'automate.

Le texte issu du module d'analyse (7) et contenant les mots et les marqueurs, est lu par le séquenceur (11) qui déclenche la prononciation du texte et les actions sur la scène 3D par l'intermédiaire de l'automate (8b). Le module graphique (12) en trois dimensions et le module de synthèse vocale (13) sont synchronisés en temps réel. I1 est possible de deporter le module de synthèse vocale sur une autre machine.

Le module de synthèse vocale (13) génère le signal audio qui est traité par une interface sortie (15). Le module graphique (12) génère le signal vidéo qui est traité par une interface de sortie (14). Un encodeur (16) numérise les données audio et vidéo et génère un signal numérique comprimé dirigé vers un serveur de diffusion (17). L'ensemble des opérations, depuis l'entrée du texte jusqu'à la génération images et la synthèse du son, est effectué en temps réel. La diffusion de masse peut être effectuée en temps réel ou en temps différé, suivant le procédé utilisé.

La machine de rendu (10) peut éventuellement être déportée sur chaque terminal.

Claims

REVENDICATIONS

1. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale (13), module graphique (12) pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement (5), un module d'analyse de texte (7) recevant les messages provenant d'une interface (1) d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements (5) en fonction des messages d'entrée, lesdits marqueurs pilotant le module graphique (12), 'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et du module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.

2. Equipement pour la production automatique, temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon la revendication 1 caractérisé en ce qu'il comporte en outre une base de données d'univers virtuels (4) contenant données numériques pour produire des décors et personnages animés, base de données de comportements (5) comportant des descripteurs pour le pilotage par le module analyse de texte et les animations comportementales de la base univers virtuels (4).

3. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon la revendication 1 ou 2 caractérisé en ce qu' comporte une machine de rendu (10) comportant un automate de traitement (9) dont les états contiennent les actions à réaliser sur les scènes provenant des bases de données et 5).

4. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon l'une au moins des revendications précédentes caractérisé en ce qu'il comporte un module de sortie pour numériser et compresser le signal audiovisuel, la sortie dudit module étant reliée à un serveur de dif (17) sur un réseau de télécommunication.

5. Procédé production automatique, en temps réel, de séquences audiovisuelles virtuelles, caractérisé en ce que l'on procède à une analyse du texte provenant d'une interface d'entrée, pour produire des marqueurs comportementaux is d'une base de données de comportements (5) en fonction du message d'entrée, lesdits marqueurs pilotant un module graphique synchronisé avec un module de synthèse vocale pour générer un signal audiovisuel.