FR2807188A1 - Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences - Google Patents
Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences Download PDFInfo
- Publication number
- FR2807188A1 FR2807188A1 FR0004064A FR0004064A FR2807188A1 FR 2807188 A1 FR2807188 A1 FR 2807188A1 FR 0004064 A FR0004064 A FR 0004064A FR 0004064 A FR0004064 A FR 0004064A FR 2807188 A1 FR2807188 A1 FR 2807188A1
- Authority
- FR
- France
- Prior art keywords
- module
- sequences
- virtual
- equipment
- time production
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
Abstract
La présente invention se rapporte à un équipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale (13), un module graphique (12) pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en ce qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement (5), un module d'analyse de texte (7) recevant les messages provenant d'une interface (1) d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements (5) en fonction des messages d'entrée, lesdits marqueurs pilotant le module graphique (12), l'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et du module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.La présente invention se rapporte également à un procédé de production automatique, en temps réel, de séquences audiovisuelles virtuelles.
Description
EQUIPEMENT <B>POUR PRODUCTION</B> AUTOMATIQUE <B>EN TEMPS</B> REEL <B>DE</B> SEQUENCES AUDIOVISUELLES <B>VIRTUELLES A PARTIR MESSAGE</B> <B>TEXTUEL ET POUR</B> LA DIFFUSION <B>DE TELLES</B> SEQUENCES. La présente invention concerne domaine des équipements pour la production automatique séquences audiovisuelles virtuelles à partir d'un message textuel et pour la diffusion de telles séquences.
connaît dans l'état de technique différentes solutions pour produire des séquences d'animation virtuelles associées à la synthèse vocale.
brevet américain US 5 970 459 par exemple décrit un système pour la synchronisation entre une image animée et un convertisseur de synthèse vocale.
Le brevet US 5 630 017 décrit un équipement pour l'animation des mouvements de lèvres d'une image de synthèse en fonction de données textuelles.
Le but de l'invention est d'automatiser en temps réel la production d'images animées audiovisuelles dont le comportement est représentatif du contenu syntaxique et grammatical et du contexte des données textuelles provenant de sources extérieures et d'assurer leur diffusion en temps réel ou différé.
L'invention concerne selon son acception la plus générale un équipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale, un module graphique pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en ce qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement, un module d'analyse de texte recevant les messages provenant d'une interface d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements en fonction messages d'entrée, lesdits marqueurs pilotant le module graphique, l'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.
Les moyens et modules peuvent être indifféremment constitués de circuits électroniques ou de modules purement informatiques.' Le terme de signal audiovisuel se rapporte à tout de signal permettant de réaliser au moins une image et du son, y compris, par exemple, à une image programmée.
Le langage naturel du message textuel s'entend de toute langue qui ne soit pas un langage informatique artificiel.
Avantageusement, l'équipement selon l'invention comporte en outre une base de données d'univers virtuels contenant des données numériques pour produire des décors et personnages animés, la base de données de comportements comportant des descripteurs pour le pilotage par le module d'analyse de texte et les animations comportementales de la base d'univers virtuels.
Avantageusement également, l'équipement selon l'invention permet de réaliser des animations en temps réel et de les diffuser en temps réel, voire en temps différé.
Avantageusement enfin, l'équipement selon l'invention permet d'éviter d'utiliser un langage informatique en entrée. Selon une variante, il comporte une machine rendu comportant un automate de traitement du texte dont les états contiennent les actions à réaliser sur les scènes provenant des bases de données.
Selon une autre variante avantageuse, il comporte module de sortie pour numériser et compresser le signal audiovisuel, la sortie dudit module étant reliée à un erveur de diffusion sur un réseau télécommunication, en temps réel ou en temps différé. L'invention concerne également un procédé production automatique, en temps réel, de séquences audiovisuelles virtuelles, caractérisé en ce que l'on procède à une analyse du texte provenant d'une interface d'entrée, pour produire des marqueurs comportementaux issus d'une base de données de comportements en fonction message d'entrée, lesdits marqueurs pilotant un module graphique synchronisé avec un module de synthèse vocale pour générer un signal audiovisuel.
L'invention sera mieux comprise à la lecture la description qui suit, se référant à la figure 1 annexée représentant le schéma de principe d'un équipement selon un mode de réalisation non limitatif de l'invention.
La figure 1 représente l'architecture générale d'un équipement selon l'invention.
Une interface (1) reçoit un fichier texte, par exemple depuis un clavier de saisie, ou une base de données, ou encore par un réseau informatique, par exemple Internet, ou par un réseau téléphonique, par reconnaissance vocale ou analyse de la voix.
Un serveur (2) reçoit le fichier texte, par un canal de réception (3) piloté par une console de commande (6) assurant la définition du contexte de diffusion et le cas échéant la mise à jour en temps réel des données. Le serveur comporte une base de données de comportement (5) contenant des marqueurs correspondant aux correspondances entre les unités lexicales et syntaxiques du texte et les animations comportementales de base de données univers virtuels (4) contenant des scènes en trois dimensions, par exemple, au format vrml.
Un module d'analyse de texte (7) chargé d'insérer dans le texte source des marqueurs comportementaux issus de la base de données (5).
Une machine de rendu (10) produit scènes 3D animées sonorisées, à partir d'un automate et texte. La machine de rendu (10) comprend un automate de traitement (9). Les états de l'automate contiennent les actions les scènes (chargement, animation, . et des scriptes. Les transitions entre les états se feront à partir des mots et marqueurs du texte issus du module d'analyse (7). La définition de l'univers virtuel à charger (décors, personnages) se trouve dans l'état initial de l'automate.
Le texte issu du module d'analyse (7) et contenant les mots et les marqueurs, est lu par le séquenceur (11) qui déclenche la prononciation du texte et les actions sur la scène 3D par l'intermédiaire de l'automate (8b). Le module graphique (12) en trois dimensions et le module de synthèse vocale (13) sont synchronisés en temps réel. I1 est possible de deporter le module de synthèse vocale sur une autre machine.
Le module de synthèse vocale (13) génère le signal audio qui est traité par une interface sortie (15). Le module graphique (12) génère le signal vidéo qui est traité par une interface de sortie (14). Un encodeur (16) numérise les données audio et vidéo et génère un signal numérique comprimé dirigé vers un serveur de diffusion (17). L'ensemble des opérations, depuis l'entrée du texte jusqu'à la génération images et la synthèse du son, est effectué en temps réel. La diffusion de masse peut être effectuée en temps réel ou en temps différé, suivant le procédé utilisé.
La machine de rendu (10) peut éventuellement être déportée sur chaque terminal.
Claims (5)
1. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel exprimé dans un langage naturel et pour la diffusion de telles séquences, du type comportant un module de synthèse vocale (13), module graphique (12) pour la génération d'images de synthèse et un processeur pour piloter les interfaces d'entrée et de sortie ainsi que lesdits modules, caractérisé en qu'il comporte une première mémoire dans laquelle est enregistrée une base de données de comportement (5), un module d'analyse de texte (7) recevant les messages provenant d'une interface (1) d'entrée et générant des marqueurs comportementaux issus de la base de données de comportements (5) en fonction des messages d'entrée, lesdits marqueurs pilotant le module graphique (12), 'équipement comportant en outre des moyens pour la synchronisation du module de synthèse vocale et du module graphique et des circuits audio et vidéo recevant les données provenant des modules de synthèse vocale et graphique pour délivrer un signal audiovisuel.
2. Equipement pour la production automatique, temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon la revendication 1 caractérisé en ce qu'il comporte en outre une base de données d'univers virtuels (4) contenant données numériques pour produire des décors et personnages animés, base de données de comportements (5) comportant des descripteurs pour le pilotage par le module analyse de texte et les animations comportementales de la base univers virtuels (4).
3. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon la revendication 1 ou 2 caractérisé en ce qu' comporte une machine de rendu (10) comportant un automate de traitement (9) dont les états contiennent les actions à réaliser sur les scènes provenant des bases de données et 5).
4. Equipement pour la production automatique, en temps réel, de séquences audiovisuelles virtuelles à partir d'un message textuel, selon l'une au moins des revendications précédentes caractérisé en ce qu'il comporte un module de sortie pour numériser et compresser le signal audiovisuel, la sortie dudit module étant reliée à un serveur de dif (17) sur un réseau de télécommunication.
5. Procédé production automatique, en temps réel, de séquences audiovisuelles virtuelles, caractérisé en ce que l'on procède à une analyse du texte provenant d'une interface d'entrée, pour produire des marqueurs comportementaux is d'une base de données de comportements (5) en fonction du message d'entrée, lesdits marqueurs pilotant un module graphique synchronisé avec un module de synthèse vocale pour générer un signal audiovisuel.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0004064A FR2807188B1 (fr) | 2000-03-30 | 2000-03-30 | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
PCT/FR2001/000968 WO2001075861A1 (fr) | 2000-03-30 | 2001-03-30 | Procede et equipement pour la production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et d'evenements exterieurs et pour la diffusion de telles sequences |
JP2001573457A JP2003529863A (ja) | 2000-03-30 | 2001-03-30 | テキスト・メッセージおよび外部イベントから、仮想音声映像シーケンスをリアルタイムで自動的に作成し、このようなシーケンスを放送する方法および装置 |
AU48435/01A AU4843501A (en) | 2000-03-30 | 2001-03-30 | Method and equipment for automatic real-time production of virtual audio-visual sequences from a textual message and external events and for broadcasting said sequences |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0004064A FR2807188B1 (fr) | 2000-03-30 | 2000-03-30 | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2807188A1 true FR2807188A1 (fr) | 2001-10-05 |
FR2807188B1 FR2807188B1 (fr) | 2002-12-20 |
Family
ID=8848680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0004064A Expired - Fee Related FR2807188B1 (fr) | 2000-03-30 | 2000-03-30 | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2003529863A (fr) |
AU (1) | AU4843501A (fr) |
FR (1) | FR2807188B1 (fr) |
WO (1) | WO2001075861A1 (fr) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004012151A1 (fr) * | 2002-07-31 | 2004-02-05 | Inchain Pty Limited | Messagerie animee |
AU2006201368B2 (en) * | 2002-07-31 | 2010-02-18 | Inchain Pty Ltd | Animated Messages |
CN101137152B (zh) * | 2007-09-27 | 2010-09-15 | 腾讯科技(深圳)有限公司 | 一种在移动即时通信中交互三维动画的方法、系统及设备 |
US8065157B2 (en) | 2005-05-30 | 2011-11-22 | Kyocera Corporation | Audio output apparatus, document reading method, and mobile terminal |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
CN113903325A (zh) * | 2021-05-31 | 2022-01-07 | 荣耀终端有限公司 | 文本转3d音频的方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745163B1 (en) * | 2000-09-27 | 2004-06-01 | International Business Machines Corporation | Method and system for synchronizing audio and visual presentation in a multi-modal content renderer |
FR2870970B1 (fr) * | 2004-06-01 | 2006-08-11 | Vrtv Studios Sarl | Procede de generation de sequences animees a partir d'une photographie |
CN111047672A (zh) * | 2019-11-26 | 2020-04-21 | 湖南龙诺数字科技有限公司 | 一种数字动漫生成系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0598597A1 (fr) * | 1992-11-18 | 1994-05-25 | Canon Information Systems, Inc. | Méthode et dispositif pour séquencer une présentation multimedia ayant une conversion texte-parole |
JPH07175909A (ja) * | 1993-12-20 | 1995-07-14 | Canon Inc | データ処理装置 |
EP0860811A2 (fr) * | 1997-02-24 | 1998-08-26 | Digital Equipment Corporation | Synchronisation automatique de la parole pour la synthèse d'images |
EP0896322A2 (fr) * | 1997-08-05 | 1999-02-10 | AT&T Corp. | Procédé et dispositif d'alignment d'enrégistrements vidéos naturels et synthétiques avec un signal de parole synthétique |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674875B2 (ja) * | 1994-10-24 | 2005-07-27 | 株式会社イメージリンク | アニメーションシステム |
-
2000
- 2000-03-30 FR FR0004064A patent/FR2807188B1/fr not_active Expired - Fee Related
-
2001
- 2001-03-30 WO PCT/FR2001/000968 patent/WO2001075861A1/fr active Application Filing
- 2001-03-30 JP JP2001573457A patent/JP2003529863A/ja active Pending
- 2001-03-30 AU AU48435/01A patent/AU4843501A/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0598597A1 (fr) * | 1992-11-18 | 1994-05-25 | Canon Information Systems, Inc. | Méthode et dispositif pour séquencer une présentation multimedia ayant une conversion texte-parole |
JPH07175909A (ja) * | 1993-12-20 | 1995-07-14 | Canon Inc | データ処理装置 |
EP0860811A2 (fr) * | 1997-02-24 | 1998-08-26 | Digital Equipment Corporation | Synchronisation automatique de la parole pour la synthèse d'images |
EP0896322A2 (fr) * | 1997-08-05 | 1999-02-10 | AT&T Corp. | Procédé et dispositif d'alignment d'enrégistrements vidéos naturels et synthétiques avec un signal de parole synthétique |
Non-Patent Citations (2)
Title |
---|
PATENT ABSTRACTS OF JAPAN vol. 1995, no. 10 30 November 1995 (1995-11-30) * |
YAMADA A ET AL: "Visual text reader for virtual image communication on networks", 1997 IEEE FIRST WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING (CAT. NO.97TH8256), PROCEEDINGS OF FIRST SIGNAL PROCESSING SOCIETY WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING, PRINCETON, NJ, USA, 23-25 JUNE 1997, 1997, New York, NY, USA, IEEE, USA, pages 495 - 500, XP002147180, ISBN: 0-7803-3780-8 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004012151A1 (fr) * | 2002-07-31 | 2004-02-05 | Inchain Pty Limited | Messagerie animee |
AU2003215430B2 (en) * | 2002-07-31 | 2006-04-27 | Inchain Pty Limited | Animated messaging |
AU2006201368B2 (en) * | 2002-07-31 | 2010-02-18 | Inchain Pty Ltd | Animated Messages |
US9135740B2 (en) | 2002-07-31 | 2015-09-15 | E-Clips Intelligent Agent Technologies Pty. Ltd. | Animated messaging |
US8065157B2 (en) | 2005-05-30 | 2011-11-22 | Kyocera Corporation | Audio output apparatus, document reading method, and mobile terminal |
CN101137152B (zh) * | 2007-09-27 | 2010-09-15 | 腾讯科技(深圳)有限公司 | 一种在移动即时通信中交互三维动画的方法、系统及设备 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
CN113903325A (zh) * | 2021-05-31 | 2022-01-07 | 荣耀终端有限公司 | 文本转3d音频的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2001075861A1 (fr) | 2001-10-11 |
JP2003529863A (ja) | 2003-10-07 |
AU4843501A (en) | 2001-10-15 |
FR2807188B1 (fr) | 2002-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110941954B (zh) | 文本播报方法、装置、电子设备及存储介质 | |
EP1194843B1 (fr) | Systeme de developpement rapide d'applications interactives | |
CN111415399B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
KR20070020252A (ko) | 메시지를 수정하기 위한 방법 및 시스템 | |
US20100085363A1 (en) | Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method | |
US20020007276A1 (en) | Virtual representatives for use as communications tools | |
US20080163074A1 (en) | Image-based instant messaging system for providing expressions of emotions | |
US20040193428A1 (en) | Concurrent voice to text and sketch processing with synchronized replay | |
Steinmetz et al. | Multimedia fundamentals, volume 1: media coding and content processing | |
WO2022170848A1 (fr) | Procédé, appareil et système d'interaction humain-ordinateur, dispositif électronique et support informatique | |
CN109474843A (zh) | 语音操控终端的方法、客户端、服务器 | |
CN111667557B (zh) | 动画制作方法及装置、存储介质、终端 | |
FR2728089A1 (fr) | Procede et appareil pour la commande de synchronisation d'objets multimedia dans un moteur mheg | |
FR2807188A1 (fr) | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences | |
CN109002160A (zh) | 一种语音讲房控件展示方法及装置 | |
CN111970579A (zh) | 基于ai视频理解的视频音乐适配方法与系统 | |
CA2425995A1 (fr) | Procede interactif de communication d'informations a des utilisateurs d'un reseau de communication | |
CN112565875B (zh) | 自动生成视频的方法、装置、设备和计算机可读存储介质 | |
CN110324702B (zh) | 视频播放过程中的信息推送方法和装置 | |
CN115633223A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN1728780A (zh) | 即时互动影音的方法与系统 | |
CN115393484A (zh) | 虚拟形象动画的生成方法、装置、电子设备和存储介质 | |
Pandzic et al. | Faces everywhere: Towards ubiquitous production and delivery of face animation | |
CN114341866A (zh) | 同声传译方法、装置、服务器和存储介质 | |
US20230223048A1 (en) | Rapid generation of visual content from audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse | ||
CA | Change of address |