FR2969361A1 - Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale - Google Patents

Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale Download PDF

Info

Publication number
FR2969361A1
FR2969361A1 FR1060657A FR1060657A FR2969361A1 FR 2969361 A1 FR2969361 A1 FR 2969361A1 FR 1060657 A FR1060657 A FR 1060657A FR 1060657 A FR1060657 A FR 1060657A FR 2969361 A1 FR2969361 A1 FR 2969361A1
Authority
FR
France
Prior art keywords
data
enrichment
audio
stream
elementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1060657A
Other languages
English (en)
Inventor
Roberto Agro
Halim Bendiabdallah
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1060657A priority Critical patent/FR2969361A1/fr
Priority to PCT/FR2011/052967 priority patent/WO2012080651A1/fr
Publication of FR2969361A1 publication Critical patent/FR2969361A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Television Systems (AREA)

Abstract

L'invention concerne un procédé d'enrichissement du contenu audio d'un flux audiovisuel (F), comprenant l'obtention (105) au moins d'un premier flux élémentaire de données (F ) comprenant des données d'enrichissement textuelles (d ) et d'un deuxième flux élémentaire de données (F ) comprenant des données audio initiales (d ) à partir du flux audiovisuel (F), la conversion (109) des données textuelles d'enrichissement (d txt) extraites du premier flux élémentaire de données (F ) en données audio d'enrichissement (d ) et le mixage (113) des données audio d'enrichissement (d ) avec les données audio initiales (d ) extraites du deuxième flux élémentaire de données (F ) afin d'obtenir des données audio enrichies (d' ). L'invention concerne également un dispositif (1) d'enrichissement du contenu audio d'un flux audiovisuel apte à mettre en œuvre ce procédé d'enrichissement.

Description

Enrichissement du contenu audio d'un programme audiovisuel par synthèse vocale
L'invention concerne le domaine de l'enrichissement audio de programmes audiovisuels, et en particulier celui de l'audio description appliquée à des programmes audiovisuels transmis sous la forme de flux numériques de données. Dans le domaine de la diffusion télévisée numérique, les programmes télévisés sont habituellement diffusés sous forme de flux audiovisuels rassemblant un certain nombre de flux élémentaires vidéo et audio associés et synchronisés entre eux. Les normes MPEG2-TS et DVB sont couramment employées pour permettre le transport et la diffusion de tels flux audiovisuels. La structure d'un flux audiovisuel de type MPEG2-TS est simple et générique. Elle se compose de flux élémentaires audio, de flux élémentaires vidéo et de flux élémentaires de données, ainsi que de tables de signalisation, basées sur les normes MPEG2-TS et DVB. En particulier, un même flux audiovisuel peut comporter un seul flux élémentaire vidéo associé à plusieurs flux élémentaires audio, correspondant respectivement à des langues différentes, ce qui permet de basculer entre ces langues lors de la visualisation du programme diffusé grâce un tel flux audiovisuel. Afin de permettre une meilleure accessibilité au monde audiovisuel, notamment pour les aveugles ou les malvoyants, une solution consiste à recourir à des procédés d'enrichissement de la bande son des programmes diffusés. Le recours à de tels procédés d'enrichissement peut être même obligatoire, ou le devenir bientôt, dans certains pays dans lesquels des organismes publics veillent à garantir qu'un quota de programmes audiovisuels soient accessibles aux aveugles et malvoyants. Ces procédés d'enrichissement sont couramment désignés sous le terme d«< audio description », ou encore d'« audiovision », et consistent à décrire les scènes d'un film ou d'un programme par une voix off, intercalée entre les dialogues originaux du film ou du programme, afin de fournir des éléments d'informations supplémentaires permettant aux malvoyants de mieux comprendre le contexte de ce film ou de ce programme. A l'heure actuelle, de tels procédés d'audio description consistent à transmettre une piste audio contenant à la fois le son du film associé (la voix et les bruitages) et la voix off de la description de ce film. Ces procédés ont recours à un mixage préalable de la piste audio d'origine avec la voix off, avant la diffusion proprement dite du film, ce qui est réalisé dans un studio de montage avec la participation d'un acteur qui apporte sa voix à la description du film. Les procédés d'audio description actuellement employés souffrent cependant d'un certain nombre d'inconvénients : En premier lieu, la création de la piste audio enrichie fait appel à une chaîne complexe pour sa mise en oeuvre. De plus, dans la mesure où différentes personnes et différents équipements sont utilisés 1
pour réaliser ce type de doublage descriptif, ces procédés engendrent des coûts supplémentaires non négligeables. Enfin, la piste audio enrichie obtenue présente un débit équivalent à n'importe quelle autre composante audio, c'est-à-dire compris entre 128 et 256 kb/s. Cette piste audio enrichie est donc consommatrice en bande passante et oblige les sociétés de diffusion à supprimer d'autres pistes audio, par exemple des pistes audio « multi-langues », afin de pouvoir insérer une telle piste audio descriptive pour répondre aux normes en matière d'accessibilité.
La présente invention a pour objet de remédier aux inconvénients précités et a pour objet de proposer un procédé d'enrichissement qui soit moins long en production, limite les coûts supplémentaires et soit moins consommateur en bande passante.
Elle propose à cet effet un procédé d'enrichissement du contenu audio d'un flux audiovisuel comprenant l'obtention d'un premier flux élémentaire de données comprenant des données d'enrichissement textuelles et d'un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, la conversion des données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et le mixage des données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies. Avantageusement, le procédé d'enrichissement comprend en outre la synchronisation des données audio d'enrichissement avec les données audio initiales avant leur mixage, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel. En particulier, cette synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée au moyen d'au moins une étiquette insérée dans l'entête d'au moins un paquet de données textuelles appartenant au premier flux élémentaire de données. Selon un mode de réalisation dans lequel le deuxième flux élémentaire de données comprend au moins un paquet de données audio comprenant des données audio initiales et une estampille temporelle, la synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles avec l'estampille temporelle du paquet de données audio. Dans un mode de réalisation particulièrement avantageux où le flux audiovisuel est transmis selon la norme MPEG2-TS, l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données par démultiplexage du flux audiovisuel au moyen d'identifiants respectivement associés à ces premier et deuxième flux élémentaires de données dans 2
une table PMT, ce qui permet une séparation simple des différents flux élémentaires. Dans ce mode de réalisation, de façon particulièrement avantageuse, les données textuelles d'enrichissement sont insérées préalablement dans le premier flux élémentaire conformément à la fonctionnalité télétexte définie dans la norme DVB, ce qui permet de réutiliser une fonctionnalité déjà existante pour transmettre les données d'enrichissement sans avoir à ajouter une nouvelle fonctionnalité spécifique à ce type d'application. Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérés dans un champ de données spécifique d'au moins un paquet de flux élémentaire appartenant au premier flux élémentaire afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio, ce qui permet de distinguer l'utilisation de la fonctionnalité télétexte à des fins d'enrichissement de contenu audio d'un flux audiovisuel d'une utilisation classique. En particulier, lorsque ce champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et dans le champ élémentaire data_unit_id. Lorsque le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent alors avantageusement en au moins une valeur choisie dans une plage de valeur allant de Ox06à Ox1F et insérée dans ledit champ de données spécifiques de la table PMT. De manière particulièrement avantageuse, les données textuelles d'enrichissement sont formulées dans le format XML et comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement en données audio d'enrichissement parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue, ce qui permet de configurer la conversion vocale des données textuelles d'enrichissement depuis l'émetteur du programme télévisé.
La présente invention propose également un procédé de génération d'un flux audiovisuel adapté pour l'enrichissement de contenu audio, comprenant une étape d'insertion de données textuelles d'enrichissement et d'au moins une estampille temporelle dans un premier flux élémentaire de données et une étape de multiplexage du premier flux élémentaire de données avec au moins un deuxième flux élémentaire de données comprenant des données audio initiales afin d'obtenir le flux audiovisuel. La présente invention propose en outre un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, comprenant une unité de démultiplexage adaptée pour obtenir au moins un 3
premier flux élémentaire de données comprenant des données d'enrichissement textuelles et un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, une unité de décodage configurée pour convertir les données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et une unité de mixage audio configurée pour mixer les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies. Dans un mode de réalisation avantageux, l'unité de décodage comprend une unité de synthèse vocale configurée pour synthétiser vocalement les données audio d'enrichissement à partir des données textuelles d'enrichissement extraites du premier flux élémentaire de données et une unité de synchronisation configurée pour synchroniser les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données avant de les fournir à l'unité de mixage audio, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage.
En particulier, l'unité de démultiplexage est adaptée en outre pour obtenir un troisième flux élémentaire de données comprenant des données vidéo à partir du flux audiovisuel, le dispositif étant caractérisé en ce que l'unité de décodage comprend une unité de décodage audio, configurée pour extraire les données audio initiales du deuxième flux élémentaire de données afin de les fournir à l'unité de mixage audio, et une unité de décodage vidéo configurée pour extraire les données vidéo du troisième flux élémentaire de données, afin de les fournir en sortie du dispositif d'enrichissement. De manière avantageuse, lorsque le flux audiovisuel est transmis selon la norme MPEG2-TS, le dispositif d'enrichissement est apte à mettre en oeuvre les étapes du procédé d'enrichissement de contenu audio ci-avant.
Le procédé et le dispositif d'enrichissement du contenu audio d'un flux audiovisuel, objet de l'invention, seront mieux compris à la lecture de la description et à l'observation des dessins ci-après dans lesquels : - la figure 1 illustre les étapes d'un procédé d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention ; et - la figure 2 représente schématiquement un dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention.
On se réfère tout d'abord à la figure 1 sur laquelle sont illustrées les étapes d'un procédé 100 d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention. Ce procédé d'enrichissement se déroule plus particulièrement dans un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, décrit plus en détail en relation avec la 4
figure 2, lequel est apte à recevoir un flux audiovisuel numérique F utilisant par exemple la norme MPEG2-TS pour le transport de flux audiovisuels. Ce procédé d'enrichissement comprend notamment l'obtention (étape 105) au moins d'un premier flux élémentaire de données Fcxt comprenant des données d'enrichissement textuelles dit et d'un deuxième flux élémentaire de données Faudio comprenant des données audio initiales daudio a partir du flux audiovisuel F. De tels flux élémentaires sont par exemple multiplexés au préalable avec un flux élémentaire vidéo Fvideo comprenant des données vidéo d'ideo, lors de la préparation (étape 102) du flux audiovisuel F au niveau du diffuseur de programmes télévisés numériques, avant la diffusion (étape 103) du flux audiovisuel F préparé. En particulier, cette étape 105 d'obtention peut comprendre notamment la séparation du flux audiovisuel F reçu par le dispositif de réception numérique en : - un premier flux élémentaire Fxt constitué de paquets de données textuelles Ptxt(1),...,Ptxt(i) comprenant les données d'enrichissement textuelles dit ; - un deuxième flux élémentaire Faudio constitué de paquets de données audio Paudio(l),...,Paudio(j) comprenant les données audio initiales daudio ; et - un troisième flux élémentaire Fvideo constitué de paquets de données vidéo Pvideo(l), - - -,Pvideo(k) comprenant des données video d'ideo. Lors de cette génération préalable du flux audiovisuel F, les données d'enrichissement textuelles dxt sont insérées dans un premier flux élémentaire de données Fxt (étape 101), par exemple sous la forme de chaînes de caractères ASCII insérées dans un certain nombre de paquets de données textuelles Ptxt(1),...,Pu,t(i) de ce premier flux élémentaire Ftxt. Cette insertion peut être réalisée simplement par un opérateur, par exemple au moyen d'outils de type traitement de texte, en amont de l'émetteur de flux audiovisuels et permet d'éviter d'avoir recours aux services d'un acteur pour lire une voix-off à mixer directement avec la piste audio d'origine, ce qui engendre des coûts supplémentaires, et permet de raccourcir également le temps de production. Lors de cette étape d'insertion, des estampilles temporelles sont également insérées avantageusement dans les paquets de données textuelles Ptxt(1),...,Ptxt(i) où sont insérées les données textuelles dtxt. Ces estampilles temporelles peuvent être utilisées notamment lors d'une éventuelle synchronisation des données textuelles d'enrichissement avec les données audio à enrichir, comme cela est décrit plus loin dans la description. Une fois les données textuelles insérées dans le premier flux élémentaire de données Ftxt, ce premier flux élémentaire Fcxt est multiplexé avec les autres flux élémentaires audio Faudio, comprenant des données audio initiales daudio à enrichir, et vidéo F,ideo, lors d'une étape 102 de multiplexage permettant d'obtenir le flux audiovisuel F décrit ci-avant. Une fois le flux audiovisuel F généré, ce flux audiovisuel F est diffusé (étape 103) afin 5
d'être reçu par un certain nombre de dispositifs de réception numérique. Pour en revenir à l'étape 105 de séparation évoquée ci-dessus, celle-ci peut être réalisée par démultiplexage de ces différents flux élémentaires à partir du flux audiovisuel F dans lequel ils ont été multiplexés au préalable.
A l'issue de cette étape 105, le premier flux élémentaire Ftxt, constitué d'un certain nombre de paquets de données textuelles {P,t(i)}i<i< comprenant les données d'enrichissement textuelles dtXtd'une part, et le deuxième flux élémentaire Faudio, constitué d'un certain nombre de paquets de données audio {Paudio(j)}i«7 comprenant des données audio initiales daudio, sont disponibles séparément.
Les données textuelles d'enrichissement dtXt sont alors extraites (étape 107) du premier flux élémentaire Ftxt, et plus particulièrement d'un ou plusieurs paquet(s) de donnée(s) textuelle(s) {Ptxt(i)}i<i les contenant dans ce flux, et converties (étape 109) en données audio d'enrichissement ds'P au moyen d'un processus de synthèse vocale. Une fois ces données audio d'enrichissement ds P obtenues, celles-ci sont mélangées (étape 113) avec les données audio initiales daudio, elles-mêmes extraites du deuxième flux élémentaire Faudio, et plus particulièrement d'un ou plusieurs paquet(s) audio {Paudio(j)}i«J les contenant dans ce flux, afin d'obtenir des données audio enrichies d'audio. Ces données audio enrichies d'audio peuvent alors être utilisées en combinaison avec les données vidéo extraites, par décodage vidéo, du flux élémentaire vidéo Fvideo pour fournir un programme télévisé dont la bande son est enrichie au moyen des données textuelles d'enrichissement d,t. Ainsi, dans la mesure où les données d'enrichissement sont transmises sous forme textuelle (par exemple sous la forme de caractères ASCII) plutôt que sous la forme de données audio déjà mélangées avec la piste audio d'origine comme c'est le cas de l'art antérieur, un gain substantiel en bande passante est obtenu dans la mesure où les données textuelles sont significativement moins consommatrices en bande passante que les données audio. Dans un mode de réalisation avantageux, une étape 111 de synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio est effectuée avant de mixer les données audio d'enrichissement dsup avec les données audio initiales daudio.
Ceci permet de garantir la bonne synchronisation de la voie audio d'enrichissement avec la piste audio d'origine et de prévenir un chevauchement temporel accidentel de ces deux types de données audio lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel F. Une telle synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio peut être réalisée au moyen d'une ou plusieurs estampille(s) temporelle(s) insérée(s) dans l'entête d'au moins un paquet de données PtXt(i) appartenant au premier flux élémentaire de données F xt et contenant des données textuelles d'enrichissement d,t. 6 Dans un mode de réalisation particulièrement avantageux, le flux audiovisuel F est composé selon la norme MPEG-2 TS et transmis selon cette même norme, c'est-à-dire au moyen de paquets de transports décrits dans cette norme.
Dans un tel mode de réalisation, le démultiplexage décrit précédemment en relation avec l'étape 105 de séparation des flux élémentaires peut être avantageusement effectué en fonction d'identifiants PID distincts associés respectivement à ces différents flux élémentaires, lesquels sont listés alors dans une table PMT (Program Map Table en anglais), utilisée habituellement dans cette norme MPEG-2 TS et transmise avec le flux audiovisuel F.
En lisant cette table PMT afin d'y retrouver les identifiants PID associés aux différents flux élémentaires, il est alors possible de distinguer les différents flux élémentaires Faudio, Fvideo et Fc~t entre eux, ce qui permet de les séparer simplement par lecture de cette table PMT lorsque le flux audiovisuel F est reçu. Toujours dans ce même mode de réalisation avantageux où la norme MPEG-2 TS est employée pour formuler et transmettre le flux audiovisuel F, la synchronisation évoquée précédemment peut être effectuée au moyen d'estampilles temporelles de type «PTS » (Presentation Time Stamp en anglais). Il est en effet habituel de placer une unique estampille temporelle PTS dans l'entête de chaque paquet de données audio Pauaio(j) du flux audiovisuel. Cette estampille temporelle permet de synchroniser la sortie audio même lorsque l'estampille temporelle précédente n'a pas été capturée, par exemple lors de la perte d'un paquet audio. Dans ce mode de réalisation, une estampille temporelle PTS est placée en outre dans l'entête des paquets de données textuelles Ptxt(i) comprenant des données textuelles d'enrichissement correspondant à une phrase unitaire. Comme l'audio description textuelle peut être avantageusement entièrement contenue dans un seul paquet de données textuelles P,t(i), une seule estampille temporelle PTS peut suffire ici. La synchronisation des données audio d'enrichissement &JI, avec les données audio initiales daudio est alors gérée avec le top du départ du décodage audio, grâce aux estampilles temporelles insérées dans les paquets de données audio Paudio(j) et les paquets de données textuelles Pt.t(i). Toujours dans le mode de réalisation avantageux où la norme MPEG-2 TS est employée pour transmettre le flux audiovisuel F, les données d'enrichissement textuelles d,t sont insérées au préalable (étape 101), avant la diffusion du flux audiovisuel F (étape 103), dans un certain nombre de paquets de données textuelles Ptxt(1),...,Ptxt(i) appartenant au premier flux élémentaire Ftxt, lesquels sont définis comme étant des paquets de flux élémentaires (autrement désignés par « PES » pour Packet Elementary Stream en anglais) au sens de la norme MPEG2-TS. Dans ce mode de réalisation, ces données d'enrichissement textuelles drxt peuvent être alors 7
avantageusement insérées sous la forme de télétexte dans ces paquets élémentaires du premier flux élémentaire Ftxt, conformément à la partie de la norme DVB décrivant le mode d'insertion de télétexte dans un flux DVB (ETSI EN 300 472). Ceci permet de réutiliser une fonctionnalité de transmission de télétexte déjà existante dans le cadre de la norme MPEG2-TS pour transmettre simplement ces données d'enrichissement textuelles dtxt, sans avoir besoin d'implémenter de nouvelles fonctionnalités spécifiques à l'application d' audiovision. Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont définies au préalable, afin de pouvoir indiquer aux dispositifs récepteurs du flux audiovisuel F qu'ils reçoivent un flux audiovisuel dont le contenu audio peut être enrichi. Ces données descriptives sont alors insérées dans un champ de données spécifique d'un ou plusieurs paquet(s) de flux élémentaire (P,t(i)) appartenant au premier flux élémentaire (F,t), afin de pouvoir être lues et/ou extraites par les dispositifs récepteurs lors de la réception du flux audiovisuel F. Ainsi, à titre d'exemple propre à la norme MPEG2-TS, les données d'enrichissement textuelles d,t peuvent être insérées dans un champ spécifique de type « PES_data_field » de paquets de flux élémentaires « PES », lequel est structuré sous la forme suivante par la norme DVB:
PES_data_fieldQ { data_identifier for(i=0;i<N;i++) { data unit id data_unit_length data_fieldQ }
30 Le champ « PES_data_field » se décompose ainsi en un certain nombre de champs élémentaires :
- Le champ élémentaire "data_identifier" indiqué ci-dessus sert à définir le type de donnés stockées dans le paquet de flux élémentaire en question. Les données descriptives spécifiquement 35 associées à l'enrichissement de contenu audio peuvent donc être insérées dans un tel champ élémentaire. Des valeurs comprises entre 0x10 et Ox1F sont déjà définies pour pouvoir être insérées } 8 35
dans ce champ élémentaire "data_identifier" afin de désigner des données EBU (pour European Broadcasting Union). Il convient donc de ne pas utiliser de telles valeurs pour désigner des données textuelles d'enrichissement. La norme DVB offre une plage de valeurs comprises entre 0x80 et OxFF réservée pour des besoins spécifiquement définis par un utilisateur. Une ou plusieurs valeur(s) choisie(s) dans cette plage de valeurs peuvent donc être avantageusement utilisées en tant que données descriptives spécifiquement associées à l'enrichissement de contenu audio, pour indiquer l'insertion de données textuelles d'enrichissement dans le flux élémentaire PES concerné, ce qui permet de ne pas activer inutilement la fonction télétexte standard.
Alternativement, dans la mesure où la norme DVB réserve les plages de valeurs [OxOO,OxOF] et [0x20, Ox7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ "data_identifier" , afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard. - Par ailleurs, le champ élémentaire « data_unit_id » ci-dessus sert à définir le type et la nature des données transmises. La norme DVB offre une plage de valeurs libres comprises entre 0x80 et OxFF, pouvant être utilisées pour désigner des données textuelles d'enrichissement. Des données descriptives spécifiquement associées à l'enrichissement de contenu audio peuvent donc être aussi insérées dans un tel champ élémentaire, afin par exemple de désigner un sous-type d'information concernant les données textuelles d'enrichissement transmises comme la langue utilisée lors de la synthèse vocale pour l'enrichissement audio ou la nature des paquets de données d'enrichissement audio. Ici aussi, de manière alternative dans la mesure où la norme DVB réserve les plages de valeurs [0x00, 0x01] et [0x04, Ox7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ « data_unit_id », afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard. - Le champ élémentaire « data_unit_length », quant à lui, sert à indiquer la taille en octets du champ « data_field() », qui ne peut excéder 44 octets.
- Enfin, le champ « data_fieldQ » fournit un espace où insérer les données textuelles d'enrichissement d,t dans le paquet de flux élémentaire P,t(i) en question. Toujours dans le mode de réalisation où la fonctionnalité télétexte offerte par la norme DVB est utilisée pour transmettre les données textuelles d'enrichissement d,t, il peut être aussi 9
avantageux d'insérer des données descriptives spécifiquement associées à l'enrichissement de contenu audio dans le descripteur télétexte présent dans la table PMT définie précédemment, sous la forme d'un identifiant spécifique, afin de bien différencier cet usage spécifique du télétexte à des fins d'enrichissement de contenu audio de l'usage classique qui en est fait habituellement.
Un champ de données descriptives est prévu, selon les normes MPEG2-TS et DVB, dans la table PMT pour indiquer le type de composante télétexte présente dans un flux élémentaire particulier, et préciser entre autre si ce flux élémentaire correspond à un sous titre, la langue utilisée, etc. Il est ainsi possible, grâce à ce champ de données descriptives prévu dans la table PMT, d'indiquer que les données textuelles d'enrichissement d,t ajoutées sous forme de télétexte correspondent à une application spécifique de type audiovision. Ceci permet au dispositif d'enrichissement de reconnaître l'utilisation d'un procédé d'audiovision lorsqu'il reçoit le flux audiovisuel F, ce qui permet l'implémentation d'un menu, grâce à cette table PMT, au niveau du dispositif d'enrichissement afin d'indiquer à l'utilisateur du dispositif qu'un enrichissement de contenu audio par audiovision est disponible. De façon avantageuse, et afin de pouvoir effectuer une gestion fine de ce procédé d'enrichissement au niveau du dispositif d'enrichissement lui-même, les données d'enrichissement textuelles d,r insérées sous forme de télétexte peuvent être formulées dans le format xml et comprendre un ou plusieurs paramètre de configuration de l'étape 109 de conversion des données textuelles d'enrichissement d,t en données audio d'enrichissement ds'P. De tels paramètres de configuration, ajoutés aux données d'enrichissement textuelles d,t, peuvent être relatifs au paramétrage des éléments suivants au niveau du dispositif d'enrichissement : - la vitesse de lecture à utiliser lors de la synthèse vocale (i.e. le débit de parole), - le type de voix à employer lors de la synthèse vocale (i.e. une voix masculine ou une voix féminine, une voix d'enfant...), - l'intonation ou l'accentuation des phrases prononcées. Ces paramètres de configuration peuvent aussi servir à : - embarquer plusieurs langues dans un même flux audiovisuel, - embarquer des textes afin de se repérer dans la vidéo lors de l'utilisation de modes « tricks » dans le cas d'un enregistrement. De tels modes « tricks » peuvent correspondre à des modes d'avance rapide, de retour rapide, de pause, d'arrêt ou de lecture, entre autres. A titre illustratif, un exemple de données textuelles d'enrichissement, en mode télétexte et en format XML, est fourni ci-dessous : <AUDIO_VISION> <VERSION> 1.0</V ERS ION> 10 <TEXT TYPE="NORMAL" SPEED ="1" >Bonjour Monde je m'appelle E.T</TEXT> <TEXT TYPE="TRICK MODE" SPEED ="1.5">Scène de la rencontre avec l'alien</TEXT> </AUDIO_VISION>
Dans cet exemple, des paramètres de configuration sont insérés pour définir la vitesse de lecture par la synthèse vocale. En particulier, une première phrase «Bonjour Monde je m'appelle E.T » est censée être prononcée à vitesse normale, tandis qu'une deuxième phrase « Scène de la rencontre avec l'alien » est prononcée dans une vitesse supérieure de 50 % à la vitesse normale. Une balise utilisable en mode « trick » est également insérée ici au moyen de métadonnées complémentaires aux données textuelles d'enrichissement. Ce mode « trick » permet à l'utilisateur de parcourir rapidement une émission enregistrée, en lui offrant la possibilité de passer directement d'une balise à l'autre. Un texte identifié par le type « TRICK MODE » est également inséré après cette balise. En fonction des capacités du récepteur numérique utilisé, lorsque celui-ci détecte une telle balise, il peut émettre un bip sonore dans un mode limité ou bien émettre une voix prononçant « Scène de la rencontre avec l'alien », ce qui indique la position où l'on se trouve dans l'émission enregistrée, dans un mode plus élaboré.
On se réfere maintenant à la figure 2, laquelle illustre schématiquement un dispositif 1 d'enrichissement du contenu audio d'un flux audiovisuel F selon la présente invention. Un tel dispositif peut en particulier prendre la forme d'un dispositif de réception numérique de type « Set Top Box », d'un dispositif de réception numérique intégré au sein d'un téléviseur numérique ou de tout autre terminal numérique compatible avec la norme DVB.
Outre des moyens de réception Rx capables de recevoir un flux audiovisuel F émis par une antenne de diffusion numérique ou provenant d'une antenne satellite par le biais d'un câble, le dispositif 1 d'enrichissement comprend une unité de démultiplexage 10, arrangée pour démultiplexer le flux audiovisuel F reçu en au moins un premier flux élémentaire Fit composé d'un certain nombre de paquets de données P,t(i) comprenant des données textuelles d'enrichissement cl,,, un deuxième flux élémentaire audio Faudio composé d'un certain nombre de paquets Paudio(j) transportant des données audio daudio et un troisième flux élémentaire vidéo Fvideo composé d'un certain nombre de paquets P'ideo(k) transportant des données vidéo d'ide°. Dans le mode de réalisation avantageux où le flux audiovisuel F est composé et transmis selon la norme MPEG2-TS, cette unité de démultiplexage 10 peut comprendre un module de filtrage PID capable de lire la table PMT transmise avec le flux audiovisuel F et d'y retrouver les identifiants PID associés spécifiquement aux différents flux élémentaires afin de pouvoir distinguer ceux-ci et de le séparer par démultiplexage. 11
Le dispositif 1 d'enrichissement comprend par ailleurs une unité de décodage 20 qui reçoit les différents flux élémentaires Faudio, Fvideo et Fw démultiplexés par l'unité de démultiplexage 10. Cette unité de décodage 20 comprend, d'une part, une unité de décodage audio 25 qui reçoit les différents paquets Paudio(j) du deuxième flux élémentaire Faudio transportant des données audio initiales daudio et en extrait les données audio initiales daudio sous un format permettant la sortie de ces données audio vers un haut-parleur, par exemple dans un format PCM, afin de fournir ces données audio initiales daudio à l'unité 30 de mixage audio décrite par la suite. Le format PCM est indiqué ici à titre illustratif comme format de sortie des données audio initiales daudio, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peut être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. Cette unité de décodage 20 comprend, d'autre part, une unité de décodage vidéo 27 qui reçoit les différents paquets Pvideo(k) du troisième flux élémentaire Fvideo transportant des données vidéo &deo et en extrait les données vidéo &déo dans un format d'image vidéo permettant la sortie de ces données vidéo vers un écran de diffusion, comme une télévision, afin de les fournir en sortie du dispositif 1 d'enrichissement. En ce qui concerne le traitement des paquets P,t(i) comprenant des données textuelles d'enrichissement d,t et appartenant au premier flux élémentaire Ftxt, l'unité de décodage 20 comprend une unité d'extraction 21 arrangée pour extraire les données textuelles d'enrichissement drxt de ces paquets P,t(i).
L'unité de décodage 20 comprend en outre une unité de synthèse vocale 22 qui reçoit ces données textuelles d'enrichissement d,t et les converties en des données audio d'enrichissement dsuP, typiquement au moyen d'un processus de synthèse vocale. Cette unité de synthèse vocale 22 peut ainsi convertir une chaîne de caractères ASCII représentant les données textuelles d'enrichissement d,xt en des données audio d'enrichissement dsuP dans un format PCM.
Ici aussi, le format PCM est ici indiqué à titre illustratif comme format de sortie des données audio d'enrichissement dsuP, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peur être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. Le dispositif 1 d'enrichissement comprend également une unité de mixage audio 30 recevant, d'une part, les données audio d'enrichissement dsuP converties par l'unité de synthèse vocale 22 et, d'autre part, les données audio initiales daudio décodées par l'unité de décodage audio 25. Cette unité de mixage audio 30 effectue le mixage des données audio d'enrichissement dsuP et des données audio initiales daudio, afin d'enrichir ces dernières avec l'information additionnelle contenue dans les données audio d'enrichissement dsuP, ce qui aboutit à des données audio enrichies d'audio. Ces données audio enrichies d'audio peuvent alors être fournies par l'unité de mixage audio sur une sortie « Audio out » du dispositif 1 d'enrichissement, conjointement avec les données vidéo 12
&deO issues de l'unité de décodage vidéo 27 qui sont fournies sur une sortie « Video out ». Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un décodeur de télévision numérique, autrement désigné par le terme de Set Top Box (STB), ces sorties «Audio out » et «Video out » peuvent alors être connectées par un câble externe à un écran de télévision pour diffuser le programme contenu dans le flux audiovisuel, dont la piste audio est enrichie par des informations supplémentaires. Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un module interne à un téléviseur numérique, ces sorties « Audio out » et « Video out » peuvent alors être connectées par des connexions internes aux hauts parleurs et à l'écran de ce téléviseur numérique pour diffuser ce programme enrichi.
Dans un mode de réalisation avantageux, l'unité de décodage 20 du dispositif 1 d'enrichissement comprend en outre une unité de synchronisation 23, connectée entre l'unité de synthèse vocale 22 et l'unité de mixage audio 30. Cette unité de synchronisation 23 reçoit les données audio d'enrichissement &'I, provenant de l'unité de conversion audio 22 et les synchronise avec les données audio initiales daud o afin de garantir que celles-ci ne chevauchent pas lors du mixage effectué par l'unité de mixage audio 30. Lorsque le fichier audiovisuel F est composé et transmis selon la norme MPEG2-TS et que des estampilles temporelles de type « PTS » ont été insérées dans les paquets Ptxt(i) du flux élémentaire Ftxt, l'unité de synchronisation 23 utilise ces estampilles temporelles PTS pour caler les données audio d'enrichissement &J I, par rapport au top du départ du décodage audio effectué par l'unité 25 de décodage audio, en utilisant au besoin l'horloge de cette unité 25 de décodage audio.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation ci-dessus décrits et représentés, à partir desquels on pourra prévoir d'autres modes et d'autres formes de réalisation, sans pour autant sortir du cadre de l'invention.
Ainsi, l'exemple d'un enrichissement audio destinée à améliorer l'accessibilité d'un programme télévisé par des mal-voyants a été décrit précédemment. Cependant, la présente invention peut également être utilisée dans le cadre plus général d'un enrichissement audio de contenus à la fois audio et vidéo, comme par exemple des services vidéo proposés sur internet.
Par ailleurs, le format XML a été indiqué précédemment comme pouvant être utilisé pour insérer des données textuelles d'enrichissement accompagnées de métadonnées. L'invention ne se limite pas cependant à ce type de format, mais peut être mise en pratique avec tout autre type de format dans lesquelles des données textuelles peuvent être accompagnées de métadonnées, comme par exemple. 13

Claims (6)

  1. REVENDICATIONS1. Procédé d'enrichissement d'un contenu audio d'un flux audiovisuel (F), caractérisé en ce qu'il comprend : une étape d'obtention (105) au moins d'un premier flux élémentaire de données (Fm) comprenant des données textuelles d'enrichissement (d,t) et d'un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (daudio) à partir du flux audiovisuel (F); une étape de conversion (109) des données textuelles d'enrichissement (dut) en données audio d'enrichissement (dsuP); une étape de mixage (113) des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) afin d'obtenir des données audio enrichies (d'audio).
  2. 2. Procédé d'enrichissement selon la revendication 1, caractérisé en ce qu'il comprend en outre une étape de synchronisation (111) des données audio d'enrichissement (dsuP) avec les 15 données audio initiales (daudio) avant leur mixage.
  3. 3. Procédé d'enrichissement selon la revendication 2, caractérisé en ce que la synchronisation des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) est effectuée conformément à au moins une estampille temporelle insérée dans au moins un paquet de données 20 textuelles (Put(i)) appartenant au premier flux élémentaire de données (Fud).
  4. 4. Procédé d'enrichissement selon la revendication 3, dans lequel le deuxième flux élémentaire de données (Faudio) comprend au moins un paquet de données audio (Paudio(j)) comprenant des données audio initiales (daudio) et une estampille temporelle, caractérisé en ce que la 25 synchronisation des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) est effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles (P,t(i)) avec l'estampille temporelle du paquet de données audio (Paudio(1))-
  5. 5. Procédé d'enrichissement selon l'une des revendications 1 à 4, dans lequel le flux 30 audiovisuel (F) est transmis selon la norme MPEG2-TS, caractérisé en ce que l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données (Ftxt,Faudio) par démultiplexage du flux audiovisuel (F) au moyen d'identifiants respectivement associés auxdits premier et deuxième flux élémentaires de données dans une table PMT. 35
  6. 6. Procédé d'enrichissement selon l'une des revendications 1 à 5, caractérisé en ce que les données textuelles d'enrichissement (dit) sont insérées préalablement (101) dans le premier flux élémentaire (Fut) conformément à la fonctionnalité télétexte définie dans la norme DVB. 14. Procédé d'enrichissement selon la revendication 6, caractérisé en ce que des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérées dans un champ de données spécifique d'au moins un paquet de flux élémentaire (Ptxt(i)) appartenant au premier flux élémentaire (F,,t) afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio. 8. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, caractérisé en ce que les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et/ou dans le champ élémentaire data_unit_id. 9. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, caractérisé en ce que les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de Ox06à Ox1F et insérée dans ledit champ de données spécifiques de la table PMT. 10. Procédé d'enrichissement selon l'une des revendications 6 à 9, caractérisé en ce que les données textuelles d'enrichissement (dtxt) comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement (dtxt) en données audio d'enrichissement (dsup) parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue. 11. Dispositif d'enrichissement (1) du contenu audio d'un flux audiovisuel (F), caractérisé en ce qu'il comprend : une unité de démultiplexage (10) adaptée pour obtenir au moins un premier flux élémentaire de données (Fat) comprenant des données d'enrichissement textuelles (d,,,) et un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (dauaio) à partir du flux audiovisuel (F) ; une unité de décodage (20) configurée pour convertir les données textuelles d'enrichissement (dat) extraites du premier flux élémentaire de données (Fat) en données 35 audio d'enrichissement (dsup); et une unité de mixage audio (30) configurée pour mixer les données audio d'enrichissement (dsup) avec les données audio initiales (daudio) extraites du deuxième flux élémentaire de données 15(Faudlo) afin d'obtenir des données audio enrichies (d'audio). 12. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 11, caractérisé en ce que l'unité de décodage (20) comprend une unité de synthèse vocale (22) configurée pour synthétiser vocalement les données audio d'enrichissement (dsup) à partir des données textuelles d'enrichissement (dt,u) extraites du premier flux élémentaire de données (Fvt) et une unité de synchronisation (23) configurée pour synchroniser les données audio d'enrichissement (dsup) avec les données audio initiales (daud,o)) extraites du deuxième flux élémentaire de données (Faudio) avant de les fournir à l'unité de mixage audio (30). 13. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 11 ou 12, dans lequel l'unité de démultiplexage (10) est adaptée en outre pour obtenir un troisième flux élémentaire de données (FvjdeO) comprenant des données vidéo (dviaeo) à partir du flux audiovisuel (F), le dispositif étant caractérisé en ce que l'unité de décodage (20) comprend une unité de décodage audio (25), configurée pour extraire les données audio initiales (daudio) du deuxième flux élémentaire de données (Faudgo) afin de les fournir à l'unité de mixage audio (30), et une unité de décodage video (27) configurée pour extraire les données vidéo (dvideO) du troisième flux élémentaire de données (Fjde)) afin de les fournir en sortie du dispositif d'enrichissement. 14. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon l'une des revendications 11 à 13, dans lequel le flux audiovisuel (F) est transmis selon la norme MPEG2-TS, caractérisé en ce que le dispositif est apte à mettre en oeuvre les étapes du procédé d'enrichissement de contenu audio selon l'une des revendications 4 à 10. 16
FR1060657A 2010-12-16 2010-12-16 Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale Withdrawn FR2969361A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1060657A FR2969361A1 (fr) 2010-12-16 2010-12-16 Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale
PCT/FR2011/052967 WO2012080651A1 (fr) 2010-12-16 2011-12-13 Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1060657A FR2969361A1 (fr) 2010-12-16 2010-12-16 Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale

Publications (1)

Publication Number Publication Date
FR2969361A1 true FR2969361A1 (fr) 2012-06-22

Family

ID=44168803

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1060657A Withdrawn FR2969361A1 (fr) 2010-12-16 2010-12-16 Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale

Country Status (2)

Country Link
FR (1) FR2969361A1 (fr)
WO (1) WO2012080651A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5900908A (en) * 1995-03-02 1999-05-04 National Captioning Insitute, Inc. System and method for providing described television services
US5970459A (en) * 1996-12-13 1999-10-19 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
US20100141834A1 (en) * 2008-12-08 2010-06-10 Cuttner Craig Davis Method and process for text-based assistive program descriptions for television

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5900908A (en) * 1995-03-02 1999-05-04 National Captioning Insitute, Inc. System and method for providing described television services
US5970459A (en) * 1996-12-13 1999-10-19 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
US20100141834A1 (en) * 2008-12-08 2010-06-10 Cuttner Craig Davis Method and process for text-based assistive program descriptions for television

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO CALIA: "La synthèse de la voix", 16 July 2002 (2002-07-16), XP055002538, Retrieved from the Internet <URL:http://www.iict.ch/Tcom/Presentations/Parole/Synthese.pdf> [retrieved on 20110711] *
ANONYMOUS: "Making sure television is accessible to older people and people with disabilities", 21 April 2009 (2009-04-21), XP055002532, Retrieved from the Internet <URL:http://www.tvaccess.ie> [retrieved on 20110711] *
PETER OLAF LOOMS ED - CONSTANTINE STEPHANIDIS: "E-Inclusiveness and Digital Television in Europe â A Holistic Model", 19 July 2009, UNIVERSAL ACCESS IN HUMAN-COMPUTER INTERACTION. ADDRESSING DIVERSITY, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 550 - 558, ISBN: 978-3-642-02706-2, XP019122719 *

Also Published As

Publication number Publication date
WO2012080651A1 (fr) 2012-06-21

Similar Documents

Publication Publication Date Title
CN108401192B (zh) 视频流处理方法、装置、计算机设备及存储介质
US20060285654A1 (en) System and method for performing automatic dubbing on an audio-visual stream
US20080219641A1 (en) Apparatus and method for synchronizing a secondary audio track to the audio track of a video source
US20130219444A1 (en) Receiving apparatus and subtitle processing method
CN110035326A (zh) 字幕生成、基于字幕的视频检索方法、装置和电子设备
EP3381196B1 (fr) Procédé de synchronisation d&#39;un flux audio alternatif
EP2811749A1 (fr) Synchronisation de contenus multimédia sur deuxième écran
CN108111872B (zh) 一种音频直播系统
KR20020013664A (ko) 청각장애인을 위한 인터넷 자막방송용 서버, 클라이언트구현
WO2017191397A1 (fr) Procédé et dispositif de synchronisation de sous-titres
WO2003043329A2 (fr) Signal de programme de diffusion avec commande, systemes d&#39;inscription et de lecture de commande, chaine de production et de diffusion associes
EP2232881B1 (fr) Decodeur de donnees video et procede de decodage de donnees video avec synchronisation de la présentation des soustitres
WO2005029860A1 (fr) Procede et module de reception de signaux de television
FR3025925A1 (fr) Procede de controle de modes de presentation de sous-titres
EP1537747A2 (fr) Systeme et procede de synchronisation pour programmes audiovisuels, dispositifs et procedes associes
FR2850821A1 (fr) Systeme de sous-titrage dynamique de signaux de television et radiophoniques
FR2969361A1 (fr) Enrichissement du contenu audio d&#39;un programme audiovisuel par synthese vocale
FR3025926A1 (fr) Procede de controle de la vitesse d&#39;affichage des sous-titres
KR101180783B1 (ko) Tts 기술을 이용한 사용자 맞춤형 방송 서비스 방법
KR20090032702A (ko) 네트워크 기반의 맞춤형 콘텐츠 제공을 위한 사용자 장치및 그 방법과 저작 장치 및 그 방법
KR20160065510A (ko) 비가청 음파가 포함된 방송영상 파일 또는 스트리밍 패킷의 생성 방법 및 이 방법을 이용하는 텔레비전 방송 시스템
KR20060106867A (ko) 데이터 수신 단말 및 메일 작성 방법
EP1798999A1 (fr) Methode de gestion du comportement d&#39;une application interactive lors de la diffusion d&#39;un programme selon la norme DVB-H
KR20140021197A (ko) 콘텐츠와 데이터 동기화 장치 및 방법
JP2008294722A (ja) 動画再生装置および動画再生方法

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20120831