FR2969361A1

FR2969361A1 - Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale

Info

Publication number: FR2969361A1
Application number: FR1060657A
Authority: FR
Inventors: Roberto Agro; Halim Bendiabdallah
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2010-12-16
Filing date: 2010-12-16
Publication date: 2012-06-22
Also published as: WO2012080651A1

Abstract

L'invention concerne un procédé d'enrichissement du contenu audio d'un flux audiovisuel (F), comprenant l'obtention (105) au moins d'un premier flux élémentaire de données (F ) comprenant des données d'enrichissement textuelles (d ) et d'un deuxième flux élémentaire de données (F ) comprenant des données audio initiales (d ) à partir du flux audiovisuel (F), la conversion (109) des données textuelles d'enrichissement (d txt) extraites du premier flux élémentaire de données (F ) en données audio d'enrichissement (d ) et le mixage (113) des données audio d'enrichissement (d ) avec les données audio initiales (d ) extraites du deuxième flux élémentaire de données (F ) afin d'obtenir des données audio enrichies (d' ). L'invention concerne également un dispositif (1) d'enrichissement du contenu audio d'un flux audiovisuel apte à mettre en œuvre ce procédé d'enrichissement.

Description

Enrichissement du contenu audio d'un programme audiovisuel par synthèse vocale

L'invention concerne le domaine de l'enrichissement audio de programmes audiovisuels, et en particulier celui de l'audio description appliquée à des programmes audiovisuels transmis sous la forme de flux numériques de données. Dans le domaine de la diffusion télévisée numérique, les programmes télévisés sont habituellement diffusés sous forme de flux audiovisuels rassemblant un certain nombre de flux élémentaires vidéo et audio associés et synchronisés entre eux. Les normes MPEG2-TS et DVB sont couramment employées pour permettre le transport et la diffusion de tels flux audiovisuels. La structure d'un flux audiovisuel de type MPEG2-TS est simple et générique. Elle se compose de flux élémentaires audio, de flux élémentaires vidéo et de flux élémentaires de données, ainsi que de tables de signalisation, basées sur les normes MPEG2-TS et DVB. En particulier, un même flux audiovisuel peut comporter un seul flux élémentaire vidéo associé à plusieurs flux élémentaires audio, correspondant respectivement à des langues différentes, ce qui permet de basculer entre ces langues lors de la visualisation du programme diffusé grâce un tel flux audiovisuel. Afin de permettre une meilleure accessibilité au monde audiovisuel, notamment pour les aveugles ou les malvoyants, une solution consiste à recourir à des procédés d'enrichissement de la bande son des programmes diffusés. Le recours à de tels procédés d'enrichissement peut être même obligatoire, ou le devenir bientôt, dans certains pays dans lesquels des organismes publics veillent à garantir qu'un quota de programmes audiovisuels soient accessibles aux aveugles et malvoyants. Ces procédés d'enrichissement sont couramment désignés sous le terme d«< audio description », ou encore d'« audiovision », et consistent à décrire les scènes d'un film ou d'un programme par une voix off, intercalée entre les dialogues originaux du film ou du programme, afin de fournir des éléments d'informations supplémentaires permettant aux malvoyants de mieux comprendre le contexte de ce film ou de ce programme. A l'heure actuelle, de tels procédés d'audio description consistent à transmettre une piste audio contenant à la fois le son du film associé (la voix et les bruitages) et la voix off de la description de ce film. Ces procédés ont recours à un mixage préalable de la piste audio d'origine avec la voix off, avant la diffusion proprement dite du film, ce qui est réalisé dans un studio de montage avec la participation d'un acteur qui apporte sa voix à la description du film. Les procédés d'audio description actuellement employés souffrent cependant d'un certain nombre d'inconvénients : En premier lieu, la création de la piste audio enrichie fait appel à une chaîne complexe pour sa mise en oeuvre. De plus, dans la mesure où différentes personnes et différents équipements sont utilisés 1

pour réaliser ce type de doublage descriptif, ces procédés engendrent des coûts supplémentaires non négligeables. Enfin, la piste audio enrichie obtenue présente un débit équivalent à n'importe quelle autre composante audio, c'est-à-dire compris entre 128 et 256 kb/s. Cette piste audio enrichie est donc consommatrice en bande passante et oblige les sociétés de diffusion à supprimer d'autres pistes audio, par exemple des pistes audio « multi-langues », afin de pouvoir insérer une telle piste audio descriptive pour répondre aux normes en matière d'accessibilité.

La présente invention a pour objet de remédier aux inconvénients précités et a pour objet de proposer un procédé d'enrichissement qui soit moins long en production, limite les coûts supplémentaires et soit moins consommateur en bande passante.

Elle propose à cet effet un procédé d'enrichissement du contenu audio d'un flux audiovisuel comprenant l'obtention d'un premier flux élémentaire de données comprenant des données d'enrichissement textuelles et d'un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, la conversion des données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et le mixage des données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies. Avantageusement, le procédé d'enrichissement comprend en outre la synchronisation des données audio d'enrichissement avec les données audio initiales avant leur mixage, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel. En particulier, cette synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée au moyen d'au moins une étiquette insérée dans l'entête d'au moins un paquet de données textuelles appartenant au premier flux élémentaire de données. Selon un mode de réalisation dans lequel le deuxième flux élémentaire de données comprend au moins un paquet de données audio comprenant des données audio initiales et une estampille temporelle, la synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles avec l'estampille temporelle du paquet de données audio. Dans un mode de réalisation particulièrement avantageux où le flux audiovisuel est transmis selon la norme MPEG2-TS, l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données par démultiplexage du flux audiovisuel au moyen d'identifiants respectivement associés à ces premier et deuxième flux élémentaires de données dans 2

une table PMT, ce qui permet une séparation simple des différents flux élémentaires. Dans ce mode de réalisation, de façon particulièrement avantageuse, les données textuelles d'enrichissement sont insérées préalablement dans le premier flux élémentaire conformément à la fonctionnalité télétexte définie dans la norme DVB, ce qui permet de réutiliser une fonctionnalité déjà existante pour transmettre les données d'enrichissement sans avoir à ajouter une nouvelle fonctionnalité spécifique à ce type d'application. Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérés dans un champ de données spécifique d'au moins un paquet de flux élémentaire appartenant au premier flux élémentaire afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio, ce qui permet de distinguer l'utilisation de la fonctionnalité télétexte à des fins d'enrichissement de contenu audio d'un flux audiovisuel d'une utilisation classique. En particulier, lorsque ce champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et dans le champ élémentaire data_unit_id. Lorsque le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent alors avantageusement en au moins une valeur choisie dans une plage de valeur allant de Ox06à Ox1F et insérée dans ledit champ de données spécifiques de la table PMT. De manière particulièrement avantageuse, les données textuelles d'enrichissement sont formulées dans le format XML et comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement en données audio d'enrichissement parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue, ce qui permet de configurer la conversion vocale des données textuelles d'enrichissement depuis l'émetteur du programme télévisé.

La présente invention propose également un procédé de génération d'un flux audiovisuel adapté pour l'enrichissement de contenu audio, comprenant une étape d'insertion de données textuelles d'enrichissement et d'au moins une estampille temporelle dans un premier flux élémentaire de données et une étape de multiplexage du premier flux élémentaire de données avec au moins un deuxième flux élémentaire de données comprenant des données audio initiales afin d'obtenir le flux audiovisuel. La présente invention propose en outre un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, comprenant une unité de démultiplexage adaptée pour obtenir au moins un 3

premier flux élémentaire de données comprenant des données d'enrichissement textuelles et un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, une unité de décodage configurée pour convertir les données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et une unité de mixage audio configurée pour mixer les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies. Dans un mode de réalisation avantageux, l'unité de décodage comprend une unité de synthèse vocale configurée pour synthétiser vocalement les données audio d'enrichissement à partir des données textuelles d'enrichissement extraites du premier flux élémentaire de données et une unité de synchronisation configurée pour synchroniser les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données avant de les fournir à l'unité de mixage audio, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage.

En particulier, l'unité de démultiplexage est adaptée en outre pour obtenir un troisième flux élémentaire de données comprenant des données vidéo à partir du flux audiovisuel, le dispositif étant caractérisé en ce que l'unité de décodage comprend une unité de décodage audio, configurée pour extraire les données audio initiales du deuxième flux élémentaire de données afin de les fournir à l'unité de mixage audio, et une unité de décodage vidéo configurée pour extraire les données vidéo du troisième flux élémentaire de données, afin de les fournir en sortie du dispositif d'enrichissement. De manière avantageuse, lorsque le flux audiovisuel est transmis selon la norme MPEG2-TS, le dispositif d'enrichissement est apte à mettre en oeuvre les étapes du procédé d'enrichissement de contenu audio ci-avant.

Le procédé et le dispositif d'enrichissement du contenu audio d'un flux audiovisuel, objet de l'invention, seront mieux compris à la lecture de la description et à l'observation des dessins ci-après dans lesquels : - la figure 1 illustre les étapes d'un procédé d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention ; et - la figure 2 représente schématiquement un dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention.

On se réfère tout d'abord à la figure 1 sur laquelle sont illustrées les étapes d'un procédé 100 d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention. Ce procédé d'enrichissement se déroule plus particulièrement dans un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, décrit plus en détail en relation avec la 4

figure 2, lequel est apte à recevoir un flux audiovisuel numérique F utilisant par exemple la norme MPEG2-TS pour le transport de flux audiovisuels. Ce procédé d'enrichissement comprend notamment l'obtention (étape 105) au moins d'un premier flux élémentaire de données Fcxt comprenant des données d'enrichissement textuelles dit et d'un deuxième flux élémentaire de données Faudio comprenant des données audio initiales daudio a partir du flux audiovisuel F. De tels flux élémentaires sont par exemple multiplexés au préalable avec un flux élémentaire vidéo Fvideo comprenant des données vidéo d'ideo, lors de la préparation (étape 102) du flux audiovisuel F au niveau du diffuseur de programmes télévisés numériques, avant la diffusion (étape 103) du flux audiovisuel F préparé. En particulier, cette étape 105 d'obtention peut comprendre notamment la séparation du flux audiovisuel F reçu par le dispositif de réception numérique en : - un premier flux élémentaire Fxt constitué de paquets de données textuelles Ptxt(1),...,Ptxt(i) comprenant les données d'enrichissement textuelles dit ; - un deuxième flux élémentaire Faudio constitué de paquets de données audio Paudio(l),...,Paudio(j) comprenant les données audio initiales daudio ; et - un troisième flux élémentaire Fvideo constitué de paquets de données vidéo Pvideo(l), - - -,Pvideo(k) comprenant des données video d'ideo. Lors de cette génération préalable du flux audiovisuel F, les données d'enrichissement textuelles dxt sont insérées dans un premier flux élémentaire de données Fxt (étape 101), par exemple sous la forme de chaînes de caractères ASCII insérées dans un certain nombre de paquets de données textuelles Ptxt(1),...,Pu,t(i) de ce premier flux élémentaire Ftxt. Cette insertion peut être réalisée simplement par un opérateur, par exemple au moyen d'outils de type traitement de texte, en amont de l'émetteur de flux audiovisuels et permet d'éviter d'avoir recours aux services d'un acteur pour lire une voix-off à mixer directement avec la piste audio d'origine, ce qui engendre des coûts supplémentaires, et permet de raccourcir également le temps de production. Lors de cette étape d'insertion, des estampilles temporelles sont également insérées avantageusement dans les paquets de données textuelles Ptxt(1),...,Ptxt(i) où sont insérées les données textuelles dtxt. Ces estampilles temporelles peuvent être utilisées notamment lors d'une éventuelle synchronisation des données textuelles d'enrichissement avec les données audio à enrichir, comme cela est décrit plus loin dans la description. Une fois les données textuelles insérées dans le premier flux élémentaire de données Ftxt, ce premier flux élémentaire Fcxt est multiplexé avec les autres flux élémentaires audio Faudio, comprenant des données audio initiales daudio à enrichir, et vidéo F,ideo, lors d'une étape 102 de multiplexage permettant d'obtenir le flux audiovisuel F décrit ci-avant. Une fois le flux audiovisuel F généré, ce flux audiovisuel F est diffusé (étape 103) afin 5

d'être reçu par un certain nombre de dispositifs de réception numérique. Pour en revenir à l'étape 105 de séparation évoquée ci-dessus, celle-ci peut être réalisée par démultiplexage de ces différents flux élémentaires à partir du flux audiovisuel F dans lequel ils ont été multiplexés au préalable.

A l'issue de cette étape 105, le premier flux élémentaire Ftxt, constitué d'un certain nombre de paquets de données textuelles {P,t(i)}i<i< comprenant les données d'enrichissement textuelles dtXtd'une part, et le deuxième flux élémentaire Faudio, constitué d'un certain nombre de paquets de données audio {Paudio(j)}i«7 comprenant des données audio initiales daudio, sont disponibles séparément.

Les données textuelles d'enrichissement dtXt sont alors extraites (étape 107) du premier flux élémentaire Ftxt, et plus particulièrement d'un ou plusieurs paquet(s) de donnée(s) textuelle(s) {Ptxt(i)}i<i les contenant dans ce flux, et converties (étape 109) en données audio d'enrichissement ds'P au moyen d'un processus de synthèse vocale. Une fois ces données audio d'enrichissement ds P obtenues, celles-ci sont mélangées (étape 113) avec les données audio initiales daudio, elles-mêmes extraites du deuxième flux élémentaire Faudio, et plus particulièrement d'un ou plusieurs paquet(s) audio {Paudio(j)}i«J les contenant dans ce flux, afin d'obtenir des données audio enrichies d'audio. Ces données audio enrichies d'audio peuvent alors être utilisées en combinaison avec les données vidéo extraites, par décodage vidéo, du flux élémentaire vidéo Fvideo pour fournir un programme télévisé dont la bande son est enrichie au moyen des données textuelles d'enrichissement d,t. Ainsi, dans la mesure où les données d'enrichissement sont transmises sous forme textuelle (par exemple sous la forme de caractères ASCII) plutôt que sous la forme de données audio déjà mélangées avec la piste audio d'origine comme c'est le cas de l'art antérieur, un gain substantiel en bande passante est obtenu dans la mesure où les données textuelles sont significativement moins consommatrices en bande passante que les données audio. Dans un mode de réalisation avantageux, une étape 111 de synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio est effectuée avant de mixer les données audio d'enrichissement dsup avec les données audio initiales daudio.

Ceci permet de garantir la bonne synchronisation de la voie audio d'enrichissement avec la piste audio d'origine et de prévenir un chevauchement temporel accidentel de ces deux types de données audio lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel F. Une telle synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio peut être réalisée au moyen d'une ou plusieurs estampille(s) temporelle(s) insérée(s) dans l'entête d'au moins un paquet de données PtXt(i) appartenant au premier flux élémentaire de données F xt et contenant des données textuelles d'enrichissement d,t. 6 Dans un mode de réalisation particulièrement avantageux, le flux audiovisuel F est composé selon la norme MPEG-2 TS et transmis selon cette même norme, c'est-à-dire au moyen de paquets de transports décrits dans cette norme.

Dans un tel mode de réalisation, le démultiplexage décrit précédemment en relation avec l'étape 105 de séparation des flux élémentaires peut être avantageusement effectué en fonction d'identifiants PID distincts associés respectivement à ces différents flux élémentaires, lesquels sont listés alors dans une table PMT (Program Map Table en anglais), utilisée habituellement dans cette norme MPEG-2 TS et transmise avec le flux audiovisuel F.

En lisant cette table PMT afin d'y retrouver les identifiants PID associés aux différents flux élémentaires, il est alors possible de distinguer les différents flux élémentaires Faudio, Fvideo et Fc~t entre eux, ce qui permet de les séparer simplement par lecture de cette table PMT lorsque le flux audiovisuel F est reçu. Toujours dans ce même mode de réalisation avantageux où la norme MPEG-2 TS est employée pour formuler et transmettre le flux audiovisuel F, la synchronisation évoquée précédemment peut être effectuée au moyen d'estampilles temporelles de type «PTS » (Presentation Time Stamp en anglais). Il est en effet habituel de placer une unique estampille temporelle PTS dans l'entête de chaque paquet de données audio Pauaio(j) du flux audiovisuel. Cette estampille temporelle permet de synchroniser la sortie audio même lorsque l'estampille temporelle précédente n'a pas été capturée, par exemple lors de la perte d'un paquet audio. Dans ce mode de réalisation, une estampille temporelle PTS est placée en outre dans l'entête des paquets de données textuelles Ptxt(i) comprenant des données textuelles d'enrichissement correspondant à une phrase unitaire. Comme l'audio description textuelle peut être avantageusement entièrement contenue dans un seul paquet de données textuelles P,t(i), une seule estampille temporelle PTS peut suffire ici. La synchronisation des données audio d'enrichissement &JI, avec les données audio initiales daudio est alors gérée avec le top du départ du décodage audio, grâce aux estampilles temporelles insérées dans les paquets de données audio Paudio(j) et les paquets de données textuelles Pt.t(i). Toujours dans le mode de réalisation avantageux où la norme MPEG-2 TS est employée pour transmettre le flux audiovisuel F, les données d'enrichissement textuelles d,t sont insérées au préalable (étape 101), avant la diffusion du flux audiovisuel F (étape 103), dans un certain nombre de paquets de données textuelles Ptxt(1),...,Ptxt(i) appartenant au premier flux élémentaire Ftxt, lesquels sont définis comme étant des paquets de flux élémentaires (autrement désignés par « PES » pour Packet Elementary Stream en anglais) au sens de la norme MPEG2-TS. Dans ce mode de réalisation, ces données d'enrichissement textuelles drxt peuvent être alors 7

avantageusement insérées sous la forme de télétexte dans ces paquets élémentaires du premier flux élémentaire Ftxt, conformément à la partie de la norme DVB décrivant le mode d'insertion de télétexte dans un flux DVB (ETSI EN 300 472). Ceci permet de réutiliser une fonctionnalité de transmission de télétexte déjà existante dans le cadre de la norme MPEG2-TS pour transmettre simplement ces données d'enrichissement textuelles dtxt, sans avoir besoin d'implémenter de nouvelles fonctionnalités spécifiques à l'application d' audiovision. Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont définies au préalable, afin de pouvoir indiquer aux dispositifs récepteurs du flux audiovisuel F qu'ils reçoivent un flux audiovisuel dont le contenu audio peut être enrichi. Ces données descriptives sont alors insérées dans un champ de données spécifique d'un ou plusieurs paquet(s) de flux élémentaire (P,t(i)) appartenant au premier flux élémentaire (F,t), afin de pouvoir être lues et/ou extraites par les dispositifs récepteurs lors de la réception du flux audiovisuel F. Ainsi, à titre d'exemple propre à la norme MPEG2-TS, les données d'enrichissement textuelles d,t peuvent être insérées dans un champ spécifique de type « PES_data_field » de paquets de flux élémentaires « PES », lequel est structuré sous la forme suivante par la norme DVB:

PES_data_fieldQ { data_identifier for(i=0;i<N;i++) { data unit id data_unit_length data_fieldQ }

30 Le champ « PES_data_field » se décompose ainsi en un certain nombre de champs élémentaires :

- Le champ élémentaire "data_identifier" indiqué ci-dessus sert à définir le type de donnés stockées dans le paquet de flux élémentaire en question. Les données descriptives spécifiquement 35 associées à l'enrichissement de contenu audio peuvent donc être insérées dans un tel champ élémentaire. Des valeurs comprises entre 0x10 et Ox1F sont déjà définies pour pouvoir être insérées } 8 35

dans ce champ élémentaire "data_identifier" afin de désigner des données EBU (pour European Broadcasting Union). Il convient donc de ne pas utiliser de telles valeurs pour désigner des données textuelles d'enrichissement. La norme DVB offre une plage de valeurs comprises entre 0x80 et OxFF réservée pour des besoins spécifiquement définis par un utilisateur. Une ou plusieurs valeur(s) choisie(s) dans cette plage de valeurs peuvent donc être avantageusement utilisées en tant que données descriptives spécifiquement associées à l'enrichissement de contenu audio, pour indiquer l'insertion de données textuelles d'enrichissement dans le flux élémentaire PES concerné, ce qui permet de ne pas activer inutilement la fonction télétexte standard.

Alternativement, dans la mesure où la norme DVB réserve les plages de valeurs [OxOO,OxOF] et [0x20, Ox7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ "data_identifier" , afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard. - Par ailleurs, le champ élémentaire « data_unit_id » ci-dessus sert à définir le type et la nature des données transmises. La norme DVB offre une plage de valeurs libres comprises entre 0x80 et OxFF, pouvant être utilisées pour désigner des données textuelles d'enrichissement. Des données descriptives spécifiquement associées à l'enrichissement de contenu audio peuvent donc être aussi insérées dans un tel champ élémentaire, afin par exemple de désigner un sous-type d'information concernant les données textuelles d'enrichissement transmises comme la langue utilisée lors de la synthèse vocale pour l'enrichissement audio ou la nature des paquets de données d'enrichissement audio. Ici aussi, de manière alternative dans la mesure où la norme DVB réserve les plages de valeurs [0x00, 0x01] et [0x04, Ox7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ « data_unit_id », afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard. - Le champ élémentaire « data_unit_length », quant à lui, sert à indiquer la taille en octets du champ « data_field() », qui ne peut excéder 44 octets.

- Enfin, le champ « data_fieldQ » fournit un espace où insérer les données textuelles d'enrichissement d,t dans le paquet de flux élémentaire P,t(i) en question. Toujours dans le mode de réalisation où la fonctionnalité télétexte offerte par la norme DVB est utilisée pour transmettre les données textuelles d'enrichissement d,t, il peut être aussi 9

avantageux d'insérer des données descriptives spécifiquement associées à l'enrichissement de contenu audio dans le descripteur télétexte présent dans la table PMT définie précédemment, sous la forme d'un identifiant spécifique, afin de bien différencier cet usage spécifique du télétexte à des fins d'enrichissement de contenu audio de l'usage classique qui en est fait habituellement.

Un champ de données descriptives est prévu, selon les normes MPEG2-TS et DVB, dans la table PMT pour indiquer le type de composante télétexte présente dans un flux élémentaire particulier, et préciser entre autre si ce flux élémentaire correspond à un sous titre, la langue utilisée, etc. Il est ainsi possible, grâce à ce champ de données descriptives prévu dans la table PMT, d'indiquer que les données textuelles d'enrichissement d,t ajoutées sous forme de télétexte correspondent à une application spécifique de type audiovision. Ceci permet au dispositif d'enrichissement de reconnaître l'utilisation d'un procédé d'audiovision lorsqu'il reçoit le flux audiovisuel F, ce qui permet l'implémentation d'un menu, grâce à cette table PMT, au niveau du dispositif d'enrichissement afin d'indiquer à l'utilisateur du dispositif qu'un enrichissement de contenu audio par audiovision est disponible. De façon avantageuse, et afin de pouvoir effectuer une gestion fine de ce procédé d'enrichissement au niveau du dispositif d'enrichissement lui-même, les données d'enrichissement textuelles d,r insérées sous forme de télétexte peuvent être formulées dans le format xml et comprendre un ou plusieurs paramètre de configuration de l'étape 109 de conversion des données textuelles d'enrichissement d,t en données audio d'enrichissement ds'P. De tels paramètres de configuration, ajoutés aux données d'enrichissement textuelles d,t, peuvent être relatifs au paramétrage des éléments suivants au niveau du dispositif d'enrichissement : - la vitesse de lecture à utiliser lors de la synthèse vocale (i.e. le débit de parole), - le type de voix à employer lors de la synthèse vocale (i.e. une voix masculine ou une voix féminine, une voix d'enfant...), - l'intonation ou l'accentuation des phrases prononcées. Ces paramètres de configuration peuvent aussi servir à : - embarquer plusieurs langues dans un même flux audiovisuel, - embarquer des textes afin de se repérer dans la vidéo lors de l'utilisation de modes « tricks » dans le cas d'un enregistrement. De tels modes « tricks » peuvent correspondre à des modes d'avance rapide, de retour rapide, de pause, d'arrêt ou de lecture, entre autres. A titre illustratif, un exemple de données textuelles d'enrichissement, en mode télétexte et en format XML, est fourni ci-dessous : <AUDIO_VISION> <VERSION> 1.0</V ERS ION> 10 <TEXT TYPE="NORMAL" SPEED ="1" >Bonjour Monde je m'appelle E.T</TEXT> <TEXT TYPE="TRICK MODE" SPEED ="1.5">Scène de la rencontre avec l'alien</TEXT> </AUDIO_VISION>

Dans cet exemple, des paramètres de configuration sont insérés pour définir la vitesse de lecture par la synthèse vocale. En particulier, une première phrase «Bonjour Monde je m'appelle E.T » est censée être prononcée à vitesse normale, tandis qu'une deuxième phrase « Scène de la rencontre avec l'alien » est prononcée dans une vitesse supérieure de 50 % à la vitesse normale. Une balise utilisable en mode « trick » est également insérée ici au moyen de métadonnées complémentaires aux données textuelles d'enrichissement. Ce mode « trick » permet à l'utilisateur de parcourir rapidement une émission enregistrée, en lui offrant la possibilité de passer directement d'une balise à l'autre. Un texte identifié par le type « TRICK MODE » est également inséré après cette balise. En fonction des capacités du récepteur numérique utilisé, lorsque celui-ci détecte une telle balise, il peut émettre un bip sonore dans un mode limité ou bien émettre une voix prononçant « Scène de la rencontre avec l'alien », ce qui indique la position où l'on se trouve dans l'émission enregistrée, dans un mode plus élaboré.

On se réfere maintenant à la figure 2, laquelle illustre schématiquement un dispositif 1 d'enrichissement du contenu audio d'un flux audiovisuel F selon la présente invention. Un tel dispositif peut en particulier prendre la forme d'un dispositif de réception numérique de type « Set Top Box », d'un dispositif de réception numérique intégré au sein d'un téléviseur numérique ou de tout autre terminal numérique compatible avec la norme DVB.

Outre des moyens de réception Rx capables de recevoir un flux audiovisuel F émis par une antenne de diffusion numérique ou provenant d'une antenne satellite par le biais d'un câble, le dispositif 1 d'enrichissement comprend une unité de démultiplexage 10, arrangée pour démultiplexer le flux audiovisuel F reçu en au moins un premier flux élémentaire Fit composé d'un certain nombre de paquets de données P,t(i) comprenant des données textuelles d'enrichissement cl,,, un deuxième flux élémentaire audio Faudio composé d'un certain nombre de paquets Paudio(j) transportant des données audio daudio et un troisième flux élémentaire vidéo Fvideo composé d'un certain nombre de paquets P'ideo(k) transportant des données vidéo d'ide°. Dans le mode de réalisation avantageux où le flux audiovisuel F est composé et transmis selon la norme MPEG2-TS, cette unité de démultiplexage 10 peut comprendre un module de filtrage PID capable de lire la table PMT transmise avec le flux audiovisuel F et d'y retrouver les identifiants PID associés spécifiquement aux différents flux élémentaires afin de pouvoir distinguer ceux-ci et de le séparer par démultiplexage. 11

Le dispositif 1 d'enrichissement comprend par ailleurs une unité de décodage 20 qui reçoit les différents flux élémentaires Faudio, Fvideo et Fw démultiplexés par l'unité de démultiplexage 10. Cette unité de décodage 20 comprend, d'une part, une unité de décodage audio 25 qui reçoit les différents paquets Paudio(j) du deuxième flux élémentaire Faudio transportant des données audio initiales daudio et en extrait les données audio initiales daudio sous un format permettant la sortie de ces données audio vers un haut-parleur, par exemple dans un format PCM, afin de fournir ces données audio initiales daudio à l'unité 30 de mixage audio décrite par la suite. Le format PCM est indiqué ici à titre illustratif comme format de sortie des données audio initiales daudio, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peut être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. Cette unité de décodage 20 comprend, d'autre part, une unité de décodage vidéo 27 qui reçoit les différents paquets Pvideo(k) du troisième flux élémentaire Fvideo transportant des données vidéo &deo et en extrait les données vidéo &déo dans un format d'image vidéo permettant la sortie de ces données vidéo vers un écran de diffusion, comme une télévision, afin de les fournir en sortie du dispositif 1 d'enrichissement. En ce qui concerne le traitement des paquets P,t(i) comprenant des données textuelles d'enrichissement d,t et appartenant au premier flux élémentaire Ftxt, l'unité de décodage 20 comprend une unité d'extraction 21 arrangée pour extraire les données textuelles d'enrichissement drxt de ces paquets P,t(i).

L'unité de décodage 20 comprend en outre une unité de synthèse vocale 22 qui reçoit ces données textuelles d'enrichissement d,t et les converties en des données audio d'enrichissement dsuP, typiquement au moyen d'un processus de synthèse vocale. Cette unité de synthèse vocale 22 peut ainsi convertir une chaîne de caractères ASCII représentant les données textuelles d'enrichissement d,xt en des données audio d'enrichissement dsuP dans un format PCM.

Ici aussi, le format PCM est ici indiqué à titre illustratif comme format de sortie des données audio d'enrichissement dsuP, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peur être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. Le dispositif 1 d'enrichissement comprend également une unité de mixage audio 30 recevant, d'une part, les données audio d'enrichissement dsuP converties par l'unité de synthèse vocale 22 et, d'autre part, les données audio initiales daudio décodées par l'unité de décodage audio 25. Cette unité de mixage audio 30 effectue le mixage des données audio d'enrichissement dsuP et des données audio initiales daudio, afin d'enrichir ces dernières avec l'information additionnelle contenue dans les données audio d'enrichissement dsuP, ce qui aboutit à des données audio enrichies d'audio. Ces données audio enrichies d'audio peuvent alors être fournies par l'unité de mixage audio sur une sortie « Audio out » du dispositif 1 d'enrichissement, conjointement avec les données vidéo 12

&deO issues de l'unité de décodage vidéo 27 qui sont fournies sur une sortie « Video out ». Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un décodeur de télévision numérique, autrement désigné par le terme de Set Top Box (STB), ces sorties «Audio out » et «Video out » peuvent alors être connectées par un câble externe à un écran de télévision pour diffuser le programme contenu dans le flux audiovisuel, dont la piste audio est enrichie par des informations supplémentaires. Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un module interne à un téléviseur numérique, ces sorties « Audio out » et « Video out » peuvent alors être connectées par des connexions internes aux hauts parleurs et à l'écran de ce téléviseur numérique pour diffuser ce programme enrichi.

Dans un mode de réalisation avantageux, l'unité de décodage 20 du dispositif 1 d'enrichissement comprend en outre une unité de synchronisation 23, connectée entre l'unité de synthèse vocale 22 et l'unité de mixage audio 30. Cette unité de synchronisation 23 reçoit les données audio d'enrichissement &'I, provenant de l'unité de conversion audio 22 et les synchronise avec les données audio initiales daud o afin de garantir que celles-ci ne chevauchent pas lors du mixage effectué par l'unité de mixage audio 30. Lorsque le fichier audiovisuel F est composé et transmis selon la norme MPEG2-TS et que des estampilles temporelles de type « PTS » ont été insérées dans les paquets Ptxt(i) du flux élémentaire Ftxt, l'unité de synchronisation 23 utilise ces estampilles temporelles PTS pour caler les données audio d'enrichissement &J I, par rapport au top du départ du décodage audio effectué par l'unité 25 de décodage audio, en utilisant au besoin l'horloge de cette unité 25 de décodage audio.

Bien entendu, l'invention n'est pas limitée aux exemples de réalisation ci-dessus décrits et représentés, à partir desquels on pourra prévoir d'autres modes et d'autres formes de réalisation, sans pour autant sortir du cadre de l'invention.

Ainsi, l'exemple d'un enrichissement audio destinée à améliorer l'accessibilité d'un programme télévisé par des mal-voyants a été décrit précédemment. Cependant, la présente invention peut également être utilisée dans le cadre plus général d'un enrichissement audio de contenus à la fois audio et vidéo, comme par exemple des services vidéo proposés sur internet.

Par ailleurs, le format XML a été indiqué précédemment comme pouvant être utilisé pour insérer des données textuelles d'enrichissement accompagnées de métadonnées. L'invention ne se limite pas cependant à ce type de format, mais peut être mise en pratique avec tout autre type de format dans lesquelles des données textuelles peuvent être accompagnées de métadonnées, comme par exemple. 13

Claims

REVENDICATIONS1. Procédé d'enrichissement d'un contenu audio d'un flux audiovisuel (F), caractérisé en ce qu'il comprend : une étape d'obtention (105) au moins d'un premier flux élémentaire de données (Fm) comprenant des données textuelles d'enrichissement (d,t) et d'un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (daudio) à partir du flux audiovisuel (F); une étape de conversion (109) des données textuelles d'enrichissement (dut) en données audio d'enrichissement (dsuP); une étape de mixage (113) des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) afin d'obtenir des données audio enrichies (d'audio).
2. Procédé d'enrichissement selon la revendication 1, caractérisé en ce qu'il comprend en outre une étape de synchronisation (111) des données audio d'enrichissement (dsuP) avec les 15 données audio initiales (daudio) avant leur mixage.
3. Procédé d'enrichissement selon la revendication 2, caractérisé en ce que la synchronisation des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) est effectuée conformément à au moins une estampille temporelle insérée dans au moins un paquet de données 20 textuelles (Put(i)) appartenant au premier flux élémentaire de données (Fud).
4. Procédé d'enrichissement selon la revendication 3, dans lequel le deuxième flux élémentaire de données (Faudio) comprend au moins un paquet de données audio (Paudio(j)) comprenant des données audio initiales (daudio) et une estampille temporelle, caractérisé en ce que la 25 synchronisation des données audio d'enrichissement (dsuP) avec les données audio initiales (daudio) est effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles (P,t(i)) avec l'estampille temporelle du paquet de données audio (Paudio(1))-
5. Procédé d'enrichissement selon l'une des revendications 1 à 4, dans lequel le flux 30 audiovisuel (F) est transmis selon la norme MPEG2-TS, caractérisé en ce que l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données (Ftxt,Faudio) par démultiplexage du flux audiovisuel (F) au moyen d'identifiants respectivement associés auxdits premier et deuxième flux élémentaires de données dans une table PMT. 35
6. Procédé d'enrichissement selon l'une des revendications 1 à 5, caractérisé en ce que les données textuelles d'enrichissement (dit) sont insérées préalablement (101) dans le premier flux élémentaire (Fut) conformément à la fonctionnalité télétexte définie dans la norme DVB. 14. Procédé d'enrichissement selon la revendication 6, caractérisé en ce que des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérées dans un champ de données spécifique d'au moins un paquet de flux élémentaire (Ptxt(i)) appartenant au premier flux élémentaire (F,,t) afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio. 8. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, caractérisé en ce que les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et/ou dans le champ élémentaire data_unit_id. 9. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, caractérisé en ce que les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de Ox06à Ox1F et insérée dans ledit champ de données spécifiques de la table PMT. 10. Procédé d'enrichissement selon l'une des revendications 6 à 9, caractérisé en ce que les données textuelles d'enrichissement (dtxt) comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement (dtxt) en données audio d'enrichissement (dsup) parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue. 11. Dispositif d'enrichissement (1) du contenu audio d'un flux audiovisuel (F), caractérisé en ce qu'il comprend : une unité de démultiplexage (10) adaptée pour obtenir au moins un premier flux élémentaire de données (Fat) comprenant des données d'enrichissement textuelles (d,,,) et un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (dauaio) à partir du flux audiovisuel (F) ; une unité de décodage (20) configurée pour convertir les données textuelles d'enrichissement (dat) extraites du premier flux élémentaire de données (Fat) en données 35 audio d'enrichissement (dsup); et une unité de mixage audio (30) configurée pour mixer les données audio d'enrichissement (dsup) avec les données audio initiales (daudio) extraites du deuxième flux élémentaire de données 15(Faudlo) afin d'obtenir des données audio enrichies (d'audio). 12. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 11, caractérisé en ce que l'unité de décodage (20) comprend une unité de synthèse vocale (22) configurée pour synthétiser vocalement les données audio d'enrichissement (dsup) à partir des données textuelles d'enrichissement (dt,u) extraites du premier flux élémentaire de données (Fvt) et une unité de synchronisation (23) configurée pour synchroniser les données audio d'enrichissement (dsup) avec les données audio initiales (daud,o)) extraites du deuxième flux élémentaire de données (Faudio) avant de les fournir à l'unité de mixage audio (30). 13. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 11 ou 12, dans lequel l'unité de démultiplexage (10) est adaptée en outre pour obtenir un troisième flux élémentaire de données (FvjdeO) comprenant des données vidéo (dviaeo) à partir du flux audiovisuel (F), le dispositif étant caractérisé en ce que l'unité de décodage (20) comprend une unité de décodage audio (25), configurée pour extraire les données audio initiales (daudio) du deuxième flux élémentaire de données (Faudgo) afin de les fournir à l'unité de mixage audio (30), et une unité de décodage video (27) configurée pour extraire les données vidéo (dvideO) du troisième flux élémentaire de données (Fjde)) afin de les fournir en sortie du dispositif d'enrichissement. 14. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon l'une des revendications 11 à 13, dans lequel le flux audiovisuel (F) est transmis selon la norme MPEG2-TS, caractérisé en ce que le dispositif est apte à mettre en oeuvre les étapes du procédé d'enrichissement de contenu audio selon l'une des revendications 4 à 10. 16