FR3127620A1

FR3127620A1 - Procédé de gestion de la restitution d’un contenu audio.

Info

Publication number: FR3127620A1
Application number: FR2110316A
Authority: FR
Inventors: Mathieu Rivoalen; Hervé MARCHAND
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-03-31
Also published as: WO2023052703A1

Abstract

Procédé de gestion de la restitution d’un contenu audio. L’invention a trait à un procédé de gestion, par une entité de gestion, de la restitution audio d’un contenu audio sur un dispositif de restitution (RST) connecté à un dispositif récepteur (STB) apte à recevoir des contenus depuis un serveur de contenu (SRV), caractérisé en ce qu’à un contenu audio correspond plusieurs pistes audios sélectionnables, l’entité de gestion réalisant les étapes suivantes : Une étape d’obtention des capacités de décodage audio du dispositif de restitution ; Une étape de demande d’accès à un contenu multimédia à destination du serveur de contenus ; Une étape de réception d’un flux audio adapté aux capacités de décodage audio et de transmission du flux audio au dispositif de restitution. Figure 1.

Description

Procédé de gestion de la restitution d’un contenu audio.

L’invention se rapporte au domaine des télécommunications.

L’invention se rapporte à un procédé de gestion de la restitution d’un contenu audio par un dispositif de restitution audio relié à un dispositif récepteur de flux via une liaison de communication

L’invention vise les systèmes incluant un dispositif récepteur connecté via un lien de communication à au moins un dispositif de restitution ; le dispositif récepteur reçoit un contenu audio et transmet ce contenu audio audit au moins dispositif de restitution pour y être restitué.

Un dispositif récepteur de flux vise par exemple un dispositif de lecture tel qu’un décodeur de télévision numérique, une console de jeux, etc.

Un dispositif de restitution vise des terminaux capables de restituer un contenu incluant des flux audios. Un tel dispositif de restitution est équipé d’un décodeur audio d’un type donné. Le dispositif de restitution est par exemple un téléviseur équipé d’une enceinte, une barre de son, un home cinéma, etc.

Les contenus visés incluent tous contenus incluant une piste audio. La piste audio peut correspondre à une musique ou à la partie audio d’un contenu vidéo.

Le lien de communication visé ci-dessus est quelconque. Ce lien peut être filaire ou non filaire. On verra dans la suite que, dans l’exemple de réalisation, le lien choisi pour illustrer l’invention est un lien filaire de type HDMI.

Etat de la technique

Un contenu audio est généralement encodé et nécessite un décodeur spécifique pour être restitué. Le décodeur audio peut être localisé soit dans le dispositif de lecture soit dans un dispositif de restitution relié au dispositif de lecture via une liaison de communication filaire (par exemple une liaison HDMI) ou non filaire (par exemple une liaison Wi-Fi ou Bluetooth).

Il existe plusieurs types de codage audio offrant des qualités de restitution respectives. Il résulte de cette diversité de codages audio plusieurs types de flux audios et donc de décodeurs audio associés. A titre d’exemples, les types de codage audio les plus connus sont par exemple, de la plus faible qualité à la plus haute qualité, le stéréo Dolby, le format 5.1 Dolby DTS, le format 7.1 Dolby TrueHD, etc.

La restitution d’un contenu audio comprend plusieurs étapes. Un serveur de contenu audio transmet le contenu audio à destination du dispositif de lecture. Après réception, le dispositif de lecture transmet le contenu au(x) dispositif(s) de restitution.

Lorsqu’un terminal de lecture s’intercale entre un serveur de contenus et un (des) dispositif(s) de restitution, le serveur de contenu n’a pas connaissance des types de décodeurs installés dans le(s) dispositif(s) de restitution connecté(s) au dispositif de lecture ; les flux multimédias sont donc transmis par le serveur de contenus avec une qualité audio standard pouvant être décodé par l’ensemble des dispositifs de restitution, ce de manière à garantir une restitution du contenu audio. La solution adoptée assure effectivement une restitution du contenu ; cependant, le choix d’utiliser une qualité standard offre une qualité audio qui n’est pas satisfaisante alors que le dispositif de restitution est peut-être capable de restituer avec une qualité supérieure. L’expérience utilisateur n’est donc pas optimale.

L’invention vient améliorer la situation.

A cet effet, l’invention se rapporte à procédé de gestion, par une entité de gestion, de la restitution audio sur un dispositif de restitution connecté à un dispositif récepteur de flux multimédias issus d’un serveur apte à émettre un contenu audio à destination du dispositif récepteur, caractérisé en ce qu’à un contenu audio correspond plusieurs pistes audios sélectionnables, l’entité de gestion réalisant les étapes suivantes :

Une étape d’obtention des capacités de décodage audio du dispositif de restitution ;
Une étape de demande d’accès à un contenu multimédia à destination du serveur de contenus ;
Une étape de réception d’un flux audio adapté aux capacités de décodage audio et de transmission du flux audio au dispositif de restitution.

Selon l’’invention, le dispositif récepteur récupère une donnée liée aux capacités de décodage audio d’un dispositif de restitution auquel il est connecté ; ensuite, une piste audio d’une qualité donnée peut être sélectionnée dans un ensemble de pistes audios disponibles à la sélection, les pistes offrant des qualités de restitution respectives.

L’expérience utilisateur est ainsi nettement améliorée par rapport à l’état de la technique car le dispositif de restitution reçoit un flux audio codé qui correspond au décodeur audio dont il est équipé. Plus largement, si plusieurs dispositifs de restitution sont reliés au dispositif récepteur, les dispositifs reçoivent des flux audios adaptés. On comprend que les dispositifs de restitution peuvent recevoir des flux audios codés différemment contrairement à l’état de la technique où les flux reçus par les dispositifs de restitution sont identiques.

Selon un premier mode de mise en œuvre particulier de l'invention, la demande d’accès est suivie d’une étape de réception d’un fichier incluant au moins une donnée d’accès à une piste audio sélectionnable, d’une sélection d’au moins une piste adaptée aux capacités et d’une demande d’accès à ladite au moins une piste audio sélectionnée. Dans ce premier mode, le module de gestion récupère un fichier qui va permettre d’accéder directement aux flux audios souhaités. Par exemple, dans le cas où l’entité de gestion est installée dans le dispositif de lecture, ce dernier va récupérer les types de décodeurs installés dans les dispositifs de restitution s’il y en a plusieurs et requérir un accès aux flux audios souhaités grâce aux données d’accès stockées dans le fichier.

Selon un deuxième mode de mise en œuvre particulier de l'invention, qui pourra être mis en œuvre alternativement ou cumulativement avec le précédent, la demande d’accès inclut une donnée (DAT) représentative d’une capacité de décodage audio du dispositif de restitution. Dans ce deuxième mode, c’est le serveur de contenus qui reçoit les capacités de décodage obtenus lors de l’étape d’obtention et qui se charge de sélectionner les pistes et donc les flux audios à transmettre à destination du dispositif de lecture.

Selon une variante du deuxième mode, lorsque plusieurs dispositifs de restitution sont connectés au dispositif récepteur, les dispositifs de restitution ayant des capacités de décodage respectives, la donnée (DAT) inclut tout ou partie des capacités obtenues lors de l’étape d’obtention. Cette variante offre la possibilité de fournir plusieurs capacités et de recevoir en retour plusieurs types de flux audios.

Selon un troisième mode de réalisation de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les précédents, le contenu inclut une partie vidéo et une partie audio, en ce que le contenu vidéo est reçu sous forme de segments vidéo disponibles selon plusieurs représentations possibles, en ce que la piste audio sélectionnée varie dans le temps en fonction de la représentation choisie pour la partie vidéo. Ce troisième mode vise des contenus audios/vidéos et permet de sélectionner une qualité audio en prenant en compte la représentation choisie pour la partie vidéo.

Rappelons inclut qu’une représentation d’un contenu ou d’un segment vise un débit donné (exprimé en kb/s) du contenu ou du segment.

Selon un quatrième mode de réalisation de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les précédents, une priorité est définie au préalable de manière à privilégier une qualité de la partie audio plutôt que la partie vidéo, ou inversement, et en ce que la qualité choisie de la partie prioritaire est la qualité maximale possible. Ce mode permet de privilégier une partie audio ou vidéo et être assuré que la qualité maximale sera sélectionnée automatiquement pour cette partie prioritaire.

La qualité maximale possible vise la piste offrant une la meilleure qualité. Selon une variante de ce quatrième mode, une bande passante varie sur la liaison reliant le terminal de lecture et le serveur ; la qualité maximale possible peut aussi être est dépendante de la bande passante disponible entre le terminal de lecture et le serveur qui fournit le contenu. Cette variante précise que la qualité maximale n’est pas forcément la qualité maximale proposée à la sélection. Cette variante prend en compte la bande passante courante pour déterminer la qualité maximale qu’il est possible de demander pour assurer une qualité de restitution en continue sans coupure. Par exemple si trois qualités audios (Q1 à Q3 de la plus petite à la plus grande) sont accessibles et que la bande passante courante permet une réception des deux plus petites, la qualité maximale correspondra à la qualité Q2.

Selon un aspect matériel, l’invention se rapporte à une entité de gestion de la restitution audio d’un contenu audio sur un dispositif de restitution connecté à un dispositif récepteur apte à recevoir des contenus depuis un serveur de contenu, caractérisé en ce qu’à un contenu audio correspond plusieurs pistes audios sélectionnables, l’entité de gestion comprenant :

Un module d’obtention apte à obtenir des capacités de décodage audio du dispositif de restitution ;

Un module de demande d’accès apte à demander un accès à un contenu multimédia à destination du serveur de contenus ;

Un module de réception apte à recevoir un flux audio adapté aux capacités de décodage audio et de transmission du flux audio au dispositif de restitution.

Selon un autre aspect matériel, l’invention a trait à un dispositif caractérisé en ce qu’il comprend une entité de gestion telle que définie ci-dessus.

Selon un autre aspect matériel, l’invention a trait à un programme d’ordinateur apte à être mis en œuvre dans une entité de gestion tel que définie ci-dessus, ledit programme comprenant des instructions de code qui, lorsque le programme est exécuté réalise l’étape définie dans le procédé défini ci-dessus.

Selon un autre aspect matériel, l’invention a trait à un support d'enregistrement lisible par un processeur de données sur lequel est enregistré un programme comprenant des instructions de code de programme pour l'exécution des étapes du procédé défini ci-dessus.

Précisions ici que le support de données peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, ou un disque dur. D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet. Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

L’invention sera mieux comprise à la lecture de la description qui suit, donnée à titre d'exemple et faite en référence aux dessins annexés sur lesquels :

représente un système informatique sur lequel est illustré un exemple de réalisation de l’invention dans lequel le premier dispositif est un codeur de télévision numérique et le deuxième dispositif est un dispositif de restitution.

est une vue schématique des circuits présents dans le dispositif de restitution.

est un algorithme illustrant une suite d’étapes mises en œuvre selon un premier mode de réalisation possible de l’invention dans lequel le contenu accédé est un contenu audio exclusivement.

est un algorithme illustrant une suite d’étapes mises en œuvre selon un deuxième mode de réalisation possible de l’invention dans lequel le contenu accédé est un contenu audio et vidéo, la partie vidéo étant téléchargée en mode de téléchargement adaptatif (adaptative streaming).

est une vue schématique d’un contenu comprenant des segments de différentes qualités conformément à la technique du streaming adaptatif connu de l’homme du métier

Description détaillée d'un exemple de réalisation illustrant l'invention :

La représente un système SYS comprenant un serveur SRV pouvant stocker des contenus audio et/ou vidéos. Les contenus audios visent indifféremment des contenus audios incluent dans des contenus multimédias ou dans des contenus exclusivement audios tels que de la musique.

Le système SYS comprend un dispositif récepteur STB de flux audios et/ou vidéos. Dans notre exemple le dispositif récepteur est un décodeur. Rappelons qu’un décodeur est un adaptateur transformant un signal externe issu d’u réseau de communication tel que me réseau Internet en un contenu et en affichant ce contenu sur un dispositif de restitution.

Le système SYS comprend en outre un dispositif de restitution RST du flux audio reçu par le dispositif récepteur. Le dispositif de restitution est indifféremment une télévision équipée d’enceintes, une barre de son, etc.

Lorsque plusieurs dispositifs de restitution sont utilisés, les dispositifs sont en général équipés de décodeurs audios respectifs.

Les types de décodeurs varient et offrent une qualité de restitution sonore dépendante du type de décodeur audio utilisé. Le type de décodeur audio fait souvent référence à un standard ; des standards connus sont par exemple les standards Stéréo Dolby ou 5.1 DTS ou 7.1 TrueHD, etc. Précisons ici que « 5.1 », » 7.1 » indiquent le nombre de canaux contenus dans une piste audio. Le premier chiffre indique le nombre d'enceintes. Le second chiffre, placé après le ".", 1 ou 0, indique la présence ou non dans l’encodage, d’une piste dédiée au caisson de basses. Les dénominations suivantes sont ainsi à comprendre de cette façon ; 1.0 signifie que le dispositif de restitution comprend une enceinte centrale seule pour un son nécessairement monophonique ; 5.0 signifie que le dispositif de restitution comprend une enceinte avant gauche, une enceinte centrale, une enceinte avant droite , deux enceintes « sur round ».

Les différents standards d’encodage de flux audio peuvent être hiérarchisés et donc classés selon la qualité sonore qu’ils sont capables de fournir. Une qualité donnée requiert un débit (dont l’unité est kbps pour kilobits par seconde) plus ou moins élevé. A titre d’exemples, un flux audio de type « Dolby » requiert un débit de l’ordre de 384 kbps (Stéréo) ; un flux de type « Dolby digital plus » requiert un débit de l’ordre de 768kbps (Utilisé pour le streaming) ou 1536kbps (blu-ray discs) ; un flux de type Dolby TrueHD est de l’ordre de 18 Mbps.

Le serveur SRV est relié au dispositif récepteur STB via une première liaison de communication quelconque LI1. De même, le dispositif récepteur STB est relié au dispositif de restitution via une deuxième liaison de communication LI2.

A noter que le dispositif récepteur peut être relié à une passerelle domestique (non représentée). Dans ce cas, les flux provenant du décodeur ou ceux issus du serveur transitent par la passerelle domestique. On évalue en générale la bande passante de la liaison LI1 entre le servir et la passerelle domestique.

Le type de flux audio aura donc une influence sur la bande passante associée à la liaison LI1.

Les liaisons de communication LI1 e I2 sont aptes à véhiculer un flux audio. Dans notre exemple, la première liaison LI1 est le réseau Internet et la deuxième liaison est une liaison filaire telle qu’un câble HDMI.

En référence à la , le dispositif récepteur STB comprend un module de traitement de données CPU (de type processeur, microcontrôleur), une mémoire MEM (par exemple flash), un premier module de communication pour la communication avec la première liaison LI1 et un deuxième module de communication pour la communication avec un la deuxième liaison de communication LI2.

Le système SYS comprend en outre une entité de gestion MNG mettant en œuvre le procédé de l’invention. Dans notre exemple, l’entité de gestion MNG est stockée dans la mémoire MEM du dispositif récepteur décodeur STB mais pourrait très bien être localisé sur un dispositif autre que le dispositif de lecture STB. Ce module de gestion MNG sera décrit plus en détails ci-après.

Pour la mise en œuvre de l’invention, un contenu est associé à plusieurs pistes audios associés à des qualités respectives. Par exemple, si le contenu audio est une musique, plusieurs pistes audios sont accessibles pour cette musique avec des qualités respectives. De la même façon, dans le cas d’un contenu vidéo, la vidéo est associée à plusieurs pistes audios sélectionnables. Dans notre exemple, trois pistes sont proposées : une piste P1 codée en Stéréo Dolby, une piste P2 codée en 5.1 Dolby DTS et une piste P3 codée en 7.1 Dolby TrueHD

Les et 4 illustrent deux modes de réalisation sous forme d’échanges de messages entre les différentes entités du système informatique. Sur ces figures, sont représentés trois axes associés respectivement au serveur SRV stockant des pistes P1-Pn à sélectionner ; au décodeur STB stockant dans notre exemple l’entité de gestion MNG ; au dispositif de restitution RST ;

Dans ces deux modes, le dispositif de restitution RST est apte à restituer un son avec une qualité donnée (par exemple une qualitéTrueHD).

La illustre un mode dans lequel l’entité de gestion récupère un fichier FCH(P1,…Pn) incluant des données d’accès à différentes pistes audios ayant des qualités audios différentes. La illustre quant à elle un mode dans lequel l’entité de gestion MNG transmet au serveur de contenus des donnes DAT représentatives des capacités de décodage du dispositif de restitution RST à charge pour le serveur SRV de sélectionner les pistes les plus adaptés aux capacités.

A noter que les deux modes peuvent être utilisés alternativement ou cumulativement.

En référence à la , les étapes relatives au premier mode sont les suivantes :

Dans notre exemple, lors d’une première phase préalable, l’entité de gestion MNG récupère une donnée EDID représentative du type de décodeur audio présent dans le dispositif de restitution RST auquel le décodeur est connecté. Dans cet exemple on se limite à un seul dispositif de restitution RST ; cependant, l’invention ne se limite pas à un seul dispositif de restitution mais s’applique au contraire à plusieurs dispositifs de restitution.

La récupération de la donnée EDID peut être réalisée de plusieurs manières en fonction du type de la deuxième liaison utilisée LI2. Dans le cas d’une connexion HDMI, le décodeur STB peut recevoir une donnée EDID (sigle de « Extended Display Identification Data ») représentative du type de dispositif de restitution sous-entendu du type de décodeur audio DEC utilisé. Ensuite, un accès à une base de données BDD stockant des correspondances entre des données EDID et des types de décodeurs permettent de déduire le ou les types de décodeurs audios utilisés respectivement.

Rappelons que, dans le contexte d’une liaison HDMI, la donnée EDID est une métadonnée fournie par un dispositif de restitution lorsque ce dernier fournit ses capacités à un dispositif source auquel il est relié, ici le décodeur STB. En d’autres mots, lorsqu’une télévision, un projecteur, etc.;, se connecte en HDMI à un dispositif source, un EDID est automatiquement transmis par le dispositif de restitution RST et reçu par le dispositif source STB.

Grâce à cette donnée EDID, l’entité de gestion MNG déduit, grâce à la base de données, le type de décodeur audio utilisé à l’aide de la base de données.

Lors d’une deuxième phase, un accès à un contenu audio est demandé par le décodeur STB ; les étapes de cette deuxième phase sont les suivantes :

Lors d’une première étape, le décodeur STB requiert (REQ) un accès à un contenu CNT multimédia.

Lors d’une deuxième étape, le serveur SRV télécharge un fichier FCH(P1,P2,P3) comprenant des données représentatives de pistes audio P1-P3 disponibles pour le contenu demandé. Les données représentatives sont par exemple des adresses Internet permettant un accès aux pistes P1-P3, respectivement. Les adresses Internet identifient les pistes en question sur un réseau. Une telle adresse peut être un identifiant de type URI (sigle Anglo saxon de « Universal Ressource Identifier ») connu de l’homme du métier.

Le décodeur STB ayant connaissance du décodeur audio présent sur le dispositif de restitution RST peut sélectionner, lors d’une troisième étape, une piste audio Pn (n est un entier, n=1-3) adaptée dans le fichier(P1,P2,P3), par exemple la piste P3, et requérir un accès au contenu audio en utilisant l’URL associée à la piste P3 concernée. Dans notre exemple, la piste associée à l’URL est stockée sur le serveur SRV.

Le décodeur audio DEC reçoit ensuite lors d’une quatrième étape, les flux audios de la piste audio sélectionnée et les transmet au dispositif de restitution RST pour y être restitués lors d’une cinquième étape.

On se réfère maintenant à la ; sur cette figure, la première étape est la même que précédemment que celle décrite en référence à la .

Lors d’une deuxième étape, une requête d’accès REQ(DAT) incluant une donnée DAT est transmise par le dispositif de lecture décodeur STB à destination du serveur SRV. La donne DAT est une donnée représentative du type de décodeur audio DEC installé dans le dispositif de restitution TST.

Lors d’une troisième étape, suite à la réception de la donnée DAT, le serveur SRV sélectionne une piste adaptée au décodeur audio DEC installé sur le dispositif de restitution RST.

Le serveur SRV transmet ensuite au dispositif de lecture décodeur STB, lors d’une quatrième étape, le contenu CNT avec une partie audio Pn adaptée au type de décodeur audio DEC installé sur le dispositif de restitution RST.

Lors d’une cinquième étape, le décodeur audio DEC reçoit ensuite les flux audios de la piste audio sélectionnée et les transmet au dispositif de restitution RST pour y être restitués lors d’une cinquième étape.

En variante des deux modes qui précèdent, dans le cas où aucune piste P1 à P3 n’est compatible avec le décodeur audio, le serveur SRV transmet le contenu dans un format de préférence non codé.

Quelques exemples sont décrits ci-dessous, on suppose dans ces exemples que le premier mode de réalisation utilisant un fichier FCH(P1,…,PN) est utilisée.

Dans un premier exemple, le décodeur STB est relié à une télévision RST compatible Stéréo Dolby. Le décodeur récupère une donnée représentative du type de décodeur audio présent dans la télévision RST. Dans cet exemple, le décodeur audio DEC est compatible Stéréo Dolby. Suite à une demande d’accès au contenu transmis par le décodeur STB, le serveur SRV télécharge un fichier FCH(P1,…,P3) comprenant des URLs de pistes audio P1-P3 respectives disponibles pour le contenu demandé. Le décodeur ayant connaissance du décodeur audio présent sur la télévision RST peut sélectionner une piste audio adaptée parmi les pistes P1-P3 disponibles décrites ci-dessus. Le décodeur STB transmet au serveur SRV une demande d’accès à la piste P1 Stéréo Dolby. Le serveur transmet au décodeur STB ensuite la piste P1 demandée à savoir la piste audio Stéréo Dolby ; le décodeur STB transmet ensuite le flux audio à la télévision RST.

Dans un deuxième exemple, le décodeur STB est relié à un home cinéma compatible 5.1 DTS. Le décodeur STB récupère une donnée représentative du type de décodeur audio présent dans le Home cinéma. Dans cet exemple le décodeur audio est compatible 5.1 DTS. Suite à une demande d’accès au contenu transmise par le décodeur STB, le serveur SRV télécharge un fichier FCH(P1,…,P3) comprenant des pistes audio P1-P3 disponibles pour le contenu demandé. Le décodeur STB ayant connaissance du décodeur audio présent dans le Home Cinéma peut sélectionner la piste audio adaptée parmi les pistes P1-P3 disponibles décrites ci-dessus. Le décodeur STB transmet au serveur SRV une demande d’accès à la piste P2 à savoir 5.1 DTS. Le serveur transmet ensuite au décodeur STB la piste 2 à savoir la piste audio 5.1 DTS. Le décodeur STB transmet ensuite le flux audio à la télévision RST.

Selon une variante, la bande passante courante et le débit associé au flux audio sélectionné sont pris en compte lors de la sélection de la piste dans le fichier reçu. Cette variante sera décrite plus en détails dans un deuxième mode de réalisation ci-dessous.

Comme indiqué précédemment, l’invention ne se limite pas à un système comprenant un seul dispositif de restitution RST mais s’étend au système comprenant plusieurs dispositifs de restitution. Par exemple, une télévision peut être reliée à plusieurs enceintes de types différents équipés de décodeurs audio DEC différents.

La façon de prendre en compte des différents types de décodeurs audio va dépendre du mode de réalisation choisi, soit celui qui correspond à la figures 3, soit celui qui correspond à la .

Si le procédé utilisé est celui décrit en référence à la , le décodeur STB identifie les différents types de décodeurs. Ensuite, le décodeur STB ayant connaissance des types de décodeurs audios présents sur les dispositifs de restitution RST peut sélectionner des pistes audios adaptées et requérir un accès aux pistes audios en utilisant les URLs associées aux pistes concernées.

Suite à la réception des flux audio, le décodeur STB redirige les flux Audio vers les dispositifs de restitution en fonction du flux audio reçu et du type de décodeur audio.

Si le procédé utilisé est celui décrit en référence à la , le décodeur STB identifie les différents types de décodeurs. Ensuite, le décodeur STB transmet au serveur SRV des données DAT1-DATn représentatives des différents types de décodeurs audios identifiés.

Le serveur SRV reçoit ensuite la requête incluant les données DAT et transmet des URL de pistes audios associés aux différents types de décodeurs audio.

Suite à la réception des flux audio, le décodeur STB redirige les flux Audio reçus vers les dispositifs de restitution en fonction du flux audio reçu et du type de décodeur audio.

Un troisième mode de réalisation va être décrit en référence à la , ce troisième mode peut être utilisé cumulativement ou alternativement avec les deux premiers modes. Dans ce troisième mode, le contenu est un contenu audio/vidéo et la partie vidéo est un contenu diffusé en mode de streaming adaptatif.

Dans ce mode, deux contenus, l’un vidéo l’autre audio, vont être téléchargés et chaque contenu requiert une sélection d’une qualité donnée.

Classiquement, comme on le verra en référence à la , dans le mode de streaming adaptatif, différentes qualités peuvent être encodées pour le même contenu d’une chaîne de télévision, correspondant par exemple à différents débits d’encodage. Plus généralement, on parlera de qualité pour se référer à une certaine résolution du contenu numérique (résolution spatiale, temporelle, niveau de qualité associée à la compression vidéo et/ou audio) avec un certain débit d’encodage. Chaque niveau de qualité est lui-même découpé sur le serveur de contenus en segments temporels (ou « segments » de contenu, en anglais « chuncks », ces trois mots étant utilisés indifféremment dans l’ensemble de ce document).

La description de ces différentes qualités et de la segmentation temporelle associée, ainsi que les segments de contenu, est accessible par le terminal de lecture STB et mis à sa disposition via leurs adresses Internet. Les adresses Internet identifient des segments sur un réseau. Une telle adresse peut être un identifiant de type URI (sigle Anglo saxon de « Universal Ressource Identifier ») connu de l’homme du métier. L’ensemble de ces paramètres (qualités, adresses des segments, etc.) est en général regroupé dans un fichier de paramètres, dit fichier de description ou « manifeste MNF ». On notera que ce fichier de paramètres peut être un fichier informatique ou un ensemble d’informations descriptives du contenu, accessible à une certaine adresse.

Dans un contexte de téléchargement adaptatif progressif, le terminal STB peut adapter ses requêtes pour recevoir et décoder le contenu demandé par l’utilisateur à la qualité qui lui correspond au mieux. Par exemple, en considérant un contenu disponible aux trois qualités suivantes 416 kb/s (kilobits par seconde), 680 kb/s (N2), et 1200 kb/s (N3) et en supposant que le terminal de lecture STB dispose d’une bande passante de 5000 kb/s, dans cette configuration, le terminal de lecture DEC peut demander le contenu à n’importe quel débit inférieur à cette limite, par exemple 1200 kb/s.

De manière générale, en référence à la , on note « Ci@Nj » le contenu numéro i avec la qualité Nj (par exemple le j-ième niveau Nj de qualité décrit dans le fichier de description).

Le nombre de débits d’encodage disponibles par segment varie selon le terminal de lecture utilité. Sur la , par exemple un contenu principal C1 comprend cinq débits d’encodage disponibles N1-N5.

Dans notre exemple, le système comprend en outre un encodeur et un générateur de manifeste. L’encodeur et le générateur ne sont pas représentés sur les figures car sans intérêt pour l’exposé de l’invention.

L’encodeur a pour rôle d’encoder un contenu numérique afin d’obtenir plusieurs segments et plusieurs représentations pour chaque segment.

Le contenu encodé est transmis au générateur de manifeste qui génère des adresses URI pour chaque segment créé.

Dans l’exemple illustré, l’encodeur et le générateur de manifeste sont localisés dans le serveur SRV qui peut être un fournisseur de contenus référencé.

Dans notre exemple, le terminal de lecture STB peut entrer en communication avec le serveur de contenus SRV pour recevoir un ou plusieurs contenus (films, documentaires, séquences publicitaires, etc.).

Dans notre exemple, pour visualiser un contenu, le terminal STB obtient une adresse du fichier de description MNF d’un contenu principal (par exemple, C1) souhaité. Dans la suite, on supposera que ce fichier est un fichier de type manifeste selon la norme MPEG-DASH et on se réfèrera indifféremment, selon le contexte, à l’expression « fichier de description » ou « manifeste».

Une fois que le terminal de lecture DEC dispose des adresses de segments correspondant au contenu souhaité, le terminal décodeur STB procède à l’obtention des segments via un téléchargement à ces adresses. On notera que ce téléchargement s’opère ici, traditionnellement, au travers d’une URL HTTP, mais pourrait également s’opérer au travers d’une adresse universelle (URI) décrivant un autre protocole (dvb://monsegmentdecontenu par exemple).

Lorsque le décodeur DEC reçoit les segments, les segments sont ensuite restitués sur l’écran du dispositif de restitution RST.

Au choix des représentations des segments pour la partie vidéo s’ajoute le choix des pistes audio accessibles associées elles-aussi avec des qualités respectives.

Le choix de la représentation choisie pour un segment et le choix d’une qualité choisie pour la partie audio doivent être effectués judicieusement de manière à assurer une qualité de restitution à la fois vidéo et audio. En effet, les qualités sélectionnées au fil du temps, pour la partie vidéo et pour la partie audio, auront inévitablement un effet sur la bande passante sur la liaison LI1.

Selon une première variante, une représentation d’un segment est sélectionnée pour la partie vidéo de la façon expliquée ci-dessus. Un calcul de bande passante restante sur la liaison LI1 est réalisé, celle-ci prenant en compte le débit du segment vidéo sélectionné pour le téléchargement et éventuellement d’autres flux n’ayant aucun rapport avec le contenu vidéo. Suite au choix, une piste est sélectionnée en fonction du débit (kbps/s) du flux audio et de la bande passante restante. Plus précisément, le débit du flux audio choisit est inférieur à la bande passante restante.

Selon une deuxième variante, la qualité audio peut être privilégiée. Dans ce cas, contrairement à la première variante, un calcul de bande passante restante sur la liaison LI1 est effectué, celle-ci prenant en compte le débit maximum de la piste offrant une qualité maximale. Suite au choix, une représentation de segment est sélectionnée en fonction de la bande passante restante prenant en compte le débit du flux audio sélectionné.

Selon une troisième variante, une priorité entre une qualité vidéo ou audio est définie au préalable. Cette étape préalable permet par exemple à un utilisateur de définir une préférence d’une qualité audio au détriment d’une qualité vidéo, ou l’inverse. Supposons par exemple que la qualité audio soit privilégiée par rapport à une qualité vidéo ;ce cas peut se présenter pour un type de contenus en particulier ; par exemple si le contenu est un concert, le mode audio peut être privilégié au détriment de la partie vidéo. Dans ce cas, si la bande passante disponible est suffisante, la qualité audio maximale P3 est sélectionnée. Le module HAS en charge de sélectionner une qualité de représentation pour le segment futur réduit la qualité sélectionnée en soustrayant la qualité choisie du segment sélectionné par le module HAS par le débit de la piste audio sélectionnée P3.

Il résulte de la soustraction un débit donné. Le module HAS sélectionne dans la liste des débits disponibles pour le segment vidéo un débit directement inférieur au début calculé résultat de la soustraction.

Le mode ci-dessus n’est qu’un exemple. On comprend bien que la priorité aurait pu être donnée aux segments de la partie vidéo plutôt que qu’aux pistes audios. Dans cette configuration, la qualité audio choisie est une qualité choisie parmi les plus basse. Dans notre exemple, la qualité audio choisie est la qualité minimale correspondant à la piste P1.

Précisons enfin ici que l’entité de gestion MNG comprend pour la mise en œuvre de l’invention

Signalons enfin ici que, dans le présent texte, le terme « module » ou « entité » peut correspondre aussi bien à un composant logiciel qu’à un composant matériel ou un ensemble de composants matériels et logiciels, un composant logiciel correspondant lui-même à un ou plusieurs programmes ou sous-programmes d’ordinateur ou de manière plus générale à tout élément d’un programme apte à mettre en œuvre une fonction ou un ensemble de fonctions telles que décrites pour les modules concernés. De la même manière, un composant matériel correspond à tout élément d’un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions pour le module concerné (circuit intégré, carte à puce, carte à mémoire, etc.).

Claims

Procédé de gestion, par une entité de gestion, de la restitution audio d’un contenu audio sur un dispositif de restitution (RST) connecté à un dispositif récepteur (STB) apte à recevoir des contenus depuis un serveur de contenus (SRV), caractérisé en ce qu’à un contenu audio correspond plusieurs pistes audios sélectionnables, l’entité de gestion réalisant les étapes suivantes :
Une étape d’obtention (EDID) des capacités de décodage audio du dispositif de restitution ;
Une étape de demande d’accès (REQ,REQ(DAT)) à un contenu multimédia à destination du serveur de contenus ;
Une étape de réception d’un flux audio (CNT-Pn) adapté aux capacités de décodage audio et de transmission du flux audio au dispositif de restitution (RST).
Procédé de gestion selon la revendication 1, caractérisé en ce que la demande d’accès est suivie d’une étape de réception d’un fichier incluant au moins une donnée d’accès à une piste audio sélectionnable, d’une sélection d’au moins une piste adaptée aux capacités et d’une demande d’accès à ladite au moins une piste audio sélectionnée.
Procédé de gestion selon la revendication 1, caractérisé en ce que la demande d’accès inclut une donnée (DAT) représentative d’une capacité de décodage audio du dispositif de restitution.
Procédé de gestion selon la revendication 4, caractérisé en ce que lorsque plusieurs dispositifs de restitution sont connectés au dispositif récepteur, les dispositifs de restitution ayant des capacités de décodage respectives, la donnée (DAT) inclut tout ou partie des capacités obtenues lors de l’étape d’obtention.
Procédé de gestion selon la revendication 1, caractérisé en ce que le contenu inclut une partie vidéo et une partie audio, en ce que le contenu vidéo est reçu sous forme de segments vidéo disponibles selon plusieurs représentations possibles, en ce que la piste audio sélectionnée varie dans le temps en fonction de la représentation choisie pour la partie vidéo.
Procédé de gestion selon la revendication 1, caractérisé en ce qu’une priorité est définie au préalable de manière à privilégier une qualité de la partie audio plutôt que la partie vidéo, ou inversement, et en ce que la qualité choisie de la partie prioritaire est la qualité maximale possible.
Procédé de gestion selon la revendication 6, caractérisé en ce qu’une bande passante varie sur la liaison reliant le terminal de lecture et le serveur, et en que la qualité maximale possible est dépendante de la bande passante disponible entre le terminal de lecture (STB) et le serveur (SRV).
Entité de gestion (MNG) de la restitution audio d’un contenu audio sur un dispositif de restitution connecté à un dispositif récepteur apte à recevoir des contenus depuis un serveur de contenus, caractérisé en ce qu’à un contenu audio correspond plusieurs pistes audios sélectionnables, l’entité de gestion comprenant :
Un module d’obtention apte à obtenir des capacités de décodage audio du dispositif de restitution ;
Un module de demande d’accès apte à demander un accès à un contenu multimédia à destination du serveur de contenus ;
Un module de réception apte à recevoir un flux audio adapté aux capacités de décodage audio et de transmission du flux audio au dispositif de restitution.
Dispositif (STB) caractérisé en ce qu’il comprend une entité de gestion (MNG) telle que définie dans la revendication 8.
Programme d’ordinateur apte à être mis en œuvre dans une entité de gestion tel que définie dans la revendication 8, ledit programme comprenant des instructions de code qui, lorsque le programme est exécuté réalise l’étape définie dans la revendication 1.
Support d'enregistrement lisible par un processeur de données sur lequel est enregistré un programme comprenant des instructions de code de programme pour l'exécution des étapes du procédé défini dans l’une des revendications 1 à 7.