FR3093607A1

FR3093607A1 - Procédé de restitution d’un contenu audiovisuel

Info

Publication number: FR3093607A1
Application number: FR1902390A
Authority: FR
Inventors: Mathieu Rivoalen; Hervé MARCHAND
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-11
Also published as: WO2020183079A1

Abstract

La présente invention concerne un procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en œuvre par un module de traitement de données (11) d’un équipement (1) d’étapes de Restitution sur un périphérique principal (2) connecté audit équipement (1) desdits flux vidéo et premier flux audio ; Détection d’une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) ; Mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue. Figure pour l’abrégé : Fig. 1

Description

Procédé de de restitution d’un contenu audiovisuel

DOMAINE TECHNIQUE GENERAL

La présente invention concerne le domaine de la consommation de contenus audiovisuels.

Plus précisément, elle concerne un procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue.

ETAT DE L’ART

De nombreux contenus audiovisuels (films, séries, émissions, événements, etc.) sont proposés de manière « multilingue », c’est-à-dire avec plusieurs flux audio (on parle aussi de « pistes » audio) correspondant à plusieurs langues.

Généralement, au lancement de la lecture, le contenu est dans une langue par défaut, dite « version originale » (VO), et l’utilisateur a la possibilité de modifier la langue (i.e. de sélection d’un autre flux audio) soit au moyen d’un menu dédié, en naviguant avec la télécommande, soit pour des équipements et des lecteurs plus récents, au moyen d’un contrôle vocal en demandant directement le changement de langue.

Un problème se pose si l’auditoire est un groupe international, et souhaite donc plusieurs langues. Aujourd’hui, la solution classique est de rajouter un sous-titrage dans une deuxième langue (à nouveau au moyen d’un menu dédié, en naviguant avec la télécommande). Sinon les utilisateurs choisissent une langue qui plait à tout le monde, par exemple en anglais.

Dans tous les cas, cela ne satisfait jamais vraiment l’auditoire, et reste complexe en termes de manipulations.

Il serait par conséquent souhaitable de disposer d’une nouvelle solution de gestion des langues lors de la restitution d’un contenu audiovisuel qui soit plus simple, plus efficace, et plus agréable pour les utilisateurs.

La présente invention se rapporte ainsi selon un premier aspect à un procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en œuvre par un module de traitement de données d’un équipement d’étapes de

Restitution sur un périphérique principal connecté audit équipement desdits flux vidéo et premier flux audio ;
Détection d’une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal ;
Mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.

L’idée de choisir et mettre en œuvre une action de restitution sur la base d’une langue détectée d’un utilisateur permet automatiquement d’adapter la restitution à l’auditoire, et donc d’éviter toute manipulation fastidieuse.

Selon des caractéristiques avantageuses et non-limitatives :

un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire apte à restituer un flux audio est connecté audit équipement, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (une telle action de restitution offre un confort maximal pour les utilisateurs car elle permet de restituer deux flux audio dans deux langues différentes, toujours sans la moindre manipulation) ;
une pluralité de périphérique auxiliaires est connecté audit équipement, une action de restitution dudit deuxième flux audio sur un périphérique auxiliaire de ladite pluralité étant choisie à l’étape (c) en fonction d’au moins un paramètre associé à chaque périphérique auxiliaire (ainsi il est possible de restituer plus de deux flux audio toujours avec le même niveau de confort, toujours sans la moindre manipulation supplémentaire) ;
l’étape (c) comprend le signalement du périphérique auxiliaire de l’action de restitution dudit deuxième flux audio choisie (une telle opération permet à l’utilisateur de savoir immédiatement comment le flux audio dans sa langue va lui être restitué, et de ne pas avoir à chercher) ;
un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo (un tel sous-titrage permet à un utilisateur supplémentaire d’avoir une restitution dans sa langue même s’il n’y a pas ou plus de périphériques auxiliaire, toujours sans la moindre manipulation supplémentaire) ;
un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution du deuxième flux audio sur le périphérique principal au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo (cette action permet de gérer toutes les combinaisons de langues de flux audio et/ou sous-titrage, et de garantir que le nombre maximum d’utilisateurs bénéficie d’une restitution dans sa langue, toujours sans la moindre manipulation supplémentaire) ;
l’action de restitution choisie à l’étape (c) est une action comprenant l’ajout d’un sous-titrage au flux vidéo si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire (une telle hiérarchie des actions de restitution est celle qui maximise le confort de l’ensemble de l’auditoire) ;
l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (cela permet directement de lancer la restitution dans une langue adaptée à l’auditoire, avec encore moins de manipulations au lancement) ;
la détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal comprend l’acquisition par un module d’acquisition sonore d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée (il s’agit d’une solution très efficace et complètement automatique de détection des langues : les utilisateurs n’ont rien à faire) ;
ledit module d’acquisition sonore est celui d’un périphérique de contrôle vocal connecté à l’équipement et comprenant en outre un haut-parleur, le signalement du périphérique auxiliaire de l’action de restitution dudit deuxième flux audio choisie étant mis en œuvre au moyen dudit haut-parleur (de tels périphériques de type enceinte connectée sont très répandus, et permettent très facilement de gérer de façon autonome les fonctionnalités de détection de langue et de feed-back (signalement d’action)) ;
ladite parole est une commande vocale (cela permet en même temps de détecter la langue et de commander la restitution, de sorte que les manipulations nécessaires sont encore réduites) ;
ladite commande vocale désigne un périphérique auxiliaire de ladite pluralité, l’action de restitution choisie à l’étape (c) étant l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire désigné (ainsi on peut encore dans une même commande choisir quel périphérique auxiliaire utiliser, de sorte que les manipulations sont minimales).

Selon un deuxième aspect, l’invention concerne un équipement informatique comprenant un module de traitement de données et connecté à un périphérique principal, caractérisé en ce que le module de traitement de données est configuré pour :

Commander la restitution sur ledit périphérique principal d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;
Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal ;
Commander la mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue

Selon un troisième et un quatrième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon le premier aspect de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue.

D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence à :

annexée qui est un schéma d’une architecture générale de réseau pour la mise en œuvre de l’invention.

Architecture

En référence à lafigure 1, l’invention propose un procédé de restitution d’un contenu audiovisuel, mis en œuvre par un équipement 1.

Dans un souci de clarté, dans la suite de la présente description on distinguera « vidéo » et « audio ». Par vidéo, on entend seulement un contenu visuel, en d’autres termes « l’image animée » sans le son. Par audio, on entend seulement un contenu sonore, sans vidéo. Ainsi, par « contenu audiovisuel », il est désigné un contenu présentant à la fois une composante vidéo et une composante audio, i.e. un média AV. Un contenu audiovisuel est souvent appelé de manière inappropriée une vidéo, bien qu’ayant une composante audio.

On suppose que ledit contenu audiovisuel dont la restitution est mise en œuvre est fourni par l’équipement 1. On comprend que le contenu peut être directement stocké par l’équipement 1 (si ce dernier est par exemple un ordinateur ou un terminal mobile), lu d’un moyen de stockage tel qu’un DVD, ou fourni à la volée si l’équipement 1 est connecté à un réseau 20 tel qu’Internet et reçu en streaming (lecture en continu). Dans ce dernier cas, l’équipement 1 est typiquement une passerelle d’un fournisseur d’accès à Internet ou un décodeur, en particulier de type Set-Top box (boitier multimédia), mais également une télévision connectée, un media center, une console de jeux, etc. Le contenu pourra par exemple être fourni dans le cadre d’un service de télévision en ligne, de replay, de vidéo à la demande (VOD), etc.

Au moins un flux vidéo et un premier flux audio associé à une première langue sont disponibles pour ledit contenu. Lesdits flux sont les composantes évoquées ci-avant, et peuvent être de différentes natures selon le format du contenu et sa façon d’être mis à disposition. Le terme « flux » se rencontre principalement dans le cas du streaming, mais est clair pour l’homme du métier dans tous les cas (on trouver également le mot « piste » par exemple pour un DVD).

De manière préférée une pluralité de flux audio associés à diverses langues sont disponibles pour ledit contenu, alors dit multilingue. Dans la suite de la description on désignera seulement un deuxième flux audio associé à une deuxième langue et un troisième flux audio associé à une troisième langue, mais il pourra y en avoir davantage. A noter que pour une même langue il peut y avoir plusieurs flux audios (par exemple plusieurs premiers flux audio associés à la première langue), correspondant à divers niveaux de qualité (par exemple nombre de canaux indépendants, taux de compression, etc.). Similairement il peut y avoir plusieurs flux vidéo correspondant à divers niveaux de qualité (par exemple résolution, nombre d’image par seconde, etc.).

Comme l’on verra il peut y avoir également disponibles un ou plusieurs sous-titrages eux-même chacun associés à une langue. A noter qu’il y a généralement plus de langues pour lesquelles un sous-titrage est disponible que de langues pour lesquelles un flux audio est disponible. Les sous-titrages prennent généralement la forme d’un contenu graphique ou textuel pouvant être superposé (de manière synchronisée) au flux vidéo.

L’équipement informatique 1 peut être de n’importe quel type, en particulier un terminal mobile de type smartphone ou tablette tactile, mais également un ordinateur personnel, un boitier d’accès à internet, une passerelle, un décodeur, etc. Il comprend un module de traitement de données 11 (un processeur) et avantageusement un module de stockage de données 12 (une mémoire).

Au moins un périphérique principal 2 est connecté audit équipement 1. Par périphérique principal, on entend un équipement capable de restituer entièrement contenu audiovisuel, c’est-à-dire de restituer aussi bien un flux vidéo qu’un flux audio. En d’autres termes, le périphérique principal 2 comprend une sortie vidéo et une sortie audio, c’est typiquement une télévision ou un ordinateur. On note qu’il peut tout à fait être confondu avec l’équipement 1, par exemple dans le cas d’un ordinateur personnel ou d’une télévision connectée.

A noter que par « périphérique principal », on peut entendre un ensemble de périphériques interconnectés, par exemple un vidéoprojecteur avec une série d’enceintes connectées sur la sortie audio, on une télévision avec un casque audio. Il suffit que le périphérique soit apte à recevoir un flux audio et un flux vidéo et les restituer tous les deux d’une manière ou d’une autre.

De manière avantageuse, au moins un périphérique auxiliaire 3a, 3b apte à restituer un flux audio est également connecté audit équipement 1. Dans l’exemple de la figure 1 il y a deux périphérique auxiliaires 3a, 3b.

Préférentiellement, chaque périphérique auxiliaire 3a, 3b n’est apte que à restituer un flux audio, c’est-à-dire pas apte à restituer un flux vidéo. Il s’agit typiquement de périphériques « personnels » c’est-à-dire ne restituant un flux audio que pour une personne sans gêner les autres, i.e. des casques audio, des écouteurs, des oreillettes, etc. On comprendra néanmoins qu’il pourrait s’agir de n’importe quel autre périphérique audio tel qu’une enceinte portable.

Enfin, le système peut comprendre un module d’acquisition sonore 40, soit intégré à l’équipement 1, au périphérique principale 2 ou un périphérique auxiliaire 3a, 3b, soit d’un périphérique de contrôle vocal 4 connecté à l’équipement 1. Par périphérique de contrôle vocal, on entend un équipement dédié à la reconnaissance de commandes vocales, prenant typiquement la forme d’une enceinte connectée mettant en œuvre un assistant virtuel (on citera par exemple l’enceinte Djingo de la Demanderesse) ou encore d’une télécommande micro. A ce titre, le périphérique de contrôle vocal 4 peut comprendre son propre haut-parleur 41. A noter que le périphérique 4 peut être confondu avec un périphérique auxiliaire 3a, 3b, si par exemple c’est un casque avec micro.

En ce qui concerne les connexions, chaque périphérique 2, 3a, 3b, 4 peut être connecté à l’équipement 1 directement ou indirectement (par exemple en étant dans le même réseau local), filairement ou sans-fil.

Par exemple, si l’équipement 1 est un décodeur de type Set-Top box connecté au réseau internet via une passerelle, le périphérique principal 2 peut être une télévision connectée en HDMI au décodeur, un premier périphérique auxiliaire 3a un casque connecté sur une prise casque du décodeur, un deuxième périphérique auxiliaire 3b des écouteurs connectés en Bluetooth au décodeur, et le périphérique de contrôlé vocal 4 une enceinte connectée utilisant une connexion Wi-Fi au réseau local généré par la passerelle.

Tous les périphériques 2, 3a, 3b, 4 sont naturellement déposés au voisinage les uns des autres (i.e. dans la même pièce), car on suppose que le contenu audiovisuel va être restitué pour un auditoire d’utilisateurs assemblés U1, U2. On note qu’il est par contre possible que l’équipement 1 soit éloigné.

Procédé

Le présent procédé, mis en œuvre par le module de traitement de données 11 de l’équipement 1, commence par une étape (a) de restitution sur le périphérique principal 2 desdits flux vidéo et premier flux audio (disponibles pour le contenu audiovisuel). Plus précisément, l’équipement 1 commande cette restitution, notamment en fournissant les flux au périphérique principal 2, de manière classique.

A noter que la première langue peut être une langue par défaut (le français pour des équipements français), ou une langue originale du contenu audiovisuel (« VO »). Alternativement et de manière préférée, l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2.

La détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 peut comprendre l’acquisition par le module d’acquisition sonore 40 d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée. Alternativement, un ou plusieurs utilisateurs peuvent simplement renseigner les langues qu’ils parlent préalablement sur une interface de l’équipement 1 (alors la première est sélectionnée aléatoirement ou par ordre de renseignement).

Dans le cas d’une acquisition sonore, celle-ci peut être en permanence, à intervalles réguliers, ou préférentiellement basée sur des commandes vocales, i.e. ladite parole est une commande vocale. Ceci est particulièrement adapté dans le cas d’un périphérique de contrôle vocal 4.

Par exemple l’utilisateur dit seulement « Ok Djingo, je veux voir le film Django », et le périphérique de contrôle vocal 4 détecte à la fois une commande vocale de restitution du film Django Unchained et la langue française, et donc lance à l’étape (a) la restitution de ce film en français (i.e. la première langue est le français). Similairement, s’il avait dit « Ok Djingo, please play Django », le périphérique de contrôle vocal 4 aurait détecté la même commande vocale mais la langue anglaise, et donc aurait lancé à l’étape (a) la restitution de ce même film en anglais (i.e. la première langue est l’anglais). On note que « Ok Djingo » est ici ce que l’on appelle une requête d’invocation de commande vocale, ou « wake-up word » : le périphérique de contrôle vocal 4 sait qu’une commande vocale suit cette expression, donc il n’a pas besoin de chercher à analyser chaque parole.

Dans une étape (b), une deuxième langue (autre que la première langue) parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 est détectée (alors que la restitution dans la première langue est en cours). Typiquement, dans l’auditoire un deuxième utilisateur se met à parler dans la deuxième langue.

Si plusieurs langues ont été directement renseignées avant le lancement, on suppose qu’on est en présence d’une détection d’une deuxième langue (comme expliqué, typiquement la deuxième renseignée)

Sinon, similairement à ce qui possible durant l’étape (a), la détection de la deuxième langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 peut encore comprendre l’acquisition par le module d’acquisition sonore 40 d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée, ou un ou plusieurs utilisateurs peuvent simplement renseigner les langues qu’ils parlent préalablement sur une interface de l’équipement 1.

Par exemple (en supposant qu’on a une restitution en cours en français) le deuxième utilisateur dit seulement « Ok Djingo, I do not understand this language, help me », et le périphérique de contrôle vocal 4 détecte à la fois une commande vocale de requête de nouvelle langue (on verra plus de détails à ce sujet là-dessus plus loin) et la langue anglaise, et donc comprend qu’on est en présence d’un auditoire multilingue au moins français-anglais (i.e. la deuxième langue est l’anglais).

Alors, de façon innovante, dans une étape (c) est mise en œuvre une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue, ce qui va permettre au l’utilisateur s’exprimant dans la deuxième langue de suivre le contenu audiovisuel, sans qu’il ait fait la moindre sélection de menu ou autre : tout se fait automatiquement.

Comme l’on verra, les étapes (b) et (c) peuvent être répétées : en cas de détection subséquente d’une troisième langue autre que les première et deuxième langues parlée par au moins un utilisateur au voisinage dudit périphérique principal 2, est mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite troisième langue, et ainsi de suite. L’homme du métier saura transposer la suite de la description au cas d’une troisième langue, quatrième langue, etc.

Ensemble d’actions de restitution possibles associées à ladite deuxième langue

Par action de restitution on entend une ou plusieurs tâches élémentaires (éventuellement en combinaison) correspondant à des lancement ou interruption de restitution de flux et/ou sous-titrage.

Ledit ensemble contient plusieurs actions possibles en fonction des flux audio, des sous-titres disponibles, ainsi que des éventuels périphériques auxiliaires 3a, 3b disponibles.

Ainsi, tout ou partie des actions suivantes peuvent être dans la liste :

si un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire 3a, 3b apte à restituer un flux audio est connecté audit équipement 1, une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b (s’il y a une pluralité de périphérique auxiliaires 3a, 3b connectés audit équipement 1, il y a préférentiellement pour chaque périphérique auxiliaire 3a, 3b une action possible de restitution dudit deuxième flux sur ce périphérique auxiliaire 3a, 3b) ;
si un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel (et si aucun sous-titrage n’est en cours), une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo ;
si un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, une action de restitution du deuxième flux audio sur le périphérique principal 2 au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo.

Le cas 1. correspond au cas préféré, dans lequel aussi bien la première langue et la deuxième langue disposent d’un flux audio (par exemple anglais et français), et au moins un périphérique auxiliaire 3a, 3b est utilisable. La mise en œuvre de cette action consiste à continuer de restituer sur le périphérique principal 2 le flux audio dans la première langue, tout en initiant la restitution du deuxième flux audio sur ledit périphérique auxiliaire 3a, 3b. Ainsi, deux utilisateurs de deux langues différentes peuvent regarder simultanément le contenu audiovisuel, chacun dans leur langue (l’utilisateur parlant la deuxième langue n’a qu’à s’équiper du périphérique auxiliaire 3a – typiquement un casque – pour accéder au deuxième flux audio sans déranger l’utilisateur parlant la première langue).

Si au moins une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b est dans la liste, celle-ci est préférentiellement choisie car c’est la plus ergonomique.

S’il y a éventuellement plusieurs actions de ce type (car il y a plusieurs périphérique auxiliaire 3a, 3b utilisables), l’étape (c) comprend le choix entre ces actions (i.e. entre ces périphériques auxiliaires 3a, 3b). Pour cela, au moins un paramètre peut être associé à chacun des périphériques auxiliaires 3a, 3b, comme un ordre, un critère sur la qualité du flux audio, une habitude des utilisateurs, etc., le choix était fait sur la base d’une règle et des valeurs dudit paramètre.

En particulier, le paramètre peut être un nom ou une propriété du périphérique auxiliaire 3a, 3b et dans un cas de reconnaissance d’une commande vocale à l’étape (c), celle-ci peut désigner un périphérique auxiliaire 3a, 3b de ladite pluralité (sur la base dudit nom/propriété), et alors l’action de restitution choisie à l’étape (c) est l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b désigné.

Par exemple, dans le cas où on a deux périphérique auxiliaires 3a, 3b dont un casque filaire Bose et des écouteurs Bluetooth, si l’utilisateur dit la commande vocale « Ok Djingo, I do not understand this language, I want to use the Bose headset », alors sur la base du paramètre « Bose » associé au premier périphérique 3a, ce dernier sera celui désigné.

A noter qu’en l’absence de paramètre, du moins de paramètres concluant pour faire un choix (si par exemple les deux flux audio ont la même qualité, et que l’utilisateur ne nomme pas de périphérique auxiliaire), le choix pourra être aléatoire ou arbitraire. Un apprentissage peut d’ailleurs automatique se faire.

De façon pratique, l’équipement 1 peut stocker sur la mémoire 12 une base de données des périphériques auxiliaires 3a, 3b connus, de leur état (utilisable, déjà utilisé, non-connecté) et des valeurs associées des paramètres.

Le cas 2. correspond à l’existence d’un sous-titrage en la deuxième langue, généralement choisie faute de mieux, i.e. si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire 3a, 3b.

Cela signifie en pratique que soit il n’y a pas de deuxième flux audio associé à ladite deuxième langue disponible pour ledit contenu audiovisuel (typiquement, la deuxième langue est une langue plus rare que le français ou l’anglais, pour laquelle il n’y a pas eu de doublage), ou s’il n’y a pas (ou plus) de périphérique auxiliaire 3a, 3b apte à restituer un flux audio connecté audit équipement 1 (par exemple, si un unique périphérique auxiliaire est déjà utilisé par un utilisateur parlant une deuxième langue, un utilisateur parlant une troisième langue pourra être contraint de recourir au sous-titrage, selon un principe de « premier arrivé premier servi »).

La mise en œuvre d’une telle action est l’ajout du sous-titrage, i.e. le flux vidéo est restitué avec les sous-titres incrustés, aucune action n’est mise en œuvre en ce qui concerne les flux audio.

Le cas 3. est un cas plus rare qui pourrait se poser dans le cas où il faudrait ajouter des sous-titres pour la deuxième langue faute de périphérique auxiliaire disponible, mais où il n’y aurait que un flux audio disponible dans cette langue.

Ainsi, la mise en œuvre de cette action consiste à permuter les première et deuxième langues : pour la première langue on passe au sous-titrage, et pour la deuxième langue on utilise le flux audio (i.e. on restitue le deuxième flux en lieu et place du premier flux), de sorte que chaque utilisateur puisse bénéficier quand même d’une restitution dans sa langue.

A nouveau une telle action est choisie faute de mieux.

A noter qu’il est possible que la liste soit vide, i.e. qu’il n’y ait aucune action possible, en particulier si un grand nombre de langues parlées est détecté : en effet, le nombre de langues restituables au maximum est égal au nombre de périphériques auxiliaires + 2 (i.e. un flux audio et un sous-titrage sur le périphérique principal 2). La liste peut également être vide si la langue détectée est trop rare et qu’il n’y a ni flux audio ni sous-titrage correspond disponible.

En cas de liste vide soit rien n’est fait à l’étape (c), faute d’options, mais alternativement, une action par défaut peut être mise en œuvre pour que tout le monde puisse quand même suivre, par exemple un sous-titrage en anglais ou la restitution sur le périphérique principal 2 du flux audio dans la langue originale. Il reste possible de devoir annuler une action précédente pour ça (par exemple un sous-titrage dans une langue plus rare).

Avantageusement, l’étape (c) comprend le signalement de l’action choisie et mise en œuvre, et en particulier, si c’est une action de restitution d’un flux audio sur un périphérique auxiliaire 3a, 3b, le signalement de ce périphérique auxiliaire 3a, 3b.

Ce signalement peut être sonore, éventuellement dans la langue détectée, par exemple dans l’exemple précédent le périphérique principal 2 (ou un autre équipement quelconque) prononce « English track now played on the Bose headset ». De manière préférée, en cas de périphérique de contrôle vocal 4 comprenant un haut-parleur 41, le signalement est mis en œuvre au moyen de ce haut-parleur 41, ce qui évite d’interrompre le flux audio restitué sur un périphérique principal ou auxiliaire.

Exemple plus détaillé

Supposons la situation suivante : l’équipement 1 est un décodeur de type Set-Top box, le périphérique principal 2 est une télévision, on a un unique périphérique auxiliaire 3a (un casque connecté filairement), et on a un périphérique de contrôlé vocal 4 de type une enceinte connectée Djingo (avec moyens d’acquisition sonore 40 et un haut-parleur 41). Quatre utilisateurs parlent respectivement en français, espagnol, italien, et portugais et pour le film Django on dispose de flux audio en anglais (VO), français, espagnol et portugais, et de sous-titrage dans de nombreuses langues.

(a) le premier utilisateur dit « Ok Djingo, je veux voir le film Django », le français est détecté comme la première langue, et la restitution avec un flux audio en français est lancée sur la télévision ;
(b) le deuxième utilisateur dit « Ok Djingo, quiero ver esta pellicula pero no la comprendo », l’espagnol est détecté comme la seconde langue, et les actions de restitution possibles suivantes sont identifiées :
- Restitution d’un flux audio en espagnol sur le casque, et
- Ajout d’un sous-titrage en en espagnol ;
(c) La première action est choisie (car préférentielle) et les utilisateurs sont informés par l’enceinte connectée que le flux audio en espagnol va être restitué sur le casque ;
(b’) Le troisième utilisateur dit « Ok Djingo, nemmeno io capisco », l’italien est détecté comme troisième langue, et l’unique action de restitution possibles suivante est identifiée : ajout d’un sous-titrage en italien. En effet, il n’y a pas de flux audio en italien disponible
(c’) Cette action est choisie (il n’y a pas d’autre choix) et les utilisateurs sont informés par l’enceinte connectée que des sous-titres en italien vont être ajoutés au flux vidéo ;
(b’’) Le quatrième utilisateur dit « Ok Djingo, Eu falo portugues », le portugais est détecté comme quatrième langue, et aucune action de restitution possible n’est identifiée : il y a un flux audio en portugais mais pas de périphérique auxiliaire disponible, et il y a déjà des sous-titres en italien
(c’’) Une action par défaut est choisie, en l’espèce ajouter un sous-titrage en anglais (i.e. à la place du sous-titrage en italien) et les utilisateurs sont informés par l’enceinte connectée que des sous-titres en anglais vont être ajoutés au flux vidéo.

Serveur de sécurité et équipement informatique

Selon un deuxième aspect, l’invention concerne l’équipement informatique 1 pour la mise en œuvre du procédé selon le premier aspect.

Comme expliqué, cet équipement informatique 1 comprend un module de traitement de données 11 et peut en outre comprendre un module de stockage de données 12, etc., et est connecté au moins à un périphérique principal 2, et éventuellement à au moins un périphérique auxiliaire 3a, 3b et/ou un périphérique de contrôle vocal 4.

Le module de traitement de données 11 est ainsi configuré pour :

Commander la restitution sur ledit périphérique principal 2 d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;
Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 ;
Commander la mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.

Produit programme d’ordinateur

Selon un troisième et un quatrième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur le module de traitement de données 11 de l’équipement informatique 1) d’un procédé selon le premier aspect de l’invention de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, ainsi que des moyens de stockage lisibles par un équipement informatique (le module de stockage de données 12 de l’équipement informatique 1) sur lequel on trouve ce produit programme d’ordinateur.

Claims

Procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en œuvre par un module de traitement de données (11) d’un équipement (1) d’étapes de
Restitution sur un périphérique principal (2) connecté audit équipement (1) desdits flux vidéo et premier flux audio ;

Détection d’une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) ;

Mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.
Procédé selon la revendication 1, dans lequel un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire (3a, 3b) apte à restituer un flux audio est connecté audit équipement (1), ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (3a, 3b).
Procédé selon la revendication 2, dans lequel une pluralité de périphérique auxiliaires (3a, 3b) est connecté audit équipement (1), une action de restitution dudit deuxième flux audio sur un périphérique auxiliaire (3a, 3b) de ladite pluralité étant choisie à l’étape (c) en fonction d’au moins un paramètre associé à chaque périphérique auxiliaire (3a, 3b).
Procédé selon la revendication 3, dans lequel l’étape (c) comprend le signalement du périphérique auxiliaire (3a, 3b) de l’action de restitution dudit deuxième flux audio choisie.
Procédé selon l’une des revendications 1 à 4, dans lequel un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo.
Procédé selon l’une des revendications 1 à 5, dans lequel un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution du deuxième flux audio sur le périphérique principal (2) au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo.
Procédé selon l’une des revendications 5 et 6, dans lequel l’action de restitution choisie à l’étape (c) est une action comprenant l’ajout d’un sous-titrage au flux vidéo si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire (3a, 3b).
Procédé selon l’une des revendications 1 à 7, dans lequel l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2).
Procédé selon l’une des revendications 1 à 8, dans lequel la détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) comprend l’acquisition par un module d’acquisition sonore (40) d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée.
Procédé selon les revendications 4 et 9 en combinaison, dans lequel ledit module d’acquisition sonore (30) est celui d’un périphérique de contrôle vocal (4) connecté à l’équipement (1) et comprenant en outre un haut-parleur (41), le signalement du périphérique auxiliaire (3a, 3b) de l’action de restitution dudit deuxième flux audio choisie étant mis en œuvre au moyen dudit haut-parleur (41).
Procédé selon l’une des revendications 9 et 10, dans laquelle ladite parole est une commande vocale.
Procédé selon les revendications 3 et 11 en combinaison, dans laquelle ladite commande vocale désigne un périphérique auxiliaire (3a, 3b) de ladite pluralité, l’action de restitution choisie à l’étape (c) étant l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (3a, 3b) désigné.
Equipement informatique (1) comprenant un module de traitement de données (11) et connecté à un périphérique principal (2), caractérisé en ce que le module de traitement de données (11) est configuré pour :
Commander la restitution sur ledit périphérique principal (2) d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;

Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) ;

Commander la mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue
Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, lorsque ledit programme est exécuté par un ordinateur.
Moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue.