FR3134211A1

FR3134211A1 - Procédé de gestion de la synchronisation d’une bande son avec une vidéo

Info

Publication number: FR3134211A1
Application number: FR2203011A
Authority: FR
Inventors: Ghislain Moncomble; Cyrielle Lemaitre; Touria ENGOHAN
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2023-10-06
Also published as: WO2023187082A1

Abstract

Procédé de gestion de la synchronisation d’une bande son avec une vidéo L’invention se rapporte à un procédé de gestion de la synchronisation d’une bande son (A) avec une vidéo (V), caractérisé en ce que le procédé comprend les étapes suivantes : Une étape préalable d’obtention (a) de données (D) descriptives d’instants (I) attendus dudit événement ;Une étape de repérage (b) d’un premier marqueur (M1) de synchronisation dans la bande son (A) et d’un second marqueur (M2) de synchronisation dans la vidéo (V), les données (D) descriptives obtenues au préalable permettant de garantir que les deux dits marqueurs (M1, M2) correspondent au même instant (I) dudit même événement restitué par la bande son (A) et la vidéo (V) ;Une étape de calcul (c) du décalage temporel (Δt) entre les marqueurs de synchronisation ;Une étape de calage (d) des deux restitutions de l’événement (A, V) en utilisant le décalage temporel calculé (Δt) précédemment. Figure 1

Description

Procédé de gestion de la synchronisation d’une bande son avec une vidéo

Le domaine technique est celui de la diffusion d’émissions audio-visuelles.

Plus précisément, l’invention se rapporte à un procédé de gestion de la synchronisation d’une bande son avec une vidéo.

Etat de la technique

Il existe un état de l’art sur le remplacement de séquences vidéos par d’autres séquences vidéos, y compris à la volée lors de diffusion d’émissions télévisuelles en direct. Ce remplacement à la volée peut également se limiter au changement de la bande son, par exemple pour réaliser le doublage d’une vidéo. Des techniques de traduction automatique ou de sous-titrage à la volée peuvent être utilisées pour fournir une bande son ou une information textuelle dans une langue différente de celle de la vidéo originale.

Cependant, cet état de l’art ne permet pas de répondre à certains problèmes. Lorsqu’un touriste étranger suit une retransmission sportive dans un pays d’accueil, il ne peut pas être garanti d’avoir à disposition une chaîne de télévision dans la langue qui l’intéresse. Il va alors fréquemment utiliser une chaîne de télévision locale, couper le son du poste de télévision, et utiliser un autre terminal (un ordiphone par exemple) pour suivre la bande son diffusée par une chaîne de télévision ou une radio émettant dans la langue qui l’intéresse. Indépendamment des problèmes de langue, on peut vouloir suivre le commentaire d’un événement (sportif ou autre) par un commentateur donné qui n’est pas celui de la chaîne de télévision disponible à l’endroit où l’on se trouve.

Dans ce cas de figure, un problème qui va se poser est celui de la synchronisation des deux signaux. Comme les deux sources qui restituent l’événement sont distinctes, des décalages sont inévitables, dus par exemple aux différences d’infrastructure des différents diffuseurs.

L’invention vient améliorer la situation.

L’invention

Selon un premier aspect fonctionnel, l’invention a trait à un procédé de gestion de la synchronisation d’une bande son avec une vidéo, la bande son et la vidéo étant des restitutions d’un même événement, caractérisé en ce que le procédé comprend les étapes suivantes :

Une étape préalable d’obtention de données descriptives d’instants attendus dudit événement ;
Une étape de repérage d’un premier marqueur de synchronisation dans la bande son et d’un second marqueur de synchronisation dans la vidéo, les données descriptives permettant de garantir que les deux dits marqueurs correspondent au même instant dudit même événement restitué par la bande son et la vidéo ;
Une étape de calcul du décalage temporel entre le premier marqueur de synchronisation repéré dans la bande son restituant l’événement et le second marqueur de synchronisation repéré dans la vidéo restituant le même événement ;
Une étape de calage des deux restitutions de l’événement en utilisant le décalage temporel calculé précédemment.

Grâce à l’invention, la synchronisation est réalisée entre une vidéo et une bande son restituant le même événement. Le spectateur peut donc choisir une bande son adaptée à sa langue ou plus généralement à ses goûts. La synchronisation est réalisée en repérant des instants connus de l’événement dont il est possible de connaîtrea priorila manière dont ils se manifesteront dans la bande son et la vidéo. Ce sont les données descriptives obtenues au préalable qui permettent de savoir comment repérer les marqueurs de synchronisation. La synchronisation et la diffusion ultérieure n’imposent donc pas de modification des signaux produits par des producteurs de contenu et envoyés au serveur.

Un avantage de l’invention est qu’elle prend en compte des contraintes de respect des droits de diffusion, à savoir que la diffusion du signal audio-visuel se fait sans modification, ce qui constituerait une violation des droits. Une éventuelle modification doit être faite au niveau du terminal d’utilisateur, sans rediffusion ultérieure. De plus, une modification du signal constitue une étape de calcul lourde, qui prend un certain temps à être effectué et introduirait un décalage supplémentaire entre l’événement et sa diffusion. Dans l’invention, la seule opération sur le signal est un calage, qui peut utiliser des mémoires tampon, sans modification.

Selon un premier mode de mise en œuvre particulier de l’invention, les étapes de repérage, de calcul et de calage ont lieu tout au long de l’événement restitué au fur et à mesure de la survenue des instants attendus et des marqueurs de synchronisation correspondant aux dits instants attendus.

Grâce à ce mode de réalisation, la synchronisation reste bonne tout au long de la diffusion de l’événement. Un seul marqueur de synchronisation correspondant à un instant survenant au début de l’événement peut suffire à l’invention, mais il faut s’attendre à des dérives possibles entre les deux restitutions. Ce mode de réalisation permet de recaler les deux restitutions tout au long de l’événement et donc de permettre une meilleure synchronisation.

Selon un deuxième mode de mise en œuvre particulier de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les modes précédents, la bande son synchronisée avec la vidéo, dite première vidéo, est extraite depuis une autre vidéo, dite deuxième vidéo, restituant le même événement que la première vidéo.

Grâce à ce mode de réalisation, tout un ensemble de bandes son restituant l’événement va être disponible. L’ensemble des chaînes de télévision restituant l’événement permettent d’avoir accès à des bandes son dans tout un ensemble de langues différentes. Seule la bande son est utilisée alors, et permet de suivre une vidéo avec une bande son synchronisée dans une langue choisie, la bande son étant extraite depuis une autre vidéo.

Dans un autre mode, la bande son synchronisée avec la vidéo, dite première vidéo, est utilisée également pour synchroniser d’autres vidéos. Grâce à ce mode, il sera possible de disposer de tout un ensemble de vidéos synchronisées avec une seule bande son. Un utilisateur du procédé pourra alors visualiser un événement, sportif ou autre, en comparant les réalisations distinctes entre plusieurs vidéos, tout en ayant une seule bande son synchronisée avec l’ensemble des vidéos.

Selon un troisième mode de mise en œuvre particulier de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les modes précédents, l’étape de repérage des marqueurs de synchronisation utilise la reconnaissance d’un signal sonore appartenant aux données descriptives d’un instant attendu.

Grâce à ce mode de réalisation, le repérage des marqueurs de synchronisation se fait sans rajouter d’éléments spécifiques dans les bandes sons ou dans les vidéos reçues par le serveur. C’est une étape de reconnaissance de signal qui permet de décider quand l’instant attendu, correspondant à un instant attendu, survient. Ce sont les données descriptives qui permettent de connaître les signaux sonores qui doivent être repérés car ils correspondent à un instant attendu. Le repérage se fait donc sans modification des bandes son ou des vidéos reçues par le serveur.

On peut noter que les signaux sonores qui servent à repérer les marqueurs de synchronisation ne seront pas forcément identiques dans la bande son et la ou les vidéos synchronisées. Par exemple, un signal sonore pourra être un message émis dans une langue dans la bande son, et le même message émis dans une autre langue dans une vidéo, plus précisément dans la bande son initiale qui accompagne la vidéo.

Selon un quatrième mode de mise en œuvre particulier de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les modes précédents, l’étape de repérage des marqueurs de synchronisation utilise la reconnaissance d’un signal visuel appartenant aux données descriptives d’un instant attendu.

Ce mode de réalisation présente les mêmes avantages que le mode précédent, en utilisant un autre type de reconnaissance, à savoir la reconnaissance d’un signal visuel dans la vidéo.

Selon un cinquième mode de mise en œuvre particulier de l’invention, qui pourra être mis en œuvre alternativement ou cumulativement avec les modes précédents, le procédé comprend une étape additionnelle de diffusion de la bande son synchronisée avec la vidéo.

Grâce à ce mode de réalisation, une fois la synchronisation réalisée, la bande son est diffusée, si nécessaire, vers des terminaux qui pourront ensuite l’émettre pour des utilisateurs. Les utilisateurs auront préalablement sélectionné la bande son qu’ils veulent écouter pour un événement donné et auront indiqué sur quelle vidéo cette bande son doit être synchronisée. Les utilisateurs pourront regarder la vidéo par ailleurs et écouteront la bande son qu’ils souhaitent synchronisée avec cette vidéo.

Dans une variante de ce mode, la diffusion est réalisée avant l’étape de calcul et de calage et consiste en une diffusion de la bande son et de la vidéo en rajoutant une information relative au repérage des marqueurs de synchronisation dans la bande son et de la vidéo. C’est alors des récepteurs situés après la diffusion qui vont se charger de réaliser le calcul du décalage, puis le calage. L’intérêt de cette variante peut être de permettre une diffusion plus rapide de la bande son et de la vidéo et de laisser chaque récepteur libre de sa méthode de synchronisation.

Selon une variante du cinquième mode de mise en œuvre l’étape de diffusion comprend la diffusion de la vidéo sans sa bande son originale.

En plus de la diffusion de la bande son synchronisée avec la vidéo, qui est la matière d’intérêt pour les utilisateurs, le procédé peut aussi diffuser la vidéo sur laquelle la bande son est synchronisée. Dans ce cas, il n’y a pas d’intérêt à diffuser la bande son originale de la vidéo puisque celle qui est d’intérêt est celle qui est synchronisée avec la vidéo grâce au procédé. Selon les demandes d’utilisateurs, le procédé va diffuser de façon synchronisée vers les terminaux d’un utilisateur la bande son et la vidéo sur laquelle est synchronisée la bande son. Pour l’utilisateur, la bande son attachée originalement à la vidéo pourra ne plus être utile. Plutôt que de diffuser la bande son originalement attachée, le procédé peut ne pas la diffuser ce qui économisera de la bande passante, donc des ressources réseaux, et permettra de simplifier l’interaction de l’utilisateur avec le service puisque la bande son qui ne l’intéresse pas ne lui est pas diffusée

Selon une sous variante de la variante qui précède, l’étape de diffusion comprend la récupération d’informations quant au décalage introduit entre la bande son et la vidéo par la diffusion afin que la phase de calcul du décalage temporel prenne en compte la diffusion.

Grâce à cette sous-variante, la synchronisation est améliorée par une boucle de rétroaction qui permet de prendre en compte la dérive éventuelle introduite par la diffusion entre le serveur et le ou les terminaux de l’utilisateur.

Selon un premier aspect matériel, l’invention se rapporte à une entité de gestion gérant la synchronisation d’une bande son avec une vidéo, la bande son et la vidéo étant des restitutions d’un même événement, caractérisé en ce que l’entité de gestion comprend les modules suivants :

Un module d’obtention préalable de données descriptives d’instants attendus dudit événement ;
Un module de repérage d’un premier marqueur de synchronisation dans la bande son et d’un second marqueur de synchronisation dans la vidéo, les données descriptives obtenues au préalable par le module d’obtention permettant de garantir que les deux dits marqueurs correspondent au même instant dudit même événement restitué par la bande son et la vidéo ;
Un module de calcul du décalage temporel entre le premier marqueur de synchronisation repéré dans la bande son restituant l’événement et le second marqueur de synchronisation repéré dans la vidéo restituant le même événement ;
Un module de calage des deux restitutions de l’événement en utilisant le décalage temporel calculé précédemment.

Selon un autre aspect matériel, l’invention se rapporte à un serveur comprenant une entité de gestion définie ci-dessus.

Grâce à cet aspect, il est possible à des utilisateurs d’envoyer des requêtes à un serveur pour que celui-ci réalise la synchronisation selon le procédé d’une bande son avec une vidéo, puis que le serveur diffuse au minimum la bande son vers un terminal de l’utilisateur.

Selon un autre aspect matériel, l’invention se rapporte à un terminal comprenant une entité de gestion définie ci-dessus.

Grâce à cet aspect, c’est le terminal de l’utilisateur lui-même qui réalise la synchronisation sans besoin ultérieur de diffusion de la bande son synchronisée.

Selon un autre aspect matériel, l’invention a trait à un programme d'ordinateur apte à être mis en œuvre par un serveur ou un terminal, le programme comprenant des instructions de code qui, lorsqu’il est exécuté par un processeur, réalise les étapes du procédé de gestion défini ci-dessus.

Enfin, selon un autre aspect matériel, l’invention a trait à un support de données sur lequel est enregistré un programme d’ordinateur comprenant une séquence d’instructions pour la mise en œuvre du procédé de gestion défini ci-dessus.

Les supports de données peuvent être n'importe quelle entité ou dispositif capable de stocker les programmes. Par exemple, les supports peuvent comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique tel qu’un un disque dur. D'autre part, les supports peuvent être des supports transmissibles tels qu'un signal électrique ou optique, qui peuvent être acheminés via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet. Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

L'invention sera mieux comprise à la lecture de la description qui suit, donnée à titre d'exemple, et faite en référence aux dessins annexées sur lesquels :

représente un mode de réalisation du procédé de synchronisation selon l’invention.

représente une entité de gestion selon un mode de réalisation de l’invention, comprise dans un serveur, diffusant les flux vidéos et audios synchronisés vers un même terminal.

représente la même entité de gestion et le même serveur, diffusant les flux vidéos et audios synchronisés vers deux terminaux distincts.

représente la même entité de gestion et le même serveur diffusant un flux audio vers un terminal, ledit flux audio étant synchronisé par l’entité de gestion avec un flux vidéo diffusé par ailleurs vers un autre terminal de l’utilisateur.

représente une entité de gestion selon un autre mode de réalisation, comprise dans un terminal.

La représente le procédé de gestion.

L’invention nécessite que soit connu à l’avance tout un ensemble d’informations à propos des vidéos et des bandes sons qui vont restituer un événement donné. Par exemple, pour un événement sportif donné, il existera un catalogue des vidéos ou des bandes son qui correspondent à une restitution de l’événement en question, catalogue qui comprendra des informations standard sur les vidéos ou bandes son comme la date et l’heure attendue de diffusion, la langue utilisée, le commentateur de l’événement etc. De cette manière, il sera possible de proposer à des utilisateurs de sélectionner la bande son audio A qu’ils souhaitent écouter, et avec quelle vidéo V cette bande son doit être synchronisée. Cette étape de choix par l’utilisateur qui s’apparente au choix dans un catalogue ou dans un programme de télévision, est bien connue de l’homme du métier et ne fait pas partie de l’invention ; elle n’est donc pas présentée plus avant. La bande son A, qui doit être synchronisée avec la vidéo V grâce au procédé de gestion, et la vidéo V, sont représentés sur la comme une succession de moments représentés par des points, séparés par des traits verticaux, de manière similaire à une bande cinéma analogique. La flèche surmontée d’un t indique le déroulement du temps de la gauche dans la bande son A et la vidéo V de la gauche vers la droite. La bande son A fait peut-être partie originellement d’une autre vidéo, distincte de la vidéo V, qui peut être par exemple la diffusion du même événement dans une autre langue que celle de la vidéo V.

En plus de ces informations standards, de type catalogue, le procédé comprend une phase préalable d’obtention (a) de données descriptives D d’instants attendus de l’événement restitué par la bande audio A et la vidéo V. Ces données descriptives D vont être par exemple des signaux visuels ou bien sonores. Ils correspondent à des instants attendus I de l’événement restitué. Prenons des exemples issus du monde du sport. L’événement restitué va être une compétition sportive, par exemple un match de football, ou de handball, ou de tout autre sport d’équipe ou individuel, ou bien une course automobile, cycliste ou à pied, ou tout autre événement sportif. Des instants attendus I seront par exemple le coup d’envoi du match, ou le lancement de la course. Le signal visuel compris dans la donnée descriptive D pourra être alors l’image d’un arbitre lançant la compétition, et le signal sonore de la donnée descriptive D le bruit associé (coup de sifflet ; coup de feu). D’autres signaux sonores peuvent être des messages attendus des commentateurs, signalant le début du match. Des informations sur les commentateurs pourront alors être utiles pour effectuer ultérieurement une reconnaissance de leur parole, comme des exemples de messages qu’ils prononcent habituellement, y compris des extraits de messages qu’ils ont déjà utilisés à d’autres occasions. Bien sûr, une heure approximative de la survenue des instants attendus I fera également partie des données descriptives D et sera également obtenue au préalable.

Dans le cas d’une compétition sportive, la donnée descriptive D la plus facile à utiliser est le chronomètre affiché sur les vidéos V retransmettant l’événement sportif qui indique le temps écoulé depuis le début de la compétition. Cette donnée descriptive D est facile à repérer car elle est affichée dans une couleur et une police de caractères choisies pour assurer sa lisibilité, et qui se répètera dans la même forme pour plusieurs événements.

Dans un autre type d’événement, une donnée descriptive D pourra correspondre au lancement d’une cérémonie pour lequel un écran vidéo particulier est attendu, ou bien un générique de début de film.

Une fois l’étape préalable d’obtention (a) de données descriptives réalisée, le procédé de gestion va s’appliquer à une vidéo V et à une bande son A choisies par ailleurs. Cette étape de choix qui s’approche du choix dans un catalogue ou dans un programme de télévision est bien connue de l’homme du métier et ne fait pas partie de l’invention. Il sera possible par exemple de sélectionner une vidéo V retransmettant une compétition sportive qui est largement diffusée dans un pays donné, mais dont on souhaite écouter le commentaire sportif (la bande son) dans une langue qui n’est pas celle de la vidéo V sélectionnée. Il faudra alors choisir une autre bande son A parmi celles disponibles, diffusant le commentaire dans la langue souhaitée. La bande son A choisie pourra être celle d’une diffusion uniquement audio, par exemple faite pour une radio. La bande son choisie peut également faire partie d’une autre vidéo distincte de V.

Une fois les données descriptives obtenues dans la phase préalable d’obtention (a), et la vidéo V et la bande son A sélectionnées, le procédé de gestion de la synchronisation de la bande son A avec la vidéo V peut commencer.

Le procédé de gestion de la synchronisation commence par le repérage (b) d’un premier marqueur M1 de synchronisation dans la bande son A et d’un second marqueur de synchronisation M2 dans la vidéo V. Les données descriptives D obtenues au préalable (a) vont permettre de repérer les marqueurs M1 et M2 et de garantir que les deux marqueurs M1 et M2 correspondent au même instant I de l’événement qui est restitué par la bande son A et la vidéo V. Le premier marqueur M1 aura été repéré avant le second marqueur M2 si la diffusion de la bande son A est en avance sur la diffusion de la vidéo V, comme c’est le cas dans la , et inversement, le premier marqueur M1 sera repéré après le second marqueur M2 si la bande son A est en retard sur la diffusion de la vidéo V.

Les moyens de repérer les marqueurs de synchronisation vont dépendre de la nature des données descriptives D obtenues préalablement. Si les données descriptives D comprennent des signaux visuels, ceux-ci vont être repérés par des techniques de reconnaissance automatique d’un signal visuel associé à l’instant attendu I. Par exemple, les signaux visuels pourront être des génériques ou des logos marquant le début d’une émission. Cela pourra être aussi la reconnaissance de caractères indiquant une heure précise, ou la durée depuis le début d’un événement. Cela peut être également la reconnaissance d’une image spécifique, par exemple le coup de feu d’un arbitre déclenchant une course, ou le coup de sifflet d’un arbitre démarrant un match, si aucun autre repère n’est disponible. Une fois l’instant attendu I repéré dans la bande son A ou la vidéo V, le marqueur de synchronisation M1 ou M2 peut être placé. Si la bande son A est comprise dans une vidéo, une donnée descriptive D relative à un signal visuel peut être utilisée pour repérer le marqueur M1 en recherchant le signal visuel dans la vidéo comprenant la bande son A.

Si les données descriptives D comprennent des signaux sonores, les marqueurs M1 ou M2 vont être repérés par des techniques de reconnaissance automatique d’un signal sonore associé à l’instant I attendu. Cela pourra être par exemple le repérage d’une musique particulière ou d’unjingleassocié à un générique donné. Cela peut être aussi un son tel un coup de sifflet ou un coup de feu pour s’aligner sur les deux signaux visuels discutés précédemment dans le cadre de compétitions sportives. Le repérage peut également utiliser des techniques de reconnaissance automatique de la parole quand les données descriptives correspondent à des messages attendus des commentateurs.

Dans tous les cas, dans notre exemple, le repérage des marqueurs M1 et M2 va être assisté par des informations sur l’horaire auquel ils sont censés survenir. Si une demande de synchronisation est faite entre une vidéo V et une bande son A restituant un événement donné, le procédé va repérer des marqueurs de synchronisation M1 et M2 correspondant à l’instant attendu I du début de l’événement qui est prévu à une certaine heure. Le repérage n’est donc pas aléatoire, mais bien ciblé sur une période précise.

Si la bande son A choisie par l’utilisateur fait partie d’une vidéo, le premier marqueur M1 de synchronisation pourra être repéré dans la vidéo qui comprend cette bande son A. Dans l’exemple d’une retransmission sportive que l’utilisateur souhaite regarder dans une langue qui ne correspond pas à celle de la vidéo V retransmise dans le pays où il se trouve, la bande son A que l’utilisateur souhaitera obtenir pourra être celle de la vidéo retransmise dans son pays d’origine. Dans ce cas, il sera facile d’utiliser comme donnée descriptive D le chronomètre pour garantir que les marqueurs M1 et M2 correspondent à un même instant I, à savoir par exemple le démarrage de l’événement sportif ou bien tout autre instant I chronométré. Un signal visuel appartenant à une donnée descriptive D peut donc être utilisé pour repérer un marqueur de synchronisation M1 de la bande son A si celle-ci appartient à une vidéo.

Des instants survenant dans le cours de l’événement restitué peuvent également être utilisés. Dans le cas d’un événement sportif, cela pourra être un événement tel qu’un but marqué, ou bien le passage de la tête d’une course à un endroit donné. Le repérage peut alors utiliser la reconnaissance de signaux visuels (passage du ballon à un endroit, logo spécifique, passage d’un paysage donné…) et aussi la reconnaissance de signaux sonores (bruits tels que la cloche du dernier tour dans les courses athlétiques) ou la reconnaissance automatique de parole (messages correspondants des commentateurs).

Le procédé de gestion de la synchronisation se poursuit par le calcul (c) du décalage temporel Δt entre le premier marqueur M1 de synchronisation repéré dans la bande son A et le second marqueur M2 de synchronisation repéré dans la vidéo V.

Le premier marqueur M1 de synchronisation se trouve dans la bande son A. Il peut avoir été repéré directement dans la bande son A, à partir d’un signal sonore présent dans la donnée descriptive D, ou bien dans une vidéo incluant la bande son A à synchroniser, et dans ce cas le procédé aura pu utiliser un signal visuel. Le second marqueur M2 se trouve dans la vidéo V avec laquelle le procédé va synchroniser la bande son A. Le décalage temporel Δt qui est mesuré va donc être négatif ou positif suivant que le premier marqueur M1 de synchronisation repéré, celui de la bande son A, survient avant ou après le second marqueur M2 de synchronisation.

Dans le cas où le marqueur M2 se trouvant dans la vidéo V est associé à la reconnaissance d’un signal visuel (passage de la ligne de but par un ballon, par exemple) et que le marqueur M1 est associé à la reconnaissance automatique d’un signal de parole d’un commentateur (message « but »), il faut intégrer dans le procédé une estimation du temps de réaction du locuteur et du temps de prononciation du message, qui peut ajouter près d’une seconde, alors que le signal visuel peut quant à lui être considéré comme instantané.

Le procédé de gestion de la synchronisation se poursuit par une étape de calage (d) des deux restitutions A et V de l’événement en utilisant le décalage temporel Δt calculé précédemment. Cette étape de calage (d) peut éventuellement utiliser des mémoires tampons qui serviront à enregistrer la partie de la restitution A ou V en avance sur l’autre afin de réaliser le calage (d).

La présentation faite ici décrit un procédé avec une succession d’une étape de repérage (b), de calcul (c) et de calage (d), mais ces étapes peuvent avoir lieu de façon répétée, tout au long de l’événement restitué, au fur et à mesure de la survenue des instants I attendus et des marqueurs de synchronisation M1 et M2 correspondant aux dits instants attendus. De cette manière, si des décalages se créent au fur et à mesure du déroulement de la vidéo V et de la bande son A, la répétition des étapes de repérage, calcul du décalage temporel et calage permettront d’éliminer les décalages au fur et à mesure.

Si la bande son A demandée par l’utilisateur appartient initialement à une vidéo, l’étape de calage peut être l’occasion d’extraire la bande son A de cette vidéo afin de la rendre disponible pour une éventuelle diffusion (e).

La représente une entité de gestion 100 qui implémente le procédé de gestion de la synchronisation d’une bande son A avec une vidéo V. La localisation de l’entité de gestion 100 est indifférente pour notre invention. Dans notre exemple, cette entité de gestion 100 est incluse dans un serveur SRV.

Le serveur SRV peut être formé par un ordinateur unique ou bien composé de plusieurs ordinateurs. Le serveur SRV peut aussi être formé par une ou plusieurs machines virtuelles qui s’exécutent dans une infrastructure en nuage. Le serveur SRV comprendra un ou plusieurs processeurs qui peuvent être matériels ou virtuels, une ou plusieurs mémoires vives de type RAM et des mémoires mortes de type ROM (non représentés sur la figure).

Dans notre exemple, le serveur SRV dispose d’accès réseau qui lui permettent de communiquer avec d’autres serveurs (non représentés dans la ) ou des terminaux d’utilisateur via un réseau type Internet (représenté par un nuage sur la ). Un tel terminal 200 est représenté sur la .

Les accès réseau du serveur SRV permettent à l’entité de gestion 100 de recevoir tout un ensemble de flux vidéos (V1, V2, V3), comprenant des images et du son, ou bien des flux seulement audios (A1, A2).

Ces flux sont émis par des diffuseurs, non représentés sur la figure. Ils correspondent à des restitutions d’événements par ces diffuseurs, soit par des flux vidéos, comprenant donc des images et une bande son, émis par exemple par des chaînes de télévision, soit par des flux audios, donc limités à une bande son, émis par exemple par des stations de radio.

L’entité de gestion 100 comprend un module d’obtention 110. Ce module d’obtention 110 permet à l’entité de gestion 100 d’obtenir (a) préalablement à la mise en œuvre du procédé de diffusion des données D descriptives d’instants I attendus de l’événement qui est restitué par la bande son A et la vidéo V.

L’entité de gestion 100 comprend également un module de repérage 120. Ce module de repérage 120 va chercher à repérer (b) dans la bande son A et la vidéo V les instants I attendus en s’aidant des données descriptives D. La bande son A et la vidéo V font partie des flux visuels V1, V2, V3 ou des bandes son A1, A2 reçues par le serveur SRV. L’utilisateur du procédé a fait un choix, qui n’est pas davantage détaillé, de synchroniser la bande son A avec la vidéo V, en les choisissant parmi les flux disponibles pour l’entité de gestion 100. Plus précisément, le module de repérage 120 va repérer un premier marqueur M1 de synchronisation correspondant à un instant I attendu dans une bande son A restituant l’événement, et d’un second marqueur M2 de synchronisation correspondant au même instant attendu dans la vidéo V. Les données descriptives D obtenues (a) préalablement permettent de garantir que ces marqueurs M1 et M2 correspondent bien au même instant I. D’autres modes de réalisation sont possibles, correspondant au repérage de marqueurs de synchronisation dans plusieurs flux audio-visuels, selon les demandes de l’utilisateur du procédé de diffusion.

L’entité de gestion 100 comprend également un module de calcul 130. Ce module va calculer le décalage temporel Δt entre le premier marqueur M1 de synchronisation repéré par le module de repérage 120 dans la bande son A et le second marqueur M2 de synchronisation dans la vidéo V. Ce décalage temporel Δt peut être positif si la bande son A est en avance sur la vidéo V ou négatif dans le cas contraire.

L’entité de gestion 100 comprend également un module de calage 140. Ce module va réaliser la synchronisation de la bande son A avec la vidéo V en utilisant le décalage temporel Δt calculé par le module de calcul 130. Le module de calage 140 va utiliser si nécessaire des mémoires tampon (non représentées sur la ) pour réaliser ce calage en conservant en mémoire les portions nécessaires pour cela.

Le procédé de gestion peut comprendre dans certains modes de réalisation une étape additionnelle de diffusion (e) de la bande son A synchronisée avec la vidéo V. C’est le cas dans le mode de réalisation représenté par la . Une fois le calage réalisé par le module 140, le serveur SRV va réaliser la diffusion synchronisée de la bande son A et de la vidéo V vers un terminal 200 de l’utilisateur qui a demandé l’exécution du procédé de gestion de la synchronisation de la bande son A avec la vidéo V.

On peut remarquer que les traitements réalisés par l’entité de gestion 100 n’impliquent aucune modification des flux vidéos V1, V2, V3 reçus par le serveur SRV parmi lesquels se trouve le flux V, ou des bandes son reçues A1, A2 parmi lesquelles se trouve la bande son A. Ces deux éléments (vidéo V et bande son A) sont reçus par le serveur SRV puis rediffusés vers le terminal 200 sans aucune modification mais juste un calage réalisé par le module de calage 140 pour assurer leur synchronisation si nécessaire après calcul du décalage temporaire Δt par le module de calcul 130.

La diffusion de la vidéo V et de la bande son A se fait par un réseau représenté sur la par un nuage, qui sera typiquement le réseau Internet. Mais d’autres réseaux peuvent être utilisés. Le terminal 200 peut par exemple être un ordiphone appartenant à un réseau de communication mobile 3G, 4G ou 5G. Le terminal 200 peut aussi être une télévision connectée à un réseau de diffusion de télévision sur IP.

Le terminal 200 peut être un ordiphone, ou bien une télévision connectée, ou bien un ordinateur portable ou non. En général, le terminal 200 peut être tout type de terminal susceptible de diffuser une vidéo V ou une bande-son A. Dans un mode de réalisation, le procédé comprend une étape de montage dans le terminal 200 qui va remplacer la bande son originale de la vidéo V avec la bande son A synchronisée avec la vidéo V. De cette manière, l’affichage de la vidéo V par le terminal 200 est simplifié.

La diffusion (e) de la vidéo V peut se faire avec ou sans sa bande son originale. Dans le mode de réalisation décrit par la , cette bande son ne sera pas utilisée au final. Elle pourra être remplacée dans le terminal 200 lors d’une étape de montage par la bande son A diffusée. Il est donc plus économique en ressource réseaux de ne pas diffuser la bande son originale de la vidéo V qui est inutile dans ce mode de réalisation.

Dans un mode de réalisation particulier, le terminal 200 va remonter à l’entité de gestion 100 des informations quant à la présence des marqueurs de synchronisation dans la vidéo V et la bande son A reçues par le terminal 200. Ces informations permettront au module de calcul 130 d’affiner son calcul du décalage temporel Δt en prenant en compte les dérives qui peuvent être introduites par la diffusion entre le serveur 100 et le terminal 200. Dans un mode de réalisation, le terminal 200 peut calculer lui-même le décalage temporel ajouté par la diffusion afin que le calcul (c) du décalage temporel Δt prenne en compte directement cet élément supplémentaire.

Par ailleurs, d’autres modes de réalisation sont possibles qui varient avec le mode de réalisation décrit dans la quant au nombre de terminaux inclus par l’utilisateur et au nombre de flux audios et vidéos synchronisés par le procédé de diffusion.

La présente un de ces modes de réalisation.

Dans la , l’utilisateur dispose de deux terminaux 200 et 300. Ici, comme dans la , l’entité de gestion 100 est comprise dans un serveur SRV. L’entité de gestion 100 réalise, en plus de la synchronisation de la bande son A avec la vidéo V, une étape additionnelle de diffusion (e) de la bande son A. De plus, la vidéo V est diffusée par l’entité de gestion 100 vers le terminal 300 qui peut être par exemple un poste ou décodeur de télévision, ou un ordinateur portable qui dispose d’un écran suffisamment grand pour afficher de façon confortable la vidéo V. Parallèlement, l’entité de gestion 100 diffuse (e) la bande son A synchronisée avec la vidéo V vers le terminal 200 qui peut être par exemple un ordiphone, ou une enceinte connectée, ou un système de son haute-fidélité ou tout terminal susceptible de diffuser la bande son A. Cette diffusion se fait après synchronisation.

La vidéo V peut être diffusée avec ou sans sa bande son originale. Si elle est diffusée avec sa bande son originale, l’utilisateur pourra régler le terminal 300 pour qu’il ne diffuse pas la bande son attachée à la vidéo V, en coupant le son du terminal 300. Le procédé assure la synchronisation de la bande son A avec la vidéo V et donc le confort de l’utilisateur spectateur.

La présente un autre mode de réalisation.

Là encore, l’entité de gestion 100 est comprise dans un serveur SRV. Par ailleurs, dans ce mode, la vidéo V est diffusée sur le terminal 300 indépendamment du serveur SRV et de l’entité de gestion 100. Il peut s’agir par exemple de la diffusion d’une chaîne de télévision par Internet quand le terminal 300 est une télévision, ou l’obtention d’une vidéo par Youtube ou tout autre service quand le terminal 300 est un ordinateur.

Cependant, le serveur SRV reçoit également en parallèle la vidéo V. L’entité de gestion 100 peut donc, à la demande de l’utilisateur, réaliser le procédé et synchroniser la bande son A avec la vidéo V. L’entité de gestion 100 réalise alors la diffusion (e) de la bande son A synchronisée avec la vidéo V vers le terminal 200, qui peut être par exemple un ordiphone, ou une enceinte connectée, ou tout autre terminal susceptible de diffuser la bande son. L’utilisateur pourra alors couper le son du terminal 300, et donc regarder la vidéo V sans la bande son incluse dans cette vidéo V, et écouter à la place la bande son A sur le terminal 200, la bande son A étant synchronisée avec la vidéo V.

La présente une configuration différente.

Ici, l’entité de gestion 100 fait partie d’un terminal DVC. Ce terminal peut être par exemple un ordinateur, portable ou non, ou bien un ordiphone, ou une tablette, ou bien une télévision connectée. Il comprend dans tous les cas au moins un écran SCR et un moyen de diffuser du son, représenté dans la par un haut-parleur. Le terminal DVC est connecté à un réseau, représenté par un nuage, qui lui permet de recevoir tout un ensemble de flux vidéos V1, V2, V3 et de bandes sons A1, A2. Cette réception se fait via un ou plusieurs réseaux de communication, qui peuvent être le réseau Internet, ou bien un réseau dédié au service. L’accès du terminal DVC à ce réseau peut se faire via WiFi, ou Ethernet, ou via une technologie de communication mobile telle que 3G, 4G ou 5G suivant la nature du terminal DVC.

L’utilisateur du procédé de gestion demande que soit synchronisée la bande son A, reçue par le terminal DVC, avec la vidéo V, elle aussi reçue par le terminal DVC. Cette demande peut être faite par l’intermédiaire d’une application dédiée exécutée par le terminal DVC qui remplit des fonctions similaires à celle d’un catalogue ou d’un programme de télévision.

Une fois le procédé de gestion de la synchronisation réalisé, le terminal DVC va afficher la vidéo V sur l’écran SCR et diffuser sur le haut-parleur la bande son A synchronisée avec la vidéo V. De cette manière, l’utilisateur aura un confort d’écoute de la bande son A synchronisée avec la vidéo V sur son terminal DVC.

Dans une variante, non représentée sur les figures, la synchronisation va consister à aligner sur la bande son A choisie par l’utilisateur plusieurs vidéos distinctes représentant le même événement. Cela peut intéresser un utilisateur qui souhaite comparer les différences de réalisation vidéo entre plusieurs diffuseurs, tout en gardant le confort d’une seule bande son A dans la langue de son choix, synchronisée avec toutes les vidéos souhaitées.

Dans une autre variante, la diffusion de la bande son A et de la ou les vidéos V se fait avant réalisation des étapes de calcul (c) et de calage (d), mais après celle de repérage (b) des marqueurs de synchronisation M1, M2. L’entité de gestion 100 va alors diffuser (e) la bande son A et la vidéo V associées à des données représentatives du placement des marqueurs de synchronisation M1, M2 afin qu’une autre entité de gestion, réceptrice, réalise à la suite les étapes de calcul (c) et de calage (d) avant d’afficher la bande son A et la vidéo V synchronisées.

Signalons enfin ici que, dans le présent texte, le terme « module » peut correspondre aussi bien à un composant logiciel qu’à un composant matériel ou un ensemble de composants matériels et logiciels, un composant logiciel correspondant lui-même à un ou plusieurs programmes ou sous-programmes d’ordinateur ou de manière plus générale à tout élément d’un programme apte à mettre en œuvre une fonction ou un ensemble de fonctions telles que décrites pour les modules concernés. De la même manière, un composant matériel correspond à tout élément d’un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions pour le module concerné (circuit intégré, carte à puce, carte à mémoire, etc.).

Claims

Procédé de gestion de la synchronisation d’une bande son (A) avec une vidéo (V), la bande son (A) et la vidéo (V) étant des restitutions d’un même événement, caractérisé en ce que le procédé comprend les étapes suivantes :
Une étape préalable d’obtention (a) de données (D) descriptives d’instants (I) attendus dudit événement ;

Une étape de repérage (b) d’un premier marqueur (M1) de synchronisation dans la bande son (A) et d’un second marqueur (M2) de synchronisation dans la vidéo (V), les données (D) descriptives obtenues au préalable permettant de garantir que les deux dits marqueurs (M1, M2) correspondent au même instant (I) dudit même événement restitué par la bande son (A) et la vidéo (V) ;

Une étape de calcul (c) du décalage temporel (Δt) entre le premier marqueur (M1) de synchronisation repéré dans la bande son (A) restituant l’événement et le second marqueur (M2) de synchronisation repéré dans la vidéo (V) restituant le même événement ; et,

Une étape de calage (d) des deux restitutions de l’événement (A, V) en utilisant le décalage temporel calculé (Δt) précédemment.
Procédé de gestion selon la revendication 1, caractérisé en ce que les étapes de repérage (b), de calcul (c) et de calage (d) ont lieu tout au long de l’événement restitué au fur et à mesure de la survenue des instants attendus et des marqueurs de synchronisation correspondant aux dits instants attendus.
Procédé de gestion selon l’une des revendications 1 à 2, caractérisé en ce que la bande son (A) synchronisée avec la vidéo (V), dite première vidéo, est extraite depuis une autre vidéo, dite deuxième vidéo, restituant le même événement que la première vidéo (V).
Procédé de gestion selon l’une des revendications 1 à 3, caractérisé en ce que l’étape de repérage (b) des marqueurs de synchronisation utilise la reconnaissance d’un signal sonore appartenant aux données descriptives d’un instant attendu.
Procédé de gestion selon l’une des revendications 1 à 4, caractérisé en ce que l’étape de repérage (b) des marqueurs de synchronisation utilise la reconnaissance d’un signal visuel appartenant aux données descriptives d’un instant attendu.
Procédé de gestion selon l’une des revendications 1 à 5, caractérisé en ce que le procédé comprend une étape additionnelle de diffusion (e) de la bande son (A) synchronisée avec la vidéo (V).
Procédé de gestion selon la revendication 6, caractérisé en ce que l’étape de diffusion (e) comprend la diffusion de la vidéo (V) sans sa bande son originale.
Procédé de gestion selon la revendication 7, caractérisé en ce que l’étape de diffusion (e) comprend la récupération d’informations quant au décalage introduit entre la bande son (A) et la vidéo (V) par la diffusion (e) afin que la phase de calcul (c) du décalage temporel prenne en compte la diffusion (e).
Entité de gestion (100) gérant la synchronisation d’une bande son (A) avec une vidéo (V), la bande son (A) et la vidéo (V) étant des restitutions d’un même événement, caractérisé en ce que l’entité de gestion (100) comprend les modules suivants :
Un module d’obtention préalable (110) de données descriptives d’instants attendus dudit événement ;

Un module de repérage (120) d’un premier marqueur de synchronisation dans la bande son (A) et d’un second marqueur de synchronisation dans la vidéo (V), les données descriptives obtenues au préalable par le module d’obtention (110) permettant de garantir que les deux dits marqueurs correspondent au même instant dudit même événement restitué par la bande son (A) et la vidéo (V) ;

Un module de calcul (130) du décalage temporel entre le premier marqueur de synchronisation repéré dans la bande son (A) restituant l’événement et le second marqueur de synchronisation repéré dans la vidéo (V) restituant le même événement ;

Un module de calage (140) des deux restitutions de l’événement (A, V) en utilisant le décalage temporel calculé précédemment.
Serveur (SRV) comprenant une entité de gestion (100) selon la revendication 9.
Terminal (DVC) comprenant une entité de gestion (100) selon la revendication 9.
Programme d'ordinateur apte à être mis en œuvre par un serveur (SRV) ou un terminal (DVC), le programme comprenant des instructions de code qui, lorsqu’il est exécuté par un processeur, réalise les étapes du procédé de gestion selon la revendication 1.
Support de données, sur lequel est enregistré un programme d’ordinateur comprenant une séquence d’instructions pour la mise en œuvre du procédé de gestion conforme à la revendication 1 lorsqu’il est chargé dans et exécuté par un processeur.