FR3119063A1

FR3119063A1 - Procédé et système de synchronisation automatique d’un contenu vidéo et d’un contenu audio

Info

Publication number: FR3119063A1
Application number: FR2013218A
Authority: FR
Inventors: Philippe Guillaud; André MANOUKIAN; Igal COHEN HADRIA; Hervé GOURDIKIAN
Original assignee: Imuze France
Current assignee: MATCH TUNE, FR
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-07-22
Anticipated expiration: 2040-12-14
Also published as: WO2022129104A1; FR3119063B1

Abstract

L’invention concerne un procédé de synchronisation d’un échantillon audio avec une séquence d’images animées, ou séquence vidéo, le procédé comportant les étapes de : analyser (20) la séquence vidéo pour générer des données caractéristiques, au moins l’une des données caractéristiques générées étant représentative d’une valeur de tempo calculée pour la séquence vidéo ;rechercher (21), dans une base de données de fichiers audio, un ou plusieurs fichiers audio contenant un échantillon audio présentant une ou plusieurs caractéristiques compatibles avec les données caractéristiques générées de la séquence vidéo, au moins l’une des caractéristiques compatibles étant une valeur de tempo de l’échantillon audio considéré ;sélectionner (22), parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo ;synchroniser (23) l’échantillon audio sélectionné avec la séquence vidéo ;générer (26) un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio sélectionné. Figure pour l’abrégé : Fig. 1

Description

Procédé et système de synchronisation automatique d’un contenu vidéo et d’un contenu audio

L’invention se rapporte au domaine de la réalisation d’habillages sonores pour des séquences d’images animées, ou vidéos.

Avec le développement des plateformes d’hébergement en ligne de vidéos, et la multiplication des dispositifs portables permettant de capturer des vidéos de grande qualité (caméras numériques miniatures et téléphones portables), le nombre de vidéos créées et mises en ligne, que ce soit par des professionnels ou des amateurs, connait depuis plusieurs années une croissance exponentielle. La création d’une vidéo nécessite très souvent la création ou l’adaptation d’une bande son pour accompagner de manière appropriée les images de la vidéo. Si l’on n’est pas à-même de composer une musique pour accompagner une vidéo, la solution la plus immédiate est d’utiliser un titre musical existant dont le caractère est susceptible de correspondre au mieux au contenu de la vidéo. Toutefois, trouver un titre musical adapté peut-être très difficile puisque le créateur de la vidéo choisira généralement un titre parmi ceux qu’il connait, ce qui représentera pour la plupart des personnes un contingent de titres très limité, alors qu’on dénombre aujourd’hui près de 150 millions de titre musicaux existants.

La présente invention part de la constatation que, parmi l’ensemble des titres disponibles dans les catalogues des compagnies de l’industrie musicale, qui représentent plus de 150 millions de titres, à peine 0.1% de ces titres sont exploités et génèrent des revenus pour leurs auteurs ou ayant-droits. Une quantité considérable de titres existants se trouve donc totalement inutilisée, et de ce fait, méconnue. Or, la plupart de ces titres inutilisés présentent nécessairement des qualités et des caractéristiques les rendant susceptibles d’être utilisés pour l’habillage sonore d’une vidéo. Ainsi, moins un titre est utilisé, moins il sera connu et moins il aura de chances d’être utilisé par une personne réalisant un montage vidéo, que cette personne soit un professionnel du montage vidéo et/ou sonore ou non.

En outre, pour des personnes qui ne sont pas des professionnels du montage vidéo et/ou sonore, repérer une musique adéquate pour l’habillage sonore d’une vidéo n’est pas la seule difficulté : il est ensuite nécessaire d’adapter le titre choisi à la durée de la vidéo, qui peut être très variable (alors même que la quasi-totalité des titres musicaux contemporains voit leur format adapté au format radiophonique afin de ne pas diminuer les chances d’être diffusé par les radios de grande écoute, leur durée étant ainsi souvent très proche de 3 minutes), et enfin de synchroniser la musique avec la vidéo.

La présente invention a pour but de proposer un procédé et un système permettant de réaliser automatiquement l’habillage d’une séquence d’images animées à partir d’une base de données contenant des fichiers audio, dont le contenu peut être par exemple des titres musicaux, des extraits de titres musicaux, des sons divers, etc. La présente invention a en outre pour but de fournir un tel procédé et un système permettant de réaliser l’habillage sonore d’une vidéo de façon très rapide, typiquement en quelques secondes.

À cet effet, l’invention concerne un procédé de synchronisation d’un échantillon audio avec une séquence d’images animées, ou séquence vidéo, le procédé comportant les étapes de :

analyser la séquence vidéo pour générer des données caractéristiques, au moins l’une des données caractéristiques générées étant représentative d’une valeur de tempo calculée pour la séquence vidéo ;
rechercher, dans une base de données de fichiers audio, un ou plusieurs fichiers audio contenant un échantillon audio présentant une ou plusieurs caractéristiques compatibles avec les données caractéristiques générées de la séquence vidéo, au moins l’une des caractéristiques compatibles étant une valeur de tempo de l’échantillon audio considéré ;
sélectionner, parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo ;
synchroniser l’échantillon audio sélectionné avec la séquence vidéo ;
générer un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio sélectionné.

Ainsi, le procédé conforme à l’invention permet d’associer automatiquement un fichier audio numérique contenant un échantillon audio à un fichier contenant une vidéo, et de synchroniser cet échantillon audio avec la vidéo, de façon à proposer à un utilisateur un habillage sonore adapté de cette vidéo. En détectant une valeur de tempo d’une vidéo, assimilable à la valeur de tempo d’un morceau de musique, le procédé conforme à l’invention permet de trouver très rapidement (typiquement en quelques secondes) des échantillons audios compatibles dans une base de données. La compatibilité entre la valeur de tempo affectée à la vidéo et la valeur de tempo du morceau utilisé a un effet déterminant sur la compatibilité entre l’aspect visuel et l’aspect sonore d’une vidéo, telle qu’elle sera ressentie par une personne visionnant la vidéo. Ainsi, en privilégiant le critère du tempo, le procédé conforme à l’invention permet de proposer de façon extrêmement rapide des échantillons audios compatibles avec une vidéo soumise par un utilisateur.

Dans une réalisation, un échantillon audio est compatible s’il présente une valeur de tempo égale ou proche de la valeur de tempo de la séquence vidéo ou une valeur de tempo égale ou proche d’un multiple ou d’un sous-multiple de la valeur de tempo de la séquence vidéo.

Dans une réalisation, la valeur de tempo calculée pour la séquence vidéo est déterminée par détection d’évènements caractéristiques se produisant au cours de la séquence vidéo, tels que des changements de scène.

Dans une réalisation, la détection d’un évènement caractéristique tel qu’un changement de scène est réalisée par analyse chromatique de chaque image de la séquence vidéo, un changement de scène étant détecté si un changement significatif de couleur est mesuré entre deux images successives.

Dans une réalisation, l’étape de sélectionner parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo comporte une sous-étape de calcul d’un score de compatibilité.

Dans une réalisation, l’étape de synchronisation comporte une sous-étape de modification de la durée de l’échantillon audio pour l’adapter à la durée de la séquence vidéo.

Dans une réalisation, la sous-étape de modification de la durée est réalisée par recombinaison d’une ou plusieurs parties de l’échantillon audio et/ou un ou plusieurs blocs d’une partie de l’échantillon audio.

Dans une réalisation, la recombinaison est réalisée de sorte qu’après modification de la durée, l’échantillon audio recombiné présente une structure analogue à celle de l’échantillon audio initial, et comporte par exemple une partie introductive, suivie d’une partie centrale et d’une partie finale.

Dans une réalisation, l’étape de synchronisation comporte une sous-étape d’adaptation de la durée d’au moins une partie de l’échantillon audio, consistant à diminuer ou augmenter localement la valeur de tempo.

Dans une réalisation, l’étape d’analyse comprend la génération de données caractéristiques relatives à la lumière et/ou de données caractéristiques relatives aux couleurs des images de la séquence vidéo.

Dans une réalisation, l’étape d’analyse comprend la génération de données caractéristiques relatives à la vitesse de déplacement d’objets figurant dans les images de la séquence vidéo.

L’invention concerne également un procédé de génération d’un fichier audio numérique contenant un échantillon audio, comportant les étapes de :

calculer au moins une valeur de tempo de l’échantillon audio ;
générer des données relatives à une structure rythmique de l’échantillon audio, en détectant les mesures constituant l’échantillon audio, et, pour chaque mesure détectée, le nombre de temps qu’elle contient ;
générer des données relatives à une structure musicale de l’échantillon audio, en détectant une ou plusieurs parties constituant l’échantillon audio ;
générer un fichier audio numérique contenant l’échantillon audio et les données générées.

Dans une réalisation, le calcul de la valeur de tempo est réalisé par mise en œuvre d’une étape de détermination itérative.

Dans une réalisation, la valeur de tempo de l’échantillon audio est calculée avec une précision inférieure à +/- 0,1 battement par minute, et de préférence de l’ordre de +/- 0,01 battement par minute.

Dans une réalisation, la détection des mesures constituant l’échantillon audio est réalisée par détection d’une pulsation rythmique.

Dans une réalisation, la détermination de la structure musicale est réalisée par identification d’une ou plusieurs parties parmi :

une partie introductive ;
une partie centrale ;
une partie finale.

L’invention concerne également un procédé de synchronisation tel que défini plus haut, dans lequel les fichiers audios stockés dans la base de données ont préalablement été générés selon un procédé de génération de fichier audio conforme à celui défini ci-dessus.

L’invention concerne également un produit programme d’ordinateur comportant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) processeur, conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé de synchronisation tel que défini plus haut et/ou les étapes d’un procédé de génération de fichiers audios tel que défini ci-dessus.

L’invention concerne également un système de synchronisation pour la mise en œuvre d’un procédé de synchronisation tel que défini plus haut et/ou la mise en œuvre d’un procédé de génération de fichiers audio tel que défini ci-dessus, le système comportant un terminal configuré pour transférer un fichier vidéo contenant un séquence vidéo vers un serveur, le serveur comportant une base de données de fichiers audios numériques contenant des échantillons audios et un processeur pour synchroniser la séquence vidéo transférée par le terminal avec un échantillon audio contenu dans un fichier audio stocké dans la base de données du serveur.

La présente invention sera mieux comprise à la lecture de la description détaillée qui suit, faite en référence aux dessins annexés, dans lesquels :

La est un schéma d’un système configuré pour mettre en œuvre un procédé conforme à l’invention.

La représente les étapes de mise en œuvre d’un procédé conforme à l’invention.

La illustre une première image extraite d’une vidéo lors de l’étape d’analyse réalisée conformément au procédé conforme à l’invention.

La illustre une deuxième image extraite d’une vidéo lors de l’étape d’’analyse réalisée conformément au procédé conforme à l’invention.

La illustre une troisième image extraite d’une vidéo lors de l’étape d’analyse réalisée conformément au procédé conforme à l’invention.

La illustre une troisième image extraite d’une vidéo lors de l’étape d’’analyse réalisée conformément au procédé conforme à l’invention.

La représente une courbe de la valeur de tempo calculée conformément à l’invention pour un échantillon audio.

La représente une table de correspondance entre différentes nuances de couleurs et des tonalités associées.

[Fg. 6] La est un schéma illustrant la mise en œuvre de l’étape de modification de la durée d’un échantillon audio.

La représente un système de synchronisation 1 d’un échantillon audio à une séquence vidéo permettant la mise en œuvre d’un procédé de synchronisation conforme à l’invention. Le système de synchronisation 1 comporte un terminal 10, notamment un terminal local tel qu’un ordinateur ou un dispositif portable (téléphone mobile, tablette, etc.). Le terminal 10 comporte des moyens pour échanger des fichiers et des données avec un serveur 12, par exemple à travers un réseau 14 tel que le réseau Internet dans le cas d’un serveur distant. Le serveur 12 comporte un processeur 16 et une base de données 18 contenant des fichiers audios numériques, chaque ficher audio contenant un échantillon audio (tel qu’un morceau de musique) susceptible d’être associé à une séquence d’images animées, ou séquence vidéo.

La représente des étapes de mise en œuvre du procédé conforme à l’invention.

Le procédé comporte une première étape d’analyse 20 d’une séquence vidéo V, par exemple une séquence vidéo ne comportant pas de bande son soumise par un utilisateur, par exemple au moyen du terminal 10. Lors de cette étape d’analyse 20 est mise en œuvre une étape de génération de données caractéristiques de la séquence vidéo, au moins l’une de ces données caractéristiques étant représentative d’une valeur de tempo Tv. Un exemple de procédé de calcul de cette valeur de tempo Tv est détaillé plus bas. Cette étape est dans l’exemple mise en œuvre par le processeur 16 du serveur 12 de la .

Le procédé comporte ensuite une étape de recherche 21 dans une base de données de fichiers audio numériques, par exemple la base de données 18 du serveur 12. Cette étape de recherche 21 vise à trouver au moins un, et de préférence plusieurs échantillons audios compatibles avec la séquence vidéo, c’est-à-dire des échantillons audios susceptibles d’être associés de façon appropriée à la séquence vidéo soumise par l’utilisateur. À cet effet, on recherche dans la base de données 18 des échantillons audios présentant des caractéristiques compatibles avec les données caractéristiques de la séquence vidéo générées lors de l’étape d’analyse 20. Un échantillon audio sera retenu comme étant potentiellement associable à la séquence vidéo si au moins l’une des caractéristiques compatibles est une valeur de tempo Ta affectée à l’échantillon audio.

Lorsque plusieurs échantillons audios ont été trouvés, on détermine, lors d’une étape de sélection 22, lequel de ces échantillons audios présente la meilleure compatibilité avec la vidéo. De préférence, on calcule, pour chaque échantillon audio, une valeur représentative d’un score de compatibilité. Ainsi, l’échantillon audio qui présente la meilleure compatibilité avec la vidéo soumise par l’utilisateur sera l’échantillon audio E dont la valeur représentative du score de compatibilité est la plus élevée. Avantageusement, le score de compatibilité correspond à la somme d’au moins deux sous-scores, chaque sous-score étant représentatif d’un degré de compatibilité de l’échantillon audio considéré avec la vidéo relativement à un critère donné. De préférence, des coefficients de pondération sont affectés à chacun des sous-scores, le sous-score correspondant à la valeur de tempo étant associé au coefficient de pondération de poids le plus élevé.

Lorsqu’un échantillon audio E a été sélectionné, on associe celui-ci à la séquence vidéo, lors d’une étape de synchronisation 23. Un exemple de mise en œuvre de l’étape de synchronisation 23 est décrit en détail ci-après.

Après l’étape de synchronisation 23, est mise en œuvre une étape de génération 26 d’un fichier vidéo contenant la séquence vidéo synchronisée à l’échantillon audio sélectionné.

Les figures 3a à 3e illustrent des images extraites d’une séquence vidéo, ou séquence d’images animées. La séquence vidéo dont sont extraites ces images dure dans l’exemple 25 secondes.

La illustre une première image extraite de la séquence vidéo, cette image apparaissant 5 secondes après le début de la séquence vidéo. Cette première image fait partie d’un sous-ensemble d’images, formant, parmi l’ensemble des images constituant la séquence vidéo, une première scène. Dans cette scène, on peut par exemple observer, au premier plan, un véhicule automobile 30 se déplaçant sur une route 32. À l’arrière-plan, on peut observer le soleil 34 illuminant l’ensemble de la scène en contre-jour ainsi qu’une ligne de crêtes formée par des massifs montagneux 36 situées à l’arrière-plan. L’illumination en contre-jour crée une zone 38 ombragée à l’arrière du véhicule 30.

Les figures 3b à 3e illustrent quatre images successives extraites de la même séquence vidéo. Ces quatre images font partie d’un deuxième sous-ensemble d’images qui forme, parmi l’ensemble des images constituant la séquence vidéo, une deuxième scène. Dans cette deuxième scène, on peut observer le même véhicule 30 que celui apparaissant dans la première scène. Celui-ci est, dans les figures 3b-3e, vu de haut circulant sur une route 40. Sur l’un des bords de la route, on peut observer, au premier plan des images, l’apparition progressive d’un geyser 42. L’apparition du geyser 42 coïncide avec le déplacement du véhicule, dans le sens où le geyser est à son apogée lorsque le véhicule 30 passe devant celui-ci. Les quatre images représentées sur les figures 3b à 3e apparaissent respectivement 9, 10, 11 et 12 secondes après le début de la vidéo.

On détaille ci-après l’analyse qui est faite de la vidéo dont sont extraites les images des figures 3a à 3e dans le cadre de la mise en œuvre du procédé objet de l’invention, lors de l’étape d’analyse 20.

Lors de l’étape d’analyse, une première donnée caractéristique générée est relative à un ou plusieurs évènements caractéristiques, tels que des changements de scène. Ainsi, lorsqu’une séquence vidéo comporte plusieurs scènes, cette caractéristique sera détectée lors de l’analyse de la séquence vidéo. Dans l’exemple des figures, la distinction entre la première scène ( ) et la deuxième scène (figures 3b, 3c, 3d, 3e) est détectée. Par exemple, la détection d’un évènement caractéristique, tel qu’un changement de scène, est réalisée par comparaison de chaque image de la séquence vidéo avec l’image précédente. La comparaison est effectuée sur la base des caractéristiques chromatiques des images analysées, afin de détecter tout changement significatif entre une image donnée et l’image suivante. Ainsi, la fréquence des occurrences des évènements caractéristiques tels que des changements de scène est mesurée, ce qui permet de calculer une valeur de tempo Tv de la séquence vidéo, de préférence exprimée en battements par minute (bpm).

Comme mentionné ci-dessus, un évènement caractéristique tel qu’un changement de scène peut avantageusement être détecté au moyen d’une comparaison de chaque image constituant la vidéo à l’image précédente. Une séquence vidéo comportant un nombre d’images par seconde significatif (typiquement 24 à 30 images par seconde), l’évolution entre deux images qui se suivent immédiatement est normalement faible, sauf si un changement de scène survient. De préférence, on détermine pour chaque image une couleur dominante dans chacune de plusieurs zones de référence de l’image, le changement de couleur dominante au sein d’une ou plusieurs zones de référence entre une image et la suivante étant détecté. Pour chaque zone de référence de chaque image, une couleur est déterminée comme dominante si elle correspondant par exemple à la couleur majoritaire au sein de la zone de référence. Lorsque d’une image donnée à l’image suivante, il est détecté que la couleur dominante change de façon significative dans une proportion importante ou majoritaire des zones de référence, alors il est déterminé que ce changement correspond à un changement de scène. De préférence, l’ensemble des zones de référence couvre entièrement chaque image analysée. À cet effet, on subdivise chaque image en une pluralité de carrés, chaque carré formant une zone de référence de l’image. Dans l’exemple, chaque image est découpée en carrés de n pixels de côté, n étant notamment inférieur à 100, de préférence inférieur 50 et par exemple égal à 16. Lorsque l’ensemble des changements de scène de la vidéo ont été détectés, il est possible de calculer une valeur de tempo Tv de la vidéo. À cet effet, connaissant la valeur de temps de chaque changement de scène, il est possible de déterminer une grille de tempo qui correspond le plus fidèlement possible aux changements de scène, c’est-à-dire de déterminer une ou plusieurs valeurs de tempo de la vidéo telles que les changements de scène surviennent sur un temps, de préférence sur un temps fort.

Avantageusement, une deuxième donnée caractéristique générée lors de l’étape d’analyse 20 est relative aux couleurs présente dans la vidéo. On détermine par exemple la ou les couleurs dominantes au sein d’une ou plusieurs zones de chaque image constituant la vidéo, et l’on génère des données caractéristiques de la vidéo liées à ces couleurs dominantes (par exemple, couleurs claires ou sombre, froides ou chaudes, etc.)

Avantageusement, une troisième donnée caractéristique générée lors de l’étape d’analyse 20 est relative à une tonalité musicale de la vidéo. Dans l’exemple, pour affecter une tonalité musicale à une vidéo analysée, on utilise une table de correspondance entre, d’une part, des nuances de couleurs, et, d’autre part, des tonalités musicales. La montre un exemple d’une telle table de correspondance, sous la forme d’un cercle chromatique 5 dans lequel chaque nuance de couleur, correspondant à l’un des secteurs I à XII du cercle chromatique, est associée de façon unique à une tonalité musicale. Dans l’exemple les associations sont les suivantes :

la couleur magenta (secteur I) est associée la tonalité de C/Do ;
la couleur rouge (secteur II) est associée à la tonalité de G/Sol ;
la couleur orange (secteur III) est associée la tonalité de D/Ré ;
la couleur jaune orangé (secteur IV) est associée à la tonalité de de A/La ;
la couleur jaune (secteur V) est associée la tonalité de E/mi ;
la couleur jaune-vert (secteur VI) est associée la tonalité de B/Si ;
la couleur vert (secteur VII) est associée la tonalité de G bémol/Sol bémol ;
la couleur bleu-vert (secteur VIII) est associée la tonalité de D bémol/Ré bémol ;
la couleur Cyan (secteur IX) est associée la tonalité de A bémol/La bémol ;
la couleur bleu-violet (secteur X) est associée la tonalité de E bémol/Mi bémol)
la couleur violet (secteur XI) est associée la tonalité de B bémol/Si bémol ;
la couleur violet rouge (secteur XII) est associée la tonalité de F/Fa.

Avantageusement, une quatrième donnée caractéristique générée lors de l’étape d’analyse 20 est relative à la lumière de chaque image constituant la vidéo. Par exemple, dans le cas de l’image représentée sur la , les différences de luminosité entre les zones illuminées par le soleil et les zones ombragées sont mesurées lors de l’analyse de la vidéo. Le résultat de cette analyse pourra être utilisé pour la détermination d’un ou plusieurs sous-scores de compatibilité, comme détaillé plus bas.

Avantageusement, une cinquième donnée caractéristique générée lors de l’étape d’analyse 20 est relative au déplacement d’objets au sein des images constituant la vidéo, et notamment à la vitesse de déplacement de ces objets. Par exemple, dans les figures 3a à 3e, l’analyse de la vidéo permet de détecter le déplacement d’un objet (tel que le véhicule 30 ou le geyser 42), et de déterminer la vitesse de ce déplacement. Le résultat de cette analyse peut être utilisé pour le calcul d’une valeur de tempo Tv de la vidéo, comme détaillé plus bas. Le résultat de cette analyse peut en outre être utilisé pour la détermination d’un ou plusieurs sous-scores de compatibilité, comme détaillé plus bas.

Afin garantir la meilleure performance du système et du procédé conformes à l’invention, il est préférable de disposer d’une base de données de fichiers audios dont le contenu a été préalablement analysé, afin de générer des données caractéristiques facilitant l’association ultérieure des échantillons audios lors de l’étape d’analyse d’une vidéo. L’étape d’analyse préalable d’un échantillon audio a pour but de générer des données caractéristiques de cet échantillon audio, ces données caractéristiques permettant ultérieurement de déterminer si cet échantillon peut être associé à une vidéo en cours d’analyse.

Une première donnée caractéristique générée est une valeur de tempo Ta de l’échantillon audio, de préférence exprimé en bpm, ou battements par minute. Il est primordial que la valeur de tempo Ta calculée pour un échantillon audio lors de l’analyse préliminaire soit calculée de la manière la plus précise possible. Si l’échantillon audio considéré est un morceau de musique, la valeur de tempo donné par les algorithmes connus (par exemple par les logiciels d’analyse musicale) ne sera pas assez précise. En effet, les algorithmes conventionnels analysent un morceau de musique pour détecter des temps forts (en analysant notamment les variations d’énergie produite). Or, une telle analyse est par nature imprécise car le pic d’énergie généré par un instrument de musique lors de la production d’une note de musique dépend fortement du timbre de l’instrument. Ainsi, lorsque plusieurs instruments sont joués ensemble de façon à produire simultanément une note, les pics d’énergie produits par chacun des instruments ne coïncideront pas si l’on mesure avec un grand niveau de précision (par exemple au niveau de la milliseconde). Afin de pouvoir calculer une valeur de tempo qui soit suffisamment précise pour permettre la mise en œuvre du procédé objet de l’invention, on détermine une valeur de tempo la plus probable en mettant en œuvre une étape de détermination itérative. Par exemple, on prend une valeur initiale égale à la valeur donnée par un algorithme classique, puis l’on vérifie si cette valeur correspond avec la précision voulue à la valeur de tempo de l’échantillon audio, en détectant les décalages éventuels entre cette valeur théorique et les temps détectés dans l’échantillon audio. La valeur de tempo pouvant varier au cours d’un échantillon audio, on réalise un grille de valeur de tempo telle que celle représentée à la . La montre le résultat de l’analyse du tempo d’un échantillon audio réalisée conformément à l’invention. La montre ainsi une succession de points représentant la valeur de tempo calculée tout au long de l’échantillon audio. On observe ainsi que le tempo du morceau de musique auquel correspond l’échantillon audio présente un certain nombre d’irrégularités, ces irrégularités étant visibles du fait de la précision de mesure de la valeur de tempo. De préférence, la valeur de tempo est déterminée avec une précision inférieure à +/-0,1 bpm et de préférence de l’ordre +/- 0,01 bpm.

Une deuxième donnée caractéristique générée est relative à la structure rythmique de l’échantillon audio, et plus particulièrement à la structure des mesures au sein de l’échantillon audio. La génération de cette donnée caractéristique permet de connaitre le nombre de temps constituant une mesure (par exemple 2 temps, 3 temps, 4 temps, etc.). On utilise pour cela un algorithme d’analyse musicale (par exemple un algorithme de type « MIR » pour « music information retrieval »). L’analyse est notamment basée sur le principe qu’une mesure comportant plus d’un temps comporte nécessairement un ou plusieurs temps forts et un ou plusieurs temps faibles, et que le premier temps d’une mesure est obligatoirement un temps fort. L’analyse visant à détecter le nombre de temps d’une mesure au sein d’un morceau de musique est complexe, et les algorithmes connus présentent généralement une fiabilité moyenne. Afin d’améliorer la fiabilité de la détection, cette étape est de préférence mise en œuvre en utilisant au moins trois algorithmes différents. Ainsi, si les résultats fournis par les algorithmes diffèrent, la valeur retenue sera celle qui est majoritaire parmi les résultats. Par exemple, si deux des algorithmes utilisés donnent un résultat identique et que le troisième algorithme donne un résultat différent, alors la valeur retenue sera celle donnée par les deux premiers algorithmes. Bien entendu, si les trois algorithmes donnent un résultat identique, c’est ce résultat qui sera retenu.

Une troisième donnée caractéristique générée est relative à l’identification de la structure de l’échantillon audio, c’est-à-dire son organisation temporelle. Lorsque l’échantillon audio est un morceau de musique, sa structure pourra généralement être décomposée en différentes parties, parmi lesquels, par exemple : une ou plusieurs parties introductives, une ou plusieurs parties intermédiaires ou centrales, et une ou plusieurs parties finales. Par exemple, comme montré sur la , un échantillon audio E correspondant à un titre musical pourra être constitué d’une partie introductive E1, d’une partie centrale E2 et d’une partie finale E3 ou conclusion. La partie centrale E2 pourra être composée d’un certain nombre d’éléments E20, E22, E24, E26, E28, ou blocs, correspondant à des sous-ensembles musicaux tels que : un ou plusieurs refrains, un ou plusieurs couplets, un ou plusieurs ponts, etc. L’ensemble des parties E1, E2, E3 et, le cas échéant, des éléments E20-E28 composant ces parties est analysé et reconnu. Le but de cette étape est de déterminer précisément la structure de l’échantillon E analysé, afin d’être en mesure, lors de l’association et la synchronisation ultérieures de cet échantillon E à une séquence vidéo V, de recombiner certaines des parties E1, E2, E3 et/ou certains des éléments E22-E28 constituant certaines parties de l’échantillon audio E, afin d’en modifier la durée t3. Cette recombinaison permet d’obtenir un deuxième échantillon audio, ou échantillon audio recombiné ER1, de durée t2 différente de l’échantillon audio E de départ, mais qui conserve une structure musicale analogue avec au moins une partie introductive E1, une partie centrale E2 et une partie finale E3. Si l’on doit diminuer la durée de l’échantillon de départ pour l’adapter à la durée de la séquence vidéo, on pourra, comme dans l’exemple de la , conserver intactes la partie introductive E1 et la partie finale E3, et diminuer la durée de la partie centrale E2 en ne conservant qu’une partie des éléments (ou blocs) la composant, par exemple en ne conservant qu’un seul couplet et un seul refrain parmi un ensemble de plusieurs couplets et refrains. Dans l’exemple l’échantillon audio recombiné ER1 comporte, dans la partie centrale, uniquement les éléments E20, E22, et E24. Si l’on souhaite augmenter la durée de l’échantillon de départ, on pourra par exemple conserver intactes la partie introductive E1 et la partie finale E3, et augmenter la durée de la partie centrale E2 en dupliquant tout ou partie des éléments E20-E28 la constituant, ce qui reviendra ainsi à répéter un ou plusieurs couplets et/ou un ou plusieurs refrains et/ou un ou plusieurs ponts. Comme montré sur la , on pourra également prévoir une étape d’adaptation 25 de la durée de l’échantillon audio, en modifiant localement la valeur de tempo Ta. Dans l’exemple de la , la durée de l’échantillon recombiné ER1 est modifiée pour obtenir un deuxième échantillon recombiné ER2, dont la durée t1 est ajustée à celle de la séquence vidéo, par diminution de la durée de l’élément E24, en augmentant la valeur de tempo au sein de cet élément uniquement.

On décrit ci-après plus en détail les possibilités de mise en œuvre de l’étape de recherche 21 d’échantillons audios compatibles avec une séquence vidéo. Lors de cette étape, on recherche, dans la base de données 18 de fichiers audios, au moins un, et de préférence plusieurs échantillons audios présentant des caractéristiques compatibles avec les données caractéristiques générées pour la séquence vidéo, parmi lesquelles la valeur de tempo Tv. De préférence, on recherche en premier lieu tous les échantillons audios dont la valeur de tempo Ta est compatible avec la valeur de tempo Tv calculée pour la vidéo. Une valeur de tempo Ta d’un échantillon audio est évaluée comme compatible si elle est un multiple ou un sous-multiple de la valeur de tempo Tv calculée pour la séquence vidéo, ou un multiple ou un sous-multiple d’une valeur proche de cette valeur de tempo Tv calculée. Par exemple, si la valeur de tempo Tv calculée pour la séquence vidéo analysée est égale à 120 battements par minute (bpm), alors des échantillons audios présenteront une valeur de tempo compatible si celle-ci est égale, notamment, à 60, 120, 180 ou 240 bpm. De préférence, on cherchera des échantillons audios sur la base d’une valeur de tempo égale ou proche. Par exemple, si la vidéo présente une valeur tempo déterminée comme égale à 119 bpm, on recherchera des échantillons audios compatibles avec une valeur de tempo égale ou proche de 119, par exemple comprise entre 117 et 121 bpm ou correspondant à un multiple ou un sous-multiple des valeurs comprises entre 117 et 121. Ainsi, on recherchera des échantillons audios ayant une valeur de tempo compatible avec une valeur de tempo située dans une plage de +/- 5% autour de la valeur de tempo Tv de la vidéo, et de préférence dans une plage de +/- 3% autour de cette valeur. Pour déterminer une valeur de tempo d’échantillon audio à rechercher préférentiellement parmi les valeurs correspondant aux multiples et sous-multiples de la valeur de tempo Tv de la vidéo, on pourra utiliser d’autres données caractéristiques, telles que la vitesse des objets mentionnée plus haut.

Pour déterminer quels échantillons audios présentent la meilleure compatibilité, on détermine de préférence, pour chaque échantillon dont la valeur de tempo Ta est compatible, une valeur représentative d’un score de compatibilité. De préférence, le score de compatibilité correspond à la somme d’au moins deux sous-scores de compatibilité, chaque sous-score étant représentatif de la compatibilité de l’échantillon audio considéré avec la vidéo relativement à un critère donné. De préférence, des coefficients de pondération sont affectés à chacun des sous-scores, le sous-score correspondant à la valeur de tempo étant associé au coefficient de pondération de poids le plus élevé.

Dans l’exemple, le score de compatibilité est calculé sur la base des sous-scores suivants, classés par ordre d’importance préférentiel :

un premier sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis de la valeur de tempo affectée à la vidéo ;
un deuxième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis des couleurs présentes dans la vidéo ;
un troisième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’une tonalité musicale affectée à la vidéo ;
un quatrième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un genre musical affecté à la vidéo (par exemple : classique, jazz, rock, etc.), le genre musical étant déterminé par exemple sur la base du rythme des changements de scène et/ou de la vitesse de déplacement des objets dans la vidéo ;
un cinquième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un type d’ambiance affecté à la vidéo (par exemple : suspense, triste, drôle, etc.), par exemple sur la base des couleurs dominantes présentes dans la vidéo (couleurs sombres ou claires, froides ou chaudes, etc.).
un sixième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un sous-genre musical (par exemple baroque ou romantique pour la musique classique, jazz cool ou jazz be-bop pour le jazz, etc.)

Lorsque plusieurs échantillons audios compatibles avec la séquence vidéo ont été trouvés, on sélectionne, comme décrit plus haut l’échantillon audio présentant la meilleure compatibilité, c’est-à-dire l’échantillon audio E présentant le meilleur score de compatibilité.

On met ensuite en œuvre l’étape de synchronisation 23, durant laquelle on synchronise l’échantillon audio à la séquence vidéo. Si nécessaire, lors de l’étape de synchronisation, l’échantillon audio E retenu peut être modifié, notamment pour augmenter ou diminuer la durée de certaines parties, respectivement en diminuant ou en augmentant localement la valeur de tempo. Cette modification peut être utile afin de caler de manière très précise des temps forts de l’échantillon audio sur des « temps forts » de la vidéo, tels qu’un changement de scène. Si la durée de l’échantillon audio doit être adaptée, par exemple parce que la durée de la vidéo est significativement inférieure à la durée de l’échantillon audio retenu comme étant le meilleur candidat, une étape de modification 24 de la durée de l’échantillon audio est réalisée. Ainsi que décrit plus haut, cette étape peut être réalisée en recombinant des parties et/ou des éléments de parties de l’échantillon audio, que ce soit pour diminuer ou allonger la durée de l’échantillon audio de départ.

Le procédé conforme à l’invention comporte après l’étape de synchronisation 23 une étape de génération 26 d’un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio E. Le fichier généré peut être transféré depuis le serveur 12 vers le terminal 10, afin d’être lu et/ou téléchargé par l’utilisateur. Le procédé et le système conformes à l’invention sont adaptés à tous types de format de fichiers audios et vidéos, et notamment aux formats suivants :

format de fichiers audios vidéos : Mp4, AVI, MPEG, Mov, m4v, mkv, wmv, webm, etc. ;
format de fichier audios: m4a, mp3, wav, flac, aiff, etc.

On a décrit ci-dessus la mise en œuvre du procédé conforme à l’invention avec une séquence vidéo ne comportant pas de son. Bien entendu si la séquence vidéo initiale est associée à une bande son, l’étape de synchronisation sera précédée d’une étape préalable de suppression de la bande son.

Claims

Procédé de synchronisation d’un échantillon audio avec une séquence d’images animées, ou séquence vidéo, le procédé comportant les étapes de :
analyser (20) la séquence vidéo pour générer des données caractéristiques, au moins l’une des données caractéristiques générées étant représentative d’une valeur de tempo (Tv) calculée pour la séquence vidéo ;

rechercher (21), dans une base de données de fichiers audio, un ou plusieurs fichiers audio contenant un échantillon audio présentant une ou plusieurs caractéristiques compatibles avec les données caractéristiques générées de la séquence vidéo, au moins l’une des caractéristiques compatibles étant une valeur de tempo (Ta) de l’échantillon audio considéré ;

sélectionner (22), parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo ;

synchroniser (23) l’échantillon audio sélectionné avec la séquence vidéo ;

générer (26) un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio sélectionné.
Procédé selon la revendication précédente, dans lequel un échantillon audio est compatible s’il présente une valeur de tempo (Ta) égale ou proche de la valeur de tempo (Tv) de la séquence vidéo ou une valeur de tempo égale ou proche d’un multiple ou d’un sous-multiple de la valeur de tempo de la séquence vidéo.
Procédé selon l’une des revendications précédentes, dans lequel la valeur de tempo (Tv) calculée pour la séquence vidéo est déterminée par détection d’évènements caractéristiques se produisant au cours de la séquence vidéo, tels que des changements de scène.
Procédé selon la revendication précédente, dans lequel la détection d’un évènement caractéristique tel qu’un changement de scène est réalisée par analyse chromatique de chaque image de la séquence vidéo, un changement de scène étant détecté si un changement significatif de couleur est mesuré entre deux images successives.
Procédé selon l’une des revendications précédentes, dans lequel l’étape de sélectionner parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo comporte une sous-étape de calcul d’un score de compatibilité.
Procédé selon l’une des revendications précédentes, dans lequel l’étape de synchronisation (23) comporte une sous-étape de modification de la durée (24) de l’échantillon audio (E) pour l’adapter à la durée de la séquence vidéo.
Procédé selon la revendication précédentes, dans lequel la sous-étape de modification de la durée (24) est réalisée par recombinaison d’une ou plusieurs parties (E₁, E₂, E₃) de l’échantillon audio (E) et/ou un ou plusieurs blocs (E₂₀, E₂₂, E₂₄, E₂₆, E₂₈) d’une partie de l’échantillon audio.
Procédé selon la revendications précédente, dans lequel la recombinaison est réalisée de sorte qu’après modification de la durée, l’échantillon audio recombiné (E_R1) présente une structure analogue à celle de l’échantillon audio (E) initial, et comporte par exemple une partie introductive (E₁), suivie d’une partie centrale (E₂) et d’une partie finale (E₃).
Procédé selon l’une des revendications précédentes, dans lequel l’étape de synchronisation (23) comporte une sous-étape d’adaptation (25) de la durée d’au moins une partie (E₂₈) de l’échantillon audio, consistant à diminuer ou augmenter localement la valeur de tempo (Ta).
Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse (20) comprend la génération de données caractéristiques relatives à la lumière et/ou de données caractéristiques relatives aux couleurs des images de la séquence vidéo.
Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse (20) comprend la génération de données caractéristiques relatives à la vitesse de déplacement d’objets (30) figurant dans les images de la séquence vidéo.
Procédé de génération d’un fichier audio numérique contenant un échantillon audio (E), comportant les étapes de :
calculer au moins une valeur de tempo (Ta) de l’échantillon audio ;

générer des données relatives à une structure rythmique de l’échantillon audio, en détectant les mesures constituant l’échantillon audio, et, pour chaque mesure détectée, le nombre de temps qu’elle contient ;

générer des données relatives à une structure musicale de l’échantillon audio, en détectant une ou plusieurs parties (E₁, E₂, E_e3) constituant l’échantillon audio ;

générer un fichier audio numérique contenant l’échantillon audio et les données générées.
Procédé selon la revendication précédente, dans laquelle le calcul de la valeur de tempo (Ta) est réalisé par mise en œuvre d’une étape de détermination itérative.
Procédé selon l’une des revendications 12 à 13, dans lequel la valeur de tempo (Ta) de l’échantillon audio est calculée avec une précision inférieure à +/- 0,1 battement par minute, et de préférence de l’ordre de +/- 0,01 battement par minute.
Procédé selon l’une des revendications 12 à 14, dans lequel la détection des mesures constituant l’échantillon audio est réalisée par détection d’une pulsation rythmique.
Procédé selon l’une des revendications 12 à 15, dans lequel la détermination de la structure musicale est réalisée par identification d’une ou plusieurs parties parmi :
une partie introductive ;

une partie centrale ;

une partie finale.
Procédé de synchronisation selon l’une des revendications 1 à 11, dans lequel les fichiers audios stockés dans la base de données ont préalablement été générés selon un procédé conforme à l’une des revendications 12 à 16.
Produit programme d’ordinateur comportant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) processeur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé de synchronisation selon l’une des revendications 1 à 11 ou selon la revendication 17.
Système de synchronisation (1) pour la mise en œuvre d’un procédé de synchronisation conforme à l’une des revendications 1 à 11 ou conforme à la revendication 17, le système de synchronisation (1) comportant un terminal (10) configuré pour transférer un fichier vidéo contenant un séquence vidéo vers un serveur (12), le serveur (12) comportant une base de données (18) de fichiers audios numériques contenant des échantillons audios et un processeur (16) pour synchroniser la séquence vidéo transférée par le terminal (10) avec un échantillon audio contenu dans un fichier audio stocké dans la base de données (18) du serveur (12).