FR3012906A1

FR3012906A1 - Procede et dispositif de creation d'un contenu audiovisuel

Info

Publication number: FR3012906A1
Application number: FR1360872A
Authority: FR
Inventors: Arthur Dagard; Guillaume Jouannet; Nicolas Lapomarda
Original assignee: EVERGIG MUSIC
Current assignee: FREDERICK MWANGAGUHUNGA, US
Priority date: 2013-11-06
Filing date: 2013-11-06
Publication date: 2015-05-08
Anticipated expiration: 2033-11-06
Also published as: FR3012906B1

Abstract

Ce procédé permet de créer un contenu audiovisuel cible à partir de contenus audiovisuels sources et d'un contenu audio de référence. Il comprend : - une étape de segmentation audio (E200) du contenu audio de référence en éléments audio de référence contigus ; - une étape de segmentation vidéo (E300) d'une composante vidéo des contenus audiovisuels sources en éléments vidéo ; - une étape de recherche (E400), pour chaque élément audio de référence, des sous-éléments vidéo potentiels des éléments vidéo, chacun desdits sous-éléments vidéo potentiels ayant la même plage temporelle que l'élément audio de référence ; - pour les éléments audio de référence pour lesquels l'étape de recherche a eu lieu avec succès, une étape d'association (E700) à cet élément audio de référence d'un sous-élément vidéo potentiel ; - une étape de création de la composante vidéo (E800) du contenu audiovisuel cible à partir des sous-éléments vidéo associés.

Description

12 906 1 Arrière-plan de l'invention L'invention se rapporte au domaine général de la production de contenus audiovisuels. Elle concerne plus précisément le domaine du montage vidéo. De façon connue, le montage vidéo consiste à réaliser la composante visuelle d'un film à partir d'une pluralité de contenus audiovisuels sources tournés dans des conditions différentes de prises de vues. Dans le cas particulier où l'objet du film concerne une représentation culturelle comme par exemple une pièce de théâtre ou un concert, une bande son est également enregistrée de façon indépendante.

De façon traditionnelle, plusieurs étapes sont nécessaires pour réaliser le montage d'un film sur un évènement culturel. Tout d'abord l'ensemble des contenus audiovisuels sources (appelées communément « rushes ») sont visionnés manuellement afin de sélectionner les plus pertinents. Puis les vidéo des rushes sélectionnés sont montées afin d'obtenir la composante vidéo finale du film. Enfin, cette composante vidéo finale est associée à la bande son pour constituer le film définitif. Cette approche traditionnelle présente plusieurs inconvénients majeurs. Tout d'abord, les rushes peuvent avoir un niveau de pertinence en termes de contenu ou de qualité technique très variable, ce qui rend très longue et très fastidieuse l'opération de sélection des vidéos pertinentes parmi les rushes. Ainsi, plusieurs journées de visionnage peuvent être nécessaires pour sélectionner quelques dizaines de minutes de vidéo parmi quelques dizaines d'heures de vidéo. Aujourd'hui avec la banalisation des caméras numériques, la réalisation de rushes n'est plus l'apanage des professionnels. Lors d'un concert, ce sont potentiellement des milliers de fans qui vont réaliser leurs propres contenus audiovisuels et potentiellement les soumettre ensuite sous forme de rushes. Corrélativement le nombre de rushes disponibles pour un même évènement peut être très conséquent mais aussi de qualité encore plus variable. Il n'est ainsi pas rare que le nombre de rushes disponibles dépasse de loin les quelques dizaines d'heures. Un tel volume de rushes ne peut être traité par les méthodes traditionnelles. Ainsi en pratique, le nombre de rushes visionnés reste très limité et de nombreuses vidéos ne sont même pas examinées. Ensuite, la sélection des rushes étant une étape fastidieuse, elle ne s'effectue qu'une seule fois avant l'étape de montage proprement dite. Ainsi, si de nouveaux rushes deviennent disponibles par la suite, ceux-ci ne seront probablement jamais pris en compte quelle que soit leur qualité intrinsèque.

Il existe donc un besoin d'une solution efficace et rapide permettant de réaliser le montage automatique de la composante vidéo d'un film d'un évènement particulier de façon éventuellement itérative et à partir d'un nombre potentiellement très grand de rushes de qualité variable. Objet et résumé de l'invention La présente invention répond notamment à ce besoin en proposant, selon un premier aspect, un procédé de création d'au moins un contenu audiovisuel cible à partir d'une liste de contenus audiovisuels sources et d'un contenu audio de référence comprenant : une étape de segmentation audio du contenu audio de référence en éléments audio de référence contigus ; une étape de segmentation vidéo d'au moins une des composantes vidéo d'au moins un des contenus audiovisuels sources en éléments vidéo ; une étape de recherche, pour au moins un des éléments audio de référence, des sous-éléments vidéo potentiels des éléments vidéo, chacun des sous-éléments vidéo potentiels ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de cette étape de recherche, une première étape d'association par défaut à l'élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun des éléments audio de référence pour lesquels la recherche précédente a eu lieu avec succès, une deuxième étape d'association pour chacun des éléments audio de référence d'un sous-élément vidéo potentiel selon une base de règles ; une étape de création de la composante vidéo globale du contenu audiovisuel cible à partir de l'ensemble des sous-éléments vidéo associés au cours des précédentes étapes d'association.

L'invention propose ainsi de segmenter en morceaux unitaires, appelés éléments audio de référence, le contenu audio de référence puis de rechercher en utilisant une base de règles, pour chacun de ces morceaux unitaires, un extrait vidéo parmi tous les extraits vidéo ayant la même plage temporelle (appelés sous-éléments vidéo potentiels) des composantes vidéo des contenus audiovisuels sources.

La segmentation en éléments audio de référence peut être uniforme (i.e. tous les éléments audio de référence ont la même durée) ou pas. De même, aucune contrainte n'est posée sur la segmentation en éléments vidéo des composantes vidéo des contenus audiovisuels sources. Dans un mode de réalisation particulier de l'invention, on peut choisir, dans un souci de simplification, d'utiliser des segmentations de même durée pour le contenu audio de référence et pour les composantes vidéo des contenus sources. 3012 906 3 De façon avantageuse, lorsque la recherche décrite précédemment échoue (i.e. pour un élément audio de référence donné aucun sous-élément vidéo n'existe), l'invention propose d'associer à l'élément audio de référence concerné un sous-élément vidéo dit de remplissage, garantissant ainsi in fine la fabrication d'une composante vidéo 5 globale continue et sans interruption visuelle. Cette composante vidéo globale est ensuite associée au contenu audio de référence pour constituer le contenu audiovisuel cible. Au sens de l'invention, les règles de sélection d'un sous-élément vidéo prennent en compte des informations relatives à une plage temporelle définie soit exclusivement par l'élément audio de référence pour lequel on recherche un sous- 10 élément vidéo, soit de façon plus large par plusieurs éléments audio de référence. En d'autres termes, dans le premier cas, l'appareillement d'un élément audio avec un sous-élément vidéo est fait indépendamment des caractéristiques des éléments audio ou des sous-éléments vidéo ayant une plage temporelle différente. Dans un mode particulier de réalisation de l'invention, les règles sont 15 assorties d'un poids. Dans le cas où toutes les règles ne peuvent être validées simultanément, les règles ayants des poids plus importants seront appliquées au détriment des règles ayant des poids plus faibles. Les règles de sélection peuvent prendre en compte le contenu esthétique ou informationnel de la vidéo et de l'audio ainsi qu'éventuellement leurs qualités techniques. 20 Dans un mode de réalisation particulier de l'invention, les inventeurs ont avantageusement corrélés ces deux aspects avec le ressenti probable des spectateurs du contenu audiovisuel cible en définissant comme base de règles, les deux prescriptions suivantes : Une règle de sélection par optimisation d'un indicateur de qualité d'une combinaison 25 cible de sous-éléments vidéo parmi toutes les combinaisons possibles de sous- éléments vidéo obtenues en sélectionnant pour chacun des éléments audio de référence pour lesquels l'étape de recherche a eu lieu avec succès un des sous-éléments vidéo potentiels ; une règle d'association pour chacun des éléments audio de référence du sous- 30 élément vidéo potentiel correspondant à la combinaison cible ; Dans un mode particulier de réalisation de l'invention, l'indicateur de qualité prend en compte au moins un indice de qualité audio et vidéo afin de favoriser l'adéquation entre le contenu vidéo et la dynamique rythmique du contenu audio de référence. 3012 906 4 Bien entendu, d'autres indices de qualité peuvent également être pris en compte que ce soit de nature technique ou en variante de nature esthétique. Ainsi on peut définir par exemple : - un indice de qualité de débit calculé à partir des débits de chacun des sous-éléments 5 vidéo formant la combinaison envisagée (l'idée étant d'avantager les vidéos dont le débit est plus important et qui sont ainsi statistiquement de meilleure qualité) ; un indice de qualité de la fréquence d'images calculé à partir de la fréquence d'images de chacun des sous-éléments vidéo formant la combinaison envisagée (afin de favoriser la fluidité des vidéos choisies) ; 10 un indice de qualité des transitions afin de pénaliser les sensations désagréables qui peuvent survenir lors de transitions trop fréquentes d'un contenu audiovisuel source à un autre. Cet indice de qualité des transitions prend ainsi en compte la durée moyenne d'un segment vidéo (un segment vidéo est défini par une suite de sous-éléments vidéo appartenant au même contenu audiovisuel source) et pénalise les 15 coupures qui se produisent au moment d'un régime vidéo permanent. Lorsque plusieurs indices de qualité sont utilisés, l'indicateur de qualité est évalué par exemple comme une combinaison linéaire de ces indices de qualité. Dans un mode de réalisation particulier, l'indice de qualité audio et vidéo est avantageusement évalué sur la base d'étiquettes audio et vidéo, respectivement 20 affectées aux éléments audio de référence et aux sous-éléments vidéo. Dans un mode de réalisation particulier, les inventeurs ont utilisés la dynamique sonore du contenu audio de référence pour classer les différents moments audio en fonction de leur pertinence : en calculant la médiane des différences sonores de chacun des éléments audio de 25 référence ; les différences sonores étant calculées comme la différence entre le niveau sonore maximal et le niveau sonore minimal de l'élément audio de référence ; et en affectant à chacun des éléments audio de référence : - une étiquette audio dite « dynamique haute » si la différence sonore de 30 l'élément audio de référence est supérieure ou égale à la médiane ; et - une étiquette audio dite « dynamique basse » dans le cas contraire ; De cette façon, il est ainsi possible, par exemple dans le cas de l'enregistrement d'un concert, d'identifier les silences et les applaudissements révélés par une dynamique sonore basse et les chansons qui sont caractéristiques d'une dynamique 35 sonore haute. 3012 906 5 Dans un mode de réalisation particulier de l'invention, la qualité esthétique et informationnelle d'un contenu vidéo est évaluée : en déterminant le champ des vitesses de chacun des sous-éléments vidéo potentiels et en affectant, en fonction des caractéristiques de ce champ des vitesses, une 5 étiquette vidéo dite « régime transitoire » ou dite « régime permanent » ; et en affectant, pour les sous-éléments vidéo potentiels auxquels a été précédemment attribuée une étiquette « régime permanent », une étiquette vidéo dite « régime permanent - gros plan » si un visage occupant au moins un certain pourcentage de l'image est détecté et une étiquette vidéo dite « régime permanent - plan large » 10 dans le cas contraire. Dans un mode de réalisation particulier, les informations de dynamique sonore et les informations de cadrage (régime transitoire, plan large, gros plan) son combinées en calculant : - pour chacun des éléments audio de référence un paramètre de qualité audio et 15 vidéo : - égal à 1 si l'élément audio de référence est affecté d'une étiquette audio dite « dynamique haute » et si le sous-élément vidéo potentiel est affecté d'une étiquette vidéo dite « régime permanent - gros plan » ; - égal à 1 si l'élément audio de référence est affecté d'une étiquette audio dite 20 « dynamique basse » et si le sous-élément vidéo potentiel est affecté d'une étiquette vidéo dite « régime permanent - plan large » ; et - égal à 0 dans tous les autres cas ; et un indice de la qualité audio et vidéo en sommant tous les paramètres de qualité audio et vidéo de tous les éléments audio de référence. 25 Le procédé de création décrit précédemment suppose que le contenu audio de référence et les contenus audiovisuels sources sont horodatés suivant le même référentiel temporel. Dans un autre mode particulier de réalisation de l'invention et lorsque les contenus audiovisuels sources contiennent une composante audio, il est possible 30 d'ajouter une étape de synchronisation des contenus audiovisuels sources par rapport au référentiel temporel du contenu audio de référence. En outre, en cas d'échec de cette étape de synchronisation, i.e. lorsqu'il n'est pas possible de synchroniser le contenu audiovisuel source, celui-ci est supprimé de la liste des contenus audiovisuels sources à considérer pour effectuer le montage du contenu audiovisuel cible. 35 Dans un mode particulier de réalisation de l'invention, l'étape de synchronisation d'un contenu audiovisuel source fait intervenir : 3012 906 6 - le calcul d'une signature audio de référence du contenu audio de référence ; - le calcul d'une signature audio source d'au moins une des composantes audio du contenu audiovisuel source ; le calcul d'une information de décalage temporel par comparaison de la signature 5 audio de référence et de la signature audio source ; et le décalage temporel d'une durée de l'information d'horodatage du contenu audiovisuel source pour l'aligner sur le référentiel du contenu audio de référence. Il est à noter que le calcul d'une signature audio est une opération très robuste qui permet de façon très avantageuse de s'affranchir des distorsions sonores qui 10 peuvent exister entre deux contenus audio à synchroniser. Dans un mode de réalisation particulier de l'invention, le calcul de la signature audio est effectué après transformée en ondelettes du contenu audio de référence afin de prendre simultanément en compte, et de façon avantageuse, l'information temporelle et fréquentielle du signal audio. 15 Afin d'améliorer encore la robustesse, il est possible dans un mode particulier de réalisation de l'invention, d'ajouter une étape de validation de la synchronisation qui comprend : l'extraction d'un sous-signal audio du contenu audio de référence commençant à la référence temporelle et de même durée que la composante audio du contenu 20 audiovisuel source ; le calcul de la corrélation entre le sous-signal audio et la composante audio décalée temporellement d'une durée du contenu audiovisuel source ; et la comparaison de la corrélation avec un seuil de pertinence et si la corrélation est inférieure au seuil de pertinence, l'étape de synchronisation est déclarée en échec. 25 De façon avantageuse, cette étape de validation permet de ne pas prendre en compte, lors des étapes ultérieures du montage, des contenus audiovisuels sources qui seraient mal synchronisés avec le contenu audio de référence, garantissant ainsi la bonne qualité audiovisuelle du contenu cible. Dans un mode de réalisation particulier, le procédé de création comprend 30 également une étape de stockage dans une base de données : - du contenu audio de référence, des éléments audio de référence ainsi que de leur(s) étiquette(s) audio ; - de la liste des contenus audiovisuels sources, de leurs sous-éléments vidéo ainsi que de leur(s) étiquette(s) vidéo ; 35 - de la combinaison cible de sous-éléments vidéo et de l'indicateur de qualité associé. 3012 906 7 Au sens de l'invention, le terme « stockage » pour les sous-éléments vidéo et les éléments audio de référence, n'impliquent pas nécessairement la sauvegarde séparée de ces éléments issus d'un processus de segmentation. Le « stockage » des éléments audio de référence peut ainsi se faire en sauvegardant seulement dans la base de 5 données les pointeurs de début et de fin par rapport au contenu audio de référence. Une approche similaire peut être utilisée pour les sous-éléments vidéo. Dans un autre mode de réalisation particulier, le procédé de création peut sauvegarder en outre dans une base de données la composante vidéo globale du contenu audiovisuel cible, voire le contenu audiovisuel cible lui-même. 10 Corrélativement, l'invention vise, selon un deuxième aspect, une base de données contenant : une liste de contenus audio de référence pour chaque contenu audio de référence des informations comprenant : - la segmentation du contenu audio de référence en éléments audio de 15 référence ; au moins une étiquette audio ayant été associée à chaque élément audio de référence ; - une liste de contenus audiovisuels sources dont au moins une composante vidéo est segmentée en sous-éléments vidéo ayant les mêmes plages temporelles que les éléments audio de référence ; au moins une étiquette 20 vidéo ayant été associée à chacun des sous-éléments vidéo ; une combinaison de sous-éléments vidéo et un indicateur de qualité associé obtenu au moins à partir des étiquettes audio et vidéo précédentes. Cette base de données est remarquable en ce qu'elle permet d'obtenir à partir de la combinaison sauvegardée de sous-éléments vidéo (complétée si nécessaire 25 de sous-élément vidéo dit de « remplissage »), par exemple par concaténation des sous- éléments vidéo, la composante vidéo du contenu audiovisuel cible, et partant le contenu audiovisuel cible lui-même. Dans un mode particulier de réalisation, la base de données selon l'invention est obtenue par le procédé de création d'un contenu audiovisuel décrit précédemment. 30 D'autre part, cette base de données est également remarquable en ce qu'elle comprend, outre les segmentations associées au contenu audio de référence et aux contenus audiovisuels sources, l'ensemble des étiquettes vidéo et audio qui leurs sont associées. Ainsi, si de nouveaux contenus audiovisuels sources deviennent accessibles, il ne sera pas nécessaire de recommencer les étapes de segmentation et d'assignation 35 d'étiquettes pour les contenus déjà sauvegardés dans la base de données. De cette façon, le procédé de création d'un contenu audiovisuel cible devient itératif. 3012 906 8 Afin de pouvoir réaliser la création du contenu audiovisuel cible de façon itérative, l'invention propose donc, selon un troisième aspect, un procédé de mise à jour des informations liées à un contenu audio de référence dans une base de données telle que décrite précédemment et comprenant : 5 une première étape d'extraction de la base de données des éléments audio de référence ; au moins une étape d'ajout dans la base de données d'un nouveau contenu audiovisuel source associé à un contenu audio de référence et comprenant : - une étape de segmentation vidéo d'au moins une des composantes vidéo du 10 nouveau contenu audiovisuel source en éléments vidéo; - une étape de recherche pour au moins un des éléments audio de référence, des sous-éléments vidéo des éléments vidéo, chacun des sous-éléments vidéo ayant la même plage temporelle que cet élément audio de référence ; ^ en cas de succès de la recherche, une étape d'affectation vidéo pour 15 chacun des sous-éléments vidéo d'au moins une étiquette vidéo ; et une première étape d'enregistrement dans ladite base de données du nouveau contenu audiovisuel source, de ces sous-éléments vidéo ainsi que des étiquettes vidéo associées. Lorsque de nouveaux contenus audiovisuels sources sont disponibles, 20 l'invention propose ainsi de les intégrer dans le procédé de création du contenu audiovisuel cible. Dès leur réception, la synchronisation des contenus audiovisuels sources avec le contenu audio de référence est vérifiée, et le cas échéant, une étape facultative de synchronisation est effectuée. Les composantes vidéo des contenus audiovisuels sources sont ensuite segmentées et au moins une étiquette vidéo est 25 attribuée à chacun des sous-éléments vidéo. Les contenus ainsi segmentés et les étiquettes vidéo qui leurs sont associées sont alors sauvegardés dans la base de données. Puis, de façon régulière ou lorsqu'un certain nombre de nouveaux contenus audiovisuels sources ont été reçus, traités et sauvegardés, la création d'une nouvelle 30 composante vidéo cible est réalisée selon un procédé comprenant : une deuxième étape d'extraction de la base de données : - des sous-éléments vidéo de tous les contenus audiovisuels sources stockés et de leur au moins une étiquette vidéo ; et - de l'indicateur de qualité ; 35 associés audit contenu audio de référence ; 3012 906 9 une étape de recherche pour au moins un des éléments audio de référence, des sous-éléments vidéo potentiel ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de ladite étape de recherche, une première étape 5 d'association par défaut à cet élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun des éléments audio de référence pour lesquels la recherche a eu lieu avec succès, une deuxième étape d'association a cet élément audio de référence d'un desdits sous-éléments vidéo potentiels selon une base de règles ; l'ensemble des 10 sous-éléments vidéo ainsi associés formant une nouvelle combinaison cible ; Une étape de calcul du nouvel indice de qualité obtenu au moins à partir des dites étiquettes audio et vidéo correspondant à la nouvelle combinaison cible si le nouvel indicateur de qualité est supérieur à l'indicateur de qualité, une étape de modification dans la base de données : 15 ^ de l'indicateur de qualité par le nouvel indicateur de qualité ; et ^ de la combinaison cible par la nouvelle combinaison cible ; En d'autres termes, le procédé de mise à jour récupère dans la base de données l'ensemble des segmentations disponibles et les étiquettes audio ou vidéo qui leurs sont associées. A ce stade, aucune analyse nouvelle de la composante audio de 20 référence ou des contenus audiovisuels sources n'est effectuée. Le procédé de mise à jour effectue un nouveau montage vidéo en utilisant les informations pertinentes (segmentations et étiquettes audio et vidéo associées) obtenues précédemment pour choisir, suivant une base de règles, la nouvelle combinaison possible de sous-éléments vidéo. 25 Cette nouvelle combinaison de sous-éléments vidéo est sauvegardée dans la base de données si et seulement si elle permet d'obtenir une nouvelle composante vidéo globale ayant une meilleure qualité au sens de l'invention que celle qui est actuellement fournie par la base de données. Le cas échéant, dans un mode particulier de réalisation de l'invention, l'actuelle composante vidéo globale associée au contenu audio de 30 référence est remplacée dans la base de données par la nouvelle composante vidéo globale du contenu audiovisuel cible. De façon très avantageuse, ce mode particulier de réalisation de l'invention permet, dès réception de quelques contenus audiovisuels sources, de créer un premier contenu cible, puis de l'améliorer lorsque cela est possible au fur et à mesure de la mise 35 à disposition de nouveaux contenus audiovisuels sources.

Dans un mode particulier de réalisation, les différentes étapes du procédé de création d'un contenu audiovisuel cible à partir d'un contenu audio de référence et d'une liste d'un ou plusieurs contenus audiovisuels sources d'un même évènement et du procédé de mise à jour d'une base de données selon l'invention sont déterminées par des instructions de programmes d'ordinateurs. En conséquence, l'invention vise aussi un programme d'ordinateur sur un support d'informations, ce programme étant susceptible d'être mis en oeuvre dans un dispositif de création d'un contenu audiovisuel cible ou de mise à jour d'une base de données selon l'invention ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en oeuvre des étapes d'un procédé de création d'un contenu audiovisuel cible ou de mise à jour d'une base de données tel que décrit ci-dessus. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de codes source, codes objet, ou de codes intermédiaires entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable. L'invention vise aussi un support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur. D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet. Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. L'invention vise également, selon un quatrième aspect, un dispositif de création d'au moins un contenu audiovisuel cible à partir d'une liste de contenus audiovisuels sources et d'un contenu audio de référence comprenant : - des moyens de segmentation audio du contenu audio de référence en éléments audio de référence contigus ; 3012 906 11 des moyens de segmentation vidéo d'au moins une des composantes vidéo d'au moins un des contenus audiovisuels sources en éléments vidéo ; des moyens de recherche, pour au moins un des éléments audio de référence, des sous-éléments vidéo potentiels des éléments vidéo, chacun des sous-éléments vidéo 5 potentiels ayant la même plage temporelle que cet élément audio de référence ; en cas d'échec de cette recherche, des premiers moyens d'association par défaut à l'élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun des éléments audio de référence pour lesquels la recherche précédente 10 a eu lieu avec succès, des deuxièmes moyens d'association pour chacun des éléments audio de référence d'un sous-élément vidéo potentiel selon une base de règles ; des moyens de création de la composante vidéo globale du contenu audiovisuel cible à partir de l'ensemble des sous-éléments vidéo associés au cours des étapes 15 d'association précédentes. Selon un cinquième aspect, l'invention vise également un dispositif de mise à jour des informations liées à un contenu audio de référence dans une base de données selon l'invention et comprenant : - des premiers moyens d'extraction de la base de données des éléments audio de 20 référence ; - des moyens d'ajout dans la base de données d'au moins un nouveau contenu audiovisuel source associé au contenu audio de référence et comprenant : - des moyens de segmentation vidéo d'au moins une des composantes vidéo du nouveau contenu audiovisuel source en éléments vidéo; 25 - des moyens de recherche pour au moins un des éléments audio de référence, des sous-éléments vidéo des éléments vidéo, chacun des sous-éléments vidéo ayant la même plage temporelle que cet élément audio de référence ; ^ en cas de succès de la recherche, des moyens d'affectation vidéo 30 pour chacun des sous-éléments vidéo d'au moins une étiquette vidéo ; - des premiers moyens d'enregistrement dans la base de données du nouveau contenu audiovisuel source, des sous-éléments vidéo ainsi que des étiquettes vidéo associées.

Dans un mode particulier de réalisation de l'invention, le dispositif de mise à jour des informations liées à un contenu audio de référence dans une base de données selon l'invention comprend également : des deuxièmes moyens d'extraction de la base de données : - des sous-éléments vidéo de tous les contenus audiovisuels sources stockés et de leur au moins une étiquette vidéo ; et de l'indicateur de qualité ; associés au contenu audio de référence ; des moyens de recherche pour au moins un des éléments audio de référence, des sous-éléments vidéo ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de cette recherche, des premiers moyens d'association par défaut à cet élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun des éléments audio de référence pour lesquels la recherche précédente a eu lieu avec succès, des deuxièmes moyens d'association a cet élément audio de référence d'un sous-élément vidéo selon une base de règles ; l'ensemble desdits sous-éléments vidéo ainsi associés formant une nouvelle combinaison cible ; des moyens de calcul du nouvel indice de qualité obtenu au moins à partir des étiquettes audio et vidéo de la nouvelle combinaison cible : - si le nouvel indicateur de qualité est supérieur à l'indicateur de qualité, des moyens de modification dans la base de données : ^ de l'indicateur de qualité par le nouvel indicateur de qualité ; et ^ de la combinaison cible par la nouvelle combinaison cible ; Les dispositifs décrits bénéficient des mêmes avantages, cités précédemment, que les procédés auxquels ils correspondent. Brève description des dessins Des caractéristiques et avantages particuliers de la présente invention ressortiront de la description détaillée faite aux figures dans lesquelles : - la figure 1 illustre un exemple d'architecture matérielle d'un dispositif de création d'un contenu audiovisuel selon l'invention ; - la figure 2 représente, dans une variante d'implémentation, sous forme d'un ordinogramme les principales étapes d'un procédé de création d'au moins un contenu audiovisuel cible conforme à l'invention ; la figure 3 représente un contenu audio de référence, une pluralité de composantes vidéo de contenus audiovisuels sources et les segmentations qui leurs sont associées ; - la figure 4 représente sous forme d'un ordinogramme les règles principales de sélection, par optimisation d'un indicateur de qualité, d'une combinaison cible de sous-éléments vidéo ; la figure 5 représente sous forme d'un ordinogramme les étapes principales de calcul d'une étiquette audio associée à un élément audio de référence ; la figure 6 représente sous forme d'un ordinogramme les étapes principales de calcul d'une étiquette vidéo associée à un sous-élément vidéo source ; la figure 7 représente sous forme d'un ordinogramme les étapes principales de synchronisation du contenu audio de référence et des contenus audiovisuels sources. la figure 8 illustre un exemple d'architecture matérielle d'un dispositif de mise à jour des informations liées à un contenu audio de référence dans une base de données selon l'invention ; la figure 9 représente, dans une variante d'implémentation, sous forme d'un ordinogramme les étapes principales d'un procédé de mise à jour dans une base de données par ajout de nouveaux contenus audiovisuels sources ; la figure 10 représente, dans une variante d'implémentation, sous forme d'un ordinogramme les étapes principales d'un procédé de mise à jour dans une base de données de la combinaison cible de sous-élément vidéo associée à un contenu audio de référence. Description détaillée de l'invention L'invention comporte deux variantes principales de réalisation. Elles sont décrites ci-après dans le cas particulier où l'évènement culturel considéré est un concert donné par un chanteur. La liste des contenus audiovisuels sources est dans ce cas constituée par un ensemble de vidéos tournées par les spectateurs de ce concert, tandis que le contenu audio de référence est une bande son enregistrée de façon indépendante par l'organisateur du concert. Dans la première variante de réalisation décrite ici, le dispositif de création 1 d'un contenu audiovisuel cible dispose de l'architecture matérielle d'un ordinateur, telle qu'illustrée schématiquement à la figure 1. Ainsi le dispositif de création 1 comporte notamment un processeur 1A, une mémoire morte 1B, une mémoire vive 1C, une mémoire non volatile 1D et des moyens de communication 1E avec un réseau de télécommunications et avec divers périphériques, dont des bases de données 10 et 11. Ces moyens de communication 1E intègrent par exemple une carte réseau, connue en soi et non détaillée ici.

Dans un mode particulier de réalisation, les bases de données 10 et 11 peuvent être intégrées au dispositif et mémorisées dans la mémoire non volatile 1D. La mémoire morte 1B du dispositif de création 1 constitue un support d'enregistrement lisible par le processeur lA et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de création d'un contenu audiovisuel cible conforme à l'invention, les étapes de ce procédé de création étant décrites ultérieurement dans un mode particulier de réalisation. Ce programme d'ordinateur définit de façon équivalente des modules fonctionnels du dispositif de création, tels que notamment un module de segmentation audio 1B1, un module de segmentation vidéo 1B2, un module de recherche 1B3, un premier module d'association 1B4, un deuxième module d'association 1B5 et un module de création 1B6. Nous allons maintenant décrire, en référence à la figure 2, les principales étapes d'un procédé de création d'un contenu audiovisuel cible selon la première variante de réalisation de l'invention dans lequel il est mis en oeuvre par un dispositif de création 1. On suppose que le dispositif de création 1 a acquis à l'aide de ses moyens de communication 1E, un contenu audio de référence et une liste d'un ou de plusieurs contenus audiovisuels sources concernant un même évènement.

La figure 3 représente le contenu audio de référence 0, une pluralité de composantes vidéo 2, 3 de contenus audiovisuels sources et les segmentations qui leurs sont associées. Dans la mise en oeuvre décrite ici en référence aux figures 2 et 3, le dispositif de création 1 synchronise chacun des contenus audiovisuels sources avec le contenu audio de référence 0 lors d'une étape E100. En effet, bien que la plupart des caméras actuelles disposent d'une fonction d'horodatage des contenus audiovisuels, il n'est pas rare en pratique que cette information ne soit pas fiable (par exemple si la caméra n'a pas été correctement mise à l'heure) ou ne soit pas conservée après la prise de vues. Bien entendu, l'étape E100 est optionnelle dans un mode de réalisation particulier pour lequel l'information d'horodatage des contenus audiovisuels serait fiable et disponible.

Un exemple détaillé de mise en oeuvre de l'étape E100 est illustré de façon non limitative à la figure 7, décrite ultérieurement. L'étape de synchronisation E100 est suivie d'une étape de segmentation audio E200 du contenu audio de référence 0 en éléments audio de référence contigus 4.1 à 4.10. Dans le mode de réalisation décrit ici, la segmentation audio du contenu audio de référence est effectuée de façon uniforme, i.e. chaque élément audio de référence est contigu et de même durée (d). De la même manière au moins une composante vidéo de chacun des contenus audiovisuels sources est segmentée de façon uniforme, par le dispositif de création 1 lors d'une étape E300, en éléments vidéo sources 5.1 à 5.2 et 6.1 à 6.8. Il est à noter que, bien que dans l'exemple de la figure 3, les sous-éléments vidéo sont contigus et que les segmentations obtenues sont uniformes au sein d'une même composante vidéo, aucune de ces deux conditions n'est indispensable.

Le dispositif de création établit ensuite pour un premier élément audio de référence choisi à l'étape E350, lors d'une étape de recherche E400, la liste des sous-éléments vidéo potentiels ayant la même plage temporelle. La définition de la plage temporelle est faite par rapport au référentiel temporel du contenu audio de référence. La figure 3 présente le résultat de cette recherche dans deux cas particuliers. Ainsi l'élément audio de référence 4.5 est associé aux deux sous-éléments vidéo potentiels 7.5 et 8.4. Par contre, l'élément audio de référence 4.10 n'est associé à aucun sous-élément vidéo potentiel. Dans ce dernier cas, correspondant à l'échec de la recherche précédente, testé à l'étape E450, l'élément audio de référence est associé à un sous-élément vidéo dit de « remplissage » lors d'une étape E500. Le sous-élément vidéo de « remplissage » est choisi dans une base de données 10 en fonction d'une base de règles prédéfinies. Par exemple, le sous-élément vidéo de remplissage peut être constitué d'une image fixe, d'une petite vidéo animée du visage du chanteur ou de tout autre élément pertinent en fonction de l'utilisation potentielle du contenu audiovisuel cible.

S'il existe encore au moins un autre élément audio de référence qui doit être analysé (réponse oui à l'étape E600), un nouvel élément audio de référence est sélectionné (étape E650) par le dispositif de création 1 et le processus schématisé par les étapes E400 à E600 est répété. Dans le mode de réalisation préféré de l'invention, tous les éléments audio de référence sont analysés. 3012 906 16 Pour tous les éléments audio de référence pour lesquels la recherche à l'étape E400 a été faite avec succès, il est associé un unique sous-élément vidéo ayant les mêmes références temporelles par application d'une liste de règles lors de l'étape E700 décrite en détail à la figure 4. 5 Dans la mise en oeuvre décrite ici, les règles, au nombre de deux, sont les suivantes : Une règle de sélection (étape E750) par optimisation d'un indicateur de qualité (INDICATEUR-QUAL) d'une combinaison cible de sous-éléments vidéo parmi toutes les combinaisons possibles de sous-éléments vidéo obtenues en sélectionnant pour 10 chacun des éléments audio de référence pour lesquels l'étape de recherche E400 a eu lieu avec succès un des sous-éléments vidéo potentiels ; une règle d'association (étape E760) pour chacun des éléments audio de référence du sous-élément vidéo potentiel correspondant à ladite combinaison cible ; La figure 4 présente en détail le fonctionnement des règles mises en oeuvre 15 à l'étape E700. Pour chaque combinaison possible (étape F100 ou F750), un indicateur INDICATEUR-QUAL de qualité est déterminé par le dispositif de création 1 à l'étape F600. Dans le mode de réalisation décrit ici, l'indicateur INDICATEUR-QUAL de qualité est obtenu par combinaison linéaire des quatre indices de qualité suivants : un indice IND-QUAL-DEBIT de qualité de débit (étape F200) calculé à partir des 20 débits de chacun des sous-éléments vidéo formant la combinaison possible ; un indice IND-QUAL-FREQ de qualité de la fréquence d'images (étape F300) calculé à partir de la fréquence d'images de chacun des sous-éléments vidéo formant la combinaison possible ; un indice IND-QUAL-AV de qualité audio et vidéo (étape F400) dont le calcul est 25 présenté plus en détail ultérieurement ; et un indice IND-QUAL-CUT de qualité des transitions (étape F500).calculé à partir de la combinaison linéaire de quatre paramètres : o la moyenne et l'écart type de la distribution des durées entre deux changements de contenu audiovisuel source au sein de la combinaison 30 possible ; o un paramètre reflétant la stabilité des régimes lors des transitions entre deux contenus audiovisuels sources différents et sélectionnés pour former la combinaison possible ; et o un paramètre d'exhaustivité, favorisant la présence dans la combinaison 35 possible d'au moins un sous-élément vidéo appartenant à chacun des contenus audiovisuels sources. 3012 906 17 Un exemple détaillé de mise en oeuvre de l'étape F400 est illustré de façon non limitative aux figures 5 et 6 décrites ultérieurement. Bien entendu, un nombre différent d'indices et/ou d'autres indices de qualité peuvent être utilisé en combinaison avec l'indice IND-QUAL-AV pour déterminer 5 l'indicateur INDICATEUR-QUAL. Après avoir déterminé les indices de qualité IND-QUAL-DEBIT, IND-QUALFREQ, IND-QUAL-AV et IND-QUAL-CUT, le paramètre INDICATEUR-QUAL représentatif de la qualité de la combinaison envisagée est calculé à l'étape F600, par exemple en effectuant une combinaison pondérée prédéfinie des précédents indices de qualité. 10 Un indicateur de qualité ayant été calculé pour toutes les combinaisons possibles de sous-éléments vidéo potentiels, le dispositif de création 1 sélectionne à l'étape F800 l'une des combinaisons possibles maximisant l'indicateur de qualité. La sélection d'une combinaison cible particulière de sous-éléments vidéo permet d'associer de façon unique un élément audio de référence pour lequel l'étape de 15 recherche E400 a eu lieu avec succès à un unique sous-élément vidéo source lors de l'étape E760. De cette façon, tous les éléments audio de référence sont associés à un et à un seul sous-élément vidéo source. La composante vidéo globale du contenu audiovisuel cible est alors obtenue à l'étape E800, en concaténant, avec ou sans transition vidéo, tous les sous-éléments 20 vidéo associés aux éléments audio de référence lors des étapes précédentes d'association (étapes E500 et E700). Le contenu audiovisuel cible est enfin obtenu en associant la composante audio de référence et la composante vidéo cible. Nous allons maintenant décrire, en référence à la figure 7, un exemple 25 détaillé de mise en oeuvre de l'étape E100 consistant à synchroniser le contenu audio de référence et les contenus audiovisuels sources. Tout d'abord, le signal audio de référence est décomposé sur une base d'ondelettes et une signature caractéristique des coefficients de la décomposition en ondelettes est calculée (étape E110). Il est à noter que l'utilisation des coefficients d'une 30 décomposition en ondelettes permet d'appréhender au mieux les informations temporelles et fréquentielles du signal audio de référence. Le calcul d'une signature d'un signal décomposé sur une base d'ondelettes est bien connu de l'homme du métier et ne sera pas décrit plus avant ici. Une composante audio d'un premier contenu audiovisuel source est 35 sélectionnée (E115, E116). La signature correspondant à sa composante audio est alors calculée (étape E120) de façon analogue à la signature du contenu audio de référence. 3012 906 18 Par comparaison des signatures du contenu audio de référence et de la composante audio du contenu audiovisuel source, l'offset de synchronisation (T) est calculé lors de l'étape E130. Les informations d'horodatage du contenu audiovisuel source sont alors 5 modifiées (étape E140) par décalage temporelle d'une grandeur (T) afin d'effectuer la synchronisation avec le contenu audio de référence. Dans le mode de réalisation décrit ici, la pertinence de la synchronisation réalisée précédemment est validée par un test additionnel. Un sous-signal audio, démarrant à l'instant T et de même durée que le contenu audiovisuel source, du contenu 10 audio de référence est extrait (étape E150), puis est corrélé (étape E160) avec la composante audio du contenu audiovisuel source. Si la corrélation excède un seuil prédéterminée (réponse oui à l'étape E170), la synchronisation réalisée est considérée comme pertinente et le contenu source est conservé par le dispositif de création. Dans le cas contraire (réponse non à l'étape E170), le dispositif de création 1 supprime le 15 contenu audiovisuel source en question de la liste des contenus audiovisuels sources. S'il existe encore au moins un contenu audiovisuel source qui doit être analysé (réponse oui à l'étape E190), un nouveau contenu audiovisuel source est sélectionné (étape E195) et le processus schématisé par les étapes E116 à E190 est répété. 20 Nous allons maintenant décrire un exemple détaillé du calcul à l'étape F400 de l'indice IND-QUAL-AV de qualité audio et vidéo. Cet indice est calculé à partir d'étiquettes audio (respectivement vidéo) attribuées aux éléments audio de référence (respectivement aux sous-éléments vidéo sources). Le calcul des étiquettes audio est présenté ci-après en référence à la figure 25 5. Pour chacun des éléments audio de référence, le dispositif de création 1 calcule le niveau sonore minimal et maximal. Puis la dynamique sonore de l'élément audio de référence est évaluée comme la différence entre le niveau sonore maximal et le niveau sonore minimal de cet élément audio de référence. 30 A partir de ces informations de niveau sonore, le dispositif de création 1 calcule, à l'étape G100 la médiane des dynamiques sonores de tous les éléments audio de référence. Un premier élément audio est alors sélectionné (étape G200). Si la dynamique sonore de cet élément audio est supérieure à la médiane des dynamiques 35 sonores (réponse oui à l'étape G300), une étiquette dite « dynamique haute » est 3 012 906 19 attribuée (étape G400) à cet élément audio de référence. Dans le cas contraire, c'est une étiquette dite « dynamique basse » qui est attribuée (étape G500). S'il existe encore au moins un autre élément audio de référence qui doit être analysé (réponse oui à l'étape G600), un nouvel élément audio de référence est 5 sélectionné (étape G700) et le processus schématisé par les étapes G300 à G600 est répété. Il est à noter que l'attribution d'une étiquette audio à un élément audio de référence n'est nécessaire que pour les éléments audio de référence pour lesquels la recherche de l'étape E400 a été effectuée avec succès. 10 La figure 6 présente sous forme d'un organigramme les étapes principales de calcul d'une étiquette vidéo associée à un sous-élément vidéo source. Un premier sous-élément vidéo source est sélectionné (étape H100) et son champ des vitesses (encore appelé « flow optique ») est calculé lors d'une étape H200. Le champ des vitesses est évalué en prenant deux images de référence (en anglais «key 15 frame ») et en analysant le changement de la distribution spatiale des intensités lumineuses entre les deux images de référence. Les méthodes d'estimations de champ des vitesses sont bien connues de l'homme du métier et ne seront pas décrites plus avant ici. Par analyse des dérivées temporelles et des opérateurs gradient, rotationnel 20 et divergence du champ des vitesses, le dispositif de création 1 détermine si le sous- élément vidéo source correspond à un régime transitoire (le mouvement apparent exprimé par le champ des vitesses est lié au mouvement de la caméra) ou à un régime permanent (le mouvement apparent est lié aux déplacements des objets de la scène filmée). 25 Un régime transitoire, au sens de l'invention, correspond à un mouvement significatif de la caméra de type translation/panoramique, rotation, zoom et secousse. En outre, tous les autres régimes sont des régimes permanents. Ainsi, dans le cas d'un champ des vitesses inhomogène (gradient non nul), compressible (divergence non nulle) et irrotationnel (rotationnel non nul), le dispositif de 30 création 1 déduit la présence d'un mouvement transitoire de zoom. Dans le cas d'un champ des vitesses dont le flux est inhomogène, incompressible et rotationnel, le dispositif de création déduit la présence d'un mouvement transitoire de rotation. Le mouvement transitoire de translation est lui définit par un champ des vitesses homogène, incompressible et irrotationnel. Enfin, les secousses sont détectées, par analogie avec la 35 mécanique classique, par l'analyse de la dérivée seconde du flux. 3012 906 20 En présence d'un régime transitoire (réponse oui à l'étape H300), une étiquette dite « régime transitoire » est attribuée (étape H400) à ce sous-élément vidéo de référence. Dans le cas contraire, une étiquette dite « régime permanent » est attribuée (étape H500). 5 Lorsqu'une étiquette « régime permanent » est associée à un sous-élément vidéo, le dispositif de création 1 recherche la présence ou l'absence d'un visage dans la séquence correspondante. Les algorithmes de détection de visages dans une vidéo sont connus de l'homme du métier et ne sont donc pas décrits plus en détail ici. Si aucun visage n'est détecté (réponse non à l'étape H600), une étiquette 10 « Régime permanent - plan large » est associée au sous-élément vidéo. Au contraire, si un visage est détecté (réponse oui à l'étape H600), la surface occupée par le visage (par exemple en nombre de pixels) est alors évaluée. Le rapport de la surface occupée par le visage sur la surface totale de l'image est ensuite comparé à un seuil prédéterminé, par exemple 40%, au cours d'une étape H700. 15 Si ce rapport est inférieur au seuil (réponse oui à l'étape H700), l'étiquette « Régime permanent - gros plan » est associée au sous-élément vidéo source au cours d'une étape H800. Sinon l'étiquette « Régime permanent - plan large » est associée (étape H900) au sous-élément vidéo source. 20 S'il existe encore au moins un autre sous-élément vidéo source qui doit être analysé (réponse oui à l'étape H950), un nouveau sous-élément vidéo source est sélectionné (étape H960) par le dispositif de création 1 et le processus schématisé par les étapes H200 à H950 est répété. A la sortie de cet algorithme (réponse non à l'étape H950), tous les sous-éléments vidéo correspondant à tous les éléments audio de 25 référence disposent d'au moins une étiquette audio. Pour chaque couple possible (élément audio de référence, sous-élément vidéo source potentiel de même plage temporelle), le dispositif de création 1 calcule un paramètre de qualité audio et vidéo en fonction des étiquettes vidéo et audio correspondantes. Ainsi : 30 le paramètre de qualité audio et vidéo est égal à 1 si l'élément audio de référence est affecté d'une étiquette audio dite « dynamique haute » et si le sous-élément vidéo potentiel est affecté d'une étiquette vidéo dite « régime permanent - gros plan » ; le paramètre de qualité audio et vidéo est égal à 1 si l'élément audio de référence est affecté d'une étiquette audio dite « dynamique basse » et si le sous-élément vidéo 35 potentiel est affecté d'une étiquette vidéo dite « régime permanent - plan large » ; et 3 012 906 21 - le paramètre de qualité audio et vidéo est égal à 0 dans tous les autres cas. L'indice de qualité IND-QUAL-AV audio et vidéo est alors obtenu en sommant, pour tous les éléments audio de référence, le paramètre de qualité audio et vidéo précédemment calculé. 5 Dans le mode de réalisation décrit ici, le dispositif de création 1 d'un contenu audiovisuel cible sauvegarde dans une base de données 11 conforme à l'invention, l'ensemble des informations associées au contenu audio de référence. Autrement dit, la base de données 11 contient, après exécution du procédé de création, pour chaque contenu audio de référence : 10 la liste des éléments audio de référence ainsi que les étiquettes audio qui leurs sont associées ; une liste de contenus audiovisuels sources dont au moins une composante est segmentés en sous-éléments vidéo ayant les mêmes plages temporelles que les éléments audio de référence correspondants ; au moins une étiquette vidéo ayant 15 été associée à chacun de ces sous-éléments vidéo ; une combinaison cible de sous-éléments vidéo et l'indicateur INDICATEUR-QUAL de qualité associé. Le dispositif de création 1 de contenu audiovisuel cible peut optionnellement sauvegarder également dans la base de données 11 la composante vidéo globale dudit 20 contenu audiovisuel cible et éventuellement le contenu audiovisuel cible lui-même. Il est à noter que la base de données peut contenir également d'autres informations sur les contenus audiovisuels sources, comme le débit et la fréquence d'images de chacune de leurs composantes vidéo. Cette base de données est remarquable en ce qu'elle permet d'obtenir (étape 25 E800) à partir de la combinaison sauvegardée de sous-éléments vidéo (combinaison complétée si nécessaire de sous-éléments vidéo dit de « remplissage »), par exemple par concaténation des sous-éléments vidéo, la composante vidéo du contenu audiovisuel cible, et partant le contenu audiovisuel cible lui-même. 30 Nous allons maintenant décrire en référence à une seconde variante de réalisation décrite ci-après, un dispositif de mise à jour 9 des informations liées à un contenu audio de référence O. Ce dispositif de mise à jour 9 dispose de l'architecture matérielle d'un ordinateur, telle qu'illustrée schématiquement à la figure 8. Ainsi le dispositif de mise à jour 9 comporte notamment un processeur 9A, une mémoire morte 35 9B, une mémoire vive 9C, une mémoire non volatile 9D et des moyens de communication 9E avec un réseau de télécommunications et avec divers périphériques, dont des bases de données 10 et 11. Ces moyens de communication 9E intègrent par exemple une carte réseau, connue en soi et non détaillée ici. Dans un mode particulier de réalisation, les bases de données 10 et 11 peuvent être intégrées au dispositif et mémorisées dans la mémoire non volatile 9D.

La mémoire morte 9B du dispositif de mise à jour 9 constitue un support d'enregistrement lisible par le processeur 9A et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de mise à jour conforme à l'invention, les étapes de ce procédé de mise à jour étant décrites ultérieurement dans un mode particulier de réalisation.

Ce programme d'ordinateur définit de façon équivalente des modules fonctionnels du dispositif de création, tels que notamment un premier module d'extraction de la base de données 9B1, un module d'ajout dans la base de données 9B2, un module de segmentation vidéo 9B3, un module de recherche 9B4, un module d'affectation vidéo 9B5, un module d'enregistrement dans la base de données 9B6, un deuxième module d'extraction 9B7, un premier module d'association 9B8, un deuxième module d'association 9B9, un module de calcul 9B10 et un module de modification de la base de données 9B11. Nous allons maintenant décrire, en référence à la figure 9, les principales étapes d'un procédé de mise à jour des informations liées à un contenu audio de référence dans une base de données 11 dans un mode de réalisation dans lequel il est mis en oeuvre par le dispositif de mise à jour 9. On suppose que le dispositif de mise à jour 9 a acquis à l'aide de ses moyens de communication 9E une liste d'un ou de plusieurs nouveaux contenus audiovisuels sources correspondant à un même contenu audio de référence.

Dans la mise en oeuvre décrite ici, les nouveaux contenus audiovisuels sources sont supposées synchronisés avec le contenu audio de référence. Lors d'une étape L100, le dispositif de mise à jour 9 extrait de la base de données 11 les éléments audio de référence correspondant à la segmentation du contenu audio de référence.

Pour chacun des nouveaux contenus audiovisuels sources sélectionnés aux étapes L150 et L800, au moins une composante vidéo est sélectionnée (étape L200) et segmentée, par exemple de manière uniforme, en élément vidéo au cours d'une étape L300. Le dispositif de mise à jour 9 établit ensuite pour un premier élément audio de référence choisi à l'étape L350, lors d'une étape de recherche L400, la liste des sous- éléments vidéo potentiels d'un même contenu audiovisuel ayant la même plage temporelle. La définition de la plage temporelle étant faite par rapport au référentiel temporel du contenu audio de référence. En cas de succès de la recherche précédente, au moins une étiquette vidéo est associée à chacun des sous-éléments vidéo potentiels. L'attribution des étiquettes audio se fait par le dispositif de mise à jour 9, dans le mode de réalisation décrit ici, conformément aux étapes décrites par l'ordinogramme présenté à la figure 6. S'il existe encore au moins un autre élément audio de référence qui doit être analysé (réponse oui à l'étape L600), un nouvel élément audio de référence est sélectionné (étape L650) et le processus schématisé par les étapes L400 à L600 est répété. Le dispositif de mise à jour 9 sauvegarde alors dans la base de données 11, l'ensemble des nouveaux contenus audiovisuels sources, leurs sous-éléments vidéo et leurs étiquettes vidéo comme nouvelle information associée au contenu audio de référence.

Dans le mode de réalisation préféré décrit ici à la figure 10, par exemple de façon périodique ou lorsqu'un certain nombre de nouveaux contenus audiovisuels sources ont été intégrés dans la base de données 11, le dispositif de mise à jour 9 procède à une nouvelle évaluation de la pertinence de la combinaison cible actuellement stockée dans la base de données 11.

Le dispositif de mise à jour 9 extrait, au cours d'une étape M100, de la base de données 11 les sous-éléments vidéo de tous les contenus audiovisuels sources et leurs étiquettes, ainsi que l'indicateur de qualité actuel de la combinaison cible correspondant au contenu audio de référence. Le dispositif de mise à jour 9 établit ensuite pour un premier élément audio de référence choisi à l'étape M200, lors d'une étape de recherche M300, la liste des sous- éléments vidéo potentiels ayant la même plage temporelle. La définition de la plage temporelle étant faite par rapport au référentiel temporel du contenu audio de référence. Si la recherche précédente échoue (réponse oui à l'étape M350), l'élément audio de référence est associé à un sous-élément vidéo dit de « remplissage » lors d'une étape M400. Le sous-élément vidéo de « remplissage » est choisi dans une base de données 10 en fonction d'une base de règles prédéfinies. S'il existe encore au moins un autre élément audio de référence qui doit être analysé (réponse oui à l'étape M500), un nouvel élément audio de référence est sélectionné (étape M550) par le dispositif de mise à jour 9 et le processus schématisé par les étapes M300 à M500 est répété.

Dans le mode de réalisation décrit ici, tous les éléments audio de référence sont analysés. Pour tous les éléments audio de référence pour lesquels la recherche à l'étape M300 a été faite avec succès, il est associé un unique sous-élément vidéo ayant les mêmes références temporelles par application d'une liste de règles lors de l'étape M600. Dans le mode de réalisation décrit ici, les règles sélectionnées sont au nombre de deux et correspondent aux règles de sélection et d'association décrites précédemment et utilisées par le dispositif 1 de création de contenu audiovisuel cible.

Le dispositif de mise à jour 9 calcule ensuite (étape M700) le nouvel indicateur de qualité IND-QUAL correspondant à la nouvelle combinaison cible déterminée à l'étape M600. Si ce nouvel indicateur de qualité est meilleur (réponse oui à l'étape M800) que celui actuellement stocké dans la base de données 11, le dispositif de mise à jour 9 remplace (étape M900) la combinaison cible et l'indicateur de qualité stockée par la nouvelle combinaison cible et le nouvel indicateur de qualité. Le cas échéant, le dispositif de mise à jour 9 calcule et sauvegarde dans la base de données 11 la nouvelle composante vidéo globale du contenu audiovisuel cible et éventuellement le nouveau contenu audiovisuel cible.

Claims

REVENDICATIONS1. Procédé de création d'au moins un contenu audiovisuel cible (CAC) à partir d'une liste de contenus audiovisuels sources et d'un contenu audio de référence (0) comprenant : une étape de segmentation audio (E200) du contenu audio de référence (0) en éléments audio de référence contigus (4.1-4.10) ; une étape de segmentation vidéo (E300) d'au moins une des composantes vidéo (2,3) d'au moins un des contenus audiovisuels sources en éléments vidéo (5.1-5.2, 6.1-6.8) ; une étape de recherche (E400), pour au moins un desdits éléments audio de référence, des sous-éléments vidéo potentiels desdits éléments vidéo, chacun desdits sous-éléments vidéo potentiels ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de ladite étape de recherche, une première étape d'association par défaut (E500) audit élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun desdits éléments audio de référence pour lesquels ladite étape de recherche a eu lieu avec succès, une deuxième étape d'association (E700) audit élément audio de référence d'un sous-élément vidéo potentiel selon une base de règles ; une étape de création de la composante vidéo globale (E800) dudit contenu audiovisuel cible (CAC) à partir de l'ensemble desdits sous-éléments vidéo associés au cours desdites étapes d'association.
2. Procédé selon la revendication 1 caractérisé en ce qu'il comporte pour au moins un desdits contenus audiovisuels sources : une étape de synchronisation (E100) dudit contenu audiovisuel source par rapport au référentiel temporel dudit contenu audio de référence ; et en cas d'échec de ladite étape de synchronisation, une étape de suppression (E180) dudit contenu audiovisuel source de ladite liste des contenus audiovisuels sources.
3. Procédé selon la revendication 2 dans lequel l'étape de synchronisation (E100) met en oeuvre les étapes suivantes : - calcul d'une signature audio de référence (E110) dudit contenu audio de référence ; 3 012 906 26 calcul d'une signature audio source (E120) d'au moins une des composantes audio dudit contenu audiovisuel source ; calcul d'une information (T) de décalage temporel (E130) par comparaison de ladite signature audio de référence et de ladite signature audio source ; et 5 décalage temporel (E140) d'une durée (T) de l'information d'horodatage du contenu audiovisuel source pour l'aligner sur le référentiel dudit contenu audio de référence.
4. Procédé selon la revendication 3 dans lequel l'étape de synchronisation comprend : 10 l'extraction d'un sous-signal audio (E150) dudit signal audio de référence commençant à la référence temporelle (T) et de même durée que ladite composante audio dudit contenu audiovisuel source ; le calcul de la corrélation (E160) entre ledit sous-signal audio et ladite composante audio décalée temporellement d'une durée (T) dudit contenu audiovisuel source ; et 15 la comparaison (E170) de ladite corrélation avec un seuil de pertinence et si ladite corrélation est inférieure audit seuil de pertinence, ladite étape de synchronisation est déclarée en échec.
5. Procédé selon l'une des revendications 1 à 4 dans lequel ladite base de règles 20 comprend : Une règle de sélection par optimisation d'un indicateur de qualité (INDICATEUR-QUAL) d'une combinaison cible de sous-éléments vidéo (E750) parmi toutes les combinaisons possibles de sous-éléments vidéo obtenues en sélectionnant pour chacun desdits éléments audio de référence pour lesquels l'étape de recherche 25 (E400) a eu lieu avec succès un desdits sous-éléments vidéo potentiels ; une règle d'association (E760) pour chacun desdits éléments audio de référence du sous-élément vidéo potentiel correspondant à ladite combinaison cible ;
6. Procédé selon la revendication 5 dans lequel ledit indicateur de qualité 30 (INDICATEUR-QUAL) prend en compte au moins un indice (IND-QUAL-AV) de qualité audio et vidéo.
7. Procédé selon la revendication 6 dans lequel ledit indice de qualité audio et vidéo (IND-QUAL-AV) de ladite combinaison possible est calculé en mettant en oeuvre les 35 étapes suivantes :une étape d'affectation audio (G100-G700) pour chacun desdits éléments audio de référence d'au moins une étiquette audio ; une étape d'affectation vidéo (H200-H900) pour chacun desdits sous-éléments vidéo d'au moins une étiquette vidéo ; et une étape de calcul dudit indice de qualité audio et vidéo (IND-QUAL-AV) sur la base des étiquettes précédemment calculées.
8. Procédé selon la revendication 7 dans lequel ladite étape d'affectation audio comprend le calcul de la médiane des différences sonores (G100) de chacun desdits élément audio de référence ; lesdites différences sonores étant calculées comme la différence entre le niveau sonore maximal et le niveau sonore minimal dudit élément audio de référence ; et l'affectation à chacun desdits éléments audio de référence : - d'une étiquette audio dite « dynamique haute » (G400) si la différence sonore dudit élément audio de référence est supérieure ou égale à ladite médiane ; et - d'une étiquette audio dite « dynamique basse » (G500) dans le cas contraire ; 20
9. Procédé selon la revendication 7 dans lequel ladite étape d'affectation vidéo comprend pour chacun desdits sous-éléments vidéo potentiels, la détermination du champ des vitesses (H200) associé et l'affectation d'une étiquette vidéo dite « régime 25 transitoire » (H400) ou dite « régime permanent » (H500) en fonction des caractéristiques dudit champ des vitesses associé ; et pour les sous-éléments vidéo potentiels auxquels a été affecté une étiquette « régime permanent » - si un visage occupant au moins un certain pourcentage de l'image est 30 détecté, l'affectation (H800) d'une étiquette vidéo dite « régime permanent - gros plan », - sinon l'affectation (H900) d'une étiquette vidéo dite « régime permanent - plan large »; 35
10. Procédé selon les revendications 8 et 9 dans lequel ladite étape de calcul dudit indice (IND-QUAL-AV) de qualité audio et vidéo comprend : 3012 906 28 le calcul pour chacun desdits éléments audio de référence : - d'un paramètre de qualité audio et vidéo égal à 1 si ledit élément audio de référence est affecté d'une étiquette audio dite « dynamique haute » et si ledit sous-élément vidéo potentiel est affecté d'une étiquette vidéo dite 5 « régime permanent - gros plan » ; - d'un paramètre de qualité audio et vidéo égal à 1 si ledit élément audio de référence est affecté d'une étiquette audio dite « dynamique basse » et si ledit sous-élément vidéo potentiel est affecté d'une étiquette vidéo dite « régime permanent - plan large » ; et 10 - d'un paramètre de qualité audio et vidéo égal à 0 dans tous les autres cas ; le calcul dudit indice (IND-QUAL-AV) de la qualité audio et vidéo en sommant tous les dits paramètres de qualité audio et vidéo desdits éléments audio de référence.
11. Procédé selon l'une quelconques des revendications 7 à 10 caractérisé en ce 15 qu'il comporte également une étape de stockage dans une base de données : - dudit contenu audio de référence, desdits éléments audio de référence ainsi que desdites étiquettes audio ; - de la liste desdits contenus audiovisuels sources, de leurs dits sous-éléments vidéo ainsi que de leur dite au moins une étiquette vidéo ; - de ladite combinaison cible de sous-éléments vidéo et dudit indicateur de qualité associé (INDICATEUR-QUAL).
12. Procédé selon la revendication 11 caractérisé en ce qu'il comporte également une étape de stockage dans une base de données de ladite composante vidéo globale dudit contenu audiovisuel cible (CAC).
13. Programme d'ordinateur comportant des instructions pour l'exécution des étapes du procédé de création selon l'une quelconques des revendications 1 à 12 lorsque ledit programme est exécuté par ordinateur.
14. Base de données contenant : une liste de contenus audio de référence pour chaque contenu audio de référence des informations comprenant : - la segmentation du contenu audio de référence en éléments audio de référence ; au moins une étiquette audio ayant été associée à chaque élément audio de référence ;- une liste de contenus audiovisuels sources dont au moins une composante vidéo est segmentée en sous-éléments vidéo ayant les mêmes plages temporelles que lesdits éléments audio de référence ; au moins une étiquette vidéo ayant été associée à chacun desdits sous-éléments vidéo ; - une combinaison de sous-éléments vidéo et un indicateur de qualité associé (INDICATEUR-QUAL) obtenu au moins à partir desdites étiquettes audio et vidéo.
15. Une base de données suivant la revendication 14 caractérisée en ce qu'elle est obtenue par un procédé suivant l'une des revendications 11 à 12.
16. Procédé de mise à jour des informations liées à un contenu audio de référence dans une base de données selon l'une des revendications 14 à 15 comprenant : une première étape d'extraction (L100) de ladite base de données des éléments audio de référence ; au moins une étape d'ajout dans ladite base de données d'un nouveau contenu audiovisuel source associé audit contenu audio de référence et comprenant : - une étape de segmentation vidéo (L300) d'au moins une des composantes vidéo dudit nouveau contenu audiovisuel source en éléments vidéo; - une étape de recherche (L400) pour au moins un desdits éléments audio de référence, des sous-éléments vidéo desdits éléments vidéo, chacun desdits sous-éléments vidéo ayant la même plage temporelle que cet élément audio de référence ; ^ en cas de succès de ladite étape de recherche, une étape d'affectation vidéo (L500) pour chacun desdits sous-éléments vidéo d'au moins une étiquette vidéo ; et - une première étape d'enregistrement (L700) dans ladite base de données dudit nouveau contenu audiovisuel source, desdits sous-éléments vidéo ainsi que desdites étiquettes vidéo associées.
17. Procédé de mise à jour des informations liées à un contenu audio de référence selon la revendication 16 et comprenant : - une deuxième étape d'extraction (M100) de ladite base de données : - des sous-éléments vidéo de tous les contenus audiovisuels sources stockés et de leur au moins une étiquette vidéo ; et - de l'indicateur de qualité ;associés audit contenu audio de référence ; une étape de recherche (M300) pour au moins un desdits éléments audio de référence, des sous-éléments vidéo potentiel ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de ladite étape de recherche, une première étape d'association par défaut (M400) audit élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun desdits éléments audio de référence pour lesquels ladite recherche a eu lieu avec succès, une deuxième étape d'association (M600) audit élément audio de référence d'un desdits sous-élément vidéo potentiel selon une base de règles ; l'ensemble desdits sous-éléments vidéo ainsi associés formant une nouvelle combinaison cible ; une étape de calcul (M700) d'un nouvel indicateur de qualité obtenu au moins à partir desdites étiquettes audio et vidéo correspondant à ladite nouvelle combinaison cible ; - si ledit nouvel indicateur de qualité est supérieur audit indicateur de qualité, une étape de modification (M900) dans ladite base de données : - dudit indicateur de qualité par ledit nouvel indicateur de qualité ; et - de la combinaison cible par ladite nouvelle combinaison cible. 20
18. Procédé selon la revendication 17 caractérisé en ce que ladite étape de modification dans la base de données comporte également : une étape de création de la composante vidéo globale (E800) à partir de l'ensemble desdits sous-éléments vidéo associés au cours desdites étapes d'association. 25 une étape de remplacement de l'actuelle composante vidéo globale par ladite composante vidéo globale.
19. Procédé selon l'une des revendications 1 à 12 et 18 caractérisé en ce qu'il comporte également une étape d'association (E800) dudit contenu audio de référence et 30 de ladite composante vidéo globale pour former ledit contenu audiovisuel cible (CA).
20. Programme d'ordinateur comportant des instructions pour l'exécution des étapes du procédé de création d'au moins un contenu audiovisuel cible (CAC) après mise à jour de ladite base de données selon l'une des revendications 16 à 19 lorsque ledit 35 programme est exécuté par ordinateur. 3012 906 31
21. Dispositif de création (1) d'au moins un contenu audiovisuel cible (CAC) à partir d'une liste de contenus audiovisuels sources et d'un contenu audio de référence (0) comprenant : des moyens de segmentation audio (1B1) du contenu audio de référence (0) en 5 éléments audio de référence contigus (4.1-4.10) ; des moyens de segmentation vidéo (1B2) d'au moins une des composantes vidéo (2,3) d'au moins un des contenus audiovisuels sources en éléments vidéo (5.1-5.2, 6.1-6.8) ; des moyens de recherche (1B3), pour au moins un desdits éléments audio de 10 référence, des sous-éléments vidéo potentiels desdits éléments vidéo, chacun desdits sous-éléments vidéo potentiels ayant la même plage temporelle que cet élément audio de référence ; o en cas d'échec de ladite recherche, des premiers moyens d'association par défaut (1B4) audit élément audio de référence d'un sous-élément vidéo dit 15 de remplissage ; et pour chacun desdits éléments audio de référence pour lesquels ladite recherche a eu lieu avec succès, des deuxièmes moyens d'association (1B5) pour chacun desdits éléments audio de référence d'un sous-élément vidéo potentiel selon une base de règles ; des moyens de création de la composante vidéo globale (1B6) dudit contenu audiovisuel cible (CAC) à partir de l'ensemble desdits sous-éléments vidéo associés précédemment.
22. Dispositif de mise à jour (9) des informations liées à un contenu audio de référence dans une base de données selon l'une des revendications 14 à 15 comprenant : des premiers moyens d'extraction (9B1) de ladite base de données des éléments audio de référence ; des moyens d'ajout (9B2) dans ladite base de données d'au moins un nouveau contenu audiovisuel source associé audit contenu audio de référence et comprenant : - des moyens de segmentation vidéo (9B3) d'au moins une des composantes vidéo dudit nouveau contenu audiovisuel source en éléments vidéo; - des moyens de recherche (9B4) pour au moins un desdits éléments audio de référence, des sous-éléments vidéo desdits éléments vidéo, chacun desdits sous-éléments vidéo ayant la même plage temporelle que cet élément audio de référence ;^ en cas de succès de ladite recherche, des moyens d'affectation vidéo (9B5) pour chacun desdits sous-éléments vidéo d'au moins une étiquette vidéo ; des premiers moyens d'enregistrement (9B6) dans ladite base de données dudit nouveau contenu audiovisuel source, des dits sous-élément vidéo ainsi que desdites étiquettes vidéo associées.
23. Dispositif de mise à jour (9) des informations liées à un contenu audio de référence selon la revendication 22 et comprenant : des deuxièmes moyens d'extraction (9B7) de ladite base de données : - des sous-éléments vidéo de tous les contenus audiovisuels sources stockés et de leur au moins une étiquette vidéo ; et - de l'indicateur de qualité ; associés audit contenu audio de référence ; des moyens de recherche (9B4) pour au moins un desdits éléments audio de référence, des sous-éléments vidéo potentiels ayant la même plage temporelle que cet élément audio de référence ; - en cas d'échec de ladite recherche, des premiers moyens d'association (9B8) par défaut audit élément audio de référence d'un sous-élément vidéo dit de remplissage ; et pour chacun desdits éléments audio de référence pour lesquels ladite recherche a eu lieu avec succès, des deuxièmes moyens d'association (9B9) audit élément audio de référence d'un desdits sous-élément vidéo potentiel selon une base de règles ; l'ensemble desdits sous-éléments vidéo ainsi associés formant une nouvelle combinaison cible ; des moyens de calcul (9B10) d'un nouvel indice de qualité obtenu au moins à partir des dites étiquettes audio et vidéo de ladite nouvelle combinaison cible o si ledit nouvel indicateur de qualité est supérieur audit indicateur de qualité, des moyens de modification (9B11) dans ladite base de données : ^ dudit indicateur de qualité par ledit nouvel indicateur de qualité ; et ^ de la combinaison cible par ladite nouvelle combinaison cible.