FR3010606A1

FR3010606A1 - Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees

Info

Publication number: FR3010606A1
Application number: FR1363624A
Authority: FR
Inventors: Pierre Hellier; Franck Thudor; Lionel Oisel
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2015-03-13
Also published as: US20160353182A1; EP3087755A1; WO2015097161A1

Abstract

L'invention concerne un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée. Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée.

Description

Procédé de synchronisation de métadonnées avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles métadonnées 1. Domaine de l'invention Le domaine de la présente invention est celui de la synchronisation de métadonnées entre plusieurs contenus vidéo. Plus précisément, l'invention concerne les cas où la synchronisation doit s'effectuer avec une grande précision en prenant en compte une partie de l'image du contenu vidéo. 2. Art antérieur L'invention se situe dans le domaine de la production de documents audiovisuels et la capacité d'associer des métadonnées avec de tels documents. Au cours de la phase « post production » au cours de laquelle un document audiovisuel est réalisé, celui-ci subit de profondes modifications. Au cours de certaines étapes, des métadonnées sont associées à ce document. Les métadonnées enrichissent le contenu en y apportant par exemple de l'interactivité, le sous-titrage, des informations sur les acteurs ou les objets apparaissant dans la vidéo, le doublage, des sites Internet, etc. Généralement, ces métadonnées sont associées à un moment d'apparition d'un certain contenu visuel, par exemple la présence dans l'image d'un personnage. Au cours de la post production, ce document est modifié et devient un second document vidéo plus abouti. Par exemple, certaines scènes sont coupées, d'autres sont recadrées, de nouvelles bandes sons correspondant à d'autres langues sont rajoutées, des versions de différents types sont produites (par exemple des versions destinées à être reproduites dans un avion). Les métadonnées associées à une première version ne sont plus associées pour les versions suivantes. Il est donc nécessaire d'effectuer une nouvelle association de ces mêmes métadonnées avec des seconds documents. Une solution évidente consiste à reproduire le même processus d'association que pour le premier document et à associer les mêmes métadonnées aux mêmes parties de vidéo. Le processus peut être fastidieux s'il est fait à la main c'est pourquoi il est préférable de le faire automatiquement en utilisant les mêmes marqueurs vidéo. Mais le contenu vidéo du second document peut être modifié rendant imprécis ces marqueurs vidéo associant les métadonnées au premier document. Une solution consiste à utiliser les marqueurs audio qui sont plus précis que les marqueurs vidéo, mais si le contenu audio est modifié dans le second document, les marqueurs ne sont plus opérationnels. C'est le cas par exemple lors de la réalisation de doublage d'un discours. Une caméra filme en plan large une personne s'exprimant sur un sujet dans une certaine langue. Ce document audiovisuel peut être amélioré en cadrant la personne sur la partie supérieure de son corps et en rajoutant différents contenus audio correspondant à des doublages dans d'autres langues. Dans cet exemple, un marqueur vidéo caractérisé par la signature de la silhouette de la personne apparaissant dans la première version devient imprécis pour associer la métadonnée correspondante dans une seconde version de ce document. Il n'est pas possible d'utiliser un marqueur de l'audio car le contenu audio est différent à cause du doublage. Il existe donc un réel besoin pour améliorer les techniques de synchronisation de métadonnées associées à plusieurs documents audiovisuels. 3. Exposé de l'invention A cet effet, l'invention propose une solution nouvelle, sous la forme d'un procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel. Cette au moins une première métadonnée comprend une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document. Des parties du premier document sont reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le procédé comporte notamment: - une association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection de la première signature dans une séquence du second document 30 audiovisuel, - une détection de la seconde signature dans la séquence du second document audiovisuel et synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. Selon un premier mode de réalisation, le procédé comporte une détermination d'une forme géométrique entourant la partie de trame de la séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature. De cette manière, le calcul de signature est limité à une certaine zone de trame du premier document. Selon un autre mode de réalisation, le procédé comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature. De cette manière, la détection de la seconde signature est limitée à une certaine zone de la trame du second document. Selon un autre mode de réalisation, la signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature. De cette manière, la seconde signature prend en compte plusieurs zones de l'image qui possèdent une caractéristique particulière, ce qui ajoute de la précision à l'étape de détection et améliore la synchronisation. Selon un autre mode de réalisation, la première signature est calculée à partir de données audio. De cette manière, la détection de la première signature nécessite moins de puissance de calcul. Selon un aspect matériel, l'invention concerne un dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un moyen de lecture d'un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le moyen de lecture dudit dispositif lisant une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le dispositif comprend en outre un moyen de détection de la première signature dans une séquence du second document audiovisuel et de la seconde signature dans la séquence du second document audiovisuel et, un moyen de synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. Selon un autre aspect matériel, l'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'u quelconque des modes décrits précédemment, lorsque ledit programme est exécuté par un processeur. 4. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon un mode de réalisation préféré de l'invention, la figure 2 présente un schéma montrant un exemple d'enchainement des différentes opérations pour synchroniser deux documents, la figure 3 montre des images ayant de grandes similitudes, ces images étant associées à des métadonnées. 5. Description d'un mode de réalisation de l'invention 5.1 Principe général Le principe général de l'invention réside dans un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée.

Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus audiovisuels effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. 5.2 Description générale d'un mode de réalisation La Fig.1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon l'invention. Cet organigramme est avantageusement mis en oeuvre dans un appareil de production de documents audiovisuels recevant en entrée des contenus audiovisuels et des métadonnées, et générant d'autres documents audiovisuels avec des métadonnées associées. Dans un premier temps, à l'étape 1.1, un contenu audiovisuel est produit selon une première version. Bien que par la suite, l'invention est décrite dans le cadre de la production d'un film, tout document audiovisuel convient, notamment un discours, un documentaire, une émission de télé-réalité, etc. Cette première version peut être directement issue du montage de la version cinéma du film. De cette première version des secondes versions vont être produites pour des pays étrangers (avec des langues différentes), une version DVD, une version longue, une version Avion, voire une version censurée... Au cours de la phase de montage, des métadonnées sont générées et associées par signature au contenu audio et/ou visuel vidéo. Une métadonnée peut se représenter sous la forme d'une structure de données comprenant une charge utile, une signature déclenchant la présentation de la charge utile et des données administratives. La charge utile caractérise l'information qui est communiquée à une personne à un certain moment identifié par au moins une image du document. Cette personne peut être le spectateur lors de la reproduction du contenu audiovisuel et la charge utile de la métadonnée peut être un texte s'affichant à sa demande, un site Internet permettant de se connecter à un certain moment de la reproduction, des données sur le script du document (acteur, réalisateur, nom de la musique, des données haptiques pour la commande d'actuateur, ...). La présentation de la charge utile peut aussi être destinée à des personnes au cours de la phase de montage et la charge utile peut être : des marqueurs aidant au doublage (labiales, semi-labiales, début et fin de phrase, etc.), une transformation couleur (étalonnage) associé à cette frame particulière, des annotations textuelles décrivant l'intention artistique (émotion liée à la scène par exemple), ... La présentation de la charge utile d'une métadonnée doit s'effectuer à un moment bien précis du document audiovisuel associé, ce moment est fixé par une signature du contenu (ou « fingerprinting» en langue anglo-saxonne). Lorsque cette signature est détectée dans le contenu audio et/ou visuel, la charge utile est présentée à la personne. La signature est une valeur numérique obtenue à partir des informations audio et/ou vidéo comprimées ou non d'une première version du document audiovisuel.

Les données administratives précisent les conditions de présentation de la charge utile, cela peut être le type de métadonnées (texte à afficher, site à contacter, bande audio à lancer, ...). A l'étape 1.2, une métadonnée 1 est associée au document 1, cette métadonnée contenant une signature 1. Au cours de la phase de production, un second document (« document 2 ») est produit en utilisant des parties du premier document (étape 1.3). Typiquement, des séquences d'images sont coupées ou recadrées, ou du contenu audio est rajouté, ou encore des éléments visuels sont incrustés dans la vidéo, etc. Au cours de cette phase les métadonnées 1 qui avaient été produites précédemment et associées au premier document ne se retrouvent plus synchronisées avec le contenu du document 2. La présente invention permet de resynchroniser tout ou partie des métadonnées 1 automatiquement. Dans certains cas, les marqueurs permettant de calculer les premières signatures n'existent plus ou sont trop imprécis. La présente invention prévoit de créer des secondes métadonnées qui sont associées au premier document et qui vont synchroniser les premières métadonnées avec le second document.

Pour cela, à l'étape 1.4, des secondes métadonnées sont produites, un lien est créé avec les métadonnées 1, et l'ensemble est associé au premier document. La signature de ces secondes métadonnées (« signature 2 ») s'applique à une partie de la trame visuelle d'une image au moins du premier document. Cette partie est déterminée par le contenu d'une forme géométrique définie par sa forme (rond, rectangle, carré, ...) et ses coordonnées dans la trame de l'image. Par exemple, cette partie constitue un cadre rectangulaire contenant le visage d'une personne. Le lien entre la première et la seconde métadonnée permet de les associer pour que la charge utile de la seconde soit aussi celle de la première. Au cours d'une étape ultérieure, les métadonnées du document 1 doivent être associées et synchronisées au document 2. Dans un premier temps, la signature 1 est détectée dans une pluralité de trames du document 2, ces trames formant des séquences (étape 1.5). Cette première détection n'est pas suffisamment précise pour y associer la charge utile de la métadonnée 1 car la même signature se retrouve dans plusieurs trames ; à des moments différents du document 2. A l'aide du lien unissant les métadonnées 1 et 2, la seconde métadonnée est alors analysée en regard des trames présentes dans les séquences et la signature 2 est extraite. A l'étape 1.6, la signature 2 est détectée dans une partie de la trame composant chaque image d'une séquence précédemment déterminée. On peut noter que le traitement de vérification de signature s'effectuant sur une partie de l'image, ce traitement nécessite moins de puissance de calcul. La partie de la trame est déterminée par les informations contenues dans la métadonnée 2. La charge utile de la métadonnée 1 est alors synchronisée avec le document 2 (étape 1.7) en utilisant la signature 2. Puis, une nouvelle métadonnée est associée au document 2 en y spécifiant la charge utile de la métadonnée 1 et la signature 2. La FIG.2 représente un exemple d'enchainement des différentes opérations pour synchroniser deux documents. Un document 1 est enrichi d'une pluralité de métadonnées « METADATA 1», ces premières métadonnées sont synchronisées dans le document 1 par des signatures Sgn 1 basées sur un contenu audio et/ou vidéo du document 1. En vue d'un traitement ultérieur, ces premières métadonnées sont liées à une seconde signature, plus précise, qui est calculée à partir d'une partie de la trame visuelle d'une image au moins du premier document. Avantageusement, cette partie de la trame visuelle possède un rapport avec la charge utile de la métadonnée. Par exemple, la partie est un cadre entourant le visage d'un personnage qui parle, et la charge utile est le contenu textuel des paroles de ce personnage.

Un second document est créé qui comporte des parties vidéo du premier document mais qui ne possède plus les associations avec les métadonnées. Ce second document est analysé avec la première signature permettant ainsi de déterminer un certain nombre d'images pour la synchronisation approximative des métadonnées 1, ces images portant la première signature forment une pluralité de séquences d'images qui sont candidates pour la synchronisation précise. Puis, au sein de ces séquences candidates, une extraction des données visuelles est effectuée dans une partie de la trame visuelle, cette partie est définie par une forme géométrique. Cette forme géométrique est appelée « bounding box » en langue anglo-saxonne. Lorsque la seconde signature est détectée au sein de la partie de trame de certaines images, alors ces images sont associées à la charge utile de la première métadonnée. De cette façon, de nouvelles métadonnées « METADATA 2» sont générées en associant une charge utile avec la seconde signature. Lors de la synchronisation grossière de l'étape 1.5 (voir FIG. 1), un certain nombre d'images, nombre que l'on note N, sont candidates. La synchronisation précise, qui s'effectue à l'étape 1.6 illustrée par la figure 2, consiste à vérifier si la seconde signature se trouve dans ces N images. Cette vérification peut s'effectuer selon plusieurs modes de réalisation. Selon un premier mode, toutes les formes géométriques sont analysées - soit M leur nombre moyen par image - et une signature est extraite pour chaque forme. On obtient alors N x M signatures extraites qui sont comparées avec la signature lue de la METADATA 2. La signature extraite qui présente la distance la plus faible est élue, et la synchronisation s'effectue sur l'image qui contient cette forme géométrique dont est extraite cette signature. Ce mode de réalisation a l'avantage d'être exhaustif, mais nécessite une puissance de calcul importante.

Selon un autre mode de réalisation, la signature est réalisée en concaténant plusieurs points d'intérêts avec leurs descripteurs locaux. La taille de la signature réduite à la forme géométrique spécifiée (« Bounding Box ») possède une dimension plus faible que celle du document 2. Il faut alors encoder la relation spatiale entre les points d'intérêts pour garantir que l'on compare bien les bons descripteurs. La détection des éléments similaires entre les deux images peut s'effectuer à l'aide de la méthode SIFT (acronyme de l'anglo saxon « Scale-Invariant Feature Transform »). Selon cette méthode, les signatures sont des descripteurs des images à comparer. Ces descripteurs sont des informations numériques dérivées de l'analyse locale d'une image et qui caractérisent le contenu visuel de cette image de la façon la plus indépendante possible de l'échelle (« zoom » et résolution du capteur), du cadrage, de l'angle d'observation et de l'exposition (luminosité). De cette manière, deux photographies d'un même objet auront toutes les chances d'avoir des descripteurs SIFT similaires, et ceci d'autant plus si les instants de prise de vue et les angles de vue sont proches. La Fig. 3 montre une séquence d'images ayant de grandes similitudes, ces trois images sont représentées par leurs trames : Trame 1, trame 2 et Trame 3. Ces images sont extraites d'un discours du président U.S. Obama. On peut noter que de très grandes similitudes existent entre ces images, comme par exemple le décor derrière le personnage. Une signature basée sur l'ensemble de l'image risque de ne pas être suffisamment discriminante pour identifier la Trame 1, la Trame 2 ou la Trame 3 et ainsi de ne pouvoir présenter les métadonnées au bon moment. Un moyen de discriminer chaque trame plus efficacement consiste à se focaliser sur un élément d'image qui varie le plus au cours de la séquence illustrée en haut de la FIG. 3, cet élément étant le visage de la personne. Pour cela, et selon un mode préféré de réalisation de l'invention, un module logiciel détecte la présence d'un visage dans chaque trame d'images et localise ce visage détecté dans une forme, par exemple rectangulaire. Le contenu présent dans cette forme est utilisée pour le calcul d'une seconde signature.

Dans le cas de la FIG. 3, trois formes BD1, BD2 et BD3 ont été créées en vu de les associer à trois charges utiles spécifiées dans trois métadonnées correspondant aux images 1, 2 et 3. Lorsqu'une signature associée au contenu visuel de la forme est détectée, alors la métadonnée correspondante est présentée. On peut noter dans tout ce qui précède que les premières signatures sont basées sur des contenus de tout type : audio, photo, visuel, ... Les secondes signatures qui assurent une meilleure synchronisation, sont basées sur un contenu exclusivement visuel. Bien que la présente invention ait été décrite en référence aux modes de réalisation particuliers illustrés, celle-ci n'est nullement limitée par ces modes de réalisation, mais ne l'est que par les revendications annexées. On notera que des changements ou des modifications pourront être apportés par l'Homme du métier aux modes de réalisation précédemment décrits, sans pour autant sortir du cadre de la présente invention. L'invention concerne bien entendu un dispositif ayant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature. Un tel dispositif, non représenté sur les figures, est par exemple un ordinateur ou un dispositif de post-production comprenant des moyens de calcul sous la forme d'un ou plusieurs processeurs.

Claims

REVENDICATIONS1. Procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel, cette au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce qu'il comporte: - une association (1.4) d'au moins une seconde métadonnée avec le premier 10 document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection (1.5) de la première signature dans une séquence du second document audiovisuel, 15 - une détection (1.6) de la seconde signature dans la séquence du second document audiovisuel et synchronisation (1.7) de la première métadonnée avec le second document en utilisant cette seconde signature.
2. Procédé de synchronisation selon la revendication 1 ; caractérisé en ce qu'il 20 comporte une détermination d'une forme géométrique entourant la partie de trame de ladite séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature.
3. Procédé de synchronisation selon la revendication 1 ou 2 ; caractérisé en ce 25 qu'il comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une étape d'extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature.
4. Procédé de synchronisation selon la revendication 3 ; caractérisé en ce que la 30 signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature.
5. Procédé de synchronisation selon l'une quelconque des revendications précédente ; caractérisé en ce que la première signature est calculée à partir de données audio.
6. Dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce que le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, ledit processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature.
7. Programme d'ordinateur comportant des instructions pour la mise en oeuvre 20 du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'une quelconque des revendications 1 à 5, lorsque le programme est exécuté par un processeur.