FR3010606A1 - Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees - Google Patents

Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees Download PDF

Info

Publication number
FR3010606A1
FR3010606A1 FR1363624A FR1363624A FR3010606A1 FR 3010606 A1 FR3010606 A1 FR 3010606A1 FR 1363624 A FR1363624 A FR 1363624A FR 1363624 A FR1363624 A FR 1363624A FR 3010606 A1 FR3010606 A1 FR 3010606A1
Authority
FR
France
Prior art keywords
document
metadata
signature
sequence
audiovisual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1363624A
Other languages
English (en)
Inventor
Pierre Hellier
Franck Thudor
Lionel Oisel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Priority to FR1363624A priority Critical patent/FR3010606A1/fr
Priority to EP14816297.7A priority patent/EP3087755A1/fr
Priority to US15/108,569 priority patent/US20160353182A1/en
Priority to PCT/EP2014/079011 priority patent/WO2015097161A1/fr
Publication of FR3010606A1 publication Critical patent/FR3010606A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

L'invention concerne un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée. Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée.

Description

Procédé de synchronisation de métadonnées avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles métadonnées 1. Domaine de l'invention Le domaine de la présente invention est celui de la synchronisation de métadonnées entre plusieurs contenus vidéo. Plus précisément, l'invention concerne les cas où la synchronisation doit s'effectuer avec une grande précision en prenant en compte une partie de l'image du contenu vidéo. 2. Art antérieur L'invention se situe dans le domaine de la production de documents audiovisuels et la capacité d'associer des métadonnées avec de tels documents. Au cours de la phase « post production » au cours de laquelle un document audiovisuel est réalisé, celui-ci subit de profondes modifications. Au cours de certaines étapes, des métadonnées sont associées à ce document. Les métadonnées enrichissent le contenu en y apportant par exemple de l'interactivité, le sous-titrage, des informations sur les acteurs ou les objets apparaissant dans la vidéo, le doublage, des sites Internet, etc. Généralement, ces métadonnées sont associées à un moment d'apparition d'un certain contenu visuel, par exemple la présence dans l'image d'un personnage. Au cours de la post production, ce document est modifié et devient un second document vidéo plus abouti. Par exemple, certaines scènes sont coupées, d'autres sont recadrées, de nouvelles bandes sons correspondant à d'autres langues sont rajoutées, des versions de différents types sont produites (par exemple des versions destinées à être reproduites dans un avion). Les métadonnées associées à une première version ne sont plus associées pour les versions suivantes. Il est donc nécessaire d'effectuer une nouvelle association de ces mêmes métadonnées avec des seconds documents. Une solution évidente consiste à reproduire le même processus d'association que pour le premier document et à associer les mêmes métadonnées aux mêmes parties de vidéo. Le processus peut être fastidieux s'il est fait à la main c'est pourquoi il est préférable de le faire automatiquement en utilisant les mêmes marqueurs vidéo. Mais le contenu vidéo du second document peut être modifié rendant imprécis ces marqueurs vidéo associant les métadonnées au premier document. Une solution consiste à utiliser les marqueurs audio qui sont plus précis que les marqueurs vidéo, mais si le contenu audio est modifié dans le second document, les marqueurs ne sont plus opérationnels. C'est le cas par exemple lors de la réalisation de doublage d'un discours. Une caméra filme en plan large une personne s'exprimant sur un sujet dans une certaine langue. Ce document audiovisuel peut être amélioré en cadrant la personne sur la partie supérieure de son corps et en rajoutant différents contenus audio correspondant à des doublages dans d'autres langues. Dans cet exemple, un marqueur vidéo caractérisé par la signature de la silhouette de la personne apparaissant dans la première version devient imprécis pour associer la métadonnée correspondante dans une seconde version de ce document. Il n'est pas possible d'utiliser un marqueur de l'audio car le contenu audio est différent à cause du doublage. Il existe donc un réel besoin pour améliorer les techniques de synchronisation de métadonnées associées à plusieurs documents audiovisuels. 3. Exposé de l'invention A cet effet, l'invention propose une solution nouvelle, sous la forme d'un procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel. Cette au moins une première métadonnée comprend une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document. Des parties du premier document sont reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le procédé comporte notamment: - une association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection de la première signature dans une séquence du second document 30 audiovisuel, - une détection de la seconde signature dans la séquence du second document audiovisuel et synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. Selon un premier mode de réalisation, le procédé comporte une détermination d'une forme géométrique entourant la partie de trame de la séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature. De cette manière, le calcul de signature est limité à une certaine zone de trame du premier document. Selon un autre mode de réalisation, le procédé comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature. De cette manière, la détection de la seconde signature est limitée à une certaine zone de la trame du second document. Selon un autre mode de réalisation, la signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature. De cette manière, la seconde signature prend en compte plusieurs zones de l'image qui possèdent une caractéristique particulière, ce qui ajoute de la précision à l'étape de détection et améliore la synchronisation. Selon un autre mode de réalisation, la première signature est calculée à partir de données audio. De cette manière, la détection de la première signature nécessite moins de puissance de calcul. Selon un aspect matériel, l'invention concerne un dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un moyen de lecture d'un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le moyen de lecture dudit dispositif lisant une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le dispositif comprend en outre un moyen de détection de la première signature dans une séquence du second document audiovisuel et de la seconde signature dans la séquence du second document audiovisuel et, un moyen de synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. Selon un autre aspect matériel, l'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'u quelconque des modes décrits précédemment, lorsque ledit programme est exécuté par un processeur. 4. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon un mode de réalisation préféré de l'invention, la figure 2 présente un schéma montrant un exemple d'enchainement des différentes opérations pour synchroniser deux documents, la figure 3 montre des images ayant de grandes similitudes, ces images étant associées à des métadonnées. 5. Description d'un mode de réalisation de l'invention 5.1 Principe général Le principe général de l'invention réside dans un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée.
Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus audiovisuels effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. 5.2 Description générale d'un mode de réalisation La Fig.1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon l'invention. Cet organigramme est avantageusement mis en oeuvre dans un appareil de production de documents audiovisuels recevant en entrée des contenus audiovisuels et des métadonnées, et générant d'autres documents audiovisuels avec des métadonnées associées. Dans un premier temps, à l'étape 1.1, un contenu audiovisuel est produit selon une première version. Bien que par la suite, l'invention est décrite dans le cadre de la production d'un film, tout document audiovisuel convient, notamment un discours, un documentaire, une émission de télé-réalité, etc. Cette première version peut être directement issue du montage de la version cinéma du film. De cette première version des secondes versions vont être produites pour des pays étrangers (avec des langues différentes), une version DVD, une version longue, une version Avion, voire une version censurée... Au cours de la phase de montage, des métadonnées sont générées et associées par signature au contenu audio et/ou visuel vidéo. Une métadonnée peut se représenter sous la forme d'une structure de données comprenant une charge utile, une signature déclenchant la présentation de la charge utile et des données administratives. La charge utile caractérise l'information qui est communiquée à une personne à un certain moment identifié par au moins une image du document. Cette personne peut être le spectateur lors de la reproduction du contenu audiovisuel et la charge utile de la métadonnée peut être un texte s'affichant à sa demande, un site Internet permettant de se connecter à un certain moment de la reproduction, des données sur le script du document (acteur, réalisateur, nom de la musique, des données haptiques pour la commande d'actuateur, ...). La présentation de la charge utile peut aussi être destinée à des personnes au cours de la phase de montage et la charge utile peut être : des marqueurs aidant au doublage (labiales, semi-labiales, début et fin de phrase, etc.), une transformation couleur (étalonnage) associé à cette frame particulière, des annotations textuelles décrivant l'intention artistique (émotion liée à la scène par exemple), ... La présentation de la charge utile d'une métadonnée doit s'effectuer à un moment bien précis du document audiovisuel associé, ce moment est fixé par une signature du contenu (ou « fingerprinting» en langue anglo-saxonne). Lorsque cette signature est détectée dans le contenu audio et/ou visuel, la charge utile est présentée à la personne. La signature est une valeur numérique obtenue à partir des informations audio et/ou vidéo comprimées ou non d'une première version du document audiovisuel.
Les données administratives précisent les conditions de présentation de la charge utile, cela peut être le type de métadonnées (texte à afficher, site à contacter, bande audio à lancer, ...). A l'étape 1.2, une métadonnée 1 est associée au document 1, cette métadonnée contenant une signature 1. Au cours de la phase de production, un second document (« document 2 ») est produit en utilisant des parties du premier document (étape 1.3). Typiquement, des séquences d'images sont coupées ou recadrées, ou du contenu audio est rajouté, ou encore des éléments visuels sont incrustés dans la vidéo, etc. Au cours de cette phase les métadonnées 1 qui avaient été produites précédemment et associées au premier document ne se retrouvent plus synchronisées avec le contenu du document 2. La présente invention permet de resynchroniser tout ou partie des métadonnées 1 automatiquement. Dans certains cas, les marqueurs permettant de calculer les premières signatures n'existent plus ou sont trop imprécis. La présente invention prévoit de créer des secondes métadonnées qui sont associées au premier document et qui vont synchroniser les premières métadonnées avec le second document.
Pour cela, à l'étape 1.4, des secondes métadonnées sont produites, un lien est créé avec les métadonnées 1, et l'ensemble est associé au premier document. La signature de ces secondes métadonnées (« signature 2 ») s'applique à une partie de la trame visuelle d'une image au moins du premier document. Cette partie est déterminée par le contenu d'une forme géométrique définie par sa forme (rond, rectangle, carré, ...) et ses coordonnées dans la trame de l'image. Par exemple, cette partie constitue un cadre rectangulaire contenant le visage d'une personne. Le lien entre la première et la seconde métadonnée permet de les associer pour que la charge utile de la seconde soit aussi celle de la première. Au cours d'une étape ultérieure, les métadonnées du document 1 doivent être associées et synchronisées au document 2. Dans un premier temps, la signature 1 est détectée dans une pluralité de trames du document 2, ces trames formant des séquences (étape 1.5). Cette première détection n'est pas suffisamment précise pour y associer la charge utile de la métadonnée 1 car la même signature se retrouve dans plusieurs trames ; à des moments différents du document 2. A l'aide du lien unissant les métadonnées 1 et 2, la seconde métadonnée est alors analysée en regard des trames présentes dans les séquences et la signature 2 est extraite. A l'étape 1.6, la signature 2 est détectée dans une partie de la trame composant chaque image d'une séquence précédemment déterminée. On peut noter que le traitement de vérification de signature s'effectuant sur une partie de l'image, ce traitement nécessite moins de puissance de calcul. La partie de la trame est déterminée par les informations contenues dans la métadonnée 2. La charge utile de la métadonnée 1 est alors synchronisée avec le document 2 (étape 1.7) en utilisant la signature 2. Puis, une nouvelle métadonnée est associée au document 2 en y spécifiant la charge utile de la métadonnée 1 et la signature 2. La FIG.2 représente un exemple d'enchainement des différentes opérations pour synchroniser deux documents. Un document 1 est enrichi d'une pluralité de métadonnées « METADATA 1», ces premières métadonnées sont synchronisées dans le document 1 par des signatures Sgn 1 basées sur un contenu audio et/ou vidéo du document 1. En vue d'un traitement ultérieur, ces premières métadonnées sont liées à une seconde signature, plus précise, qui est calculée à partir d'une partie de la trame visuelle d'une image au moins du premier document. Avantageusement, cette partie de la trame visuelle possède un rapport avec la charge utile de la métadonnée. Par exemple, la partie est un cadre entourant le visage d'un personnage qui parle, et la charge utile est le contenu textuel des paroles de ce personnage.
Un second document est créé qui comporte des parties vidéo du premier document mais qui ne possède plus les associations avec les métadonnées. Ce second document est analysé avec la première signature permettant ainsi de déterminer un certain nombre d'images pour la synchronisation approximative des métadonnées 1, ces images portant la première signature forment une pluralité de séquences d'images qui sont candidates pour la synchronisation précise. Puis, au sein de ces séquences candidates, une extraction des données visuelles est effectuée dans une partie de la trame visuelle, cette partie est définie par une forme géométrique. Cette forme géométrique est appelée « bounding box » en langue anglo-saxonne. Lorsque la seconde signature est détectée au sein de la partie de trame de certaines images, alors ces images sont associées à la charge utile de la première métadonnée. De cette façon, de nouvelles métadonnées « METADATA 2» sont générées en associant une charge utile avec la seconde signature. Lors de la synchronisation grossière de l'étape 1.5 (voir FIG. 1), un certain nombre d'images, nombre que l'on note N, sont candidates. La synchronisation précise, qui s'effectue à l'étape 1.6 illustrée par la figure 2, consiste à vérifier si la seconde signature se trouve dans ces N images. Cette vérification peut s'effectuer selon plusieurs modes de réalisation. Selon un premier mode, toutes les formes géométriques sont analysées - soit M leur nombre moyen par image - et une signature est extraite pour chaque forme. On obtient alors N x M signatures extraites qui sont comparées avec la signature lue de la METADATA 2. La signature extraite qui présente la distance la plus faible est élue, et la synchronisation s'effectue sur l'image qui contient cette forme géométrique dont est extraite cette signature. Ce mode de réalisation a l'avantage d'être exhaustif, mais nécessite une puissance de calcul importante.
Selon un autre mode de réalisation, la signature est réalisée en concaténant plusieurs points d'intérêts avec leurs descripteurs locaux. La taille de la signature réduite à la forme géométrique spécifiée (« Bounding Box ») possède une dimension plus faible que celle du document 2. Il faut alors encoder la relation spatiale entre les points d'intérêts pour garantir que l'on compare bien les bons descripteurs. La détection des éléments similaires entre les deux images peut s'effectuer à l'aide de la méthode SIFT (acronyme de l'anglo saxon « Scale-Invariant Feature Transform »). Selon cette méthode, les signatures sont des descripteurs des images à comparer. Ces descripteurs sont des informations numériques dérivées de l'analyse locale d'une image et qui caractérisent le contenu visuel de cette image de la façon la plus indépendante possible de l'échelle (« zoom » et résolution du capteur), du cadrage, de l'angle d'observation et de l'exposition (luminosité). De cette manière, deux photographies d'un même objet auront toutes les chances d'avoir des descripteurs SIFT similaires, et ceci d'autant plus si les instants de prise de vue et les angles de vue sont proches. La Fig. 3 montre une séquence d'images ayant de grandes similitudes, ces trois images sont représentées par leurs trames : Trame 1, trame 2 et Trame 3. Ces images sont extraites d'un discours du président U.S. Obama. On peut noter que de très grandes similitudes existent entre ces images, comme par exemple le décor derrière le personnage. Une signature basée sur l'ensemble de l'image risque de ne pas être suffisamment discriminante pour identifier la Trame 1, la Trame 2 ou la Trame 3 et ainsi de ne pouvoir présenter les métadonnées au bon moment. Un moyen de discriminer chaque trame plus efficacement consiste à se focaliser sur un élément d'image qui varie le plus au cours de la séquence illustrée en haut de la FIG. 3, cet élément étant le visage de la personne. Pour cela, et selon un mode préféré de réalisation de l'invention, un module logiciel détecte la présence d'un visage dans chaque trame d'images et localise ce visage détecté dans une forme, par exemple rectangulaire. Le contenu présent dans cette forme est utilisée pour le calcul d'une seconde signature.
Dans le cas de la FIG. 3, trois formes BD1, BD2 et BD3 ont été créées en vu de les associer à trois charges utiles spécifiées dans trois métadonnées correspondant aux images 1, 2 et 3. Lorsqu'une signature associée au contenu visuel de la forme est détectée, alors la métadonnée correspondante est présentée. On peut noter dans tout ce qui précède que les premières signatures sont basées sur des contenus de tout type : audio, photo, visuel, ... Les secondes signatures qui assurent une meilleure synchronisation, sont basées sur un contenu exclusivement visuel. Bien que la présente invention ait été décrite en référence aux modes de réalisation particuliers illustrés, celle-ci n'est nullement limitée par ces modes de réalisation, mais ne l'est que par les revendications annexées. On notera que des changements ou des modifications pourront être apportés par l'Homme du métier aux modes de réalisation précédemment décrits, sans pour autant sortir du cadre de la présente invention. L'invention concerne bien entendu un dispositif ayant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature. Un tel dispositif, non représenté sur les figures, est par exemple un ordinateur ou un dispositif de post-production comprenant des moyens de calcul sous la forme d'un ou plusieurs processeurs.

Claims (7)

  1. REVENDICATIONS1. Procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel, cette au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce qu'il comporte: - une association (1.4) d'au moins une seconde métadonnée avec le premier 10 document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection (1.5) de la première signature dans une séquence du second document audiovisuel, 15 - une détection (1.6) de la seconde signature dans la séquence du second document audiovisuel et synchronisation (1.7) de la première métadonnée avec le second document en utilisant cette seconde signature.
  2. 2. Procédé de synchronisation selon la revendication 1 ; caractérisé en ce qu'il 20 comporte une détermination d'une forme géométrique entourant la partie de trame de ladite séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature.
  3. 3. Procédé de synchronisation selon la revendication 1 ou 2 ; caractérisé en ce 25 qu'il comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une étape d'extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature.
  4. 4. Procédé de synchronisation selon la revendication 3 ; caractérisé en ce que la 30 signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature.
  5. 5. Procédé de synchronisation selon l'une quelconque des revendications précédente ; caractérisé en ce que la première signature est calculée à partir de données audio.
  6. 6. Dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce que le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, ledit processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature.
  7. 7. Programme d'ordinateur comportant des instructions pour la mise en oeuvre 20 du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'une quelconque des revendications 1 à 5, lorsque le programme est exécuté par un processeur.
FR1363624A 2013-12-27 2013-12-27 Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees Withdrawn FR3010606A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1363624A FR3010606A1 (fr) 2013-12-27 2013-12-27 Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees
EP14816297.7A EP3087755A1 (fr) 2013-12-27 2014-12-22 Procédé de synchronisation de métadonnées avec un document audiovisuel, au moyen de parties de trames et d'un dispositif de production de telles métadonnées
US15/108,569 US20160353182A1 (en) 2013-12-27 2014-12-22 Method for synchronising metadata with an audiovisual document by using parts of frames and a device for producing such metadata
PCT/EP2014/079011 WO2015097161A1 (fr) 2013-12-27 2014-12-22 Procédé de synchronisation de métadonnées avec un document audiovisuel, au moyen de parties de trames et d'un dispositif de production de telles métadonnées

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1363624A FR3010606A1 (fr) 2013-12-27 2013-12-27 Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees

Publications (1)

Publication Number Publication Date
FR3010606A1 true FR3010606A1 (fr) 2015-03-13

Family

ID=50829012

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1363624A Withdrawn FR3010606A1 (fr) 2013-12-27 2013-12-27 Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees

Country Status (4)

Country Link
US (1) US20160353182A1 (fr)
EP (1) EP3087755A1 (fr)
FR (1) FR3010606A1 (fr)
WO (1) WO2015097161A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10334328B1 (en) * 2017-01-20 2019-06-25 Render Inc. Automatic video generation using auto-adaptive video story models
US10579716B2 (en) 2017-11-06 2020-03-03 Microsoft Technology Licensing, Llc Electronic document content augmentation
EP3495968A1 (fr) * 2017-12-11 2019-06-12 Tata Consultancy Services Limited Procédé et système d'extraction de sections pertinentes d'une pluralité de documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130175A1 (en) * 2005-12-05 2007-06-07 Fujitsu Limited Video metadata correction apparatus and method
US20100229201A1 (en) * 2009-03-03 2010-09-09 Chang-Hwan Choi Server and method for providing synchronization information, client apparatus and method for synchronizing additional information with broadcast program
US8135261B1 (en) * 2003-12-09 2012-03-13 Apple Inc. Insertion and usage of metadata in digital video
US20130247085A1 (en) * 2010-11-22 2013-09-19 Enswers Co., Ltd. Method for generating video markup data on the basis of video fingerprint information, and method and system for providing information using same

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010144B1 (en) * 1994-10-21 2006-03-07 Digimarc Corporation Associating data with images in imaging systems
GB0029880D0 (en) * 2000-12-07 2001-01-24 Sony Uk Ltd Video and audio information processing
US8953908B2 (en) * 2004-06-22 2015-02-10 Digimarc Corporation Metadata management and generation using perceptual features
US7610317B2 (en) * 2005-02-22 2009-10-27 Microsoft Corporation Synchronization with derived metadata
US9639532B2 (en) * 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US8285118B2 (en) * 2007-07-16 2012-10-09 Michael Bronstein Methods and systems for media content control
US8170392B2 (en) * 2007-11-21 2012-05-01 Shlomo Selim Rakib Method and apparatus for generation, distribution and display of interactive video content
US8170342B2 (en) * 2007-11-07 2012-05-01 Microsoft Corporation Image recognition of content
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
US8427552B2 (en) * 2008-03-03 2013-04-23 Videoiq, Inc. Extending the operational lifetime of a hard-disk drive used in video data storage applications
US8819014B2 (en) * 2008-08-15 2014-08-26 Apple Inc. Digital slate
US20110154426A1 (en) * 2008-08-22 2011-06-23 Ingo Tobias Doser Method and system for content delivery
US8122468B2 (en) * 2008-11-07 2012-02-21 At&T Intellectual Property I, L.P. System and method for dynamically constructing audio in a video program
US8433140B2 (en) * 2009-11-02 2013-04-30 Microsoft Corporation Image metadata propagation
US9710491B2 (en) * 2009-11-02 2017-07-18 Microsoft Technology Licensing, Llc Content-based image search
US8682145B2 (en) * 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US8928809B2 (en) * 2010-09-15 2015-01-06 Verizon Patent And Licensing Inc. Synchronizing videos
US8621355B2 (en) * 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US9075806B2 (en) * 2011-02-22 2015-07-07 Dolby Laboratories Licensing Corporation Alignment and re-association of metadata for media streams within a computing device
US8515241B2 (en) * 2011-07-07 2013-08-20 Gannaway Web Holdings, Llc Real-time video editing
US8625887B2 (en) * 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
US9286334B2 (en) * 2011-07-15 2016-03-15 International Business Machines Corporation Versioning of metadata, including presentation of provenance and lineage for versioned metadata
US9535450B2 (en) * 2011-07-17 2017-01-03 International Business Machines Corporation Synchronization of data streams with associated metadata streams using smallest sum of absolute differences between time indices of data events and metadata events
US20130031479A1 (en) * 2011-07-25 2013-01-31 Flowers Harriett T Web-based video navigation, editing and augmenting apparatus, system and method
EP2820564B1 (fr) * 2012-02-29 2019-04-10 Global File Systems Holdings, LLC Reconnaissance et filtrage de flux
EP2738686A1 (fr) * 2012-11-29 2014-06-04 Thomson Licensing Synchronisation de différentes versions d'un contenu multimédia
US9262793B2 (en) * 2013-03-14 2016-02-16 Verance Corporation Transactional video marking system
WO2014209279A1 (fr) * 2013-06-25 2014-12-31 Intel Corporation Gestion et accès à des fichiers multimédias avec des données de perception d'opérateur sur un dispositif de capture multimédia
EP2876890A1 (fr) * 2013-11-21 2015-05-27 Thomson Licensing Procédé et appareil de synchronisation précise de trames de flux vidéo
GB2523311B (en) * 2014-02-17 2021-07-14 Grass Valley Ltd Method and apparatus for managing audio visual, audio or visual content
JP2017514345A (ja) * 2014-03-13 2017-06-01 ベランス・コーポレイション 埋め込みコードを用いた対話型コンテンツ取得
WO2016028936A1 (fr) * 2014-08-20 2016-02-25 Verance Corporation Détection de tatouages numériques utilisant plusieurs motifs prédits

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135261B1 (en) * 2003-12-09 2012-03-13 Apple Inc. Insertion and usage of metadata in digital video
US20070130175A1 (en) * 2005-12-05 2007-06-07 Fujitsu Limited Video metadata correction apparatus and method
US20100229201A1 (en) * 2009-03-03 2010-09-09 Chang-Hwan Choi Server and method for providing synchronization information, client apparatus and method for synchronizing additional information with broadcast program
US20130247085A1 (en) * 2010-11-22 2013-09-19 Enswers Co., Ltd. Method for generating video markup data on the basis of video fingerprint information, and method and system for providing information using same

Also Published As

Publication number Publication date
US20160353182A1 (en) 2016-12-01
EP3087755A1 (fr) 2016-11-02
WO2015097161A1 (fr) 2015-07-02

Similar Documents

Publication Publication Date Title
US9317531B2 (en) Autocaptioning of images
Nagrani et al. From benedict cumberbatch to sherlock holmes: Character identification in tv series without a script
Dhall et al. Emotion recognition in the wild challenge 2013
CN101647265B (zh) 在视频中自动检测、移除、替换和标记闪光帧
US9966112B1 (en) Systems and methods to associate multimedia tags with user comments and generate user modifiable snippets around a tag time for efficient storage and sharing of tagged items
RU2440606C2 (ru) Способ и устройство автоматического генерирования сводки множества изображений
US20110218997A1 (en) Method and system for browsing, searching and sharing of personal video by a non-parametric approach
US20110080424A1 (en) Image processing
CN104798068A (zh) 视频检索方法和装置
US20210117471A1 (en) Method and system for automatically generating a video from an online product representation
EP2104937B1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
US20160379410A1 (en) Enhanced augmented reality multimedia system
US9081801B2 (en) Metadata supersets for matching images
FR3010606A1 (fr) Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees
Khan et al. Visual user-generated content verification in journalism: An overview
EP2172000B1 (fr) Procede de creation d'une suite sonore de photographies, et appareil pour la creation et la reproduction d'une telle suite sonore
Nixon et al. Data-driven personalisation of television content: a survey
US7610554B2 (en) Template-based multimedia capturing
WO2016188304A1 (fr) Procédé et dispositif de photographie
El-Bendary et al. PCA-based home videos annotation system
Jiang et al. Video searching and fingerprint detection by using the image query and PlaceNet-based shot boundary detection method
Podlesnyy Towards data-driven automatic video editing
Demertzis et al. One-shot logo detection for large video datasets and live camera surveillance in criminal investigations
Pulc Získávání znalostí z multimediálního Obsahu
Marcelino A computational approach to the art of visual storytelling

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20150831