FR3010606A1 - Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees - Google Patents
Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees Download PDFInfo
- Publication number
- FR3010606A1 FR3010606A1 FR1363624A FR1363624A FR3010606A1 FR 3010606 A1 FR3010606 A1 FR 3010606A1 FR 1363624 A FR1363624 A FR 1363624A FR 1363624 A FR1363624 A FR 1363624A FR 3010606 A1 FR3010606 A1 FR 3010606A1
- Authority
- FR
- France
- Prior art keywords
- document
- metadata
- signature
- sequence
- audiovisual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001360 synchronised effect Effects 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
L'invention concerne un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée. Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée.
Description
Procédé de synchronisation de métadonnées avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles métadonnées 1. Domaine de l'invention Le domaine de la présente invention est celui de la synchronisation de métadonnées entre plusieurs contenus vidéo. Plus précisément, l'invention concerne les cas où la synchronisation doit s'effectuer avec une grande précision en prenant en compte une partie de l'image du contenu vidéo. 2. Art antérieur L'invention se situe dans le domaine de la production de documents audiovisuels et la capacité d'associer des métadonnées avec de tels documents. Au cours de la phase « post production » au cours de laquelle un document audiovisuel est réalisé, celui-ci subit de profondes modifications. Au cours de certaines étapes, des métadonnées sont associées à ce document. Les métadonnées enrichissent le contenu en y apportant par exemple de l'interactivité, le sous-titrage, des informations sur les acteurs ou les objets apparaissant dans la vidéo, le doublage, des sites Internet, etc. Généralement, ces métadonnées sont associées à un moment d'apparition d'un certain contenu visuel, par exemple la présence dans l'image d'un personnage. Au cours de la post production, ce document est modifié et devient un second document vidéo plus abouti. Par exemple, certaines scènes sont coupées, d'autres sont recadrées, de nouvelles bandes sons correspondant à d'autres langues sont rajoutées, des versions de différents types sont produites (par exemple des versions destinées à être reproduites dans un avion). Les métadonnées associées à une première version ne sont plus associées pour les versions suivantes. Il est donc nécessaire d'effectuer une nouvelle association de ces mêmes métadonnées avec des seconds documents. Une solution évidente consiste à reproduire le même processus d'association que pour le premier document et à associer les mêmes métadonnées aux mêmes parties de vidéo. Le processus peut être fastidieux s'il est fait à la main c'est pourquoi il est préférable de le faire automatiquement en utilisant les mêmes marqueurs vidéo. Mais le contenu vidéo du second document peut être modifié rendant imprécis ces marqueurs vidéo associant les métadonnées au premier document. Une solution consiste à utiliser les marqueurs audio qui sont plus précis que les marqueurs vidéo, mais si le contenu audio est modifié dans le second document, les marqueurs ne sont plus opérationnels. C'est le cas par exemple lors de la réalisation de doublage d'un discours. Une caméra filme en plan large une personne s'exprimant sur un sujet dans une certaine langue. Ce document audiovisuel peut être amélioré en cadrant la personne sur la partie supérieure de son corps et en rajoutant différents contenus audio correspondant à des doublages dans d'autres langues. Dans cet exemple, un marqueur vidéo caractérisé par la signature de la silhouette de la personne apparaissant dans la première version devient imprécis pour associer la métadonnée correspondante dans une seconde version de ce document. Il n'est pas possible d'utiliser un marqueur de l'audio car le contenu audio est différent à cause du doublage. Il existe donc un réel besoin pour améliorer les techniques de synchronisation de métadonnées associées à plusieurs documents audiovisuels. 3. Exposé de l'invention A cet effet, l'invention propose une solution nouvelle, sous la forme d'un procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel. Cette au moins une première métadonnée comprend une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document. Des parties du premier document sont reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le procédé comporte notamment: - une association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection de la première signature dans une séquence du second document 30 audiovisuel, - une détection de la seconde signature dans la séquence du second document audiovisuel et synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus vidéos effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. Selon un premier mode de réalisation, le procédé comporte une détermination d'une forme géométrique entourant la partie de trame de la séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature. De cette manière, le calcul de signature est limité à une certaine zone de trame du premier document. Selon un autre mode de réalisation, le procédé comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature. De cette manière, la détection de la seconde signature est limitée à une certaine zone de la trame du second document. Selon un autre mode de réalisation, la signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature. De cette manière, la seconde signature prend en compte plusieurs zones de l'image qui possèdent une caractéristique particulière, ce qui ajoute de la précision à l'étape de détection et améliore la synchronisation. Selon un autre mode de réalisation, la première signature est calculée à partir de données audio. De cette manière, la détection de la première signature nécessite moins de puissance de calcul. Selon un aspect matériel, l'invention concerne un dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un moyen de lecture d'un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le moyen de lecture dudit dispositif lisant une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le dispositif comprend en outre un moyen de détection de la première signature dans une séquence du second document audiovisuel et de la seconde signature dans la séquence du second document audiovisuel et, un moyen de synchronisation de la première métadonnée avec le second document en utilisant cette seconde signature. Selon un autre aspect matériel, l'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'u quelconque des modes décrits précédemment, lorsque ledit programme est exécuté par un processeur. 4. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon un mode de réalisation préféré de l'invention, la figure 2 présente un schéma montrant un exemple d'enchainement des différentes opérations pour synchroniser deux documents, la figure 3 montre des images ayant de grandes similitudes, ces images étant associées à des métadonnées. 5. Description d'un mode de réalisation de l'invention 5.1 Principe général Le principe général de l'invention réside dans un procédé de synchronisation d'une première métadonnée associée à un document audiovisuel, cette première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence du premier document. Des parties du premier document sont reprises pour réaliser un second document dans lequel la première métadonnée n'est plus associée.
Une seconde métadonnée est d'abord associée au premier document et, cette seconde métadonnée comprend une seconde signature du contenu visuel extrait d'une partie d'une trame de la séquence du premier document. Puis, la première signature est détectée dans une séquence du second document audiovisuel. La seconde signature est alors détectée dans la séquence du second document audiovisuel et la première métadonnée est synchronisée avec le second document en utilisant cette seconde signature. De cette manière, la précision de la synchronisation entre les deux contenus audiovisuels effectuée par la première signature est améliorée par la seconde signature, et une nouvelle métadonnée plus précise est créée. 5.2 Description générale d'un mode de réalisation La Fig.1 présente un exemple d'ordinogramme des étapes pour la mise en oeuvre du procédé selon l'invention. Cet organigramme est avantageusement mis en oeuvre dans un appareil de production de documents audiovisuels recevant en entrée des contenus audiovisuels et des métadonnées, et générant d'autres documents audiovisuels avec des métadonnées associées. Dans un premier temps, à l'étape 1.1, un contenu audiovisuel est produit selon une première version. Bien que par la suite, l'invention est décrite dans le cadre de la production d'un film, tout document audiovisuel convient, notamment un discours, un documentaire, une émission de télé-réalité, etc. Cette première version peut être directement issue du montage de la version cinéma du film. De cette première version des secondes versions vont être produites pour des pays étrangers (avec des langues différentes), une version DVD, une version longue, une version Avion, voire une version censurée... Au cours de la phase de montage, des métadonnées sont générées et associées par signature au contenu audio et/ou visuel vidéo. Une métadonnée peut se représenter sous la forme d'une structure de données comprenant une charge utile, une signature déclenchant la présentation de la charge utile et des données administratives. La charge utile caractérise l'information qui est communiquée à une personne à un certain moment identifié par au moins une image du document. Cette personne peut être le spectateur lors de la reproduction du contenu audiovisuel et la charge utile de la métadonnée peut être un texte s'affichant à sa demande, un site Internet permettant de se connecter à un certain moment de la reproduction, des données sur le script du document (acteur, réalisateur, nom de la musique, des données haptiques pour la commande d'actuateur, ...). La présentation de la charge utile peut aussi être destinée à des personnes au cours de la phase de montage et la charge utile peut être : des marqueurs aidant au doublage (labiales, semi-labiales, début et fin de phrase, etc.), une transformation couleur (étalonnage) associé à cette frame particulière, des annotations textuelles décrivant l'intention artistique (émotion liée à la scène par exemple), ... La présentation de la charge utile d'une métadonnée doit s'effectuer à un moment bien précis du document audiovisuel associé, ce moment est fixé par une signature du contenu (ou « fingerprinting» en langue anglo-saxonne). Lorsque cette signature est détectée dans le contenu audio et/ou visuel, la charge utile est présentée à la personne. La signature est une valeur numérique obtenue à partir des informations audio et/ou vidéo comprimées ou non d'une première version du document audiovisuel.
Les données administratives précisent les conditions de présentation de la charge utile, cela peut être le type de métadonnées (texte à afficher, site à contacter, bande audio à lancer, ...). A l'étape 1.2, une métadonnée 1 est associée au document 1, cette métadonnée contenant une signature 1. Au cours de la phase de production, un second document (« document 2 ») est produit en utilisant des parties du premier document (étape 1.3). Typiquement, des séquences d'images sont coupées ou recadrées, ou du contenu audio est rajouté, ou encore des éléments visuels sont incrustés dans la vidéo, etc. Au cours de cette phase les métadonnées 1 qui avaient été produites précédemment et associées au premier document ne se retrouvent plus synchronisées avec le contenu du document 2. La présente invention permet de resynchroniser tout ou partie des métadonnées 1 automatiquement. Dans certains cas, les marqueurs permettant de calculer les premières signatures n'existent plus ou sont trop imprécis. La présente invention prévoit de créer des secondes métadonnées qui sont associées au premier document et qui vont synchroniser les premières métadonnées avec le second document.
Pour cela, à l'étape 1.4, des secondes métadonnées sont produites, un lien est créé avec les métadonnées 1, et l'ensemble est associé au premier document. La signature de ces secondes métadonnées (« signature 2 ») s'applique à une partie de la trame visuelle d'une image au moins du premier document. Cette partie est déterminée par le contenu d'une forme géométrique définie par sa forme (rond, rectangle, carré, ...) et ses coordonnées dans la trame de l'image. Par exemple, cette partie constitue un cadre rectangulaire contenant le visage d'une personne. Le lien entre la première et la seconde métadonnée permet de les associer pour que la charge utile de la seconde soit aussi celle de la première. Au cours d'une étape ultérieure, les métadonnées du document 1 doivent être associées et synchronisées au document 2. Dans un premier temps, la signature 1 est détectée dans une pluralité de trames du document 2, ces trames formant des séquences (étape 1.5). Cette première détection n'est pas suffisamment précise pour y associer la charge utile de la métadonnée 1 car la même signature se retrouve dans plusieurs trames ; à des moments différents du document 2. A l'aide du lien unissant les métadonnées 1 et 2, la seconde métadonnée est alors analysée en regard des trames présentes dans les séquences et la signature 2 est extraite. A l'étape 1.6, la signature 2 est détectée dans une partie de la trame composant chaque image d'une séquence précédemment déterminée. On peut noter que le traitement de vérification de signature s'effectuant sur une partie de l'image, ce traitement nécessite moins de puissance de calcul. La partie de la trame est déterminée par les informations contenues dans la métadonnée 2. La charge utile de la métadonnée 1 est alors synchronisée avec le document 2 (étape 1.7) en utilisant la signature 2. Puis, une nouvelle métadonnée est associée au document 2 en y spécifiant la charge utile de la métadonnée 1 et la signature 2. La FIG.2 représente un exemple d'enchainement des différentes opérations pour synchroniser deux documents. Un document 1 est enrichi d'une pluralité de métadonnées « METADATA 1», ces premières métadonnées sont synchronisées dans le document 1 par des signatures Sgn 1 basées sur un contenu audio et/ou vidéo du document 1. En vue d'un traitement ultérieur, ces premières métadonnées sont liées à une seconde signature, plus précise, qui est calculée à partir d'une partie de la trame visuelle d'une image au moins du premier document. Avantageusement, cette partie de la trame visuelle possède un rapport avec la charge utile de la métadonnée. Par exemple, la partie est un cadre entourant le visage d'un personnage qui parle, et la charge utile est le contenu textuel des paroles de ce personnage.
Un second document est créé qui comporte des parties vidéo du premier document mais qui ne possède plus les associations avec les métadonnées. Ce second document est analysé avec la première signature permettant ainsi de déterminer un certain nombre d'images pour la synchronisation approximative des métadonnées 1, ces images portant la première signature forment une pluralité de séquences d'images qui sont candidates pour la synchronisation précise. Puis, au sein de ces séquences candidates, une extraction des données visuelles est effectuée dans une partie de la trame visuelle, cette partie est définie par une forme géométrique. Cette forme géométrique est appelée « bounding box » en langue anglo-saxonne. Lorsque la seconde signature est détectée au sein de la partie de trame de certaines images, alors ces images sont associées à la charge utile de la première métadonnée. De cette façon, de nouvelles métadonnées « METADATA 2» sont générées en associant une charge utile avec la seconde signature. Lors de la synchronisation grossière de l'étape 1.5 (voir FIG. 1), un certain nombre d'images, nombre que l'on note N, sont candidates. La synchronisation précise, qui s'effectue à l'étape 1.6 illustrée par la figure 2, consiste à vérifier si la seconde signature se trouve dans ces N images. Cette vérification peut s'effectuer selon plusieurs modes de réalisation. Selon un premier mode, toutes les formes géométriques sont analysées - soit M leur nombre moyen par image - et une signature est extraite pour chaque forme. On obtient alors N x M signatures extraites qui sont comparées avec la signature lue de la METADATA 2. La signature extraite qui présente la distance la plus faible est élue, et la synchronisation s'effectue sur l'image qui contient cette forme géométrique dont est extraite cette signature. Ce mode de réalisation a l'avantage d'être exhaustif, mais nécessite une puissance de calcul importante.
Selon un autre mode de réalisation, la signature est réalisée en concaténant plusieurs points d'intérêts avec leurs descripteurs locaux. La taille de la signature réduite à la forme géométrique spécifiée (« Bounding Box ») possède une dimension plus faible que celle du document 2. Il faut alors encoder la relation spatiale entre les points d'intérêts pour garantir que l'on compare bien les bons descripteurs. La détection des éléments similaires entre les deux images peut s'effectuer à l'aide de la méthode SIFT (acronyme de l'anglo saxon « Scale-Invariant Feature Transform »). Selon cette méthode, les signatures sont des descripteurs des images à comparer. Ces descripteurs sont des informations numériques dérivées de l'analyse locale d'une image et qui caractérisent le contenu visuel de cette image de la façon la plus indépendante possible de l'échelle (« zoom » et résolution du capteur), du cadrage, de l'angle d'observation et de l'exposition (luminosité). De cette manière, deux photographies d'un même objet auront toutes les chances d'avoir des descripteurs SIFT similaires, et ceci d'autant plus si les instants de prise de vue et les angles de vue sont proches. La Fig. 3 montre une séquence d'images ayant de grandes similitudes, ces trois images sont représentées par leurs trames : Trame 1, trame 2 et Trame 3. Ces images sont extraites d'un discours du président U.S. Obama. On peut noter que de très grandes similitudes existent entre ces images, comme par exemple le décor derrière le personnage. Une signature basée sur l'ensemble de l'image risque de ne pas être suffisamment discriminante pour identifier la Trame 1, la Trame 2 ou la Trame 3 et ainsi de ne pouvoir présenter les métadonnées au bon moment. Un moyen de discriminer chaque trame plus efficacement consiste à se focaliser sur un élément d'image qui varie le plus au cours de la séquence illustrée en haut de la FIG. 3, cet élément étant le visage de la personne. Pour cela, et selon un mode préféré de réalisation de l'invention, un module logiciel détecte la présence d'un visage dans chaque trame d'images et localise ce visage détecté dans une forme, par exemple rectangulaire. Le contenu présent dans cette forme est utilisée pour le calcul d'une seconde signature.
Dans le cas de la FIG. 3, trois formes BD1, BD2 et BD3 ont été créées en vu de les associer à trois charges utiles spécifiées dans trois métadonnées correspondant aux images 1, 2 et 3. Lorsqu'une signature associée au contenu visuel de la forme est détectée, alors la métadonnée correspondante est présentée. On peut noter dans tout ce qui précède que les premières signatures sont basées sur des contenus de tout type : audio, photo, visuel, ... Les secondes signatures qui assurent une meilleure synchronisation, sont basées sur un contenu exclusivement visuel. Bien que la présente invention ait été décrite en référence aux modes de réalisation particuliers illustrés, celle-ci n'est nullement limitée par ces modes de réalisation, mais ne l'est que par les revendications annexées. On notera que des changements ou des modifications pourront être apportés par l'Homme du métier aux modes de réalisation précédemment décrits, sans pour autant sortir du cadre de la présente invention. L'invention concerne bien entendu un dispositif ayant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée. Le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document. Le processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature. Un tel dispositif, non représenté sur les figures, est par exemple un ordinateur ou un dispositif de post-production comprenant des moyens de calcul sous la forme d'un ou plusieurs processeurs.
Claims (7)
- REVENDICATIONS1. Procédé de synchronisation d'au moins une première métadonnée associée à un document audiovisuel, cette au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence d'un premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce qu'il comporte: - une association (1.4) d'au moins une seconde métadonnée avec le premier 10 document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, - une détection (1.5) de la première signature dans une séquence du second document audiovisuel, 15 - une détection (1.6) de la seconde signature dans la séquence du second document audiovisuel et synchronisation (1.7) de la première métadonnée avec le second document en utilisant cette seconde signature.
- 2. Procédé de synchronisation selon la revendication 1 ; caractérisé en ce qu'il 20 comporte une détermination d'une forme géométrique entourant la partie de trame de ladite séquence du premier document, le contenu visuel de cette forme géométrique est utilisé pour produire la seconde signature.
- 3. Procédé de synchronisation selon la revendication 1 ou 2 ; caractérisé en ce 25 qu'il comporte une recherche dans chaque image de la séquence une forme géométrique particulière et une étape d'extraction d'une signature du contenu visuel contenu dans la forme géométrique, cette signature étant comparée à la seconde signature.
- 4. Procédé de synchronisation selon la revendication 3 ; caractérisé en ce que la 30 signature extraite du contenu visuel s'effectue sur une concaténation de zones d'intérêt, la seconde métadonnée comprenant la relation spatiale unissant les différents points d'intérêts servant à calculer ladite signature.
- 5. Procédé de synchronisation selon l'une quelconque des revendications précédente ; caractérisé en ce que la première signature est calculée à partir de données audio.
- 6. Dispositif de synchronisation d'un document audiovisuel et d'une métadonnée comprenant un processeur adapté pour lire un premier document audiovisuel associé à au moins une première métadonnée comprenant une première signature d'une trame audio et/ou vidéo d'une séquence dudit premier document, des parties dudit premier document étant reprises pour réaliser un second document audiovisuel dans lequel la au moins une première métadonnée n'est plus associée ; caractérisé en ce que le processeur lit une donnée d'association d'au moins une seconde métadonnée avec le premier document, cette au moins une seconde métadonnée comprenant une seconde signature du contenu visuel extraite d'une partie d'une trame de ladite séquence du premier document, ledit processeur détecte la première signature dans une séquence du second document audiovisuel et la seconde signature dans la séquence du second document audiovisuel et, synchronise la première métadonnée avec le second document en utilisant cette seconde signature.
- 7. Programme d'ordinateur comportant des instructions pour la mise en oeuvre 20 du procédé de synchronisation entre des contenus audiovisuels et des métadonnées décrit selon l'une quelconque des revendications 1 à 5, lorsque le programme est exécuté par un processeur.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1363624A FR3010606A1 (fr) | 2013-12-27 | 2013-12-27 | Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees |
EP14816297.7A EP3087755A1 (fr) | 2013-12-27 | 2014-12-22 | Procédé de synchronisation de métadonnées avec un document audiovisuel, au moyen de parties de trames et d'un dispositif de production de telles métadonnées |
US15/108,569 US20160353182A1 (en) | 2013-12-27 | 2014-12-22 | Method for synchronising metadata with an audiovisual document by using parts of frames and a device for producing such metadata |
PCT/EP2014/079011 WO2015097161A1 (fr) | 2013-12-27 | 2014-12-22 | Procédé de synchronisation de métadonnées avec un document audiovisuel, au moyen de parties de trames et d'un dispositif de production de telles métadonnées |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1363624A FR3010606A1 (fr) | 2013-12-27 | 2013-12-27 | Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees |
Publications (1)
Publication Number | Publication Date |
---|---|
FR3010606A1 true FR3010606A1 (fr) | 2015-03-13 |
Family
ID=50829012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1363624A Withdrawn FR3010606A1 (fr) | 2013-12-27 | 2013-12-27 | Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160353182A1 (fr) |
EP (1) | EP3087755A1 (fr) |
FR (1) | FR3010606A1 (fr) |
WO (1) | WO2015097161A1 (fr) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10334328B1 (en) * | 2017-01-20 | 2019-06-25 | Render Inc. | Automatic video generation using auto-adaptive video story models |
US10579716B2 (en) | 2017-11-06 | 2020-03-03 | Microsoft Technology Licensing, Llc | Electronic document content augmentation |
EP3495968A1 (fr) * | 2017-12-11 | 2019-06-12 | Tata Consultancy Services Limited | Procédé et système d'extraction de sections pertinentes d'une pluralité de documents |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070130175A1 (en) * | 2005-12-05 | 2007-06-07 | Fujitsu Limited | Video metadata correction apparatus and method |
US20100229201A1 (en) * | 2009-03-03 | 2010-09-09 | Chang-Hwan Choi | Server and method for providing synchronization information, client apparatus and method for synchronizing additional information with broadcast program |
US8135261B1 (en) * | 2003-12-09 | 2012-03-13 | Apple Inc. | Insertion and usage of metadata in digital video |
US20130247085A1 (en) * | 2010-11-22 | 2013-09-19 | Enswers Co., Ltd. | Method for generating video markup data on the basis of video fingerprint information, and method and system for providing information using same |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010144B1 (en) * | 1994-10-21 | 2006-03-07 | Digimarc Corporation | Associating data with images in imaging systems |
GB0029880D0 (en) * | 2000-12-07 | 2001-01-24 | Sony Uk Ltd | Video and audio information processing |
US8953908B2 (en) * | 2004-06-22 | 2015-02-10 | Digimarc Corporation | Metadata management and generation using perceptual features |
US7610317B2 (en) * | 2005-02-22 | 2009-10-27 | Microsoft Corporation | Synchronization with derived metadata |
US9639532B2 (en) * | 2005-10-26 | 2017-05-02 | Cortica, Ltd. | Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts |
US8285118B2 (en) * | 2007-07-16 | 2012-10-09 | Michael Bronstein | Methods and systems for media content control |
US8170392B2 (en) * | 2007-11-21 | 2012-05-01 | Shlomo Selim Rakib | Method and apparatus for generation, distribution and display of interactive video content |
US8170342B2 (en) * | 2007-11-07 | 2012-05-01 | Microsoft Corporation | Image recognition of content |
GB2457694B (en) * | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
US8427552B2 (en) * | 2008-03-03 | 2013-04-23 | Videoiq, Inc. | Extending the operational lifetime of a hard-disk drive used in video data storage applications |
US8819014B2 (en) * | 2008-08-15 | 2014-08-26 | Apple Inc. | Digital slate |
US20110154426A1 (en) * | 2008-08-22 | 2011-06-23 | Ingo Tobias Doser | Method and system for content delivery |
US8122468B2 (en) * | 2008-11-07 | 2012-02-21 | At&T Intellectual Property I, L.P. | System and method for dynamically constructing audio in a video program |
US8433140B2 (en) * | 2009-11-02 | 2013-04-30 | Microsoft Corporation | Image metadata propagation |
US9710491B2 (en) * | 2009-11-02 | 2017-07-18 | Microsoft Technology Licensing, Llc | Content-based image search |
US8682145B2 (en) * | 2009-12-04 | 2014-03-25 | Tivo Inc. | Recording system based on multimedia content fingerprints |
US8928809B2 (en) * | 2010-09-15 | 2015-01-06 | Verizon Patent And Licensing Inc. | Synchronizing videos |
US8621355B2 (en) * | 2011-02-02 | 2013-12-31 | Apple Inc. | Automatic synchronization of media clips |
US9075806B2 (en) * | 2011-02-22 | 2015-07-07 | Dolby Laboratories Licensing Corporation | Alignment and re-association of metadata for media streams within a computing device |
US8515241B2 (en) * | 2011-07-07 | 2013-08-20 | Gannaway Web Holdings, Llc | Real-time video editing |
US8625887B2 (en) * | 2011-07-13 | 2014-01-07 | Google Inc. | Systems and methods for matching visual object components |
US9286334B2 (en) * | 2011-07-15 | 2016-03-15 | International Business Machines Corporation | Versioning of metadata, including presentation of provenance and lineage for versioned metadata |
US9535450B2 (en) * | 2011-07-17 | 2017-01-03 | International Business Machines Corporation | Synchronization of data streams with associated metadata streams using smallest sum of absolute differences between time indices of data events and metadata events |
US20130031479A1 (en) * | 2011-07-25 | 2013-01-31 | Flowers Harriett T | Web-based video navigation, editing and augmenting apparatus, system and method |
EP2820564B1 (fr) * | 2012-02-29 | 2019-04-10 | Global File Systems Holdings, LLC | Reconnaissance et filtrage de flux |
EP2738686A1 (fr) * | 2012-11-29 | 2014-06-04 | Thomson Licensing | Synchronisation de différentes versions d'un contenu multimédia |
US9262793B2 (en) * | 2013-03-14 | 2016-02-16 | Verance Corporation | Transactional video marking system |
WO2014209279A1 (fr) * | 2013-06-25 | 2014-12-31 | Intel Corporation | Gestion et accès à des fichiers multimédias avec des données de perception d'opérateur sur un dispositif de capture multimédia |
EP2876890A1 (fr) * | 2013-11-21 | 2015-05-27 | Thomson Licensing | Procédé et appareil de synchronisation précise de trames de flux vidéo |
GB2523311B (en) * | 2014-02-17 | 2021-07-14 | Grass Valley Ltd | Method and apparatus for managing audio visual, audio or visual content |
JP2017514345A (ja) * | 2014-03-13 | 2017-06-01 | ベランス・コーポレイション | 埋め込みコードを用いた対話型コンテンツ取得 |
WO2016028936A1 (fr) * | 2014-08-20 | 2016-02-25 | Verance Corporation | Détection de tatouages numériques utilisant plusieurs motifs prédits |
-
2013
- 2013-12-27 FR FR1363624A patent/FR3010606A1/fr not_active Withdrawn
-
2014
- 2014-12-22 EP EP14816297.7A patent/EP3087755A1/fr not_active Withdrawn
- 2014-12-22 WO PCT/EP2014/079011 patent/WO2015097161A1/fr active Application Filing
- 2014-12-22 US US15/108,569 patent/US20160353182A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135261B1 (en) * | 2003-12-09 | 2012-03-13 | Apple Inc. | Insertion and usage of metadata in digital video |
US20070130175A1 (en) * | 2005-12-05 | 2007-06-07 | Fujitsu Limited | Video metadata correction apparatus and method |
US20100229201A1 (en) * | 2009-03-03 | 2010-09-09 | Chang-Hwan Choi | Server and method for providing synchronization information, client apparatus and method for synchronizing additional information with broadcast program |
US20130247085A1 (en) * | 2010-11-22 | 2013-09-19 | Enswers Co., Ltd. | Method for generating video markup data on the basis of video fingerprint information, and method and system for providing information using same |
Also Published As
Publication number | Publication date |
---|---|
US20160353182A1 (en) | 2016-12-01 |
EP3087755A1 (fr) | 2016-11-02 |
WO2015097161A1 (fr) | 2015-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317531B2 (en) | Autocaptioning of images | |
Nagrani et al. | From benedict cumberbatch to sherlock holmes: Character identification in tv series without a script | |
Dhall et al. | Emotion recognition in the wild challenge 2013 | |
CN101647265B (zh) | 在视频中自动检测、移除、替换和标记闪光帧 | |
US9966112B1 (en) | Systems and methods to associate multimedia tags with user comments and generate user modifiable snippets around a tag time for efficient storage and sharing of tagged items | |
RU2440606C2 (ru) | Способ и устройство автоматического генерирования сводки множества изображений | |
US20110218997A1 (en) | Method and system for browsing, searching and sharing of personal video by a non-parametric approach | |
US20110080424A1 (en) | Image processing | |
CN104798068A (zh) | 视频检索方法和装置 | |
US20210117471A1 (en) | Method and system for automatically generating a video from an online product representation | |
EP2104937B1 (fr) | Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede | |
US20160379410A1 (en) | Enhanced augmented reality multimedia system | |
US9081801B2 (en) | Metadata supersets for matching images | |
FR3010606A1 (fr) | Procede de synchronisation de metadonnees avec un document audiovisuel en utilisant des parties de trames et dispositif de production de telles metadonnees | |
Khan et al. | Visual user-generated content verification in journalism: An overview | |
EP2172000B1 (fr) | Procede de creation d'une suite sonore de photographies, et appareil pour la creation et la reproduction d'une telle suite sonore | |
Nixon et al. | Data-driven personalisation of television content: a survey | |
US7610554B2 (en) | Template-based multimedia capturing | |
WO2016188304A1 (fr) | Procédé et dispositif de photographie | |
El-Bendary et al. | PCA-based home videos annotation system | |
Jiang et al. | Video searching and fingerprint detection by using the image query and PlaceNet-based shot boundary detection method | |
Podlesnyy | Towards data-driven automatic video editing | |
Demertzis et al. | One-shot logo detection for large video datasets and live camera surveillance in criminal investigations | |
Pulc | Získávání znalostí z multimediálního Obsahu | |
Marcelino | A computational approach to the art of visual storytelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20150831 |