FR3099674A1

FR3099674A1 - Procede et appareil d’enrichissement de contenu multimedia par des meta-informations

Info

Publication number: FR3099674A1
Application number: FR1908943A
Authority: FR
Inventors: Guillaume DORET; Alexis KOFMAN
Original assignee: Synchronized
Current assignee: Synchronized
Priority date: 2019-08-03
Filing date: 2019-08-03
Publication date: 2021-02-05
Anticipated expiration: 2039-08-03
Also published as: FR3099674B1; WO2021023397A1

Abstract

PROCEDE ET APPAREIL D’ENRICHISSEMENT DE CONTENU MULTIMEDIA PAR DES META-INFORMATIONS La présente invention est un système capable d’automatiser le séquençage et l’enrichissement d’un programme audiovisuel linéaire ou flux d’images de toute nature (émissions de télévision, films, documentaires, séries, ou tout autres programmes audiovisuel ou éducatif). Le procédé et le dispositif consistent en une plateforme Smart-Vidéo donnant aux utilisateurs un accès à des contenus additionnels, des services et des fonctionnalités d’agencement et navigation de contenus, de recherche, de partage et d’e-commerce relatifs au contenu de la vidéo. Les contenus audiovisuels et l’expérience utilisateur sont ainsi enrichis. Une forte capacité d’analyse permet à ce système de collecter un nombre important de métadonnées à partir desquelles les contenus vidéos pourront être enrichis et séquencés. Ces métadonnées sont synchronisées, les placements de contenus additionnels et séquençages peuvent ainsi être positionnés de manière très précise. Le logiciel que nous appelons l’Éditeur permet de parcourir un flux vidéo trame par trame, d’ajuster les métadonnées automatiquement générées, d’ajouter des données et/ou des objets fonctionnels et de les placer à des temps choisis. L’interface de ce système se compose de deux parties, la première destinée à l’ajout, l’édition et la gestion des contenus, la seconde servant à la création et labélisation de séquences (chapitres), points de marquage et/ou des objets fonctionnels. Elle sert également au placement des contenus sur la ligne de temps. La représentation des données est donc générée à partir de cet Éditeur ou par détection automatique. Enfin un lecteur de vidéo ou « player » permet de lire la vidéo résultante enrichie de ses données et fonctions associées. Il s’agit dans ces conditions d’un module permettant d’inclure le lecteur dans une application tierce offrant aux consommateurs une expérience audiovisuelle enrichie. Soit autonome soit en restant dans l’univers et l’écosystème des détenteurs des droits audiovisuels et des diffuseurs.

Description

PROCEDE ET APPAREIL D’ENRICHISSEMENT DE CONTENU MULTIMEDIA PAR DES META-INFORMATIONS

La présente invention est un système capable d’automatiser le séquençage et l’enrichissement d’un programme audiovisuel linéaire ou flux d’images de toute nature (émissions de télévision, films, documentaires, séries, ou tout autres programmes audiovisuel ou éducatif). Le procédé et le dispositif consistent en une plateforme Smart-Vidéo donnant aux utilisateurs un accès à des contenus additionnels, des services et des fonctionnalités d’agencement et navigation de contenus, de recherche, de partage et d’e-commerce relatifs au contenu de la vidéo.

La plateforme est constituée de 3 piliers :
1) Un outil d’édition, appelé l’Éditeur, permettant de générer un fichier de description temporelle, des contenus de données et des modèles d’interface pour les utilisateurs.
2) Des fichiers représentant le support généré à partir de cet Éditeur.
3) Un lecteur de vidéo, ou « player » permettant d’utiliser la vidéo et les données associées.

Grâce à ces 3 piliers, l’utilisation de la plateforme génère une Smart-Vidéo, vidéo dont le contenu, les fonctions et le mode de navigation sont enrichis, permettant à l’utilisateur de personnaliser son parcours et son expérience au sein même de la vidéo. De par sa nature modulaire, le lecteur vidéo peut bénéficier à toutes applications tierces, plateformes OTT (tels My Canal, BBC Player, MyTF1), OSTV, ou sites internet, mais également être utilisé de manière autonome.

On connaît l’état de la technique d’approche interactive décrite ci-dessus. On peut en citer deux exemples :

Un brevet WO2009115695, déposé le 25 février 2009 et publié le 24 septembre 2009 par MAIM ENRICO Français et un brevet WO2013079768 déposé le 17 octobre 2012 et publié le 6 juin 2013 par NOKIA Corp US.

Le premier brevet concernant un procédé d’enrichissement de source de données sur la création de nouvelles données à partir de sources et d’analyses de textes mais ne précise pas qu’il s’agit de sources audiovisuelles. Le second concernant un procédé et appareil d’enrichissement de contenus multimédias par des méta-informations. Il ajoute des métadonnées sur les contenus multimédias d’origine. Les supports sont physiques et l’invention porte sur une méthodologie de l’utilisation manuelle des métadonnées.

En l’état, il n’existe aucun procédé automatisé d’édition permettant l’enrichissement et le découpage des média vidéo en séquences et ou évènements fonctionnels ou offrant une solution intégrée de back-office, de lecteur vidéo enrichie de contenus, de fonctionnalités et services (vidéo et expérience utilisateur enrichie) à destination de tout détenteur de droits audiovisuels et ses diffuseurs.

La présente invention dotée d’un forte capacité d’analyse permet de détecter automatiquement un grand nombre d’éléments déterminants permettant la collecte de métadonnées en rapport avec le contenu du moment analysé. Les métadonnées sont synchronisées avec le contenu. Pour cela, toutes les trames d’une vidéo sont analysées, 1 seconde de vidéo correspond à un nombre de trames allant de 25 à 30 trames. A titre d’exemple, s’il est détecté qu’une personnalité apparaît sur la 23^èmetrame de la 5ème seconde de la vidéo, il est alors possible d’attacher des informations complémentaires au sujet de cette personnalité à partir du timecode 00 :00 :05 :23.

La présente invention concerne le premier pilier de la plateforme, laquelle a pour objectif, par l’enrichissement de métadonnées, de simplifier, en automatisant au maximum, l’ajout de contenus et/ou d’éléments interactifs à un programme audio-visuel.

Ce système automatisé est capable d’analyser puis de transformer un programme audiovisuel linéaire ou flux d’images de toute nature (émissions de TV, films, documentaires …) en un programme audiovisuel interactif consultable sur téléphone mobile, tout écran ou appareil connecté notamment, tablette, Apple TV, Android TV, et/ou smart TV.

Son interface, tout en parcourant un flux vidéo trame par trame, grâce à des algorithmes procédant par extraction, se compose de deux parties, la première destinée à l’ajout, l’édition et la gestion des contenus d’origine, quelle qu’en soit la source interne ou externe, enrichi d’informations ou de fonctionnalités interactives, la seconde servant à la création et à la labélisation de chapitres, séquences événements ou points de marquage étant des contenus éditoriaux contextuels et pertinents. Elle sert également au placement de ces contenus et/ou objets fonctionnels et l’enrichissement de métadonnées.

Des indices audio ou visuels, les métadonnées, permettent d’organiser le séquençage, premier découpage suite à la détection d’indices audio ou visuels de la vidéo, puis de les ajuster et de les affiner à partir des indices ou scènes de la vidéo pour parvenir à une thématique ou une interactivité partielle.

L’Éditeur permet ensuite de parcourir un flux vidéo trame par trame, de vérifier les résultats de l’analyse automatique, d’ajouter des données et de les placer à des temps choisis.

Ces contenus enrichis sont intégrés à la vidéo initiale et reformatés pour obtenir une expérience d’utilisateur personnalisée.

La création de chapitres consiste à indexer le contenu d’une vidéo dans le but de la parcourir d’une manière non linéaire comme le permettrait le découpage de chapitres fourni sur un support DVD ou la création de liste de lecture regroupant seulement les séquences pertinentes de plusieurs vidéos sous une liste contextuelle. Cela permet également de se situer et de naviguer temporellement durant la lecture du flux. De plus, l’ajout de métadonnées à ces chapitres offre la possibilité d’effectuer des requêtes de recherche au sein même de la vidéo et non plus simplement que sur le titre des fichiers.

Ce procédé d’indexation et de séquençage est illustré dans la .

Cette technologie permettra d’analyser et de transformer des vidéos accessibles au public, en direct ou en temps différé, provenant de tout moteur hypertexte ou de recherche, de tout contenu quel qu’en soit l’origine, de bases de données de tout type…

Les contenus à ajouter peuvent être de différents types et sont définis lors de la création des modèles qui sont à l’expérience utilisateur souhaité, lesquels peuvent différer en fonction du format (Film, Magazine, Documentaire) mais aussi du programme proprement dit : il peut s’agir à titre d’exemples de biographies, d’extraits vidéo (bande annonce, clip musical extrait, archive d’émissions déjà diffusés…), ou encore de fonctionnalités d’achat pour la vente de places de concerts, de livres, ou autres.

Le résultat est ensuite consultable depuis une application (téléphone mobile, tablette, smart TV, TV OS, site web ou tout écran connecté à internet) permettant de bénéficier de l’expérience enrichie et de consulter les données ajoutées.

Le dispositif consiste en une plateforme Smart-Vidéo qui comprend, d’une part, un éditeur permettant d’éditer, de publier, de partager, de donner accès à des contenus enrichis, d’autre part de générer un fichier de description temporelle de métadonnées synchronisées, et enfin un lecteur vidéo permettant d’utiliser la Smart-Vidéo.

Les métadonnées sont accessibles depuis des codes et des fonctionnalités (API, SDK) rendant le lecteur vidéo remplaçable et le dispositif compatible avec tout autre lecteur ou plateforme technologique de manière interopérable.

Dans ces conditions, le procédé automatise un maximum les actions qui étaient jusqu’alors effectuées par l’intervention d’un être humain capable de visualiser et de comprendre le sens éditorial d’une vidéo. Il en est ainsi des actions suivantes :
- visionnage d’un flux vidéo « timeline » ;
- identification d’un passage pouvant être augmenté, enrichi d’informations ou de fonctionnalités interactives ;
- ajout de contenu et de données en rapport avec le passage identifié ;
- division en chapitres, séquençage, marquage ;
- placement de modèle temporel de contenus, d’objets interactifs et/ou fonctionnels « vidéo événement »
- association d’un modèle de « vidéo événement » à un des contenus gérés par la base de données.

Aussi la plateforme est capable de détecter automatiquement des chapitres et des évènements vidéo, audio ou multimédia, à partir de solutions d’Apprentissage Profond («deeplearning») ou réseaux neuronaux mais également à partir d’algorithmes du domaine du traitement du signal, et de créer seul un « vidéo événement » à partir de la vidéo initiale. Elle peut aussi ajouter des « vidéo événements » d’autres types en fonction du contexte, du contenu et de la narration détectée.

La solution de détection automatique, plus communément appelée « moteur d’automatisation » se divise en 2 blocs, l’un destiné au découpage de la vidéo en chapitres, l’autre aux placements de contenus interactifs.

Elle peut être représentée selon le schéma décrit dans la .

Chaque bloc s’appuie sur un ensemble de techniques déjà connues et d’algorithmes répondant aux besoins spécifiques de la plateforme : la détection de « vidéo événements » et leurs placements correspondant à des types de contenus.

Le séquençage individualisé offre à l’utilisateur la possibilité de sélectionner tout ou partie des chapitres d’une vidéo à visualiser avec un repère de temps permettant de se situer lors de la visualisation.

Pour la détection automatique des timecodes permettant le séquençage en chapitres et le placement de vidéo événements, un ensemble d’algorithmes permet de réduire au maximum la fenêtre de recherche de ces derniers. Cet ensemble d’algorithmes est ensuite adapté en fonction du programme et des éléments recherchés.

La illustre un exemple d’étapes dans le cas où la vidéo comporte des indices audios ou visuels permettant d’identifier la coupure entre deux chapitres :
1) Premier découpage suite à la détection des indices audio en utilisant la méthode dite de cross-corrélation. La comparaison de deux signaux peut retrouver des similarités entre ces deux derniers. Chaque similarité retrouvée est alors accompagnée d’un score de probabilité. Plus ce score est proche de 1, plus la similarité est forte;
2) Ajustement grâce à la détection d’indices visuels dans les segments du découpage precedent;
3) Affinage à partir de la détection de scènes dans le montage vidéo.

La présente invention permet de décrire sous forme de règles, en fonction du programme, l’enchaînement des algorithmes à utiliser dans le but de détecter les timecodes pertinents.

La liste des algorithmes mise à disposition est la suivante:
- Détection de similitudes audio par « cross-correlation »;
- Détection et reconnaissance d’un signal audio à partir du modèle de réseaux de neurones convolutifs Youtube-8M
- Détection de similitudes d’une partie visuelle par SSIM
- Détection et reconnaissances de visages à partir de l’implémentation de l’algorithme Eigen-Faces
- Détection et reconnaissance de visages à partir de différents modèles de réseaux de neurones convolutifs : ResNet 50, InceptionV3, DensNet, YOLOv2, MobileNet-SSD, MTCNN
- Classification d’images à partir de différents modèles de réseaux de neurones convolutifs : ResNet50, InceptionV3, MobileNet.

Le placement automatique des éléments interactifs s’appuie également sur des indices tels que des textes incrustés dans la vidéo ou des mots clés issus de la transcription en texte de la piste audio du flux.

Claims

L’invention est un système automatisé capable d’analyser puis de transformer un programme audiovisuel linéaire ou flux d’images de toute nature (émissions de TV, films, documentaires …) en un programme audiovisuel interactif consultable sur téléphone mobile, tout écran ou appareil connecté notamment, tablette, Apple TV, Android TV, et/ou smart TV
caractérisé en ce que son interface, tout en parcourant un flux vidéo trame par trame, grâce à des algorithmes procédant par extraction, se compose de deux parties, la première destinée à l’ajout, l’édition et la gestion des contenus d ‘origine, quelle qu’en soit la source interne ou externe, enrichi d’informations ou de fonctionnalités interactives, la seconde servant à détecter et labelliser des chapitres, séquences événements ou points de marquage étant des contenus éditoriaux contextuels et pertinents, ainsi qu’au placement de ces contenus et/ou objets fonctionnels.
La détection automatique des chapitres ou points de marquage, selon la revendication 1, est caractérisée en ce que des indices audio ou visuels, les métadonnées, permettent d’organiser le séquençage et la coupure entre deux chapitres, premier découpage suite à la détection d’indices audio ou visuels de la vidéo, puis de les ajuster et de les affiner à partir des indices ou scènes de la vidéo pour parvenir à une thématique ou une interactivité partielle.
La technologie de placement des contenus ou points de marquage, selon les revendications 1 et 2, est caractérisée en ce que ces contenus enrichis sont intégrés à la vidéo initiale et reformatés pour une expérience d’utilisateur personnalisé.
La technologie selon les revendications 1 à 3 permettra d’analyser et de transformer des vidéos accessibles au public, en direct ou en temps différé, provenant de tout moteur hypertexte ou de recherche, de tout contenu quel qu’en soit l’origine, de bases de données de tout type…
Le dispositif consiste en une plateforme Smart-Vidéo, selon les revendications 1 à 3, caractérisée en ce qu’elle comprend, d’une part, un éditeur permettant d’éditer, de publier, de partager, de donner accès à des contenus enrichis, d’autre part de générer un fichier de description temporelle de métadonnées synchronisées, et enfin un lecteur vidéo permettant d’utiliser la Smart-Vidéo.
Un dispositif selon la revendication 5, caractérisé en ce que les métadonnées sont accessibles depuis des codes et des fonctionnalités (API, SDK) rendant le lecteur vidéo remplaçable et le dispositif compatible avec tout autre lecteur ou plateforme technologique de manière interopérable.