FR2831006A1 - Procede et systeme d'identification et de verification du contenu de documents multimedia - Google Patents
Procede et systeme d'identification et de verification du contenu de documents multimedia Download PDFInfo
- Publication number
- FR2831006A1 FR2831006A1 FR0113224A FR0113224A FR2831006A1 FR 2831006 A1 FR2831006 A1 FR 2831006A1 FR 0113224 A FR0113224 A FR 0113224A FR 0113224 A FR0113224 A FR 0113224A FR 2831006 A1 FR2831006 A1 FR 2831006A1
- Authority
- FR
- France
- Prior art keywords
- multimedia
- signatures
- document
- documents
- multimedia document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
- G06F21/645—Protecting data integrity, e.g. using checksums, certificates or signatures using a third party
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Le procédé d'identification et de vérification du contenu de documents multimédia accessibles dans un système distribué à multiples points d'entrée comprend : a/ une étape d'enregistrement de documents multimédia en tarit qu'oeuvres identifiées, cette étape d'enregistrement comprenant pour chaque document multimédia considéré l'extraction d'une empreinte digitale comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, et b/ une étape de vérification de l'usage autorisé ou non en tant qu'oeuvre enregistrée, d'un document multimédia donné accessible au public, cette étape de vérification comprenant des comparaisons successives à l'aide des signatures en cascade des documents multimédia enregistrés avec des signatures correspondantes du document multimédia donné, la comparaison suivante n'étant effectuée que si les signatures comparées précédemment ont révélé des similitudes, chaque comparaison de signatures en cascade n'étant effectuée que sur les signatures d'un groupe de documents multimédia enregistrés dont les signatures précédemment comparées ont révélé des similitudes avec les signatures du document multimédia donné, le résultat final de la dernière comparaison permettant l'établissement d'un rapport contenant la liste des documents multimédia enregistrés ayant révélé des similitudes avec le document multimédia donné en entrée.
Description
<Desc/Clms Page number 1>
La présente invention concerne un procédé et un système d'identification et de vérification du contenu de documents multimédia, qui peut être appliqué notamment à la veille du bon usage d'une oeuvre, et à la certification de conformité du contenu de documents multimédia par rapport à des documents multimédia de référence.
Les réseaux télématiques tels que le réseau Internet offrent aux auteurs l'avantage de permettre de diffuser et de faire connaître rapidement leurs oeuvres.
En contrepartie, par la facilité d'accès, de téléchargement et de diffusion d'information via le réseau mondial, le patrimoine de ces mêmes auteurs se trouve menacé par des personnes mal intentionnées qui cherchent à diffuser des copies illicites ou à contrefaire une oeuvre. Des personnes de bonne foi se mettent également parfois dans des situations illégales par méconnaissance des droits d'auteurs en diffusant des contenus pour lesquels elles n'ont pas acquitté de droits correspondants.
La contrefaçon et le transfert de documents illicites sont de plus en plus une monnaie d'échange (pédophilie, dépôt de documents douteux dans un lieu privé (portail), diffusion/vente de copies d'oeuvres,...). Cette pratique s'amplifie avec le nombre croissant d'usagers du réseau et le sentiment d'impunité que fournit l'anonymat supposé des transactions électroniques. Les images et les sons sont recopiés et diffusés sur les sites web de Monsieur Tout-le-Monde . On trouve ainsi aisément des photos d'artistes ou d'oeuvres d'art, des morceaux de musique en MP3, des jingles ou des éléments iconographiques qui ont été allègrement pillés et éventuellement transformés sans l'accord de leurs auteurs. Il est maintenant monnaie courante de trouver, par exemple, sur le réseau des
<Desc/Clms Page number 2>
films entiers recopiés à partir de DVD privés ou bien même capturés avec une caméra vidéo dans une salle de cinéma... Les formats d'échanges privés (point-à-point) ou publics se multiplient.
Les autorités qui veillent à l'assainissement d'Internet ou au bon usage des oeuvres qui sont à leur charge se trouvent désarmées à cause du volume important de données disponibles sur le réseau Internet et par son augmentation rapide (doublement tous les ans).
L'invention vise à permettre notamment la détection, l'identification de la violation du copyright ou des droits d'auteurs des oeuvres présentes sur Internet ou sur d'autres supports d'informations (CD, disques durs, etc. ). L'invention permet aussi d'identifier le transit sur Internet des oeuvres à caractère privé. L'invention a également pour objet de permettre de certifier le contenu d'un document et d'assainir ainsi l'échange et l'exploitation de l'information disponible sur les réseaux télématiques.
D'une manière générale, l'invention a pour but de permettre de réaliser de façon plus rapide et fiable, même dans le cas de la gestion d'un grand nombre de documents, l'identification et la vérification du contenu de documents multimédia.
Ces buts sont atteints grâce à un procédé d'identification et de vérification du contenu de documents multimédia accessibles dans un système distribué à multiples points d'entrée, caractérisé en ce qu'il comprend : a/une étape d'enregistrement de documents multimédia en tant qu'oeuvres identifiées, cette étape d'enregistrement comprenant l'extraction d'une empreinte digitale de chaque document multimédia considéré et le stockage de cette empreinte digitale dans une base de données indépendante de la base de données dans laquelle est éventuellement archivé le document multimédia, l'empreinte digitale du
<Desc/Clms Page number 3>
document multimédia considéré comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, et b/une étape de vérification de l'usage autorisé ou non en tant qu'oeuvre enregistrée, d'un document multimédia donné accessible au public, cette étape de vérification comprenant des comparaisons successives à l'aide des signatures en cascade des documents multimédia enregistrés avec des signatures correspondantes du document multimédia donné, la signature du document multimédia donné correspondant à un critère d'analyse considéré pour une comparaison donnée étant calculée juste avant de procéder à cette comparaison et la comparaison suivante n'étant effectuée que si les signatures comparées précédemment ont révélé des similitudes, chaque comparaison de signatures en cascade n'étant effectuée que sur les signatures d'un groupe de documents multimédia enregistrés dont les signatures précédemment comparées ont révélé des similitudes avec les signatures du document multimédia donné, le résultat final de la dernière comparaison permettant l'établissement d'un rapport contenant la liste des documents multimédia enregistrés ayant révélé des similitudes avec le document multimédia donné en entrée.
L'invention a encore pour objet un procédé de gestion de bases de données de clients contenant un ensemble de documents multimédia de client, caractérisé en qu'il comprend : a/une étape d'enregistrement de documents multimédia en tant qu'oeuvres identifiées, cette étape d'enregistrement comprenant l'extraction d'une empreinte digitale de chaque document multimédia considéré et le stockage de cette empreinte digitale dans une base de données indépendante de la base de données dans laquelle est éventuellement archivé le document multimédia, l'empreinte digitale du
<Desc/Clms Page number 4>
document multimédia considéré comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, et b/une étape de vérification et de certification de la conformité du contenu des documents multimédia de client par rapport aux documents multimédia enregistrés en tant qu'oeuvres identifiées, l'étape de vérification et de certification de conformité comprenant : blj l'extraction préalable d'une empreinte digitale de chaque document multimédia de client, l'empreinte digitale comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré ; b2/des comparaisons successives à l'aide des signatures en cascade des documents multimédia enregistrés avec des signatures correspondantes des empreintes digitales de chacun des documents multimédia de client, chaque comparaison de signatures en cascade n'étant effectuée que sur les signatures d'un groupe de documents multimédia enregistrés dont les signatures précédemment comparées ont révélé des similitudes avec les signatures du document multimédia de client considéré, le résultat final de la dernière comparaison permettant l'établissement d'un rapport permettant d'établir un certificat de conformité de contenu ou de non-conformité de contenu en fonction du degré de similitude observé entre les documents multimédia de client et les documents multimédia pré-enregistrés.
Dans tous les cas, selon un aspect de l'invention, la séquence ordonnée de signatures en cascade comprend une première signature constituant une signature d'accroche basée sur un critère de comparaison rapide.
Selon un autre aspect de l'invention, la séquence ordonnée de signatures en cascade comprend des signatures représentant des
<Desc/Clms Page number 5>
caractéristiques globales d'un document multimédia enregistré et des signatures représentant des caractéristiques locales du document multimédia enregistré considéré.
Selon une caractéristique particulière, une signature de la séquence ordonnée de signatures en cascade constituant l'empreinte digitale d'un document multimédia enregistré considéré constitue elle-même une signature en cascade appliquée à un média élémentaire du document multimédia enregistré ou à un composant homogène d'un média élémentaire du document multimédia enregistré.
Le procédé d'identification et de vérification du contenu de documents multimédia peut en outre comprendre une étape de veille sur un réseau tel qu'un réseau Internet/Intranet pour mettre en évidence des documents multimédia accessibles au public à vérifier qui présentent un contenu répondant à au moins un critère ayant servi à définir les empreintes digitales des documents multimédia déjà enregistrés en tant qu'oeuvres identifiées, et identifier une adresse pour chacun des documents multimédia à vérifier mis en évidence.
L'invention concerne également un système d'identification et de vérification du contenu de documents multimédia accessibles dans un système distribué à multiples point d'entrée, caractérisé en ce qu'il comprend autour d'une plate-forme d'interconnexion et d'intercommunication, un module de segmentation pour la dissection du contenu d'un document multimédia, un générateur d'empreinte pour engendrer une empreinte digitale d'un document multimédia, l'empreinte digitale du document multimédia comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, un agent notificateur, une base d'empreintes digitales de référence, un gestionnaire de traque de contenu, un superviseur de traque de contenu et un annuaire de référence.
<Desc/Clms Page number 6>
Ce système d'identification et de vérification du contenu de documents multimédia peut en outre comprendre au moins l'un des éléments suivants : agent veilleur, gestionnaire d'abonnés, agent certificateur.
D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, donnés à titre d'exemples, en référence aux dessins annexés, sur lesquels : -la Figure 1 est un schéma bloc d'un exemple de système d'identification et de vérification du contenu de documents multimédia selon l'invention, - la Figure 2 est un organigramme montrant les principales étapes d'élaboration d'une empreinte digitale d'une oeuvre multimédia à protéger, conformément à l'invention, - la Figure 3 est un organigramme montrant un exemple de procédé d'identification et de vérification du contenu de documents multimédia selon l'invention, appliqué à une veille sur un réseau télématique, - la Figure 4 est un schéma-bloc montrant les relations entre plusieurs unités fonctionnelles coopérant avec un système d'identification et de vérification du contenu de documents multimédia conformément à l'invention, - la Figure 5 est un organigramme montrant un processus de vérification de documents (épreuves) avant leur insertion dans une base de données de documents fiables ou une base de données de documents incertains en fonction du résultat de l'opération de vérification, et - la Figure 6 montre l'organigramme général d'un procédé d'identification et de vérification selon l'invention mettant en oeuvre des processus de notification et de certification de documents.
Le procédé d'identification et de vérification du contenu de documents multimédia selon l'invention implique essentiellement une
<Desc/Clms Page number 7>
première étape d'enregistrement de documents multimédia en tant qu'oeuvres identifiées et une deuxième étape de vérification, pour un document multimédia donné, de la conformité ou non, partielle ou totale, du contenu de ce document avec des documents multimédia préenregistrés, afin de pouvoir ensuite déduire de cette vérification, par exemple l'introduction ou non de modifications ou d'utilisations non conformes du contenu de documents multimédia de référence.
Le procédé de gestion selon l'invention permet aussi de gérer des sites ou des bases de données d'abonnés en assurant la vérification et la certification de conformité de leur contenu.
L'invention permet en particulier de vérifier si un document multimédia accessible au système, sur un support quelconque ou sur un réseau tel Internet, correspond à un usage autorisé d'une oeuvre enregistrée et de certifier le cas échéant le contenu de ce document par rapport aux oeuvres enregistrées. Le procédé selon l'invention est ainsi particulièrement utile pour régler des problèmes de droits d'auteur. Le procédé autorise une veille consistant en une exploration de sites sur un réseau grâce à un métamoteur de recherche associé à un dictionnaire de concepts. Il est ainsi possible de rechercher les documents dont le contenu relève d'au moins un des concepts du dictionnaire.
Selon un aspect important de l'invention, pour l'enregistrement d'une oeuvre à protéger ou pour les opérations de vérification de documents multimédia, on extrait de chaque document multimédia une empreinte digitale, ou signature synthétique, qui identifie chaque document et se substitue à lui pour tous les traitements ultérieurs. Pour les documents multimédia devant faire l'objet d'un enregistrement, il suffit ainsi de procéder au stockage des empreintes digitales dans des bases de données de référence sans qu'il soit nécessaire de stocker l'intégralité du contenu des documents, dès lors que l'empreinte digitale de chaque
<Desc/Clms Page number 8>
document multimédia considéré est stockée dans une base de données de référence indépendante de la base de données dans laquelle est éventuellement archivé le document multimédia.
De façon plus particulière, l'empreinte digitale du document multimédia considéré comprend une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré.
La protection contre une exploitation non autorisée des oeuvres enregistrées confiées au système est assurée en comparant l'empreinte digitale de chacune des oeuvres enregistrées du système avec celles extraites de documents stockés sur des supports quelconques (CD, disque, DVD,...) ou dans un site quelconque de la toile du réseau Internet.
Le système commence par disséquer le contenu des documents ou des oeuvres du site ou du support en question.
L'oeuvre peut être un document élémentaire textuel, pictural, musical,..., ou un document composé constitué de plusieurs documents élémentaires. Le contenu des oeuvres peut être stocké dans un site ou sur un CD, disque, DVD,.... L'élaboration de l'empreinte digitale ou signature numérique synthétique s'effectue en plusieurs étapes : Pour chaque oeuvre du support faire : 1) Lecture du contenu de l'oeuvre et analyse de la structure du document, 2) Si le contenu est composite on effectue une dissection de l'oeuvre : extraction des composants du contenu, 3) Pour chaque composant : extraction et fabrication de sa signature digitale, 4) Composition d'une signature synthétique regroupant l'ensemble de l'information.
La Figure 2 résume ce processus d'élaboration d'une empreinte digitale ou signature synthétique d'une oeuvre.
<Desc/Clms Page number 9>
La première étape 101 consiste à lire le document considéré et à analyser la structure de son contenu, le document considéré pouvant être fourni par son auteur pour constituer une oeuvre à protéger enregistrée ou pouvant résulter d'une traque sur un réseau ou un support dans le cadre d'une opération de veille, ou encore pouvant être fourni par un client en vue d'une certification par exemple ou d'un contrôle de son utilisation.
La deuxième étape 102 consiste en une segmentation ou dissection du document multimédia considéré, s'il s'avère que celui-ci est composite, afin d'extraire les différents composants homogènes ou documents élémentaires.
La troisième étape 103 consiste à isoler chaque document élémentaire afin de procéder à l'étape 104 à l'extraction et la fabrication d'une signature digitale pour chaque document élémentaire.
L'étape 105 consiste en l'élaboration d'une empreinte digitale constituant une signature synthétique regroupant l'ensemble des informations obtenues au cours de l'étape 104 de fabrication d'une signature digitale pour chaque document élémentaire.
Entre l'étape 104 et l'étape 105, chaque document élémentaire peut le cas échéant faire à son tour l'objet d'une décomposition en composants homogènes donnant lieu à l'établissement d'une signature digitale au niveau de chaque composant. Le processus d'élaboration d'une empreinte digitale d'un document multimédia sous la forme d'une séquence ordonnée de signatures en cascade résultant de l'analyse et de la décomposition multicritères du document multimédia sera présentée de façon plus détaillée dans la suite de la description, en relation avec des exemples de mise en oeuvre de chacune des étapes précitées d'élaboration d'une empreinte digitale.
On décrira d'abord des exemples de lecture du contenu d'un document présenté sur un site Internet.
<Desc/Clms Page number 10>
Le système reçoit comme point d'entrée l'adresse normalisée d'une page, URL. Le calcul de l'empreinte digitale de la page s'effectue en plusieurs étapes :
1) Recopie Locale : L'entrée du système est une adresse URL qui est analysée : . Document non exécutable : le document est chargé sur la machine locale . Document exécutable (PHP, CGI) : on génère une copie de l'exécution dans un document local (stocké sous forme d'un fichier ou sous forme d'un objet informatique au sens C++/JAVA) 2) Identification et Invocation de l'agent d'analyse de la structure du document : par exemple en analysant au moyen de l'extension ou du magic word ou d'un type MIME pour déterminer la nature du document et invoquer l'agent d'indexation adéquat : 1. si c'est un document monomédia (image, vidéo, audio, texte brut) on envoie le document à l'agent d'indexation en tant que bloc du type correspondant avec son URL si le document est du type shockwave (swf, dcr) on envoie le document à l'analyseur SWF avec son URL . si le document est du type HTML, on envoie le document à l'analyseur
HTML avec son URL . si le document est du type VRML, on envoie le document à l'analyseur
VRML avec son URL . si le document est un applet java : on envoie le document à l'exécuteur java avec son URL . si le document est un fichier associé à un activeX : on envoie le document à l'exécuteur activeX avec son URL
1) Recopie Locale : L'entrée du système est une adresse URL qui est analysée : . Document non exécutable : le document est chargé sur la machine locale . Document exécutable (PHP, CGI) : on génère une copie de l'exécution dans un document local (stocké sous forme d'un fichier ou sous forme d'un objet informatique au sens C++/JAVA) 2) Identification et Invocation de l'agent d'analyse de la structure du document : par exemple en analysant au moyen de l'extension ou du magic word ou d'un type MIME pour déterminer la nature du document et invoquer l'agent d'indexation adéquat : 1. si c'est un document monomédia (image, vidéo, audio, texte brut) on envoie le document à l'agent d'indexation en tant que bloc du type correspondant avec son URL si le document est du type shockwave (swf, dcr) on envoie le document à l'analyseur SWF avec son URL . si le document est du type HTML, on envoie le document à l'analyseur
HTML avec son URL . si le document est du type VRML, on envoie le document à l'analyseur
VRML avec son URL . si le document est un applet java : on envoie le document à l'exécuteur java avec son URL . si le document est un fichier associé à un activeX : on envoie le document à l'exécuteur activeX avec son URL
<Desc/Clms Page number 11>
. si le document est un fichier associé à un élément enfichable externe : on envoie le document à l'exécuteur de l'élément enfichable (plug-in) avec son URL.
La dissection d'un document de type SWF s'effectue en plusieurs étapes : a) décompression du document b) extraction des tags (identifiant images, vidéos, animations, etc.) c) production des blocs texte image etc. correspondants. d) Production des relations entre ces blocs
La dissection d'un document de type HTML ou VRML utilise les mêmes principes que l'analyseur SWF mais avec les contraintes HTML ou VRML étendues. La dissection du résultat d'un exécuteur Java/ActiveX/Piug-In commence par capturer une exécution non- événementielle dans un document pour être disséqué 1) L'indexeur commence par créer une liste (vide au départ) des blocs contenant un pointeur vers une copie locale, une URL pointant vers la donnée originelle, le type du bloc (image fixe, image animée, etc. ) et un identifiant unique. Il reçoit les données provenant des différents services. Il analyse pour chaque objet le sous-type de l'objet à partir d'une liste de règles de transformations et de règles de productions qu'il applique pour produire un ou plusieurs blocs qui seront ajoutés à la liste.
La dissection d'un document de type HTML ou VRML utilise les mêmes principes que l'analyseur SWF mais avec les contraintes HTML ou VRML étendues. La dissection du résultat d'un exécuteur Java/ActiveX/Piug-In commence par capturer une exécution non- événementielle dans un document pour être disséqué 1) L'indexeur commence par créer une liste (vide au départ) des blocs contenant un pointeur vers une copie locale, une URL pointant vers la donnée originelle, le type du bloc (image fixe, image animée, etc. ) et un identifiant unique. Il reçoit les données provenant des différents services. Il analyse pour chaque objet le sous-type de l'objet à partir d'une liste de règles de transformations et de règles de productions qu'il applique pour produire un ou plusieurs blocs qui seront ajoutés à la liste.
Exemple de règle de transformation : règle GIF-animée : si (type est image GIF animée) alors appliquer : 1. extraction de chaque image, 2. sauvegarde des images,
) minl IF r In hlrsn nol Ir nh : lo im : ano
) minl IF r In hlrsn nol Ir nh : lo im : ano
<Desc/Clms Page number 12>
L'étape de dissection ou segmentation d'une oeuvre multimédia composite consiste à déstructurer le contenu du document composite :
Dans le cas d'une dissection d'une oeuvre vidéo, le contenu du document vidéo est analysé pour produire le résumé contenant, en plus des informations textuelles et sonores de la vidéo, les images représentatives des séquences de la vidéo. Le résultat est un document XML contenant les URL des éléments extraits de la vidéo (l'URL du document d'origine, l'URL de la page des images représentatives de la vidéo, l'URL du texte,...).
Dans le cas d'une dissection d'une oeuvre vidéo, le contenu du document vidéo est analysé pour produire le résumé contenant, en plus des informations textuelles et sonores de la vidéo, les images représentatives des séquences de la vidéo. Le résultat est un document XML contenant les URL des éléments extraits de la vidéo (l'URL du document d'origine, l'URL de la page des images représentatives de la vidéo, l'URL du texte,...).
Dans le cas de la dissection d'un site ou d'une page HTML, le contenu de la page est analysé pour identifier et extraire ses différents constituants (flash, film, image, texte, audio,...). Chacun de ces composants est disséqué à son tour. Le résultat final est un document XML regroupant la structure du site ainsi que les URL des pages stockant les informations extraites du site/page.
L'invention prend également en compte la dissection d'un média à structure dynamique (c'est-à-dire incluant non seulement des données statiques, mais aussi des parties de code exécutables : telles que du code javascript) ou d'un média interactif (CD-ROM, DVD, Flash). De tels types de documents sont de plus en plus souvent présents dans les contenus multimédias et nécessitent un travail d'analyse plus complexe que les mécanismes de lecture/analyse précédemment présentés.
La problématique concernant ces médias réside dans le fait que l'on ne peut pas disséquer complètement le contenu de ces médias en médias élémentaires par une simple lecture de leur contenu car des portions de ce contenu ne sont générées qu'à l'exécution et parfois uniquement de manière dépendante de l'interaction d'un utilisateur. On peut illustrer ces deux cas par deux exemples :
<Desc/Clms Page number 13>
Premier exemple : code produisant l'inclusion de média : un code javascript au sein d'un document HTML peut calculer par concaténation l'adresse URL d'un lien de cette page, décidant par là-même d'inclure un média dont la description n'est pas directement inscrite dans le fichier HTML. La description est indirecte puisqu'elle n'est produite qu'à l'exécution du code.
Deuxième exemple : code interactif : la production d'une adresse URL d'un contenu d'une page HTML résulte d'une concaténation comme dans le premier exemple mais l'un des termes de cette concaténation dépend d'un choix de l'utilisateur. Dans ce deuxième cas, non seulement la description est indirecte mais de plus elle ne prendra pas le même sens suivant les choix de l'utilisateur.
Dans le cas de documents présentant ces caractéristiques, on fait une approximation, le comportement du programme du document de manière à caractériser au mieux les contenus dynamiques et médias interactifs. Plusieurs schémas peuvent être employés pour produire une telle approximation, en fonction des buts recherchés dans l'analyse. On pourra employer des sémantiques opérationnelles, dénotationelles, axiomatiques,...). L'approximation de ces sémantiques puis l'induction de propriétés par approximation permettent de transformer un document décrivant une potentialité d'inclusion de média en un ensemble de documents potentiels incluant exactement un média précis. L'Analyse Statique qui sera décrite ci-dessous constitue une méthode particulière donnée à titre d'exemple.
L'interprétation abstraite appliquée sous la forme d'une analyse statique est conduite sous la forme d'intervalles de valeurs/ensembles de valeurs que peuvent prendre les variables du programme à chaque étape de ce programme :
<Desc/Clms Page number 14>
If (a==2) {b="http ://www. audio"} else {b="http ://www. video"}
b sera décrit par 11ensemble de valeurs
E (b) = { {b="http ://www. audio", b="http ://www. video"} Une variable c dont le choix est laissé à l'utilisateur au moyen d'un curseur gradué entre-0, 5 et +0,5 sera décrite par l'intervalle de valeurs :
Les opérations pratiquées sur ces variables seront approximées par les conséquences possibles pour l'intervalle/ensemble de valeurs de ces actions.
Prenons par exemple l'opération suivante :
d = concaténation,". htm)").
Cette opération produira à partir de l'ensemble :
E (b) = { {b="http ://www. audio", b="http ://www. video"} l'ensemble :
E (d) = {b="http ://www. audio. html", b="http ://www. video. html"}
Différentes techniques peuvent être mises en oeuvre pour améliorer la convergence de ces méthodes vers la production de résultat stable (ce que l'on nomme les "points fixes" de la sémantique approximante), par exemple l'élargissement de l'intervalle des variables, le rétrécissement, le découpage des intervalles ou des ensembles en plusieurs sous-ensembles.
d = concaténation,". htm)").
Cette opération produira à partir de l'ensemble :
E (b) = { {b="http ://www. audio", b="http ://www. video"} l'ensemble :
E (d) = {b="http ://www. audio. html", b="http ://www. video. html"}
Différentes techniques peuvent être mises en oeuvre pour améliorer la convergence de ces méthodes vers la production de résultat stable (ce que l'on nomme les "points fixes" de la sémantique approximante), par exemple l'élargissement de l'intervalle des variables, le rétrécissement, le découpage des intervalles ou des ensembles en plusieurs sous-ensembles.
Pour optimiser l'application de ces méthodes, il est mis en oeuvre une stratégie évolutionniste comparant des solutions épreuves sur lesquelles on applique alternativement ces stratégies suivant un schéma encodeur dans un"code génétique"dénommé"code d'abstraction".
<Desc/Clms Page number 15>
Chacune des solutions est traitée en parallèle et la convergence de ces solutions est comparée aux autres. Les meilleures solutions (seuil critique ou élitisme, mais d'autres critères de sélection peuvent être appliqués) sont conservées et subissent l'action d'opérateurs de mutation et d'opérateurs de pontage qui mélangent les codes d'abstraction pour converger le plus rapidement possible vers les points fixes.
Ce schéma d'optimisation évolutionniste peut-être réduit à sa plus simple expression (essai comparatif direct de chacune des méthodes d'accélération de la convergence).
Les ensembles de potentialités représentées par ces points fixes représentent les médias potentiellement insérés dans le document multimédia. On considérera que le document multimédia contient abstraitement l'ensemble de ces potentialités. Le document multimédia à indexer est alors une nébuleuse de potentialités, et chacune de ces potentialités est indexée avec le document. Le système de référencement assure que ce statut de"potentialités"est noté dans le méta-index de manière à distinguer les inclusions"sûres", des inclusions"potentielles"et à caractériser celles-ci au mieux d'un pourcentage (100% pour les inclusions sûres, et sinon inférieur proportionnellement au rapport entre l'intervalle et les documents que l'on peut inclure).
L'analyse statique du code dynamique ou interactif a donc pour but d'extraire les liens/médias"potentiels"et d'identifier les contenus malgré la possibilité de génération dynamique (à la volée) de ces contenus ou de ces liens en fonction de l'utilisateur.
Le but de cette tâche est d'extraire une caractérisation mathématique représentant t'oeuvre indépendamment des conditions de prise ou numérisation de loeuvre (éclairage, position,...). Ceci afin de pouvoir identifier la présence de la totalité ou d'une partie de l'oeuvre dans des contextes variés (incrustation, rotation, bruitage,...). Pour ce
<Desc/Clms Page number 16>
faire il est élaboré une signature en cascade (signature imbriquée). Cette signature en cascade représente aussi bien les caractéristiques globales (couleurs, formes, textures) que locales (détail particulier). La signature en cascade est composée d'une séquence de signatures élémentaires associées aux méthodes utilisées dans la production des signatures élémentaires. Parmi les méthodes utilisées pour produire des signatures en cascade on peut citer : A) Quantification colorimétrique de l'image et des zones homogènes (du point de vue couleur) : le résultat est un ensemble de vecteurs représentant les couleurs dominantes de l'images et de ses différents constituants. La méthode est basée sur l'analyse de l'histogramme (vecteur de M dimension reflétant la distribution des couleurs de l'image). L'algorithme est le suivant :
1. calcul des couleurs de chacune des bandes de l'image (HSV/RGB)
2. normalisation : division de la valeur de chaque échantillon par la somme des valeurs de tous les échantillons de l'image.
Le vecteur produit rend l'histogramme invariant aux différentes opérations géométriques de l'image (changement d'échelle, rotation,...)
3. quantification de l'histogramme : production d'un vecteur de taille réduite et moins sensible aux conditions de prise vue.
Les éléments de ce vecteur sont les paramètres d'une suite de distributions gaussiennes approximant l'histogramme normalisé.
1. calcul des couleurs de chacune des bandes de l'image (HSV/RGB)
2. normalisation : division de la valeur de chaque échantillon par la somme des valeurs de tous les échantillons de l'image.
Le vecteur produit rend l'histogramme invariant aux différentes opérations géométriques de l'image (changement d'échelle, rotation,...)
3. quantification de l'histogramme : production d'un vecteur de taille réduite et moins sensible aux conditions de prise vue.
Les éléments de ce vecteur sont les paramètres d'une suite de distributions gaussiennes approximant l'histogramme normalisé.
Deux méthodes sont employées : a. la première est basée sur l'algorithme de Fisher (répartition de l'histogramme en N classes), chaque
<Desc/Clms Page number 17>
classe correspondant à des zones homogènes de l'images, b. la deuxième est basée sur un calcul itératif. A chaque itération les paramétriques de la gaussienne correspondant au maxima de la gaussienne sont estimés. Les pixels dont les valeurs sont couvertes par cette gaussienne sont étriqués avec l'indice de l'itération, les valeurs des pixels sont mises à zéro. L'histogramme est à nouveau calculé et on itère jusqu'à la remise à zéro de tous les points de l'image.
4. Calcul et quantification de l'histogramme de chacune des zones de l'image.
B) Caractérisation des zones d'intérêts (points d'appui et des zones ou motifs constituant les composants). Une méthode de caractérisation possible caractérise les voisinages des zones d'intérêts ainsi que la partition obtenue à partir des points d'intérêts.
C) Caractérisation des positions des pixels appartenant à la même entité (objets, forme,...). Cette caractérisation dépend de la complexité de la forme des composants de l'image. Les formes simples telles que droite, cercle,... sont décrites par les équations inhérentes. La méthode employée pour extraire les cercles et les ellipses est basée sur la détection du contour et du filtre spocke.
Les formes complexes sont décrites par une série d'invariants affines qui sont déterminés à partir de la position des points d'appui. La méthode employée est la suivante : 1. calcul des points d'appui et des contours des composants de l'image,
<Desc/Clms Page number 18>
2. tri des points d'appui pour ne conserver que ceux qui sont positionnés sur les contours.
3. regroupement des points d'appui et calcul pour chaque groupe de la fonction affine approximant la courbe passant par les points d'appui du groupe.
D) Caractérisation de l'aspect visuel de l'image et de ses composants : on peut utiliser une méthode basée sur la décomposition en odelettes.
De la même façon que pour une oeuvre visuelle, l'empreinte digitale d'une oeuvre sonore s'effectue en plusieurs étapes : tout d'abord l'oeuvre est décomposée en plusieurs composants homogènes (zone homogène : même locuteur, note, même rythme,...). Vient ensuite la caractérisation de chacun de ces composants homogènes et enfin la structuration de !'oeuvre.
L'empreinte digitale décrit le contenu d'un document multimédia.
Dans le cas d'une oeuvre enregistrée gérée par le système, les empreintes sont stockées dans une base appelée Base d'Empreintes de Références (BER).
Le modèle d'une empreinte est avantageusement le suivant :
1. composition de l'oeuvre :
1. liste des oeuvres élémentaires constituant le document ou l'oeuvre : un poster peut être constitué de plusieurs photos. En général, un document multimédia est composé de plusieurs oeuvres, chacune avec ses propres conditions d'exploitation.
1. composition de l'oeuvre :
1. liste des oeuvres élémentaires constituant le document ou l'oeuvre : un poster peut être constitué de plusieurs photos. En général, un document multimédia est composé de plusieurs oeuvres, chacune avec ses propres conditions d'exploitation.
2. l'information factuelle : conditions d'exploitations, les auteurs, la date, le lieu,...
2. signature en cascade de chacune des oeuvres élémentaires :
<Desc/Clms Page number 19>
1. l'enchaînement des signature élémentaires et les méthodes employées pour la production de chacune d'elle
2. les relations spatiales entre les composants de l'oeuvre élémentaire
3. méthodes utilisées dans l'extraction de ces composants
4. la signature en cascade de chaque composant de l'oeuvre élémentaire.
2. les relations spatiales entre les composants de l'oeuvre élémentaire
3. méthodes utilisées dans l'extraction de ces composants
4. la signature en cascade de chaque composant de l'oeuvre élémentaire.
3. La signature d'accroche servant de point d'entrée de l'empreinte.
C'est elle qui est utilisée dans la première phase d'appariement d'un document avec la base BER, elle permet de confirmer si un document ne contient pas une oeuvre de la base ou de signaler une inférence avec la base. Dans ce cas le système affine la procédure d'appariement des éléments de la signature du document seulement avec les empreintes des oeuvres qui ont provoqué une interférence.
Le procédé d'identification et de vérification du contenu de documents multimédia selon l'invention s'applique à des documents multimédia accessibles dans un système distribué à multiples points d'entrée.
Le procédé peut assurer une veille destinée à mettre en évidence des documents multimédia accessibles au public qui sont susceptibles de constituer un mauvais usage des oeuvres pré-enregistrées et présentent un contenu répondant à au moins un critère ayant servi à définir les empreintes digitales des documents multimédia déjà enregistrés en tant qu'oeuvres identifiées.
Comme indiqué précédemment, un processus de protection d'une oeuvre s'effectue en deux phases : la phase de dépôt (enregistrement) et la phase de veille du bon usage. Pour permettre de protéger efficacement les oeuvres des auteurs qui sont dispersées de par le monde et pour faciliter la tâche de dépôt et augmenter l'efficacité du processus de
<Desc/Clms Page number 20>
protection, un système de traque du contenu selon l'invention est un et système distribué avec plusieurs points d'entrée qui peuvent être répartis de par le monde. L'auteur peut enregistrer son oeuvre dans un des points d'entrée du système et, automatiquement, le processus de protection est déclenché pour veiller à ce que l'oeuvre soit exploitée dans des conditions légales. Le système permettra ensuite de détecter des usages nonautorisés de l'oeuvre ou de parties de celles-ci.
Dans la phase de dépôt, l'oeuvre est enregistrée dans un des points d'entrée du système. Ce système analyse l'oeuvre pour en extraire une empreinte digitale qui caractérise finement son contenu. Comme déjà indiqué plus haut, l'empreinte digitale est la composition de la signature caractérisant le signal ou l'information physique de t'oeuvre et d'informations contextuelles telles que le nom de l'auteur, la date de création, le type de l'oeuvre,... ainsi que les méthodes utilisées pour générer la signature.
L'empreinte digitale sert, durant la phase de veille, pour identifier et traquer le mauvais usage de l'oeuvre (présence de l'oeuvre dans un autre document, présence de l'oeuvre dans un site non autorisé, transformation et déformation de l'oeuvre...). C'est uniquement l'empreinte digitale qui doit être stockée dans l'une des bases de données du système de traque du contenu, l'oeuvre elle-même n'ayant pas besoin d'être sauvegardée dans le système. L'extraction de l'empreinte digitale peut être réalisée localement, mais cette empreinte digitale peut ensuite être stockée soit localement, soit dans un lieu distant.
On décrira maintenant en référence à la Figure 1 les modules faisant partie d'une réalisation minimale d'un système d'identification et de vérification du contenu de documents multimédia, tel qu'un système intégré par exemple dans le système de traque de contenu précité.
<Desc/Clms Page number 21>
Le système d'identification et de vérification du contenu de documents multimédia comprend essentiellement, autour d'une plateforme 10 d'interconnexion et d'intercommunication, un module 11 de segmentation pour la dissection du contenu d'un document multimédia, un générateur d'empreinte 12 pour créer une empreinte digitale d'un document multimédia, un agent notificateur 13, une base 14 d'empreintes digitales de référence, un gestionnaire 15 de traque de contenu, un superviseur 16 de traque de contenu et un annuaire de référence 17.
Le gestionnaire 15 de traque de contenu est utilisé par l'administrateur pour définir la configuration du système de traque de contenu. Il est réparti sur l'ensemble de noeuds de calcul participant à la configuration. Une et une seule instance est activée sur chacun des noeuds de calcul.
Les modules activés ainsi que le gestionnaire 15 de traque de contenu s'enregistrent dans l'annuaire de référence 17. Cet annuaire 17 permet à un module de récupérer la référence d'un autre module auquel il souhaite demander un service à partir d'un nom générique.
La réalisation de la plate-forme 10 s'appuie sur les protocoles standard (CORBA, UDP/IP, TCP/IP, RTP/RTSP, HTTP, XML/SOAP) mais adaptés aux besoins de l'application. Ainsi par exemple les communications entre agents (modules) situés dans la même machine ou sur des machines connectées au même réseau local utilisent les protocoles (CORBA, UDP/IP, TCP/IP). En revanche, les communications entre modules situés dans des machines connectées via Internet à deux réseaux distincts peuvent utiliser le protocole HTTP/XML/SOAP (Simple Object Access Protocol). Ce dernier mode de communication a pour avantage de lancer l'exécution d'une tâche distante en utilisant le protocole RPC (Remote Call Protocol). L'invocation de la tâche ainsi que la transmission des arguments sont décrites par une page XML (format d'extension du
<Desc/Clms Page number 22>
HTML). L'envoi de la page au noeud (serveur) hébergeant la tâche provoque l'exécution de cette dernière. Le résultat est envoyé à l'émetteur sous forme d'une page XML. L'avantage de ce mode d'invocation (exécution) repose sur le fait qu'il n'est basé que sur le protocole HTTP et par conséquent est moins contraignant à mettre en oeuvre.
On a représenté sur la Figure 4 les modules ou agents du système selon l'invention qui, une fois qu'une base de références documentaires 14 contenant les empreintes digitales des documents multimédia de référence pré-enregistrées a été créée, participent au processus de veille du bon usage de ces documents multimédia de référence pré-enregistrés.
Un agent notificateur compare l'empreinte des documents en entrée et délivre un rapport de conformité de ces documents par rapport aux oeuvres pré-enregistrées.
Un agent explorateur ou veilleur 21 a pour rôle de repérer les sites susceptibles de contenir des oeuvres pré-enregistrées. Il est composé d'un métamoteur couplé à un dictionnaire de concepts 31. Le métamoteur explore le réseau Internet à la recherche des sites contenant les documents suspects (dont le contenu correspond à au moins un des concepts du dictionnaire 31). L'empreinte de chacun de ces documents est transmise au notificateur 13 qui compare les empreintes de ces documents avec celles de la base de référence 14 et délivre soit un certificat de conformité (acquittement), soit un rapport de non conformité. L'explorateur 21 enrichit ce rapport avec les informations concernant les sites détenteurs de ces documents et aussi les sites complices (sites servant de relais dans la localisation du document). Ceci est dans le but de fournir à l'opérateur chargé de constater la fraude toutes les informations nécessaires à la localisation de la cible. Seul le rapport de non conformité est transmis à un opérateur humain et il ne contient aucun document. Les
<Desc/Clms Page number 23>
documents ne sont pas conservés ; ils servent uniquement à calculer les empreintes digitales
Un gestionnaire d'abonnés 22 certifie le contenu des documents issus d'une base d'abonnés 32. Il analyse le contenu du site passé en argument et compare les empreintes de ces documents avec ceux qui ont acquis le droit de les exploiter légalement,
Un agent certificateur du contenu 23 certifie le contenu d'un site, fichier, CD ou d'un support quelconque. Il travaille en collaboration avec le notificateur 13 dans le but d'assainir le contenu d'un site. A chaque insertion d'un document (appelé Epreuve) dans le site, son contenu est analysé puis un rapport de conformité est délivré. Ce module est prévu pour être couplé à un système de diffusion de contenus. Il coopère avec une base de documents fiables 33 et une base de documents incertains 34.
Un gestionnaire d'abonnés 22 certifie le contenu des documents issus d'une base d'abonnés 32. Il analyse le contenu du site passé en argument et compare les empreintes de ces documents avec ceux qui ont acquis le droit de les exploiter légalement,
Un agent certificateur du contenu 23 certifie le contenu d'un site, fichier, CD ou d'un support quelconque. Il travaille en collaboration avec le notificateur 13 dans le but d'assainir le contenu d'un site. A chaque insertion d'un document (appelé Epreuve) dans le site, son contenu est analysé puis un rapport de conformité est délivré. Ce module est prévu pour être couplé à un système de diffusion de contenus. Il coopère avec une base de documents fiables 33 et une base de documents incertains 34.
On décrira en référence à la Figure 5 un processus d'insertion d'épreuves (documents multimédia à analyser et vérifier) dans une base de documents fiables 33 ou une base de documents incertains 34 associées à l'agent certificateur 23.
Cette phase est techniquement similaire à la phase de dépôt des oeuvres mais diverge par l'utilisation qui est faite des données analysées.
Les oeuvres pré-enregistrées représentent les documents que l'on souhaite protéger, ceux avec lesquels on effectuera les comparaisons de similarité, par exemple pour découvrir d'éventuelles contrefaçons ou copies pirates. Les épreuves sont des documents dont on souhaite savoir s'ils sont eux-mêmes des contrefaçons ou des copies pirates. On calcule leur signature de la même façon que pour les oeuvres déjà enregistrées (avec les quatre phases de lecture/analyse, décomposition, signatures atomiques, composition des signatures), mais on insère ces signatures dans une autre base : la base d'empreinte des épreuves. Cette base peut
<Desc/Clms Page number 24>
contenir l'empreinte d'un seul document (vérification d'un contenu) ou un très grand nombre (comparaison base à base). La base d'empreinte est transmise ensuite au notificateur 23. Ce dernier compare la base d'empreinteçdes épreuves à la base d'empreintes de : référence 32 et retourne un compte rendu où figure, pour chaque empreinte, une indication sur sa conformité par rapport aux empreintes de référence. Les épreuves dont le contrôle s'est révélé positif (empreinte similaire au moins à une ou à une partie d'une empreinte de référence) sont mises dans une Base de Documents Incertains (BDI) 34. Les autres sont insérées dans la Base de Documents Fiables (BDF) 33. L'insertion des documents de la BDI 34 dans la base BDF 33 n'est pas automatique et nécessite une intervention humaine.
La base BDF 33 peut contenir une copie des documents originaux des épreuves, ainsi que les informations afférentes permettant de les retrouver et servant éventuellement de preuve (adresse http, etc. ). Cette copie servira par exemple de base de rediffusion certifiée pour l'application concernant les rediffuseurs d'information. Elle sera nettoyée de ses éléments douteux par le système à la fin du processus et pourra donc servir par exemple de proxy ou de serveur.
Sur l'organigramme de la Figure 5, on voit des épreuves à insérer introduites en entrée (étape 201) du générateur d'empreintes 12, une étape 204 de calcul des empreintes des épreuves introduites en entrée, une étape 210 de comparaison effectuée au sein du notificateur 13 pour effectuer une comparaison entre les empreintes des épreuves calculées à l'étape 204 et les empreintes de référence contenues dans la base d'empreintes de référence 14, et une étape 220 de tri pour effectuer une insertion des empreintes des épreuves soit dans la base de documents fiables 33, soit dans la base de documents incertains 34 en fonction du résultat du test de conformité de l'étape 210.
<Desc/Clms Page number 25>
Le processus de notification, de certification et de gestion d'abonnés ou clients est illustré à la Figure 6 où l'on voit une étape 301 d'entrée de documents multimédia à enregistrer, une étape 304 de calcul d'empreintes des documents à enregistrer effectuées au sein du générateur d'empreintes 12, pour délivrer des empreintes digitales stockées dans la base 14 d'empreintes de référence.
Des documents à vérifier peuvent être introduits par un agent veilleur 21 (étape 321) par un gestionnaire d'abonnés 22 (étape 322) ou par un certificateur 23 (étape 323). Ces documents à vérifier font l'objet d'un calcul d'empreintes digitales à l'étape 341, ces empreintes digitales étant appliquées dans une étape 342 au notificateur 13 pour être soumises à des comparaisons avec les empreintes de la base d'empreintes de référence 14.
A l'étape 343, on procède à une première comparaison entre les premières signatures des empreintes à comparer, ces premières signatures constituant des signatures d'accroche de préférence basées sur un critère de comparaison rapide.
A l'issue de l'étape 343, il se produit soit un acquittement, le document à vérifier étant considéré comme valide et n'affectant pas un document de référence pré-enregistré, soit, en cas d'interférence entre les signatures d'accroche de documents comparés, le passage à une étape 344 dans laquelle on procède à une sélection des empreintes de la base de référence 14 ayant provoqué la collision, puis le passage à une étape 345 où l'on procède à une nouvelle comparaison d'une signature élémentaire de plus bas niveau de la signature en cascade constituant l'empreinte d'un document à vérifier et de signatures élémentaires de même niveau des signatures en cascade constituant les empreintes des documents de référence sélectionnés à l'étape précédente 344. Le processus est réitéré entre les étapes 345 et 344 tant qu'il y a interférence
<Desc/Clms Page number 26>
et jusqu'à épuisement des signatures élémentaires ou des documents de référence. Des acquittements sont possibles à chaque étape 344. Si à la dernière comparaison de l'étape 345, il n'y a pas eu d'acquittement, il est émis à l'étape 366 un rapport de non conformité.
Ainsi, après comparaison des empreintes de documents à vérifier avec celles de la base d'empreintes de référence, il est délivré un certificat de conformité ou un compte rendu de non conformité. Une fois la comparaison des empreintes reçues en entrées avec celles de la base de référence 14 effectuée au niveau de précision souhaité, le système va produire une décision quant à la validité, l'invalidité ou le doute concernant les documents à vérifier. Cette décision peut prendre trois formes distinctes suivant l'application.
Dans le cas d'une application de chasse des contenus illicites ou pirates pilotée par l'agent veilleur 21, il s'agira d'une phase de notification. Dans le cas d'une application de validation de contenus pilotée par l'agent certificateur 23 (par exemple pour des rediffuseurs de contenus), il s'agira d'une phase de certification. Dans le cas d'une application de gestion d'abonnés pilotée par le gestionnaire d'abonnés 22, il s'agira d'une procédure de signalement.
Dans le cadre d'une traque de contenu illicite et donc d'une procédure de notification, la production d'un résultat positif (reconnaissance d'un document de la base des épreuves dans la base des oeuvres 14) lors de la phase de comparaison entraîne un mécanisme de vérification de ce résultat. Ce mécanisme destiné à éliminer les fausses alarmes se déroule en deux phases. La première phase consiste à raffiner la comparaison en employant des termes plus élevés de la signature (le choix de ces termes est déterminé proportionnellement au temps de calcul disponible et à la taille des deux bases à comparer suivant la loi linéaire). La comparaison de ces termes plus élevés est plus coûteuse en temps de
<Desc/Clms Page number 27>
calcul et nécessite donc de n'être faite que sur un sous-ensemble d'éléments de chacune des bases : les couples (oeuvres-épreuves) pour lesquels un résultat positif a été produit. L'ensemble des couples résultats sont alors triés par ordre décroissant de similarité maximale à la précision la plus haute, puis par précision décroissante. La seconde phase du processus consiste à comparer les couples (oeuvres-épreuves) de cette liste par leur composants communs et à calculer les épreuves les plus suspectes par ordre de similarité décroissante pour produire une liste des N premières (N étant réglé par l'opérateur).
Cette deuxième phase peut-être réduite à une simple coupure de la liste des couples triés par ordre décroissant pour ne garder que les N premiers éléments (N étant réglé par l'opérateur).
La liste obtenue, avec les informations de l'empreinte associée à chacun de ces éléments, constitue le résultat de sortie du système dans ce cas.
Dans le cadre d'une procédure de certification, la production d'un résultat positif lors de la phase de comparaison peut entraîner une phase de validation identique à celle décrite ci-dessus, mais ce n'est pas obligatoire. Si ce n'est pas le cas, une liste ordonnée de couples (oeuvres- épreuves) suspects est dressée à partir de leurs taux de similarité décroissants. Cette liste ou la liste produite par raffinement est employée pour générer la délétion des fichiers correspondants de la base des épreuves et émission de messages d'avertissement ou d'un rapport contenant cette liste en direction de l'opérateur. Une fois les fichiers douteux effacés, la base d'épreuves est déclarée certifiée.
Dans le cadre d'une procédure faisant appel au gestionnaire d'abonnés 22, le but est de s'assurer de la conformité du contenu des sites abonnés avec le contrat d'abonnement (document spécifiant les oeuvres dont l'abonné a acquis le droit d'exploitation). Le gestionnaire
<Desc/Clms Page number 28>
d'abonnés scrute les sites des abonnés un par un pour chaque site. Pour chaque site visité, il analyse son contenu (en collaboration avec le notificateur 13). Pour chaque document non conforme et qui n'est pas mentionné dans le contrat d'abonnement, une procédure de signalement peut être engagée.
La Figure 3 représente l'organigramme d'un exemple de processus de vérification appliqué à un document suspect relevé lors d'une traque de contenu ou fourni à partir d'un support particulier, ce document suspect devant être comparé à des documents pré-enregistrés.
Dans ce cas, les empreintes de référence des différents documents pré-enregistrés ont été préalablement calculées et stockées dans une base de données d'empreintes de référence (étape 152).
Le document suspect à vérifier fait lui-même l'objet d'un calcul d'une première signature de niveau haut (signature d'accroche) à l'étape 151.
Il est alors procédé à une première comparaison de la signature d'accroche du document suspect et des signatures d'accroche des empreintes de référence de la base de référence 152 (étape 153).
Si, à la suite de cette première comparaison de signatures d'accroche, le document suspect est considéré comme proche de certains documents de référence pré-enregistrés (étape 154), ces documents de référence pré-enregistrés sont retenus pour une nouvelle comparaison, cette nouvelle comparaison intervenant entre des signatures de niveau inférieur à la signature d'accroche précédemment utilisée. A ce niveau inférieur, qui peut correspondre par exemple à l'élaboration de signatures élémentaires à partir de la méthode des points d'intérêt, on élabore d'abord la signature correspondante du document suspect et on compare cette signature avec les signatures correspondantes de même niveau pré-
<Desc/Clms Page number 29>
stockées dans la base de données de référence, des documents préenregistrés conservés à l'issue de l'étape 153.
Si à la suite de la comparaison de l'étape 155, le document suspect est encore considéré comme proche de certains documents de référence pré-enregistrés (étape 156), ces documents de référence sont retenus pour une nouvelle comparaison intervenant entre des signatures encore de niveau inférieur qui peut correspondre par exemple à l'élaboration de signatures élémentaires à la suite d'une méthode de segmentation pour extraire des composants différents du document, on élabore là encore d'abord la signature correspondante du document suspect pour chaque composant (étape 157) et on compare ces signatures avec les signatures correspondantes de même niveau pré-stockées dans la base de données de référence, des documents pré-enregistrés conservés à l'issue de l'étape 155.
Si à la suite de la comparaison de l'étape 158, le document suspect est considéré comme constituant par exemple une contrefaçon, compte tenu des similarités détectées, on émet par exemple un rapport expliquant l'historique des décisions et donnant le chemin pour récupérer les adresses et permettre un constat manuel.
Claims (13)
1. Procédé d'identification et de vérification du contenu de documents multimédia accessibles dans un système distribué à multiples points d'entrée, caractérisé en ce qu'il comprend : a/une étape d'enregistrement de documents multimédia en tant qu'oeuvres identifiées, cette étape d'enregistrement comprenant l'extraction d'une empreinte digitale de chaque document multimédia considéré et le stockage de cette empreinte digitale dans une base de données indépendante de la base de données dans laquelle est éventuellement archivé le document multimédia, l'empreinte digitale du document multimédia considéré comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, et b/une étape de vérification de l'usage autorisé ou non en tant qu'oeuvre enregistrée, d'un document multimédia donné accessible au public, cette étape de vérification comprenant des comparaisons successives à l'aide des signatures en cascade des documents multimédia enregistrés avec des signatures correspondantes du document multimédia donné, la signature du document multimédia donné correspondant à un critère d'analyse considéré pour une comparaison donnée étant calculée juste avant de procéder à cette comparaison et la comparaison suivante n'étant effectuée que si les signatures comparées précédemment ont révélé des similitudes, chaque comparaison de signatures en cascade n'étant effectuée que sur les signatures d'un groupe de documents multimédia enregistrés dont les signatures précédemment comparées ont révélé des similitudes avec les signatures du document multimédia donné, le résultat
<Desc/Clms Page number 31>
final de la dernière comparaison permettant l'établissement d'un rapport contenant la liste des documents multimédia enregistrés ayant révélé des similitudes avec le document multimédia donné en entrée.
2. Procédé selon la revendication 1, caractérisé en ce que la séquence ordonnée de signatures en cascade comprend une première signature constituant une signature d'accroche basée sur un critère de comparaison rapide.
3. Procédé selon la revendication 2, caractérisé en ce que la séquence ordonnée de signatures en cascade comprend des signatures représentant des caractéristiques globales d'un document multimédia enregistré et des signatures représentant des caractéristiques locales du document multimédia enregistré considéré.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'une signature de la séquence ordonnée de signatures en cascade constituant l'empreinte digitale d'un document multimédia enregistré considéré constitue elle-même une signature en cascade appliquée à un média élémentaire du document multimédia enregistré ou à un composant homogène d'un média élémentaire du document multimédia enregistré.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend en outre une étape de veille sur un réseau tel q'un réseau Internet/Intranet pour mettre en évidence des documents multimédia accessibles au public à vérifier qui présentent un contenu répondant à au moins un critère ayant servi à définir les empreintes digitales des documents multimédia déjà enregistrés en tant qu'oeuvres identifiées, et identifier une adresse pour chacun des documents multimédia à vérifier mis en évidence.
<Desc/Clms Page number 32>
6. Système d'identification et de vérification du contenu de documents multimédia accessibles dans un système distribué à multiples point d'entrée, caractérisé en ce qu'il comprend autour d'une plate-forme (10) d'interconnexion et d'intercommunication, un module (11) de segmentation pour la dissection du contenu d'un document multimédia, un générateur d'empreinte (12) pour engendrer une empreinte digitale d'un document multimédia, l'empreinte digitale du document multimédia comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, un agent notificateur (13), une base (14) d'empreintes digitales de référence, un gestionnaire (15) de traque de contenu, un superviseur (16) de traque de contenu et un annuaire de référence (17).
7. Système selon la revendication 6, caractérisé en ce qu'il comprend en outre un gestionnaire d'abonnés (22).
8. Système selon la revendication 6 ou la revendication 7, caractérisé en ce qu'il comprend en outre un agent certificateur (23).
9. Système selon l'une quelconque des revendications 6 à 8, caractérisé en ce qu'il comprend en outre un agent veilleur (21).
10. Procédé de gestion de bases de données de clients contenant un ensemble de documents multimédia de client, caractérisé en ce qu'il comprend : a/une étape d'enregistrement de documents multimédia en tant qu'oeuvres identifiées, cette étape d'enregistrement comprenant l'extraction d'une empreinte digitale de chaque document multimédia considéré et le stockage de cette empreinte digitale dans une base de données indépendante de la base de données dans laquelle est éventuellement archivé le document multimédia, l'empreinte digitale du document multimédia considéré comprenant une séquence ordonnée de
<Desc/Clms Page number 33>
signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré, et b/une étape de vérification et de certification de la conformité du contenu des documents multimédia de client par rapport aux documents multimédia enregistrés en tant qu'oeuvres identifiées, l'étape de vérification et de certification de conformité comprenant : b1j l'extraction préalable d'une empreinte digitale de chaque document multimédia de client, l'empreinte digitale comprenant une séquence ordonnée de signatures en cascade résultant d'une analyse et décomposition multicritères du document multimédia considéré ; b2/des comparaisons successives à l'aide des signatures en cascade des documents multimédia enregistrés avec des signatures correspondantes des empreintes digitales de chacun des documents multimédia de client, chaque comparaison de signatures en cascade n'étant effectuée que sur les signatures d'un groupe de documents multimédia enregistrés dont les signatures précédemment comparées ont révélé des similitudes avec les signatures du document multimédia de client considéré, le résultat final de la dernière comparaison permettant l'établissement d'un rapport permettant d'établir un certificat de conformité de contenu ou de non-conformité de contenu en fonction du degré de similitude observé entre les documents multimédia de client et les documents multimédia pré-enregistrés.
11. Procédé selon la revendication 10, caractérisé en ce que la séquence ordonnée de signatures en cascade comprend une première signature constituant une signature d'accroche basée sur un critère de comparaison rapide.
12. Procédé selon la revendication 10 ou la revendication 11, caractérisé en ce que la séquence ordonnée de signatures en cascade comprend des signatures représentant des caractéristiques globales d'un
<Desc/Clms Page number 34>
document multimédia enregistré et des signatures représentant des caractéristiques locales du document multimédia enregistré considéré.
13. Procédé selon l'un quelconque des revendications 10 à 12, caractérisé en ce qu'une signature de la séquence ordonnée de signatures en cascade constituant l'empreinte digitale d'un document multimédia enregistré considéré constitue elle-même une signature en cascade appliquée à un média élémentaire du document multimédia enregistré ou à un composant homogène d'un média élémentaire du document multimédia enregistré.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0113224A FR2831006B1 (fr) | 2001-10-12 | 2001-10-12 | Procede et systeme d'identification et de verification du contenu de documents multimedia |
PCT/FR2002/003471 WO2003032136A1 (fr) | 2001-10-12 | 2002-10-11 | Procede et systeme d'identification et de verification du contenu de documents multimedia |
EP02790507A EP1435032A1 (fr) | 2001-10-12 | 2002-10-11 | Procede et systeme d'identification et de verification du contenu de documents multimedia |
US10/270,251 US20030105739A1 (en) | 2001-10-12 | 2002-10-11 | Method and a system for identifying and verifying the content of multimedia documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0113224A FR2831006B1 (fr) | 2001-10-12 | 2001-10-12 | Procede et systeme d'identification et de verification du contenu de documents multimedia |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2831006A1 true FR2831006A1 (fr) | 2003-04-18 |
FR2831006B1 FR2831006B1 (fr) | 2004-02-20 |
Family
ID=8868269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0113224A Expired - Fee Related FR2831006B1 (fr) | 2001-10-12 | 2001-10-12 | Procede et systeme d'identification et de verification du contenu de documents multimedia |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1435032A1 (fr) |
FR (1) | FR2831006B1 (fr) |
WO (1) | WO2003032136A1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2862146A1 (fr) * | 2003-11-06 | 2005-05-13 | Thales Sa | Procede et systeme de surveillance de fichiers multimedia |
US8031979B2 (en) | 2003-09-25 | 2011-10-04 | Canon Research Centre France | Method and device for verifying multimedia entities and in particular for verifying digital images |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9294728B2 (en) | 2006-01-10 | 2016-03-22 | Imagine Communications Corp. | System and method for routing content |
US8180920B2 (en) | 2006-10-13 | 2012-05-15 | Rgb Networks, Inc. | System and method for processing content |
US8312558B2 (en) | 2007-01-03 | 2012-11-13 | At&T Intellectual Property I, L.P. | System and method of managing protected video content |
US20080235200A1 (en) * | 2007-03-21 | 2008-09-25 | Ripcode, Inc. | System and Method for Identifying Content |
US8627509B2 (en) * | 2007-07-02 | 2014-01-07 | Rgb Networks, Inc. | System and method for monitoring content |
US9984369B2 (en) | 2007-12-19 | 2018-05-29 | At&T Intellectual Property I, L.P. | Systems and methods to identify target video content |
US9473812B2 (en) | 2008-09-10 | 2016-10-18 | Imagine Communications Corp. | System and method for delivering content |
CN102246533A (zh) | 2008-10-14 | 2011-11-16 | Rgb网络有限公司 | 用于代码转换后的媒体内容的渐进递送的系统和方法 |
US9282131B2 (en) | 2009-01-20 | 2016-03-08 | Imagine Communications Corp. | System and method for splicing media files |
CN110737894B (zh) * | 2018-12-04 | 2022-12-27 | 安天科技集团股份有限公司 | 复合文档安全检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0380240A2 (fr) * | 1989-01-23 | 1990-08-01 | International Business Machines Corporation | Bases de données indexées par signatures codées |
EP0936531A2 (fr) * | 1998-02-12 | 1999-08-18 | Hitachi, Ltd. | Procédé de recherche d'informations et système associé |
GB2339038A (en) * | 1998-05-14 | 2000-01-12 | Ibm | Watchdog for monitoring distribution of electronic content |
JP2000330873A (ja) * | 1999-05-18 | 2000-11-30 | M Ken:Kk | コンテンツ流通システムおよびその方法、記録媒体 |
JP2001100743A (ja) * | 1999-09-22 | 2001-04-13 | Wiifoonyuu Co Ltd | 音楽著作権の管理システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5870754A (en) * | 1996-04-25 | 1999-02-09 | Philips Electronics North America Corporation | Video retrieval of MPEG compressed sequences using DC and motion signatures |
-
2001
- 2001-10-12 FR FR0113224A patent/FR2831006B1/fr not_active Expired - Fee Related
-
2002
- 2002-10-11 EP EP02790507A patent/EP1435032A1/fr not_active Withdrawn
- 2002-10-11 WO PCT/FR2002/003471 patent/WO2003032136A1/fr not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0380240A2 (fr) * | 1989-01-23 | 1990-08-01 | International Business Machines Corporation | Bases de données indexées par signatures codées |
EP0936531A2 (fr) * | 1998-02-12 | 1999-08-18 | Hitachi, Ltd. | Procédé de recherche d'informations et système associé |
GB2339038A (en) * | 1998-05-14 | 2000-01-12 | Ibm | Watchdog for monitoring distribution of electronic content |
JP2000330873A (ja) * | 1999-05-18 | 2000-11-30 | M Ken:Kk | コンテンツ流通システムおよびその方法、記録媒体 |
JP2001100743A (ja) * | 1999-09-22 | 2001-04-13 | Wiifoonyuu Co Ltd | 音楽著作権の管理システム |
Non-Patent Citations (3)
Title |
---|
PATENT ABSTRACTS OF JAPAN vol. 2000, no. 14 5 March 2001 (2001-03-05) * |
PATENT ABSTRACTS OF JAPAN vol. 2000, no. 21 3 August 2001 (2001-08-03) * |
ZHAO J: "a www service to embed and prove digital copyright watermarks", FRAUNHOFER INSTITUTE FOR COMPUTER GRPHICS, XP000199921 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8031979B2 (en) | 2003-09-25 | 2011-10-04 | Canon Research Centre France | Method and device for verifying multimedia entities and in particular for verifying digital images |
FR2862146A1 (fr) * | 2003-11-06 | 2005-05-13 | Thales Sa | Procede et systeme de surveillance de fichiers multimedia |
WO2005045676A2 (fr) * | 2003-11-06 | 2005-05-19 | Thales | Procédé et système de surveillance de fichiers multimédia |
WO2005045676A3 (fr) * | 2003-11-06 | 2006-05-18 | Thales Sa | Procédé et système de surveillance de fichiers multimédia |
Also Published As
Publication number | Publication date |
---|---|
EP1435032A1 (fr) | 2004-07-07 |
FR2831006B1 (fr) | 2004-02-20 |
WO2003032136A1 (fr) | 2003-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1899887B1 (fr) | Procede et systeme de reperage et de filtrage d'informations multimedia sur un reseau | |
US20030105739A1 (en) | Method and a system for identifying and verifying the content of multimedia documents | |
NL2020424B1 (en) | Method for protecting the intellectual property rights of a trained machine learning network model using digital watermarking by adding, on purpose, an anomaly to the training data. | |
Raghavan | Digital forensic research: current state of the art | |
Poisel et al. | Forensics investigations of multimedia data: A review of the state-of-the-art | |
US20050198061A1 (en) | Process and product for selectively processing data accesses | |
Karie et al. | Toward a general ontology for digital forensic disciplines | |
US20080228733A1 (en) | Method and System for Determining Content Treatment | |
US20070139231A1 (en) | Systems and methods for enterprise-wide data identification, sharing and management in a commercial context | |
EP3552129B1 (fr) | Procédé d'enregistrement d'un contenu multimédia, procédé de détection d'une marque au sein d'un contenu multimédia, dispositifs et programme d'ordinateurs correspondants | |
Damshenas et al. | A survey on digital forensics trends | |
US20080215889A1 (en) | Efficient Watermark Detection | |
US20080235795A1 (en) | System and Method for Confirming Digital Content | |
FR2831006A1 (fr) | Procede et systeme d'identification et de verification du contenu de documents multimedia | |
WO2009147163A1 (fr) | Procède de traçabilité et de résurgence de flux pseudonymises sur des réseaux de communication, et procède d'émission de flux informatif apte a sécuriser le trafic de données et ses destinataires | |
FR2914081A1 (fr) | Procede de protection de documents numeriques contre des utilisations non autorisees. | |
Gupta et al. | An insight review on multimedia forensics technology | |
Jeziorowski et al. | Towards image-based dark vendor profiling: an analysis of image metadata and image hashing in dark web marketplaces | |
Gregoriadis et al. | Analysis of arbitrary content on blockchain-based systems using BigQuery | |
US9904662B2 (en) | Real-time agreement analysis | |
Wolf et al. | Complementing DRM with digital watermarking: mark, search, retrieve | |
Jayasinghe et al. | VANGUARD: a blockchain-based solution to digital piracy | |
Hoffman | An illustration of hashing and its effect on illegal file content in the digital age | |
Iqbal et al. | A study of detecting child pornography on smart phone | |
Rainey et al. | TRAIT: a trusted media distribution framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20080630 |