FR2830958A1 - Procede d'indexation, de stockage et de comparaison de documents multimedia - Google Patents

Procede d'indexation, de stockage et de comparaison de documents multimedia Download PDF

Info

Publication number
FR2830958A1
FR2830958A1 FR0113223A FR0113223A FR2830958A1 FR 2830958 A1 FR2830958 A1 FR 2830958A1 FR 0113223 A FR0113223 A FR 0113223A FR 0113223 A FR0113223 A FR 0113223A FR 2830958 A1 FR2830958 A1 FR 2830958A1
Authority
FR
France
Prior art keywords
media
meta
elementary
hypergraph
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0113223A
Other languages
English (en)
Other versions
FR2830958B1 (fr
Inventor
Marc Pic
Hassane Essafi
Michel Pierre Gayrard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA filed Critical Commissariat a lEnergie Atomique CEA
Priority to FR0113223A priority Critical patent/FR2830958B1/fr
Priority to EP02790506A priority patent/EP1435054A2/fr
Priority to PCT/FR2002/003470 priority patent/WO2003032196A2/fr
Priority to US10/270,250 priority patent/US6988093B2/en
Priority to JP2003535093A priority patent/JP2005505081A/ja
Publication of FR2830958A1 publication Critical patent/FR2830958A1/fr
Application granted granted Critical
Publication of FR2830958B1 publication Critical patent/FR2830958B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Le procédé de comparaison de deux documents multimédia composites comportant chacun au moins deux médias élémentaires (images, sons, signaux vidéo, graphiques vectoriels animés ou textes), comprend les étapes suivantes : a/ affectation d'un méta-identifiant à chacun des documents multimédia, ce méta-identifiant incluant sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents, c/ pour l'hypergraphe de chaque média élémentaire du premier document, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document, d/ pour l'hypergraphe de chaque média élémentaire du premier document, détermination des coûts des opérations d'édition procurant les identifications maximales avec un hypergraphe d'un média élémentaire du deuxième document et expression des distances entre les médias élémentaires en fonction de ces coûts, e/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents, f/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document, g/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document, détermination du coût de l'opération d'édition procurant l'identification maximale avec un hypergraphe de l'ensemble des médias élémentaires du deuxième document, et expression de la distance entre les premier et deuxième documents multimédia en fonction de ce coût.

Description

<Desc/Clms Page number 1>
La présente invention concerne un procédé d'indexation, de stockage et de comparaison de documents multimédia, qui permet notamment des applications à la recherche de documents multimédia archivés.
Avec la révolution du numérique, on assiste à une explosion sans précédent du volume de données à traiter et les documents à exploiter sont de plus en plus souvent de type multimédia, c'est-à-dire faisant appel de façon simultanée et interactive à plusieurs modes de représentation de l'information : images fixes ou animées, sons, textes, photos, signaux vidéo, graphiques vectoriels animés,...
On connaît déjà différents procédés de compression de données.
Toutefois, dans le cas où l'on effectue une compression de l'ensemble de l'information contenue dans un document multimédia, les volumes de données à traiter restent considérables lorsqu'il s'agit de procéder à des archivages ou surtout à des comparaisons entre plusieurs documents multimédia afin de retrouver une information déterminée incluse dans ces documents multimédia.
L'invention vise à résoudre le problème de la gestion de volumes de données importantes au sein de documents multimédia et à permettre d'effectuer des comparaisons entre documents multimédia sans procéder à un traitement de l'ensemble des données, même comprimées, contenues dans ces documents multimédia à comparer.
Ces buts sont atteints, conformément à l'invention, grâce à un procédé de comparaison d'un premier et d'un second documents multimédia composites comportant chacun au moins deux médias élémentaires choisis parmi des catégories comprenant des images, des
<Desc/Clms Page number 2>
sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/affectation d'un méta-identifiant à chacun des premier et deuxième documents multimédia composites, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, bl récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des premier et deuxième documents multimédia composites, ci pour l'hypergraphe de chaque média élémentaire du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document multimédia, d/pour l'hypergraphe de chaque média élémentaire du premier document multimédia, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire du deuxième document multimédia et expression des distances entre les médias élémentaires en fonction de ces coûts, e/récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des premier et deuxième documents multimédia composites, fi pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, g/pour t'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, détermination du coût de l'opération d'édition procurant l'identification maximale ou quasi maximale avec un
<Desc/Clms Page number 3>
hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, et expression de la distance entre les premier et deuxième documents multimédia composites en fonction de ce coût.
Chaque média élémentaire peut être un document monomédia appartenant à une seule catégorie de médias ou un document multimédia comportant des sous-éléments appartenant à des catégories de médias différentes.
Selon un mode particulier de réalisation du procédé selon l'invention, les étapes c/et et dl comprennent elles-mêmes les étapes suivantes : c11 pour chaque média élémentaire du premier document multimédia à comparer à un média élémentaire du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût intra-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, c21 exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe de chacun des médias élémentaires du premier document multimédia en un hypergraphe le plus proche possible de l'hypergraphe de chacun des médias élémentaires du deuxième document multimédia, dl/détermination du coût de chaque transformation suivant les règles définies à l'étape cl, et d21 sélection, pour chacun des médias élémentaires du premier document multimédia, de la transformation dont le coût est minimal.
De même, les étapes f/et g/peuvent eties-mêmes comprendre les étapes suivantes : f11 pour l'ensemble des médias élémentaires du premier document multimédia à comparer aux médias élémentaires du deuxième
<Desc/Clms Page number 4>
document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût inter-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes,
2/exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du premier document multimédia composite en un hypergraphe le plus proche possible de l'hypergraphe du deuxième document multimédia composite, g11 détermination du coût de chaque transformation suivant les règles définies à l'étape fl/, et 92/sélection de la transformation dont le coût est minimal.
Selon un autre mode particulier de réalisation du procédé selon l'invention, les étapes c/et d/comprennent la mise en oeuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
De façon similaire, les étapes f/et g/peuvent comprendre la mise en oeuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
Selon un aspect particulier de l'invention, lors de la comparaison d'un premier document multimédia composite affecté d'un méta-identifiant et segmenté en méta-segments, on procède à une comparaison point-àpoint des méta-segments de nature vectorielle au moyen d'une distance vectorielle choisie parmi les distances de type Euclidienne, Riemann avec paramètre L et Mahalanobis, de manière à produire des résultats constituant des scores d'appariement entre les méta-segments comparés
<Desc/Clms Page number 5>
deux à deux, et on procède à une comparaison des méta-segments des hypergraphes et à la production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents.
Le procédé selon l'invention est avantageusement appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
De façon plus particulière, dans le cadre d'un procédé de stockage de documents multimédia dans une base de données, l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/décomposition du nouveau méta-identifiant en métaidentifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/construction d'un arbre de production des relations entre médias élémentaires, iii/application récursive des étapes i/et ii/à chaque métaidentifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce
<Desc/Clms Page number 6>
média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
De façon plus particulière, l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de noeuds voisins dont le média support est identique.
Avantageusement, l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : - construction d'un hypergraphe simplifié en associant un noeud à chaque méta-identifiant élémentaire et en recopiant des relations liant les noeuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes noeuds, - découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de noeuds, - rangement en classes de sous-hypergraphes similaires ayant le même nombre de noeuds, - caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et - organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
L'invention concerne encore un procédé appliqué à la recherche d'un document multimédia archivé dans une base de données caractérisé en ce qu'il comprend les étapes suivantes : - présentation d'une requête composite comprenant elle-même des documents multimédia liés entre eux par des opérateurs logiques,
<Desc/Clms Page number 7>
- affectation d'un méta-identifiant à chacun des documents multimédia de la base de données, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, - affectation d'un méta-identifiant à la requête composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant la requête composite, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents multimédia de la base de données, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de la requête composite, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents multimédia de la base de données, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de la requête composite, - production d'un hypergraphe global réunissant l'ensemble des hypergraphes de la requête composite reliés par lesdits opérateurs logiques, - comparaison dudit hypergraphe global avec les hypergraphes des documents multimédia de la base de données selon les étapes suivantes : - pour l'hypergraphe de chaque média élémentaire. de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données,
<Desc/Clms Page number 8>
- pour l'hypergraphe de chaque média élémentaire de la requête composite, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données et expression des distances entre les médias élémentaires en fonction de ces coûts, - pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, - pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, détermination des coûts des opérations d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, et expression des distances entre la requête composite et chacun de ces documents multimédia de la base de données en fonction de ce coût, - organisation de la liste des documents multimédia de la base de données par ordre décroissant des coûts calculés précédemment.
Selon une variante de réalisation, le procédé appliqué à la recherche d'un document multimédia archivé dans une base de données est caractérisé en ce que les étapes de traitement individuel des documents multimédia de la base de données sont effectuées préalablement à la présentation d'une requête composite et les résultat de ces étapes de traitement individuel sont conservés pour le traitement d'un ensemble de requêtes composites différentes, en ce que la base de données est organisée avec un stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des
<Desc/Clms Page number 9>
documents multimédia à archiver, et en ce que, au lieu d'effectuer une comparaison de l'hypergraphe global de la requête composite avec les hypergraphes de l'ensemble des documents multimédia de la base de données, on procède à une recherche hiérarchique dans l'arborescence des classes des hypergraphes de l'ensemble des documents multimédia de la base de données et on effectue des comparaisons entre l'hypergraphe global de la requête composite et les représentants desdites classes.
L'invention a également pour objet un procédé d'indexation d'un document multimédia composite comportant au moins deux médias élémentaires choisis parmi les catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/affectation d'un méta-identifiant au document multimédia composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia composite, b/récursion sur les arbres secondaires de relations intra-média des médias élémentaires du document multimédia composite, et c/récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires du document multimédia composite.
D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, faite en référence aux dessins annexés, donnés à titre d'exemples, sur lesquels : - la Figure 1 est un schéma montrant les différentes étapes d'un exemple de procédé selon l'invention permettant l'indexation d'un document multimédia, le stockage de ce document dans une base de
<Desc/Clms Page number 10>
données et une requête d'interrogation de la base de données faisant appel à des comparaisons entre documents multimédia, - la Figure 2 est un ensemble de diagrammes explicitant différentes étapes de l'indexation d'un document multimédia à archiver dans une base de données selon un procédé conforme à l'invention, - la Figure 3 est un ensemble de diagrammes explicitant différentes étapes du processus de recherche d'un document multimédia stocké dans une base de données, à partir d'une requête, en mettant en oeuvre un procédé de comparaison conforme à l'invention, - la Figure 4 est un exemple de graphe de représentation d'un document multimédia, - la Figure 5 est un exemple de décomposition du graphe de la Figure 4 en éléments binaires, - la Figure 6 est un exemple de graphe de production de relation, - la Figure 7 est un diagramme de comparaison entre des exemples de graphes de représentation de deux documents multimédia, - la Figure 8 est un diagramme illustrant un processus de segmentation d'un document multimédia en composantes plus élémentaires, - les Figures 9 et 10 représentent l'application de deux méthodes différentes pour extraire des informations locales sur deux séries de quatre images, - la Figure 11 est un diagramme illustrant un processus de recherche de document multimédia faisant appel à un procédé de comparaison selon l'invention, -la Figure 12 est analogue à la Figure 11 mais montre un diagramme se présentant sous la forme d'un hypergraphe requête, et
<Desc/Clms Page number 11>
- les Figures 13 et 14 montrent deux exemples de comparaison de sous-hypergraphes simples d'un graphe de recherche avec des soushypergraphes simples classés dans la base de données.
Le procédé selon l'invention permet d'obtenir, à partir d'un document multimédia de nature quelconque, une trace reconnaissable qui permet ensuite de reconnaître, par comparaison, l'emploi ou le réemploi de tout ou partie de ce document ou de variante de ce document au sein d'un autre document multimédia, sans qu'il soit nécessaire de traiter l'ensemble du contenu des documents multimédia soumis à des comparaisons. La mise en évidence et la conservation de la trace reconnaissable constituent une opération qui sera désignée par le terme d'enregistrement dans la suite de la description.
Le procédé de comparaison de documents selon l'invention peut être mis en oeuvre aussi bien sur des supports de stockage localisés que de façon répartie sur un réseau et peut être appliqué notamment à la traque de documents.
Le procédé d'enregistrement de documents multimédia par le contenu, qui est un préalable aux opérations de comparaison entre documents multimédia, comprend essentiellement trois étapes successives.
La première étape est une étape de méta-segmentation qui consiste à analyser le document dans son intégralité de manière à extraire les éléments monomédia ou multimédia concrets ou abstraits.
Dans une deuxième étape, les métasegments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations qui identifient de manière univoque les contenus des métasegments.
Dans une troisième étape, il est produit un méta-identifiant, composé à partir des informations identifiant de manière univoque les
<Desc/Clms Page number 12>
contenus des métasegments. Le méta-identifiant autorise l'identification par le contenu.
Par exemple, un ensemble de valeurs numériques peut représenter des informations concrètes telles que l'histogramme des couleurs contenues dans une image du document ou les moments de Zernike de parties du document. Des informations abstraites peuvent par ailleurs être stockées sous la forme de champs de texte liés indiquant par exemple la relation liant l'image et la légende d'une figure ou encore les mots recouvrant un même espace sémantique dans deux documents, l'un sonore et l'autre textuel, de documents multimédia.
Le procédé de traque met en oeuvre une structuration particulière des méta-identifiants qui permet d'effectuer des comparaisons de métaidentifiants efficaces au sein d'un nombre élevé de documents multimédia.
Les comparaisons peuvent s'effectuer par la pondération spécifique (au moyen de paramètres multiplicatifs adaptés à chaque média, provenant de listes établies a priori et par amélioration de ces listes apportées par chaque utilisateur (en changeant directement les valeurs ou en les faisant changer par un mécanisme d'apprentissage du type réseau de neurones basé sur le profil de l'utilisateur) d'algorithmes d'évaluation de similitude de méta-segments.
Le processus de méta-segmentation consiste à mettre en oeuvre plusieurs algorithmes de traitements numériques sur les données numériques qui constituent le document multimédia. Ces algorithmes sont employés de manière concurrente et produisent des informations redondantes auxquelles sont affectées des pondérations respectives en fonction des taux de réussite ou d'échecs des différentes méthodes et en fonction des niveaux de confiance accordés.
Si l'on considère d'abord la Figure 1, on verra les étapes principales d'un procédé d'indexation d'un document multimédia devant être ajouté
<Desc/Clms Page number 13>
dans une base de données (module 100) et les étapes principales d'un procédé de recherche d'un document multimédia dans une base de données avec un processus de comparaison entre une requête et les traces de documents multimédia stockés dans la base de données (module 200).
Le procédé d'indexation d'un document multimédia 101 à indexer comprend l'étape initiale 110 d'ajout du document considéré à une base de données 170, l'étape 110 consistant à analyser le document à indexer 101 de manière à extraire des médias élémentaires pouvant être des éléments monomédia appartenant à une seule catégorie de médias, ou des éléments multimédia comportant eux-même des sous-éléments appartenant à des catégories de médias différentes.
Le processus de méta-segmentation peut être effectué de manière récursive en combinant des analyses intra-média et des analyses intermédia.
Après l'étape 110 de méta-segmentation, dans des étapes 120 qui peuvent être traitées en parallèle, les méta-segments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations concrètes et abstraites qui identifient de manière univoque les contenus de ces méta-segments.
Au cours de l'étape suivante 130, il est produit un méta-identifiant composé à partir des informations caractérisant les méta-segments. Les étapes 140 et 150 mettent en oeuvre un processus de structuration des méta-identifiants et de définition de la structure qui, par le processus d'enregistrement du document de l'étape 160, sera intégrée dans la base de données 170.
L'étape 180 représente un processus d'amélioration de la représentation interne de la base de données 170 après adjonction de la structure S caractérisant le document 101, en procédant à des compa-
<Desc/Clms Page number 14>
raisons avec les structures de documents multimédia précédemment enregistrées.
Le procédé de recherche d'un document multimédia illustré dans le module 200 comprend la présentation d'une requête 201 de recherche d'un document multimédia à retrouver.
La requête 201 est appliquée à une étape initiale 210 d'entrée qui, comme l'étape 100, constitue une étape d'analyse et de métasegmentation pour extraire des médias élémentaires de la requête composite 201. La caractérisation des méta-segments de la requête composite 201 s'effectue dans une étape 220 qui est analogue à l'étape 120 du procédé d'indexation, et est elle-même suivie d'une étape 230 de production de méta-identifiants à partir des méta-segments, de façon analogue à l'étape 130. Les étapes suivantes 240 et 252, comme les étapes 140 et 150, mettent en oeuvre un processus de structuration des méta-identifiants et de définition de la structure S qui sera comparée aux structures S de documents multimédia stockées dans la base de données 270 qui a été réorganisée après chaque ajout de nouveau document.
L'étape 260 consiste en une comparaison entre la structure S issue de la requête composite 201 et les structures S stockées dans la base de données 270, par évaluation de similitude de chaque méta-segment.
L'étape 280 consiste en une pondération de comparaison de métaidentifiants et l'étape 290 consiste en la présentation d'une liste de documents multimédia pertinents avec des scores.
Le mécanisme de méta-identifiant qui est mis en oeuvre dans le procédé selon l'invention permet de représenter les caractéristiques de chaque média contenu au sein d'un document multimédia ainsi que la structure des relations complexes qui associent ces différents éléments.
Ce mécanisme est hiérarchique avec un nombre de niveaux d'imbrication variable suivant la complexité du document multimédia. Son codage se
<Desc/Clms Page number 15>
présente sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds. Les pondérations sur les noeuds et les arcs se présentent sous la forme de tenseurs de nombre codés en virgule flottante ou d'entiers. Chaque noeud représente une caractéristique qui pourra être considérée comme élémentaire au niveau correspondant de décomposition de cette hiérarchie. Au niveau le plus bas, il peut s'agir par exemple d'un ensemble de critères d'analyse du document : pour une image, il pourra s'agir de moments de Zernike calculés localement, d'histogrammes de couleurs, d'IFS (systèmes de fonctions itérées) ou de toute autre caractéristique locale dont des exemples seront donnés plus loin. A un niveau plus élevé, il s'agira de l'hypergraphe de caractéristiques de la partie du média analysé qui est symbolisé par ce noeud. Les arcs entre les noeuds représentent les relations structurelles qui relient les caractéristiques. Elles peuvent être de plusieurs natures : logiques (par exemple un noeud représentant un texte est la légende d'un autre noeud qui représente une figure), géométriques (par exemple un objet segmenté (noeud A) est à 50 pixels à droite de tel autre objet (noeud B)), abstraites (par exemple un noeud-texte contient un vocabulaire sémantiquement proche d'un autre noeud-texte).
Les méta-identifiants incluant, sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque les médias élémentaires, constituent des informations compactes capables de décrire les documents multimédia et à même de permettre la distinction ou l'identification de deux documents en autorisant la mesure de la similitude potentielle entre deux documents multimédia sans constituer pour autant une compression de l'ensemble de l'information contenue dans les documents qu'elles permettent d'identifier. Les méta-identifiants représentent ainsi un volume de données largement inférieur à celui des documents à partir desquels ils sont produits.
<Desc/Clms Page number 16>
Le procédé d'indexation et de recherche illustré sur la Figure 1 sera à nouveau décrit dans sa généralité en se référant à un exemple particulier illustré sur les Figures 2 et 3.
On voit sur la Figure 2 l'illustration du processus d'indexation d'un document multimédia 10 dont l'analyse révèle qu'il comprend un premier média élémentaire 11 constitué par une image et deux autres médias élémentaires 12 et 13 constitués chacun par une partie textuelle. Suite au processus de méta-segmentation, les médias élémentaires 11 à 13 sont extraits du document multimédia 10 et constituent des méta-segments qui sont caractérisés au moyen de traitements numériques spécifiques adaptés au média concerné (texte ou image). Des relations inter-média 21 à 25 sont mises en évidence entre les médias élémentaires 11 à 13, tandis qu'au sein de chaque média élémentaire, des relations intra-média sont identifiées. A titre d'exemple, on a représenté trois composants 31,32, 33 résultant de la segmentation de l'image 11 et donnant lieu à des relations intra-média 41 à 43.
Dans la séquence illustrée sur la Figure 2, on voit d'abord des hypergraphes de relations inter-média 21 à 25, puis l'incorporation de relations intra-média 41 à 43 au sein de l'image 11, puis enfin l'incorporation de relations intra-média 44,45 au sein des blocs de texte 12 et 13.
La Figure 3 illustre un processus de recherche d'un document multimédia à partir d'une requête composite, appliqué au même exemple que celui de la Figure 2.
La requête composite comprend la recherche d'un document multimédia dans lequel il existe d'une part une image 51 associée à un bloc de texte 52 et d'autre part la même image 51 associée à un autre bloc de texte 53. Chacune des parties de la requête composite liées par l'opérateur ET est traduite en une signature de méta-segments 51,52
<Desc/Clms Page number 17>
respectivement 51,53 et ces méta-segments sont organisés en hypergraphes avec des relations intra-média 41 à 45 et inter-média 21, 22. Après réunion des hypergraphes correspondant à chacune des parties de la requête composite, il est procédé dans l'étape 60 à une comparaison de l'hypergraphe résultant de la requête composite et des hypergraphes des documents multimédia stockés dans la base de données, le meilleur score étant produit par la comparaison avec l'hypergraphe associé au document 10. La production du résultat à l'étape 70 fait apparaître le document 10 et un score d'appariement 71.
On décrira maintenant de façon plus particulière en référence aux Figures 4 à 6 le processus d'enregistrement d'un document multimédia dans une base de données et le processus d'amélioration de la représentation interne d'une base de données après ajout de nouveaux documents, par une méthode de comparaison entre documents.
Pour permettre un accès rapide aux données multimédia contenues dans une base de données à partir de méta-identifiants conformément à l'invention, il est nécessaire d'effectuer un pré-rangement de ces métaidentifiants, qui sera dénommé"Agencement"et de construire des objets intermédiaires capables d'autoriser une comparaison rapide des métaidentifiants.
La base de données est composée originellement d'un ensemble de méta-identifiants et d'un ensemble d'objets intermédiaires qui vont représenter des parties des méta-identifiants destinées à être facilement reconnues. L'ajout d'un nouveau méta-identifiant dans la base s'effectue suivant le schéma d'insertion suivant : a/décomposition du méta-identifiant en méta-identifiants codant les différents médias contenus dans l'objet (c'est-à-dire des identifiants monomédia). Cette décomposition s'effectue en parcourant
<Desc/Clms Page number 18>
intégralement l'hypergraphe et en sélectionnant les groupes de noeuds voisins dont le média support est identique. b/construction d'un arbre de production des relations entre médias. Cette opération s'effectue en associant un noeud à chaque identifiant monomédia et en recopiant les relations liant les noeuds de ces monomédias à leur identifiant respectif. Les relations de même nature qui lient deux mêmes noeuds sont supprimées (réduction de redondance). On obtient ainsi un hypergraphe simplifié et une approximation des relations existant dans le document multimédia complet. On découpe ensuite cet hypergraphe en sous-hypergraphes connexes par nombre croissant de noeuds. On obtient ainsi tous les sous-hypergraphes de deux noeuds inclus dans l'hypergraphe. On recherche ensuite les sous-hypergraphes similaires au moyen d'une comparaison point-à-point, un sous-hypergraphe étant comparé à un autre sous-hypergraphe pour toutes les combinaisons de sous-hypergraphes de même nombre d'éléments. On classe par catégorie les sous-hypergraphes similaires et on leur associe un codage entropique : à chaque classe est associée une représentation de longueur inversement proportionnelle au nombre de sous-hypergraphes similaires au sein de cette classe. On ne retient que l'ensemble des classes de soushypergraphes d'une longueur de représentation inférieure à une valeur fixée à l'avance. On recommence le processus pour tous les soushypergraphes de trois noeuds dont un sous-hypergraphe de deux noeuds appartient à l'ensemble ainsi sélectionné, et ainsi de suite pour quatre noeuds, etc. jusqu'à une limite fixée à l'avance pour éviter l'explosion combinatoire ou jusqu'à ce qu'il ne reste plus de noeuds dans l'hypergraphe du méta-identifiant analysé. Pour chaque méta-identifiant, on relie alors les classes de sous-hypergraphes par des arcs pondérés qui vont contenir l'information d'instantiation de ce méta-identifiant. L'ensemble des arcs entre toutes les classes de la base construit un
<Desc/Clms Page number 19>
arbre : c'est l'arbre de production des relations entre médias. Si l'on a arrêté le processus d'analyse avant la limite fixée (c'est-à-dire que l'on s'est arrêté par épuisement des noeuds à traiter), on obtient la propriété suivante : un trajet au sein de cet arbre de la racine jusqu'à une feuille représente un méta-identifiant. Si ce n'est pas le cas, il faut rajouter un noeud qui va relier l'ensemble des sous-hypergraphes de valeur terminale par un arc contenant dans sa pondération les informations permettant la reconstitution du reste de l'arbre. ci le même processus est appliqué au sein de chaque identifiant de monomédia pour produire un arbre pour chaque média : il s'agit de l'arbre de production de relations au sein de ce média. Ces différents arbres sont stockés indépendamment, mais on ajoute des relations d'inclusions pour noter le lien entre un média décrit dans l'arbre de production des relations entre les médias et les constituants de ce média dans l'arbre de production des relations au sein du média correspondant. Cette relation est obtenue en recopiant l'arc original du méta-identifiant qui traduit cette relation.
Il est à noter que chacun des arbres ainsi considérés possède comme noeuds des hypergraphes de relations.
La base de données est alors constituée d'un arbre principal codant les relations entre les médias au sein des documents et d'arbres secondaires codant pour chacun des médias. Chaque méta-identifiant (et donc chaque document) est représenté de manière unique au moyen d'un trajet au sein de l'arbre principal et d'un ou plusieurs trajets dans les arbres secondaires nécessaires en fonction des médias employés.
Cette structure est également employée lors de l'estimation de similarité entre méta-identifiants (c'est-à-dire entre documents).
La Figure 4 représente le graphe de représentation d'un document multimédia avec à titre d'exemple, des éléments A et B liés par une
<Desc/Clms Page number 20>
première relation 301, des éléments C et D liés par cette même relation 301, les éléments A et C d'une part et B et D d'autre part étant chacun liés par une même relation 302 différente de la relation 301. L'élément D est lui-même relié à un autre élément E par une troisième relation 303.
La Figure 5 montre la décomposition du graphe de la Figure 4 en éléments binaires. Les éléments liés par la relation 301 appartiennent à une classe Bl. Les éléments liés par la relation 302 appartiennent à une classe B2. Les éléments liés par la relation 303 appartiennent à une classe B3.
La Figure 6 montre le graphe de production de relations avec des liaisons entre une classe C4 d'éléments liés à la fois par la relation 301 et la relation 302 et d'une part la classe Bl des éléments reliés par la seule relation 301 et d'autre part la classe B2 des éléments reliés par la seule relation 302.
On décrira maintenant de façon générale le processus de comparaison de méta-identifiants.
La similarité entre deux méta-identifiants nécessite de comparer à la fois chacun de ces composants (noeuds et arcs avec leurs pondérations), les relations qui les lient et enfin d'associer une distance synthétique à l'ensemble de ceux-ci.
Le calcul de la similarité s'effectue au moyen de méthodes récursives sur les éléments de l'hypergraphe du méta-identifiant. Une fonction de coût basée sur un principe d'édition des hypergraphes (cf. String-edit ou graph-edit) est appliquée pour déterminer la distance entre les hypergraphes pondérés des deux méta-identifiants. On calcule l'opération d'édition qui procure l'identification maximale entre ces deux hypergraphes. Le coût de cette opération constitue la distance de similitude entre les deux méta-identifiants.
<Desc/Clms Page number 21>
De façon plus détaillée, la comparaison de documents multimédia au moyen de leurs méta-identifiants s'effectue de la façon suivante :
Le processus est composé de deux boucles opératoires imbriquées : la première est une récursion au sein de chaque média élémentaire au sein des documents composites, la seconde est une récursion sur tous les médias élémentaires dans les documents composites.
Pour déterminer la distance entre deux documents composites A et B : on cherche à trouver l'identification la plus forte possible entre les parties des documents composites et les transformations de coût le plus faible possible pour transformer un document composite A en un document composite B.
Les transformations autorisées pour passer d'un document A à un document B sont les opérations d'éditions : ajout d'un lien, d'une branche ou d'une feuille terminale, suppression d'un lien, d'une branche ou d'une feuille terminale, changement du contenu d'une branche ou d'une feuille terminale.
La notion de coût associé à ces opérations d'éditions dépend de règles fixées à l'avance (étapes bj et 1/définies ci-dessous), par exemple le changement du contenu d'une feuille terminale peut se mesurer comme la distance entre le contenu d'origine et le contenu d'arrivée pondéré par un coefficient (1 par exemple). La distance entre les contenus est la distance s'appliquant à la caractérisation du média, par exemple la distance de similarité visuelle (Zernike + Mahalanobis) pour des images.
Enfin, plusieurs opérations de transformations peuvent permettre de passer d'un document A vers un document B, par exemple si A et B se distinguent par une branche contenant un média u dans A et un média v dans B, on peut appliquer : i/soit la transformation"changemeet de u en v',
<Desc/Clms Page number 22>
ii/soit la transformation suppression de u"suivie de la transformation"addition de v"
Le coût de ces deux opérations n'est, a priori, pas identique. On conservera la transformation dont le coût est le plus faible. Pour ce faire on pourra explorer toutes les possibilités non-dégénératives de manière extensive (long, mais précis), ou au contraire on pourra exploiter une méthode classique d'optimisation sub-optimale qui fournira une solution approchée, et donc un coût de transformation approché, donc une valeur approchée de la distance, mais suffisante (rapide, mais moins précis).
Le processus détaillé de comparaison est le suivant : a/récursion sur les médias élémentaires (arbres secondaires), b/définition de la fonction de coût intra-média en fonction des similarités recherchées, ci mécanisme de maximalisation de l'identification pour chaque média élémentaire : 2 options : d/première option : méthode optimale e/on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du média M en l'hypergraphe du média L, f/on détermine le coût de chaque transformation suivant les règles définies en b/, g/on sélectionne la transformation dont le coût est minimal. h/deuxième option : méthode sub-optimale i/on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc.) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. j/la distance entre les médias élémentaires est le coût de l'opération d'édition optimale ou sub-optimale trouvée, les opérations de
<Desc/Clms Page number 23>
transformations retenues sont celles correspondant à cette opération d'édition, k/récursion sur l'arbre de production des relations entre les média (arbre principal), 1/définition de la fonction de coût inter-média en fonction des similarités recherchées, mu mécanisme de maximalisation de l'identification entre les médias élémentaires : 2 options : ni première option : méthode optimale 01 on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du document composite A en l'hypergraphe du document composite B, p/on détermine le coût de chaque transformation suivant les règles définies en 1/, q/on sélectionne la transformation dont le coût est minimal. r/deuxième option : méthode sub-optimale s/on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc. ) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. t/la distance entre les documents composites est le coût de l'opération d'édition optimale ou sub-optimale trouvée.
La Figure 7 montre un exemple de détermination de la distance entre deux documents composites.
Le graphe du document 1 comprend des éléments A et B liés à un
Figure img00230001

élément C.
Le graphe du document 2 comprend des éléments A', B et D liés à un élément C.
<Desc/Clms Page number 24>
Lors de la transformation du document 1 en document 2, on constate que les éléments C et B sont identiques dans les deux documents 1 et 2 et qu'il y a un changement de l'élément A en élément A'quand on passe du document 1 au document 2. De plus, dans le document 2 il y a l'ajout d'un élément D lié à l'élément C.
Le coût des transformations, c'est-à-dire la distance entre les deux documents composites 1 et 2 peut s'exprimer de la façon suivante :
Figure img00240001
<tb>
<tb> Coût <SEP> du <SEP> changement <SEP> de <SEP> A <SEP> en <SEP> A' <SEP> : <SEP> IIA-A'II <SEP> *2. <SEP> 0
<tb> Coût <SEP> de <SEP> l'ajout <SEP> de <SEP> D <SEP> : <SEP> val <SEP> (D) <SEP> *5.0
<tb> Coût <SEP> de <SEP> B- > <SEP> B <SEP> : <SEP> 0
<tb> CoûtdeC- > C <SEP> : <SEP> 0
<tb>
Coût total transformation = 2. 0* Il A-A'Il + val (D) *5.0
La comparaison de documents multimédia par la comparaison des méta-segments ou méta-identifiants qui les identifient comprend essentellement les trois phases suivantes : a/production de la segmentation en méta-segment (signature) de chacun des documents à comparer selon la méthode décrite précédemment, b/comparaison point-à-point des méta-segments de nature vectorielle au moyen d'une distance vectorielle : if Distance vectorielle : on emploie une distance de type : a. Euclidienne V (ex2) b. Riemann avec paramètre L : (2xi) c. Mahalanobis. j/Normalisation de cette distance par rapport à une distribution moyenne estimée par rapport à une base de documents multimédia de référence, plusieurs options sont possibles : a. Pas de normalisation,
<Desc/Clms Page number 25>
b. Normalisation en moyenne de valeur : chaque valeur de distance calculée dans l'étape précédente est divisée par la moyenne des distances vectorielles calculées entre toutes les images de la base de références prises couple d'images par couple d'images. k/Le résultat sera dénommé score d'appariement entre les deux
Figure img00250001

'ta es. méta-segments comparés. c/comparaison des méta-segments des hypergraphes et production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents. Pour ce faire on procède comme suit : i/on choisit les paramètres de la distance d'hypergraphes que l'on souhaite appliquer :
1. la distance d'hypergraphes se caractérise par la défi- nition de règles de coût pour les opérations d'édition de graphes : ajout d'un noeud, suppression d'un noeud, ajout d'un lien, suppression d'un lien.
2. pour chacune de ces opérations on peut donner un coût. Plusieurs variantes sont possibles : a. uniforme : coût égal pour toutes les opérations d'éditions, b. hyper-uniforme : coût égal pour toutes les opérations d'éditions à un même niveau d'hyper- graphes à ce niveau d'hypergraphes, c. variable : coûts paramétrisés manuellement en fonction d'expérimentation sur la nature des documents modélisés.
<Desc/Clms Page number 26>
ii/On calcule la somme des coûts qui s'applique pour transformer l'arbre du premier document dans l'arbre du second document. Si plusieurs transformations peuvent s'appliquer, on choisira la somme de valeur minimale. Pour simplifier ce calcul, on peut choisir d'appliquer une règle de calcul de ces coûts basée sur un processus sub-optimal et se satisfaire de ce résultat. iii/La somme minimale ou sub-minimale des coûts constitue le score d'appariement des deux documents.
On décrira maintenant en référence aux Figures 11 à 14 la comparaison de méta-segments ou méta-identifiants avec une requête dans un processus de recherche de document dans une base de données.
Une requête exprimée dans le langage de requête référencé () est traduite en une signature de méta-segments vectoriels dont la valeur correspond à l'index de la requête atomique. L'organisation en hypergraphes de ces méta-segments s'effectue en décrivant la requête sous forme d'hypergraphes de relations entre les requêtes atomiques et en traduisant les opérateurs de relations de la requête de la manière suivante :
Opérateur a ET b : production d'un noeud d'hypergraphe parent auquel sont rattachés les noeuds méta-segments vectoriels a et b.
Opérateur a OU b : production de deux hypergraphes distincts avec a dans l'un et b dans l'autre en lieu et place du noeud (a OU b).
Opérateur NON a : remplacement par le noeud a avec ajout d'un drapeau représentant le signe de la présence de a (localement).
La comparaison de la signature s'effectue de la même manière qu'à l'étape précédente excepté pour la comparaison du drapeau encodant le signe : le score produit par la comparaison de chaque branche est
<Desc/Clms Page number 27>
pondéré par le signe du noeud suivant la relation : (1score/norme (score)). D'autres formules peuvent cependant être employées (telles qu'une formule de binarisation comme (score/norme (score) > seuil) ? (-l) ; (0)), etc. ).
Ce processus est illustré sur les Figures 11 à 14 par un cas type : soit trois médias atomiques a, b, c : a et b sont des textes, c est une image.
On recherche tous les documents présentant des images ressemblant à c, dont la légende contient le texte a ou le texte b. On recherche donc la formule" (a ou b) et c", mais avec en plus la condition que la nature du lien qui doit relier a ou b avec c doit être de type "est la légende de". Ceci est décrit en termes d'hypergraphes sur la Figure 11 à titre d'exemple.
La Figure 12 montre une traduction sous la forme d'un hypergraphe requête.
On compare alors ces hypergraphes avec les hypergraphes présents dans la base de documents, avec un exemple illustré sur les Figures 13 et 14 : on compare récursivement les sous-hypergraphes simples du graphe de recherche avec les sous-hypergraphes simples classés de la base, en commençant par les éléments atomiques : image et textes : Exemple de calcul de deux documents qui ne contiendraient chacun que l'une des deux options : A et C pour le premier et C et B pour le second. Le lien produit par sa comparaison un score 1.00 car il est strictement celui demandé par la requête.
On décrira maintenant un exemple d'analyse intra-média appliqué à des médias imagés dans le cadre de la production d'un méta-identifiant local du média imagé.
Un média imagé présente plusieurs catégories d'éléments qui peuvent permettre de le caractériser. Il est utile pour identifier un tel document de pouvoir mettre en relation les éléments extraits de ces différentes catégories.
<Desc/Clms Page number 28>
Au sein des médias imagés (photographies, schémas, plans, dessins,...) différentes caractéristiques sont employées de manière hiérarchique pour constituer le méta-identifiant local du média-imagé. Ce méta-identifiant pourra lui-même être inclus dans le méta-identifiant du document multimédia dans lequel le média imagé est enfoui. On parlera d'image dans la suite pour signifier de manière générique le média imagé.
Le processus de construction d'un méta-identifiant de l'image se décompose en quatre parties. Il est appliqué de manière récursive sur chaque partie de l'image considérée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment. Plusieurs segmentations sont employées simultanément : segmentation par texture (méthodes classiques), segmentation par objet, segmentation par échelle (méthode des odelettes).
2. La seconde partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties.
4. La quatrième partie, enfin, consiste à réappliquer récursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d'"inclusions d'objets"entre les noeuds du méta-identifiant de la partie à inclure et celui ou ceux de l'hypergraphe du niveau précédent qui correspond (ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties.
<Desc/Clms Page number 29>
Les parties d'images peuvent être caractérisées au moyen de points d'appui
Le but de cette technique est de fournir un outil permettant d'archiver de façon efficace des médias pour lesquels les techniques de gestion de bases de données classiques ne sont pas applicables. Par exemple, l'indexation d'images dans des bases de données actuelles nécessite la description de chaque image en langage naturel, en utilisant un corpus textuel d'expressions définies. La photographie d'un tableau peut être indexée en utilisant des mots-clés tels que"le tableau contient : un crâne, deux personnages en costumes de la Renaissance, avec un arrière-plan composé d'une table, d'un compas et de cartes, et de tapisseries". Habituellement, un tableau, pour continuer avec le même exemple, sera décrit en utilisant ses caractéristiques physiques, telles que la taille de la toile, le type de support (toile, bois,...) et la matière de la peinture (huile,...). Il est très utile d'avoir de telles informations dans la base de données mais ce n'est pas suffisant pour aider par exemple à identifier rapidement un tableau volé. Au contraire, il est plus intéressant de pouvoir identifier une image à partir d'une autre image en utilisant les caractéristiques locales et globales des textures et des contours. La comparaison d'images peut être effectuée en utilisant des caractéristiques locales (moments de Zernike ou IFS) pour exploiter de façon précise le contenu d'une image. On peut utiliser une grille adaptatrice, basée sur les points d'intérêt ou points d'appui (extraits d'un détecteur de StephenHarris) pour produire des caractéristiques locales qui sont stockées dans la base de données en tant que clés permettant de retrouver l'image.
Les Figures 9 et 10 font apparaître le concept et les avantages des grilles adaptatives permettant l'extraction d'une information locale. On voit que dans le cas de la Figure 9, pour les quatre dessins différents, le contenu de chaque partie de la partition est différent de sorte que les
<Desc/Clms Page number 30>
signatures seront différentes. Au contraire, dans le cas de la Figure 10, pour les quatre dessins différents, la partition et le contenu de la partition restent les mêmes, de sorte que les signatures seront très proches.
Une telle technique peut être utilisée pour des documents comprenant à la fois des images et des textes à condition de préserver l'organisation structurelle des documents composites. Les sons peuvent également être analysés et indexés en suivant le même principe. Les signaux vidéo (grâce à la représentation et les technologies de mosaïque) ou d'autres objets multimédia peuvent également être traités de la même manière dès lors qu'ils présentent une structure composite formée de médias de base.
Le processus de construction d'un méta-identifiant d'une image, qui se décompose en quatre parties, sera exposé ci-dessous de façon plus détaillée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment qui peuvent être dénommées"composantes caractéristiques". Plusieurs segmentations sont employées : là encore le principe de la liste ordonnée est appliqué. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées.
<Desc/Clms Page number 31>
# segmentation par texture : au moyen de filtrages, gradients et seuillages on détermine une segmentation en région : matrices de co-occurrences et indices de texture, moments à plusieurs ordres, # méthode de corrélations d'histogrammes locaux, etc.
# segmentation par objets : segmentation par blocs, 'méthode Markovienne non-supervisée, par formation de germes, ou par croissance de régions de bas niveau, ou par croissance de régions de haut niveau, # méthode Markovienne semi-supervisée, etc.
# segmentation par échelle : # méthode par Transformée en Ondelettes, # méthode par Paquets d'Ondelettes, méthodes pyramida ! es géométriques basées sur le voisinage.
# segmentation par contours : filtrage Sobel, filtrage par Prewitt, filtrage directionnel de Kirsch # opérateur de Hueartas-Médioni, # opérateur de Marr, filtrage optimal de Canny, filtre de Deriche, filtre de Shen, gradient morphologique, # méthode dite de la"ligne de partage des eaux", # opérateur de Haralick,
<Desc/Clms Page number 32>
opérateur de Hueckel.
Autres stratégies : une fois déterminées les caractéristiques qui vont localement caractériser le signal présenté à la phase suivante de ce processus, on peut appliquer une méthode de groupement statistique de données (groupement k-mean, réduction en composantes principales, analyse en valeurs singulières, analyse à N-sigma) pour effectuer ou corriger ces segmentations.
2. La deuxième partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément. Elle emploie pour ce faire une ou plusieurs méthodes d'une liste pré-établie en employant toujours le principe de la liste ordonnée. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles que les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées : - Histogramme global à n points : un vecteur représentant un échantillonnage sur n valeurs (équidistantes ou non) de l'histogramme de l'image.
- Histogramme local à n points : idem sur un voisinage d'un point (de forme quelconque : disque, polygone, béziers, etc. dépendant ou non du contenu ou des autres composants caractéristiques).
<Desc/Clms Page number 33>
Fonctions statistiques locales descriptives du contenu ou de son orientation : coefficients de Zernike, Hough, moments, etc. calculés sur des voisinages (cf. cas précédent).
Fonctions multi-échelle : ondelettes, Haar calculées sur l'ensemble de l'image ou sur un voisinage.
Fonctions caractérisant la forme ou les invariants de formes caractéristique extraites de l'image : par exemple, extraction par squelettisation et binarisation de courbes dont les invariants sont mesurés par Fourrier-Meulin.
Les parties produites à la phase précédente sont indifféremment : des points, des lignes ou des contours, des régions.
Les caractéristiques vont donc être associées à ces trois catégories : caractérisation des points : - par leurs coordonnées, - par les propriétés locales du voisinage de ces points (voisinages de plusieurs natures : triangulation, carrés, rectangles ; également de plusieurs tailles : dépendant de la résolution de l'image, de la complexité des calculs, de la portée des filtres ou des polynômes) moments de polynômes (Zernike, Tchebichev, etc.) histogrammes basés sur un modèle de couleur (modèle HSV, modèle RGB, etc. caractérisation des lignes ou des contours : - par leurs points et les coordonnées de ceux-ci, - par leur géométrie : on calcule l'interpolation par une courbe analytique courante (exemple : b-spline, polynômes,...) et on représente les facteurs propres de cette courbe,
<Desc/Clms Page number 34>
- par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche, le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus. caractérisation des régions : - par leurs points et les coordonnées de ceux-ci, - par leur géométrie : on calcule l'interpolation par une surface analytique courante (exemple : 2D-b-spline, polynômes 2D,...) et on représente les facteurs propres de cette surface, - par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus ou plus simplement comme la surface englobée par la région de l'image-média.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties selon un processus analogue à celui décrit plus loin en relation avec une analyse extra-média.
4. La quatrième partie, enfin, consiste à réappliquer récursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d'"indusions d'objets"entre tes noeuds du méta-identifiant de la partie à inclure et celui ou ceux du graphe du niveau précédent qui correspond (ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties.
<Desc/Clms Page number 35>
On donnera ci-dessous un exemple de caractérisation des parties d'image-médias au moyen de points d'appui employés au sein du précédent système.
Diverses méthodes de caractérisation locale ou globale peuvent être employées pour produire les pondérations des méta-identifiants. Les caractéristiques extraites dans le contexte de l'indexation d'image-médias peuvent être séparées en caractéristiques globales et en caractéristiques locales. Les caractéristiques globales correspondent à l'aspect global de l'organisation de l'image-média. Par exemple dans une description colorimétrique d'une base de photographies, les couchers de soleil peuvent se représenter par la répartition dans l'image-média d'une couleur rouge dans la partie supérieure de l'image-média sur laquelle se détache un arc de cercle plus ou moins orange. Bien entendu une telle description est approximative, ne permet pas de retrouver toutes les images-médias de coucher de soleil (erreur par omission) et sélectionne des imagesmédias qui ne seront pas des couchers de soleil (erreur de type bruit). Les méthodes locales nécessitent d'extraire des propriétés invariantes de chaque image-média de façon à pouvoir les comparer. Sur l'exemple des Figures 9 et 10, on présente deux méthodes. L'une, non robuste à des changements de prise de vue, est basée sur un maillage absolu (Figure 9), l'autre, sur la Figure 10, utilise une détection de points d'intérêts, suivie d'une triangulation pour extraire des mailles sur lesquelles seront calculées des caractéristiques locales robustes aux transformations courantes des prises de vue (Moments de Zernike ou Iterated Function System, histogrammes couleur).
On explicitera maintenant le processus d'analyse inter-média (ou extra-média) au sein d'un document multimédia.
<Desc/Clms Page number 36>
La description d'un document multimédia nécessite en effet de caractériser l'ensemble de ses composantes.
Un objet multimédia est composé d'éléments monomédia analysables indépendamment et concurremment. Le processus de production d'un méta-identifiant consiste à effectuer cette décomposition en médias plus élémentaires tout en conservant la trace des relations structurelles qui lient ces différents médias, puis à réappliquer cette stratégie sur chacun des médias indépendamment, en conservant la trace des relations structurelles les reliant.
La première phase du processus consiste à effectuer une segmentation en composantes plus élémentaires du document multimédia original. Pour ce faire on applique successivement trois outils :
1. Outil de segmentation par support : on sépare au moyen des informations contenues dans le format du document celui-ci en plusieurs supports : supports audio, supports vidéo et support comportemental (programme, description HTML ou XML, etc.).
2. Outil de segmentation temporelle : si le média présente une extension temporelle, on le tronçonne en sections présentant une homogénéité temporelle. Pour ce faire on calcule sur le support une ou plusieurs fonctions spatiales d'homogénéité. On calcule : - l'histogramme des valeurs du signal (de sa luminance pour un signal imagé), - la projection moyennée de sa luminance suivant l'axe des X pour un signal imagé, - la projection moyennée de sa luminance suivant l'axe des Y pour un signal imagé, - différentes approximations de ce signal à différentes échelles par application d'un filtre médian ou d'un filtre moyenne,
<Desc/Clms Page number 37>
- différentes approximations de ce signal au moyen de filtres en odelettes, - etc.
On détermine ensuite la corrélation entre ces fonctions d'homogénéité au cours du temps. Le dépassement d'un seuil de variation pour une ou plusieurs de ces corrélations indique la présence d'une discontinuité du signal correspondant à un changement de segment temporel. On enregistre dans la structure du méta-identifiant ces différents segments comme autant de noeuds reliés par des arcs notant la continuité temporelle.
3. Outil de segmentation spatiale : au moyen d'un filtre de segmentation spatiale on détermine les différents objets qui composent une scène imagée. Pour ce faire on emploie concuremment, concomitamment ou séparément plusieurs méthodes : segmentation par la texture : filtre segmentation par la couleur : on calcule la répartition des couleurs segmentation par les contours : contours actifs.
Ces méthodes permettent d'extraire différents objets au sein de chaque séquence et au sein d'une série de séquences. On emploie ensuite une détermination de similitudes (corrélation simple, corrélation sur un des critères d'homogénéité précédemment présentées ou calcul de similitude) pour reconnaître si plusieurs objets successifs dans plusieurs images d'une même séquence ou de plusieurs séquences constituent réellement un même objet conceptuel. Dans ce cas on crée une représentation unique par séquence sous la forme d'un noeud du métaidentifiant que l'on relie au noeud représentant la scène par un arc dans lequel on code une relation d'inclusion. On relie également les
<Desc/Clms Page number 38>
représentations des objets identiques de deux scènes successives par un arc codant une relation d'identité (voir Figure 8).
4. Segmentation abstraite : on identifie des objets spécifiques par des moyens spécifiques : par par l'application d'un OCR sur les données imagées, on extrait les textes incrustés dans les images, par l'application d'un outil de traitement de la parole, on produit un texte transcrivant le contenu des paroles prononcées par les éventuels locuteurs de la bande son, par l'application de détecteurs spécifiques (détecteurs de visages, de mouvements, etc.).
Chaque résultat d'un de ces outils spécifiques produit un objet spécifique qui est enregistré dans le méta-identifiant avec sa nature et son contenu stockés dans la pondération du noeud correspondant. Les relations d'inclusions de cet objet dans la scène ou avec les autres objets de la scène sont enregistrées au moyen d'arcs reliant ce noeud avec les noeuds correspondants des autres objets.
La phase qui suit la segmentation est l'identification des objets : pour chacun des objets identifiés dans le méta-identifiant on détermine, au moyen des méthodes adéquates les informations d'identification propres à chaque objet. On emploie pour ce faire les méthodes images déjà décrites plus haut ou les méthodes sons qui seront décrites plus loin. Les autres informations sont stockées de manière textuelle ou codée par des mots-clefs en fonction de la nature de l'information concernée : "mouvement de rotation de 90 degrés dans le sens des aiguilles d'une montre" par exemple.
Il est à noter que les résultats des calculs intermédiaires qui sont effectués au cours de ces étapes sont conservés tout au long du calcul pour permettre leur réutilisation par les algorithmes suivants.
<Desc/Clms Page number 39>
On donnera ci-dessous des exemples de méthodes employées dans la caractérisation de documents audiovisuels.
L'indexation des supports audiovisuels dans le cadre d'une base de données peut nécessiter de s'appuyer sur plusieurs informations de natures différentes. On peut tout d'abord distinguer les informations "atomiques"qui sont immédiatement extractibles d'un aspect unique du document audiovisuel indépendamment de leur contexte :
1. Le texte incrusté sur l'image-média : il est reconnu au moyen d'un logiciel d'OCR sur les images-médias qui forment la séquence audiovisuelle. Des informations complémentaires concernant les imagesmédias (textes inscrits sur des objets de la séquence, marques de produits, enseignes lumineuses) peuvent être éventuellement associées mais doivent pouvoir être distinguées de manière fiable des incrustations volontaires de texte.
2. Le texte parlé : il est reconnu à partir de la bande son. Un logiciel d'analyse de la voix permet d'extraire, sous forme de textes et d'annotations, les paroles énoncées sur la bande son du document. Des informations complémentaires peuvent s'y adjoindre, telles que la différenciation des locuteurs, leurs conditions d'élocution, éventuellement l'identification des locuteurs. Des outils plus complexes peuvent s'ajouter à cette extraction brute dans le but d'associer plus finement sémantique textuelle et sémantique image-média. Par exemple, la méthode TF-IDF (Term Frequency-Inverse Document Frequency) mesure l'importance relative des mots dans un document vidéo à partir d'un corpus de référence. Les mots particulièrement fréquents dans un plan, mais peu courants dans un corpus, correspondront probablement à une informationclé de cette séquence.
3. Les bruits et la musique : les pistes sons contiennent, en supplément de la parole, de la musique et des bruitages qui peuvent être
<Desc/Clms Page number 40>
exploités sous certaines réserves, par exemple pour identifier un bruit caractéristique d'une action (claquement de portière, sonnerie de téléphone, etc. ) ce qui peut constituer une information cruciale pour la description de la séquence à indexer. L'identification musicale pourrait également être envisagée.
4. Le découpage en plans : les changements de scène peuvent être identifiables sous certaines réserves et renseignent sur la structure d'ensemble de la séquence vidéo. Une fois identifiés, les plans permettent l'analyse d'autres caractéristiques telles que les "images-médias résumés".
La segmentation des documents audiovisuels en plans occupe une position centrale parmi les méthodes d'indexation audiovisuelle. Il n'y a pas encore de méthode de détection des différents types d'effets de transitions avec une fiabilité 100%. Cependant, de plus en plus, des méthodes sont proposées pour traiter efficacement un certain type de transition tel que le "eut".
5. Les "images-médias résumés" : un résumé est une image-média qui représentera les caractéristiques majeures statiques d'un plan dans une séquence vidéo. Il peut s'agir d'une technique très simple, telle que choisir la première ou la dernière image-média du plan, ou d'une technique plus sophistiquée, comme construire une image-média mosaïque de la scène concernée par le plan. Une technique d'indexation d'image-média fixe classique pourra alors être appliquée pour indexer les informations visuelles caractéristiques de la séquence analysée.
6. Les mouvements de caméra/mouvements des objets : suivant les conditions de la prise de vue, il est possible d'analyser à partir du flux optique des déplacements de caméra ou d'objets filmés, des zooms, des panoramiques, des déplacements de foules ou d'objets uniques. Ces informations peuvent permettre de qualifier certaines scènes et d'apporter ainsi un contenu dynamique sur la sémantique du plan à indexer.
<Desc/Clms Page number 41>
7. Les transitions : dans de bonnes conditions, il est possible d'analyser les catégories de transitions choisies lors du montage de la séquence vidéo. Les informations correspondant à ces transitions peuvent permettre d'identifier les relations structurelles entre des plans, comme par exemple en identifiant les différents jingles de changement de sujets dans un journal télévisé. Cette analyse nécessite de s'appuyer également sur des aspects audio.
8. Les objets vidéo : l'existence d'objets peut être décelée et suivie au cours d'une séquence vidéo.
Il peut s'agir - soit de méthodes spécialisées, souvent statiques et appliquées à une image-média : * reconnaissance de visages * reconnaissance de formes géométriques 'identification de textures, - soit de méthodes généralistes, souvent dynamiques et appliquées sur une séquence : suivi d'un objet en mouvement qui est distingué de son environnement (balles de tennis, joueurs de foot), - identification d'un arrière-plan, segmentation en plans perspectifs.
On peut alors concrétiser cette information sous la forme de séries de morceaux d'image-médias ou d'images-médias composites (éventuellement elles-mêmes images-média mosaïques) qui, comme pour les "images-média résumés", pourront être indexées directement. L'intérêt de la séparation en objets élémentaires est crucial pour une interprétation sémantique de la séquence et pour les recherches sur le thème d'un objet.
On décrira maintenant un mécanisme de caractérisation par un méta-identifiant appliqué à des médias acoustiques, c'est-à-dire des
<Desc/Clms Page number 42>
médias reposant sur une représentation numérique monodimensionnelle d'un mécanisme acoustique quelconque, qu'il s'agisse d'un son, de la voix humaine, de musique, de cris ou de bruits : la détermination de points d'appui sur une ou plusieurs enveloppes du signal acoustique calculées à des résolutions différentes permet de calculer des signatures capables de caractériser localement le signal. Le processus se déroule en quatre phases : - La première phase consiste à calculer des enveloppes du signal à différentes résolutions en appliquant successivement des filtres encodant des odelettes sur le signal. Diverses odelettes telles que Mallat, Daubechies, Coifman, Coiflets, paquets d'ondelettes, etc. peuvent être employées. Les filtres sont appliqués sur le signal d'origine pour produire un signal détail et un signal approximation. Les filtres sont réappliqués sur les signaux ainsi produits et cette opération est reproduite plusieurs fois en fonction de l'échantillonnage du signal original. L'ensemble des signaux intermédiaires et finals ainsi produits est alors simplifié pour produire des enveloppes. Cette simplification s'effectue par application d'un filtre (filtre médian, filtre moyenne,...).
- La deuxième phase consiste en la détermination des points d'appui. Pour ce faire, on calcule la variation relative du signal au premier et au second ordre pour réduire les points pour lesquels ces variations sont maximales (concurremment ou exclusivement) sur les signaux simplifiés produits par la première phase.
- La troisième phase consiste à vectoriser le signal. Il s'agit donc de représenter les points d'appui trouvés à la phase précédente par leur position dans l'espace temps-énergie ou dans l'espace fréquence-énergie.
- La quatrième phase consiste : à calculer des informations de caractérisation de la variation du signal. Ainsi on calcule cette information autour d'un point d'appui et entre deux points d'appui successifs au sein
<Desc/Clms Page number 43>
du signal de résolution maximal ; puis à stocker cette première information dans la pondération du noeud de méta-identifiant correspondant ; à stocker cette deuxième information dans la pondération de l'arc reliant les deux noeuds adéquats. Les informations de caractérisation sont la moyenne des dérivées locales du signal aux deux premiers ordres (tout autre information de nature géométricomathématique peut être utile également). On reprend le processus au niveau de résolution inférieur en stockant la relation d'inclusion dans un niveau hiérarchique du méta-identifiant et on itère le processus sur chaque résolution calculée par les odelettes.
On décrira ci-dessous, à titre d'exemple, une méthode d'indexation textuelle appliquée aux médias textuels et permettant de construire un méta-identifiant au moyen d'une reformulation et d'une représentation vectorielle des phrases. D'autres systèmes d'indexation de texte en langage naturel ou non peuvent toutefois être employés.
De manière typique, un système d'indexation de texte en langage naturel (LN) est le suivant : le système d'indexation de texte est constitué de deux parties : la première partie transforme les énoncés des phrases écrites en langage naturel introduites dans le système (que cela soit pour être enregistrées et indexées ou que ce soit pour servir de requêtes pour retrouver des documents préalablement enregistrés). Cette transformation vise à identifier les groupes de mots possédant une signification propre grâce à des dictionnaires (que nous appellerons dictionnaires LN) et à les séparer des mots "outils" (tels que les mots de liaisons, articles, etc. ). Ces groupes de mots sont remplacés par les synonymes les plus purs, puis des synonymes de polysémie, ensuite des concepts proches, puis des concepts sémantiquement voisins, etc. ). Une pondération décroissante est associée à chacun de ces synonymes en fonction de cette distance au mot d'origine selon des critères empiriques ; on l'appellera"poids synonymique". Les
<Desc/Clms Page number 44>
autres mots sont négligés. Grâce à une analyse grammaticale, les mots possédant des flexions sont réduits à une forme de flexion simple (déclinaisons des verbes remplacées par l'infinitif, pluriel des noms remplacé par le singulier). Une fois cette phase de réécriture terminée, commence la deuxième phase qui diffère suivant qu'il s'agit d'une requête ou d'un texte à ajouter à la base. Dans le second cas, une table de noms inversée est produite afin de pouvoir retrouver aisément pour chaque mot ou chaque groupe de mots du dictionnaire LN les différents textes où ces mots sont cités, ainsi que leur (s) position (s) dans ces textes. Cette table constitue la table d'accès aux documents. Cette table inversée est concaténée avec celle déjà présente dans la base et triée par ordre lexicographique ou par ordre lexicographique inverse (selon le type de langue traitée). Les documents eux-mêmes sont stockés indépendamment, par exemple sous forme de fichiers. Dans le cas d'une requête, la réécriture de la requête produite par la première phase est comparée mot par mot ou groupes de mots par groupe de mots à la tables inversée pour retrouver les textes où ces mots sont présents. A chaque apparition d'un mot est associé le poids synonymique tel qu'il lui a été associé au cours de la première phase. Un score est produit en accumulant ces poids. Les documents contenant les textes obtenant les plus grands scores sont les plus pertinents. Une liste des documents classés par ordre de pertinence décroissante est produite.
On décrira brièvement à nouveau les différentes relations structurelles qui peuvent être mises en jeu au sein du méta-identifiant et le mécanisme reliant les informations provenant des différents moteurs d'indexation monomédia.
Les signatures obtenues au niveau de chaque moteur d'indexation monomédia (travaillant sur un média) se présentent sous forme d'hypergraphes pondérés par des vecteurs de valeurs numériques ou
<Desc/Clms Page number 45>
textuelles représentant les caractéristiques locales associées aux points d'appui (points d'intérêts dans les images, limites des enveloppes sonores pour les sons, etc. ) de chacun des médias. Ces vecteurs peuvent être eux- mêmes remplacés hiérarchiquement par des hypergraphes dans le cas de moteurs monomédia employant la conjonction de plusieurs méthodes.
Cette approche hiérarchique peut être itérée de manière à produire un hypergraphe unique représentant de la signature des caractéristiques reliant les différents sous-hypergraphes de vecteurs de valeurs numériques associées à chaque niveau de traitement (multimédia, monomédia, méthodes au sein d'un même média, etc. ). Les arcs de ces hypergraphes servent à porter des relations spécifiques correspondant aux différentes informations structurelles que l'on peut trouver au sein d'un document multimédia (comme la liaison entre une figure et sa légende textuelle, ou comme la transformation géométrique permettant de passer d'un point d'intérêt à un autre).
La recherche au sein d'une telle structure représentée par un hypergraphe aux noeuds et aux branches pondérés par des informations peut s'effectuer au moyen d'une méthode de comparaison de soushypergraphes (suppression d'un sommet ou d'un arc, addition d'un sommet ou d'un arc, remplacement d'un sommet ou d'un arc) auxquelles on associe des scores au moyen d'une méthode figée (telle opération coûte tel nombre de points) ou au moyen d'une méthode d'apprentissage (avec retour d'information de la part d'un utilisateur). Ces scores devront dans tous les cas prendre en compte (simple multiplication par exemple) les coûts relatifs des distances entre les poids des branches ou des noeuds déterminés au sens des méthodes propres à chaque moteur d'indexation monomédia.

Claims (19)

REVENDICATIONS
1. Procédé de comparaison d'un premier et d'un second documents multimédia composites comportant chacun au moins deux médias élémentaires choisis parmi des catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/affectation d'un méta-identifiant à chacun des premier et deuxième documents multimédia composites, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des premier et deuxième documents multimédia composites, ci pour l'hypergraphe de chaque média élémentaire du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document multimédia, d/pour l'hypergraphe de chaque média élémentaire du premier document multimédia, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire du deuxième document multimédia et expression des distances entre les médias élémentaires en fonction de ces coûts, e/récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des premier et deuxième documents multimédia composites, f/pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, opération de maximalisation de
<Desc/Clms Page number 47>
l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, g/pour i'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, détermination du coût de l'opération d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, et expression de la distance entre les premier et deuxième documents multimédia composites en fonction de ce coût.
2. Procédé selon la revendication 1, caractérisé en ce que les
Figure img00470001
étapes c/et d/comprennent elles-mêmes les étapes suivantes : c11 pour chaque média élémentaire du premier document multimédia à comparer à un média élémentaire du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût intra-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, c2/exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe de chacun des médias élémentaires du premier document multimédia en un hypergraphe le plus proche possible de l'hypergraphe de chacun des médias élémentaires du deuxième document multimédia, dl/détermination du coût de chaque transformation suivant les règles définies à l'étape cl, et d2/sélection, pour chacun des médias élémentaires du premier document multimédia, de la transformation dont le coût est minimal.
3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que les étapes f/et g/comprennent ettes-mêmes tes étapes suivantes :
<Desc/Clms Page number 48>
2/exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du premier document multimédia composite en un hypergraphe le plus proche possible de l'hypergraphe du deuxième document multimédia composite, g11 détermination du coût de chaque transformation suivant les règles définies à l'étape fl/, et 92/sélection de la transformation dont le coût est minimal.
fll pour l'ensemble des médias élémentaires du premier document multimédia à comparer aux médias élémentaires du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût inter-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes,
4. Procédé selon la revendication 1, caractérisé en ce que les étapes c/et d/comprennent la mise en oeuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
5. Procédé selon l'une des revendications 1 et 4, caractérisé en ce que les étapes f/et g/comprennent ! a mise en oeuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
<Desc/Clms Page number 49>
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que lors de la comparaison d'un premier document multimédia composite affecté d'un méta-identifiant et segmenté en métasegments, on procède à une comparaison point-à-point des métasegments de nature vectorielle au moyen d'une distance vectorielle choisie parmi les distances de type Euclidienne, Riemann avec paramètre L et Mahalanobis, de manière à produire des résultats constituant des scores d'appariement entre les méta-segments comparés deux à deux, et on procède à une comparaison des méta-segments des hypergraphes et à la production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des métasegments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il est appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
8. Procédé selon la revendication 7, caractérisé en ce que l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes :
<Desc/Clms Page number 50>
i/décomposition du nouveau méta-identifiant en métaidentifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/construction d'un arbre de production des relations entre médias élémentaires, iii/application récursive des étapes i/et ii/à chaque métaidentifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
9. Procédé selon la revendication 8, caractérisé en ce que l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de noeuds voisins dont le média support est identique.
10. Procédé selon la revendication 8 ou la revendication 9, caractérisé en ce que l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : -construction d'un hypergraphe simplifié en associant un noeud à chaque méta-identifiant élémentaire et en recopiant des relations liant les noeuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes noeuds,
<Desc/Clms Page number 51>
- découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de noeuds, - rangement en classes de sous-hypergraphes similaires ayant le même nombre de noeuds, - caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et - organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
11. Procédé selon l'une quelconque des revendications 1 à 10, caractérisé en ce qu'il est appliqué à la recherche d'un document multimédia archivé dans une base de données et en ce qu'il comprend les étapes suivantes : - présentation d'une requête composite comprenant elle-même des documents multimédia liés entre eux par des opérateurs logiques, - affectation d'un méta-identifiant à chacun des documents multimédia de la base de données, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, - affectation d'un méta-identifiant à la requête composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant la requête composite, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents multimédia de la base de données,
<Desc/Clms Page number 52>
- récursion sur les arbres secondaires de relations intra-média des médias élémentaires de la requête composite, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents multimédia de la base de données, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de la requête composite, - production d'un hypergraphe global réunissant l'ensemble des hypergraphes de la requête composite reliés par lesdits opérateurs logiques, - comparaison dudit hypergraphe global avec les hypergraphes des documents multimédia de la base de données selon les étapes suivantes : - pour l'hypergraphe de chaque média élémentaire. de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données, - pour 11hypergraphe de chaque média élémentaire de la requête composite, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données et expression des distances entre les médias élémentaires en fonction de ces coûts, - pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, - pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, détermination des coûts des opérations d'édition
<Desc/Clms Page number 53>
procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, et expression des distances entre la requête composite et chacun de ces documents multimédia de la base de données en fonction de ce coût, - organisation de la liste des documents multimédia de la base de données par ordre décroissant des coûts calculés précédemment.
12. Procédé selon la revendication 11, caractérisé en ce que les étapes de traitement individuel des documents multimédia de la base de données sont effectuées préalablement à la présentation d'une requête composite et les résultat de ces étapes de traitement individuel sont conservés pour le traitement d'un ensemble de requêtes composites différentes, en ce que la base de données est organisée avec un stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver, et en ce que, au lieu d'effectuer une comparaison de l'hypergraphe global de la requête composite avec les hypergraphes de l'ensemble des documents multimédia de la base de données, on procède à une recherche hiérarchique dans l'arborescence des classes des hypergraphes de l'ensemble des documents multimédia de la base de données et on effectue des comparaisons entre l'hypergraphe global de la requête composite et les représentants desdites classes.
13. Procédé d'indexation d'un document multimédia composite comportant au moins deux médias élémentaires choisis parmi les catégories comprenant des images, des sons, des signaux vidéo, des
<Desc/Clms Page number 54>
graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/affectation d'un méta-identifiant au document multimédia composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de noeuds et de relations entre ces noeuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia composite, b/récursion sur les arbres secondaires de relations intra-média des médias élémentaires du document multimédia composite, et c/récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires du document multimédia composite.
14. Procédé selon la revendication 13, caractérisé en ce qu'il est appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
15. Procédé selon la revendication 14, caractérisé en ce que l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/décomposition du nouveau méta-identifiant en métaidentifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver,
<Desc/Clms Page number 55>
ii/construction d'un arbre de production des relations entre médias élémentaires, iii/application récursive des étapes i/et ii/à chaque métaidentifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
16. Procédé selon la revendication 15, caractérisé en ce que l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de noeuds voisins dont le média support est identique.
17. Procédé selon la revendication 14 ou la revendication 15, caractérisé en ce que l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : - construction d'un hypergraphe simplifié en associant un noeud à chaque méta-identifiant élémentaire et en recopiant des relations liant les noeuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes noeuds, - découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de noeuds,
<Desc/Clms Page number 56>
- rangement en classes de sous-hypergraphes similaires ayant le même nombre de noeuds, - caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et - organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
18. Procédé selon l'une quelconque des revendications 1 à 17, caractérisé en ce qu'au moins un média élémentaire est un document monomédia appartenant à une seule catégorie de médias.
19. Procédé selon l'une quelconque des revendications 1 à 17, caractérisé en ce qu'au moins un média élémentaire est lui-même un document multimédia comportant des sous-éléments appartenant à des catégories de médias différentes.
FR0113223A 2001-10-12 2001-10-12 Procede d'indexation, de stockage et de comparaison de documents multimedia Expired - Fee Related FR2830958B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0113223A FR2830958B1 (fr) 2001-10-12 2001-10-12 Procede d'indexation, de stockage et de comparaison de documents multimedia
EP02790506A EP1435054A2 (fr) 2001-10-12 2002-10-11 Procede d'indexation et de comparaison de documents multimedia
PCT/FR2002/003470 WO2003032196A2 (fr) 2001-10-12 2002-10-11 Procede d'indexation et de comparaison de documents multimedia
US10/270,250 US6988093B2 (en) 2001-10-12 2002-10-11 Process for indexing, storage and comparison of multimedia documents
JP2003535093A JP2005505081A (ja) 2001-10-12 2002-10-11 マルチメディア文書のインデックスおよび比較方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0113223A FR2830958B1 (fr) 2001-10-12 2001-10-12 Procede d'indexation, de stockage et de comparaison de documents multimedia

Publications (2)

Publication Number Publication Date
FR2830958A1 true FR2830958A1 (fr) 2003-04-18
FR2830958B1 FR2830958B1 (fr) 2004-02-13

Family

ID=8868268

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0113223A Expired - Fee Related FR2830958B1 (fr) 2001-10-12 2001-10-12 Procede d'indexation, de stockage et de comparaison de documents multimedia

Country Status (4)

Country Link
EP (1) EP1435054A2 (fr)
JP (1) JP2005505081A (fr)
FR (1) FR2830958B1 (fr)
WO (1) WO2003032196A2 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4823996B2 (ja) * 2007-11-02 2011-11-24 日本電産トーソク株式会社 輪郭検出方法及び輪郭検出装置
KR101380605B1 (ko) * 2012-03-30 2014-04-04 서울대학교산학협력단 하이퍼 그래프 기반 rdf 버전 관리 방법
CN110136066B (zh) * 2019-05-23 2023-02-24 北京百度网讯科技有限公司 面向视频的超分辨率方法、装置、设备和存储介质
CN115329169B (zh) * 2022-06-27 2023-10-20 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIRZALLA N ET AL: "DATA MODEL AND A QUERY LANGUAGE FOR MULTIMEDIA DOCUMENTS DATABASES", MULTIMEDIA SYSTEMS, ASSOCIATION FOR COMPUTING MACHINERY, NEW YORK, US, vol. 7, no. 4, July 1999 (1999-07-01), pages 338 - 348, XP000871362, ISSN: 0942-4962 *
HUNTER J ET AL: "A comparison of schemas for video metadata representation", COMPUTER NETWORKS, ELSEVIER SCIENCE PUBLISHERS B.V., AMSTERDAM, NL, vol. 31, no. 11-16, 17 May 1999 (1999-05-17), pages 1431 - 1451, XP004304565, ISSN: 1389-1286 *
PUNPITI PIAMSA-NGA ET AL: "In-picture search algorithm for content-based image retrieval", IMAGE PROCESSING, 1999. ICIP 99. PROCEEDINGS. 1999 INTERNATIONAL CONFERENCE ON KOBE, JAPAN 24-28 OCT. 1999, PISCATAWAY, NJ, USA,IEEE, US, 24 October 1999 (1999-10-24), pages 129 - 133, XP010369197, ISBN: 0-7803-5467-2 *

Also Published As

Publication number Publication date
WO2003032196A2 (fr) 2003-04-17
WO2003032196A3 (fr) 2003-10-09
JP2005505081A (ja) 2005-02-17
FR2830958B1 (fr) 2004-02-13
EP1435054A2 (fr) 2004-07-07

Similar Documents

Publication Publication Date Title
US6988093B2 (en) Process for indexing, storage and comparison of multimedia documents
Liu et al. A survey of content-based image retrieval with high-level semantics
US20120148149A1 (en) Video key frame extraction using sparse representation
EP1424640A2 (fr) Procédé et appareil de stockage et recherche d&#39;informations
FR2801991A1 (fr) Procede et dispositif de recherche d&#39;images basee sur le contenu prenant en compte le contenu de regions d&#39;interet
EP1400902A1 (fr) Stockage et extraction d&#39;informations
WO2017055250A1 (fr) Procédé et système de recherche d&#39;images similaires quasi-indépendant de l&#39;échelle de la collection d&#39;images
FR2807852A1 (fr) Procedes et dispositifs d&#39;indexation et de recherche d&#39;images numeriques prenant en compte la distribution spatiale du contenu des images
EP2002378A2 (fr) Tas bidimensionnel généralisé rapide pour distance de hausdorff et distance du cantonnier
CN111368126A (zh) 一种面向图像检索的生成方法
Kamde et al. A survey on web multimedia mining
FR2830958A1 (fr) Procede d&#39;indexation, de stockage et de comparaison de documents multimedia
Li et al. Content-based retrieval in digital libraries
CN117609583A (zh) 一种基于图像文本组合检索的海关进出口商品归类方法
Mumtaz et al. A novel texture image retrieval system based on dual tree complex wavelet transform and support vector machines
Anh et al. Video retrieval using histogram and sift combined with graph-based image segmentation
Sebastine et al. Semantic web for content based video retrieval
Shambharkar et al. A comparative study on retrieved images by content based image retrieval system based on binary tree, color, texture and canny edge detection approach
Saboorian et al. User adaptive clustering for large image databases
Del Bimbo Image and video databases: visual browsing, querying and retrieval
Shama et al. Textual Description based Video Annotation Methods
Rajendran et al. A content-based video retrieval system: video retrieval with extensive features
Comor Text-Based Guidance for Improved Image Retrievalon Archival Image Dataset
Worring Multimedia analytics for image collection forensics
CN115457640A (zh) 一种档案合并方法、装置及介质

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20160630