FR3041794A1 - Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images - Google Patents

Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images Download PDF

Info

Publication number
FR3041794A1
FR3041794A1 FR1559289A FR1559289A FR3041794A1 FR 3041794 A1 FR3041794 A1 FR 3041794A1 FR 1559289 A FR1559289 A FR 1559289A FR 1559289 A FR1559289 A FR 1559289A FR 3041794 A1 FR3041794 A1 FR 3041794A1
Authority
FR
France
Prior art keywords
image
images
list
collection
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1559289A
Other languages
English (en)
Other versions
FR3041794B1 (fr
Inventor
Adrian Popescu
Borgne Herve Le
Alexandru Lucian Ginsca
Etienne Gadeski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA, Commissariat a lEnergie Atomique et aux Energies Alternatives CEA filed Critical Commissariat a lEnergie Atomique CEA
Priority to FR1559289A priority Critical patent/FR3041794B1/fr
Priority to EP16775629.5A priority patent/EP3356955A1/fr
Priority to US15/763,347 priority patent/US20180276244A1/en
Priority to PCT/EP2016/072922 priority patent/WO2017055250A1/fr
Publication of FR3041794A1 publication Critical patent/FR3041794A1/fr
Application granted granted Critical
Publication of FR3041794B1 publication Critical patent/FR3041794B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

L'invention porte sur un procédé de recherche d'images similaires à une image requête (Ir) dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation (LTU) d'un index inversé (II) mettant en correspondance chacune des caractéristiques (C1-C5) avec des images de la collection (16-18, 11-12), caractérisé en ce que l'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images (16-18) de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique (C1) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.

Description

PROCÉDÉ ET SYSTÈME DE RECHERCHE D'IMAGES SIMILAIRES QUASI-INDÉPENDANT DE
L'ÉCHELLE DE LA COLLECTION D'IMAGES
DESCRIPTION
DOMAINE TECHNIQUE
Le domaine de l'invention est celui de la fouille de données, et plus particulièrement celui de la recherche d'image par le contenu pour laquelle on souhaite retrouver des images similaires à une requête purement visuelle prenant la forme d'une image dite image requête.
ÉTAT DE LA TECHNIQUE ANTÉRIEURE
En l'absence d'annotations textuelles, la recherche d'images peut être réalisée au moyen d'images requête qui sont utilisées afin de retrouver des images similaires au sein d'une collection d'images de référence.
Ce processus de recherche par similarité visuelle comprend deux phases principales, l'indexation de la collection d'images, qui est réalisée hors ligne, et le requêtage, qui doit être réalisé en ligne. L'indexation a pour but de transformer le contenu « pixelique » des images en des représentations vectorielles par caractéristiques (feature extraction), généralement de taille fixe. L'étape de requêtage a pour but d'extraire une représentation vectorielle du contenu de l'image requête et de la comparer aux représentations des images de la collection afin de retrouver les éléments les plus similaires.
Les représentations vectorielles des caractéristiques visuelles incluent : les représentations qui agrègent des descripteurs locaux au sein d'un vecteur de taille fixe (i.e. sacs de mots visuels, vecteurs de Fisher, réseaux neuronaux convolutionnels, etc.) ; les représentations qui encodent des caractéristiques globales (i.e. histogrammes de couleurs, descriptions de textures, etc.) ; les représentations sémantiques qui sont obtenues par l'agrégation de classificateurs intermédiaires et qui donnent des probabilités d'apparition de concepts individuels dans l'image.
Un problème important en recherche d'images par similarité est la rapidité de la recherche qui doit être effectuée « en ligne ». Ce problème devient même central lorsqu'il s'agit de traiter des collections à large échelle (i.e. milliards d'images). Il existe trois solutions principales qui permettent l'accélération du processus de recherche par similarité : la réduction de la taille des représentations vectorielles en utilisant des techniques comme l'analyse en composantes principales, l'analyse discriminante linéaire, la quantification vectorielle, etc. ; l'utilisation d'arbres de recherche (kd-trees, k-means trees, foret d'arbres décisionnels) qui fonctionnent en partitionnant l'espace de recherche défini par les vecteurs représentatifs des images et permettent ainsi d'accélérer le processus de recherche d'images ; la représentation par fichiers inversés qui s'inspire de la recherche de documents textuels et est efficace si les vecteurs représentant les images de la collection sont creux (parcimonieux). Ce type de structure associe à chaque dimension de l'espace de représentation un ensemble de documents et, au vu du caractère creux des représentations, les documents similaires sont retrouvés plus efficacement en comparant toutes les dimensions non-nulles du vecteur représentant le document requête avec les documents de la collection associés à ces dimensions.
Malgré leur efficacité améliorée par rapport à des comparaisons exhaustives des vecteurs représentatifs, l'utilisation de ces méthodes de recherche accélérée nécessite toujours la réalisation d'un ensemble d'opérations mathématiques pour réaliser des calculs de similarité entre le vecteur représentant l'image requête et les vecteurs représentant mes images de la collection. La recherche d'images similaires demeure donc complexe, et cette complexité augmente avec la taille de la collection.
EXPOSÉ DE L'INVENTION L'invention vise une technique de recherche d'image par le contenu qui soit plus simple à mettre en oeuvre sans pour autant perdre en pertinence, et qui permette d'être appliquée à des collections de référence de très grande taille sans pour autant que le temps de recherche ne devienne exorbitant. A cet effet, l'invention propose un procédé de recherche d'images similaires à une image requête dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation d'un index inversé mettant en correspondance chacune des caractéristiques avec des images de la collection. L'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête. L'opération d'intégration à la liste est répétée pour une autre caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.
Certains aspects préférés mais non limitatifs de ce procédé sont les suivants : l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique de poids le plus élevé dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible dans le vecteur représentant l'image requête ; l'opération d'intégration à la liste est réalisée de manière à intégrer une image de la collection mise en correspondance avec une caractéristique dans l'index inversé uniquement si ladite image n'est pas déjà intégrée à la liste ; il comprend une étape de détermination, à partir du nombre cible d'images dans la liste, et pour chaque caractéristique, d'un nombre maximal d'images pouvant être intégrées à la liste parmi les images mises en correspondance avec ladite caractéristique dans l'index inversé ; il comprend une étape préalable d'indexation de la collection d'images, comprenant : pour chaque image de la collection, l'extraction de caractéristiques de l'image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques ; pour chaque caractéristique, l'ordonnancement des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant ; la création de l'index inversé en venant mettre en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique. les caractéristiques sont des caractéristiques relatives à la présence de concepts visuels dans une image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image ; il comprend en outre une étape de classement des images intégrées à la liste, ladite étape de classement comprenant, pour chacune des images intégrées à la liste, une mesure de similarité avec l'image requête ; la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison de caractéristiques bas-niveau, respectivement haut-niveau, extraites de l'image requête et de caractéristiques bas-niveau, respectivement haut-niveau, extraites de l'image intégrée à la liste ; il comprend une étape de reformulation du vecteur représentant l'image requête consistant à modifier le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec d'autres caractéristiques. L'invention porte également sur un produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé lorsque ledit programme est exécuté sur un ordinateur. Elle s'étend en outre à un système de recherche d'images similaires à une image requête dans une collection d'images configuré de manière à mettre en oeuvre le procédé selon l'invention.
BRÈVE DESCRIPTION DES DESSINS D'autres aspects, buts, avantages et caractéristiques de l'invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence à la figure 1 annexée qui illustre le schéma global d'un mode de réalisation possible du procédé selon l'invention.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS L'invention porte sur un procédé de recherche de documents parmi les documents d'une collection au moyen d'une représentation d'une requête et des documents de la collection par un vecteur de caractéristiques associant un poids à chacune des caractéristiques. On prendra dans ce qui suit l'exemple d'une collection d'images, sans que cela ne soit pour autant limitatif, l'invention visant tout type de document multimédia et pouvant être mise en oeuvre dès lors qu'une représentation par vecteur de caractéristiques des documents multimédia est accessible. L'invention porte ainsi notamment, mais non exclusivement, sur la recherche d'images similaires à une image requête parmi une collection d'images qui comprend généralement des milliers d'images, voire des millions d'images. Le procédé a en particulier pour objectif de créer une liste d'images de la collection similaires à l'image requête dont le nombre d'images similaires correspond à un nombre cible prédéterminé x. Il exploite une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprend une étape d'interrogation d'un index inversé mettant en correspondance chacune des caractéristiques avec des images de la collection.
Le procédé se décompose en deux phases principales : une première phase dite d'indexation généralement effectuée « hors-ligne », et une deuxième phase de requêtage généralement effectuée « en ligne », c'est-à-dire en temps réel pendant la recherche d'images similaires proprement dite.
On a représenté sur la figure 1 un schéma global du procédé selon l'invention. Sur cette figure, les lignes en traits pleins illustrent les étapes réalisées « hors-ligne » tandis que les lignes en traits pointillés illustrent les étapes réalisées « en ligne ». Sur cette même figure, les données et les résultats des traitements sont représentés dans des rectangles aux coins arrondis, les différentes étapes de traitement des données étant présentées dans des rectangles. Sur cette figure, on a par ailleurs séparé les étapes et données de la phase d'indexation hors ligne HL des étapes et données de la phase de recherche en ligne EL.
Chacune des première et deuxième phases HL, EL comporte une étape d'extraction de caractéristiques « EX-CR » (feature extraction en anglais) d'une image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques d'un ensemble de caractéristiques d'image.
Lors de la phase d'indexation HL, l'extraction de caractéristiques EX-CR est mise en œuvre pour l'ensemble des images de la collection stockées dans une base de données BdB. Lors de la phase de recherche en ligne EL, l'extraction de caractéristiques EX-CR est mise en œuvre pour l'image requête Ir. Les images de la collection et l'image requête sont ainsi décrites par un vecteur de même nature.
Dans un mode de réalisation possible de l'invention, l'extraction de caractéristiques d'une image EX-CR comprend une extraction de caractéristiques bas-niveau « EX-BN » qui permet d'associer un vecteur de taille fixe à l'image, suivie d'une extraction de caractéristiques haut-niveau « EX-S » à partir des caractéristiques bas-niveau. Les caractéristiques bas-niveau sont typiquement des caractéristiques peu interprétables, là où les caractéristiques haut-niveau sont généralement compréhensibles pour l'homme.
Les caractéristiques bas-niveau sont par exemple des sacs de mots visuels (BoVW pour Bag of Visual Word), des histogrammes de gradient orienté (HOG pour Histogram of Oriented Gradients), des noyaux de Fisher, des couches totalement connectées (dites « de classification ») de réseaux neuronaux convolutionnels, etc.
Ces caractéristiques bas-niveau peuvent être stockées dans un index direct ID associant à chacune des images de la collection It, Ip, Iq le vecteur de taille fixe résultant de l'extraction de caractéristiques bas-niveau de l'image.
Les caractéristiques haut-niveau sont par exemple des caractéristiques visuelles permettant de former une représentation sémantique de l'image.
Il peut s'agir d'une représentation sémantique intermédiaire (les caractéristiques étant par exemple les sorties de la couche finale d'un réseau convolutionnel) ou d'une représentation sémantique proprement dite (les caractéristiques sont alors relatives à la présence de concepts visuels dans l'image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image). Une telle représentation sémantique est typiquement obtenue par l'agrégation des sorties d'un banc de classificateurs visuels qui fournissent des probabilités d'apparition de concepts individuels dans l'image. Elle rend possible la recherche d'images similaires à une requête formulée avec des concepts textuels de l'espace de représentation à la place d'images requête.
On relèvera que lorsque la collection de référence inclut des images d'un domaine précis, il est possible d'adapter l'espace de représentation en venant éliminer des caractéristiques qui ne sont pas pertinentes dans le contexte.
Après extraction des caractéristiques d'une image, on dispose d'une représentation compacte de l'image sous la forme d'un vecteur de taille fixe qui peut s'écrire comme D= {(vlr ρ±), (v2, p2),..., (vn, pn)}, où Vi sont les dimensions de l'espace vectoriel de représentation et pj sont les poids associés à ces dimensions pour l'image considérée. Les Vi peuvent ainsi représenter un ensemble de concepts visuels, p* étant la probabilité de présence du concept visuel vj dans l'image.
Sous l'intuition que seulement un nombre réduit de concepts visuels est reconnaissable dans une image et devrait donc être actif dans le vecteur représentant une image, on peut cherchera obtenir une représentation parcimonieuse (ou « creuse ») de l'image comprenant un nombre réduit de dimensions non nulles dans le vecteur représentant l'image. Pour ce faire, le vecteur D représentatif d'une image est modifié de manière à ce que seulement un petit sous-ensemble k des poids pi restent non-nuls. Typiquement on a k < 10 et le vecteur représentant une image est réécrit en :
Dk = {Oi, Pi),(v2, P2(vn, Pn)}, où tous les poids pf au-deçà des k plus grands sont tous mis à zéro.
Cette représentation parcimonieuse permet d'encoder une grande quantité d'information sur un faible nombre de dimensions, et permet de rendre l'indexation avec un fichier inversé plus efficace comme cela a pu être démontré dans l'article de A. Ginsca, A. Popescu, H. Le Borgne, N. Ballas, P. Vo, et I. Kanellos intitulé « Large-scale image mining with Flickr groups » in Proc, of Multimedia Modelling Conf. 2015.
La phase préalable d'indexation hors-ligne HL comprend, comme on l'a vu précédemment, pour chaque image de la collection, l'extraction de caractéristiques EX-CR de l'image pour représenter l'image sous la forme d'un vecteur associant un poids à chacune des caractéristiques d'image. Elle comprend ensuite la création « CREA-II » d'un index inversé II mettant en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection. En retenant un nombre prédéfini d'images associées à chacune des caractéristiques, l'empreinte mémoire de l'index inversé peut être limitée.
Ce nombre prédéfini peut être identique pour toutes les caractéristiques ou au contraire propre à chaque caractéristique. Il peut être arbitraire (par exemple on ne retient que 1000 images, au maximum, par caractéristique) ou être élaboré en fonction du nombre cible x d'images dans la liste d'images similaires en venant déterminer, pour chaque caractéristique, un nombre maximal d'images pouvant être intégrées à la liste. Ce nombre maximal d'images peut être ou non le même pour chacune des caractéristiques.
Dans un mode de réalisation possible permettant de maximiser la pertinence des résultats, l'extraction de caractéristiques EX-CR est suivie d'une opération d'ordonnancement, pour chacune des caractéristiques, des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant. Puis une opération de création « CREA-II » de l'index inversé II est réalisée qui vient mettre en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique. Dans l'index inversé II, on retrouve donc xt images associée à la caractéristique vir ces xt images ayant un poids pt associé à la caractéristique non nul dans les vecteurs les représentant. Ce nombre préfini Xj peut notamment, mais non nécessairement, correspondre au nombre maximal d'images pouvant être intégrées à la liste d'images similaires déterminé en fonction du nombre cible x d'images dans la liste d'images similaires.
Dans l'exemple de la figure 1, l'index inversé II met ainsi en correspondance : la caractéristique Cl avec les images 11 et 12 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,9 et 0,8 ; la caractéristique C2 avec les images 13,14 et 15 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,8, 0,7 et 0,6 ; la caractéristique C3 avec les images 16,17 et 18 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,9, 0,8 et 0,6.
On retiendra que, en fonction de la fréquence d'occurrence de la caractéristique Vt dans la collection, le nombre d'images de la collection xt associées à cette caractéristique peut être inférieur au nombre cible d'images x dans la liste d'images similaires.
La phase de recherche en ligne EL comprend, comme on l'a vu précédemment, l'extraction de caractéristiques EX-CR de l'image requête pour représenter l'image requête sous la forme d'un vecteur de même type que ceux représentant les images de la collection de référence.
Dans un mode de réalisation possible de l'invention, la phase de recherche en ligne comprend une étape de reformulation « CONF » du vecteur représentant l'image requête consistant à modifier, par exemple à augmenter, le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec une ou plusieurs caractéristiques sélectionnées en fonction du poids qui leur est associé dans le vecteur représentant l'image requête (on sélectionne typiquement les caractéristiques de poids le plus élevé).
Cette étape de reformulation peut exploiter une matrice de confusion qui capte, pour chaque caractéristique^, une probabilité qu'elle soit confondue avec des caractéristiques^·. Cette matrice est calculée sur une base d'apprentissage (qui peut être indépendante de la collection) dont la vérité terrain est donnée par des annotations textuelles des caractéristiques cibles Vt- Etant donnée une image annotée avec vit on considère que cette dimension est confondue avec Vj si la probabilité associée à la caractéristique Vj est supérieure à celle associée à la caractéristique ι?έ. Cette confusion est moyennée sur toutes les images d'apprentissage de la caractéristique cible vt pour former la matrice de confusion. Cette matrice encode ainsi des relations globales de dépendance entre les caractéristiques qui sont obtenues par l'agrégation de toutes les images d'apprentissage pour chaque dimension vt.
Une telle matrice de confusion est généralement utilisée pour analyser des défauts de classification. Dans le cadre de l'invention, un rôle positif est donné aux confusions et la matrice de confusion est exploitée afin de diversifier la représentation de l'image requête en venant considérer, non seulement les caractéristiques associées aux probabilités les plus élevées dans le vecteur représentant l'image requête, mais également un ensemble de caractéristiques avec lesquelles il est probable que ces caractéristiques associées aux probabilités les plus élevées soient confondues.
Dans une variante de ce mode de réalisation de reformulation du vecteur représentant l'image requête, on procède en outre à une opération de fusion du vecteur initial (résultant de l'extraction de caractéristiques EX-CR) et du vecteur reformulé au moyen de la matrice de confusion. Cette fusion peut être implémentée, par exemple, en choisissant successivement des dimensions incluses dans chacune des deux représentations vectorielles. L'utilité de la fusion est donnée par le fait que le vecteur initial encode une représentation vectorielle propre à l'image alors que le vecteur reformulé encode une représentation qui se base sur des relations plus génériques entre les dimensions du vecteur.
Dans ce qui suit, le même terme de vecteur représentant l'image requête sera utilisé pour désigner aussi bien le vecteur initial que le vecteur reformulé ou que le vecteur issue de la fusion.
Un exemple de vecteur représentant l'image requête est donné sur la figure 1, après réordonnancement des caractéristiques en fonction de leur poids. Ce vecteur indique ainsi pour une première caractéristique C3 un poids de 0,80, pour une seconde caractéristique Cl un poids de 0,79, pour une troisième caractéristique C4 un poids de 0,76, pour une quatrième caractéristique C2 un poids de 0,74, etc.
La phase de recherche se poursuit avec une étape d'interrogation LTU de l'index inversé II pour créer une liste L d'images de la collection 16-18, 11, 12 similaires à l'image requête Ir. Cette liste contient un nombre d'images similaires qui correspond à un nombre cible prédéterminé x (x=5 dans l'exemple de la figure 1). L'étape d'interrogation LTU de l'index inversé comprend plus particulièrement une opération d'intégration à la liste d'une ou plusieurs images 16-18 de la collection mises en correspondance dans l'index inversé II avec une première caractéristique C3 sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique Cl sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible x.
Cette étape d'interrogation LTU implique uniquement une itération sur les dimensions vt du vecteur représentant l'image requête jusqu'à avoir retrouvé les x images similaires demandées. Cette forme d'interrogation, dépendante de l'objectif de la recherche, accélère le processus de recherche par rapport aux méthodes de l'état de l'art.
De préférence, l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique C3 de poids le plus élevé dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible dans le vecteur représentant l'image requête.
Prenant l'exemple de la figure 1, et un nombre cible x=5, l'étape d'interrogation comprenant une première opération d'intégration à la liste des images 16-18 associées à la caractéristique C3 dans l'index inversé II, cette caractéristique étant celle de poids le plus fort dans le vecteur représentant l'image requête. Une deuxième opération d'intégration à la liste est alors réalisée pour intégrer la liste les images 11-12 associées à la caractéristique Cl, qui est celle de poids immédiatement plus faible dans le vecteur représentant l'image requête.
La liste d'images similaires L est ainsi obtenue par une concaténation des listes de l'index inversé associées aux caractéristiques vt de poids le plus fort dans le vecteur représentant l'image requête. Aucune opération arithmétique n'est nécessaire, excepté l'élimination d'éventuels doublons, une opération d'intégration à la liste étant effectivement réalisée de manière à intégrer une image de la collection uniquement si ladite image n'est pas déjà intégrée à la liste. Ce processus considère chacune des caractéristiques du vecteur représentatif de l'image requête indépendamment (une caractéristique par opération d'intégration à la liste) et est donc quasi-indépendant de la taille de la collection de référence, ce qui n'est le cas d'aucune des méthodes de requêtage de l'état de l'art.
Dans un mode de réalisation possible, on intègre à la liste d'images similaires L l'intégralité des images mises en correspondance dans l'index inversé avec une caractéristiques vt de poids fort dans le vecteur représentant l'image requête. En variante, une partie seulement des images mises en correspondance dans l'index inversé avec une caractéristique vt de poids fort dans le vecteur représentant l'image requête est intégrée à la liste d'images similaires. Cette variante peut s'avérer utile pour atténuer les éventuels effets négatifs d'une mauvaise association d'une caractéristique vt à l'image requête, et éviter de trop favoriser l'intégration des images mises en correspondance avec les caractéristiques de poids les plus forts. Elle peut notamment être mise en œuvre lorsque le nombre prédéfini d'images mises en correspondance dans l'index inversé avec une caractéristique vt correspond au nombre maximal d'images pouvant être intégrées à la liste déterminé en fonction du nombre cible x d'images dans la liste d'images similaires.
Dans un mode de réalisation possible de l'invention représenté sur la figure 1, il est possible de réordonner les images similaires intégrées à la liste à l'issue de l'étape d'interrogation LTU du fichier inversé II en réalisant une comparaison plus fine de l'image requête et des images intégrées à la liste d'images similaires L. Le procédé peut ainsi comprendre une étape de classement « RANK » des images intégrées à la liste d'images similaires L, ladite étape de classement comprenant, pour chacune des images similaires intégrées à la liste, une mesure de similarité entre l'image requête et l'image similaire. Les images de la liste d'images similaires L sont alors réordonnées et intégrées à une liste affinée Lf en fonction de leur similarité avec l'image requête.
La complexité calculatoire de cette comparaison dépend uniquement de la taille x de la liste d'images similaires et un choix approprié de cette taille permet un accès en temps réel à la liste de résultats affinée Lf.
Dans une variante par ailleurs, l'étape de classement RANK peut être appliquée à un nombre restreint d'image de la liste d'images similaires L. Par exemple si on restreint le classement aux trois premières images dans l'exemple précédent, la liste finale Lf pourrait être 17,18,16, 11, 12 car seules 16,17 et 18 sont reclassées.
La mesure de similarité peut notamment être réalisée en exploitant les représentations vectorielles de l'image requête et des images de la liste d'images similaires, notamment, ainsi que cela est représenté sur la figure 1, les caractéristiques bas-niveau extraites de l'image requête et les caractéristiques bas-niveau extraites des images de la liste d'images similaires qui sont stockées dans l'index direct ID. Dans une variante de réalisation, la mesure de similarité peut aussi être réalisée en exploitant les caractéristiques haut-niveau des images (représentations sémantiques typiquement) dans leurs versions creuses ou complètes. A titre d'exemples illustratifs, la mesure de similarité peut être une mesure de similarité cosinus ou une mesure de distance Euclidienne L2. L'invention n'est pas limitée au procédé tel que décrit précédemment mais s'étend également à une produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé lorsque ledit programme est exécuté sur un ordinateur. L'invention porte également sur un système pour la mise en œuvre du procédé, et notamment sur un système de recherche d'images similaires à une image requête dans une collection d'images exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, comprenant : une base de données BdB dans laquelle sont stockées la collection d'images et un index inversé II mettant en correspondance chaque caractéristique d'un ensemble de caractéristiques d'image avec des images de la collection ; un processeur configuré pour interroger l'index inversé afin de créer une liste d'images de la collection similaires à l'image requête en venant réaliser une opération d'intégration à la liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique Cl sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, et en venant répéter l'opération d'intégration à la liste pour une autre caractéristique C2 sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint un nombre cible.
Ce système comprend typiquement une interface de communication permettant de recevoir des données d'un utilisateur (en particulier l'image requête) et de présenter des données à un utilisateur (en particulier les images intégrées à la liste L d'images de la collection similaires à l'image requête).

Claims (14)

  1. REVENDICATIONS
    1. Procédé de recherche d'images similaires à une image requête (Ir) dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation (LTU) d'un index inversé (II) mettant en correspondance chacune des caractéristiques (C1-C5) avec des images de la collection (II-18), caractérisé en ce que l'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images (16-18) de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique (Cl) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.
  2. 2. Procédé selon la revendication 1, dans lequel l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique de poids le plus élevé (C3) dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible (Cl) dans le vecteur représentant l'image requête.
  3. 3. Procédé selon l'une des revendications 1 et 2, dans lequel l'opération d'intégration à la liste est réalisée de manière à intégrer une image de la collection mise en correspondance avec une caractéristique dans l'index inversé uniquement si ladite image n'est pas déjà intégrée à la liste.
  4. 4. Procédé selon l'une des revendications 1 à 3, comprenant une étape de détermination, à partir du nombre cible d'images dans la liste, et pour chaque caractéristique, d'un nombre maximal d'images pouvant être intégrées à la liste parmi les images mises en correspondance avec ladite caractéristique dans l'index inversé.
  5. 5. Procédé selon la revendication 4, dans lequel le nombre maximal d'images pouvant être intégrées à la liste est le même pour chacune des caractéristiques.
  6. 6. Procédé selon l'une des revendications 1 à 5, comprenant une étape préalable d'indexation de la collection d'images, comprenant : pour chaque image de la collection, l'extraction de caractéristiques (EX, EX-BN, EX-S) de l'image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques ; pour chaque caractéristique, l'ordonnancement des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant ; la création (CREA-II) de l'index inversé (II) en venant mettre en correspondance chacune des caractéristiques (Cl, C2, C3) avec un nombre prédéfini d'images de la collection (11-12, 13-15, 16-18) correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique.
  7. 7. Procédé selon la revendication 6 prise en combinaison avec l'une des revendications 4 et 5, dans lequel, pour chacune des caractéristiques, le nombre prédéfini d'images dans l'index inversé correspond au nombre maximal d'images pouvant être intégrées à la liste.
  8. 8. Procédé selon l'une des revendications 1 à 7, dans lequel les caractéristiques sont des caractéristiques relatives à la présence de concepts visuels (EX-S) dans une image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image.
  9. 9. Procédé selon l'une des revendications 1 à 8, comprenant en outre une étape de classement (RANK) des images intégrées à la liste (L), ladite étape de classement comprenant, pour chacune des images intégrées à la liste, une mesure de similarité avec l'image requête.
  10. 10. Procédé selon la revendication 9, dans lequel la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison de caractéristiques bas-niveau extraites de l'image requête et de caractéristiques bas-niveau extraites de l'image intégrée à la liste.
  11. 11. Procédé selon la revendication 9 prise en combinaison avec la revendication 8, dans lequel la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison des caractéristiques relatives à la présence de concepts visuels dans l'image requête et des caractéristiques relatives à la présence de concepts visuels de l'image intégrée à la liste.
  12. 12. Procédé selon l'une des revendications 1 à 11, comprenant une étape de reformulation (CONF) du vecteur représentant l'image requête consistant à modifier le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec d'autres caractéristiques.
  13. 13. Produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé selon l'une quelconque des revendications 1 à 12 lorsque ledit programme est exécuté sur un ordinateur.
  14. 14. Système de recherche d'images similaires à une image requête dans une collection d'images exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, comprenant : une base de données (BdB) dans laquelle sont stockées la collection d'images et un index inversé (II) mettant en correspondance chaque caractéristique d'un ensemble de caractéristiques d'image avec des images de la collection ; un processeur configuré pour interroger (LTU) l'index inversé afin de créer une liste d'images de la collection similaires à l'image requête en venant réaliser une opération d'intégration à la liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, et en venant répéter l'opération d'intégration à la liste pour une autre caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint un nombre cible.
FR1559289A 2015-09-30 2015-09-30 Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images Active FR3041794B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1559289A FR3041794B1 (fr) 2015-09-30 2015-09-30 Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images
EP16775629.5A EP3356955A1 (fr) 2015-09-30 2016-09-27 Procédé et système de recherche d'images similaires quasi-indépendant de l'échelle de la collection d'images
US15/763,347 US20180276244A1 (en) 2015-09-30 2016-09-27 Method and system for searching for similar images that is nearly independent of the scale of the collection of images
PCT/EP2016/072922 WO2017055250A1 (fr) 2015-09-30 2016-09-27 Procédé et système de recherche d'images similaires quasi-indépendant de l'échelle de la collection d'images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1559289A FR3041794B1 (fr) 2015-09-30 2015-09-30 Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images

Publications (2)

Publication Number Publication Date
FR3041794A1 true FR3041794A1 (fr) 2017-03-31
FR3041794B1 FR3041794B1 (fr) 2017-10-27

Family

ID=55542743

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1559289A Active FR3041794B1 (fr) 2015-09-30 2015-09-30 Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images

Country Status (4)

Country Link
US (1) US20180276244A1 (fr)
EP (1) EP3356955A1 (fr)
FR (1) FR3041794B1 (fr)
WO (1) WO2017055250A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407751A (zh) * 2021-05-21 2021-09-17 深圳市广电信义科技有限公司 一种图像检索结果重排序方法、装置、设备及介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101540A1 (en) * 2016-10-10 2018-04-12 Facebook, Inc. Diversifying Media Search Results on Online Social Networks
US10515289B2 (en) * 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation
CN107480282A (zh) * 2017-08-23 2017-12-15 深圳天珑无线科技有限公司 一种图片搜索的方法及装置
US11120334B1 (en) * 2017-09-08 2021-09-14 Snap Inc. Multimodal named entity recognition
CN110275970B (zh) * 2019-06-21 2022-05-06 北京达佳互联信息技术有限公司 图像检索的方法、装置、服务器及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011054002A2 (fr) * 2009-11-02 2011-05-05 Microsoft Corporation Recherche d'image basée sur un contenu

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065293B2 (en) * 2007-10-24 2011-11-22 Microsoft Corporation Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
JP5161891B2 (ja) * 2007-12-26 2013-03-13 有限会社ティ辞書企画 辞書システム
US8429216B2 (en) * 2008-09-23 2013-04-23 Hewlett-Packard Development Company, L.P. Generating a hash value from a vector representing a data object
US9405773B2 (en) * 2010-03-29 2016-08-02 Ebay Inc. Searching for more products like a specified product
GB2487377B (en) * 2011-01-18 2018-02-14 Aptina Imaging Corp Matching interest points

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011054002A2 (fr) * 2009-11-02 2011-05-05 Microsoft Corporation Recherche d'image basée sur un contenu

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QING-FANG ZHENG ET AL: "Effective and efficient object-based image retrieval using visual phrases", PROCEEDINGS OF THE 14TH ANNUAL ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA , MULTIMEDIA '06, 1 January 2006 (2006-01-01), New York, New York, USA, pages 77, XP055076462, ISBN: 978-1-59-593447-5, DOI: 10.1145/1180639.1180664 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407751A (zh) * 2021-05-21 2021-09-17 深圳市广电信义科技有限公司 一种图像检索结果重排序方法、装置、设备及介质
CN113407751B (zh) * 2021-05-21 2022-07-15 深圳市广电信义科技有限公司 一种图像检索结果重排序方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2017055250A1 (fr) 2017-04-06
US20180276244A1 (en) 2018-09-27
EP3356955A1 (fr) 2018-08-08
FR3041794B1 (fr) 2017-10-27

Similar Documents

Publication Publication Date Title
US20200012674A1 (en) System and methods thereof for generation of taxonomies based on an analysis of multimedia content elements
FR3041794A1 (fr) Procede et systeme de recherche d&#39;images similaires quasi-independant de l&#39;echelle de la collection d&#39;images
US10831814B2 (en) System and method for linking multimedia data elements to web pages
US9256668B2 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US20100042646A1 (en) System and Methods Thereof for Generation of Searchable Structures Respective of Multimedia Data Content
FR2969339A1 (fr) Systeme et procede d&#39;extraction d&#39;informations multimedia
WO2012141655A1 (fr) Annotation de produit vidéo avec exploration d&#39;informations web
WO2016102153A1 (fr) Representation semantique du contenu d&#39;une image
EP2907079A1 (fr) Procede de classification d&#39;un objet multimodal
Rabbath et al. Analysing facebook features to support event detection for photo-based facebook applications
US11443553B1 (en) Scalable training data preparation pipeline and efficient distributed trainer for deep neural networks in facial recognition
EP3574462A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
EP2289009B1 (fr) Dispositif d&#39;aide a la reconnaissance d&#39;images ameliore
EP2839410A1 (fr) Procede de reconnaissance d&#39;un contexte visuel d&#39;une image et dispositif correspondant
Yousaf et al. Patch-CNN: Deep learning for logo detection and brand recognition
US20160124971A1 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
FR2939537A1 (fr) Systeme de recherche d&#39;information visuelle
US10180942B2 (en) System and method for generation of concept structures based on sub-concepts
FR3099600A1 (fr) Méthode de jugement du degré de similarité entre deux systèmes techniques quelconques
EP3924850A1 (fr) Procédé de construction de signatures comportementales de logiciels
Bianco et al. Quantitative review of local descriptors for visual search
Singh et al. Large Scale Image Retrieval with Locality Sensitive Hashing
Sakthivelan et al. An Accurate Efficient and Scalable Event Based Video Search Method Using Spectral Clustering
Iscen Continuous memories for representing sets of vectors and image collections

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20170331

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8