FR3041794A1

FR3041794A1 - Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images

Info

Publication number: FR3041794A1
Application number: FR1559289A
Authority: FR
Inventors: Adrian Popescu; Borgne Herve Le; Alexandru Lucian Ginsca; Etienne Gadeski
Original assignee: Commissariat a lEnergie Atomique CEA; Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Current assignee: Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2017-03-31
Anticipated expiration: 2035-09-30
Also published as: WO2017055250A1; US20180276244A1; EP3356955A1; FR3041794B1

Abstract

L'invention porte sur un procédé de recherche d'images similaires à une image requête (Ir) dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation (LTU) d'un index inversé (II) mettant en correspondance chacune des caractéristiques (C1-C5) avec des images de la collection (16-18, 11-12), caractérisé en ce que l'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images (16-18) de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique (C1) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.

Description

PROCÉDÉ ET SYSTÈME DE RECHERCHE D'IMAGES SIMILAIRES QUASI-INDÉPENDANT DE

L'ÉCHELLE DE LA COLLECTION D'IMAGES

DESCRIPTION

DOMAINE TECHNIQUE

Le domaine de l'invention est celui de la fouille de données, et plus particulièrement celui de la recherche d'image par le contenu pour laquelle on souhaite retrouver des images similaires à une requête purement visuelle prenant la forme d'une image dite image requête.

ÉTAT DE LA TECHNIQUE ANTÉRIEURE

En l'absence d'annotations textuelles, la recherche d'images peut être réalisée au moyen d'images requête qui sont utilisées afin de retrouver des images similaires au sein d'une collection d'images de référence.

Ce processus de recherche par similarité visuelle comprend deux phases principales, l'indexation de la collection d'images, qui est réalisée hors ligne, et le requêtage, qui doit être réalisé en ligne. L'indexation a pour but de transformer le contenu « pixelique » des images en des représentations vectorielles par caractéristiques (feature extraction), généralement de taille fixe. L'étape de requêtage a pour but d'extraire une représentation vectorielle du contenu de l'image requête et de la comparer aux représentations des images de la collection afin de retrouver les éléments les plus similaires.

Les représentations vectorielles des caractéristiques visuelles incluent : les représentations qui agrègent des descripteurs locaux au sein d'un vecteur de taille fixe (i.e. sacs de mots visuels, vecteurs de Fisher, réseaux neuronaux convolutionnels, etc.) ; les représentations qui encodent des caractéristiques globales (i.e. histogrammes de couleurs, descriptions de textures, etc.) ; les représentations sémantiques qui sont obtenues par l'agrégation de classificateurs intermédiaires et qui donnent des probabilités d'apparition de concepts individuels dans l'image.

Un problème important en recherche d'images par similarité est la rapidité de la recherche qui doit être effectuée « en ligne ». Ce problème devient même central lorsqu'il s'agit de traiter des collections à large échelle (i.e. milliards d'images). Il existe trois solutions principales qui permettent l'accélération du processus de recherche par similarité : la réduction de la taille des représentations vectorielles en utilisant des techniques comme l'analyse en composantes principales, l'analyse discriminante linéaire, la quantification vectorielle, etc. ; l'utilisation d'arbres de recherche (kd-trees, k-means trees, foret d'arbres décisionnels) qui fonctionnent en partitionnant l'espace de recherche défini par les vecteurs représentatifs des images et permettent ainsi d'accélérer le processus de recherche d'images ; la représentation par fichiers inversés qui s'inspire de la recherche de documents textuels et est efficace si les vecteurs représentant les images de la collection sont creux (parcimonieux). Ce type de structure associe à chaque dimension de l'espace de représentation un ensemble de documents et, au vu du caractère creux des représentations, les documents similaires sont retrouvés plus efficacement en comparant toutes les dimensions non-nulles du vecteur représentant le document requête avec les documents de la collection associés à ces dimensions.

Malgré leur efficacité améliorée par rapport à des comparaisons exhaustives des vecteurs représentatifs, l'utilisation de ces méthodes de recherche accélérée nécessite toujours la réalisation d'un ensemble d'opérations mathématiques pour réaliser des calculs de similarité entre le vecteur représentant l'image requête et les vecteurs représentant mes images de la collection. La recherche d'images similaires demeure donc complexe, et cette complexité augmente avec la taille de la collection.

EXPOSÉ DE L'INVENTION L'invention vise une technique de recherche d'image par le contenu qui soit plus simple à mettre en oeuvre sans pour autant perdre en pertinence, et qui permette d'être appliquée à des collections de référence de très grande taille sans pour autant que le temps de recherche ne devienne exorbitant. A cet effet, l'invention propose un procédé de recherche d'images similaires à une image requête dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation d'un index inversé mettant en correspondance chacune des caractéristiques avec des images de la collection. L'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête. L'opération d'intégration à la liste est répétée pour une autre caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.

Certains aspects préférés mais non limitatifs de ce procédé sont les suivants : l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique de poids le plus élevé dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible dans le vecteur représentant l'image requête ; l'opération d'intégration à la liste est réalisée de manière à intégrer une image de la collection mise en correspondance avec une caractéristique dans l'index inversé uniquement si ladite image n'est pas déjà intégrée à la liste ; il comprend une étape de détermination, à partir du nombre cible d'images dans la liste, et pour chaque caractéristique, d'un nombre maximal d'images pouvant être intégrées à la liste parmi les images mises en correspondance avec ladite caractéristique dans l'index inversé ; il comprend une étape préalable d'indexation de la collection d'images, comprenant : pour chaque image de la collection, l'extraction de caractéristiques de l'image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques ; pour chaque caractéristique, l'ordonnancement des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant ; la création de l'index inversé en venant mettre en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique. les caractéristiques sont des caractéristiques relatives à la présence de concepts visuels dans une image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image ; il comprend en outre une étape de classement des images intégrées à la liste, ladite étape de classement comprenant, pour chacune des images intégrées à la liste, une mesure de similarité avec l'image requête ; la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison de caractéristiques bas-niveau, respectivement haut-niveau, extraites de l'image requête et de caractéristiques bas-niveau, respectivement haut-niveau, extraites de l'image intégrée à la liste ; il comprend une étape de reformulation du vecteur représentant l'image requête consistant à modifier le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec d'autres caractéristiques. L'invention porte également sur un produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé lorsque ledit programme est exécuté sur un ordinateur. Elle s'étend en outre à un système de recherche d'images similaires à une image requête dans une collection d'images configuré de manière à mettre en oeuvre le procédé selon l'invention.

BRÈVE DESCRIPTION DES DESSINS D'autres aspects, buts, avantages et caractéristiques de l'invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence à la figure 1 annexée qui illustre le schéma global d'un mode de réalisation possible du procédé selon l'invention.

EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS L'invention porte sur un procédé de recherche de documents parmi les documents d'une collection au moyen d'une représentation d'une requête et des documents de la collection par un vecteur de caractéristiques associant un poids à chacune des caractéristiques. On prendra dans ce qui suit l'exemple d'une collection d'images, sans que cela ne soit pour autant limitatif, l'invention visant tout type de document multimédia et pouvant être mise en oeuvre dès lors qu'une représentation par vecteur de caractéristiques des documents multimédia est accessible. L'invention porte ainsi notamment, mais non exclusivement, sur la recherche d'images similaires à une image requête parmi une collection d'images qui comprend généralement des milliers d'images, voire des millions d'images. Le procédé a en particulier pour objectif de créer une liste d'images de la collection similaires à l'image requête dont le nombre d'images similaires correspond à un nombre cible prédéterminé x. Il exploite une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprend une étape d'interrogation d'un index inversé mettant en correspondance chacune des caractéristiques avec des images de la collection.

Le procédé se décompose en deux phases principales : une première phase dite d'indexation généralement effectuée « hors-ligne », et une deuxième phase de requêtage généralement effectuée « en ligne », c'est-à-dire en temps réel pendant la recherche d'images similaires proprement dite.

On a représenté sur la figure 1 un schéma global du procédé selon l'invention. Sur cette figure, les lignes en traits pleins illustrent les étapes réalisées « hors-ligne » tandis que les lignes en traits pointillés illustrent les étapes réalisées « en ligne ». Sur cette même figure, les données et les résultats des traitements sont représentés dans des rectangles aux coins arrondis, les différentes étapes de traitement des données étant présentées dans des rectangles. Sur cette figure, on a par ailleurs séparé les étapes et données de la phase d'indexation hors ligne HL des étapes et données de la phase de recherche en ligne EL.

Chacune des première et deuxième phases HL, EL comporte une étape d'extraction de caractéristiques « EX-CR » (feature extraction en anglais) d'une image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques d'un ensemble de caractéristiques d'image.

Lors de la phase d'indexation HL, l'extraction de caractéristiques EX-CR est mise en œuvre pour l'ensemble des images de la collection stockées dans une base de données BdB. Lors de la phase de recherche en ligne EL, l'extraction de caractéristiques EX-CR est mise en œuvre pour l'image requête Ir. Les images de la collection et l'image requête sont ainsi décrites par un vecteur de même nature.

Dans un mode de réalisation possible de l'invention, l'extraction de caractéristiques d'une image EX-CR comprend une extraction de caractéristiques bas-niveau « EX-BN » qui permet d'associer un vecteur de taille fixe à l'image, suivie d'une extraction de caractéristiques haut-niveau « EX-S » à partir des caractéristiques bas-niveau. Les caractéristiques bas-niveau sont typiquement des caractéristiques peu interprétables, là où les caractéristiques haut-niveau sont généralement compréhensibles pour l'homme.

Les caractéristiques bas-niveau sont par exemple des sacs de mots visuels (BoVW pour Bag of Visual Word), des histogrammes de gradient orienté (HOG pour Histogram of Oriented Gradients), des noyaux de Fisher, des couches totalement connectées (dites « de classification ») de réseaux neuronaux convolutionnels, etc.

Ces caractéristiques bas-niveau peuvent être stockées dans un index direct ID associant à chacune des images de la collection It, Ip, Iq le vecteur de taille fixe résultant de l'extraction de caractéristiques bas-niveau de l'image.

Les caractéristiques haut-niveau sont par exemple des caractéristiques visuelles permettant de former une représentation sémantique de l'image.

Il peut s'agir d'une représentation sémantique intermédiaire (les caractéristiques étant par exemple les sorties de la couche finale d'un réseau convolutionnel) ou d'une représentation sémantique proprement dite (les caractéristiques sont alors relatives à la présence de concepts visuels dans l'image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image). Une telle représentation sémantique est typiquement obtenue par l'agrégation des sorties d'un banc de classificateurs visuels qui fournissent des probabilités d'apparition de concepts individuels dans l'image. Elle rend possible la recherche d'images similaires à une requête formulée avec des concepts textuels de l'espace de représentation à la place d'images requête.

On relèvera que lorsque la collection de référence inclut des images d'un domaine précis, il est possible d'adapter l'espace de représentation en venant éliminer des caractéristiques qui ne sont pas pertinentes dans le contexte.

Après extraction des caractéristiques d'une image, on dispose d'une représentation compacte de l'image sous la forme d'un vecteur de taille fixe qui peut s'écrire comme D= {(vlr ρ±), (v2, p2),..., (vn, pn)}, où Vi sont les dimensions de l'espace vectoriel de représentation et pj sont les poids associés à ces dimensions pour l'image considérée. Les Vi peuvent ainsi représenter un ensemble de concepts visuels, p* étant la probabilité de présence du concept visuel vj dans l'image.

Sous l'intuition que seulement un nombre réduit de concepts visuels est reconnaissable dans une image et devrait donc être actif dans le vecteur représentant une image, on peut cherchera obtenir une représentation parcimonieuse (ou « creuse ») de l'image comprenant un nombre réduit de dimensions non nulles dans le vecteur représentant l'image. Pour ce faire, le vecteur D représentatif d'une image est modifié de manière à ce que seulement un petit sous-ensemble k des poids pi restent non-nuls. Typiquement on a k < 10 et le vecteur représentant une image est réécrit en :

Dk = {Oi, Pi),(v2, P2(vn, Pn)}, où tous les poids pf au-deçà des k plus grands sont tous mis à zéro.

Cette représentation parcimonieuse permet d'encoder une grande quantité d'information sur un faible nombre de dimensions, et permet de rendre l'indexation avec un fichier inversé plus efficace comme cela a pu être démontré dans l'article de A. Ginsca, A. Popescu, H. Le Borgne, N. Ballas, P. Vo, et I. Kanellos intitulé « Large-scale image mining with Flickr groups » in Proc, of Multimedia Modelling Conf. 2015.

La phase préalable d'indexation hors-ligne HL comprend, comme on l'a vu précédemment, pour chaque image de la collection, l'extraction de caractéristiques EX-CR de l'image pour représenter l'image sous la forme d'un vecteur associant un poids à chacune des caractéristiques d'image. Elle comprend ensuite la création « CREA-II » d'un index inversé II mettant en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection. En retenant un nombre prédéfini d'images associées à chacune des caractéristiques, l'empreinte mémoire de l'index inversé peut être limitée.

Ce nombre prédéfini peut être identique pour toutes les caractéristiques ou au contraire propre à chaque caractéristique. Il peut être arbitraire (par exemple on ne retient que 1000 images, au maximum, par caractéristique) ou être élaboré en fonction du nombre cible x d'images dans la liste d'images similaires en venant déterminer, pour chaque caractéristique, un nombre maximal d'images pouvant être intégrées à la liste. Ce nombre maximal d'images peut être ou non le même pour chacune des caractéristiques.

Dans un mode de réalisation possible permettant de maximiser la pertinence des résultats, l'extraction de caractéristiques EX-CR est suivie d'une opération d'ordonnancement, pour chacune des caractéristiques, des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant. Puis une opération de création « CREA-II » de l'index inversé II est réalisée qui vient mettre en correspondance chacune des caractéristiques avec un nombre prédéfini d'images de la collection correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique. Dans l'index inversé II, on retrouve donc xt images associée à la caractéristique vir ces xt images ayant un poids pt associé à la caractéristique non nul dans les vecteurs les représentant. Ce nombre préfini Xj peut notamment, mais non nécessairement, correspondre au nombre maximal d'images pouvant être intégrées à la liste d'images similaires déterminé en fonction du nombre cible x d'images dans la liste d'images similaires.

Dans l'exemple de la figure 1, l'index inversé II met ainsi en correspondance : la caractéristique Cl avec les images 11 et 12 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,9 et 0,8 ; la caractéristique C2 avec les images 13,14 et 15 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,8, 0,7 et 0,6 ; la caractéristique C3 avec les images 16,17 et 18 de la collection de référence, dont les poids associés à cette caractéristique sont respectivement de 0,9, 0,8 et 0,6.

On retiendra que, en fonction de la fréquence d'occurrence de la caractéristique Vt dans la collection, le nombre d'images de la collection xt associées à cette caractéristique peut être inférieur au nombre cible d'images x dans la liste d'images similaires.

La phase de recherche en ligne EL comprend, comme on l'a vu précédemment, l'extraction de caractéristiques EX-CR de l'image requête pour représenter l'image requête sous la forme d'un vecteur de même type que ceux représentant les images de la collection de référence.

Dans un mode de réalisation possible de l'invention, la phase de recherche en ligne comprend une étape de reformulation « CONF » du vecteur représentant l'image requête consistant à modifier, par exemple à augmenter, le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec une ou plusieurs caractéristiques sélectionnées en fonction du poids qui leur est associé dans le vecteur représentant l'image requête (on sélectionne typiquement les caractéristiques de poids le plus élevé).

Cette étape de reformulation peut exploiter une matrice de confusion qui capte, pour chaque caractéristique^, une probabilité qu'elle soit confondue avec des caractéristiques^·. Cette matrice est calculée sur une base d'apprentissage (qui peut être indépendante de la collection) dont la vérité terrain est donnée par des annotations textuelles des caractéristiques cibles Vt- Etant donnée une image annotée avec vit on considère que cette dimension est confondue avec Vj si la probabilité associée à la caractéristique Vj est supérieure à celle associée à la caractéristique ι?έ. Cette confusion est moyennée sur toutes les images d'apprentissage de la caractéristique cible vt pour former la matrice de confusion. Cette matrice encode ainsi des relations globales de dépendance entre les caractéristiques qui sont obtenues par l'agrégation de toutes les images d'apprentissage pour chaque dimension vt.

Une telle matrice de confusion est généralement utilisée pour analyser des défauts de classification. Dans le cadre de l'invention, un rôle positif est donné aux confusions et la matrice de confusion est exploitée afin de diversifier la représentation de l'image requête en venant considérer, non seulement les caractéristiques associées aux probabilités les plus élevées dans le vecteur représentant l'image requête, mais également un ensemble de caractéristiques avec lesquelles il est probable que ces caractéristiques associées aux probabilités les plus élevées soient confondues.

Dans une variante de ce mode de réalisation de reformulation du vecteur représentant l'image requête, on procède en outre à une opération de fusion du vecteur initial (résultant de l'extraction de caractéristiques EX-CR) et du vecteur reformulé au moyen de la matrice de confusion. Cette fusion peut être implémentée, par exemple, en choisissant successivement des dimensions incluses dans chacune des deux représentations vectorielles. L'utilité de la fusion est donnée par le fait que le vecteur initial encode une représentation vectorielle propre à l'image alors que le vecteur reformulé encode une représentation qui se base sur des relations plus génériques entre les dimensions du vecteur.

Dans ce qui suit, le même terme de vecteur représentant l'image requête sera utilisé pour désigner aussi bien le vecteur initial que le vecteur reformulé ou que le vecteur issue de la fusion.

Un exemple de vecteur représentant l'image requête est donné sur la figure 1, après réordonnancement des caractéristiques en fonction de leur poids. Ce vecteur indique ainsi pour une première caractéristique C3 un poids de 0,80, pour une seconde caractéristique Cl un poids de 0,79, pour une troisième caractéristique C4 un poids de 0,76, pour une quatrième caractéristique C2 un poids de 0,74, etc.

La phase de recherche se poursuit avec une étape d'interrogation LTU de l'index inversé II pour créer une liste L d'images de la collection 16-18, 11, 12 similaires à l'image requête Ir. Cette liste contient un nombre d'images similaires qui correspond à un nombre cible prédéterminé x (x=5 dans l'exemple de la figure 1). L'étape d'interrogation LTU de l'index inversé comprend plus particulièrement une opération d'intégration à la liste d'une ou plusieurs images 16-18 de la collection mises en correspondance dans l'index inversé II avec une première caractéristique C3 sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique Cl sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible x.

Cette étape d'interrogation LTU implique uniquement une itération sur les dimensions vt du vecteur représentant l'image requête jusqu'à avoir retrouvé les x images similaires demandées. Cette forme d'interrogation, dépendante de l'objectif de la recherche, accélère le processus de recherche par rapport aux méthodes de l'état de l'art.

De préférence, l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique C3 de poids le plus élevé dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible dans le vecteur représentant l'image requête.

Prenant l'exemple de la figure 1, et un nombre cible x=5, l'étape d'interrogation comprenant une première opération d'intégration à la liste des images 16-18 associées à la caractéristique C3 dans l'index inversé II, cette caractéristique étant celle de poids le plus fort dans le vecteur représentant l'image requête. Une deuxième opération d'intégration à la liste est alors réalisée pour intégrer la liste les images 11-12 associées à la caractéristique Cl, qui est celle de poids immédiatement plus faible dans le vecteur représentant l'image requête.

La liste d'images similaires L est ainsi obtenue par une concaténation des listes de l'index inversé associées aux caractéristiques vt de poids le plus fort dans le vecteur représentant l'image requête. Aucune opération arithmétique n'est nécessaire, excepté l'élimination d'éventuels doublons, une opération d'intégration à la liste étant effectivement réalisée de manière à intégrer une image de la collection uniquement si ladite image n'est pas déjà intégrée à la liste. Ce processus considère chacune des caractéristiques du vecteur représentatif de l'image requête indépendamment (une caractéristique par opération d'intégration à la liste) et est donc quasi-indépendant de la taille de la collection de référence, ce qui n'est le cas d'aucune des méthodes de requêtage de l'état de l'art.

Dans un mode de réalisation possible, on intègre à la liste d'images similaires L l'intégralité des images mises en correspondance dans l'index inversé avec une caractéristiques vt de poids fort dans le vecteur représentant l'image requête. En variante, une partie seulement des images mises en correspondance dans l'index inversé avec une caractéristique vt de poids fort dans le vecteur représentant l'image requête est intégrée à la liste d'images similaires. Cette variante peut s'avérer utile pour atténuer les éventuels effets négatifs d'une mauvaise association d'une caractéristique vt à l'image requête, et éviter de trop favoriser l'intégration des images mises en correspondance avec les caractéristiques de poids les plus forts. Elle peut notamment être mise en œuvre lorsque le nombre prédéfini d'images mises en correspondance dans l'index inversé avec une caractéristique vt correspond au nombre maximal d'images pouvant être intégrées à la liste déterminé en fonction du nombre cible x d'images dans la liste d'images similaires.

Dans un mode de réalisation possible de l'invention représenté sur la figure 1, il est possible de réordonner les images similaires intégrées à la liste à l'issue de l'étape d'interrogation LTU du fichier inversé II en réalisant une comparaison plus fine de l'image requête et des images intégrées à la liste d'images similaires L. Le procédé peut ainsi comprendre une étape de classement « RANK » des images intégrées à la liste d'images similaires L, ladite étape de classement comprenant, pour chacune des images similaires intégrées à la liste, une mesure de similarité entre l'image requête et l'image similaire. Les images de la liste d'images similaires L sont alors réordonnées et intégrées à une liste affinée Lf en fonction de leur similarité avec l'image requête.

La complexité calculatoire de cette comparaison dépend uniquement de la taille x de la liste d'images similaires et un choix approprié de cette taille permet un accès en temps réel à la liste de résultats affinée Lf.

Dans une variante par ailleurs, l'étape de classement RANK peut être appliquée à un nombre restreint d'image de la liste d'images similaires L. Par exemple si on restreint le classement aux trois premières images dans l'exemple précédent, la liste finale Lf pourrait être 17,18,16, 11, 12 car seules 16,17 et 18 sont reclassées.

La mesure de similarité peut notamment être réalisée en exploitant les représentations vectorielles de l'image requête et des images de la liste d'images similaires, notamment, ainsi que cela est représenté sur la figure 1, les caractéristiques bas-niveau extraites de l'image requête et les caractéristiques bas-niveau extraites des images de la liste d'images similaires qui sont stockées dans l'index direct ID. Dans une variante de réalisation, la mesure de similarité peut aussi être réalisée en exploitant les caractéristiques haut-niveau des images (représentations sémantiques typiquement) dans leurs versions creuses ou complètes. A titre d'exemples illustratifs, la mesure de similarité peut être une mesure de similarité cosinus ou une mesure de distance Euclidienne L2. L'invention n'est pas limitée au procédé tel que décrit précédemment mais s'étend également à une produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé lorsque ledit programme est exécuté sur un ordinateur. L'invention porte également sur un système pour la mise en œuvre du procédé, et notamment sur un système de recherche d'images similaires à une image requête dans une collection d'images exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, comprenant : une base de données BdB dans laquelle sont stockées la collection d'images et un index inversé II mettant en correspondance chaque caractéristique d'un ensemble de caractéristiques d'image avec des images de la collection ; un processeur configuré pour interroger l'index inversé afin de créer une liste d'images de la collection similaires à l'image requête en venant réaliser une opération d'intégration à la liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique Cl sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, et en venant répéter l'opération d'intégration à la liste pour une autre caractéristique C2 sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint un nombre cible.

Ce système comprend typiquement une interface de communication permettant de recevoir des données d'un utilisateur (en particulier l'image requête) et de présenter des données à un utilisateur (en particulier les images intégrées à la liste L d'images de la collection similaires à l'image requête).

Claims

REVENDICATIONS

1. Procédé de recherche d'images similaires à une image requête (Ir) dans une collection d'images, procédé exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, et comprenant une étape d'interrogation (LTU) d'un index inversé (II) mettant en correspondance chacune des caractéristiques (C1-C5) avec des images de la collection (II-18), caractérisé en ce que l'étape d'interrogation de l'index inversé comprend une opération d'intégration à une liste d'une ou plusieurs images (16-18) de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, l'opération d'intégration à la liste étant répétée pour une autre caractéristique (Cl) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images de la collection intégrées à la liste n'a pas atteint un nombre cible.
2. Procédé selon la revendication 1, dans lequel l'étape d'interrogation de l'index inversé débute par une opération d'intégration à la liste ayant pour première caractéristique la caractéristique de poids le plus élevé (C3) dans le vecteur représentant l'image requête, et se poursuit tant que le nombre d'images intégrées à la liste n'a pas atteint le nombre cible en répétant l'opération d'intégration à la liste avec pour autre caractéristique la caractéristique de poids immédiatement plus faible (Cl) dans le vecteur représentant l'image requête.
3. Procédé selon l'une des revendications 1 et 2, dans lequel l'opération d'intégration à la liste est réalisée de manière à intégrer une image de la collection mise en correspondance avec une caractéristique dans l'index inversé uniquement si ladite image n'est pas déjà intégrée à la liste.
4. Procédé selon l'une des revendications 1 à 3, comprenant une étape de détermination, à partir du nombre cible d'images dans la liste, et pour chaque caractéristique, d'un nombre maximal d'images pouvant être intégrées à la liste parmi les images mises en correspondance avec ladite caractéristique dans l'index inversé.
5. Procédé selon la revendication 4, dans lequel le nombre maximal d'images pouvant être intégrées à la liste est le même pour chacune des caractéristiques.
6. Procédé selon l'une des revendications 1 à 5, comprenant une étape préalable d'indexation de la collection d'images, comprenant : pour chaque image de la collection, l'extraction de caractéristiques (EX, EX-BN, EX-S) de l'image pour représenter l'image sous la forme d'un vecteur de caractéristiques associant un poids à chacune des caractéristiques ; pour chaque caractéristique, l'ordonnancement des images de la collection en fonction de leur poids associé à la caractéristique pour créer une liste d'images ordonnées par poids décroissant ; la création (CREA-II) de l'index inversé (II) en venant mettre en correspondance chacune des caractéristiques (Cl, C2, C3) avec un nombre prédéfini d'images de la collection (11-12, 13-15, 16-18) correspondant aux premières images dans la liste d'images ordonnées associée à la caractéristique.
7. Procédé selon la revendication 6 prise en combinaison avec l'une des revendications 4 et 5, dans lequel, pour chacune des caractéristiques, le nombre prédéfini d'images dans l'index inversé correspond au nombre maximal d'images pouvant être intégrées à la liste.
8. Procédé selon l'une des revendications 1 à 7, dans lequel les caractéristiques sont des caractéristiques relatives à la présence de concepts visuels (EX-S) dans une image, le vecteur représentant une image ayant pour poids associé à chacune des caractéristiques une probabilité d'apparition d'un concept visuel dans l'image.
9. Procédé selon l'une des revendications 1 à 8, comprenant en outre une étape de classement (RANK) des images intégrées à la liste (L), ladite étape de classement comprenant, pour chacune des images intégrées à la liste, une mesure de similarité avec l'image requête.
10. Procédé selon la revendication 9, dans lequel la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison de caractéristiques bas-niveau extraites de l'image requête et de caractéristiques bas-niveau extraites de l'image intégrée à la liste.
11. Procédé selon la revendication 9 prise en combinaison avec la revendication 8, dans lequel la mesure de similarité d'une image intégrée à la liste avec l'image requête comprend une comparaison des caractéristiques relatives à la présence de concepts visuels dans l'image requête et des caractéristiques relatives à la présence de concepts visuels de l'image intégrée à la liste.
12. Procédé selon l'une des revendications 1 à 11, comprenant une étape de reformulation (CONF) du vecteur représentant l'image requête consistant à modifier le poids associé à une ou plusieurs caractéristiques pouvant être confondues avec d'autres caractéristiques.
13. Produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé selon l'une quelconque des revendications 1 à 12 lorsque ledit programme est exécuté sur un ordinateur.
14. Système de recherche d'images similaires à une image requête dans une collection d'images exploitant une représentation de l'image requête par un vecteur de caractéristiques associant un poids à chacune des caractéristiques, comprenant : une base de données (BdB) dans laquelle sont stockées la collection d'images et un index inversé (II) mettant en correspondance chaque caractéristique d'un ensemble de caractéristiques d'image avec des images de la collection ; un processeur configuré pour interroger (LTU) l'index inversé afin de créer une liste d'images de la collection similaires à l'image requête en venant réaliser une opération d'intégration à la liste d'une ou plusieurs images de la collection mises en correspondance dans l'index inversé avec une première caractéristique (C3) sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête, et en venant répéter l'opération d'intégration à la liste pour une autre caractéristique sélectionnée en fonction du poids qui lui est associé dans le vecteur représentant l'image requête tant que le nombre d'images intégrées à la liste n'a pas atteint un nombre cible.