EP2374073A1 - System for searching visual information - Google Patents

System for searching visual information

Info

Publication number
EP2374073A1
EP2374073A1 EP09771343A EP09771343A EP2374073A1 EP 2374073 A1 EP2374073 A1 EP 2374073A1 EP 09771343 A EP09771343 A EP 09771343A EP 09771343 A EP09771343 A EP 09771343A EP 2374073 A1 EP2374073 A1 EP 2374073A1
Authority
EP
European Patent Office
Prior art keywords
module
somi
descriptor
algorithm
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP09771343A
Other languages
German (de)
French (fr)
Inventor
Younes Bennani
Mustapha Lebbah
Nistor Grozavu
Hamid Benhadda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Universite Sorbonne Paris Nord Paris 13
Original Assignee
Thales SA
Universite Sorbonne Paris Nord Paris 13
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA, Universite Sorbonne Paris Nord Paris 13 filed Critical Thales SA
Publication of EP2374073A1 publication Critical patent/EP2374073A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures

Abstract

The invention relates to a system for searching information within a database (1) of a large size, including a processor (2) and inputs/outputs, said system being characterised in that the processor includes at least one of the following elements: a first module E1 for extracting descriptors associated with each object in the database, and for generating a table containing the objects and the value of a descriptor associated with an object for the descriptors selected for representing the object; a second module E2 for applying several classification algorithms SOMi for each of the tables TTk resulting from the module E-1 in order to allocate for each object Oi a class number xij for an applied SOMi algorithm for each descriptor category; a third module E3 adapted for merging the results from module E2 in order to determine a class number associated with an object Oi for each descriptor type Tk; a fourth module E4 for searching for which column SOMi of a table T is closer to the column obtained during the first merging of step E3 and for selecting the closest SOMi card contained in the table, or best SOMi card; and a fifth module E5 adapted for merging the best SOMi sum cards and for applying an algorithm for searching for the best SOMf card to be transmitted to a display means (5).

Description

SYSTEME DE RECHERCHE D'INFORMATION VISUELLE SYSTEM FOR SEARCHING VISUAL INFORMATION
L'objet de la présente invention concerne un système et un procédé permettant d'effectuer une recherche d'information visuelle d'objets au sein d'une base de données multi-modales de taille importante (images, vidéos, signaux, documents, etc .).The object of the present invention relates to a system and a method for performing a visual information search of objects within a large multi-modal database (images, videos, signals, documents, etc. .).
L'invention concerne de manière générale la visualisation d'images, de textes lorsque la base est constituée de dépêches AFP par exemple, ou de signaux audio lorsque la base concerne des enregistrements de communications, par exemple, etc. De manière plus générale, le système selon l'invention est utilisé dans le domaine de la recherche d'informations visuelles de données multi-modales, et permet une navigation et une recherche, dans les bases de données, plus rapide, grâce à une meilleure structuration de la base sous forme de classes homogènes d'objets de cette base.The invention generally relates to the visualization of images, of texts when the base consists of AFP dispatches for example, or of audio signals when the base relates to communications records, for example, etc. More generally, the system according to the invention is used in the field of searching for visual information of multi-modal data, and allows browsing and searching, in databases, faster, thanks to a better structuring of the base in the form of homogeneous classes of objects of this base.
Dans la suite de la description, l'invention illustrée, à titre d'exemple sur des données images issues de la base wikipédia. Le terme image est utilisé pour désigner une image dans une base de données, l'image étant décrite par plusieurs descripteurs ou attributs, tels que sa texture, sa couleur, le texte associé à cette image, etc.In the following description, the invention illustrated by way of example on image data from the base wikipedia. The term image is used to designate an image in a database, the image being described by several descriptors or attributes, such as its texture, its color, the text associated with this image, and so on.
Le terme « meilleure carte » correspond à définir une carte avec un indice de qualité élevée. Cet indice est calculé entre la partition consensus obtenue à l'étape E5 décrit ci-après et les cartes initiales obtenues à l'étape E2. Il est possible d'utiliser différents indices selon les descripteurs extraits à l'étape E1 , corrélation, indice de pureté, indice de rang, etc.The term "best map" is used to define a map with a high quality index. This index is calculated between the consensus score obtained in step E5 described below and the initial cards obtained in step E2. It is possible to use different indices according to the descriptors extracted in step E1, correlation, purity index, rank index, etc.
L'expression « taille importante » fait référence aux deux dimensions d'une base de données (lignes = observations et colonnes=vahables), le nombre de lignes étant de l'ordre de plusieurs millions d'images et le nombre de colonnes de l'ordre de plusieurs milliers. Une carte SOM est une carte connue de l'Homme du métier correspondant à une Carte auto adaptative ou auto organisatrice qui est une classe de réseau de neurones artificiels fondée sur des méthodes d'apprentissage non supervisée. On la désigne souvent par le terme anglais self organizing map (SOM), on encore carte de Kohonen. La fonction de l'algorithme mis en œuvre par une carte est notamment de classifier des objets.The term "large size" refers to the two dimensions of a database (lines = observations and columns = vahables), the number of lines being of the order of several millions of images and the number of columns of the order of several thousand. A SOM card is a card known to those skilled in the art corresponding to an auto-adaptive or self-organizing card which is a class of network of artificial neurons based on unsupervised learning methods. It is often referred to as the English self organizing map (SOM), we still map Kohonen. The function of the algorithm implemented by a card is notably to classify objects.
La masse de données collectées chaque jour devient de plus en plus importante. A l'heure actuelle, des études estiment que la quantité d'informations dans le monde double tous les vingt mois. Le Web et les bibliothèques numériques donnent naissance à de nouveaux enjeux dans les domaines des bases de données (BD) et de la recherche d'informations (Rl) au sein de ces bases de données. Dans de nombreuses applications, il devient important, voire nécessaire, de faciliter l'accès aux informations au moyen de système d'aide à la navigation pour le Web, de système d'aide à la formulation de requêtes pour les recherches dans les bases de données, de filtrer, d'adapter et de personnaliser ces informations.The mass of data collected each day becomes more and more important. At present, studies estimate that the amount of information in the world doubles every twenty months. The Web and digital libraries are giving rise to new challenges in the areas of databases (DB) and information retrieval (Rl) within these databases. In many applications, it becomes important, if not necessary, to facilitate access to information by means of a web-based navigation aid system, a system for assisting in the formulation of queries for searches in databases. data, to filter, adapt and customize this information.
L'art antérieur divulgue différents systèmes et des techniques de recherche d'images ou d'informations. Les méthodes classiques de recherche d'images se basent généralement sur des principes liés à des techniques d'indexation linguistique (mots clés) (c'est à dire à une pré-annotation textuelle associée aux images) sans prendre en compte les informations de contenus ou de description structurelle comme la texture, la couleur, la densité, la forme, les contours latents, etc., pour des recherches d'images dans une base de données. La majorité des méthodes n'utilisent que les mots clés associés aux images pour faire de la classification. Elles utilisent, en outre, des techniques de classification telles que les algorithmes de moyennage connus sous l'acronyme anglo-saxon « k-means » où il faut définir arbitrairement le nombre de classes à trouver et les centres (mobiles) de ces classes. De telles techniques impliquent une instabilité des résultats selon les paramétrages d'origine (sensibilité des algorithmes aux points de départ). D'autres méthodes utilisent les autres paramètres tels que la couleur ou la texture séparément sans les combiner et ils ne font pas de retour en arrière pour affiner les résultats obtenus.The prior art discloses various systems and techniques for searching images or information. Conventional image search methods are generally based on principles related to linguistic indexing techniques (keywords) (ie to a textual pre-annotation associated with the images) without taking into account the content information. or structural description such as texture, color, density, shape, latent contours, etc., for searching images in a database. Most methods use only keywords associated with images to make the classification. In addition, they use classification techniques such as the averaging algorithms known by the acronym "k-means" where the number of classes to be found and the (mobile) centers of these classes must be arbitrarily defined. Such techniques imply instability of the results according to the original settings (sensitivity of the algorithms at the starting points). Other methods use the other parameters such as color or texture separately without combining them and they do not go back to refine the results obtained.
L'idée de la présente invention consiste notamment à offrir un procédé et un système permettant de répondre aux attentes des utilisateurs et de résoudre notamment les questions telles que :The idea of the present invention consists in particular in providing a method and a system to meet the expectations of users and to solve such issues as:
• Comment accéder le plus rapidement possible à une donnée multidimensionnelle ou un ensemble de données, dans une base volumineuse de données multimodales (signaux, parole, image, vidéo, documents, etc.) ?• How to access multidimensional data or a set of data as quickly as possible, in a large database of multimodal data (signals, speech, image, video, documents, etc.)?
• Comment organiser l'archivage d'une base de données multimodales de taille importante et permettre ainsi un accès rapide lors de la recherche d'un objet dans cette base et offrant plusieurs réponses avec des degrés de pertinence à la requête croissants ?• How to organize the archiving of a large multimodal database and thus allow quick access when searching for an object in this database and offering several answers with increasing degrees of relevance to the query?
• Comment synthétiser la base de données multimodale sous une forme de cartographie résumant son contenu ?• How to synthesize the multimodal database in a form of cartography summarizing its content?
• Comment améliorer le processus et améliorer les réponses aux requêtes en prenant en compte des interactions éventuelles avec un utilisateur.• How to improve the process and improve query responses by taking into account possible interactions with a user.
L'invention concerne un système de recherche d'informations au sein d'une base de données de taille importante, comprenant un processeur et des entrées/sorties, ledit système étant caractérisé en ce que ledit processeur comporte au moins les éléments suivants :The invention relates to an information retrieval system within a large database, comprising a processor and inputs / outputs, said system being characterized in that said processor comprises at least the following elements:
• Un premier module Ei adapté à extraire les descripteurs associés à chaque objet de la base de données, et à construire un tableau contenant les objets et la valeur d'un descripteur associé à un objet, ceci pour les descripteurs choisis pour la représentation de l'objet, • Un deuxième module E2 adapté à appliquer plusieurs algorithmes de classification SOMi, pour chacun des tableaux TTk issus du module E1, afin d'attribuer pour chaque objet Oi, un numéro de classe xij, pour un algorithme SOMi appliqué, pour chaque catégorie de descripteurs,A first module Ei adapted to extract the descriptors associated with each object of the database, and to construct an array containing the objects and the value of a descriptor associated with an object, for the descriptors chosen for the representation of the object. object, A second module E 2 adapted to apply several classification algorithms SOMi, for each of the tables T Tk resulting from the module E 1 , in order to assign for each object Oi, a class number xij, for an algorithm SOMi applied, for each category of descriptors,
• Un troisième module E3 adapté à fusionner les résultats issus du module E2 afin de déterminer pour chaque type de descripteur Tk, un numéro de classe associé à un objet Oi,A third module E3 adapted to merge the results from the module E 2 to determine for each type of descriptor Tk, a class number associated with an object Oi,
• Un quatrième module E4, adapté à rechercher quelle est la colonne SOMi d'un tableau TSι la plus proche de la colonne obtenue lors de la première fusion de l'étape E3, et à sélectionner la carte SOMi la plus proche contenue dans le tableau TSι, ou meilleure carte SOMi, • Un cinquième module E5 adapté à fusionner les « meilleures cartes » sommes SOMi, et appliquer un algorithme de recherche de la meilleure carte à transmettre à un moyen d'affichage.• A fourth module E4, adapted to find what is the column SOMi of a table T S ι closest to the column obtained during the first merge of step E 3 , and to select the nearest SOMi card contained in the table T S ι , or better map SOMi, • A fifth module E 5 adapted to merge the "best maps" are SOMi, and apply a search algorithm of the best map to be transmitted to a display means.
L'algorithme de fusion utilisé est, par exemple, un algorithme d'analyse relationnelle. L'objet est une image et les attributs extraits sont choisis parmi la liste suivante : texture, couleur.The fusion algorithm used is, for example, a relational analysis algorithm. The object is an image and the extracted attributes are chosen from the following list: texture, color.
Après l'étape de fusion exécutée dans le module E3, le procédé retourne pour chercher la meilleure carte de typé 1 , puis la meilleure carte de type N, etc.. Selon une autre variante de réalisation, après l'étape de fusion exécutée au sein du module E3, le procédé prend les K résultats issus de la fusion et les fusionne entre eux en utilisant une technique de fusion, afin d'obtenir une seule partition compromis pour aller chercher la meilleure carte pour un type de descripteur.After the melting step performed in the module E 3 , the method returns to search for the best type card 1, then the best type card N, etc. According to another embodiment, after the melting step performed in the module E 3 , the method takes K results from the merger and merges them using a merge technique, to obtain a single partition compromised to fetch the best card for a type of descriptor.
D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture d'un exemple non limitatif de réalisation en se référant aux figures qui représentent :Other features and advantages of the present invention will appear better on reading a nonlimiting example of embodiment with reference to the figures which represent:
• Les figures 1 A et 1 B, un exemple de structure de système permettant la mise en œuvre du procédé selon l'invention, et un synoptique des différentes phases mises en œuvre par le procédé, • La figure 2, une représentation de l'enchaînement des différentes étapes mises en œuvre par le procédé selon l'invention,FIGS. 1A and 1B, an example of a system structure allowing the implementation of the method according to the invention, and a synoptic of the different phases implemented by the method, FIG. 2, a representation of the sequence of the various steps implemented by the method according to the invention,
• La figue 3, les étapes de prétraitements et d'extraction de caractéristiques, « La figure 4, les étapes pour la classification (par plusieurs algorithmes) et le recodage des données par catégorie,• Fig. 3, pretreatment and feature extraction steps, "Fig. 4, steps for classification (by multiple algorithms) and recoding data by category,
• La figure 5 la fusion des différents résultats de classification et de recherche de consensus, et• Figure 5 the merger of the different classification and consensus search results, and
• La figure 6 la fusion finale, la recherche du consensus final et la sélection de la meilleure carte permettant la navigation et la recherche d'information dans une base de données de taille volumineuse.• Figure 6 the final merge, the search for the final consensus and the selection of the best map for navigating and retrieving information in a large database.
De manière à mieux faire comprendre l'objet de la présente invention, l'exemple qui suit va être donné pour un problème de recherche et d'accès rapide à de l'information visuelle dans une base de données d'images décrites par un ensemble de descripteurs numériques (descripteurs couleur, descripteurs texture, etc.) et textuels (plusieurs milliers de mots extraits des pages web). Le terme objet est donc utilisé, dans cet exemple, pour désigner une image dans la base de données. Les termes objets et données sont utilisés indifféremment pour désigner un élément d'une base de données. Ainsi, la figure 1 A schématise un exemple de système selon l'invention qui comprend la base de données 1 contenant un nombre important d'images, à partir de laquelle les informations doivent être recherchées. La base de données image 1 est reliée à un processeur 2 qui va comprendre différents modules adaptés à mettre en œuvre les étapes E1, à E5, dont notamment un module d'analyse relationnelle et un ou plusieurs modules de carte auto organisatrice plus connue sous l'abréviation anglo-saxonne Self Organizing Map ou en abrégé SOM. La base de données 1 et le processeur 2 sont par exemple implémentés dans un système de reconnaissance comprenant des entrées/sorties 3, 4. La sortie 4 peut être en liaison avec une Interface Homme Machine, qui permet par exemple l'affichage des résultats 5 et/ou la possibilité d'entrer différents types de requêtes par un opérateur 6.In order to better understand the object of the present invention, the following example will be given for a problem of search and quick access to visual information in a database of images described by a set numeric descriptors (color descriptors, texture descriptors, etc.) and textual (several thousand words extracted from web pages). The term object is used in this example to designate an image in the database. The terms objects and data are used interchangeably to designate an element of a database. Thus, FIG. 1A schematizes an example of a system according to the invention which comprises the database 1 containing a large number of images, from which the information must be sought. The image database 1 is connected to a processor 2 which will comprise different modules adapted to implement the steps E 1 to E 5 , including a relational analysis module and one or more modules self-organizing card more known under the abbreviation Anglo-Saxon Self Organizing Map or abbreviated SOM. The database 1 and the processor 2 are for example implemented in a recognition system comprising inputs / outputs 3, 4. The output 4 can be in connection with an interface Man Machine, which allows for example the display of the results 5 and / or the possibility of entering different types of requests by an operator 6.
La figure 1 B est un résumé des différentes étapes du procédé, détaillées aux figures suivantes. Le procédé prend en entrée de grandes bases de données 1 , images, signaux, documents, ou autres. La première étape E1 consiste à extraire des caractéristiques ou descripteurs associés aux objets ou données stockées. La deuxième étape E2 va consister à réduire la dimension de l'espace de description des objets, en recodant chaque donnée, pour chaque type de descripteur k, par autant de numéros que d'algorithmes SOM utilisés pour le recodage. Chaque numéro ni correspondant à la classe d'appartenance de cette donnée par l'algorithme SOMi. On obtient donc un recodage des données dans des espaces des classifications retenues. Lors de la troisième étape E3, le procédé va fusionner les classifications par mise en œuvre d'un algorithme de recherche de consensus qui peut être réalisé par une analyse relationnelle, méthode connue de l'Homme du métier qui ne sera pas détaillée. Lors d'une quatrième étape E4, le procédé va ensuite recoder les données issues de la première fusion, puis la cinquième étape E5 consiste à sélectionner la meilleure carte auto adaptative ou SOM permettant une visualisation et une navigation simplifiée et rapide au sein de la base de données.Figure 1 B is a summary of the different steps of the method, detailed in the following figures. The method takes as input large databases 1, images, signals, documents, or others. The first step E 1 consists of extracting characteristics or descriptors associated with the objects or data stored. The second step E 2 will consist in reducing the dimension of the description space of the objects, by recoding each data, for each type of descriptor k, by as many numbers as SOM algorithms used for recoding. Each number nor corresponding to the class of membership of this data by the algorithm SOMi. We thus obtain a recoding of the data in spaces of the selected classifications. During the third step E 3 , the method will merge the classifications by implementing a consensus search algorithm that can be achieved by a relational analysis, a method known to those skilled in the art that will not be detailed. In a fourth step E 4 , the method will then recode the data from the first merge, then the fifth step E 5 is to select the best auto adaptive card or SOM for viewing and navigation simplified and fast within the database.
La figure 2 représente l'enchaînement des étapes E1 à E5 exécutés dans les modules E1 à E5 qui vont être détaillées aux figures 3 à 6.FIG. 2 represents the sequence of steps E 1 to E 5 executed in the modules E 1 to E 5 which will be detailed in FIGS. 3 to 6.
La figure 3 détaille les étapes exécutées par le processeur 2 pour la première phase. Les données de la base de données volumineuse sont transformées par des prétraitements adaptés afin d'en extraire 20 des caractéristiques ou attributs relatif à chaque descripteur (couleur, texture, etc) pour chaque donnée. Les objets contenus dans la base de données sont référencés Oi. Ces objets Oi sont ainsi décrits par un ensemble de descripteurs, par exemple de K types. A l'issue de cette étape, le processeur possède à sa disposition K tableaux TTκ de données ou éléments zij, composés chacun de N lignes qui correspondent au nombre de données Oi contenues dans la base BD, 1 , et un nombre variable de colonnes. Le nombre de colonnes varie en fonction du type d'indicateurs. Les attributs permettant de décrire un indicateur (ou descripteur) ne sont pas, forcément, les mêmes. En effet, le nombre d'attributs pour décrire le descripteur couleur n'est pas, forcément le même que celui qui permet de décrire le descripteur texture, par exemple. Un élément zij du tableau correspond à une valeur obtenue par l'étape d'extraction. Par exemple, si l'on considère l'ensemble des couleurs comme type de descripteur, les attributs correspondront chacun à une couleur et l'élément zij sera la valeur associée à une couleur donnée pour la donnée Oi. Les résultats de la première étape Ei se présentent donc sous une forme de K tableaux TTκ de données zij qui seront segmentées par la suite en utilisant plusieurs algorithmes de classification automatique non supervisée (figure 4), plus connue sous la dénomination anglo-saxonne SOM. Ces algorithmes peuvent être des variantes de l'algorithme SOM. Chaque tableau Tκ de données zij issues d'un type de descripteur k sera segmenté par plusieurs algorithmes SOMi. Le nombre d'algorithmes SOMi appliqués sur chaque tableau Tk est choisi par l'utilisateur. Il peut varier pour chaque descripteur. Les algorithmes appliqués à chaque descripteur peuvent varier, ou être les mêmes, d'un descripteur à l'autre.Figure 3 details the steps performed by the processor 2 for the first phase. The data in the large database is transformed by suitable pretreatments to extract features or attributes relating to each descriptor (color, texture, etc.) for each data item. The objects contained in the database are referenced Oi. These objects Oi are thus described by a set of descriptors, by example of K types. At the end of this step, the processor has at its disposal K tables T T κ of data or elements zij, each composed of N lines which correspond to the number of data Oi contained in the base BD, 1, and a variable number of columns. The number of columns varies depending on the type of indicators. Attributes for describing an indicator (or descriptor) are not necessarily the same. Indeed, the number of attributes to describe the color descriptor is not, necessarily the same as that which makes it possible to describe the texture descriptor, for example. A zij element of the array corresponds to a value obtained by the extraction step. For example, if we consider the set of colors as the type of descriptor, the attributes will each correspond to a color and the element zij will be the value associated with a given color for the data Oi. The results of the first step Ei are thus in the form of K tables T T κ of data zij which will be segmented subsequently by using several unsupervised automatic classification algorithms (FIG. 4), better known under the name Anglo-Saxon. SOM. These algorithms can be variants of the SOM algorithm. Each table T κ of data zij coming from a type of descriptor k will be segmented by several algorithms SOMi. The number of algorithms SOMi applied to each table Tk is chosen by the user. It may vary for each descriptor. The algorithms applied to each descriptor may vary, or be the same, from one descriptor to another.
La figure 4 détaille l'application de plusieurs algorithmes SOMi sur les K tableaux Tk de la figure 3.Figure 4 details the application of several algorithms SOMi on the K tables Tk of Figure 3.
L'application de plusieurs algorithmes SOMi, génèrent des classifications qui permettent une réduction de la dimension de l'espace des données (dimension de l'espace dans lequel la recherche et la navigation vont se faire) et offrent un codage catégoriel de dimensions plus réduites. Ainsi, au départ, il est possible d'avoir des centaines d'attributs (ou colonnes) qui décrivent chacun des K indicateurs (ou descripteurs). Après application des différents algorithmes SOMi, il y aura autant de colonnes (nombre beaucoup plus petit que les attributs de départ, d'où la réduction) que d'algorithmes SOMi appliqués. Les données seront décrites par les numéros de catégories (ou classes) pour chaque algorithme. Les objets Oi d'un tableau seront décrits par les numéros de catégorie pour chaque algorithme. Un élément xij du tableau correspond au numéro de classe à laquelle l'objet Oi appartient après application de l'algorithme j. En effet, Une carte est une vue simplifiée de l'ensemble des images présentes dans la base de données. En effet, si la carte se présente sous la forme d'une vue à deux dimensions (13x13), on aura 169 images représentatives de toute la base d'origine (ce qui représente 169 classes). Mais il faut savoir que chaque image parmi les 169 de la carte cachent (ou représentent) plusieurs autres images de la base. Toutes les images cachées (ou représentées) par l'image numéro n, auront comme numéro (ou appartiendront à la classe) n. Le résultat de l'étape de classification dans le cas de l'application de l'algorithme SOM est une carte topologique à 2 dimensions où chaque objet réfèrent est considéré comme un neurone représenté par un vecteur prototype de la même dimension que les données. En fait chaque algorithme SOMi donne comme résultat une carte topologique TSι à deux dimensions et chaque neurone (ou élément) de la carte aura un numéro qui identifiera toutes les données xij représentées par ce neurone, où s est un indice pour désigner l'application d'un algorithme SOM et I le nombre d'algorithmes utilisés. Lors de l'étape E2, le procédé va après avoir réduit la dimension de l'espace de description, en utilisant plusieurs algorithmes SOMi, recoder chaque élément des tableaux. Ceci est illustré à la figure 4. L'exemple donné sur cette figure montre l'application de plusieurs algorithmes SOMi, pour chaque donnée Oi, correspondant à des classifications topographiques différentes. Pour chaque élément d'un tableau TSι, et chaque classification de 1 à C, 1 à P, 1 à D, sur la figure, SOM1 ,...SOMi, avec i= C ou P ou D, le procédé va recoder les éléments xij du tableau, pour chaque type de descripteur de type 1 à K. Ce recodage consiste à représenter chaque donnée Oi par un vecteur ayant autant de composantes que d'algorithmes SOM utilisés. Une composante xij obtenue par recodage correspond au numéro de la classe à laquelle appartient la donnée Oi dans la carte SOMj, elle est aussi égale au numéro du neurone prototype le plus proche de cette donnée dans l'espace de description d'origine. A la fin de ce recodage le processeur dispose, pour chaque type de descripteur k, d'un tableau de données TSι ayant un nombre de lignes (toujours le même égal au nombre N d'objets Oi de la base), un nombre de colonnes correspondant au nombre d'algorithmes SOMi appliqués pour chaque type de descripteur. Sur la figure ceci est illustré par les dimensionnements NxC pour le tableau TSc, NxD pour le tableau TSp et NxE pour le tableau TSD, avec C, D et E représentant le nombre d'algorithmes SOM utilisés pour chaque type de descripteur.The application of several algorithms SOMi, generate classifications that allow a reduction of the dimension of the space of the data (size of the space in which the search and the navigation will be done) and offer a categorical coding of smaller dimensions . Thus, initially, it is possible to have hundreds of attributes (or columns) that describe each K indicators (or descriptors). After application of Different algorithms SOMi, there will be as many columns (number much smaller than the initial attributes, hence the reduction) that algorithms SOMi applied. The data will be described by the category numbers (or classes) for each algorithm. The objects Oi of a table will be described by the category numbers for each algorithm. An element xij of the array corresponds to the class number to which the object Oi belongs after application of the algorithm j. Indeed, A map is a simplified view of all the images in the database. Indeed, if the map is in the form of a two-dimensional view (13x13), we will have 169 images representative of the whole original base (which represents 169 classes). But you should know that each image among the 169 of the map hide (or represent) several other images of the base. All the images hidden (or represented) by the image number n, will have as number (or will belong to the class) n. The result of the classification step in the case of the application of the algorithm SOM is a 2-dimensional topological map where each object referent is considered as a neuron represented by a prototype vector of the same dimension as the data. In fact, each algorithm SOMi gives as a result a two-dimensional topological map T S ι and each neuron (or element) of the map will have a number that will identify all the data xij represented by this neuron, where s is an index to designate the application of an algorithm SOM and I the number of algorithms used. During step E 2 , the method goes after having reduced the dimension of the description space, by using several algorithms SOMi, recode each element of the arrays. This is illustrated in FIG. 4. The example given in this figure shows the application of several algorithms SOMi, for each data item Oi, corresponding to different topographic classifications. For each element of a table T S ι, and each classification of 1 to C, 1 to P, 1 to D, in the figure, SOM1, ... SOMi, with i = C or P or D, the process goes recode the elements xij of the table, for each type of descriptor of type 1 to K. This recoding consists of representing each data item Oi by a vector having as many components as SOM algorithms used. A component xij obtained by recoding corresponds to the number of the class to which the data Oi belongs in the map SOMj, it is also equal to the number of the prototype neuron closest to this datum in the original description space. At the end of this recoding, the processor has, for each type of descriptor k, a table of data T S ι having a number of lines (always the same equal to the number N of objects Oi of the base), a number of columns corresponding to the number of algorithms SOMi applied for each type of descriptor. In the figure this is illustrated by the sizing NxC for the table T S c, NxD for the table T S p and NxE for the table T SD , with C, D and E representing the number of algorithms SOM used for each type of descriptor.
La figure 5 détaille les étapes mises en œuvre lors de l'étape correspondant à la 1 θrθ fusion des classifications SOMi. Cette étape met en œuvre un algorithme d'analyse relationnelle connu de l'Homme du métier ou de manière plus générale, il peut mettre en œuvre tout type d'algorithme de fusion présentant des fonctions similaires à celles offertes par l'analyse relationnelle. Pour chaque descripteur k, le tableau des données T'k est soumis à une analyse relationnelle afin de déterminer un consensus entre les différents résultats de classification par les SOMi. Il s'agit de la première étape de fusion des objets dans le procédé. Cette étape peut aussi être vue comme une méta-classification dont le résultat final est une classification de compromis. Le principe de l'analyse relationnelle est de trouver un résultat conforme à la majorité des opinions exprimées (en général). Dans le présent exemple, il s'agit de classification, et donc le résultat de l'analyse relationnelle sera de mettre dans la même classe toutes les images ou objets de la base de données qui ont été mis ensembles dans la même classe par la majorité des algorithmes SOMi utilisés. Ainsi sur la figure 5, les données recodées contenues dans le premier tableau T'Sc pour chaque SOMi, pour i variant de 1 à C, par exemple, vont être soumises à un algorithme d'analyse relationnelle qui va donner comme résultat la classification la plus proche possible de toutes les classifications obtenues par les algorithmes SOMi i=1 , ..., C appliqués à chaque type de descripteur. On obtient ainsi un tableau à deux colonnes, la première colonne désignant les objets Oi et la deuxième colonne le N° de cluster, classe à laquelle appartient l'objet. Les lettres AR correspondent à l'opération d'analyse relationnelle appliquée sur un tableau. A ce stade on se retrouve en présence de deux variantes possibles :FIG. 5 details the steps implemented during the step corresponding to the 1 θrθ merge of the SOMi classifications. This step implements a relational analysis algorithm known to those skilled in the art or, more generally, it can implement any type of fusion algorithm having functions similar to those offered by the relational analysis. For each descriptor k, the T'k data table is subjected to a relational analysis in order to determine a consensus between the different classification results by the SOMi. This is the first step of merging the objects in the process. This step can also be seen as a meta-classification whose final result is a compromise classification. The principle of relational analysis is to find a result consistent with the majority of opinions expressed (in general). In the present example, this is classification, and therefore the result of the relational analysis will be to put in the same class all the images or objects of the database that were put together in the same class by the majority SOMi algorithms used. Thus, in FIG. 5, the recoded data contained in the first table T ' S c for each SOMi, for i varying from 1 to C, for example, will be subjected to a relational analysis algorithm which will give the result of the classification. as close as possible to all the classifications obtained by the algorithms SOMi i = 1, ..., C applied to each type of descriptor. A two-column table is thus obtained, the first column designating the objects Oi and the second column the cluster number, the class to which the object belongs. The letters AR correspond to the relational analysis operation applied to a table. At this stage we find ourselves in the presence of two possible variants:
1 ) la première variante consiste pour chaque descripteur, à retourner vers les SOMi de départ (on mesure les distances entre la partition compromis obtenue par l'AR et chacune des partitions obtenues par les SOM appliquées) en utilisant les résultats du consensus obtenu lors de l'analyse relationnelle. Ceci permettra de sélectionner la meilleure carte SOMi par type de descripteur, et utiliser ces cartes pour la navigation et la recherche d'informations, ceci permettra de répondre aux requêtes des utilisateurs, lorsque ces derniers spécifient le type de descripteur qui les intéresse.1) the first variant consists for each descriptor, to return to the starting SOMi (we measure the distances between the compromised partition obtained by the RA and each of the scores obtained by the applied SOMs) using the results of the consensus obtained during relational analysis. This will allow you to select the best SOMi map by type of descriptor, and use these maps for browsing and searching information, this will respond to requests from users, when they specify the type of descriptor they are interested in.
2) la deuxième variante consiste à fusionner les résultats obtenus par l'AR pour tous les descripteurs et retourner chercher les meilleures cartes2) the second variant is to merge the results obtained by the AR for all the descriptors and return for the best maps
(comme précédemment). L'avantage de cette approche sera de chercher, pour chaque type de descripteur, la meilleure carte qui prend en compte les autres descripteurs.(like before). The advantage of this approach will be to find, for each type of descriptor, the best card that takes into account the other descriptors.
Rechercher la meilleure carte, revient donc, à trouver la partition la plus proche de la partition « compromis » trouvée par l'analyse relationnelle (ou la plus corrélée avec cette partition). Plusieurs indicateurs mathématiques, connus de l'homme du métier, existent dans la littérature scientifique pour le calcul de cette corrélation.Finding the best map, therefore, comes back to find the partition closest to the partition "compromise" found by the relational analysis (or most correlated with this partition). Several mathematical indicators, known to those skilled in the art, exist in the scientific literature for calculating this correlation.
A partir des résultats de la première fusion, un deuxième recodage des données est effectué. La figure 6 est une illustration de l'étape E5. Après avoir trouvé la meilleure carte SOMi de chaque descripteur, on se trouvera en présence de K cartes SOMi (une pour chaque descripteur), considérées comme les K meilleures cartes. Ces K cartes seront soumises à l'analyse relationnelle qui cherchera la partition compromis entre toutes les partitions relatives au K SOM.From the results of the first merger, a second recoding of the data is performed. Figure 6 is an illustration of step E 5 . After finding the best SOMi map of each descriptor, we will be in the presence of K maps SOMi (one for each descriptor), considered as the K best maps. These K cards will be subjected to the relational analysis which will look for the partition compromised between all the partitions relating to the K SOM.
Après ce deuxième recodage, le processeur dispose d'un tableau de données NxK avec N le nombre d'objets dans la base et K le nombre de descripteurs choisis lors de la première étape E1. Les données de ce nouveau tableau TNK se présentent sous une forme semblable à celle des tableaux obtenus à la figure 5. En effet le nombre de colonnes sera égal à K est chaque colonne sera tout simplement l'une des colonnes obtenues à la figure 5 (la meilleure parmi les C SOM pour le descripteur 1 , la meilleure parmi les D SOM du descripteur 2, etc .). Les données sont soumises à un algorithme d'analyse relationnelle pour obtenir la fusion des données et la recherche d'un consensus global. Le consensus trouvé par cet algorithme représente une classification finale et permet de sélectionner la meilleure carte SOMi ou carte SOMf qui sera utilisée comme interface avec l'utilisateur final pour la navigation et la recherche d'informations. L'avantage de cette dernière fusion est d'avoir la meilleure classification de la base de données, indépendamment du type de descripteur. A ce stade, un utilisateur pourra avoir une réponse en temps réel à une requête sans devoir spécifier un type de descripteur spécifique.After this second recoding, the processor has an NxK data table with N the number of objects in the base and K the number of descriptors chosen in the first step E 1 . The data of this new table T NK are in a form similar to that of the tables obtained in Figure 5. Indeed the number of columns will be equal to K is each column will simply be one of the columns obtained in Figure 5 (the best of the C SOMs for the descriptor 1, the best of the D SOMs of the descriptor 2, etc.). The data is subjected to a relational analysis algorithm to obtain the fusion of the data and the search for a global consensus. The consensus found by this algorithm represents a final classification and makes it possible to select the best SOMi card or SOMf card that will be used as an interface with the end user for browsing and searching information. The advantage of this last merge is to have the best classification of the database, regardless of the type of descriptor. At this point, a user can have a real-time response to a request without having to specify a specific descriptor type.
Une autre fonctionnalité que l'on pourra ajouter au système, sera l'interactivité entre le système et l'utilisateur final pour améliorer ou affiner les classes obtenues par le procédé. En effet, quand un utilisateur fait une requête, il aura une ou plusieurs classes qui correspondant à sa demande. Il pourra, éventuellement, enlever une ou plusieurs données (ou images) qu'il juge être mal classées et les proposer au système qui ira chercher la meilleure classe possible pour chaque donnée. L'utilisateur a la possibilité d'indiquer qu'une information est pertinente ou non par rapport à sa requête. Cette interaction avec l'utilisateur se traduit par une mise à jour et un raffinement de la classification. En se basant sur les propriétés topologiques de la carte SOM, le système reclasse les informations en fonction de la réaction de l'utilisateur. Ceci permet une évolution active du système. L'utilisateur en voyant une classe d'images donnée, peut décider qu'une ou plusieurs des images de cette classe ne correspondent pas à la classe observée. Cette (ou ces images) seront alors proposées au système pour qu'il les classe dans la classe la plus pertinente.Another feature that can be added to the system will be the interactivity between the system and the end user to improve or refine the classes obtained by the method. Indeed, when a user makes a request, he will have one or more classes corresponding to his request. It may, eventually, remove one or more data (or images) that it deems to be misclassified and offer them to the system that will fetch the best possible class for each data. The user has the possibility to indicate that information is relevant or not in relation to his request. This interaction with the user results in an update and a refinement of the classification. Based on the topological properties of the SOM card, the system reclassifies the information according to the user's reaction. This allows an active evolution of the system. The user seeing a given image class may decide that one or more of the images in this class do not correspond to the observed class. This (or these images) will then be proposed to the system so that it classifies them in the most relevant class.
En résumé, le système selon l'invention permet de pouvoir classifier et visualiser des données à très fortes dimensionnalités multi-modales dans un espace de faibles dimensionnalités, ou espace de partitionnement, sans disposer d'information a priori sur le nombre de groupes. La première contribution consiste à définir le problème de fusion comme un problème de méta-classification dans un espace de variables catégorielles par une technique de classification automatique (l'analyse relationnelle). La deuxième contribution consiste à traiter le problème de fusion d'une manière modulaire, coopérative et évolutive. En effet, ce procédé est évolutif par rapport aux données et par rapport aux utilisateurs ou experts. Un processus de retour en arrière "Backward" et de raffinement des résultats de la classification globale est introduit dans le processus de fusion modulaire. L'utilisation des méthodes connexionnistes non supervisées comme moyen de recodage des données (quantification) et de l'analyse relationnelle comme méthode de fusion permettent une visualisation hiérarchique des résultats de la classification avec plusieurs niveaux de détails. L'efficacité de ce procédé est illustrée sur un problème de recherche et d'accès rapide à l'information visuelle dans une base de données d'images décrites par un ensemble de descripteurs numériques (descripteurs couleur et descripteurs texture) et textuels (plusieurs milliers de mots extraits des pages web). In summary, the system according to the invention makes it possible to classify and visualize data with very large multi-modal dimensionality in a space of small dimensionalities, or partitioning space, without having information a priori on the number of groups. The first contribution consists in defining the problem of fusion as a problem of meta-classification in a space of categorical variables by an automatic classification technique (the relational analysis). The second contribution is to deal with the problem of fusion in a modular, cooperative and evolving way. Indeed, this process is evolutionary compared to data and compared to users or experts. A process of "backward" backtracking and refinement of the results of the global classification is introduced in the modular merge process. The use of unsupervised connectionist methods as a means of data recoding (quantization) and relational analysis as a merge method allows hierarchical visualization of classification results with several levels of detail. The effectiveness of this method is illustrated on a problem of research and quick access to visual information in a database of images described by a set of numerical descriptors (color descriptors and texture descriptors) and textual (several thousand words extracted from the web pages).

Claims

REVENDICATIONS
1 - Système de recherche d'informations au sein d'une base de données (1 ) de taille importante, comprenant un processeur (2) et des entrées/sorties (3, 4), ledit système étant caractérisé en ce que ledit processeur (2) comporte au moins les éléments suivants :1 - System for searching information in a large database (1), comprising a processor (2) and inputs / outputs (3, 4), said system being characterized in that said processor (1) 2) has at least the following elements:
• Un premier module Ei adapté à extraire les descripteurs associés à chaque objet de la base de données, et à construire un tableau contenant les objets et la valeur d'un descripteur associé à un objet, ceci pour les descripteurs choisis pour la représentation de l'objet,A first module Ei adapted to extract the descriptors associated with each object of the database, and to construct an array containing the objects and the value of a descriptor associated with an object, for the descriptors chosen for the representation of the object. 'object,
• Un deuxième module E2 adapté à appliquer plusieurs algorithmes de classification SOMi, pour chacun des tableaux TTk issus du module E1, afin d'attribuer pour chaque objet Oi, un numéro de classe xij, pour un algorithme SOMi appliqué, pour chaque catégorie de descripteurs, • Un troisième module E3 adapté à fusionner les résultats issus du module E2 afin de déterminer pour chaque type de descripteur Tk, un numéro de classe associé à un objet Oi,A second module E 2 adapted to apply several classification algorithms SOMi, for each of the tables T Tk from the module E 1 , in order to assign for each object Oi, a class number xij, for an algorithm SOMi applied, for each category of descriptors, • A third module E 3 adapted to merge the results from the module E 2 in order to determine for each type of descriptor Tk, a class number associated with an object Oi,
• Un quatrième module E4, adapté à rechercher quelle est la colonne SOMi d'un tableau TSι la plus proche de la colonne obtenue lors de la première fusion de l'étape E3, et à sélectionner la carte SOMi la plus proche contenue dans le tableau TSι, ou meilleure carte SOMi,• A fourth module E 4 , adapted to find what is the column SOMi of a table T S ι closest to the column obtained during the first merge of step E 3 , and to select the nearest SOMi map contained in the table T S ι , or better map SOMi,
• Un cinquième module E5 adapté à fusionner les « meilleures cartes » sommes SOMi, et appliquer un algorithme de recherche de la meilleure carte SOMf à transmettre à un moyen d'affichage (5).• A fifth module E 5 adapted to merge the "best maps" are SOMi, and apply a search algorithm of the best map SOMf to transmit to a display means (5).
2 - Système selon la revendication 1 , caractérisé en ce que l'algorithme de fusion est un algorithme d'analyse relationnelle.2 - System according to claim 1, characterized in that the fusion algorithm is a relational analysis algorithm.
3 - Système selon l'une des revendications 1 à 2, caractérisé en ce que l'objet est une image et en ce que les attributs extraits sont choisis parmi la liste suivante : texture, couleur. 4 - Système selon la revendication 1 , caractérisé en ce qu'après l'étape de fusion exécutée dans le module E3, le procédé retourne pour chercher la meilleure carte de typé 1 , puis la meilleure carte de type N, etc.3 - System according to one of claims 1 to 2, characterized in that the object is an image and in that the extracted attributes are selected from the following list: texture, color. 4 - System according to claim 1, characterized in that after the melting step performed in the module E 3 , the method returns to search for the best typed card 1, then the best card type N, etc..
5 - Système selon la revendication 1 , caractérisé en ce qu'après l'étape de fusion exécutée au sein du module E3, le procédé prend les K résultats issus de la fusion et les fusionne entre eux en utilisant une technique de fusion, afin d'obtenir une seule partition compromis pour aller chercher la meilleure carte pour un type de descripteur. 5 - System according to claim 1, characterized in that after the melting step performed within the module E 3 , the method takes K results from the merger and merges them using a fusion technique, so to get a single compromised partition to fetch the best map for a descriptor type.
EP09771343A 2008-12-10 2009-12-09 System for searching visual information Ceased EP2374073A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0806947A FR2939537B1 (en) 2008-12-10 2008-12-10 SYSTEM FOR SEARCHING VISUAL INFORMATION
PCT/EP2009/066702 WO2010066774A1 (en) 2008-12-10 2009-12-09 System for searching visual information

Publications (1)

Publication Number Publication Date
EP2374073A1 true EP2374073A1 (en) 2011-10-12

Family

ID=40937576

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09771343A Ceased EP2374073A1 (en) 2008-12-10 2009-12-09 System for searching visual information

Country Status (5)

Country Link
US (1) US8666898B2 (en)
EP (1) EP2374073A1 (en)
CN (1) CN102369525B (en)
FR (1) FR2939537B1 (en)
WO (1) WO2010066774A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116623B (en) * 2013-01-29 2017-11-03 江苏大学 A kind of information retrieval self-adapting data fusion method
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
CN103838874B (en) * 2014-03-25 2017-01-18 江苏大学 Information retrieval data fusion method based on retrieval result diversification

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911069A (en) * 1996-09-30 1999-06-08 Apple Computer, Inc. Exception handling techniques for native methods bound to SOM classes
JPH1139325A (en) * 1997-07-22 1999-02-12 Matsushita Electric Ind Co Ltd Similarity retrieval method and system therefor
WO2000005663A2 (en) * 1998-07-24 2000-02-03 Jarg Corporation Distributed computer database system and method for performing object search
JP4935356B2 (en) * 2004-10-13 2012-05-23 ソニー株式会社 REPRODUCTION DEVICE, IMAGING DEVICE, AND SCREEN DISPLAY METHOD
JP2007286864A (en) * 2006-04-17 2007-11-01 Ricoh Co Ltd Image processor, image processing method, program, and recording medium
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MUSTAPHA LEBBAH ET AL: "Relational Analysis for Consensus Clustering from Multiple Partitions", MACHINE LEARNING AND APPLICATIONS, 2008. ICMLA '08. SEVENTH INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 11 December 2008 (2008-12-11), pages 218 - 223, XP031379412, ISBN: 978-0-7695-3495-4 *

Also Published As

Publication number Publication date
CN102369525B (en) 2014-07-30
FR2939537A1 (en) 2010-06-11
FR2939537B1 (en) 2011-01-07
US20120131026A1 (en) 2012-05-24
CN102369525A (en) 2012-03-07
US8666898B2 (en) 2014-03-04
WO2010066774A1 (en) 2010-06-17

Similar Documents

Publication Publication Date Title
US20230185844A1 (en) Visually Guided Machine-learning Language Model
US7502780B2 (en) Information storage and retrieval
EP2321787B1 (en) Annotating images
JP5309155B2 (en) Interactive concept learning in image retrieval
US20060095852A1 (en) Information storage and retrieval
US20150170333A1 (en) Grouping And Presenting Images
EP1426882A2 (en) Information storage and retrieval
EP3743827A1 (en) Training image and text embedding models
US20220277038A1 (en) Image search based on combined local and global information
FR2966265A1 (en) REDUCED GIBBS SAMPLER FOR FACTORIZING MODELS OF CLEAR SUBJECTS AND DISCRETE MATRICES
MX2013005056A (en) Multi-modal approach to search query input.
SG194442A1 (en) In-video product annotation with web information mining
FR3043816B1 (en) METHOD FOR SUGGESTION OF CONTENT EXTRACTED FROM A SET OF INFORMATION SOURCES
EP1426881A2 (en) Information storage and retrieval
Taipalus Vector database management systems: Fundamental concepts, use-cases, and current challenges
WO2010066774A1 (en) System for searching visual information
Ballan et al. Social media annotation
Banouar et al. Enriching SPARQL queries by user preferences for results adaptation
EP4127965A1 (en) Computer-implemented method for analogue retrieval of documents
WO2021221828A1 (en) Assessing similarity between items using embeddings produced using a distributed training framework
Mousselly-Sergieh et al. Tag relatedness in image folksonomies
CN111708745A (en) Cross-media data sharing representation method and user behavior analysis method and system
Sebastine et al. Semantic web for content based video retrieval
Kumar et al. Domain and Intelligence Based Multimedia Question Answering System.
Little et al. Navigating and discovering educational materials through visual similarity search

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20110610

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20130212

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20180608