EP2907079A1

EP2907079A1 - Procede de classification d'un objet multimodal

Info

Publication number: EP2907079A1
Application number: EP13774134.4A
Authority: EP
Inventors: Amel ZNAIDIA; Aymen SHABOU; Hervé LE BORGNE
Original assignee: Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Current assignee: Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date: 2012-10-12
Filing date: 2013-10-07
Publication date: 2015-08-19
Also published as: FR2996939B1; US9569698B2; WO2014056819A1; US20150294194A1; FR2996939A1

Abstract

Procédé de classification d'un objet de test multimodal décrit selon au moins une première et une deuxième modalités, comprenant une étape de construction hors-ligne par classification d'un dictionnaire multimédia (W^m), défini par une pluralité K^m de mots multimédia, à partir d'une matrice de recodage (X) des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité K^T de mots de la première modalité, la matrice de recodage (X) étant construite de manière à exprimer la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité K^V de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimodal de test (133, 533) étant réalisée en ligne au moyen d'une étape de recodage (413) de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia (W^m), suivie d'une étape d'agrégation (415) des représentants de la première modalité codés à l'étape de recodage en un unique vecteur (BoMW) représentatif de l'objet multimodal considéré.

Description

PROCEDE DE CLASSIFICATION D'UN OBJET MULTIMODAL

La présente invention concerne un procédé de classification d'un objet multimodal. La présente invention s'inscrit dans le domaine de la détection et de la reconnaissance automatique d'objets multimodaux dits « multimédia », c'est-à-dire décrits suivant au moins deux modalités, par exemple des objets formés par une image et un ensemble de mots textuels associés à cette image. Plus précisément, la présente invention s'inscrit dans le domaine dit de la classification supervisée. Elle peut s'appliquer notamment à la classification et à la recherche d'informations multimédia dans des bases de données. Un document ou objet dit « multimédia » comporte essentiellement plusieurs modalités. Par exemple un objet multimédia peut consister en une image accompagnée d'informations textuelles, pouvant être désignées « tags » suivant la dénomination anglaise. Un objet multimédia peut également consister en une page Web comportant une ou plusieurs images et du contenu textuel. Un objet multimédia peut également par exemple consister en un document numérisé divisé en plusieurs canaux, par exemple un canal comprenant une information textuelle provenant d'un procédé de reconnaissance optique de caractères, communément désigné par le sigle OCR, un canal comprenant des illustrations et des photographies identifiées dans le document. Un objet multimédia peut également par exemple consister en une séquence vidéo séparée en plusieurs canaux, par exemple un canal visuel comprenant les images de la séquence vidéo, un canal sonore comprenant la bande sonore de la séquence, un canal textuel comprenant par exemple des sous-titres, ou des informations textuelles issues d'une procédé de transcription de la parole en texte, un canal comprenant des métadonnées relatives à la séquence vidéo, par exemple relatives à la date, l'auteur, le titre, le format de la séquence, etc.

Il est entendu que la présente invention s'applique à tout type d'objet multimédia, et ne se limite pas nécessairement aux types d'objets multimédia précités. En pratique, il peut être souhaitable de pouvoir établir une description d'objets multimédia, par exemple pour des applications de classification ou de recherches d'objets multimédia dans une ou plusieurs bases de données, au moyen de requêtes se présentant sous la forme de documents multimédia dans la forme recherchée, ou bien limitées à une des modalités de l'objet multimédia recherché ; par exemple, dans le cas où l'objet multimédia recherché est une image associée à des tags textuels, une requête peut comprendre une information visuelle seule, ou bien une information textuelle seule. La recherche consiste alors à trouver dans la base de données les documents multimédia ressemblant le plus à la requête, pour par exemple les présenter ensuite par ordre de pertinence.

La description d'un document multimédia est délicate, en raison de la nature hétérogène des modalités le définissant. Par exemple, dans le cadre de la classification d'images associées à du contenu textuel, la modalité visuelle peut être transformée en des vecteurs de caractéristiques formant une description visuelle de bas niveau ; la modalité textuelle peut quant à elle être cartographiée dans un dictionnaire reflétant une langue ou un sous- domaine particulier de cette dernière. Il peut être recouru, aux fins de classer un document visuel ou un document textuel, à des techniques connues de classification supervisée décrites ci-après en référence à la figure 1 , plus particulièrement à des techniques de classification dites par « sacs de mots ». Selon une technique de classification supervisée, des caractéristiques sont extraites d'une pluralité d'objets, dans le but de nourrir un système d'apprentissage, conjointement avec des étiquettes ou « labels », pour produire un modèle, ces traitements étant réalisés hors ligne. Dans une phase dite de test, un objet dit de test subit également et d'une manière similaire une extraction de caractéristiques, les caractéristiques extraites étant comparées au modèle produit hors ligne pour permettre une prédiction, les étapes précitées étant réalisées en ligne.

Afin de pallier le problème lié à l'hétérogénéité des modalités, il est possible, selon une première technique connue sous le nom de fusion tardive, de procéder à la description et à la classification d'objets multimédia séparément pour les différentes modalités suivant lesquelles celui-ci est défini, puis de fusionner tardivement les résultats obtenus pour les différentes modalités. La technique de fusion tardive est décrite en détails ci- après en référence à la figure 2.

Selon une méthode alternative, dite de fusion précoce, les modalités sont fusionnées au niveau de l'extraction des caractéristiques. La technique de fusion précoce est décrite en détails ci-après en référence à la figure 3.

Un but de la présente invention est de proposer un procédé de description d'objets multimédia plus compact que les procédés connus, permettant à la fois de combiner différentes modalités d'objets multimédia pour en décrire au mieux le contenu, le procédé étant capable d'opérer indépendamment du contenu lui-même des objets.

Selon la présente invention, il est proposé que des signatures soient déterminées pour des objets multimédia, ces signatures résultant d'une combinaison d'informations selon différentes modalités. La présente invention est ainsi basée sur une technique de fusion précoce, et se fonde d'une part sur des codes multimédia permettant la codage de mots suivant une première modalité, par exemple textuelle, sur des mots suivant une seconde modalité, par exemple visuelle, extraits d'un objet multimédia, et d'autre part sur la détermination de signatures de type « sac de mots multimédia », à l'instar de techniques de sacs de mots employées pour des objets monomodaux, explicitées ci-après.

A cet effet, l'invention a pour objet un procédé de classification d'un objet de test multimodal dit objet de test multimédia décrit selon au moins une première et une deuxième modalités, caractérisé en ce qu'il comprend une étape de construction hors-ligne par classification non supervisée d'un dictionnaire multimédia, défini par une pluralité K^m de mots multimédia, à partir d'une matrice de recodage des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité K^T de mots de la première modalité, la matrice de recodage étant construite sorte que chacune de ses composantes est une information représentative de la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité K^v de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimédia de test étant réalisée en ligne au moyen d'une étape de recodage de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia, suivie d'une étape d'agrégation des représentants de la première modalité codés à l'étape de recodage en un unique vecteur représentatif de l'objet multimédia considéré.

Selon un aspect particulier de l'invention, ladite matrice de recodage est construite au moins à l'aide des étapes suivantes :

• Construire une matrice d'occurrence de mots de la deuxième modalité sur une pluralité de N images, · Construire une matrice intermédiaire comprenant K^T colonnes, chaque colonne correspondant à un mot de la première modalité, ladite matrice intermédiaire contenant, pour chaque image parmi la pluralité N, une information représentative de la présence ou l'absence de chaque mot de la deuxième modalité,

• Construire, à partir de la matrice d'occurrence et de la matrice intermédiaire, la matrice de recodage (X) qui contient pour chaque mot de la première modalité et chaque mot de la deuxième modalité, une agrégation sur la pluralité de N images de l'occurrence du mot de la deuxième modalité pour le mot de la première modalité.

Dans un mode de réalisation de l'invention, ladite première modalité peut être textuelle, et ladite deuxième modalité peut être visuelle, l'objet de test étant une image de test associée à des tags textuels, ledit dictionnaire suivant la première modalité étant un dictionnaire textuel et ledit dictionnaire suivant la deuxième modalité étant un dictionnaire visuel.

Dans un mode de réalisation de l'invention, le procédé de classification peut comprendre un enchaînement d'au moins les étapes suivantes, réalisées hors ligne :

• une étape d'extraction des caractéristiques visuelles d'une pluralité N d'images formant une base d'apprentissage, lors de laquelle les caractéristiques locales de chaque image sont extraites et codées sur le dictionnaire visuel ;

· une étape de construction de la matrice de recodage ; • une étape de normalisation de la matrice de recodage ;

• une étape de classification non supervisée, dite étape de clustering de la matrice de recodage normalisée, générant le dictionnaire multimédia.

Dans un mode de réalisation de l'invention, le procédé de classification peut comprendre un enchaînement d'au moins les étapes suivantes, réalisées en ligne :

• ladite étape de recodage de chaque tag textuel de l'image de test sur le dictionnaire multimédia, générant une matrice recodée ; · ladite étape d'agrégation, agrégeant la matrice recodée et générant une signature multimédia de l'image de test. Dans un mode de réalisation de l'invention, l'étape de recodage peut être basée sur une technique de codage linéaire localement contraint.

Dans un mode de réalisation de l'invention, ladite étape de normalisation peut comprendre une normalisation de la matrice de recodage par lignes suivant la norme L1 .

Dans un mode de réalisation de l'invention, ladite étape de clustering peut être réalisée à partir d'un algorithme des K-moyennes.

La présente invention a également pour objet un dispositif de classification d'un objet de test comprenant des moyens adaptés pour la mise en œuvre d'un procédé de classification selon l'un des modes de réalisation décrits.

La présente invention a également pour objet un programme d'ordinateur comportant des instructions pour mettre en œuvre un procédé de classification selon l'un des modes de réalisation décrits.

Un avantage procuré par la présente invention est qu'un procédé selon un des modes de réalisation décrits ne requiert l'apprentissage que d'un unique modèle multimédia.

Un autre avantage de la présente invention est qu'un procédé selon un des modes de réalisation décrits aboutit à des signatures de taille réduite, relativement à des signatures impliquées dans des procédés selon lesquels les modalités sont traitées séparément, à performances obtenues identiques. Ainsi, un procédé selon un des modes de réalisation décrits permet d'accélérer les temps de traitement, à performances souhaitées égales, en comparaison avec des procédés connus. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description, donnée à titre d'exemple, faite en regard des dessins annexés qui représentent : la figure 1 , un diagramme illustrant une technique de classification supervisée d'images ;

la figure 2, un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion tardive ;

la figure 3, un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion précoce ;

la figure 4, un logigramme illustrant un procédé de classification d'un objet multimédia suivant un exemple de réalisation de la présente invention ;

- la figure 5, un diagramme illustrant le principe de construction d'une matrice de recodage et d'un dictionnaire multimédia, dans un procédé tel qu'illustré par la figure 4 ;

la figure 6, un diagramme illustrant les principales données d'entrée et de sortie dans un procédé tel qu'illustré par la figure 4 ;

la figure 7, un schéma illustrant de manière synoptique un dispositif de reconnaissance de contexte visuel selon un exemple de réalisation de la présente invention. La figure 1 présente un diagramme illustrant la technique de classification supervisée, introduite précédemment. Il est à observer que l'exemple illustré par la figure 1 s'applique à la classification de tous types d'objets, par exemple des objets visuels tels que des images, ou bien des objets textuels. Un procédé de classification supervisée comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.

La phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune une étape d'extraction de caractéristiques 1 1 1 , 131 permettant de décrire un objet, par exemple une image, par un vecteur de dimension déterminée. L'étape d'apprentissage 1 1 consiste à extraire les caractéristiques sur un grand nombre d'objets d'apprentissage 1 13 ; une série de signatures et les étiquettes 1 12 correspondantes alimentent un module d'apprentissage 1 15, mettant en œuvre une étape d'apprentissage et produisant alors un modèle 135.

L'étape de test 13 consiste à décrire, au moyen de l'étape d'extraction de caractéristiques 131 , un objet dit objet de test 133 par un vecteur de même nature que lors de la phase d'apprentissage 1 1 . Ce vecteur est appliqué en entrée du modèle 135 précité. Le modèle 135 produit en sa sortie une prédiction 137 de l'étiquette de l'objet de test 133. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi l'ensemble des étiquettes possibles.

Cette pertinence est calculée au moyen d'une fonction de décision associée au modèle d'apprentissage appris sur la base d'apprentissage dépendant de l'algorithme d'apprentissage utilisé.

L'étiquette d'un objet indique son degré d'appartenance à chacun des concepts considérés. Par exemple, si trois classes sont considérées, par exemple les classes « plage », « ville » et « montagne », l'étiquette est un vecteur à trois dimensions dont chaque composante est un nombre réel. Par exemple, chaque composante peut être un nombre réel compris entre 0 si l'objet ne contient pas le concept, et 1 si l'image contient le concept de manière certaine.

La technique d'apprentissage peut être basée sur une technique en elle-même connue, telle que la technique des séparateurs à vaste marge, communément désignée par le sigle SVM correspondant à la terminologie anglaise « Support Vector Machine », sur une technique dite de « boosting », ou encore sur une technique du type désigné par le sigle MKL correspondant à la terminologie anglaise « Multiple Kernel Learning ». La figure 2 présente un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion tardive.

D'une manière similaire à la figure 1 décrite ci-dessus, un système de classification supervisée d'objets multimédia comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.

La phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune deux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' et 131 , 131 ' permettant de décrire un objet multimédia, bimodal dans l'exemple illustré par la figure, par exemple une image associée à un contenu textuel. Ainsi la phase d'apprentissage 1 1 comprend une étape d'extraction de caractéristiques 1 1 1 suivant une première modalité, par exemple visuelle, et une étape d'extraction de caractéristiques 1 1 1 ' suivant une deuxième modalité, par exemple textuelle. L'étape d'apprentissage 1 1 consiste à extraire les caractéristiques sur un grand nombre d'objets d'apprentissage 1 13 ; une série de signatures et des étiquettes 1 12 correspondantes, alimentent un premier module d'apprentissage 1 15 relatif à la première modalité, et un deuxième module d'apprentissage 1 15' relatif à la deuxième modalité, les deux modules d'apprentissage 1 15, 1 15' mettant en œuvre une étape d'apprentissage et produisant alors respectivement un premier modèle 135 suivant la première modalité, et un deuxième modèle 135' suivant la deuxième modalité.

D'une manière également similaire à la figure 1 décrite précédemment, l'étape de test 13 consiste à décrire, au moyen de deux étapes d'extraction de caractéristiques 131 , 131 ' respectivement suivant la première et la deuxième modalité, un objet dit objet de test 133 par des vecteurs de même nature, respectivement suivant la première et la deuxième modalité, que lors de la phase d'apprentissage 1 1 . Ces deux vecteurs sont appliqués en entrée respectivement des deux modèles 135, 135' précités. Chaque modèle 135, 135' produit en sa sortie respectivement une première prédiction 137 relative à la première modalité et une deuxième prédiction 137' relative à la deuxième modalité, des étiquettes de l'objet de test 133. Les étiquettes suivant les deux modalités sont alors fusionnées lors d'une étape de fusion 23, produisant une étiquette unique multimodale. L'étape de fusion 23 est ainsi appliquée uniquement en ligne. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi un ensemble d'étiquettes possibles.

L'exemple décrit ci-dessus s'applique à des objets bimodaux, mais un système de classification supervisée peut de manière analogue s'appliquer à des objets multimédia suivant une pluralité de modalités, supérieure à deux, autant d'étapes d'extraction de caractéristiques, d'apprentissage étant alors mises en œuvre. La figure 3 présente un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion précoce.

D'une manière similaire aux figure 1 et 2 décrites ci-dessus, un système de classification supervisée d'objets multimédia comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.

A l'instar de la figure 2 décrite ci-dessus, la phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune deux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' et 131 , 131 ' permettant de décrire un objet multimédia, bimodal dans l'exemple illustré par la figure, par exemple une image associée à un contenu textuel. Ainsi la phase d'apprentissage 1 1 comprend une étape d'extraction de caractéristiques 1 1 1 suivant une première modalité, par exemple visuelle, et une étape d'extraction de caractéristiques 1 1 1 ' suivant une deuxième modalité, par exemple textuelle.

A la différence de la méthode de fusion tardive décrite en référence à la figure 2, une étape de fusion précoce 31 permet de générer des caractéristiques multimédia 310 à partir des caractéristiques extraites suivant la première et la deuxième modalité aux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 '. Un module d'apprentissage 1 15 mettant en œuvre une étape d'apprentissage permet de générer un modèle multimédia 335 à partir des caractéristiques multimédia 310 générées lors de l'étape de fusion précoce 31 et d'une pluralité d'étiquettes 1 12.

D'une manière analogue, une étape de fusion précoce 33, opérant de manière identique à l'étape de fusion précoce 31 appliquée lors de la phase d'apprentissage 1 1 , permet de générer des caractéristiques multimédia 330 en ligne, à partir des caractéristiques extraites suivant la première et la deuxième modalité aux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' sur la base d'un objet de test 133.

Le modèle multimédia 335 produit en sa sortie une prédiction 337 de l'étiquette de l'objet de test 133. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi l'ensemble des étiquettes possibles.

Un procédé de classification selon la présente invention se fonde sur le principe de fusion précoce illustré ci-dessus. Un procédé de classification selon la présente invention s'applique notamment aux étapes d'extraction de caractéristiques.

Des techniques d'extraction de caractéristiques connues pour s'appliquer à des images sont brièvement décrites ci-après, dans le but de favoriser la lisibilité de la présente description, en introduisant les principaux concepts utiles à cette fin. De telles techniques d'extraction impliquent une étape d'extraction de descripteurs locaux d'une image, pour reconstruire une signature finale, par une approche dite de « sac de mots visuels », communément désigné par le sigle BOV correspondant à la terminologie anglaise « Bag Of Visual terms » ou « Bag Of Visterms ». Typiquement, un ou une pluralité de descripteurs locaux sont extraits de l'image considérée, à partir de pixels ou de « patchs » denses dans l'image, ou plus généralement de sites dans l'image. En d'autres termes, des descripteurs locaux sont associés à autant de patchs, qui peuvent notamment être définis par leur localisation ou localité, par exemple par des coordonnées (x,y) dans un repère cartésien dans lequel est également défini le domaine de l'image considérée, un patch pouvant se limiter à un pixel, ou consister en un bloc d'une pluralité de pixels. Les descripteurs locaux sont alors recodés lors d'une étape de codage ou « coding » dans un espace des caractéristiques ou « feature space » selon la terminologie anglaise, en fonction d'un dictionnaire de référence, communément désigné par le terme anglais « codebook ». Les vecteurs recodés sont alors agrégés, lors d'une étape d'agrégation ou de « pooling » en un unique vecteur formant signature. Ces étapes peuvent être répétées pour plusieurs parties de l'image considérée, puis les signatures concaténées, par exemple conformément à un schéma de pyramide spatiale, désigné par l'acronyme SPM désignant la terminologie anglaise « Spatial Pyramid Matching », consistant à découper l'image considérée en sous-blocs, par exemple des carrés de 2x2 ou 4x4 blocs, ou des rectangles de 1 x3 blocs, etc. , à déterminer la signature pour chaque sous-bloc puis à concaténer toutes les signatures déterminées en les pondérant par un facteur dépendant de l'échelle des découpages en sous- blocs. Une technique de type SPM est par exemple décrite dans la publication de S. Lazebnik, C. Schmid et J. Ponce « Beyond bags of features : Spatial pyramid matching for recognizing natural scène catégories » in CVPR, 2006.

Différentes techniques connues forment la base des étapes d'agrégation et de codage précitées. L'étape de codage peut notamment se fonder sur une technique dite de « codage dur », communément désignée suivant la terminologie anglaise « Hard Coding » ou suivant l'acronyme correspondant HC. Des techniques de codage dur sont par exemple décrites dans la publication de S. Lazebnik, C. Schmid et J. Ponce « Beyond bags of features : Spatial pyramid matching for recognizing natural scène catégories » précitée, ou encore dans la publication de J. Sivic et A. Zisserman « Video google: a text retrieval approach to object matching in videos » in ICCV, 2003. Selon une technique de codage dur, un descripteur local est recodé en un vecteur comportant un unique « 1 » sur la dimension correspondant à l'indice de son plus proche voisin dans le dictionnaire de référence, et une pluralité de « 0 » ailleurs. Associée à une étape d'agrégation fondée sur la détermination d'une moyenne, une étape de codage par codage dur conduit ainsi à la réalisation d'un histogramme d'occurrence des mots visuels du dictionnaire de références les plus présents, un mot visuel du dictionnaire de référence étant considéré comme présent lorsqu'il est le plus proche d'un descripteur local de l'image considérée.

L'étape de codage peut également se fonder sur une technique dite de « codage doux », communément désignée suivant la terminologie anglaise « Soft Coding » ou suivant l'acronyme correspondant SC. Une technique de codage doux est notamment décrite dans la publication de J. Van Gemert, C. Veenman, A. Smeulders et J. Geusebroek « Visual word ambiguity » - PAMI, 2009. Suivant la technique de codage doux, un descripteur local est recodé suivant sa similarité à chacun des mots visuels du dictionnaire de référence. La similarité est par exemple calculée comme une fonction décroissante de la distance, typiquement une exponentielle de l'opposé de la distance.

L'étape de codage peut également se fonder sur une technique dite de « codage linéaire localement contraint », communément désignée suivant la terminologie anglaise « Locally constrained Linear Coding » ou suivant l'acronyme correspondant LLC. Des techniques de type LLC sont notamment décrites dans la publication de S. Gao, I. Tsang, L. Chia et P. Zhao, « Local features are not lonely - Laplacian sparse coding for image classification » In CVPR, 201 1 , dans la publication de L.Liu, L. Wang and X. Liu « In défense of soft-assignment coding » in CVPR, 201 1 , ou encore dans la publication de J. Yang, K. Yu, Y. Gong et T. Huang « Linear spatial pyramid matching using sparse coding for image classification » in CVPR, 2009. Le principe de cette technique consiste à restreindre le codage de type doux aux plus proches voisins des descripteurs dans l'espace des caractéristiques, par exemple de 5 à 20 plus proches voisins du dictionnaire de référence. De la sorte, le bruit de codage peut être réduit de manière significative.

L'étape de codage peut également se fonder sur une technique dite de « codage saillant localement contraint », communément désignée suivant la terminologie anglaise « Locally constrained Salient Coding » où chaque descripteur n'est codé que sur son plus proche voisin en lui associant une réponse, dite de pertinence « saliency », qui dépend des distances relatives des plus proches voisins au descripteur. En d'autres termes, plus la distance du plus proche voisin au descripteur est faible par rapport aux distances des autres proches voisins à ce même descripteur, plus la pertinence est importante. Une technique de type « saliency coding » est notamment décrite dans la publication de Y. Huang, K. Huang, Y. Yu, and T. Tan. Salient coding for image classification, in CVPR, 201 1 . La figure 4 présente un logigramme illustrant un procédé de classification d'un objet multimédia suivant un exemple de réalisation de la présente invention.

L'exemple de réalisation décrit ci-après en référence à la figure 4 s'applique à la description et à la classification d'objets multimédia de type images associées à un contenu textuel, par exemple des tags textuels. Il est à observer qu'il s'agit là d'un exemple non limitatif de la présente invention, et que d'autres modalités que des modalités visuelles ou textuelles peuvent être envisagées et traitées d'une manière analogue. En outre, l'exemple décrit ci-après s'applique à des objets bimodaux, mais un nombre plus élevé de modalités peut être envisagé.

Le procédé de classification peut comprendre une première étape préalable 401 , permettant de calculer les caractéristiques locales visuelles sur une base d'apprentissage, et en déduire un dictionnaire visuel W^v d'une taille K^v, par exemple par une méthode de classification non supervisée, désignée par le terme anglais « clustering », par exemple suivant l'algorithme des K-moyennes ou « K-means » selon la terminologie anglaise, permettant de partitionner des descripteurs locaux dans une pluralité k d'ensembles afin de minimiser l'erreur de reconstruction des descripteurs par le centroïde à l'intérieur de chaque partition. Il est également possible de recourir à d'autres méthodes d'apprentissage du dictionnaire de référence, telles que par exemple le tirage aléatoire des descripteurs locaux ou le codage parcimonieux.

Le procédé de classification peut également comprendre une deuxième étape préalable 403, pouvant par exemple être réalisée avant, après, ou en parallèle de la première étape préalable 401 , permettant de construire un dictionnaire textuel W^T par sélection des tags textuels représentatifs d'un corpus d'apprentissage, ou bien par un dictionnaire ad- hoc déterminé, le dictionnaire textuel W^T étant d'une taille K^T.

Ainsi chaque objet multimédia, c'est-à-dire chaque image assortie de contenu textuel dans l'exemple décrit, est représenté par une pluralité de tags textuels aptes à être codés ultérieurement par un des K^T tags textuels possibles formant le dictionnaire textuel W^T, et une pluralité de mots visuels, aptes à être codés ultérieurement par un des K^v mots visuels possibles formant le dictionnaire visuel W^v.

Le procédé de classification peut alors comprendre une étape d'extraction 405 des caractéristiques locales de l'image, lors de laquelle les caractéristiques locales de l'image sont extraites et codées sur le dictionnaire visuel W^v, puis agrégées suivant une technique de pooling. Le codage peut par exemple être un codage dur et consister à déterminer l'occurrence des mots visuels du dictionnaire visuel W^v les plus proches des caractéristiques locales de l'image, suivi par exemple d'une agrégation de type moyenne.

L'étape d'extraction 405 précitée peut être suivie par une étape de construction 407 d'une matrice de recodage des tags textuels à K^v lignes et K^T colonnes, notée X, dont les coefficients sont notés X(i,j), i étant un entier compris entre 1 et K^v, et j étant un entier compris entre 1 et K^T, la matrice de recodage X exprimant la fréquence de chaque mot visuel du dictionnaire visuel W^v pour chaque tag textuel du dictionnaire textuel W^T. L'étape de construction 407 peut par exemple débuter avec une matrice de recodage X nulle, puis en incrémentant de 1 le coefficient X(i,j) à chaque fois qu'une image d'apprentissage associée au tag textuel i a une caractéristique locale visuelle proche du mot visuel j.

L'étape de construction 407 de la matrice de recodage X peut être suivie par une étape de normalisation 409 de la matrice de recodage X, par exemple suivant la norme L1 par ligne.

L'étape de normalisation 409 de la matrice de recodage X peut alors être suivie par une étape de clustering 41 1 sur les colonnes de la matrice de recodage X, par exemple suivant un algorithme des K-moyennes ou un autre des algorithmes de clustering cités précédemment. A l'issue de l'étape de normalisation 409, un dictionnaire multimédia W^m peut être obtenu, dont la taille est K^m. Le dictionnaire multimédia W^m forme alors un nouvel espace de représentation pour les objets multimédia, les lignes du dictionnaire multimédia W^m constituent ainsi des mots multimédia.

Chaque tag textuel, représenté par une colonne de la matrice de recodage X, peut alors être recodé sur ce nouvel espace de représentation, lors d'une étape de recodage 413. Plusieurs méthodes de codage peuvent être appliquées. Le codage peut notamment se fonder sur une des techniques précitées, c'est-à-dire sur une technique de « codage dur », une technique de « codage doux », une technique de « codage linéaire localement contraint », une technique de « codage saillant localement contraint ».

D'autres techniques connues de codage peuvent également être envisagées. Par exemple, si le codage est réalisé au moyen d'une technique de « Locally constrained Linear Coding » précitée, alors un code de tag textuel Xi, c'est-à-dire une colonne de la matrice de recodage X d'une image donnée est le descripteur qui doit être codé sur le dictionnaire multimédia Wⁿ suivant la relation (1 ) ci-après :

0 sinon

Dans la relation (1 ) ci-dessus, x, désigne une colonne de la matrice de recodage X correspondant au tag textuel considéré ; zy, un vecteur de taille K^m, est le code recodant x, sur le dictionnaire multimédia ; N_k(Xj) désigne l'ensemble des k plus proches voisins du vecteur xi parmi les colonnes de la matrice de recodage X (k peut par exemple être choisi égal à 5) ; β désigne un paramètre de contrôle : plus celui-ci est grand, moins les mots multimédia les plus éloignés auront d'influence sur le codage ; m_j et m_r sont les mots multimédia obtenus précédemment.

Ainsi, pour une image donnée, tous les tags textuels de cette image sont recodés lors de l'étape de recodage 413 décrite ci-dessus.

L'étape de recodage 413 peut enfin être suivie d'une étape d'agrégation 415, dite de « pooling », agrégeant les tags textuels recodés en un unique vecteur représentant l'image. L'étape d'agrégation peut se baser sur une somme, une moyenne, ou bien considérer le maximum de chaque dimension, c'est-à-dire le maximum par mot multimédia, cette dernière méthode étant communément désignée « maximum pooling ».

La figure 5 présente un diagramme illustrant le principe de construction d'une matrice de recodage X et d'un dictionnaire multimédia W^m, mise en œuvre lors de l'étape de construction 407 dans un procédé tel qu'illustré par la figure 4.

Une matrice d'occurrence de mots visuels 501 peut être apprise sur une base d'apprentissage comprenant une pluralité de N images. La matrice d'occurrence de mots visuels 501 comprend ainsi N lignes et K^v colonnes. Chaque ligne de la matrice d'occurrence de mots visuels 501 comprend les signatures visuelles respectives des N images.

Une première matrice intermédiaire 503 notée V peut être construite, comprenant K^T colonnes, chaque colonne correspondant à un tag textuel. La matrice intermédiaire 503 peut être construite à partir d'une matrice nulle, puis dans une colonne déterminée de la matrice intermédiaire 503, on relève pour chaque image parmi la pluralité N, la présence ou l'absence de chaque tag textuel, la présence d'un tag textuel dans une image introduisant alors la valeur « 1 » dans la colonne correspondant à ce tag textuel. Dans l'exemple illustré par la figure 5, une image l_m est associée aux tags textuels t, et t_j, et une image l_n est associée à des tags textuels t, et t_k.

Pour chaque tag textuel, peuvent être alors collectés les mots visuels pour lesquels le tag textuel considéré est présent, c'est-à-dire les mots visuels associés à la valeur 1 dans la colonne de la première matrice intermédiaire 503 correspondant au tag textuel considéré cette action pouvant former une étape de procédé et étant représentée par un bloc 504 dans la figure 5.

Une deuxième matrice intermédiaire 505 peut alors être construite, cette matrice comprenant K^v colonnes et K^T lignes. Pour chaque ligne, c'est- à-dire pour chaque tag textuel du dictionnaire textuel W^T, est portée une agrégation de l'occurrence des mots visuels y correspondant collectés lors de l'étape précédente. Par exemple les occurrences de mots visuels pour lesquels un tag textuel donné est présent peuvent être sommés, une moyenne ou bien un maximum pouvant également être retenu.

Les coefficients composant la deuxième matrice intermédiaire 505 peuvent être formulés suivant la relation (2) suivante :

X>u(i ) = OP [V{i,k)] (2) ;

OP désignant un opérateur d'agrégation, d_k désigne le k-ième document dans la base d'apprentissage D, t_j un tag textuel dans l'ensemble des tags textuels T_dk relatifs au document d_k, et V(i,k) désigne l'occurrence du i-ième mot visuel dans le document d_k..

Par exemple, si l'opérateur d'agrégation est une somme, les coefficients composant la deuxième matrice intermédiaire 505 peuvent être formulés suivant la relation (3) suivante :

X_Int (i ) = ∑V(i, k) (3) ;

d_keD,_tjeT_dk

dans laquelle D désigne la base d'apprentissage comprenant N images, d_k désigne le k-ième document dans la base d'apprentissage D, t_j un tag textuel dans l'ensemble des tags textuels T_dk relatifs au document d_k, et V(i,k) désigne l'occurrence du i-ième mot visuel dans le document d_k.

La matrice de recodage X peut alors être obtenue à partir d'une normalisation, par exemple par ligne suivant la norme L1 , de la deuxième matrice intermédiaire 505.

Ainsi que cela est décrit précédemment, le dictionnaire multimédia W^m peut alors être obtenu à partir d'un clustering sur les colonnes de la matrice de recodage X, par exemple suivant un algorithme des K-moyennes ou un autre des algorithmes de clustering cités précédemment.

La figure 6 présente un diagramme illustrant les principales données d'entrée et de sortie dans un procédé de classification suivant le logigramme décrit à la figure 4, tel que décrit ci-dessus.

La figure 6 illustre un exemple de matrice de recodage X, dont les colonnes correspondent à autant de tags textuels du dictionnaire textuel W^T, et les lignes à autant de mots visuels du dictionnaire visuel W^v. La matrice de recodage X permet la construction du dictionnaire multimédia W^m, via une étape de clustering 41 1 telle que décrite précédemment en référence à la figure 4.

Chaque tag textuel d'une image de test 533 peut alors être recodé sur le dictionnaire multimédia W^m, lors de l'étape de recodage 413 décrite précédemment en référence à la figure 4.

Une matrice recodée Z peut ainsi être obtenue. La matrice recodée comprend autant de lignes que de tags textuels associés à l'image de test 533, et autant de colonnes que de mots multimédia du dictionnaire multimédia W^m.

Une étape d'agrégation 415 telle que décrite précédemment en référence à la figure 4 peut alors être appliquée à la matrice recodée Z, pour obtenir une signature de type sac de mots multimédia notée BoMW, suivant le sigle correspondant à la terminologie anglaise « Bag of Multimedia Words », cette signature étant de taille réduite, et formant un unique vecteur représentatif de l'image de test 533. La figure 7 présente un schéma illustrant de manière synoptique un dispositif de reconnaissance de contexte visuel selon un exemple de réalisation de la présente invention.

Un dispositif de classification selon la présente invention peut être mis en œuvre par des moyens de calcul dédiés, ou bien via des instructions logicielles exécutées par un microprocesseur relié à une mémoire de données. Dans un souci de clarté de l'exposé, l'exemple illustré par la figure 7 décrit de manière non-limitative le dispositif de classification en termes de modules logiciels, étant considéré que certains modules décrits peuvent être subdivisés en plusieurs modules, ou bien regroupés.

Le dispositif de classification 70 reçoit en entrée un objet multimédia I sous une forme numérique, par exemple saisi par des moyens de saisie disposés en amont, non représentés sur la figure. Un microprocesseur 700 relié à une mémoire de données 702 permet la mise en œuvre de modules logiciels dont les instructions logicielles sont stockées dans la mémoire de données 702 ou une mémoire dédiée. Les images, les tags textuels ou autres objets suivant des modalités déterminées, et les descripteurs peuvent être stockés dans une mémoire 704 formant une base de données.

Le dispositif de classification peut être configuré pour mettre en œuvre un procédé de classification selon l'un des modes de réalisation décrits.

La mise en œuvre d'un procédé de classification peut être réalisée au moyen d'un programme d'ordinateur comportant des instructions prévues à cet effet. Le programme d'ordinateur peut être enregistré sur un support d'enregistrement lisible par un processeur.

Claims

REVENDICATIONS

1 - Procédé de classification d'un objet de test (133, 533) multimodal dit objet de test multimédia décrit selon au moins une première et une deuxième modalités, caractérisé en ce qu'il comprend une étape de construction hors-ligne par classification non supervisée d'un dictionnaire multimédia (W^m), défini par une pluralité K^m de mots multimédia, à partir d'une matrice de recodage (X) des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité K^T de mots de la première modalité, la matrice de recodage (X) étant construite de sorte que chacune de ses composantes est une information représentative de la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité K^v de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimédia de test (133, 533) étant réalisée en ligne au moyen d'une étape de recodage (413) de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia (W^m), suivie d'une étape d'agrégation (415) des représentants de la première modalité codés à l'étape de recodage en un unique vecteur (BoMW) représentatif de l'objet multimédia considéré. 2- Procédé de classification suivant la revendication 1 , caractérisé en ce que ladite matrice de recodage (X) est construite au moins à l'aide des étapes suivantes :

• Construire une matrice d'occurrence (501 ) de mots de la deuxième modalité sur une pluralité de N images,

· Construire une matrice intermédiaire (503) comprenant K^T colonnes, chaque colonne correspondant à un mot de la première modalité, ladite matrice intermédiaire contenant, pour chaque image parmi la pluralité N, une information représentative de la présence ou l'absence de chaque mot de la deuxième modalité, • Construire, à partir de la matrice d'occurrence (501 ) et de la matrice intermédiaire (503), la matrice de recodage (X) qui contient pour chaque mot de la première modalité et chaque mot de la deuxième modalité, une agrégation sur la pluralité de N images de l'occurrence du mot de la deuxième modalité pour le mot de la première modalité.

3- Procédé de classification suivant l'une des revendications 1 ou 2, caractérisé en ce que ladite première modalité est textuelle, et ladite deuxième modalité est visuelle, l'objet de test (133, 533) étant une image de test (533) associée à des tags textuels, ledit dictionnaire suivant la première modalité étant un dictionnaire textuel (W^T) et ledit dictionnaire suivant la deuxième modalité étant un dictionnaire visuel (W^v).

4- Procédé de classification suivant la revendication 3, caractérisé en ce qu'il comprend un enchaînement d'au moins les étapes suivantes, réalisées hors ligne :

• une étape d'extraction (405) des caractéristiques visuelles d'une pluralité N d'images formant une base d'apprentissage, lors de laquelle les caractéristiques locales de chaque image sont extraites et codées sur le dictionnaire visuel (W^v) ;

• une étape de construction (407) de la matrice de recodage (X) ;

• une étape de normalisation (409) de la matrice de recodage (X) ; · une étape de classification non supervisée, dite étape de clustering (41 1 ) de la matrice de recodage normalisée, générant le dictionnaire multimédia (W^m).

5- Procédé de classification suivant l'une quelconque des revendications 3 ou 4, caractérisé en ce qu'il comprend un enchaînement d'au moins les étapes suivantes, réalisées en ligne :

• ladite étape de recodage (413) de chaque tag textuel de l'image de test (533) sur le dictionnaire multimédia (W^m), générant une matrice recodée (Z) ; • ladite étape d'agrégation (415), agrégeant la matrice recodée (Z) et générant une signature multimédia (BoMW) de l'image de test (533).

6- Procédé de classification suivant l'une quelconque des revendications précédentes, caractérisé en ce que l'étape de recodage (413) est basée sur une technique de codage linéaire localement contraint.

7- Procédé de classification suivant la revendication 4, caractérisé en ce que ladite étape de normalisation (409) comprend une normalisation de la matrice de recodage (X) par lignes suivant la norme L1 .

8- Procédé de classification suivant la revendication 4, caractérisé en ce que ladite étape de clustering (41 1 ) est réalisée à partir d'un algorithme des K-moyennes.

9- Dispositif de classification d'un objet de test (133, 533) comprenant des moyens adaptés pour la mise en œuvre d'un procédé de classification selon l'une quelconque des revendications 1 à 8.

10- Programme d'ordinateur comportant des instructions pour mettre en œuvre un procédé de classification selon l'une des revendications 1 à 8.

1 1 - Support d'enregistrement lisible par un processeur sur lequel est enregistré un programme comportant des instructions pour l'exécution du procédé de classification selon l'une quelconque des revendications 1 à 8, lorsque le programme est exécuté par un processeur.