FR2974433A1

FR2974433A1 - Evaluation de la qualite d'image

Info

Publication number: FR2974433A1
Application number: FR1253417A
Authority: FR
Inventors: Luca Marchesotti; Rodrigue Nkoutche
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2011-04-19
Filing date: 2012-04-13
Publication date: 2012-10-26
Also published as: US20120269441A1; US8712157B2; JP2012226744A; JP5782404B2

Abstract

Un système et un procédé informatisés de prédiction d'une qualité d'image d'une image sont décrits. Pour une image d'entrée (12), le procédé inclut la génération d'un premier descripteur (22) fondé sur des informations de contenu sémantique de l'image et la génération d'un second descripteur (24) fondé sur des caractéristiques esthétiques extraites de l'image. Avec un catégoriseur (18) ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, une valeur de qualité est attribuée à l'image en fonction des premier et second descripteurs, puis est produite en sortie (20).

Description

ÉVALUATION DE QUALITÉ D'IMAGE

Des aspects des modes de réalisation exemplaires décrits ici concernent un système et un procédé d'évaluation de la qualité d'images photographiques et trouvent une application particulière dans un système automatisé de prédiction de qualité d'image, fondé non seulement sur des caractéristiques esthétiques, mais aussi sur des caractéristiques de contenu.

Des images photographiques numériques sont produites par des photographes professionnels et amateurs en nombre croissant. Ces images peuvent être rendues accessibles par un site web public où elles peuvent être estimées en ce qui concerne leurs caractéristiques de qualité et autres par des observateurs de ce site web.

Des efforts considérables ont été consentis dans le domaine de l'évaluation de la qualité d'image pour concevoir des mesures de qualité pouvant prédire automatiquement la qualité d'image perçue. Un objectif a été d'extraire des descripteurs de l'image numérique avec une bonne corrélation avec les préférences humaines. La présence ou l'absence de dégradations spécifiques du niveau du signal, comme le bruit aléatoire ou structuré (par exemple, le bruit impulsionnel (bruit "sel et poivre"), les artéfacts jpeg (artéfacts de compression), les oscillations parasites) et le flou, ont souvent été utilisées par le passé pour définir la qualité d'une image photographique. Cependant, des capteurs numériques à haute définition sont maintenant aisément disponibles, qui permettent aux photographes de maitriser ces dégradations. L'évaluation de la qualité d'image s'est plus récemment concentrée sur l'appréciation de caractéristiques d'un plus haut niveau allant au-delà des qualités d'images de bas niveau. Voir "Studying aesthetics in photographic images using a computational approach", de R. Datta et al., dans "ECCV (3)", pages 288 à 301, 2006 (par la suite ici "Datta 2006") ; "Learning the consensus on visual quality for next-generation image management", de R. Datta et al., dans "MULTIMEDIA '07: Proc. 15th Intern7 Conf. on Multimedia", pages 533 à 536, 2007 (par la suite ici "Datta 2007") ; et "Algorithmic inferencing of aesthetics and emotion in natural images: An exposition", de R. Datta et al., dans " 15th IEEE Intern7 Conf. on Image Processing', pages 105 à 108, octobre 2008.

Les caractéristiques qui concernent la qualité d'image sont souvent appelées des caractéristiques esthétiques, parce qu'elles sont conçues pour capturer des éléments visuels spécifiques, comme les combinaisons de couleurs, la composition, le cadrage et autres, qui ne sont pas directement en rapport avec le contenu de l'image, mais qui ont un impact sur la qualité perçue de l'image.

Malgré la prolifération des données d'images annotées disponibles sur les réseaux sociaux, les sites Web de partage de photos et autres, qui peuvent être utilisées comme données d'entraînement, le problème d'une évaluation de qualité de haut niveau reste entier. Premièrement, de telles données sont souvent annotées avec un bruit intrinsèque. S'agissant de la préférence humaine, un consensus unanime est rare.

Un second problème concerne la conception de caractéristiques pour capturer la préférence humaine. Les caractéristiques actuellement utilisées ne sont pas toujours en corrélation étroite avec la perception humaine. En d'autres termes, elles ne sont pas suffisamment puissantes pour capturer toutes les informations visuelles qu'un observateur utiliserait pour évaluer la qualité d'image.

Le besoin demeure d'un système et d'un procédé pouvant améliorer l'évaluation automatisée de la qualité d'image.

Suivant un aspect de la présente invention, il est prévu un procédé pour prédire la qualité d'image d'une image. Le procédé comprend les étapes consistant à : - pour une image d'entrée : - générer un premier descripteur fondé sur des informations de contenu sémantique de l'image ; - générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - avec un catégoriseur ayant été entraîné pour attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, attribuer une valeur de qualité à l'image en fonction des premier et second descripteurs ; et - produire en sortie la valeur de qualité d'image.

Suivant un autre mode de réalisation, le premier descripteur est dérivé d'au moins un élément parmi des informations textuelles associées à l'image et des données d'image de l'image.

Pour un autre mode de réalisation, les informations textuelles comprennent au moins un élément parmi une étiquette textuelle associée à l'image et des métadonnées intégrées à l'image.

Pour un autre mode de réalisation, le premier descripteur inclut une valeur pour chaque catégorie d'une pluralité de catégories de contenu.

Pour un autre mode de réalisation, le procédé comprend les étapes consistant à extraire un ensemble de caractéristiques locales de l'image d'entrée, générer une représentation de l'image décrivant la distribution des caractéristiques locales et attribuer la valeur pour chaque catégorie de la pluralité de catégories de contenu dans le premier descripteur en fonction de la représentation de l'image.

Pour un autre mode de réalisation, la génération du second descripteur inclut l'extraction d'une pluralité de caractéristiques esthétiques à partir de pièces de l'image.

Pour un autre mode de réalisation, le second descripteur inclut en outre une caractéristique générique comprenant au moins un élément parmi une fonctionnalité d'histogramme de gradient orienté (HOG), une fonctionnalité de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une fonctionnalité de Gabor.

Pour un autre mode de réalisation, l'attribution de la valeur de qualité comprend la génération d'un descripteur de combinaison qui est une combinaison éventuellement pondérée des premier et second descripteurs.

Pour un autre mode de réalisation, le procédé comprend en outre l'entraînement du catégoriseur avec un ensemble d'images d'entraînement, chacune des images d'entraînement comportant des informations de qualité associées, l'entraînement consistant à : - pour chaque image d'entraînement : a) générer une valeur de qualité à partir des informations de qualité ; b) générer un descripteur de caractéristique de contenu fondé sur au moins un élément parmi : i) des informations de contenu associées à l'image, et ii) des informations de catégorie délivrées en sortie par un catégoriseur sémantique en fonction de données d'image de l'image ; et c) générer un descripteur de caractéristique esthétique fondé sur des caractéristiques esthétiques extraites de l'image ; et - entraîner le catégoriseur sur la valeur de qualité, le descripteur de caractéristique de contenu et le descripteur de caractéristique esthétique de chacune des images de l'ensemble d'entraînement.

Suivant un autre aspect de la présente invention, il est prévu un système de génération d'une évaluation de qualité d'image pour une image. Le système comprend : - une mémoire stockant : - un extracteur de caractéristique de contenu pour générer un premier descripteur fondé sur des informations de contenu sémantique pour une image d'entrée ; - un extracteur de caractéristique esthétique pour générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - un catégoriseur ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs ; et - un processeur informatique en communication avec la mémoire pour réaliser les extracteurs et le catégoriseur.

D'autres variantes des aspects et des modes de réalisation décrits plus haut peuvent se rapporter aux procédés et systèmes suivants. Pour une variante, au moins une des opérations parmi la génération des premier et second descripteurs et l'attribution de la valeur de qualité est exécutée avec un processeur informatique.

25 Pour une autre variante, la caractéristique générique inclut une caractéristique de Gabor.

Pour une autre variante, la caractéristique de Gabor peut être un plan sinusoïdal de fréquence et d'orientation particulières, modulé par une enveloppe gaussienne.

Pour une autre variante, le descripteur de combinaison peut être combiné à une fonction d'agrégation ayant la forme : xt = [(1 - a)xa, axe] (4)

où xc représente le premier descripteur, xa représente le second descripteur, et 30 35 <a<1.

Pour une autre variante, l'attribution de la valeur de qualité peut inclure le classement du second descripteur avec un ensemble de classificateurs, à raison d'un pour chaque catégorie de contenu respective, afin de générer une marque de classificateur respectif pour chaque catégorie de contenu ; et la génération de la valeur de qualité fondée sur une combinaison pondérée des marques de classificateurs, la pondération de chaque marque de classificateur étant dérivée d'une valeur de caractéristique respective du premier descripteur.

Pour une autre variante, les informations de qualité peuvent inclure, pour chaque image, au moins un rang ou un classement de l'image, relatif à la qualité, fourni en entrée par l'observateur.

Pour une autre variante, le procédé peut en outre inclure l'utilisation de la valeur de qualité comme un paramètre pour l'extraction d'images dans un système de recherche documentaire.

Pour une variante, un produit logiciel informatique est prévu et inclut un support 20 d'enregistrement non-transitoire codant des instructions qui, lorsqu'elles sont exécutées par un ordinateur, mettent en oeuvre le procédé décrit plus haut.

Pour encore une autre variante, un système de mise en oeuvre du procédé décrit plus haut peut inclure une mémoire non-transitoire stockant des instructions pour exécuter le 25 procédé et un processeur informatique réalisant les instructions.

Pour une autre variante du système décrit plus haut, le catégoriseur peut inclure au moins un classificateur et un module de fusion effectuant une fusion précoce ou une fusion tardive. Pour une autre variante, le module de fusion peut effectuer une fusion précoce incluant la génération d'un descripteur de combinaison, qui est une combinaison éventuellement pondérée des premier et second descripteurs, délivré en entrée du classificateur. 35 Pour une autre variante, l'au moins un classificateur peut comprendre une pluralité de classificateurs, incluant un classificateur pour chaque catégorie respective d'une pluralité 5 30 de catégories de contenu, et le module de fusion effectue une fusion tardive comprenant la génération d'une valeur de qualité fondée sur une combinaison pondérée d'une pluralité de marques de classificateurs produites en sortie par la pluralité de classificateurs en fonction du second descripteur, la pondération pour chaque marque de classificateur étant dérivée d'une valeur de caractéristique respective du premier descripteur.

Encore une autre variante concerne un procédé de prédiction de la qualité d'image d'une image et inclut la réception d'un ensemble d'images d'entraînement, chaque image de l'ensemble comportant des informations textuelles associées décrivant le contenu sémantique de l'image, et une valeur de qualité d'image fondée sur des informations de qualité d'image fournies par un utilisateur. Un catégoriseur est entraîné en fonction des étiquettes des images, de leurs valeurs de qualité d'image et des caractéristiques extraites des images.

Pour une image d'entrée comportant des informations textuelles mais pas de valeur de qualité d'image, le procédé inclut l'extraction de caractéristiques à partir de données d'image de l'image et, avec le catégoriseur, l'attribution d'une valeur de qualité à l'image en fonction des informations textuelles et de caractéristiques extraites. La valeur de qualité d'image est délivrée en sortie.

La figure 1 est une vue schématique d'entrées vers un catégoriseur exemplaire au cours de l'entraînement et de son utilisation ; la figure 2 est un schéma de blocs fonctionnels d'un système d'évaluation de qualité d'image suivant un aspect du mode de réalisation exemplaire ; la figure 3 est un organigramme illustrant un procédé d'évaluation de qualité d'image, suivant un autre aspect du mode de réalisation exemplaire ; la figure 4 est un graphe montrant les résultats obtenus avec le procédé exemplaire et avec des procédés comparatifs ; la figure 5 est un graphe montrant l'effet du choix de valeurs différentes de a pour un procédé de fusion tardive ; et la figure 6 est un graphe montrant l'effet sur la précision de l'utilisation de caractéristiques de Gabor avec différents nombres d'orientations.

Le mode de réalisation exemplaire concerne un système et un procédé informatisés d'évaluation de qualité d'image. Le système et le procédé exemplaires incorporent une combinaison de caractéristiques et une intégration d'informations hétérogènes pour une évaluation de qualité d'image. Deux types de caractéristiques sont considérés : des caractéristiques d'images de bas niveau qui fournissent une caractérisation globale de l'image et des caractéristiques de niveau plus élevé qui caractérisent des régions de l'image. Deux procédés de fusion de classificateurs sont proposés pour combiner des classifications fondées sur les deux types différents de caractéristiques. Avec le premier, la combinaison est effectuée comme une concaténation éventuellement pondérée des caractéristiques de niveaux bas et haut. Avec le second, la combinaison est réalisée au moyen de pondérations dans une fusion tardive de marques de contenus, spécifiques aux classes.

Il existe de nombreux cas dans lesquels une prédiction automatisée d'une préférence humaine, directement à partir de données, peut être utile. Par exemple, dans des systèmes d'extraction d'images, les résultats des procédés traditionnels d'extraction fondée sur le contenu pourraient être affinés ou intégrés en utilisant le système exemplaire. En outre, le système pourrait être disposé directement sur les dispositifs de prise de vue afin de faire des suggestions en temps réel sur ce qu'il convient de prendre dans une scène donnée.

La figure 1 illustre schématiquement des aspects des modes de réalisation exemplaires. La figure 2 illustre un système exemplaire 10 pour attribuer une évaluation de qualité d'image à une image 12. La figure 3 illustre un procédé exemplaire pour attribuer une évaluation de qualité d'image à une image, qui vise à fournir une qualité d'image perçue qui s'accorderait avec celle d'un observateur moyen. Comme le montre la figure 1, durant l'exécution, le système exemplaire 10 génère un ensemble de caractéristiques pour une image 12 à catégoriser, qui peut inclure à la fois des caractéristiques de contenu 14 et des caractéristiques esthétiques 16. Un catégoriseur combiné 18 a été entraîné à attribuer une évaluation de qualité d'image 20 à l'image d'entrée 12. L'évaluation a la forme d'une valeur de qualité 20 qui est une fonction des caractéristiques de contenu (caractéristiques de haut niveau) 14 et des caractéristiques esthétiques (caractéristiques de bas niveau) 16.

L'évaluation de qualité d'image 20 est donc une évaluation automatisée de la qualité d'une image 12, qui prédit la qualité d'image qui serait perçue par un groupe d'observateurs humains. L'évaluation de qualité d'image 20 produite en sortie par le présent système peut être une marque sous la forme d'une valeur réelle comprise dans une plage prédéfinie de valeurs maximale et minimale, par exemple sur une échelle, par exemple de 0 à 1, où 0 représente la qualité d'image la plus basse, c'est-à-dire une très mauvaise image, et 1 représente la qualité d'image la plus élevée, c'est-à-dire une très bonne image, ou une marque quantifiée, comme une appréciation par étoiles (1 étoile étant la valeur la plus basse et K étoiles la plus élevée, K pouvant être une valeur maximale prédéterminée de 5 à 10, par exemple). Pour d'autres modes de réalisation, la valeur 20 peut être un rang (par exemple, 1 correspondant à la qualité d'image la plus élevée et d'autres images d'un ensemble ayant des valeurs plus élevées correspondant à des rangs inférieurs) ou une description verbale de la qualité d'image sélectionnée parmi un ensemble fini de descriptions verbales possibles (comme "basse qualité", "qualité moyenne", "bonne qualité" et "excellente qualité").

Les caractéristiques de contenu 14 décrivent le contenu visuellement perceptible de l'image par catégorie. Un ensemble de catégories de contenu sémantique peut être défini, chacune d'elles représentant un concept respectif que l'on peut s'attendre à rencontrer dans certaines images d'entrée 12. À titre d'exemple, un ensemble de catégories peut représenter les concepts : animal, paysage, personne, urbain, fleur, objet et d'autres.

Comme on l'appréciera, n'importe quel nombre de catégories peut être prévu, comme au moins cinq catégories. II peut y avoir, par exemple, jusqu'à dix catégories de contenu et, pour certains modes de réalisation, jusqu'à vingt ou cent catégories de contenu, ou plus. À une image 12 peut être attribué un descripteur de caractéristique de contenu 22 sous la forme d'un vecteur de caractéristique incluant une valeur pour chacune des catégories, en fonction d'une ou plusieurs caractéristiques de contenu 14. Les caractéristiques de contenu 14 peuvent être extraites à partir d'informations textuelles 23 associées à l'image 12, comme une étiquette textuelle décrivant le contenu sémantique de l'image, des métadonnées incorporées à l'image et/ou des informations de position GPS ou autres associées à l'image. Des caractéristiques de contenu peuvent autrement ou en plus être extraites des données d'image elles-mêmes, c'est-à-dire les pixels de l'image en utilisant, par exemple, un catégoriseur sémantique, comme il va être décrit plus bas. Les valeurs formant le descripteur de caractéristique de contenu peuvent être quantifiées, par exemple en valeurs binaires (0 ou 1) ou peuvent être des valeurs réelles comprises dans une plage prédéterminée, comme dans la gamme [0, 1].

Les caractéristiques esthétiques 16 sont des caractéristiques pouvant être extraites en fonction des pixels de l'image. Toute combinaison adéquate de caractéristiques esthétiques peut être sélectionnée qui évalue une plage de critères de qualité d'image perçue, comme le flou, le grain, le contraste, la saturation, la distribution des couleurs, la conformité à la règle des tiers, l'originalité, l'utilisation de couleurs complémentaires, la profondeur de champ, la présence de formes agréables, la taille de l'image, le format d'image, la présence d'yeux rouges ou d'autres artefacts, et autres.

Le catégoriseur 18 est entraîné avec un ensemble d'images d'entraînement 30, 32, 34, etc., comme de cent à un million d'images d'entraînement. Chaque image d'entraînement 30, 32, 34 inclut des données d'images 36 constituant une matrice de pixels. Les images d'entraînement sont chacune étiquetées avec des informations de qualité 38, comme une marque (ou de multiples marques) attribuée par un examinateur humain. Les images d'entraînement 30, 32, 34 peuvent être étiquetées avec des informations de contenu 40 (analogues aux informations 23), comme une catégorie attribuée par un examinateur. Un ensemble réduit 42 d'images d'entraînement peut être sélectionné pour l'entraînement, en fonction d'une ou plusieurs des informations de qualité 38 et des informations de contenu 40.

Pour chaque image, des caractéristiques, telles que des caractéristiques de contenu 50 et des caractéristiques esthétiques 52, et une valeur normalisée de qualité 54 sont générées. Des descripteurs de caractéristiques de contenu et esthétiques 56, 58 (au même format que les caractéristiques 14, 16 de l'image 12 à catégoriser) sont délivrés en entrée au catégoriseur 18. Le catégoriseur 18 apprend à attribuer une valeur de qualité 20 à une nouvelle image 12 en fonction des descripteurs de caractéristique d'entrée 56, 58 et des valeurs de qualité associées 54 de chacune des images d'entraînement 30, 32, 34, etc. En se référant maintenant à la figure 2, un environnement exemplaire dans lequel opère le système de qualité d'image 10 est représenté. Le système 10 comprend un ou plusieurs dispositifs de traitement, comme l'ordinateur serveur illustré, et inclut une mémoire, illustrée ici par une mémoire principale 60 et une mémoire de données 62, un processeur 64, comme l'unité centrale (CPU) de l'ordinateur, et une ou plusieurs interfaces (E/S) de réseau 66 pour communiquer avec d'autres dispositifs, tous reliés de façon à communiquer par un bus (ou des bus) de données/communication 68. Le ou les ordinateur(s) peut être un PC (ordinateur personnel), comme un ordinateur de bureau, portable ou de poche, un assistant numérique portable (PDA), un appareil numérique de prise de vue, un ordinateur serveur, un téléphone cellulaire, un ordinateur tablette, un gestionnaire de pages ou un autre ou d'autres dispositif(s) de calcul capable d'exécuter des instructions pour mettre en oeuvre le procédé exemplaire.

Le processeur numérique 64 peut être réalisé de diverses manières, comme par un processeur à coeur unique, un processeur à double coeur (ou plus généralement par un processeur à coeurs multiples), un processeur numérique et un coprocesseur mathématique coopérant, un contrôleur numérique ou autres.

La ou les mémoire(s) 60, 62 peut représenter tout type de support tangible lisible par un ordinateur, tel qu'une mémoire à accès aléatoire (RAM), une mémoire à lecture seule (ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash ou une mémoire holographique ou une combinaison de ceux-ci. La mémoire 60 peut stocker des instructions pour le fonctionnement de l'ordinateur serveur, de même que pour mettre en oeuvre le procédé exemplaire d'évaluation de qualité d'image décrit plus bas. La mémoire 62 stocke des images 12 en cours de traitement par le procédé exemplaire, de même que les données traitées 20.

L'interface de réseau 66 permet à l'ordinateur de communiquer avec d'autres dispositifs via des liaisons câblées ou sans fil, comme le réseau d'ordinateur 70, par exemple un réseau local (LAN), un réseau à grande distance (WAN), comme l'Internet, une ligne téléphonique, une connexion câblée ou une combinaison de ceux-ci, et peut comprendre un modulateur/démodulateur (MODEM).

Les images 12 à catégoriser sont fournies en entrée au système 10 depuis une source 80 d'images, comme un dispositif de traitement d'usage général ou d'usage spécial, tel qu'un PC, un ordinateur portable, un appareil de prise de vue, un téléphone cellulaire ou autre, ou depuis un dispositif de stockage en mémoire non-transitoire, comme un lecteur flash, un disque, une unité de disque dur portable, une clé de mémoire de prise de vue ou autres. Pour le mode de réalisation exemplaire, la source 80 est un dispositif de traitement client qui inclut une mémoire 82 stockant les images 12 et un navigateur Web 84 pour télécharger en liaison montante des images vers un portail Web hébergé par l'ordinateur serveur, qui est réalisé par un processeur 86. La mémoire 82 et le processeur 86 peuvent, de façon similaire, être configurés en une mémoire 60, 62 et un processeur 64. Une ou plusieurs interfaces 88, 90 permettent à l'ordinateur 80 de communiquer avec le système 10 et avec un dispositif de visualisation 92, comme un moniteur d'ordinateur, un écran à cristaux liquides (LCD) ou autre, et un ou plusieurs dispositifs d'entrée d'utilisateur 94, comme un écran tactile, un clavier, un bloc de touches, un dispositif de commande de curseur ou une combinaison de ceux-ci.

Un ensemble d'images d'entraînement, comme les images d'entraînement 32, 34, 36, est stocké dans une base de données (ou des bases de données) 100. La base de données 100 peut être stockée dans la mémoire 62 ou dans une mémoire accessible au système 10, par exemple via un réseau 70.

Les images 12, 32, 34, 36 peuvent être reçues par le système 10 dans n'importe quel format de fichier pratique, comme JPEG, TIFF, GIF, JBIG, BMP, ou un autre format de fichier commun utilisé pour des images et pouvant éventuellement être converti en un autre format adéquat avant le traitement. Les images peuvent être des photographies individuelles, des images vidéo, des images tridimensionnelles, des images combinées incluant des textes/graphismes de même qu'une photographie et autres. En général, chaque image numérique d'entrée inclut des données d'image pour une matrice de pixels formant l'image. Les données d'image peuvent inclure des valeurs de colorations, comme des valeurs de niveaux de gris, pour chaque séparation d'un ensemble de séparations de couleurs, tel que RGB, ou être exprimées dans un autre espace de couleurs dans lequel des couleurs différentes peuvent être représentées. En général, le terme de "niveaux de gris" se réfère à la valeur de densité optique d'une séparation de couleur unique quelconque, quelle que soit la manière de l'exprimer (RGB, L*a*b*, YCbCr, etc.). Le système et le procédé exemplaires sont applicables à des images monochromes (une seule séparation de couleurs), de même qu'à des images multicolores (deux ou davantage de séparations de couleurs). Tel qu'il est utilisé ici, le terme de "données d'images" n'inclut pas les informations textuelles 23, 40 pouvant accompagner les données d'images, par exemple sous la forme de métadonnées, d'une étiquette HTML, d'informations dans un fichier associé ou autres.

Le système 10 inclut des instructions logicielles stockées dans la mémoire principale 60 afin de mettre en oeuvre le procédé exemplaire illustré sur la figure 3. Ces instructions sont exécutées par le processeur 64 et sont illustrées comme un ensemble de composants : un extracteur de valeur de qualité 102, un extracteur de caractéristiques de contenu 104, un extracteur de caractéristiques esthétiques 106 et le catégoriseur combiné 18. Le catégoriseur combiné 18 peut inclure un ou plusieurs classificateurs discriminateurs 110 et un module de fusion 112.

En bref, l'extracteur de valeur de qualité 102 extrait une valeur de qualité 54 pour chaque image d'entraînement 32, 34, 36. La valeur de qualité peut être simplement une valeur numérique réelle dérivée d'informations fournies par un observateur humain et associées à l'image des informations de qualité 38. Par exemple, des examinateurs peuvent attribuer un nombre entier compris entre 1 et 10 à chaque image 32, 34, 36, 10 représentant la qualité la plus élevée, ou un rang (1 représentant la qualité la plus élevée). Certaines images d'entraînement 32, 34, 36 peuvent avoir été évaluées par plus d'un examinateur, auquel cas la valeur de qualité 54 peut être une moyenne ou une autre fonction des marques d'examinateurs 38. Comme on l'appréciera, une fois que le catégoriseur 18 a été entraîné, le composant 102 n'est plus nécessaire.

L'extracteur de caractéristique de contenu 104 extrait des caractéristiques de contenu 14, 50 pour l'image 12, 32, 34, 36 et génère un descripteur de caractéristique de contenu 22, 56 pour l'image respective, en fonction des caractéristiques de contenu 14 ou 50, qui est représentatif du contenu sémantique de l'image. Pour un mode de réalisation, l'extracteur de caractéristique de contenu 104 inclut ou accède à un catégoriseur sémantique 114, qui extrait certaines ou la totalité des caractéristiques de contenu 14, 50 des données d'image de l'image 12, 32, 34, 36. Le descripteur exemplaire de caractéristique de contenu 22, 56 n'est donc fondé sur aucune des caractéristiques esthétiques.

L'extracteur de caractéristique esthétique 106 extrait des caractéristiques esthétiques 16, 52 pour l'image 12, 32, 34, 36 et génère un descripteur de caractéristique esthétique 24, 58 respectif à partir de caractéristiques 16, 52 pour l'image, qui est au moins partiellement prédictif de l'apparence esthétique de l'image. Le descripteur exemplaire de caractéristique esthétique 24, 58 n'est donc fondé sur aucune des caractéristiques de contenu.

Le catégoriseur combiné 18, ayant été entraîné avec des descripteurs de caractéristique de contenu 56, des descripteurs de caractéristique esthétique 58 et des valeurs de qualité 54, est capable de catégoriser la nouvelle image 12 (qui peut n'avoir aucune information de qualité associée) en fonction de son contenu et de descripteurs de caractéristique esthétique 22, 24 (et non d'informations de qualité associées). Le module de fusion 112 fusionne les résultats provenant des deux ou davantage de classificateurs 110 ou fusionne les descripteurs 22, 24 avant leur entrée vers un classificateur 110, par exemple en utilisant un procédé de fusion tardive ou de fusion précoce, respectivement. Pour un mode de réalisation, le module de fusion 112 est un module de fusion précoce qui fusionne les descripteurs de caractéristique 22 et 24 (ou, à l'entraînement, 56 et 58) en un unique descripteur avant l'entrée du classificateur 110. Pour un autre mode de réalisation, le module de fusion 112 est un module de fusion tardive qui reçoit la marque délivrée en sortie par chacun des classificateurs 110, à raison d'un par catégorie, et génère une marque de qualité globale 20 en tant que fonction pondérée des marques délivrées en sortie par les classificateurs 110.

Comme on l'appréciera, bien que les divers composants logiciels 102, 104, 106, 18, 114 soient décrits comme étant des modules séparés, un ou plusieurs de ceux-ci peuvent être séparés en modules supplémentaires ou combinés. Certains de ces composants peuvent agir sur l'entrée d'un module antérieur. Dans certains cas, les données d'images ou les informations extraites de celles-ci peuvent être redirigées vers un module antérieur pour être traitées plus avant.

Le terme de "logiciel", tel qu'il est utilisé ici, est supposé englober toute collection ou jeu d'instructions exécutables par un ordinateur ou un autre système numérique de façon à configurer l'ordinateur ou l'autre système numérique pour qu'il exécute la tâche qui est le but du logiciel. Le terme 'logiciel", tel qu'il est utilisé ici, est supposé englober de telles instructions stockées dans un support de stockage local ou distant.

La figure 3 illustre un procédé d'évaluation de qualité d'image pouvant être mis en oeuvre avec le système de la figure 2. Le procédé commence à S100.

À S102, un ensemble d'images d'entraînement 32, 34, 36 est prévu. Les images d'entraînement 32, 34, 36 peuvent être associées à des informations textuelles 38, 40 incluant des informations de contenu et une ou des marque(s) de qualité.

À S104, une valeur de qualité 54 pour chaque image d'entraînement est extraite, par exemple à partir d'informations de qualité 38 (par l'extracteur 102). Pour un mode de réalisation, les marques d'utilisateur (leur moyenne) peuvent être quantifiées, par exemple en binaires, en sélectionnant un seuil de marque th et les images < au seuil sont alors étiquetées comme étant mauvaises (par exemple, -1) et le reste des images, c'est-à-dire les images >_ au seuil th, sont étiquetées comme étant bonnes (par exemple, +1). Pour un autre mode de réalisation, les images d'entraînement peuvent éventuellement être filtrées (S106) afin de fournir un ensemble réduit d'images d'entraînement 42, par exemple en retirant des images qui dépassent un premier seuil de valeur de qualité et qui sont également au-dessous d'un second seuil plus élevé. Ceci élimine les images à la limite de séparation. À S104, les images restantes au premier seuil sont ensuite étiquetées comme étant mauvaises (par exemple, -1) et le reste des images, c'est-à-dire les images >_ au second seuil, sont étiquetées comme étant bonnes (par exemple, +1). À S108, des caractéristiques de contenu 50 sont extraites (par l'extracteur 104) de l'ensemble (éventuellement filtré) des images d'entraînement 32, 34, 36. Ces caractéristiques peuvent être extraites, par exemple à partir d'un ou plusieurs éléments parmi : i) des étiquettes appliquées manuellement 40, et ii) les valeurs de contenu produites en sortie par le catégoriseur sémantique 114, en fonction des données d'images. À S110, un descripteur de caractéristique de contenu 56 est généré (par l'extracteur 104) pour chaque image 32, 34, 36, en fonction de la ou des caractéristique(s) de contenu extraite(s) 50.

10 À S112, des caractéristiques esthétiques 52 sont extraites des images d'entraînement 32, 34, 36 (par l'extracteur 106).

À S114, un descripteur de caractéristique esthétique 58 est généré (par l'extracteur 106) pour chaque image d'entraînement 32, 34, 36, en fonction des caractéristiques 15 esthétiques extraites 52.

À S116, le ou les classificateur(s) 110 est/sont entraîné(s) en fonction des valeurs de qualité 54, extraites à S104, et des descripteurs respectifs de caractéristiques de contenu et esthétiques 56, 58 générés à 5110 et S114. Spécifiquement, les paramètres du ou des 20 classificateur(s) entraîné(s) 110 sont stockés dans la mémoire 60.

À S118, une nouvelle image 12 (image d'essai) est fournie en entrée du système 10, par exemple une image qui soit dépourvue de toute information de qualité 38.

25 À S120, une ou des caractéristique(s) de contenu 14 sont extraites de la nouvelle image 12 (par l'extracteur 104).

À S122, un descripteur de caractéristique de contenu 22 est généré pour la nouvelle image 12, en fonction de la ou des caractéristique(s) de contenu 14 extraites à S120 (par 30 l'extracteur 104).

À S124, des caractéristiques esthétiques 16 sont extraites de la nouvelle image 12 (par l'extracteur 106).

35 À S126, un descripteur de caractéristique esthétique 24 est généré pour la nouvelle image 12 (par l'extracteur 106), en fonction des caractéristiques esthétiques 16 extraites à S124.5 À S128, une valeur de qualité 20 est générée en fonction du descripteur esthétique 24 et du descripteur de contenu 22 pour la nouvelle image 12, en utilisant le catégoriseur entraîné 18. Comme noté plus haut, la valeur de qualité 20 peut être quantifiée, par exemple en une valeur binaire (par exemple, +1, -1) qui indique que l'image 12 est bonne ou mauvaise, en terme de qualité, ou en une valeur réelle, par exemple dans la plage de 0 à 1 ou de 1 à 10, ou autres.

À S130, la valeur de qualité 20 est délivrée en sortie, par exemple à un dispositif de stockage en mémoire 62 résident dans l'ordinateur serveur 10 ou via un dispositif d'E/S (entrée/sortie) 66 à un dispositif externe, comme une mémoire externe, un dispositif client 80, une imprimante, un dispositif de visualisation 92 ou un autre dispositif de sortie externe. À S132, la marque de qualité 20 peut être utilisée comme une entrée vers un autre processus informatisé. Le procédé finit à S134.

Comme on l'appréciera, une fois que le catégoriseur 18 a été entraîné, il n'est pas nécessaire de répéter les étapes S104 à S116 pour chaque nouvelle image. En outre, il n'est pas nécessaire d'exécuter toutes les étapes dans l'ordre indiqué, les étapes S108 et S112, par exemple, peuvent être inversées ou exécutées en même temps.

Le procédé illustré sur la figure 3 peut être mis en oeuvre par un produit logiciel informatique pouvant être exécuté sur un ordinateur. Le produit logiciel informatique peut comprendre un support d'enregistrement non-transitoire lisible par un ordinateur, comme un disque, une unité de disque dur ou autre, sur lequel est enregistré un programme de commande pour réaliser le procédé.

Ou alors, le procédé peut être réalisé sur des supports transitoires, tels qu'une onde porteuse transmissible dans laquelle est incorporé le programme de commande sous la forme d'un signal de données utilisant des supports de transmission, comme des ondes acoustiques ou lumineuses, comme celles générées durant des communications de données par ondes radio ou infrarouges.

Divers aspects du système et du procédé vont maintenant être décrits plus en détails. Extraction de caractéristiques de contenu Le mode de réalisation exemplaire suppose que la valeur de qualité d'image 20 attribuée à une image 12 doive être partiellement dépendante du contenu sémantique de l'image. Ainsi, comme il est démontré dans les exemples qui vont suivre, l'utilisation de caractéristiques de contenu 14 décrivant le sujet principal de l'image 12 peut améliorer l'évaluation de sa qualité. Le contenu sémantique 14 de l'image peut être dérivé d'un ou plusieurs éléments parmi des annotations manuelles 23, des étiquettes textuelles produites par des modèles automatiques qui associent à une image des informations textuelles provenant d'autres images, en fonction de la similarité de l'image avec les autres images, des métadonnées, des informations de position GPS ou autres, des marques de catégorisation ou autres, certaines ou la totalité d'entre elles pouvant être utilisées pour la génération d'un descripteur fondé sur le contenu de l'image.

Les images 12, 32, 34, 36 sont décrites avec un ensemble de N0 concepts différents ou catégories de contenu. À chaque image X(i) peut être attribué un premier descripteur sous la forme d'un vecteur de caractéristique xc(i) 22, 56, avec IxicI = Nic (c'est-à-dire, une caractéristique par catégorie), chaque dimension représentant la probabilité qu'un concept spécifique soit représenté dans l'image X(i) : (1) xc(i) = 25 la probabilité de chaque caractéristique (une pondération wD) pouvant être une valeur binaire ou réelle. Dans le premier descripteur xc(i), toutes les pondérations peuvent être normalisées de sorte que leur somme soit égale à 1.

Par exemple, si les informations de contenu 23, 40 incluent des informations sur des catégories attribuées par des humains ou une étiquette incluant une description textuelle de l'image, l'extracteur de caractéristique de contenu 104 peut utiliser ces informations pour générer le descripteur de caractéristique de contenu 22, 56. 30 Pour un mode de réalisation, ces informations de contenu textuel sont sélectionnées à partir d'un ensemble prédéterminé de catégories d'examinateurs. Par exemple, des utilisateurs voyant les images sont limités à sélectionner une ou plusieurs (mais généralement moins de la totalité des) catégories d'examinateurs de l'ensemble. Les 35 catégories d'examinateurs peuvent être alignées avec les catégories de contenu utilisées par le système 10, de sorte que chaque catégorie d'examinateur corresponde à une catégorie respective des catégories de contenu (dans certains cas, deux ou davantage de catégories d'examinateurs peuvent être alignées avec la même catégorie de contenu). Ainsi, par exemple, si un examinateur associe seulement l'étiquette "paysage" à une image, une valeur de caractéristique wj de 1 est attribuée à la caractéristique de contenu "paysage" correspondante et un premier descripteur, comme (0, 1, 0, 0, 0, 0, 0), peut être généré, pour lequel les catégories de contenu sont, par exemple, animal, paysage, personne, urbain, fleur, objet et autres.

Lorsque les étiquettes 23, 40 ont une forme libre, c'est-à-dire qu'elles ne sont restreintes à aucune catégorie, le système 10 peut inclure un analyseur syntaxique qui analyse les informations textuelles 23, 40 pour identifier du texte qui soit reconnu comme se référant à une catégorie de contenu. Par exemple, étant donnée la phrase "ceci est une rose rouge", le système extrait "rose" (nom) et attribue à l'image la catégorie de contenu "fleur", avec une pondération de caractéristique wj de 1.

En outre ou autrement, le descripteur de caractéristique de contenu 22, 56 est fondé sur des caractéristiques extraites des données d'image (pixels) de l'image 12, 32, 34, 36. Dans ce cas, le générateur de descripteur de caractéristique de contenu peut accéder au catégoriseur sémantique 114, pouvant inclure un ou plusieurs classificateurs de contenu visuel. Le catégoriseur 114 peut attribuer à l'image une seule catégorie, la plus probable, ou, de manière probabiliste, toutes les catégories. Le premier descripteur peut donc inclure un contenu textuel et/ou des pondérations fondées sur les données d'image ou des pondérations qui soient une fonction d'à la fois le contenu textuel et le contenu de données d'image.

Des procédés de catégorisation du contenu visuel d'une image, pouvant être utilisés pour générer le descripteur exemplaire de caractéristique de contenu sémantique 22, 56, sont décrits, par exemple, dans les publications U.S. nos 2007005356, 20070258648, 20080069456, 20080317358, 20090144033, 20100040285, 20100092084, 20100098343, 20100318477, les demandes de brevets U.S. nOs 12/512 209, 12/693 795, 12/960 018 et dans "Fisher Kernels on Visual Vocabularies for Image Categorization", de F. Perronnin et C. Dance, dans CVPR 2007.

Par exemple, le catégoriseur sémantique 114 inclut un extracteur de pièce, qui extrait et analyse les caractéristiques relatives au contenu de pièces de l'image 12, 32, 34, 36, comme la forme, la texture, la couleur ou autre. Les pièces peuvent être obtenues par une segmentation d'image, en appliquant des détecteurs de points d'intérêt spécifiques, en considérant une grille régulière ou simplement par un échantillonnage aléatoire de pièces d'images. Les caractéristiques de bas niveau extraites (comme des vecteurs) de chaque pièce peuvent être concaténées pour former un vecteur de caractéristiques qui serve de signature de l'image. Pour d'autres méthodes, les vecteurs de caractéristiques d'une image se voient attribués des groupes. Par exemple, un vocabulaire visuel est obtenu au préalable en regroupant des caractéristiques de bas niveau extraites d'images d'entraînement, en utilisant, par exemple, des K-moyennes. Chaque vecteur de pièce se voit alors attribué le groupe le plus proche et un histogramme des attributions peut être généré. Pour d'autres méthodes, un cadre probabiliste est employé. Par exemple, on suppose qu'il existe un modèle génératif sous-jacent, comme un modèle de mélange gaussien (GMM), à partir duquel tous les vecteurs sont émis. Dans ce cas, le vocabulaire visuel peut être estimé en utilisant l'algorithme d'espérance-maximisation (EM). Dans l'un ou l'autre cas, chaque mot visuel du vocabulaire correspond à un groupement de caractéristiques de bas niveau typiques. Les mots visuels peuvent chacun correspondre (approximativement) à une caractéristique d'image de niveau moyen, comme un type d'objet (par exemple, une boule ou une sphère, une tige ou un arbre, etc.) visuel (plutôt que numérique), un arrière-plan caractéristique (par exemple, un ciel étoilé, un ciel bleu, une prairie, etc.) ou autre. Étant donnée une image à catégoriser, chaque vecteur de caractéristique extrait se voit attribué son mot visuel le plus proche du vocabulaire préalablement entraîné ou tous les mots visuels d'une manière probabiliste dans le cas d'un modèle stochastique. En fonction de cette attribution, une seule catégorie de contenu peut être attribuée ou une attribution probabiliste de toutes les catégories de contenu peut être effectuée. Extraction de caractéristiques esthétiques L'extracteur de caractéristiques esthétiques 106 définit pour chaque image 12, 32, 34, 36 un second descripteur de caractéristique sous la forme d'un vecteur xa(i) 24, 58 composé de caractéristiques directement estimées à partir de l'image. 30 Les caractéristiques esthétiques peuvent inclure des caractéristiques de bas niveau, c'est-à-dire des caractéristiques qui saisissent les propriétés globales de l'image, de même que des caractéristiques de niveau plus élevé qui se concentrent sur des régions locales de l'image.

35 Les techniques d'extraction de caractéristiques de bas niveau peuvent mettre en jeu un ou plusieurs critères parmi : la distribution des couleurs, la distribution d'exposition ou de bords, la luminosité, le flou de mouvement, la plage dynamique, le flou d'arrière-plan,25 le noir et blanc, l'éclairage en clair-obscur, la vitesse d'obturation lente, la règle des tiers, la photographie en macro/gros plan, la symétrie et les motifs, les lignes directrices, les sujets décentrés, le cadrage naturel, le point de vue altéré et autres. Les descripteurs de niveau plus élevé, qui caractérisent des régions locales de l'image, peuvent impliquer l'extraction de telles régions par une segmentation des K-moyennes, des procédés d'extraction de saillance et l'utilisation de contextes géométriques. La raison est de saisir la composition et les propriétés de cadrage en s'intéressant à la position de régions dominantes ou du sujet principal de l'image. Malgré les nombreuses combinaisons de caractéristiques mises en oeuvre et expérimentées dans l'état de la technique, des descripteurs classiques utilisés dans la littérature de la catégorisation d'images n'ont pas été employés dans ce contexte.

Au moins certaines des caractéristiques esthétiques exemplaires de bas niveau peuvent être calculées suivant les procédés décrits dans Datta 2006. Les caractéristiques de Datta 2006 comprennent f1 : l'intensité moyenne de pixel pour caractériser l'utilisation de la lumière ; f2 : une distribution relative de couleurs pour distinguer les images multicolores des images monochromes, sépia ou simplement à contraste bas ; f3 : une saturation moyenne ; f4 : une teinte moyenne ; f5, f6 et f7 : des caractéristiques de règle des tiers, analogue à f2, f3 et f4 mais prenant en compte la région de l'image pour estimer si l'image suit la préférence humaine pour que l'image obéisse à la règle des tiers ; f8 et f9 : des mesures de familiarité qui comparent l'image à d'autres images pour évaluer si le sujet a des chances d'être familier ou non, en donnant des valeurs plus élevées aux images peu communes (c'est-à-dire originales) ; f10 à f21 : des caractéristiques de grain calculées en utilisant la transformée en ondelettes de Daubechies ; f22 : la taille de l'image, qui peut être la somme des deux dimensions de l'image ; f23 : le format d'image, le rapport des deux dimensions de l'image ; f24 à f47+ : des caractéristiques relatives à la segmentation, qui décrivent le regroupement de pixels dans des pièces de couleurs similaires et d'agencements de pièces de couleurs complémentaires ; f54, f55 : des caractéristiques relatives à la profondeur de champ ; et f56 : une caractéristique relative à la convexité de forme, dont les marques donnent des valeurs plus élevées aux formes telles qu'un lune parfaite et des valeurs plus basses à des formes concaves ou complexes. En outre, cet ensemble de caractéristiques peut être augmenté avec des puissances non-linéaires de chacune de ces caractéristiques, c'est-à-dire leurs carrés, cubes et racines carrées, pour obtenir D = 224 vecteurs de caractéristiques dimensionnelles décrivant chaque image, comme il est décrit dans Datta 2007, et/ou avec les caractéristiques décrites dans "The design of high-level features for photo quality assessment" de Y. Ke, X. Tang et F. Jing., volume 1, pages 419 à 426, juin 2006 (par la suite appelé Ke 2006). Les caractéristiques de Ke sont des distributions spatiales de bords, de flou, de distance entre l'histogramme de sa distribution de couleurs et celui d'images professionnelles et d'instantanés, et de compte de nuances en tant que mesure de simplicité, de contraste et de luminosité.

Les valeurs de caractéristiques peuvent toutes être normalisées dans la plage [0, 1], les marques de valeur élevée tendant à être associées à une qualité perçue plus élevée, dans au moins certaines des catégories d'images. Certaines des caractéristiques employées peuvent être sensiblement cumulatives avec d'autres caractéristiques, ce qui ne compromet pas le procédé puisque, pour le mode de réalisation exemplaire, le catégoriseur 18 attribue des pondérations aux caractéristiques.

Ces caractéristiques esthétiques peuvent être combinées, dans le descripteur de caractéristiques esthétiques 24, 58, avec davantage de caractéristiques de descripteur de niveau plus élevé, telles qu'une ou plusieurs caractéristiques parmi une caractéristique d'histogramme de gradient orienté (HOG), une caractéristique (ou autre caractéristique fondée sur le gradient) de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une caractéristique de Gabor. Les caractéristiques HOG, SIFT et de Gabor sont capables de saisir la structure d'images et les propriétés de leurs textures.

Bien que ces trois caractéristiques soient des caractéristiques génériques, plutôt qu'esthétiques, elles peuvent ainsi compléter les caractéristiques de descripteur esthétique décrites plus haut pour effectuer une catégorisation esthétique.

Les filtres de Gabor, par exemple, sont utiles pour une segmentation de texture, une reconnaissance faciale, une détection d'objet et autres. Un filtre de Gabor est un filtre linéaire avec des représentations de fréquence et d'orientation similaires à celles d'un système visuel humain. Dans le domaine spatial, un filtre de Gabor 2D est une fonction de noyau gaussien, avec des variances suivant les axes x et y respectivement, modulées par une onde plane sinusoïdale avec des fréquences centrales spatiales suivant les axes x et y respectivement. Les filtres de Gabor sont auto-similaires, donc tous les filtres peuvent être générés à partir d'une ondelette mère par dilatation et rotation. Chaque filtre de Gabor a une orientation et ainsi chaque orientation d'une pluralité d'orientations peut être utilisée pour fournir une caractéristique au descripteur exemplaire.

Un filtre de Gabor peut être considéré comme un plan sinusoïdal de fréquence et d'orientation particulières, modulé par une (fonction) enveloppe gaussienne. Il peut être exprimé par : x2 y2 -2+-2 (x,y)=e6s aye-127[(u0x+voy) et sa réponse en fréquence par : H(u v)=27ta 6 e-21<2 l(u-"02 -v0 )26y) (3) ~ x y Ceci est équivalent à une conversion de la fonction gaussienne par (uo, vo) dans le domaine fréquentiel. Ainsi, la fonction de Gabor peut être considérée comme étant une 10 fonction gaussienne décalée en fréquence à une position (uo, vo), c'est-à-dire à une distance de -juô +vo à partir de l'origine et à une orientation tan-1--'u an-1 u° de . vo Dans les équations 2 et 3 représentées plus haut, (uo, vo) est la fréquence centrale 15 spatiale du filtre de Gabor. Les paramètres (ak, o -y) sont les déviations normalisées de l'enveloppe gaussienne suivant les directions x et y. aX, a,, déterminent la largeur de bande du filtre. j représente la complexité de l'exponentielle. Diverses applications logicielles (par exemple, réalisées dans Matlab (marque 20 déposée)) sont disponibles pour générer des filtres de Gabor à partir de données d'image d'entrée et peuvent être utilisées pour le mode de réalisation exemplaire pour générer une ou plusieurs caractéristiques pour le descripteur exemplaire, par exemple en utilisant les valeurs par défaut de a x, a,,. Les valeurs uo, vo peuvent être utilisées comme caractéristiques esthétiques. Les différentes orientations du filtre de Gabor permettent à 25 différents bords de l'image d'être détectés. Des caractéristiques exemplaires fondées sur de gradients sont les descripteurs SIFT, comme le décrit Lowe dans "Objet Recognition From Local Scale-Invariant Features", "International Conference on Computer Vision (ICCV)", en 1999, qui sont 30 calculés pour chaque pièce. Les descripteurs SIFT sont des représentations multi-images du voisinage d'une image, comme des dérivées gaussiennes calculées, par exemple, pour huit plans d'orientation sur une grille de quatre par quatre positions spatiales, ce qui donne un vecteur de 128 dimensions (c'est-à-dire de 128 caractéristiques par vecteur de caractéristiques pour ces modes de réalisation). Pour un exemple illustratif employant des 35 caractéristiques SIFT, les caractéristiques sont extraites à partir de pièces de 32 x 32 pixels sur des grilles régulières (tous les 16 pixels) à cinq échelles, pour fournir des descripteurs SIFT de 128 dimensions. Le nombre de caractéristiques est éventuellement (2)5 réduit, par exemple à 64 dimensions, en utilisant une analyse en composantes principales (PCA).

Extraction des valeurs de qualité utilisées à l'entraînement Pour le mode de réalisation exemplaire, les valeurs de qualité 54 des images d'entraînement 32, 34, 36 sont dérivées d'informations de qualité 38 (par exemple, des marques de qualité, des rangs) associées aux images, par exemple obtenues à partir d'un site Web de partage de photos. Les réseaux sociaux ont souvent une politique d'annotation pouvant inclure des étiquettes textuelles ("j'aime", "je n'aime pas") ou une échelle de valeurs numériques (évaluations). Par exemple, sur le site Web photo.net, les utilisateurs peuvent évaluer des images avec une marque comprise entre 1 (affreuse) et 7 (très belle). Aux utilisateurs de ce site Web, les administrateurs du site fournissent les indications suivantes : "raisons d'une évaluation plus proche de 7 : a) ont l'air belles, b) attirent/captivent l'attention, c) ont une composition intéressante, d) utilisent bien les couleurs, e) (si photojournalisme) ont un sens du drame, de l'humour, ont de l'impact, f) (si sport) moments clés, lutte acharnée d'un athlète". Les évaluations peuvent être converties en une marque si ces évaluations ont la forme de réponses textuelles sélectionnables, comme "j'aime".

Pour certains modes de réalisation, au moins certaines ou la totalité des images 32, 34, 36, qui sont utilisées pour l'entraînement, ont plus d'une marque/rang, comme des images avec au moins cinq ou au moins dix marques/rangs 38. Une moyenne, comme la moyenne, la médiane ou le mode de ces marques, peut être prise en tant que valeur de qualité 54. Pour certains modes de réalisation, les valeurs aberrantes, par exemple des marques 38 qui diffèrent de plus d'un ou deux écarts types de la moyenne, peuvent être exclues du calcul de la valeur de qualité 54.

Le catégoriseur 18 peut être entraîné avec des marques brutes 38 provenant des étiquettes ou les marques peuvent être binarisées ou quantifiées autrement (par exemple, en trois ou davantage de niveaux de quantification). Pour un mode de réalisation, pour chaque image i, la moyenne des marques 38 disponibles pour cette image (440 est calculée. Deux seuils e, = + ô/ 2 et e2 = - 5/ 2 sont établis, µ pouvant avoir une valeur aux alentours du milieu de la plage des marques d'utilisateur, comme autour de la marque médiane, et b étant un nombre (ou un autre facteur), qui est choisi pour éliminer par filtrage certaines des images dotées de marques peu concluantes et est un nombre convenable qui détermine quelle proportion des images sont dans une plage intermédiaire au milieu. Cela crée essentiellement trois plages. Ensuite, chaque image est annotée avec une étiquette "bonne" (+1), si qa'(i) >_ e1, et "mauvaise" (-1), si gav(i) <_ e2. Les images 32, 34, 36 qui sont dans la plage du milieu, où e2 < qa'(i) < e1i sont ainsi éliminées par filtrage et ignorées aux fins d'entraîner le catégoriseur. La valeur de ô peut dépendre de la taille de l'ensemble d'entraînement : si 5 est trop grand, il ne sera pas possible d'avoir un nombre raisonnable de bonnes et mauvaises images. S'il est trop petit, il pourra y avoir trop d'images peu concluantes dans l'ensemble pour entraîner le système de classification avec précision. À titre d'exemple, p peut avoir une valeur d'environ 3 à 6, par exemple d'environ 5, et ô une valeur de 0,5 à 3, comme de 1 à 2, dans le cas où la plage des marques possibles va de 1 à 7. Dans ce cas, b < 4 ou il n'y aurait aucune image classée comme étant bonne. Comme on l'appréciera, la marque utilisée pour établir le seuil (5 dans cet exemple) peut être diverse, fonction de la plage de marques attribuée par les utilisateurs, et peut être sélectionnée de telle sorte qu'il y ait un nombre approximativement égal de marques gav(i) étiquetées "bonnes" et "mauvaises".

Le catégoriseur Le catégoriseur exemplaire 18 peut recevoir en entrée une combinaison de caractéristiques hétérogènes (visuelles et textuelles) qui peuvent être dérivées de sources multiples (images, annotations manuelles et étiquettes textuelles) pour une évaluation de la qualité d'image. En particulier, les caractéristiques 14 normalement employées pour une catégorisation fondée sur le contenu sont combinées avec d'autres caractéristiques 16 spécifiquement conçues pour l'analyse de qualité pour fournir une évaluation de qualité d'image dépendant du contenu. L'utilisation d'informations sur le sujet principal de l'image 12 permet une prédiction plus précise de la qualité de l'image. En particulier, deux solutions (fusion précoce et tardive) sont considérées pour l'intégration de caractéristiques de contenu et de caractéristiques esthétiques dans le cadre de la classification.

Le ou les classificateur(s) de catégoriseur 110 peuvent être un ou des classificateur(s) binaire(s) entraînés avec n'importe quel algorithme d'entraînement adéquat linéaire ou non-linéaire, comme la régression logistique d'analyse, l'algorithme de Bayes naïf, l'analyse de discriminant linéaire, les machines à vecteurs de support (SVM), la régression linéaire ou n'importe quel autre procédé adéquat d'apprentissage de machine. Pour le mode de réalisation exemplaire, les SVM utilisant des noyaux de fonction de base radiale (RBF) sont utilisées, comme il est décrit, par exemple, dans Datta 2006. Ceci autorise une comparaison directe avec les résultats de Datta. Toutefois, il sera apprécié que d'autres procédés d'apprentissage de classificateur soient également considérés.

Les descripteurs de caractéristiques 54, 56 ou 22, 24 peuvent être combinés par un ou deux procédés : la fusion précoce et la fusion tardive.

1. Fusion précoce

Pour ce mode de réalisation, des informations esthétiques et de contenu à un niveau de caractéristique sont combinées en fusionnant les descripteurs de caractéristiques Xa et xc en un vecteur unique xt. Pour ce mode de réalisation, des descripteurs de caractéristiques avec différentes échelles peuvent être combinés, qui sont dérivés de sources potentiellement différentes (par exemple, )(a à partir d'une analyse visuelle de l'image, xx d'une ou plusieurs étiquettes textuelles, annotation manuelle et catégorisation automatique). Pour cette raison, une normalisation linéaire peut être appliquée indépendamment à chaque caractéristique du descripteur.

Pour pondérer les deux ensembles de caractéristiques, une fonction d'agrégation pondérée peut être appliquée pour mélanger xa et xc, comme une combinaison pondérée linéaire des deux descripteurs, afin de générer un descripteur unique xt. qui caractérise la qualité de l'image. Le classificateur 110 est alimenté avec xt et une marque de qualité 20 est produite en sortie.

La fonction d'agrégation (appliquée par le module de fusion 112) peut avoir la forme : xt = [(1 - a)xa, axc] (4)

dans laquelle a est une valeur réelle comprise entre 0 et 1.

L'équation 4 peut être soumise à la contrainte que les descripteurs Xa et xc soient chacun normalisés de telle sorte que la somme de leurs pondérations respectives ait la même valeur, par exemple 1. Par exemple, supposons que les caractéristiques (pondérations) du descripteur esthétique soient représentées par Xa = (Wal, Wa2, Wa3, ... Wna) et que les caractéristiques (pondérations) du descripteur de contenu soient représentées par xx = Wc2, %, ---Wnc), dans laquelle : Wa 1 + Wa2 + Wa3 +, ...Wna = 1 et Wa 1 + fat + Wa3 +, ...Wna = 1.

II est clair que si a est fixé à zéro dans l'équation 4, alors seules les caractéristiques esthétiques 16 sont utilisées pour la classification, et pour a = 1, seules la ou les caractéristique(s) de contenu 14 de l'image est/sont utilisée(s) pour évaluer sa qualité. Le catégoriseur exemplaire 18 possède au moins un mode de fonctionnement dans lequel 0 < a <1, de sorte que les deux types de caractéristiques sont considérées. Pour un mode de réalisation exemplaire, 0,01 <_ a, par exemple 0,03 <_ a, et pour un mode de réalisation, 0,05 <_ a ou 0,1 s a. Pour un autre mode de réalisation exemplaire, a <_ 0,9, par exemple a <- 0,8, et pour un mode de réalisation spécifique a <_ 0,6 ou a <_ 0,5. Pour un mode de réalisation exemplaire, 0,05 <_ a <_ 0,5.

Une valeur optimale de a, c'est-à-dire une valeur qui procure une précision qui soit au moins supérieure à celle qui est obtenue sans les caractéristique de contenu, peut être dépendante, en partie des caractéristiques sélectionnées et de l'ensemble des données de l'image. Ainsi, le procédé exemplaire peut inclure l'essai des résultats du système 10 en utilisant des valeurs différentes de a pour identifier une valeur optimale de a pour une base de données donnée.

Le descripteur combiné xt pour chaque image 32, 34, 36 et la valeur de qualité 54 correspondante sont alors fournis en entrée au classificateur 110 pour entraîner ce dernier. Pour une nouvelle image 12, le descripteur combiné xt est délivré en entrée du classificateur entraîné 110, qui produit en sortie une marque de qualité q pour l'image 12, qui peut être utilisée comme valeur de qualité 20.

2. Fusion tardive Pour ce mode de réalisation, au lieu de combiner des informations de contenu et visuelles au niveau de la caractéristique, la sortie de multiples classificateurs 110 entraînés avec des descripteurs dépendant du contenu 56 peut être combinée directement par le module de fusion 112. Par exemple, N0 classificateurs différents 110 sont employés, à raison d'un par catégorie de contenu, et les paramètres de chaque classificateur (incluant éventuellement un ensemble d'hyper-paramètres A;) sont estimés en n'utilisant que les images 32, 34, 36 de la catégorie de contenu j respective. Donc, à l'entraînement, le seul vecteur de caractéristique 58 fourni en entrée des classificateurs 110 est xa. Au moment de l'essai, une nouvelle image X(i) est classifiée en délivrant en entrée le descripteur 24 (xa = (wal, we, wa3, ...Lena)) à tous les Al, classificateurs 110 entraînés. Un nombre correspondant de marques de classification s; est recueilli. La marque finale q est une fonction de chacune des marques de classificateur et de leurs pondérations associées. Par exemple, q est obtenu en pondérant chaque marque de classificateur avec la pondération de caractéristique respective du descripteur xx 22. Une marque moyenne est obtenue en divisant la somme des marques pondérées par le nombre de catégories de contenu : (5) où chaque w; est une pondération respective des pondérations de caractéristiques %, w%, de xc. Pour d'autres modes de réalisation, toutes les pondérations xa se voient donner la même valeur.

La valeur q peut ensuite être utilisée en tant que la marque de qualité 20 de l'image. En pratique, ce procédé s'est avéré donner des résultats améliorés par rapport au procédé de fusion précoce, bien qu'avec d'autres ensembles de données/types de caractéristiques, des résultats différents peuvent être trouvés.

Utilisation de valeurs de qualité

Les valeurs de qualité 20 produites en sortie par le système 10 peuvent être utilisées (à S132) pour une grande variété d'applications. Par exemple, la marque de qualité 20 peut être utilisée dans un processus de recherche d'informations dans lequel la marque de qualité 20 d'une image 12 peut être utilisée, seule ou en combinaison avec d'autres paramètres, pour ordonner un ensemble de telles images 12 extraites par un moteur de recherche en réponse à une demande fournie en entrée par un utilisateur. Pour ce mode de réalisation, chaque image 12 de l'ensemble possède une marque de qualité 20 et, plus la marque est élevée, plus il est probable que l'image soit parmi celles présentées en premier à l'utilisateur, en fonction de ce paramètre.

Pour un autre mode de réalisation, la valeur de qualité 20 peut être utilisée pour donner à visualiser des images sur un écran de visualisation 92 suivant un agencement fondé sur la valeur de qualité (par exemple, la ou les image(s) dotée(s) des marques les plus élevées sera/seront présentée(s) d'abord).

Pour encore un autre mode de réalisation, au moins une image, mais moins que la totalité d'un ensemble d'images 12, à chacune desquelles une valeur de qualité 20 a été attribuée par le système, est sélectionnée, en fonction de sa valeur de qualité. Par exemple, une image peut être sélectionnée pour un collage dans un document, la N q= Ew;s; c 1=1 génération d'un contenu Web, ou autre. Par exemple, la ou les images dotées des marques les plus élevées est/sont sélectionnée(s).

Pour un autre mode de réalisation, une collection d'images d'un utilisateur peut se voir attribuer des étiquettes fondées sur les marques 20, par exemple une appréciation avec des étoiles, de 1 à 5 étoiles. Un utilisateur peut alors extraire, par exemple, les images ayant une appréciation par étoiles d'au moins 4 ou au moins 5 étoiles, par exemple.

Pour un autre mode de réalisation, les marques de qualité 20 peuvent être utilisées pour sélectionner un ensemble d'images à utiliser pour l'entraînement d'un nouveau catégoriseur. Par exemple, seules les images 12 dotées d'une marque au moins égale à un seuil de marque de qualité peuvent être délivrées en entrée à un catégoriseur. Le catégoriseur peut être un catégoriseur sémantique, comme cela a été décrit pour le classificateur 114. Pour un autre mode de réalisation, le catégoriseur entraîné 18 peut être déployé directement dans des appareils de prise de vue photographique afin de faire des suggestions en temps réel à un utilisateur, même avant qu'une image 12 ne soit capturée.

Par exemple, l'image 12 dans le viseur de l'appareil de prise de vue est traitée et une marque de qualité est déterminée. L'appareil de prise de vue peut produire un avertissement sur son écran si l'image 12, lorsqu'elle sera capturée, a des chances d'être de basse qualité (par exemple, inférieure à un seuil).

Sans vouloir limiter le cadre du mode de réalisation exemplaire, les exemples suivants montrent une mise en oeuvre du procédé exemplaire.

EXEMPLE Un prototype de système 10 a été réalisé en utilisant, au départ comme caractéristiques esthétiques, toutes les caractéristiques de la liste pour une classification esthétique décrite dans Datta 2006 (56 caractéristiques), Ke 2006 (7 caractéristiques) et "Photo and video quality evaluation: Focusing on the subject", de Y. Luo et X. Tang, "ECCV (3)", pages 386 à 399 (2008). Les cinq caractéristiques décrites dans la référence de Luo ne se sont pas avérées produire une amélioration par rapport aux 63 autres caractéristiques et ont donc été abandonnées par la suite.

Ensemble de données d'images : pour à la fois les images d'entraînement 100 et les images 12, l'ensemble de données Photo.net 1 a été utilisé. Cette base de données est un ensemble de 3 581 photographies aléatoirement choisies à partir du site Web public photo.net. Toutefois, puisque certaines hyper-liaisons vers les images originales n'étaient plus actives, seules 3 118 de ces images furent disponibles pour un téléchargement. Ces images ont été utilisées pour l'essai. Les images de l'ensemble de données Photo.net 1 se sont vues attribuer des marques avec des valeurs comprises entre 1,0 et 7,0 (7 étant la marque de la qualité la plus élevée) et des votes multiples par image étaient possibles. Les sujets des images sont hautement hétérogènes. Sept catégories principales de contenu furent identifiées en inspectant les titres des images et la catégorisation des images fournis sur le site Web photo.net. Ensuite, chaque image fut étiquetée manuellement avec une des sept catégories. Le Tableau 1 montre le nombre d'images par catégorie.

Tableau 1 Catégorie Nombre d'images Pourcentage de Pourcentage de dans la catégorie "bonnes" images "mauvaises" images pour b=0 pour 6=0 Animal 436 70,41 % 29,59 % Paysage 832 51,80 % 48,20 % Personne 735 44,76 % 55,24 % Urbain 505 40,40 % 59,60 0/0 Fleur 210 47,62 % 52,38 % Objet 241 44,81 % 55,19 % Autre 118 31,36 % 68,64 % En tant que classificateur 110, un ensemble normalisé d'outils de classification de machine de vecteur de support fut utilisé (l'ensemble d'outils IibSVM, décrit dans "LIBSVM: a library for support vector machines", de C.-C. Chang et C.-J. Lin, 2001. Logiciel disponible sur http://www.csie.ntu.edu.tw/-cjlin/libsvm.).

Pour fournir les images d'entraînement et les images d'essai, le total de 3 118 images fut divisé en cinq parties et chaque partie fut séquentiellement utilisée pour les images d'essai 12 dans une configuration de validation croisée à 5 sous-ensembles.

Un protocole d'annotation de qualité d'image fut conçu. II s'agissait d'une classification binaire puisque la qualité d'image était établie en définissant deux catégories de qualité esthétique (bonne, mauvaise). La marque esthétique moyenne qm(i) fut attribuée à chaque image i de la base de données (c'est-à-dire une valeur entre 1 et 7). Deux seuils e, = 5 + 62 et e2 = 5 - 52 furent fixés. Chaque image était annotée avec l'étiquette "bonne" (=1), si qav(i) z e, et "mauvaise" (=-1), si gav(i) 5 62, b = un nombre. Ces étiquettes furent utilisées pour les images d'entraînement et aussi pour la précision de l'évaluation.

Le même cadre de classification que celui de Datta 2006 fut utilisé, qui mettait en jeu une SVM avec un noyau RBF sous la forme : 29 exp(-y *lu vl2).

Pour les expérimentations qui suivent, pour les paramètres de la fonction de base radiale, y = 3,7 et le coût C = 1,0. u et v sont les entrées du noyau.

Le catégoriseur fut entraîné en combinant des caractéristiques de contenu et esthétiques dans une fusion précoce, en utilisant a = 0,15 ou a = 0,35 (étiqueté en tant que "fusion précoce"). Les descripteurs de contenu utilisés pour l'entraînement et l'essai étaient des vecteurs de sept caractéristiques générés en annotant manuellement les images avec une seule des sept catégories présentées dans le Tableau 1.

La précision du système peut être déterminée en comparant, pour chaque image d'essai, la valeur de qualité produite en sortie par le système avec la classification binaire pour cette image et en déterminant une erreur, c'est-à-dire une différence entre ces deux valeurs. Il est alors possible de faire la moyenne des erreurs de toutes les images d'essai de la partie pour donner une valeur comprise entre 0 et 1 et de les exprimer sous la forme d'un pourcentage. Pour certains modes de réalisation, il est possible de faire la moyenne des pourcentages pour les cinq parties. Une précision de 100 % signifierait que toutes les images ont une marque de qualité qui satisfait à la classification de qualité binaire. Cependant, on ne s'attend pas à ça en pratique, à cause de la variabilité des marques appliquées par les utilisateurs.

La figure 4 montre les résultats du système exemplaire utilisant a = 0,35. Les résultats sont comparés à ceux d'un système de "ligne de base" (comme pour la "fusion précoce", excepté que les caractéristiques de contenu ne furent pas utilisées et qu'aucune fusion ne fut nécessaire) et à ceux d'un système de "ligne de base optimisée" (comme pour la ligne de base, excepté que les hyper-paramètres de la SVM ont été optimisés). Les résultats sur la figure 4 montrent une amélioration de la précision par rapport aux systèmes de ligne de base et de ligne de base optimisée.

La figure 5 illustre l'effet d'une variation de a sur les résultats d'une fusion précoce, comme on peut le voir, la valeur optimale de a est d'environ 1,5, bien que des améliorations soient présentées sur la totalité de la plage de 0,05 à 0,55, avec les caractéristiques de contenu relativement simples utilisées dans cet exemple.

La figure 6 compare les résultats de la ligne de base à ceux obtenus en ajoutant divers nombres de caractéristiques de Gabor (2, 3 et 6 orientations). L'ajout de caractéristiques de Gabor améliore les résultats de la ligne de base. Le nombre d'orientations ne semble pas affecter sensiblement la précision.

On peut s'attendre à ce qu'une combinaison de caractéristiques de Gabor avec les caractéristiques de contenu exemplaires permette de réaliser des améliorations supplémentaires de la précision.

Claims

REVENDICATIONS1. Procédé pour prédire la qualité d'image d'une image, comprenant les étapes consistant à : - pour une image d'entrée : - générer un premier descripteur fondé sur des informations de contenu sémantique de l'image ; - générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - avec un catégoriseur ayant été entraîné pour attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, attribuer une valeur de qualité à l'image en fonction des premier et second descripteurs ; et - produire en sortie la valeur de qualité d'image.
2. Procédé selon la revendication 1, pour lequel le premier descripteur est dérivé d'au moins un élément parmi des informations textuelles associées à l'image et des données d'image de l'image.
3. Procédé selon la revendication 2, pour lequel les informations textuelles comprennent au moins un élément parmi une étiquette textuelle associée à l'image et des métadonnées intégrées à l'image.
4. Procédé selon la revendication 1, pour lequel le premier descripteur inclut une valeur pour chaque catégorie d'une pluralité de catégories de contenu.
5. Procédé selon la revendication 4, pour lequel le procédé inclut les étapes consistant à extraire un ensemble de caractéristiques locales de l'image d'entrée, générer une représentation de l'image décrivant la distribution des caractéristiques locales et attribuer la valeur pour chaque catégorie de la pluralité de catégories de contenu dans le premier descripteur en fonction de la représentation de l'image.
6. Procédé selon la revendication 1, pour lequel la génération du second descripteur inclut l'extraction d'une pluralité de caractéristiques esthétiques à partir de pièces de l'image.
7. Procédé selon la revendication 1, pour lequel le second descripteur inclut en outre une caractéristique générique comprenant au moins un élément parmi une fonctionnalité35d'histogramme de gradient orienté (HOG), une fonctionnalité de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une fonctionnalité de Gabor.
8. Procédé selon la revendication 1, pour lequel l'attribution de la valeur de qualité comprend la génération d'un descripteur de combinaison qui est une combinaison éventuellement pondérée des premier et second descripteurs.
9. Procédé selon la revendication 1, comprenant en outre l'entraînement du catégoriseur avec un ensemble d'images d'entraînement, chacune des images d'entraînement comportant des informations de qualité associées, l'entraînement consistant à : - pour chaque image d'entraînement : a) générer une valeur de qualité à partir des informations de qualité ; b) générer un descripteur de caractéristique de contenu fondé sur au moins un élément parmi : i) des informations de contenu associées à l'image, et ii) des informations de catégorie délivrées en sortie par un catégoriseur sémantique en fonction de données d'image de l'image ; et c) générer un descripteur de caractéristique esthétique fondé sur des caractéristiques esthétiques extraites de l'image ; et - entraîner le catégoriseur sur la valeur de qualité, le descripteur de caractéristique de contenu et le descripteur de caractéristique esthétique de chacune des images de l'ensemble d'entraînement.
10. Système de génération d'une évaluation de qualité d'image pour une image, comprenant : - une mémoire stockant : - un extracteur de caractéristique de contenu pour générer un premier descripteur fondé sur des informations de contenu sémantique pour une image d'entrée ; - un extracteur de caractéristique esthétique pour générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - un catégoriseur ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs ; et - un processeur informatique en communication avec la mémoire pour réaliser les extracteurs et le catégoriseur.