FR2974433A1 - Evaluation de la qualite d'image - Google Patents

Evaluation de la qualite d'image Download PDF

Info

Publication number
FR2974433A1
FR2974433A1 FR1253417A FR1253417A FR2974433A1 FR 2974433 A1 FR2974433 A1 FR 2974433A1 FR 1253417 A FR1253417 A FR 1253417A FR 1253417 A FR1253417 A FR 1253417A FR 2974433 A1 FR2974433 A1 FR 2974433A1
Authority
FR
France
Prior art keywords
image
descriptor
quality
content
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1253417A
Other languages
English (en)
Inventor
Luca Marchesotti
Rodrigue Nkoutche
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of FR2974433A1 publication Critical patent/FR2974433A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

Un système et un procédé informatisés de prédiction d'une qualité d'image d'une image sont décrits. Pour une image d'entrée (12), le procédé inclut la génération d'un premier descripteur (22) fondé sur des informations de contenu sémantique de l'image et la génération d'un second descripteur (24) fondé sur des caractéristiques esthétiques extraites de l'image. Avec un catégoriseur (18) ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, une valeur de qualité est attribuée à l'image en fonction des premier et second descripteurs, puis est produite en sortie (20).

Description

ÉVALUATION DE QUALITÉ D'IMAGE
Des aspects des modes de réalisation exemplaires décrits ici concernent un système et un procédé d'évaluation de la qualité d'images photographiques et trouvent une application particulière dans un système automatisé de prédiction de qualité d'image, fondé non seulement sur des caractéristiques esthétiques, mais aussi sur des caractéristiques de contenu.
Des images photographiques numériques sont produites par des photographes professionnels et amateurs en nombre croissant. Ces images peuvent être rendues accessibles par un site web public où elles peuvent être estimées en ce qui concerne leurs caractéristiques de qualité et autres par des observateurs de ce site web.
Des efforts considérables ont été consentis dans le domaine de l'évaluation de la qualité d'image pour concevoir des mesures de qualité pouvant prédire automatiquement la qualité d'image perçue. Un objectif a été d'extraire des descripteurs de l'image numérique avec une bonne corrélation avec les préférences humaines. La présence ou l'absence de dégradations spécifiques du niveau du signal, comme le bruit aléatoire ou structuré (par exemple, le bruit impulsionnel (bruit "sel et poivre"), les artéfacts jpeg (artéfacts de compression), les oscillations parasites) et le flou, ont souvent été utilisées par le passé pour définir la qualité d'une image photographique. Cependant, des capteurs numériques à haute définition sont maintenant aisément disponibles, qui permettent aux photographes de maitriser ces dégradations. L'évaluation de la qualité d'image s'est plus récemment concentrée sur l'appréciation de caractéristiques d'un plus haut niveau allant au-delà des qualités d'images de bas niveau. Voir "Studying aesthetics in photographic images using a computational approach", de R. Datta et al., dans "ECCV (3)", pages 288 à 301, 2006 (par la suite ici "Datta 2006") ; "Learning the consensus on visual quality for next-generation image management", de R. Datta et al., dans "MULTIMEDIA '07: Proc. 15th Intern7 Conf. on Multimedia", pages 533 à 536, 2007 (par la suite ici "Datta 2007") ; et "Algorithmic inferencing of aesthetics and emotion in natural images: An exposition", de R. Datta et al., dans " 15th IEEE Intern7 Conf. on Image Processing', pages 105 à 108, octobre 2008.
Les caractéristiques qui concernent la qualité d'image sont souvent appelées des caractéristiques esthétiques, parce qu'elles sont conçues pour capturer des éléments visuels spécifiques, comme les combinaisons de couleurs, la composition, le cadrage et autres, qui ne sont pas directement en rapport avec le contenu de l'image, mais qui ont un impact sur la qualité perçue de l'image.
Malgré la prolifération des données d'images annotées disponibles sur les réseaux sociaux, les sites Web de partage de photos et autres, qui peuvent être utilisées comme données d'entraînement, le problème d'une évaluation de qualité de haut niveau reste entier. Premièrement, de telles données sont souvent annotées avec un bruit intrinsèque. S'agissant de la préférence humaine, un consensus unanime est rare.
Un second problème concerne la conception de caractéristiques pour capturer la préférence humaine. Les caractéristiques actuellement utilisées ne sont pas toujours en corrélation étroite avec la perception humaine. En d'autres termes, elles ne sont pas suffisamment puissantes pour capturer toutes les informations visuelles qu'un observateur utiliserait pour évaluer la qualité d'image.
Le besoin demeure d'un système et d'un procédé pouvant améliorer l'évaluation automatisée de la qualité d'image.
Suivant un aspect de la présente invention, il est prévu un procédé pour prédire la qualité d'image d'une image. Le procédé comprend les étapes consistant à : - pour une image d'entrée : - générer un premier descripteur fondé sur des informations de contenu sémantique de l'image ; - générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - avec un catégoriseur ayant été entraîné pour attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, attribuer une valeur de qualité à l'image en fonction des premier et second descripteurs ; et - produire en sortie la valeur de qualité d'image.
Suivant un autre mode de réalisation, le premier descripteur est dérivé d'au moins un élément parmi des informations textuelles associées à l'image et des données d'image de l'image.
Pour un autre mode de réalisation, les informations textuelles comprennent au moins un élément parmi une étiquette textuelle associée à l'image et des métadonnées intégrées à l'image.
Pour un autre mode de réalisation, le premier descripteur inclut une valeur pour chaque catégorie d'une pluralité de catégories de contenu.
Pour un autre mode de réalisation, le procédé comprend les étapes consistant à extraire un ensemble de caractéristiques locales de l'image d'entrée, générer une représentation de l'image décrivant la distribution des caractéristiques locales et attribuer la valeur pour chaque catégorie de la pluralité de catégories de contenu dans le premier descripteur en fonction de la représentation de l'image.
Pour un autre mode de réalisation, la génération du second descripteur inclut l'extraction d'une pluralité de caractéristiques esthétiques à partir de pièces de l'image.
Pour un autre mode de réalisation, le second descripteur inclut en outre une caractéristique générique comprenant au moins un élément parmi une fonctionnalité d'histogramme de gradient orienté (HOG), une fonctionnalité de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une fonctionnalité de Gabor.
Pour un autre mode de réalisation, l'attribution de la valeur de qualité comprend la génération d'un descripteur de combinaison qui est une combinaison éventuellement pondérée des premier et second descripteurs.
Pour un autre mode de réalisation, le procédé comprend en outre l'entraînement du catégoriseur avec un ensemble d'images d'entraînement, chacune des images d'entraînement comportant des informations de qualité associées, l'entraînement consistant à : - pour chaque image d'entraînement : a) générer une valeur de qualité à partir des informations de qualité ; b) générer un descripteur de caractéristique de contenu fondé sur au moins un élément parmi : i) des informations de contenu associées à l'image, et ii) des informations de catégorie délivrées en sortie par un catégoriseur sémantique en fonction de données d'image de l'image ; et c) générer un descripteur de caractéristique esthétique fondé sur des caractéristiques esthétiques extraites de l'image ; et - entraîner le catégoriseur sur la valeur de qualité, le descripteur de caractéristique de contenu et le descripteur de caractéristique esthétique de chacune des images de l'ensemble d'entraînement.
Suivant un autre aspect de la présente invention, il est prévu un système de génération d'une évaluation de qualité d'image pour une image. Le système comprend : - une mémoire stockant : - un extracteur de caractéristique de contenu pour générer un premier descripteur fondé sur des informations de contenu sémantique pour une image d'entrée ; - un extracteur de caractéristique esthétique pour générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - un catégoriseur ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs ; et - un processeur informatique en communication avec la mémoire pour réaliser les extracteurs et le catégoriseur.
D'autres variantes des aspects et des modes de réalisation décrits plus haut peuvent se rapporter aux procédés et systèmes suivants. Pour une variante, au moins une des opérations parmi la génération des premier et second descripteurs et l'attribution de la valeur de qualité est exécutée avec un processeur informatique.
25 Pour une autre variante, la caractéristique générique inclut une caractéristique de Gabor.
Pour une autre variante, la caractéristique de Gabor peut être un plan sinusoïdal de fréquence et d'orientation particulières, modulé par une enveloppe gaussienne.
Pour une autre variante, le descripteur de combinaison peut être combiné à une fonction d'agrégation ayant la forme : xt = [(1 - a)xa, axe] (4)
où xc représente le premier descripteur, xa représente le second descripteur, et 30 35 <a<1.
Pour une autre variante, l'attribution de la valeur de qualité peut inclure le classement du second descripteur avec un ensemble de classificateurs, à raison d'un pour chaque catégorie de contenu respective, afin de générer une marque de classificateur respectif pour chaque catégorie de contenu ; et la génération de la valeur de qualité fondée sur une combinaison pondérée des marques de classificateurs, la pondération de chaque marque de classificateur étant dérivée d'une valeur de caractéristique respective du premier descripteur.
Pour une autre variante, les informations de qualité peuvent inclure, pour chaque image, au moins un rang ou un classement de l'image, relatif à la qualité, fourni en entrée par l'observateur.
Pour une autre variante, le procédé peut en outre inclure l'utilisation de la valeur de qualité comme un paramètre pour l'extraction d'images dans un système de recherche documentaire.
Pour une variante, un produit logiciel informatique est prévu et inclut un support 20 d'enregistrement non-transitoire codant des instructions qui, lorsqu'elles sont exécutées par un ordinateur, mettent en oeuvre le procédé décrit plus haut.
Pour encore une autre variante, un système de mise en oeuvre du procédé décrit plus haut peut inclure une mémoire non-transitoire stockant des instructions pour exécuter le 25 procédé et un processeur informatique réalisant les instructions.
Pour une autre variante du système décrit plus haut, le catégoriseur peut inclure au moins un classificateur et un module de fusion effectuant une fusion précoce ou une fusion tardive. Pour une autre variante, le module de fusion peut effectuer une fusion précoce incluant la génération d'un descripteur de combinaison, qui est une combinaison éventuellement pondérée des premier et second descripteurs, délivré en entrée du classificateur. 35 Pour une autre variante, l'au moins un classificateur peut comprendre une pluralité de classificateurs, incluant un classificateur pour chaque catégorie respective d'une pluralité 5 30 de catégories de contenu, et le module de fusion effectue une fusion tardive comprenant la génération d'une valeur de qualité fondée sur une combinaison pondérée d'une pluralité de marques de classificateurs produites en sortie par la pluralité de classificateurs en fonction du second descripteur, la pondération pour chaque marque de classificateur étant dérivée d'une valeur de caractéristique respective du premier descripteur.
Encore une autre variante concerne un procédé de prédiction de la qualité d'image d'une image et inclut la réception d'un ensemble d'images d'entraînement, chaque image de l'ensemble comportant des informations textuelles associées décrivant le contenu sémantique de l'image, et une valeur de qualité d'image fondée sur des informations de qualité d'image fournies par un utilisateur. Un catégoriseur est entraîné en fonction des étiquettes des images, de leurs valeurs de qualité d'image et des caractéristiques extraites des images.
Pour une image d'entrée comportant des informations textuelles mais pas de valeur de qualité d'image, le procédé inclut l'extraction de caractéristiques à partir de données d'image de l'image et, avec le catégoriseur, l'attribution d'une valeur de qualité à l'image en fonction des informations textuelles et de caractéristiques extraites. La valeur de qualité d'image est délivrée en sortie.
La figure 1 est une vue schématique d'entrées vers un catégoriseur exemplaire au cours de l'entraînement et de son utilisation ; la figure 2 est un schéma de blocs fonctionnels d'un système d'évaluation de qualité d'image suivant un aspect du mode de réalisation exemplaire ; la figure 3 est un organigramme illustrant un procédé d'évaluation de qualité d'image, suivant un autre aspect du mode de réalisation exemplaire ; la figure 4 est un graphe montrant les résultats obtenus avec le procédé exemplaire et avec des procédés comparatifs ; la figure 5 est un graphe montrant l'effet du choix de valeurs différentes de a pour un procédé de fusion tardive ; et la figure 6 est un graphe montrant l'effet sur la précision de l'utilisation de caractéristiques de Gabor avec différents nombres d'orientations.
Le mode de réalisation exemplaire concerne un système et un procédé informatisés d'évaluation de qualité d'image. Le système et le procédé exemplaires incorporent une combinaison de caractéristiques et une intégration d'informations hétérogènes pour une évaluation de qualité d'image. Deux types de caractéristiques sont considérés : des caractéristiques d'images de bas niveau qui fournissent une caractérisation globale de l'image et des caractéristiques de niveau plus élevé qui caractérisent des régions de l'image. Deux procédés de fusion de classificateurs sont proposés pour combiner des classifications fondées sur les deux types différents de caractéristiques. Avec le premier, la combinaison est effectuée comme une concaténation éventuellement pondérée des caractéristiques de niveaux bas et haut. Avec le second, la combinaison est réalisée au moyen de pondérations dans une fusion tardive de marques de contenus, spécifiques aux classes.
Il existe de nombreux cas dans lesquels une prédiction automatisée d'une préférence humaine, directement à partir de données, peut être utile. Par exemple, dans des systèmes d'extraction d'images, les résultats des procédés traditionnels d'extraction fondée sur le contenu pourraient être affinés ou intégrés en utilisant le système exemplaire. En outre, le système pourrait être disposé directement sur les dispositifs de prise de vue afin de faire des suggestions en temps réel sur ce qu'il convient de prendre dans une scène donnée.
La figure 1 illustre schématiquement des aspects des modes de réalisation exemplaires. La figure 2 illustre un système exemplaire 10 pour attribuer une évaluation de qualité d'image à une image 12. La figure 3 illustre un procédé exemplaire pour attribuer une évaluation de qualité d'image à une image, qui vise à fournir une qualité d'image perçue qui s'accorderait avec celle d'un observateur moyen. Comme le montre la figure 1, durant l'exécution, le système exemplaire 10 génère un ensemble de caractéristiques pour une image 12 à catégoriser, qui peut inclure à la fois des caractéristiques de contenu 14 et des caractéristiques esthétiques 16. Un catégoriseur combiné 18 a été entraîné à attribuer une évaluation de qualité d'image 20 à l'image d'entrée 12. L'évaluation a la forme d'une valeur de qualité 20 qui est une fonction des caractéristiques de contenu (caractéristiques de haut niveau) 14 et des caractéristiques esthétiques (caractéristiques de bas niveau) 16.
L'évaluation de qualité d'image 20 est donc une évaluation automatisée de la qualité d'une image 12, qui prédit la qualité d'image qui serait perçue par un groupe d'observateurs humains. L'évaluation de qualité d'image 20 produite en sortie par le présent système peut être une marque sous la forme d'une valeur réelle comprise dans une plage prédéfinie de valeurs maximale et minimale, par exemple sur une échelle, par exemple de 0 à 1, où 0 représente la qualité d'image la plus basse, c'est-à-dire une très mauvaise image, et 1 représente la qualité d'image la plus élevée, c'est-à-dire une très bonne image, ou une marque quantifiée, comme une appréciation par étoiles (1 étoile étant la valeur la plus basse et K étoiles la plus élevée, K pouvant être une valeur maximale prédéterminée de 5 à 10, par exemple). Pour d'autres modes de réalisation, la valeur 20 peut être un rang (par exemple, 1 correspondant à la qualité d'image la plus élevée et d'autres images d'un ensemble ayant des valeurs plus élevées correspondant à des rangs inférieurs) ou une description verbale de la qualité d'image sélectionnée parmi un ensemble fini de descriptions verbales possibles (comme "basse qualité", "qualité moyenne", "bonne qualité" et "excellente qualité").
Les caractéristiques de contenu 14 décrivent le contenu visuellement perceptible de l'image par catégorie. Un ensemble de catégories de contenu sémantique peut être défini, chacune d'elles représentant un concept respectif que l'on peut s'attendre à rencontrer dans certaines images d'entrée 12. À titre d'exemple, un ensemble de catégories peut représenter les concepts : animal, paysage, personne, urbain, fleur, objet et d'autres.
Comme on l'appréciera, n'importe quel nombre de catégories peut être prévu, comme au moins cinq catégories. II peut y avoir, par exemple, jusqu'à dix catégories de contenu et, pour certains modes de réalisation, jusqu'à vingt ou cent catégories de contenu, ou plus. À une image 12 peut être attribué un descripteur de caractéristique de contenu 22 sous la forme d'un vecteur de caractéristique incluant une valeur pour chacune des catégories, en fonction d'une ou plusieurs caractéristiques de contenu 14. Les caractéristiques de contenu 14 peuvent être extraites à partir d'informations textuelles 23 associées à l'image 12, comme une étiquette textuelle décrivant le contenu sémantique de l'image, des métadonnées incorporées à l'image et/ou des informations de position GPS ou autres associées à l'image. Des caractéristiques de contenu peuvent autrement ou en plus être extraites des données d'image elles-mêmes, c'est-à-dire les pixels de l'image en utilisant, par exemple, un catégoriseur sémantique, comme il va être décrit plus bas. Les valeurs formant le descripteur de caractéristique de contenu peuvent être quantifiées, par exemple en valeurs binaires (0 ou 1) ou peuvent être des valeurs réelles comprises dans une plage prédéterminée, comme dans la gamme [0, 1].
Les caractéristiques esthétiques 16 sont des caractéristiques pouvant être extraites en fonction des pixels de l'image. Toute combinaison adéquate de caractéristiques esthétiques peut être sélectionnée qui évalue une plage de critères de qualité d'image perçue, comme le flou, le grain, le contraste, la saturation, la distribution des couleurs, la conformité à la règle des tiers, l'originalité, l'utilisation de couleurs complémentaires, la profondeur de champ, la présence de formes agréables, la taille de l'image, le format d'image, la présence d'yeux rouges ou d'autres artefacts, et autres.
Le catégoriseur 18 est entraîné avec un ensemble d'images d'entraînement 30, 32, 34, etc., comme de cent à un million d'images d'entraînement. Chaque image d'entraînement 30, 32, 34 inclut des données d'images 36 constituant une matrice de pixels. Les images d'entraînement sont chacune étiquetées avec des informations de qualité 38, comme une marque (ou de multiples marques) attribuée par un examinateur humain. Les images d'entraînement 30, 32, 34 peuvent être étiquetées avec des informations de contenu 40 (analogues aux informations 23), comme une catégorie attribuée par un examinateur. Un ensemble réduit 42 d'images d'entraînement peut être sélectionné pour l'entraînement, en fonction d'une ou plusieurs des informations de qualité 38 et des informations de contenu 40.
Pour chaque image, des caractéristiques, telles que des caractéristiques de contenu 50 et des caractéristiques esthétiques 52, et une valeur normalisée de qualité 54 sont générées. Des descripteurs de caractéristiques de contenu et esthétiques 56, 58 (au même format que les caractéristiques 14, 16 de l'image 12 à catégoriser) sont délivrés en entrée au catégoriseur 18. Le catégoriseur 18 apprend à attribuer une valeur de qualité 20 à une nouvelle image 12 en fonction des descripteurs de caractéristique d'entrée 56, 58 et des valeurs de qualité associées 54 de chacune des images d'entraînement 30, 32, 34, etc. En se référant maintenant à la figure 2, un environnement exemplaire dans lequel opère le système de qualité d'image 10 est représenté. Le système 10 comprend un ou plusieurs dispositifs de traitement, comme l'ordinateur serveur illustré, et inclut une mémoire, illustrée ici par une mémoire principale 60 et une mémoire de données 62, un processeur 64, comme l'unité centrale (CPU) de l'ordinateur, et une ou plusieurs interfaces (E/S) de réseau 66 pour communiquer avec d'autres dispositifs, tous reliés de façon à communiquer par un bus (ou des bus) de données/communication 68. Le ou les ordinateur(s) peut être un PC (ordinateur personnel), comme un ordinateur de bureau, portable ou de poche, un assistant numérique portable (PDA), un appareil numérique de prise de vue, un ordinateur serveur, un téléphone cellulaire, un ordinateur tablette, un gestionnaire de pages ou un autre ou d'autres dispositif(s) de calcul capable d'exécuter des instructions pour mettre en oeuvre le procédé exemplaire.
Le processeur numérique 64 peut être réalisé de diverses manières, comme par un processeur à coeur unique, un processeur à double coeur (ou plus généralement par un processeur à coeurs multiples), un processeur numérique et un coprocesseur mathématique coopérant, un contrôleur numérique ou autres.
La ou les mémoire(s) 60, 62 peut représenter tout type de support tangible lisible par un ordinateur, tel qu'une mémoire à accès aléatoire (RAM), une mémoire à lecture seule (ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash ou une mémoire holographique ou une combinaison de ceux-ci. La mémoire 60 peut stocker des instructions pour le fonctionnement de l'ordinateur serveur, de même que pour mettre en oeuvre le procédé exemplaire d'évaluation de qualité d'image décrit plus bas. La mémoire 62 stocke des images 12 en cours de traitement par le procédé exemplaire, de même que les données traitées 20.
L'interface de réseau 66 permet à l'ordinateur de communiquer avec d'autres dispositifs via des liaisons câblées ou sans fil, comme le réseau d'ordinateur 70, par exemple un réseau local (LAN), un réseau à grande distance (WAN), comme l'Internet, une ligne téléphonique, une connexion câblée ou une combinaison de ceux-ci, et peut comprendre un modulateur/démodulateur (MODEM).
Les images 12 à catégoriser sont fournies en entrée au système 10 depuis une source 80 d'images, comme un dispositif de traitement d'usage général ou d'usage spécial, tel qu'un PC, un ordinateur portable, un appareil de prise de vue, un téléphone cellulaire ou autre, ou depuis un dispositif de stockage en mémoire non-transitoire, comme un lecteur flash, un disque, une unité de disque dur portable, une clé de mémoire de prise de vue ou autres. Pour le mode de réalisation exemplaire, la source 80 est un dispositif de traitement client qui inclut une mémoire 82 stockant les images 12 et un navigateur Web 84 pour télécharger en liaison montante des images vers un portail Web hébergé par l'ordinateur serveur, qui est réalisé par un processeur 86. La mémoire 82 et le processeur 86 peuvent, de façon similaire, être configurés en une mémoire 60, 62 et un processeur 64. Une ou plusieurs interfaces 88, 90 permettent à l'ordinateur 80 de communiquer avec le système 10 et avec un dispositif de visualisation 92, comme un moniteur d'ordinateur, un écran à cristaux liquides (LCD) ou autre, et un ou plusieurs dispositifs d'entrée d'utilisateur 94, comme un écran tactile, un clavier, un bloc de touches, un dispositif de commande de curseur ou une combinaison de ceux-ci.
Un ensemble d'images d'entraînement, comme les images d'entraînement 32, 34, 36, est stocké dans une base de données (ou des bases de données) 100. La base de données 100 peut être stockée dans la mémoire 62 ou dans une mémoire accessible au système 10, par exemple via un réseau 70.
Les images 12, 32, 34, 36 peuvent être reçues par le système 10 dans n'importe quel format de fichier pratique, comme JPEG, TIFF, GIF, JBIG, BMP, ou un autre format de fichier commun utilisé pour des images et pouvant éventuellement être converti en un autre format adéquat avant le traitement. Les images peuvent être des photographies individuelles, des images vidéo, des images tridimensionnelles, des images combinées incluant des textes/graphismes de même qu'une photographie et autres. En général, chaque image numérique d'entrée inclut des données d'image pour une matrice de pixels formant l'image. Les données d'image peuvent inclure des valeurs de colorations, comme des valeurs de niveaux de gris, pour chaque séparation d'un ensemble de séparations de couleurs, tel que RGB, ou être exprimées dans un autre espace de couleurs dans lequel des couleurs différentes peuvent être représentées. En général, le terme de "niveaux de gris" se réfère à la valeur de densité optique d'une séparation de couleur unique quelconque, quelle que soit la manière de l'exprimer (RGB, L*a*b*, YCbCr, etc.). Le système et le procédé exemplaires sont applicables à des images monochromes (une seule séparation de couleurs), de même qu'à des images multicolores (deux ou davantage de séparations de couleurs). Tel qu'il est utilisé ici, le terme de "données d'images" n'inclut pas les informations textuelles 23, 40 pouvant accompagner les données d'images, par exemple sous la forme de métadonnées, d'une étiquette HTML, d'informations dans un fichier associé ou autres.
Le système 10 inclut des instructions logicielles stockées dans la mémoire principale 60 afin de mettre en oeuvre le procédé exemplaire illustré sur la figure 3. Ces instructions sont exécutées par le processeur 64 et sont illustrées comme un ensemble de composants : un extracteur de valeur de qualité 102, un extracteur de caractéristiques de contenu 104, un extracteur de caractéristiques esthétiques 106 et le catégoriseur combiné 18. Le catégoriseur combiné 18 peut inclure un ou plusieurs classificateurs discriminateurs 110 et un module de fusion 112.
En bref, l'extracteur de valeur de qualité 102 extrait une valeur de qualité 54 pour chaque image d'entraînement 32, 34, 36. La valeur de qualité peut être simplement une valeur numérique réelle dérivée d'informations fournies par un observateur humain et associées à l'image des informations de qualité 38. Par exemple, des examinateurs peuvent attribuer un nombre entier compris entre 1 et 10 à chaque image 32, 34, 36, 10 représentant la qualité la plus élevée, ou un rang (1 représentant la qualité la plus élevée). Certaines images d'entraînement 32, 34, 36 peuvent avoir été évaluées par plus d'un examinateur, auquel cas la valeur de qualité 54 peut être une moyenne ou une autre fonction des marques d'examinateurs 38. Comme on l'appréciera, une fois que le catégoriseur 18 a été entraîné, le composant 102 n'est plus nécessaire.
L'extracteur de caractéristique de contenu 104 extrait des caractéristiques de contenu 14, 50 pour l'image 12, 32, 34, 36 et génère un descripteur de caractéristique de contenu 22, 56 pour l'image respective, en fonction des caractéristiques de contenu 14 ou 50, qui est représentatif du contenu sémantique de l'image. Pour un mode de réalisation, l'extracteur de caractéristique de contenu 104 inclut ou accède à un catégoriseur sémantique 114, qui extrait certaines ou la totalité des caractéristiques de contenu 14, 50 des données d'image de l'image 12, 32, 34, 36. Le descripteur exemplaire de caractéristique de contenu 22, 56 n'est donc fondé sur aucune des caractéristiques esthétiques.
L'extracteur de caractéristique esthétique 106 extrait des caractéristiques esthétiques 16, 52 pour l'image 12, 32, 34, 36 et génère un descripteur de caractéristique esthétique 24, 58 respectif à partir de caractéristiques 16, 52 pour l'image, qui est au moins partiellement prédictif de l'apparence esthétique de l'image. Le descripteur exemplaire de caractéristique esthétique 24, 58 n'est donc fondé sur aucune des caractéristiques de contenu.
Le catégoriseur combiné 18, ayant été entraîné avec des descripteurs de caractéristique de contenu 56, des descripteurs de caractéristique esthétique 58 et des valeurs de qualité 54, est capable de catégoriser la nouvelle image 12 (qui peut n'avoir aucune information de qualité associée) en fonction de son contenu et de descripteurs de caractéristique esthétique 22, 24 (et non d'informations de qualité associées). Le module de fusion 112 fusionne les résultats provenant des deux ou davantage de classificateurs 110 ou fusionne les descripteurs 22, 24 avant leur entrée vers un classificateur 110, par exemple en utilisant un procédé de fusion tardive ou de fusion précoce, respectivement. Pour un mode de réalisation, le module de fusion 112 est un module de fusion précoce qui fusionne les descripteurs de caractéristique 22 et 24 (ou, à l'entraînement, 56 et 58) en un unique descripteur avant l'entrée du classificateur 110. Pour un autre mode de réalisation, le module de fusion 112 est un module de fusion tardive qui reçoit la marque délivrée en sortie par chacun des classificateurs 110, à raison d'un par catégorie, et génère une marque de qualité globale 20 en tant que fonction pondérée des marques délivrées en sortie par les classificateurs 110.
Comme on l'appréciera, bien que les divers composants logiciels 102, 104, 106, 18, 114 soient décrits comme étant des modules séparés, un ou plusieurs de ceux-ci peuvent être séparés en modules supplémentaires ou combinés. Certains de ces composants peuvent agir sur l'entrée d'un module antérieur. Dans certains cas, les données d'images ou les informations extraites de celles-ci peuvent être redirigées vers un module antérieur pour être traitées plus avant.
Le terme de "logiciel", tel qu'il est utilisé ici, est supposé englober toute collection ou jeu d'instructions exécutables par un ordinateur ou un autre système numérique de façon à configurer l'ordinateur ou l'autre système numérique pour qu'il exécute la tâche qui est le but du logiciel. Le terme 'logiciel", tel qu'il est utilisé ici, est supposé englober de telles instructions stockées dans un support de stockage local ou distant.
La figure 3 illustre un procédé d'évaluation de qualité d'image pouvant être mis en oeuvre avec le système de la figure 2. Le procédé commence à S100.
À S102, un ensemble d'images d'entraînement 32, 34, 36 est prévu. Les images d'entraînement 32, 34, 36 peuvent être associées à des informations textuelles 38, 40 incluant des informations de contenu et une ou des marque(s) de qualité.
À S104, une valeur de qualité 54 pour chaque image d'entraînement est extraite, par exemple à partir d'informations de qualité 38 (par l'extracteur 102). Pour un mode de réalisation, les marques d'utilisateur (leur moyenne) peuvent être quantifiées, par exemple en binaires, en sélectionnant un seuil de marque th et les images < au seuil sont alors étiquetées comme étant mauvaises (par exemple, -1) et le reste des images, c'est-à-dire les images >_ au seuil th, sont étiquetées comme étant bonnes (par exemple, +1). Pour un autre mode de réalisation, les images d'entraînement peuvent éventuellement être filtrées (S106) afin de fournir un ensemble réduit d'images d'entraînement 42, par exemple en retirant des images qui dépassent un premier seuil de valeur de qualité et qui sont également au-dessous d'un second seuil plus élevé. Ceci élimine les images à la limite de séparation. À S104, les images restantes au premier seuil sont ensuite étiquetées comme étant mauvaises (par exemple, -1) et le reste des images, c'est-à-dire les images >_ au second seuil, sont étiquetées comme étant bonnes (par exemple, +1). À S108, des caractéristiques de contenu 50 sont extraites (par l'extracteur 104) de l'ensemble (éventuellement filtré) des images d'entraînement 32, 34, 36. Ces caractéristiques peuvent être extraites, par exemple à partir d'un ou plusieurs éléments parmi : i) des étiquettes appliquées manuellement 40, et ii) les valeurs de contenu produites en sortie par le catégoriseur sémantique 114, en fonction des données d'images. À S110, un descripteur de caractéristique de contenu 56 est généré (par l'extracteur 104) pour chaque image 32, 34, 36, en fonction de la ou des caractéristique(s) de contenu extraite(s) 50.
10 À S112, des caractéristiques esthétiques 52 sont extraites des images d'entraînement 32, 34, 36 (par l'extracteur 106).
À S114, un descripteur de caractéristique esthétique 58 est généré (par l'extracteur 106) pour chaque image d'entraînement 32, 34, 36, en fonction des caractéristiques 15 esthétiques extraites 52.
À S116, le ou les classificateur(s) 110 est/sont entraîné(s) en fonction des valeurs de qualité 54, extraites à S104, et des descripteurs respectifs de caractéristiques de contenu et esthétiques 56, 58 générés à 5110 et S114. Spécifiquement, les paramètres du ou des 20 classificateur(s) entraîné(s) 110 sont stockés dans la mémoire 60.
À S118, une nouvelle image 12 (image d'essai) est fournie en entrée du système 10, par exemple une image qui soit dépourvue de toute information de qualité 38.
25 À S120, une ou des caractéristique(s) de contenu 14 sont extraites de la nouvelle image 12 (par l'extracteur 104).
À S122, un descripteur de caractéristique de contenu 22 est généré pour la nouvelle image 12, en fonction de la ou des caractéristique(s) de contenu 14 extraites à S120 (par 30 l'extracteur 104).
À S124, des caractéristiques esthétiques 16 sont extraites de la nouvelle image 12 (par l'extracteur 106).
35 À S126, un descripteur de caractéristique esthétique 24 est généré pour la nouvelle image 12 (par l'extracteur 106), en fonction des caractéristiques esthétiques 16 extraites à S124.5 À S128, une valeur de qualité 20 est générée en fonction du descripteur esthétique 24 et du descripteur de contenu 22 pour la nouvelle image 12, en utilisant le catégoriseur entraîné 18. Comme noté plus haut, la valeur de qualité 20 peut être quantifiée, par exemple en une valeur binaire (par exemple, +1, -1) qui indique que l'image 12 est bonne ou mauvaise, en terme de qualité, ou en une valeur réelle, par exemple dans la plage de 0 à 1 ou de 1 à 10, ou autres.
À S130, la valeur de qualité 20 est délivrée en sortie, par exemple à un dispositif de stockage en mémoire 62 résident dans l'ordinateur serveur 10 ou via un dispositif d'E/S (entrée/sortie) 66 à un dispositif externe, comme une mémoire externe, un dispositif client 80, une imprimante, un dispositif de visualisation 92 ou un autre dispositif de sortie externe. À S132, la marque de qualité 20 peut être utilisée comme une entrée vers un autre processus informatisé. Le procédé finit à S134.
Comme on l'appréciera, une fois que le catégoriseur 18 a été entraîné, il n'est pas nécessaire de répéter les étapes S104 à S116 pour chaque nouvelle image. En outre, il n'est pas nécessaire d'exécuter toutes les étapes dans l'ordre indiqué, les étapes S108 et S112, par exemple, peuvent être inversées ou exécutées en même temps.
Le procédé illustré sur la figure 3 peut être mis en oeuvre par un produit logiciel informatique pouvant être exécuté sur un ordinateur. Le produit logiciel informatique peut comprendre un support d'enregistrement non-transitoire lisible par un ordinateur, comme un disque, une unité de disque dur ou autre, sur lequel est enregistré un programme de commande pour réaliser le procédé.
Ou alors, le procédé peut être réalisé sur des supports transitoires, tels qu'une onde porteuse transmissible dans laquelle est incorporé le programme de commande sous la forme d'un signal de données utilisant des supports de transmission, comme des ondes acoustiques ou lumineuses, comme celles générées durant des communications de données par ondes radio ou infrarouges.
Divers aspects du système et du procédé vont maintenant être décrits plus en détails. Extraction de caractéristiques de contenu Le mode de réalisation exemplaire suppose que la valeur de qualité d'image 20 attribuée à une image 12 doive être partiellement dépendante du contenu sémantique de l'image. Ainsi, comme il est démontré dans les exemples qui vont suivre, l'utilisation de caractéristiques de contenu 14 décrivant le sujet principal de l'image 12 peut améliorer l'évaluation de sa qualité. Le contenu sémantique 14 de l'image peut être dérivé d'un ou plusieurs éléments parmi des annotations manuelles 23, des étiquettes textuelles produites par des modèles automatiques qui associent à une image des informations textuelles provenant d'autres images, en fonction de la similarité de l'image avec les autres images, des métadonnées, des informations de position GPS ou autres, des marques de catégorisation ou autres, certaines ou la totalité d'entre elles pouvant être utilisées pour la génération d'un descripteur fondé sur le contenu de l'image.
Les images 12, 32, 34, 36 sont décrites avec un ensemble de N0 concepts différents ou catégories de contenu. À chaque image X(i) peut être attribué un premier descripteur sous la forme d'un vecteur de caractéristique xc(i) 22, 56, avec IxicI = Nic (c'est-à-dire, une caractéristique par catégorie), chaque dimension représentant la probabilité qu'un concept spécifique soit représenté dans l'image X(i) : (1) xc(i) = 25 la probabilité de chaque caractéristique (une pondération wD) pouvant être une valeur binaire ou réelle. Dans le premier descripteur xc(i), toutes les pondérations peuvent être normalisées de sorte que leur somme soit égale à 1.
Par exemple, si les informations de contenu 23, 40 incluent des informations sur des catégories attribuées par des humains ou une étiquette incluant une description textuelle de l'image, l'extracteur de caractéristique de contenu 104 peut utiliser ces informations pour générer le descripteur de caractéristique de contenu 22, 56. 30 Pour un mode de réalisation, ces informations de contenu textuel sont sélectionnées à partir d'un ensemble prédéterminé de catégories d'examinateurs. Par exemple, des utilisateurs voyant les images sont limités à sélectionner une ou plusieurs (mais généralement moins de la totalité des) catégories d'examinateurs de l'ensemble. Les 35 catégories d'examinateurs peuvent être alignées avec les catégories de contenu utilisées par le système 10, de sorte que chaque catégorie d'examinateur corresponde à une catégorie respective des catégories de contenu (dans certains cas, deux ou davantage de catégories d'examinateurs peuvent être alignées avec la même catégorie de contenu). Ainsi, par exemple, si un examinateur associe seulement l'étiquette "paysage" à une image, une valeur de caractéristique wj de 1 est attribuée à la caractéristique de contenu "paysage" correspondante et un premier descripteur, comme (0, 1, 0, 0, 0, 0, 0), peut être généré, pour lequel les catégories de contenu sont, par exemple, animal, paysage, personne, urbain, fleur, objet et autres.
Lorsque les étiquettes 23, 40 ont une forme libre, c'est-à-dire qu'elles ne sont restreintes à aucune catégorie, le système 10 peut inclure un analyseur syntaxique qui analyse les informations textuelles 23, 40 pour identifier du texte qui soit reconnu comme se référant à une catégorie de contenu. Par exemple, étant donnée la phrase "ceci est une rose rouge", le système extrait "rose" (nom) et attribue à l'image la catégorie de contenu "fleur", avec une pondération de caractéristique wj de 1.
En outre ou autrement, le descripteur de caractéristique de contenu 22, 56 est fondé sur des caractéristiques extraites des données d'image (pixels) de l'image 12, 32, 34, 36. Dans ce cas, le générateur de descripteur de caractéristique de contenu peut accéder au catégoriseur sémantique 114, pouvant inclure un ou plusieurs classificateurs de contenu visuel. Le catégoriseur 114 peut attribuer à l'image une seule catégorie, la plus probable, ou, de manière probabiliste, toutes les catégories. Le premier descripteur peut donc inclure un contenu textuel et/ou des pondérations fondées sur les données d'image ou des pondérations qui soient une fonction d'à la fois le contenu textuel et le contenu de données d'image.
Des procédés de catégorisation du contenu visuel d'une image, pouvant être utilisés pour générer le descripteur exemplaire de caractéristique de contenu sémantique 22, 56, sont décrits, par exemple, dans les publications U.S. nos 2007005356, 20070258648, 20080069456, 20080317358, 20090144033, 20100040285, 20100092084, 20100098343, 20100318477, les demandes de brevets U.S. nOs 12/512 209, 12/693 795, 12/960 018 et dans "Fisher Kernels on Visual Vocabularies for Image Categorization", de F. Perronnin et C. Dance, dans CVPR 2007.
Par exemple, le catégoriseur sémantique 114 inclut un extracteur de pièce, qui extrait et analyse les caractéristiques relatives au contenu de pièces de l'image 12, 32, 34, 36, comme la forme, la texture, la couleur ou autre. Les pièces peuvent être obtenues par une segmentation d'image, en appliquant des détecteurs de points d'intérêt spécifiques, en considérant une grille régulière ou simplement par un échantillonnage aléatoire de pièces d'images. Les caractéristiques de bas niveau extraites (comme des vecteurs) de chaque pièce peuvent être concaténées pour former un vecteur de caractéristiques qui serve de signature de l'image. Pour d'autres méthodes, les vecteurs de caractéristiques d'une image se voient attribués des groupes. Par exemple, un vocabulaire visuel est obtenu au préalable en regroupant des caractéristiques de bas niveau extraites d'images d'entraînement, en utilisant, par exemple, des K-moyennes. Chaque vecteur de pièce se voit alors attribué le groupe le plus proche et un histogramme des attributions peut être généré. Pour d'autres méthodes, un cadre probabiliste est employé. Par exemple, on suppose qu'il existe un modèle génératif sous-jacent, comme un modèle de mélange gaussien (GMM), à partir duquel tous les vecteurs sont émis. Dans ce cas, le vocabulaire visuel peut être estimé en utilisant l'algorithme d'espérance-maximisation (EM). Dans l'un ou l'autre cas, chaque mot visuel du vocabulaire correspond à un groupement de caractéristiques de bas niveau typiques. Les mots visuels peuvent chacun correspondre (approximativement) à une caractéristique d'image de niveau moyen, comme un type d'objet (par exemple, une boule ou une sphère, une tige ou un arbre, etc.) visuel (plutôt que numérique), un arrière-plan caractéristique (par exemple, un ciel étoilé, un ciel bleu, une prairie, etc.) ou autre. Étant donnée une image à catégoriser, chaque vecteur de caractéristique extrait se voit attribué son mot visuel le plus proche du vocabulaire préalablement entraîné ou tous les mots visuels d'une manière probabiliste dans le cas d'un modèle stochastique. En fonction de cette attribution, une seule catégorie de contenu peut être attribuée ou une attribution probabiliste de toutes les catégories de contenu peut être effectuée. Extraction de caractéristiques esthétiques L'extracteur de caractéristiques esthétiques 106 définit pour chaque image 12, 32, 34, 36 un second descripteur de caractéristique sous la forme d'un vecteur xa(i) 24, 58 composé de caractéristiques directement estimées à partir de l'image. 30 Les caractéristiques esthétiques peuvent inclure des caractéristiques de bas niveau, c'est-à-dire des caractéristiques qui saisissent les propriétés globales de l'image, de même que des caractéristiques de niveau plus élevé qui se concentrent sur des régions locales de l'image.
35 Les techniques d'extraction de caractéristiques de bas niveau peuvent mettre en jeu un ou plusieurs critères parmi : la distribution des couleurs, la distribution d'exposition ou de bords, la luminosité, le flou de mouvement, la plage dynamique, le flou d'arrière-plan,25 le noir et blanc, l'éclairage en clair-obscur, la vitesse d'obturation lente, la règle des tiers, la photographie en macro/gros plan, la symétrie et les motifs, les lignes directrices, les sujets décentrés, le cadrage naturel, le point de vue altéré et autres. Les descripteurs de niveau plus élevé, qui caractérisent des régions locales de l'image, peuvent impliquer l'extraction de telles régions par une segmentation des K-moyennes, des procédés d'extraction de saillance et l'utilisation de contextes géométriques. La raison est de saisir la composition et les propriétés de cadrage en s'intéressant à la position de régions dominantes ou du sujet principal de l'image. Malgré les nombreuses combinaisons de caractéristiques mises en oeuvre et expérimentées dans l'état de la technique, des descripteurs classiques utilisés dans la littérature de la catégorisation d'images n'ont pas été employés dans ce contexte.
Au moins certaines des caractéristiques esthétiques exemplaires de bas niveau peuvent être calculées suivant les procédés décrits dans Datta 2006. Les caractéristiques de Datta 2006 comprennent f1 : l'intensité moyenne de pixel pour caractériser l'utilisation de la lumière ; f2 : une distribution relative de couleurs pour distinguer les images multicolores des images monochromes, sépia ou simplement à contraste bas ; f3 : une saturation moyenne ; f4 : une teinte moyenne ; f5, f6 et f7 : des caractéristiques de règle des tiers, analogue à f2, f3 et f4 mais prenant en compte la région de l'image pour estimer si l'image suit la préférence humaine pour que l'image obéisse à la règle des tiers ; f8 et f9 : des mesures de familiarité qui comparent l'image à d'autres images pour évaluer si le sujet a des chances d'être familier ou non, en donnant des valeurs plus élevées aux images peu communes (c'est-à-dire originales) ; f10 à f21 : des caractéristiques de grain calculées en utilisant la transformée en ondelettes de Daubechies ; f22 : la taille de l'image, qui peut être la somme des deux dimensions de l'image ; f23 : le format d'image, le rapport des deux dimensions de l'image ; f24 à f47+ : des caractéristiques relatives à la segmentation, qui décrivent le regroupement de pixels dans des pièces de couleurs similaires et d'agencements de pièces de couleurs complémentaires ; f54, f55 : des caractéristiques relatives à la profondeur de champ ; et f56 : une caractéristique relative à la convexité de forme, dont les marques donnent des valeurs plus élevées aux formes telles qu'un lune parfaite et des valeurs plus basses à des formes concaves ou complexes. En outre, cet ensemble de caractéristiques peut être augmenté avec des puissances non-linéaires de chacune de ces caractéristiques, c'est-à-dire leurs carrés, cubes et racines carrées, pour obtenir D = 224 vecteurs de caractéristiques dimensionnelles décrivant chaque image, comme il est décrit dans Datta 2007, et/ou avec les caractéristiques décrites dans "The design of high-level features for photo quality assessment" de Y. Ke, X. Tang et F. Jing., volume 1, pages 419 à 426, juin 2006 (par la suite appelé Ke 2006). Les caractéristiques de Ke sont des distributions spatiales de bords, de flou, de distance entre l'histogramme de sa distribution de couleurs et celui d'images professionnelles et d'instantanés, et de compte de nuances en tant que mesure de simplicité, de contraste et de luminosité.
Les valeurs de caractéristiques peuvent toutes être normalisées dans la plage [0, 1], les marques de valeur élevée tendant à être associées à une qualité perçue plus élevée, dans au moins certaines des catégories d'images. Certaines des caractéristiques employées peuvent être sensiblement cumulatives avec d'autres caractéristiques, ce qui ne compromet pas le procédé puisque, pour le mode de réalisation exemplaire, le catégoriseur 18 attribue des pondérations aux caractéristiques.
Ces caractéristiques esthétiques peuvent être combinées, dans le descripteur de caractéristiques esthétiques 24, 58, avec davantage de caractéristiques de descripteur de niveau plus élevé, telles qu'une ou plusieurs caractéristiques parmi une caractéristique d'histogramme de gradient orienté (HOG), une caractéristique (ou autre caractéristique fondée sur le gradient) de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une caractéristique de Gabor. Les caractéristiques HOG, SIFT et de Gabor sont capables de saisir la structure d'images et les propriétés de leurs textures.
Bien que ces trois caractéristiques soient des caractéristiques génériques, plutôt qu'esthétiques, elles peuvent ainsi compléter les caractéristiques de descripteur esthétique décrites plus haut pour effectuer une catégorisation esthétique.
Les filtres de Gabor, par exemple, sont utiles pour une segmentation de texture, une reconnaissance faciale, une détection d'objet et autres. Un filtre de Gabor est un filtre linéaire avec des représentations de fréquence et d'orientation similaires à celles d'un système visuel humain. Dans le domaine spatial, un filtre de Gabor 2D est une fonction de noyau gaussien, avec des variances suivant les axes x et y respectivement, modulées par une onde plane sinusoïdale avec des fréquences centrales spatiales suivant les axes x et y respectivement. Les filtres de Gabor sont auto-similaires, donc tous les filtres peuvent être générés à partir d'une ondelette mère par dilatation et rotation. Chaque filtre de Gabor a une orientation et ainsi chaque orientation d'une pluralité d'orientations peut être utilisée pour fournir une caractéristique au descripteur exemplaire.
Un filtre de Gabor peut être considéré comme un plan sinusoïdal de fréquence et d'orientation particulières, modulé par une (fonction) enveloppe gaussienne. Il peut être exprimé par : x2 y2 -2+-2 (x,y)=e6s aye-127[(u0x+voy) et sa réponse en fréquence par : H(u v)=27ta 6 e-21<2 l(u-"02 -v0 )26y) (3) ~ x y Ceci est équivalent à une conversion de la fonction gaussienne par (uo, vo) dans le domaine fréquentiel. Ainsi, la fonction de Gabor peut être considérée comme étant une 10 fonction gaussienne décalée en fréquence à une position (uo, vo), c'est-à-dire à une distance de -juô +vo à partir de l'origine et à une orientation tan-1--'u an-1 u° de . vo Dans les équations 2 et 3 représentées plus haut, (uo, vo) est la fréquence centrale 15 spatiale du filtre de Gabor. Les paramètres (ak, o -y) sont les déviations normalisées de l'enveloppe gaussienne suivant les directions x et y. aX, a,, déterminent la largeur de bande du filtre. j représente la complexité de l'exponentielle. Diverses applications logicielles (par exemple, réalisées dans Matlab (marque 20 déposée)) sont disponibles pour générer des filtres de Gabor à partir de données d'image d'entrée et peuvent être utilisées pour le mode de réalisation exemplaire pour générer une ou plusieurs caractéristiques pour le descripteur exemplaire, par exemple en utilisant les valeurs par défaut de a x, a,,. Les valeurs uo, vo peuvent être utilisées comme caractéristiques esthétiques. Les différentes orientations du filtre de Gabor permettent à 25 différents bords de l'image d'être détectés. Des caractéristiques exemplaires fondées sur de gradients sont les descripteurs SIFT, comme le décrit Lowe dans "Objet Recognition From Local Scale-Invariant Features", "International Conference on Computer Vision (ICCV)", en 1999, qui sont 30 calculés pour chaque pièce. Les descripteurs SIFT sont des représentations multi-images du voisinage d'une image, comme des dérivées gaussiennes calculées, par exemple, pour huit plans d'orientation sur une grille de quatre par quatre positions spatiales, ce qui donne un vecteur de 128 dimensions (c'est-à-dire de 128 caractéristiques par vecteur de caractéristiques pour ces modes de réalisation). Pour un exemple illustratif employant des 35 caractéristiques SIFT, les caractéristiques sont extraites à partir de pièces de 32 x 32 pixels sur des grilles régulières (tous les 16 pixels) à cinq échelles, pour fournir des descripteurs SIFT de 128 dimensions. Le nombre de caractéristiques est éventuellement (2)5 réduit, par exemple à 64 dimensions, en utilisant une analyse en composantes principales (PCA).
Extraction des valeurs de qualité utilisées à l'entraînement Pour le mode de réalisation exemplaire, les valeurs de qualité 54 des images d'entraînement 32, 34, 36 sont dérivées d'informations de qualité 38 (par exemple, des marques de qualité, des rangs) associées aux images, par exemple obtenues à partir d'un site Web de partage de photos. Les réseaux sociaux ont souvent une politique d'annotation pouvant inclure des étiquettes textuelles ("j'aime", "je n'aime pas") ou une échelle de valeurs numériques (évaluations). Par exemple, sur le site Web photo.net, les utilisateurs peuvent évaluer des images avec une marque comprise entre 1 (affreuse) et 7 (très belle). Aux utilisateurs de ce site Web, les administrateurs du site fournissent les indications suivantes : "raisons d'une évaluation plus proche de 7 : a) ont l'air belles, b) attirent/captivent l'attention, c) ont une composition intéressante, d) utilisent bien les couleurs, e) (si photojournalisme) ont un sens du drame, de l'humour, ont de l'impact, f) (si sport) moments clés, lutte acharnée d'un athlète". Les évaluations peuvent être converties en une marque si ces évaluations ont la forme de réponses textuelles sélectionnables, comme "j'aime".
Pour certains modes de réalisation, au moins certaines ou la totalité des images 32, 34, 36, qui sont utilisées pour l'entraînement, ont plus d'une marque/rang, comme des images avec au moins cinq ou au moins dix marques/rangs 38. Une moyenne, comme la moyenne, la médiane ou le mode de ces marques, peut être prise en tant que valeur de qualité 54. Pour certains modes de réalisation, les valeurs aberrantes, par exemple des marques 38 qui diffèrent de plus d'un ou deux écarts types de la moyenne, peuvent être exclues du calcul de la valeur de qualité 54.
Le catégoriseur 18 peut être entraîné avec des marques brutes 38 provenant des étiquettes ou les marques peuvent être binarisées ou quantifiées autrement (par exemple, en trois ou davantage de niveaux de quantification). Pour un mode de réalisation, pour chaque image i, la moyenne des marques 38 disponibles pour cette image (440 est calculée. Deux seuils e, = + ô/ 2 et e2 = - 5/ 2 sont établis, µ pouvant avoir une valeur aux alentours du milieu de la plage des marques d'utilisateur, comme autour de la marque médiane, et b étant un nombre (ou un autre facteur), qui est choisi pour éliminer par filtrage certaines des images dotées de marques peu concluantes et est un nombre convenable qui détermine quelle proportion des images sont dans une plage intermédiaire au milieu. Cela crée essentiellement trois plages. Ensuite, chaque image est annotée avec une étiquette "bonne" (+1), si qa'(i) >_ e1, et "mauvaise" (-1), si gav(i) <_ e2. Les images 32, 34, 36 qui sont dans la plage du milieu, où e2 < qa'(i) < e1i sont ainsi éliminées par filtrage et ignorées aux fins d'entraîner le catégoriseur. La valeur de ô peut dépendre de la taille de l'ensemble d'entraînement : si 5 est trop grand, il ne sera pas possible d'avoir un nombre raisonnable de bonnes et mauvaises images. S'il est trop petit, il pourra y avoir trop d'images peu concluantes dans l'ensemble pour entraîner le système de classification avec précision. À titre d'exemple, p peut avoir une valeur d'environ 3 à 6, par exemple d'environ 5, et ô une valeur de 0,5 à 3, comme de 1 à 2, dans le cas où la plage des marques possibles va de 1 à 7. Dans ce cas, b < 4 ou il n'y aurait aucune image classée comme étant bonne. Comme on l'appréciera, la marque utilisée pour établir le seuil (5 dans cet exemple) peut être diverse, fonction de la plage de marques attribuée par les utilisateurs, et peut être sélectionnée de telle sorte qu'il y ait un nombre approximativement égal de marques gav(i) étiquetées "bonnes" et "mauvaises".
Le catégoriseur Le catégoriseur exemplaire 18 peut recevoir en entrée une combinaison de caractéristiques hétérogènes (visuelles et textuelles) qui peuvent être dérivées de sources multiples (images, annotations manuelles et étiquettes textuelles) pour une évaluation de la qualité d'image. En particulier, les caractéristiques 14 normalement employées pour une catégorisation fondée sur le contenu sont combinées avec d'autres caractéristiques 16 spécifiquement conçues pour l'analyse de qualité pour fournir une évaluation de qualité d'image dépendant du contenu. L'utilisation d'informations sur le sujet principal de l'image 12 permet une prédiction plus précise de la qualité de l'image. En particulier, deux solutions (fusion précoce et tardive) sont considérées pour l'intégration de caractéristiques de contenu et de caractéristiques esthétiques dans le cadre de la classification.
Le ou les classificateur(s) de catégoriseur 110 peuvent être un ou des classificateur(s) binaire(s) entraînés avec n'importe quel algorithme d'entraînement adéquat linéaire ou non-linéaire, comme la régression logistique d'analyse, l'algorithme de Bayes naïf, l'analyse de discriminant linéaire, les machines à vecteurs de support (SVM), la régression linéaire ou n'importe quel autre procédé adéquat d'apprentissage de machine. Pour le mode de réalisation exemplaire, les SVM utilisant des noyaux de fonction de base radiale (RBF) sont utilisées, comme il est décrit, par exemple, dans Datta 2006. Ceci autorise une comparaison directe avec les résultats de Datta. Toutefois, il sera apprécié que d'autres procédés d'apprentissage de classificateur soient également considérés.
Les descripteurs de caractéristiques 54, 56 ou 22, 24 peuvent être combinés par un ou deux procédés : la fusion précoce et la fusion tardive.
1. Fusion précoce
Pour ce mode de réalisation, des informations esthétiques et de contenu à un niveau de caractéristique sont combinées en fusionnant les descripteurs de caractéristiques Xa et xc en un vecteur unique xt. Pour ce mode de réalisation, des descripteurs de caractéristiques avec différentes échelles peuvent être combinés, qui sont dérivés de sources potentiellement différentes (par exemple, )(a à partir d'une analyse visuelle de l'image, xx d'une ou plusieurs étiquettes textuelles, annotation manuelle et catégorisation automatique). Pour cette raison, une normalisation linéaire peut être appliquée indépendamment à chaque caractéristique du descripteur.
Pour pondérer les deux ensembles de caractéristiques, une fonction d'agrégation pondérée peut être appliquée pour mélanger xa et xc, comme une combinaison pondérée linéaire des deux descripteurs, afin de générer un descripteur unique xt. qui caractérise la qualité de l'image. Le classificateur 110 est alimenté avec xt et une marque de qualité 20 est produite en sortie.
La fonction d'agrégation (appliquée par le module de fusion 112) peut avoir la forme : xt = [(1 - a)xa, axc] (4)
dans laquelle a est une valeur réelle comprise entre 0 et 1.
L'équation 4 peut être soumise à la contrainte que les descripteurs Xa et xc soient chacun normalisés de telle sorte que la somme de leurs pondérations respectives ait la même valeur, par exemple 1. Par exemple, supposons que les caractéristiques (pondérations) du descripteur esthétique soient représentées par Xa = (Wal, Wa2, Wa3, ... Wna) et que les caractéristiques (pondérations) du descripteur de contenu soient représentées par xx = Wc2, %, ---Wnc), dans laquelle : Wa 1 + Wa2 + Wa3 +, ...Wna = 1 et Wa 1 + fat + Wa3 +, ...Wna = 1.
II est clair que si a est fixé à zéro dans l'équation 4, alors seules les caractéristiques esthétiques 16 sont utilisées pour la classification, et pour a = 1, seules la ou les caractéristique(s) de contenu 14 de l'image est/sont utilisée(s) pour évaluer sa qualité. Le catégoriseur exemplaire 18 possède au moins un mode de fonctionnement dans lequel 0 < a <1, de sorte que les deux types de caractéristiques sont considérées. Pour un mode de réalisation exemplaire, 0,01 <_ a, par exemple 0,03 <_ a, et pour un mode de réalisation, 0,05 <_ a ou 0,1 s a. Pour un autre mode de réalisation exemplaire, a <_ 0,9, par exemple a <- 0,8, et pour un mode de réalisation spécifique a <_ 0,6 ou a <_ 0,5. Pour un mode de réalisation exemplaire, 0,05 <_ a <_ 0,5.
Une valeur optimale de a, c'est-à-dire une valeur qui procure une précision qui soit au moins supérieure à celle qui est obtenue sans les caractéristique de contenu, peut être dépendante, en partie des caractéristiques sélectionnées et de l'ensemble des données de l'image. Ainsi, le procédé exemplaire peut inclure l'essai des résultats du système 10 en utilisant des valeurs différentes de a pour identifier une valeur optimale de a pour une base de données donnée.
Le descripteur combiné xt pour chaque image 32, 34, 36 et la valeur de qualité 54 correspondante sont alors fournis en entrée au classificateur 110 pour entraîner ce dernier. Pour une nouvelle image 12, le descripteur combiné xt est délivré en entrée du classificateur entraîné 110, qui produit en sortie une marque de qualité q pour l'image 12, qui peut être utilisée comme valeur de qualité 20.
2. Fusion tardive Pour ce mode de réalisation, au lieu de combiner des informations de contenu et visuelles au niveau de la caractéristique, la sortie de multiples classificateurs 110 entraînés avec des descripteurs dépendant du contenu 56 peut être combinée directement par le module de fusion 112. Par exemple, N0 classificateurs différents 110 sont employés, à raison d'un par catégorie de contenu, et les paramètres de chaque classificateur (incluant éventuellement un ensemble d'hyper-paramètres A;) sont estimés en n'utilisant que les images 32, 34, 36 de la catégorie de contenu j respective. Donc, à l'entraînement, le seul vecteur de caractéristique 58 fourni en entrée des classificateurs 110 est xa. Au moment de l'essai, une nouvelle image X(i) est classifiée en délivrant en entrée le descripteur 24 (xa = (wal, we, wa3, ...Lena)) à tous les Al, classificateurs 110 entraînés. Un nombre correspondant de marques de classification s; est recueilli. La marque finale q est une fonction de chacune des marques de classificateur et de leurs pondérations associées. Par exemple, q est obtenu en pondérant chaque marque de classificateur avec la pondération de caractéristique respective du descripteur xx 22. Une marque moyenne est obtenue en divisant la somme des marques pondérées par le nombre de catégories de contenu : (5) où chaque w; est une pondération respective des pondérations de caractéristiques %, w%, de xc. Pour d'autres modes de réalisation, toutes les pondérations xa se voient donner la même valeur.
La valeur q peut ensuite être utilisée en tant que la marque de qualité 20 de l'image. En pratique, ce procédé s'est avéré donner des résultats améliorés par rapport au procédé de fusion précoce, bien qu'avec d'autres ensembles de données/types de caractéristiques, des résultats différents peuvent être trouvés.
Utilisation de valeurs de qualité
Les valeurs de qualité 20 produites en sortie par le système 10 peuvent être utilisées (à S132) pour une grande variété d'applications. Par exemple, la marque de qualité 20 peut être utilisée dans un processus de recherche d'informations dans lequel la marque de qualité 20 d'une image 12 peut être utilisée, seule ou en combinaison avec d'autres paramètres, pour ordonner un ensemble de telles images 12 extraites par un moteur de recherche en réponse à une demande fournie en entrée par un utilisateur. Pour ce mode de réalisation, chaque image 12 de l'ensemble possède une marque de qualité 20 et, plus la marque est élevée, plus il est probable que l'image soit parmi celles présentées en premier à l'utilisateur, en fonction de ce paramètre.
Pour un autre mode de réalisation, la valeur de qualité 20 peut être utilisée pour donner à visualiser des images sur un écran de visualisation 92 suivant un agencement fondé sur la valeur de qualité (par exemple, la ou les image(s) dotée(s) des marques les plus élevées sera/seront présentée(s) d'abord).
Pour encore un autre mode de réalisation, au moins une image, mais moins que la totalité d'un ensemble d'images 12, à chacune desquelles une valeur de qualité 20 a été attribuée par le système, est sélectionnée, en fonction de sa valeur de qualité. Par exemple, une image peut être sélectionnée pour un collage dans un document, la N q= Ew;s; c 1=1 génération d'un contenu Web, ou autre. Par exemple, la ou les images dotées des marques les plus élevées est/sont sélectionnée(s).
Pour un autre mode de réalisation, une collection d'images d'un utilisateur peut se voir attribuer des étiquettes fondées sur les marques 20, par exemple une appréciation avec des étoiles, de 1 à 5 étoiles. Un utilisateur peut alors extraire, par exemple, les images ayant une appréciation par étoiles d'au moins 4 ou au moins 5 étoiles, par exemple.
Pour un autre mode de réalisation, les marques de qualité 20 peuvent être utilisées pour sélectionner un ensemble d'images à utiliser pour l'entraînement d'un nouveau catégoriseur. Par exemple, seules les images 12 dotées d'une marque au moins égale à un seuil de marque de qualité peuvent être délivrées en entrée à un catégoriseur. Le catégoriseur peut être un catégoriseur sémantique, comme cela a été décrit pour le classificateur 114. Pour un autre mode de réalisation, le catégoriseur entraîné 18 peut être déployé directement dans des appareils de prise de vue photographique afin de faire des suggestions en temps réel à un utilisateur, même avant qu'une image 12 ne soit capturée.
Par exemple, l'image 12 dans le viseur de l'appareil de prise de vue est traitée et une marque de qualité est déterminée. L'appareil de prise de vue peut produire un avertissement sur son écran si l'image 12, lorsqu'elle sera capturée, a des chances d'être de basse qualité (par exemple, inférieure à un seuil).
Sans vouloir limiter le cadre du mode de réalisation exemplaire, les exemples suivants montrent une mise en oeuvre du procédé exemplaire.
EXEMPLE Un prototype de système 10 a été réalisé en utilisant, au départ comme caractéristiques esthétiques, toutes les caractéristiques de la liste pour une classification esthétique décrite dans Datta 2006 (56 caractéristiques), Ke 2006 (7 caractéristiques) et "Photo and video quality evaluation: Focusing on the subject", de Y. Luo et X. Tang, "ECCV (3)", pages 386 à 399 (2008). Les cinq caractéristiques décrites dans la référence de Luo ne se sont pas avérées produire une amélioration par rapport aux 63 autres caractéristiques et ont donc été abandonnées par la suite.
Ensemble de données d'images : pour à la fois les images d'entraînement 100 et les images 12, l'ensemble de données Photo.net 1 a été utilisé. Cette base de données est un ensemble de 3 581 photographies aléatoirement choisies à partir du site Web public photo.net. Toutefois, puisque certaines hyper-liaisons vers les images originales n'étaient plus actives, seules 3 118 de ces images furent disponibles pour un téléchargement. Ces images ont été utilisées pour l'essai. Les images de l'ensemble de données Photo.net 1 se sont vues attribuer des marques avec des valeurs comprises entre 1,0 et 7,0 (7 étant la marque de la qualité la plus élevée) et des votes multiples par image étaient possibles. Les sujets des images sont hautement hétérogènes. Sept catégories principales de contenu furent identifiées en inspectant les titres des images et la catégorisation des images fournis sur le site Web photo.net. Ensuite, chaque image fut étiquetée manuellement avec une des sept catégories. Le Tableau 1 montre le nombre d'images par catégorie.
Tableau 1 Catégorie Nombre d'images Pourcentage de Pourcentage de dans la catégorie "bonnes" images "mauvaises" images pour b=0 pour 6=0 Animal 436 70,41 % 29,59 % Paysage 832 51,80 % 48,20 % Personne 735 44,76 % 55,24 % Urbain 505 40,40 % 59,60 0/0 Fleur 210 47,62 % 52,38 % Objet 241 44,81 % 55,19 % Autre 118 31,36 % 68,64 % En tant que classificateur 110, un ensemble normalisé d'outils de classification de machine de vecteur de support fut utilisé (l'ensemble d'outils IibSVM, décrit dans "LIBSVM: a library for support vector machines", de C.-C. Chang et C.-J. Lin, 2001. Logiciel disponible sur http://www.csie.ntu.edu.tw/-cjlin/libsvm.).
Pour fournir les images d'entraînement et les images d'essai, le total de 3 118 images fut divisé en cinq parties et chaque partie fut séquentiellement utilisée pour les images d'essai 12 dans une configuration de validation croisée à 5 sous-ensembles.
Un protocole d'annotation de qualité d'image fut conçu. II s'agissait d'une classification binaire puisque la qualité d'image était établie en définissant deux catégories de qualité esthétique (bonne, mauvaise). La marque esthétique moyenne qm(i) fut attribuée à chaque image i de la base de données (c'est-à-dire une valeur entre 1 et 7). Deux seuils e, = 5 + 62 et e2 = 5 - 52 furent fixés. Chaque image était annotée avec l'étiquette "bonne" (=1), si qav(i) z e, et "mauvaise" (=-1), si gav(i) 5 62, b = un nombre. Ces étiquettes furent utilisées pour les images d'entraînement et aussi pour la précision de l'évaluation.
Le même cadre de classification que celui de Datta 2006 fut utilisé, qui mettait en jeu une SVM avec un noyau RBF sous la forme : 29 exp(-y *lu vl2).
Pour les expérimentations qui suivent, pour les paramètres de la fonction de base radiale, y = 3,7 et le coût C = 1,0. u et v sont les entrées du noyau.
Le catégoriseur fut entraîné en combinant des caractéristiques de contenu et esthétiques dans une fusion précoce, en utilisant a = 0,15 ou a = 0,35 (étiqueté en tant que "fusion précoce"). Les descripteurs de contenu utilisés pour l'entraînement et l'essai étaient des vecteurs de sept caractéristiques générés en annotant manuellement les images avec une seule des sept catégories présentées dans le Tableau 1.
La précision du système peut être déterminée en comparant, pour chaque image d'essai, la valeur de qualité produite en sortie par le système avec la classification binaire pour cette image et en déterminant une erreur, c'est-à-dire une différence entre ces deux valeurs. Il est alors possible de faire la moyenne des erreurs de toutes les images d'essai de la partie pour donner une valeur comprise entre 0 et 1 et de les exprimer sous la forme d'un pourcentage. Pour certains modes de réalisation, il est possible de faire la moyenne des pourcentages pour les cinq parties. Une précision de 100 % signifierait que toutes les images ont une marque de qualité qui satisfait à la classification de qualité binaire. Cependant, on ne s'attend pas à ça en pratique, à cause de la variabilité des marques appliquées par les utilisateurs.
La figure 4 montre les résultats du système exemplaire utilisant a = 0,35. Les résultats sont comparés à ceux d'un système de "ligne de base" (comme pour la "fusion précoce", excepté que les caractéristiques de contenu ne furent pas utilisées et qu'aucune fusion ne fut nécessaire) et à ceux d'un système de "ligne de base optimisée" (comme pour la ligne de base, excepté que les hyper-paramètres de la SVM ont été optimisés). Les résultats sur la figure 4 montrent une amélioration de la précision par rapport aux systèmes de ligne de base et de ligne de base optimisée.
La figure 5 illustre l'effet d'une variation de a sur les résultats d'une fusion précoce, comme on peut le voir, la valeur optimale de a est d'environ 1,5, bien que des améliorations soient présentées sur la totalité de la plage de 0,05 à 0,55, avec les caractéristiques de contenu relativement simples utilisées dans cet exemple.
La figure 6 compare les résultats de la ligne de base à ceux obtenus en ajoutant divers nombres de caractéristiques de Gabor (2, 3 et 6 orientations). L'ajout de caractéristiques de Gabor améliore les résultats de la ligne de base. Le nombre d'orientations ne semble pas affecter sensiblement la précision.
On peut s'attendre à ce qu'une combinaison de caractéristiques de Gabor avec les caractéristiques de contenu exemplaires permette de réaliser des améliorations supplémentaires de la précision.

Claims (10)

  1. REVENDICATIONS1. Procédé pour prédire la qualité d'image d'une image, comprenant les étapes consistant à : - pour une image d'entrée : - générer un premier descripteur fondé sur des informations de contenu sémantique de l'image ; - générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - avec un catégoriseur ayant été entraîné pour attribuer une valeur de qualité à une image en fonction des premier et second descripteurs, attribuer une valeur de qualité à l'image en fonction des premier et second descripteurs ; et - produire en sortie la valeur de qualité d'image.
  2. 2. Procédé selon la revendication 1, pour lequel le premier descripteur est dérivé d'au moins un élément parmi des informations textuelles associées à l'image et des données d'image de l'image.
  3. 3. Procédé selon la revendication 2, pour lequel les informations textuelles comprennent au moins un élément parmi une étiquette textuelle associée à l'image et des métadonnées intégrées à l'image.
  4. 4. Procédé selon la revendication 1, pour lequel le premier descripteur inclut une valeur pour chaque catégorie d'une pluralité de catégories de contenu.
  5. 5. Procédé selon la revendication 4, pour lequel le procédé inclut les étapes consistant à extraire un ensemble de caractéristiques locales de l'image d'entrée, générer une représentation de l'image décrivant la distribution des caractéristiques locales et attribuer la valeur pour chaque catégorie de la pluralité de catégories de contenu dans le premier descripteur en fonction de la représentation de l'image.
  6. 6. Procédé selon la revendication 1, pour lequel la génération du second descripteur inclut l'extraction d'une pluralité de caractéristiques esthétiques à partir de pièces de l'image.
  7. 7. Procédé selon la revendication 1, pour lequel le second descripteur inclut en outre une caractéristique générique comprenant au moins un élément parmi une fonctionnalité35d'histogramme de gradient orienté (HOG), une fonctionnalité de transformation de caractéristiques visuelles invariante à l'échelle (SIFT) et une fonctionnalité de Gabor.
  8. 8. Procédé selon la revendication 1, pour lequel l'attribution de la valeur de qualité comprend la génération d'un descripteur de combinaison qui est une combinaison éventuellement pondérée des premier et second descripteurs.
  9. 9. Procédé selon la revendication 1, comprenant en outre l'entraînement du catégoriseur avec un ensemble d'images d'entraînement, chacune des images d'entraînement comportant des informations de qualité associées, l'entraînement consistant à : - pour chaque image d'entraînement : a) générer une valeur de qualité à partir des informations de qualité ; b) générer un descripteur de caractéristique de contenu fondé sur au moins un élément parmi : i) des informations de contenu associées à l'image, et ii) des informations de catégorie délivrées en sortie par un catégoriseur sémantique en fonction de données d'image de l'image ; et c) générer un descripteur de caractéristique esthétique fondé sur des caractéristiques esthétiques extraites de l'image ; et - entraîner le catégoriseur sur la valeur de qualité, le descripteur de caractéristique de contenu et le descripteur de caractéristique esthétique de chacune des images de l'ensemble d'entraînement.
  10. 10. Système de génération d'une évaluation de qualité d'image pour une image, comprenant : - une mémoire stockant : - un extracteur de caractéristique de contenu pour générer un premier descripteur fondé sur des informations de contenu sémantique pour une image d'entrée ; - un extracteur de caractéristique esthétique pour générer un second descripteur fondé sur des caractéristiques esthétiques extraites de l'image ; - un catégoriseur ayant été entraîné à attribuer une valeur de qualité à une image en fonction des premier et second descripteurs ; et - un processeur informatique en communication avec la mémoire pour réaliser les extracteurs et le catégoriseur.
FR1253417A 2011-04-19 2012-04-13 Evaluation de la qualite d'image Pending FR2974433A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/089,460 US8712157B2 (en) 2011-04-19 2011-04-19 Image quality assessment

Publications (1)

Publication Number Publication Date
FR2974433A1 true FR2974433A1 (fr) 2012-10-26

Family

ID=47002424

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1253417A Pending FR2974433A1 (fr) 2011-04-19 2012-04-13 Evaluation de la qualite d'image

Country Status (3)

Country Link
US (1) US8712157B2 (fr)
JP (1) JP5782404B2 (fr)
FR (1) FR2974433A1 (fr)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2839778C (fr) * 2011-06-26 2019-10-29 Universite Laval Controle et assurance de la qualite pour les images
US8804815B2 (en) * 2011-07-29 2014-08-12 Dialogic (Us) Inc. Support vector regression based video quality prediction
US9069850B2 (en) 2011-11-08 2015-06-30 Comcast Cable Communications, Llc Content descriptor
US9798733B1 (en) * 2011-12-08 2017-10-24 Amazon Technologies, Inc. Reducing file space through the degradation of file content
GB201122082D0 (en) * 2011-12-22 2012-02-01 Rolls Royce Deutschland Method and apparatus for inspection of components
US8903182B1 (en) * 2012-03-08 2014-12-02 Google Inc. Image classification
EP2831752A4 (fr) * 2012-03-30 2015-08-26 Intel Corp Techniques de contrôle de la qualité des médias
US9036888B2 (en) * 2012-04-30 2015-05-19 General Electric Company Systems and methods for performing quality review scoring of biomarkers and image analysis methods for biological tissue
US9535996B1 (en) * 2012-08-30 2017-01-03 deviantArt, Inc. Selecting content objects for recommendation based on content object collections
US9317531B2 (en) * 2012-10-18 2016-04-19 Microsoft Technology Licensing, Llc Autocaptioning of images
WO2014064266A1 (fr) * 2012-10-26 2014-05-01 Oce-Technologies B.V. Procédé d'amélioration d'image sémantique
US9235875B2 (en) * 2012-11-01 2016-01-12 Google Inc. Image enhancement using learned non-photorealistic effects
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9116924B2 (en) 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
US9082047B2 (en) 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes
CN103559504B (zh) * 2013-11-04 2016-08-31 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
US20150253730A1 (en) * 2014-03-04 2015-09-10 Korea Electronics Technology Institute Method and apparatus for generating/converting digital hologram
US10002310B2 (en) 2014-04-29 2018-06-19 At&T Intellectual Property I, L.P. Method and apparatus for organizing media content
US10595805B2 (en) 2014-06-27 2020-03-24 Sunnybrook Research Institute Systems and methods for generating an imaging biomarker that indicates detectability of conspicuity of lesions in a mammographic image
US9659384B2 (en) * 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
KR20160103398A (ko) * 2015-02-24 2016-09-01 삼성전자주식회사 이미지의 품질 측정 방법 및 장치
US10289940B2 (en) * 2015-06-26 2019-05-14 Here Global B.V. Method and apparatus for providing classification of quality characteristics of images
US11537262B1 (en) 2015-07-21 2022-12-27 Monotype Imaging Inc. Using attributes for font recommendations
US10410330B2 (en) * 2015-11-12 2019-09-10 University Of Virginia Patent Foundation System and method for comparison-based image quality assessment
US9922411B2 (en) * 2015-11-30 2018-03-20 Disney Enterprises, Inc. Saliency-weighted video quality assessment
US9779492B1 (en) 2016-03-15 2017-10-03 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
WO2017166137A1 (fr) * 2016-03-30 2017-10-05 中国科学院自动化研究所 Procédé d'évaluation de qualité esthétique à base d'apprentissage profond multitâche sur une image naturelle
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images
CA3021697A1 (fr) 2016-04-21 2017-10-26 The University Of British Columbia Analyse d'image echocardiographique
US11810399B2 (en) * 2016-04-21 2023-11-07 Sony Corporation Information processing device, information processing method, and program
US10402436B2 (en) * 2016-05-12 2019-09-03 Pixel Forensics, Inc. Automated video categorization, value determination and promotion/demotion via multi-attribute feature computation
US10043088B2 (en) * 2016-06-23 2018-08-07 Siemens Healthcare Gmbh Image quality score using a deep generative machine-learning model
CN106228556B (zh) * 2016-07-22 2019-12-06 北京小米移动软件有限公司 图像质量分析方法和装置
US10410108B2 (en) * 2016-08-08 2019-09-10 EyeEm Mobile GmbH Systems, methods, and computer program products for searching and sorting images by aesthetic quality personalized to users or segments
US10366278B2 (en) * 2016-09-20 2019-07-30 Apple Inc. Curvature-based face detector
US20180121733A1 (en) * 2016-10-27 2018-05-03 Microsoft Technology Licensing, Llc Reducing computational overhead via predictions of subjective quality of automated image sequence processing
US10489589B2 (en) * 2016-11-21 2019-11-26 Cylance Inc. Anomaly based malware detection
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10798387B2 (en) * 2016-12-12 2020-10-06 Netflix, Inc. Source-consistent techniques for predicting absolute perceptual video quality
EP3336800B1 (fr) * 2016-12-19 2019-08-28 Siemens Healthcare GmbH Détermination d'une fonction d'apprentissage destinée à produire des images d'apprentissage annotées
US10110868B2 (en) 2016-12-22 2018-10-23 Aestatix LLC Image processing to determine center of balance in a digital image
US10515289B2 (en) * 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation
EP3574409B1 (fr) * 2017-01-24 2023-04-19 The Trustees of Princeton University Procédé pour capteurs économes en énergie à compression, intelligence artificielle et sécurité
JP7136079B2 (ja) * 2017-03-10 2022-09-13 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
US10909429B2 (en) 2017-09-27 2021-02-02 Monotype Imaging Inc. Using attributes for identifying imagery for selection
US10762165B2 (en) 2017-10-09 2020-09-01 Qentinel Oy Predicting quality of an information system using system dynamics modelling and machine learning
US10540589B2 (en) * 2017-10-24 2020-01-21 Deep North, Inc. Image quality assessment using similar scenes as reference
US11657602B2 (en) 2017-10-30 2023-05-23 Monotype Imaging Inc. Font identification from imagery
WO2019147245A1 (fr) 2018-01-25 2019-08-01 Hewlett-Packard Development Company, L.P. Classification d'enregistrements dans un ensemble de données
US10043255B1 (en) 2018-02-20 2018-08-07 Capital One Services, Llc Utilizing a machine learning model to automatically visually validate a user interface for multiple platforms
US10997746B2 (en) 2018-04-12 2021-05-04 Honda Motor Co., Ltd. Feature descriptor matching
US11836597B2 (en) * 2018-08-09 2023-12-05 Nvidia Corporation Detecting visual artifacts in image sequences using a neural network model
CA3110736A1 (fr) * 2018-08-31 2020-03-05 The University Of British Columbia Analyse d'images ultrasonores
US10751029B2 (en) 2018-08-31 2020-08-25 The University Of British Columbia Ultrasonic image analysis
CN110889410B (zh) * 2018-09-11 2023-10-03 苹果公司 浅景深渲染中语义分割的稳健用途
US11526713B2 (en) * 2018-09-28 2022-12-13 Intel Corporation Embedding human labeler influences in machine learning interfaces in computing environments
CN109615607B (zh) * 2018-11-09 2023-05-16 福建和盛高科技产业有限公司 一种基于单张图像自定义特征的噪声检测方法
CN109740667B (zh) * 2018-12-29 2020-08-28 中国传媒大学 一种基于质量排序网络和语义分类的图像质量评价方法
US11531840B2 (en) 2019-02-08 2022-12-20 Vizit Labs, Inc. Systems, methods, and storage media for training a model for image evaluation
US10467504B1 (en) * 2019-02-08 2019-11-05 Adhark, Inc. Systems, methods, and storage media for evaluating digital images
US11715043B2 (en) 2019-03-01 2023-08-01 Apple Inc. Semantics preservation for machine learning models deployed as dependent on other machine learning models
JP2020154551A (ja) * 2019-03-19 2020-09-24 株式会社日立製作所 行動解析装置、及び、行動解析方法
US11068782B2 (en) 2019-04-03 2021-07-20 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11604818B2 (en) 2019-05-06 2023-03-14 Apple Inc. Behavioral curation of media assets
CN110163161A (zh) * 2019-05-24 2019-08-23 西安电子科技大学 基于尺度不变的多特征融合行人检测方法
US11170271B2 (en) * 2019-06-26 2021-11-09 Dallas Limetree, LLC Method and system for classifying content using scoring for identifying psychological factors employed by consumers to take action
US11636117B2 (en) 2019-06-26 2023-04-25 Dallas Limetree, LLC Content selection using psychological factor vectors
CN110533097B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种图像清晰度识别方法、装置、电子设备及存储介质
WO2021057046A1 (fr) * 2019-09-24 2021-04-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Hachage d'image pour une recherche rapide de photo
CN110889817B (zh) * 2019-11-19 2022-04-26 中国人民解放军海军工程大学 图像融合质量评价方法及装置
EP3826311A1 (fr) 2019-11-22 2021-05-26 MK Systems USA Inc. Systèmes et procédés de mesure de la dégradation de la qualité visuelle dans un contenu numérique
US20210233259A1 (en) * 2020-01-28 2021-07-29 Ssimwave Inc. No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis
CN112132775B (zh) * 2020-08-05 2023-10-31 浙江万里学院 一种基于Fisher编码的屏幕内容图像无参考质量评价方法
CN114303170A (zh) * 2020-08-06 2022-04-08 谷歌有限责任公司 评估数字内容的视觉质量
GB2599441B (en) 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content
WO2022074017A1 (fr) * 2020-10-05 2022-04-14 Kellify S.P.A. Procédé mis en œuvre par ordinateur pour estimer la popularité d'une image d'entrée
CN112348809B (zh) * 2020-11-30 2023-05-23 天津大学 基于多任务深度学习的无参考屏幕内容图像质量评价方法
US11861875B2 (en) * 2021-01-29 2024-01-02 Tata Consultancy Limited Services System and method for adaptive image transformation
CN113222996A (zh) * 2021-03-03 2021-08-06 中南民族大学 心脏分割质量评估方法、装置、设备及存储介质
CN113838029B (zh) * 2021-09-24 2024-04-30 南京中赢医疗科技有限公司 医疗影像评价方法及系统
CN113936320B (zh) * 2021-10-21 2022-03-25 北京的卢深视科技有限公司 人脸图像质量评价方法、电子设备及存储介质
US20230289535A1 (en) * 2021-11-03 2023-09-14 Virginia Tech Intellectual Properties, Inc. Visual language processing modeling framework via an attention-on-attention mechanism
CN114170207A (zh) * 2021-12-13 2022-03-11 国网河北省电力有限公司信息通信分公司 输电线路图像质量的评估方法及装置
CN116612466B (zh) * 2023-07-20 2023-09-29 腾讯科技(深圳)有限公司 基于人工智能的内容识别方法、装置、设备及介质
CN116996680B (zh) * 2023-09-26 2023-12-12 上海视龙软件有限公司 一种用于视频数据分类模型训练的方法及装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357352A (en) 1993-10-04 1994-10-18 Xerox Corporation Image-dependent color shifting of strongly color shifted images
US5450502A (en) 1993-10-07 1995-09-12 Xerox Corporation Image-dependent luminance enhancement
US5414538A (en) 1993-10-07 1995-05-09 Xerox Corporation Image-dependent exposure enhancement
US5371615A (en) 1993-10-22 1994-12-06 Xerox Corporation Image-dependent color correction using black point and white point in a natural scene pictorial image
US5347374A (en) 1993-11-05 1994-09-13 Xerox Corporation Cascaded image processing using histogram prediction
US5363209A (en) 1993-11-05 1994-11-08 Xerox Corporation Image-dependent sharpness enhancement
US5450217A (en) 1994-05-23 1995-09-12 Xerox Corporation Image-dependent color saturation correction in a natural scene pictorial image
DE19536691B4 (de) * 1995-09-30 2008-04-24 Bts Holding International B.V. Verfahren und Anordnung zur Korrektur von Bildstandsfehlern bei der fernsehmäßigen Filmabtastung
US5802214A (en) 1995-12-08 1998-09-01 Xerox Corporation Method for determining and loading an image-dependent look-up table for generating an enhanced image representation
US5862451A (en) * 1996-01-22 1999-01-19 Motorola, Inc. Channel quality management in a cable telephony system
JPH11112791A (ja) * 1997-04-10 1999-04-23 Ricoh Co Ltd 画像形成装置
US7230923B2 (en) * 2001-03-09 2007-06-12 Vitesse Semiconductor Corporation Time based packet scheduling and sorting system
JP2003087442A (ja) * 2001-09-14 2003-03-20 Fuji Photo Film Co Ltd 画像評価方法および装置並びにプログラム
US7031534B2 (en) 2001-10-31 2006-04-18 Xerox Corporation Enhancement of compressed image data
JP4428159B2 (ja) * 2003-11-05 2010-03-10 セイコーエプソン株式会社 画像データ生成装置、画質補正装置、画像データ生成方法および画質補正方法
EP1844411A2 (fr) * 2005-01-28 2007-10-17 Koninklijke Philips Electronics N.V. Collage photos dynamique
US7711211B2 (en) * 2005-06-08 2010-05-04 Xerox Corporation Method for assembling a collection of digital images
US7756341B2 (en) 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US7680341B2 (en) 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US20070283269A1 (en) * 2006-05-31 2007-12-06 Pere Obrador Method and system for onboard camera video editing
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US8015053B2 (en) * 2007-03-20 2011-09-06 Xerox Corporation Processor, system and method for accommodating high priority print jobs
US7933454B2 (en) * 2007-06-25 2011-04-26 Xerox Corporation Class-based image enhancement system
US7885794B2 (en) 2007-11-30 2011-02-08 Xerox Corporation Object comparison, retrieval, and categorization methods and apparatuses
US8111923B2 (en) 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
US8463051B2 (en) 2008-10-16 2013-06-11 Xerox Corporation Modeling images as mixtures of image models
US8249343B2 (en) 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
US8280828B2 (en) 2009-06-12 2012-10-02 Xerox Corporation Fast and efficient nonlinear classifier generated from a trained linear classifier
US8380647B2 (en) 2009-08-14 2013-02-19 Xerox Corporation Training a classifier by dimension-wise embedding of training data
US8311364B2 (en) * 2009-09-25 2012-11-13 Eastman Kodak Company Estimating aesthetic quality of digital images
US8379999B2 (en) * 2011-01-18 2013-02-19 Chanan Gabay Methods, circuits, devices, apparatuses and systems for providing image composition rules, analysis and improvement
US8493863B2 (en) * 2011-01-18 2013-07-23 Apple Inc. Hierarchical fabric control circuits
US8594385B2 (en) * 2011-04-19 2013-11-26 Xerox Corporation Predicting the aesthetic value of an image

Also Published As

Publication number Publication date
JP2012226744A (ja) 2012-11-15
US8712157B2 (en) 2014-04-29
JP5782404B2 (ja) 2015-09-24
US20120269441A1 (en) 2012-10-25

Similar Documents

Publication Publication Date Title
FR2974433A1 (fr) Evaluation de la qualite d&#39;image
US10776671B2 (en) Joint blur map estimation and blur desirability classification from an image
FR2974434A1 (fr) Prediction de la valeur esthetique d&#39;une image
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
Gygli et al. The interestingness of images
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
US8837820B2 (en) Image selection based on photographic style
FR2955681A1 (fr) Systeme pour navigation et exploration d&#39;images de creation
US20150055854A1 (en) Learning beautiful and ugly visual attributes
JP5309155B2 (ja) イメージ検索における対話型概念学習
EP3238137B1 (fr) Representation semantique du contenu d&#39;une image
US11494886B2 (en) Hierarchical multiclass exposure defects classification in images
US20120294514A1 (en) Techniques to enable automated workflows for the creation of user-customized photobooks
FR2969790A1 (fr) Classement d&#39;images fonde sur des concepts abstraits
Almeida et al. Detecting face presentation attacks in mobile devices with a patch-based CNN and a sensor-aware loss function
FR2969339A1 (fr) Systeme et procede d&#39;extraction d&#39;informations multimedia
CN103988202A (zh) 基于索引和搜索的图像吸引力
US11854119B2 (en) Automatic object re-colorization
FR3016066A1 (fr) Systeme et procede de ponderation pour une mise en commun de descripteurs d&#39;image
US8270731B2 (en) Image classification using range information
WO2021190412A1 (fr) Procédé, dispositif et appareil électronique de génération de vignette vidéo
US20220284236A1 (en) Blur classification and blur map estimation
FR3038254A1 (fr) Dispositif de traitement de donnees pour fabrication additive
FR3038253A1 (fr) Dispositif de traitement de donnees
EP3966739B1 (fr) Procédé d&#39;analyse automatique d&#39;images pour reconnaître automatiquement au moins une caractéristique rare

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 4

PLSC Publication of the preliminary search report

Effective date: 20160205

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6