FR2910668A1

FR2910668A1 - Image classifying method for recognizing face, involves calculating distance between image of category of objects and sub-assembly according to specific formula, and comparing calculated distance with decision threshold

Info

Publication number: FR2910668A1
Application number: FR0655795A
Authority: FR
Inventors: Sid Ahmed Berrani; Christophe Garcia
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-12-21
Filing date: 2006-12-21
Publication date: 2008-06-27
Also published as: WO2008081143A2; EP2100259A2; WO2008081143A3

Abstract

The method involves obtaining a sub-assembly of images of a category of objects, where the sub-assembly is associated to a classification characteristic. The distance between an image of the category of objects and the sub-assembly is calculated according to a specific formula having parameters such as distance between an image vector corresponding to the image and vectors of images. The calculated distance is compared with a decision threshold. Independent claims are also included for the following: (1) a device comprising a unit for classifying an image of an object belonging to a category of objects (2) a computer program comprising a set of instructions for performing a image classifying method.

Description

1 Procédé de classification d'une image d'objet et dispositif1 Method of classifying an object image and device

correspondant La présente invention se situe dans le domaine du traitement d'images. Plus précisément, l'invention concerne un procédé de classification d'images d'objets d'une même catégorie, suivant des critères visuels liés à cette catégorie. Dans les systèmes automatiques de reconnaissance d'objets dans une image ou dans une vidéo, la localisation des objets dans l'image ou la vidéo constitue une première étape indispensable avant la reconnaissance. Il s'agit de la détection d'objet. Cette étape a pour objectif d'extraire uniquement les morceaux de l'image contenant chacun un objet à détecter. Ces morceaux d'images sont ensuite passés au module de reconnaissance pour identification. Ces techniques de reconnaissance d'objets sont cependant très sensibles à la qualité des objets extraits et en particulier à leurs positions dans les morceaux d'image. En effet les modules de reconnaissance d'objets ont en général appris à reconnaître un objet dans une position bien déterminée dans une image. Les performances des systèmes de reconnaissance d'objets se dégradent donc significativement lorsque l'objet n'est pas dans cette position déterminée. Il est donc essentiel de disposer d'un classificateur d'images qui permette de classer les morceaux d'image suivant la position de l'objet extrait dans ces morceaux, afin de ne présenter au module de reconnaissance que les morceaux d'image dans lesquels l'objet extrait est dans une position adaptée pour sa reconnaissance. Cette classification est indispensable dans la phase d'apprentissage des systèmes de reconnaissance d'objets, pour que l'apprentissage soit efficace, mais aussi dans la phase d'identification, pour que la reconnaissance ait le plus de chances d'aboutir. 2910668 2 Si l'on dispose de plusieurs systèmes de reconnaissance d'objets spécialisés chacun dans une position déterminée de l'objet à reconnaître, le classificateur permet éventuellement d'aiguiller, lors de la phase d'identification, les morceaux d'image vers les systèmes de reconnaissance 5 d'images adéquats, en fonction des positions des objets dans ces morceaux d'image. Ces systèmes sont surtout appliqués à la reconnaissance de visages. Actuellement les systèmes de reconnaissance de visages ne fonctionnent de manière optimale que sur des images de visages en position frontale. C'est 10 pourquoi la classification d'images de visages suivant leur pose, frontale, semifrontale ou de profil, est un enjeu important dans le domaine de l'analyse faciale. La classification de visages en poses a ainsi donné lieu à de nombreux travaux suivant essentiellement trois approches. La première approche se 15 base sur des algorithmes de suivi pour estimer dans les images d'une vidéo le modèle d'un visage, et pour déduire également la pose de ce visage. Deux exemples de travaux suivant cette première approche sont décrits dans les articles suivants: "Face Tracking and Pose Estimation Using Affine Motion Parameters", 20 de P. Yao et G. Evans, publié en 2001 à l'occasion de la douzième conférence SCIA, d'après l'anglais "Scandinavian Conference on Image Analysis", et " Face pose estimation system by combining hybrid ICA-SVM learning and re-registration" de K. Seo, I. Cohen, S. You et U. 25 Neumann, publié en janvier 2004 à l'occasion d'une conférence ACCV, d'après l'anglais " Asian Conference on Computer Vision". Les techniques selon cette approche utilisent une information temporelle pour estimer le mouvement d'un visage d'une image à une autre, et présentent donc l'inconvénient d'être limitées aux vidéos, et de ne pas être applicables à la classification de visages extraits à partir d'images fixes. 2910668 3 La deuxième approche utilise les positions des éléments faciaux, tels que les yeux, le nez et la bouche, et des règles de biométrie du visage, pour déduire la pose d'un visage dans une image. Un exemple de classification de visages en poses utilisant la détection d'éléments faciaux est donné dans 5 l'article "Pose classification of human faces by weighting mask function approach", de C. Lin et K.-C. Fan, publié dans le numéro 24 de la revue "Pattern Recognition Letters". Les méthodes selon cette deuxième approche sont limitées par les performances des méthodes automatiques de détection d'éléments faciaux: 10 celles-ci fournissent des positions d'éléments faciaux qui ne sont pas suffisamment précises pour assurer un taux de bonne classification satisfaisant, en particulier pour des poses de profil. La troisième approche se base sur des modèles statistiques des poses à rechercher, construits à partir d'une analyse en composantes principales à 15 partir d'exemples d'imagettes, ou encore sur des masques binaires pour caractériser une pose particulière. Des exemples de travaux utilisant une analyse en composantes principales sont décrits dans les articles suivants: "View-Based and Modular Eigenspaces for Face Recognition", de Alex Pentland, Baback Moghaddam et Thad Starner, publié en 1994 à 20 l'occasion de la treizième conférence "Institute of Electrical and Electronic Engineer (IEEE) Conference on Computer Vision and Pattern Recognition ", et "Eigenfaces for recognition", de M. Turk et A. Pentland, publié dans le troisième volume du premier numéro de la revue "Journal of 25 Cognitive Neuroscience". Il est de plus à noter que dans l'article de C. Lin et K.-C. Fan cité précédemment, on utilise des masques binaires pour classifier des visages en poses, combinant ainsi détection d'éléments faciaux et utilisation de modèles caractéristiques. 30 Un masque binaire est un masque de référence que l'on applique à une image de visage en niveaux de gris, laquelle est transformée en image binaire 2910668 4 en noir et blanc par seuillage à partir de ce masque, puis une corrélation est effectuée pour déterminer la pose du visage. Les méthodes à base de masques binaires utilisent donc les zones plus ou moins foncées et les zones d'ombre des visages, ce qui rend leur efficacité très sensible à l'éclairage: en 5 effet un éclairage de côté par exemple fausse les zones d'ombre que l'on s'attend à trouver sur un visage éclairé de face dans une image en niveaux de gris. De même les méthodes utilisant une analyse en composantes principales sont des méthodes linéaires ce qui les rend très peu robustes aux variations lumineuses. Plus généralement les techniques selon cette troisième approche 10 sont très sensibles aux variations importantes des visages, telles que la présence d'éléments occultants comme des lunettes, de la barbe ou de la moustache, qui diminuent significativement leurs taux de bonne classification. D'autres systèmes de classification d'images, comme par exemple le système de classification décrit dans l'article "Application d'un processus 15 itératif de classification dirigée à un site urbain et périurbain algérien", de N. Ouarab et Y. Smara, publié en 1997 dans le livre "Télédétection des milieux urbains et périurbains" par l'Agence Universitaire de la Francophonie, utilisent la notion de distance entre images. Les distances utilisées dans ces systèmes sont par exemple des 20 distances euclidiennes, ou la distance dite de Mahalanobis. Ces distances sont applicables entre deux vecteurs d'images seulement et sont associées à d'autres méthodes de classification comme la classification au plus proche voisin. Les comparaisons effectuées pour la classification sont ainsi des comparaisons image à image. Ces systèmes sont utilisés pour faire du 25 regroupement d'images très proches l'une de l'autre. Contrairement à l'invention, ils ne prennent cependant pas en compte l'ensemble des caractéristiques des vecteurs d'une classe et de leur dispersion. 30 La présente invention a pour but de résoudre les inconvénients de la technique antérieure en fournissant un procédé et un dispositif de classification 2910668 5 d'images, qui utilisent une nouvelle distance applicable entre un vecteur descripteur d'image et un ensemble de vecteurs descripteurs d'images. A cette fin, l'invention propose un procédé de classification d'une image d'objet appartenant à une catégorie d'objets, ledit procédé comportant une 5 étape préalable d'obtention d'un sous-ensemble d'images d'objets de ladite catégorie, ledit sous-ensemble étant associé à un critère de classification, et ledit procédé étant caractérisé en ce qu'il comporte en outre: - une étape de calcul (b1) de distance entre ladite image (I) et ledit sous-ensemble (Ej) selon la formule: 10 Dist(q, Ej) = DMC({vi, v2, ..., vN}u{q}) - DMC({vi, v2, ..., vN}) où : Dist(q, Ej) est une distance entre un vecteur d'image q correspondant à ladite image et les vecteurs des images dudit sous-ensemble Ej, 15 {VI, v2, ..., vN} sont les vecteurs vl à vN des images dudit sous-ensemble Ej, et DMC({xi,...,xp}) est un opérateur qui retourne le déterminant de la matrice de covariance des vecteurs xi à Xp, assimilés à un nombre P d'observations d'une variable vectorielle aléatoire x;, i 20 étant un indice variant de 1 à P, - et une étape de comparaison (b2) de la distance ainsi calculée avec un seuil de décision (b). Grâce à l'invention, on obtient un procédé de classification d'images applicable à des images fixes, rapide, indépendant de l'efficacité d'un système 25 utilisé en amont par exemple pour la détection d'éléments, et qui est robuste par rapport à des variations importantes des images entre elles. Notamment lorsqu'il est utilisé pour la reconnaissance de visage, il permet de classifier différents types de visages en poses frontale, semi-frontale et de profil de manière robuste par rapport aux variations lumineuses et à la présence 2910668 6 d'éléments occultants, aussi bien lors de la phase d'apprentissage que lors de la phase d'identification. Selon une caractéristique préférée, ledit seuil de décision est associé audit sous-ensemble d'images. 5 Pour déterminer si une image à classer répond à un critère de classification, sa distance par rapport à plusieurs sous-ensembles d'images correspondant à ce critère est calculée et comparée à un seuil de décision. Le fait d'adapter le seuil de décision à chaque sous-ensemble permet de tenir compte de l'hétérogénéité des sous-ensembles qui obéissent à un même 10 critère de classification, de manière à optimiser le taux de bonne classification du procédé selon l'invention. Selon une autre caractéristique préférée, ledit seuil de décision est égal à la plus petite distance calculée entre ledit sous-ensemble et les images d'un ensemble d'images négatives ne correspondant pas à un critère de 15 classification associé audit sous-ensemble. Ce choix de seuil de décision permet d'obtenir une classification cohérente par rapport aux images d'apprentissage, réparties en sous-ensembles d'images positives, correspondant à un critère de classification, et un ensemble d'images négatives, qui n'obéissent pas à ce critère. 20 Selon une autre caractéristique préférée, ledit seuil de décision est choisi de manière à maximiser la somme: du taux de bonne classification d'images d'un autre sous-ensemble d'images obéissant à un même critère de classification que ledit sous-ensemble, 25 et du taux de rejet d'images d'un ensemble d'images négatives ne correspondant pas audit critère de classification. Ce choix de seuil de décision permet d'améliorer le taux de bonne classification du procédé selon l'invention. L'invention concerne aussi un procédé de reconnaissance de visage 30 utilisant le procédé de classification d'image d'objet selon l'invention. 2910668 7 L'invention concerne également un dispositif mettant en oeuvre le procédé de classification selon l'invention et le procédé de reconnaissance de visage utilisant ce procédé. Le dispositif et le procédé de reconnaissance de visage présentent des 5 avantages analogues à ceux du procédé de classification selon l'invention. L'invention concerne encore un programme d'ordinateur comportant des instructions pour mettre en oeuvre le procédé de classification selon l'invention ou le procédé de reconnaissance de visage l'utilisant, lorsqu'il est exécuté sur un ordinateur. 10 D'autres caractéristiques et avantages apparaîtront à la lecture d'un mode de réalisation préféré décrit en référence aux figures dans lesquelles: - la figure 1 représente différentes phases du procédé de classification selon 15 l'invention, - la figure 2 représente un dispositif mettant en oeuvre le procédé de classification selon l'invention, - la figure 3 représente différentes étapes d'une phase d'apprentissage du procédé de classification selon l'invention, 20 - la figure 4 représente le contenu d'une base de données d'apprentissage, - la figure 5 représente différentes étapes d'une phase d'utilisation du procédé de classification selon l'invention, - la figure 6 représente plus précisément l'obtention d'un résultat de classification par le procédé selon l'invention lors de cette phase d'utilisation, 25 - la figure 7 représente un mode d'obtention de seuil de décision associé à un sous-ensemble d'images d'apprentissage. Selon un mode préféré de réalisation de l'invention, le procédé selon 30 l'invention est appliqué à la classification de visages en poses, et plus précisément il est utilisé pour déterminer si un visage dans une image est en 2910668 8 pose frontale ou non. Cependant le procédé de classification d'images d'objets selon l'invention est utilisable pour classer tout autre type d'objet selon divers critères de classification, comme par exemple pour classer des images de logos. De plus l'utilisation du procédé de classification selon l'invention, qui s'effectue dans une phase d'utilisation 92 représentée à la figure 1, nécessite au préalable l'exécution d'une phase d'apprentissage (p1, détaillée plus loin, et qui n'est pas répétée ensuite à chaque utilisation du procédé selon l'invention. 10 Le procédé de classification selon l'invention est typiquement implémenté de manière logicielle dans un ordinateur ORD représenté à la figure 2. La phase d'apprentissage (p1 est par exemple implémentée à l'aide d'un module d'apprentissage MA, et la phase d'utilisation 92 est implémentée 15 dans un module de classification MC, qui reçoit une image à classer I en entrée, et retourne un résultat de classification Res. La phase d'apprentissage (p1 permet de remplir la base de données d'apprentissage BDD à laquelle sont reliés le module d'apprentissage MA et le module de classification MC. 20 Cette phase d'apprentissage (p1 comporte deux étapes a1 et a2, représentées à la figure 3, et qui ont pour objectif de fournir des données d'apprentissage nécessaires à la phase d'utilisation 92. La première étape a1 est l'obtention de sous-ensembles d'images 25 d'apprentissage. Ces images d'apprentissage sont en fait des images de visage correspondant à des boîtes englobantes de visages extraits après détection de visages dans des images de plus grand format. L'étape a1 nécessite une base d'images d'apprentissage, qui comprend des images en niveaux de gris représentatives de la pose à apprendre, c'est-à-dire des 30 images de visages en position frontale. Ces images sont appelées "images positives", et forment l'ensemble IP représenté à la figure 4. La base d'images 5 2910668 9 d'apprentissage comprend également un ensemble IN d'images de visages en niveaux de gris représentant les autres poses, non frontales, appelées "images négatives". Ces images positives et négatives représentent différents visages, représentés à la même échelle dans chacune de ces images. Pour la 5 classification en pose frontale, tous les détails du visage n'étant pas nécessaires, les images de la base d'apprentissage ont une résolution d'image de 40 pixels * 40 pixels seulement, mais qui s'avère suffisante. A l'étape a1, l'ensemble IP d'images positives est partitionné en sous-ensembles Ej, j étant un indice variant de 1 à M. Ces sous-ensembles El à EM 10 sont associés au critère de classification de la pose frontale, et sont homogènes, c'est-à-dire qu'on retrouve dans chaque sous-ensemble des visages en position frontale avec des critères visuels communs. Par exemple l'ensemble IP contient quatre sous-ensembles El à E4 tels que: El contient des images de visages avec lunettes, 15 E2 contient des images de visages avec moustaches, E3 contient des images de visages sans moustaches ni lunettes, souriants, E4 contient des images de visages sans moustaches ni lunettes, neutres. 20 Les sous-ensembles El à EM caractérisent de préférence la plupart des types de visages en pose frontale. Cette partition de l'ensemble IP d'images positives est effectuée manuellement ou automatiquement à l'aide d'algorithmes de regroupement. Ces algorithmes permettent de regrouper des images très proches l'une de l'autre en utilisant par exemple des mesures de 25 similarité ou de distances euclidiennes entre deux vecteurs d'image. Cette partition en sous-ensembles homogènes permet dans la suite d'obtenir des sous-classifications plus spécialisées de visages en position frontale, de manière performante. L'ensemble IN d'images négatives contient quant à lui des images de 30 visages de tous types dans des poses non-frontales, par exemple qui 2910668 10 présentent un profil gauche, un profil droit, ou qui sont dans une pose semiprofil, avec ou sans lunettes, avec barbe, etc. La seconde étape a2 de la phase d'apprentissage 91 est le calcul des paramètres de classification associés à chaque sous-ensemble Ej d'images. 5 Ces paramètres font partie des données d'apprentissage et sont les suivants: La matrice de covariance Zi du sous-ensemble Ej. Si celuici contient par exemple N images de visages, N étant un entier, ces images sont décrites par N vecteurs v;, i étant un indice variant de 1 à N. Ces vecteurs contiennent les 40*40 valeurs de niveaux 10 de gris correspondants aux 40*40 pixels de chaque image du sous-ensemble Ej. La matrice de covariance Zi est alors définie par: N / N \T \ 1 vi vi i=1 i=1 N N N le déterminant detj de la matrice de covariance 15 et un seuil de décision 6j, dont l'obtention est détaillée plus loin. Les paramètres Zi et detj permettent dans la phase d'utilisation 92 de calculer la distance d'une image I à classer avec le sous-ensemble Ej, tandis que le seuil de décision bj permet de déterminer, au vu de cette distance, si l'image I pourrait être classée dans le sous-ensemble Ej. Autrement dit les 20 paramètres d'un sous-ensemble permettent de classifier l'image I selon l'invention dans une catégorie plus fine que la pose frontale uniquement. En effet si les sous-ensembles Ej se limitaient par exemple à un seul sous-ensemble El contenant des images de visages avec lunettes, ce mode de réalisation du procédé de classification selon l'invention permettrait de 25 sélectionner les images de visages en pose frontale correspondant à ce critère visuel uniquement. T N i=1 2910668 11 La phase d'utilisation 92 se décompose donc en deux étapes b1 et b2, représentées à la figure 5. La première étape b1 est le calcul de la distance entre l'image I à classer avec chaque sous-ensemble Ej, en utilisant la formule suivante: 5 Dist(q, Ej) = DMC({vi, v2, ..., vN}u{q}) - DMC({vi, v2, ..., vN}) où : Dist(q, Ej) est la distance entre un vecteur d'image q correspondant à l'image I, et le sous-ensemble des vecteurs des images du sous-ensemble Ej, 10 {VI, v2, The present invention is in the field of image processing. More specifically, the invention relates to a method of classifying images of objects of the same category, according to visual criteria related to this category. In automatic object recognition systems in an image or a video, the location of objects in the image or video is an essential first step before recognition. This is the object detection. This step aims to extract only the pieces of the image each containing an object to detect. These pieces of images are then passed to the recognition module for identification. These object recognition techniques, however, are very sensitive to the quality of the extracted objects and in particular to their positions in the image pieces. Indeed, object recognition modules have generally learned to recognize an object in a well-defined position in an image. The performance of the object recognition systems therefore degrade significantly when the object is not in this determined position. It is therefore essential to have an image classifier that can classify the image pieces according to the position of the extracted object in these pieces, in order to present to the recognition module only the image pieces in which the extracted object is in a position adapted for its recognition. This classification is essential in the learning phase of object recognition systems, so that learning is effective, but also in the identification phase, so that recognition is most likely to succeed. 2910668 2 If one has several specialized object recognition systems each in a specific position of the object to be recognized, the classifier may be used to refer, during the identification phase, the image pieces to the appropriate image recognition systems, depending on the positions of the objects in these image pieces. These systems are mostly applied to face recognition. Currently face recognition systems work optimally only on face images in the frontal position. This is why the classification of face images according to their pose, frontal, semifrontal or profile, is an important issue in the field of facial analysis. The classification of faces in poses has given rise to many works following essentially three approaches. The first approach is based on tracking algorithms to estimate the image of a video model of a face, and also to deduce the pose of that face. Two examples of work following this first approach are described in the following articles: "Face Tracking and Pose Estimation Using Affine Motion Parameters", 20 by P. Yao and G. Evans, published in 2001 on the occasion of the twelfth SCIA conference, according to the English "Scandinavian Conference on Image Analysis", and "Face pose estimation system by combining hybrid ICA-SVM learning and re-registration" by K. Seo, I. Cohen, S. You and U. Neumann, published in January 2004 at an ACCV conference, according to the English "Asian Conference on Computer Vision". The techniques according to this approach use time information to estimate the movement of a face from one image to another, and therefore have the disadvantage of being limited to videos, and not to be applicable to the classification of extracted faces. from still images. The second approach uses the positions of the facial elements, such as the eyes, the nose and the mouth, and biometric rules of the face, to deduce the pose of a face in an image. An example of classification of faces in poses using the detection of facial elements is given in the article "Laying classification of human faces by weighting mask function approach", of C. Lin and K.-C. Fan, published in issue 24 of the journal "Pattern Recognition Letters". The methods according to this second approach are limited by the performance of the automatic facial detection methods: these provide facial element positions which are not accurate enough to ensure a good classification rate satisfactory, particularly for profile poses. The third approach is based on statistical models of poses to be searched, constructed from a principal component analysis from thumbnail examples, or on binary masks to characterize a particular pose. Examples of work using principal component analysis are described in the following articles: "View-Based and Modular Eigenspaces for Face Recognition", by Alex Pentland, Baback Moghaddam and Thad Starner, published in 1994 on the occasion of the thirteenth Institute of Electrical and Electronic Engineer (IEEE) Conference on Computer Vision and Pattern Recognition, and "Eigenfaces for recognition", by M. Turk and A. Pentland, published in the third volume of the first issue of the journal "Journal of 25 Cognitive Neuroscience ". It should be noted that in the article by C. Lin and K.-C. Fan cited above, we use binary masks to classify faces in poses, thus combining detection of facial elements and use of characteristic models. A bitmask is a reference mask that is applied to a grayscale face image, which is transformed into black and white binary image by thresholding from that mask, and then correlated for determine the pose of the face. The methods based on bit masks therefore use the more or less dark areas and the shadows of the faces, which makes their efficiency very sensitive to lighting: in effect a side lighting for example distorts the areas of light. shadow that one expects to find on a face illuminated from the front in a grayscale image. Similarly methods using a principal component analysis are linear methods which makes them very resistant to light variations. More generally, the techniques according to this third approach are very sensitive to significant variations in the faces, such as the presence of blackout elements such as glasses, a beard or a mustache, which significantly reduce their rates of good classification. Other image classification systems, such as the classification system described in the article "Application of an iterative classification process directed to an Algerian urban and peri-urban site", by N. Ouarab and Y. Smara , published in 1997 in the book "Remote sensing of urban and peri-urban environments" by the Agence Universitaire de la Francophonie, uses the notion of distance between images. The distances used in these systems are, for example, Euclidean distances, or the so-called Mahalanobis distance. These distances are applicable between two image vectors only and are associated with other classification methods such as nearest neighbor classification. The comparisons made for the classification are thus image-to-image comparisons. These systems are used to group images very close to each other. Unlike the invention, they do not take into account all the characteristics of the vectors of a class and their dispersion. It is an object of the present invention to overcome the disadvantages of the prior art by providing a method and an image classification device which utilizes a new applicable distance between an image descriptor vector and a set of descriptor vectors. images. To this end, the invention proposes a method of classifying an object image belonging to a category of objects, said method comprising a preliminary step of obtaining a subset of images of objects of said category, said subset being associated with a classification criterion, and said method being characterized in that it further comprises: a step of calculating (b1) the distance between said image (I) and said subset (Ej) according to the formula: Dist (q, Ej) = DMC ({vi, v2, ..., vN} u {q}) - DMC ({vi, v2, ..., vN}) where: Dist (q, Ej) is a distance between an image vector q corresponding to said image and the vectors of the images of said subset Ej, {VI, v2, ..., vN} are vectors v1 to vN of images of said subset Ej, and DMC ({xi, ..., xp}) is an operator that returns the determinant of the covariance matrix of the vectors xi to Xp, assimilated to a number P of observations of a variable random vector x ;, i 20 et ant an index varying from 1 to P, - and a comparison step (b2) of the distance thus calculated with a decision threshold (b). Thanks to the invention, an image classification method is obtained which is applicable to still images, fast, independent of the efficiency of a system used upstream, for example for the detection of elements, and which is robust by compared to important variations of the images between them. In particular, when used for face recognition, it makes it possible to classify different types of faces in frontal, semi-frontal and profile poses in a robust manner with respect to the light variations and to the presence of blackout elements, also well during the learning phase than during the identification phase. According to a preferred characteristic, said decision threshold is associated with said subset of images. To determine whether an image to be classified satisfies a classification criterion, its distance with respect to several subsets of images corresponding to this criterion is calculated and compared with a decision threshold. Adapting the decision threshold to each subset makes it possible to take into account the heterogeneity of the subsets that obey the same classification criterion, so as to optimize the rate of good classification of the process according to the invention. invention. According to another preferred characteristic, said decision threshold is equal to the smallest distance calculated between said subset and the images of a set of negative images that do not correspond to a classification criterion associated with said subset. This choice of decision threshold makes it possible to obtain a classification that is coherent with respect to the training images, divided into subsets of positive images, corresponding to a classification criterion, and a set of negative images, which obey not to this criterion. According to another preferred characteristic, said decision threshold is chosen so as to maximize the sum of: the rate of good classification of images of another subset of images obeying the same classification criterion as said subset , And the image rejection rate of a set of negative images not corresponding to said classification criterion. This choice of decision threshold makes it possible to improve the rate of good classification of the process according to the invention. The invention also relates to a method of face recognition using the object image classification method according to the invention. The invention also relates to a device implementing the classification method according to the invention and the method of face recognition using this method. The face recognition device and method have advantages similar to those of the classification method according to the invention. The invention also relates to a computer program comprising instructions for implementing the classification method according to the invention or the face recognition method using it when it is executed on a computer. Other features and advantages will become apparent on reading a preferred embodiment described with reference to the figures in which: FIG. 1 represents different phases of the classification method according to the invention, FIG. implementing the classification method according to the invention; FIG. 3 represents different steps of a learning phase of the classification method according to the invention; FIG. 4 represents the contents of a database of FIG. 5 represents different stages of a phase of use of the classification method according to the invention; FIG. 6 more precisely shows the obtaining of a classification result by the method according to the invention when In this phase of use, FIG. 7 represents a decision threshold obtaining mode associated with a subset of training images. According to a preferred embodiment of the invention, the method according to the invention is applied to the classification of faces in poses, and more precisely it is used to determine whether a face in an image is in frontal pose or not. . However, the object image classification method according to the invention can be used to classify any other type of object according to various classification criteria, for example to classify images of logos. In addition, the use of the classification method according to the invention, which is carried out in a use phase 92 shown in FIG. 1, requires the prior execution of a learning phase (p1, detailed further on , and which is not repeated after each use of the method according to the invention The classification method according to the invention is typically implemented in software in an ORD computer shown in FIG. p1 is for example implemented using a learning module MA, and the use phase 92 is implemented in a classification module MC, which receives an input image I, and returns a result of classification Res The learning phase (p1 makes it possible to fill the database of BDD learning to which are connected the learning module MA and the classification module MC 20 This learning phase (p1 comprises two stages) apes a1 and a2, shown in Figure 3, and which are intended to provide training data necessary for the use phase 92. The first step a1 is obtaining subsets of images 25 learning. These learning images are actually face images corresponding to face-bounding boxes extracted after face detection in larger images. Step a1 requires a training image database, which includes grayscale images representative of the pose to be learned, i.e. face images in the frontal position. These images are referred to as "positive images", and form the IP set shown in FIG. 4. The training image database also includes an IN set of grayscale face images representing the other poses. , not frontal, called "negative images". These positive and negative images represent different faces, represented on the same scale in each of these images. For front-end classification, since not all facial details are required, the images in the training base have an image resolution of only 40 pixels * 40 pixels, but which is sufficient. In step a1, the set IP of positive images is partitioned into subsets Ej, j being an index varying from 1 to M. These subsets E1 to EM10 are associated with the classification criterion of the frontal pose , and are homogeneous, that is to say that we find in each subset faces in frontal position with common visual criteria. For example, the set IP contains four subsets E1 to E4 such that: El contains images of faces with glasses, 15 E2 contains images of faces with whiskers, E3 contains images of faces without whiskers or glasses, smiling, E4 contains images of faces without whiskers or glasses, neutral. The subassemblies E1 to EM preferably characterize most types of faces in frontal pose. This partition of the set of positive images IP is performed manually or automatically using grouping algorithms. These algorithms make it possible to group images that are very close to one another by using, for example, measures of similarity or Euclidean distances between two image vectors. This partition in homogeneous subassemblies makes it possible in the following to obtain more specialized sub-classifications of faces in frontal position, in a powerful way. The set IN of negative images contains images of 30 faces of all types in non-frontal poses, for example which have a left profile, a straight profile, or which are in a semiprofile pose, with or without glasses, with beard, etc. The second step a2 of the learning phase 91 is the calculation of the classification parameters associated with each subset Ej of images. These parameters are part of the training data and are as follows: The covariance matrix Zi of the subset Ej. If it contains for example N images of faces, N being an integer, these images are described by N vectors v ;, i being an index varying from 1 to N. These vectors contain the 40 * 40 values of levels of gray corresponding to 40 * 40 pixels of each image of the subset Ej. The covariance matrix Zi is then defined by: N / N \ T \ 1 vi vi i = 1 i = 1 NNN the determinant detj of the covariance matrix 15 and a decision threshold 6j, the obtaining of which is detailed below . The parameters Zi and detj allow in the use phase 92 to calculate the distance of an image I to be classified with the subset Ej, while the decision threshold bj makes it possible to determine, in view of this distance, whether the image I could be classified in the subset Ej. In other words, the parameters of a subset make it possible to classify the image I according to the invention in a category that is finer than the frontal pose only. Indeed, if the subsets Ej were limited for example to a single subset E1 containing images of faces with glasses, this embodiment of the classification method according to the invention would make it possible to select the images of faces in frontal pose. corresponding to this visual criterion only. The utilization phase 92 is therefore divided into two steps b1 and b2, represented in FIG. 5. The first step b1 is the calculation of the distance between the image I to be classified with each subset. Ej, using the following formula: Dist (q, Ej) = DMC ({vi, v2, ..., vN} u {q}) - DMC ({vi, v2, ..., vN}) where : Dist (q, Ej) is the distance between an image vector q corresponding to the image I, and the subset of the vectors of the images of the subset Ej, 10 {VI, v2,

., vN} sont les vecteurs vl à vN des images du sous-ensemble Ej, et DMC({xi,...,xp}) est un opérateur qui retourne le déterminant de la matrice de covariance des vecteurs xi à xp, assimilés à un nombre P d'observations d'une variable vectorielle aléatoire x;, i étant un indice 15 variant de 1 à P. La distance entre l'image I et le sous-ensemble Ej est donc calculée en soustrayant le déterminant detj de la matrice Zi au déterminant de la matrice de covariance de l'ensemble formé pas les vecteurs vl à vN et le vecteur q. Le choix de cette métrique nouvelle est motivé par le fait que, étant 20 donné l'homogénéité des sous-ensembles d'apprentissage, la classification d'une image I dans un sous-ensemble Ej revient à évaluer l'impact de l'ajout de l'image I au sous-ensemble Ej sur l'homogénéité de ce sous-ensemble Ej. Par rapport à la distance de Mahalanobis utilisée dans l'état de l'art, qui s'applique uniquement à deux vecteurs, la distance utilisée par le procédé selon 25 l'invention a l'avantage de considérer un vecteur par rapport à un ensemble de vecteurs, ce qui permet de mieux prendre en compte la distribution des vecteurs d'un même ensemble de référence. Autrement dit le procédé de classification selon l'invention est un procédé de classification statistique qui se base sur l'étude de la répartition des vecteurs descripteurs des images dans 30 l'espace. ., vN} are the vectors vl to vN of the subsets of the subset Ej, and DMC ({xi, ..., xp}) is an operator that returns the determinant of the covariance matrix of the vectors xi to xp, assimilated to a number P of observations of a random vector variable x i, i being an index varying from 1 to P. The distance between the image I and the subset Ej is thus calculated by subtracting the determinant dj from the matrix Zi to the determinant of the covariance matrix of the set formed by the vectors v1 to vN and the vector q. The choice of this new metric is motivated by the fact that, given the homogeneity of the learning subsets, the classification of an image I in a subset Ej amounts to evaluating the impact of the addition. from the image I to the subset Ej on the homogeneity of this subset Ej. With respect to the Mahalanobis distance used in the state of the art, which applies only to two vectors, the distance used by the method according to the invention has the advantage of considering a vector in relation to a set vectors, which makes it possible to better take into account the distribution of the vectors of the same reference set. In other words, the classification method according to the invention is a statistical classification method which is based on the study of the distribution of the descriptor vectors of the images in space.

2910668 12 La seconde étape b2 est la comparaison de la distance Dist(q, Ej) précédemment calculée avec le seuil de décision bj du sous-ensemble Ej, comme représenté à la figure 6: 5 Si la distance Dist(q, Ej) est inférieure au seuil de décision 6j, le résultat de cette sous-classification dans le sous-ensemble Ej vaut 1, c'est-à-dire que l'image I pourrait être classée dans ce sous-ensemble d'images, Si la distance Dist(q, Ej) est supérieure au seuil de décision 6j, le 10 résultat de cette sous-classification dans le sous-ensemble Ej vaut 0, c'est-à-dire que l'image I n'est pas frontale ou ne correspond pas aux critères visuels associés au sous-ensemble d'images Ej. Les résultats de chacune de ces sous-classifications pour chacun des 15 sous-ensembles El à EM sont combinés par un "OU" logique pour donner le résultat final Res de la classification de l'image I en pose frontale: - une valeur 1 du résultat Res indique une pose frontale, - et une valeur 0 du résultat Res indique une pose non-frontale. En effet les sous-ensembles El à EM étant représentatifs de la plupart des 20 types de visages en pose frontale, si l'image I représente un visage en pose frontale, le résultat d'au moins une de ces sous-classifications vaudra 1 et le résultat final Res vaudra également 1. On détaille maintenant différents modes d'obtentions du seuil de 25 décision bj associé au sous-ensemble d'images Ej. D'autres modes d'obtentions sont possibles, la valeur du seuil de décision bj devant permettre d'obtenir un bon taux de classification d'images en pose frontale. Un premier mode d'obtention du seuil de décision bj consiste à choisir la valeur de ce seuil égale à la plus petite distance calculée entre chaque image 30 négative contenue dans l'ensemble IN, et le sous-ensemble Ej. Le calcul des 2910668 13 distances entre les images négatives et le sous-ensemble Ej utilise la même formule qu'à l'étape b1. Un second mode d'obtention du seuil de décision 6j, représenté à la 5 figure 7, utilise un autre sous-ensemble E'j d'images positives de critères visuels similaires à ceux des images du sous-ensemble Ej, et l'ensemble IN d'images négatives. On calcule tout d'abord les distances d'; entre les images du sous-ensemble E'j et le sous-ensemble Ej, ainsi que les distances d; entre les images de l'ensemble IN et le sousensemble Ej, en utilisant la même 10 formule qu'à l'étape b1. Puis on choisit la valeur de seuil bj de façon à maximiser le taux de bonne classification des images du sous-ensemble E'j, et le taux de rejet des images de l'ensemble IN. Si l'on donne la même importance à chacun de ces taux, alors on choisit la valeur de seuil bj qui maximise la somme de ces taux. Ainsi: 15 Si la plus grande distance d' des images du sous-ensemble E'j est inférieure à la plus petite distance d des images de l'ensemble IN, le seuil de décision bj est fixé à la valeur médiane entre ces deux distances. Si à l'inverse, la plus grande distance d' des images du sous-ensemble 20 E'j est supérieure à la plus petite distance d des images de l'ensemble IN, une recherche de seuil maximisant la somme du taux de bonne classification des images du sous-ensemble E'j et du taux de rejet des images de l'ensemble IN, est exécutée dans l'intervalle [d;d'] formé par ces deux distances. Cet intervalle est partitionné à des pas réguliers et 25 pour chaque valeur, la somme de ces taux est évaluée. Le seuil de décision bj retenu est celui qui maximise cette somme. Il est à noter que dans ce mode de réalisation de l'invention on classe des images de visages selon un seul critère de classification, celui de la pose 30 frontale, mais il est possible de l'adapter pour classer des images de visages suivant plusieurs critères de classification. Par exemple, une fois qu'une image 2910668 14 I a été classée comme non-frontale par le procédé décrit dans ce mode de réalisation, on exécute sur cette image le procédé de classification selon l'invention réalisé de manière similaire mais avec un critère de classification différent. On utilise ainsi deux critères de classification. Il suffit pour cela 5 d'adapter de manière appropriée les ensembles d'apprentissage d'images positives et d'images négatives à chaque nouveau critère de classification...FT: PROCEDE DE CLASSIFICATION D'UNE IMAGE D'OBJET ET DISPOSITIF CORRESPONDANTThe second step b2 is the comparison of the previously calculated distance Dist (q, Ej) with the decision threshold bj of the subset Ej, as shown in FIG. 6: If the distance Dist (q, Ej) is below the decision threshold 6j, the result of this sub-classification in the subset Ej is 1, that is to say that the image I could be classified in this subset of images, If the distance Dist (q, Ej) is greater than the decision threshold 6j, the result of this subclassification in the subset Ej is 0, that is, the image I is not frontal or does not match the visual criteria associated with the subset of images Ej. The results of each of these subclassifications for each of the subsets E1 to EM are combined by a logical "OR" to give the final result Res of the image classification I in frontal pose: a value 1 of result Res indicates a frontal pose, - and a value 0 of the result Res indicates a non-frontal pose. Indeed, the subsets E1 to EM being representative of most types of faces in frontal pose, if the image I represents a frontally facing face, the result of at least one of these subclassifications will be 1 and the final result Res will also be worth 1. We now detail various modes of obtaining the decision threshold bj associated with the subset of images Ej. Other methods of obtaining are possible, the value of the decision threshold bj to allow to obtain a good rate of classification of images in front pose. A first way of obtaining the decision threshold bj is to choose the value of this threshold equal to the smallest distance calculated between each negative image contained in the set IN, and the subset Ej. The calculation of the distances between the negative images and the subset Ej uses the same formula as in step b1. A second method of obtaining the decision threshold 6j, represented in FIG. 7, uses another subset E'j of positive images of visual criteria similar to those of the images of the subset Ej, and the set IN of negative images. The distances of; between the images of the subset E'j and the subset Ej, as well as the distances d; between the images of the set IN and the subset Ej, using the same formula as in step b1. Then, the threshold value bj is chosen so as to maximize the rate of good classification of the images of the subset E'j, and the rejection rate of the images of the set IN. If we give the same importance to each of these rates, then we choose the threshold value bj that maximizes the sum of these rates. Thus: If the largest distance of images of the subset E'j is smaller than the smallest distance d of the images of the set IN, the decision threshold bj is fixed at the median value between these two distances. . If, on the other hand, the largest distance of images of the subset 20E'j is greater than the smallest distance d of the images of the set IN, a threshold search maximizing the sum of the good classification rate images of the subset E'j and the rejection rate of the images of the set IN, is executed in the interval [d; d '] formed by these two distances. This interval is partitioned at regular intervals and for each value, the sum of these rates is evaluated. The decision threshold bj retained is the one that maximizes this sum. It should be noted that in this embodiment of the invention images of faces are classified according to a single classification criterion, that of the frontal pose, but it is possible to adapt it to classify images of faces according to several classification criteria. For example, once an image 2910668 14 I has been classified as non-frontal by the method described in this embodiment, the classification process according to the invention carried out in a similar way but with a criterion is carried out on this image. different classification. Two classification criteria are used. To this end, it suffices to appropriately adapt the positive image and negative image learning sets to each new classification criterion ... FT: METHOD OF CLASSIFYING AN OBJECT IMAGE AND CORRESPONDING DEVICE

Claims

1. A method for classifying an image (I) of an object belonging to a category of objects, said method comprising a preliminary step of obtaining (a1) a subset (Ej) of object images of said category, said subset being associated with a classification criterion, and said method being characterized in that it further comprises: a step of calculating (b1) the distance between said image (I) and said sub-set; set (Ej) according to the formula: Dist (q, Ej) = DMC ({vi, v2,

., vN} v {q} - DMC ({vi, V2, ..., VN}) where: Dist (q, Ej) is a distance between an image vector q corresponding to said image and the vectors of images of said subset Ej, {VI, v2, ..., VN} are vectors v1 to vN of images of said subset Ej, and DMC ({xi, ..., xp}) is an operator that returns the determinant of the covariance matrix of the vectors xi to Xp, assimilated to a number P of observations of a random vector variable x i, i being an index varying from 1 to P, and a comparison step (b2) of the distance thus calculated with a decision threshold (E1) ... CLMF:

2. Classification method according to claim 1, characterized in that said decision threshold (E1) is associated with said subset (Ej) of images.

3. A classification method according to claim 2, characterized in that said decision threshold (E1) is equal to the smallest distance computed between said subset (Ei) and the images of a set of images. negative images (IN) not corresponding to a classification criterion associated with said subset (Ei). 5

4. Classification method according to claim 2, characterized in that said decision threshold (bi) is chosen so as to maximize the sum of: - the rate of good image classification of another subset of obedient images to the same classification criterion as said subset (Ei), 10 - and the image rejection rate of a set of negative images (IN) do not correspond to said criterion of classification.

A face recognition method using the object image classification method according to any one of claims 1 to 4.

6. Device comprising means adapted to implement one of the methods according to any one of claims 1 to 5.

A computer program comprising instructions for carrying out one of the methods of any one of claims 1 to 5 when executed on a computer. 25 15 30