EP1864242A1 - Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants - Google Patents

Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants

Info

Publication number
EP1864242A1
EP1864242A1 EP06708817A EP06708817A EP1864242A1 EP 1864242 A1 EP1864242 A1 EP 1864242A1 EP 06708817 A EP06708817 A EP 06708817A EP 06708817 A EP06708817 A EP 06708817A EP 1864242 A1 EP1864242 A1 EP 1864242A1
Authority
EP
European Patent Office
Prior art keywords
images
learning
face
vectors
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP06708817A
Other languages
German (de)
English (en)
Inventor
Sid Ahmed Berrani
Christophe Garcia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1864242A1 publication Critical patent/EP1864242A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Definitions

  • a method of identifying faces from face images, a device and a corresponding computer program is a method of identifying faces from face images, a device and a corresponding computer program.
  • the field of the invention is that of image processing and image sequences, such as video sequences. More specifically, the invention relates to a face recognition technique from a set of face images of one or more persons.
  • the invention finds in particular, but not exclusively, applications in the fields of biometrics, video surveillance, or even video indexing, in which it is important to be able to recognize a face from a still image or a video sequence (for example to allow a recognized person to access a protected place).
  • pp. 105 - 110 proposes, in the phase of recognition, to use either all the face images extracted from a video sequence, or a single key face image, namely that to which the face detector has assigned the highest confidence score.
  • the invention particularly aims to overcome these disadvantages of the prior art.
  • an object of the invention is to provide a face recognition technique from fixed face images or video sequences which has improved performance compared to the techniques of the prior art.
  • an objective of the invention is to propose such a technique which gives satisfactory results, even when the face images to be treated are noisy, poorly framed, and / or have poor illumination conditions.
  • Another objective of the invention is to propose such a technique that makes it possible to optimize the recognition capabilities of the statistical methods on which it is based.
  • the invention also aims to provide such a technique that takes into account the quality of the face images used.
  • Yet another object of the invention is to propose such a technique which is well suited to the recognition of several different persons, in the context of biometrics, video surveillance and video indexation applications for example.
  • the invention also aims to provide such a technique that is simple and inexpensive to implement.
  • a method of identifying at least one face from a group of at least two face images associated with the least one person comprising a learning phase and a recognition phase of said at least one face.
  • the learning phase comprises at least a first step of filtering said images, implemented from a group of at least two learning face images associated with said at least one person, allowing selecting at least one training image representative of said face to be identified, the recognition phase using only said learning images selected during the learning phase.
  • the filtering is performed from at least one of the thresholds belonging to the group comprising: a maximum distance (DRC 1nJ1x ) taking at least account of the membership of vectors associated with at least some of said images to a cloud constituted by said vectors; a maximum distance (DO 11181 ) between said vectors and vectors reconstructed after projection of said vectors on a space associated with said vector cloud.
  • a maximum distance DRC 1nJ1x
  • DO 11181 maximum distance
  • the invention is based on a completely new and inventive approach to the recognition of faces, from still images or images extracted from video sequences. Indeed, the invention proposes to ignore all the face images available to identify the face of a person, but to filter images, to select only good quality images, it that is, those that are representative of the face to be identified (because the face is in frontal pose, that it is well framed, etc.).
  • This filtering is performed by means of one or two filtering thresholds which are the centrally robust distance, or DRC, and / or the orthogonal distance, or DO.
  • DRC centrally robust distance
  • DO orthogonal distance
  • the robust center distance takes into account the distance of a vector in the center of the vector cloud and the membership of the vector under consideration to that cloud.
  • the orthogonal distance, or OD is the distance between a vector and the vector obtained after projection of the original vector into a space associated with the vector cloud, then reverse projection.
  • the invention therefore proposes to select only a part of the training images, depending on their quality, so as to retain only those that are the most representative of facial images.
  • At least one of said thresholds is determined from vectors associated with said training images.
  • said learning phase also comprises a step of constructing a vector space for describing said at least one person from said representative training image (s).
  • This construction step implements a technique belonging to the group comprising: a Principal Component Analysis technique; - a Linear Discriminant Analysis technique; a two-dimensional Principal Component Analysis technique; a Linear Discriminant Analysis technique with two dimensions.
  • said recognition phase implements a second filtering step, from a group of at least two face images associated with said at least one person, called request images, and allows to select at least one representative request image of said face to identify, and at least one of said thresholds being determined during said learning phase, from vectors associated with learning face images.
  • the recognition phase is thus complementary to the first filtering performed during the learning.
  • at least one of said thresholds is determined during said recognition phase, from vectors associated with a set of images comprising at least two face images associated with said at least one person, called images. queries, and at least two training images representative of said face to be identified, selected during said learning phase, and said recognition phase implements a second filtering step, from said request images and makes it possible to select at least a representative query image of said face to be identified.
  • the least noisy training images and the least noisy request images are selected, which greatly improves the face recognition performance compared with the prior art techniques.
  • the request images are also filtered during the recognition phase by using the results of the learning phase, but this time in the form of training images representative of the face or faces to be identified, and no longer in the form of thresholds.
  • said recognition phase also comprises a step of comparing projections, in a vector space of description of said at least one person constructed during said learning phase, of vectors associated with said at least one representative query image and with least one representative learning image selected during said learning phase, so as to identify said face.
  • the notion of resemblance between two faces is then translated into a simple notion of spatial proximity between the projections of the faces in the space of description.
  • this comparison step the projection of each of said vectors associated with each of said representative query images is compared with the projection of each of said vectors associated with each of said representative training images; determining, for each of said vectors associated with each of said representative query images, which is the nearest vector associated with one of said representative training images, and to which person, named designated person, it is associated; the face is identified as that of the person designated the greatest number of times.
  • said first step of filtering said training images and / or said second step of filtering said request images implement said two thresholds, namely DO nJ3x and DRC 013x (calculated for all the images or sequence by sequence).
  • the identification method of the invention also comprises a step of resizing said images, so that said images are all the same size. More precisely, in the presence of an image or a video sequence, a face detector makes it possible to extract a face image, of fixed size (all the images coming from this detector are thus of the same size). Then, during the processing of this face image of fixed size, it is a first resizing of the image during the filtering of the learning phase, so as to reduce its size, and thus avoid taking into account the details and remove the noise (for example, only one pixel out of three of the original image is retained). A second resizing of the image is also performed during the construction of the description space.
  • said vectors associated with said images are obtained by concatenation of rows and / or columns of said images.
  • said learning phase being implemented for learning images associated with at least two persons
  • said thresholds associated with the learning images of each of said at least two persons are determined, and, during said recognition phase, said request images are filtered from said thresholds associated with each of said at least two persons.
  • said learning phase being implemented for learning images associated with at least two persons
  • said thresholds associated with the training images are determined. of the set of said at least two persons, and during said recognition phase, said request images are filtered from said thresholds associated with all of said at least two persons. Only two DCv thresholds 3x and DRC nJ3x are calculated for all the persons in the learning base.
  • DRC 013x are determined after Robust Principal Component Analysis (RobPCA) applied to said vectors associated with said training images, to also determine a robust mean ⁇ associated with said vectors, and a projection matrix P constructed from eigenvectors of a robust covariance matrix associated with said vectors, and said thresholds are associated with the following distances:
  • RobPCA Robust Principal Component Analysis
  • X 1 is one of said vectors associated with said training images
  • P dk is a matrix comprising the first k columns of said projection matrix P
  • y y is the y ⁇ 1 " 6 element of a projection y t of said vector X 1 from said projection matrix and said robust average.
  • the values of DCv 3x and DRC 013x are determined by analysis of the distribution of OD 1 and DRC 1 for the set of vectors x t .
  • a nm is thus a matrix n lines, m columns); - lowercase letters (eg a, b) refer to vectors; for a matrix A nm, ⁇ refers to the ith row of A and tj refers to the element at the intersection of the ith row and / column A; det (A) is the determinant of matrix A;
  • I n is the unit vector of dimension n;
  • - diag (a lt ..., a n ) is the diagonal matrix with n rows, n columns, whose elements of the diagonal are a lt ..., a n ;
  • a 1 is the transposed matrix of matrix A; a 'is the transpose of the vector a; Ivll is the Euclidean norm of vector v.
  • the invention also relates to a system for identifying at least one face from a group of at least two face images associated with at least one person, said system comprising a learning device and a recognition device said at least one face.
  • the learning device comprises means for determining at least one of the thresholds belonging to the group comprising: a maximum distance (DRC 1113x ) holding at least the membership of vectors associated with at least some of said images to a cloud constituted by said vectors; a maximum distance (DO 11181 ) between said vectors and vectors reconstructed after projection of said vectors on a space associated with said vector cloud; and first means for filtering said images, implemented from a group of at least two learning face images associated with said at least one person, for selecting at least one representative learning image of said face identifying, from at least one of said thresholds, the recognition device using only said learning images selected by said learning device.
  • DRC 1113x holding at least the membership of vectors associated with at least some of said images to a cloud constituted by said vectors
  • DO 11181 maximum distance between said vectors and vectors reconstructed after projection of said vectors on a space associated with said vector cloud
  • the invention also relates to a device for learning a system for identifying at least one face, from a group of at least two learning face images associated with at least one person.
  • a device for learning a system for identifying at least one face, from a group of at least two learning face images associated with at least one person comprises: means for analyzing said training images making it possible to determine, from vectors associated with said training images, at least one of the thresholds belonging to the group comprising: a maximum distance (DRC 11135 ) holding at least account of the belonging of said vectors to a cloud constituted by said vectors; a maximum distance (OD 1113x ) between said vectors and vectors reconstructed after projection of said vectors onto a space associated with said vector cloud; first means for filtering said training images from at least one of said thresholds so as to select at least one representative learning image of said face to be identified; means for constructing a vector space for describing said at least one person from said one or more representative learning image (s); so that only said learning images selected by said learning
  • the invention also relates to a device for recognizing at least one face from a group of at least two face images associated with at least one person, called request images, said recognition device belonging to a control system. identifying said at least one face also comprising a learning device.
  • Such a recognition device comprises: second means for filtering said request images from at least one threshold determined by said learning device, so as to select at least one request image representative of said face to be recognized; means for comparing projections, in a vector space of description of said at least one person constructed by said learning device, with vectors associated with said at least one representative query image and with at least one representative representative learning image selected by said learning device, so as to identify said face.
  • said learning device comprising first filtering means implemented from a group of at least two learning face images associated with said at least one person, for selecting at least one representative learning image said face to be identified, said recognition device using only said learning images selected by said learning device.
  • the invention further relates to a computer program comprising program code instructions for executing the learning phase of the at least one face identification method previously described when said program is executed by a processor.
  • the invention relates to a computer program comprising program code instructions for performing the steps of the recognition phase of the method for identifying at least one face described above when said program is executed by a processor.
  • FIG. 1 presents an example of facial images in frontal pose and well framed
  • Figure 2 shows an example of face images which, unlike those of Figure 1, are noisy because poorly framed and / or non-frontal pose
  • Figure 3 shows a block diagram of the face identification method of the invention
  • FIG. 4 illustrates more precisely the processes performed during the learning phase of the method of FIG. 3, in a particular embodiment of the invention
  • Figure 5 shows more schematically the learning phase of Figure 4
  • FIG. 6 illustrates in more detail the processes performed during the recognition phase of the method illustrated in FIG. 3
  • FIGS. 7 and 8 respectively show simplified diagrams of the learning and face recognition devices of the invention. 7. Description of an embodiment of the invention
  • the general principle of the invention is based on the selection of a subset of images to be used, during the learning phase and / or the recognition phase, by using a robust Principal Components Analysis, or RobPCA.
  • the invention makes it possible, in particular, to isolate the images of noisy faces during learning, and to deduce parameters for also filtering the face images during the recognition, which makes it possible to construct a description space without taking into account the noise, and to perform the recognition based on several examples images of faces also non-noisy.
  • the proposed approach thus allows to considerably increase the recognition rates compared to an approach that would take into account all the images of the sequence.
  • FIGS. 1 and 2 examples of face images are presented, on the one hand in frontal pose and well framed (FIG. 1), and on the other hand in non-frontal pose, or poorly framed, and therefore noisy ( Figure 2).
  • the invention therefore makes it possible, in the presence of a set of face images, to select only face images of the type of those of FIG. 1, to perform the learning or recognition of faces, and to exclude all facial images of the type of those in Figure 2, which are considered noisy images.
  • FIG. 3 presents a block diagram of the face identification method of the invention, which comprises three main steps: analysis 31 of the corpus of face images ((1 ! (1) , ... I M1 (1) ), ... (L 1 ⁇ , ...
  • Each person 40 (also identified by the index j) is associated with a video sequence S ⁇ .
  • a sequence S ⁇ can be acquired by filming the person 40 with the aid of a camera 41 for a determined duration.
  • a face detector 42 By applying a face detector 42 to each of the images of the sequence S ⁇ (according to a technique well known to those skilled in the art which is not the subject of the present invention and will therefore not be described here in more detail) , a set of face images (I 1 *, ... I N ⁇ ) is extracted from the sequence S ⁇ .
  • the invention then makes it possible to select only the images of faces which are in frontal pose and well framed and this, by analyzing the images of faces themselves.
  • each image I, ⁇ is resized 43 so that all images have the same size: we then obtain a set of images (T 1 ⁇ , ... I ' N ⁇ ); a vector v ', ⁇ is associated with each of the images of faces I', red resized extracted from the sequence S ⁇ .
  • the image I, ⁇ is considered as a representative face image, and is stored in the BA 51 learning base; the projection matrix P ⁇ , the robust average ⁇ ù) and the two decision thresholds ⁇ max t max DR C ⁇ ⁇ for each sequence S (J) are also saved in the training base BA 51.
  • the projection matrix P ⁇ , the robust average ⁇ ù) and the two decision thresholds ⁇ max t max DR C ⁇ ⁇ for each sequence S (J) are also saved in the training base BA 51.
  • all the images of faces extracted from all the learning video sequences S ⁇ are simultaneously considered.
  • a single projection P, a single robust average ⁇ , a single decision threshold DO m ⁇ X and a single decision threshold DRC m ⁇ X are calculated during the learning phase.
  • Learning Face The images are filtered using P, ⁇ , OD max etDRC max. An image / ', is filtered if:
  • FIG. 5 more schematically shows these two constituent phases of the learning phase, namely the analysis of the video sequences of learning and the selection of the representative images ( ⁇ 7.1) and the construction of the description space ( ⁇ 7.2).
  • a plurality of learning video sequences S 1 to S n are provided at the input, generally each associated with a distinct person that one wishes to be able to use. identify.
  • a face detector 42 is applied to each of these sequences, in order to
  • DRC nJ3x associated with the video sequence in question, and a projection method associated with the sequence (for example in the form of a projection matrix P and a robust average ⁇ associated with the images of the sequence);
  • a request sequence S representing a person to be recognized (acquired for example by a camera of I ⁇ are first extracted from the sequence S with the aid of a detector 42.
  • Each of these images I q can be considered as a request image and can therefore be used to identify the person sought, but as in learning, to increase the chances of identifying the person, we can chooses to select I q J for the identification
  • it is chosen not to reuse the same procedure as in the learning phase ( ⁇ 7.1), since the acquisition of the video request is made under conditions that are generally less controlled (eg with the aid of a surveillance camera), and the assumption that the majority of the images extracted from the sequence are in frontal pose and well framed. 'is not always verified.
  • two variants can be envisaged, depending on whether the selection of the image requests representative of the face to be identified is performed from the filter thresholds DCv x and DRC 013x calculated during the learning, or directly from the representative learning images.
  • DO q ⁇ J) - ⁇ ⁇ - P $ ⁇
  • and where p V is composed of k first column P®, and where y is the ith row of the matrix Y ° ⁇ projection matrix X 0 defined by Y n ⁇ k (X nx ⁇ - U ⁇ ') Pd x ⁇ -
  • the image / is not selected if DOf> DO ⁇ x or DRC f> DRC ⁇ , V /. In other words, a face image is not taken into account during the recognition if the associated vector is considered aberrant by all the projections and the thresholds calculated for all the training video sequences.
  • a single robust average ⁇ is considered during the learning process.
  • a single decision threshold DO max and a single decision threshold DRC max the Face images queries are also filtered using P, ⁇ , max OD and max DRC during the recognition phase.
  • a query / image is filtered (that is, considered aberrant) if:
  • DO q and DRC q are respectively the orthogonal distance and the robust distance at the center of v '(where v' is the vector associated with / ', the resulting image of the resizing of I) using P and ⁇ .
  • the representative learning images 53 from the learning phase are used.
  • a filtering procedure similar to that used during the training is then applied to each of these sets by calculating the thresholds 013x and 013x that are associated with each of these sets.
  • the face image I q is selected 80 if it is selected as the representative image by at least one of the filtering procedures applied (ie if for at least one of the sets there is a DO q ⁇ ⁇ DO m ⁇ K and DRC q ⁇ DRC max ).
  • This selection procedure 80 of the representative query images can also be applied by inserting one or more images I q in the set of face images composed of all the representative learning images from the learning phase (all sequences of learning together). However, it is then desirable that the number of images I q inserted remains less than the number of representative training images. The filtering procedure is thus executed once and the image of faces I q is selected if it is retained as representative image.
  • the identification of a request image q t is done in two steps. First, the representative query image q t is projected 81 in the description space 55 (calculated during learning) in the same manner as the images of the training database (step 54). Next, a search 82 of the nearest neighbor in the description space 55 is performed. It is a question of finding the projected vector among the projected vectors 56 corresponding to the images of the learning base which is the closest to the projected vector request. The request image q t is assigned to the same person as the person associated with the closest neighbor found. Each image q t and vote for a particular person, ie designates a person among those stored in the learning base. The results obtained for each of the representative query images of the set Q are then merged (83), and the face of the request sequence is finally recognized 84 as the person who has obtained the greatest number of votes.
  • a set of face images is extracted I 1 , I 2 , ..., I n using an automatic face detector applied on each of the images of the video sequence.
  • an automatic face detector applied on each of the images of the video sequence.
  • the CFF detector described by C. Garcia and M. Delakis is used in "Convolutional Face-Finder: A Neural Architecture for Fast and Robust Face Detection", IEEE Trans. On Pattern Analysis and Machine Intelligence, 26 (11): 1408-1423, November 2004.
  • These images are then resized to be all the same size (28x31). This resolution makes it possible to avoid taking into account the details in the images, because only the pose of the face (frontal or not) and its positioning in the image are important.
  • the line y of the matrix corresponds to the vector associated with the image T 7 .
  • This vector is built by concatenation of the lines of the image T 7 - after resizing.
  • RobPCA allows to compute a robust mean ⁇ (vector of dimension d) and a robust covariance matrix C dxd considering only a subset of the vectors (namely vectors of dimension d associated with the images of faces. corresponds to a row of the matrix X). It also makes it possible to reduce the size of the images by projecting them into a smaller dimension space k (k ⁇ d) defined by the eigenvectors of the robust covariance matrix C. According to the RobPCA principle, and as detailed in the appendix 1 which forms an integral part of this description, if:
  • the line i represents the projection of the line i of the matrix X. It is therefore the projection of the image I 1 .
  • the calculation details of the matrix C and the robust average ⁇ by the RobPCA are given in appendix 1, which forms an integral part of the present description.
  • two distances are calculated for each image /: it is the orthogonal distance (OD 1 ) and the robust distance in the center (DRC 1 ) . These two distances are calculated as follows: DO 1 , (2) where X 1 is the vector associated with /, (line i of the matrix X) and y t is the i th row of the matrix Y.
  • the threshold of the orthogonal distance is on the other hand more difficult to fix because the distribution of the OD 1 is not known. The method proposed in the article by M. is used again
  • Representative face images such as those of FIG. 1 are selected using the procedure presented here, from among a set of faces comprising images of the type of those of FIGS. 1 and 2.
  • the proposed method therefore makes it possible to select only the images in frontal pose (figure 1) and to isolate the faces of profile or poorly framed (figure 2).
  • the description space can be constructed by Principal Component Analysis (PCA).
  • PCA Principal Component Analysis
  • a learning base is first constructed in the form of a matrix.
  • Each face image is resized so that all images are the same size.
  • the chosen size is for example 63x57. This size can be the one obtained directly at the output of the face detector.
  • Each image is then associated with a dimension vector 63x57 constructed by concatenation of the lines of the image.
  • Each vector is then arranged in a row of the data matrix, denoted X md , where m is the number of images of selected faces and the size of the vectors (in this case d - 63x57).
  • the description space is defined by the vectors of the matrix V which are also the eigenvectors of the covariance matrix of X.
  • Y, ⁇ Qt V are saved for the recognition phase.
  • the vector y t (the f line of the matrix Y) which is closest to it is found by calculating the distance between b t and all the vectors y t .
  • the face image associated with b t is therefore recognized as being the person associated with the image represented by the closest neighbor found. Said that b t voted for the identified person. Once done for all b t , the face of the request sequence is finally recognized as the one with the highest number of votes.
  • FIG. 7 shows the structure of a learning device of the invention, which comprises a memory M 61, and a processing unit 60 equipped with a ⁇ P processor, which is controlled by the computer program Pg.
  • the processing unit 60 receives as input a set of training face images f 63, associated with one or more persons identified by the index j, from which the microprocessor ⁇ P realizes, according to the instructions of the program.
  • Pg 62 a Robust Principal Component Analysis, or RobPCA.
  • the ⁇ P processor of the processing unit 60 determines two filtering thresholds 68 of the images 63, called DCv 3x and DRC 013x , ie for each subset of images associated with each person.
  • the data 68 also includes a robust mean ⁇ and a projection matrix P.
  • the ⁇ P processor selects, from these thresholds, the mean ⁇ and the projection matrix P, and from the set 63 of images of one or more training images representative of the face or faces to be identified, (/ J- 0 ) * outputted from the processing unit 60.
  • An analysis of ACP type also allows the ⁇ P processor to determine a description space, or model, 65 associated with each of the persons of index j, as well as a projection method 66 in this description space 65 of vectors associated with the training images, in the form of an average and of a projection matrix.
  • FIG. 8 illustrates a simplified diagram of a face image recognition device of the invention. , which comprises a memory M 71, and a processing unit 70 equipped with a ⁇ P processor, which is controlled by the computer program Pg 72.
  • the processing unit 70 receives as input: a set of face images requests 73, from which the recognition device must identify the face of a person; the filter thresholds DO- , and DRC 013x , as well as the robust mean ⁇ and the projection matrix P 68 delivered at the output of the learning device; the description space 65 constructed by the learning device; the projection method 66 used by the learning device; the vectors 67 associated with the representative training images and projected in the description space by the learning device.
  • the ⁇ P processor of the processing unit 70 selects, according to the instructions of the program Pg 72, one or more request images representative of the face to be identified, among the set of request images 73, and from the DCv 3x and DRC thresholds. 013x , the robust average ⁇ and the projection matrix P 68. It then projects the vectors associated with these representative query images in the description space 65, by following the projection method 66. It then compares the vectors of Projected learning 67 and the projected motions vectors, to determine which face 74 is identified as the one shown on the query images 73.
  • the thresholds 68 at the input of the recognition device are replaced by the representative training images 64, and the ⁇ P processor of the processing unit 70 performs a filtering identical to that performed by the device of FIG. learning from the set consisting of a request image 73 and the representative training images 64.
  • RobPCA allows a principal component analysis, but considering only a subset of vectors. The idea is not to include in the analysis the noisy data which may affect the calculation of the mean and the covariance matrix (moments of order 1 and 2 known to be very sensitive to noise). For this, the RobPCA is based on the following property: a subset A is less noisy than another subset B if the vectors of A are less dispersed than those of B. In statistical terms, the set less noisy is the one whose determinant of the covariance matrix and the smallest.
  • the Learning Base (BA) data is preprocessed using a PCA
  • the Z matrix that is used in the following steps.
  • the purpose of the second step is to find the least noisy vectors.
  • a vector here refers to a line of the matrix Z, corresponds to a face image and is denoted z ,.
  • h max ⁇ [an] [(n + Ic ⁇ x + 1) / 2] ⁇ , (4) where k ⁇ m ⁇ is the maximum number of principal components that will be used and a parameter included in 0.5 and 1. It represents the proportion of non noisy vectors. In the present case, this parameter corresponds to the proportion of the images of learning faces extracted from a sequence which are of good quality and which could be included in the learning base. The value of this parameter could therefore be set according to the acquisition conditions of the training sequences and the quality of the images of faces extracted from the sequences. The default value is 0.75.
  • the method used to find the least noisy vectors is as follows. Firstly, for each vector z t , the noise level defined by:
  • t MCD (z ] 'v) and s MCD (z ] ' v) are respectively the robust average and the robust standard deviation of the projection of all vectors in the direction defined by v. This is the mean and standard deviation of h projected values with the smallest variance.
  • the outl noise level for all vectors is calculated and the h vectors with the smallest values of the noise level are considered.
  • the indices of these vectors are stored in the set H 0 .
  • H v orthogonal to v that contains h vectors In this case, all the vectors are projected on H v , which has the effect of reducing the size of the vectors by one, and the calculation of the sound effects is repeated. It should be noted here that this can possibly happen several times.
  • K , ko ( z n, n ⁇ K TM) P 0 (r ⁇ , ko) , where ⁇ o (ri ⁇ ) is composed of the first k 0 columns of
  • the covariance matrix of the Z * t vectors is estimated using a CDM estimator.
  • the idea is to find the h vectors whose covariance matrix has the smallest determinant. Since it is virtually impossible to calculate the covariance matrices of all subsets containing h vectors, an approximate algorithm is used.
  • This algorithm proceeds in 4 steps. 3.1 Let m 0 and C 0 respectively be the mean and the covariance matrix of the h vectors selected in step 2 (set H 0 ): (a) If det (C 0 )> 0 then calculate for each vector z * , the distance from Mahalanobis to m 0 :
  • This procedure is therefore executed iteratively until the determinant of the covariance matrix of the selected vectors h no longer decreases.
  • a weighted average and a weighted covariance matrix are calculated from m 4 and S 4 .
  • S 4 is multiplied by one
  • P 2 is a matrix kxk which contains the eigenvectors of S 5 and L 2 a diagonal matrix with the corresponding eigenvalues.
  • the matrix P 2 is then projected in ffi by applying the inverse transforms of those applied throughout the preceding steps, which makes it possible to have the final matrix of the eigenvectors P dk .
  • m 5 is projected in ffl, which allows to have ⁇ .
  • the final covariance matrix C can be calculated using equation (1).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)

Abstract

L'invention concerne un procédé d'identification de visages à partir d'images de visage, appelées images requêtes, associées à au moins une personne. Un tel procédé d'identification comprend une phase d'apprentissage, à partir d'images d'apprentissage, et une phase de reconnaissance, permettant d'identifier les visages figurant sur des images requêtes. Selon l'invention, la phase d'apprentissage comprend au moins une première étape de filtrage des images, mise en oevre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, ladite phase de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées lors de ladite phase d'apprentissage. Un tel filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC,^) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs ; - une distance maximale (DO11181) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.

Description

Procédé d'identification de visages à partir d'images de visage, dispositif et programme d'ordinateur correspondants.
1. Domaine de l'invention
Le domaine de l'invention est celui du traitement des images et des séquences d'images, telles que les séquences vidéo. Plus précisément, l'invention concerne une technique de reconnaissance de visages à partir d'un ensemble d'images de visage d'une ou plusieurs personnes.
L'invention trouve notamment, mais non exclusivement, des applications dans les domaines de la biométrie, de la vidéosurveillance, ou encore de l'indexation vidéo, dans lesquels il est important de pouvoir reconnaître un visage à partir d'une image fixe ou d'une séquence vidéo (par exemple pour autoriser une personne reconnue à accéder à un lieu protégé).
2. Solutions de l'art antérieur
On connaît à ce jour plusieurs techniques de reconnaissance de visages à partir de séquences d'images fixes ou animées. Ces techniques reposent classiquement sur une première phase d'apprentissage, au cours de laquelle on construit une base d'apprentissage, à partir des images de visage de différentes personnes (éventuellement extraites de séquences vidéo d'apprentissage), et sur une deuxième phase de reconnaissance, au cours de laquelle les images de la base d'apprentissage sont utilisées pour reconnaître une personne.
Ces techniques mettent généralement en œuvre des méthodes statistiques pour calculer, à partir de la base d'apprentissage, un espace de description dans lequel la similarité entre deux visages est évaluée. L'objectif est alors de traduire le plus fidèlement possible la notion de ressemblance entre deux visages en une simple notion de proximité spatiale entre les projections des visages dans l'espace de description.
Les différences principales entre les différentes techniques existantes résident dans le traitement effectué lors de la phase de reconnaissance.
Ainsi, A. W. Senior dans "Recognizing Faces in Broadcast Video "
("Reconnaissance de visages dans des vidéos diffusées"), Proc. of Int. Workshop on Récognition, Analysis and Tracking of Faces and Gestures in Real Time Systems,
Corfu, Greece, Septembre 1999, pp. 105 - 110, propose, lors de la phase de reconnaissance, d'utiliser, soit toutes les images de visage extraites d'une séquence vidéo, soit une unique image de visage clef, à savoir celle à laquelle le détecteur de visage a attribué le score de confiance le plus élevé.
Selon une autre approche, A. Hadid, et M. Pietikainen dans "From Still Image to Video-Based Face Récognition: An Expérimental Analysis" ("De la reconnaissance de visage à partir d'images fixes à la reconnaissance de visages à partir de vidéos: une analyse expérimentale"), Proc. of 6* Int. Conf. on Automatic Face and Gesture Récognition, Séoul, Korea, Mai 2004, pp. 813 - 818, proposent quant à eux de sélectionner des images clefs à partir de la séquence vidéo, sans analyser les visages qu'elles contiennent, puis d'effectuer la reconnaissance en considérant uniquement les visages extraits à partir des images clefs. Chaque visage retournant un résultat différent, une procédure classique de fusion des résultats a posteriori est ensuite utilisée.
Enfin, dans "An Automatic Face Détection and Récognition System for Video Indexing Applications" ("Système de reconnaissance et de détection automatique de visages pour des applications d'indexation vidéo"), Proc. of the Int. Conf. on Acoustic Speech and Signal Processing (vol. 4), Orlando, Florida, Mai 2002, pp. IV-3644 - IV- 3647, E. Acosta et al. utilisent quant à eux l'ensemble des visages extraits à partir de la séquence vidéo requête lors de la reconnaissance. Pour évaluer la proximité entre la requête et le modèle d'une des personnes stockées dans la base d'apprentissage, une mesure de similarité entre chaque image de visage extraite à partir de la séquence requête et le modèle est calculée. La valeur finale de la similarité est la valeur médiane de toutes les mesures calculées, ce qui revient à considérer une unique image de visage parmi toutes celles qui ont été extraites.
3. Inconvénients de l'art antérieur Ces différentes techniques de l'art antérieur reposent toutes sur des méthodes statistiques permettant de construire un espace de description dans lequel on projette les images de visage. Or, ces projections doivent être capables d'absorber les variations qui peuvent affecter les images de visages, c'est-à-dire qu'elles doivent pouvoir mettre en évidence les ressemblances entre images de visage en dépit des variations qui peuvent affecter les images.
Ces variations peuvent être de deux types. Il y a d'abord les variations inhérentes aux changements d'expressions de visages (e. g. le sourire) et aux occultations (e. g. le port de lunettes, la barbe...). Ensuite, il y a les variations dues aux conditions d'acquisition de l'image (e. g. conditions d'illumination) et à la segmentation du visage (i.e. l'extraction et le centrage de la portion d'image contenant le visage). Si les méthodes antérieures pour la reconnaissance de visages sont efficaces dans le cas où les images de visages sont bien cadrées et sont prises dans de bonnes conditions d'illumination, leurs performances se dégradent fortement lorsque les images de visages utilisées pour l'apprentissage ou lors de la reconnaissance ne sont pas très bien alignées (i.e. les différents attributs du visages (les yeux, la bouche, le nez...) ne se trouvent pas aux mêmes endroits dans toutes les images de visages), et/ou ne sont pas de bonne qualité.
Or, dans le contexte de la reconnaissance de visages à partir de séquences vidéo, ces conditions d'alignement et de bonne qualité des images de visages ne sont généralement pas vérifiées. D'une part, l'acquisition des séquences n'est pas très contrainte et la personne à reconnaître ne reste en général pas en position frontale en face de la caméra durant toute la durée de l'acquisition. D'autre part, les images de visages sont extraites automatiquement à partir des séquences vidéo à l'aide de techniques de détection de visages, qui peuvent générer de fausses détections et sont imprécises en terme de cadrage. Les images de visages utilisées dans ce contexte peuvent donc être de mauvaise qualité, être mal cadrées et peuvent contenir de mauvaises détections.
Les inventeurs de la présente demande de brevet ont donc identifié que l'un des inconvénients majeurs des méthodes existantes pour la reconnaissance de visages à partir de séquences vidéo réside dans l'absence de prise en compte de la qualité des images de visage utilisées.
Ainsi par exemple, toutes les images de visages disponibles (par exemple toutes les images de visage extraites à partir des séquences vidéo) sont systématiquement prises en compte lors de l'apprentissage. Ceci réduit considérablement les performances de ces techniques, du fait que les méthodes statistiques (de type ACP pour Analyse en Composantes Principales) utilisées pour la reconnaissance de visages sont extrêmement sensibles aux bruits car elles reposent sur le calcul d'une matrice de covariance (c'est-à- dire de moments d'ordre 1 et 2).
De même, selon ces méthodes antérieures, le choix des images de visage utilisées lors de la phase de reconnaissance n'est pas optimal. Or, le choix de ces images influence fortement les performances de ces techniques de reconnaissance de visages : elles doivent être bien cadrées et de bonne qualité. Cependant, aucune des méthodes de l'art antérieur citées ci-dessus ne propose une sélection des images qui tienne compte de leur "qualité".
4. Objectifs de l'invention
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de reconnaissance de visages à partir d'images de visage fixes ou de séquences vidéo qui présente des performances accrues par rapport aux techniques de l'art antérieur. Notamment, un objectif de l'invention est de proposer une telle technique qui donne des résultats satisfaisants, même lorsque les images de visage à traiter sont bruitées, mal cadrées, et/ou présentent de mauvaises conditions d'illumination.
Un autre objectif de l'invention est de proposer une telle technique qui permette d'optimiser les capacités de reconnaissance des méthodes statistiques sur lesquelles elle repose. L'invention a encore pour objectif de fournir une telle technique qui tienne compte de la qualité des images de visage utilisées.
Encore un objectif de l'invention est de proposer une telle technique qui soit bien adaptée à la reconnaissance de plusieurs personnes distinctes, dans le cadre d'applications de biométrie, de vidéosurveillance et d'indexation vidéo par exemple. L'invention a également pour objectif de fournir une telle technique qui soit simple et peu coûteuse à mettre en œuvre.
5. Caractéristiques essentielles de l'invention
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit procédé comprenant une phase d'apprentissage et une phase de reconnaissance dudit au moins un visage. Selon l'invention, la phase d'apprentissage comprend au moins une première étape de filtrage desdites images, mise en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, la phase de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées lors de la phase d'apprentissage. Le filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC1nJ1x) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; une distance maximale (DO11181) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la reconnaissance de visages, à partir d'images fixes ou d'images extraites de séquences vidéo. En effet, l'invention propose de ne pas tenir compte de l'ensemble des images de visage disponibles pour identifier le visage d'une personne, mais de réaliser un filtrage des images, afin de sélectionner uniquement les images de bonne qualité, c'est-à-dire celles qui sont représentatives du visage à identifier (parce que le visage est en pose frontale, qu'il est bien cadré, etc.). Ce filtrage est réalisé au moyen d'un ou deux seuils de filtrage qui sont la distance robuste au centre, ou DRC, et/ou la distance orthogonale, ou DO. Un tel filtrage est réalisé sur les vecteurs associés aux images, et permet, après analyse de la distribution et des propriétés statistiques de ces vecteurs, de détecter et d'isoler le ou les vecteur(s) aberrant(s). Il repose sur l'hypothèse selon laquelle la majorité des images disponibles sont de bonne qualité, ce qui permet d'identifier tous les vecteurs qui ne suivent pas les propriétés de distribution de l'ensemble des vecteurs disponibles comme des vecteurs aberrants, et donc associés à des images de qualité moindre, ou en tout cas peu représentatives du visage à identifier.
La distance robuste au centre, ou DRC, tient compte de la distance d'un vecteur au centre du nuage de vecteurs et de l'appartenance du vecteur considéré à ce nuage. La distance orthogonale, ou DO, est la distance entre un vecteur et le vecteur obtenu après projection du vecteur d'origine dans un espace associé au nuage de vecteurs, puis projection inverse.
Ainsi, contrairement aux méthodes de l'art antérieur, selon lesquelles toutes les images disponibles étaient systématiquement prises en compte lors de l'apprentissage, l'invention propose donc de sélectionner seulement une partie des images d'apprentissage, en fonction de leur qualité, de façon à ne retenir que celles qui sont les plus représentatives d'images de visage.
Selon une première caractéristique avantageuse de l'invention, au moins un desdits seuils est déterminé à partir de vecteurs associés auxdites images d'apprentissage. Avantageusement, ladite phase d'apprentissage comprend également une étape de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s). Cette étape de construction met en œuvre une technique appartenant au groupe comprenant : une technique d'Analyse en Composantes Principales ; - une technique d'Analyse Discriminante Linéaire ; une technique d'Analyse en Composantes Principales à deux Dimensions ; une technique d'Analyse Discriminante Linéaire à deux Dimensions. Selon une deuxième caractéristique avantageuse de l'invention, ladite phase de reconnaissance met en œuvre une deuxième étape de filtrage, à partir d'un groupe d'au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et permet de sélectionner au moins une image requête représentative dudit visage à identifier, et au moins un desdits seuils étant déterminé lors de ladite phase d'apprentissage, à partir de vecteurs associés à des images de visage d'apprentissage.
Ainsi, on filtre les images requêtes, en fonction de leur qualité, de façon à n'effectuer la reconnaissance qu'à partir des images les moins bruitées, et les plus représentatives de visages. On accroît ainsi considérablement les performances d'identification des visages par rapport aux techniques antérieures. Ce deuxième filtrage effectué lors de la phase de reconnaissance est ainsi complémentaire du premier filtrage effectué lors de l'apprentissage. En outre, il est particulièrement avantageux d'utiliser les seuils calculés lors de l'apprentissage, car les images d'apprentissage sont généralement de meilleure qualité que les images requêtes, du fait de leurs conditions d'acquisition. Dans une variante de l'invention, au moins un desdits seuils est déterminé lors de ladite phase de reconnaissance, à partir de vecteurs associés à un ensemble d'images comprenant au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et au moins deux images d'apprentissage représentatives dudit visage à identifier, sélectionnées lors de ladite phase d'apprentissage, et ladite phase de reconnaissance met en œuvre une deuxième étape de filtrage, à partir desdites images requêtes et permet de sélectionner au moins une image requête représentative dudit visage à identifier.
On sélectionne ainsi, et les images d'apprentissage les moins bruitées, et les images requêtes les moins bruitées, ce qui améliore fortement les performances de reconnaissance des visages par rapport aux techniques antérieures.
Dans cette variante, on filtre également les images requêtes lors de la phase de reconnaissance en utilisant les résultats de la phase d'apprentissage, mais cette fois sous la forme d'images d'apprentissage représentatives du ou des visages à identifier, et non plus sous la forme de seuils.
Préférentiellement, ladite phase de reconnaissance comprend également une étape de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit lors de ladite phase d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée lors de ladite phase d'apprentissage, de façon à identifier ledit visage. La notion de ressemblance entre deux visages est alors traduite en une simple notion de proximité spatiale entre les projections des visages dans l'espace de description.
Lors de cette étape de comparaison : - on compare la projection de chacun desdits vecteurs associés à chacune desdites images requêtes représentatives à la projection de chacun desdits vecteurs associés à chacune desdites images d'apprentissage représentatives ; on détermine, pour chacun desdits vecteurs associés à chacune desdites images requêtes représentatives, quel est le plus proche vecteur associé à une desdites images d'apprentissage représentatives, et à quelle personne, appelée personne désignée, il est associé ; on identifie ledit visage comme celui de la personne désignée le plus grand nombre de fois.
De façon préférentielle, ladite première étape de filtrage desdites images d'apprentissage et/ou ladite deuxième étape de filtrage desdites images requêtes met(tent) en œuvre lesdits deux seuils, à savoir DOnJ3x et DRC013x (calculés pour l'ensemble des images ou séquence par séquence).
Pour une application préférentielle de l'invention, certaines au moins desdites images sont extraites à partir d'au moins une séquence vidéo par mise en œuvre d'un algorithme de détection de visages, bien connu de l'Homme du Métier. Le procédé d'identification de l'invention comprend également une étape de redimensionnement desdites images, de façon à ce que lesdites images soient toutes de même taille. Plus précisément, en présence d'une image ou d'une séquence vidéo, un détecteur de visage permet d'extraire une image de visage, de taille fixe (toutes les images issues de ce détecteur sont ainsi de même taille). Ensuite, lors du traitement de cette image de visage de taille fixe, on procède à un premier redimensionnement de l'image lors du filtrage de la phase d'apprentissage, de façon à réduire sa taille, et ainsi éviter de prendre en compte les détails et enlever le bruit (par exemple, on conserve seulement un pixel sur trois de l'image d'origine). Un deuxième redimensionnement de l'image est également effectué lors de la construction de l'espace de description. Avantageusement, lesdits vecteurs associés auxdites images sont obtenus par concaténation de lignes et/ou de colonnes desdites images.
Selon une première variante avantageuse de l'invention, ladite phase d'apprentissage étant mise en œuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de chacune desdites au moins deux personnes, et, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à chacune desdites au moins deux personnes. On calcule alors autant de seuils DO0^ et DRC0^ qu'il y a de personnes y dans la base d'apprentissage.
Selon une deuxième variante avantageuse de l'invention, ladite phase d'apprentissage étant mise en œuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de l'ensemble desdites au moins deux personnes, et, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à l'ensemble desdites au moins deux personnes. On calcule alors deux seuls seuils DCv3x et DRCnJ3x pour l'ensemble des personnes de la base d'apprentissage. Selon une caractéristique avantageuse de l'invention, lesdits seuils DCv3x e*
DRC013x sont déterminés à l'issue d'une Analyse en Composantes Principales Robuste (RobPCA) appliquée auxdits vecteurs associés auxdites images d'apprentissage, permettant de déterminer également une moyenne robuste μ associée auxdits vecteurs, et une matrice de projection P construite à partir des vecteurs propres d'une matrice de covariance robuste associée auxdits vecteurs, et lesdits seuils sont associés aux distances suivantes :
où X1 est un desdits vecteurs associés auxdites images d'apprentissage, Pdk est une matrice comprenant les k premières colonnes de ladite matrice de projection P, y y est le y^1"6 élément d'une projection yt dudit vecteur X1 à partir de ladite matrice de projection et de ladite moyenne robuste.
Les valeurs de DCv3x et DRC013x sont déterminées par analyse de la distribution des DO1 et DRC1 pour l'ensemble des vecteurs xt.
On notera que, dans l'ensemble de ce document, on utilise les notations suivantes : les lettres en majuscules (e. g. A, B) font référence à des matrices dont le nombre de lignes et le nombre de colonnes sont mentionnés au besoin en indice (e. g.
An m est ainsi une matrice n lignes, m colonnes) ; - les lettres en minuscules (e. g. a, b) font référence à des vecteurs ; pour une matrice An m, α, fait référence à la ie ligne de A et atj fait référence à l'élément situé à l'intersection de la ie ligne et de la / colonne de A ; det(A) est le déterminant de la matrice A ;
In est le vecteur unitaire de dimension n ; - diag(alt...,an) est la matrice diagonale à n lignes, n colonnes, dont les éléments de la diagonale sont alt...,an ;
A1 est la matrice transposée de la matrice A ; a' est la transposée du vecteur a ; Ivll est la norme euclidienne du vecteur v. L'invention concerne aussi un système d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit système comprenant un dispositif d'apprentissage et un dispositif de reconnaissance dudit au moins un visage.
Dans un tel système, le dispositif d'apprentissage comprend des moyens de détermination d'au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC1113x) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; une distance maximale (DO11181) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs ; et des premiers moyens de filtrage desdites images, mis en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, à partir de l'un au moins desdits seuils, le dispositif de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage.
L'invention concerne également un dispositif d'apprentissage d'un système d'identification d'au moins un visage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à au moins une personne. Un tel dispositif comprend : des moyens d'analyse desdites images d'apprentissage permettant de déterminer, à partir de vecteurs associés auxdites images d'apprentissage, au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC11135) tenant au moins compte de l'appartenance desdits vecteurs à un nuage constitué par lesdits vecteurs; une distance maximale (DO1113x) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs ; des premiers moyens de filtrage desdites images d'apprentissage à partir de l'un au moins desdits seuils, de façon à sélectionner au moins une image d'apprentissage représentative dudit visage à identifier ; des moyens de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s) ; de façon qu'uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage soient utilisées par un dispositif de reconnaissance.
L'invention concerne aussi un dispositif de reconnaissance d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, appelées images requêtes, ledit dispositif de reconnaissance appartenant à un système d'identification dudit au moins un visage comprenant également un dispositif d'apprentissage.
Un tel dispositif de reconnaissance comprend : des seconds moyens de filtrage desdites images requêtes à partir d'au moins un seuil déterminé par ledit dispositif d'apprentissage, de façon à sélectionner au moins une image requête représentative dudit visage à reconnaître; - des moyens de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit par ledit dispositif d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée par ledit dispositif d'apprentissage, de façon à identifier ledit visage. ledit dispositif d'apprentissage comprenant des premiers moyens de filtrage mis en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, ledit dispositif de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage.
L'invention concerne encore un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution de la phase d'apprentissage du procédé d'identification d'au moins un visage décrit précédemment lorsque ledit programme est exécuté par un processeur.
L'invention concerne enfin un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes de la phase de reconnaissance du procédé d'identification d'au moins un visage décrit précédemment lorsque ledit programme est exécuté par un processeur.
6. Liste des figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un exemple d'images de visage en pose frontale et bien cadrées ; la figure 2 présente un exemple d'images de visage qui, au contraire de ceux de la figure 1 , sont bruités car mal cadrés et/ou en pose non frontale ; la figure 3 présente un synoptique du procédé d'identification de visage de l'invention ; la figure 4 illustre plus précisément les traitements effectués lors de la phase d'apprentissage du procédé de la figure 3, dans un mode de réalisation particulier de l'invention ; la figure 5 présente de manière plus schématique la phase d'apprentissage de la figure 4 ; la figure 6 illustre plus en détail les traitements effectués lors de la phase de reconnaissance du procédé illustré en figure 3 ; - les figures 7 et 8 présentent respectivement des schémas simplifiés des dispositifs d'apprentissage et de reconnaissance de visages de l'invention. 7. Description d'un mode de réalisation de l'invention
Le principe général de l'invention repose sur la sélection d'un sous-ensemble d'images à utiliser, lors de la phase d'apprentissage et/ou de la phase de reconnaissance, par utilisation d'une Analyse en Composantes Principales Robuste, ou RobPCA.
L'invention permet notamment d'isoler les images de visages bruitées lors de l'apprentissage, et de déduire des paramètres permettant de filtrer également les images de visages lors de la reconnaissance, ce qui permet de construire un espace de description sans prendre en compte le bruit, et d'effectuer la reconnaissance en se basant sur plusieurs exemples d'images de visages également non bruitées. L'approche proposée permet ainsi d'accroître considérablement les taux de reconnaissance par rapport à une approche qui prendrait en compte toutes les images de la séquence.
On présente, en relation avec les figures 1 et 2, des exemples d'images de visage, d'une part en pose frontale et bien cadrées (figure 1), et d'autre part en pose non frontale, ou mal cadrées, et donc bruitées (figure 2). L'invention permet donc, en présence d'un ensemble d'images de visage, de sélectionner uniquement des images de visage du type de celles de la figure 1, pour réaliser l'apprentissage ou la reconnaissance de visages, et d'écarter toutes les images de visage du type de celles de la figure 2, que l'on considère comme des images bruitées.
On s'attache, dans toute la suite du document, à décrire un exemple de réalisation de l'invention dans le cadre de la reconnaissance de visages à partir de séquences vidéo, tant lors de la phase d'apprentissage que de la phase de reconnaissance. L'invention s'applique bien sûr également à la reconnaissance d'images de visage à partir d'un ensemble d'images fixes, obtenues par exemple à l'aide d'un appareil photo en mode rafale. En outre, on s'attache à décrire un mode de réalisation particulier dans lequel on filtre les images bruitées, tant lors de la phase d'apprentissage que de la phase de reconnaissance, au cours de laquelle on utilise les résultats de la phase d'apprentissage. Ces deux phases peuvent bien sûr également être mises en œuvre indépendamment l'une de l'autre. La figure 3 présente un synoptique du procédé d'identification de visage de l'invention, qui comprend trois étapes principales : analyse 31 du corpus des images de visages ((l! (1),...IM1 (1)),... (L1^,... I^), ... (l! (N),...IM3 (N))) extraites (30) à partir des séquences vidéo d'apprentissage (S(1), ...Sω, ...S(N), où l'indice j désigne la personne à qui est associée la séquence Sω) pour déterminer, d'une part, deux seuils de décision (DO013x, DRC013X) pour filtrer les images de visages non représentatives, et d'autre part, un modèle 34 (un espace de description) basé sur les images de visages représentatives ; filtrage 32 des images de visages à reconnaître (lq (k)) (images extraites à partir de la séquence requête) suivant les seuils (DCv3x, DRC013x) obtenus lors de la phase d'apprentissage pour obtenir des images de visages représentatives suivant ces critères (PfA . Comme détaillé davantage dans la suite de ce document, ce
V * Iq =1 filtrage tient également compte d'une matrice de projection P et d'une moyenne robuste μ ; utilisation uniquement des images de visages représentatives \ Vl *[k)) Iq =1 pour la reconnaissance 33 de visages 35 suivant le modèle 34 obtenu lors de la phase d'apprentissage.
Il est bien sûr possible, bien que peu fréquent, qu'aucune image ne soit de suffisamment bonne qualité pour être retenue comme une image représentative lors du filtrage. Il convient alors de sélectionner au moins une image, selon un critère à définir : par exemple, on choisit de sélectionner la première image de la séquence. On présente ci-après plus en détail ces différentes étapes principales.
7.1 Analyse des séquences vidéo d'apprentissage et sélection des images représentatives
À chaque personne 40 (également identifiée par l'indice j), est associée une séquence vidéo Sω. Une séquence Sω peut être acquise en filmant la personne 40 à l'aide d'une caméra 41 pendant une durée déterminée. En appliquant un détecteur de visages 42 sur chacune des images de la séquence Sω (selon une technique bien connue de l'Homme du Métier qui ne fait pas l'objet de la présente invention et ne sera donc pas décrite ici plus en détail), un ensemble d'images de visages (I1*, ...IN ω) est extrait à partir de la séquence Sω. L'invention permet alors de sélectionner uniquement les images de visages qui sont en pose frontale et bien cadrées et ceci, en analysant les images de visages elles-mêmes. Pour cela, on utilise une analyse en composantes principales robuste (RobPCA), telle que décrite par M. Hubert, PJ. Rousseeuw, et K. Vanden Branden dans "ROBPCA: A New Approach to Robust Principal Component Analysis", Technometrics, 47(1): 64-79 Février 2005. L'idée est de considérer chacune des images de visages Lω comme un vecteur v,ω et d'assimiler le problème à un problème de détection de vecteurs aberrants, en supposant que la majorité des visages extraits de la séquence Sω sont de bonne qualité (i.e. bien cadrés et en pose frontale). Cette hypothèse est raisonnable car l'on peut considérer que l'acquisition de la vidéo de la personne 40 dont on réalise l'apprentissage peut s'effectuer dans des conditions bien maîtrisées. Pour chaque ensemble d'images de visages (I1^, ...IN ω) extraites à partir d'une séquence vidéo Sω, on procède de la façon suivante : chaque image I,ω est redimensionnée 43 pour que toutes les images aient la même taille : on obtient alors un ensemble d'images (T1 ω, ...I'N ω) ; un vecteur v ',ω est associé 44 à chacune des images de visages I',® redimensionnées extraites à partir de la séquence Sω. Ce vecteur v ',ω est construit par concaténation des lignes (ou bien des colonnes) de l'image T1 0I Chaque composante correspond à la valeur du niveau de gris d'un pixel de l'image I',ω ; les vecteurs v',ω sont disposés 45 sous la forme d'une matrice X(J> où chaque ligne correspond à un vecteur v',ω associé à une image I',® ; une analyse en composantes principales robuste (RobPCA) 46 est appliquée sur la matrice X0K Un nouvel espace de dimension plus réduite est alors défini par une matrice de projection robuste Pω et une moyenne robuste μ<ϋ> ; pour un vecteur v',ω (vecteur associé à une image de visage de la personne d'indice j, ligne de la matrice X0*), deux distances sont calculées 47 : la distance orthogonale (DOt ω) et la , de la façon suivante : Dû'"' = |vî 0) - où P ω est composée des k premières colonnes de Pω, et où y, est la f ligne de la matrice Y®, projection de la matrice Xϋ) définie par Ynxk =(Xnxd - In μ') Pdxk. L'analyse de la distribution des distances orthogonales et des distances robustes au centre permet de déterminer deux seuils de décision DOn^x et DRCn^x, délivrées en sortie du bloc 46 de RobPCA. Si pour un vecteur v',ω, DO,ω > D0,JJ> ou DRC,ω > DRC,JJ> (48) alors le vecteur v',ω, est considéré (49) comme un vecteur aberrant et l'image de visage associée n'est pas sélectionnée (i.e. n'est pas prise en compte lors de l'apprentissage). Dans le cas contraire 50, l'image I,ω est considérée comme une image de visage représentative, et est mémorisée dans la base d'apprentissage BA 51 ; la matrice de projection Pω, la moyenne robuste μù) ainsi que les deux seuils de décision DOω max Qt DR C^^ pour chaque séquence S(J) sont également sauvegardés dans la base d'apprentissage BA 51. Dans une variante de réalisation de cette étape de sélection des images d'apprentissage représentatives du visage à identifier, on considère simultanément l'ensemble des images de visages extraites à partir de toutes les séquences vidéo d'apprentissage Sω. Dans ce cas, une seule projection P, une seule moyenne robuste μ, un seul seuil de décision DOmΑX et un seul seuil de décision DRCmΑX sont calculés lors de la phase d'apprentissage. Les images de visage d'apprentissage sont donc filtrées en utilisant P, μ, DOmax etDRCmax . Une image /', est filtrée si :
DO1 > D<9max ou DRC1 > DRC^ où DO1 et DRC1 sont respectivement la distance orthogonale et la distance robuste au centre de v', (le vecteur associé à I\) en utilisant P et μ. 7.2 Construction de l'espace de description
Seules les images de visages sélectionnées 50 lors de l'étape précédente sont incluses dans la base d'apprentissage 51 utilisée pour la construction de l'espace de description. Celui-ci est calculé en utilisant une des techniques statistiques connues telles que l'ACP ("Analyse en Composantes Principales"), l'ADL ("Analyse Discriminante Linéaire"), 1ΑCP2D ou l'ADL2D (i.e. "en deux dimensions"). L'objectif de ces techniques est de trouver un espace de dimension réduite dans lequel les vecteurs v,ω associés aux images de visages sont projetés et comparés.
Une fois la projection calculée, tous les vecteurs v,ω associés aux images de visages Lω de la base d'apprentissage 51 sont projetés dans l'espace de description. Leurs projections sont ensuite sauvegardées et utilisées lors de la phase de reconnaissance.
La figure 5 présente de manière plus schématique ces deux phases constitutives de la phase d'apprentissage, à savoir l'analyse des séquences vidéo d'apprentissage et la sélection des images représentatives (§7.1) et la construction de l'espace de description (§7.2). On dispose en entrée d'une pluralité de séquences vidéo d'apprentissage S1 à Sn, généralement associées chacune à une personne distincte que l'on veut pouvoir identifier. Un détecteur de visages 42 est appliqué à chacune de ces séquences, afin d'en
( 1 \^ / 1 \^n
I1 J à ( /" I . Sur chacun de ces ensembles d'images de visage, on procède à la sélection 51 d'images de visage représentatives, qui permet d'obtenir : - d'une part, des données 52 comprenant les deux seuils de filtrage DO11181 et
DRCnJ3x associés à la séquence vidéo considérée, et une méthode de projection associée à la séquence (par exemple sous la forme d'une matrice de projection P et d'une moyenne robuste μ associées aux images de la séquence) ;
( , \ M\ / \Mn
I1 ) à (/," ) 53.
Ces images d'apprentissage 53 représentatives des visages à identifier sont utilisées pour construire 54 un espace de description 55, ou modèle, associé aux personnes à identifier, et pour réaliser la projection 56 des vecteurs associés aux images d'apprentissage représentatives 53. On présente ci-après les traitements réalisés lors de la phase de reconnaissance du procédé d'identification de l'invention. 7.3 Sélection des images représentatives à partir de la séquence requête
Comme illustré par la figure 6, en présence d'une séquence requête S représentant une personne à reconnaître (acquise par exemple par une caméra de I \ sont tout d'abord extraites à partir de la séquence S à l'aide d'un détecteur automatique de visages 42. Chacune de ces images Iq peut être considérée comme une image requête et peut donc servir à identifier la personne recherchée. Or, de même que lors de l'apprentissage, pour accroître les chances de bien identifier la personne, on choisit de sélectionner Iq J pour l'identification. Dans un mode de réalisation préférentiel de l'invention, on choisit de ne pas réutiliser la même procédure que dans la phase d'apprentissage (§7.1), car l'acquisition de la vidéo requête s'effectue dans des conditions que l'on maîtrise généralement moins (e. g. à l'aide d'une caméra de surveillance), et l'hypothèse selon laquelle la majorité des images extraites de la séquence sont en pose frontale et bien cadrées n'est pas toujours vérifiée.
Dans une variante sous-optimale de l'invention, on pourrait cependant choisir de réaliser, sur les images requêtes, un traitement identique à celui réalisé sur les images d'apprentissage lors de la phase d'apprentissage, par analyse de type RobPCA.
Dans le mode de réalisation préférentiel de l'invention, deux variantes peuvent être envisagées, selon que la sélection des images requêtes représentatives du visage à identifier est effectuée à partir des seuils de filtrage DCvx et DRC013x calculés lors de l'apprentissage, ou directement à partir des images d'apprentissage représentatives.
Dans une première variante, on choisit d'utiliser les paramètres de décision 52 calculés lors de l'apprentissage (§7.1, seuils DCv3x et DRC013x). A chaque image de visage Iq extraite à partir de la séquence requête S, on associe un vecteur vq (par concaténation des lignes ou bien des colonnes de l'image) et on applique l'algorithme 80 suivant pour décider de garder ou non l'image de visage Iq et de l'utiliser ou non lors de l'identification :
Pour chacune des séquences vidéo S® utilisées lors de l'apprentissage : charger la matrice de projection P®, la moyenne robuste μ® ainsi que les deux seuils de décision DO^x et DRC^x qui ont été sauvegardés lors de la phase d'apprentissage, calculer la distance orthogonale DOf ei la distance robuste au centre DRCf de v'q
(où v'q est le vecteur associé à l'image l'q résultant du redimensionnement de lq similaire à celui effectué sur les images d'apprentissage et décrit précédemment dans ce document) en utilisant P® et μ®, de la façon suivante :
DOq {J) = - μω - P$ χ|| et où pV est composée des k premières colonnes de P®, et où y, est la Ie ligne de la matrice Y°\ projection de la matrice X0 définie par Ynxk =(Xnxα- U μ') Pdxκ- L'image /, n'est pas sélectionnée si DOf > DO^x ou DRC f > DRC^, V/ . En d'autres termes, une image de visage n'est pas prise en compte lors de la reconnaissance si le vecteur associé est considéré comme aberrant par toutes les projections et les seuils calculés pour toutes les séquences vidéo d'apprentissage.
Dans la variante de réalisation dans laquelle on ne considère, lors de l'apprentissage, qu'un unique ensemble dans lequel sont regroupées toutes les images d'apprentissage, et où on ne calcule qu'une seule projection P, une seule moyenne robuste μ, un seul seuil de décision DOmax et un seul seuil de décision DRCmax , les images de visage requêtes sont également filtrées en utilisant P, μ, DOmax et DRCmax lors de la phase de reconnaissance. Comme pour l'apprentissage, une image requête / est filtrée (c'est-à-dire considérée comme aberrante) si :
DO9 > DOmax ou DRC q > DRCmax où DO q et DRC q sont respectivement la distance orthogonale et la distance robuste au centre de v' (où v' est le vecteur associé à /', l'image résultante du redimensionnement de I) en utilisant P et μ.
Dans une deuxième variante, on utilise les images d'apprentissage représentatives 53 issues de la phase d'apprentissage. A chaque image de visage Iq extraite (42) à partir de la séquence requête S, on associe un vecteur vq (par concaténation des lignes ou bien des colonnes de l'image) et on insère ce vecteur dans chacun des ensembles de vecteurs associés aux images d'apprentissage représentatives 53 issues des séquences vidéo Sω utilisées lors de l'apprentissage. On dispose ainsi d'autant d'ensembles que de séquences d'apprentissage 5ω. On applique ensuite sur chacun de ces ensembles une procédure de filtrage similaire à celle utilisée lors de l'apprentissage en calculant les seuils DO013x et DRC013x associés à chacun de ces ensembles. L'image de visage Iq est sélectionnée 80 si elle est retenue comme image représentative par au moins une des procédures de filtrage appliquées (i.e. si pour l'un au moins des ensembles on a DO q ≤ DOmΑK et DRC q ≤ DRC max). Cette procédure de sélection 80 des images requêtes représentatives peut être également appliquée en insérant une ou plusieurs images Iq dans l'ensemble d'images de visages composé de toutes les images d'apprentissage représentatives issues de la phase d'apprentissage (toutes séquences d'apprentissage confondues). Il est cependant alors souhaitable que le nombre d'images Iq insérées reste inférieur au nombre d'images d'apprentissage représentatives. La procédure de filtrage est ainsi exécutée une seule fois et l'image de visages Iq est sélectionnée si elle est retenue comme image représentative. Dans ce cas, on calcule seulement deux seuils DO013x et DRC013x pour l'ensemble constitué de toutes les images d'apprentissage représentatives et de la ou les image(s) Iq. On note l'ensemble des images de visages sélectionnées à partir de la séquence τeqaète Q = {qlt q2,..., qJ. 7.4 Reconnaissance
L'identification d'une image requête qt s'effectue en deux étapes. D'abord, l'image requête représentative qt est projetée 81 dans l'espace de description 55 (calculé lors de l'apprentissage) de la même manière que les images de la base d'apprentissage (étape 54). Ensuite, une recherche 82 du plus proche voisin dans l'espace de description 55 est réalisée. Il s'agit de trouver le vecteur projeté parmi les vecteurs projetés 56 correspondant aux images de la base d'apprentissage qui est le plus proche du vecteur projeté requête. L'image requête qt est affectée à la même personne que la personne associée au plus proche voisin retrouvé. Chaque image qt vote ainsi pour une personne donnée, i.e. désigne une personne parmi celle stockées dans la base d'apprentissage. On fusionne (83) ensuite les résultats obtenus pour chacune des images requêtes représentatives de l'ensemble Q, et le visage de la séquence requête est finalement reconnu 84 comme la personne qui aura obtenu le plus grand nombre de votes.
D'autres procédures d'identification à partir des images de l'ensemble Q peuvent être appliquées.
7.5 Description détaillée des traitements effectués dans le cadre de Vinvention
On présente ci-après plus en détail l'implémentation pratique de l'invention, ainsi que les traitements mathématiques effectués dans l'ensemble des étapes décrites précédemment dans les § 7.1 à 7.4. On suppose que l'on dispose d'un ensemble de séquences vidéo S(1),..., Sf r), chacune associée à l'une des personnes dont on réalise l'apprentissage. Chaque séquence est acquise par exemple en filmant la personne associée à l'aide d'une caméra pendant une durée déterminée.
Comme présenté dans le §7.1, à partir de chaque séquence d'apprentissage Sω, un ensemble d'images de visages est extrait I1, I2,..., In à l'aide d'un détecteur automatique de visages appliqué sur chacune des images de la séquence vidéo. On utilise par exemple le détecteur CFF décrit par C. Garcia et M. Delakis dans " Convolutionαl Face Finder: A Neural Architecture for Fast and Robust Face Détection", IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(11): 1408- 1423, Novembre 2004. Ces images sont ensuite redimensionnées pour qu'elles aient toutes la même taille (28x31). Cette résolution permet d'éviter de prendre en compte les détails dans les images, car seuls importent la pose du visage (frontale ou non) et son positionnement dans l'image.
Une procédure de sélection des images d'apprentissage représentatives est ensuite appliquée, qui débute par une analyse en composantes principales robustes (RobPCA) sur la matrice Xnxd des données, composée des vecteurs associés aux images de visages extraites (d = 28x31). La ligne y de la matrice correspond au vecteur associé à l'image T7. Ce vecteur est construit par concaténation des lignes de l'image T7- après re- dimensionnement.
La RobPCA permet de calculer une moyenne robuste μ (vecteur de dimension d) et une matrice de covariance robuste Cdxd en ne considérant qu'un sous-ensemble des vecteurs (à savoir des vecteurs de dimension d associés aux images de visages. Chaque vecteur correspond à une ligne de la matrice X). Elle permet également de réduire la dimension des images en les projetant dans un espace de dimension plus réduite k (k<d) défini par les vecteurs propres de la matrice de covariance robuste C. Selon le principe de la RobPCA, et comme détaillé en annexe 1 qui fait partie intégrante de la présente description, si :
Cdxd = P L P' (1) où P est la matrice des vecteurs propres et L est une matrice diagonale des valeurs propres (L - diag (I1, I2,..., ld)), alors la projection de la matrice X est donnée par : où Pdxk est composée des k premières colonnes de P.
Dans la matrice Y, la ligne i représente la projection de la ligne i de la matrice X. Il s'agit donc de la projection de l'image I1. Les détails de calcul de la matrice C et de la moyenne robuste μ par la RobPCA sont donnés en annexe 1, qui fait partie intégrante de la présente description.
Pour sélectionner les images d'apprentissage représentatives (et donc filtrer les images bruitées), deux distances sont calculées pour chaque images /, : il s'agit de la distance orthogonale (DO1) et de la distance robuste au centre (DRC1). Ces deux distances se calculent comme suit : DO1 , (2) où X1 est le vecteur associé à /, (ligne i de la matrice X) et yt est la ie ligne de la matrice Y.
Pour isoler les vecteurs aberrants, les distributions de ces deux distances sont étudiées. Le seuil associé à la distance robuste au centre est défini par ^χk 2 βS15 si k>l et de ± -yjχlo 975 si k=l (car la distance au carré de Mahalanobis sur des distributions normales suit approximativement une loi de χl ) (voir article de M. Hubert et al. précité). Notons ce seuil DRC^x ,j étant le numéro de la séquence d'apprentissage. Le seuil de la distance orthogonale est par contre plus difficile à fixer car la distribution des DO1 n'est pas connue. On utilise de nouveau la méthode proposée dans l'article de M.
Hubert et al. pour le calcul de ce seuil, c'est-à-dire qu'on approxime la distribution par une loi g^^2 et on utilise la méthode de Wilson-Hilferty pour l'estimation de gj et g2.
Ainsi, la distance orthogonale à la puissance 2/3 suit une distribution normale de
2 2g213 moyenne m = {gιg2)l 3(} ) et de variance σ2 = . En estimant la moyenne
m et la variance σ2 à partir des valeur DO1 à l'aide de l'estimateur MCD (voir article de
M. Hubert et al.), le seuil associé à la distance orthogonale pour la séquence numéro j est donné par : DRCm } ax = (m + σzO 975)3/2 où Z0975 = Φ"1 (0,975) est le quantile à 97,5% d'une distribution gaussienne.
Des images de visages représentatives telles que celles de la figure 1 sont sélectionnées à l'aide de la procédure présentée ici, parmi un ensemble de visages comprenant des images du type de celles des figures 1 et 2. La méthode proposée permet donc de sélectionner uniquement les images en pose frontale (figure 1) et d'isoler les visages de profil ou bien mal cadrés (figure 2).
Après sélection des images d'apprentissage représentatives, l'espace de description peut être construit par analyse en composantes principales (ACP). En reprenant les images d'apprentissage représentatives sélectionnées, on construit tout d'abord une base d'apprentissage sous la forme d'une matrice. Chaque image de visage est redimensionnée pour que toutes les images aient la même taille. La taille choisie est par exemple 63x57. Cette taille peut être celle obtenue directement en sortie du détecteur de visage. À chaque image est ensuite associé un vecteur de dimension 63x57 construit par concaténation des lignes de l'image. Chaque vecteur est alors disposé dans une ligne de la matrice de données, notée Xmd, où m est le nombre d'images de visages sélectionnées et d la dimension des vecteurs (dans ce cas d - 63x57).
On notera que, dans toute la suite de ce document, les notations utilisées pour les différentes variables sont indépendantes des notations utilisées précédemment dans le §7.5 de ce document.
Pour calculer l'espace de description, X est d'abord centré et une décomposition spectrale est effectuée : xm,d - Kμ' = uDvid (12) où μ est la moyenne des vecteurs associés aux images de visages sélectionnées (des lignes de la matrice X) et D est une matrice diagonale D - diag(llt I1,...,ld).
L'espace de description est défini par les vecteurs de la matrice V qui sont aussi les vecteurs propres de la matrice de covariance de X. Le nombre de vecteurs retenus définit la dimension r de l'espace de description. Ce nombre peut être fixé en analysant les valeurs propres (D) par le critère de la proportion de l'inertie exprimée, c'est-à-dire tel que : I1 = a, (13) où a est un paramètre fixé a priori.
Ainsi, les vecteurs projetés dans l'espace de description sont définis par :
Y, μ Qt V sont sauvegardés pour la phase de reconnaissance. Lors de la phase de reconnaissance, les images requêtes représentatives du visage à identifier sont sélectionnées à partir de la séquence requête en suivant la procédure décrite au §7.3. Notons ces images qlt...,qs. Ces images sont d'abord redimensionnées pour qu'elles aient la même taille que les images utilisées dans la phase d'apprentissage (63x57 dans le cas ci-dessus). Un vecteur est ensuite associé à chacune de ces images. Notons ces vecteurs vh...,vs. Chaque vecteur est alors projeté dans l'espace de description comme suit : bt = (vt - μ)' Vd r (15)
Pour chaque vecteur projeté bt, le vecteur yt (la f ligne de la matrice Y) qui lui est le plus proche est retrouvé en calculant la distance entre bt et tous les vecteurs yt. L'image de visage associée à bt est donc reconnue comme étant la personne associée à l'image représentée par le plus proche voisin retrouvé. On dit que bt a voté pour la personne identifiée. Une fois cela effectué pour tous les bt, le visage de la séquence requête est finalement reconnu comme celui de la personne qui aura obtenu le plus grand nombre de votes.
7.6 Dispositifs d{ apprentissage et de reconnaissance
La figure 7 présente enfin la structure d'un dispositif d'apprentissage de l'invention, qui comprend une mémoire M 61, et une unité de traitement 60 équipée d'un processeur μP, qui est piloté par le programme d'ordinateur Pg 62. L'unité de traitement 60 reçoit en entrée un ensemble d'images de visage d'apprentissage f^ 63, associées à une ou plusieurs personnes identifiées par l'indice j, à partir duquel le microprocesseur μP réalise, selon les instructions du programme Pg 62, une Analyse en Composantes Principales Robuste, ou RobPCA. A partir des résultats de cette analyse, le processeur μP de l'unité de traitement 60 détermine deux seuils 68 de filtrage des images 63, appelés DCv3x et DRC013x, soit pour chaque sous-ensemble d'images associées à chaque personne d'indice j, soit pour l'ensemble 63 des images d'apprentissage. Les données 68 comprennent également une moyenne robuste μ et une matrice de projection P. Le processeur μP sélectionne alors, à partir de ces seuils, de la moyenne μ et de la matrice de projection P, et parmi l'ensemble 63 d'images d'apprentissage, une ou plusieurs images 64 d'apprentissage représentatives du ou des visages à identifier, (/J-0)* délivrées en sortie de l'unité de traitement 60. Une analyse de type ACP permet également au processeur μP de déterminer un espace de description, ou modèle, 65 associé à chacune des personnes d'indice j, ainsi qu'une méthode de projection 66 dans cet espace de description 65 de vecteurs associés aux images d'apprentissage, sous la forme d'une moyenne et d'une matrice de projection. L'unité de traitement 60 délivre également en sortie la projection 67 de l'ensemble des vecteurs associés aux images d'apprentissage représentatives 64. La figure 8 illustre un schéma simplifié d'un dispositif de reconnaissance d'images de visage de l'invention, qui comprend une mémoire M 71, et une unité de traitement 70 équipée d'un processeur μP, qui est piloté par le programme d'ordinateur Pg 72. L'unité de traitement 70 reçoit en entrée : un ensemble d'images de visage requêtes 73, à partir desquelles le dispositif de reconnaissance doit identifier le visage d'une personne ; les seuils de filtrage DO-, et DRC013x, ainsi que la moyenne robuste μ et la matrice de projection P 68 délivrés en sortie du dispositif d'apprentissage ; l'espace de description 65 construit par le dispositif d'apprentissage ; la méthode de projection 66 utilisée par le dispositif d'apprentissage ; les vecteurs 67 associés aux images d'apprentissage représentatives et projetés dans l'espace de description par le dispositif d'apprentissage.
Le processeur μP de l'unité de traitement 70 sélectionne, selon les instructions du programme Pg 72, une ou plusieurs images requêtes représentatives du visage à identifier, parmi l'ensemble d'images requêtes 73, et à partir des seuils DCv3x et DRC013x, de la moyenne robuste μ et de la matrice de projection P 68. Il projette ensuite les vecteurs associés à ces images requêtes représentatives dans l'espace de description 65, en suivant la méthode de projection 66. Il compare alors les vecteurs d'apprentissage projetés 67 et les vecteurs requêtes projetés, afin de déterminer quel est le visage 74 identifié comme étant celui figurant sur les images requêtes 73.
Dans la variante déjà mentionnée précédemment, les seuils 68 en entrée du dispositif de reconnaissance sont remplacés par les images d'apprentissage représentatives 64, et le processeur μP de l'unité de traitement 70 réalise un filtrage identique à celui réalisé par le dispositif d'apprentissage, à partir de l'ensemble constitué par une image requête 73 et les images d'apprentissage représentatives 64.
On notera que l'on s'est attaché ici à décrire une technique mettant en œuvre une analyse de type RobPCA : on pourrait bien sûr également utiliser toute autre technique de filtrage à base de deux seuils similaires aux seuils DO118x et DRCmax .
ANNEXE 1 : Calcul de la moyenne robuste μ et de la matrice de covariance robuste C par la RobPCA
La RobPCA permet de réaliser une analyse en composantes principales, mais en considérant uniquement un sous-ensemble de vecteurs. L'idée est de ne pas inclure dans l'analyse les données bruitées qui risquent d'affecter le calcul de la moyenne et de la matrice de covariance (moments d'ordre 1 et 2 connus pour être très sensibles au bruit). Pour cela, la RobPCA se base sur la propriété suivante : un sous-ensemble A est moins bruité qu'un autre sous-ensemble B si les vecteurs de A sont moins dispersés que ceux de B. En termes statistiques, l'ensemble le moins bruité est celui dont le déterminant de la matrice de covariance et le plus petit.
Soit un ensemble de n vecteurs de dimension d disposés sous la forme d'une matrice Xn^. La RobPCA procède en quatre étapes :
1. Les données de la base d'apprentissage (BA) sont prétraitées à l'aide d'une ACP
(Analyse en Composantes Principales) traditionnelle. Le but n'est pas de réduire leur dimension car toutes les composantes principales sont retenues. Il s'agit simplement d'éliminer les dimensions superflues. Pour cela, une décomposition en valeurs singulière est réalisée :
où m0 est la moyenne classique et r0 le rang de la matrice Xn d - ln»*o • La matrice de données X est ensuite transformée comme suit :
r = UD-
C'est la matrice Z qui est utilisée dans les étapes suivantes. Dans la suite, on considère la matrice Z comme un ensemble de vecteurs, où chaque vecteur correspond à une ligne de la matrice et est associé à une des images de visages extraites à partir d'une séquence. 2. Le but de la deuxième étape est de retrouver les h vecteurs les moins bruités.
On rappelle qu'un vecteur fait référence ici à une ligne de la matrice Z, correspond à une image de visage et est noté z,.
La valeur de h pourrait être choisie par l'utilisateur mais n - h doit être supérieur au nombre total de vecteurs aberrants. Comme le nombre de vecteurs aberrants est généralement inconnu, h est choisi comme suit : h = max { [an] [(n + Ic^x + 1) /2] } , (4) où kτmκ est le nombre maximum de composantes principales qui seront retenues et a un paramètre compris en 0,5 et 1. Il représente la proportion des vecteurs non bruités. Dans le cas présent, ce paramètre correspond à la proportion des images de visages d'apprentissage extraites à partir d'une séquence qui sont de bonne qualité et qui pourraient être incluses dans la base d'apprentissage. La valeur de ce paramètre pourrait donc être fixée en fonction des conditions d'acquisition des séquences d'apprentissage et de la qualité des images de visages extraites à partir des séquences. La valeur par défaut est 0,75.
La méthode utilisée pour trouver les h vecteurs les moins bruités est la suivante. Tout d'abord, on calcule pour chaque vecteur zt, son degré de bruitage défini par :
où B est l'ensemble de toutes les directions passant par deux vecteurs différents. Si le nombre de directions est supérieur à 250, un sous-ensemble de 250 directions est choisi aléatoirement. tMCD(z]'v) et sMCD(z]'v) sont respectivement la moyenne robuste et l'écart- type robuste de la projection de tous les vecteurs selon la direction définie par v. Il s'agit de la moyenne et de l'écart-type des h valeurs projetées ayant la plus petite variance. Ces deux valeurs sont calculées par l'estimateur MCD unidimensionnel décrit par
Hubert et al. dans l'article précité.
Si toutes les sMCD sont supérieures à zéro, on calcule le degré de bruitage outl pour tous les vecteurs et on considère les h vecteurs ayant les plus petites valeurs du degré de bruitage. Les indices de ces vecteurs sont stockés dans l'ensemble H0.
Si selon une des directions, sMCD(z^v) est nulle, cela veut dire qu'il existe un hyperplan
Hv orthogonal à v qui contient h vecteurs. Dans ce cas, tous les vecteurs sont projetés sur Hv, ce qui a pour effet de réduire de un la dimension des vecteurs, et le calcul des degrés de bruitage est repris. Il est à noter ici que cela peut éventuellement se produire plusieurs fois.
À l'issue de cette étape, on a un ensemble H0 des indices des vecteurs les moins bruités et éventuellement un nouvel ensemble de données Zn r avec T1 ≤ r0.
Ensuite, on considère la moyenne Hi1 et la matrice de covariance S0 des h vecteurs sélectionnés précédemment pour effectuer une analyse en composantes principales et réduire la dimension des vecteurs. La matrice S0 est décomposée comme suit : S0 = P0L0PQ avec L 0 la matrice diagonale des valeurs propres : L0 = diag(l0 K lr) etr < rλ . On considère ici que tous les l} sont non nuls et qu'ils sont ordonnés en ordre décroissant. Cette décomposition permet de décider du nombre de composantes principales k0 à garder pour la suite de l'analyse. Ceci peut être réalisé de différentes manières. Par exemple, k0 pourrait être choisi tel que :
ou bien tel que :
1/T1 ≥ IO-3. (7)
Enfin, les vecteurs sont projetés dans l'espace défini par les k0 premiers vecteurs propres de S0. La nouvelle matrice de vecteurs est donnée par :
K,ko = (z n,n ~ K™\ )P0(rι ,ko ), où ^o(riΛ)est composé des k0 premières colonnes de
Po-
3. Dans la troisième étape, la matrice de covariance des vecteurs de Z* t est estimée à l'aide d'un estimateur MCD. L'idée est de retrouver les h vecteurs dont la matrice de covariance a le déterminant le plus petit. Comme il est pratiquement impossible de calculer les matrices de covariance de tous les sous-ensembles contenant h vecteurs, un algorithme approximatif est utilisé. Cet algorithme procède en 4 étapes. 3.1 Soient m0 et C0 respectivement la moyenne et la matrice de covariance des h vecteurs sélectionnés dans l'étape 2 (ensemble H0) : (a) Si det(C0) > 0 alors calculer pour chaque vecteur z*, la distance de Mahalanobis par rapport à m0 :
La sélection des h vecteurs avec les plus petites distances dm c (i) permet de construire un nouvel ensemble H1 dont le déterminant de la matrice de covariance est plus petit que le déterminant de C0. En d'autres termes, si Hi1 et C1 sont respectivement la moyenne et la matrice de covariance des h vecteurs de H1 alors det(Cl) ≤det(CO).
Cette procédure, appelée C-Step, est donc exécutée itérativement jusqu'à ce que le déterminant de la matrice de covariance des h vecteurs sélectionnés ne décroisse plus.
(b) Si à une itération donnée j, la matrice de covariance C7 est singulière alors, les données sont projetées dans l'espace de dimension plus petite défini par les vecteurs propres de C7 dont les valeurs propres sont non nulles et la procédure continue. À la convergence, on obtient une matrice de données qu'on notera Z* h avec U1 ≤ k0 et un ensemble H1 contenant les indices des h vecteurs qui ont été sélectionnés lors de la dernière itération. Notons m2 et S2 respectivement la moyenne et la matrice de covariance de ces h vecteurs.
3.2 L'algorithme FAST-MCD proposé par Rousseeuw et Van Driessen en 1999 et légèrement modifié est appliqué sur la matrice Z* Λ . La version utilisée de cet algorithme tire aléatoirement 250 sous-ensembles de taille (kj+1). Pour chacun, il calcule la moyenne, la matrice de covariance et les distances de Mahalanobis (équation 8) et complète le sous-ensemble par les vecteurs ayant les plus petites distances pour avoir un sous-ensemble contenant h vecteurs. Il applique ensuite la procédure C-Step pour affiner les sous-ensembles. Notons ici que, dans un premier temps, seulement deux itérations C-Step sont appliquées à chacun des 250 sous- ensembles. Les 10 meilleurs sous-ensembles (les ensembles ayant les plus petits déterminants de leurs matrices de covariance) sont ensuite sélectionnés et la procédure itérative (a) et (b) de 3.1 leur est appliquée jusqu'à la convergence.
Notons Zn * k avec k ≤ U1 l'ensemble de données obtenu à l'issue de l'application de l'algorithme FAST-MCD et m3 et S3 la moyenne et la matrice de covariance des h vecteurs sélectionnés. Si det(Λ 2) < det(Λ3) alors on continue les calculs en considérant les h vecteurs issues de l'étape 3.1, i.e. m4 - m2 et S4 - S2, sinon on considère les résultats obtenus par FAST-MCD, i.e. m4 - m3 et S4 - S3.
3.3 Afin d'accroître l'efficacité statistique, une moyenne pondérée et une matrice de covariance pondérée sont calculées à partir de m4 et S4. D'abord, S4 est multipliée par un
en utilisant les vecteurs de Z «*.*. suivant l'équation (8). Ensuite les distances de Mahalanobis de tous les vecteurs de Zn * k sont calculées en utilisant m4 et C1S4. Notons ces distances : dlf d2, ..., dn. La moyenne et la matrice de covariance sont enfin estimées comme suit :
4. Le but de cette dernière étape est de déduire la moyenne et la matrice de covariance finales. D'abord, une décomposition spectrale de la matrice de covariance S5 est effectuée :
où P2 est une matrice kxk qui contient les vecteurs propres de S5 et L2 une matrice diagonale avec les valeurs propres correspondantes.
La matrice P2 est ensuite projetée dans ffî en appliquant les transformées inverses de celles appliquées tout au long des étapes précédentes, ce qui permet d'avoir la matrice finale des vecteurs propres Pdk. De même pour la moyenne : m5 est projetés dans ffl, ce qui permet d'avoir μ. Par ailleurs, la matrice de covariance finale C pourra être calculée à l'aide de l'équation (1).

Claims

REVENDICATIONS
1. Procédé d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit procédé comprenant une phase d'apprentissage et une phase de reconnaissance dudit au moins un visage, caractérisé en ce que ladite phase d'apprentissage comprend au moins une première étape de filtrage desdites images, mise en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, ladite phase de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées lors de ladite phase d'apprentissage, et en ce que ledit filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC,^) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; une distance maximale (DCv3x) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.
2. Procédé d'identification selon la revendication 1, caractérisé en ce qu'au moins un desdits seuils est déterminé à partir de vecteurs associés auxdites images d'apprentissage.
3. Procédé d'identification selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ladite phase d'apprentissage comprend également une étape de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s).
4. Procédé d'identification selon la revendication 1, caractérisé en ce que ladite phase de reconnaissance met en œuvre une deuxième étape de filtrage, à partir d'un groupe d'au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et permet de sélectionner au moins une image requête représentative dudit visage à identifier, et en ce qu'au moins un desdits seuils est déterminé lors de ladite phase d'apprentissage, à partir de vecteurs associés à des images de visage d'apprentissage.
5. Procédé d'identification selon la revendication 1, caractérisé en ce qu'au moins un desdits seuils est déterminé lors de ladite phase de reconnaissance, à partir de vecteurs associés à un ensemble d'images comprenant au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et au moins deux images d'apprentissage représentatives dudit visage à identifier, sélectionnées lors de ladite phase d'apprentissage, et en ce que ladite phase de reconnaissance met en œuvre une deuxième étape de filtrage, à partir desdites images requêtes et permet de sélectionner au moins une image requête représentative dudit visage à identifier.
6. Procédé d'identification selon l'une quelconque des revendications 4 et 5, caractérisé en ce que ladite phase de reconnaissance comprend également une étape de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit lors de ladite phase d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée lors de ladite phase d'apprentissage, de façon à identifier ledit visage.
7. Procédé d'identification selon la revendication 6, caractérisé en ce que lors de ladite étape de comparaison : on compare la projection de chacun desdits vecteurs associés à chacune desdites images requêtes représentatives à la projection de chacun desdits vecteurs associés à chacune desdites images d'apprentissage représentatives ; on détermine, pour chacun desdits vecteurs associés à chacune desdites images requêtes représentatives, quel est le plus proche vecteur associé à une desdites images d'apprentissage représentatives, et à quelle personne, appelée personne désignée, il est associé ; on identifie ledit visage comme celui de la personne désignée le plus grand nombre de fois.
8. Procédé d'identification selon l'une quelconque des revendications 1, 4 et 5, caractérisé en ce que ladite première étape de filtrage desdites images d'apprentissage et/ou ladite deuxième étape de filtrage desdites images requêtes met(tent) en œuvre lesdits deux seuils.
9. Procédé d'identification selon les revendications 1 et 4, caractérisé en ce que, ladite phase d'apprentissage étant mise en œuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de chacune desdites au moins deux personnes, et en ce que, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à chacune desdites au moins deux personnes.
10. Procédé d'identification selon les revendications 1 et 4, caractérisé en ce que, ladite phase d'apprentissage étant mise en œuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de l'ensemble desdites au moins deux personnes, et en ce que, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à l'ensemble desdites au moins deux personnes.
11. Procédé d'identification selon l'une quelconque des revendications 1 à 10, caractérisé en ce que lesdits seuils sont déterminés à l'issue d'une Analyse en Composantes Principales Robuste (RobPCA) appliquée auxdits vecteurs associés auxdites images d'apprentissage, permettant de déterminer également une moyenne robuste μ associée auxdits vecteurs, et une matrice de projection P construite à partir des vecteurs propres d'une matrice de covariance robuste associée auxdits vecteurs, et en ce que lesdits seuils sont associés aux distances suivantes :
où X1 est un desdits vecteurs associés auxdites images d'apprentissage,
Pdk est une matrice comprenant les k premières colonnes de ladite matrice de projection P, yϋ est le fème élément d'une projection yt dudit vecteur xt à partir de ladite matrice de projection et de ladite moyenne robuste.
12. Système d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit système comprenant un dispositif d'apprentissage et un dispositif de reconnaissance dudit au moins un visage, caractérisé en ce que ledit dispositif d'apprentissage comprend des moyens de détermination d'au moins un des seuils appartenant au groupe comprenant : une distance maximale (DRC1nJ1x) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; - une distance maximale (DO11181) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs ; et des premiers moyens de filtrage desdites images, mis en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, à partir de l'un au moins desdits seuils, ledit dispositif de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage.
13. Dispositif d'apprentissage d'un système d'identification d'au moins un visage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à au moins une personne, caractérisé en ce qu'il comprend : des moyens d'analyse desdites images d'apprentissage permettant de déterminer, à partir de vecteurs associés auxdites images d'apprentissage, au moins un des seuils appartenant au groupe comprenant : - une distance maximale (DRC013x) tenant au moins compte de l'appartenance desdits vecteurs à un nuage constitué par lesdits vecteurs; une distance maximale (DOra) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs ; - des premiers moyens de filtrage desdites images d'apprentissage à partir de l'un au moins desdits seuils, de façon à sélectionner au moins une image d'apprentissage représentative dudit visage à identifier ; des moyens de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s) ; de façon qu'uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage soient utilisées par un dispositif de reconnaissance.
14. Dispositif de reconnaissance d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, appelées images requêtes, ledit dispositif de reconnaissance appartenant à un système d'identification dudit au moins un visage comprenant également un dispositif d'apprentissage, caractérisé en ce que ledit dispositif de reconnaissance comprend : des seconds moyens de filtrage desdites images requêtes à partir d'au moins un seuil déterminé par ledit dispositif d'apprentissage, de façon à sélectionner au moins une image requête représentative dudit visage à reconnaître; - des moyens de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit par ledit dispositif d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée par ledit dispositif d'apprentissage, de façon à identifier ledit visage. ledit dispositif d'apprentissage comprenant des premiers moyens de filtrage mis en œuvre à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, ledit dispositif de reconnaissance utilisant uniquement lesdites images d'apprentissage sélectionnées par ledit dispositif d'apprentissage.
15. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé d'identification d'au moins un visage selon l'une quelconque des revendications 1 à 11 lorsque ledit programme est exécuté par un processeur.
EP06708817A 2005-03-29 2006-03-28 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants Withdrawn EP1864242A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0503047A FR2884007A1 (fr) 2005-03-29 2005-03-29 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants
PCT/EP2006/061109 WO2006103240A1 (fr) 2005-03-29 2006-03-28 Procédé d'identification de visages à partir d'images de visage, dispositif et programme d'ordinateur correspondants

Publications (1)

Publication Number Publication Date
EP1864242A1 true EP1864242A1 (fr) 2007-12-12

Family

ID=35708620

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06708817A Withdrawn EP1864242A1 (fr) 2005-03-29 2006-03-28 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants

Country Status (6)

Country Link
US (1) US20080279424A1 (fr)
EP (1) EP1864242A1 (fr)
JP (1) JP2008537216A (fr)
CN (1) CN101171599A (fr)
FR (1) FR2884007A1 (fr)
WO (1) WO2006103240A1 (fr)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8085995B2 (en) 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
FR2910668A1 (fr) * 2006-12-21 2008-06-27 France Telecom Procede de classification d'une image d'objet et dispositif correspondant
JP4986720B2 (ja) * 2007-06-07 2012-07-25 株式会社ユニバーサルエンターテインメント 個人識別データ登録装置
US8855360B2 (en) * 2008-07-23 2014-10-07 Qualcomm Technologies, Inc. System and method for face tracking
JP5524692B2 (ja) * 2010-04-20 2014-06-18 富士フイルム株式会社 情報処理装置および方法ならびにプログラム
JP5753966B2 (ja) * 2010-08-05 2015-07-22 パナソニックIpマネジメント株式会社 顔画像登録装置および方法
US8655027B1 (en) * 2011-03-25 2014-02-18 The United States of America, as represented by the Director, National Security Agency Method of image-based user authentication
US8965046B2 (en) 2012-03-16 2015-02-24 Qualcomm Technologies, Inc. Method, apparatus, and manufacture for smiling face detection
CN103870728B (zh) * 2012-12-18 2018-06-12 富泰华工业(深圳)有限公司 控制系统、控制方法及电脑系统
US10002310B2 (en) * 2014-04-29 2018-06-19 At&T Intellectual Property I, L.P. Method and apparatus for organizing media content
KR102010378B1 (ko) * 2014-09-24 2019-08-13 삼성전자주식회사 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치
US9430694B2 (en) * 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10839196B2 (en) * 2015-09-22 2020-11-17 ImageSleuth, Inc. Surveillance and monitoring system that employs automated methods and subsystems that identify and characterize face tracks in video
CN106557728B (zh) * 2015-09-30 2019-06-18 佳能株式会社 查询图像处理和图像检索方法和装置以及监视系统
CN105678265B (zh) * 2016-01-06 2019-08-20 广州洪森科技有限公司 基于流形学习的数据降维方法及装置
CN105760872B (zh) * 2016-02-03 2019-06-11 苏州大学 一种基于鲁棒图像特征提取的识别方法及系统
KR102221118B1 (ko) * 2016-02-16 2021-02-26 삼성전자주식회사 영상의 특징을 추출하여 객체를 인식하는 방법
CN106778818A (zh) * 2016-11-24 2017-05-31 深圳明创自控技术有限公司 一种基于云计算的智能跟踪系统
CN107516105B (zh) * 2017-07-20 2020-06-16 阿里巴巴集团控股有限公司 图像处理方法及装置
JP6997140B2 (ja) * 2019-07-03 2022-01-17 パナソニックi-PROセンシングソリューションズ株式会社 情報処理装置、判定方法、およびプログラム
CN112069948A (zh) * 2020-08-25 2020-12-11 辽宁工程技术大学 一种基于改进二维降维的人脸识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US6501857B1 (en) * 1999-07-20 2002-12-31 Craig Gotsman Method and system for detecting and classifying objects in an image
US6944319B1 (en) * 1999-09-13 2005-09-13 Microsoft Corporation Pose-invariant face recognition system and process
JP4161659B2 (ja) * 2002-02-27 2008-10-08 日本電気株式会社 画像認識システム及びその認識方法並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2006103240A1 *

Also Published As

Publication number Publication date
JP2008537216A (ja) 2008-09-11
FR2884007A1 (fr) 2006-10-06
US20080279424A1 (en) 2008-11-13
CN101171599A (zh) 2008-04-30
WO2006103240A1 (fr) 2006-10-05

Similar Documents

Publication Publication Date Title
EP1864242A1 (fr) Procede d&#39;identification de visages a partir d&#39;images de visage, dispositif et programme d&#39;ordinateur correspondants
Al-Allaf Review of face detection systems based artificial neural networks algorithms
Nam et al. Local decorrelation for improved pedestrian detection
EP3640843B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
EP2321769B1 (fr) Procédé de reconnaissance de formes et système mettant en oeuvre le procédé
WO2020050966A1 (fr) Adaptation utilisateur pour authentification biométrique
EP1751689A1 (fr) Procede pour la reconnaissance de visages, a analyse discriminante lineaire bidimensionnelle
WO2006103241A2 (fr) Système et procédé de localisation de points d&#39;intérêt dans une image d&#39;objet mettant en œuvre un réseau de neurones
EP3018615B1 (fr) Procede de comparaison de donnees ameliore
EP3620970B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
EP3582141B1 (fr) Procédé d&#39;apprentissage de paramètres d&#39;un réseau de neurones à convolution
EP2619713A1 (fr) Procede de classification de donnees biometriques
FR3088467A1 (fr) Procede de classification d&#39;une image d&#39;entree representative d&#39;un trait biometrique au moyen d&#39;un reseau de neurones a convolution
WO2010066992A1 (fr) Procede d&#39;identification ou d&#39;autorisation, et systeme et module securise associes
Prasad et al. Face recognition using PCA and feed forward neural networks
EP2517151B1 (fr) Codage biometrique
WO2007077175A1 (fr) Procede de classification d&#39;images par reseaux neuroniques et classifieur d&#39;images prealablement appris, dispositif et programme d&#39;ordinateur correspondants
WO2008081152A2 (fr) Procede et systeme de reconnaissance d&#39;un objet dans une image
EP3929809A1 (fr) Procédé de détection d&#39;au moins un trait biométrique visible sur une image d entrée au moyen d&#39;un réseau de neurones à convolution
FR3103045A1 (fr) Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif
EP4292013A1 (fr) Dispositif et procede de traitement de donnees videos pour detection du vivant
WO2024002618A1 (fr) Procédé de reconnaissance biometrique
EP4163866A1 (fr) Procédé, programme d&#39;ordinateur et dispositif de traitement d&#39;images par extraction de composante(s) principale(s) d&#39;une représentation d&#39;images
EP3825915A1 (fr) Procede de classification d&#39;une empreinte biometrique representee par une image d&#39;entree
EP4099200A1 (fr) Procede et dispositif d&#39;identification et/ou d&#39;authentification biometrique

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20070921

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

RIN1 Information on inventor provided before grant (corrected)

Inventor name: BERRANI, SID AHMED

Inventor name: GARCIA, CHRISTOPHE

RIN1 Information on inventor provided before grant (corrected)

Inventor name: BERRANI, SID AHMED

Inventor name: GARCIA, CHRISTOPHE

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20081215

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20101001