EP2062196A1 - Method of framing an object in an image and corresponding device - Google Patents

Method of framing an object in an image and corresponding device

Info

Publication number
EP2062196A1
EP2062196A1 EP07823796A EP07823796A EP2062196A1 EP 2062196 A1 EP2062196 A1 EP 2062196A1 EP 07823796 A EP07823796 A EP 07823796A EP 07823796 A EP07823796 A EP 07823796A EP 2062196 A1 EP2062196 A1 EP 2062196A1
Authority
EP
European Patent Office
Prior art keywords
image
layer
neurons
neural network
res
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP07823796A
Other languages
German (de)
French (fr)
Inventor
Christophe Garcia
Stefan Duffner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2062196A1 publication Critical patent/EP2062196A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features

Definitions

  • the present invention is in the field of image processing. More specifically, the invention relates to a method of framing an object in an image, using a neural network.
  • the detection and location of objects in the image is an essential first step before the recognition phase. This step aims to extract only the parts of the image, or enclosing boxes, containing the objects to be recognized.
  • these systems require that each extracted object image be well centered, aligned, and on the same scale, in a fixed-size input window, where the characteristic elements of the object must be object to each other in predetermined positions.
  • These systems are mostly applied to face recognition. This is why the automatic framing of face images is an important issue in the field of facial analysis.
  • the automatic techniques of framing objects, and in particular faces evolve according to two distinct approaches.
  • the first approach is to detect, after detection of an object in an image, the characteristic elements of the object. For example, after detecting a face, it detects its facial elements such as the eyes, the nose and the mouth of this face. Then we estimate the parameters necessary for the framing of the face, that is to say for example factors of translation, rotation and scale.
  • facial element detectors perform a correlation search using statistical models of each element, usually constructed from a principal component analysis from thumbnail examples of each of the elements to be searched. as described in the article by B. Moghaddam and A. Pentland, entitled “Probabilistic Visual Learning for Object Representation” and published in July 1997 in the magazine "IEEE Transactions on Pattern Analysis and Machine Intelligence”.
  • a first detection makes it possible to obtain candidate position constellations for facial elements, then a selection of the best constellation is made from a geometric model that can be deformable.
  • This technique for detecting facial elements is described in the article "Detecting Faces in Pictures: A Survey” mentioned above.
  • a more recent facial recognition technique developed by the applicants seeks a simultaneous and simultaneous localization of the facial elements by using a neural network having learned to transform, in one pass, a face image into maps. saliency whose positions of the maxima correspond to the positions of points of interest in the face image provided as input.
  • the second approach to framing objects is to try to locate an object directly in an image, by a deformable model.
  • AAM Active Models of Appearance
  • This active face model is learned from a set of faces on which points of interest are annotated, and from a principal component analysis of the vectors encoding the position of the points of interest and the luminous textures of the faces. associates. Once minimized the correspondence error between the face model and the face present in the image, are retained the parameters of geometric transformations performed iteratively during the matching phase such as translations along certain axes, an angle of rotation in the plan, and a scale factor.
  • the first three types of facial element detectors using the chrominance of the face to locate, models statistics or geometric models, are not very robust to noise affecting the image of the face.
  • the detectors based on chrominance analysis that is to say, which filter on the "flesh” shade, are particularly sensitive to lighting conditions.
  • they can not be applied to grayscale images.
  • detection systems based on statistical or geometric models these do not withstand the extreme conditions of illumination, such as over-lighting, under-lighting, side or bottom lighting.
  • These systems are also sensitive to poor quality images, for example low resolution images from video streams, or previously compressed images.
  • these first types of detectors rely on independent detections of facial elements and generally fail to locate a face in an image when some of the facial features of that face are obscured. This is the case for example if the face is partially masked by black glasses, beard, a hand in front of his mouth, or if the image has suffered severe local damage. Failure in detecting multiple or even single elements is usually not corrected by the later use of a geometric face model. The latter is only used when choosing between several candidate positions, which must have been detected in the previous step.
  • the facial image detector recently developed by the applicants uses a convolutional type neural network, which makes it robust to the noises that can affect the images submitted to the detector, and generally makes it possible to overcome partial occlusions of faces in images.
  • the face frames that are obtained with this detector are not quite insensitive to partial occultations of faces.
  • the neural network used by the detector is designed to learn to detect points of interest in an image containing a face, which means that its learning does not focus on the subject. framing of the face itself. The location of faces in an image rendered by this detector is therefore approximate.
  • the invention proposes a method of framing an object in an image, said object belonging to a category of objects having common distinguishing characteristics, and said method using an artificial neural network subjected to a phase of d learning, characterized in that it comprises the steps of:
  • this method makes it possible to overcome, for obtaining the second frame itself, a particular method of locating objects in an image. That is why this second frame gives better results than the framing from the facial features detector recently developed by the applicants.
  • the registration method according to the invention does not use a manually parameterized filter, as is frequently used in image processing, which contributes to obtaining a generalized solution for all types of faces, unlike techniques using face models. assets for example.
  • said neural network is a heterogeneous layer neuron network comprising at least one hidden convolution layer.
  • said neural network is a heterogeneous layer neural network comprising two layers hidden convolution between which is interposed a sub-sampling layer.
  • This choice of architecture of the neural network improves the performance of the registration method according to the invention, with respect to a heterogeneous neural network comprising a single hidden convolution layer.
  • said neural network comprises six layers including four hidden layers, an input layer and an output layer. This choice of architecture of the neural network is optimal and allows, by its limited number of layers, to reduce the risk of "over-learning” or “learning by heart” of the neural network.
  • the location step uses a heterogeneous layer neural network comprising at least one hidden convolution layer.
  • the framing method according to the invention all the advantages of a robust and efficient localization method.
  • the framing method according to the invention is thus more robust to all the noises that can affect the image, such as poor resolution or significant variations in illumination and contrast.
  • the method is also effective when used on faces with various facial expressions, or which contain blackout elements, such as glasses or a beard.
  • said transformation coefficients at the output of the neural network comprise:
  • the second frame obtained in the application step results in a frame in which the previously located object is centered and at a predetermined scale in this frame, but is also always turned in the plane. at the same position.
  • This facilitates the recognition of certain objects, for example the recognition of a face in an image when it is turned in the plane.
  • the invention also relates to a device for framing an object in an image, said object belonging to a category of objects having common distinguishing characteristics, and implementing the framing method according to the invention.
  • the invention also relates to a computer program comprising instructions for implementing the framing method according to the invention, when it is executed on a computer.
  • the device for framing an object in an image has advantages similar to those of the method according to the invention.
  • FIG. 1 represents a network of neurons used by the method according to the invention
  • FIG. 2 represents different phases to which this network of neurons is subjected
  • FIG. 3 represents a computer equipment implementing the method according to the invention
  • FIG. 4 represents various stages of a phase of use of the neural network
  • FIG. 5 represents framing in an image, obtained during this phase of use
  • FIG. 6 represents a piece of image resulting from one of the preceding frames
  • FIG. 7 represents an enlargement of a central part of this piece of image
  • FIG. 8 represents the structure of an artificial neuron
  • FIG. 9 represents the different steps of a learning phase to which the neural network used by the method according to the invention is subjected.
  • the method of framing objects in an image according to the invention uses a network of RES neurons shown in FIG. 1.
  • This neural network is composed of several heterogeneous layers, containing at least one both convolutional layers and more conventional layers used in MLP neural networks.
  • the neural network RES has six layers of neurons, including a first input layer E, a first hidden convolution layer Ci, a second hidden sub-sampling layer S 2 , a third hidden layer of convolution C 3 , a fourth hidden layer of MLP type N 4 neurons and a final S output layer. It is possible to use more hidden layers, but a large number of hidden layers makes the object framing process implemented. by the network of neurons too complex: the neural network in this case risk learning noise, a problem called "over-learning".
  • the neural network RES is an MLP neuron network.
  • This variant embodiment requires a longer learning phase than in the preferred embodiment of the invention, since the number of connections between neurons is then much higher.
  • we work on gray scale coded pixel images because we do not use, in this embodiment, the colors of the objects to be framed. This is why the first layer E has as many neurons as pixels contained in the image applied at the input of the neural network RES, bias excluded.
  • the first layer E then has as many neurons as three times the number of pixels contained in the image applied at the input of the neural network RES, bias excluded.
  • the number of neurons in the input layer E is then equal to the number of dimensions used by the chosen color coding system, multiplied by the number of color points contained in the input image of the RES neural network, bias excluded.
  • the neural network RES is subjected, prior to its use by the registration method according to the invention during the use phase ⁇ 2 shown in FIG. 2, to a learning phase ⁇ 1.
  • the method according to the invention is typically implemented in a software manner in an ORD computer, represented in FIG. 3.
  • the ORD computer implemented for example the ⁇ 1 learning phase in a MAP learning module, and the use phase in a framing module MC.
  • Each of these modules implements the RES neural network.
  • the framing module MC also implements a method of locating faces in an image I.
  • the learning phase ⁇ 1 makes it possible to drive the neural network RES, from a piece of image defining a first object frame and applied as input to the neural network, to output transformation coefficients making it possible to obtain a second framing of this object in the complete image associated with the piece of image.
  • the neural network RES is then ready to be used during the use phase ⁇ 2 to provide, from an image I containing a face, a CF frame of this face according to the invention.
  • the learning phase is performed from a database of BDD learning images, these images containing faces, because the framing method is used in this embodiment to frame faces.
  • the method of framing objects according to the invention can be used to frame any other type of object having common distinguishing characteristics, for example to frame cars in an image.
  • the learning phase ⁇ 1 must then in this other example cause the network of RES neurons on images containing cars.
  • the neural network RES enters the utilization phase ⁇ 2 in which it is operational for framing faces present in gray-scale images of pixels.
  • the use of the neural network RES to frame a face in an image comprises three steps b1 to b3 shown in FIG.
  • the first step b1 is a step of locating faces in an image I.
  • the image I is subjected to a method of locating faces, giving approximate locations of the faces present in the image I in the form of bounding boxes. It is assumed here that the image I has only one face.
  • a bounding box defining a first frame C1 of the face represented in FIG. 5, is obtained.
  • Several localization methods can be used in this step b1, using for example a filtering on the skin tint, or a principal component analysis of the image I.
  • the localization method described in the article of the invention is used.
  • C. Garcia and M. Delakis titled “Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Detection” and published in the IEEE magazine “Transactions on Pattern Analysis and Machine Intelligence” in November 2004.
  • This location method also uses a neural network of convolutional type. It makes it possible to steadily locate faces of at least twenty pixels by twenty pixels, which are rotated in the plane between -30 degrees and +30 degrees relative to a face that would be vertical in the image, and which are shot partially.
  • This localization method is also effective in complex background scenes with variable lighting, and partially obscured faces.
  • the choice of this location method increases the robustness of the framing method according to the invention for framing faces turned in the plane or in profile, partially obscured or in scenes with unfavorable conditions.
  • this location method only makes it possible to obtain vertical bounding boxes in the image containing the faces to be located.
  • the bounding box obtained by the localization method is then extracted from the image I and resized to the input size of the neural network RES, represented in FIG. 1, that is to say that it is resized to have a height H of 56 pixels and a width L of 46 pixels. These values are chosen so as to allow the registration method according to the invention to operate with most of the images applied at the input of the neural network RES.
  • the bounding box thus extracted and resized forms a piece of image T, represented in FIG. 6, applicable to the input of the neural network RES.
  • the second step b2 is a step of applying the image piece T to the input E of the neural network RES.
  • T r x, T r y, ⁇ r and S r c given by the four neurons of the output layer S.
  • the values of these transform coefficients T r x , T r y, ⁇ r and S r C are reduced values between -1 and 1, and must be scaled to the image piece T applied to the input of the RES neural network to obtain the coefficients corresponding non-reduced transformers, Tx, Ty, ⁇ and Sc.
  • the inverse formula of that used in the learning phase is used to obtain the reduced values T r x, T r y, ⁇ r and S r c, as detailed later in relation to this phase. It is also necessary to take into account the resizing carried out in step b1, in order to obtain values of transform coefficients at the real scale of the image I.
  • the last step b3 is a step of reframing the face in the image I. Assuming for simplicity that the transformation coefficients Tx, Ty, ⁇ and Sc at the output of the neural network RES are at the real scale of the image I 1 is performed as shown in Figure 5 and on the enlargement V of Figure 7:
  • step b3 a second frame CF of center ⁇ is obtained. It is then found, for most of the tests carried out with the registration method according to the invention, that the face located in step b1 in image I is better centered and scaled in the second frame than in the first framing. In addition the second frame follows the orientation of the face unlike the first frame.
  • the input layer E of the RES neural network is designed to receive a grayscale image of height H equal to 56 pixels and width L equal to 46 pixels. It therefore contains a matrix of 46 * 56 neurons whose input values e , are defined as follows:
  • ⁇ j j is the input value of a neuron of the input layer E corresponding to the value p (J of a pixel of the image applied to the input of the neural network.
  • this pixel is coded in gray scale on a scale of values ranging from 0 to 255.
  • the indices i and j respectively correspond to the line and column indices of the matrix of 46 * 56 neurons.
  • the input values e tJ of the RES neural network are therefore between -1 and 1. It should be noted that the neurons of the input layer are not real neurons, in the sense that their output values are the same as their input values.
  • FIG. 8 shows a neuron n s a layer of the network, connected to neurons n e i, n ⁇ 2, n e 3 to n in of a previous layer, respective output values xi, X2, X3 to X n .
  • the neuron n s is connected to the n i ⁇ neurons, n e2, n ⁇ 3 to n in by as many links called synapses, which are associated with weights wi, W2, W3 to Wn.
  • the neuron n s also has a bias of value b 0 . Bias and weight values are learned by the neural network during the learning phase ⁇ 1.
  • the output y of the neuron n s value is deducted from the neuron output values ⁇ n i, n e2, n ⁇ 3 to n in after passing through a summing function ⁇ and an activation function ⁇ of the following way: where p is an index varying from 1 to n, n being the number of neurons of the layer preceding the neuron n Si
  • Wp is the weight of the synapse between the neuron n ep and the neuron n s
  • Xp is the output value of the neuron n ep
  • bo is the value of the bias associated with the neuron n s
  • is the activation function of the neuron n s neuron n s .
  • the neurons of the C 1 and C 3 layers have a linear activation function, defined by the equation:
  • ⁇ ( ⁇ ) x, where x is the variable of the activation function ⁇ .
  • the neurons of the S 2 , N 4 and S layers have a sigmoid activation function defined by the equation:
  • ⁇ (x) tanh (jc), where x is the variable of the activation function ⁇ , and tanh is the hyperbolic tangent function.
  • the first hidden convolution layer Ci consists of 40 cards of 40 * 50 neurons corresponding to 40 images resulting from the convolution of the image applied at the input with 40 convolution nuclei, which are matrices of 7 * 7 weight values. That is to say that each of the neurons of the layer Ci is connected to only 7 * 7 neurons of the layer E, and not to all the neurons of the layer E as it would be the case if the layer Ci was a layer MLP type. Moreover the 7 * 7 synapses of this connection and the same bias are shared by all the neurons of a map of the layer d.
  • the neuron C ⁇ of the map Cn is connected to all the pixels squared W ⁇ of neurons of the layer E. More precisely, the output value of the neuron c k ⁇ of the card Cn is given by the formula: ek + u, l + v ⁇ W kl where
  • y kl is the output value of the neuron C k i
  • the indices k and I are the row and column indices of the neuron C k i in the map C 11
  • wii (u, v) is the weight value located at the line index u and the column index v of matrix 7 * 7 forming the convolution core associated with the card
  • indices u and v being integers varying from 0 to 6
  • ⁇ k + u.i + v is the input value of the neuron located at the line index k + u and the column index k + v of the matrix of 56 * 46 neurons of the input layer
  • the first hidden layer of convolution Ci is similar to a detector of certain low-level shapes in the input map such as corners, or contrast-oriented lines.
  • the input layer E is composed of three cards of 56 * 46 neurons, each of them coding a color variable of the image applied at the input of the RES neural network.
  • Each of these input cards is connected to the cards of the layer Ci in the same way as in the main variant embodiment of the invention, in which the input layer E has only one 56 * 46 card. neurons.
  • each of the neurons of the layer Ci is connected to three squares of 7 * 7 neurons of the layer E.
  • the second hidden sampling layer consists of 40 maps of 20 * 25 neurons corresponding to 40 images resulting from subsampling of the 40 output images of the 40 neuron maps of the d layer. This sub-sampling is done by connecting a neuron of the S 2 layer to four neurons of the Ci layer.
  • the weight of the synapses corresponding to these connections is identical for all the neurons of a map of the layer S 2 . All the neurons of a S 2 layer map also have a shared bias. For example, in FIG.
  • the neuron s min of the map S 22 is connected to all the pixels of the square F m ⁇ of 2 * 2 neurons. of the layer Ci. More precisely, the output value of the neuron s mn of the card S 22 is given by the formula:
  • y mn is the output value of the neuron s m n
  • the indices m and n are the row and column indices of the neuron s mn in the map S 2 2., .12
  • w 22 is the value of the shared weight of the synapses connecting the neurons of the card C 12 with the neurons of the card S22
  • tanh is the hyperbolic tangent function
  • D 22 is the bias shared by all the neurons of the card S22-
  • the third hidden convolution layer C 3 consists of 39 maps of 16 * 21 neurons corresponding to 39 images each resulting from the sum of the convolutions of two images. These two images correspond to the outputs of two 20 * 25 neuron cards of the S 2 layer, which are each convolved with a convolution core, formed of a matrix of 5 * 5 weight values. That is to say that each of the neurons of the layer C 3 is connected to two squares of 5 * 5 neurons of the layer S 2 .
  • the neurons of the same map of the layer C 3 all have the same bias. For example in FIG.
  • the neuron Zq r of the card C 31 is connected to all the pixels of the squares G qr and H qr of neurons of the layer S 2 . More specifically, the output value of the neuron Zq r of the card C 31 is given by the formula: OR
  • V is the output value of the neuron Zqr
  • the indices q and r are the row and column indices of the neuron Zq r in the card C 3 i
  • W 3 ii (u, v) is the weight value located at the line index u and the column index v of the matrix 5 * 5 forming the convolution core associated with the convolution of the card C 31 of the layer C3 with the map S21 of the layer S 2 , the indices u and v being integers varying from 0 to 4, w 3 i 2 (u, v) is the weight value situated at the line index u and at the column index v of matrix 5 * 5 forming the convolution core associated with the convolution of the map C 31 of the layer C 3 with the map S 22 of the layer S 2 , the indices u and v being variant integers from 0 to 4,
  • r + v is the output value of the neuron located at the line index q + u and the column index r + v of the S21 map of 20 * 25 neurons of the S 2 layer , i; 22 s q + u, r + v is the output value of the neuron located at the line index q + u and the column index r + v of the map S 22 of 20 * 25 neurons of the layer S 2 , and D 31 is the bias shared by all the neurons of the C 31 card.
  • the third hidden convolution layer C3 makes it possible to extract characteristics of the input image of higher level than the layer Ci by combining extractions of the maps of the previous layers.
  • the fourth hidden layer N 4 corresponds to a conventional MLP network neuron layer. It contains 39 neurons, each of them having its own bias and being connected to each of the neurons of the C3 layer. The synapses corresponding to these connections each have their own weight.
  • the last output layer S contains a neuron by transformation coefficient, that is to say in this embodiment, four neurons giving the transformation coefficients T r x, T r y, ⁇ r and S r c. Each neuron of the S layer is connected to all the neurons of the N layer 4 , and has its own bias. Similarly synapses corresponding to these connections each have their own weight.
  • This neural architecture therefore acts as a cascade of filters making it possible to estimate, for a face image applied at the input of the neural network RES, digital values at the level of the output layer corresponding to the transformation coefficients T r x, T r y, ⁇ x r and S &.
  • the learning phase ⁇ 1 is now detailed in relation with FIG. 9.
  • the learning phase requires the prior creation of a database of BDD learning images that contain faces. This is done by using greyscale photos of image bases, and manually extracting bounding boxes, each containing a well-centered, well-oriented face on the same scale in its box. Then they are resized with their respective initial images so that the bounding boxes have a size height H and width L corresponding to the input of the neural network RES. In this embodiment of the process according to the invention, 1,500 enclosing boxes containing faces of various appearances are thus extracted.
  • the learning phase ⁇ 1 then consists in using this database of BDD training images to cause the neural network RES to output transform coefficients corresponding to transformations to be performed on a well-bounded bounding box to result in the badly framed bounding box corresponding to the image applied at the input of the neural network.
  • this database of BDD training images to cause the neural network RES to output transform coefficients corresponding to transformations to be performed on a well-bounded bounding box to result in the badly framed bounding box corresponding to the image applied at the input of the neural network.
  • the synaptic biases and weights of the neural network are randomized to low values between 0 and 1 but different from zero.
  • the first step ai we randomly select a subset of 1000 images from the 30,000 learning images selected at the start. This selection serves as a basis for an iteration of the gradient retro-propagation algorithm, which converges to a stable solution after about 200 iterations.
  • An iteration consists in executing steps a1 to a4, that is, steps a1 to a4 of FIG. 9 are repeated 200 times.
  • the gradient retro-propagation algorithm used during the learning phase is known to those skilled in the art.
  • a second step a2 at the input of the neural network RES, an image randomly drawn from the subset of 1000 images previously selected is presented.
  • the desired values which are the reduced values T r x, T r y, ⁇ r and S r c corresponding to the transformation coefficients Tx 1 Ty, ⁇ and Sc annotated to this image, are also applied to the output of the neural network. so that these desired values are between - 1 and 1: i
  • - D m is a desired value equal to a reduced value of transformation coefficient T r x, T r y, a, or S r c, - P n is the non-reduced transformation coefficient Tx, Ty, ⁇ or Sc
  • a third step a3 the RES neural network is propagated from the image applied at the input of the RES neural network, and the output responses of the neurons of the RES network are obtained, making it possible to apply the algorithm of retro-propagation of the gradient.
  • a back propagation of the network of neurons RES is carried out, making it possible to update the synaptic weights and the biases of the network RES.
  • this gradient retro-propagation algorithm the following parameters are used:
  • O is the objective function to be minimized on all the 1000 images presented at the input of the neural network RES during an iteration, each image presentation corresponding to the summation index k in this formula, and on the set of 4 transform coefficients at the output of the neural network RES, each represented by a summation index m varying from 1 to 4, D m is a desired value applied at the output of the neural network, corresponding to one of the coefficients of transformation T r x, T r y, ⁇ r and S r C, and S m is the corresponding value obtained at the output of the neural network after the propagation phase.
  • the steps a2 to a4 are repeated cyclically on all of the 1000 images selected in step a1, with the difference that, at the second pass in step a2, a random image of 999 is randomly selected. images not yet applied to the input of the RES neural network, then to the third pass by step a2, an image of the 998 images not yet applied to the input of the RES neural network is randomly selected, and so on.
  • the learning phase causes the neural network RES to provide, from a bounding box poorly framed on a face, transform coefficients that make it possible to perform transformations on this bounding box in order to succeed. to a bounding box well framed on this face.
  • the transformation coefficients obtained at the output of the neural network RES do not need to be reversed during the use phase.

Abstract

The invention relates to a method of framing an object in an image (I), said object belonging to a category of objects exhibiting common distinctive characteristics, and said method using an artificial neural net subject previously to a learning phase, characterized in that it comprises the steps of: - locating (b1) said object in said image (I), so as to obtain a first framing (C1) of said object defining a piece (T) of said image, - applying (b2) said piece (T) of the image as input to said neural net, and obtaining as output transformation coefficients making it possible to obtain a second framing (CF) of said object, said learning phase having trained said net to provide as output transformation coefficients allowing a reframing on the basis of pieces of learning images.

Description

Procédé de cadrage d'un objet dans une image et dispositif correspondant Method of framing an object in an image and corresponding device
La présente invention se situe dans le domaine du traitement d'image. Plus précisément l'invention concerne un procédé de cadrage d'un objet dans une image, utilisant un réseau de neurones. Dans les systèmes automatiques de reconnaissance d'objets dans une image, la détection et la localisation des objets dans l'image constituent une première étape indispensable avant la phase de reconnaissance. Cette étape a pour objectif d'extraire uniquement les parties de l'image, ou boîtes englobantes, contenant les objets à reconnaître. Pour fonctionner correctement, ces systèmes nécessitent que chaque image d'objet extraite soit bien centrée, alignée et à la même échelle, dans une fenêtre d'entrée de taille fixe, où les éléments caractéristiques de l'objet doivent se retrouver, d'un objet à l'autre dans des positions prédéterminées. Ces systèmes sont surtout appliqués à la reconnaissance de visages. C'est pourquoi le cadrage automatique d'images de visages est un enjeu important dans le domaine de l'analyse faciale.The present invention is in the field of image processing. More specifically, the invention relates to a method of framing an object in an image, using a neural network. In automatic object recognition systems in an image, the detection and location of objects in the image is an essential first step before the recognition phase. This step aims to extract only the parts of the image, or enclosing boxes, containing the objects to be recognized. To work properly, these systems require that each extracted object image be well centered, aligned, and on the same scale, in a fixed-size input window, where the characteristic elements of the object must be object to each other in predetermined positions. These systems are mostly applied to face recognition. This is why the automatic framing of face images is an important issue in the field of facial analysis.
Cependant, les techniques existantes de détection et de localisation automatiques de visages conduisent à des boîtes englobantes contenant des visages extraits souvent mal centrés en position et en échelle dans leurs boîtes englobantes respectives. De plus certains visages extraits sont tournés dans le plan de l'image par rapport aux cadres de leurs boîtes englobantes. Cela a pour conséquence une dégradation significative des performances des systèmes automatiques de reconnaissance de visages utilisant ces techniques existantes. Les techniques automatiques de cadrage d'objets, et notamment de visages, évoluent suivant deux approches distinctes. La première approche consiste à détecter, après détection d'un objet dans une image, des éléments caractéristiques de l'objet. Par exemple après détection d'un visage, on détecte ses éléments faciaux tels que les yeux, le nez et la bouche de ce visage. Puis on estime les paramètres nécessaires au cadrage du visage, c'est-à-dire par exemple des facteurs de translation, de rotation et d'échelle.However, existing automatic face detection and location techniques lead to bounding boxes containing extracted faces that are often poorly centered in position and scale in their respective bounding boxes. In addition some extracted faces are rotated in the plane of the image with respect to the frames of their bounding boxes. This results in a significant degradation of the performance of automatic face recognition systems using these existing techniques. The automatic techniques of framing objects, and in particular faces, evolve according to two distinct approaches. The first approach is to detect, after detection of an object in an image, the characteristic elements of the object. For example, after detecting a face, it detects its facial elements such as the eyes, the nose and the mouth of this face. Then we estimate the parameters necessary for the framing of the face, that is to say for example factors of translation, rotation and scale.
La plupart des détecteurs d'éléments faciaux reposent sur une analyse de la chrominance du visage et du gradient lumineux, comme décrit par exemple dans l'article de J.-G. Wang et E. Sung, intitulé "Morphology-based Front-View Facial Contour Détection" et publié en 2000 dans le volume 4 du magazine "Institute of Eîectrical and Electronic Engineer (IEEE) Conférence on Systems, Man, and Cybernetics", ou encore dans l'article de M. Yang, D.Most facial element detectors rely on an analysis of the chrominance of the face and the light gradient, as described, for example, in the article by J.-G. Wang and E. Sung, entitled "Morphology-based Front-View Facial Contour Detection "and published in 2000 in Volume 4 of the magazine" Institute of Electrical and Electronic Engineer (IEEE) Conference on Systems, Man, and Cybernetics ", or in the article by Mr. Yang, D.
Kriegman et N. Ahuja, intitulé "Detecting Faces in Images: A Survey" et publié en janvier 2002 dans le magazine "IEEE Transactions on Pattern Analysis and Machine Intelligence".Kriegman and N. Ahuja, titled "Detecting Faces in Images: A Survey" and published in January 2002 in the magazine "IEEE Transactions on Pattern Analysis and Machine Intelligence".
D'autres détecteurs d'éléments faciaux mettent en œuvre une recherche par corrélation en utilisant des modèles statistiques de chaque élément, généralement construits à partir d'une analyse en composantes principales à partir d'exemples d'imagettes de chacun des éléments à rechercher, comme décrit dans l'article de B. Moghaddam et A. Pentland, intitulé "Probabilistic Visual Learning for Object Représentation" et publié en juillet 1997 dans le magazine "IEEE Transactions on Pattern Analysis and Machine Intelligence".Other facial element detectors perform a correlation search using statistical models of each element, usually constructed from a principal component analysis from thumbnail examples of each of the elements to be searched. as described in the article by B. Moghaddam and A. Pentland, entitled "Probabilistic Visual Learning for Object Representation" and published in July 1997 in the magazine "IEEE Transactions on Pattern Analysis and Machine Intelligence".
D'autres détecteurs encore procèdent en deux phases: - une première détection permet d'obtenir des constellations de positions candidates pour des éléments faciaux, - puis une sélection de la meilleure constellation est effectuée à partir d'un modèle géométrique pouvant être déformable. Cette technique de détection d'éléments faciaux est décrite dans l'article "Detecting Faces in Images: A Survey" cité plus haut. Enfin une technique de détection d'éléments faciaux plus récente mise au point par les demandeurs, recherche une localisation simultanée et conjointe des éléments faciaux en utilisant un réseau de neurones ayant appris à transformer, en une passe, une image de visage en des cartes de saillance dont les positions des maxima correspondent aux positions de points d'intérêts dans l'image de visage fournie en entrée. Cette technique est détaillée dans l'article "A Connexionist Approach for Robust and Précise Facial Feature Détection in Complex Scènes" publié à l'occasion de la conférence "Fourth International Symposium on Image and Signal Processing and Analysis (ISPA 2005)" qui a eu lieu à Zagreb en Croatie.Other detectors still proceed in two phases: a first detection makes it possible to obtain candidate position constellations for facial elements, then a selection of the best constellation is made from a geometric model that can be deformable. This technique for detecting facial elements is described in the article "Detecting Faces in Pictures: A Survey" mentioned above. Finally, a more recent facial recognition technique developed by the applicants, seeks a simultaneous and simultaneous localization of the facial elements by using a neural network having learned to transform, in one pass, a face image into maps. saliency whose positions of the maxima correspond to the positions of points of interest in the face image provided as input. This technique is detailed in the article "A Connexionist Approach for Robust and Accurate Facial Feature Detection in Complex Scenes" published on the occasion of the conference "Fourth International Symposium on Image and Signal Processing and Analysis (ISPA 2005)" which took place in Zagreb in Croatia.
La deuxième approche de cadrage d'objets consiste à tenter de localiser directement un objet dans une image, par un modèle déformable. Ainsi l'article de D. Cristinacce et T. Cootes, intitulé "A comparison of shape constrained facial feature detectors" et publié à l'occasion de la conférence "6th International Conférence on Automatic Face and Gesture Récognition 2004", qui a eu lieu à Séoul en Corée, décrit des "Modèles Actifs d'Apparence" (AAM). Il s'agit de faire correspondre un modèle de visage actif, par déformations itératives, en position, en forme et en texture, sur un visage dans une image, en adaptant les paramètres d'un modèle linéaire combinant forme et texture. Ce modèle de visage actif est appris à partir d'un ensemble de visages sur lesquels des points d'intérêt sont annotés, et d'une analyse en composantes principales sur les vecteurs encodant la position des points d'intérêt et les textures lumineuses des visages associés. Une fois minimisée l'erreur de correspondance entre le modèle de visage et le visage présent dans l'image, sont retenus les paramètres de transformations géométriques effectuées itérativement durant la phase de mise en correspondance tels que des translations selon certains axes, un angle de rotation dans le plan, et un facteur d'échelle.The second approach to framing objects is to try to locate an object directly in an image, by a deformable model. Thus the article by D. Cristinacce and T. Cootes, entitled "A comparison of shaped facial facial features detectors" and published on the occasion of the conference "6 th International Conference on Facial Face and Gesture Recognition 2004", which had takes place in Seoul, Korea, describes "Active Models of Appearance" (AAM). It involves matching an active face model, by iterative deformations, in position, shape and texture, on a face in an image, by adapting the parameters of a linear model combining form and texture. This active face model is learned from a set of faces on which points of interest are annotated, and from a principal component analysis of the vectors encoding the position of the points of interest and the luminous textures of the faces. associates. Once minimized the correspondence error between the face model and the face present in the image, are retained the parameters of geometric transformations performed iteratively during the matching phase such as translations along certain axes, an angle of rotation in the plan, and a scale factor.
Ces techniques de cadrage présentent un certain nombre d'inconvénients. En effet, les trois premiers types de détecteurs d'éléments faciaux, utilisant la chrominance du visage à localiser, des modèles statistiques ou des modèles géométriques, sont peu robustes face aux bruits affectant l'image du visage. Notamment les détecteurs reposant sur l'analyse de la chrominance, c'est-à-dire qui font du filtrage sur la teinte "chair", sont particulièrement sensibles aux conditions d'éclairage. De plus, ils ne peuvent pas être appliqués aux images en niveaux de gris. Quant aux systèmes de détection basés sur des modèles statistiques ou géométriques, ceux-ci ne résistent pas aux conditions extrêmes d'illumination, telles que le suréclairage, le sous-éclairage, l'éclairage de côté ou de dessous. Ces systèmes sont aussi sensibles aux images de mauvaise qualité, par exemple des images de basse résolution issues de flux vidéo, ou des images préalablement compressées.These framing techniques have a number of disadvantages. Indeed, the first three types of facial element detectors, using the chrominance of the face to locate, models statistics or geometric models, are not very robust to noise affecting the image of the face. In particular, the detectors based on chrominance analysis, that is to say, which filter on the "flesh" shade, are particularly sensitive to lighting conditions. In addition, they can not be applied to grayscale images. As for detection systems based on statistical or geometric models, these do not withstand the extreme conditions of illumination, such as over-lighting, under-lighting, side or bottom lighting. These systems are also sensitive to poor quality images, for example low resolution images from video streams, or previously compressed images.
En outre, ces premiers types de détecteurs reposent sur des détections indépendantes d'éléments faciaux et échouent généralement à localiser un visage dans une image lorsque certains des éléments faciaux de ce visage sont occultés. C'est le cas par exemple si le visage est masqué partiellement par des lunettes noires, de la barbe, une main devant sa bouche, ou si l'image a subi de fortes dégradations locales. L'échec dans la détection de plusieurs éléments ou même d'un seul n'est généralement pas corrigé par l'utilisation postérieure d'un modèle de visage géométrique. Ce dernier n'est utilisé que lorsqu'il s'agit de choisir entre plusieurs positions candidates, qui doivent avoir été détectées dans l'étape précédente.In addition, these first types of detectors rely on independent detections of facial elements and generally fail to locate a face in an image when some of the facial features of that face are obscured. This is the case for example if the face is partially masked by black glasses, beard, a hand in front of his mouth, or if the image has suffered severe local damage. Failure in detecting multiple or even single elements is usually not corrected by the later use of a geometric face model. The latter is only used when choosing between several candidate positions, which must have been detected in the previous step.
Le détecteur d'éléments faciaux récemment mis au point par les demandeurs utilise un réseau de neurones de type convolutionnel, ce qui le rend robuste aux bruits pouvant affecter les images soumises au détecteur, et permet généralement de s'affranchir des occultations partielles de visages dans les images. Cependant les cadrages de visages que l'on obtient avec ce détecteur ne sont pas tout à fait insensibles aux occultations partielles de visages. De plus le réseau de neurones utilisé par le détecteur est conçu pour apprendre à détecter des points d'intérêts dans une image contenant un visage, ce qui veut dire que son apprentissage ne se concentre pas sur le cadrage du visage lui-même. La localisation de visages dans une image rendue par ce détecteur est de ce fait approximative.The facial image detector recently developed by the applicants uses a convolutional type neural network, which makes it robust to the noises that can affect the images submitted to the detector, and generally makes it possible to overcome partial occlusions of faces in images. However, the face frames that are obtained with this detector are not quite insensitive to partial occultations of faces. In addition, the neural network used by the detector is designed to learn to detect points of interest in an image containing a face, which means that its learning does not focus on the subject. framing of the face itself. The location of faces in an image rendered by this detector is therefore approximate.
Quant aux méthodes reposant sur des modèles de visages actifs, qui permettent une recherche globale des éléments en utilisant conjointement les informations de forme et de texture, elles reposent sur un processus d'optimisation lent et instable qui dépend de centaines de paramètres qu'il s'agit de déterminer itérativement durant la recherche. De plus, ces modèles statistiques étant linéaires, ils sont peu robustes aux variations globales de l'image, notamment les variations d'éclairage. Ils sont de plus peu robustes à des occultations partielles du visage. De plus ces modèles de visage sont conçus pour l'analyse de visages appris et n'offrent que peu de capacité de généralisation dans le cas de visages inconnus.Methods based on active face models, which allow for a global search for elements using both shape and texture information, rely on a slow and unstable optimization process that depends on hundreds of parameters that it uses. It is to determine iteratively during the search. Moreover, since these statistical models are linear, they are not very robust to global variations of the image, notably the variations of lighting. They are also not very robust to partial occultations of the face. Moreover these face models are designed for the analysis of faces learned and offer little generalization capacity in the case of unknown faces.
La présente invention a pour but de résoudre les inconvénients de la technique antérieure en fournissant un procédé et un dispositif de cadrage d'un objet dans une image, qui utilisent un réseau de neurones.It is an object of the present invention to overcome the disadvantages of the prior art by providing a method and apparatus for framing an object in an image using a neural network.
A cette fin, l'invention propose un procédé de cadrage d'un objet dans une image, ledit objet appartenant à une catégorie d'objets présentant des caractéristiques distinctives communes, et ledit procédé utilisant un réseau de neurones artificiels soumis préalablement à une phase d'apprentissage, caractérisé en ce qu'il comporte les étapes de:To this end, the invention proposes a method of framing an object in an image, said object belonging to a category of objects having common distinguishing characteristics, and said method using an artificial neural network subjected to a phase of d learning, characterized in that it comprises the steps of:
- Localisation dudit objet dans ladite image, afin d'obtenir un premier cadrage dudit objet définissant un morceau de ladite image,Locating said object in said image, in order to obtain a first framing of said object defining a piece of said image,
- Application dudit morceau d'image en entrée dudit réseau de neurones, et obtention en sortie de coefficients de transformation permettant d'obtenir un second cadrage dudit objet, ladite phase d'apprentissage ayant entraîné ledit réseau à fournir en sortie des coefficients de transformation permettant un recadrage à partir de morceaux d'images d'apprentissage. Grâce à l'invention, on obtient automatiquement des extractions d'objets qui sont bien centrés et à Ia même échelle dans les cadres correspondants issus du procédé de cadrage selon l'invention. Cela permet, lorsque l'invention est appliquée à des visages, d'utiliser les systèmes automatiques de reconnaissance de visage existants de manière optimale. Le procédé selon l'invention permet également d'améliorer les performances d'autres systèmes d'analyse faciale, comme par exemple un détecteur d'éléments faciaux, en appliquant à l'entrée de ces systèmes les images de visages issues du procédé de cadrage selon l'invention. II est de plus à noter que ce procédé permet de s'affranchir, pour l'obtention du second cadrage lui-même, d'un procédé particulier de localisation d'objets dans une image. C'est pourquoi ce second cadrage donne de meilleurs résultats que le cadrage issu du détecteur d'éléments faciaux récemment mis au point par les demandeurs. De plus le procédé de cadrage selon l'invention n'utilise pas de filtre paramétré manuellement, comme fréquemment utilisé en traitement d'images, ce qui contribue à obtenir une solution généralisée pour tout type de visages, contrairement aux techniques utilisant des modèles de visages actifs par exemple.- Application of said piece of image at the input of said neural network, and obtaining at the output of transformation coefficients making it possible to obtain a second frame of said object, said learning phase having caused said network to output transforming coefficients enabling a crop from pieces of learning images. Thanks to the invention, object extractions are automatically obtained which are well centered and on the same scale in the corresponding frames resulting from the framing method according to the invention. This allows, when the invention is applied to faces, to use the existing automatic face recognition systems optimally. The method according to the invention also makes it possible to improve the performance of other facial analysis systems, such as a facial element detector, by applying to the input of these systems the images of faces resulting from the framing method. according to the invention. It is further noted that this method makes it possible to overcome, for obtaining the second frame itself, a particular method of locating objects in an image. That is why this second frame gives better results than the framing from the facial features detector recently developed by the applicants. In addition, the registration method according to the invention does not use a manually parameterized filter, as is frequently used in image processing, which contributes to obtaining a generalized solution for all types of faces, unlike techniques using face models. assets for example.
Selon une caractéristique préférée, ledit réseau de neurones est un réseau de neurones à couches hétérogènes comprenant au moins une couche cachée de convolution.According to a preferred characteristic, said neural network is a heterogeneous layer neuron network comprising at least one hidden convolution layer.
Ce choix d'utilisation d'un réseau de neurones de type convolutionnel permet d'obtenir un procédé de cadrage performant et robuste au bruit pouvant affecter les images traitées, tout en minimisant le temps nécessaire pour la phase d'apprentissage du réseau de neurones. En effet, l'utilisation d'un simple réseau de neurones MLP, d'après l'anglais "Multi Layer Perceptron", nécessiterait un nombre de connexions entre neurones très importants et donc un temps d'apprentissage plus long.This choice of use of a convolutional type neural network makes it possible to obtain a high-performance and robust noise-reduction method that can affect the processed images, while minimizing the time required for the learning phase of the neural network. Indeed, the use of a single network of neurons MLP, according to the English "Multi Layer Perceptron", require a number of connections between neurons very important and therefore a longer learning time.
Selon une autre caractéristique préférée, ledit réseau de neurones est un réseau de neurones à couches hétérogènes comprenant deux couches cachées de convolution entre lesquelles est interposée une couche de sous- échantillonnage.According to another preferred feature, said neural network is a heterogeneous layer neural network comprising two layers hidden convolution between which is interposed a sub-sampling layer.
Ce choix d'architecture du réseau de neurones améliore les performances du procédé de cadrage selon l'invention, par rapport à un réseau de neurones hétérogène comprenant une seule couche cachée de convolution.This choice of architecture of the neural network improves the performance of the registration method according to the invention, with respect to a heterogeneous neural network comprising a single hidden convolution layer.
Selon une autre caractéristique préférée, ledit réseau de neurones comporte six couches dont quatre couches cachées, une couche d'entrée et une couche de sortie. Ce choix d'architecture du réseau de neurones est optimal et permet, par son nombre limité de couches, de diminuer les risques de "surapprentissage", ou "apprentissage par cœur", du réseau de neurones.According to another preferred feature, said neural network comprises six layers including four hidden layers, an input layer and an output layer. This choice of architecture of the neural network is optimal and allows, by its limited number of layers, to reduce the risk of "over-learning" or "learning by heart" of the neural network.
Selon une autre caractéristique préférée, l'étape de localisation utilise un réseau de neurones à couches hétérogènes comprenant au moins une couche cachée de convolution.According to another preferred characteristic, the location step uses a heterogeneous layer neural network comprising at least one hidden convolution layer.
L'utilisation d'un réseau de neurones de type convolutionnel pour l'étape de localisation donne au procédé de cadrage selon l'invention tous les avantages d'un procédé de localisation robuste et performant. En particulier le procédé de cadrage selon l'invention est ainsi d'avantage robuste à tous les bruits pouvant affecter l'image, tels qu'une mauvaise résolution ou des variations importantes d'illumination et de contraste. Il est de plus performant pour cadrer par exemple des visages en poses variées, orientées dans le plan de l'image ou non frontales. Le procédé est aussi efficace lorsqu'il est utilisé sur des visages avec des expressions faciales variées, ou qui contiennent des éléments occultants, comme des lunettes ou de la barbe.The use of a convolutional type neural network for the localization step gives the framing method according to the invention all the advantages of a robust and efficient localization method. In particular the framing method according to the invention is thus more robust to all the noises that can affect the image, such as poor resolution or significant variations in illumination and contrast. It is also powerful for framing for example faces in various poses, oriented in the plane of the image or non-frontal. The method is also effective when used on faces with various facial expressions, or which contain blackout elements, such as glasses or a beard.
Selon une autre caractéristique préférée, lesdits coefficients de transformation en sortie du réseau de neurones comprennent:According to another preferred characteristic, said transformation coefficients at the output of the neural network comprise:
- un coefficient de translation selon un premier axe dudit premier cadrage, - un coefficient de translation selon un second axe dudit premier cadrage, - un coefficient de rotation par rapport au centre de gravité dudit premier cadrage,a translation coefficient along a first axis of said first frame, a translation coefficient along a second axis of said first frame, a coefficient of rotation with respect to the center of gravity of said first frame,
- et un coefficient de mise à l'échelle.- and a scaling coefficient.
Ainsi le second cadrage obtenu à l'étape d'application, prenant en compte tous ces coefficients, aboutit à un cadrage dans lequel l'objet précédemment localisé est centré et à une échelle prédéterminée dans ce cadre, mais est aussi toujours tourné dans le plan à la même position. Ceci facilite la reconnaissance de certains objets, par exemple la reconnaissance d'un visage dans une image lorsque celui-ci est tourné dans le plan. L'invention concerne aussi un dispositif de cadrage d'un objet dans une image, ledit objet appartenant à une catégorie d'objets présentant des caractéristiques distinctives communes, et mettant en œuvre le procédé de cadrage selon l'invention.Thus the second frame obtained in the application step, taking into account all these coefficients, results in a frame in which the previously located object is centered and at a predetermined scale in this frame, but is also always turned in the plane. at the same position. This facilitates the recognition of certain objects, for example the recognition of a face in an image when it is turned in the plane. The invention also relates to a device for framing an object in an image, said object belonging to a category of objects having common distinguishing characteristics, and implementing the framing method according to the invention.
L'invention concerne encore un programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé de cadrage selon l'invention, lorsqu'il est exécuté sur un ordinateur.The invention also relates to a computer program comprising instructions for implementing the framing method according to the invention, when it is executed on a computer.
Le dispositif de cadrage d'un objet dans une image, ainsi que le programme d'ordinateur, présentent des avantages analogues à ceux du procédé selon l'invention.The device for framing an object in an image, as well as the computer program, has advantages similar to those of the method according to the invention.
D'autres caractéristiques et avantages apparaîtront à la lecture d'un mode de réalisation préféré décrit en référence aux figures dans lesquelles :Other features and advantages will appear on reading a preferred embodiment described with reference to the figures in which:
- la figure 1 représente un réseau de neurones utilisé par le procédé selon l'invention,FIG. 1 represents a network of neurons used by the method according to the invention,
- la figure 2 représente différentes phases auxquelles est soumis ce réseau de neurones,FIG. 2 represents different phases to which this network of neurons is subjected,
- la figure 3 représente un équipement informatique mettant en œuvre le procédé selon l'invention, - la figure 4 représente différentes étapes d'une phase d'utilisation du réseau de neurones, - la figure 5 représente des cadrages dans une image, obtenus pendant cette phase d'utilisation,FIG. 3 represents a computer equipment implementing the method according to the invention, FIG. 4 represents various stages of a phase of use of the neural network, FIG. 5 represents framing in an image, obtained during this phase of use,
- la figure 6 représente un morceau d'image issu d'un des cadrages précédents, - la figure 7 représente un agrandissement d'une partie centrale de ce morceau d'image,FIG. 6 represents a piece of image resulting from one of the preceding frames, FIG. 7 represents an enlargement of a central part of this piece of image,
- la figure 8 représente la structure d'un neurone artificiel,FIG. 8 represents the structure of an artificial neuron,
- la figure 9 représente les différentes étapes d'une phase d'apprentissage à laquelle on soumet le réseau de neurones utilisé par le procédé selon l'invention.FIG. 9 represents the different steps of a learning phase to which the neural network used by the method according to the invention is subjected.
Selon un mode de réalisation préféré de l'invention, le procédé de cadrage d'objets dans une image selon l'invention utilise un réseau de neurones RES représenté à la figure 1. Ce réseau neuronal est composé de plusieurs couches hétérogènes, contenant à la fois des couches de convolution et des couches plus classiques utilisées dans les réseaux de neurones MLP. Dans ce mode de réalisation, le réseau de neurones RES comporte six couches de neurones, dont une première couche d'entrée E, une première couche cachée de convolution Ci, une deuxième couche cachée de sous-échantillonnage S2, une troisième couche cachée de convolution C3, une quatrième couche cachée de neurones N4 de type MLP et une dernière couche de sortie S. Il est possible d'utiliser plus de couches cachées, mais un nombre important de couches cachées rend le procédé de cadrage d'objets implémenté par le réseau de neurones trop complexe: le réseau de neurones risque dans ce cas d'apprendre du bruit, problème qualifié de "surapprentissage".According to a preferred embodiment of the invention, the method of framing objects in an image according to the invention uses a network of RES neurons shown in FIG. 1. This neural network is composed of several heterogeneous layers, containing at least one both convolutional layers and more conventional layers used in MLP neural networks. In this embodiment, the neural network RES has six layers of neurons, including a first input layer E, a first hidden convolution layer Ci, a second hidden sub-sampling layer S 2 , a third hidden layer of convolution C 3 , a fourth hidden layer of MLP type N 4 neurons and a final S output layer. It is possible to use more hidden layers, but a large number of hidden layers makes the object framing process implemented. by the network of neurons too complex: the neural network in this case risk learning noise, a problem called "over-learning".
En variante le réseau de neurones RES est un réseau de neurones MLP. Cette variante de réalisation nécessite une phase d'apprentissage plus longue que dans le mode de réalisation préféré de l'invention, car le nombre de connexions entre neurones est alors beaucoup plus élevé. De plus, dans ce mode de réalisation, on travaille sur des images de pixels codés en niveaux de gris, car on n'utilise pas, dans ce mode de réalisation, les couleurs des objets à cadrer. C'est pourquoi la première couche E comporte autant de neurones que de pixels contenus dans l'image appliquée en entrée du réseau de neurones RES, biais exclus.In a variant, the neural network RES is an MLP neuron network. This variant embodiment requires a longer learning phase than in the preferred embodiment of the invention, since the number of connections between neurons is then much higher. In addition, in this embodiment, we work on gray scale coded pixel images, because we do not use, in this embodiment, the colors of the objects to be framed. This is why the first layer E has as many neurons as pixels contained in the image applied at the input of the neural network RES, bias excluded.
En variante, on travaille sur des images couleurs de pixels, codées suivant le système de codage couleur Rouge/Vert/Bleu RGB d'après l'anglaisAlternatively, we work on pixel color images, coded according to the color coding system Red / Green / Blue RGB according to English
"Red Green Blue". Dans cette variante la première couche E comporte alors autant de neurones que trois fois le nombre de pixels contenus dans l'image appliquée en entrée du réseau de neurones RES, biais exclus."Red Green Blue". In this variant, the first layer E then has as many neurons as three times the number of pixels contained in the image applied at the input of the neural network RES, bias excluded.
Dans une autre variante, on travaille sur des images dont les couleurs sont codées suivant d'autres systèmes de codage couleur, par exemple le système de codage Teinte/Saturation/Valeur HSV d'après l'anglais "HueIn another variant, we work on images whose colors are encoded according to other color coding systems, for example the hue / saturation / HSV value coding system according to the English "Hue
Saturation Value", ou les systèmes de chrominance de la Commission Internationale de l'Eclairage (CIE) La*b* et LuV, ou encore les systèmes utilisés dans les standards télévision tels que YUV, YIQ, et YCbCr. Le nombre de neurones dans la couche d'entrée E est alors égal au nombre de dimensions utilisées par le système de codage couleur choisi, multiplié par le nombre de points de couleur contenus dans l'image appliquée en entrée du réseau de neurones RES, biais exclus.Saturation Value ", or the chrominance systems of the International Commission on Illumination (CIE) The * b * and LuV, or else the systems used in television standards such as YUV, YIQ, and YCbCr.The number of neurons in the input layer E is then equal to the number of dimensions used by the chosen color coding system, multiplied by the number of color points contained in the input image of the RES neural network, bias excluded.
Le fonctionnement détaillé de chacune des couches du réseau de neurones RES sera décrit plus loin.The detailed operation of each of the layers of the neural network RES will be described later.
Le réseau de neurones RES est soumis, préalablement à son utilisation par le procédé de cadrage selon l'invention pendant la phase d'utilisation φ2 représentée à la figure 2, à une phase d'apprentissage φ1.The neural network RES is subjected, prior to its use by the registration method according to the invention during the use phase φ2 shown in FIG. 2, to a learning phase φ1.
Le procédé selon l'invention est typiquement implémenté de manière logicielle dans un ordinateur ORD, représenté à la figure 3. L'ordinateur ORD implémenté par exemple la phase d'apprentissage φ1 dans un module d'apprentissage MAP, et la phase d'utilisation dans un module de cadrage MC. Chacun de ces modules implémente le réseau de neurones RES. Le module de cadrage MC implémente également un procédé de localisation de visages dans une image I.The method according to the invention is typically implemented in a software manner in an ORD computer, represented in FIG. 3. The ORD computer implemented for example the φ1 learning phase in a MAP learning module, and the use phase in a framing module MC. Each of these modules implements the RES neural network. The framing module MC also implements a method of locating faces in an image I.
La phase d'apprentissage φ1 , détaillée plus bas, permet d'entraîner le réseau de neurones RES, à partir d'un morceau d'image définissant un premier cadrage d'objet et appliqué en entrée du réseau de neurones, à fournir en sortie des coefficients de transformation permettant d'obtenir un second cadrage de cet objet dans l'image complète associée au morceau d'image. A la fin de cette phase d'apprentissage, on aboutit à des valeurs de poids W et de biais B du réseau de neurones, qui permettent d'obtenir de tels coefficients. Le réseau de neurones RES est alors prêt à être utilisé pendant la phase d'utilisation φ2 pour fournir, à partir d'une image I contenant un visage, un cadrage CF de ce visage selon l'invention.The learning phase φ1, detailed below, makes it possible to drive the neural network RES, from a piece of image defining a first object frame and applied as input to the neural network, to output transformation coefficients making it possible to obtain a second framing of this object in the complete image associated with the piece of image. At the end of this learning phase, we arrive at values of weight W and bias B of the neural network, which make it possible to obtain such coefficients. The neural network RES is then ready to be used during the use phase φ2 to provide, from an image I containing a face, a CF frame of this face according to the invention.
Dans ce mode de réalisation, la phase d'apprentissage est effectuée à partir d'une base d'images d'apprentissage BDD, ces images contenant des visages, car le procédé de cadrage est utilisé dans cet exemple de réalisation pour cadrer des visages. Cependant le procédé de cadrage d'objets selon l'invention est utilisable pour cadrer tout autre type d'objet présentant des caractéristiques distinctives communes, par exemple pour cadrer des voitures dans une image. La phase d'apprentissage φ1 doit alors dans cet autre exemple entraîner le réseau de neurones RES sur des images contenant des voitures.In this embodiment, the learning phase is performed from a database of BDD learning images, these images containing faces, because the framing method is used in this embodiment to frame faces. However, the method of framing objects according to the invention can be used to frame any other type of object having common distinguishing characteristics, for example to frame cars in an image. The learning phase φ1 must then in this other example cause the network of RES neurons on images containing cars.
Le principe du procédé de cadrage d'objet selon l'invention est maintenant décrit en liaison avec les figures 4 à 7.The principle of the method of object registration according to the invention is now described with reference to FIGS. 4 to 7.
Une fois la phase préalable d'apprentissage φ1 effectuée, le réseau de neurones RES entre dans la phase d'utilisation φ2 dans laquelle il est opérationnel pour cadrer des visages présents dans des images en niveaux de gris de pixels. Dans cette phase d'utilisation φ2, l'utilisation du réseau de neurones RES pour cadrer un visage dans une image comporte trois étapes b1 à b3 représentées à la figure 4. La première étape b1 est une étape de localisation de visages dans une image I. L'image I est soumise à un procédé de localisation de visages, donnant des localisations approximatives des visages présents dans l'image I sous forme de boîtes englobantes. On suppose ici que l'image I ne comporte qu'un visage. On obtient donc en sortie du procédé de localisation une boîte englobante définissant un premier cadrage Cl du visage, représenté à la figure 5.Once the preliminary learning phase φ1 has been performed, the neural network RES enters the utilization phase φ2 in which it is operational for framing faces present in gray-scale images of pixels. In this phase of use φ2, the use of the neural network RES to frame a face in an image comprises three steps b1 to b3 shown in FIG. The first step b1 is a step of locating faces in an image I. The image I is subjected to a method of locating faces, giving approximate locations of the faces present in the image I in the form of bounding boxes. It is assumed here that the image I has only one face. Thus, at the output of the localization method, a bounding box defining a first frame C1 of the face, represented in FIG. 5, is obtained.
Plusieurs procédés de localisation sont utilisables dans cette étape b1 , utilisant par exemple un filtrage sur la teinte chair, ou une analyse en composantes principales de l'image I. Dans ce mode de réalisation on utilise le procédé de localisation décrit dans l'article de C. Garcia et M. Delakis, intitulé "Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Détection" et publié dans le magazine IEEE "Transactions on Pattern Analysis and Machine Intelligence" en novembre 2004. Ce procédé de localisation utilise aussi un réseau de neurones de type convolutionnel. Il permet de localiser de manière robuste des visages de taille minimale vingt pixels sur vingt pixels, qui sont tournés dans le plan entre -30 degrés et +30 degrés par rapport à un visage qui serait vertical dans l'image, et qui sont tournés partiellement de profil entre -60 et +60 degrés par rapport à un visage entièrement de face. Ce procédé de localisation est également performant dans des scènes à fond complexe avec des éclairages variables, et sur des visages partiellement occultés. Le choix de ce procédé de localisation augmente la robustesse du procédé de cadrage selon l'invention pour cadrer des visages tournés dans le plan ou de profil, partiellement occultés ou dans des scènes aux conditions défavorables. Cependant ce procédé de localisation ne permet d'obtenir que des boîtes englobantes verticales dans l'image contenant les visages à localiser.Several localization methods can be used in this step b1, using for example a filtering on the skin tint, or a principal component analysis of the image I. In this embodiment, the localization method described in the article of the invention is used. C. Garcia and M. Delakis, titled "Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Detection" and published in the IEEE magazine "Transactions on Pattern Analysis and Machine Intelligence" in November 2004. This location method also uses a neural network of convolutional type. It makes it possible to steadily locate faces of at least twenty pixels by twenty pixels, which are rotated in the plane between -30 degrees and +30 degrees relative to a face that would be vertical in the image, and which are shot partially. in profile between -60 and +60 degrees compared to a face entirely face. This localization method is also effective in complex background scenes with variable lighting, and partially obscured faces. The choice of this location method increases the robustness of the framing method according to the invention for framing faces turned in the plane or in profile, partially obscured or in scenes with unfavorable conditions. However, this location method only makes it possible to obtain vertical bounding boxes in the image containing the faces to be located.
La boîte englobante obtenue par le procédé de localisation est ensuite extraite de l'image I et redimensionnée à la taille d'entrée du réseau de neurones RES, représentée à la figure 1, c'est-à-dire qu'elle est redimensionnée de manière à avoir une hauteur H de 56 pixels et une largeur L de 46 pixels. Ces valeurs sont choisies de manière à permettre au procédé de cadrage selon l'invention de fonctionner avec la plupart des images appliquées en entrée du réseau de neurones RES.The bounding box obtained by the localization method is then extracted from the image I and resized to the input size of the neural network RES, represented in FIG. 1, that is to say that it is resized to have a height H of 56 pixels and a width L of 46 pixels. These values are chosen so as to allow the registration method according to the invention to operate with most of the images applied at the input of the neural network RES.
La boîte englobante ainsi extraite et redimensionnée forme un morceau d'image T, représenté à la figure 6, applicable à l'entrée du réseau de neurones RES.The bounding box thus extracted and resized forms a piece of image T, represented in FIG. 6, applicable to the input of the neural network RES.
La deuxième étape b2 est une étape d'application du morceau d'image T a l'entrée E du réseau de neurones RES. On obtient en sortie S du réseau de neurones des coefficients de transformation , Trx, Try, αr et Src donnés par les quatre neurones de la couche de sortie S. Les valeurs de ces coefficients de transformation Trx, Try, αr et SrC sont des valeurs réduites comprises entre -1 et 1 , et doivent être ramenées à l'échelle du morceau d'image T appliqué à l'entrée du réseau de neurones RES pour obtenir les coefficients de transformation non réduits correspondants, Tx, Ty, α et Sc. On utilise pour cela la formule inverse de celle utilisée dans la phase d'apprentissage pour obtenir les valeurs réduites Trx, Try, αr et Src, comme détaillé plus loin en relation avec cette phase. Il faut aussi ensuite tenir compte du redimensionnement effectué à l'étape b1 , afin d'obtenir des valeurs de coefficients de transformation à l'échelle réelle de l'image I.The second step b2 is a step of applying the image piece T to the input E of the neural network RES. At the output S of the neural network, we obtain transformation coefficients, T r x, T r y, α r and S r c given by the four neurons of the output layer S. The values of these transform coefficients T r x , T r y, α r and S r C are reduced values between -1 and 1, and must be scaled to the image piece T applied to the input of the RES neural network to obtain the coefficients corresponding non-reduced transformers, Tx, Ty, α and Sc. The inverse formula of that used in the learning phase is used to obtain the reduced values T r x, T r y, α r and S r c, as detailed later in relation to this phase. It is also necessary to take into account the resizing carried out in step b1, in order to obtain values of transform coefficients at the real scale of the image I.
La dernière étape b3 est une étape de recadrage du visage dans l'image I. En supposant pour simplifier que les coefficients de transformation Tx, Ty, α et Sc à la sortie du réseau de neurones RES sont à l'échelle réelle de l'image I1 on effectue comme représenté sur la figure 5 et sur l'agrandissement V de la figure 7:The last step b3 is a step of reframing the face in the image I. Assuming for simplicity that the transformation coefficients Tx, Ty, α and Sc at the output of the neural network RES are at the real scale of the image I 1 is performed as shown in Figure 5 and on the enlargement V of Figure 7:
- une rotation r de -α degrés du premier cadrage Cl par rapport au centre λ du premier cadrage Cl, - une translation tι de valeur -Tx pixels du premier cadrage Cl suivant un axe horizontal AX de l'image I1 a rotation r of -α degrees of the first frame C1 with respect to the center λ of the first frame C1, a translation tι of value -Tx pixels of the first frame C1 along a horizontal axis AX of the image I 1
- une translation t2 de valeur -Ty pixels du premier cadrage Cl suivant un axe vertical AY de l'image I, - une mise à l'échelle e du premier cadrage Cl en multipliant ses dimensions par un facteur 1/ Sc.a translation t 2 of value -Ty pixels of the first frame C1 along a vertical axis AY of the image I, - a scaling e of the first frame C1 by multiplying its dimensions by a factor 1 / Sc.
On obtient à la fin de cette dernière étape b3 un deuxième cadrage CF de centre μ. On constate alors, pour la plupart des tests effectués avec le procédé de cadrage selon l'invention, que le visage localisé à l'étape b1 dans l'image I est bien mieux centré et à l'échelle dans le deuxième cadrage que dans le premier cadrage. De plus le second cadrage suit l'orientation du visage contrairement au premier cadrage.At the end of this last step b3, a second frame CF of center μ is obtained. It is then found, for most of the tests carried out with the registration method according to the invention, that the face located in step b1 in image I is better centered and scaled in the second frame than in the first framing. In addition the second frame follows the orientation of the face unlike the first frame.
Le fonctionnement détaillé du réseau de neurones RES est maintenant décrit en relation avec les figures 1 et 8.Detailed operation of the RES neural network is now described in connection with FIGS. 1 and 8.
La couche d'entrée E du réseau de neurones RES est conçue pour recevoir une image en niveaux de gris de hauteur H valant 56 pixels et de largeur L valant 46 pixels. Elle contient donc une matrice de 46*56 neurones dont les valeurs d'entrée e,, sont définies de la façon suivante:The input layer E of the RES neural network is designed to receive a grayscale image of height H equal to 56 pixels and width L equal to 46 pixels. It therefore contains a matrix of 46 * 56 neurons whose input values e ,, are defined as follows:
11 128 ' où βjj est la valeur d'entrée d'un neurone de la couche d'entrée E correspondant à la valeur p(J d'un pixel de l'image appliquée en entrée du réseau de neurones. Cette valeur py de ce pixel est codé en niveaux de gris sur une échelle de valeurs allant de 0 à 255. Les indices i et j correspondent respectivement aux indices de ligne et de colonne de la matrice de 46*56 neurones. 11 128 'where βj j is the input value of a neuron of the input layer E corresponding to the value p (J of a pixel of the image applied to the input of the neural network. this pixel is coded in gray scale on a scale of values ranging from 0 to 255. The indices i and j respectively correspond to the line and column indices of the matrix of 46 * 56 neurons.
Les valeurs d'entrée etJ du réseau de neurones RES sont donc comprises entre -1 et 1. Il est à noter que les neurones de la couche d'entrée ne sont pas de vrais neurones, dans le sens où leurs valeurs de sortie sont les mêmes que leurs valeurs d'entrée.The input values e tJ of the RES neural network are therefore between -1 and 1. It should be noted that the neurons of the input layer are not real neurons, in the sense that their output values are the same as their input values.
Les autres neurones du réseau de neurones RES fonctionnent de façon classique, comme représenté à la figure 8, qui montre un neurone ns d'une couche de ce réseau, connecté aux neurones nei, nβ2, ne3 à nen d'une couche précédente, de valeurs de sortie respectives x-i, X2, X3 à Xn. Le neurone ns est relié aux neurones nθi, ne2, nθ3 à nen par autant de liens appelés synapses, auxquels sont associés des poids wi, W2, W3 à Wn. Le neurone ns a également un biais de valeur b0. Les valeurs de biais et de poids sont apprises par le réseau de neurones pendant la phase d'apprentissage φ1. La valeur de sortie y du neurone ns est déduite des valeurs de sortie des neurones nθi, ne2, nβ3 à nen après passage dans une fonction de sommation Σ et d'une fonction d'activation Φ, de la manière suivante: où p est un indice variant de 1 à n, n étant le nombre de neurones de la couche précédent le neurone nSi Other neurons RES neural network operate in a conventional manner, as shown in Figure 8, which shows a neuron n s a layer of the network, connected to neurons n e i, n β2, n e 3 to n in of a previous layer, respective output values xi, X2, X3 to X n . The neuron n s is connected to the n i θ neurons, n e2, n θ 3 to n in by as many links called synapses, which are associated with weights wi, W2, W3 to Wn. The neuron n s also has a bias of value b 0 . Bias and weight values are learned by the neural network during the learning phase φ1. The output y of the neuron n s value is deducted from the neuron output values θ n i, n e2, n β 3 to n in after passing through a summing function Σ and an activation function Φ of the following way: where p is an index varying from 1 to n, n being the number of neurons of the layer preceding the neuron n Si
Wp est le poids de la synapse entre le neurone nep et le neurone ns, Xp est la valeur de sortie du neurone nep, bo est la valeur du biais associée au neurone ns, et Φ est la fonction d'activation du neurone ns.Wp is the weight of the synapse between the neuron n ep and the neuron n s , Xp is the output value of the neuron n ep , bo is the value of the bias associated with the neuron n s , and Φ is the activation function of the neuron n s neuron n s .
Les neurones des couches C1 et C3 ont une fonction d'activation linéaire, définie par l'équation:The neurons of the C 1 and C 3 layers have a linear activation function, defined by the equation:
Φ(χ) = x , où x est la variable de la fonction d'activation Φ.Φ ( χ ) = x, where x is the variable of the activation function Φ.
Les neurones des couches S2, N4 et S ont quant à eux une fonction d'activation sigmoïde définie par l'équation:The neurons of the S 2 , N 4 and S layers have a sigmoid activation function defined by the equation:
Φ(x) = tanh(jc) , où x est la variable de la fonction d'activation Φ, et tanh est la fonction tangente hyperbolique.Φ (x) = tanh (jc), where x is the variable of the activation function Φ, and tanh is the hyperbolic tangent function.
La première couche cachée de convolution Ci est constituée de 40 cartes de 40*50 neurones correspondant à 40 images résultant de la convolution de l'image appliquée en entrée avec 40 noyaux de convolution, qui sont des matrices de 7*7 valeurs de poids. Cela revient à dire que chacun des neurones de la couche Ci n'est connecté qu'à 7*7 neurones de la couche E, et non à tous les neurones de la couche E comme cela serait le cas si la couche Ci était une couche de type MLP. De plus les 7*7 synapses de cette connexion et un même biais sont partagés par tous les neurones d'une carte de la couche d. Par exemple sur la figure 1, qui ne montre pour simplifier que quatre cartes de 40*50 neurones dans la couche Ci, le neurone Cκι de la carte Cn est connecté à tous les pixels du carré W^ de neurones de la couche E. Plus précisément, la valeur de sortie du neurone ckι de la carte Cn est donnée par la formule: ek+u,l+v ^Wkl oùThe first hidden convolution layer Ci consists of 40 cards of 40 * 50 neurons corresponding to 40 images resulting from the convolution of the image applied at the input with 40 convolution nuclei, which are matrices of 7 * 7 weight values. That is to say that each of the neurons of the layer Ci is connected to only 7 * 7 neurons of the layer E, and not to all the neurons of the layer E as it would be the case if the layer Ci was a layer MLP type. Moreover the 7 * 7 synapses of this connection and the same bias are shared by all the neurons of a map of the layer d. For example in Figure 1, which shows to simplify only four cards of 40 * 50 neurons in the layer Ci, the neuron Cκι of the map Cn is connected to all the pixels squared W ^ of neurons of the layer E. More precisely, the output value of the neuron c k ι of the card Cn is given by the formula: ek + u, l + v ^ W kl where
y kl est la valeur de sortie du neurone Cki, les indices k et I sont les indices de ligne et de colonne du neurone Cki dans la carte C11, wii(u,v) est la valeur de poids située à l'indice de ligne u et à l'indice de colonne v de matrice 7*7 formant le noyau de convolution associé à la cartey kl is the output value of the neuron C k i, the indices k and I are the row and column indices of the neuron C k i in the map C 11 , wii (u, v) is the weight value located at the line index u and the column index v of matrix 7 * 7 forming the convolution core associated with the card
C11, les indices u et v étant des entiers variant de 0 à 6, βk+u.i+v est la valeur d'entrée du neurone situé à l'indice de ligne k+u et à l'indice de colonne k+v de la matrice de 56*46 neurones de la couche d'entréeC 11 , the indices u and v being integers varying from 0 to 6, βk + u.i + v is the input value of the neuron located at the line index k + u and the column index k + v of the matrix of 56 * 46 neurons of the input layer
E, et b-n est le biais partagé par tous les neurones de la carte C11. La première couche cachée de Ci de convolution est assimilable à un détecteur de certaines formes de bas niveaux dans la carte d'entrée comme des coins, ou des lignes de contraste orientées. Les 40 cartes de neurones de la couche C1 sont de hauteur réduite Hi avec Hi = H-7+1 , et de largeur réduite Li avec Li= L-7+1 , afin d'empêcher les effets de bord de la convolution.E, and bn is the bias shared by all the neurons of the C 11 map. The first hidden layer of convolution Ci is similar to a detector of certain low-level shapes in the input map such as corners, or contrast-oriented lines. The 40 neural maps of the layer C 1 are of reduced height Hi with Hi = H-7 + 1, and of reduced width Li with Li = L-7 + 1, in order to prevent the edge effects of the convolution.
En variante, si les images utilisées sont codées par exemple suivant le système RGB, la couche d'entrée E est composée de trois cartes de 56*46 neurones, chacune d'elles codant une variable de couleur de l'image appliquée en entrée du réseau de neurones RES. Chacune de ces cartes d'entrée est reliée aux cartes de la couche Ci de la même manière que dans la variante principale de réalisation de l'invention, dans laquelle la couche d'entrée E ne comporte qu'une seule carte de 56*46 neurones. Autrement dit chacun des neurones de la couche Ci est connecté à trois carrés de 7*7 neurones de la couche E. Le fonctionnement des autres couches est alors identique à celui de la variante principale de réalisation, que nous considérons de nouveau maintenant.As a variant, if the images used are coded for example according to the RGB system, the input layer E is composed of three cards of 56 * 46 neurons, each of them coding a color variable of the image applied at the input of the RES neural network. Each of these input cards is connected to the cards of the layer Ci in the same way as in the main variant embodiment of the invention, in which the input layer E has only one 56 * 46 card. neurons. In other words, each of the neurons of the layer Ci is connected to three squares of 7 * 7 neurons of the layer E. The operation of the other layers is then identical to that of the main variant of realization, which we consider again now.
La seconde couche cachée d'échantillonnage est constituée de 40 cartes de 20*25 neurones correspondant à 40 images résultant d'un sous- échantillonnage des 40 images de sortie des 40 cartes de neurones de la couche d. Ce sous-échantillonnage est effectué en connectant un neurone de la couche S2 à quatre neurones de la couche Ci . Les cartes de la couche S2 sont donc de hauteur H2==Hi/2, et de largeur L2=Lι/2. Le poids des synapses correspondant à ces connexions est identique pour tous les neurones d'une carte de la couche S2. Tous les neurones d'une carte de la couche S2 ont également un biais partagé. Par exemple sur la figure 1, qui ne montre pour simplifier que quatre cartes de 20*25 neurones dans la couche S2, le neurone smn de la carte S22 est connecté à tous les pixels du carré F de 2*2 neurones de la couche Ci. Plus précisément, la valeur de sortie du neurone smn de la carte S22 est donnée par la formule: The second hidden sampling layer consists of 40 maps of 20 * 25 neurons corresponding to 40 images resulting from subsampling of the 40 output images of the 40 neuron maps of the d layer. This sub-sampling is done by connecting a neuron of the S 2 layer to four neurons of the Ci layer. The maps of the layer S2 are therefore of height H 2 == Hi / 2, and of width L 2 = Lι / 2. The weight of the synapses corresponding to these connections is identical for all the neurons of a map of the layer S 2 . All the neurons of a S 2 layer map also have a shared bias. For example, in FIG. 1, which merely shows four 20 * 25 neuron maps in the S 2 layer, the neuron s min of the map S 22 is connected to all the pixels of the square F of 2 * 2 neurons. of the layer Ci. More precisely, the output value of the neuron s mn of the card S 22 is given by the formula:
OUOR
ymn est la valeur de sortie du neurone smn, les indices m et n sont les indices de ligne et de colonne du neurone smn dans la carte S22. , .12y mn is the output value of the neuron s m n, the indices m and n are the row and column indices of the neuron s mn in the map S 2 2., .12
/2m+M,2n+v est la valeur de sortie du neurone situé à l'indice de ligne 2m+u et à l'indice de colonne 2n+v de la carte On de 40*50 neurones de la couche/ 2m + M , 2n + v is the output value of the neuron located at the line index 2m + u and the column index 2n + v of the map On of 40 * 50 neurons of the layer
C1, w22 est la valeur du poids partagé des synapses connectant les neurones de la carte C12 avec les neurones de la carte S22, tanh est la fonction tangente hyperbolique, et D22 est le biais partagé par tous les neurones de la carte S22-C 1 , w 22 is the value of the shared weight of the synapses connecting the neurons of the card C 12 with the neurons of the card S22, tanh is the hyperbolic tangent function, and D 22 is the bias shared by all the neurons of the card S22-
La troisième couche cachée de convolution C3 est constituée de 39 cartes de 16*21 neurones correspondant à 39 images résultant chacune de la somme des convolutions de deux images. Ces deux images correspondent aux sorties de deux cartes de 20*25 neurones de la couche S2, qui sont convoluées chacune avec un noyau de convolution, formé d'une matrice de 5*5 valeurs de poids. Cela revient à dire que chacun des neurones de la couche C3 est connecté à deux carrés de 5*5 neurones de la couche S2. De plus les neurones d'une même carte de la couche C3 ont tous le même biais. Par exemple sur la figure 1 , qui ne montre pour simplifier que trois cartes de 16*21 neurones dans la couche C3, le neurone Zqr de la carte C31 est connecté à tous les pixels des carrés Gqr et Hqr de neurones de la couche S2. Plus précisément, la valeur de sortie du neurone Zqr de la carte C31 est donnée par la formule: The third hidden convolution layer C 3 consists of 39 maps of 16 * 21 neurons corresponding to 39 images each resulting from the sum of the convolutions of two images. These two images correspond to the outputs of two 20 * 25 neuron cards of the S 2 layer, which are each convolved with a convolution core, formed of a matrix of 5 * 5 weight values. That is to say that each of the neurons of the layer C 3 is connected to two squares of 5 * 5 neurons of the layer S 2 . In addition, the neurons of the same map of the layer C 3 all have the same bias. For example in FIG. 1, which only shows for simplicity that three cards of 16 * 21 neurons in the layer C 3 , the neuron Zq r of the card C 31 is connected to all the pixels of the squares G qr and H qr of neurons of the layer S 2 . More specifically, the output value of the neuron Zq r of the card C 31 is given by the formula: OR
>V est la valeur de sortie du neurone Zqr, les indices q et r sont les indices de ligne et de colonne du neurone Zqr dans la carte C3i,> V is the output value of the neuron Zqr, the indices q and r are the row and column indices of the neuron Zq r in the card C 3 i,
W3ii(u,v) est la valeur de poids située à l'indice de ligne u et à l'indice de colonne v de matrice 5*5 formant le noyau de convolution associé à la convolution de la carte C31 de la couche C3 avec la carte S21 de la couche S2, les indices u et v étant des entiers variant de 0 à 4, w3i2(u,v) est la valeur de poids située à l'indice de ligne u et à l'indice de colonne v de matrice 5*5 formant le noyau de convolution associé à la convolution de la carte C31 de la couche C3 avec la carte S22 de la couche S2, les indices u et v étant des entiers variant de 0 à 4,W 3 ii (u, v) is the weight value located at the line index u and the column index v of the matrix 5 * 5 forming the convolution core associated with the convolution of the card C 31 of the layer C3 with the map S21 of the layer S 2 , the indices u and v being integers varying from 0 to 4, w 3 i 2 (u, v) is the weight value situated at the line index u and at the column index v of matrix 5 * 5 forming the convolution core associated with the convolution of the map C 31 of the layer C 3 with the map S 22 of the layer S 2 , the indices u and v being variant integers from 0 to 4,
s v q2+1 u, r+v est la valeur de sortie du neurone situé à l'indice de ligne q+u et à l'indice de colonne r+v de la carte S21 de 20*25 neurones de la couche S2, i;22 s q+u,r+v est la valeur de sortie du neurone situé à l'indice de ligne q+u et à l'indice de colonne r+v de la carte S22 de 20*25 neurones de la couche S2, et D31 est le biais partagé par tous les neurones de la carte C31.svq 2 + 1 u, r + v is the output value of the neuron located at the line index q + u and the column index r + v of the S21 map of 20 * 25 neurons of the S 2 layer , i; 22 s q + u, r + v is the output value of the neuron located at the line index q + u and the column index r + v of the map S 22 of 20 * 25 neurons of the layer S 2 , and D 31 is the bias shared by all the neurons of the C 31 card.
La troisième couche cachée C3 de convolution permet d'extraire des caractéristiques de l'image appliquée en entrée de plus haut niveau que la couche Ci en combinant des extractions des cartes des couches précédentes.The third hidden convolution layer C3 makes it possible to extract characteristics of the input image of higher level than the layer Ci by combining extractions of the maps of the previous layers.
Les 39 cartes de neurones de la couche C3 sont de hauteur réduite Hz= H2-The 39 neuron maps of layer C 3 are of reduced height Hz = H 2 -
5+1 , et de largeur réduite L3=L2-5+1 , afin d'empêcher les effets de bord de la convolution. La quatrième couche cachée N4 correspond à une couche de neurones de réseau MLP classique. Elle contient 39 neurones, chacun d'entre eux ayant son propre biais et étant connecté à chacun des neurones de la couche C3. Les synapses correspondant à ces connexions ont chacune leur propre poids. Enfin la dernière couche de sortie S contient un neurone par coefficient de transformation, c'est-à-dire dans cet exemple de réalisation, quatre neurones donnant les coefficients de transformation Trx, Try, αr et Src. Chaque neurone de la couche S est connecté à tous les neurones de la couche N4, et a son propre biais. De même les synapses correspondant à ces connexions ont chacune leurs propres poids.5 + 1, and of reduced width L 3 = L 2 -5 + 1, in order to prevent the edge effects of the convolution. The fourth hidden layer N 4 corresponds to a conventional MLP network neuron layer. It contains 39 neurons, each of them having its own bias and being connected to each of the neurons of the C3 layer. The synapses corresponding to these connections each have their own weight. Finally, the last output layer S contains a neuron by transformation coefficient, that is to say in this embodiment, four neurons giving the transformation coefficients T r x, T r y, α r and S r c. Each neuron of the S layer is connected to all the neurons of the N layer 4 , and has its own bias. Similarly synapses corresponding to these connections each have their own weight.
Cette architecture neuronale agit donc comme une cascade de filtres permettant d'estimer, pour une image de visage appliquée en entrée du réseau de neurones RES, des valeurs numériques au niveau de la couche de sortie correspondant aux coefficients de transformation Trx, Try, <xr et S&.This neural architecture therefore acts as a cascade of filters making it possible to estimate, for a face image applied at the input of the neural network RES, digital values at the level of the output layer corresponding to the transformation coefficients T r x, T r y, <x r and S &.
Il est à noter que les choix de nombres de cartes de neurones ou de neurones dans chaque couche du réseau de neurones RES, ainsi que les choix des tailles des noyaux de convolution, qui ont été faits dans ce mode de réalisation, correspondent à un fonctionnement optimal du procédé de cadrage selon l'invention. Cependant d'autres choix permettent d'aboutir également à un fonctionnement satisfaisant du procédé de cadrage selon l'invention.It should be noted that the choice of numbers of neural or neural maps in each layer of the RES neural network, as well as the choice of convolution-nucleus sizes, which have been made in this embodiment, correspond to an operation. optimal method of framing according to the invention. However, other choices also make it possible to achieve a satisfactory operation of the registration method according to the invention.
La phase d'apprentissage φ1 est maintenant détaillée en relation avec la figure 9.The learning phase φ1 is now detailed in relation with FIG. 9.
La phase d'apprentissage nécessite la création préalable d'une base d'images d'apprentissage BDD qui contiennent des visages. Pour cela on utilise des photos en niveaux de gris de bases d'images, et on extrait manuellement des boîtes englobantes contenant chacune un visage bien centré, bien orienté et à une même échelle dans sa boîte. Puis on les redimensionne avec leurs images initiales respectives afin que les boîtes englobantes aient une taille de hauteur H et de largeur L correspondant à l'entrée du réseau de neurones RES. Dans ce mode de réalisation du procédé selon l'invention on extrait ainsi 1500 boîtes englobantes contenant des visages d'apparences variées.The learning phase requires the prior creation of a database of BDD learning images that contain faces. This is done by using greyscale photos of image bases, and manually extracting bounding boxes, each containing a well-centered, well-oriented face on the same scale in its box. Then they are resized with their respective initial images so that the bounding boxes have a size height H and width L corresponding to the input of the neural network RES. In this embodiment of the process according to the invention, 1,500 enclosing boxes containing faces of various appearances are thus extracted.
On applique ensuite à ces boîtes englobantes redimensionnées une ou plusieurs transformations géométriques dans leurs images initiales également redimensionnées, parmi lesquelles:These resized bounding boxes are then subjected to one or more geometric transformations in their initial resized images, among which:
- une translation horizontale Tx variant de 6 pixels vers la gauche à six pixels vers la droite,a horizontal translation Tx varying from 6 pixels to the left and six pixels to the right,
- une translation verticale Ty variant de 6 pixels vers le haut à six pixels vers le bas, - une rotation par rapport au centre de l'image par un angle α variant de -30 degrés à +30 degrés,a vertical translation Ty varying from 6 pixels upwards to six pixels downwards, a rotation relative to the center of the image by an angle α varying from -30 degrees to +30 degrees,
- un zoom arrière ou avant d'un facteur Sc allant de 90% à 110% de la taille du visage.- zoom out or before Sc factor ranging from 90% to 110% of facial size.
On obtient ainsi une base d'images d'apprentissage BDD de deux millions d'images de visages, ou boîtes englobantes, correspondant à un mauvais cadrage. Chacune des images de visages ainsi obtenue est annotée des valeurs des coefficients de transformation qui ont été effectuées pour l'obtenir.This gives a database of BDD learning images of two million images of faces, or enclosing boxes, corresponding to a poor framing. Each of the images of faces thus obtained is annotated with the values of the transformation coefficients which have been made to obtain it.
La phase d'apprentissage φ1 consiste ensuite à utiliser cette base d'images d'apprentissage BDD pour entraîner le réseau de neurones RES à fournir en sortie des coefficients de transformation correspondant à des transformations devant être effectuées sur une boîte englobante bien cadrée pour aboutir à la boîte englobante mal cadrée correspondant à l'image appliquée en entrée du réseau de neurones. On n'utilise en fait qu'un sous- ensemble de 30000 images tirées au hasard de la base de deux millions d'images de visages précédemment obtenues.The learning phase φ1 then consists in using this database of BDD training images to cause the neural network RES to output transform coefficients corresponding to transformations to be performed on a well-bounded bounding box to result in the badly framed bounding box corresponding to the image applied at the input of the neural network. In fact, we use only a subset of 30,000 images taken at random from the base of two million images of previously obtained faces.
Pour cela, les biais et les poids synaptiques du réseau de neurones sont inîtialisés aléatoirement à de faibles valeurs comprises entre 0 et 1 mais différentes de zéro. Dans la première étape ai, on sélectionne au hasard un sous- ensemble de 1000 images des 30000 images d'apprentissage sélectionnées au départ. Cette sélection sert de base à une itération de l'algorithme de rétro- propagation du gradient, qui converge à une solution stable après environ 200 itérations. Une itération consiste à exécuter les étapes ai à a4, autrement dit les étapes ai à a4 de la figure 9 sont réitérées 200 fois. L'algorithme de rétro- propagation du gradient, utilisé pendant la phase d'apprentissage, est connu de l'homme du métier.For this, the synaptic biases and weights of the neural network are randomized to low values between 0 and 1 but different from zero. In the first step ai, we randomly select a subset of 1000 images from the 30,000 learning images selected at the start. This selection serves as a basis for an iteration of the gradient retro-propagation algorithm, which converges to a stable solution after about 200 iterations. An iteration consists in executing steps a1 to a4, that is, steps a1 to a4 of FIG. 9 are repeated 200 times. The gradient retro-propagation algorithm used during the learning phase is known to those skilled in the art.
Dans une deuxième étape a2, on présente à l'entrée du réseau de neurones RES, une image tirée aléatoirement du sous-ensemble de 1000 images précédemment sélectionné. On applique également à la sortie du réseau de neurones des valeurs désirées, qui sont les valeurs réduites Trx, Try, αr et Src correspondant aux coefficients de transformation Tx1 Ty, α et Sc annotés à cette image, afin que ces valeurs désirées soient comprises entre - 1 et 1 : i In a second step a2, at the input of the neural network RES, an image randomly drawn from the subset of 1000 images previously selected is presented. The desired values, which are the reduced values T r x, T r y, α r and S r c corresponding to the transformation coefficients Tx 1 Ty, α and Sc annotated to this image, are also applied to the output of the neural network. so that these desired values are between - 1 and 1: i
OR
- Dm est une valeur désirée égale à une valeur réduite de coefficient de transformation Trx, Try, a, ou Src, - Pn est le coefficient de transformation non réduit Tx, Ty, α ou Sc- D m is a desired value equal to a reduced value of transformation coefficient T r x, T r y, a, or S r c, - P n is the non-reduced transformation coefficient Tx, Ty, α or Sc
correspondant à la valeur désirée D1n ,corresponding to the desired value D 1n ,
- ^n Mi» est le minimum permis pour le paramètre Pm correspondant, soit -6 pixels pour Tx ou Ty, -30 degrés pour α ou 90% pour Sc,- ^ n Mi "is the minimum allowed for the corresponding parameter P m , ie -6 pixels for Tx or Ty, -30 degrees for α or 90% for Sc,
- et Pm,Maχ est le maximum permis pour le paramètre Pm correspondant, soit 6 pixels pour Tx ou Ty, 30 degrés pour α ou 110% pour Sc. Dans une troisième étape a3, on effectue une propagation du réseau de neurones RES à partir de l'image appliquée en entrée du réseau de neurones RES, et on obtient les réponses de sortie des neurones du réseau RES, permettant d'appliquer l'algorithme de rétro-propagation du gradient. Dans une quatrième étape a4, on effectue une rétro-propagation du réseau de neurones RES, permettant de mettre à jour les poids synaptiques et les biais du réseau RES. On utilise par exemple dans cet algorithme de rétro- propagation du gradient les paramètres suivants:and P m , Maχ is the maximum allowed for the corresponding parameter P m , ie 6 pixels for Tx or Ty, 30 degrees for α or 110% for Sc. In a third step a3, the RES neural network is propagated from the image applied at the input of the RES neural network, and the output responses of the neurons of the RES network are obtained, making it possible to apply the algorithm of retro-propagation of the gradient. In a fourth step a4, a back propagation of the network of neurons RES is carried out, making it possible to update the synaptic weights and the biases of the network RES. For example, in this gradient retro-propagation algorithm, the following parameters are used:
- un pas d'apprentissage de 0.003 pour les neurones des couches Ci et S2,a learning step of 0.003 for the neurons of the layers Ci and S 2 ,
- un pas d'apprentissage de 0.002 pour les neurones de la couche C3,a learning step of 0.002 for the neurons of the C3 layer,
- un pas d'apprentissage de 0.0005 pour les neurones de la couche N4 a learning step of 0.0005 for neurons of the N layer 4
- un pas d'apprentissage de 0.0001 pour les neurones de la couche S,a learning step of 0.0001 for the neurons of the layer S,
- et un momentum de 0.2 pour tous les neurones du réseau RES. Le but de cet algorithme de rétro-propagation du gradient est classiquement de minimiser la fonction objectif suivante: - and a momentum of 0.2 for all the neurons of the RES network. The purpose of this gradient retro-propagation algorithm is conventionally to minimize the following objective function: or
O est la fonction objectif à minimiser sur l'ensemble des 1000 images présentées à l'entrée du réseau de neurones RES lors d'une itération, chaque présentation d'image correspondant à l'indice de sommation k dans cette formule, et sur l'ensemble des 4 coefficients de transformation en sortie du réseau de neurones RES, représentés chacun par un indice de sommation m variant de 1 à 4, Dm est une valeur désirée appliquée en sortie du réseau de neurones, correspondant à l'un des coefficients de transformation Trx, Try, αr et SrC, et Sm est la valeur correspondante obtenue en sortie du réseau de neurones après la phase de propagation. Lors d'une itération, les étapes a2 à a4 sont répétées cycliquement sur l'ensemble des 1000 images sélectionné à l'étape ai, à la différence près qu'au deuxième passage à l'étape a2, on sélectionne aléatoirement une image des 999 images non encore appliquées à l'entrée du réseau de neurones RES, puis au troisième passage par l'étape a2, on sélectionne aléatoirement une image des 998 images non encore appliquées à l'entrée du réseau de neurones RES, et ainsi de suite.O is the objective function to be minimized on all the 1000 images presented at the input of the neural network RES during an iteration, each image presentation corresponding to the summation index k in this formula, and on the set of 4 transform coefficients at the output of the neural network RES, each represented by a summation index m varying from 1 to 4, D m is a desired value applied at the output of the neural network, corresponding to one of the coefficients of transformation T r x, T r y, α r and S r C, and S m is the corresponding value obtained at the output of the neural network after the propagation phase. During an iteration, the steps a2 to a4 are repeated cyclically on all of the 1000 images selected in step a1, with the difference that, at the second pass in step a2, a random image of 999 is randomly selected. images not yet applied to the input of the RES neural network, then to the third pass by step a2, an image of the 998 images not yet applied to the input of the RES neural network is randomly selected, and so on.
Il est à noter que d'autres variantes de réalisation du procédé selon l'invention sont envisageables, avec des coefficients de transformation définis différemment. Par exemple en variante, la phase d'apprentissage entraîne le réseau de neurones RES à fournir, à partir d'une boîte englobante mal cadrée sur un visage, des coefficients de transformation permettant d'effectuer des transformations sur cette boîte englobante afin d'aboutir à une boîte englobante bien cadrée sur ce visage. Ainsi les coefficients de transformation obtenus en sortie du réseau de neurones RES n'ont pas besoin d'être inversés pendant la phase d'utilisation. It should be noted that other alternative embodiments of the method according to the invention can be envisaged, with transformation coefficients defined differently. For example, in a variant, the learning phase causes the neural network RES to provide, from a bounding box poorly framed on a face, transform coefficients that make it possible to perform transformations on this bounding box in order to succeed. to a bounding box well framed on this face. Thus, the transformation coefficients obtained at the output of the neural network RES do not need to be reversed during the use phase.

Claims

REVENDICATIONS
1. Procédé de cadrage d'un objet dans une image (I), ledit objet appartenant à une catégorie d'objets présentant des caractéristiques distinctives communes, et ledit procédé utilisant un réseau (RES) de neurones artificiels soumis préalablement à une phase d'apprentissage (φ1 ), caractérisé en ce qu'il comporte les étapes de: - localisation (b1) dudit objet dans ladite image (I), afin d'obtenir un premier cadrage (Cl) dudît objet définissant un morceau (T) de ladite image,1. A method of framing an object in an image (I), said object belonging to a category of objects having common distinguishing characteristics, and said method using a network (RES) of artificial neurons submitted prior to a phase of training (φ1), characterized in that it comprises the steps of: - locating (b1) said object in said image (I), in order to obtain a first frame (C1) of said object defining a piece (T) of said picture,
- application (b2) dudit morceau (T) d'image en entrée dudit réseau (RES) de neurones, et obtention en sortie de coefficients de transformation (αr, Trx, Try, Src) permettant d'obtenir un second cadrage (CF) dudit objet, ladite phase d'apprentissage (φ1) ayant entraîné ledit réseau (RES) à fournir en sortie des coefficients de transformation (αr, Trx, Try, Src) permettant un recadrage à partir de morceaux d'images d'apprentissage.- applying (b2) said image piece (T) at the input of said network (RES) of neurons, and obtaining at the output of transformation coefficients (α r , T r x, T r y, S r c) allowing obtaining a second frame (CF) of said object, said learning phase (φ1) having caused said network (RES) to output transforming coefficients (α r , T r x, T r y, S r c) allowing a crop from pieces of learning images.
2. Procédé selon la revendication 1 , caractérisé en ce que ledit réseau (RES) de neurones est un réseau de neurones à couches hétérogènes comprenant au moins une couche cachée de convolution.2. Method according to claim 1, characterized in that said network (RES) of neurons is a heterogeneous layer neural network comprising at least one hidden convolution layer.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que ledit réseau (RES) de neurones est un réseau de neurones à couches hétérogènes comprenant deux couches cachées de convolution (Ci, C3) entre lesquelles est interposée une couche de sous-échantillonnage (S2).3. Method according to claim 1 or 2, characterized in that said network (RES) of neurons is a heterogeneous layer neural network comprising two hidden convolution layers (Ci, C3) between which is interposed a sub-sampling layer. (S 2 ).
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ledit réseau (RES) de neurones comporte six couches dont quatre couches cachées (Ci, S2, C3, N4), une couche d'entrée (E) et une couche de sortie (S).4. Method according to any one of claims 1 to 3, characterized in that said network (RES) of neurons comprises six layers including four hidden layers (Ci, S 2 , C 3 , N 4 ), an input layer (E) and an output layer (S).
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que l'étape de localisation (b1) utilise un réseau de neurones à couches hétérogènes comprenant au moins une couche cachée de convolution.5. Method according to any one of claims 1 to 4, characterized in that the locating step (b1) uses a heterogeneous layer neural network comprising at least one hidden convolution layer.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que lesdits coefficients de transformation (αr, Trx, Try, Src) en sortie du réseau de neurones correspondent à:6. Method according to any one of claims 1 to 5, characterized in that said transformation coefficients (α r , T r ×, T r y, S r c) at the output of the neural network correspond to:
- un coefficient de translation (Tx) selon un premier axe dudit premier cadrage,a translation coefficient (Tx) along a first axis of said first frame,
- un coefficient de translation (Ty) selon un second axe dudit premier cadrage, - un coefficient de rotation (α) par rapport au centre de gravité dudit premier cadrage,a translation coefficient (Ty) along a second axis of said first frame, a rotation coefficient (α) with respect to the center of gravity of said first frame,
- et un coefficient de mise à l'échelle (Sc).- and a scaling coefficient (Sc).
7. Dispositif de cadrage d'un objet dans une image (I), ledit objet appartenant à une catégorie d'objets présentant des caractéristiques distinctives communes, mettant en œuvre le procédé selon l'une quelconque des revendications 1 à 6.7. Device for framing an object in an image (I), said object belonging to a category of objects having common distinguishing characteristics, implementing the method according to any one of claims 1 to 6.
8. Programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 6, lorsqu'il est exécuté sur un ordinateur. A computer program comprising instructions for implementing the method of any one of claims 1 to 6 when executed on a computer.
EP07823796A 2006-09-14 2007-09-10 Method of framing an object in an image and corresponding device Withdrawn EP2062196A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0653734 2006-09-14
PCT/FR2007/051900 WO2008031978A1 (en) 2006-09-14 2007-09-10 Method of framing an object in an image and corresponding device

Publications (1)

Publication Number Publication Date
EP2062196A1 true EP2062196A1 (en) 2009-05-27

Family

ID=37891439

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07823796A Withdrawn EP2062196A1 (en) 2006-09-14 2007-09-10 Method of framing an object in an image and corresponding device

Country Status (2)

Country Link
EP (1) EP2062196A1 (en)
WO (1) WO2008031978A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875456A (en) * 2017-05-12 2018-11-23 北京旷视科技有限公司 Object detection method, object detecting device and computer readable storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223384B (en) * 2021-03-29 2024-01-16 东风汽车集团股份有限公司 Vehicle data display method and device, electronic equipment and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2008031978A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875456A (en) * 2017-05-12 2018-11-23 北京旷视科技有限公司 Object detection method, object detecting device and computer readable storage medium
CN108875456B (en) * 2017-05-12 2022-02-18 北京旷视科技有限公司 Object detection method, object detection apparatus, and computer-readable storage medium

Also Published As

Publication number Publication date
WO2008031978A1 (en) 2008-03-20

Similar Documents

Publication Publication Date Title
Suárez et al. Infrared image colorization based on a triplet dcgan architecture
US8675105B2 (en) Learning of image processing pipeline for digital imaging devices
Nishiyama et al. Facial deblur inference using subspace analysis for recognition of blurred faces
EP3707676B1 (en) Method for estimating the installation of a camera in the reference frame of a three-dimensional scene, device, augmented reality system and associated computer program
WO2006103241A2 (en) System and method for locating points of interest in an object image using a neural network
FR2955409A1 (en) METHOD FOR INTEGRATING A VIRTUAL OBJECT IN REAL TIME VIDEO OR PHOTOGRAPHS
EP2491532A1 (en) Method, computer program, and device for hybrid tracking of real-time representations of objects in image sequence
EP1864242A1 (en) Method of identifying faces from face images and corresponding device and computer program
US20220189029A1 (en) Semantic refinement of image regions
WO2021063119A1 (en) Method and apparatus for image processing, terminal
FR3081244A1 (en) CHARACTER RECOGNITION METHOD
FR3088467A1 (en) METHOD FOR CLASSIFYING A REPRESENTATIVE INPUT IMAGE OF A BIOMETRIC TRAIT USING A CONVOLUTIONAL NEURON NETWORK
Liu et al. Reference based face super-resolution
CN109934112A (en) A kind of face alignment method and camera
EP2062196A1 (en) Method of framing an object in an image and corresponding device
Roslan et al. Individual tree crown detection using GAN and RetinaNet on tropical forest
Wang et al. SIHRNet: a fully convolutional network for single image highlight removal with a real-world dataset
Jiao et al. Highlight removal for camera captured documents based on image stitching
WO2007077380A2 (en) Colour image correction and obtaining of at least one colour invariant
Huu et al. Proposing an Image Enhancement Algorithm Using CNN for Applications of Face Recognition System
WO2020237366A1 (en) System and method for reflection removal using dual-pixel sensor
Ruping et al. Removing reflection from images based on BP neural network of motion field
WO2008087316A2 (en) Method and system for the binarization of a text-containing image
Emadi et al. A review of methods for face verification under illumination variation
Hlačina et al. Background Extraction from Image using Depth Estimation

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20090312

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC MT NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: DUFFNER, STEFAN

Inventor name: GARCIA, CHRISTOPHE

17Q First examination report despatched

Effective date: 20100802

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20110215