FR2691033A1 - Procédé et dispositif de détection d'un visage sur une image numérique ainsi que l'application à la mesure d'audience télévisuelle et à la télésurveillance. - Google Patents

Procédé et dispositif de détection d'un visage sur une image numérique ainsi que l'application à la mesure d'audience télévisuelle et à la télésurveillance. Download PDF

Info

Publication number
FR2691033A1
FR2691033A1 FR9205500A FR9205500A FR2691033A1 FR 2691033 A1 FR2691033 A1 FR 2691033A1 FR 9205500 A FR9205500 A FR 9205500A FR 9205500 A FR9205500 A FR 9205500A FR 2691033 A1 FR2691033 A1 FR 2691033A1
Authority
FR
France
Prior art keywords
image
thumbnails
learning
windows
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9205500A
Other languages
English (en)
Other versions
FR2691033B1 (fr
Inventor
Burel Gilles
Carel Dominique
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Priority to FR9205500A priority Critical patent/FR2691033B1/fr
Publication of FR2691033A1 publication Critical patent/FR2691033A1/fr
Application granted granted Critical
Publication of FR2691033B1 publication Critical patent/FR2691033B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/45Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

L'invention concerne un procédé et un dispositif de détection de visages sur images numériques. Selon l'invention, on procède à deux phases préliminaires d'apprentissage à partir d'une base générale (1) d'imagettes et d'une base adaptée (3) d'imagettes. Les imagettes sont normalisées en taille, en variance et en luminosité moyenne. Chaque base comprend des imagettes de visages et de fonds. Les moyens d'apprentissage (4) et de classification (9) sont constitués, dans une variante préférée par un perceptron multicouche. La phase de détection proprement dite consiste à balayer (7) l'image numérique en multirésolution à l'aide de fenêtres. Les paramètres internes du classifieur (4) sont initialisés par les phases d'apprentissage. Applications à la mesure d'audience télévisuelle et à la télésurveillance.

Description

Procédé et dispositif de détection d'un visage sur une
image numérique ainsi que l'application à la mesure
d'audience télévisuelle et à la télésurveillance.
L'invention se rapporte au domaine du traitement d'images numériques et plus particulièrement à un procédé automatique qui permet de détecter les visages présents sur une image, ainsi qu'au dispositif permettant sa mise en oeuvre.
La détection de visages consiste, à partir d'une image numérique, à fournir les coordonnées des coins de fenêtres rectangulaires encadrant les visages présents dans l'image. Une indication de confiance peut également être associée à chaque fenêtre.
La détection automatique de visages sur une image numérique présente de nombreuses difficultés et, parmi celles-ci, on peut citer les difficultés ci-après
I1 n'existe pas de modèle de visage, du fait, d'une part, de la forte variabilité d'un individu à l'autre et, d'autre part, de la non rigidité d'un visage.
En effet, un visage ne peut se définir simplement. Sa forme est variable, même pour une personne considérée, sujette à un changement de coiffure ; une barbe, une moustache ou même des lunettes peuvent en modifier totalement l'apparence. On est donc confronté à un problème bien plus difficile que les problèmes classiques de reconnaissance d'objets rencontrés en traitement d'images ou de vision artificielle : reconnaissance de pièces industrielles par exemple. Pour ces objets, on peut construire des modèles a priori.
Dans le cadre d'applications usuelles (audiométrie, télésurveillance, etc), on ne maîtrise pas la distance visage-caméra. La taille d'un visage sur l'image peut donc être quelconque.
De la même façon, en environnement réel, on ne maîtrise que partiellement les conditions d'éclairage.
Enfin, toujours dans le cadre d'applications réelles, un visage n'est pas nécessairement vu de face.
Il faut donc être capable de le détecter même s'il est légèrement de profil.
Pour toutes ces raisons, les procédés de reconnaissance proposés dans l'art connu ne permettent pas une identification directe et automatique des visages dans une image numérique.
A titre d'exemple, dans l'article de R.A. HUT
CHINSON : Development of an MLP feature location technique using preprocessed images" ; Congrès INNC90, Paris, 9-13 juillet 1990, pp 67-70 ; il est proposé une méthode que l'on pourrait envisager d'utiliser indirectement à des fins de détection de visages. Cette mé thode consiste à détecter un visage en recherchant plus précisément les yeux. Pour ce faire, on utilise un réseau de neurones à trois couches (480 entrées, 32 neurones cachés, et une sortie), auquel on fournit une "imagette" de 30 x 16 pixels. Une image est ensuite balayée avec ce masque, avec un pas de deux pixels suivant des axes X et Y orthonormés. Cette méthode permet donc de détecter les yeux, mais nécessite des images de très grande résolution.Son application à la détection de visages n'est donc pas viable, car dans la plupart des applications réelles pour lesquelles la détection de visages peut être nécessaire (mesure d'audience, surveillance, etc), il est irréaliste de disposer d'une résolution telle que les yeux soient suffisamment résolus.
Certains articles décrivent des méthodes pour l'identification de visage, c'est-à-dire l'indication du nom de la personne, lorsque le visage a déjà été détecté, et donc localisé (photo d'identité, cadrage manuel, etc). A titre d'exemple, on peut citer l'article de Osamu NAKAMURA, Shailendra MATHUR et Toshi
MINAMI : "Identification of human face based on isodensity maps" paru dans "Pattern Recognition", vol 24, nO 3, 1991
Cette méthode, plus axée vers l'identification proprement dite d'une personne, présente plusieurs inconvénients
- 1'acquisition d'un visage ne peut se faire que
dans des conditions idéales d'éclairement et de
codage, sur un fond uniforme
- l'analyse d'un visage est faite avec une défi
nition élevée : "imagette" d'un visage de
128 x 128 pixels ou plus.
L'invention se propose de pallier les insuffisances de l'art connu qui viennent d'être rappelées.
Pour ce faire, elle propose un procédé d'identification des visages dans une image numérique présentant les caractéristiques suivantes
- Apprentissage par l'exemple, ce qui permet de
surmonter la non-existence de modèle a priori.
- Analyse multi-résolution de l'image, afin de
surmonter le fait que l'on ne maîtrise pas la
distance visage-caméra. Cette analyse multi-réso
lution est complétée par un post-traitement vi
sant à supprimer des détections imbriquées.
- Normalisation locale en luminance moyenne et
en variance, afin d'obtenir une certaine insensi
bilité par rapport aux conditions d'éclairage.
- Création d'une base d'apprentissage variée,
contenant notamment des visages de face et légè
rement de profil.
L'invention a donc pour objet un procédé de détection de visages sur une image numérique composée d'un ensemble de pixel, chaque pixel étant associé à une valeur de luminance ; caractérisé en ce qu'il comprend
- une première phase préliminaire comprenant les
étapes suivantes
- acquisition d'images et création d'une
base de données numériques générale cons
tituée dtimagettes diversifiées représen
tant des visages et des fonds d'image
- normalisation des imagettes à une taille
standard exprimée en pixel
- exécution d'une opération d'apprentissage
général à partir de ladite base de don
nées numériques générale de manière à
obtenir des valeurs internes d'un classi
fieur préalablement initialisé à des va
leurs aléatoires
- une seconde phase préliminaire comprenant les
étapes suivantes
- compression de ladite base de données
numériques générale pour obtenir un nom
bre d'imagettes en nombre réduit à l'aide
d'une opération de quantification vecto
rielle
- création d'une base de données numériques
adaptée obtenu en ajoutant à la base géné
rale comprimée des imagettes supplémentai
res normalisées représentant au moins des
fonds d'images lesdites images supplémen
taires étant associées à un environnement
particulier prédéterminé
- initialisation des paramètres internes du
classifieur avec les valeurs fournies
par ladite opération d'apprentissage géné
rale et réalisation d'un apprentissage
- et une phase de détection comprenant les étapes
suivantes
- balayage de chaque image numérique à
l'aide de fenêtres
- normalisation en taille de chaque ima
gette obtenue lors du balayage
- propagation du résultat dans le classi
fieur
- traitement des décisions fournies par le
classifieur.
L'invention a encore pour objet un dispositif de mise en oeuvre de ce procédé ; ainsi qu'un appareil de mesure d'audience télévisuelle et un appareil de télésurveillance incorporant ledit dispositif.
L'invention sera mieux comprise et d'autres caractéristiques et avantages apparaîtront à la lecture de la description qui suit en regard de la figure 1 annexée. Cette figure est un diagramme illustrant le procédé de l'invention.
Le procédé de l'invention va maintenant être décrit de façon détaillée par référence au diagramme de la figure 1.
Le procédé comprend trois phases principales
- Une phase d'apprentissage général, durant la
quelle le dispositif mettant en oeuvre le procé
dé règle ses paramètres internes. Les valeurs
initiales de paramètres internes sont choisies
aléatoirement dans une variante de réalisation
préférée du procédé.
- Une phase d'apprentissage adapté, durant la
quelle le dispositif de détection règle ses para
mètres internes, en les adaptant plus spéciale
ment à un environnement particulier. Les valeurs
initiales de paramètres internes sont celles qui
résultent de l'apprentissage général.
- Une phase de détection durant laquelle les
paramètres internes du dispositif sont figés aux
valeurs fournies par la phase d'apprentissage
adaptée. Durant cette phase, le dispositif peut
traiter des images numériques. Il reçoit en en
trée une image numérique, et fournit en sortie
les coordonnées des coins de fenêtres rectangu
laires encadrant les visages trouvés sur
l'image. I1 fournit également avec chaque fenê
tre une indication de confiance.
Les deux premières phases constituent des étapes préliminaires du procédé, dont le but est de régler les paramètres internes du dispositif. La dernière phase constitue le fonctionnement normal du dispositif en tant que détecteur de visages.
Dans ce qui suit on appellera "imagettes" des portions d'images numériques ayant certaines caractéristiques. En particulier, on parlera de la "taille standard" d'une imagette pour désigner la taille sous laquelle toute imagette est ramenée avant d'être présentée à un organe que l'on désignera classifieur et dont la fonction sera explicitée ultérieurement.
Pour fixer les idées, sans que cela soit limitatif, cette taille est de l'ordre de 20 pixels, ou points images, en hauteur et 15 pixels en largeur.
Cette taille correspond à une optimisation issue de l'expérience.
La phase d'apprentissage général comprend les étapes suivantes
1. Création d'une base d'apprentissage générale.
2. Initialisation des paramètres internes du dispositif de mise en oeuvre du procédé à des valeurs aléatoires.
3. Exécution d'un processus d'apprentissage permettant d'ajuster au mieux les paramètres internes compte tenu de la base d'apprentissage créée pendant l'étape 1.
Pour créer une base d'apprentissage générale, on doit acquérir et enregistrer des images numériques représentant différentes personnes dans des environnements aussi variés que possible, et sous diverses apparences (visage de face et légèrement de profil). Puis on encadre ces visages de manière interactive, et pour chaque encadrement, on normalise l'imagette correspondante en moyenne et en variance, on ramène sa taille à la taille standard, et on l'enregistre. L'extraction proprement dite des parties intéressantes de l'images s'effectue a priori, manuellement. L'enregistrement peut s'effectuer de toute manière connue, par exemple dans la mémoire, référencée 1 sur la figure 1, d'un appareil de traitement de données numérique classique.
I1 est également nécessaire de disposer de "contreexemples" c'est-à-dire des images numériques ne comportant pas de visages. Pour cela, on encadre certaines zones du fond, et pour chaque encadrement, on normalise l'imagette correspondante en luminance moyenne et en variance, on ramène sa taille à la taille standard, et on l'enregistre dans la mémoire 1. On appelle "luminosité" la valeur d'un pixel codé en valeur numérique ; par exemple codée par un nombre entier compris entre 0 et 255. Dans ce cas une valeur moyenne serait 128. Cet ensemble d'imagettes de visages et de fonds constitue ce qui est appelé, dans ce qui suit, la base d'apprentissage générale. Pour chaque imagette, il faut bien entendu avoir mémorisé s'il s'agit d'un visage ou d'un fond.Ceci peut être fait en associant aux valeurs numériques représentant l'image, un attribut d'au moins un élément binaire dans l'exemple (deux possibilités). I1 est également possible de créer des imagettes supplémentaires d'un même visage en effectuant de légères translation et homothéties sur chaque fenêtre de départ pour rendre le procédé de l'invention plus "robuste" aux variations de taille et de cadrage des visages. Pour chaque imagette extraite, a priori manuellement, il est généré un nombre déterminé d'imagettes obtenues par translations et homothéties du cadre de l'imagette dans l'image entière correspondante. Cette génération peut naturellement s'effectuer automatiquement, à l'aide d'un processeur de traitement de signal.
Pour fixer les idées, l'expérience a montré qu'il est souhaitable de posséder une base d'apprentissage constituée d'au moins 2000 imagettes de visages et 2000 imagettes de fonds. I1 est également souhaitable que le nombre d 'imagettes de fonds soit approximativement égal au nombre d'imayettes de visages, afin d'éviter un déséquilibre entre les exemples et les contreexemples.
Suite à cette première phase préliminaire, ou phase d'apprentissage général, on réalise une deuxième phase préliminaire, ou phase d'apprentissage adapté.
On part des constations suivantes : le dispositif de détection de visage est normalement appelé à être installé en un lieu particulier et il est également possible que les personnes susceptibles d'apparaître sur 1 r image appartiennent à un groupe connu a priori. I1 est alors intéressant d'adapter le dispositif à ces conditions particulières afin d'en améliorer les performances.
A titre d'exemple non limitatif, un dispositif de détection de visages utilisé à des fins de comptage du nombre de téléspectateurs pour la mesure d'audience en télévision sera installé dans une pièce particulière et les personnes susceptibles d'apparaître dans l'image appartiennent à une famille chez laquelle le dispositif est installé.
La phase d'apprentissage comprend les étapes suivantes
1. Compression de la base d'apprentissage généralle, telle qu'enregistrée dans la mémoire 1.
2. Création d'une base d'apprentissage à un environnement déterminé, en ajoutant à la base d'apprentissage générale comprimée des exemples et contre-exemples extraits sur un lieu particulier, par exemple dans l'ha- bitation de la famille soumise au test.
3. Initialisation des paramètres internes du dispositif avec les valeurs fournies par la phase d'apprentissage général.
4. Exécution d'un processus d'apprentissage permettant d'ajuster au mieux les paramètres internes compte tenu de la base d'apprentissage créée à l'étape 2.
Pour comprimer la base d'apprentissage générale 1, on peut par exemple utiliser un processus connu de quantification vectorielle tel qu'un de ceux décrits dans l'article de Y.LINDE et al : "An Algorithm for
Vector Quantizer Design" paru dans "IEEE Trans. on Communications", vol. COM-28, n01 janvier 1980 ; ou dans le livre de Teuvo KOHONEN : "Self-Organization and Associative Memory", SPRINGER-VERLAG, 1984, pages 118-156.
De tels processus transforment un ensemble de M imagettes en un ensemble de N imagettes, où N est inférieur à M. Les N imagettes sont celles qui représentent le mieux les M imagettes de départ au sens de 1' erreur quadratique moyenne. Le premier processus de compression nécessite que N soit une puissance de 2. Le second dit "des cartes topologiques" admet une valeur de N quelconque.
On applique donc un processus de quantification vectorielle aux imagettes de visages de la base générale, puis aux imagettes de fonds. A titre d'exemple, on peut conserver 256 imagettes de visages et 256 imagettes de fonds. Ce processus peut être exécutée par tout processeur de données approprié. L'étape correspondante a été repérée 2 sur le diagramme de la figure 1.
On installe ensuite l'appareil sur site, et on réalise sur place l'acquisition d'une ou plusieurs images sans personnages présents. On charge les paramètres internes du dispositif avec les valeurs fournies par l'apprentissage général. On balaye chaque image selon le procédé décrit dans ce qui suit, et on mémorise les fenêtres indiquées comme étant des visages. Pour chaque fenêtre, on normalise l'imagette correspondante en luminance moyenne et en variance, on ramène sa taille à la taille standard, et on l'enregistre. Comme il n'y avait pas de personnages sur l'image, ces imagettes représentent ce qui est appelé des "fausses détections". Si le nombre de fausses détections est supérieur à N/2, on le comprime à l'aide d'un processus de quantification vectorielle pour obtenir N/2 imagettes comme précédemment.
On rajoute alors ces imagettes dans la base d'exemples de fonds
De la même façon, on réalise l'acquisition d'images dans lesquelles les personnes qui sont susceptibles d'apparaître ultérieurement sont présentes. On encadre leurs visages, on normalise chaque imagette, et on rajoute les imagettes obtenues à la base d'imagettes de visages, en ne dépassant toutefois pas un nombre d'imagettes rajoutées étal à N/2.
A l'issue de cette étape, on obtient une base adaptée 3 dans laquelle toutes les imagettes susceptibles d'être utilisées pendant les étapes ultérieures ont été enregistrées sous forme numérique. Bien que référencée à part sur la figure 1, la base adaptée 3 peut naturellement être une partie de la mémoire 1 qui contient, dans l'exemple illustré, la base générale.
Pour les étapes d'apprentissage, on utilise dans une variante préférée de l'invention la méthode dite de rétropropagation du gradient, plus connue sous le terme anglo-saxon de "back-propagation". . Une telle méthode est décrite, à titre d'exemple, dans le livre de D.E.
RUMELHART, G.E. HINTON et R.J. WILLIAMS -"Learning internal representations by error backpropagation" ; et plus particulièrement au chapitre 8 : "Parallel Distributed Processing", par D.E. RUMELHART et J.L. Mc
CLELLAND ; Bradford book - MIT Press - 1986.
Dans ce cadre, on met en oeuvre un réseau de neurones multicouche qui comprend une couche d'entrée ou rétine, une couche de sortie et, éventuellement, une ou plusieurs couches internes dites couches cachées.
Chaque neurone est connectée à l'ensemble des neurones de la couche suivante par l'intermédiaire de connexions dont les poids sont des nombres réels quelconques. De façon plus précise, ce réseau est un perceptron multicouche.
Le modèle de neurone utilisé pour chacune des couches est généralement caractérisé par
une fonction d'entrée linéaire
Figure img00110001

dans laquelle e. est le signal d'entrée, W. le poids
I i pour la neurone i (O < i < N, N étant le nombre de neurones de la couche)
une fonction de sortie sigmoïde f(E) = tanh
Figure img00110002

avec e représentant la fonction exponentielle
des entrées et des sorties réelles
Chaque neurone est connecté à l'ensemble des neurones de la couche suivante par l'intermédiaire de connexions dont les poids sont des nombres réels quelconques.
Pour l'apprentissage, on doit disposer d'un ensemble d'exemples qui sont représentés par des couples (entrée/sortie désirée).
A chaque étape, un exemple est présenté en entrée du réseau. Une sortie réelle est calculée de proche en proche, à partir de la couche d'entrée vers la couche de sortie. Cette phase est appelée propagation avant ou encore relaxation du réseau. Ensuite , l'er- reur (somme quadratique des erreurs sur chaque cellule de sortie) est calculée. Celle-ci est ensuite rétropropagée dans le réseau, donnant lieu à une modification de chaque poids des connexions.
Ce processus est alors répétée en présentant successivement chaque exemple. Si, pour tous les exemples, l'erreur est inférieure à un seuil choisi, on dit alors que le réseau a convergé. L'apprentissage consiste donc à minimiser l'erreur quadratique commise sur l'ensemble des exemples, erreur considérée comme une fonction des poids par une approximation de descente de gradient Ffnouveau~ ,Itancien
w relation dans laquelle a est supérieur à zéro, et F est l'erreur quadratique
Figure img00120001

ive sortie en notant 0. les sorties obtenues et S. les sorties
i i souhaitées.
a est calculé à chaque passage de tous les exemples lors de l'apprentissage de façon à obtenir une décroissance relative (imposée par l'utilisateur) sur l'erreur.
Toute la difficulté pour effectuer cette descente dans un réseau multicouches est de pouvoir calculer la dérivée de cette erreur quadratique par rapport à un poids donné. L'utilisation de neurones à fonction d'activation dérivable (sigmoïde) permet de résoudre ce problème simplement.
Dans le cadre de l'invention, les données fournies à l r entrée du réseau sont constituées par les valeurs binaires des imagettes ou pixels. Il reste à choisir la dimension de ce vecteur d'entrée, le nombre de couches intermédiaires et le nombre de neurone sur chacune des couches.
La théorie ne permet pas de déterminer précisément les deux derniers points. La pratique montre qu'un nombre total des couches supérieure à quatre n'améliore pas les performances.
L'expérience a montré que, pour mettre en oeuvre le procédé de l'invention, un nombre de couche égale à deux était suffisant. I1 a été indiqué précédemment que chaque imagette pouvait être réduite à une taille en pixels égale à 20 x 15, ce qui fixe le nombre de neurones d'entrée. Enfin, l'expérience a montré également, qu'un nombre d'itérations égal à cinq cents, dans les conditions précitées, donnait de bons résultats.
Les moyens d'apprentissage portent la référence 4 sur la figure 1 et sont donc constitués, dans une variante préférée de l'invention, par un réseau de neurones du type qui vient d'être décrit. Ces moyens d'apprentissage sont destinés à fournir des paramètres d'initialisation, que l'on appellera "paramètres internes" 5, à un classifieur 9 dont on précisera le rôle ultérieurement. Avant le premier apprentissage, réalisé une fois pour toute (sur la base générale 1), les paramètres internes du perceptron multicouche sont initialisés de façon aléatoire. A l'issue de l'apprentissage, les paramètres internes du perceptron multicouche seront initialisés grâce aux résultats de l'apprentissage.
Deux commutateurs à deux positions, K1 et K2, symbolisent les deux voies de transmission associées aux deux phases préliminaires d'apprentissage : envoi des images à la base générale 1 ou à la base adaptée 3 et réception des images à partir de l'une de ces bases par les moyens d'apprentissage 4.
Après cette dernière phase préliminaire, on peut exécuter la phase de détection proprement dite.
Une image numérique IN est fournies au dispositif de détection. Tout moyen approprié, telle qu'une caméra CCD par exemple, peut être utilisé pour capter l'image. Une fois convertie en signaux numériques la représentant, l'image ainsi captée est enregistrée dans une mémoire d'image 6.
Le dispositif de détection comporte des moyens 7 de balayage multirésolution de l'image mémorisée.
On réalise ce balayage multirésolution de l'image avec des fenêtres rectangulaires dont la taille varie par exemple d'un facteur 21/3 lorsque l'on passe d'une résolution à la suivante. Le rapport hauteur sur largeur de chaque fenêtre est le même et est fixé a priori, pour correspondre approximativement aux proportions d'un visage. Ce rapport est de préférence de l'ordre de 4/3. Pour chaque position de la fenêtre, et pour chaque résolution, on normalise en luminance moyenne et en variance le contenu de la fenêtre, puis on ramène sa taille à la taille standard. Cette étape est réalisée par des moyens référencés 8 qui peuvent naturellement être l'appareil de traitement de données utilisés pour les opérations de calcul précédemment réalisées. On obtient alors des imagettes semblables aux imagettes de la base d'apprentissage.Le résultat est fourni à un classifieur 9 qui donne en sortie une indication de classe (visage ou fond) et une confiance associée à cette indication. Si le classifieur indique qu'il s'agit d'un visage avec une confiance supérieure à un seuil fixé a priori, on mémorise alors les coordonnées des coins de la fenêtre et la confiance. Ces valeurs sont mémorisées dans une mémoire des décisions 10.
Le rôle et la configuration générale d'un classifieur vont tout d'abord être rappelés.
D'une manière générale, la reconnaissance de formes, au sens large du terme, se ramène à un problème de discrimination. On cherche un classifieur C qui, à tout signal d'entrée x, appelé en général "pattern" selon la terminologie anglo-saxonne, associe une décision des classes C(x) = 1, 2,...k, quand k classes sont possibles.
On calcule des fonctions discriminantes fixé avec i = 1, 2,...k et on les applique aux "patterns" à tester suivant le critère du maximum. Le signal x est associé à la classe i pour laquelle la valeur discriminante (x) est maximale.
La configuration du classifieur se présente sous la forme d'un problème d'optimisation : minimiser le nombre moyen d'erreurs de reconnaissance. Pour ce faire, on procède à un apprentissage du type de celui qui a été décrit. A la suite de quoi, on dispose d'un ensemble de "patterns" pour lesquels la classe d'appartenance est connue et à partir duquel on configure le classifieur : est-à-dire l'ensemble des f.(x). Si la base est représentative du problème posé, les lois de décisions extraites de sa connaissance donnent une bonne généralisation.
Divers types de classifieurs sont connus et font appel à des techniques différentes, notamment à une approche neurone
Dans une variante préférée de l'invention le classifieur sera constitué par un perceptron multicouche. En réalité, il s'agit physiquement du réseau utilisé comme moyens d'apprentissage 4.
Dans le cadre de la discrimination, le réseau neuronal réalise une fonction x- > IF (x) > dans laquelle
w Fw (x) > est un vecteur à k composantes. L'architecture du réseau est. définie à l'avance et la phase d'apprentissage va consister à modifier les paramètres ajustables w ou poids synaptiques, de façon à approcher au mieux les probabilités pour lesquelles la valeur discriminante f. (x) est maximale. Les paramètres internes 5 sont utilisés pour initialiser la matrice de poids synaptiques du classifieur 9.
Le classifieur 9 fournit également un niveau de confiance sur le résultat obtenu. Dans le cadre du procédé de l'invention la classe peut être une valeur binaire
0 = fond
1 = visage
Le niveau de confiance peut être exprimé par un pourcentage, compris entre 0 et 100%.
Ce niveau de confiance est calculé en sélectionnant les réponses en sortie les plus fortes et en effectuant ensuite la différence complétée par une division par deux. Dans le cas de l'invention, si on se contente de deux classes (0, 1), il y a deux neurones en sortie donc deux réponses.
On peut donc appliquer un seuil, fonction du niveau de confiance, et ne retenir que les détections associées à un niveau de confiance supérieur au seuil choisi.
Selon une première variante du procédé, non illustrée, il est possible de l'améliorer en classifiant systématiquement comme fond les fenêtres dont la variance avant normalisation est inférieure à un seuil fixé a priori. Lors du balayage un visage peut être détecté plusieurs fois. Dans un deuxième temps ou posttraitement 11, on traite l'ensemble des fenêtres obtenues afin de supprimer certaines fenêtres imbriquées.
Deux fenêtres sont considérées comme imbriquées si le centre de l'une est à l'intérieur de l'autre. Une fenêtre est suppri-mée si elle est imbriquée dans une fenêtre de confiance supérieure. De cette manière, on ne conserve que la "meilleure" fenêtre parmi plusieurs possibles.
Selon une variante supplémentaire, il est encore possible d'améliorer le procédé en réalisant un prétraitement qui fournit des zones d'intérêt sur l'image. On ne balaye alors que ces zones d'intérêt et non pas l'image entière.
Par exemple, on peut utiliser un détecteur de mouvement associé au dispositif de détection, et considérer que seules les zones en mouvement sont dignes d'intérêt. L'idée sous-jacente étant qu'un visage ne reste pas immobile sur une longue période.
Les coordonnées des fenêtres détectées peuvent être utilisées pour des applications diverses.
Dans le premier exemple d'application précitée "mesure d'audience télévisuelle", on peut en déduire la ou les personnes suivant une émission prédéterminée, ou plus simplement le nombre de personnes suivant cette émission. Il va de soi que l'on associe alors au dispositif de détection des moyens aptes à déterminer l'heure et la date ainsi que le canal de télévision actifs. Ces derniers moyens sont bien connus et il est inutile de les détailler. Ces données peuvent être ex ploitées en temps réel et transmises ou, au contraire, associées entre elles et enregistrées pour une exploitation différée.
Pour l'application "télésurveillance", le dispositif permet de classer ou non les visages détectés parmi ceux reconnus, c'est-à-dire enregistrés dans la base. Si le visage détecté n'est pas parmi ceux reconnus une alerte peut être déclenchée ou toute autre action appropriée.
L'invention n' est pas limitée aux exemples de réalisation précisément décrits. Il est par exemple possible de substituer le type de classifieur indiqué, un perceptron multicouche, par tout autre circuit approprié. Par ailleurs, les valeurs numériques n'ont été fournies que pour fixer les idées et peuvent être adaptées en tant que de besoin.

Claims (16)

REVENDICATIONS
1. Procédé de détection de visages sur une image numérique composée d'un ensemble de pixel, chaque pixel étant associé à une valeur de luminance ; caractérisé en ce qu il comprend
- une première phase préliminaire comprenant les
étapes suivantes
- acquisition d'images et création d'une
base de données numériques générale (1)
constituée d'imagettes diversifiées repré
sentant des visages et des fonds d'image
- normalisation des imagettes à une taille
standard exprimée en pixel
- exécution d'une opération d'apprentissage
général à partir de ladite base de don
nées numériques générale (1) de manière à
obtenir des valeurs internes d'un classi
fieur préalablement initialisé à des va
leurs aléatoires
- une seconde phase préliminaire comprenant les
étapes suivantes
- compression de ladite base de données
numériques générale pour obtenir un nom
bre d'imagettes en nombre réduit à l'aide
d'une opération de quantification vecto
rielle (2)
- création d'une base de données numériques
adaptée (3) obtenu en ajoutant à la base
générale comprimée des imagettes supplé
mentaires normalisées représentant au
moins des fonds d'images lesdites images
supplémentaires étant associées à un envi
ronnement particulier prédéterminé
- initialisation des paramètres internes du
classifieur (9) avec les valeurs fournies
par ladite opération d'apprentissage géné
rale et réalisation d'un apprentissage
- et une phase de détection comprenant les étapes
suivante 5
- balayage (7) de chaque image numérique à
l'aide de fenêtres
- normalisation (8) en taille de chaque
iiTElyett e obtenue lors du balayage
- propagation du résultat dans le classi
fieur (9)
- traitement des décisions fournies par le
èlassîfieur (9).
2. Procédé selon la revendication 1 ; caractérisé en ce que les imagettes sont en outre normalisées en variance et en luminance moyenne.
3. Procédé selon ta revendication 1 ; caractéri sé en ce que ledit balayage s'effectue avec une résolution multiple en balayant l'image à l'aide de fenêtres rectangulaires dont la taille varie dans des rapports déterminés.
4. Procéclé selon la revendication 3 ; caractéri sé en ce que les fenêtres dont le rapport hauteur sur largeur est égal à 4/3 ; et en ce que la taille varie d'un facteur 21/3 lorsqu on passe d'un balayage d'une première résolution à la résolution suivante.
5. Procédé selon la revendication 1 ; caractérisé en ce que les opérations d'apprentissage (4) sont des opérations de rétropropagation du gradient.
6. Procédé selon la revendication 1 ; caractéri s en ce que l'étape de création de ladite base de données numériques adaptée (3) comprend l'ajout d'imagettes représentant des visages associes audit environnement particulier.
7. Procédé selon la revendication 1 ; caractéri sé en ce que la phase de détection comprend une étape supplémentaire de post-traitement (11) pendant laquelle les fenêtres imbriquées sont supprimées ; deux fenêtres étant imbriquées si le centre de l'une par rapport à un référentiel lié à l'image numérique est compris dans 1' autre.
8. Procédé selon la revendication 1 ; caractérisé en ce que le classifieur (9) fournit une valeur de confiance associé à chaque imagette propagée lors dudit balayage.
9. Procédé selon la revendication 1 ; caractérisé en ce que la première phase préliminaire comporte une étape supplémentaire consistant en l'ajout d'imagettes dans ladite base de données numériques générale (1) obtenues par des opérations de translation ou d'homothéties à partir de fenêtres déterminées desdites images acquises.
10. Procédé selon la revendication 1 ; caractérisé en ce que la phase de détection comprend une étape supplémentaire consistant à classer les imagettes dont la variance est inférieure à un seuil déterminé comme imagettes représentant des fonds.
11. Procédé selon la revendication I ; caractérisé en ce que la phase de détection comprend une étape supplémentaire consistant à détecter des zones présentant au moins un caractère déterminé ; et en ce que le balayage est effectué sur ces seules zones.
12. Procédé selon la revendication 11 ; caractérisé en ce que ledit caractère déterminé est celui associé à une zone en mouvement dans l'image.
13. Dispositif pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 12 ; caractérisé en ce que le classifieur (9) est un perceptron multicouche.
14. Dispositif selon la revendication 13 ; caractérisé en ce que ledit perceptron (9) comporte deux couches de neurones et en ce que le nombre de neurones de la couche d'entrée est égal aux nombres de pixels d'une imagette normalisée en taille.
15. Appareil de mesure d'audience télévisuelle caractérisé en ce qu'il comprend un dispositif selon l'une quelconque des revendications 13 ou 14.
16. Appareil de télésurveillance ; caractérisé en ce qu'il comprend un dispositif selon l'une quelconque des revendications 13 ou 14.
FR9205500A 1992-05-05 1992-05-05 Procede et dispositif de detection d'un visage sur une image numerique ainsi que l'application a la mesure d'audience televisuelle et a la telesurveillance. Expired - Fee Related FR2691033B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9205500A FR2691033B1 (fr) 1992-05-05 1992-05-05 Procede et dispositif de detection d'un visage sur une image numerique ainsi que l'application a la mesure d'audience televisuelle et a la telesurveillance.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9205500A FR2691033B1 (fr) 1992-05-05 1992-05-05 Procede et dispositif de detection d'un visage sur une image numerique ainsi que l'application a la mesure d'audience televisuelle et a la telesurveillance.

Publications (2)

Publication Number Publication Date
FR2691033A1 true FR2691033A1 (fr) 1993-11-12
FR2691033B1 FR2691033B1 (fr) 1995-10-06

Family

ID=9429526

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9205500A Expired - Fee Related FR2691033B1 (fr) 1992-05-05 1992-05-05 Procede et dispositif de detection d'un visage sur une image numerique ainsi que l'application a la mesure d'audience televisuelle et a la telesurveillance.

Country Status (1)

Country Link
FR (1) FR2691033B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999010832A1 (fr) * 1997-08-27 1999-03-04 Plettac Electronic Security Gmbh Procede de localisation d'objets dans des images inanimees pouvant etre applique a la localisation de visages

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0358911A2 (fr) * 1988-09-14 1990-03-21 A.C. Nielsen Company Système de mesure d'audience par reconnaissance d'image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0358911A2 (fr) * 1988-09-14 1990-03-21 A.C. Nielsen Company Système de mesure d'audience par reconnaissance d'image

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
INTERNATIONAL NEURAL NETWORK CONFERENCE vol. 1, Juillet 1990, PARIS pages 322 - 325 COTTRELL ET AL 'Face Recognition using Unsupervised Feature Extraction' *
INTERNATIONAL NEURAL NETWORK CONFERENCE vol. 1, Juillet 1990, PARIS pages 67 - 70 HUTCHINSON 'Development of an MPL Feature Location Technique using Preprocessed Images' *
PATTERN RECOGNITION vol. 24, no. 3, 1991, HEADINGTON, UK pages 263 - 272 NAKAMURA ET AL 'Identification of Human Faces based on Isodensity Maps' *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999010832A1 (fr) * 1997-08-27 1999-03-04 Plettac Electronic Security Gmbh Procede de localisation d'objets dans des images inanimees pouvant etre applique a la localisation de visages

Also Published As

Publication number Publication date
FR2691033B1 (fr) 1995-10-06

Similar Documents

Publication Publication Date Title
CN108304788B (zh) 基于深度神经网络的人脸识别方法
EP3707676B1 (fr) Procédé d&#39;estimation de pose d&#39;une caméra dans le référentiel d&#39;une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d&#39;ordinateur associé
EP0588422B1 (fr) Analyseur et synthétiseur de textures
EP1866834A2 (fr) Système et procédé de localisation de points d&#39;intérêt dans une image d&#39;objet mettant en uvre un réseau de neurones
EP3582141B1 (fr) Procédé d&#39;apprentissage de paramètres d&#39;un réseau de neurones à convolution
Yao et al. CGNet: Detecting computer-generated images based on transfer learning with attention module
Hadiprakoso et al. Face anti-spoofing using CNN classifier & face liveness detection
EP3620970A1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
FR2756073A1 (fr) Procede d&#39;apprentissage generant des reseaux de neurones de petites tailles pour la classification de donnees
Salman et al. Image Enhancement using Convolution Neural Networks
FR2691033A1 (fr) Procédé et dispositif de détection d&#39;un visage sur une image numérique ainsi que l&#39;application à la mesure d&#39;audience télévisuelle et à la télésurveillance.
EP3966739B1 (fr) Procédé d&#39;analyse automatique d&#39;images pour reconnaître automatiquement au moins une caractéristique rare
WO2008081152A2 (fr) Procede et systeme de reconnaissance d&#39;un objet dans une image
WO2021136790A1 (fr) Systeme et procede pour reduire les alterations dans des donnees de capteurs
EP3929809A1 (fr) Procédé de détection d&#39;au moins un trait biométrique visible sur une image d entrée au moyen d&#39;un réseau de neurones à convolution
Jarrallah Satellite Image Classification using Spectral Signature and Deep Learning
Joodi et al. A proposed 3-stage CNN classification model based on augmentation and denoising
WO2008087316A2 (fr) Procede et systeme de binarisation d&#39;une image comprenant un texte
FR3098962A1 (fr) Système de détection d’une particularité hyperspectrale
CN112906668B (zh) 基于卷积神经网络的人脸信息识别方法
FR2872326A1 (fr) Procede de detection d&#39;evenements par videosurveillance
FR2986641A1 (fr) Procede de detection d&#39;un objet et systeme correspondant
Gomes et al. A color vision approach for reconstructing color images in different lighting conditions based on auto encoder technique using deep neural networks
Bulygin et al. Convolutional neural network in the images colorization problem
Ravela No Reference Image Quality Assessment

Legal Events

Date Code Title Description
TP Transmission of property
ST Notification of lapse

Effective date: 20110131