EP2364490A1

EP2364490A1 - Dispositif a architecture pipeline de flot de donnees pour la reconnaissance et la localisation d'objets dans une image par balayage de fenetres de detection

Info

Publication number: EP2364490A1
Application number: EP09756740A
Authority: EP
Inventors: Suresh Pajaniradja; Eva DOKLADALOVA; Mickael Guibert; Mickaël ZEMB
Original assignee: Commissariat a lEnergie Atomique CEA
Current assignee: Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date: 2008-12-09
Filing date: 2009-11-23
Publication date: 2011-09-14
Also published as: JP2012511756A; FR2939547A1; WO2010066563A1; FR2939547B1; US20120134586A1

Abstract

L'invention concerne un dispositif de reconnaissance et de localisation d'objets dans une image par balayage de fenêtres de détection. Selon l'invention, le dispositif (1) comprend une architecture flot de données organisée en pipeline de tâches matérielles concurrentes et comportant : des moyens (4, 5, 6, 9) aptes à générer un descripteur (D) pour chaque fenêtre de détection, une unité (7) de détermination d'histogrammes déterminant un histogramme de gradients d'orientation pour chaque descripteur, N unités de traitement (UT) en parallèle aptes à analyser les histogrammes en fonction de paramètres associés aux descripteurs pour fournir un score partiel représentatif de la probabilité que ledit descripteur contienne au moins une partie de l'objet à reconnaître, la somme des scores partiels de chaque fenêtre de détection fournissant un score global (S1, S2,..., SN) représentatif de la probabilité que ladite fenêtre de détection (F1, F2,..., FN) contienne l'objet à reconnaître.

Description

Dispositif à architecture pipeline de flot de données pour la reconnaissance et la localisation d'objets dans une image par balayage de fenêtres de détection

L'invention concerne un dispositif de reconnaissance et de localisation d'objets dans une image numérique. Elle s'applique notamment aux domaines de l'électronique embarquée nécessitant une fonction de détection/classification tels que la vidéosurveillance, le traitement vidéo mobile et les systèmes d'aide à la conduite.

La détection de mouvement est possible par simple soustraction d'images successives. Cependant, cette méthode présente l'inconvénient de ne pas pouvoir faire de discrimination entre les différents types d'objets en mouvement. En particulier, il n'est pas possible de discriminer un mouvement de feuilles d'arbres sous l'effet du vent du déplacement d'une personne. Par ailleurs, dans les applications embarquées, l'image entière peut être soumise à un mouvement, par exemple dû au déplacement du véhicule sur lequel est fixée la caméra.

La détection d'un objet complexe, comme une personne ou un visage humain, est en outre très difficile dans la mesure où la forme apparente de l'objet dépend non seulement de sa morphologie, mais aussi de sa posture, de l'angle de vue et de la distance entre l'objet et la caméra. En plus de ces difficultés s'ajoutent les problèmes de variations d'éclairage, d'expositions et d'occultation des objets. P. Viola et M. Jones ont développé un procédé permettant de détecter de façon fiable un objet dans une image. Ce procédé est notamment décrit dans P. VIOLA and M. JONES. Robust Real-time Object Détection, 2^nd international workshop on statistical and computational théories of vision - modelling, learning, Computing and sampling, Vancouver, Canada, JuIy 2001 . Il comprend une phase d'apprentissage et une phase de reconnaissance. Lors de la phase de reconnaissance, on effectue un balayage de l'image par une fenêtre de détection dont la taille varie afin d'identifier des objets de différentes tailles. L'identification des objets est basée sur l'utilisation de descripteurs mono-variables de type ondelettes de Haar, qui sont des descripteurs de forme relativement simple. Ces descripteurs sont déterminés lors de la phase d'apprentissage et permettent de tester des caractéristiques représentatives de l'objet à reconnaître. Ces caractéristiques sont souvent désignées sous le terme de signature de l'objet. Pour une même position dans l'image, une fenêtre de détection est analysée par plusieurs descripteurs afin de tester des caractéristiques sur différentes zones de la fenêtre de détection et ainsi obtenir un résultat relativement fiable.

Pour améliorer l'efficacité des descripteurs, on a proposé des descripteurs multivahables. Ces descripteurs multivahables sont par exemple composés d'une part, d'un histogramme de l'orientation des gradients d'intensité et, d'autre part, d'une composante de densité de la magnitude du gradient dans la zone de calcul.

Par ailleurs, afin d'accélérer la méthode de détection, les descripteurs sont regroupés dans des classifieurs testés successivement dans une cascade ou boucle d'étage. Chaque étage de la cascade effectue des tests plus complexes et plus sélectifs que l'étage précédent afin d'éliminer rapidement les zones de l'image sans intérêt comme le ciel.

Actuellement, la méthode de P. Viola et M. Jones est implantée soit de façon matérielle sur des circuits complètement dédiés, soit de façon logicielle sur des processeurs. L'implantation matérielle est très performante mais très peu flexible. En effet, un circuit dédié est câblé pour détecter un type d'objet donné avec une précision donnée. A l'inverse, l'implantation logicielle est très flexible du fait de la présence d'un programme, mais les performances s'avèrent souvent insuffisantes dans la mesure où les processeurs généralistes manquent de puissance de calcul et où les processeurs de signaux numériques (processeurs DSP) ont une efficacité très réduite dans les instructions de branchement conditionnel. En outre, les solutions logicielles peuvent difficilement être intégrées dans un système embarqué tel qu'un véhicule ou un téléphone mobile du fait qu'elles consomment énormément d'énergie et qu'elles présentent un encombrement important. Enfin, dans la plupart des cas, la mémoire interne et/ou la bande passante sont insuffisantes pour effectuer une détection rapide. Le document Li ZHANG et al: "Efficient Scan-Window Based Object Détection using GPGPU", 2008, décrit un premier exemple d'implantation logicielle appliqué à la détection de piétons. Cette implantation est basée sur une unité générique de traitement graphique, appelée General-Purpose computation on Graphics Processing Unit (GPGPU) dans la littérature anglo-saxonne. L'unité de traitement graphique nécessite d'être couplée à un processeur par l'intermédiaire d'un contrôleur de mémoire et d'un bus du type PCI Express. Par conséquent, cette implantation consomme beaucoup d'énergie à la fois pour l'unité de traitement graphique et pour le processeur, de l'ordre de 300 à 500 W en tout, et présente un encombrement de l'ordre de quelques dizaines de centimètres carrés la rendant inadaptée pour des solutions embarquées. Le document Christian WOJEK et al: "Sliding-Windows for Rapid Object Class Localization: A Parallel Technique", 2008 décrit un deuxième exemple d'implantation logicielle également basée sur une unité générique de traitement graphique. Cet exemple souffre des mêmes problèmes pour des applications embarquées.

Un but de l'invention est notamment de pallier tout ou partie des inconvénients précités en proposant un dispositif dédié à la reconnaissance et la localisation d'objets qui ne soit pas programmable tout en étant paramétrable de manière à permettre la détection de différents objets avec un degré variable de précision, notamment en termes de fausses alarmes. A cet effet, l'invention a pour objet un dispositif pour la reconnaissance et la localisation d'objets dans une image numérique par balayage de fenêtres de détection, caractérisé en ce qu'il comprend une architecture flot de données organisée en pipeline de tâches matérielles concurrentes, l'architecture comportant :

- des moyens aptes à générer un descripteur pour chaque fenêtre de détection, chaque descripteur délimitant une partie de l'image numérique appartenant à la fenêtre de détection considérée,

- une unité de détermination d'histogrammes déterminant, pour chaque descripteur, un histogramme représentatif de caractéristiques de la partie de l'image numérique délimitée par le descripteur considéré,

- N unités de traitement en parallèle, une fenêtre de détection étant allouée à chaque unité de traitement, chaque unité de traitement étant apte à analyser l'histogramme du descripteur considéré en fonction de paramètres associés à chaque descripteur pour fournir un score partiel représentatif de la probabilité que ledit descripteur contienne au moins une partie de l'objet à reconnaître, la somme des scores partiels de chaque fenêtre de détection fournissant un score global représentatif de la probabilité que ladite fenêtre de détection contienne l'objet à reconnaître.

L'invention a notamment pour avantage qu'elle peut être réalisée par un circuit intégré à application spécifique, bien connu sous le terme anglo-saxon de circuit ASIC pour "Application Spécifie Integrated Circuit", ou par un réseau prédiffusé programmable par l'utilisateur, mieux connu sous le terme anglo-saxon de FPGA pour "field programmable gâte array". Par conséquent, le dispositif selon l'invention présente une surface silicium et une consommation électrique réduites, dans un rapport de un à cent par rapport à une solution programmée. Il peut ainsi être intégré dans un système embarqué. Le dispositif permet en outre d'effectuer plusieurs tests de classification en parallèle, offrant ainsi une forte puissance de calcul. Le dispositif est complètement paramétrable. Par conséquent, le type de détection, la précision de la détection ainsi que le nombre de descripteurs et de classifieurs utilisés peuvent être ajustés afin d'optimiser le rapport entre la qualité du résultat et le temps de calcul.

Un autre avantage du dispositif est qu'il parallélise les tâches par son architecture pipeline. Tous les modules fonctionnent de façon concurrente (en même temps). En l'occurrence, en considérant une suite d'ensembles de descripteurs donnés, les unités de traitement analysent les histogrammes associés aux descripteurs de rang p, l'unité de détermination d'histogramme détermine les histogrammes associés aux descripteurs de rang p+1 , et les moyens pour générer des descripteurs déterminent les descripteurs de rang p+2 dans un même intervalle de temps. Ainsi, le temps de détermination des descripteurs et des histogrammes est masqué par le temps alloué à la détection, c'est-à-dire le temps d'analyse des histogrammes. Le dispositif présente donc une forte puissance de calcul.

L'invention sera mieux comprise et d'autres avantages apparaîtront à la lecture de la description détaillée d'un mode de réalisation donné à titre d'exemple, description faite en regard de dessins annexés qui représentent :

- la figure 1 , des étapes possibles pour le fonctionnement d'un dispositif selon l'invention, - la figure 2, des sous-étapes possibles du fonctionnement du dispositif représenté à la figure 1 ,

- la figure 3, par un synoptique, un exemple de réalisation d'un dispositif selon l'invention, - la figure 4, un exemple de réalisation d'une unité de traitement du dispositif de la figure 3,

- la figure 5, une illustration des différents systèmes de coordonnées utilisés pour la mise en œuvre de l'invention,

- la figure 6, un exemple de réalisation d'une unité de cascade du dispositif de la figure 3,

- la figure 7, une forme de réalisation d'une unité de boucle de descripteur du dispositif de la figure 3,

- la figure 8, un exemple de réalisation d'une unité de détermination d'histogrammes du dispositif de la figure 3, - la figure 9, un exemple de réalisation d'une unité d'analyse de scores du dispositif de la figure 3.

La figure 1 décrit des étapes possibles pour le fonctionnement du dispositif selon l'invention. Pour la suite de la description, on considère des images numériques formées d'une matrice de Nc colonnes par NI lignes de pixels. Chaque pixel contient une valeur, appelée poids, représentative de l'amplitude d'un signal, par exemple représentative d'une intensité lumineuse. Le fonctionnement d'un dispositif selon l'invention est fondé sur un procédé adapté de la méthode de P. Viola et M. Jones. Ce procédé est par exemple décrit dans la demande de brevet WO2008/104453 A. Ce procédé de détection repose sur des calculs de nombres en virgule flottante à précision double. Ces calculs nécessitent des unités arithmétiques flottantes complexes qui sont coûteuses en vitesse d'exécution, surface silicium et consommation. Le procédé a été modifié pour utiliser des opérations sur des données de type virgule fixe. Ces opérations ne nécessitent que des opérateurs de type entier qui sont plus simples et plus rapides. Le procédé a aussi été modifié pour éviter d'utiliser des opérations de divisions dans le calcul de la détection des unités de traitement. Ainsi en n'utilisant que des opérations de type entier (additions et multiplications), les calculs sont plus rapides, le dispositif est plus petit et sa consommation est réduite. Cependant, les calculs de type virgule fixe sont moins précis et le procédé a dû être modifié pour prendre en compte cette erreur dans les calculs.

Dans une première étape E₁, la signature du gradient de l'amplitude du signal, est calculée pour l'image dans laquelle sont recherchés des objets, appelée image originale I_0Mg- Cette signature est par exemple celle du gradient d'intensité lumineuse. Elle génère une nouvelle image appelée image dérivée l_déπv- A partir de cette image dérivée l_déπv, M images d'orientation l_m avec m un indice variant de 1 à M peuvent être déterminées dans une deuxième étape E₂, chaque image d'orientation l_m étant de la même taille que l'image originale U_g et contenant, pour chaque pixel, le gradient d'intensité lumineuse sur une certaine plage de valeurs d'angles. A titre d'exemple, 9 images d'orientation l_m peuvent être obtenues pour des plages de valeurs d'angles de 20°. La première image d'orientation I₁ contient par exemple les gradients d'intensité lumineuse dont la direction est comprise entre 0 et 20°, la deuxième image d'orientation I₂ contenant les gradients d'intensité lumineuse dont la direction est comprise entre 20 et 40°, et ainsi de suite jusqu'à la neuvième image d'orientation I₉ contenant les gradients d'intensité lumineuse dont la direction est comprise entre 160 et 180°. En outre une M+1 ^θmθ, soit une dixième, image d'orientation l_M+i correspondant à la magnitude du gradient d'intensité lumineuse peut être déterminée, M étant égal à 9 dans l'exemple de la figure 1. Cette M+1 ^θmθ image d'orientation l_M+i permet notamment de renseigner sur la présence de contours. Dans une troisième étape E₃, chaque image d'orientation l_m est transformée en image intégrale l_int,m avec m variant de 1 à M. Une image intégrale est une image de même taille que l'image originale où le poids wi(m,n) de chaque pixel p(m,n) est déterminé par la somme des poids wo(x,y) de tous les pixels p(x,y) situés dans la surface rectangulaire délimitée par l'origine O de l'image et le pixel p(m,n) considéré. Autrement dit, le poids wi(m,n) des pixels p(m,n) d'une image intégrale l_int,m peut être modélisé par la relation :

V(m,n)e [l, Nl]x[l, Nc] , wi(m,n) = ∑ ∑wo(x, y) (1 ) x=l y=l Dans une quatrième étape E₄, les M+1 images intégrales l_int,m ainsi obtenues sont balayées par des fenêtres de détection de différentes tailles comprenant chacune un ou plusieurs descripteurs. Les M+1 images intégrales l_int,m sont balayées simultanément, de sorte que le balayage de ces images intégrales li_nt._m correspond à un balayage de l'image originale l_orig. Un descripteur délimite une partie d'image appartenant à la fenêtre de détection. C'est dans ces parties d'image qu'est recherchée la signature de l'objet. Le balayage des images intégrales l_int,m par les fenêtres est réalisé par quatre niveaux de boucles imbriquées. Une première boucle, appelée boucle d'échelle, effectue un bouclage sur la taille des fenêtres de détection. La taille diminue par exemple au fur et à mesure que l'on avance dans la boucle d'échelle afin d'analyser des zones de plus en plus petites. Une deuxième boucle, appelée boucle d'étage, effectue un bouclage sur le niveau de complexité de l'analyse. Le niveau de complexité, également appelé étage, dépend principalement du nombre de descripteurs utilisés pour une fenêtre de détection. Pour le premier étage, le nombre de descripteurs est relativement limité. Il est par exemple de un ou deux descripteurs par fenêtre de détection. Le nombre de descripteurs augmente généralement avec les étages. L'ensemble des descripteurs utilisés pour un étage est appelé un classifieur. Une troisième boucle, appelée boucle de position, effectue le balayage proprement dit, c'est-à-dire un bouclage sur la position des fenêtres de détection dans les images intégrales l_int,πv Une quatrième boucle, appelée boucle de descripteur, effectue un bouclage sur les descripteurs utilisés pour l'étage courant. A chaque itération de cette boucle, un des descripteurs du classifieur est analysé afin de déterminer s'il contient une partie de la signature de l'objet à reconnaître.

La figure 2 illustre plus précisément les quatre niveaux de boucles imbriquées par des sous-étapes possibles pour la quatrième étape E₄ de la figure 1. Dans une première étape E₄₁, la boucle d'échelle est initialisée. L'initialisation de la boucle d'échelle comporte par exemple la génération d'une taille initiale de fenêtre de détection et d'un pas de déplacement initial. Dans une deuxième étape E₄₂, la boucle d'étage est initialisée. L'initialisation de cette boucle comprend par exemple la détermination des descripteurs utilisés pour le premier étage. Ces descripteurs peuvent être déterminés par leurs coordonnées relatives dans la fenêtre de détection. Dans une troisième étape E₄₃, la boucle de position est initialisée. Cette initialisation comporte par exemple la génération des fenêtres de détection et l'allocation de chaque fenêtre de détection à une unité de traitement du dispositif selon l'invention. Les fenêtres de détection peuvent être générées sous forme d'une liste, appelée liste de fenêtres. Une liste distincte est associée à chaque itération de la boucle d'échelle. Pour la première itération de la boucle d'étage, les fenêtres de détection sont généralement générées de manière exhaustive, c'est-à-dire de manière à couvrir toutes les zones des images intégrales l_int,m- Plusieurs itérations de la boucle de position sont nécessaires lorsque le nombre de fenêtres de détection est supérieur au nombre d'unités de traitement. Les fenêtres de détection peuvent être déterminées par leur position dans les images intégrales l_int,m- Ce sont alors ces positions qui sont stockées dans la liste de fenêtres. Dans une quatrième étape E₄₄, la boucle de descripteur est initialisée. Cette initialisation comprend par exemple la détermination, pour chaque fenêtre de détection allouée à une unité de traitement, des coordonnées absolues d'un premier descripteur parmi les descripteurs du classifieur associé à l'étage considéré. Dans une cinquième étape E₄₅, un histogramme est généré pour chaque descripteur. Un histogramme comporte par exemple M+1 composantes C_m avec m variant de 1 à M+1. Chaque composante C_m contient la somme des poids wo(x,y) des pixels p(x,y) de l'une des images d'orientation l_m contenus dans le descripteur considéré. La somme de ces poids wo(x,y) peut notamment être obtenue de façon simple par le poids de quatre pixels de l'image intégrale correspondante, comme nous le verrons plus loin. Dans une sixième étape E₄₆, les histogrammes sont analysés. Le résultat de chaque analyse est fourni sous la forme d'un score, appelé score partiel, représentatif de la probabilité que le descripteur associé à l'histogramme analysé contienne une partie de la signature de l'objet à reconnaître. Dans une septième étape E₄₇, on détermine si la boucle de descripteur est terminée, autrement dit si tous les descripteurs ont été générés pour l'étage courant. Si tel n'est pas le cas, on avance dans la boucle de descripteur dans une étape E₄₈ et on reboucle à partir de l'étape E₄₅. L'avancée dans la boucle de descripteur comprend la détermination, pour chaque fenêtre de détection allouée à une unité de traitement du dispositif, des coordonnées absolues d'un nouveau descripteur parmi les descripteurs du classifieur associé à l'étage considéré. Un nouvel histogramme est alors généré pour chaque nouveau descripteur et fournit un nouveau score partiel. Les scores partiels sont additionnés à chaque itération de la boucle de descripteur afin de fournir pour chaque fenêtre de détection, lors de la dernière itération, un score global S pour le classifieur. Ces scores globaux S sont alors représentatifs de la probabilité que les fenêtres de détection contiennent l'objet à reconnaître, cette probabilité étant relative à l'étage courant. S'il est déterminé à l'étape E₄₇ que la boucle de descripteur est terminée, on détermine dans une étape E₄₉ si les scores globaux S sont supérieurs à un seuil d'étage S_θ prédéterminé. Ce seuil d'étage S_θ est par exemple déterminé dans une phase d'apprentissage. Dans une étape E₅₀, les fenêtres de détection pour lesquelles les scores globaux S sont supérieurs au seuil d'étage S_θ sont stockées dans une nouvelle liste de fenêtres afin d'être analysées à nouveau par le classifieur de l'étage suivant. Les autres fenêtres de détection sont définitivement considérées comme ne contenant pas l'objet à reconnaître. Elles ne sont donc pas stockées et ne seront plus analysées dans la suite du procédé. Dans une étape E₅₁, on détermine si la boucle de position est terminée, c'est-à-dire si toutes les fenêtres de détection pour l'échelle et l'étage considérés ont été allouées à une unité de traitement. Si tel n'est pas le cas, on avance dans la boucle de position dans une étape E₅₂ et on reboucle à partir de l'étape E₄₄. L'avancée dans la boucle de position comprend l'allocation des fenêtres de détection comprises dans la liste de fenêtres de l'étage courant mais non encore analysées aux unités de traitement. En revanche, si la boucle de position est terminée, on détermine dans une étape E₅₃ si la boucle d'étage est terminée, autrement dit si l'étage courant est le dernier étage de la boucle. L'étage courant est par exemple repéré par un compteur d'étage. Si la boucle d'étage n'est pas terminée, on change d'étage dans une étape E₅₄. Le changement d'étage consiste par exemple à incrémenter le compteur d'étage. Il peut également comporter la détermination des coordonnées relatives des descripteurs utilisés pour l'étage courant. Dans une étape E₅₅, la boucle de position est initialisée en fonction de la liste de fenêtres générée lors de l'étage précédent. Des fenêtres de détection de cette liste sont alors allouées aux unités de traitement du dispositif. A l'issue de l'étape E₅₅, on reboucle à partir de l'étape E₄₄. De même que pour la première itération de la boucle d'étage, les étapes E₅₁ et E₅₂ permettent le cas échéant un rebouclage pour que toutes les fenêtres de détection à analyser soient finalement allouées à une unité de traitement. S'il est déterminé à l'étape E₅₃ que la boucle d'étage est terminée, on détermine dans une étape E₅₆ si la boucle d'échelle est terminée. Si tel n'est pas le cas, on change d'échelle dans une étape E₅₇ et on reboucle à partir de l'étape E₄₂. Le changement d'échelle comprend par exemple la détermination d'une nouvelle taille de fenêtres de détection et d'un nouveau pas de déplacement pour ces fenêtres. Les objets sont alors recherchés dans ces nouvelles fenêtres de détection par la mise en œuvre des boucles d'étage, de position et de descripteur. Si la boucle d'échelle est terminée, autrement dit si toutes les tailles de fenêtres de détection ont été analysées, on met fin au procédé dans une étape E₅₈. Les fenêtres de détection ayant passé tous les étages avec succès, c'est-à-dire celles stockées dans les différentes listes de fenêtres lors des dernières itérations de la boucle d'étage, sont considérées comme contenant les objets à reconnaître.

La figure 3 représente un exemple de réalisation d'un dispositif 1 selon l'invention exécutant l'étape E₄ de balayage précédemment décrite en référence à la figure 2. Le dispositif 1 est par exemple réalisé sur un circuit intégré spécifique de taille réduite ou, selon la dénomination anglo-saxonne, un ASIC pour Application-Specific Integrated Circuit. Avantageusement, ce circuit est paramétrable. Ainsi, le dispositif 1 est dédié à une application de reconnaissance et de localisation d'objets, mais des paramètres peuvent être modifiés de façon à détecter différents types d'objets. Le dispositif 1 comprend une mémoire 2 contenant M+1 images intégrales l_int,m- Les M+1 images intégrales l_int,m correspondent aux images intégrales de M images d'orientation et à une image intégrale de la magnitude du gradient d'intensité lumineuse, comme définies précédemment. Le dispositif 1 comprend en outre un contrôleur 3 de mémoire, une unité 4 de boucle d'échelle, une unité 5 de cascade, une unité 6 de boucle de descripteur, une unité 7 de détermination d'histogrammes, N unités de traitement UT₁, UT₂, ..., UT_N en parallèle, notées de façon générique UT, une unité 8 d'analyse de scores et une unité 9 de contrôle. Le contrôleur 3 de mémoire permet de gérer les accès à la mémoire 2 par l'unité 7 de détermination d'histogrammes. L'unité 4 de boucle d'échelle est contrôlée par l'unité de contrôle 9. Elle exécute la boucle d'échelle décrite précédemment. Autrement dit, elle génère lors de l'étape E₄₁ d'initialisation de la boucle d'échelle ainsi que lors de l'étape E₅₇ de changement d'échelle, une taille de fenêtre de détection et un pas de déplacement de ces fenêtres dans les images intégrales l_int,m- La taille des fenêtres de détection et le pas de déplacement sont paramétrables. L'unité 4 de boucle d'échelle envoie les données de taille de fenêtres de détection et de pas de déplacement vers l'unité 5 de cascade. Cette unité 5 exécute les boucles d'étage et de position. En particulier, elle génère pour chaque fenêtre de détection des coordonnées (X_FA.V_FA) et (X_FCY_FC) en fonction de la taille des fenêtres et du pas de déplacement. Ces coordonnées (X_FA,Y_FA) et (X_FCY_FC) sont envoyées vers l'unité 6 de boucle de descripteur. De plus, l'unité 5 de cascade alloue chaque fenêtre de détection à une unité de traitement UT. L'unité 6 de boucle de descripteur réalise la boucle de descripteur. En particulier, elle génère successivement pour chaque fenêtre de détection allouée à une unité de traitement UT les coordonnées (X_DA,Y_DA) et (X_DCY_DC) des différents descripteurs du classifieur associé à l'étage courant. Ces coordonnées (XDA,YDA) et (XDCYDC) sont envoyées au fur et à mesure vers l'unité 7 de détermination d'histogrammes. L'unité 7 détermine successivement, à partir des coordonnées (X_DA,Y_DA) et (X_DCY_DC) et des M+1 images intégrales l_int,m, un histogramme pour chaque descripteur. Dans un mode de réalisation, chaque histogramme comporte M+1 composantes C_m, chaque composante C_m contenant la somme des poids wo(x,y) des pixels p(x,y) de l'une des images d'orientation l_m contenus dans le descripteur considéré. Les histogrammes sont envoyés vers les unités de traitement UT₁, UT₂, ..., UT_N. Selon l'invention, les N unités de traitement UT₁, UT₂, ..., UT_N sont en parallèle. Chaque unité de traitement UT exécute une analyse sur l'histogramme de l'un des descripteurs contenus dans la fenêtre de détection qui lui est allouée. Une analyse d'histogramme est par exemple réalisée en fonction de quatre paramètres nommés attribut, seuil de descripteur S_d, α et β. Ces paramètres peuvent être modifiés. Ils dépendent notamment du type d'objet à reconnaître et de l'étage considéré. Ils sont par exemple déterminés lors d'une étape d'apprentissage. Les paramètres étant dépendants de l'itération d'étage, ils sont envoyés vers les unités de traitement UT₁, UT₂, ..., UT_N à chaque itération de la boucle d'étage lors des étapes E₄₂ et E₅₄. Une analyse d'histogramme génère un score partiel pour cet histogramme ainsi qu'un score global pour le classifieur de la fenêtre de détection qui lui est allouée. Les unités de traitement UT permettent d'exécuter simultanément jusqu'à N analyses d'histogrammes. Mais toutes les unités de traitement UT ne sont pas nécessairement utilisées lors d'une itération de la boucle de descripteur. Le nombre d'unités de traitement UT utilisées dépend du nombre d'histogrammes devant être analysés et donc du nombre de fenêtres de détection contenues dans la liste de fenêtres pour l'étage courant. Ainsi, la consommation électrique du dispositif 1 peut être optimisée en fonction du nombre de traitements à réaliser. A l'issue de la boucle de descripteur, les scores partiels des histogrammes sont additionnés de manière à obtenir un score global S pour le classifieur de chaque fenêtre de détection. Ces scores globaux S sont envoyés vers l'unité 8 d'analyse de scores. A partir de ces scores globaux S, l'unité 8 génère la liste de fenêtres pour l'étage suivant de la boucle d'étage.

La description ci-dessus du dispositif 1 est faite en référence à celle du procédé de la figure 2. Toutefois, il convient de noter que le dispositif 1 est basé sur une architecture pipeline. Ainsi, les différentes étapes du procédé sont effectuées en parallèle pour différents descripteurs. Autrement dit, les différents modules constituant le dispositif 1 fonctionnent simultanément. En particulier, l'unité 6 de boucle de descripteur, l'unité 7 de détermination d'histogrammes, les N unités de traitement UT₁, UT₂, ..., UT_N, et l'unité 8 d'analyse de scores constituent respectivement un premier, un deuxième, un troisième et un quatrième étage de l'architecture pipeline.

La figure 4 représente un exemple de réalisation d'une unité de traitement UT permettant d'analyser un histogramme à M+1 composantes C_m. L'unité de traitement UT comprend un premier bloc logique 21 comportant M+1 entrées et une sortie. Par bloc logique, on entend un circuit commandé possédant une ou plusieurs entrées et une ou plusieurs sorties, chaque sortie pouvant être en liaison avec l'une des entrées en fonction d'une commande appliquée au bloc logique, par exemple par un contrôleur général ou par une logique interne au bloc logique. Le terme bloc logique est entendu au sens large. Un bloc logique possédant plusieurs entrées et/ou sorties peut être réalisé par un ensemble de multiplexeurs et/ou démultiplexeurs et de portes logiques possédant chacun une ou plusieurs entrées et une ou plusieurs sorties. Le bloc logique 21 permet de sélectionner l'une des M+1 composantes C_m en fonction du paramètre attribut. L'unité de traitement UT comprend en outre un comparateur 22 dont une première entrée 221 reçoit la composante C_m sélectionnée par le bloc logique 21 et une deuxième entrée 222 reçoit le paramètre seuil de descripteur S_d. Le résultat de la comparaison entre la composante C_m sélectionnée et le paramètre seuil S_d est envoyé vers un deuxième bloc logique 23 comportant deux entrées et une sortie. La première entrée 231 de ce bloc logique 23 reçoit le paramètre α et la deuxième entrée 232 reçoit le paramètre β. En fonction du résultat de la comparaison, la sortie du bloc logique 23 délivre soit le paramètre α, soit le paramètre β. En particulier, si la composante C_m sélectionnée par le bloc logique 21 est supérieure au paramètre seuil S_d, le paramètre α est délivré en sortie. A l'inverse, si la composante C_m sélectionnée est inférieure au paramètre seuil S_d, le paramètre β est délivré en sortie. La sortie du bloc logique 23 est additionnée à la valeur contenue dans un accumulateur 24. Si plusieurs composantes C_m d'un histogramme doivent être comparées, le bloc logique 21 les sélectionne successivement. Les composantes C_m sélectionnées sont alors comparées une à une par rapport au paramètre seuil S_d, et les paramètres α et/ou β sont additionnés dans l'accumulateur 24 afin d'obtenir un score partiel pour l'histogramme. Une unité de traitement UT analyse successivement les différents histogrammes des descripteurs formant un classifieur. Par conséquent, les paramètres α et/ou β peuvent être additionnés dans l'accumulateur 24 pour tous les descripteurs du classifieur considéré afin d'obtenir le score global S pour ce classifieur dans la fenêtre de détection.

Selon une forme particulière de réalisation, les M premières composantes C_m sont divisées par la M+1 ^θmθ composante C_M+i avant d'être comparées au paramètre seuil S_d tandis que la M+1 ^θmθ composante C_M+i est divisée par la surface du descripteur considéré avant d'être comparée au paramètre seuil S_d. Alternativement, le paramètre seuil S_d peut être multiplié soit par la M+1 ème composante C_M+i de l'histogramme analysé, soit par la surface du descripteur selon la composante C_m considérée, comme représenté à la figure 4. L'unité de traitement UT comprend alors un troisième bloc logique 25 recevant sur une première entrée 251 la M+1 ^θmθ composante C_M+i de l'histogramme et sur une deuxième entrée 252 la surface du descripteur. Une sortie du bloc logique 25 relie l'une des deux entrées 251 ou 252 à une première entrée 261 d'un multiplieur 26 selon la multiplication choisie. Une deuxième entrée 262 du multiplieur 26 reçoit le paramètre seuil S_d et une sortie du multiplieur 26 est alors reliée à la deuxième entrée 222 du comparateur 22.

Une unité de traitement UT peut également comporter deux mémoires tampons 27 et 28 en série. La première mémoire tampon 27 peut recevoir de l'unité 7 de détermination d'histogrammes les M+1 composantes C_m d'un premier histogramme à un pas de temps donné. Au pas de temps suivant, les composantes C_m du premier histogramme peuvent être transférées sur la deuxième mémoire tampon 28, cette mémoire étant reliée aux entrées du bloc logique 21 , tandis que les composantes C_m d'un deuxième histogramme peuvent être chargées dans la première mémoire tampon 27. L'utilisation de deux mémoires tampons permet de compenser le temps de calcul des histogrammes.

La figure 5 illustre les différents systèmes de coordonnées utilisés pour la présente invention. Un repère cartésien (OJJ) est associé à une image 41 , en l'occurrence une image intégrale l_int,m- L'origine O est par exemple fixée au coin supérieur gauche de l'image 41. Une fenêtre de détection F peut ainsi être repérée dans cette image 41 par les coordonnées (XFA.VFA) et (XFCYFC) de deux de ses coins opposés F_A et F_c. Un deuxième repère cartésien (O_FJJ) peut être associé à la fenêtre de détection F. L'origine 0_F est par exemple fixée au coin supérieur gauche de la fenêtre de détection F. La position d'un descripteur D est déterminée par deux de ses coins opposés D_A et D_c, soit dans le repère (O_FJJ) par les coordonnées relatives (X'DA,Y'DA) et (X'DCY'DC), soit dans le repère (OJJ) par les coordonnées absolues (XDA,YDA) et (XDCYDC)-

La figure 6 représente un exemple de réalisation d'une unité 5 de cascade. L'unité 5 comprend une machine à états finis 51 , quatre blocs logiques 521 , 522, 523 et 524 comprenant chacun une entrée et N sorties et quatre blocs de registres 531 , 532, 533 et 534, chaque bloc de registres étant associé à un bloc logique 521 , 522, 523 ou 524. Un bloc de registres 531 , 532, 533 ou 534 comporte N registres de données, chaque registre de données étant relié à l'une des sorties du bloc logique 521 , 522, 523 ou 524 associé. La machine à états finis 51 reçoit les informations de taille de fenêtres de détection et de pas de déplacement et génère jusqu'à N fenêtres de détection F qu'elle alloue aux unités de traitements UT₁ , UT₂, ..., UT_N. La génération des fenêtres de détection comprend la détermination des coordonnées (XFA,YFA) et (XFCYFC) de leurs coins F_A et F_c. Comme nous l'avons vu précédemment, les coordonnées (XFA,YFA) et (XFCYFC) des fenêtres de détection F sont générées de façon exhaustive lors de la première itération de la boucle d'étage. Pour les itérations suivantes, seules les fenêtres de détection F faisant partie de la liste de positions sont analysées. Les coordonnées (XFA,YFA) et (XFCYFC) attaquent une entrée du premier bloc logique 521 , une entrée du deuxième bloc logique 522, une entrée du troisième bloc logique 523 et une entrée du quatrième bloc logique 524. Chaque bloc logique 521 , 522, 523, 524 relie son entrée à l'une de ses sorties en fonction de l'unité de traitement UT considérée. Ainsi, les blocs de registres 531 , 532, 533 et 534 contiennent respectivement les coordonnées XFA, YFA, XFC et y_Fc pour toutes les unités de traitement UT utilisées.

La figure 7 représente un exemple de réalisation d'une unité 6 de boucle de descripteur. L'unité 6 comprend un premier bloc logique 61 recevant en entrée les données des premier et deuxième blocs de registres 531 et 532, autrement dit les coordonnées X_FA et V_FA pour les différentes unités de traitement UT utilisées, ainsi qu'un deuxième bloc logique 62 recevant en entrée les données des troisième et quatrième blocs de registres 533 et 534, autrement dit les coordonnées x_Fc et y_Fc- L'unité 6 comprend également une mémoire 63 contenant les coordonnées relatives (XOA₁Y¹DA) et (X'DCY'DC) des différents descripteurs D, ces derniers variant en fonction de l'étage courant. Les coordonnées relatives (X'DA,Y'DA) et (X'DCY'DC) des descripteurs D formant le classifieur associé à l'étage courant attaquent successivement une première entrée 641 d'un bloc de calcul 64. Ce bloc de calcul 64 reçoit également sur une deuxième et une troisième entrées 642 et 643 les coordonnées (XFA,YFA) et (XFCYFC) des fenêtres de détection F par l'intermédiaire de sorties des blocs logiques 61 et 62. Le bloc de calcul 64 peut ainsi calculer les coordonnées absolues (XDA,YDA) et (XDCYDC) des coins D_A et De des descripteurs D. Les coordonnées absolues (XDA,YDA) et (XDCYDC) sont alors envoyées vers un bloc de registres 65 par l'intermédiaire d'un bloc logique 66 comportant par exemple une entrée et quatre sorties, chaque sortie étant reliée à l'un des quatre registres de données du bloc de registres 65. L'unité 6 de boucle de descripteur comporte en outre une machine à états finis 67 contrôlant les blocs logiques 61 , 62 et 66 ainsi que les accès en lecture à la mémoire 63 par des moyens de commande 671 , 672, 673 et 674. La machine à états finis 67 reçoit les numéros d'itération dans la boucle d'échelle et dans la boucle d'étage par des moyens de liaison 675 et 676 afin de générer successivement les descripteurs D pour chaque fenêtre de détection F allouée à une unité de traitement UT. L'unité 6 peut également comporter un bloc de calcul 68 calculant, à partir des coordonnées absolues (XDA^DA) et (XDCVDC), la surface des descripteurs. La valeur de cette surface peut être stockée dans un registre de données 69.

La figure 8 représente un exemple de réalisation d'une unité 7 de détermination d'histogrammes. L'unité 7 est partitionnée en trois parties. Une première partie 71 génère les adresses mémoire des pixels D_A, D_B, D_c et D₀ correspondant aux quatre coins des descripteurs D à partir des coordonnées absolues (XDA.VDA) et (XDC,VDC) des coins D_A et D_c. Une deuxième partie 72 calcule les composantes C_m d'histogrammes selon la méthode de P. Viola et M. Jones, et une troisième partie 73 filtre les composantes C_m d'histogramme. La première partie 71 comprend un générateur d'adresses 71 1 recevant en entrée les coordonnées absolues (XDA.VDA) et (XDCVDC) et la surface du descripteur D considéré. La surface du descripteur D peut ainsi être transmise aux unités de traitement UT par l'intermédiaire de l'unité 7 de détermination d'histogrammes en même temps que les composantes C_m d'histogrammes. A partir des coordonnées absolues (XDA.VDA) et (XDCVDC), le générateur d'adresses 71 1 retrouve les coordonnées absolues (X_DB.V_DB) et (X_DD.V_DD) des deux autres coins D_B et D₀ du descripteur D, soit respectivement (XDCVDA) et (XDA.VDC)- Le générateur d'adresses 71 1 génère ainsi les adresses mémoire des quatre coins D_A, D_B, D_c et D₀ du descripteur D pour chaque image intégrale l_int,m- Les poids wo(x_DA,yDA), wo(x_DB,yDB), wo(x_Dc,yDc) et wo(x_DD,yDD) de ces pixels D_A, D_B, D_c et D₀ sont chargés depuis la mémoire 2 vers un bloc de registres 712 comportant 4x(M+1 ) registres de données, par exemple par l'intermédiaire d'un bloc logique 713. La deuxième partie 72 comprend un ensemble 721 d'additionneurs et de soustracteurs reliés en entrée au bloc de registres 712 et en sortie à un bloc de registres 722 comportant M+1 registres de données. Cette deuxième partie 72, et en particulier l'ensemble 721 d'additionneurs et de soustracteurs, est agencée de manière à générer M+1 composantes C_m d'histogramme en un cycle d'horloge. Chaque composante C_m est calculée à partir des poids wo(x_DA,yDA), wo(x_DB,yDEs), wo(x_Dc,yDc) et wo(x_DD,yDD) des pixels D_A, D_B, D_C et D₀ d'une image intégrale l_int,m et stockée dans l'un des registres de données du bloc de registres 722. Pour une image intégrale l_int,m et un descripteur D tels que représentés à la figure 5, le calcul de la composante C_m, avec m un entier compris entre 1 et M+1 , peut être modélisé par la relation suivante :

C_m = Dc - D_B - D_D + D_A (2) Ainsi, chaque composante C_m contient la somme des poids wo(x,y) des pixels p(x,y) d'une image d'orientation l_m contenus dans le descripteur D. La troisième partie 73 comprend un filtre 731 éliminant les histogrammes dont le gradient d'intensité lumineuse est très faible, car ceux-ci sont considérés comme du bruit. Autrement dit, si la composante C_M+i est inférieure à un seuil prédéterminé, appelée seuil d'histogramme S_h, toutes les composantes C_m sont mises à zéro. Les composantes C_m sont ensuite stockées dans un bloc de registres 732 afin de pouvoir être utilisées par les unités de traitement UT. L'unité 7 de détermination d'histogrammes est un élément important du dispositif 1. Ses performances sont directement liées à la bande passante de la mémoire 2. En effet, pour calculer un histogramme, il faut accéder à 4x(M+1 ) données. Si la mémoire 2 peut accéder à k données par cycle, un histogram Avantageusement, la mémoire 2 possède une forte bande passante afin que le facteur k soit proche de 4x(M+1 ). En tout état de cause, le facteur k est préférentiellement choisi de sorte que le nombre N_c de cycles soit inférieur à dix. Ce nombre N_c correspond au temps de calcul d'un histogramme. Ce temps peut être masqué dans l'analyse d'un histogramme par la mémoire tampon 27 des unités de traitement UT. La figure 9 illustre un exemple de réalisation d'une unité 8 d'analyse de scores. L'unité 8 comprend une pile FIFO 81 , autrement dit une pile dont la première donnée entrée est la première sortie. La pile FIFO 81 permet de gérer la liste de positions. En particulier, elle peut stocker les coordonnées (XFA.VFA) et (XFCYFC) des fenêtres de détection F dont le score global S du classifieur est supérieur au seuil S_θ d'étage courant, ce seuil S_θ pouvant varier en fonction de l'étage. La pile FIFO 81 peut également stocker les scores globaux S associés à ces coordonnées (XFA.VFA) et (XFCYFC)- Etant donné que l'itération courante de la boucle d'échelle est connue, seules les coordonnées (X_FA,Y_FA) des fenêtres de détection F peuvent être stockées afin de déterminer la position et la taille des fenêtres de détection F. Selon une forme particulière de réalisation, représentée à la figure 9, la pile FIFO 81 reçoit successivement les coordonnées X_FA du bloc de registres 531 par l'intermédiaire d'un bloc logique 82 et les coordonnées y_FA du bloc de registres 532 par l'intermédiaire d'un bloc logique 83. Les scores globaux S calculés par les N unités de traitement UT sont stockés dans un bloc de registres 84 et envoyés conjointement avec les coordonnées X_FA et y_FA vers la pile FIFO 81 par l'intermédiaire d'un bloc logique 85. En fonction du score global S associé à une fenêtre de détection F, les coordonnées (X_FA^_FA) sont écrites ou non dans la pile FIFO 81. Le score S est par exemple comparé au seuil S_θ d'étage courant. Les différents seuils d'étage S_θ peuvent être stockés dans un bloc de registres 86. La sélection du seuil d'étage S_θ est par exemple réalisée par un bloc logique 87 dont les entrées sont reliées au bloc de registres 86 et dont la sortie est reliée à un comparateur 88. Le comparateur 88 compare chacun des scores S avec le seuil S_θ d'étage courant. Si le score S est supérieur au seuil S_θ, les coordonnées (X_FA^_FA) sont écrites dans la pile FIFO 81. Le contrôle des blocs logiques 82, 83, 85 et 87 peut être réalisé par une machine à états finis 89. L'unité 8 peut également comporter un générateur d'adresses 801 contrôlant la lecture de la pile FIFO 81 et l'exportation de ses données vers l'unité 5 de cascade afin d'analyser les fenêtres de détection F ayant passé l'étage courant lors de l'étage suivant. A la fin de chaque itération de la boucle d'échelle, la pile FIFO contient la liste des positions ayant passé tous les étages avec succès, c'est-à-dire les positions contenant l'objet à reconnaître. Le contenu de la pile FIFO 81 peut ainsi être transféré dans la mémoire 2 par l'intermédiaire du contrôleur 3 de mémoire.

Selon une forme particulière de réalisation, le dispositif 1 comprend une unité 10 d'extraction de paramètres, comme représenté à la figure 1. L'unité 10 comprend une mémoire dans laquelle sont stockés les paramètres attribut, seuil de descripteur S_d, α et β pour chaque étage. Ces paramètres sont déterminés lors d'une étape d'apprentissage réalisée préalablement à l'utilisation du dispositif 1. A chaque itération de la boucle d'étage lors des étapes E₄₂ et E₅₄, les paramètres correspondants sont envoyés vers les unités de traitement UT utilisées.

Selon une forme particulière de réalisation, le dispositif 1 comprend une unité 1 1 de découpage des images, comme représenté à la figure 1. Cette unité 11 permet de découper des images, en l'occurrence les M+1 images intégrales, en plusieurs imagettes. Elle s'avère particulièrement utile lorsque les images à analyser, du fait de leur résolution, occupent un espace mémoire supérieur à la capacité de la mémoire 2. Dans ce cas, les imagettes correspondant à une zone donnée des images intégrales sont chargées successivement dans la mémoire 2. Le dispositif 1 peut alors traiter les imagettes de la même manière que les images intégrales en répétant l'étape E₄ autant de fois qu'il y a d'imagettes, l'analyse de l'image étant terminée lorsque toutes les imagettes ont été analysées. L'unité 1 1 de découpage des images comprend une machine à états finis générant les frontières des imagettes en fonction de la résolution des images et de la capacité de la mémoire 2. Les frontières des imagettes sont envoyées vers l'unité 5 de cascade afin d'adapter la taille et le pas de déplacement des fenêtres de détection aux imagettes.

Claims

REVENDICATIONS

1. Dispositif pour la reconnaissance et la localisation d'objets dans une image numérique (l_Oπg) par balayage de fenêtres de détection (F₁, F₂, ..., F_N), caractérisé en ce qu'il comprend une architecture flot de données organisée en pipeline de tâches matérielles concurrentes, l'architecture comportant :

- des moyens (4, 5, 6, 9) aptes à générer un descripteur (D) pour chaque fenêtre de détection (F₁, F₂, ..., F_N), chaque descripteur (D) délimitant une partie de l'image numérique appartenant à la fenêtre de détection considérée, - une unité (7) de détermination d'histogrammes déterminant, pour chaque descripteur, un histogramme représentatif de caractéristiques de la partie de l'image numérique délimitée par le descripteur (D) considéré,

- N unités de traitement (UT₁, UT₂, ..., UT_N) en parallèle, une fenêtre de détection (F₁, F₂, ..., F_N) étant allouée à chaque unité de traitement (UT₁, UT₂, ..., UT_N), chaque unité de traitement étant apte à analyser l'histogramme du descripteur (D) considéré en fonction de paramètres (attribut, S_d, α, β) associés à chaque descripteur (D) pour fournir un score partiel représentatif de la probabilité que ledit descripteur contienne au moins une partie de l'objet à reconnaître, la somme des scores partiels de chaque fenêtre de détection fournissant un score global (S₁, S₂, ..., S_N) représentatif de la probabilité que ladite fenêtre de détection (F₁, F₂, ..., F_N) contienne l'objet à reconnaître.

2. Dispositif selon la revendication 1 , caractérisé en ce qu'il est réalisé sur un circuit intégré spécifique, par exemple du type ASIC.

3. Dispositif selon l'une des revendications 1 ou 2, caractérisé en ce que les moyens (4, 5, 6, 9) aptes à générer un descripteur (D) pour chaque fenêtre de détection, l'unité (7) de détermination d'histogrammes et l'ensemble des N unités de traitement (UT₁, UT₂, ..., UT_N) forment chacun un étage de l'architecture pipeline.

4. Dispositif selon l'une des revendications précédentes, caractérisé en ce que l'image numérique (l_Oπg) est transformée en M+1 images d'orientation (l_m), les M premières images d'orientation (l_m) contenant chacune, pour chaque pixel (p(x,y)), le gradient de l'amplitude d'un signal sur une plage de valeurs d'angles, la dernière image d'orientation (l_m) contenant, pour chaque pixel (p(x,y)), la magnitude du gradient de l'amplitude du signal, chaque histogramme comportant M+1 composantes (C_m), chaque composante (C_m) contenant la somme des poids (wo(x,y)) des pixels (p(x,y)) de l'une des images d'orientation (l_m) contenus dans le descripteur (D) considéré.

5. Dispositif selon la revendication 4, caractérisé en ce que chaque unité de traitement (UT₁, UT₂, ..., UT_N) comprend :

- un premier bloc logique (21 ) comprenant M+1 entrées et une sortie et permettant de sélectionner successivement l'une des composantes (C_m) d'un histogramme en fonction du premier paramètre (attribut), - un comparateur (22) comparant la composante (C_m) sélectionnée avec le deuxième paramètre (S_d),

- un deuxième bloc logique (23) comprenant deux entrées (231 , 232) et une sortie, la première entrée (231 ) recevant le troisième paramètre (α), la deuxième entrée (232) recevant le quatrième paramètre (β) et la sortie délivrant soit le troisième paramètre (α), soit le quatrième paramètre (β) en fonction du résultat de la comparaison,

- un accumulateur (24) relié à la sortie du deuxième bloc logique (23) additionnant les troisièmes et/ou quatrièmes paramètres (α, β) afin de fournir d'une part les scores partiels associés aux différents descripteurs (D) de la fenêtre de détection (F₁, F₂, ..., F_N) considérée et, d'autre part, le score global (S₁, S₂, ..., S_N) associé à ladite fenêtre de détection (F₁, F₂, ..., F_N).

6. Dispositif selon la revendication 5, caractérisé en ce que chaque unité de traitement (UT₁, UT₂, ..., UT_N) comprend un troisième bloc logique (25) et un multiplieur (26), le bloc logique (25) recevant la M+1 ^θmθ composante (C_M+i) de l'histogramme considéré sur une première entrée

(251 ) et une surface du descripteur (D) considéré sur une deuxième entrée

(252) et reliant à une première entrée (261 ) du multiplieur (26), soit la première entrée (251 ) du bloc logique (25) lorsque l'une des M premières composantes est comparée au deuxième paramètre (S_d), soit la deuxième entrée (252) du bloc logique (25) lorsque la M+1 ^θmθ composante (C_M+i) est comparée au deuxième paramètre (S_d), une deuxième entrée (262) du multiplieur (26) recevant le deuxième paramètre (S_d), une sortie du multiplieur (26) reliant une entrée (222) du comparateur (22) de manière à comparer la composante (C_m) sélectionnée avec le deuxième paramètre (S_d) pondéré soit par la M+1 ^θmθ composante (C_M+i) soit par la surface du descripteur.

7. Dispositif selon l'une quelconque des revendications 4, 5 ou 6, caractérisé en ce que l'unité (7) de détermination d'histogrammes est apte à déterminer un histogramme à partir de M+1 images intégrales (lim.m), chaque image intégrale (l_int,m) étant une image où le poids (wi(m,n)) de chaque pixel (p(m,n)) est égal à la somme des poids (wo(x,y)) de tous les pixels (p(x,y)) de l'une des images d'orientation (l_m) situés dans la surface rectangulaire délimitée par l'origine (O) et le pixel (p(m,n)) considéré.

8. Dispositif selon la revendication 7, caractérisé en ce qu'il comprend une mémoire (2) contenant les M+1 images intégrales (l_int,m) et un contrôleur (3) de mémoire permettant de gérer des accès à la mémoire (2), une bande passante de la mémoire (2) étant déterminée de telle sorte que chaque histogramme soit déterminé à partir de 4x(M+1 ) données en un nombre N_c de cycles inférieur ou égal à dix, le nombre N_c étant défini par la relation : M^{+ 1} , où k est le nombre de données auxquelles la mémoire (2) peut accéder en un cycle.

9. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens aptes à générer un descripteur (D) pour chaque fenêtre de détection comprennent une unité (4) de boucle d'échelle permettant de déterminer de façon itérative une taille de fenêtres de détection (F₁, F₂, ..., F_N) et un pas de déplacement de ces fenêtres (F₁, F₂, ..., F_N) dans l'image numérique (long)-

10. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens aptes à générer un descripteur (D) pour chaque fenêtre de détection comprennent une unité (5) de cascade permettant de générer des coordonnées (XFA.VFA) et (XFCYFC) de fenêtres de détection (F₁, F₂, ..., F_N) en fonction d'une taille de ces fenêtres et d'un pas de déplacement et d'allouer chaque fenêtre de détection (F₁, F₂, ..., F_N) à une unité de traitement (UT₁, UT₂, ..., UT_N).

1 1. Dispositif selon la revendication 10, caractérisé en ce que les moyens aptes à générer un descripteur (D) pour chaque fenêtre de détection comprennent une unité (6) de boucle de descripteur permettant de générer de façon itérative, pour chaque fenêtre de détection (F₁, F₂, ..., F_N), des coordonnées (X_DA,Y_DA) et (X_DCY_DC) de descripteurs (D) en fonction des coordonnées (X_FA^_FA) et (X_FCY_FC) de ces fenêtres de détection (F₁, F₂, ..., F_N) et de l'objet à reconnaître.

12. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend une unité (8) d'analyse de scores permettant de générer une liste de scores globaux (S₁, S₂, ..., S_N) et de positions ((X_FA^_FA), (X_FCY_FC)) de fenêtres de détection (F₁, F₂, ..., F_N) en fonction d'un seuil d'étage (S_θ).

13. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend une unité (10) d'extraction de paramètres permettant d'envoyer les paramètres (attribut, S_d, α, β) aux N unités de traitement (UT₁, UT₂, ..., UT_N) simultanément.

14. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce que les paramètres (attribut, S_d, α, β) sont déterminés lors d'une étape d'apprentissage, l'apprentissage dépendant de l'objet à reconnaître.

15. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce que toutes les opérations arithmétiques pour réaliser la reconnaissance et la localisation d'un objet sont faites à l'aide de données de type virgule fixe sur des dispositifs d'opérateurs d'addition, soustraction et multiplication de type entier.