FR3129759A1

FR3129759A1 - Procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, dispositif et programme d’ordinateur correspondants

Info

Publication number: FR3129759A1
Application number: FR2112818A
Authority: FR
Inventors: Thierry Marsaud
Original assignee: Banks and Acquirers International Holding SAS
Current assignee: Banks and Acquirers International Holding SAS
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2023-06-02

Abstract

Procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, dispositif et programme d’ordinateur correspondants Une méthode de reconnaissance faciale consiste à identifier un utilisateur à partir d'une image. L’identification de l’individu est effectuée au moyen d’un algorithme spécifique capable de détecter la vivacité du sujet. De nouveaux équipements, tels que les terminaux de paiements, sont amenés à mettre en œuvre des solutions de reconnaissance faciale. Or de tels équipements n’offrent pas toujours un retour visuel correct de la scène que capte la caméra. L’utilisateur éprouve alors des difficultés à positionner correctement son visage face à la caméra. La présente solution permet de fournir un retour visuel de la scène captée sous la forme d’une représentation graphique dans laquelle un objet virtuel représente le visage de l’utilisateur et un objet virtuel représente une zone dans laquelle l’utilisateur doit placer son visage. La position relative des deux objets virtuels l’un par rapport à l’autre aide l’utilisateur à placer son visage face à la caméra. FIGURE 9

Description

Procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, dispositif et programme d’ordinateur correspondants

Domaine de l'invention

Le domaine de l'invention est celui de la reconnaissance faciale. Plus précisément, l'invention concerne une méthode permettant d’aider un utilisateur à placer facilement son visage devant un capteur afin de déclencher un processus de reconnaissance faciale, entre autres en vue de valider par exemple une transaction.

Art antérieur et ses inconvénients

Un système de reconnaissance faciale est une application logicielle permettant la reconnaissance ou l’identification automatique d’une personne grâce à des caractéristiques spécifiques de son visage.

La reconnaissance facile trouve de nombreuses applications notamment dans les domaines de la vidéosurveillance, la biométrie, la robotique, l’indexation d'images, la recherche d'images par le contenu, etc. En effet, les systèmes de reconnaissance faciale sont de plus en plus présents au quotidien. Ils sont par exemple utilisés par les réseaux sociaux notamment pour identifier une personne sur une photo, par les smartphones pour déverrouiller les écrans d’accueil et ainsi autoriser l’accès au contenu du smartphone, ou par des services de sécurité pour reconnaître des individus recherchés.

Ainsi, deux types principaux d’utilisation des systèmes de reconnaissance faciale se dégagent :

l’identification d’individus, appelée aussi « one-to-many » qui consiste à déterminer l'identité d'un individu parmi N identités connues mémorisées dans une base de données,

la vérification de l’identité d’un individu, appelée aussi « one-to-one » qui consiste à vérifier que l'identité prétendue est bien la bonne. Dans un tel cas de figure, le système de reconnaissance faciale s'assure que l'utilisateur est bien l’individu qu’il prétend être avant de l'autoriser à accéder à un élément donné.

Dans le domaine de la sécurisation des transactions, telles que des transactions bancaires, on s’intéresse plus particulièrement à vérifier l’identité d’un individu mémorisée dans une base de données telle qu’une base de données clients d’un établissement bancaire ou d’un commerçant.

De manière classique, une méthode de reconnaissance faciale consiste à identifier un utilisateur à partir d'une image. Une telle image peut être capturée par une caméra ou simplement être déjà mémorisée dans une base de données. L’identification de l’individu, ou reconnaissance faciale, est effectuée au moyen d’un algorithme qui s'appuie sur différents éléments tels que la forme de certains éléments du visage comme la forme des yeux et leur écartement, la forme de la bouche et son emplacement, les contours du visage etc.

L’important dans le domaine de la reconnaissance faciale reste de proposer des algorithmes robustes permettant une bonne détection de la vivacité du sujet afin que le système de reconnaissance faciale soit capable de faire la différence entre une photo et le sujet lui-même. Pour cela, la plupart des algorithmes nécessitent des données en trois dimensions ou 3D. On constate en effet que, de nos jours, la fiabilité des solutions de reconnaissance faciale repose davantage sur la robustesse des logiciels et des algorithmes d'authentification utilisés que sur les performances des capteurs des caméras utilisées pour acquérir les images des visages des individus à identifier.

Ainsi, les caméras utilisées dans le cadre de la mise en œuvre de ces solutions de reconnaissance faciale peuvent être équipées de différents types de capteurs en fonction de la nature de l’équipement au sein duquel elles sont embarquées sans que cela n’impacte la fiabilité de la solution de reconnaissance faciale choisie. Par exemple, une caméra embarquée dans un smartphone ou une tablette est équipée d’un capteur RGB, alors qu’une caméra de vidéo-surveillance est équipée d’un capteur noir et blanc et/ou d’un capteur infra-rouge, etc. De même, un même équipement peut embarquer en son sein deux caméras permettant ainsi la génération d’images stéréoscopiques.

Avec le développement de l’internet des choses ou IoT (Internet of Things) de nouveaux équipements, tels que les terminaux de paiements par exemple, sont amenés à mettre en œuvre des solutions de reconnaissance faciale. Or de tels équipements sont souvent limités en termes de consommation d’énergie. Ainsi, de tels équipements peuvent soit ne pas être équipés d’écrans ayant une qualité de résolution suffisante pour permettre à un utilisateur d’avoir un retour visuel correct de la scène que capte la caméra, soit n’embarquer que des caméras, qui bien que répondant à toutes les exigences requises pour une mise en œuvre fiable de solutions de reconnaissance faciale, n’offrent pas un retour visuel correct de la scène captée. L’utilisateur éprouve alors des difficultés à positionner correctement son visage face à la caméra ce qui impacte négativement sa qualité d’expérience et freine le développement de services reposant sur l’utilisation de solutions de reconnaissance faciale.

Il existe donc un besoin d'une solution permettant de palier tout ou partie des inconvénients précités.

L'invention répond à ce besoin en proposant un procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra.

Un tel procédé est particulier en ce qu’il comprenant les étapes suivantes :

acquisition d’une image dudit objet par ladite caméra,

identification d’au moins une région d’intérêt, correspondant audit objet, au sein de ladite image,

détermination d’une position relative de ladite région d’intérêt par rapport à ladite zone cible dans un référentiel de la camera,

génération d’une représentation graphique d’un premier objet virtuel représentant ladite région d’intérêt et d’un deuxième objet virtuel représentant ladite zone cible, la disposition du premier objet virtuel par rapport au deuxième objet virtuel étant représentative de la position relative de ladite région d’intérêt par rapport à ladite zone cible dans le référentiel de la caméra.

Une telle solution permet, quelles que soient les circonstances, de proposer un retour visuel correct de la scène captée. Un tel retour prend la forme d’une représentation graphique dans laquelle un premier objet virtuel représente le visage de l’utilisateur, un deuxième objet virtuel représente une zone dans laquelle l’utilisateur doit placer son visage afin de permettre à la caméra d’acquérir une image du visage de l’utilisateur exploitable par un algorithme de reconnaissance faciale. La position relative des deux objets virtuels l’un par rapport à l’autre permet d’aider l’utilisateur à placer facilement et correctement son visage face à la caméra.

Ainsi, il importe peu que l’écran destiné à afficher la représentation graphique générée offre une qualité de résolution suffisante pour permettre à un utilisateur d’avoir un retour visuel correct de la scène que capte la caméra, ou les caméras utilisées pour capter la scène n’offrent pas un retour visuel correct de la scène captée puisque dans la solution proposée, ce n’est pas la scène telle qu’acquise par la caméra qui est destinée à être affichée mais une représentation graphique de cette dernière.

Il est alors possible d’adapter ce qui est destiné à être affiché sur un écran aux spécificités de cet écran tout en s’affranchissant du retour fourni par la caméra.

Par exemple, la solution proposée peut comprendre une étape d’affichage de ladite représentation graphique générée.

Une fois la représentation graphique générée, elle peut, dans un premier exemple, être affichée sur un écran de l’équipement embarquant la caméra. Dans un deuxième exemple, les données nécessaires à l’affichage de la représentation graphique générée sont transmises à un écran qui n’est pas intégré à l’équipement embarquant la caméra mais qui est co-localisé avec cette dernière.

A titre d’exemple, des dimensions du premier objet virtuel sont supérieures ou égales à des dimensions du deuxième objet virtuel.

Ainsi lorsque le premier objet virtuel est correctement placé, il recouvre complètement le deuxième objet virtuel. C’est une indication simple du bon positionnement du visage de l’utilisateur par rapport à la caméra.

Dans un autre exemple, une forme du premier objet virtuel correspond à une forme de ladite zone d’intérêt.

Tout comme dans l’exemple précédent, lorsque le premier objet virtuel est correctement placé par rapport au deuxième objet virtuel, leurs deux formes se superposent de manière à ce qu’un unique objet virtuel soit affiché sur l’écran.

La forme du premier objet virtuel peut correspondre au contour de la région d’intérêt.

Ainsi, la forme du premier virtuel peut correspondre au contour du visage de l’utilisateur. Cela contribue à rendre le premier objet virtuel, et donc l’ensemble de la présente solution, plus convivial.

Dans un autre exemple, le premier objet virtuel est un avatar.

Dans cet exemple, l’utilisateur peut choisir de voir afficher un avatar de son choix. Il peut par exemple s’agir de l’avatar qu’il a associé à un compte client auquel l’accès est conditionné à une identification par reconnaissance faciale. L’avatar peut également prendre la forme d’une émoticône ou « smiley » dont l’expression pourrait varier en fonction du positionnement du premier objet virtuel par rapport au deuxième objet virtuel. Ainsi, quand le premier objet n’est pas bien positionné, en plus d’afficher une information concernant sa position relative par rapport au deuxième objet virtuel, l’avatar ou l’émoticône peut exprimer la tristesse ou le mécontentement. A contrario, lorsque le premier objet est bien positionné, l’avatar ou l’émoticône peut exprimer la joie.

Dans un autre exemple, le premier objet virtuel est sur-affiché sur la région d’intérêt lorsque l’image acquise par la caméra est affichée sur l’écran.

Cela permet de compenser un retour visuel de mauvaise qualité de la scène captée en superposant le premier objet virtuel sur le visage de l’utilisateur. Cela permet à l’utilisateur de mieux percevoir la position de son visage vis-à-vis de la position de la zone cible de la caméra.

L’invention a également pour objet un dispositif d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra.

Un tel dispositif comprend au moins un processeur configuré pour :

acquérir une image dudit objet par ladite caméra,

identifier au moins une région d’intérêt, correspondant audit objet, au sein de ladite image,

déterminer une position relative de ladite région d’intérêt par rapport à ladite zone cible dans un référentiel de la camera,

générer une représentation graphique d’un premier objet virtuel représentant ladite région d’intérêt et d’un deuxième objet virtuel représentant ladite zone cible, la disposition du premier objet virtuel par rapport au deuxième objet virtuel étant représentative de la position relative de ladite région d’intérêt par rapport à ladite zone cible dans le référentiel de la caméra.

Dans un exemple, le dispositif d’aide au positionnement d’un objet comprend une caméra de type temps-de-vol (ToF).

Une caméra ToF (Time of flight) est une caméra dont le principe de fonctionnement repose sur le concept du temps de vol. Une telle caméra est capable d’acquérir en temps réel une scène en 3D.

Pour ce faire, les caméras ToF comprennent des moyens d’illumination de la scène et un capteur. Les moyens d’illumination éclairent la scène à acquérir et les objets qu’elle contient au moyen d’un éclair lumineux, et calculent le temps que cet éclair prend pour effectuer le trajet entre les objets et le capteur de la caméra. Le temps de vol de cet éclair lumineux est directement proportionnel à la distance entre le capteur de la caméra et le ou les objets de la scène à acquérir.

Cette mesure de temps de vol est effectuée indépendamment par chaque pixel du capteur de la caméra, permettant ainsi d’obtenir une image 3D complète de la scène.

L’utilisation d’une telle caméra ToF présente de nombreux intérêts dans le cadre de la mise en œuvre de la présente solution. En effet, une caméra ToF fournit des informations relatives à la disparité ainsi que des informations d’amplitude des signaux lumineux réfléchis. De telles informations constituent des données importantes pour les algorithmes de reconnaissance faciale.

Au-delà de l’intérêt technologique que peuvent présenter les caméras ToF, ces dernières présentent des avantages opérationnels. Ainsi de telles caméras sont peu coûteuses sans pour autant céder sur les performances nécessaires à la mise œuvre de solutions de reconnaissance faciale. De plus les caméras ToF offrent des performances d’acquisitions robustes sous une large plage d’éclairages ce qui les rend particulièrement intéressantes.

Ainsi les caméras ToF constituent un composant de choix pour la présente solution.

Un autre objet de la présente invention est un terminal de paiement comprenant au moins un dispositif d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra tel que celui décrit ci-dessus.

Dans un exemple, le terminal de paiement peut comprendre des moyens d’affichage apte à afficher la représentation graphique générée par le dispositif d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra tel que celui décrit ci-dessus.

L’invention concerne enfin un produit programme d'ordinateur comprenant des instructions de code de programme pour la mise en œuvre d’un procédé tel que décrit précédemment, lorsqu’il est exécuté par un processeur.

L’invention vise également un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions de code de programme pour l’exécution des étapes du procédé selon l’invention tel que décrit ci-dessus.

Un tel support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens, de sorte que le programme d’ordinateur qu’il contient est exécutable à distance. Le programme selon l'invention peut être en particulier téléchargé sur un réseau par exemple le réseau Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé objet de l’invention précité.

Liste des figures

D'autres buts, caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée à titre de simple exemple illustratif, et non limitatif, en relation avec les figures, parmi lesquelles :

: cette figure représente une caméra destinée à acquérir une image du visage d’un utilisateur ;

: cette figure représente une vue en plan illustrant schématiquement un exemple d'un capteur d'images de la caméra ;

: cette figure représente différentes étapes d’un procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra ;

: cette figure représente une position relative d’une région d’intérêt par rapport à la zone cible dans le référentiel de la caméra ;

: cette figure représente un premier exemple d’une représentation graphique de l’image captée par la caméra ;

: cette figure représente un deuxième exemple d’une représentation graphique de l’image captée par la caméra ;

: cette figure représente un troisième exemple d’une représentation graphique de l’image captée par la caméra ;

: cette figure représente différentes étapes mises en œuvre par un algorithme de reconnaissance faciale est exécuté ;

: cette figure représente une succession de représentations graphiques affichées sur un écran au cours de l’exécution de l’algorithme de reconnaissance faciale ;

: cette figure représente un schéma de principe illustrant un exemple d'un dispositif apte à mettre en œuvre tout ou partie des étapes d’un procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra.

Description détaillée de modes de réalisation de l'invention

Le principe général de l'invention repose sur la génération d’une représentation graphique d’un premier objet virtuel représentant le visage d’un utilisateur et d’un deuxième objet virtuel représentant une zone cible d’un capteur d’une caméra, la disposition du premier objet virtuel par rapport au deuxième objet virtuel étant représentative de la position relative de ladite région d’intérêt par rapport à ladite zone cible dans un référentiel de la caméra afin d’aider l’utilisateur à positionner correctement son visage par rapport à la caméra afin que cette dernière puisse acquérir une image correcte du visage de l’utilisateur destinée à être utilisée par un algorithme de reconnaissance faciale.

Une telle solution est particulièrement pertinente dans un contexte de réduction du coût de fabrication d’un équipement embarquant la caméra puisqu’elle permet, notamment, d’embarquer au sein de cet équipement des caméras qui ont un coût faible tout en répondant à toutes les exigences requises pour une mise en œuvre fiable de solutions de reconnaissance faciale. Un exemple d’une telle caméra est une caméra ToF. Or un inconvénient majeur de ce type de caméras est qu’elles n’offrent pas un retour visuel correct de la scène captée. L’utilisateur éprouve alors des difficultés à positionner correctement son visage face à la caméra ce qui impacte négativement sa qualité d’expérience.

On présente désormais schématiquement, en relation avec la une caméra 10 destinée à acquérir une image du visage d’un utilisateur. La caméra 10 comprend une lentille principale 101, et un capteur d'images 102.

Dans l'exemple de la caméra 10 représentée sur la , la lentille principale 101 reçoit la lumière d'un objet (non représenté sur la figure) dans un champ objet de la lentille principale 101 et fait passer la lumière à travers un champ d'image de la principale lentille 101, la lumière ainsi déviée est ensuite captée par les cellules, ou pixels, constituant le capteur d’images 102. Un tel capteur d’images 102 peut être un capteur RBG, un capteur noir et blanc, un capteur infra-rouge, etc. La nature du capteur d’images 102 est lié à la nature et aux services proposés par l’équipement au sein duquel la caméra est embarquée.

La est une vue en plan illustrant schématiquement un exemple d'un capteur d'images 102 de la caméra 10. Comme illustré sur la , le capteur d'images 102 comprend une pluralité de pixels 103 disposés en un réseau bidimensionnel, et reçoit la lumière de l'objet à travers la lentille principale 101. Une zone cible 104 est définie sur le capteur d’images 102. Une telle zone cible peut prendre n’importe quelle forme. Dans l’exemple représenté à la , la zone cible 104 présente une forme rectangulaire, mais elle pourrait tout aussi bien être de forme carrée, ellipsoïdale, circulaire, en forme de losange, etc. Une telle zone cible 104 peut être située au centre du capteur d’images 102 ou dans tout autre zone de ce capteur d’images 102 selon les besoins.

Parmi tous les pixels 103 du capteur d'images 102, seuls les pixels 103 situés sensiblement à l'intérieur de la zone cible 104 contribuent à l'imagerie. En d'autres termes, une zone de pixel (ou zone de détection) de chaque pixel 103 qui contribue à l'imagerie est située sensiblement à l'intérieur de la zone cible 104.

Le capteur d'images 102 de la caméra 10 acquiert une ou plusieurs images d’un objet, ici le visage d’un utilisateur, afin d’obtenir, entre autres, des informations de disparité, e.g. sous la forme d’une carte de disparité (ou depth map en anglais).

Les coordonnées des pixels 103 sur le capteur d’images 102 sont indiquées par une paire ordonnée (x, y) dans un système de coordonnées xy, dit référentiel de la caméra 10, propre la surface du capteur d'images 102.

La zone cible 104 peut, elle aussi, être identifiée par un ou plusieurs jeux de coordonnées. Ainsi, la zone cible 104 peut être identifiée au moyen d’un jeu de coordonnées (xz, yz) associées au pixel situé en son centre, ou au moyen des jeux de coordonnées des pixels 103 disposés à chacun de ses angles, etc.

Une région d’intérêt 20 représente une image de l’objet, ici le visage de l’utilisateur, formée et capturée sur le capteur d'images 102.

Une distance p est la distance entre le centre de la région d’intérêt 20 et le centre de la zone cible 104 exprimée dans le référentiel de la caméra 10.

Les données capturées par la caméra 10 sont destinées à être post-traitées par un algorithme de reconnaissance faciale par exemple pour valider une transaction bancaire ou autoriser un accès à des données personnelles, etc.

En référence à la , différentes étapes du procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra conçu par les inventeurs de la présente solution vont être décrites.

Ainsi dans une première étape E1, la caméra 10 acquiert une première image I, ou une première série d’images, du visage d’un utilisateur.

Au cours d’une étape E2, on identifie au moins une région d’intérêt 20 au sein de l’image I précédemment acquise. Comme expliqué en relation avec la , cette région d’intérêt 20 correspond au visage de l’utilisateur.

Une telle identification de la région d’intérêt 20 au sein de l’image I peut être réalisée par des méthodes de traitement connues telles que celle décrite dans le document « Object Contour Detection with a Fully Convolutional Encoder-Decoder Network », Yang. J et al. publié en mars 2016.

Une fois la région d’intérêt 20 identifiée, les coordonnées (xb, yb) de son barycentre b sont déterminées dans une étape E3.

On détermine ensuite une position relative de la région d’intérêt 20 par rapport à la zone cible 104 dans le référentiel de la caméra 10, comme représenté à la . Une telle position relative peut, par exemple, être exprimée au moyen d’un vecteur dont les coordonnées, le sens et la direction, sont obtenus au moyen des coordonnées (xb, yb) du barycentre b de la région d’intérêt 20 et des coordonnées (xz, yz) du centre de la zone cible 104. La norme du vecteur ainsi obtenu est p et correspond à la distance séparant le barycentre b de la région d’intérêt 20 du centre de la zone cible 104. Bien entendu, la position relative de la région d’intérêt 20 par rapport à la zone cible 104 peut être obtenue par d’autres méthodes.

Une fois l’information représentative de la position relative de la région d’intérêt 20 par rapport à la zone cible 104, ici le vecteur , est déterminée, elle est utilisée pour générer, dans une étape E4, une représentation graphique de l’image captée par la caméra 10. Un exemple d’une telle représentation graphique est donné par la .

Dans cet exemple, la représentation graphique générée consiste en la superposition d’un objet virtuel OV1 représentant la région d’intérêt 20 sur l’image acquise par la caméra 10. Sur cette figure 5, on voit ainsi l’objet virtuel OV1 superposé sur l’image du visage de l’utilisateur. Comme il apparaît sur la figure 5, la position de l’objet virtuel OV1 par rapport au centre de la zone cible 104 est elle aussi définie au moyen du vecteur . Toujours dans cet exemple, l’objet virtuel OV1 prend ici la forme d’une émoticône.

Dans un autre exemple représenté à la , la représentation graphique générée consiste en un fond monochrome F sur lequel sont affichés un objet virtuel OV1 représentant la région d’intérêt 20 et un deuxième objet virtuel OV2 représentant la zone cible 104. Sur cette figure 6, l’objet virtuel OV1 est une émoticône dont la taille est au moins égale à la taille de l’objet virtuel OV2 et dont la forme est identique à celle de l’objet virtuel OV2. Sur la figure 6, la position de l’objet virtuel OV1 par rapport au centre de la zone cible 104 est elle aussi définie au moyen du vecteur et il apparaît que l’objet virtuel OV1 ne recouvre pas totalement l’objet virtuel OV2. Cela signifie que l’utilisateur est mal positionné par rapport à la caméra 10.

Dans un autre exemple représenté à la , la représentation graphique générée consiste également en un fond monochrome F sur lequel est affiché un objet virtuel OV1 représentant la région d’intérêt 20. Sur cette figure 7, l’objet virtuel OV1 a la même forme que la zone d’intérêt 20. Cette forme est celle du contour du visage et d’une partie du buste de l’utilisateur. Sur la figure 7, la position de l’objet virtuel OV1 par rapport au centre de la zone cible 104 est elle aussi définie au moyen du vecteur et il apparaît que l’objet virtuel OV1 n’est pas bien situé par rapport au centre de la zone cible 104 puisque seule une partie du périmètre du cadre C qui entoure l’objet virtuel OV1 est affichée à l’écran.

Dans d’autres exemples non représentés, l’objet virtuel OV1 peut se présenter sous la forme d’un avatar propre à l’utilisateur ou un avatar générique, il peut être de forme ellipsoïdale, circulaire, en forme de losange, etc.

Une fois générée, la représentation graphique est ensuite affichée sur un écran dans une étape E5. Un tel écran peut être ou non embarqué au sein de l’équipement comprenant la caméra 10. En tout état de cause, l’écran est co-localisé avec la caméra 10 afin que les informations de position de l’objet virtuel OV1 par rapport au centre de la zone cible 104 fournies à l’utilisateur soient fiables et puissent lui permettre de se positionner correctement par rapport à la caméra 10.

La représentation graphique ainsi générée est donc affichée sur un écran en lieu et place de l’image effectivement acquise par la caméra 10. Cela est rendu possible, par exemple, en transmettant des images constituant la représentation graphique à place des mages acquises par la caméra 10. Il suffit, par exemple, pour cela de remplacer un flux d’images généré par le capteur 102 de la caméra 10 par un flux d’images généré par un module de traitement des images acquises par la caméra 10 qui met en œuvre les étapes E2 à E4 précédemment décrites.

Une fonction d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, telle que décrite ci-dessus et comprenant les étapes E1 à E5, peut être ajoutée à une librairie de fonctions de prétraitements à laquelle un algorithme de reconnaissance faciale fait appel lors de son exécution préalablement aux étapes d’extraction du modèle sur lequel les techniques de reconnaissance faciale sont appliquées pour identifier l’utilisateur.

En d’autres termes et en référence à la , lorsqu’un algorithme de reconnaissance faciale est exécuté, il appelle tout d’abord cette fonction d’aide au positionnement d’un objet dans une étape G1.

Une fois la fonction d’aide au positionnement d’un objet appelée, elle est exécutée au cours d’une étape G2. Au cours de cette étape G2, les étapes E1 à E5 sont mises en œuvre jusqu’à ce que l’objet virtuel OV1 soit positionné correctement vis-à-vis du centre de la zone cible 104, ou jusqu’à l’expiration d’une durée prédéterminée ou d’un nombre de tentatives prédéterminé.

Durant l’étape G2, la représentation graphique A représentée à la est affichée à l’écran. Cette représentation graphique A consiste en un fond monochrome F sur lequel sont affichés un objet virtuel OV1 représentant la région d’intérêt 20 et un deuxième objet virtuel OV2 représentant la zone cible 104. Sur cette , l’objet virtuel OV1 est une émoticône qui ne recouvre pas totalement l’objet virtuel OV2. Cela signifie que l’utilisateur est mal positionné par rapport à la caméra 10.

Dans un exemple, cette émoticône n’étant pas bien placée par rapport à l’objet virtuel OV2, elle exprime une émotion telle que la tristesse.

Dans un autre exemple, un texte est également affiché informant l’utilisateur du fait qu’il est mal placé par rapport à la caméra 10.

Enfin dans un autre exemple, le texte informant l’utilisateur du fait qu’il est mal placé par rapport à la caméra 10 peut être lu afin d’aider les personnes présentant une déficience visuelle. Dans cet exemple, en plus de cette information, des instructions quant à la direction dans laquelle l’utilisateur doit se déplacer sont également lues pour guider l’utilisateur.

Lorsque l’objet virtuel OV1 est positionné correctement vis-à-vis du centre de la zone cible 104, une étape G3 est mise en œuvre par l’algorithme de reconnaissance faciale. Au cours de cette étape G3, l’algorithme extrait de l’image capturée par la caméra 10 toutes les informations nécessaires à l’identification de l’individu puis procède à cette identification de manière classique.

Durant l’étape G3, une représentation graphique B représentée à la est alors affichée à l’écran à la place de la représentation graphique A. Cette représentation graphique B diffère de la représentation graphique A en que l’objet virtuel OV1 recouvre totalement l’objet virtuel OV2 indiquant que l’utilisateur est bien positionné par rapport à la caméra 10.

Dans un exemple, cette émoticône exprime une émotion neutre car elle indique à l’utilisateur qu’il est en phase d’attente d’identification.

Dans un autre exemple, un texte est également affiché informant l’utilisateur du fait que l’identification est en cours.

Enfin dans un autre exemple, le texte informant l’utilisateur du fait que l’identification est en cours et qu’il doit patienter est également lu.

Lorsque l’utilisateur a été positivement identifié, une étape G4 est mise en œuvre par l’algorithme de reconnaissance faciale. Au cours de cette étape G4, une représentation graphique C représentée à la est alors affichée à l’écran à la place de la représentation graphique B. Cette représentation graphique C diffère de la représentation graphique B en ce que l’émoticône exprime une émotion de joie signifiant à l’utilisateur le résultat positif de la procédure d’identification.

Dans un exemple, un texte est également affiché informant l’utilisateur du succès de la procédure d’identification.

Enfin dans un autre exemple, le texte informant l’utilisateur du succès de la procédure d’identification est également lu.

La est un schéma de principe illustrant un exemple d'un dispositif 30 apte à mettre en œuvre tout ou partie des étapes E1 à E5 de la solution précédemment décrite.

Le dispositif 30 comprend un processeur 301, une unité de stockage 302, un dispositif d'entrée 303, un dispositif d'affichage 304, une caméra 10 et au moins une interface 305 qui sont connectés par un bus 306. Bien entendu, les éléments constitutifs du dispositif 30 peuvent être connectés par une connexion autre qu'une connexion de bus.

Le processeur 301 contrôle les opérations du dispositif 30 L'unité de stockage 302 stocke au moins un programme à exécuter par le processeur 301, et diverses données, y compris des données d'images capturées et fournies par la caméra 10, des paramètres utilisés par les calculs effectués par le processeur 301, les données intermédiaires des calculs effectués par le processeur 301, et ainsi de suite. Le processeur 301 peut être formé par n'importe quel matériel ou logiciel connu et approprié, ou une combinaison de matériel et de logiciel. Par exemple, le processeur 301 peut être constitué par un matériel dédié tel qu'un circuit de traitement, ou par une unité de traitement programmable telle qu'une CPU (Central Processing Unit) qui exécute un programme stocké dans une mémoire de celui-ci.

L'unité de stockage 302 peut être formée par n'importe quel stockage ou moyen approprié capable de stocker le programme, les données ou similaire d'une manière lisible par ordinateur. Des exemples de l'unité de stockage 302 comprennent des supports de stockage lisibles par ordinateur non transitoires tels que des dispositifs de mémoire à semi-conducteur, et des supports d'enregistrement magnétiques, optiques ou magnéto-optiques chargés dans une unité de lecture et d'écriture. Le programme amène le processeur 301 à exécuter un procédé d’aide au positionnement d’un objet par rapport à une zone cible d’un capteur de la caméra 10 selon l’un des nombreux exemples décrits plus haut.

Le dispositif d'entrée 303 peut être constitué d'un clavier, d'un dispositif de pointage tel qu'une souris, ou similaire, à utiliser par l'utilisateur pour saisir des commandes.

Le dispositif d’affichage 304 peut afficher, par exemple, la représentation graphique générée au cours de l’étape E4, ou encore une interface utilisateur graphique (GUI). Le dispositif d'entrée 303 et le dispositif d’affichage 304 peuvent être formés d'un seul tenant par un panneau à écran tactile, par exemple.

L'interface 305 fournit une interface entre le dispositif 30 et un appareil externe. L’interface 405 peut communiquer avec l'appareil externe via un câble ou une communication sans fil. Dans un mode de réalisation, l'appareil externe peut être la caméra 10 et/ou un écran lorsque le dispositif 10 n’est pas doté d’un dispositif d’affichage 304.

Un tel dispositif 30 peut être embarqué dans un terminal de paiement, dans un point de vente ou POS (pour Point of Sale), ou encore un distributeur automatique de bien.

Claims

Procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, ledit procédé comprenant les étapes suivantes :
acquisition d’une image dudit objet par ladite caméra,
identification d’au moins une région d’intérêt, correspondant audit objet, au sein de ladite image,
détermination d’une position relative de ladite région d’intérêt par rapport à ladite zone cible dans un référentiel de la camera,
génération d’une représentation graphique d’un premier objet virtuel représentant ladite région d’intérêt et d’un deuxième objet virtuel représentant ladite zone cible, la disposition du premier objet virtuel par rapport au deuxième objet virtuel étant représentative de la position relative de ladite région d’intérêt par rapport à ladite zone cible dans le référentiel de la caméra.
Procédé d’aide au positionnement d’un objet selon la revendication 1 comprenant en outre une étape d’affichage de ladite représentation graphique générée.
Procédé d’aide au positionnement d’un objet selon la revendication 1 ou selon la revendication 2 dans lequel des dimensions du premier objet virtuel sont supérieures ou égales à des dimensions du deuxième objet virtuel.
Procédé d’aide au positionnement d’un objet selon la revendication 1 ou selon la revendication 2 dans lequel une forme du premier objet virtuel correspond à une forme de ladite zone d’intérêt.
Procédé d’aide au positionnement d’un objet selon la revendication 1 ou selon la revendication 2 dans lequel un contour dudit premier objet virtuel correspond à un contour de ladite région d’intérêt.
Procédé d’aide au positionnement d’un objet selon la revendication 1 ou selon la revendication 2 dans lequel le premier objet virtuel est un avatar.
Procédé d’aide au positionnement d’un objet selon l’une quelconque des revendications 1 à 6 dans laquelle l’image acquise par la caméra étant affichée, le premier objet virtuel est sur-affiché sur la région d’intérêt.
Dispositif d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra, ledit dispositif comprenant au moins un processeur configuré pour :
acquérir une image dudit objet par ladite caméra,
identifier au moins une région d’intérêt, correspondant audit objet, au sein de ladite image,
déterminer une position relative de ladite région d’intérêt par rapport à ladite zone cible dans un référentiel de la camera,
générer une représentation graphique d’un premier objet virtuel représentant ladite région d’intérêt et d’un deuxième objet virtuel représentant ladite zone cible, la disposition du premier objet virtuel par rapport au deuxième objet virtuel étant représentative de la position relative de ladite région d’intérêt par rapport à ladite zone cible dans le référentiel de la caméra.
Dispositif d’aide au positionnement d’un objet selon la revendication 8 dans lequel la caméra est une caméra de type temps-de-vol (TOF).
Terminal de paiement comprenant au moins un dispositif selon la revendication 8 ou la revendication 9.
Terminal de paiement selon la revendication 10 comprenant en outre des moyens d’affichage apte à afficher ladite représentation graphique générée par ledit dispositif selon la revendication 8 ou la revendication 9.
Produit programme d’ordinateur comprenant des instructions de code de programme pour la mise en œuvre d’un procédé d’aide au positionnement d’un objet par rapport à une zone cible d’une matrice de pixels d’une caméra selon l’une quelconque des revendications 1 à 7, lorsqu’il est exécuté par un processeur.