FR3102600A1

FR3102600A1 - Procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique au moyen d’un réseau de neurones à convolution

Info

Publication number: FR3102600A1
Application number: FR1911912A
Authority: FR
Inventors: Anthony CAZASNOVES; Emilie NIAF; Laurent KAZDAGHLI
Original assignee: Idemia Identity and Security France SAS
Current assignee: Idemia Identity and Security France SAS
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-30
Anticipated expiration: 2039-10-24
Also published as: FR3102600B1; US11380127B2; US20210124899A1

Abstract

La présente invention concerne un procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique, au moyen d’un réseau de neurones à convolution, CNN, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données (21) d’un client (2), d’étapes de : (b) Génération, au moyen d’un premier sous-réseau dudit CNN, dit bloc de spécialisation, d’un masque de confiance associé à une carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dit masque RFM ; ledit masque RFM étant appliqué sur au moins l’image d’entrée de sorte à obtenir une image d’entrée focalisée ; (c) Segmentation, au moyen d’un deuxième sous-réseau dudit CNN, dit bloc de segmentation, de l’image d’entrée focalisée Fig 1

Description

Procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique au moyen d’un réseau de neurones à convolution

DOMAINE TECHNIQUE GENERAL

La présente invention concerne le domaine de la biométrie, et propose en particulier un procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique au moyen d’un réseau de neurones à convolution, ainsi qu’un procédé d’apprentissage du réseau de neurones à convolution.

ETAT DE L’ART

L’authentification/identification biométrique consiste à reconnaitre un individu sur la base de traits biométriques de cet individu tels que les empreintes digitales (reconnaissance digitale), les empreintes palmaires, les empreintes rétiniennes, l’iris ou le visage (reconnaissance faciale).

Les approches biométriques classiques utilisent les informations caractéristiques du trait biométrique extraites à partir de la biométrie acquise, appelées « features », et l’apprentissage/classification est réalisé sur la base de la comparaison de ces caractéristiques.

En particulier, dans le cas de la reconnaissance digitale, les images d’extrémité de doigt sont traitées de sorte à extraire les caractéristiques d’une empreinte qui peuvent être classées en trois catégories :

Le niveau 1 définit le motif général de cette empreinte (une des quatre classes : boucle à droite, boucle à gauche, arche et spirale), et le tracé global des crètes (on obtient en particulier une carte d’orientation dite « Ridge Flow Matrix », carte RFM, qui représente en chaque point de l’empreinte la direction générale de la crète).
Le niveau 2 définit les points particuliers des empreintes appelés minuties, qui constituent des « événements » le long des crètes (fin d’une crète, bifurcation, etc.). Les approches classiques de reconnaissance utilisent essentiellement ces caractéristiques.
Le niveau 3 définit des informations plus complexes telles que la forme des crêtes, les pores de la peau, des cicatrices, etc.

On appelle ainsi un « codage » le procédé d’extraction des caractéristiques d’une empreinte (sous la forme de cartes de caractéristiques, ou « feature maps »), lesquelles permettent de composer une signature appelée « template » encodant l’information utile à la phase finale de classification. Plus précisément, on va réaliser la classification par comparaison des cartes de caractéristiques obtenues avec une ou plusieurs carte(s) de caractéristiques de référence associée(s) à des individus connus.

Si on dispose aujourd’hui de « codeurs » réalisant efficacement cette opération d’extraction de caractéristiques sur des empreintes acquises d’une manière relativement standardisée (par exemple sur des bornes de systèmes biométriques), on a une difficulté avec les empreintes dites latentes, par exemple celles trouvées sur une scène de crime. Deux images d’empreintes de la même identité peuvent présenter l’une par rapport à l’autre de fortes rotations, des occultations ainsi qu’un ensemble de distorsions. De surcroit, l’arrière-plan d’empreintes latentes est généralement très bruité et on a un risque que des minuties sont identifiées par erreur sur cet arrière-plan.

Par conséquent, le traitement automatique d’empreintes latentes est aujourd’hui précédé d’une tâche mise en œuvre par un expert consistant à « entourer » à la main chaque empreinte latente d’intérêt pour l’isoler, avant de la fournir au codeur. Cette tâche revient à une opération de segmentation des empreintes latentes, les zones entourées étant désignées « masques de segmentation », et à ce titre il serait souhaitable de la mettre en œuvre automatiquement.

On connait en effet des réseaux de neurones à convolution (CNN) dédiés, tels que le réseau U-Net, voir la publicationRONNEBERGER, Olaf, FISCHER, Philipp, et BROX, Thomas. U-net: Convolutional networks for biomedical image segmentation. In : International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015. p. 234-241, mais en pratique on constate que les résultats sur les empreintes digitales ne sont pas à la hauteur des attentes.

Plus récemment, le CNN FingerNet (voirTANG, Yao, GAO, Fei, FENG, Jufu, et al. Fingernet: An unified deep network for fingerprint minutiae extraction. In : 2017 IEEE International Joint Conference on Biometrics (IJCB). IEEE, 2017. p. 108-116) permet entre autres cette tâche de segmentation, mais s’avère beaucoup trop lourd et complexe pour une utilisation pratique.

Il serait par conséquent souhaitable de disposer d’une solution à la fois plus performante et plus légère de segmentation d’images d’empreintes biométriques en particulier des empreintes digitales latentes, en vue d’extraction de leurs caractéristiques.

PRESENTATION DE L’INVENTION

Selon un premier aspect, la présente invention concerne un procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique, au moyen d’un réseau de neurones à convolution, CNN, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données d’un client, d’étapes de :
(b) Génération, au moyen d’un premier sous-réseau dudit CNN, dit bloc de spécialisation, d’un masque de confiance associé à une carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dit masque RFM ; ledit masque RFM étant appliqué sur au moins l’image d’entrée de sorte à obtenir une image d’entrée focalisée ;
(c) Segmentation, au moyen d’un deuxième sous-réseau dudit CNN, dit bloc de segmentation, de l’image d’entrée focalisée.

Selon des caractéristiques avantageuses et non-limitatives :

Le procédé comprend une étape (a) d’extraction, au moyen d’un troisième sous-réseau dudit CNN, dit bloc de pré-traitement, d’au moins une carte de caractéristiques de l’image d’entrée ; l’image d’entrée étant concaténée avec chaque carte de caractéristiques extraite de sorte à obtenir un blob multi-canaux d’entrée ; ledit masque RFM étant appliqué sur chaque canal du blob d’entrée de sorte à obtenir un blob d’entrée focalisé ; le bloc de spécialisation prenant en entrée le blob d’entrée et le bloc de segmentation prenant en entrée le blob d’entrée focalisé.

Ledit bloc de pré-traitement est un réseau de neurones entièrement convolutionnel.

Un premier masque de segmentation est obtenu en sortie dudit bloc de segmentation, le premier masque de segmentation étant concaténé avec le masque RFM de sorte à obtenir un blob bicanal de sortie ; l’étape (c) comprenant la génération, au moyen d’un quatrième sous-réseau dudit CNN, dit bloc de post-traitement, d’un deuxième masque de confiance à partir dudit blob de sortie.

Ledit bloc de post-traitement est un bloc dit de décompaction, dans lequel le nombre de filtres diminue d’un pas constant d’une couche de convolution à la suivante.

Le bloc de segmentation est un réseau de neurones à convolution choisi parmi U-Net, DeepLab, mask RNN, YOLO et Inception.

L’application dudit masque RFM sur au moins l’image d’entrée comprend une multiplication matricielle terme à terme.

Le bloc de spécialisation génère en outre ladite carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dite carte RFM.

Le procédé comprend une étape (a0) préalable d’apprentissage, par des moyens de traitement de données d’un serveur, à partir d’une base d’images d’empreintes biométriques déjà segmentées et pour lesquelles le masque RFM est disponible, de paramètres dudit CNN.

Le procédé comprend une étape (d) de traitement de ladite image d’entrée segmentée de sorte à extraire lesdites caractéristiques recherchées de chaque empreinte biométrique représentée par ladite image d’entrée.

Lesdites empreintes biométriques sont des empreintes digitales, les caractéristiques recherchées à extraire de l’au moins une empreinte digitale représentée par ladite image d’entrée comprenant la position et/ou l’orientation de minuties.

L’au moins une empreinte biométrique représentée par l’image d’entrée est celle d’un individu, le procédé comprenant en outre une étape (e) d’identification ou d’authentification dudit individu par comparaison des caractéristiques recherchées extraites de l’empreinte biométrique représentée par ladite image d’entrée, avec les caractéristiques d’empreintes biométriques de référence.

Selon un deuxième et un troisième aspect sont proposés un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect de segmentation d’une image d’entrée représentant au moins une empreinte biométrique ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon le premier aspect de segmentation d’une image d’entrée représentant au moins une empreinte biométrique

PRESENTATION DES FIGURES

D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :

la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ;

la figure 2a représente un premier exemple de réseau de neurones à convolution pour la mise en œuvre du procédé selon l’invention ;

la figure 2b représente un deuxième exemple de réseau de neurones à convolution pour la mise en œuvre du procédé selon l’invention ;

la figure 3 représente les étapes d’un mode de réalisation préféré du procédé selon l’invention ;

la figure 4 compare des exemples de masques de segmentation obtenus avec l’état de l’art, et des modes de réalisation du procédé selon l’invention.

DESCRIPTION DETAILLEE

Architecture

Selon deux aspects complémentaires de l’invention, sont proposés :
- Un procédé de segmentation d’une image d’entrée représentative d’au moins une empreinte biométrique au moyen d’un réseau de neurones à convolution, CNN, et le cas échéant d’extraction de caractéristiques recherchées de l’au moins une empreinte biométrique représentée par l’image d’entrée ;
- Un procédé d’apprentissage de paramètres dudit CNN.

Les données d’entrée ou d’apprentissage sont de type image, et sont représentatives d’au moins une empreinte biométrique (en d’autres termes il s’agit d’images de l’au moins une empreinte biométrique, i.e. sur lesquelles l’empreinte biométrique est visible), avantageusement choisie parmi une empreinte digitale, une empreinte palmaire, une empreinte rétinienne, etc., et de façon générale toute empreinte pouvant être représentée par une image et associée de manière unique à un individu. De façon préférée ladite empreinte biométrique est une empreinte digitale et on prendra cet exemple dans la suite de la description (comme l’on verra, le présent procédé est tout particulièrement efficace notamment dans le cas des empreintes digitales latentes).

La segmentation consiste typiquement en la génération d’un « masque de segmentation » (ou carte de segmentation) de l’image d’entrée, c’est-à-dire une image binaire qui localise dans l’image d’entrée les zones de l’image d’entrée qui contiennent une empreinte biométrique (on verra des exemples plus loin, et notamment la figure 4). Plus précisément, les pixels de l’image d’entrée ayant un pixel correspondant « blanc » dans le masque de segmentation sont considérés comme des pixels d’une empreinte biométrique (et donc d’intérêt), et les pixels de l’image d’entrée ayant un pixel correspondant « noir » dans le masque de segmentation sont considérés comme des pixels de l’arrière-plan (et donc sans intérêt).

On suppose qu’un ensemble connexe de pixels blancs du masque de segmentation constitue une empreinte biométrique, et on peut avoir plusieurs empreintes sur la même image d’entrée (en particulier dans le cas d’empreintes digitales latentes, où un individu peut avoir posé plusieurs doigts à coté sur une surface) : l’application du masque sur l’image d’entrée permet d’isoler chaque empreinte biométrique qui y est représentée, de la même façon qu’un expert entourerait à la main chaque empreinte.

L’extraction sous-jacente de caractéristiques consiste typiquement en un « codage » d’une empreinte isolée grâce au masque, i.e. lesdites caractéristiques recherchées à extraire sont typiquement des caractéristiques « biométriques », c’est-à-dire les caractéristiques « finales » permettant de composer un template de l’empreinte en tant que trait biométrique d’un individu en vue de faire de la classification (identification/authentification d’individu, voir plus loin). A ce titre, dans le cas d’empreintes digitales lesdites caractéristiques recherchées décrivent typiquement des minuties, c’est-à-dire qu’elles comprennent la position et/ou l’orientation des minuties. Toutefois, on comprendra que le présent procédé n’est pas limité à ce mode de réalisation, et toutes les caractéristiques possiblement d’intérêt en biométrie peuvent être extraites.

Les présents procédés sont mis en œuvre au sein d’une architecture telle que représentée par lafigure 1, grâce à un serveur 1 et un client 2. Le serveur 1 est l’équipement d’apprentissage (mettant en œuvre le procédé d’apprentissage) et le client 2 est un équipement d’utilisation (mettant en œuvre le procédé de segmentation et le cas échéant d’extraction de caractéristiques), par exemple un terminal d’un utilisateur.

Il est tout à fait possible que les deux équipements 1, 2 soient confondus, mais de façon préférée le serveur 1 est celui d’un fournisseur de solution de sécurité, et le client 2 un équipement grand public, notamment un scanner d’empreintes biométriques, mais également un smartphone, un ordinateur personnel, etc. L’équipement client 2 comprend avantageusement des moyens d’acquisition optiques 23, de sorte à pouvoir directement acquérir ladite image d’entrée, typiquement pour la traiter en direct, alternativement on chargera l’image d’entrée sur l’équipement client 2 (par exemple, des empreintes digitales latentes peuvent être prises en photo sur une scène de crime par une équipe de police scientifique, et ces photos ensuite chargées sur un équipement client 2 dédié de retour dans les locaux de la police scientifique).

Dans tous les cas, chaque équipement 1, 2 est typiquement un équipement informatique distant relié à un réseau étendu 10 tel que le réseau internet pour l’échange des données. Chacun comprend des moyens de traitement de données 11, 21 de type processeur, et des moyens de stockage de données 12, 22 telle qu’une mémoire informatique, par exemple une mémoire flash ou un disque dur.

Le serveur 1 stocke une base de données d’apprentissage, i.e. un ensemble d’images d’empreintes biométriques pour lesquelles on dispose déjà d’un masque de segmentation (et éventuellement d’autres informations comme des cartes/masques RFM, voir plus loin) par opposition aux images dites d’entrée que l’on cherche justement à traiter.

Principe

L’idée du présent procédé est d’utiliser toujours un CNN pour segmenter une image représentant au moins une empreinte biométrique, tout en intégrant directement dans le CNN des moyens d’amélioration de « l’attention » sous la forme de couches/branches additionnelles du CNN. Cette approche permet de continuer à utiliser des CNN de segmentation simples et efficaces connus comme le U-Net, tout en simplifiant leur tâche de sorte à améliorer leurs performances.

Le CNN est ainsi divisé en deux voire trois ou quatre sous-réseaux constituant des « blocs » tel que représenté sur lesfigures 2a et 2b :

Premier sous-réseau (Bloc 1) : un bloc principal de segmentation, il prend normalement en entrée une image représentant au moins une empreinte biométrique et éventuellement une ou plusieurs cartes de caractéristiques construites à partir de cette image (l’ensemble étant appelé blob d’entrée, voir plus loin) et retourne en sortie le masque de segmentation correspondant, dit premier masque de segmentation. Le premier masque de segmentation peut être le résultat final de segmentation comme dans le mode de réalisation de la figure 2a.
Deuxième sous-réseau (Bloc 2) : un bloc de spécialisation (ou bloc RFM), sur une branche en parallèle du bloc de segmentation, il prend également en entrée l’image représentant au moins une empreinte biométrique et éventuellement une ou plusieurs cartes de caractéristiques construites à partir de cette image (il s’agit des mêmes entrées que le bloc de segmentation), et retourne en sortie au moins un masque de confiance associé à une carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dit masque RFM, et éventuellement la carte d’orientation de crètes en elle-même, dite carte RFM (qui ne sera en pratique pas utilisée).
Troisième sous-réseau (Bloc 3) : un bloc optionnel de pré-traitement augmentant avantageusement la quantité d’informations fournies aux deux premiers blocs, il prend en entrée l’image représentant au moins une empreinte biométrique et retourne en sortie la ou lesdites cartes de caractéristiques, dans le but de les concaténer avec l’image initiale sous la forme d’un « blob » multi-canaux, dit blob d’entrée. Par blob, on n’entend rien de plus que la généralisation à n-canaux d’un objet de type image – l’image d’entrée seule pouvant d’ailleurs être vue comme un cas particulier de blob d’entrée à un unique canal. Dans la suite de la présente description, on désignera toujours par commodité l’entrée du bloc de spécialisation comme blob d’entrée y compris dans le cas où ce blob serait réduit à la seule image d’entrée (en l’absence de bloc de pré-traitement).
Quatrième sous-réseau (Bloc 4, voir la figure 2b) : un bloc optionnel de post-traitement améliorant avantageusement le premier masque de segmentation (tel que généré par le bloc de segmentation), il prend en entrée le masque de segmentation concaténé avec le masque RFM (sous la forme d’un blob 2-canaux dit de sortie) et retourne en sortie un deuxième masque de segmentation, en tant que résultat de segmentation.

L’idée est d’utiliser le masque RFM comme « carte d’attention » appliqué sur le blob d’entrée avant segmentation. Plus précisément, le bloc de segmentation ne prend pas entrée L’image/le blob d’entrée « tel quel », mais une version « focalisée » par application du masque RFM.

En effet, on comprend que le masque RFM est déjà une approximation du masque de segmentation recherché (en effet il est normal que la confiance en une orientation des crètes estimée chute en sortant d’une empreinte, vu qu’il n’y a en pratique plus de crète), de sorte qu’on sait que le bloc de segmentation peut se focaliser sur les zones où ladite confiance n’est pas nulle (puisque ce sont les seules zones de l’images où on a une chance de trouver une empreinte).

Pour appliquer le masque RFM sur l’image/le blob d’entrée on peut faire du masquage simple, i.e. un produit matriciel terme à terme entre l’image/chaque canal du blob d’entrée et le masque RFM.

En ce qui concerne l’éventuel post-traitement, il vise à éviter que la segmentation soit « trop conservatrice », i.e. que des régions de l’image d’entrée représentant bien un fragment d’empreinte biométrique soient exclues. Le post-traitement permet ainsi avantageusement de préserver de l’information du masque RFM qui pourrait avoir été perdue dans le bloc de segmentation, i.e. de trouver un consensus entre le premier masque de segmentation et le masque RFM.

En résumé, en référence à lafigure 3, le présent procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique commence par une étape (a) optionnelle d’extraction, au moyen du troisième sous-réseau dudit CNN, dit bloc de pré-traitement, d’au moins une carte de caractéristiques de l’image d’entrée ; l’image d’entrée étant concaténée avec chaque carte de caractéristiques extraite de sorte à obtenir un blob multi-canaux d’entrée. Plus précisément, si on génère k cartes de caractéristiques, le blob présente k+1 canaux.

Ensuite, dans une étape (b), le procédé comprend la génération, au moyen du deuxième sous-réseau dudit CNN, dit bloc de spécialisation, d’un masque de confiance associé à une carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dit masque RFM ; puis la focalisation de l’image d’entrée : ledit masque RFM est appliqué sur au moins l’image d’entrée de sorte à obtenir une image d’entrée focalisée (si l’étape (a) a été mis en œuvre, ledit masque RFM est appliqué sur chaque canal du blob d’entrée de sorte à obtenir un blob d’entrée focalisé, le bloc de spécialisation prenant en entrée le blob d’entrée plutôt que seulement l’image d’entrée).

Dans une étape (c), le procédé comprend alors la segmentation en elle-même, au moyen du deuxième sous-réseau dudit CNN, dit bloc de segmentation, de l’image d’entrée focalisée (le blob de segmentation prenant en entrée au moins l’image d’entrée focalisée et préférentiellement tout le blob d’entrée focalisé), de sorte à obtenir une image d’entrée segmentée. On comprend qu’on obtient en pratique un masque de segmentation, l’image segmentée étant l’image d’entrée sur laquelle on a appliqué le masque de segmentation (de la même manière qu’on a appliqué en amont le masque RFM sur l’image d’entrée).

On appelle premier masque de segmentation la sortie du bloc de segmentation. De manière préférée, l’étape (c) comprend comme expliqué la génération, au moyen du quatrième sous-réseau dudit CNN, dit bloc de post-traitement, d’un deuxième masque de confiance à partir d’un blob bicanal de sortie obtenu en concaténant le premier masque de segmentation avec le masque RFM.

Dans éventuelle étape (d), ladite image d’entrée segmentée (i.e. sur laquelle a été appliquée le premier ou le deuxième masque de segmentation comme expliqué) est avantageusement traitée de sorte à extraire des caractéristiques recherchées de l’au moins une empreinte biométrique représentée par ladite image d’entrée.

On va voir à présent plus en détail des exemples d’architecture des différents blocs.

Bloc de pré-traitement

Le premier sous-réseau dudit CNN, i.e. le bloc de pré-traitement, est lui-même un CNN pour l’extraction de cartes de caractéristiques (feature maps). On pourra à ce titre prendre n’importe quel réseau comprenant au moins une couche de convolution, et avantageusement seulement des couches de convolution et éventuellement des couches de mise en commun (pooling), en particulier un réseau dit entièrement convolutionnel (« fully convolutionnal », FCN), en particulier à seulement quelques couches de convolution (une, deux ou trois) pour rester d’une empreinte mémoire limitée.

Bloc de spécialisation

Le deuxième sous-réseau dudit CNN, i.e. le bloc de spécialisation (bloc RFM), est lui-même également un CNN pour l’obtention du masque RFM. On note que de nombreux CNN permettant d’obtenir une carte RFM et le masque de confiance associé sont bien connus de l’état de l’art, dans la mesure où la carte RFM est généralement un objet nécessaire pour certains traitements des empreintes biométrique (identification de motifs généraux d’empreintes digitales par exemple).

On note qu’à ce titre, s’il est bien connu de générer un masque de confiance associé à une carte RFM, c’est toujours dans un but de contrôle de la qualité de la carte RFM, et jamais en tant que carte d’attention comme dans le cadre de la présente invention.

Ici, on comprendra que la carte RFM en soi n’est pas recherchée (seul le masque de confiance est utilisé), mais par commodité l’homme du métier pourra utiliser en tant que bloc de spécialisation tout CNN connu permettant d’obtenir la carte et son masque de confiance, bien qu’il soit tout à fait possible d’utiliser un bloc qui ne générerait que le masque de confiance.

Par exemple, on pourra utiliser un CNN avec redescente en huitième de résolution, avec par exemple une fonction d’activation de type tangente hyperbolique.

Bloc de segmentation

Le troisième sous-réseau dudit CNN, i.e. le bloc de segmentation, est lui-même également un CNN pour l’obtention du masque RFM. On note que de nombreux CNN permettant une segmentation sont bien connus de l’état de la technique et pourront être pris tels quels, par exemple U-Net, DeepLab, mais également mask RNN, YOLO, Inception, etc.

On rappelle que le présent procédé ne modifie pas en soi la façon dont la segmentation est faite dans le bloc de segmentation, il fournit seulement une image d’entrée astucieusement focalisée grâce au masque RFM de sorte à simplifier la tâche de ce bloc de segmentation.

Bloc de pré-traitement

Le quatrième sous-réseau dudit CNN, i.e. le bloc de post-traitement, est lui-même un CNN permet de fusionner l’information bidimensionnelle du blob de sortie en une carte de caractéristiques de dimension 1 qui constitue le deuxième masque de segmentation. A ce titre, on peut prendre n’importe réseau permettant cette fusion, y compris juste une couche de convolution de taille de filtre 1x1.

De manière préférée, on peut utiliser comme bloc de post-traitement un bloc dit de « décompaction » tel que décrit par exemple dans la demande FR 1858004 qui contient une pluralité de couches de convolution (notées , c’est-à-dire au moins deux couches de convolution successives, avantageusement trois, DEC signifiant « décompaction »).

De façon préférée, le nombre de filtres peut diminuer d’un pas constant d’une couche de convolution de bloc de décompaction à la suivante .

La dernière couche du bloc de décompaction a également une taille de filtre 1x1 et joue le rôle de la couche de convolution finale « de fusion » présentée ci-avant, mais la réduction progressive de la taille de filtre permet de d’éviter la perte d’information.

Dans les zones de l’image d’entrée de plus faible qualité, on constate que le bloc de décompaction permet de prendre en compte une information spatiale plus étendue et d’ainsi proposer une segmentation continue. Pour la même raison, lorsqu’une zone d’occlusion existe dans l’image, la décompaction permet de retrouver une connectivité entre les crêtes et vallées aux bords de cette région sans information.

Résultats

La figure 4 compare, pour trois exemples d’empreintes digitales latentes « compliquées » (occlusions, arrière-plan complexe, mauvaise qualité) :

A gauche le masque de segmentation obtenu de manière classique (utilisation d’un bloc de segmentation de type U-net seul) ;
Au milieu le premier masque de segmentation correspondant obtenu conformément à l’invention avec le même bloc de segmentation de type U-net (directement en sortie du bloc de segmentation, sans post-traitement) ;
A droite le deuxième masque de segmentation correspondant (après post-traitement).

On voit bien que le premier masque de segmentation est bien plus fiable que le masque de segmentation de l’état de l’art (qui confond beaucoup l’empreinte et l’arrière-plan), mais parfois trop conservateur (parties de l’empreinte exclues), alors le deuxième masque de segmentation est très proche de réalité.

Le présent procédé améliore donc grandement les performances de segmentation.

Apprentissage

Avantageusement, le procédé commence par une étape (a0) d’apprentissage, par les moyens de traitement de données 11 du serveur 1, à partir d’une base d’images d’empreintes biométriques déjà segmentées (i.e. pour lesquelles on dispose d’un masque de segmentation), et pour lesquelles on dispose d’un masque RFM (et le cas échéant de la carte RFM correspondante), de paramètres dudit CNN. On note que les paramètres de tous les blocs peuvent être appris en même temps, soit bloc par bloc (en figeant ceux des autres blocs)

Cet apprentissage peut être réalisé de façon classique. La fonction de coût d’apprentissage peut être composée d’une attache aux données classique – erreur quadratique moyenne – et d’une régularisation par variation totale.

De façon classique, on peut partir d’une base d’empreintes de bonne qualité et des algorithmes d’augmentations peuvent être mis en œuvre de sorte à démultiplier la taille de la base d’apprentissage et fabriquer artificiellement des empreintes latentes (par exemple en déformant les empreintes de bonne qualité, en créer des occlusions, etc.), pour assurer la robustesse du CNN à des défauts d’acquisition usuels.

Le CNN appris peut être stocké le cas échéant sur des moyens de stockage de données 22 du client 2 pour utilisation en segmentation. A noter que le même CNN peut être embarqué sur de nombreux clients 2, un seul apprentissage est nécessaire.

Identification/authentification

Comme expliqué, dans une étape (d), ladite image segmentée peut être traitée de sorte à extraire lesdites caractéristiques recherchées de l’au moins une empreinte biométrique représentée par ladite image d’entrée, lesquelles peuvent notamment comprendre la position et/ou l’orientation de minuties dans le cas d’empreintes digitales.

Comme expliqué l’étape (c) peut comprendre l’application sur l’image d’entrée du masque de segmentation obtenu (le premier ou préférentiellement le deuxième) de sorte à isoler la ou les empreintes représentées, en tant qu’images distinctes. En effet il peut y avoir plusieurs empreintes biométriques sur une seule image d’entrée. L’étape (d) est avantageusement mise en œuvre pour chaque empreinte isolée.

De façon préférée, le procédé comprend en outre une étape (e) d’identification ou d’authentification d’au moins un individu par comparaison des caractéristiques recherchées extraites de la (ou chaque) empreinte biométrique représentée par ladite image d’entrée, avec les caractéristiques d’empreintes biométriques de référence, qui pourra être mise en œuvre de n’importe quelle façon connue de l’homme du métier.

Par exemple, le client 2 peut stocke les caractéristiques des empreintes d’un ou plusieurs personnes inscrites dans un fichier de police comme empreintes de référence, de sorte à pouvoir identifier la personne ayant laissé une empreinte latente : si les caractéristiques extraites correspondent à celles attendues d’un individu connu, l’identité de celui-ci est transmise aux forces de police.

Alternativement, le client 2 peut envoyer les caractéristiques extraites à une base de données distante desdites caractéristiques d’empreintes biométriques de référence, pour identification de l’individu.

A noter que les étapes (d) et/ou (e) peuvent être mises en œuvre comme une étape de classification d’une empreinte isolée, par exemple via un ou plusieurs CNN dédiés, et le cas échéant comprendre des traitements d’amélioration des empreintes isolées, voir notamment la demande FR 1860323.

Produit programme d’ordinateur

Selon un deuxième et un troisième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 11, 21 du serveur 1 et/ou du client 2) d’un procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique, ainsi que des moyens de stockage lisibles par un équipement informatique (une mémoire 12, 22 du serveur 1 et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur.

Claims

Procédé de segmentation d’une image d’entrée représentant au moins une empreinte biométrique, au moyen d’un réseau de neurones à convolution, CNN, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données (21) d’un client (2), d’étapes de :
(b) Génération, au moyen d’un premier sous-réseau dudit CNN, dit bloc de spécialisation, d’un masque de confiance associé à une carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dit masque RFM ; ledit masque RFM étant appliqué sur au moins l’image d’entrée de sorte à obtenir une image d’entrée focalisée ;
(c) Segmentation, au moyen d’un deuxième sous-réseau dudit CNN, dit bloc de segmentation, de l’image d’entrée focalisée.
Procédé selon la revendication 1, comprenant une étape (a) d’extraction, au moyen d’un troisième sous-réseau dudit CNN, dit bloc de pré-traitement, d’au moins une carte de caractéristiques de l’image d’entrée ; l’image d’entrée étant concaténée avec chaque carte de caractéristiques extraite de sorte à obtenir un blob multi-canaux d’entrée ; ledit masque RFM étant appliqué sur chaque canal du blob d’entrée de sorte à obtenir un blob d’entrée focalisé ; le bloc de spécialisation prenant en entrée le blob d’entrée et le bloc de segmentation prenant en entrée le blob d’entrée focalisé.
Procédé selon la revendication 2, dans lequel ledit bloc de pré-traitement est un réseau de neurones entièrement convolutionnel.
Procédé selon l’une des revendications 1 à 3, dans lequel un premier masque de segmentation est obtenu en sortie dudit bloc de segmentation, le premier masque de segmentation étant concaténé avec le masque RFM de sorte à obtenir un blob bicanal de sortie ; l’étape (c) comprenant la génération, au moyen d’un quatrième sous-réseau dudit CNN, dit bloc de post-traitement, d’un deuxième masque de confiance à partir dudit blob de sortie.
Procédé selon la revendication 4, dans lequel ledit bloc de post-traitement est un bloc dit de décompaction, dans lequel le nombre de filtres diminue d’un pas constant d’une couche de convolution à la suivante.
Procédé selon l’une des revendications 1 à 5, dans lequel le bloc de segmentation est un réseau de neurones à convolution choisi parmi U-Net, DeepLab, mask RNN, YOLO et Inception.
Procédé selon l’une des revendications 1 à 6, dans lequel l’application dudit masque RFM sur au moins l’image d’entrée comprend une multiplication matricielle terme à terme.
Procédé selon l’une des revendications 1 à 7, dans lequel le bloc de spécialisation génère en outre ladite carte d’orientation de crètes de l’au moins une empreinte biométrique représentée par ladite image d’entrée, dite carte RFM.
Procédé selon l’une des revendications 1 à 8, comprenant une étape (a0) préalable d’apprentissage, par des moyens de traitement de données (11) d’un serveur (1), à partir d’une base d’images d’empreintes biométriques déjà segmentées et pour lesquelles le masque RFM est disponible, de paramètres dudit CNN.
Procédé selon l’une des revendications 1 à 9, comprenant une étape (d) de traitement de ladite image d’entrée segmentée de sorte à extraire lesdites caractéristiques recherchées de chaque empreinte biométrique représentée par ladite image d’entrée.
Procédé selon la revendication 10, dans lequel lesdites empreintes biométriques sont des empreintes digitales, les caractéristiques recherchées à extraire de l’au moins une empreinte digitale représentée par ladite image d’entrée comprenant la position et/ou l’orientation de minuties.
Procédé selon l’une des revendications 10 et 11, dans lequel l’au moins une empreinte biométrique représentée par l’image d’entrée est celle d’un individu, le procédé comprenant en outre une étape (e) d’identification ou d’authentification dudit individu par comparaison des caractéristiques recherchées extraites de l’empreinte biométrique représentée par ladite image d’entrée, avec les caractéristiques d’empreintes biométriques de référence.
Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de segmentation d’une image d’entrée représentant au moins une empreinte biométrique, lorsque ledit programme est exécuté sur un ordinateur.
Moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de segmentation d’une image d’entrée représentant au moins une empreinte biométrique.