FR3103045A1

FR3103045A1 - Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif

Info

Publication number: FR3103045A1
Application number: FR1912530A
Authority: FR
Inventors: Fantin GIRARD; Cédric Thuillier
Original assignee: Idemia Identity and Security France SAS
Current assignee: Idemia Identity and Security France SAS
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2021-05-14
Anticipated expiration: 2039-11-07
Also published as: US20210142113A1; US11610081B2; FR3103045B1

Abstract

Procédés d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée La présente invention concerne un procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, caractérisé en ce qu’il comprend la mise en œuvre par des moyens de traitement de données (11) d’un serveur (1) d’étapes de : (b) Pour au moins une première image de ladite base, et une carte de crètes d’une deuxième empreinte différente de l’empreinte représentée par ladite première image, génération au moyen d’au moins un sous-réseau générateur (GB, GM, GLT) d’un réseau antagoniste génératif, GAN, d’une image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte Fig 1

Description

Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif

DOMAINE TECHNIQUE GENERAL

La présente invention concerne le domaine de la biométrie, et propose en particulier un procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif, ainsi qu’un procédé d’apprentissage d’un réseau de neurones à convolution sur la base d’images d’apprentissage augmentée et un procédé de classification d’une image d’entrée en moyen du réseau de neurones à convolution.

ETAT DE L’ART

Les réseaux de neurones sont massivement utilisés pour la classification de données.

Après une phase d’apprentissage automatique (généralement supervisé, c’est-à-dire sur une base de données de référence déjà classifiées), un réseau de neurones « apprend » et devient tout seul capable d’appliquer la même classification à des données inconnues.

Les réseaux de neurones à convolution, ou CNN (Convolutional Neural Networks) sont un type de réseau de neurones dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Ils sont ainsi particulièrement adaptés à un type particulier de classification qui est l’analyse d’image, ils permettent en effet avec efficacité la reconnaissance d’objets ou de personnes dans des images ou des vidéos, en particulier dans des applications de sécurité (surveillance automatique, détection de menace, etc.).

On connait tout particulièrement une utilisation des CNN dans le domaine de l’authentification/identification biométrique. En effet, un CNN peut être entraîné à reconnaitre un individu sur la base de traits biométriques de cet individu tels que les empreintes digitales (reconnaissance digitale), l’iris ou le visage (reconnaissance faciale). Dans la mesure où ces données sont manipulées sous formes d’images, le CNN s’avère très efficace.

Les approches biométriques classiques utilisent les informations caractéristiques du trait biométrique extraites à partir de la biométrie acquise, appelées « features », et l’apprentissage/classification est réalisé sur la base de la comparaison de ces caractéristiques.

En particulier, dans le cas de la reconnaissance digitale, les images d’extrémité de doigt sont traitées de sorte à extraire les caractéristiques d’une empreinte qui peuvent être classées en trois catégories :

Le niveau 1 définit le motif général de cette empreinte (une des quatre classes : boucle à droite, boucle à gauche, arche et spirale), et le tracé global des crètes (on obtient en particulier une carte d’orientation dite « Ridge Flow Matrix », carte RFM, qui représente en chaque point de l’empreinte la direction générale de la crète).
Le niveau 2 définit les points particuliers des empreintes appelés minuties, qui constituent des « événements » le long des crètes (fin d’une crète, bifurcation, etc.). Les approches classiques de reconnaissance utilisent essentiellement ces caractéristiques.
Le niveau 3 définit des informations plus complexes telles que la forme des crêtes, les pores de la peau, des cicatrices, etc.

On appelle ainsi un « codage » le procédé d’extraction des caractéristiques d’une empreinte (sous la forme de cartes de caractéristiques, ou « feature maps »), lesquelles permettent de composer une signature appelée « template » encodant l’information utile à la phase finale de classification. Plus précisément, on va réaliser la classification par comparaison des cartes de caractéristiques obtenues avec une ou plusieurs carte(s) de caractéristiques de référence associée(s) à des individus connus.

Il serait souhaitable d’éviter la phase de codage et de parvenir à réaliser directement l’apprentissage/classification sur la base des données biométriques, i.e. de représenter la biométrie par un vecteur réduit sans qu’il ne soit plus nécessaire d’extraire explicitement les caractéristiques.

Les approches récentes dans le domaine de l’apprentissage profond ont permis de telles avancées majeures notamment dans le domaine de la reconnaissance d’empreinte biométrique, en particulier d’empreintes digitales, et lorsqu’elles sont acquises d’une manière relativement standardisée (par exemple sur des bornes de systèmes biométriques). En revanche on a une difficulté avec les empreintes dites latentes, par exemple les empreintes digitales trouvées sur une scène de crime. Deux images d’empreintes de la même identité peuvent présenter l’une par rapport à l’autre de fortes rotations, des occultations ainsi qu’un ensemble de distorsions. De surcroit, l’arrière-plan d’empreintes latentes est généralement très bruité et on a un risque que des minuties sont identifiées par erreur sur cet arrière-plan. En particulier, les CNN requièrent un volume de données d’apprentissage plus important, car en effet le nombre d’images d’empreintes latentes « réelles » disponibles pour apprentissage est très limitée, ce d’autant plus qu’on a des problèmes de confidentialité liés au caractère judiciaire de ces images, empêchant leur mutualisation.

Il a été proposé dans la demande de brevet FR1855170 une augmentation particulière des données d’apprentissage comprenant l’application de transformations géométriques et/ou en intensité de sorte à créer de multiples occurrences « altérées » des données d’entrée.

Cela améliore efficacement la robustesse aux déformations, mais il reste toujours le problème de l’arrière-plan et il est souhaitable d’améliorer encore la performance.

Ainsi, il a été proposé de créer de nouvelles images synthétiques en incrustant des empreintes isolées sur des arrière-plan. On connait à ce titre dans des domaines du montage vidéo des mécanismes de « blending », réalisés soit par un algorithme dédié soit par un CNN (voir le documentH. Wu, S. Zheng, J. Zhang and K. Huang, GP-GAN: Towards Realistic High-Resolution Image Blending, ACMM 2019), permettant d’obtenir des images composites synthétiques. Cependant, on constate que ce blending ne marche que pour des éléments basse fréquence, et si l’on tentait de le mettre en œuvre pour des images d’empreintes latentes les images synthétiques qui seraient générées auraient certes l’air similaire aux images d’empreintes latentes réelles mais d’une part elles ne seraient en pratique pas parfaitement naturelles et d’autres part le contenu biométrique des empreintes pourrait être altéré. Ainsi elles n’amélioreraient pas la performance des CNN de classification, au contraire.

Il serait par conséquent souhaitable de disposer d’une solution plus performante d’apprentissage sur base de données d’image représentatives d’empreintes latentes, des paramètres d’un CNN pour classification de données au moyen du CNN.

Selon un premier aspect, la présente invention concerne un procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, caractérisé en ce qu’il comprend la mise en œuvre par des moyens de traitement de données d’un serveur d’étapes de :

(b) Pour au moins une première image de ladite base, et une carte de crètes d’une deuxième empreinte différente de l’empreinte représentée par ladite première image, génération au moyen d’au moins un sous-réseau générateur d’un réseau antagoniste génératif, GAN, d’une image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte.

Selon des caractéristiques avantageuses et non-limitatives :

l’étape (b) comprend l’extraction de l’arrière-plan de ladite première image au moyen d’un premier sous-réseau générateur dudit GAN, puis la génération de l’image synthétique à partir de l’arrière-plan extrait de la première image et de la carte de crètes de la deuxième empreinte au moyen d’un deuxième sous-réseau générateur dudit GAN.

Le procédé comprend une étape (a) d’obtention de la carte de crètes de la deuxième empreinte à partir d’une deuxième image représentant ladite deuxième empreinte au moyen d’un troisième sous-réseau générateur dudit GAN.

Le procédé comprend une étape (a0) préalable d’apprentissage à partir de ladite base d’images d’apprentissage de paramètres de l’au moins un sous-réseau générateur et d’un sous-réseau discriminateur dudit GAN, de manière antagoniste.

L’étape (a0) comprend, pour au moins une image de ladite base d’images d’apprentissage, dite troisième image, la mise à jour des paramètres de l’au moins un sous-réseau générateur en minimisant pour ladite troisième image au moins une fonction objectif générateur, puis la mise à jour des paramètres du sous-réseau discriminateur en minimisant pour ladite troisième image au moins une fonction objectif discriminateur.

l’étape (a0) comprend, pour chaque troisième image, la génération par l’au moins un sous-réseau générateur d’une version synthétique de la troisième image, et l’évaluation par le sous-réseau discriminateur de si la troisième image et/ou la version synthétique de la troisième image est une image originale de la base d’apprentissage ou une image synthétique, l’au moins une fonction objectif générateur étant représentative de l’erreur du ou des sous-réseaux générateurs, et l’au moins une fonction objectif discriminateur étant représentative de l’erreur du sous réseau discriminateur.

Une première fonction objectif générateur comprend au moins un terme représentatif d’une distance entre la troisième image et la version synthétique de la troisième image, et un terme nul si le sous-réseau discriminateur évalue incorrectement que la version synthétique de la troisième image est une image originale de la base d’apprentissage ; et la fonction objectif discriminateur comprend au moins un terme nul si le sous-réseau discriminateur évalue correctement que la troisième image est une image originale de la base d’apprentissage et un terme nul si le sous-réseau discriminateur évalue correctement que la version synthétique de la troisième image est une image synthétique.

L’étape (a0) comprend, pour chaque troisième image, la génération par l’au moins un sous-réseau générateur d’une image synthétique présentant l’arrière-plan de ladite troisième image et représentant une quatrième empreinte différente de l’empreinte représentée par ladite troisième image, et l’évaluation par le sous-réseau discriminateur de si ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage ou une image synthétique ; une deuxième fonction objectif générateur comprenant au moins un terme nul si le sous-réseau discriminateur évalue incorrectement que ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage ; et/ou la fonction objectif discriminateur comprend en outre un terme nul si le sous-réseau discriminateur évalue correctement que ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image synthétique.

L’étape (a0) comprend, pour chaque troisième image :

L’extraction de l’arrière-plan de ladite troisième image au moyen d’un premier sous-réseau générateur du GAN,
La génération au moyen d’un deuxième sous-réseau générateur du GAN,
- de la version synthétique de la troisième image à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de l’empreinte représentée par la troisième image ;
- de l’image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de la quatrième empreinte.

Chaque image de la base d’apprentissage est associée à une carte de référence de crètes de l’empreinte représentée par cette image, l’étape (a0) comprenant, pour chaque troisième image, l’obtention au moyen d’un troisième sous-réseau générateur dudit GAN :

d’une carte candidate de crètes de la troisième empreinte à partir de la troisième image ;
d’une carte confirmative de crètes de la quatrième empreinte à partir de ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte ;

la première fonction objectif générateur comprenant en outre un terme représentatif d’une distance entre la carte candidate de crètes de la troisième empreinte et la carte de référence de crètes associée à la troisième image ; et/ou la deuxième fonction objectif générateur comprenant en outre un terme représentatif d’une distance entre la carte confirmative de crètes de la quatrième empreinte et une carte de référence de crètes associée à une quatrième image de la base d’images d’apprentissage représentant ladite quatrième empreinte.

L’étape (a0) comprend, pour chaque troisième image, l’obtention au moyen du troisième sous-réseau générateur d’une carte résiduelle de crètes à partir du seul arrière-plan extrait de la troisième image ; une troisième fonction objectif générateur comprenant au moins un terme représentatif d’une distance entre ladite carte résiduelle de crêtes et une carte vide.

L’étape (a0) comprend séquentiellement, pour chaque troisième image, la mise à jour des paramètres :

de chaque sous-réseau générateur en minimisant pour ladite troisième image la première fonction objectif générateur,
de chaque sous-réseau générateur en minimisant pour ladite troisième image la deuxième fonction objectif générateur,
du seul premier sous-réseau générateur en minimisant pour ladite troisième image la troisième fonction objectif générateur, et
du seul sous-réseau discriminateur en minimisant pour ladite troisième image la fonction objectif discriminateur.

Lesdites empreintes sont des empreintes biométriques, en particulier des empreintes digitales.

Selon un deuxième aspect, est proposé un procédé d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, pour classification d’images représentant une empreinte sur un arrière-plan, comprenant la mise en œuvre du procédé selon le premier aspect d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, lesdites images d’apprentissage étant déjà classifiées, puis une étape de :

(c) Apprentissage, à partir de la base d’images d’apprentissage déjà classifiées augmentée d’au moins ladite image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte, des paramètres dudit CNN

Selon un troisième aspect, est proposé un procédé de classification d’une image d’entrée, caractérisé en ce qu’il comprend la mise en œuvre du procédé selon le deuxième aspect d’apprentissage de paramètres d’un CNN, puis une étape de :

(d) Classification par des moyens de traitement de données d’un client de ladite image d’entrée, au moyen du CNN.

Selon un quatrième et un cinquième aspect, sont proposés un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’un des premier deuxième ou troisième aspects d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée, lorsque ledit programme est exécuté sur un ordinateur ; et moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’un des premier deuxième ou troisième aspects d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée

D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :

la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ;

la figure 2 illustre le fonctionnement général du procédé selon l’invention ;

la figure 3 représente des exemples d’images synthétiques obtenues lors de la mise en œuvre du procédé selon l’invention ;

la figure 4 représente plus en détail l’architecture d’un GAN pour la mise en œuvre d’un mode de réalisation préféré du procédé selon l’invention ;

la figure 5 représente des exemples d’architecture de sous-réseaux du GAN de la figure 4 ;

la figure 6 représente les étapes d’un mode de réalisation préféré du procédé selon l’invention ;

la figure 7 illustre l’apprentissage du GAN de la figure 4 dans un mode de réalisation préféré du procédé selon l’invention.

Architecture

Selon trois aspects complémentaires de l’invention, sont proposés :

un procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan ;
un procédé d’apprentissage de paramètres d’un réseau de neurones à convolution (CNN), pour classification d’images représentatives d’une empreinte sur un arrière-plan, à partir de la base d’images d’apprentissage augmentée ;
un procédé de classification d’une image d’entrée représentative d’une empreinte sur un arrière-plan au moyen dudit CNN.

Comme l’on verra, le présent procédé d’augmentation propose lui -même à la fois un procédé d’apprentissage de paramètres d’un réseau antagoniste génératif (GAN), et l’utilisation dudit GAN pour génération d’une image synthétique.

Les données d’entrée ou d’apprentissage sont de type image, et sont représentatives d’une empreinte sur un arrière-plan, dite « empreinte latente » (i.e. une empreinte par-dessus un arrière-plan visible dans l’image), par opposition aux empreintes dites directes qui sont de bonne qualité et isolées. Dans la suite de la présente description on appellera empreinte latente une empreinte sur un arrière-plan.

Par arrière-plan, on entend un fond texturé sur lequel peut se surimprimer l’empreinte, souvent un meuble, un billet, une arme, un papier, de la vaisselle, etc., de manière difficile à séparer. En d’autres termes, il peut y avoir une confusion entre des motifs de l’empreinte et des motifs de l’arrière-plan. La notion d’arrière-plan est opposée à celle de fond uni : bien qu’on puisse considérer qu’une empreinte directe est surimprimée à un fond blanc (voir plus loin), on comprend que de façon évidente l’empreinte se détache sans difficulté de ce fond et il n’y a aucun problème à l’isoler par n’importe quel algorithme de segmentation, ce qui n’est pas le cas pour une empreinte latente.

Par empreinte on entend une « trace », et de façon générale tout contenu structuré fait de crètes et de vallées (généralement binaire, i.e. en noir en blanc), pouvant se surimprimer à l’arrière-plan, et en particulier une empreinte biométrique (avantageusement choisie parmi une empreinte digitale, une empreinte palmaire, une empreinte rétinienne, etc.), c’est-à-dire une empreinte associée de manière unique à un individu. De façon préférée ladite empreinte biométrique est une empreinte digitale et on prendra cet exemple dans la suite de la description (comme l’on verra, le présent procédé est tout particulièrement efficace notamment dans le cas des empreintes digitales latentes), mais on comprendra que le présent procédé n’est pas limité à ce cas particulier ni même aux empreintes biométriques : l’empreinte peut par exemple être une empreinte plus générique toujours d’intérêt en police scientifique, comme une empreinte de pas, une empreinte de pneu, une empreinte de canon sur une balle (rayures), mais également une signature manuscrite d’un individu, des caractères d’imprimerie (l’arrière-plan étant par exemple un guillochis, c’est-à-dire un ensemble de traits entrelacés constituant un élément de sécurité d’un document d’identité ou d’un billet de banque), ou encore des notes de musique sur une partition, etc.

Les présents procédés sont mis en œuvre au sein d’une architecture telle que représentée par lafigure 1, grâce à un serveur 1 et un client 2. Le serveur 1 est l’équipement d’apprentissage (mettant en œuvre le procédé d’augmentation et le cas échéant celui d’apprentissage d’un CNN) et le client 2 est un équipement de classification (mettant en œuvre l’éventuel procédé de classification utilisant le CNN), par exemple un terminal d’un utilisateur. Il est tout à fait possible que les deux équipements 1, 2 soient confondus. De surcroit, la notion de serveur 1 peut en fait englober plusieurs serveurs, dans la mesure où il est tout à fait possible par exemple que les paramètres du GAN et du CNN soient appris en pratique par des entités différentes se partageant la base d’image d’apprentissage.

Dans tous les cas, chaque équipement 1, 2 est typiquement un équipement informatique distant relié à un réseau étendu 10 tel que le réseau internet pour l’échange des données. Chacun comprend des moyens de traitement de données 11, 21 de type processeur, et des moyens de stockage de données 12, 22 telle qu’une mémoire informatique, par exemple un disque.

Le serveur 1 stocke une base de données d’apprentissage, i.e. un ensemble d’images d’apprentissage, représentant une empreinte sur un arrière-plan, en pratique déjà classifiées (et/ou préférentiellement pour lesquelles on dispose déjà d’une carte de crètes de l’empreinte représentée par l’image dite carte de référence de crètes, considérée vérité terrain, par exemple obtenues par la mise en œuvre préalable d’un algorithme dédié d’analyse d’image sur chaque image d’apprentissage), par opposition aux images dites d’entrée que l’on cherche justement à classifier. Ces images d’apprentissage représentent une empreinte sur un arrière-plan. A noter que pour le seul procédé d’augmentation de la base de données, il n’est en pratique pas nécessaire que les images d’apprentissage soient classifiées. En ce qui concerne les cartes de référence de crètes éventuellement associées aux images d’apprentissage, elles permettent un apprentissage plus performant mais ne sont pas obligatoires.

Dans le cas préféré d’une empreinte biométrique (mais également dans le cas où par exemple l’empreinte est une signature) ladite classification est alors généralement une reconnaissance de l’utilisateur (authentification ou identification de l’individu par reconnaissance de son empreinte biométrique), et alors chaque image d’apprentissage déjà classifiée est associée à l’identité correspondante. De façon classique, une telle base de données d’apprentissage comprend dans la mesure du possible plusieurs images représentatives d’une même empreinte, i.e. associées à la même identité, par exemple plusieurs occurrences de la même empreinte digitale, mais acquises de manière légèrement différente et si possible avec des arrière plans différents.

GAN

Un réseau adverse génératif (en anglais « generative adversarial network » d’où GAN) est un type de réseau de neurones artificiels comprenant des sous-réseaux placés en compétition dans un scénario de théorie des jeux. Au moins un sous-réseau est dit « générateur », il génère un échantillon (par exemple une image), tandis que son adversaire, un sous-réseau dit « discriminateur » essaie de détecter si un échantillon est réel ou bien s'il est le résultat du générateur.

Le présent procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan propose à ce titre d’utiliser un GAN pour générer des images synthétiques d’empreintes sur un arrière-plan qui soient aussi naturelles que celles de la base d’images d’apprentissage.

L’idée est non pas de partir d’un arrière-plan quelconque mais d’une image d’apprentissage, pour laquelle le GAN va « remplacer » l’empreinte. Plus précisément, en référence à lafigure 2, à partir d’une première image de ladite base (représentant une première empreinte sur un premier arrière-plan), le cas échéant sélectionnée aléatoirement, le GAN génère une image synthétique présentant l’arrière-plan de ladite première image et représentant une deuxième empreinte, i.e. représentant la deuxième empreinte sur le premier arrière-plan. La deuxième empreinte est différente de la première empreinte et comme l’on verra elle est en particulier définie par sa carte de crètes (dite aussi carte de « crêtes et vallées »), laquelle correspond en pratique à une image binaire isolant les crêtes d’une empreinte (l’espace entre deux crêtes constituant une vallée).

Des exemples de telles images synthétiques sont représentées sur lafigure 3avec les arrière-plans et empreintes utilisées.

A noter que le GAN pourra prendre en entrée soit directement la carte de crètes de la deuxième empreinte (notamment si on dispose d’une base d’apprentissage associant à chaque image sa carte de crètes – il suffit ainsi de tirer une deuxième image et de prendre la carte associée), soit une deuxième image représentant la deuxième empreinte le cas échéant sur un arrière-plan, en extrayant la carte de crètes de l’empreinte représentée.

Alternativement, comme représenté par la figure 2, la deuxième empreinte peut d’ailleurs être elle-même complètement synthétique (ce qui règle totalement les problèmes de confidentialité) et par exemple générée en fonction d’un vecteur d’entrée (lui-même potentiellement généré aléatoirement). On connait dans l’état de l’art des méthodes de génération d’empreintes digitales complètement synthétiques, voir par exemple le documentR. Cappelli, M. Ferrara and D. Maltoni, "Generating synthetic fingerprints", in Martin Drahanský Hand-Based Biometrics: Methods and technology, IET, 2018.

Ainsi l’idée est d’utiliser au moins un sous-réseau générateur du GAN (et préférentiellement deux voire trois, notés G_B, G_M, G_LTen référence à lafigure 4, sur laquelle on reviendra plus loin) pour générer des images synthétiques d’empreintes sur un arrière-plan alors qu’un sous-réseau discriminateur dudit GAN (noté D) essaie de distinguer les images synthétiques des images d’apprentissage (provenant de la base).

Les sous-réseaux générateurs peuvent être les suivants :

Premier sous-réseau générateur G_B : un bloc d’extraction de l’arrière-plan d’une image représentant une empreinte sur un arrière-plan. Comme l’on verra, ce sous-réseau prend quasiment toujours en entrée une image d’apprentissage (en particulier la première image, pour extraction du premier arrière-plan), c’est-à-dire une image réelle.
Deuxième sous-réseau générateur G_LT : le bloc principal de génération d’une image synthétique à partir d’un arrière-plan et d’une carte de crètes.
Troisième sous-réseau générateur G_M : un bloc optionnel d’extraction de la carte de crètes d’une empreinte à partir d’une image représentant cette empreinte, généralement sur un arrière-plan. A nouveau le plus souvent ce sous-réseau prend en entrée une image d’apprentissage, mais possiblement une image d’empreinte directe (en particulier la deuxième image, pour extraction de la deuxième empreinte), dans la mesure où l’extraction d’une empreinte sur un fond uni est encore plus facile que sur un arrière-plan texturé. Le cas échéant, on appelle « candidate » une carte de crète d’une empreinte extraite d’une image d’apprentissage, pour la différencier de la carte « de référence » de crête telle qu’associée à cette image d’apprentissage dans la base.

Le sous-réseau discriminateur D prend en entrée une image d’une empreinte sur un arrière-plan et renvoie un booléen (ou une valeur 0 ou 1) selon s’il estime que l’image est synthétique (i.e. générée par le deuxième sous-réseau générateur G_LT) ou réelle (i.e. issue de la base d’apprentissage). A noter que ce sous-réseau discriminateur peut n’être utilisé que lors de l’apprentissage des paramètres du GAN, et pas lors de son utilisation conventionnelle pour augmentation de la base d’apprentissage.

Chacun des sous-réseaux générateur G_B, G_M, G_LTou discriminateur D est préférentiellement un CNN (dans la mesure où on rappelle que les CNN sont particulièrement adaptés au traitement d’images), mais peuvent être de nombreuses architectures.

En référence à la figure 5 :

le sous-réseau discriminateur D peut par exemple être de type encodeur (modèle A), avec avantageusement un encodeur à connexions résiduelles internes, tel qu’un ResNet, mais également un AlexNet voire un DenseNet (réseau dense présentant toutes les connexions résiduelles possibles) ;
le troisième sous-réseau générateur G_Mpeut par exemple être de type encodeur-décodeur (modèle B), les mêmes encodeurs que pour le sous-réseau discriminateur D peuvent être utilisés ;
les premier et deuxième sous-réseaux générateur G_B, G_LTpeuvent par exemple être à nouveau de type encodeur-décodeur, en particulier avec des connections résiduelles entre l’encodeur et le décodeur pour conserver les caractéristiques hautes fréquences de l’arrière-plan (modèle C), l’ensemble étant préférentiellement du type U-Net.

On rappelle que les encodeurs sont typiquement composés de plusieurs couches de convolution, d’activation non linéaire, de normalisation et de pooling (mise en commun). Les décodeurs sont quant à eux typiquement composés de couches de déconvolution ou de mise à l’échelle et de couches d’activation (ReLU, TanH, etc.).

Procédé d’augmentation

En référence à lafigure 6, le procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, mis en œuvre par les moyens de traitement de données 11 du serveur 1, commence avantageusement par une étape (a) d’obtention de la carte de crètes de la deuxième empreinte à partir d’une deuxième image représentant ladite deuxième empreinte au moyen d’un troisième sous-réseau générateur G_Mdudit GAN.

Comme expliqué la deuxième image peut être une image représentant juste la deuxième empreinte en tant qu’empreinte directe, mais également une autre image de la base d’apprentissage (i.e. représentant la deuxième empreinte sur un deuxième fond – l’image synthétique correspond alors à la « fusion » de deux images d’apprentissage). Dans le cas où la deuxième empreinte est une empreinte directe, elle peut comme expliqué être une empreinte synthétique générée à partir d’un vecteur. A noter qu’il reste possible de générer directement la carte de crètes de la deuxième empreinte à partir d’un vecteur, sans qu’il y ait besoin d’utiliser le troisième sous-réseau générateur G_M, voire de prendre directement la carte de crètes associée à la deuxième image si la base d’apprentissage est constituée de la sorte.

Ensuite, dans une étape (b) principale, pour au moins une première image de ladite base, et une carte de crètes de la deuxième empreinte différente de l’empreinte représentée par ladite première image, le ou les sous-réseaux générateurs G_B, G_M, G_LTgénèrent l’image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte.

De manière préférée, l’étape (b) comprend l’extraction de l’arrière-plan de ladite première image au moyen du premier sous-réseau générateur G_B, puis la génération de l’image synthétique à partir de l’arrière-plan extrait de la première image et de la carte de crètes de la deuxième empreinte au moyen du deuxième sous-réseau générateur G_LT.

L’étape (b) peut comprendre le test de l’image synthétique au moyen du sous-réseau discriminateur D : si l’image synthétique est déterminée comme générée par le deuxième sous-réseau générateur G_LT, elle est rejetée (i.e. elle n’est gardée que si déterminée comme réelle, c’est-à-dire qu’elle réussit à tromper le sous-réseau discriminateur D).

A noter que l’étape (b) peuvent répétée un grand nombre de fois, de sorte à générer un grand nombre d’images synthétiques, qui peuvent être incorporées dans la base d’apprentissage. A noter que si les images d’apprentissage sont déjà classifiées, la « classe » associée à l’image synthétique pour pouvoir l’incorporer dans la base d’apprentissage (i.e. l’identité correspondante) est celle de la deuxième empreinte.

Apprentissage du GAN

Avantageusement, le procédé commence par une étape (a0) d’apprentissage, par les moyens de traitement de données 11 du serveur 1, à partir de ladite base d’images d’apprentissage, de paramètres du GAN, i.e. de paramètres de l’au moins un sous-réseau générateur G_B, G_M, G_LTet du sous-réseau discriminateur D, de manière antagoniste.

De manière classique, les paramètres de l’au moins un sous-réseau générateur G_B, G_M, G_LTet du sous-réseau discriminateur D sont mis à jour en minimisant pour au moins une image donnée de la base d’image d’apprentissage (notée troisième image, ladite troisième image représentant comme les autres une troisième empreinte sur un troisième arrière-plan, en particulier choisie aléatoirement – on comprendra qu’il peut toujours à fait s’agir de la première ou de la deuxième image, ce d’autant plus qu’en pratique l’apprentissage utilise un grand nombre d’images de la base d’apprentissage) au moins une fonction objectif L₁, L₂, L₃, L₄. De manière classique, chaque fonction objectif est représentative de la performance de tout ou partie des sous-réseaux G_B, G_M, G_LTet D pour une troisième image, on verra plus loin comment une troisième image est traitée.

Comme expliqué, « de manière antagoniste » signifie que les sous-réseaux générateurs G_B, G_M, G_LTet le sous réseau discriminateur D sont en compétition : les sous-réseaux générateurs G_B, G_M, G_LTcherchent à tromper le sous réseau discriminateur D, et le sous réseau discriminateur D cherche à ne pas être trompé par les sous-réseaux générateurs G_B, G_M, G_LT. Ainsi, on a généralement au moins une fonction objectif générateur L₁, L₂, L₃, qui est représentative de l’erreur du ou des sous-réseaux générateurs G_B, G_M, G_LT, i.e. elle présente une valeur d’autant plus élevée que les sous-réseaux générateurs G_B, G_M, G_LTéchouent à tromper le sous réseau discriminateur D ; et au moins une fonction objectif discriminateur L₄, qui est représentative de l’erreur du sous réseau discriminateur D, i.e. elle donne une valeur d’autant plus élevée que les sous-réseaux générateurs G_B, G_M, G_LTparviennent à tromper le sous réseau discriminateur D.

L’apprentissage du GAN de l’étape (a0) est préférentiellement cyclique, ce qui signifie qu’un cycle est répété pour chaque troisième image utilisée, cycle dans lequel les paramètres de l’au moins un sous-réseau générateur G_B, G_M, G_LTet les paramètres du sous-réseau discriminateur D ne sont pas appris simultanément : dans une phase dite générateur du cycle les paramètres de l’au moins un sous-réseau générateur G_B, G_M, G_LTsont mis à jour en minimisant l’au moins une fonction objectif générateur L₁, L₂, L₃(les paramètres du sous-réseau discriminateur D ne sont pas mis à jour), et dans une phase dite discriminateur du cycle les paramètres du sous-réseau discriminateur D sont mis à jour en minimisant la fonction objectif discriminateur L₄(les paramètres du ou des sous-réseaux générateur G_B, G_M, G_LTne sont pas mis à jour).

Plus précisément, à chaque cycle (i.e. pour chaque troisième image), on met séquentiellement en œuvre chaque phase. A noter que chaque phase peut comprend en pratique plusieurs sous-phases de mises à jour en utilisant plusieurs fonctions objectif, et le cas échéant ne mettant à jour que les paramètres de certains des sous-réseaux concernés).

En pratique, dans le mode de réalisation préféré de lafigure 7qui sera décrit en détail plus loin, on a trois fonctions objectif générateur L₁, L₂, L₃et une fonction objectif discriminateur L₄(autant que de sous-réseaux), et la phase générateur comprend trois sous-phases (une pour chaque fonction objectif générateur L₁, L₂, L₃). En d’autres termes, l’étape (a0) itère pour une troisième image sur quatre optimisations différentes et en compétition. Comme l’on verra la première optimisation est avantageusement supervisée à savoir qu’on a besoin pour une troisième image de sa carte de référence de crêtes associée. Les trois autres optimisations ne nécessitent aucune annotation supplémentaire.

Cette approche permet d’utiliser beaucoup plus d’images d’entraînement lors de l’apprentissage réduisant ainsi le travail d’annotation coûteux en temps.

Chaque cycle voit donc les sous-réseaux G_B, G_M, G_LTet D travailler sur une troisième image, puis on applique la ou les fonctions objectif L₁, L₂, L₃, L₄.

En référence à la figure 3, l’étape (a0) comprend préférentiellement, pour chaque troisième image (i.e. à chaque cycle), l’extraction de l’arrière-plan de la troisième image (le troisième arrière-plan) au moyen du premier sous-réseau générateur G_B, et la génération d’une « version synthétique » de la troisième image à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de l’empreinte représentée par la troisième image (la troisième empreinte) au moyen du deuxième sous-réseau générateur G_LT. Ladite carte de crètes de l’empreinte représentée par la troisième image est soit la carte de référence associée dans la base d’apprentissage à la troisième image, soit la carte candidate obtenue à partir de la troisième image au moyen du troisième sous-réseau générateur G_M.

On comprend donc que ladite version synthétique de la troisième image présente l’arrière-plan de ladite troisième image et représente l’empreinte de ladite troisième image, i.e. constitue une reconstruction de la troisième image. En d’autres termes, si les sous-réseaux générateurs G_B, G_M, G_LTétaient parfaits, la version synthétique de la troisième image serait identique à la troisième image d’origine (et la carte éventuellement obtenue de crètes de la troisième empreinte serait identique à la carte de référence).

Dans la mesure où l’apprentissage est antagoniste, l’étape (a0) comprend également l’évaluation par le sous-réseau discriminateur D de si la troisième image et/ou la version synthétique de la troisième image est une image originale de la base d’apprentissage ou une image synthétique, i.e. si elle est réelle ou non. En d’autres termes, si le sous-réseau discriminateur D était parfait, il répondrait toujours que la troisième image est une image originale de la base d’apprentissage et que la version synthétique de la troisième image est une image synthétique.

Avantageusement, l’étape (a0) comprend également dans le même cycle (pour la troisième image), la génération par l’au moins un sous-réseau générateur G_B, G_M, G_LTd’une image synthétique présentant l’arrière-plan de ladite troisième image et représentant une quatrième empreinte différente de l’empreinte représentée par ladite troisième image (typiquement de la même manière que pour la première image : le deuxième sous-réseau générateur G_LTgénère cette l’image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de la quatrième empreinte, en particulier soit une carte de référence associée dans la base d’apprentissage à une quatrième image différente de la troisième image et représentant la quatrième empreinte, soit la carte candidate obtenue à partir de cette quatrième empreinte au moyen du troisième sous-réseau générateur G_M).

A nouveau, du fait de son caractère antagoniste, l’apprentissage comprend alors l’évaluation par le sous-réseau discriminateur D de si ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage ou une image synthétique. On comprend que si le sous-réseau discriminateur D était parfait, il répondrait toujours que cette image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image synthétique.

En pratique, le sous-réseau discriminateur D répond à une image qui lui est soumise « 1 » ou « 0 » selon s’il l’évalue vraie ou synthétique. En calculant la norme de la sortie du sous-réseau discriminateur D moins la valeur 1 ou 0 attendue on peut estimer son erreur.

Comme l’on verra plus loin, le troisième sous-réseau générateur G_Mpeut en outre être utilisé pour générer une carte dite confirmative de crètes de la quatrième empreinte à partir de ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte. Plus précisément, avec avoir « inséré » la quatrième empreinte sur le troisième arrière-plan, on peut réextraire sa carte de crète et voir si la quatrième empreinte est bien conservée depuis la carte de référence, d’où l’appellation carte confirmative. En effet, en supposant que l’image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est bien générée, on devrait retrouver exactement le même contenu d’empreinte.

Par ailleurs, l’obtention le troisième sous-réseau générateur G_Mpeut par ailleurs être utilisé pour obtenir une carte dite résiduelle de crètes à partir du seul arrière-plan extrait de la troisième image. Plus précisément, on applique le troisième sous-réseau générateur G_Mdirectement sur le troisième arrière-plan seul et non sur la troisième image. Normalement, l’arrière-plan devrait être exempt de toute empreinte (qui a déjà été extraite) de sorte à vérifier qu’il n’y a plus d’empreinte à extraire : on devrait retrouver une carte vide, d’où l’appellation carte résiduelle.

On note à présent (LT,M_LT) le couple d’une troisième image de la base d’apprentissage et de sa carte de référence de crêtes associée (à différencier de la carte candidate de crètes obtenue via le troisième sous-réseau, i.e. G_M(LT)) et (LT',M_LT') un autre couple de ladite quatrième image de la base d’apprentissage et de sa carte de référence de crêtes associée (à différencier également de la carte candidate de crètes de la quatrième empreinte obtenue via le troisième sous-réseau, i.e. G_M(_LT')), avantageusement aléatoirement choisis dans la base d’apprentissage. On noteLT=G_LT(M_LT,G_B(LT)) la version synthétique de la troisième image générée à partir de l’arrière-plan G_B(LT) de la troisième image LT et de sa carte de référence associée M_LT. Comme expliqué, elle pourrait également être générée à partir de la carte candidate G_M(LT).

Enfin,LT'=G_LT(M_LT',G_B(LT)) est l’image synthétique générée à partir de l’arrière-plan G_B(LT) de la troisième image LT et de la carte de référence de la quatrième empreinte M_LT' différente de la carte de référence M_LTassociée à la troisième image LT. A nouveau elle pourrait également être générée à partir de la carte candidate G_M(LT'). On veut que :

LTcoïncide au maximum avec LT ; et
LT’ait l’empreinte de LT’ avec l’arrière-plan de LT.

Comme expliqué, on définit au moins une fonction objectif générateur L₁, L₂, L₃étant représentative de l’erreur du ou des sous-réseaux générateurs G_B, G_M, G_LT, chacune exprimée comme une somme de termes positifs : chaque terme doit être minimisé pour minimiser toute la fonction objectif.

Une première fonction objectif générateur L₁préférentiellement de la forme L₁= λ₁₁L₁₁+λ₁₂L₁₂+λ_D1L_D1) (à deux ou trois termes, avec λ₁₁, λ₁₂et λ_D1des constantes) comprend au moins un terme (L₁₂=‖LT-LT‖) représentatif d’une distance entre la troisième image LT et sa version synthétiqueLT, et un terme (L_D1=‖D(LT)-1‖) nul si le sous-réseau discriminateur D évalue incorrectement (en se trompant) que la version synthétiqueLTde la troisième image est une image originale de la base d’apprentissage (i.e. si le sous-réseau discriminateur D renvoie « 1 » alors qu’il aurait du renvoyer « 0 » puisque la version synthétiqueLTde la troisième image est en réalité une image synthétique).

Avantageusement, si on dispose de la carte de référence de crêtes de la troisième empreinte M_LT, la première fonction objectif générateur L₁comprend en outre un terme (L₁₁=DSC[M_LT,G_M(LT)]) représentatif d’une distance entre la carte candidate de crètes de la troisième empreinte G_M(LT) et la carte de référence de crètes M_LTassociée à la troisième image. DSC correspond au coefficient de Sorensen-Dice, mais on pourra utiliser d’autres normes.

Minimiser le terme L₁₁contraint que la carte candidate G_M(LT) générée par G_Msoit similaire à la carte de référence. Avec le terme L₁₂, la version synthétiqueLTde la troisième image générée à partir de son fond G_B(LT) et de sa carte de crêtes M_LTdoit être similaire à la troisième image LT. Enfin, on pousse G_LTvia L_D1à générer des images réalistes en essayant de tromper le sous-réseau discriminateur D avecLT(D doit répondre 1).

Une éventuelle deuxième fonction objectif générateur L₂préférentiellement de la forme L₂= λ₂₁L₂₁+λ_D2L_D2(à un ou deux termes, avec λ₂₁et λ_D2des constantes) comprend au moins un terme (L_D1=‖D(LT')-1‖) nul si le sous-réseau discriminateur D évalue incorrectement (en se trompant) que ladite image synthétiqueLT'présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage (i.e. si le sous-réseau discriminateur D renvoie « 1 » alors qu’il aurait du renvoyer « 0 » puisque ladite image synthétiqueLT'est en réalité une image synthétique).

Avantageusement, si on dispose de la carte de référence de crêtes de la quatrième empreinte, la deuxième fonction objectif générateur L₁comprend en outre un terme (L₂₁=DSC[M_LT',G_M(LT')]) représentatif d’une distance entre la carte confirmative de crètes de la quatrième empreinte G_M(LT')=G_M(G_LT(M_LT',G_B(LT))) et la carte de référence de crètes M_LT' associée à la quatrième image (représentant ladite quatrième empreinte). Comme expliqué, la carte confirmative de crètes de la quatrième empreinte constitue une « reconstruction » de la carte de référence de crètes de la quatrième empreinte.

Minimiser L₂₁contraint que cette carte confirmative de crêtes générée par G_Msoit similaire à la carte de crêtes utilisée pour générer l’image synthétique. Le modèle est ainsi poussé à séparer contenu de l’arrière-plan et contenu de l’empreinte. Via ce terme on réalise une boucle et c’est un moyen de contraindre G_LTà bien conserver bien la carte de référence de crête M_LT' mise en entrée de G_LTet également de contraindre la séparation entre empreinte et arrière-plan car dansLT’on ne doit pas alors retrouver la troisième empreinte de LT (i.e. M_LT). Enfin comme pour la première fonction objectif générateur L₁, on pousse G_LTvia L_D1à générer des empreintes réalistes en essayant de tromper le discriminateur avecLT’(D doit répondre 1).

Une éventuelle troisième fonction objectif générateur L₃comprend au moins un (et préférentiellement seulement un) terme λ₃‖G_M(G_B(LT))‖ représentatif d’une distance entre ladite carte résiduelle de crêtes G_M(G_B(LT)) (carte de crète du seul arrière-plan G_B(LT)) et une carte vide (i.e. une image vide, c’est pourquoi cette distance est en pratique la simple norme de la carte résiduelle). A nouveau λ₃est une constante.

On force ici la séparation de l’image entre empreinte et contenu autre que l’empreinte (fond), i.e. l’arrière-plan ne doit pas avoir de crêtes ni de vallées.

On note qu’il reste possible d’utiliser les trois fonctions objectif générateur L₁, L₂, L₃susmentionnées sans disposer de cartes de référence de crêtes, il suffit d’omettre les premiers termes L₁₁et L₂₁et de générerLTetLT’à partir de cartes candidates de crètes G_M(LT) et G_M(LT') obtenues à partir des troisième et quatrième images. La connaissance des vérités terrain reste cependant préférable car elle permet aux paramètres du troisième sous-réseau générateur G_Mde converger bien mieux et bien plus vite. De façon particulièrement préférée, on peut alterner, et en particulier utiliser occasionnellement en secours G_M(LT) si pour une troisième image la carte de référence de crètes associée M_LTétait manquante ou manifestement fausse : cela permet de poursuivre l’apprentissage tout en sachant que les paramètres du troisième sous-réseau générateur G_Mont déjà bien convergé et que G_M(LT) est déjà une très bonne approximation de M_LT.

Dans tous les cas, la présente invention ne sera limitée à aucune combinaison de fonctions objectif générateur.

En ce qui concerne la fonction objectif discriminateur L₄, on en a avantageusement une seule, préférentiellement de la forme L₄=λ_D41‖D(LT)-1‖+λ_D42‖D(LT)‖+ λ_D43‖D(LT')‖ (à deux ou trois termes, avec λ_D41, λ_D42et λ_D43des constantes). Cette fonction objectif discriminateur L₄comprend ainsi au moins un terme (‖D(LT)-1‖) nul si le sous-réseau discriminateur D évalue correctement que la troisième image LT est une image originale de la base d’apprentissage et un terme (‖D(LT))‖) nul si le sous-réseau discriminateur D évalue correctement que la version synthétiqueLTde la troisième image est une image synthétique.

Avantageusement, la fonction objectif discriminateur L₄comprend en outre un terme (‖D(LT')‖) nul si le sous-réseau discriminateur D évalue correctement que ladite image synthétiqueLT'présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image synthétique.

Grâce à cette fonction objectif discriminateur, le sous-réseau discriminateur D est entraîné à discriminer entre images réelles et images synthétiques. La sortie du discriminateur D doit être 1 pour l’image réelle LT et 0 pour les images généréesLTetLT'. On voit bien le caractère antagoniste puisque là on cherche une évaluation correcte, alors que dans les première et deuxième fonctions objectif L₁, L₂on cherchait une évaluation incorrecte.

A nouveau l’homme du métier pourra utiliser n’importe quelle autre fonction objectif discriminateur.

Comme expliqué, l’étape (a0) comprend préférentiellement une succession de phases/sous-phases et en particulier une alternance cyclique de phase générateur et phase discriminateur de sorte à ce qu’il n’y ait pas de déséquilibre entre les sous-réseaux générateur G_B, G_M, G_LTet le sous-réseau discriminateur D : les deux types de sous-réseaux doivent progresser au même rythme pour que l’apprentissage soit efficace.

Ainsi, dans le mode de réalisation de la figure 7, on a séquentiellement, pour chaque troisième image, la mise à jour des paramètres (dans la figure 7, seuls les paramètres des sous-réseaux grisés sont mis à jour, les autres sont fixés) :

de chaque sous-réseau générateur G_B, G_M, G_LTen minimisant pour ladite troisième image la première fonction objectif générateur L₁, notée optimisation 1
de chaque sous-réseau générateur G_B, G_M, G_LTen minimisant pour ladite troisième image la deuxième fonction objectif générateur L₂, notée optimisation 2,
du seul premier sous-réseau générateur G_Ben minimisant pour ladite troisième image la troisième fonction objectif générateur L₃, notée optimisation 3, et
du seul sous-réseau discriminateur D en minimisant pour ladite troisième image la fonction objectif discriminateur L₄.

On a donc la séquence optimisation 1 => optimisation 2 => optimisation 3 => optimisation 4. Une fois la quatrième optimisation effectuée, on retourne à l’optimisation 1 (pour une autre troisième image) jusqu’à convergence des sous-réseaux.

A noter qu’on peut envisager d’autres séquences, par exemple une phase discriminateur après chaque sous-phase générateur, i.e. optimisation 1 => optimisation 4 => optimisation 2 => optimisation 4 => optimisation 3 => optimisation 4 => optimisation 1, etc. On pourra ajuster les constantes des fonctions objectif en conséquence.

Apprentissage du CNN et classification

A l’issue de l’étape (b), on dispose d’une base d’images d’apprentissage « augmentée » desdites images synthétiques, c’est-à-dire qu’elle comprend à présent, outre les exemplaires originaux des images apprentissages, les images synthétiques ayant été générées à partir de ces dernières. En d’autres termes, la taille de la base de données d’apprentissage a été démultipliée : dans l’exemple de la figure 2, on a généré six images synthétiques en utilisant trois images d’apprentissage (dont sont issus les arrière-plans).

Si lesdites images d’apprentissage sont déjà classifiées, on peut apprendre les paramètres du réseau de neurones à convolution, CNN, pour classification d’images représentant une empreinte sur un arrière-plan. On suppose à ce titre comme expliqué que si une image synthétique présentant l’arrière-plan d’une première image et représentant une deuxième empreinte est ajoutée à la base, sa classification est la même que celle de la deuxième image représentant la deuxième empreinte.

A ce titre, l’invention concerne selon un deuxième aspect un procédé de d’apprentissage des paramètres d’un CNN comprenant la mise en œuvre du procédé d’augmentation d’une base d’images d’apprentissage (déjà classifiées) représentant une empreinte sur un arrière-plan selon le deuxième aspect (étapes (a) et (b)), puis la mise en œuvre d’une étape (c), à partir de ladite d’images d’apprentissage déjà classifiées augmentée, le serveur 1 apprend les paramètres d’un CNN de classification de façon classique.

Le CNN de classification appris peut être stocké le cas échéant sur des moyens de stockage de données 12 du client 2 pour utilisation en classification.

On comprendra que les images synthétiques ne sont pas nécessairement stockées dans la base d’images d’apprentissage lorsqu’elles sont générées : il est possible de les générer à la volée, voire même de façon concomitante avec l’étape (c). Ainsi les images synthétiques sont « à usage unique », c’est à dire que la base d’apprentissage d’origine est augmentée de façon aléatoire et infinie sans demander davantage de stockage.

L’invention concerne selon un troisième aspect un procédé de classification d’une image d’entrée (en particulier une image représentant une empreinte biométrique dont l’identité associée est à déterminer sur un arrière-plan) comprenant la mise en œuvre du procédé d’apprentissage d’un CNN selon le deuxième aspect (étapes (a), (b) et (c)), puis la mise en œuvre d’une étape (d) de classification par les moyens de traitement de données 21 de client 2 de ladite image d’entrée, au moyen du CNN

Cette étape (c) est mise en œuvre comme expliqué de façon classique, on comprend juste que le CNN a été appris sur une base d’images d’apprentissage plus grande et plus réaliste, et présente par conséquent des performances améliorées en fonctionnement.

L’évaluation qualitative a permis de vérifier la qualité supérieure des images synthétiques générées par rapport aux techniques connues.

La conservation de la classification (i.e. de l’identité biométrique si les empreintes sont des empreintes biométriques) a également été validée quantitativement. Pour cette évaluation, des images synthétiques d’empreintes latentes LT_Gont été générées à partir du contenu biométrique d’empreintes directes de bonne qualité TP (utilisées comme deuxièmes images) et à partir de l’arrière-plan d’images d’empreintes latentes LT_Rréelles (utilisées comme premières images), conformément aux étapes (a) et (b) du procédé d’augmentation décrit, i.e. LT_G=G_LT[G_M(TP),G_B(LT_R)].

La précision d’identification des images d’empreintes latentes générées a pu être évaluée face à une base de bruit de 100000 empreintes et face aux empreintes directes TP utilisées pour leur contenu biométrique. La précision obtenue de classification est de 100% (en d’autres termes, chaque image synthétique d’empreintes latentes LT_Ga toujours été identifiée comme associée à l’identité de l’empreinte directe TP d’origine) ce qui montre que le contenu biométrique est conservé dans les images synthétiques d’empreintes latentes générées par le présent GAN et que le contenu biométrique des images d’empreintes latentes LT_Rréelles avait bien été supprimé.

Produit programme d’ordinateur

Selon un quatrième et un cinquième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 11, 21 du serveur 1 et/ou du client 2) d’un procédé selon le premier, le deuxième ou le troisième aspect d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée, ainsi que des moyens de stockage lisibles par un équipement informatique (une mémoire 12, 22 du serveur 1 et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur.

Claims

Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, caractérisé en ce qu’il comprend la mise en œuvre par des moyens de traitement de données (11) d’un serveur (1) d’étapes de :
(b) Pour au moins une première image de ladite base, et une carte de crètes d’une deuxième empreinte différente de l’empreinte représentée par ladite première image, génération au moyen d’au moins un sous-réseau générateur (G_B, G_M, G_LT) d’un réseau antagoniste génératif, GAN, d’une image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte.
Procédé selon la revendication 1, dans lequel l’étape (b) comprend l’extraction de l’arrière-plan de ladite première image au moyen d’un premier sous-réseau générateur (G_B) dudit GAN, puis la génération de l’image synthétique à partir de l’arrière-plan extrait de la première image et de la carte de crètes de la deuxième empreinte au moyen d’un deuxième sous-réseau générateur (G_LT) dudit GAN.
Procédé selon la revendication 2, comprenant une étape (a) d’obtention de la carte de crètes de la deuxième empreinte à partir d’une deuxième image représentant ladite deuxième empreinte au moyen d’un troisième sous-réseau générateur (G_M) dudit GAN.
Procédé selon l’une des revendications 1 à 3, comprenant une étape (a0) préalable d’apprentissage à partir de ladite base d’images d’apprentissage de paramètres de l’au moins un sous-réseau générateur (G_B, G_M, G_LT) et d’un sous-réseau discriminateur (D) dudit GAN, de manière antagoniste.
Procédé selon la revendication 4, dans lequel l’étape (a0) comprend, pour au moins une image de ladite base d’images d’apprentissage, dite troisième image, la mise à jour des paramètres de l’au moins un sous-réseau générateur (G_B, G_M, G_LT) en minimisant pour ladite troisième image au moins une fonction objectif générateur (L₁, L₂, L₃), puis la mise à jour des paramètres du sous-réseau discriminateur (D) en minimisant pour ladite troisième image au moins une fonction objectif discriminateur (L₄).
Procédé selon la revendication 5, dans lequel l’étape (a0) comprend, pour chaque troisième image, la génération par l’au moins un sous-réseau générateur (G_B, G_M, G_LT) d’une version synthétique de la troisième image, et l’évaluation par le sous-réseau discriminateur (D) de si la troisième image et/ou la version synthétique de la troisième image est une image originale de la base d’apprentissage ou une image synthétique, l’au moins une fonction objectif générateur (L₁, L₂, L₃) étant représentative de l’erreur du ou des sous-réseaux générateurs (G_B, G_M, G_LT), et l’au moins une fonction objectif discriminateur (L₄) étant représentative de l’erreur du sous réseau discriminateur (D).
Procédé selon la revendication 6, dans lequel une première fonction objectif générateur (L₁) comprend au moins un terme représentatif d’une distance entre la troisième image et la version synthétique de la troisième image, et un terme nul si le sous-réseau discriminateur (D) évalue incorrectement que la version synthétique de la troisième image est une image originale de la base d’apprentissage ; et la fonction objectif discriminateur (L₄) comprend au moins un terme nul si le sous-réseau discriminateur (D) évalue correctement que la troisième image est une image originale de la base d’apprentissage et/ou un terme nul si le sous-réseau discriminateur (D) évalue correctement que la version synthétique de la troisième image est une image synthétique.
Procédé selon la revendication 7, dans lequel l’étape (a0) comprend, pour chaque troisième image, la génération par l’au moins un sous-réseau générateur (G_B, G_M, G_LT) d’une image synthétique présentant l’arrière-plan de ladite troisième image et représentant une quatrième empreinte différente de l’empreinte représentée par ladite troisième image, et l’évaluation par le sous-réseau discriminateur (D) de si ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage ou une image synthétique ; une deuxième fonction objectif générateur (L₂) comprenant au moins un terme nul si le sous-réseau discriminateur (D) évalue incorrectement que ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image originale de la base d’apprentissage ; et/ou la fonction objectif discriminateur (L₄) comprenant en outre un terme nul si le sous-réseau discriminateur (D) évalue correctement que ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte est une image synthétique.
Procédé selon la revendication 8, dans lequel l’étape (a0) comprend, pour chaque troisième image :
L’extraction de l’arrière-plan de ladite troisième image au moyen d’un premier sous-réseau générateur (G_B) du GAN,

La génération au moyen d’un deuxième sous-réseau générateur (G_LT) du GAN,

de la version synthétique de la troisième image à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de l’empreinte représentée par la troisième image ;

de l’image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte à partir de l’arrière-plan extrait de la troisième image et d’une carte de crètes de la quatrième empreinte.
Procédé selon la revendication 9, dans lequel chaque image de la base d’apprentissage est associée à une carte de référence de crètes de l’empreinte représentée par cette image, l’étape (a0) comprenant, pour chaque troisième image, l’obtention au moyen d’un troisième sous-réseau générateur (G_M) dudit GAN :
d’une carte candidate de crètes de la troisième empreinte à partir de la troisième image ;

d’une carte confirmative de crètes de la quatrième empreinte à partir de ladite image synthétique présentant l’arrière-plan de ladite troisième image et représentant la quatrième empreinte ;
la première fonction objectif générateur (L₁) comprenant en outre un terme représentatif d’une distance entre la carte candidate de crètes de la troisième empreinte et la carte de référence de crètes associée à la troisième image ; et/ou la deuxième fonction objectif générateur (L₂) comprenant en outre un terme représentatif d’une distance entre la carte confirmative de crètes de la quatrième empreinte et une carte de référence de crètes associée à une quatrième image de la base d’images d’apprentissage représentant ladite quatrième empreinte.
Procédé selon la revendication 10, dans lequel l’étape (a0) comprend, pour chaque troisième image, l’obtention au moyen du troisième sous-réseau générateur (G_M) d’une carte résiduelle de crètes à partir du seul arrière-plan extrait de la troisième image ; une troisième fonction objectif générateur (L₃) comprenant au moins un terme représentatif d’une distance entre ladite carte résiduelle de crêtes et une carte vide.
Procédé selon la revendication 11, dans lequel l’étape (a0) comprend séquentiellement, pour chaque troisième image, la mise à jour des paramètres :
de chaque sous-réseau générateur (G_B, G_M, G_LT) en minimisant pour ladite troisième image la première fonction objectif générateur (L₁),

de chaque sous-réseau générateur (G_B, G_M, G_LT) en minimisant pour ladite troisième image la deuxième fonction objectif générateur (L₂),

du seul premier sous-réseau générateur (G_B) en minimisant pour ladite troisième image la troisième fonction objectif générateur (L₃), et

du seul sous-réseau discriminateur (D) en minimisant pour ladite troisième image la fonction objectif discriminateur (L₄).
Procédé selon l’une des revendications 1 à 12, dans laquelle lesdites empreintes sont des empreintes biométriques, en particulier des empreintes digitales.
Procédé d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, pour classification d’images représentant une empreinte sur un arrière-plan, comprenant la mise en œuvre du procédé selon l’une des revendications 1 à 13 d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, lesdites images d’apprentissage étant déjà classifiées, puis une étape de :
(c) Apprentissage, à partir de la base d’images d’apprentissage déjà classifiées augmentée d’au moins ladite image synthétique présentant l’arrière-plan de ladite première image et représentant la deuxième empreinte, des paramètres dudit CNN
Procédé de classification d’une image d’entrée, caractérisé en ce qu’il comprend la mise en œuvre du procédé selon la revendication 14 d’apprentissage de paramètres d’un CNN, puis une étape de :
(d) Classification par des moyens de traitement de données (21) d’un client (2) de ladite image d’entrée, au moyen du CNN.
Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 15 d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée, lorsque ledit programme est exécuté sur un ordinateur.
Moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 15 d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan, d’apprentissage de paramètres d’un réseau de neurones à convolution, CNN, ou de classification d’une image d’entrée.