ES2902391T3

ES2902391T3 - Procedimiento de extracción de características de una huella dactilar representada por una imagen de entrada

Info

Publication number: ES2902391T3
Application number: ES19195806T
Authority: ES
Inventors: Anthony Cazasnoves; Cédric Thuillier
Original assignee: Idemia Identity and Security France SAS
Current assignee: Idemia Identity and Security France SAS
Priority date: 2018-09-06
Filing date: 2019-09-06
Publication date: 2022-03-28
Anticipated expiration: 2039-09-06
Also published as: EP3620970A1; US11087106B2; US20200082147A1; AU2019226224B2; FR3085775B1; FR3085775A1; EP3620970B1; AU2019226224A1; PL3620970T3

Abstract

Procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, comprendiendo el procedimiento la puesta en práctica, mediante medios (21) de procesamiento de datos de un cliente (2), de etapas de: (a) Binarización de dicha imagen de entrada, por medio de una red neuronal convolucional, CNN, de manera que se genera una imagen denominada binaria, comprendiendo dicha CNN un bloque, denominado de descompactación, de capas de convolución sucesivas (**(Ver fórmula)**, n >= 2) que presentan un tamaño de filtro decreciente y un número de filtros decreciente, tal que el número de filtros disminuye en un paso constante de una capa de convolución (**(Ver fórmula)**) del bloque de descompactación a la siguiente (**(Ver fórmula)**); (b) Procesamiento de dicha imagen binaria, de manera que se extraen dichas características buscadas de la huella dactilar representada por dicha imagen de entrada.

Description

DESCRIPCIÓN

Procedimiento de extracción de características de una huella dactilar representada por una imagen de entrada Campo técnico general

La presente invención se refiere al campo de la biometría y propone, en particular, un procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, con vistas a un procesamiento biométrico de la imagen de entrada.

Estado de la técnica

La autenticación/identificación biométrica consiste en reconocer a un individuo basándose en rasgos biométricos de ese individuo, tales como las huellas dactilares (reconocimiento dactilar), el iris o la cara (reconocimiento facial).

Los enfoques biométricos clásicos usan la información característica del rasgo biométrico extraída a partir de la biometría adquirida, llamada “características” (“features” ), y el aprendizaje/clasificación se realiza basándose en la comparación de esas características.

En particular, en el caso del reconocimiento dactilar, se procesan las imágenes de la punta del dedo, de manera que se extraen las características de una huella que pueden clasificarse en tres categorías:

- El nivel 1 define el motivo general de esta huella (una de las cuatro clases: bucle a derecha, bucle a izquierda, arco y espiral), y el perfil global de las crestas (se obtiene, en particular, un mapa de orientación denominado “ Ridge Flow Matrix” , mapa RFM, que representa en cada punto de la huella la dirección general de la cresta).

- El nivel 2 define los puntos particulares de las huellas, llamados puntos característicos, que constituyen “acontecimientos” a lo largo de las crestas (final de una cresta, bifurcación, etc.). Los enfoques clásicos de reconocimiento usan esencialmente estas características.

- El nivel 3 define información más compleja, tal como la forma de las crestas, los poros de la piel, cicatrices, etc.

De este modo, se llama “codificación” al procedimiento de extracción de las características de una huella (en forma de mapas de características, o “feature maps” ), que permiten componer una firma llamada “plantilla” que codifica la información útil para la fase final de clasificación. Más precisamente, va a realizarse la clasificación mediante comparación de los mapas de características obtenidos con uno o varios mapa(s) de características de referencia asociado(s) a individuos conocidos.

En la actualidad se dispone de “codificadores” que realizan eficazmente esta operación de extracción de características, es decir, de algoritmos que proceden a un conjunto de procesamientos:

- Mejora de la imagen (aumento de contraste, reducción del ruido, etc.);

- Uso de filtros dedicados (de Gabor de diferentes resoluciones, derivadores, etc.);

- Uso de método de decisiones (determinación de umbral de binarización, extracción de puntos, etc.) No obstante, ahora se busca incorporar tales codificadores en equipos de gran consumo, tales como teléfonos inteligentes, muy restrictivos en cuanto a rendimientos, mientras que la cadena de procesamiento anterior necesite fuertes potencias de cálculo y recursos de memoria. En efecto, hasta el momento el reconocimiento de huella dactilar se ponía en práctica, esencialmente, en terminales de acceso fijos, que disponen de medios de procesamiento dedicados.

Una pista es el uso de redes neuronales, que ya se usan de manera masiva para la clasificación de datos.

Tras una fase de aprendizaje automático (generalmente supervisado, es decir, en una base de datos de referencia ya clasificados), una red neuronal “aprende” y pasa a ser capaz por sí sola de aplicar la misma clasificación a datos desconocidos.

Las redes neuronales convolucionales o CNN (“ Convolutional Neural Networks” ) son un tipo de red neuronal en el que el motivo de conexión entre las neuronas está inspirado por la corteza visual de los animales. De este modo, están particularmente adaptadas a un tipo particular de clasificación que es el análisis de imagen; en efecto, permiten con eficacia el reconocimiento de objetos o personas en imágenes o vídeos, en particular en aplicaciones de seguridad (vigilancia automática, detección de amenaza, etc.).

Y, en el campo de la autenticación/identificación biométrica, puede entrenarse una CNN para reconocer a un individuo basándose en rasgos biométricos de ese individuo, en la medida en que estos datos se manipulan en forma de imágenes. En “ Deep convolutional neural network for latent fingerprint enhancement” de Jian Li y col. (SIGNAL PROCESSING. IMAGE COMMUNICATION., vol. 60, 1 de febrero de 2018, páginas 52-63, XP055590662, NL, ISSN: 0923-5965), se aplica un procedimiento de procesamiento previo a imágenes de huellas dactilares; este procedimiento usa CNN para mejorar la extracción de características. Aunque tales enfoques han permitido grandes avances, por ejemplo, en reconocimiento de caras, su aplicación al reconocimiento de huellas dactilares se enfrenta a las especificidades inherentes de las huellas dactilares y, hasta el día de hoy, los rendimientos no han sido convincentes. Por añadidura, el tamaño de la red neuronal debe permanecer limitado, con el fin de poder responder a las restricciones de memoria de los equipos de gran consumo anteriormente mencionados.

Por consiguiente, sería deseable disponer de una solución más ligera de extracción de características de una huella dactilar, que no obstante también presente al menos el mismo rendimiento que las soluciones existentes.

Presentación de la invención

Según un primer aspecto, la presente invención se refiere a un procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, definiéndose el procedimiento en la reivindicación 1.

Otras características ventajosas se definen en las reivindicaciones 1-13.

Según un segundo y un tercer aspecto, la invención propone un producto de programa de ordenador que comprende instrucciones de código para la ejecución de un procedimiento según el primer aspecto de extracción de características buscadas de una huella dactilar representada por una imagen de entrada; y un medio de almacenamiento legible por un equipo informático, en el que un producto de programa de ordenador comprende instrucciones de código para la ejecución de un procedimiento según el primer aspecto de extracción de características buscadas de una huella dactilar representada por una imagen de entrada.

Presentación de las figuras

Otras características y ventajas de la presente invención se desprenderán de la lectura de la descripción que va a seguir, de un modo de realización preferible. Esta descripción se dará con referencia a los dibujos adjuntos, en los que:

- la Figura 1 es un esquema de una arquitectura para la puesta en práctica de los procedimientos según la invención;

- la Figura 2 representa una primera posibilidad de red neuronal convolucional;

- la Figura 3 representa un ejemplo de bloque de descompactación usado en modos de realización del procedimiento según la invención;

- la Figura 4 ilustra ejemplos de convoluciones de tipo Atrous;

- la Figura 5 representa un ejemplo de bloque de inicio usado en modos de realización del procedimiento según la invención;

- la Figura 6 representa un ejemplo de red neuronal convolucional para la puesta en práctica del procedimiento según la invención.

Descripción detallada

Principio y arquitectura

El presente procedimiento propone un procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada. Este procedimiento consiste, normalmente, en una “codificación” de la huella, es decir, dichas características buscadas que van a extraerse son, normalmente, características “biométricas” , es decir, las características “finales” que permiten componer una plantilla de la huella dactilar con vistas a hacer de clasificación (identificación/autenticación de individuo, véase más adelante). Para ello, dichas características buscadas describen, normalmente, puntos característicos, es decir, que comprenden la posición y/o la orientación de los puntos característicos. No obstante, se comprenderá que el presente procedimiento no se limita a este modo de realización, y todas las características que pueden ser de interés en biometría pueden extraerse al final de este procedimiento.

El presente procedimiento se distingue por que propone una etapa (a) de binarización de dicha imagen de entrada, por medio de una red neuronal convolucional, CNN, de manera que se genera una imagen denominada binaria. En efecto, mientras que la imagen de entrada es a color o, normalmente, en escala de grises, la imagen binaria solo está constituida por zonas blancas o negras, representando las zonas blancas las crestas y las zonas blancas los valles entre las crestas y, por tanto, es particularmente clara y legible.

La imagen binaria puede considerarse como un mapa de características “ intermedias” de la huella dactilar de entrada (“features map” ). Se indica que se conoce binarizar una imagen de huella dactilar como “ procesamiento previo” mediante algoritmos de procesamiento de la imagen, pero se ha descubierto que era posible realizar esta binarización de manera muy eficaz con redes neuronales de tamaño limitado que responden a las restricciones de una incorporación en un equipo de gran consumo, tal como un teléfono inteligente.

Más precisamente, binarizar la imagen facilita considerablemente los procesamientos posteriores para extraer las características buscadas de la huella (y, por tanto, limita los recursos necesarios), al tiempo que puede incorporarse fácilmente como va a mostrarse. De este modo, puede obtenerse un codificador completo incorporado que tiene los mismos rendimientos que los codificadores conocidos.

El presente procedimiento se pone en práctica en el interior de una arquitectura, tal como se representa en la Figura 1, gracias a un servidor 1 y un cliente 2. El servidor 1 es el equipo de aprendizaje (que pone en práctica el aprendizaje de la CNN) y el cliente 2 es un equipo de clasificación (que pone en práctica el presente procedimiento de extracción de características buscadas de una huella dactilar), por ejemplo, un terminal de un usuario.

Es totalmente posible que los dos equipos 1, 2 sean el mismo, pero de manera preferida el servidor 1 es el de un proveedor de solución de seguridad y el cliente 2 es un equipo de gran consumo personal, concretamente un teléfono inteligente, un ordenador personal, una tableta táctil, una caja fuerte, etc.

En todos los casos, cada equipo 1, 2 es, normalmente, un equipo informático remoto conectado a una red 10 de área amplia, tal como la red de Internet para el intercambio de datos. Cada uno comprende medios 11, 21 de procesamiento de datos de tipo procesador y medios 12, 22 de almacenamiento de datos, tal como una memoria informática, por ejemplo, una memoria flash o un disco duro.

El servidor 1 almacena una base de datos de aprendizaje, es decir, un conjunto de imágenes de huellas dactilares para las que ya se dispone de una imagen binarizada (y eventualmente de otra información, como mapas RFM, véase más adelante) en contraposición a las imágenes denominadas de entrada, que justamente se busca procesar.

El equipo cliente 2 comprende, ventajosamente, un escáner 23 de huellas dactilares, de manera que puede adquirirse directamente dicha imagen de entrada, normalmente para que un usuario pueda autenticarse.

CNN

Una CNN contiene generalmente cuatro tipos de capas que procesan sucesivamente la información:

- la capa de convolución, que procesa bloques de la entrada unos después de otros;

- la capa no lineal, que permite añadir ausencia de linealidad a la red y, por tanto, tener funciones de decisión mucho más complejas;

- la capa de puesta en común (llamada “combinación” , “ pooling” ), que permite agrupar varias neuronas en una sola neurona;

- la capa totalmente conectada, que conecta todas las neuronas de una capa a todas las neuronas de la capa anterior (para clasificación).

Las capas no lineales van, con frecuencia, precedidas por una capa de normalización discontinua (“capa BN” por “ batch normalization” ) antes de cada capa no lineal NL, de manera que se acelera el aprendizaje.

La función de activación de la capa no lineal NL es normalmente la función ReLU (Rectified Linear Unit, es decir, Unidad de Rectificación Lineal), que es igual a f(x) = max(0, x), y la capa de combinación (anotada POOL) más usada es la función AvgPool, que corresponde a una media entre los valores de un cuadrado (se ponen en común varios valores en uno solo).

La capa de convolución, anotada CONV, y la capa totalmente conectada, anotada FC, corresponden, generalmente, a un producto escalar entre las neuronas de la capa anterior y los pesos de la CNN.

Las arquitecturas típicas de CNN apilan algunos pares de capas CONV — NL, después añaden una capa POOL, y repiten este esquema [(CONV — NL)p — POOL] hasta obtener un vector de salida de tamaño suficientemente pequeño, después terminan por dos capas totalmente conectadas FC.

A continuación, se presenta una arquitectura de CNN típica:

ENTRADA —— [[CONV —— NL]p — — POOLf — — FC — — FC

En la presente CNN, se comprende que no se necesita ninguna capa FC, en la medida en que el resultado esperado no es una clase, sino la imagen binaria, que es un mapa de características.

De manera general, dicha CNN comprende un conjunto de capas de convolución sucesivas. De manera conocida y como se explicó anteriormente, cada una de dichas capas de convolución puede ir seguida por una capa de normalización discontinua BNy/o por una capa no lineal, en particular ReLU, preferiblemente las dos en este orden.

Para realizar la binarización, dicho conjunto de capas de convolución sucesivas presenta un tamaño de filtro decreciente y un número de filtros decrecientes. El decrecimiento del tamaño de filtro permite, de este modo, una fusión de la imagen mediante reducción iterativa. Dicho conjunto, como se verá, está dispuesto al “ final” de la CNN, es decir, a nivel de su salida: la última capa de convolución de dicho conjunto presenta ventajosamente un tamaño de filtro de 1x1 y genera en la salida dicha imagen binaria.

En efecto, se recuerda que una capa de convolución está definida por un conjunto de filtros (o “ núcleos” ) puestos en práctica en un bloque de la entrada, es decir, una subsuperficie. El número de los filtros puestos en práctica define el tamaño del vector de salida y el tamaño de estos filtros define la extensión de la superficie considerada. El uso de filtros de gran dimensión permite considerar un entorno bastante grande, pero aumenta de manera exponencial la huella en memoria, por ello es necesario conservar un equilibrio.

De este modo, la convolución final de tamaño de filtro de 1x1 permite fusionar la información multidimensional procedente de las capas anteriores en un mapa de características de dimensión de 1 que constituye la imagen binaria.

Debe anotarse que esta última capa de convolución puede presentar un único filtro, es decir, generar únicamente la imagen binaria, o presentar un segundo filtro, de manera que se genera además una máscara de confianza asociada a dicha imagen binaria.

La Figura 2 representa una primera posibilidad de CNN de binarización que presenta un tamaño y una huella de memoria mínima.

En efecto, dicha CNN se reduce a dicho conjunto de capas de convolución sucesivas y comprende dos capas de convolución “de cabeza” que crean profundidad.

La primera capa de convolución presenta ocho filtros de un tamaño de 5x5, la segunda capa de convolución presenta ocho filtros de un tamaño de 3x3 y la última capa de convolución anotada CONVfnai (la tercera) presenta un filtro de un tamaño de 1x1.

Se ve de este modo que se dispone de un número de filtros constante de ocho, antes de reducirse a uno, es decir, que en la práctica es solamente la última capa CONVfnai la que permite la binarización (y no tiene otras salidas).

Esta CNN es muy interesante, a la vista de su tamaño particularmente reducido, pero, si se desea mejorar la calidad, es preferible tener un número de filtros estrictamente decreciente en el conjunto, es decir, una disminución progresiva del número de filtros.

Descompactación

De este modo, haciendo referencia a la Figura 3, en lugar de la última capa de convolución CONVfnai que garantiza solo la binarización, se prevé un bloque denominado de “descompactación” que contiene una pluralidad de las mismas (anotadas CONV¿^dec , i e [1;nJ, n > 2, es decir, al menos dos capas de convolución sucesivas, ventajosamente tres, significando DEC “descompactación” ).

El número de filtros disminuye en un paso constante de una capa de convolución CONV¿dec del bloque de descompactación a la siguiente CONV¡DEc. La última capa CONVDec del bloque de descompactación tiene, de manera preferida, un tamaño de filtro de 1x1 como la capa de convolución final CONVf¡nai presentada anteriormente, pero la reducción progresiva del tamaño de filtro permite evitar la pérdida de información y, por tanto, disminuir el ruido. De este modo, se mejora sustancialmente la calidad de la binarización.

En el bloque de descompactación se define el número de mapas de características en la entrada del bloque NBfeatjn, el número de mapas de características en la salida del bloque NBfeat_out y el número de capas de convoluciones en el bloque NBstep (que corresponde a n, tal como se definió anteriormente). Dicho paso constante “ step” se define entonces por la fórmula step = NBfeat-m WB/ em-°M'.

NBstep

Por ejemplo, definiendo que se dispone de tres capas en el bloque como en el ejemplo de la Figura 3, que el número de mapas de características en la salida es de dos (como se explica, imagen binaria y máscara de confianza) y que el número de mapas de características en la entrada es de ocho (como en la salida de la segunda capa de convolución de la CNN de la Figura 2), entonces se obtiene step = 2, es decir, que la primera capa de convolución CONVbec de la CNN de la Figura 3 presenta seis filtros, la segunda capa de convolución CONV2dec de la CNN de la Figura 3 presenta cuatro filtros y, como se prevé, la tercera capa de convolución (final) CONV3dec de la CNN de la Figura 3 presenta dos filtros. En las zonas de la imagen de entrada de menor calidad, se constata que el bloque de descompactación permite tener en cuenta una información espacial más extendida y, de este modo, proponer una segmentación continua. Por el mismo motivo, cuando existe una zona de oclusión en la imagen, la descompactación permite recuperar una conectividad entre las crestas y los valles en los bordes de esta región sin información.

Se anota que es totalmente posible que haya otras capas de convolución en la CNN, en particular aguas arriba y/o en paralelo al bloque de descompactación.

Convoluciones de atrous

Ventajosamente, como se ve en la Figura 3, al menos una capa de convolución del bloque de descompactación distinta de la última, es decir, CONV¿dec, i e [1; n - 1], es de tipo de filtro dilatado, denominado Atrous.

En efecto, para proponer una binarización de calidad de una huella dactilar, es necesario poder distinguir las diferencias existentes entre un valle y una línea de la piel o una cicatriz presente en el dedo del usuario.

Esta toma de decisión implica necesariamente el uso de una información consolidada en un entorno lo bastante grande y se vuelve al interés de los filtros de gran tamaño, que presentan, desgraciadamente, una gran huella de memoria.

El uso de capas de convoluciones de Atrous (véase, por ejemplo, el documento Chen, L. C., Papandreou, G , Schroff, F., y Adam, H. (2017). Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587., del que se extrae la Figura 4) permite eliminar esta limitación. Partiendo de un filtro de tamaño reducido (por ejemplo, de 3x3) es posible extender el campo de visión del mismo, distribuyendo los coeficientes usados según un espaciamiento seleccionado, véase la Figura 4. Esto también puede verse como el uso de un filtro parsimonioso de la dimensión final.

Dicho de otro modo, mientras que en una convolución “ normal” , es decir, de filtro no dilatado, el tamaño del campo de visión y el tamaño del filtro coinciden, en una convolución de Atrous, es decir, de filtro dilatado, el tamaño del campo de visión es superior al tamaño del filtro, debido al espaciamiento entre los píxeles considerados.

En particular, independientemente del tamaño del campo de visión, puede conservarse un tamaño de filtro razonable de entre 3x3 y 7x7 compatible con la incorporación en un equipo de gran consumo.

Y, de manera preferida, cada otra capa de convolución CONV¿dec, Vi e [ 1 ;n - 1 ] de dicho bloque de descompactación, es de tipo de filtro dilatado, denominado Atrous (es decir, solo la última es una convolución “ normal” , debe anotarse que una capa de convolución de filtro de tamaño de 1x1 no puede ser de Atrous, siendo necesariamente el tamaño del campo de visión también de 1x1), con un tamaño de campo de visión decreciente. En el ejemplo de la Figura 3, las capas de convolución primera y segunda, de este modo de tipo Atrous, presentan cada una un tamaño de filtro de 3x3, pero su tamaño de campo de visión es respectivamente de 9x9 y 5x5.

Inicio

Un problema que se encuentra en la extracción de características de huellas dactilares, es la deformación de los dedos. Para que la CNN sea robusta frente a esta deformación, es deseable que pueda gestionar diferentes resoluciones correspondientes a diferentes niveles de aumento.

La introducción de tal componente de “ múltiples resoluciones” es una posibilidad ofrecida por bloques denominados de inicio, que constituyen la red del mismo nombre descrita, por ejemplo, en el documento Szegedy, C , Liu, W, Jia, Y., Sermanet, P , Reed, S., Anguelov, D.,... y Rabinovich, A. (junio de 2015). Going deeper with convolutions. Cvpr., que podrá consultar el experto en la técnica.

De este modo, la presente CNN comprende, ventajosamente, un bloque de inicio de este tipo, cuyo un modo de realización ventajoso se representa en la Figura 5.

Un bloque, denominado de inicio, presenta una pluralidad de ramificaciones paralelas con capas de convolución CONVj!NC2, k E [1 ;íj, / > 2 que presentan tamaños de campo de visión diferentes, aportando las diferentes ramificaciones información a cada una de las escalas. En el ejemplo de la Figura 4, se tiene i = 7, y los siguientes tamaños de campo de visión (en el orden de las ramificaciones): 1x1,3x3, 5x5, 7x7, 15x15, 30x30, 60x60.

Al final del bloque de inicio, un módulo de concatenación acumula los mapas de características de las diferentes ramificaciones.

De manera preferida, cada ramificación presenta dos capas, de las cuales una capa de convolución de 1x1 (concretamente en la entrada, más adelante se verá el caso particular de la primera ramificación, es decir, k = 1).

De este modo, al menos una ramificación del bloque de inicio (preferiblemente todas salvo una o dos, en este caso el conjunto de las ramificaciones kE [3; íj,) comprende una capa de convolución CONVj!NC1 que presenta un tamaño de filtro de 1x1, después una capa de convolución CONVj!NC2 de tipo de filtro dilatado, denominado Atrous, de nuevo con un tamaño de filtro de entre 3x3 y 7x7. Más precisamente, todas las capas de convolución de Atrous con un tamaño de campo de hasta 15x15 (las de la 3a, 4a y 5a ramificaciones) pueden presentar un tamaño de filtro de 3x3, pero más allá (caso de la 6a ramificación, en la que la capa de convolución CONV6ÍNC2 presenta un tamaño de campo de visión de 30x30 y de la 7a ramificación, en la que la capa de convolución CONV7ÍNC2 presenta un tamaño de campo de visión de 60x60), se toman, preferiblemente, tamaños de filtros respectivamente de 5x5 y 7x7, para conservar un espaciamiento razonable entre dos coeficientes del filtro, garantizando un verdadero uso de la información comprendida en el campo de visión extendido, al tiempo que se conserva una huella de memoria limitada compatible con la incorporación en los dispositivos de gran consumo.

Por otro lado, una ramificación del bloque de inicio puede comprender una capa de convolución CONV2ínc1 que presenta un tamaño de filtro de 1x1, después una capa de convolución (CONV2ÍNC2) de filtro no dilatado de tamaño de 3x3; y/o una ramificación del bloque de inicio comprende una capa de combinación POOLi1nc1, después una capa de convolución CONV1ÍnC2 que presenta un tamaño de filtro de 1x1. En el ejemplo de la Figura 5, están las dos.

La 2a ramificación corresponde a un tamaño de campo de visión de tamaño de 3x3, es decir, el tamaño de filtro coincide obligatoriamente con el tamaño de campo de visión, de ahí el hecho de que la convolución sea normal y no de Atrous.

La primera ramificación corresponde a un campo de visión de tamaño de 1x1, es decir, un tamaño de filtro de 1x1. Esta ramificación puede comprender únicamente la capa de convolución de 1x1, pero, de manera preferida, se pone en 2a posición y está precedida por una capa de combinación (normalmente, AveragePooling 3x3, es decir, una media en un cuadrado de tamaño de 3x3), de manera que se aumenta la información de esta ramificación.

Cada capa de convolución CONV,fNC1'2 puede presentar un número de filtros relativamente alto, por ejemplo, 32, para crear profundidad. En el ejemplo de la Figura 5, la capa de convolución (CONV2ÍNC2) de filtro no dilatado de tamaño de 3x3, presenta como excepción 48 filtros, debido al interés de la información que codifica (es la última convolución “ no de Atrous” , es decir, que tiene acceso a toda la información de manera no fragmentada). El experto en la técnica sabrá adaptar el número de filtros en función de las restricciones, en particular de huella de memoria, que deben respetarse.

Ejemplo de CNN

De manera preferida, la CNN comprende sucesivamente el o los bloques de inicio (preferiblemente, dos), después el bloque de descompactación.

En un modo de realización particularmente preferido, ilustrado en la Figura 6 , la CNN comprende en paralelo al bloque de descompactación, un bloque denominado de especialización que genera otros mapas útiles, y, en particular, al menos un mapa de orientación de crestas de la huella dactilar representada por dicha imagen de entrada, denominado mapa RFM, y, dado el caso, la máscara de confianza asociada. Más precisamente, la ramificación produce un mapa de senos y un mapa de cosenos, que codifican por los dos el RFM.

En efecto, los mapas RFM tienen, generalmente, una resolución inferior a la imagen de entrada o la imagen binaria (por ejemplo, una octava parte) y la separación en dos ramificaciones permite integrar esta diferencia de resolución y permitir una especificación del aprendizaje para los diferentes mapas considerados.

Por tanto, se tiene un “tronco común” constituido por bloques de inicio, después dos ramificaciones, la ramificación de especialización (es decir, el bloque de especialización) y la ramificación de binarización (es decir, el bloque de descompactación)

En el ejemplo de la Figura 6, el bloque de descompactación está constituido por una capa de combinación (por ejemplo, AveragePooling 8x8, de manera que se divide la resolución entre ocho).

Una red de este tipo resulta particularmente interesante debido a su aptitud para producir a la vez la imagen binaria y el mapa RFM, para un tamaño razonable.

Aprendizaje y clasificación

Ventajosamente, el procedimiento comienza por una etapa (a0) de aprendizaje, mediante medios 11 de procesamiento de datos del servidor 1, a partir de una base de imágenes de huellas dactilares ya binarizadas, de parámetros de dicha CNN.

Este aprendizaje puede realizarse de manera clásica, por ejemplo, usando el entramado de Keras. La función de coste de aprendizaje puede estar compuesta por una vinculación a los datos clásica - error cuadrático medio - y por una regularización mediante variación total.

Debe anotarse que dicha base de imágenes de huellas dactilares ya binarizadas puede construirse usando un algoritmo conocido de binarización (por ejemplo, mediante aumento de contraste) y, de manera similar, para la máscara de confianza. Por otro lado, de manera clásica, pueden ponerse en práctica algoritmos de aumentos, de manera que se reduce el tamaño de la base de aprendizaje, para garantizar la robustez de la CNN frente a defectos de adquisición habituales.

En el caso en el que la CNN presenta una ramificación de especialización, esta puede entrenarse si también se dispone, para cada huella, de dicha base de datos del mapa de orientación correspondiente (dado el caso, usando de nuevo un algoritmo conocido).

La CNN aprendida puede almacenarse, dado el caso, en medios 22 de almacenamiento de datos del cliente 2 para uso en la binarización. Debe anotarse que puede incorporarse la misma CNN en numerosos clientes 2, solo se necesita un aprendizaje.

En una etapa (a) principal, se binariza dicha imagen de entrada mediante los medios 21 de procesamiento de datos del cliente 2, por medio de la CNN incorporada, de manera que se genera la imagen binaria.

A continuación, en una etapa (b), dicha imagen binaria puede procesarse de manera que se extraen dichas características buscadas de la huella dactilar representada por dicha imagen de entrada, que pueden comprender, concretamente, la posición y/o la orientación de puntos característicos.

De manera preferida, el procedimiento comprende, además, una etapa (c) de identificación o de autenticación de dicho individuo, mediante comparación de las características buscadas extraídas de la huella dactilar representada por dicha imagen de entrada, con las características de huellas dactilares de referencia, que podrá ponerse en práctica, de cualquier manera conocida, por el experto en la técnica.

Por ejemplo, el cliente 2 puede almacenar las características de las huellas de uno o varios usuarios autorizados como huellas de referencia, de manera que se gestiona el desbloqueo del equipo cliente 2 (en particular, en el caso de una imagen de entrada adquirida directamente por un escáner integrado 23): si las características extraídas corresponden a las esperadas de un usuario autorizado, los medios 21 de procesamiento de datos consideran que el individuo que intenta autenticarse está autorizado, y proceden al desbloqueo.

Alternativamente, el cliente 2 puede enviar las características extraídas a una base de datos remota de dichas características de huellas dactilares de referencia, para identificación del individuo

Se han puesto en práctica diferentes pruebas del presente procedimiento. Se ha constituido una base de imágenes de huellas adquiridas a una resolución de 500 dpi. El 90 % de las imágenes se dedican al aprendizaje, el 10 % a la evaluación. La imagen en la entrada de la red es un parche seleccionado en una zona aleatoria de la imagen de resolución completa.

Una primera prueba compara, para ejemplos de imágenes de entrada, las imágenes binarias correspondientes predeterminadas y las imágenes binarias obtenidas mediante la puesta en práctica de la CNN mínima de la Figura 2.

Los resultados obtenidos son de buena calidad, la delimitación de cresta/valle obtenida es evidente y la normalización TV permite garantizar una buena homogeneidad para cada una de estas categorías. No obstante, se constata un ligero desequilibrio de distribución entre valles y crestas. Por otro lado, se desprende que la CNN mínima algunas veces conecta crestas por error (cicatrices/líneas de la piel pueden considerarse la mayor parte de las veces como crestas).

En una segunda prueba, usando esta vez la CNN preferida de la Figura 6, se comparan para los ejemplos de imagen de entrada, por una parte, las imágenes binarias correspondientes predeterminadas y las imágenes binarias obtenidas, y, por otra parte, las máscaras de confianza correspondientes predeterminadas y las máscaras de confianza obtenidas.

El enfoque de múltiples resoluciones, combinado con el uso de filtros de mayores dimensiones, permite garantizar una buena continuidad de la segmentación a nivel de la línea de la piel y se constata una distribución equilibrada entre valles y crestas, así como una robustez frente a las cicatrices.

Otras pruebas mostraron que, en las zonas de menor calidad, el bloque de descompactación permite tener en cuenta una información espacial más extendida y, de este modo, proponer una segmentación continua. Por el mismo motivo, cuando existe una zona de oclusión en la imagen, la descompactación permite recuperar eficazmente una conectividad entre las crestas y los valles en los bordes de esta región sin información.

Por otro lado, la adecuación observada para la ramificación de binarización se confirma en la ramificación de especialización (dedicada a los mapas de orientación, tal como RFM).

Producto de programa de ordenador

Según un segundo y un tercer aspectos, la invención se refiere a un producto de programa de ordenador que comprende instrucciones de código para la ejecución (en particular, en los medios 11,21 de procesamiento de datos del servidor 1 y/o del cliente 2) de un procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, así como medios de almacenamiento legibles por un equipo informático (una memoria 12, 22 del servidor 1 y/o del cliente 2) en el que se encuentra ese producto de programa de ordenador.

Claims

REIVINDICACIONES

i. Procedimiento de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, comprendiendo el procedimiento la puesta en práctica, mediante medios (21) de procesamiento de datos de un cliente (2), de etapas de:

(a) Binarización de dicha imagen de entrada, por medio de una red neuronal convolucional, CNN, de manera que se genera una imagen denominada binaria, comprendiendo dicha CNN un bloque, denominado de descompactación, de capas de convolución sucesivas (CONV¿Dec, i e [1 ;n j, n > 2) que presentan un tamaño de filtro decreciente y un número de filtros decreciente, tal que el número de filtros disminuye en un paso constante de una capa de convolución (CONV;Dec ) del bloque de descompactación a la siguiente (CONVDl);

(b) Procesamiento de dicha imagen binaria, de manera que se extraen dichas características buscadas de la huella dactilar representada por dicha imagen de entrada.
2. Procedimiento según la reivindicación 1, en el que la última capa de convolución (CONVeec) de dicho bloque de descompactación presenta un tamaño de filtro de 1x1 y genera en la salida dicha imagen binaria.
3. Procedimiento según la reivindicación 2, en el que al menos otra capa de convolución de dicho bloque de descompactación es de tipo de filtro dilatado, denominado Atrous, con un tamaño de filtro de entre 3x3 y 7x7.
4. Procedimiento según la reivindicación 3, en el que cada otra capa de convolución de dicho bloque de descompactación es de tipo de filtro dilatado, denominado Atrous, con un tamaño de campo de visión decreciente.
5. Procedimiento según una de las reivindicaciones 2 a 4, en el que la última capa de convolución (CONVDec) de dicho bloque de descompactación genera, además, una máscara de confianza asociada a dicha imagen binaria.
6. Procedimiento según una de las reivindicaciones 1 a 5, en el que dicha CNN comprende al menos un bloque, denominado de inicio, que presenta une pluralidad de ramificaciones paralelas con capas de convolución (CONV^nC2, k e [1; íj, I > 2) que presentan tamaños de campo de visión diferentes.
7. Procedimiento según la reivindicación 6, en el que al menos una ramificación del bloque de inicio comprende una capa de convolución (CONV^nc1) que presenta un tamaño de filtro de 1x1, después una capa de convolución (CONV^nC2) de tipo de filtro dilatado, denominado Atrous, con un tamaño de filtro de entre 3x3 y 7x7.
8. Procedimiento según una de las reivindicaciones 6 y 7, en el que una ramificación del bloque de inicio comprende una capa de convolución (CONV2ínc1) que presenta un tamaño de filtro de 1x1, después una capa de convolución (CONV2ÍnC2) de filtro no dilatado de tamaño de 3x3; y/o una ramificación del bloque de inicio comprende una capa de combinación (POOL1 INC1), después una capa de convolución (CONV/nC2) que presenta un tamaño de filtro de 1x1.
9. Procedimiento según una de las reivindicaciones 6 a 8, en el que la CNN comprende sucesivamente el o los bloques de inicio, después el bloque de descompactación.
10. Procedimiento según la reivindicación 9, en el que la CNN comprende en paralelo al bloque de descompactación, un bloque denominado de especialización, que genera al menos un mapa de orientación de crestas de la huella dactilar representada por dicha imagen de entrada, denominado mapa RFM, procesándose también dicho mapa RFM en la etapa (b).
11. Procedimiento según una de las reivindicaciones 1 a 10, que comprende una etapa (a0) previa de aprendizaje, mediante medios (11) de procesamiento de datos de un servidor (1), a partir de una base de imágenes de huellas dactilares ya binarizadas, de parámetros de dicha CNN.
12. Procedimiento según una de las reivindicaciones 1 a 11, en el que dichas características buscadas que van a extraerse de la huella dactilar representada por dicha imagen de entrada, comprenden la posición y/o la orientación de puntos característicos.
13. Procedimiento según una de las reivindicaciones 1 a 12, en el que dicha huella dactilar representada por la imagen de entrada, es la de un individuo, comprendiendo el procedimiento, además, una etapa (c) de identificación o de autenticación de dicho individuo mediante comparación de las características buscadas extraídas de la huella dactilar representada por dicha imagen de entrada con las características de huellas dactilares de referencia.
14. Producto de programa de ordenador, que comprende instrucciones de código para la ejecución de un procedimiento según una de las reivindicaciones 1 a 13, de extracción de características buscadas de una huella dactilar representada por una imagen de entrada, cuando se ejecuta dicho programa en un ordenador.
15. Medio de almacenamiento legible por un equipo informático, en el que un producto de programa de ordenador comprende instrucciones de código para la ejecución de un procedimiento según una de las reivindicaciones 1 a 13, de extracción de características buscadas de una huella dactilar representada por una imagen de entrada.