ES2471142T3

ES2471142T3 - Identificación basada en datos biom�tricos cifrados

Info

Publication number: ES2471142T3
Application number: ES08866899.1T
Authority: ES
Inventors: Bruno Kindarji; Herv� Chabanne; Julien Bringer
Original assignee: Morpho SA
Current assignee: Idemia Identity and Security France SAS
Priority date: 2007-12-21
Filing date: 2008-12-19
Publication date: 2014-06-25
Anticipated expiration: 2028-12-19
Also published as: US20100281269A1; EP2248071A1; FR2925723B1; US8700912B2; EP2248071B1; WO2009083517A1; FR2925723A1

Abstract

Procedimiento de gestión de una base de datos (10), caracterizada por que la citada base de datos comprende datos biométricos almacenados en forma cifrada así como un conjunto de filtros (B1, ..., Bm) asociados respectivamente a identificadores de filtro, el citado procedimiento comprende las etapas siguientes al nivel de una entidad de gestión: /1/ recibir (101) un dato biométrico (bi); /2/ almacenar, en una dirección dada (@ bi) en la base de datos, el citado dato biométrico bajo una forma codificada (E(bi)); /3/ obtener palabras claves a partir de un primer conjunto de funciones de troceado (H) y del citado dato biométrico, teniendo las funciones de troceado del primer conjunto cada una por característica proporcionar valores de entrada vecinos en un espacio métrico, valores muy vecinos, preferiblemente un mismo valor, a la salida en un segundo espacio métrico; /4/ asociar un subconjunto de filtros de indexación a cada palabra clave seleccionando, para cada palabra clave, filtros en función de los identificadores de filtro respectivamente asociados, de las citadas palabras clave y de un segundo conjunto de funciones de troceado (H'); y /5/ asociar la citada dirección dada en forma codificada a cada uno de los filtros del subconjunto de filtros de indexación.

Description

Identificaci�n basada en datos biom�tricos cifrados

La presente invención se refiere a un control basado en datos biom�tricos almacenados en una base de datos, y más particularmente, cuando estos datos est�n almacenados en una forma cifrada.

Los sistemas de identificación basados en datos biom�tricos comprenden en general una entidad de control que tiene acceso a una base de datos que contiene datos biom�tricos sobre la base de los cuales la entidad de control es capaz de identificar a una persona.

Los datos biom�tricos almacenados en esta base de datos proceden de una fase de inscripción (o ‘enrollment’ en inglés), en el curso de la cual una parte de un ser humano, tal como por ejemplo huellas o el iris, es captada bajo la forma de datos numéricos biom�tricos para ser finalmente almacenados y ser utilizados como datos de referencia para efectuar una identificación de una persona.

En efecto, cuando la entidad de control recibe nuevos datos biom�tricos, es entonces capaz de determinar la identificación de la persona a la que est�n asociados estos nuevos datos sobre la base de una comparación entre estos datos biom�tricos recibidos y los datos biom�tricos de referencia almacenados en la base de datos.

Conviene observar que es en general importante que tales datos biom�tricos permanezcan confidenciales, con el fin de poder proteger la vida privada de las personas a las cuales est�n asociados estos datos.

As�, puede preverse para ello almacenar estos datos biom�tricos bajo una forma cifrada en la base de datos.

No obstante, en este caso, la etapa de comparación consistente en comparar datos biom�tricos recibidos desde una entidad de control con datos biom�tricos almacenados en la base de datos puede entonces revelarse mucho más compleja que en el caso en el que estos datos biom�tricos son almacenados en la base de datos sin cifrado.

Se puede entonces imaginar que para hacer esta búsqueda en la base de datos, sea necesario descifrar los datos biom�tricos que est�n almacenados en ella. Pero una etapa de descifrado es susceptible de gravar enormemente la eficacia de tal búsqueda en la base de datos, as� como de limitar la seguridad final.

Por otro lado, se conocen sistemas de búsqueda adaptados para efectuar búsquedas en una base de datos que comprende datos codificados.

En efecto, existen sistemas de codificación, o ‘searchable encryption’ en inglés, tal como el descrito en el documento de D. Boneh, G. Di Crescenzo, R. Ostrovsky y G. Persiano, Public Key Encryption with Keyword Search, EUROCRYPT 2004, que permiten hacer una búsqueda en una base de datos cifrados utilizando palabras claves que, ellos mismos, son determinados sobre la base de los mismos datos pero en su forma no cifrada. Tal sistema puede ser ventajoso particularmente para gestionar el archivado de e-mails por ejemplo. Tales búsquedas basadas en palabras claves evitan proceder a una búsqueda exhaustiva en la base de datos considerada y permiten aumentar la eficacia de la búsqueda.

Podr�a entonces resultar interesante utilizar tales sistemas en el contexto de la identificación basada en datos biom�tricos cifrados.

No obstante, la aplicación de este tipo de sistema para efectuar búsquedas por palabras claves en una base de datos biom�tricos cifrados puede revelarse errónea si no se procede al descifrado de los datos almacenados.

En efecto, es posible, e incluso muy probable, que los datos biom�tricos obtenidos en una fase de inscripción diferente substancialmente de los datos biom�tricos que son obtenidos para una misma persona tras una fase de identificación. En un contexto tal, es entonces posible que los resultados obtenidos mediante la aplicación de los principios de los sistemas de codificación anteriores no sean pertinentes.

En un artículo datado el 5 de Mayo de 2004 y titulado Secure Indexes (disponible en la dirección crypto.stanford.edu/~eujin/papers/secureindex/secureindex.pdf), Eu-Jin Goh describe un índice de seguridad y formula un modelo de seguridad para los índices, conocido bajo el nombre de seguridad semántica frente a un ataque adaptativo de palabra clave elegida (cuyo acr�nimo es ind-cka). El autor describe una construcción de índice llamada z-idx. El autor la presenta como una construcción eficaz y de seguridad contra ind-cka. Esta construcción utiliza funciones pseudoaleatorias y filtros de Bloom. El artículo no se refiere a la biometría

El documento Public Key encryption that allows PIR queries (Dan Boneh et al. 2007) divulga un sistema de búsqueda adaptado para efectuar búsquedas en una base de datos que comprende datos codificados.

La presente invención se dirige a mejorar la situación.

Un primer aspecto de la presente invención propone un procedimiento de gestión de una base de datos que comprende datos biom�tricos almacenados en forma cifrada;

comprendiendo la citada base de datos un conjunto de filtros de indexaci�n asociados respectivamente a identificadores de filtro;

5 el citado procedimiento comprende las etapas siguientes al nivel de una entidad de gestión:

/1/ recibir un dato biom�trico;

/2/ almacenar, en una dirección dada en la base de datos, el citado dato biom�trico bajo una forma codificada;

/3/ obtener palabras claves a partir de un primer conjunto de funciones de troceado y del citado dato

10 biom�trico, teniendo cada una de las funciones de troceado del primer conjunto por características proporcionar valores de entrada vecinos en un espacio métrico, valores muy vecinos, preferiblemente un mismo valor, a la salida en un segundo espacio métrico;

/4/ asociar un subconjunto de filtros a cada palabra clave seleccionando, para cada palabra clave, filtros en función de los identificadores de filtro respectivamente asociados, citadas palabras clave y un

15 segundo conjunto de funciones de troceado; y

/5/ asociar la citada dirección dada en forma codificada a cada uno de los filtros del subconjunto de filtros.

Se comprende a continuación por los términos ‘filtro de indexaci�n’, un filtro que permite representar relaciones entre datos por asociación a índices de filtros, como por ejemplo los filtros de Bloom.

20 La base de datos est� por consiguiente estructurada en esta memoria sobre la base de filtros. Estos filtros est�n inicialmente vacíos. Después, cuando tienen lugar las recepciones de datos biom�tricos que se van a registrar, son actualizados.

Ventajosamente, esta actualización es efectuada de tal manera que los filtros considerados son respectivamente asociados a palabras claves que son obtenidas a partir del dato biom�trico recibido.

25 Procediendo de este modo, se obtiene una base de datos en la cual es posible realizar búsquedas por palabra clave sobre la base de datos almacenados en forma codificada, sin tener que hacer una búsqueda exhaustiva en la base de datos.

En efecto, gracias a estas disposiciones, se asocia en esta base de datos, a través de la estructura de los filtros, al menos un dato biom�trico a un subconjunto de filtros.

30 Además, las palabras claves que est�n respectivamente asociadas al conjunto de los filtros proceden ventajosamente del dato biom�trico recibido. No existe por consiguiente ninguna necesidad de almacenar estas palabras claves de búsqueda para efectuar a continuación búsquedas ulteriores en la base de datos as� construida.

En efecto, cuando se solicita una búsqueda en una base de datos tal, es suficiente determinar las palabras clave correspondientes a la búsqueda mediante la aplicación de una familia de funciones de troceado sobre el dato

35 biom�trico que se va a controlar.

En un modo de realización de la presente invención, la etapa /3/ es puesta en práctica de acuerdo con las etapas siguientes:

-: obtener primeros valores troceados respectivos mediante la aplicación del primer conjunto de funciones de troceado al dato biom�trico;

40 -obtener las citadas palabras clave combinando los citados primeros valores troceados respectivamente con identificadores respectivos de las funciones de troceado del primer conjunto.

Procediendo de este modo, se pueden determinar palabras claves a partir de funciones de troceado utilizadas y de un dato biom�trico. Preferentemente, estas funciones de troceado del primer conjunto tienen cada una por características proporcionar valores de entrada vecinos en un espacio métrico, valores muy vecinos, preferiblemente

45 un mismo valor, a la salida en un segundo espacio métrico.

Procediendo de este modo, se prepara una base de datos adaptada a una búsqueda sobre la base de palabras clave que pueden ser valores variables, alrededor del dato biom�trico considerado. Dicho de otra forma, una búsqueda en esta base de datos adaptada para ciertas palabras claves puede ser realizada sobre palabras claves que no tienen de hecho los mismos valores pero que tienen valores vecinos. As�, tal base de datos codificados est�

adaptada a la búsqueda de palabras claves procedentes de datos biom�tricos que pueden presentar valores diferentes entre dos capturas distintas de datos biom�tricos.

En un modo de realización de la presente invención, la etapa /4/ es puesta en práctica de acuerdo con las etapas siguientes:

-: obtener segundos valores troceados mediante la aplicación del segundo conjunto de funciones de troceado respectivamente a las palabras clave;

-: obtener el subconjunto de filtros de indexaci�n, seleccionando cada filtro al cual est� asociado un identificador de filtro que corresponde a los citados segundos valores troceados.

Procediendo de este modo, se construye una base de datos adaptada para una búsqueda sobre la base de palabras claves, estando las relaciones entre las palabras claves y los datos biom�tricos representadas bajo la forma de filtros. Este segundo conjunto de funciones de troceado aplicadas a las palabras claves permite repartir la representación de las palabras claves sobre diferentes filtros. Este segundo conjunto de funciones de troceado puede corresponder a funciones de troceado de tipo criptogr�fico, de manera que se obtenga un reparto ventajoso.

Se puede prever que una primera y una segunda familia de funciones de troceado sean inicialmente determinadas, siendo los conjuntos de funciones de troceado primero y segundo una sub parte de las citadas familias de funciones de troceado primera y segunda respectivamente.

La etapa /4/ puede ser puesta en práctica sobre la base de un umbral de tolerancia de error. En un modo de realización de la presente invención, puede resultar ventajoso tomar en consideración a la base de la obtención de las palabras claves, no solamente los primeros valores troceados sino además valores vecinos de estos valores troceados. Tal es el caso, particularmente, cuando se utilizan funciones de troceado del primer conjunto de funciones de troceado del tipo de las descritas en un documento ‘Efficient search for approximate nearest neighbor in high dimensional spaces’ de Eyal Kushilevitz, Rafail Ostrovsky y Yuval Rabani.

El primer conjunto de funciones de troceado puede ser de tipo LSH, por ejemplo como el descrito en el documento de P. Indyk y R. Morwani, ‘Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality’, STOC 1998, y el segundo conjunto de funciones de troceado puede ser de tipo criptogr�fico.

Ventajosamente los filtros del conjunto de filtros pueden ser filtros de Bloom, tales como los definidos en ‘Space/time trade-offs in hash coding with allowable errors’ de Burton H. Bloom de 1970. Permiten codificar una propiedad de pertenencia a un conjunto optimizando el espacio de almacenamiento, de manera probabilística.

Un segundo aspecto de la presente invención propone un procedimiento de identificación de dato biom�trico en una base de datos gestionada de acuerdo con un procedimiento de gestión según el primer aspecto de la presente invención;

comprendiendo la citada base de datos una estructura basada en filtros (B1, …, Bn);

comprendiendo el citado procedimiento las etapas siguientes al nivel de una entidad de identificación que tiene acceso a la base de datos:

/i/ recibir una solicitud indicando palabras clave troceadas;

/ii/ en la base de datos (10), determinar filtros asociados a las citadas palabras clave troceadas;

/iii/ obtener una lista de direcciones en forma codificada de la base de datos que est�n respectivamente asociadas a los citados filtros determinados;

/iv/ decidir que las palabras claves tienen una correspondencia en la base de datos, cuando una misma dirección de la citada lista de direcciones est� asociada al menos a un número determinado de filtros.

Ventajosamente en esta memoria, se aprovecha la base de datos gestionada según un primer aspecto de la presente invención, haciendo una búsqueda con la ayuda de palabras claves basadas en propiedades de la estructura de filtros de esta base de datos, es decir, particularmente de los filtros de indexaci�n.

El número determinado de filtros puede ser elegido en función de la tasa de errores que se decide tolerar.

Se puede ventajosamente prever que las palabras clave troceadas sean recibidas desde un emisor al nivel de la entidad de identificación;

habiendo obtenido el citado emisor la palabra clave troceada según las etapas siguientes:

-: captar un dato biom�trico;

-: obtener valores troceados mediante la aplicación de un tercer conjunto de funciones de troceado respectivamente sobre el ciado dato biom�trico captado;

-: obtener las palabras clave combinando los citados primeros valores troceados respectivamente con identificadores respectivos de las funciones de troceado del tercer conjunto; y

-: obtener las palabras clave troceadas aplicando un cuarto conjunto de funciones de troceado a las citadas palabras clave.

Procediendo de este modo, al nivel del emisor, las palabras clave utilizadas para la búsqueda son obtenidas a partir de un nuevo dato biom�trico captado. Conviene por consiguiente observar aquí que las palabras claves utilizadas para la búsqueda en una base de datos según un modo de realización de la presente invención no est�n almacenadas sino que son obtenidas a partir de datos biom�tricos captados, ya sea en el momento de la inscripción con el fin de construir la base de datos, ya sea en el momento de una identificación de dato biom�trico.

Los conjuntos de funciones de troceado primero y tercero pueden ser procedentes de una primera familia de funciones de troceado y los conjuntos de funciones de troceado segundo y cuarto pueden ser procedentes de una segunda familia de funciones de troceado.

Se puede observar que puede resultar ventajoso prever la aplicación de un número de funciones de troceado procedentes de las familias de funciones de troceado primera y segunda en el momento de la inscripción mayor que el número de funciones de troceado procedentes de las familias de funciones de troceado primera y segunda aplicadas en el momento de una identificación.

Un tercer aspecto de la presente invención propone una entidad de gestión de base de datos adaptada para la puesta en práctica de un procedimiento de gestión según el primer aspecto de la presente invención.

Un cuarto aspecto de la presente invención propone una entidad de identificación adaptada para la puesta en práctica de un procedimiento de identificación según el segundo aspecto de la presente invención.

Un quinto aspecto de la presente invención propone un sistema de identificación que comprende una entidad de gestión de base de datos de acuerdo con el tercer aspecto de la presente invención; una base de datos y una entidad de identificación según el cuarto aspecto de la presente invención.

Otros aspectos, objetos y ventajas de la invención resultarán evidentes con la lectura de la descripción de uno de sus modos de realización.

La invención ser� igualmente mejor comprendida con la ayuda de los dibujos, en los cuales:

-: la figura 1 ilustra las principales etapas de una gestión de base de datos de acuerdo con un modo de realización de la presente invención;

-: la figura 2 ilustra un sistema de identificación de acuerdo con un modo de realización de la presente invención;

-: la figura 3 ilustra una fase de inscripción de acuerdo con un modo de realización de la presente invención;

-: la figura 4 ilustra una fase de identificación de acuerdo con un modo de realización de la presente invención.

En el contexto de la presente invención, se entiende por los términos ‘datos biom�tricos’ datos del ser humano que permiten identificarlo. Estos datos biom�tricos son en general obtenidos por un captador. Tal captador puede por consiguiente estar adaptado para captar datos biom�tricos de huella, de iris, de rostro, de grafología o incluso de firma vocal por ejemplo.

La figura 1 ilustra las principales etapas de un procedimiento de gestión de base de datos de acuerdo con un modo de realización de la presente invención.

Una entidad de gestión 11 est� a cargo de gestionar una base de datos 10 adaptada para almacenar datos biom�tricos codificados de manera que permita una búsqueda por palabra clave de acuerdo con un modo de realización.

La entidad de gestión 11 recibe un mensaje que comprende un dato biom�trico b para almacenar en la base de datos en forma codificada como dato de referencia para búsquedas ulteriores de identificación.

Este dato biom�trico b est� codificado al nivel de la entidad de gestión 11 en un dato biom�trico codificado E(b), con la ayuda por ejemplo de una clave pública.

A continuación este dato biom�trico codificado E(b) es transmitido a la base de datos 10 mediante un mensaje 102. Este último almacena este dato codificado en una etapa 103 y reenv�a un mensaje 104 a la entidad de gestión 11 indicando la dirección de almacenamiento @b del dato biom�trico codificado.

En una etapa 105, al nivel de la entidad de gestión 11, se obtienen palabras claves sobre la base de un primer conjunto de funciones de troceado hα, para α entero comprendido entre 1 y μ, y del dato biom�trico b. As�, en esta etapa, se puede prever aplicar las funciones de troceado hα del primer conjunto sobre el dato biom�trico b. Se obtienen entonces μ valores troceados denotados cα y que verifican

cα = hα (b)

Tal etapa de construcción de la base de datos permitir� por consiguiente reconocer que dos datos biom�tricos, uno de los cuales es un dato biom�trico codificado de referencia en la base de datos, proceden de una misma persona, incluso si estos dos datos biom�tricos son substancialmente diferentes.

Despu�s, se puede prever combinar estos valores cα con el valor α, por ejemplo concatenando α al valor cα. El valor procedente de tal concatenación es a continuación denotado cα// α. Después de tal etapa, se dispone entonces de μ palabras clave asociadas al dato biom�trico b.

En una etapa 106, se prev� entonces asociar a cada una de estas palabras clave un subconjunto de filtros de indexaci�n. Para constituir el subconjunto de filtros de indexaci�n para ser asociado a cada una de estas palabras claves, se pueden seleccionar filtros en el conjunto de filtros en función de los identificadores de filtro asociados, de las palabras claves y de un segundo conjunto de funciones de troceado h’β, para β comprendida entre 1 y ν.

Para ello, se puede prever seleccionar, en la etapa 107, los filtros que tienen un identificador correspondiente a los valores troceados obtenidos mediante la aplicación del segundo conjunto de funciones de troceado a las palabras clave. As�, se asocia la dirección del dato biom�trico a los filtros Bi que tienen los identificadores i que verifican:

Despu�s, en la etapa 108, en el subconjunto de los filtros seleccionados se almacena la dirección del dato biom�trico b bajo una forma codificada E(@b). Se asocia as� el dato biom�trico b al subconjunto de filtros de indexaci�n.

En un modo de realización de la presente invención, se ha previsto utilizar filtros de tipo de Bloom. Las secciones siguientes se refieren a este tipo de filtros.

Sea un conjunto D de tamaño relativamente grande, por ejemplo tal como el conjunto de las palabras binarias, y S un subconjunto de este conjunto D de tamaño I, entero positivo. Mediante la construcción de este tipo de filtro, se puede probar si un elemento x pertenece al conjunto S de manera probabilista. Se puede observar que es posible que algunas respuestas positivas sean falsas. Sin embargo, en el contexto de los filtros de Bloom no es posible que respuestas de pertenencia negativas sean falsas. Gracias a esta componente probabilista, se puede as� obtener una estructura más compacta que una simple tabla de correspondencia.

Se considera una familia de k funciones de troceado h, k entero positivo, definidas sobre el conjunto D y de valores de llegada en el conjunto de los enteros comprendidos entre 1 y m.

En estas condiciones, un filtro (k; m) de Bloom asociado corresponde a una familia de elementos binarios (B1, …, Bm), inicialmente inicializados al valor 0, definido como sigue:

para todo i entero comprendido entre 1 y l y j comprendido entre 1 y k, de define:

donde S est� constituido por los elementos ai para i entero comprendido entre 1 y l.

En este contexto, para verificar si un elemento x pertenece a S, es suficiente entonces verificar que para todo j entero comprendido entre 1 y k, se verifica la ecuación siguiente:

La probabilidad de respuesta positiva falsa puede entonces ser despreciable, para una elección de m y k que depende de l.

Los filtros de Bloom pueden ventajosamente aplicarse a un contexto de almacenamiento en un modo de realización de la presente invención. Se busca asociar un conjunto de valores a cada elemento de S. Aquí, durante la gestión de la base de datos, se busca asociar un conjunto de identificadores de filtro a cada palabra clave obtenida a partir de un dato biom�trico de acuerdo con un modo de realización de la presente invención.

Para ello, se propone en el documento � Public key encryption that allows PIR queries � de D. Boneh, E. Kushilevitz,

R. Ostrovsky, (Alfred Menezes, editor, CRYPTO, volumen 4622, páginas 50 – 67. Springer, 2007) una construcción de filtro de Bloom con almacenamiento.

Sea V un conjunto de valores y R una relación que asocia los elementos ν del conjunto V a los elementos del conjunto S.

Los filtros (B1; …; Bm) son todos inicializados en el conjunto vacío y después actualizados como sigue:

para todo i entero comprendido entre 1 y l, donde l es un entero que representa el tamaño del conjunto S, para todo j entero comprendido entre 1 y k, y para todo ν elemento del conjunto V tal que ν tiene una relación R con a i, entonces

se asocia el elemento ν al filtro . As�, si el conjunto X, incluido en el conjunto V, es asociado a un elemento a i de S entonces se tiene que, para todo j entero comprendido entre 1 y k, que el conjunto X est� incluido

en el filtro . Se tiene entonces, con una probabilidad elevada, el hecho de que un elemento a es elemento de S si y sólo si el

resultado de la intersección de todos los filtros

para j comprendido entre 1 y k, es no vacío.

En el modo de realización de la presente invención, se ha previsto aplicar una o incluso varias familias de funciones LSH (para ‘Locality Sensitive Hashing’ en inglés) en la entrada de tales filtros de Bloom. Una función LSH es una función de troceado que tiene por característica proporcionar un resultado similar cuando

se aplica a puntos que son vecinos en un espacio métrico. Tal función est� particularmente definida en el documento ‘Approximate nearest neighbors: Towards removing the cruse of dimensionality’ de P. Indyk et R. Motwani, STOC 1998.

Sea B un espacio métrico, U un conjunto de valores de llegada de las funciones de troceado de la familia considerada, r1 y r2 dos números reales que verifican: r1 < r2 sea p1 y p2 pertenecientes al conjunto [0, 1] y que verifican: p1 > p2

Sea una familia H de funciones de troceado h1, …, hμ. Toda función hi, para i comprendido entre 1 y μ, que va de B hacia U, es una función (r1, r2, p1, p2) – LSH, si para toda función hi en la familia H, y para todo elemento a y b del conjunto B, se tiene:

si dB (a, b) < r1, entonces Pr [hi (a) = hi (b)] > p1 y si dB (a, b) > r2, entonces Pr [hi (a) = hi (b)] < p2 donde dB (a, b) es la distancia entre a y b elementos de B en el espacio métrico B.

Se puede, por ejemplo, tomar una familia H de funciones LSH correspondiente al conjunto de todas las proyecciones canónicas en el espacio de Hamming {0, 1}n. En este caso, cada función hi hace corresponder un valor xi a un conjunto de valores (x1, …, xn). Después, para todos los r1 y r2 pertenecientes al conjunto de los enteros comprendidos entre 1 y n, y que verifican: r1 < r2, las funciones hi se denominan funciones (r1, r2, 1-r1/n, 1-r2/n) -LSH.

Se puede igualmente ventajosamente prever en el contexto de la presente invención poner en práctica una familia de funciones LSH tal como la que ha sido propuesta en el documento ‘Efficient search for approximate nearest neighbor in high dimensional spaces’.

Aqu�, por consiguiente, B es el conjunto de todas n-uplets de {0, 1}n y el vector que se va a trocear se denomina: x = (x1, …, xn) en B.

La construcción se basa en vectores aleatorios de pesos elegidos. As�, se toma β en el conjunto [0, 1] y se construye un vector aleatorio r de B de tal manera que cada coordenada de r es igual a 1 con una probabilidad β. La función de troceado hr inducida entonces puede estar definida como sigue:

Despu�s, se elige un número t de vectores r1 a rt para obtener una función de troceado h tal que:

As�, sea x un elemento de B, y r1, … rt elementos de B, correspondientes a vectores aleatorios que verifican que

cada bit de uno de estos elementos haya sido generado de manera aleatoria con una probabilidad de β. Existe entonces un número δ1 positivo tal que para todo ε positivo, a y b elementos de B, dos elementos de la base de datos tales que:

dB (x, a) ≤ l y

dB (x, b) > (1 + ε).l donde l = 1/2β, existe entonces una constante δ2 tal que:

δ2 = δ1 + δ donde δ es positivo y dependiente sólo del valor de ε para el cual:

Un filtro de Bloom permite codificar una propiedad de pertenencia a un conjunto optimizando el espacio, de manera probabilista.

Aqu�, en el contexto de la presente invención, se prev� basar tales filtros de Bloom en funciones de troceado de tipo LSH como las descritas anteriormente, seguidas por funciones de troceado de tipo criptogr�fico.

En un modo de realización de la presente invención, se prev� utilizar más espacio alrededor de los datos biom�tricos considerados con el fin de permitir una mayor tolerancia a los errores entre dos datos biom�tricos procedentes respectivamente de dos capturas diferentes pero efectuadas sobre una misma persona.

De manera más precisa, para una familia de funciones LSH tal como la definida anteriormente y en el documento ‘Efficient search for approximate nearest neighbor in high dimensional spaces’, se ha previsto calcular a partir de un conjunto de datos biom�tricos captado b, una pluralidad de conjuntos reducidos de datos biom�tricos c1 a cμ, tal que para i comprendido entre 1 y μ, se tiene:

ci = hi (b)

En este contexto, mediante la construcción de la familia de funciones utilizadas en esta memoria, es posible deducir, con una probabilidad importante, que conjuntos reducidos ci obtenidos mediante el mismo método que el utilizado para los conjuntos reducidos ci, pero a partir de una nueva captura de un dato biom�trico b’, est�n respectivamente a una distancia d de los conjuntos reducidos ci, verificando esta distancia d:

d < λt

donde λ es una constante, inferior a 1, que no depende más que de la primera familia de funciones de troceado H y de los errores que se estima poder tolerar entre el conjunto de datos biom�tricos b y el conjunto de datos biom�tricos b’.

Un filtro de Bloom (v, m) est� asociado a una segunda familia de funciones de troceado H’ = {h1’, …, hv’}, dirigiéndose esta segunda familia de funciones de troceado a establecer una buen reparto del almacenamiento de los datos en los diferentes filtros de Bloom Bi.

Se ha previsto entonces determinar valores troceados de todos los conjuntos reducidos ci’ que est�n a una distancia inferior a λt de ci mediante la aplicación de un conjunto de funciones de troceado de la segunda familia H’.

Procediendo de este modo, es posible evitar falsas respuestas negativas durante una búsqueda por palabra clave en la base de datos, con una probabilidad elevada.

La figura 2 ilustra un sistema de identificación de acuerdo con un modo de realización de la presente invención. Tal sistema de identificación comprende por consiguiente una entidad de gestión 11, un emisor 12 que comprende un captador de datos biom�tricos, una base de datos 10 y una entidad de identificación 13.

La entidad de gestión 11 tiene una interfaz con la base de datos 10 para gestionar la inscripción. Puede también tener una interfaz con el emisor en el caso en el que los datos biom�tricos suscritos provengan de este emisor. No existe ninguna limitación asociada a la fuente de los datos biom�tricos que recibe la entidad de gestión 11 en la fase de inscripción.

La entidad de identificación 13 est�, asimismo, adaptada para comunicarse por un lado con el emisor 12 y por otro lado con la base de datos 10 con el fin de gestionar una fase de identificación.

Se puede prever ya sea que las solicitudes de identificación basadas en palabras claves de acuerdo con un modo de realización de la presente invención sean directamente emitidas desde el emisor con destino a la base de datos 10. Para ello, se puede por consiguiente prever igualmente una interfaz entre el emisor 12 y la base de datos 10.

Sin embargo, en las secciones siguientes, a título de ejemplo, los mensajes entre el emisor y la base de datos pasan por la entidad de identificación 13.

Con el fin de aumentar el nivel de protección de la confidencialidad de los intercambios en el seno de este sistema de identificación, se puede ventajosamente prever utilizar enlaces de comunicación seguros.

Para ello, es posible prever la codificación y la firma de todos los intercambios efectuados entre las entidades de este sistema. Se pueden por ejemplo utilizar los principios de mecanismos de codificaciones tales como los descritos en el documento � A public key cryptosystem and a signature scheme based on discrete logarithms � de Taher El Gamal (en CRYPTO, páginas 10 – 18, 1984). Debe denotarse a continuación E una función de codificación asociada a este sistema y D la función de descodificaci�n correspondiente.

Conviene observarse que all� donde se enuncia una función de codificación, respectivamente de descodificaci�n, se puede fácilmente aplicar una función de cifrado, respectivamente de descifrado.

Por otra parte, igualmente con el objetivo de aumentar el nivel de protección de la confidencialidad de los datos manipulados en este sistema, se puede prever utilizar un protocolo de tipo ‘Private Block Retrieval protocol’ para una comunicación entre la base de datos 10 y la entidad de gestión 11 y/o para una comunicación entre la base de datos 10 y la entidad de identificación 13, tal como se define en el documento � Private information retrieval � de Benny Chor, Eyal Kushilevitz, Oded Goldreich, Madhu Sudan (J. ACM, 45(6): 965 - 981, 1998). Procediendo as�, la base de datos 10 no tiene acceso a ninguna información relativa al usuario que se est� suscribiendo o incluso en proceso de identificación.

En este sistema, se efectúa una captura sobre un usuario al nivel del emisor 12. Después, el dato biom�trico b’ procedente de esta captura es transmitido a la entidad de identificación 13 que, ella, solicita a la base de datos 10 un reconocimiento o identificación de este dato biom�trico b’ captado.

Si este dato biom�trico no es reconocido a la vista del contenido de la base de datos 10, eso significa que este usuario no est� registrado en esta base de datos y el emisor 12 puede ser informado.

En este sistema, una fase de inscripción es gestionada al nivel de la entidad de gestión 11, y se dirige a conseguir datos biom�tricos de referencia para los usuarios registrados, y una fase de identificación est� gestionada al nivel de la entidad de identificación 13 y se dirige a determinar si un usuario es previamente conocido por el sistema, sobre la base de una comparación entre datos biom�tricos de referencia y datos biom�tricos nuevamente captados.

La tabla siguiente describe una estructura de la base de datos 10 de acuerdo con un modo de realización de la presente invención.

Filtros: Contenido

B1: {E(a1,1), …, E(ap1,1)}

…

Bm: {E(a1,1), …, E(apm,m)}

Los diferentes filtros corresponden a filtros de Bloom respectivos que son utilizados en el contexto de la presente invención.

Los elementos E(ai, j) contenidos en los filtros B1 a Bm corresponden a direcciones de datos biom�tricos almacenados en la estructura de la tabla siguiente, en forma codificada.

La tabla siguiente describe la estructura del almacenamiento de los datos biom�tricos.

Etiqueta: Datos

@ (b1): E(b1)

…
…

@ (bN): E(bN)

En un modo de realización de la presente invención, se determina previamente una primera familia de funciones de troceado H de tipo LSH y una segunda familia de funciones de troceado de tipo criptogr�fico H’. El conocimiento de estas familias es compartido por el emisor 12 y la entidad de gestión 11. En cambio, no se requiere que estas familias de funciones de troceado se conozcan al nivel de la entidad de identificación 13.

Las funciones de gestión utilizadas para la fase de inscripción al nivel de la entidad de gestión 13 no son necesariamente las mismas que las utilizadas en el curso de la fase de identificación al nivel del emisor, sino que provienen de las mismas dos familias de funciones de troceado compartidas H y H’. Se puede por otra parte prever aplicar un mayor número de funciones de troceado en la fase de inscripción que en la fase de identificación, con el fin de permitir limitar los errores que ocurran durante una identificación.

En el curso de la fase de inscripción, se determina un número μ de funciones de troceado LSH, h1 a hμ, que van desde el espacio B al espacio {0, 1}t de la primera familia de funciones H.

Se determina igualmente un número v de funciones de la segunda familia H’, es decir dedicadas a un filtro de Bloom con almacenamiento, denotadas h’1 a h’v tales que:

Inicialmente, la base de datos 10 est� vacía y los filtros de Bloom Bj, para j comprendido entre 1 y m son inicializados en el conjunto vacío.

La figura 3 ilustra tal fase de inscripción de acuerdo con un modo de realización de la presente invención.

Cada usuario del sistema proporciona un conjunto de datos biom�tricos bi captados en la entidad de gestión 11 que est� adaptada para gestionar la base de datos. No existe ninguna limitación ligada al método utilizado para efectuar tal etapa. Se puede particularmente prever que esta etapa sea realizada por el emisor 12, mediante la entidad de gestión 11.

Despu�s, la entidad de gestión 11 codificada bi, en la etapa 21, con la ayuda de la función de codificación E y de una clave pk asociada a la entidad de gestión 11. El conjunto de datos as� codificado denotado E(bi) es almacenado en la base de datos 10.

La base de datos 10 es as� rellenada con conjuntos de datos biom�tricos codificados E(bi) respectivamente almacenados en direcciones @ bi en la base de datos en la etapa 22.

Despu�s, las direcciones @ bi son transmitidas desde la base de datos 10 a la entidad de gestión 11. Sobre la base de estas direcciones @ bi, la entidad de gestión es entonces capaz de actualizar los filtros de Bloom que est�n almacenados en la estructura tal como la descrita anteriormente en la base de datos 10.

Para ello, la entidad de gestión 11 calcula valores cα para todo α entero comprendido entre 1 y μ, de acuerdo con la ecuación siguiente:

cα = hα (bi) Cuando se utilizan funciones de troceado del tipo de las definidas en el documento ‘Efficient search for approximate nearest neighbor in high dimensional spaces’ citado anteriormente, se puede ventajosamente prever una etapa suplementaria para obtener las palabras clave.

Esta etapa suplementaria consiste en deducir conjuntos Cα correspondientes de acuerdo con la ecuación siguiente:

donde e es un vector de {0, 1}t de longitud t que comprende un número de 1 inferior a λt.

En este modo de realización, los elementos de Cα representan las palabras clave en el sentido de la presente invención. Conviene observar que esta etapa suplementaria es opcional. Es posible en efecto contentarse con aplicar la etapa

106 sobre las palabras claves cα// α. Después, se aplican las funciones de troceado de la segunda familia H’ sobre estas palabras clave, en la etapa 106. Para todo β número entero comprendido entre 1 y v, y ce perteneciente a Cα, un valor γe es determinado de acuerdo

con la ecuación siguiente:

donde ce // α representa una concatenación del valor de ce y del valor de α.

Finalmente, la entidad de gestión 11 actualiza los filtros de Bloom B1 a Bm almacenando las direcciones de los datos

biom�tricos bi bajo su forma codificada E(@ bi) (etapa 108); para todo i, en los filtros correspondientes , es decir los filtros que tienen un identificador, es decir, un índice, que corresponde al resultado de la aplicación de las funciones de la segunda familia de funciones de troceado H’ a las palabras clave.

Por consiguiente, la dirección de bi bajo una forma cifrada es almacenada en cada uno de los filtros de Bloom que tienen un índice γe que verifica la ecuación:

O incluso, en el caso en el que la etapa suplementaria descrita anteriormente no se aplica:

Tras esta etapa de inscripción, el sistema est� listo para efectuar una fase de identificación sobre la base de los datos biom�tricos codificados almacenados y de un nuevo dato biom�trico captado.

La figura 4 ilustra tal fase de identificación de acuerdo con un modo de realización de la presente invención.

En esta fase de identificación, un nuevo dato biom�trico b’ es captado al nivel del emisor 12. Este último elige entonces un conjunto de funciones de troceado entre la primera familia de funciones de troceado H. Aplica las funciones de este conjunto H al dato biom�trico b’. Después, concatena cada uno de los resultados as� obtenido en el índice de la función de troceado correspondiente para generar palabras clave. Estas palabras clave son a continuación sometidas a un conjunto de funciones de la segunda familia de funciones de troceado H’ para obtener

palabras clave troceadas con el fin de requerir una búsqueda en la base de datos 10 sobre la base de estas palabras clave troceadas.

El principio de la aplicación de las funciones de troceado de la primera familia H, después de la aplicación de las funciones de troceado de la segunda familia H’, al nivel del emisor, es casi similar al que es aplicado al nivel de la entidad de gestión en el curso de la fase de inscripción. No obstante, en aras de la simplificación, a continuación, el

resultado obtenido, es decir, las palabras clave troceadas, son denotadas , para i comprendido entre 1 y k, y para j comprendido entre 1 y s, donde k es el número de funciones de troceado aplicadas procedentes de la primera familia de funciones y s es el número de funciones de troceado aplicadas procedentes de la segunda familia de funciones, representando la notación hc el principio de aplicación de las funciones de troceado descritas anteriormente.

Despu�s, al nivel del emisor 12, se calcula, para α comprendido entre i1 e is el valor de

y para al menos

uno de los citados entero i.

Todos estos valores

son a continuación enviados a la entidad de identificación 13 en un mensaje 41. Sobre la base de estos valores, la entidad de identificación 13 realiza una solicitud 42 a la base de datos 10 de

manera que recupere datos asociados a los filtros Bu de índice u, tal que u es igual a los valores

recibidos.

La entidad de identificación 13 recibe a continuación la respuesta 43 a esta solicitud 42 desde la base de datos, para

todo u igual a .

As�, en esta etapa, la entidad de identificación 13 dispone direcciones de los conjuntos de datos biom�tricos cifrados que est�n próximos al dato biom�trico b’.

Entonces, la entidad de identificación 13, sobre la base de la clave utilizada para codificar, puede encontrar las direcciones de los datos biom�tricos almacenados y compararlas entre s�.

A continuación, puede ventajosamente decidir que, si al menos una dirección aparece en todos los Bu recuperados, las direcciones obtenidas son relativas a uno o a varios datos biom�tricos codificados que corresponden al dato biom�trico nuevamente captado b’. En este caso, el usuario en curso de identificación es entonces considerado como identificado.

Puede resultar ventajoso prever restringir la información obtenida por la entidad de identificación 13. Para ello, en un modo de realización de la presente invención, la entidad de identificación 13 no recupera más que las direcciones que est�n presentes en un número mínimo de Bu. Este modo de realización est� por ejemplo basado en la utilización de un esquema de compartici�n de secreto (o ‘secret sharing scheme’ en inglés) tal como el que se describe por ejemplo en el documento de A. Shamir, ‘How to share a secret’, Commun. ACM, 1979.

En un modo de realización, se puede también prever no utilizar más que filtros de Bloom clásicos, sin la característica de almacenamiento, y/o no almacenar los datos biom�tricos cifrados si no se efectúan etapas ulteriores en el procedimiento de control.

En el caso en el que no haya ninguna dirección común que aparezca en todos los Bu recuperados, se decide entonces que el usuario en curso de identificación no ha sido identificado.

As�, la búsqueda por palabras clave en una base de datos de acuerdo con la presente invención, permite obtener una lista de direcciones de almacenamiento con respecto a candidatos potencialmente próximos de los datos biom�tricos de identificador b’.

A veces, en ciertos casos, puede resultar ventajoso consolidar esta lista efectuando una verificación final.

Para ello, se puede prever solicitar, a la base de datos, el envío de datos almacenados a las citadas direcciones de la lista, con el fin de poder efectuar una verificación sobre los datos biom�tricos recuperados y descifrados.

Se puede para ello prever un sistema de codificación que permite cifrar bits de tal manera que sea posible calcular de manera cifrada un XOR (+) de dos mensajes m y m’, a partir de mensajes cifrados de m y m’.

Se puede para ello basar en el esquema descrito en el documento ‘Evaluating 2-DNF Formulas on Cipher-texts, Theory of Cryptography, Second Theory of Cryptography Conference’ de Boneh, Goh y Nissim, LNCS3378, 2005, o incluso en el sistema de codificación en ‘Probabilistic encryption and how to play mental poker keeping secret all partial information’ de Goldwasser y Micali, ACM, 1982. Este último corresponde a un esquema homom�rfico tal como para una pareja de claves (pk; sk) y dos mensajes m; m’ comprendidos en el conjunto {0, 1}, mientras que se verifica la ecuación siguiente:

donde E y D son respectivamente las funciones de codificación y de descodificaci�n con la clave secreta sk y la clave pública pk.

Los datos biom�tricos b almacenados en la base de datos 10 est�n almacenados de manera cifrada bit a bit de acuerdo con la ecuación:

En este contexto, una etapa de verificación de acuerdo con un modo de realización de la presente invención, corresponde a un cálculo de distancia de Hamming. Se puede entonces prever: -enviar un mensaje que comprende E(b’; pk) a la base de datos 10; 15 -calcular al nivel de la base de datos 10 para todo dato biom�trico b de la base de datos 10: E(b; pk) x E(b’; pk); -efectuar una solicitud desde la entidad de identificación 13 para recuperar los resultados del cálculo anterior; -recibir desde la base de datos 10 una distancia de Hamming entre el dato biom�trico b y el bi almacenado 20 en la dirección @ bi recuperada en el filtro Bu, bajo una forma cifrada que la entidad de identificación 13 es

capaz de descifrar. As�, ventajosamente, la entidad de identificación no obtiene al final más que una distancia de Hamming entre el dato biom�trico captado y un candidato de la base de datos. Además, en esta memoria, la base de datos no aprende nada con respecto a las operaciones efectuadas.

Claims

REIVINDICACIONES

1. Procedimiento de gestión de una base de datos (10), caracterizada por que la citada base de datos comprende datos biom�tricos almacenados en forma cifrada as� como un conjunto de filtros (B1, …, Bm) asociados respectivamente a identificadores de filtro,

5 el citado procedimiento comprende las etapas siguientes al nivel de una entidad de gestión:

/1/ recibir (101) un dato biom�trico (bi);

/2/ almacenar, en una dirección dada (@ bi) en la base de datos, el citado dato biom�trico bajo una forma codificada (E(bi));

/3/ obtener palabras claves a partir de un primer conjunto de funciones de troceado (H) y del citado

10 dato biom�trico, teniendo las funciones de troceado del primer conjunto cada una por característica proporcionar valores de entrada vecinos en un espacio métrico, valores muy vecinos, preferiblemente un mismo valor, a la salida en un segundo espacio métrico;

/4/ asociar un subconjunto de filtros de indexaci�n a cada palabra clave seleccionando, para cada palabra clave, filtros en función de los identificadores de filtro respectivamente asociados, de las citadas

15 palabras clave y de un segundo conjunto de funciones de troceado (H’); y

/5/ asociar la citada dirección dada en forma codificada a cada uno de los filtros del subconjunto de filtros de indexaci�n.
2. Procedimiento de gestión de acuerdo con la reivindicación 1, en el cual la etapa /3/ es puesta en práctica de acuerdo con las etapas siguientes:

20 -obtener primeros valores troceados respectivos mediante la aplicación del primer conjunto de funciones de troceado (H) al dato biom�trico (b);

-

obtener las citadas palabras clave combinando los citados primeros valores troceados respectivamente con identificadores respectivos de las funciones de troceado del primer conjunto (H).
3. Procedimiento de gestión de acuerdo con la reivindicación 1 � 2, en el cual la etapa /4/ es puesta en 25 práctica de acuerdo con las etapas siguientes:

-

obtener segundos valores troceados mediante la aplicación del segundo conjunto de funciones de troceado (H’) a las palabras clave respectivamente;

-

seleccionar cada filtro del subconjunto de filtros de indexaci�n al cual est� asociado un identificador de filtro que corresponde a los citados segundos valores troceados.

30 4. Procedimiento de gestión de acuerdo con una cualquiera de las reivindicaciones precedentes, en el cual una primera y una segunda familia de funciones de troceado son inicialmente determinadas, y en el cual el primer y el segundo conjunto de funciones de troceado son una sub parte de las citadas familias primera y segunda de funciones de troceado respectivamente.
5.

Procedimiento de gestión de acuerdo con una cualquiera de las reivindicaciones precedentes, en el cual la 35 etapa /4/ es puesta en práctica además sobre la base de un umbral de tolerancia de error.
6. Procedimiento de gestión de acuerdo con una cualquiera de las reivindicaciones precedentes, en el cual el primer conjunto de funciones de troceado es de tipo LSH, y en el cual el segundo conjunto de funciones de troceado es de tipo criptogr�fico.
7.

Procedimiento de gestión de acuerdo con una cualquiera de las reivindicaciones precedentes, en el cual los 40 filtros son filtros de Bloom.
8. Procedimiento de identificación de datos biom�tricos en una base de datos (10) gestionada de acuerdo con un procedimiento de gestión de acuerdo con una cualquiera de las reivindicaciones precedentes; comprendiendo la citada base de datos una estructura basada en filtros (B1, …, Bm);

comprendiendo el citado procedimiento las etapas siguientes al nivel de una entidad de identificación (13) que tiene 45 acceso a la base de datos:

/i/ recibir un solicitud indicando palabras clave troceadas;

/ii/ en la base de datos (10), determinar filtros asociados a las citadas palabras clave troceadas; /iii/ obtener una lista de direcciones en forma codificada de la base de datos que est�n respectivamente asociadas a los citados filtros determinados;

/iv/ decidir que las palabras claves tienen una correspondencia en la base de datos, cuando una misma dirección de la citada lista de direcciones es asociada al menos a un número determinado de filtros.

5 9. Procedimiento de identificación de una base de datos de acuerdo con la reivindicación 8, en el cual las palabras clave troceadas son recibidas desde un emisor,

habiendo el citado emisor obtenido la palabra clave troceada de acuerdo con las etapas siguientes:

-

captar un dato biom�trico (b’);

-

obtener valores troceados mediante la aplicación de un tercer conjunto de funciones de troceado 10 respectivamente sobre el citado dato biom�trico captado;

-

obtener las palabras clave combinando los citados primeros valores troceados respectivamente con identificadores respectivos de las funciones de troceado del tercer conjunto (H); y

-

obtener las palabras clave troceadas aplicando un cuarto conjunto de funciones de troceado a las citadas palabras clave.

15 10. Procedimiento de identificación de acuerdo con la reivindicación 9, en el cual los conjuntos de funciones de troceado primero y segundo proceden de una primera familia de funciones de troceado y los conjuntos de funciones de troceado segundo y cuarto proceden de una segunda familia de funciones de troceado.
11. Entidad de gestión de datos adaptada para la puesta en práctica de un procedimiento de gestión de base de datos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.

20 12. Entidad de identificación adaptada para la puesta en práctica de un procedimiento de identificación de acuerdo con una cualquiera de las reivindicaciones 8 a 10.
13. Sistema de identificación que comprende una entidad de gestión de base de datos de acuerdo con la reivindicación 11; una base de datos (10) y una entidad de identificación de acuerdo con la reivindicación 12.