ES2212857T3

ES2212857T3 - Determinacion de subespacios faciales.

Info

Publication number: ES2212857T3
Application number: ES99956236T
Authority: ES
Inventors: Christopher John Taylor; Timothy Francis Cootes; Gareth Edwards; Nicholas Paul Costen
Original assignee: Victoria University of Manchester; University of Manchester
Current assignee: Victoria University of Manchester; University of Manchester
Priority date: 1998-12-02
Filing date: 1999-11-29
Publication date: 2004-08-01
Anticipated expiration: 2019-11-29
Also published as: WO2000033240A1; ATE258322T1; DE69914370T2; EP1138011A1; US6876755B1; AU762625B2; EP1138011B1; AU1287900A; DE69914370D1; DK1138011T3; JP2002531901A; CA2356252A1

Abstract

Método de determinación de subespacios faciales, comprendiendo el método los pasos de: a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada; b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada; c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial; d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo; e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado; f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo; g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen; h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio; i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen; j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.

Description

Determinación de subespacios faciales.

La presente invención se refiere a la determinación de subespacios de variaciones faciales.

La variación facial puede ser conceptualmente dividida en una serie de subespacios "funcionales", que son tipos de variación que reflejan dimensiones faciales útiles [M. J. Black, D. J. Flcet y Y. Yacoob. A framework for modelling appearance change in image sequences. 6th ICCV, páginas 660-667, 1998]. Una posible selección de estos espacios faciales es la siguiente: identidad, expresión (incluyendo aquí todas las deformaciones plásticas transitorias de la cara), postura e iluminación. Pueden extraerse otros espacios, siendo el más obvio el de la edad. Cuando se diseña un práctico sistema de análisis facial, debe ser aislado y modelizado al menos uno de estos subespacios. Por ejemplo, en una aplicación en el campo de la seguridad será necesario reconocer a los individuos independientemente de la expresión, de la postura y de la iluminación, mientras que un lector de labios se concentrará tan sólo en la expresión. En determinadas circunstancias son necesarias estimaciones exactas de todos los subespacios, por ejemplo cuando "se transfieren" los movimientos de la cara y de la cabeza de una videosecuencia de un individuo a otro para producir una secuencia sintética.

A pesar de que las imágenes de caras pueden ser encajadas adecuadamente usando un espacio de modelización del aspecto que abarque las imágenes, no es posible separar linealmente los distintos subespacios [S. Duvdevani-Bar, S. Edelman, A. J. Howell y H. Buxton. A similarity-based method for the generalisation of face recognition over pose and expression. 3th Face and Gesture, páginas 118-123, 1998]. Esto es debido al hecho de que los subespacios incluyen un cierto grado de coincidencia parcial (por ejemplo, una expresión "neutra" contendrá en realidad una expresión de baja intensidad).

Es un objetivo de la invención aportar un método mejorado para determinar subespacios faciales como se expone en las reivindicaciones adjuntas.

La invención prorratea simultáneamente pesos de imagen entre las estimaciones iniciales parcialmente coincidentes de estos espacios funcionales proporcionalmente a la variancia de los subespacios. Esto divide las caras en un conjunto de proyecciones no ortogonales que permite una aproximación iterativa a un conjunto de espacios puros pero parcialmente coincidentes. Éstos son más específicos que los espacios iniciales, mejorando el reconocimiento de la identidad.

Según la invención, se aporta un método de determinación de subespacios faciales, comprendiendo el método los pasos de:

a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada;

b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada;

c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial;

d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo;

e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado;

f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo;

g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen;

h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio;

i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen;

j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.

El método según el segundo aspecto de la invención comprende preferiblemente además las operaciones de aproximar cada imagen en los nuevos subespacios estimados como se describe en los pasos "a" a "j", y repetir entonces los pasos "d" a "j" hasta que se hayan estabilizado los subespacios.

Preferiblemente son generadas tres o más series de imágenes, siendo modificada en cada serie una distinta propiedad facial predeterminada.

Preferiblemente, las propiedades faciales predeterminadas son categorizadas como al menos algunas de las categorías de identidad, expresión, postura, iluminación y edad.

Preferiblemente es generada al menos una serie adicional de imágenes, siendo modificada en la serie una adicional propiedad facial predeterminada.

Se describe a continuación una realización específica de la invención tan sólo a título de ejemplo y haciendo referencia a los dibujos acompañantes, en los cuales:

La Figura 1 muestra las dos primeras dimensiones de un espacio facial según es definido por un modelo del aspecto usado por la invención;

la Figura 2 es un ejemplo de una imagen de conjunto de un conjunto de expresiones como el usado por la invención, mostrándose los puntos de correspondencia;

la Figura 3 muestra las dos primeras dimensiones de autocaras de identidad de partida usadas por la invención;

la Figura 4 muestra las dos primeras dimensiones de autocaras de identidad de partida usadas por la invención, variando las autocaras solamente en la identidad;

la Figura 5 es un gráfico que ilustra la convergencia alcanzada por el método según la invención;

la Figura 6 es un gráfico que ilustra errores medios de codificación para imágenes de conjunto y de ensayo referidos a las iteraciones del método según la invención;

la Figura 7 es un gráfico que ilustra variancias medias intrapersona para los distintos subespacios en función del número de iteraciones; y

la Figura 8 es un gráfico que ilustra los porcentajes de reconocimiento para la coincidencia de imágenes de promedio euclídea.

La codificación facial requiera la aproximación de una superficie variada o altamente dimensional en la cual puede decirse que está situada toda cara. Esto permite una exacta codificación, un exacto reconocimiento y una exacta reproducción de ejemplos previamente no vistos. Los de una serie de estudios anteriores [N. P. Costen, I. G. Craw, G. J. Robertson y S. Akamatsu. Automatic face recognition: What representation? European Conference on Computer Vision, vol. 1, páginas 504-513, 1996; G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996; N. P. Costen, I. G. Craw, T. Kato, G. Robertson y S. Akamatsu. Manifold caricatures: On the psychological consistency of computer face recognition. 2nd Face and Gesture, páginas 4-10, 1996] han sugerido que el uso de una codificación libre de forma proporciona unos medios expeditos para hacer esto, al menos cuando la amplitud del ángulo de postura es relativamente pequeña, y quizá de \pm 20º. [T. Poggio y D. Beymer. Learning networks for face analysis and synthesis. Face and Gesture, páginas 160-165, 1995]. En esta realización de la invención, el problema de correspondencia entre caras es primeramente resuelto encontrando un conjunto preseleccionado de puntos distintivos (comisuras de los ojos o de las bocas, por ejemplo) que están presentes en todas las caras. Esto se hace típicamente a mano durante el entrenamiento. Esos pixels así definidos como parte de la cara pueden ser llevados a una forma estándar mediante técnicas de interpolación de niveles de gris estándar, asegurando que sean equivalentes las coordenadas de imagen y las coordenadas de cara de una imagen determinada. Si es llevada a cabo en las ubicaciones de los puntos una transformación rígida para eliminar los efectos de escala, ubicación y orientación, dichas ubicaciones pueden ser entonces tratadas de la misma manera como los niveles de gris, puesto que de nuevo los valores idénticos para puntos correspondientes en distintas caras tendrán el mismo significado.

A pesar de que estas operaciones linealizan el espacio, permitiendo la interpolación entre pares de caras, no proporcionan una estimación de las dimensiones. Por consiguiente, no puede ser medida la aceptabilidad como cara de un objeto, y esto reduce el reconocimiento [N. P. Costen, I. G. Graw, G. J. Robertson y S. Akamatsu. Automatic face recognition: What representation? European Conference on Computer Vision, vol. 1, páginas 504-513, 1996]. Además, no pueden ser descritas las redundancias entre la ubicación de los puntos de facción y los valores del nivel de gris. Estos dos problemas son abordados en esta realización de la invención mediante el Análisis de los Componentes Principales (PCA). Esto extrae un conjunto de autovectores ortogonales \Phi de la matriz de covariancia de las imágenes (ya sea los niveles de gris de los pixels, o bien las ubicaciones de los puntos de facción). En combinación con los autovalores, esto proporciona una estimación de las dimensiones y la extensión del espacio facial. Pueden entonces hallarse los pesos w de una cara q,

6

y esto da la distancia de Mahalanobis

5

entre las caras q1 y q2, codificando en términos de la variación prevista [B. Moghaddam, W. Wahid y A. Pentland, Beyond eigenfaces: Probabilistic matching for face recognition. 3rd Face and Gesture, páginas 30-35, 1998]. Las redundancias entre la forma y los niveles de gris son eliminadas efectuando análisis de los componentes principales por separado sobre la forma y los niveles de gris, antes de ser los pesos del conjunto combinados para formar vectores individuales sobre los cuales es llevado a cabo un segundo análisis de los componentes principales [G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996].

Este "modelo del aspecto" permite la descripción de la cara en términos de la variación verdadera, es decir de las distorsiones necesarias para pasar de una a otra. Los estudios siguientes son llevados a cabo dentro del marco de esta representación. Sin embargo, la misma codificará todo el espacio especificado por nuestro conjunto de imágenes, como puede verse en la Figura 1 (desde la izquierda -2s:d:, la media +2s:d). Las autocaras pueden variar con respecto a la identidad, a la expresión, a la postura y a la iluminación. Así por ejemplo, la distancia entre las representaciones de dos imágenes será una combinación de la identidad, la expresión facial, el ángulo y las condiciones de iluminación. Éstos deben ser separados para permitir un análisis detallado de la imagen facial.

A pesar de que a partir de los códigos externos de cada cara en cada tipo de variación pueden obtenerse estimaciones de los subespacios, dichos códigos externos no están típicamente disponibles. En lugar de ello fueron usados distintos conjuntos que presentaban cada uno una variación importante en solamente un subespacio. Los conjuntos comprendían:

1. Un conjunto de iluminaciones, que constaba de 5 imágenes de un solo individuo de sexo masculino que fueron tomadas todas ellas como fotografías frontoparalelas y con una expresión neutra fija. El modelo era iluminado por una sola lámpara que era desplazada en torno a su cara.

2. Un conjunto de posturas, que comprendía 100 imágenes de 10 modelos distintos, a razón de 10 imágenes por modelo. Los modelos habían dirigido sus cabezas en las de una variedad de direcciones bidimensionales cuyo ángulo era relativamente coherente. Eran mínimas las variaciones de expresión y de iluminación.

3. Conjunto de expresiones, con 397 imágenes de 19 modelos distintos cada uno de los cuales hizo siete expresiones básicas que eran concretamente las de contento, tristeza, temor, enfado, sorpresa, neutra y asco. Estas imágenes presentaban una notable variación de la iluminación específica de la persona, y cierta variación de la postura.

4. Un conjunto de identidades, con 188 imágenes distintas, una por modelo. Éstas eran todas frontoparalelas, en iluminación uniforme y con expresiones neutras. Sin embargo, como es inevitable cuando se trata de un gran grupo de individuos, había considerable variación en cuanto a la expresión aparente adoptada como neutra.

Todas las imágenes tenían un conjunto uniforme de 122 puntos de referencia hallados manualmente. Está ilustrado en la Figura 2 un ejemplo de una imagen de conjunto con puntos de referencia. Fue aplicada una triangulación a los puntos, y fue usada interpolación bilineal para llevar las imágenes a una forma y un tamaño estándar que diese un número fijo de pixels. A efectos de ensayo, los puntos de facción fueron hallados usando un Modelo de Aspecto Activo de resolución múltiple construido usando las imágenes de conjunto, pero sin normalización de los niveles de gris [T. F. Cootes, G. J. Edwards y C. J. Taylor. Active Appearance Models. European Conference on Computer Vision, vol. 2, páginas 484-498, 1998].

Puesto que las imágenes fueron tomadas con las de una variedad de cámaras, fue necesario normalizar los niveles de iluminación. Para un pixel determinado, un nivel de gris de digamos 128=256 tiene un significado distinto de una imagen normalizada en cuanto a la forma a otra. La mancha de nivel de gris exenta de forma g_{i} fue muestreada a partir de la i^{ésima} imagen normalizada en cuanto a la forma. Para minimizar el efecto de la variación de la iluminación global, esta mancha fue normalizada en cada punto j para obtener

7

donde \mu_{j}, \sigma_{j} son la desviación media y la desviación característica.

Estas operaciones permitieron la construcción de un modelo de aspecto [G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996] que codificaba un 99,5% de la variación en las 690 imágenes, cada una con 19826 pixels en el área de la cara. Esto requería un total de 636 autovectores.

Los ensayos pusieron de manifiesto que los distintos subespacios no eran linealmente separables. Se hizo un intento de proyectar sucesivamente las caras a través de los espacios definidos por las otras categorías de caras y tomar el error de codificación como datos para un subsiguiente análisis de los componentes principales (PCA), pero este intento no tuvo éxito. El cuarto y final conjunto de componentes codificaba coherentemente poca cosa aparte de ruido. Un procedimiento en el que cada subespacio retiraba tan sólo códigos faciales dentro de su propia extensión (típicamente \pm 2S.D.) sí produjo un cuarto conjunto utilizable, pero la aplicación era esencialmente arbitraria y usaba tan sólo un pequeño subconjunto para calcular cada subespacio.

Los datos relevantes fueron en lugar de ello extraídos de una manera más de principios, usando la variación relevante que estaba presente en cada conjunto de imágenes. El problema básico era el de que cada uno de los subespacios especificados por los conjuntos codificaba tanto la variancia "oficial" deseada como una mezcla desconocida de los otros tipos. Esta contaminación tenía en la mayor parte su origen en una falta de control de los factores faciales relevantes, y así por ejemplo, las expresiones "neutras" que se veían en el conjunto de identidades contenían en realidad una gama de distintas expresiones de baja intensidad. Están ilustrados en la Figura 3 ejemplos de las autocaras de identidad de partida que ilustran el limitado abanico de identidades de este conjunto (desde la izquierda, -2s:d:, la media +2s:d:). Las autocaras varían en la mayor parte en cuanto a la identidad y a la iluminación.

No hay garantía de que los componentes principales "puros" deseados para el subespacio serán ortogonales con los otros. Esto es consecuencia de los últimos factores de enlace, y en concreto de la forma tridimensional de la cara y del tamaño y la situación de la musculatura facial. Son posibles importantes mejoramientos en materia de seguimiento y reconocimiento aprendiendo el camino tomado a través del espacio facial por medio de la secuencia de imágenes faciales [D. B. Graham y N. M. Allinson. Face recognition from unfamiliar views: Subspace methods and pose dependency. 3rd Face and Gesture, páginas 348-353, 1998]. La invención se deriva de la constatación de que estas relaciones pueden ser susceptibles de modelización de segundo orden, y de que las estimaciones de los modos de variación que vienen dados por los conjuntos se verán influenciadas por la selección de imágenes. Así, la invención permite eliminar de las estimaciones no ortogonales de subespacios la variancia contaminante, y también usar el mayor número posible de imágenes. Esto se hace a base de usar las diferencias de variancia sobre los componentes principales extraídos de los distintos conjuntos.

Suponiendo que los conjuntos codifiquen predominantemente los perseguidos tipos de variancia, los autovalores para los componentes "de señal" de la variancia deberían ser mayores que los de los componentes "de ruido" de la variancia. Los componentes "de señal" de la variancia deberían ser también algo más ortogonales unos con respecto a otros que los componentes "de ruido", y deberían verse ciertamente menos afectados por los pequeños cambios en los conjuntos que los crean.

La invención obtiene unos valores mejorados de los componentes de la variancia codificando imágenes sobre múltiples subespacios sobreexhaustivos en proporción a su variancia, aproximando entonces las imágenes en los distintos subespacios y recalculando los múltiples espacios. Este proceso es iterado para obtener un conjunto de subespacios estables y bastante más ortogonales que codifiquen tan sólo las facciones deseadas.

Si se usan n_{s} subespacios, descritos cada uno por autovectores \phi^{(j)} con los correspondientes autovalores \lambda^{(j)} para una determinada q^{1}, la proyección de los subespacios combinados viene dada por:

8

con las limitaciones de que

9

sea minimizada. Así, si M es la matriz formada a base de concatenar \phi^{(j=1,2...)} y D es la matriz diagonal de \lambda^{(j=1,2...)},

10

y esto da también una versión proyectada de la cara

11

con w_{1} = 0 para los subespacios no necesarios.

La primera etapa de la implementación de la invención fue la de deducir la media global de cada cara, asegurando así que la media de cada subespacio fuese tan cercana a cero como fuese posible. Fueron entonces llevados a cabo sobre los conjuntos de imágenes análisis de los componentes principales (PCAs) por separado, descartando toda adicional diferencia entre las medias grupal y global. Las matrices de covariancia para los subespacios de identidad y de iluminación fueron calculadas como

12

la postura y expresión usadas

13

donde n_{o} es el número de observaciones por individuo, y n_{p} es el número de individuos, y \upbar{q} es la media del individuo i. A pesar de que fueron usados todos los autovectores implicados por los conjuntos de identidades, de iluminaciones y de expresiones, fueron extraídos del conjunto de posturas tan sólo los dos más variables.

Los autovectores fueron combinados para formar M, y la versión proyectada para cada cara en cada subespacio fue hallada usando las ecuaciones 6 y 7, para obtener las proyecciones q'_{j} de la cara q para el subespacio j. Este procedimiento pierde variación útil. Por ejemplo, el componente de identidad de las imágenes de expresión y postura es poco probable que sea codificado con precisión solamente por el conjunto de identidades. Así, fue calculada la plena proyección q', y la imagen recodificada r_{j} incluía un componente de error a prorrateo:

14

Esto produjo cuatro conjuntos, cada uno con 690 imágenes. Fueron llevados a cabo otros cuatro análisis de los componentes principales sobre las imágenes recodificadas (todos ellos usando la Ecuación 8) extrayendo el mismo número de componentes como en el previo análisis de los componentes principales para los subespacios de iluminación, postura y expresión, y todos los componentes no cero para el subespacio de identidad. Éstos formaron una nueva estimación de M, y las caras originales reproyectadas sobre esta estimación de segundo nivel de los subespacios dieron una estimación de tercer nivel, y así sucesivamente. El resultado final con respecto a las imágenes de identidad está ilustrado en la Figura 4, que muestra las dos primeras dimensiones del espacio facial de identidad (desde la izquierda, -2s:d:, la media +s:d:). Las autocaras varían tan sólo con respecto a la identidad, cuya variedad ha sido incrementada. En comparación con las de la Figura 1, las dimensiones faciales parecen tener las mismas identidades, pero están normalizadas con respecto a la expresión, a la postura y a la iluminación.

Puesto que se permitió que el espacio de identidad variase el número de autocaras, mientras que los otros eran fijos, inevitablemente todo ruido presente en el sistema tendía a acumularse en el espacio de identidad, y reduciría la capacidad de reconocimiento si hubiese de tomarse una medida de Mahalanobis. Así, una vez estabilizado el sistema, fue aplicado un análisis final de los componentes principales sobre

15

a las proyecciones de identidad del conjunto completo de imágenes, codificando un 97% de la variancia. Esto permitió una rotación final para maximizar la variaciancia entre personas, reduciendo los autovectores de identidad de 497 a 153. Estas autocaras rotadas fueron usadas solamente para reconocimiento.

La convergencia del método fue estimada tomando las distancias de Mahalanobis entre todas las imágenes en cada uno de los subespacios. Se sacó una correlación de momento-producto de Pearson entre las distancias de las sucesivas iteraciones, y se dejó que la misma convergiese con la precisión de la máquina, a pesar de que en la práctica un valor ligeramente inferior alcanzaría los mismos resultados con un tiempo de procesamiento reducido. El método proporcionó un conjunto relativamente uniforme de coeficientes de correlación como se ilustra en la Figura 5, convergiendo en aproximadamente siete iteraciones (la Figura 5 muestra las variaciones de las correlaciones entre las distancias de Mahalanobis que separan todas las imágenes en el espacio múltiple entre la iteración n y la iteración n-1). Puesto que tan sólo un 99,99% de la variancia en el conjunto basta para evitar problemas con la precisión numérica, fue lograda una convergencia práctica con la cuarta iteración.

Puesto que las iteraciones suponían la inclusión de información que no pudo ser codificada en la iteración previa, debería ser de esperar que fuese en disminución la diferencia entre las imágenes originales y proyectadas. Esto debería ser de aplicación tanto a las imágenes de conjunto como a las imágenes no de conjunto al devenir más representativas las autocaras.

Esto fue verificado proyectando las imágenes a través de los espacios combinados (usando las Ecuaciones 6 y 7) y midiendo la magnitud de los errores. Esto fue llevado a cabo tanto para las imágenes de conjunto como para un gran conjunto de ensayo (llamado "Manchester") usado por primera vez en [A. Lanitis, C. J. Taylor y T. F. Cootes. An automatic face identification system using flexible appearance models. British Machine Vision Conference, páginas 65-74, 1994]. Este conjunto constaba de 600 imágenes de 30 individuos, divididas por la mitad: una galería de 10 imágenes por persona y un conjunto de 10 sondas por persona. Como puede verse en la Figura 6, en ambos casos los errores descendieron rápidamente hasta un nivel despreciable (los errores disminuyen rápidamente hasta un nivel despreciable en ambos casos. Los errores en los subespacios individuales siguen alcanzando un alto nivel (de 4.000 a 11.000)). Como comparación, los dos conjuntos tienen magnitudes medias (variancia total) de 11345 y 11807, medidas sobre los autopesos de los modelos de aspecto.

El nivel de normalización fue medido sobre el conjunto Manchester, calculando los pesos de identidad usando la Ecuación 6, y hallando la media de persona \upbar{w}_{1}. Una mejor eliminación de la variancia contaminante debería reducir la variancia para cada individuo, en relación con esta media. Fue calculada la variancia,

16

Los resultados de este ensayo en la Figura 7 ponen de manifiesto una sostenida disminución de la variancia de los subespacios de identidad (la Figura 7 muestra las variancias intrapersona medias para los distintos subespacios en función del número de iteración). La única excepción a esto es el valor para la iteración número dos; y esto es poco habitual por cuanto que se tiene un gran incremento del número de dimensiones, sin oportunidad de redistribuir esta variación en los otros subespacios.

Están ilustrados los resultados de proyectar las caras en los otros subespacios, así como la variancia en el modelo del aspecto. Como podría ser de esperar, estos valores son todos ellos más altos que el valor del subespacio de identidad, y no presentan marcadas disminuciones al progresar las iteraciones. De hecho, aumenta ligeramente la variancia de la postura.

El reconocimiento fue también verificado sobre el conjunto Manchester, codificando las imágenes sobre el espacio rotado final. El Modelo de Aspecto usado para proporcionar correspondencias no dio posiciones completamente exactas, disminuyendo el reconocimiento. La matriz de covariancia agrupada fue hallada usando la Ecuación 9 sobre el w_{i}. Esto permitió que

17

donde 1 \leq k \leq (n_{o}xn_{p}), diese las distancias de Mahalanobis a las imágenes medias. Se registraba un reconocimiento cuando la d más pequeña tenía la misma identidad para i y k. Los resultados están ilustrados en la Figura 8 (que muestra los porcentajes de reconocimiento para el apareamiento de imágenes de promedio euclídeas), y demuestran que con respecto al estado de base el reconocimiento mejora en aproximadamente un 1 por ciento en la iteración 4. Están también ilustrados los efectos de proyectar las imágenes de ensayo a través del espacio completo para obtener la versión normalizada con respecto a la iluminación, a la postura y a la expresión y codificada entonces sobre el espacio rotado final. Esto no produce un mejoramiento del reconocimiento. Hay que señalar que puede perfectamente haber correlaciones contingentes no funcionales entre parámetros en distintos subespacios para los individuos (como por ejemplo una continua tendencia a dirigir la mirada hacia arriba o hacia abajo) cuya omisión puede constituir una compensación contra las autocaras teóricamente preferibles.

Una vez logrado un preciso sistema de codificación para caras, el problema principal es el de asegurar que para cualquier manipulación o medición determinada sea usado solamente un subconjunto útil de los códigos. Ésta se una tarea bastante difícil, puesto que hay múltiples explicaciones no ortogonales de cualquier configuración facial determinada. Además, se da típicamente el caso de que solamente una parte relativamente pequeña de la muy gran base de datos requerida estará presente en toda la gama de condiciones y con las etiquetas necesarias para llevar a cabo una sencilla extracción lineal.

La invención supera estos problemas usando un sistema de recodificación iterativa que toma en consideración tanto la variancia de como la covariancia entre los subespacios que pueden ser extraídos para abarcar conjuntos de caras que pueden variar de distintas maneras. Esto produce autocaras "más claras" con una variancia más baja dentro del grupo apropiado y con una variancia más alta en el grupo inapropiado. Estos dos hechos reflejan una mayor ortogonalidad entre los subespacios. Además, aunque marginalmente, resultó mejorado el reconocimiento en un conjunto de ensayo enteramente incoherente. La invención puede ser aplicada al rastreo, a la lectura de los labios y a la transferencia de identidad de una persona a otra.

Claims

1. Método de determinación de subespacios faciales, comprendiendo el método los pasos de:

d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo;

2. Método de determinación de subespacios faciales según la reivindicación 1, que comprende además las operaciones de aproximar cada imagen en los nuevos subespacios estimados como se describe en los pasos "a" a "j", y repetir entonces los pasos "d" a "j" hasta que se hayan estabilizado los subespacios.

3. Método de determinación de subespacios faciales según la reivindicación 1 o la reivindicación 2, en el que son generadas tres o más series de imágenes, siendo modificada en cada serie una distinta propiedad facial predeterminada.

4. Método según la reivindicación 3, en el que las propiedades faciales predeterminadas son categorizadas como al menos algunas de las categorías de identidad, expresión, postura, iluminación y edad.

5. Método según cualquiera de las reivindicaciones 1 a 4, en el que es generada al menos una serie adicional de imágenes, siendo modificada en la serie una adicional propiedad facial predeterminada.