ES2212857T3 - Determinacion de subespacios faciales. - Google Patents

Determinacion de subespacios faciales.

Info

Publication number
ES2212857T3
ES2212857T3 ES99956236T ES99956236T ES2212857T3 ES 2212857 T3 ES2212857 T3 ES 2212857T3 ES 99956236 T ES99956236 T ES 99956236T ES 99956236 T ES99956236 T ES 99956236T ES 2212857 T3 ES2212857 T3 ES 2212857T3
Authority
ES
Spain
Prior art keywords
images
image
subspaces
series
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99956236T
Other languages
English (en)
Inventor
Christopher John Taylor
Timothy Francis Cootes
Gareth Edwards
Nicholas Paul Costen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victoria University of Manchester
University of Manchester
Original Assignee
Victoria University of Manchester
University of Manchester
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9826398.1A external-priority patent/GB9826398D0/en
Priority claimed from GBGB9922807.4A external-priority patent/GB9922807D0/en
Application filed by Victoria University of Manchester, University of Manchester filed Critical Victoria University of Manchester
Application granted granted Critical
Publication of ES2212857T3 publication Critical patent/ES2212857T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)
  • Air Conditioning Control Device (AREA)
  • Complex Calculations (AREA)
  • Automatic Focus Adjustment (AREA)

Abstract

Método de determinación de subespacios faciales, comprendiendo el método los pasos de: a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada; b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada; c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial; d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo; e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado; f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo; g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen; h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio; i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen; j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.

Description

Determinación de subespacios faciales.
La presente invención se refiere a la determinación de subespacios de variaciones faciales.
La variación facial puede ser conceptualmente dividida en una serie de subespacios "funcionales", que son tipos de variación que reflejan dimensiones faciales útiles [M. J. Black, D. J. Flcet y Y. Yacoob. A framework for modelling appearance change in image sequences. 6th ICCV, páginas 660-667, 1998]. Una posible selección de estos espacios faciales es la siguiente: identidad, expresión (incluyendo aquí todas las deformaciones plásticas transitorias de la cara), postura e iluminación. Pueden extraerse otros espacios, siendo el más obvio el de la edad. Cuando se diseña un práctico sistema de análisis facial, debe ser aislado y modelizado al menos uno de estos subespacios. Por ejemplo, en una aplicación en el campo de la seguridad será necesario reconocer a los individuos independientemente de la expresión, de la postura y de la iluminación, mientras que un lector de labios se concentrará tan sólo en la expresión. En determinadas circunstancias son necesarias estimaciones exactas de todos los subespacios, por ejemplo cuando "se transfieren" los movimientos de la cara y de la cabeza de una videosecuencia de un individuo a otro para producir una secuencia sintética.
A pesar de que las imágenes de caras pueden ser encajadas adecuadamente usando un espacio de modelización del aspecto que abarque las imágenes, no es posible separar linealmente los distintos subespacios [S. Duvdevani-Bar, S. Edelman, A. J. Howell y H. Buxton. A similarity-based method for the generalisation of face recognition over pose and expression. 3th Face and Gesture, páginas 118-123, 1998]. Esto es debido al hecho de que los subespacios incluyen un cierto grado de coincidencia parcial (por ejemplo, una expresión "neutra" contendrá en realidad una expresión de baja intensidad).
Es un objetivo de la invención aportar un método mejorado para determinar subespacios faciales como se expone en las reivindicaciones adjuntas.
La invención prorratea simultáneamente pesos de imagen entre las estimaciones iniciales parcialmente coincidentes de estos espacios funcionales proporcionalmente a la variancia de los subespacios. Esto divide las caras en un conjunto de proyecciones no ortogonales que permite una aproximación iterativa a un conjunto de espacios puros pero parcialmente coincidentes. Éstos son más específicos que los espacios iniciales, mejorando el reconocimiento de la identidad.
Según la invención, se aporta un método de determinación de subespacios faciales, comprendiendo el método los pasos de:
a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada;
b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada;
c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial;
d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo;
e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado;
f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo;
g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen;
h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio;
i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen;
j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.
El método según el segundo aspecto de la invención comprende preferiblemente además las operaciones de aproximar cada imagen en los nuevos subespacios estimados como se describe en los pasos "a" a "j", y repetir entonces los pasos "d" a "j" hasta que se hayan estabilizado los subespacios.
Preferiblemente son generadas tres o más series de imágenes, siendo modificada en cada serie una distinta propiedad facial predeterminada.
Preferiblemente, las propiedades faciales predeterminadas son categorizadas como al menos algunas de las categorías de identidad, expresión, postura, iluminación y edad.
Preferiblemente es generada al menos una serie adicional de imágenes, siendo modificada en la serie una adicional propiedad facial predeterminada.
Se describe a continuación una realización específica de la invención tan sólo a título de ejemplo y haciendo referencia a los dibujos acompañantes, en los cuales:
La Figura 1 muestra las dos primeras dimensiones de un espacio facial según es definido por un modelo del aspecto usado por la invención;
la Figura 2 es un ejemplo de una imagen de conjunto de un conjunto de expresiones como el usado por la invención, mostrándose los puntos de correspondencia;
la Figura 3 muestra las dos primeras dimensiones de autocaras de identidad de partida usadas por la invención;
la Figura 4 muestra las dos primeras dimensiones de autocaras de identidad de partida usadas por la invención, variando las autocaras solamente en la identidad;
la Figura 5 es un gráfico que ilustra la convergencia alcanzada por el método según la invención;
la Figura 6 es un gráfico que ilustra errores medios de codificación para imágenes de conjunto y de ensayo referidos a las iteraciones del método según la invención;
la Figura 7 es un gráfico que ilustra variancias medias intrapersona para los distintos subespacios en función del número de iteraciones; y
la Figura 8 es un gráfico que ilustra los porcentajes de reconocimiento para la coincidencia de imágenes de promedio euclídea.
La codificación facial requiera la aproximación de una superficie variada o altamente dimensional en la cual puede decirse que está situada toda cara. Esto permite una exacta codificación, un exacto reconocimiento y una exacta reproducción de ejemplos previamente no vistos. Los de una serie de estudios anteriores [N. P. Costen, I. G. Craw, G. J. Robertson y S. Akamatsu. Automatic face recognition: What representation? European Conference on Computer Vision, vol. 1, páginas 504-513, 1996; G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996; N. P. Costen, I. G. Craw, T. Kato, G. Robertson y S. Akamatsu. Manifold caricatures: On the psychological consistency of computer face recognition. 2nd Face and Gesture, páginas 4-10, 1996] han sugerido que el uso de una codificación libre de forma proporciona unos medios expeditos para hacer esto, al menos cuando la amplitud del ángulo de postura es relativamente pequeña, y quizá de \pm 20º. [T. Poggio y D. Beymer. Learning networks for face analysis and synthesis. Face and Gesture, páginas 160-165, 1995]. En esta realización de la invención, el problema de correspondencia entre caras es primeramente resuelto encontrando un conjunto preseleccionado de puntos distintivos (comisuras de los ojos o de las bocas, por ejemplo) que están presentes en todas las caras. Esto se hace típicamente a mano durante el entrenamiento. Esos pixels así definidos como parte de la cara pueden ser llevados a una forma estándar mediante técnicas de interpolación de niveles de gris estándar, asegurando que sean equivalentes las coordenadas de imagen y las coordenadas de cara de una imagen determinada. Si es llevada a cabo en las ubicaciones de los puntos una transformación rígida para eliminar los efectos de escala, ubicación y orientación, dichas ubicaciones pueden ser entonces tratadas de la misma manera como los niveles de gris, puesto que de nuevo los valores idénticos para puntos correspondientes en distintas caras tendrán el mismo significado.
A pesar de que estas operaciones linealizan el espacio, permitiendo la interpolación entre pares de caras, no proporcionan una estimación de las dimensiones. Por consiguiente, no puede ser medida la aceptabilidad como cara de un objeto, y esto reduce el reconocimiento [N. P. Costen, I. G. Graw, G. J. Robertson y S. Akamatsu. Automatic face recognition: What representation? European Conference on Computer Vision, vol. 1, páginas 504-513, 1996]. Además, no pueden ser descritas las redundancias entre la ubicación de los puntos de facción y los valores del nivel de gris. Estos dos problemas son abordados en esta realización de la invención mediante el Análisis de los Componentes Principales (PCA). Esto extrae un conjunto de autovectores ortogonales \Phi de la matriz de covariancia de las imágenes (ya sea los niveles de gris de los pixels, o bien las ubicaciones de los puntos de facción). En combinación con los autovalores, esto proporciona una estimación de las dimensiones y la extensión del espacio facial. Pueden entonces hallarse los pesos w de una cara q,
6
y esto da la distancia de Mahalanobis
5
entre las caras q1 y q2, codificando en términos de la variación prevista [B. Moghaddam, W. Wahid y A. Pentland, Beyond eigenfaces: Probabilistic matching for face recognition. 3rd Face and Gesture, páginas 30-35, 1998]. Las redundancias entre la forma y los niveles de gris son eliminadas efectuando análisis de los componentes principales por separado sobre la forma y los niveles de gris, antes de ser los pesos del conjunto combinados para formar vectores individuales sobre los cuales es llevado a cabo un segundo análisis de los componentes principales [G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996].
Este "modelo del aspecto" permite la descripción de la cara en términos de la variación verdadera, es decir de las distorsiones necesarias para pasar de una a otra. Los estudios siguientes son llevados a cabo dentro del marco de esta representación. Sin embargo, la misma codificará todo el espacio especificado por nuestro conjunto de imágenes, como puede verse en la Figura 1 (desde la izquierda -2s:d:, la media +2s:d). Las autocaras pueden variar con respecto a la identidad, a la expresión, a la postura y a la iluminación. Así por ejemplo, la distancia entre las representaciones de dos imágenes será una combinación de la identidad, la expresión facial, el ángulo y las condiciones de iluminación. Éstos deben ser separados para permitir un análisis detallado de la imagen facial.
A pesar de que a partir de los códigos externos de cada cara en cada tipo de variación pueden obtenerse estimaciones de los subespacios, dichos códigos externos no están típicamente disponibles. En lugar de ello fueron usados distintos conjuntos que presentaban cada uno una variación importante en solamente un subespacio. Los conjuntos comprendían:
1. Un conjunto de iluminaciones, que constaba de 5 imágenes de un solo individuo de sexo masculino que fueron tomadas todas ellas como fotografías frontoparalelas y con una expresión neutra fija. El modelo era iluminado por una sola lámpara que era desplazada en torno a su cara.
2. Un conjunto de posturas, que comprendía 100 imágenes de 10 modelos distintos, a razón de 10 imágenes por modelo. Los modelos habían dirigido sus cabezas en las de una variedad de direcciones bidimensionales cuyo ángulo era relativamente coherente. Eran mínimas las variaciones de expresión y de iluminación.
3. Conjunto de expresiones, con 397 imágenes de 19 modelos distintos cada uno de los cuales hizo siete expresiones básicas que eran concretamente las de contento, tristeza, temor, enfado, sorpresa, neutra y asco. Estas imágenes presentaban una notable variación de la iluminación específica de la persona, y cierta variación de la postura.
4. Un conjunto de identidades, con 188 imágenes distintas, una por modelo. Éstas eran todas frontoparalelas, en iluminación uniforme y con expresiones neutras. Sin embargo, como es inevitable cuando se trata de un gran grupo de individuos, había considerable variación en cuanto a la expresión aparente adoptada como neutra.
Todas las imágenes tenían un conjunto uniforme de 122 puntos de referencia hallados manualmente. Está ilustrado en la Figura 2 un ejemplo de una imagen de conjunto con puntos de referencia. Fue aplicada una triangulación a los puntos, y fue usada interpolación bilineal para llevar las imágenes a una forma y un tamaño estándar que diese un número fijo de pixels. A efectos de ensayo, los puntos de facción fueron hallados usando un Modelo de Aspecto Activo de resolución múltiple construido usando las imágenes de conjunto, pero sin normalización de los niveles de gris [T. F. Cootes, G. J. Edwards y C. J. Taylor. Active Appearance Models. European Conference on Computer Vision, vol. 2, páginas 484-498, 1998].
Puesto que las imágenes fueron tomadas con las de una variedad de cámaras, fue necesario normalizar los niveles de iluminación. Para un pixel determinado, un nivel de gris de digamos 128=256 tiene un significado distinto de una imagen normalizada en cuanto a la forma a otra. La mancha de nivel de gris exenta de forma g_{i} fue muestreada a partir de la i^{ésima} imagen normalizada en cuanto a la forma. Para minimizar el efecto de la variación de la iluminación global, esta mancha fue normalizada en cada punto j para obtener
7
donde \mu_{j}, \sigma_{j} son la desviación media y la desviación característica.
Estas operaciones permitieron la construcción de un modelo de aspecto [G. J. Edwards, A. Lanitis, C. J. Taylor y T. F. Cootes. Modelling the variability in face images. 2nd Face and Gesture, páginas 328-333, 1996] que codificaba un 99,5% de la variación en las 690 imágenes, cada una con 19826 pixels en el área de la cara. Esto requería un total de 636 autovectores.
Los ensayos pusieron de manifiesto que los distintos subespacios no eran linealmente separables. Se hizo un intento de proyectar sucesivamente las caras a través de los espacios definidos por las otras categorías de caras y tomar el error de codificación como datos para un subsiguiente análisis de los componentes principales (PCA), pero este intento no tuvo éxito. El cuarto y final conjunto de componentes codificaba coherentemente poca cosa aparte de ruido. Un procedimiento en el que cada subespacio retiraba tan sólo códigos faciales dentro de su propia extensión (típicamente \pm 2S.D.) sí produjo un cuarto conjunto utilizable, pero la aplicación era esencialmente arbitraria y usaba tan sólo un pequeño subconjunto para calcular cada subespacio.
Los datos relevantes fueron en lugar de ello extraídos de una manera más de principios, usando la variación relevante que estaba presente en cada conjunto de imágenes. El problema básico era el de que cada uno de los subespacios especificados por los conjuntos codificaba tanto la variancia "oficial" deseada como una mezcla desconocida de los otros tipos. Esta contaminación tenía en la mayor parte su origen en una falta de control de los factores faciales relevantes, y así por ejemplo, las expresiones "neutras" que se veían en el conjunto de identidades contenían en realidad una gama de distintas expresiones de baja intensidad. Están ilustrados en la Figura 3 ejemplos de las autocaras de identidad de partida que ilustran el limitado abanico de identidades de este conjunto (desde la izquierda, -2s:d:, la media +2s:d:). Las autocaras varían en la mayor parte en cuanto a la identidad y a la iluminación.
No hay garantía de que los componentes principales "puros" deseados para el subespacio serán ortogonales con los otros. Esto es consecuencia de los últimos factores de enlace, y en concreto de la forma tridimensional de la cara y del tamaño y la situación de la musculatura facial. Son posibles importantes mejoramientos en materia de seguimiento y reconocimiento aprendiendo el camino tomado a través del espacio facial por medio de la secuencia de imágenes faciales [D. B. Graham y N. M. Allinson. Face recognition from unfamiliar views: Subspace methods and pose dependency. 3rd Face and Gesture, páginas 348-353, 1998]. La invención se deriva de la constatación de que estas relaciones pueden ser susceptibles de modelización de segundo orden, y de que las estimaciones de los modos de variación que vienen dados por los conjuntos se verán influenciadas por la selección de imágenes. Así, la invención permite eliminar de las estimaciones no ortogonales de subespacios la variancia contaminante, y también usar el mayor número posible de imágenes. Esto se hace a base de usar las diferencias de variancia sobre los componentes principales extraídos de los distintos conjuntos.
Suponiendo que los conjuntos codifiquen predominantemente los perseguidos tipos de variancia, los autovalores para los componentes "de señal" de la variancia deberían ser mayores que los de los componentes "de ruido" de la variancia. Los componentes "de señal" de la variancia deberían ser también algo más ortogonales unos con respecto a otros que los componentes "de ruido", y deberían verse ciertamente menos afectados por los pequeños cambios en los conjuntos que los crean.
La invención obtiene unos valores mejorados de los componentes de la variancia codificando imágenes sobre múltiples subespacios sobreexhaustivos en proporción a su variancia, aproximando entonces las imágenes en los distintos subespacios y recalculando los múltiples espacios. Este proceso es iterado para obtener un conjunto de subespacios estables y bastante más ortogonales que codifiquen tan sólo las facciones deseadas.
Si se usan n_{s} subespacios, descritos cada uno por autovectores \phi^{(j)} con los correspondientes autovalores \lambda^{(j)} para una determinada q^{1}, la proyección de los subespacios combinados viene dada por:
8
con las limitaciones de que
9
sea minimizada. Así, si M es la matriz formada a base de concatenar \phi^{(j=1,2...)} y D es la matriz diagonal de \lambda^{(j=1,2...)},
10
y esto da también una versión proyectada de la cara
11
con w_{1} = 0 para los subespacios no necesarios.
La primera etapa de la implementación de la invención fue la de deducir la media global de cada cara, asegurando así que la media de cada subespacio fuese tan cercana a cero como fuese posible. Fueron entonces llevados a cabo sobre los conjuntos de imágenes análisis de los componentes principales (PCAs) por separado, descartando toda adicional diferencia entre las medias grupal y global. Las matrices de covariancia para los subespacios de identidad y de iluminación fueron calculadas como
12
la postura y expresión usadas
13
donde n_{o} es el número de observaciones por individuo, y n_{p} es el número de individuos, y \upbar{q} es la media del individuo i. A pesar de que fueron usados todos los autovectores implicados por los conjuntos de identidades, de iluminaciones y de expresiones, fueron extraídos del conjunto de posturas tan sólo los dos más variables.
Los autovectores fueron combinados para formar M, y la versión proyectada para cada cara en cada subespacio fue hallada usando las ecuaciones 6 y 7, para obtener las proyecciones q'_{j} de la cara q para el subespacio j. Este procedimiento pierde variación útil. Por ejemplo, el componente de identidad de las imágenes de expresión y postura es poco probable que sea codificado con precisión solamente por el conjunto de identidades. Así, fue calculada la plena proyección q', y la imagen recodificada r_{j} incluía un componente de error a prorrateo:
14
Esto produjo cuatro conjuntos, cada uno con 690 imágenes. Fueron llevados a cabo otros cuatro análisis de los componentes principales sobre las imágenes recodificadas (todos ellos usando la Ecuación 8) extrayendo el mismo número de componentes como en el previo análisis de los componentes principales para los subespacios de iluminación, postura y expresión, y todos los componentes no cero para el subespacio de identidad. Éstos formaron una nueva estimación de M, y las caras originales reproyectadas sobre esta estimación de segundo nivel de los subespacios dieron una estimación de tercer nivel, y así sucesivamente. El resultado final con respecto a las imágenes de identidad está ilustrado en la Figura 4, que muestra las dos primeras dimensiones del espacio facial de identidad (desde la izquierda, -2s:d:, la media +s:d:). Las autocaras varían tan sólo con respecto a la identidad, cuya variedad ha sido incrementada. En comparación con las de la Figura 1, las dimensiones faciales parecen tener las mismas identidades, pero están normalizadas con respecto a la expresión, a la postura y a la iluminación.
Puesto que se permitió que el espacio de identidad variase el número de autocaras, mientras que los otros eran fijos, inevitablemente todo ruido presente en el sistema tendía a acumularse en el espacio de identidad, y reduciría la capacidad de reconocimiento si hubiese de tomarse una medida de Mahalanobis. Así, una vez estabilizado el sistema, fue aplicado un análisis final de los componentes principales sobre
15
a las proyecciones de identidad del conjunto completo de imágenes, codificando un 97% de la variancia. Esto permitió una rotación final para maximizar la variaciancia entre personas, reduciendo los autovectores de identidad de 497 a 153. Estas autocaras rotadas fueron usadas solamente para reconocimiento.
La convergencia del método fue estimada tomando las distancias de Mahalanobis entre todas las imágenes en cada uno de los subespacios. Se sacó una correlación de momento-producto de Pearson entre las distancias de las sucesivas iteraciones, y se dejó que la misma convergiese con la precisión de la máquina, a pesar de que en la práctica un valor ligeramente inferior alcanzaría los mismos resultados con un tiempo de procesamiento reducido. El método proporcionó un conjunto relativamente uniforme de coeficientes de correlación como se ilustra en la Figura 5, convergiendo en aproximadamente siete iteraciones (la Figura 5 muestra las variaciones de las correlaciones entre las distancias de Mahalanobis que separan todas las imágenes en el espacio múltiple entre la iteración n y la iteración n-1). Puesto que tan sólo un 99,99% de la variancia en el conjunto basta para evitar problemas con la precisión numérica, fue lograda una convergencia práctica con la cuarta iteración.
Puesto que las iteraciones suponían la inclusión de información que no pudo ser codificada en la iteración previa, debería ser de esperar que fuese en disminución la diferencia entre las imágenes originales y proyectadas. Esto debería ser de aplicación tanto a las imágenes de conjunto como a las imágenes no de conjunto al devenir más representativas las autocaras.
Esto fue verificado proyectando las imágenes a través de los espacios combinados (usando las Ecuaciones 6 y 7) y midiendo la magnitud de los errores. Esto fue llevado a cabo tanto para las imágenes de conjunto como para un gran conjunto de ensayo (llamado "Manchester") usado por primera vez en [A. Lanitis, C. J. Taylor y T. F. Cootes. An automatic face identification system using flexible appearance models. British Machine Vision Conference, páginas 65-74, 1994]. Este conjunto constaba de 600 imágenes de 30 individuos, divididas por la mitad: una galería de 10 imágenes por persona y un conjunto de 10 sondas por persona. Como puede verse en la Figura 6, en ambos casos los errores descendieron rápidamente hasta un nivel despreciable (los errores disminuyen rápidamente hasta un nivel despreciable en ambos casos. Los errores en los subespacios individuales siguen alcanzando un alto nivel (de 4.000 a 11.000)). Como comparación, los dos conjuntos tienen magnitudes medias (variancia total) de 11345 y 11807, medidas sobre los autopesos de los modelos de aspecto.
El nivel de normalización fue medido sobre el conjunto Manchester, calculando los pesos de identidad usando la Ecuación 6, y hallando la media de persona \upbar{w}_{1}. Una mejor eliminación de la variancia contaminante debería reducir la variancia para cada individuo, en relación con esta media. Fue calculada la variancia,
16
Los resultados de este ensayo en la Figura 7 ponen de manifiesto una sostenida disminución de la variancia de los subespacios de identidad (la Figura 7 muestra las variancias intrapersona medias para los distintos subespacios en función del número de iteración). La única excepción a esto es el valor para la iteración número dos; y esto es poco habitual por cuanto que se tiene un gran incremento del número de dimensiones, sin oportunidad de redistribuir esta variación en los otros subespacios.
Están ilustrados los resultados de proyectar las caras en los otros subespacios, así como la variancia en el modelo del aspecto. Como podría ser de esperar, estos valores son todos ellos más altos que el valor del subespacio de identidad, y no presentan marcadas disminuciones al progresar las iteraciones. De hecho, aumenta ligeramente la variancia de la postura.
El reconocimiento fue también verificado sobre el conjunto Manchester, codificando las imágenes sobre el espacio rotado final. El Modelo de Aspecto usado para proporcionar correspondencias no dio posiciones completamente exactas, disminuyendo el reconocimiento. La matriz de covariancia agrupada fue hallada usando la Ecuación 9 sobre el w_{i}. Esto permitió que
17
donde 1 \leq k \leq (n_{o}xn_{p}), diese las distancias de Mahalanobis a las imágenes medias. Se registraba un reconocimiento cuando la d más pequeña tenía la misma identidad para i y k. Los resultados están ilustrados en la Figura 8 (que muestra los porcentajes de reconocimiento para el apareamiento de imágenes de promedio euclídeas), y demuestran que con respecto al estado de base el reconocimiento mejora en aproximadamente un 1 por ciento en la iteración 4. Están también ilustrados los efectos de proyectar las imágenes de ensayo a través del espacio completo para obtener la versión normalizada con respecto a la iluminación, a la postura y a la expresión y codificada entonces sobre el espacio rotado final. Esto no produce un mejoramiento del reconocimiento. Hay que señalar que puede perfectamente haber correlaciones contingentes no funcionales entre parámetros en distintos subespacios para los individuos (como por ejemplo una continua tendencia a dirigir la mirada hacia arriba o hacia abajo) cuya omisión puede constituir una compensación contra las autocaras teóricamente preferibles.
Una vez logrado un preciso sistema de codificación para caras, el problema principal es el de asegurar que para cualquier manipulación o medición determinada sea usado solamente un subconjunto útil de los códigos. Ésta se una tarea bastante difícil, puesto que hay múltiples explicaciones no ortogonales de cualquier configuración facial determinada. Además, se da típicamente el caso de que solamente una parte relativamente pequeña de la muy gran base de datos requerida estará presente en toda la gama de condiciones y con las etiquetas necesarias para llevar a cabo una sencilla extracción lineal.
La invención supera estos problemas usando un sistema de recodificación iterativa que toma en consideración tanto la variancia de como la covariancia entre los subespacios que pueden ser extraídos para abarcar conjuntos de caras que pueden variar de distintas maneras. Esto produce autocaras "más claras" con una variancia más baja dentro del grupo apropiado y con una variancia más alta en el grupo inapropiado. Estos dos hechos reflejan una mayor ortogonalidad entre los subespacios. Además, aunque marginalmente, resultó mejorado el reconocimiento en un conjunto de ensayo enteramente incoherente. La invención puede ser aplicada al rastreo, a la lectura de los labios y a la transferencia de identidad de una persona a otra.

Claims (5)

1. Método de determinación de subespacios faciales, comprendiendo el método los pasos de:
a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada;
b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada;
c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial;
d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo;
e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado;
f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo;
g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen;
h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio;
i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen;
j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.
2. Método de determinación de subespacios faciales según la reivindicación 1, que comprende además las operaciones de aproximar cada imagen en los nuevos subespacios estimados como se describe en los pasos "a" a "j", y repetir entonces los pasos "d" a "j" hasta que se hayan estabilizado los subespacios.
3. Método de determinación de subespacios faciales según la reivindicación 1 o la reivindicación 2, en el que son generadas tres o más series de imágenes, siendo modificada en cada serie una distinta propiedad facial predeterminada.
4. Método según la reivindicación 3, en el que las propiedades faciales predeterminadas son categorizadas como al menos algunas de las categorías de identidad, expresión, postura, iluminación y edad.
5. Método según cualquiera de las reivindicaciones 1 a 4, en el que es generada al menos una serie adicional de imágenes, siendo modificada en la serie una adicional propiedad facial predeterminada.
ES99956236T 1998-12-02 1999-11-29 Determinacion de subespacios faciales. Expired - Lifetime ES2212857T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB9826398 1998-12-02
GBGB9826398.1A GB9826398D0 (en) 1998-12-02 1998-12-02 Face sub-space determination
GBGB9922807.4A GB9922807D0 (en) 1999-09-28 1999-09-28 Face sub-space determination
GB9922807 1999-09-28

Publications (1)

Publication Number Publication Date
ES2212857T3 true ES2212857T3 (es) 2004-08-01

Family

ID=26314765

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99956236T Expired - Lifetime ES2212857T3 (es) 1998-12-02 1999-11-29 Determinacion de subespacios faciales.

Country Status (10)

Country Link
US (1) US6876755B1 (es)
EP (1) EP1138011B1 (es)
JP (1) JP2002531901A (es)
AT (1) ATE258322T1 (es)
AU (1) AU762625B2 (es)
CA (1) CA2356252A1 (es)
DE (1) DE69914370T2 (es)
DK (1) DK1138011T3 (es)
ES (1) ES2212857T3 (es)
WO (1) WO2000033240A1 (es)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6690830B1 (en) * 1998-04-29 2004-02-10 I.Q. Bio Metrix, Inc. Method and apparatus for encoding/decoding image data
US6853745B1 (en) * 2000-11-03 2005-02-08 Nec Laboratories America, Inc. Lambertian reflectance and linear subspaces
DE60233935D1 (de) * 2002-07-19 2009-11-19 Mitsubishi Electric Inf Tech Verfahren und Gerät zur Datenverarbeitung
HK1052831A2 (en) * 2002-09-19 2003-09-05 Xiaoou Sean Tang Sketch-photo recognition
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7269292B2 (en) * 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7792335B2 (en) * 2006-02-24 2010-09-07 Fotonation Vision Limited Method and apparatus for selective disqualification of digital images
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US8189927B2 (en) 2007-03-05 2012-05-29 DigitalOptics Corporation Europe Limited Face categorization and annotation of a mobile phone contact list
US8553949B2 (en) * 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7440593B1 (en) * 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
JP2005128956A (ja) * 2003-10-27 2005-05-19 Pentax Corp 被写体判定プログラム及びデジタルカメラ
US7003140B2 (en) * 2003-11-13 2006-02-21 Iq Biometrix System and method of searching for image data in a storage medium
US7564994B1 (en) 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
JP2006081156A (ja) * 2004-08-13 2006-03-23 Fuji Photo Film Co Ltd 画像処理装置および方法並びにプログラム
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US7668402B2 (en) * 2004-11-05 2010-02-23 Intergraph Technologies Company Method for generating a composite image
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7768528B1 (en) * 2005-11-09 2010-08-03 Image Metrics Limited Replacement of faces in existing video
US7804983B2 (en) 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
WO2008023280A2 (en) 2006-06-12 2008-02-28 Fotonation Vision Limited Advances in extending the aam techniques from grayscale to color images
WO2008015586A2 (en) * 2006-08-02 2008-02-07 Fotonation Vision Limited Face recognition with combined pca-based datasets
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US20080260212A1 (en) * 2007-01-12 2008-10-23 Moskal Michael D System for indicating deceit and verity
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
EP2115662B1 (en) * 2007-02-28 2010-06-23 Fotonation Vision Limited Separating directional lighting variability in statistical face modelling based on texture space decomposition
US8649604B2 (en) * 2007-03-05 2014-02-11 DigitalOptics Corporation Europe Limited Face searching and detection in a digital image acquisition device
JP2008243093A (ja) * 2007-03-29 2008-10-09 Toshiba Corp 辞書データの登録装置及び辞書データの登録方法
US7916971B2 (en) * 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
US7936906B2 (en) * 2007-06-15 2011-05-03 Microsoft Corporation Face recognition using discriminatively trained orthogonal tensor projections
US8750578B2 (en) 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
US7855737B2 (en) * 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
US8131063B2 (en) * 2008-07-16 2012-03-06 Seiko Epson Corporation Model-based object image processing
KR101446975B1 (ko) 2008-07-30 2014-10-06 디지털옵틱스 코포레이션 유럽 리미티드 얼굴 검출 기능을 사용한 얼굴 및 피부의 자동 미화
WO2010063463A2 (en) * 2008-12-05 2010-06-10 Fotonation Ireland Limited Face recognition using face tracker classifier data
US8260038B2 (en) * 2009-02-25 2012-09-04 Seiko Epson Corporation Subdivision weighting for robust object model fitting
US8260039B2 (en) * 2009-02-25 2012-09-04 Seiko Epson Corporation Object model fitting using manifold constraints
US8208717B2 (en) * 2009-02-25 2012-06-26 Seiko Epson Corporation Combining subcomponent models for object image modeling
US8204301B2 (en) * 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
US8442330B2 (en) 2009-03-31 2013-05-14 Nbcuniversal Media, Llc System and method for automatic landmark labeling with minimal supervision
US8358855B2 (en) * 2009-07-08 2013-01-22 Honeywell International Inc. Determining probabilities from compared covariance appearance models to detect objects of interest in images
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
WO2013086137A1 (en) 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
US20130314401A1 (en) 2012-05-23 2013-11-28 1-800 Contacts, Inc. Systems and methods for generating a 3-d model of a user for a virtual try-on product
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US9152847B2 (en) * 2012-11-27 2015-10-06 Adobe Systems Incorporated Facial landmark localization by exemplar-based graph matching
US10068027B2 (en) * 2015-07-22 2018-09-04 Google Llc Systems and methods for selecting content based on linked devices
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
US11074733B2 (en) 2019-03-15 2021-07-27 Neocortext, Inc. Face-swapping apparatus and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774576A (en) * 1995-07-17 1998-06-30 Nec Research Institute, Inc. Pattern recognition by unsupervised metric learning
US5991429A (en) * 1996-12-06 1999-11-23 Coffin; Jeffrey S. Facial recognition system for security access and identification
US5867587A (en) * 1997-05-19 1999-02-02 Northrop Grumman Corporation Impaired operator detection and warning system employing eyeblink analysis
US6009209A (en) * 1997-06-27 1999-12-28 Microsoft Corporation Automated removal of red eye effect from a digital image
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image

Also Published As

Publication number Publication date
WO2000033240A1 (en) 2000-06-08
ATE258322T1 (de) 2004-02-15
DE69914370T2 (de) 2004-11-04
EP1138011A1 (en) 2001-10-04
US6876755B1 (en) 2005-04-05
AU762625B2 (en) 2003-07-03
EP1138011B1 (en) 2004-01-21
AU1287900A (en) 2000-06-19
DE69914370D1 (de) 2004-02-26
DK1138011T3 (da) 2004-03-08
JP2002531901A (ja) 2002-09-24
CA2356252A1 (en) 2000-06-08

Similar Documents

Publication Publication Date Title
ES2212857T3 (es) Determinacion de subespacios faciales.
Blanz et al. Fitting a morphable model to 3D scans of faces
ES2241667T3 (es) Identificacion o verificacion de clases de objetos, o sintesdis de imagenes de objetos.
Jeni et al. Dense 3D face alignment from 2D videos in real-time
Vetter et al. Estimating coloured 3D face models from single images: An example based approach
Bronstein et al. Three-dimensional face recognition
Jones et al. Multidimensional morphable models: A framework for representing and matching object classes
Sun et al. Facial expression recognition based on 3D dynamic range model sequences
Vetter et al. A bootstrapping algorithm for learning linear models of object classes
Hetzel et al. 3D object recognition from range images using local feature histograms
US7212664B2 (en) Constructing heads from 3D models and 2D silhouettes
US6959109B2 (en) System and method for pose-angle estimation
Beymer Vectorizing face images by interleaving shape and texture computations
Daoudi et al. 3D face modeling, analysis and recognition
Okada et al. Pose-invariant face recognition with parametric linear subspaces
Fransens et al. Parametric stereo for multi-pose face recognition and 3D-face modeling
Colbry et al. Canonical face depth map: A robust 3D representation for face verification
Mian et al. 3D face recognition
Romdhani et al. On utilising template and feature-based correspondence in multi-view appearance models
Abate et al. Fast 3D face recognition based on normal map
Guan Automatic 3d face reconstruction based on single 2d image
Sukno et al. Projective active shape models for pose-variant image analysis of quasi-planar objects: Application to facial analysis
Mahoor et al. Multi-modal (2-d and 3-d) face modeling and recognition using attributed relational graph
Quan et al. Low dimensional surface parameterisation with applications in biometrics
Castellano et al. Computing the 3D face recognition based on pseudo 2D Hidden Markov Models using geodesic distances