ES2212857T3 - Determinacion de subespacios faciales. - Google Patents
Determinacion de subespacios faciales.Info
- Publication number
- ES2212857T3 ES2212857T3 ES99956236T ES99956236T ES2212857T3 ES 2212857 T3 ES2212857 T3 ES 2212857T3 ES 99956236 T ES99956236 T ES 99956236T ES 99956236 T ES99956236 T ES 99956236T ES 2212857 T3 ES2212857 T3 ES 2212857T3
- Authority
- ES
- Spain
- Prior art keywords
- images
- image
- subspaces
- series
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/755—Deformable models or variational models, e.g. snakes or active contours
- G06V10/7557—Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
- Air Conditioning Control Device (AREA)
- Complex Calculations (AREA)
- Automatic Focus Adjustment (AREA)
Abstract
Método de determinación de subespacios faciales, comprendiendo el método los pasos de: a. generar una primera serie de imágenes iniciales en la cual es modificada una primera propiedad facial predeterminada; b. generar una segunda serie de imágenes iniciales en la cual es modificada una segunda propiedad facial predeterminada; c. codificar cada serie de imágenes según la variancia de las imágenes para obtener un subespacio estimado para cada propiedad facial; d. concatenar los subespacios para obtener un solo espacio sobreexhaustivo; e. aproximar cada imagen de la primera serie y de la segunda serie en el espacio sobreexhaustivo para obtener versiones aproximadas de cada imagen en cada subespacio de propiedad estimado; f. generar versiones globalmente aproximadas de cada imagen en todo el espacio sobreexhaustivo; g. comparar la versión globalmente aproximada de cada imagen con la imagen inicial para determinar un valor de error para cada imagen; h. subdividir el valor de error para cada imagen en un suberror para cada subespacio de propiedad estimado en proporción a la variancia de ese subespacio; i. combinar cada suberror para cada imagen con la versión aproximada de esa imagen en el subespacio de propiedad estimado, para obtener una nueva versión aproximada en el subespacio de propiedad para cada imagen; j. codificar las nuevas versiones aproximadas de las imágenes según su variancia para obtener nuevos subespacios estimados.
Description
Determinación de subespacios faciales.
La presente invención se refiere a la
determinación de subespacios de variaciones faciales.
La variación facial puede ser conceptualmente
dividida en una serie de subespacios "funcionales", que son
tipos de variación que reflejan dimensiones faciales útiles [M. J.
Black, D. J. Flcet y Y. Yacoob. A framework for modelling
appearance change in image sequences. 6th ICCV, páginas
660-667, 1998]. Una posible selección de estos
espacios faciales es la siguiente: identidad, expresión (incluyendo
aquí todas las deformaciones plásticas transitorias de la cara),
postura e iluminación. Pueden extraerse otros espacios, siendo el
más obvio el de la edad. Cuando se diseña un práctico sistema de
análisis facial, debe ser aislado y modelizado al menos uno de
estos subespacios. Por ejemplo, en una aplicación en el campo de la
seguridad será necesario reconocer a los individuos
independientemente de la expresión, de la postura y de la
iluminación, mientras que un lector de labios se concentrará tan
sólo en la expresión. En determinadas circunstancias son necesarias
estimaciones exactas de todos los subespacios, por ejemplo cuando
"se transfieren" los movimientos de la cara y de la cabeza de
una videosecuencia de un individuo a otro para producir una
secuencia sintética.
A pesar de que las imágenes de caras pueden ser
encajadas adecuadamente usando un espacio de modelización del
aspecto que abarque las imágenes, no es posible separar
linealmente los distintos subespacios [S.
Duvdevani-Bar, S. Edelman, A. J. Howell y H.
Buxton. A similarity-based method for the
generalisation of face recognition over pose and expression. 3th
Face and Gesture, páginas 118-123, 1998]. Esto es
debido al hecho de que los subespacios incluyen un cierto grado de
coincidencia parcial (por ejemplo, una expresión "neutra"
contendrá en realidad una expresión de baja intensidad).
Es un objetivo de la invención aportar un método
mejorado para determinar subespacios faciales como se expone en las
reivindicaciones adjuntas.
La invención prorratea simultáneamente pesos de
imagen entre las estimaciones iniciales parcialmente coincidentes
de estos espacios funcionales proporcionalmente a la variancia de
los subespacios. Esto divide las caras en un conjunto de
proyecciones no ortogonales que permite una aproximación iterativa a
un conjunto de espacios puros pero parcialmente coincidentes. Éstos
son más específicos que los espacios iniciales, mejorando el
reconocimiento de la identidad.
Según la invención, se aporta un método de
determinación de subespacios faciales, comprendiendo el método los
pasos de:
a. generar una primera serie de imágenes
iniciales en la cual es modificada una primera propiedad facial
predeterminada;
b. generar una segunda serie de imágenes
iniciales en la cual es modificada una segunda propiedad facial
predeterminada;
c. codificar cada serie de imágenes según la
variancia de las imágenes para obtener un subespacio estimado para
cada propiedad facial;
d. concatenar los subespacios para obtener un
solo espacio sobreexhaustivo;
e. aproximar cada imagen de la primera serie y de
la segunda serie en el espacio sobreexhaustivo para obtener
versiones aproximadas de cada imagen en cada subespacio de
propiedad estimado;
f. generar versiones globalmente aproximadas de
cada imagen en todo el espacio sobreexhaustivo;
g. comparar la versión globalmente aproximada de
cada imagen con la imagen inicial para determinar un valor de error
para cada imagen;
h. subdividir el valor de error para cada imagen
en un suberror para cada subespacio de propiedad estimado en
proporción a la variancia de ese subespacio;
i. combinar cada suberror para cada imagen con la
versión aproximada de esa imagen en el subespacio de propiedad
estimado, para obtener una nueva versión aproximada en el
subespacio de propiedad para cada imagen;
j. codificar las nuevas versiones aproximadas de
las imágenes según su variancia para obtener nuevos subespacios
estimados.
El método según el segundo aspecto de la
invención comprende preferiblemente además las operaciones de
aproximar cada imagen en los nuevos subespacios estimados como se
describe en los pasos "a" a "j", y repetir entonces los
pasos "d" a "j" hasta que se hayan estabilizado los
subespacios.
Preferiblemente son generadas tres o más series
de imágenes, siendo modificada en cada serie una distinta propiedad
facial predeterminada.
Preferiblemente, las propiedades faciales
predeterminadas son categorizadas como al menos algunas de las
categorías de identidad, expresión, postura, iluminación y
edad.
Preferiblemente es generada al menos una serie
adicional de imágenes, siendo modificada en la serie una adicional
propiedad facial predeterminada.
Se describe a continuación una realización
específica de la invención tan sólo a título de ejemplo y haciendo
referencia a los dibujos acompañantes, en los cuales:
La Figura 1 muestra las dos primeras dimensiones
de un espacio facial según es definido por un modelo del aspecto
usado por la invención;
la Figura 2 es un ejemplo de una imagen de
conjunto de un conjunto de expresiones como el usado por la
invención, mostrándose los puntos de correspondencia;
la Figura 3 muestra las dos primeras dimensiones
de autocaras de identidad de partida usadas por la invención;
la Figura 4 muestra las dos primeras dimensiones
de autocaras de identidad de partida usadas por la invención,
variando las autocaras solamente en la identidad;
la Figura 5 es un gráfico que ilustra la
convergencia alcanzada por el método según la invención;
la Figura 6 es un gráfico que ilustra errores
medios de codificación para imágenes de conjunto y de ensayo
referidos a las iteraciones del método según la invención;
la Figura 7 es un gráfico que ilustra variancias
medias intrapersona para los distintos subespacios en función del
número de iteraciones; y
la Figura 8 es un gráfico que ilustra los
porcentajes de reconocimiento para la coincidencia de imágenes de
promedio euclídea.
La codificación facial requiera la aproximación
de una superficie variada o altamente dimensional en la cual puede
decirse que está situada toda cara. Esto permite una exacta
codificación, un exacto reconocimiento y una exacta reproducción de
ejemplos previamente no vistos. Los de una serie de estudios
anteriores [N. P. Costen, I. G. Craw, G. J. Robertson y S. Akamatsu.
Automatic face recognition: What representation? European
Conference on Computer Vision, vol. 1, páginas
504-513, 1996; G. J. Edwards, A. Lanitis, C. J.
Taylor y T. F. Cootes. Modelling the variability in face images.
2nd Face and Gesture, páginas 328-333, 1996; N. P.
Costen, I. G. Craw, T. Kato, G. Robertson y S. Akamatsu. Manifold
caricatures: On the psychological consistency of computer face
recognition. 2nd Face and Gesture, páginas 4-10,
1996] han sugerido que el uso de una codificación libre de forma
proporciona unos medios expeditos para hacer esto, al menos cuando
la amplitud del ángulo de postura es relativamente pequeña, y quizá
de \pm 20º. [T. Poggio y D. Beymer. Learning networks for face
analysis and synthesis. Face and Gesture, páginas
160-165, 1995]. En esta realización de la
invención, el problema de correspondencia entre caras es
primeramente resuelto encontrando un conjunto preseleccionado de
puntos distintivos (comisuras de los ojos o de las bocas, por
ejemplo) que están presentes en todas las caras. Esto se hace
típicamente a mano durante el entrenamiento. Esos pixels así
definidos como parte de la cara pueden ser llevados a una forma
estándar mediante técnicas de interpolación de niveles de gris
estándar, asegurando que sean equivalentes las coordenadas de imagen
y las coordenadas de cara de una imagen determinada. Si es llevada a
cabo en las ubicaciones de los puntos una transformación rígida
para eliminar los efectos de escala, ubicación y orientación,
dichas ubicaciones pueden ser entonces tratadas de la misma manera
como los niveles de gris, puesto que de nuevo los valores idénticos
para puntos correspondientes en distintas caras tendrán el mismo
significado.
A pesar de que estas operaciones linealizan el
espacio, permitiendo la interpolación entre pares de caras, no
proporcionan una estimación de las dimensiones. Por consiguiente,
no puede ser medida la aceptabilidad como cara de un objeto, y esto
reduce el reconocimiento [N. P. Costen, I. G. Graw, G. J. Robertson
y S. Akamatsu. Automatic face recognition: What representation?
European Conference on Computer Vision, vol. 1, páginas
504-513, 1996]. Además, no pueden ser descritas las
redundancias entre la ubicación de los puntos de facción y los
valores del nivel de gris. Estos dos problemas son abordados en
esta realización de la invención mediante el Análisis de los
Componentes Principales (PCA). Esto extrae un conjunto de
autovectores ortogonales \Phi de la matriz de covariancia de las
imágenes (ya sea los niveles de gris de los pixels, o bien las
ubicaciones de los puntos de facción). En combinación con los
autovalores, esto proporciona una estimación de las dimensiones y la
extensión del espacio facial. Pueden entonces hallarse los pesos w
de una cara q,
y esto da la distancia de
Mahalanobis
entre las caras q1 y q2, codificando en términos
de la variación prevista [B. Moghaddam, W. Wahid y A. Pentland,
Beyond eigenfaces: Probabilistic matching for face recognition. 3rd
Face and Gesture, páginas 30-35, 1998]. Las
redundancias entre la forma y los niveles de gris son eliminadas
efectuando análisis de los componentes principales por separado
sobre la forma y los niveles de gris, antes de ser los pesos del
conjunto combinados para formar vectores individuales sobre los
cuales es llevado a cabo un segundo análisis de los componentes
principales [G. J. Edwards, A. Lanitis, C. J. Taylor y T. F.
Cootes. Modelling the variability in face images. 2nd Face and
Gesture, páginas 328-333,
1996].
Este "modelo del aspecto" permite la
descripción de la cara en términos de la variación verdadera, es
decir de las distorsiones necesarias para pasar de una a otra. Los
estudios siguientes son llevados a cabo dentro del marco de esta
representación. Sin embargo, la misma codificará todo el espacio
especificado por nuestro conjunto de imágenes, como puede verse en
la Figura 1 (desde la izquierda -2s:d:, la media
+2s:d). Las autocaras pueden variar con respecto a la
identidad, a la expresión, a la postura y a la iluminación. Así por
ejemplo, la distancia entre las representaciones de dos imágenes
será una combinación de la identidad, la expresión facial, el
ángulo y las condiciones de iluminación. Éstos deben ser separados
para permitir un análisis detallado de la imagen facial.
A pesar de que a partir de los códigos externos
de cada cara en cada tipo de variación pueden obtenerse
estimaciones de los subespacios, dichos códigos externos no están
típicamente disponibles. En lugar de ello fueron usados distintos
conjuntos que presentaban cada uno una variación importante en
solamente un subespacio. Los conjuntos comprendían:
1. Un conjunto de iluminaciones, que constaba de
5 imágenes de un solo individuo de sexo masculino que fueron
tomadas todas ellas como fotografías frontoparalelas y con una
expresión neutra fija. El modelo era iluminado por una sola lámpara
que era desplazada en torno a su cara.
2. Un conjunto de posturas, que comprendía 100
imágenes de 10 modelos distintos, a razón de 10 imágenes por
modelo. Los modelos habían dirigido sus cabezas en las de una
variedad de direcciones bidimensionales cuyo ángulo era
relativamente coherente. Eran mínimas las variaciones de expresión y
de iluminación.
3. Conjunto de expresiones, con 397 imágenes de
19 modelos distintos cada uno de los cuales hizo siete expresiones
básicas que eran concretamente las de contento, tristeza, temor,
enfado, sorpresa, neutra y asco. Estas imágenes presentaban una
notable variación de la iluminación específica de la persona, y
cierta variación de la postura.
4. Un conjunto de identidades, con 188 imágenes
distintas, una por modelo. Éstas eran todas frontoparalelas, en
iluminación uniforme y con expresiones neutras. Sin embargo, como
es inevitable cuando se trata de un gran grupo de individuos, había
considerable variación en cuanto a la expresión aparente adoptada
como neutra.
Todas las imágenes tenían un conjunto uniforme de
122 puntos de referencia hallados manualmente. Está ilustrado en la
Figura 2 un ejemplo de una imagen de conjunto con puntos de
referencia. Fue aplicada una triangulación a los puntos, y fue
usada interpolación bilineal para llevar las imágenes a una forma y
un tamaño estándar que diese un número fijo de pixels. A efectos de
ensayo, los puntos de facción fueron hallados usando un Modelo de
Aspecto Activo de resolución múltiple construido usando las
imágenes de conjunto, pero sin normalización de los niveles de gris
[T. F. Cootes, G. J. Edwards y C. J. Taylor. Active Appearance
Models. European Conference on Computer Vision, vol. 2, páginas
484-498, 1998].
Puesto que las imágenes fueron tomadas con las de
una variedad de cámaras, fue necesario normalizar los niveles de
iluminación. Para un pixel determinado, un nivel de gris de digamos
128=256 tiene un significado distinto de una imagen normalizada en
cuanto a la forma a otra. La mancha de nivel de gris exenta de
forma g_{i} fue muestreada a partir de la i^{ésima} imagen
normalizada en cuanto a la forma. Para minimizar el efecto de la
variación de la iluminación global, esta mancha fue normalizada en
cada punto j para obtener
donde \mu_{j}, \sigma_{j} son la
desviación media y la desviación
característica.
Estas operaciones permitieron la construcción de
un modelo de aspecto [G. J. Edwards, A. Lanitis, C. J. Taylor y T.
F. Cootes. Modelling the variability in face images. 2nd Face and
Gesture, páginas 328-333, 1996] que codificaba un
99,5% de la variación en las 690 imágenes, cada una con 19826 pixels
en el área de la cara. Esto requería un total de 636
autovectores.
Los ensayos pusieron de manifiesto que los
distintos subespacios no eran linealmente separables. Se hizo un
intento de proyectar sucesivamente las caras a través de los
espacios definidos por las otras categorías de caras y tomar el
error de codificación como datos para un subsiguiente análisis de
los componentes principales (PCA), pero este intento no tuvo éxito.
El cuarto y final conjunto de componentes codificaba coherentemente
poca cosa aparte de ruido. Un procedimiento en el que cada
subespacio retiraba tan sólo códigos faciales dentro de su propia
extensión (típicamente \pm 2S.D.) sí produjo un cuarto
conjunto utilizable, pero la aplicación era esencialmente arbitraria
y usaba tan sólo un pequeño subconjunto para calcular cada
subespacio.
Los datos relevantes fueron en lugar de ello
extraídos de una manera más de principios, usando la variación
relevante que estaba presente en cada conjunto de imágenes. El
problema básico era el de que cada uno de los subespacios
especificados por los conjuntos codificaba tanto la variancia
"oficial" deseada como una mezcla desconocida de los otros
tipos. Esta contaminación tenía en la mayor parte su origen en una
falta de control de los factores faciales relevantes, y así por
ejemplo, las expresiones "neutras" que se veían en el conjunto
de identidades contenían en realidad una gama de distintas
expresiones de baja intensidad. Están ilustrados en la Figura 3
ejemplos de las autocaras de identidad de partida que ilustran el
limitado abanico de identidades de este conjunto (desde la
izquierda, -2s:d:, la media +2s:d:). Las autocaras varían en la
mayor parte en cuanto a la identidad y a la iluminación.
No hay garantía de que los componentes
principales "puros" deseados para el subespacio serán
ortogonales con los otros. Esto es consecuencia de los últimos
factores de enlace, y en concreto de la forma tridimensional de la
cara y del tamaño y la situación de la musculatura facial. Son
posibles importantes mejoramientos en materia de seguimiento y
reconocimiento aprendiendo el camino tomado a través del espacio
facial por medio de la secuencia de imágenes faciales [D. B.
Graham y N. M. Allinson. Face recognition from unfamiliar views:
Subspace methods and pose dependency. 3rd Face and Gesture, páginas
348-353, 1998]. La invención se deriva de la
constatación de que estas relaciones pueden ser susceptibles de
modelización de segundo orden, y de que las estimaciones de los
modos de variación que vienen dados por los conjuntos se verán
influenciadas por la selección de imágenes. Así, la invención
permite eliminar de las estimaciones no ortogonales de subespacios
la variancia contaminante, y también usar el mayor número posible
de imágenes. Esto se hace a base de usar las diferencias de
variancia sobre los componentes principales extraídos de los
distintos conjuntos.
Suponiendo que los conjuntos codifiquen
predominantemente los perseguidos tipos de variancia, los
autovalores para los componentes "de señal" de la variancia
deberían ser mayores que los de los componentes "de ruido" de
la variancia. Los componentes "de señal" de la variancia
deberían ser también algo más ortogonales unos con respecto a otros
que los componentes "de ruido", y deberían verse ciertamente
menos afectados por los pequeños cambios en los conjuntos que los
crean.
La invención obtiene unos valores mejorados de
los componentes de la variancia codificando imágenes sobre
múltiples subespacios sobreexhaustivos en proporción a su
variancia, aproximando entonces las imágenes en los distintos
subespacios y recalculando los múltiples espacios. Este proceso es
iterado para obtener un conjunto de subespacios estables y bastante
más ortogonales que codifiquen tan sólo las facciones deseadas.
Si se usan n_{s} subespacios, descritos cada
uno por autovectores \phi^{(j)} con los correspondientes
autovalores \lambda^{(j)} para una determinada q^{1}, la
proyección de los subespacios combinados viene dada por:
con las limitaciones de
que
sea minimizada. Así, si M es la matriz formada a
base de concatenar \phi^{(j=1,2...)} y D es la matriz diagonal
de
\lambda^{(j=1,2...)},
y esto da también una versión proyectada de la
cara
con w_{1} = 0 para los subespacios no
necesarios.
La primera etapa de la implementación de la
invención fue la de deducir la media global de cada cara,
asegurando así que la media de cada subespacio fuese tan cercana a
cero como fuese posible. Fueron entonces llevados a cabo sobre los
conjuntos de imágenes análisis de los componentes principales (PCAs)
por separado, descartando toda adicional diferencia entre las
medias grupal y global. Las matrices de covariancia para los
subespacios de identidad y de iluminación fueron calculadas como
la postura y expresión
usadas
donde n_{o} es el número de
observaciones por individuo, y n_{p} es el número de
individuos, y \upbar{q} es la media del individuo i. A pesar de
que fueron usados todos los autovectores implicados por los
conjuntos de identidades, de iluminaciones y de expresiones, fueron
extraídos del conjunto de posturas tan sólo los dos más
variables.
Los autovectores fueron combinados para formar M,
y la versión proyectada para cada cara en cada subespacio fue
hallada usando las ecuaciones 6 y 7, para obtener las proyecciones
q'_{j} de la cara q para el subespacio j.
Este procedimiento pierde variación útil. Por ejemplo, el componente
de identidad de las imágenes de expresión y postura es poco
probable que sea codificado con precisión solamente por el conjunto
de identidades. Así, fue calculada la plena proyección q', y
la imagen recodificada r_{j} incluía un componente de
error a prorrateo:
Esto produjo cuatro conjuntos, cada uno con 690
imágenes. Fueron llevados a cabo otros cuatro análisis de los
componentes principales sobre las imágenes recodificadas (todos
ellos usando la Ecuación 8) extrayendo el mismo número de
componentes como en el previo análisis de los componentes
principales para los subespacios de iluminación, postura y
expresión, y todos los componentes no cero para el subespacio de
identidad. Éstos formaron una nueva estimación de M, y las caras
originales reproyectadas sobre esta estimación de segundo nivel de
los subespacios dieron una estimación de tercer nivel, y así
sucesivamente. El resultado final con respecto a las imágenes de
identidad está ilustrado en la Figura 4, que muestra las dos
primeras dimensiones del espacio facial de identidad (desde la
izquierda, -2s:d:, la media +s:d:). Las autocaras
varían tan sólo con respecto a la identidad, cuya variedad ha sido
incrementada. En comparación con las de la Figura 1, las
dimensiones faciales parecen tener las mismas identidades, pero
están normalizadas con respecto a la expresión, a la postura y a la
iluminación.
Puesto que se permitió que el espacio de
identidad variase el número de autocaras, mientras que los otros
eran fijos, inevitablemente todo ruido presente en el sistema
tendía a acumularse en el espacio de identidad, y reduciría la
capacidad de reconocimiento si hubiese de tomarse una medida de
Mahalanobis. Así, una vez estabilizado el sistema, fue aplicado un
análisis final de los componentes principales sobre
a las proyecciones de identidad del conjunto
completo de imágenes, codificando un 97% de la variancia. Esto
permitió una rotación final para maximizar la variaciancia entre
personas, reduciendo los autovectores de identidad de 497 a 153.
Estas autocaras rotadas fueron usadas solamente para
reconocimiento.
La convergencia del método fue estimada tomando
las distancias de Mahalanobis entre todas las imágenes en cada uno
de los subespacios. Se sacó una correlación de
momento-producto de Pearson entre las distancias de
las sucesivas iteraciones, y se dejó que la misma convergiese con
la precisión de la máquina, a pesar de que en la práctica un valor
ligeramente inferior alcanzaría los mismos resultados con un tiempo
de procesamiento reducido. El método proporcionó un conjunto
relativamente uniforme de coeficientes de correlación como se
ilustra en la Figura 5, convergiendo en aproximadamente siete
iteraciones (la Figura 5 muestra las variaciones de las
correlaciones entre las distancias de Mahalanobis que separan todas
las imágenes en el espacio múltiple entre la iteración n y
la iteración n-1). Puesto que tan sólo un 99,99% de la
variancia en el conjunto basta para evitar problemas con la
precisión numérica, fue lograda una convergencia práctica con la
cuarta iteración.
Puesto que las iteraciones suponían la inclusión
de información que no pudo ser codificada en la iteración previa,
debería ser de esperar que fuese en disminución la diferencia entre
las imágenes originales y proyectadas. Esto debería ser de
aplicación tanto a las imágenes de conjunto como a las imágenes no
de conjunto al devenir más representativas las autocaras.
Esto fue verificado proyectando las imágenes a
través de los espacios combinados (usando las Ecuaciones 6 y 7) y
midiendo la magnitud de los errores. Esto fue llevado a cabo tanto
para las imágenes de conjunto como para un gran conjunto de ensayo
(llamado "Manchester") usado por primera vez en [A. Lanitis,
C. J. Taylor y T. F. Cootes. An automatic face identification system
using flexible appearance models. British Machine Vision
Conference, páginas 65-74, 1994]. Este conjunto
constaba de 600 imágenes de 30 individuos, divididas por la mitad:
una galería de 10 imágenes por persona y un conjunto de 10 sondas
por persona. Como puede verse en la Figura 6, en ambos casos los
errores descendieron rápidamente hasta un nivel despreciable (los
errores disminuyen rápidamente hasta un nivel despreciable en ambos
casos. Los errores en los subespacios individuales siguen alcanzando
un alto nivel (de 4.000 a 11.000)). Como comparación, los dos
conjuntos tienen magnitudes medias (variancia total) de 11345 y
11807, medidas sobre los autopesos de los modelos de aspecto.
El nivel de normalización fue medido sobre el
conjunto Manchester, calculando los pesos de identidad usando la
Ecuación 6, y hallando la media de persona \upbar{w}_{1}. Una
mejor eliminación de la variancia contaminante debería reducir la
variancia para cada individuo, en relación con esta media. Fue
calculada la variancia,
Los resultados de este ensayo en la Figura 7
ponen de manifiesto una sostenida disminución de la variancia de
los subespacios de identidad (la Figura 7 muestra las variancias
intrapersona medias para los distintos subespacios en función del
número de iteración). La única excepción a esto es el valor para la
iteración número dos; y esto es poco habitual por cuanto que se
tiene un gran incremento del número de dimensiones, sin oportunidad
de redistribuir esta variación en los otros subespacios.
Están ilustrados los resultados de proyectar las
caras en los otros subespacios, así como la variancia en el modelo
del aspecto. Como podría ser de esperar, estos valores son todos
ellos más altos que el valor del subespacio de identidad, y no
presentan marcadas disminuciones al progresar las iteraciones. De
hecho, aumenta ligeramente la variancia de la postura.
El reconocimiento fue también verificado sobre el
conjunto Manchester, codificando las imágenes sobre el espacio
rotado final. El Modelo de Aspecto usado para proporcionar
correspondencias no dio posiciones completamente exactas,
disminuyendo el reconocimiento. La matriz de covariancia agrupada
fue hallada usando la Ecuación 9 sobre el w_{i}. Esto permitió
que
donde 1 \leq k \leq
(n_{o}xn_{p}), diese las distancias de Mahalanobis a las
imágenes medias. Se registraba un reconocimiento cuando la d
más pequeña tenía la misma identidad para i y k. Los
resultados están ilustrados en la Figura 8 (que muestra los
porcentajes de reconocimiento para el apareamiento de imágenes de
promedio euclídeas), y demuestran que con respecto al estado de
base el reconocimiento mejora en aproximadamente un 1 por ciento en
la iteración 4. Están también ilustrados los efectos de proyectar
las imágenes de ensayo a través del espacio completo para obtener
la versión normalizada con respecto a la iluminación, a la postura
y a la expresión y codificada entonces sobre el espacio rotado
final. Esto no produce un mejoramiento del reconocimiento. Hay que
señalar que puede perfectamente haber correlaciones contingentes no
funcionales entre parámetros en distintos subespacios para los
individuos (como por ejemplo una continua tendencia a dirigir la
mirada hacia arriba o hacia abajo) cuya omisión puede constituir una
compensación contra las autocaras teóricamente
preferibles.
Una vez logrado un preciso sistema de
codificación para caras, el problema principal es el de asegurar
que para cualquier manipulación o medición determinada sea usado
solamente un subconjunto útil de los códigos. Ésta se una tarea
bastante difícil, puesto que hay múltiples explicaciones no
ortogonales de cualquier configuración facial determinada. Además,
se da típicamente el caso de que solamente una parte relativamente
pequeña de la muy gran base de datos requerida estará presente en
toda la gama de condiciones y con las etiquetas necesarias para
llevar a cabo una sencilla extracción lineal.
La invención supera estos problemas usando un
sistema de recodificación iterativa que toma en consideración tanto
la variancia de como la covariancia entre los subespacios que
pueden ser extraídos para abarcar conjuntos de caras que pueden
variar de distintas maneras. Esto produce autocaras "más
claras" con una variancia más baja dentro del grupo apropiado y
con una variancia más alta en el grupo inapropiado. Estos dos
hechos reflejan una mayor ortogonalidad entre los subespacios.
Además, aunque marginalmente, resultó mejorado el reconocimiento en
un conjunto de ensayo enteramente incoherente. La invención puede
ser aplicada al rastreo, a la lectura de los labios y a la
transferencia de identidad de una persona a otra.
Claims (5)
1. Método de determinación de subespacios
faciales, comprendiendo el método los pasos de:
a. generar una primera serie de imágenes
iniciales en la cual es modificada una primera propiedad facial
predeterminada;
b. generar una segunda serie de imágenes
iniciales en la cual es modificada una segunda propiedad facial
predeterminada;
c. codificar cada serie de imágenes según la
variancia de las imágenes para obtener un subespacio estimado para
cada propiedad facial;
d. concatenar los subespacios para obtener un
solo espacio sobreexhaustivo;
e. aproximar cada imagen de la primera serie y de
la segunda serie en el espacio sobreexhaustivo para obtener
versiones aproximadas de cada imagen en cada subespacio de
propiedad estimado;
f. generar versiones globalmente aproximadas de
cada imagen en todo el espacio sobreexhaustivo;
g. comparar la versión globalmente aproximada de
cada imagen con la imagen inicial para determinar un valor de error
para cada imagen;
h. subdividir el valor de error para cada imagen
en un suberror para cada subespacio de propiedad estimado en
proporción a la variancia de ese subespacio;
i. combinar cada suberror para cada imagen con la
versión aproximada de esa imagen en el subespacio de propiedad
estimado, para obtener una nueva versión aproximada en el
subespacio de propiedad para cada imagen;
j. codificar las nuevas versiones aproximadas de
las imágenes según su variancia para obtener nuevos subespacios
estimados.
2. Método de determinación de subespacios
faciales según la reivindicación 1, que comprende además las
operaciones de aproximar cada imagen en los nuevos subespacios
estimados como se describe en los pasos "a" a "j", y
repetir entonces los pasos "d" a "j" hasta que se hayan
estabilizado los subespacios.
3. Método de determinación de subespacios
faciales según la reivindicación 1 o la reivindicación 2, en el que
son generadas tres o más series de imágenes, siendo modificada en
cada serie una distinta propiedad facial predeterminada.
4. Método según la reivindicación 3, en el que
las propiedades faciales predeterminadas son categorizadas como al
menos algunas de las categorías de identidad, expresión, postura,
iluminación y edad.
5. Método según cualquiera de las
reivindicaciones 1 a 4, en el que es generada al menos una serie
adicional de imágenes, siendo modificada en la serie una adicional
propiedad facial predeterminada.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9826398 | 1998-12-02 | ||
GBGB9826398.1A GB9826398D0 (en) | 1998-12-02 | 1998-12-02 | Face sub-space determination |
GBGB9922807.4A GB9922807D0 (en) | 1999-09-28 | 1999-09-28 | Face sub-space determination |
GB9922807 | 1999-09-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2212857T3 true ES2212857T3 (es) | 2004-08-01 |
Family
ID=26314765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99956236T Expired - Lifetime ES2212857T3 (es) | 1998-12-02 | 1999-11-29 | Determinacion de subespacios faciales. |
Country Status (10)
Country | Link |
---|---|
US (1) | US6876755B1 (es) |
EP (1) | EP1138011B1 (es) |
JP (1) | JP2002531901A (es) |
AT (1) | ATE258322T1 (es) |
AU (1) | AU762625B2 (es) |
CA (1) | CA2356252A1 (es) |
DE (1) | DE69914370T2 (es) |
DK (1) | DK1138011T3 (es) |
ES (1) | ES2212857T3 (es) |
WO (1) | WO2000033240A1 (es) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6690830B1 (en) * | 1998-04-29 | 2004-02-10 | I.Q. Bio Metrix, Inc. | Method and apparatus for encoding/decoding image data |
US6853745B1 (en) * | 2000-11-03 | 2005-02-08 | Nec Laboratories America, Inc. | Lambertian reflectance and linear subspaces |
DE60233935D1 (de) * | 2002-07-19 | 2009-11-19 | Mitsubishi Electric Inf Tech | Verfahren und Gerät zur Datenverarbeitung |
HK1052831A2 (en) * | 2002-09-19 | 2003-09-05 | Xiaoou Sean Tang | Sketch-photo recognition |
US8593542B2 (en) | 2005-12-27 | 2013-11-26 | DigitalOptics Corporation Europe Limited | Foreground/background separation using reference images |
US8989453B2 (en) | 2003-06-26 | 2015-03-24 | Fotonation Limited | Digital image processing using face detection information |
US7620218B2 (en) | 2006-08-11 | 2009-11-17 | Fotonation Ireland Limited | Real-time face tracking with reference images |
US8494286B2 (en) | 2008-02-05 | 2013-07-23 | DigitalOptics Corporation Europe Limited | Face detection in mid-shot digital images |
US9692964B2 (en) | 2003-06-26 | 2017-06-27 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
US8498452B2 (en) | 2003-06-26 | 2013-07-30 | DigitalOptics Corporation Europe Limited | Digital image processing using face detection information |
US8948468B2 (en) | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
US8896725B2 (en) | 2007-06-21 | 2014-11-25 | Fotonation Limited | Image capture device with contemporaneous reference image capture mechanism |
US7269292B2 (en) * | 2003-06-26 | 2007-09-11 | Fotonation Vision Limited | Digital image adjustable compression and resolution using face detection information |
US9129381B2 (en) | 2003-06-26 | 2015-09-08 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
US7792335B2 (en) * | 2006-02-24 | 2010-09-07 | Fotonation Vision Limited | Method and apparatus for selective disqualification of digital images |
US8363951B2 (en) | 2007-03-05 | 2013-01-29 | DigitalOptics Corporation Europe Limited | Face recognition training method and apparatus |
US8682097B2 (en) | 2006-02-14 | 2014-03-25 | DigitalOptics Corporation Europe Limited | Digital image enhancement with reference images |
US7792970B2 (en) | 2005-06-17 | 2010-09-07 | Fotonation Vision Limited | Method for establishing a paired connection between media devices |
US8189927B2 (en) | 2007-03-05 | 2012-05-29 | DigitalOptics Corporation Europe Limited | Face categorization and annotation of a mobile phone contact list |
US8553949B2 (en) * | 2004-01-22 | 2013-10-08 | DigitalOptics Corporation Europe Limited | Classification and organization of consumer digital images using workflow, and face detection and recognition |
US8330831B2 (en) | 2003-08-05 | 2012-12-11 | DigitalOptics Corporation Europe Limited | Method of gathering visual meta data using a reference image |
US7440593B1 (en) * | 2003-06-26 | 2008-10-21 | Fotonation Vision Limited | Method of improving orientation and color balance of digital images using face detection information |
US8155397B2 (en) | 2007-09-26 | 2012-04-10 | DigitalOptics Corporation Europe Limited | Face tracking in a camera processor |
US7844076B2 (en) | 2003-06-26 | 2010-11-30 | Fotonation Vision Limited | Digital image processing using face detection and skin tone information |
US7471846B2 (en) | 2003-06-26 | 2008-12-30 | Fotonation Vision Limited | Perfecting the effect of flash within an image acquisition devices using face detection |
US7574016B2 (en) | 2003-06-26 | 2009-08-11 | Fotonation Vision Limited | Digital image processing using face detection information |
US7565030B2 (en) | 2003-06-26 | 2009-07-21 | Fotonation Vision Limited | Detecting orientation of digital images using face detection information |
JP2005128956A (ja) * | 2003-10-27 | 2005-05-19 | Pentax Corp | 被写体判定プログラム及びデジタルカメラ |
US7003140B2 (en) * | 2003-11-13 | 2006-02-21 | Iq Biometrix | System and method of searching for image data in a storage medium |
US7564994B1 (en) | 2004-01-22 | 2009-07-21 | Fotonation Vision Limited | Classification system for consumer digital images using automatic workflow and face detection and recognition |
JP2006081156A (ja) * | 2004-08-13 | 2006-03-23 | Fuji Photo Film Co Ltd | 画像処理装置および方法並びにプログラム |
US8320641B2 (en) | 2004-10-28 | 2012-11-27 | DigitalOptics Corporation Europe Limited | Method and apparatus for red-eye detection using preview or other reference images |
US7668402B2 (en) * | 2004-11-05 | 2010-02-23 | Intergraph Technologies Company | Method for generating a composite image |
US8503800B2 (en) | 2007-03-05 | 2013-08-06 | DigitalOptics Corporation Europe Limited | Illumination detection using classifier chains |
US7715597B2 (en) | 2004-12-29 | 2010-05-11 | Fotonation Ireland Limited | Method and component for image recognition |
US7315631B1 (en) | 2006-08-11 | 2008-01-01 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US8488023B2 (en) * | 2009-05-20 | 2013-07-16 | DigitalOptics Corporation Europe Limited | Identifying facial expressions in acquired digital images |
US7768528B1 (en) * | 2005-11-09 | 2010-08-03 | Image Metrics Limited | Replacement of faces in existing video |
US7804983B2 (en) | 2006-02-24 | 2010-09-28 | Fotonation Vision Limited | Digital image acquisition control and correction method and apparatus |
WO2008023280A2 (en) | 2006-06-12 | 2008-02-28 | Fotonation Vision Limited | Advances in extending the aam techniques from grayscale to color images |
WO2008015586A2 (en) * | 2006-08-02 | 2008-02-07 | Fotonation Vision Limited | Face recognition with combined pca-based datasets |
US7916897B2 (en) | 2006-08-11 | 2011-03-29 | Tessera Technologies Ireland Limited | Face tracking for controlling imaging parameters |
US7403643B2 (en) | 2006-08-11 | 2008-07-22 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US20080260212A1 (en) * | 2007-01-12 | 2008-10-23 | Moskal Michael D | System for indicating deceit and verity |
US8055067B2 (en) | 2007-01-18 | 2011-11-08 | DigitalOptics Corporation Europe Limited | Color segmentation |
EP2115662B1 (en) * | 2007-02-28 | 2010-06-23 | Fotonation Vision Limited | Separating directional lighting variability in statistical face modelling based on texture space decomposition |
US8649604B2 (en) * | 2007-03-05 | 2014-02-11 | DigitalOptics Corporation Europe Limited | Face searching and detection in a digital image acquisition device |
JP2008243093A (ja) * | 2007-03-29 | 2008-10-09 | Toshiba Corp | 辞書データの登録装置及び辞書データの登録方法 |
US7916971B2 (en) * | 2007-05-24 | 2011-03-29 | Tessera Technologies Ireland Limited | Image processing method and apparatus |
US7936906B2 (en) * | 2007-06-15 | 2011-05-03 | Microsoft Corporation | Face recognition using discriminatively trained orthogonal tensor projections |
US8750578B2 (en) | 2008-01-29 | 2014-06-10 | DigitalOptics Corporation Europe Limited | Detecting facial expressions in digital images |
US7855737B2 (en) * | 2008-03-26 | 2010-12-21 | Fotonation Ireland Limited | Method of making a digital camera image of a scene including the camera user |
US8131063B2 (en) * | 2008-07-16 | 2012-03-06 | Seiko Epson Corporation | Model-based object image processing |
KR101446975B1 (ko) | 2008-07-30 | 2014-10-06 | 디지털옵틱스 코포레이션 유럽 리미티드 | 얼굴 검출 기능을 사용한 얼굴 및 피부의 자동 미화 |
WO2010063463A2 (en) * | 2008-12-05 | 2010-06-10 | Fotonation Ireland Limited | Face recognition using face tracker classifier data |
US8260038B2 (en) * | 2009-02-25 | 2012-09-04 | Seiko Epson Corporation | Subdivision weighting for robust object model fitting |
US8260039B2 (en) * | 2009-02-25 | 2012-09-04 | Seiko Epson Corporation | Object model fitting using manifold constraints |
US8208717B2 (en) * | 2009-02-25 | 2012-06-26 | Seiko Epson Corporation | Combining subcomponent models for object image modeling |
US8204301B2 (en) * | 2009-02-25 | 2012-06-19 | Seiko Epson Corporation | Iterative data reweighting for balanced model learning |
US8442330B2 (en) | 2009-03-31 | 2013-05-14 | Nbcuniversal Media, Llc | System and method for automatic landmark labeling with minimal supervision |
US8358855B2 (en) * | 2009-07-08 | 2013-01-22 | Honeywell International Inc. | Determining probabilities from compared covariance appearance models to detect objects of interest in images |
US8379917B2 (en) | 2009-10-02 | 2013-02-19 | DigitalOptics Corporation Europe Limited | Face recognition performance using additional image features |
WO2013086137A1 (en) | 2011-12-06 | 2013-06-13 | 1-800 Contacts, Inc. | Systems and methods for obtaining a pupillary distance measurement using a mobile computing device |
US20130314401A1 (en) | 2012-05-23 | 2013-11-28 | 1-800 Contacts, Inc. | Systems and methods for generating a 3-d model of a user for a virtual try-on product |
US9286715B2 (en) | 2012-05-23 | 2016-03-15 | Glasses.Com Inc. | Systems and methods for adjusting a virtual try-on |
US9483853B2 (en) | 2012-05-23 | 2016-11-01 | Glasses.Com Inc. | Systems and methods to display rendered images |
US9152847B2 (en) * | 2012-11-27 | 2015-10-06 | Adobe Systems Incorporated | Facial landmark localization by exemplar-based graph matching |
US10068027B2 (en) * | 2015-07-22 | 2018-09-04 | Google Llc | Systems and methods for selecting content based on linked devices |
US20190332848A1 (en) | 2018-04-27 | 2019-10-31 | Honeywell International Inc. | Facial enrollment and recognition system |
US11074733B2 (en) | 2019-03-15 | 2021-07-27 | Neocortext, Inc. | Face-swapping apparatus and method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774576A (en) * | 1995-07-17 | 1998-06-30 | Nec Research Institute, Inc. | Pattern recognition by unsupervised metric learning |
US5991429A (en) * | 1996-12-06 | 1999-11-23 | Coffin; Jeffrey S. | Facial recognition system for security access and identification |
US5867587A (en) * | 1997-05-19 | 1999-02-02 | Northrop Grumman Corporation | Impaired operator detection and warning system employing eyeblink analysis |
US6009209A (en) * | 1997-06-27 | 1999-12-28 | Microsoft Corporation | Automated removal of red eye effect from a digital image |
US6148092A (en) * | 1998-01-08 | 2000-11-14 | Sharp Laboratories Of America, Inc | System for detecting skin-tone regions within an image |
-
1999
- 1999-11-29 CA CA002356252A patent/CA2356252A1/en not_active Abandoned
- 1999-11-29 DK DK99956236T patent/DK1138011T3/da active
- 1999-11-29 WO PCT/GB1999/003953 patent/WO2000033240A1/en active IP Right Grant
- 1999-11-29 US US09/857,044 patent/US6876755B1/en not_active Expired - Fee Related
- 1999-11-29 ES ES99956236T patent/ES2212857T3/es not_active Expired - Lifetime
- 1999-11-29 JP JP2000585813A patent/JP2002531901A/ja active Pending
- 1999-11-29 DE DE69914370T patent/DE69914370T2/de not_active Expired - Fee Related
- 1999-11-29 AT AT99956236T patent/ATE258322T1/de not_active IP Right Cessation
- 1999-11-29 EP EP99956236A patent/EP1138011B1/en not_active Expired - Lifetime
- 1999-11-29 AU AU12879/00A patent/AU762625B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
WO2000033240A1 (en) | 2000-06-08 |
ATE258322T1 (de) | 2004-02-15 |
DE69914370T2 (de) | 2004-11-04 |
EP1138011A1 (en) | 2001-10-04 |
US6876755B1 (en) | 2005-04-05 |
AU762625B2 (en) | 2003-07-03 |
EP1138011B1 (en) | 2004-01-21 |
AU1287900A (en) | 2000-06-19 |
DE69914370D1 (de) | 2004-02-26 |
DK1138011T3 (da) | 2004-03-08 |
JP2002531901A (ja) | 2002-09-24 |
CA2356252A1 (en) | 2000-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2212857T3 (es) | Determinacion de subespacios faciales. | |
Blanz et al. | Fitting a morphable model to 3D scans of faces | |
ES2241667T3 (es) | Identificacion o verificacion de clases de objetos, o sintesdis de imagenes de objetos. | |
Jeni et al. | Dense 3D face alignment from 2D videos in real-time | |
Vetter et al. | Estimating coloured 3D face models from single images: An example based approach | |
Bronstein et al. | Three-dimensional face recognition | |
Jones et al. | Multidimensional morphable models: A framework for representing and matching object classes | |
Sun et al. | Facial expression recognition based on 3D dynamic range model sequences | |
Vetter et al. | A bootstrapping algorithm for learning linear models of object classes | |
Hetzel et al. | 3D object recognition from range images using local feature histograms | |
US7212664B2 (en) | Constructing heads from 3D models and 2D silhouettes | |
US6959109B2 (en) | System and method for pose-angle estimation | |
Beymer | Vectorizing face images by interleaving shape and texture computations | |
Daoudi et al. | 3D face modeling, analysis and recognition | |
Okada et al. | Pose-invariant face recognition with parametric linear subspaces | |
Fransens et al. | Parametric stereo for multi-pose face recognition and 3D-face modeling | |
Colbry et al. | Canonical face depth map: A robust 3D representation for face verification | |
Mian et al. | 3D face recognition | |
Romdhani et al. | On utilising template and feature-based correspondence in multi-view appearance models | |
Abate et al. | Fast 3D face recognition based on normal map | |
Guan | Automatic 3d face reconstruction based on single 2d image | |
Sukno et al. | Projective active shape models for pose-variant image analysis of quasi-planar objects: Application to facial analysis | |
Mahoor et al. | Multi-modal (2-d and 3-d) face modeling and recognition using attributed relational graph | |
Quan et al. | Low dimensional surface parameterisation with applications in biometrics | |
Castellano et al. | Computing the 3D face recognition based on pseudo 2D Hidden Markov Models using geodesic distances |