ES2339100A1 - Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. - Google Patents
Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. Download PDFInfo
- Publication number
- ES2339100A1 ES2339100A1 ES201030025A ES201030025A ES2339100A1 ES 2339100 A1 ES2339100 A1 ES 2339100A1 ES 201030025 A ES201030025 A ES 201030025A ES 201030025 A ES201030025 A ES 201030025A ES 2339100 A1 ES2339100 A1 ES 2339100A1
- Authority
- ES
- Spain
- Prior art keywords
- pca
- images
- autovectors
- training
- lda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000002790 cross-validation Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000513 principal component analysis Methods 0.000 claims description 126
- 239000011159 matrix material Substances 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 6
- 230000010485 coping Effects 0.000 abstract 1
- 238000012706 support-vector machine Methods 0.000 description 23
- 210000000887 face Anatomy 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G06K9/4619—
-
- G06K9/6278—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Dispositivo y procedimiento automático para establecer el sexo al que pertenecen los rostros que aparecen en imágenes que comprende una etapa de entrenamiento y una de clasificación. El enfrenamiento comprende: preprocesar imágenes de entrenamiento; construir un clasificador biclase, hombre y mujer, en el espacio unidimensional resultado de un procedimiento de Análisis de componentes Principales (PCA) seguido de un procedimiento de Análisis Discriminante Lineal de Fisher (LDA), siendo el paso clave la elección del conjunto de los autovectores de PCA que mejor discriminan mediante validación cruzada. La etapa de clasificación comprende: preprocesar una imagen; proyectar la imagen sobre el espacio de proyección PCA y LDA utilizando la proyección más discriminante obtenida en el entrenamiento; y clasificar el valor unidimensional resultante de la proyección mediante el clasificador del entrenamiento.
Description
Dispositivo y procedimiento automático para
establecer el sexo al que pertenecen los rostros que aparecen en
imágenes.
La presente invención pertenece al campo técnico
de la inteligencia artificial, concretamente al campo de la visión
por computador la cual tiene como objeto el reconocimiento de
imágenes o patrones de una escena o imagen.
La clasificación de imágenes faciales según su
género ha atraído la atención de los investigadores en Visión por
Computadora y Reconocimiento de Patrones durante años, siendo SEXNET
de Golomb en 1991 el primer intento de reconocer el sexo al que
pertenece una cara. A partir de entonces se han desarrollado
numerosos trabajos relacionados con este tema, concretamente, se han
producido importantes avances en las áreas de la detección
automática de rostros en imágenes y el seguimiento automático de los
mismos en una secuencia de vídeo, lo que ha multiplicado la
aparición de aplicaciones prácticas del análisis facial automático
como la detección de rostros, sonrisas o parpadeos en cámaras
digitales de fotografía. Los sistemas empotrados de procesamiento de
caras como esos poseen recursos de cómputo muy limitados y es
crucial para su éxito el desarrollo de procedimientos eficientes de
análisis facial.
La patente US6990217 presenta un método global
de clasificación de rostros en imágenes según el sexo al que
pertenezcan. En ella el entrenamiento se realiza mediante SVM
(Support Vector Machine) con un kernel de Funciones de Base Radial
los cuales definen un hiperplano con el fin de separar los grupos
correspondientes a hombres y mujeres. Tras el entrenamiento, se
realiza la clasificación de imágenes mediante el hiperplano definido
por SVM.
La patente US7505621 presenta un sistema y un
método para la extracción automática de información demográfica a
partir de imágenes. El sistema detecta la cara en una imagen,
localiza las diferentes componentes, extrae características de las
componentes y clasifica las componentes para identificar la edad, el
sexo o el origen étnico de la persona o personas de la imagen. En
esta patente se demuestra que usar componentes para la clasificación
demográfica ofrece mejores resultados que los obtenidos por las
técnicas actualmente conocidas. Además, el sistema y el método
descritos se pueden utilizar para extraer información demográfica de
manera más robusta en entornos donde existe un alto grado de
variabilidad de tamaño, forma, color, textura, posición y oclusión.
Esta invención realiza una fusión de clasificadores a nivel de
componentes utilizando un clasificador multinivel para fusionar
resultados de varios clasificadores de componentes demográficas.
En general, el problema de la clasificación de
género en imágenes se realiza de dos formas:
- 1)
- global, utilizando la imagen de la cara completa como atributo de clasificación después de haberla recortado, normalizado su tamaño y normalizada su iluminación,
- 2)
- basada en características, extrayendo una serie de elementos discriminantes de la imagen facial.
\vskip1.000000\baselineskip
Hasta la fecha, los mejores resultados con
clasificadores globales se han obtenido en la patente US6990217
utilizando un clasificador de Máquinas de Vectores Soporte (SVM) y
un kernel de Funciones de Base Radial (RBF), a este clasificador se
le denominará SVM+RBF. Utilizando SVM+RBF se reportó un 96,6% de
acierto en la clasificación utilizando 1775 imágenes de la base de
datos FERET utilizando imágenes normalizadas y recortadas y
validación cruzada con 5 grupos. Sin embargo, Baluja y Rowley
("Boosting sex identification performance", International
Journal of Computer Vision, 71(1)) detectaron un sesgo en la
estimación de la patente US6990217 causado por la existencia de
imágenes con la misma persona en diferentes grupos (mismo individuo
presente en algún grupo de entrenamiento y en el de prueba). Baluja
y Rowley consiguieron un 93,5% de acierto en un experimento similar
al de dicha patente con alineación manual de las imágenes y una
validación cruzada realizada con la presencia de cada individuo
únicamente en uno de los grupos.
Las aproximaciones basadas en características
utilizan, desde diferencias de niveles de gris de dos píxeles,
rectángulos parecidos a wavelets de Haar, bancos de filtros
multiescala, hasta Patrones Binarios Locales (LBP) para reconocer el
sexo al que pertenece una cara. Shakhnarovich, Viola y Moghaddam
("A unified learning framework for real time face detection and
classification", Actas de la IEEE International Conference on
Automatic Face and Gesture Recognition, FG 2002) obtuvieron un 79% y
un 79,2% de tasa de acierto en clasificación de sexo y etnia en un
conjunto de imágenes difíciles descargadas de Internet. Para ello
utilizaron rectángulos parecidos a wavelets de Haar y una
aproximación basada en AdaBoost para seleccionar las características
más discriminantes que permite clasificar la imagen de una cara 50
veces más rápido que las aproximaciones basadas en SVM. Baluja y
Rowley utilizan comparaciones directas de los niveles de gris de dos
píxeles como clasificadores básicos en un esquema de aprendizaje
basado en AdaBoost. Utilizando imágenes de caras alineadas
manualmente sacadas de los conjuntos "fa" y "fb" de la
base de datos FERET obtienen una tasa de acierto del 94%. Su
clasificador es aproximadamente 50 veces más rápido que la solución
basada en SVM+RBF de la patente US6990217.
Una conclusión importante de los resultados
aparecidos en la literatura es que es bastante difícil compararlos,
dado que los investigadores no utilizan la misma base de datos y,
cuando la utilizan, frecuentemente no usan las mismas imágenes. Esta
es la razón por la que Mäkinen y Raisamo realizaron un gran número
de experimentos sobre reconocimiento de sexo ("Evaluation of
gender classification methods with automatically detected and
aligned faces", IEEE Transactions on Pattern Analysis and Machine
Intelligence, 30(3)). Sin embargo, sus pruebas se realizaron
con muy pocas imágenes (411), con lo que no se pueden extraer
conclusiones definitivas de su trabajo.
Por otro lado, sí que podemos asumir que los
procedimientos con mejor tasa de clasificación se encuentran en una
tasa de 93% de acierto de la patente US6990217 con SVM+RBF, y de
Baluja y Rowley con AdaBoost sobre la base de datos FERET.
La tasa de acierto no es la única variable
importante a considerar. La eficiencia computacional es también un
aspecto importante, dado que la implantación masiva de dispositivos
de análisis demográfico con visión por computadora necesitará
procedimientos de clasificación que puedan funcionar, por ejemplo,
en cámaras en red o en teléfonos móviles. Hasta ahora, sólo los
procedimientos basados en AdaBoost de Baluja y Shakhnarovich para la
clasificación de sexo podían cubrir este requisito de eficiencia
computacional.
Sin embargo, era deseable un dispositivo y un
procedimiento automático para establecer el sexo al que pertenecen
los rostros en las imágenes, que se caracterizasen por su sencillez
y que utilizaran menos recursos de cómputo, obteniendo resultados
capaces de competir con los ofrecidos por los ya existentes.
La presente invención resuelve los problemas
existentes en el estado de la técnica mediante el uso de un
clasificador basado en uno de los métodos más sencillos de
clasificación lineal: Análisis de Componentes Principales (PCA)
seguido del Análisis Discriminante Lineal de Fisher (LDA) utilizando
un clasificador Bayesiano en el espacio de dimensión reducida que se
obtiene del LDA siendo la selección de las características de PCA
más discriminantes el paso crucial para el aumento del
rendimiento.
A continuación se explicará el funcionamiento
del mismo.
Dado un problema de clasificación multiclase con
c clases y p vectores ejemplo de dimensión n, el LDA
permite obtener una matriz de proyección lineal de los p
vectores en un subespacio de dimensión como mucho
d=c-1 en la que el ratio entre la separación
dentro de cada clase y la separación entre las clases es máximo. Los
vectores de la base del subespacio transformado, w_{i}, se
obtienen maximizando la siguiente función objetivo:
donde S_{B} y
S_{w} son, respectivamente, las matrices de dispersión
entre clases y dentro de las clases y se definen
como:
siendo n_{j} el número de
ejemplos que pertenecen a la clase j, n es el número de
ejemplos (suma de todos los n_{j}), m_{j} es el
vector media de todos los ejemplos pertenecientes a la clase j,
m es el vector media de todos los ejemplos y x_{i} es
el vector de ejemplo
i.
El máximo de J(w) viene dado por
el siguiente problema de autovalores generalizado:
donde W es una matriz cuyas
columnas son los vectores w_{i} y D es la matriz
diagonal con los autovalores. La matriz S_{B} tiene como
mucho rango c-1 y, generalmente este es el
rango de la matriz de proyección LDA, W. En el caso de una
matriz S_{w} no singular, la solución anterior se
transforma
en:
Es importante destacar que el resultado del LDA
es la matriz W de dimensión
(c-1)xn y al ser ortonormal la
proyección de una imagen I (vector nx1) sobre el
espacio LDA vendrá dado por m=WI. En el caso biclase del
género y con imágenes de 25x25 píxeles la matriz W tendrá
dimensiones 1x625, esto es será un único vector fila.
\vskip1.000000\baselineskip
Cuando se trata con problemas de clasificación
de imágenes es muy común tener menos imágenes de ejemplo que
características (píxeles). En esos casos la matriz de dispersión
dentro de la clase, S_{w}, es singular y la matriz de
proyección LDA, W, no se puede calcular utilizando la
ecuación [3].
Debido a que la matriz de covarianzas global del
conjunto de entrenamiento es S_{M} = S_{B} + S_{w}, la
solución a la ecuación [2] no cambiará si utilizamos S_{M}
en lugar de S_{w}. En este caso, realizar Análisis de
Componentes Principales (PCA) reteniendo sólo los autovectores
asociados con los autovalores no nulos y realizando a continuación
LDA en el subespacio transformado mediante PCA es equivalente a
realizar sólo LDA en el subespacio original. A partir de ahora, se
llamará PCA+LDA a este procedimiento independientemente de los
autovectores elegidos en el paso de PCA. Así que, PCA+LDA, en
general, no será estrictamente equivalente a la versión de LDA
global cuando se descarten autovectores asociados a autovalores no
nulos.
Por último, si la matriz de la base y el vector
media provenientes del PCA son, respectivamente M y Q,
entonces la proyección de una imagen I sobre el subespacio de
PCA será L = M^{T}(I-Q). Así que
después del PCA+LDA la proyección de una imagen I sobre el
subespacio LDA vendrá dada por L =
WM^{T}(I-Q)=P(I-Q).
Con lo que la matriz P (en realidad vector 1xn) junto
con el vector media Q, será todo lo que se necesitará para
proyectar una nueva imagen sobre el espacio de LDA. Es importante
destacar que en ese caso las dimensiones de la matriz P son
independientes del número de autovectores de PCA retenidos, aunque
se tendrán diferentes matrices P cuando los autovectores de
PCA sean diferentes.
\vskip1.000000\baselineskip
Cuando se realiza PCA+LDA el punto crucial es la
elección de qué autovectores del paso PCA retener para no perder
información discriminante. No hay información a priori de qué
autovalores distintos de cero son producidos por ruido y cuales son
altamente discriminantes.
Si se utiliza la matriz de covarianzas global al
conjunto de entrenamiento, S_{M}. en lugar de S_{w}, LDA
resolverá el problema de autovalores dado por
S_{M}^{-1}S_{B}W=WD. En este caso se define un criterio de
ordenación de los autovectores de la matriz S_{M} en
términos de su concordancia con la matriz S_{B}. Para ser
discriminante, un autovector de S_{M} debería encontrarse
correlado con al menos un autovector, w_{i} de
S_{B}. Esto significa que se dará mayor importancia a los
autovectores de S_{M} que sean paralelos al subespacio
LDA.
La importancia de un autovector de S_{M},
u_{i}, vendrá dada por:
donde w_{i} son los
autovectores de
S_{B}.
\vskip1.000000\baselineskip
Con PCA-M+LDA se denotará el
procedimiento que realiza PCA, ordena los autovectores del PCA de
mayor a menor valor de I_{j}, retiene los k primeros
autovectores en el nuevo orden y después se realiza LDA. La
proyección de un vector imagen sobre el subespacio LDA definido por
PCA-M+LDA tendrá el mismo coste computacional que el
procedimiento PCA+LDA. Siendo la única diferencia el cómo se eligen
los autovectores de PCA que se utilizan.
Como se ha mencionado, la presente invención se
refiere a un nuevo procedimiento para la clasificación de imágenes
de caras en dos clases: hombre o mujer. El procedimiento se aplicará
a imágenes con la cara enmarcada (mediante un procedimiento
automático de localización de caras), de tamaño reducido (por
ejemplo 25x25 puntos de imagen o píxeles), con una máscara que
permite eliminar el fondo y la mayor parte del pelo y ecualizadas
para normalizar frente a los cambios de iluminación.
El procedimiento tiene dos partes: entrenamiento
y clasificación. El entrenamiento consistirá en:
- \bullet
- Paso E1: Tomar un conjunto de imágenes de caras como las descritas en el párrafo anterior (cara centrada, tamaño reducido, máscara colocada y niveles de gris ecualizados) de las que se conoce el sexo con anterioridad.
\newpage
- \bullet
- Paso E2: Validación cruzada. Dividir el conjunto de imágenes de entrenamiento en N grupos (por ejemplo, 5) y utilizar N-1 grupos como entrenamiento y el grupo restante para probar el clasificador.
- \bullet
- Paso E3: Realizar Análisis de Componentes Principales (PCA) sobre las imágenes de los N-1 grupos de entrenamiento. Elegir K autovectores del PCA, con k=1 en la primera iteración, y proyectar las imágenes de entrenamiento sobre el subespacio resultante, obteniendo un vector de coeficientes correspondientes a los autovectores seleccionados, por cada imagen de entrenamiento. El resultado será una matriz de proyección de PCA, M^{T}, y el vector media de las imágenes de entrada, Q.
- \bullet
- Paso E4: A continuación se realiza LDA sobre el conjunto de vectores de coeficientes y se proyecta cada imagen de las imágenes de entrenamiento sobre el espacio unidimensional obtenido en el LDA. El resultado de este paso será la matriz de proyección LDA, W y la matriz de proyección PCA y LDA, P=WM^{T}.
- \bullet
- Paso E5: Construir un clasificador bayesiano de dos clases gaussianas sobre el espacio unidimensional resultante de la proyección de los vectores de PCA sobre el espacio de género definido por el LDA.
- \bullet
- Paso E6: Clasificar el grupo de imágenes de prueba con el clasificador del paso E5.
- \bullet
- Paso E7: Si no se han utilizado todos los grupos como grupo de prueba en la validación cruzada ir al Paso E3. En otro caso, la tasa de acierto con K autovectores del PCA es la media de las tasas de acierto de las N pruebas de la validación cruzada.
- \bullet
- Paso E8: Hacer K = K+1 hasta K igual al número de píxeles de las imágenes de entrada y volver entonces al Paso E2.
- \bullet
- Paso E9: Elegir las matrices de proyección P y Q para las que se obtuvo la mejor tasa de acierto. Utilizando estas matrices, la proyección de una imagen de entrada Im sobre el subespacio PCA+LDA vendrá dada por L= WM^{T}(Im-Q)=P(Im-Q).
\vskip1.000000\baselineskip
La parte más importante del entrenamiento, y
principal resultado de la invención, es el Paso E3 en el que se
elige el mejor conjunto de vectores de la base del subespacio de PCA
(autovectores) para la clasificación de género. En el procedimiento
se puede utilizar para la elección de los autovectores cualquiera de
los siguientes dos métodos:
- \circ
- Método 1 (PCA+LDA): Ordenar los autovectores del PCA de mayor a menor autovalor asociado. En un proceso iterativo, se tomará primero el autovector con mayor autovalor y a continuación se irá añadiendo un autovector cada vez, siguiendo el orden de mayor a menor autovalor. Es importante destacar que se prueba el clasificador con diferente número de autovectores de PCA y no se retiene un número fijo de autovectores (por ejemplo, los que representen el 95% de la variabilidad) como en otras aproximaciones. Este es el detalle crucial para obtener tasas de acierto comparables con los mejores clasificadores de género.
- \circ
- Método 2 (PCA-M+PCA): Ordenar los autovectores del PCA de mayor a menor importancia según I_{j} en la ecuación [5]. En un proceso iterativo se tomará primero el autovector de mayor importancia y a continuación se añadirán autovectores de uno en uno siguiendo el orden de mayor a menor importancia.
\vskip1.000000\baselineskip
La clasificación de cualquier imagen, una vez
realizado el entrenamiento, consistirá en:
- \bullet
- Paso C1: Tomar una imagen, I, de una cara centrada, tamaño reducido, máscara colocada y niveles de gris ecualizados.
- \bullet
- Paso C2: Proyectar la imagen sobre el espacio LDA utilizando la matriz de proyección P (PCA+LDA) y el vector media Q provenientes del entrenamiento, m=P(I-Q).
- \bullet
- Paso C3: Utilizar el valor de la proyección de la imagen I sobre el espacio LDA, m, en el clasificador bayesiano biclase cuyos parámetros se calcularon en el entrenamiento.
\vskip1.000000\baselineskip
Utilizando el procedimiento que se presenta es
posible obtener resultados comparables a los mejores clasificadores
de género no lineales (SVM+RBF o AdaBoost) utilizando menos recursos
de cómputo tanto en el entrenamiento como en la clasificación. El
procedimiento que se presenta permite calcular de una forma simple y
rápida si una cara es de un hombre o de una mujer. El procedimiento
de entrenamiento es muy sencillo y la tasa de acierto es comparable
a aproximaciones mucho más elaboradas en las que se emplean Máquinas
de Vector Soporte como en la patente US6990217 o en el AdaBoost de
Baluja y Rowley.
\newpage
El procedimiento automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes,
comprende:
- \bullet
- una etapa de entrenamiento que a su vez comprende:
- a)
- preprocesar una pluralidad de imágenes de entrada para adecuarlas a su posterior procesamiento;
- b)
- dividir las imágenes de entrada en N grupos para realizar un procedimiento de validación cruzada obteniendo N-1 grupos de imágenes de entrenamiento para entrenar un clasificador y un grupo de imágenes de prueba para probar dicho clasificador;
- c)
- realizar Análisis de Componentes Principales (PCA) sobre las imágenes de entrenamiento, I, correspondientes a los N-1 grupos obtenidos en la etapa b);
- d)
- elegir K autovectores del PCA, con K=1 en la primera iteración de la etapa de entrenamiento;
- e)
- obtener M, matriz de la base del PCA, cuyas columnas son los K autovectores elegidos en la etapa d);
- f)
- obtener Q, matriz media de las imágenes de entrenamiento I;
- g)
- proyectar las imágenes de entrenamiento I sobre el espacio PCA obteniendo un vector de coeficientes i igual a i=M^{T}(I-Q) por cada imagen de entrenamiento I;
- h)
- ejecutar el Análisis Discriminante Lineal de Fisher (LDA) sobre el conjunto de vectores de coeficientes i provenientes de la etapa g), obteniendo como resultado la matriz de proyección, W, sobre el espacio LDA;
- i)
- proyectar cada imagen de las imágenes de entrenamiento, I, sobre el espacio unidimensional de LDA obtenido según m=WM^{T}(I-Q)=P(I-Q), donde P=WM^{T} es la matriz de proyección PCA y LDA;
- j)
- construir un clasificador biclase utilizando los vectores de m correspondientes a cada imagen de las imágenes de entrenamiento I;
- k)
- clasificar las imágenes del grupo de prueba con el clasificador construido en la etapa j) calculando y almacenando la tasa de acierto del grupo de prueba correspondiente;
- l)
- volver al paso c) hasta utilizar cada uno de los N grupos una vez como grupo de prueba para la validación cruzada;
- m)
- calcular la media de las tasas de acierto de las N pruebas realizadas;
- n)
- actualizar K sumándole una unidad hasta K igual al número de píxeles de las imágenes de entrada y volver al paso b);
- o)
- elegir la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, con mayor tasa de acierto;
- p)
- construir un segundo clasificador biclase utilizando la totalidad de imágenes de entrada y las matrices P y Q elegidas en la etapa o);
- \bullet
- una etapa de clasificación que a su vez comprende:
- q)
- preprocesar una imagen Im;
- r)
- proyectar la imagen Im, utilizando la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, elegidas en la etapa o) del entrenamiento, mediante m'=P(Im-Q);
- s)
- clasificar m' con el segundo clasificador construido en la etapa p).
\vskip1.000000\baselineskip
Preferentemente, la elección de los K
autovectores del PCA se realiza seleccionando entre:
- \bullet
- un método basado en autovalores que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor autovalor asociado;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación;
- \bullet
- un método basado en la discriminación entre las clases del clasificador de cada autovector del PCA que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor valor asociado según un criterio de discriminación entre las clases respecto a las que se clasifica;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación.
\vskip1.000000\baselineskip
De manera preferente, la elección de los K
autovectores del PCA a partir de la discriminación entre las clases
del clasificador, se calcula sumando las correlaciones al cuadrado
de cada uno de los autovectores del PCA elegidos en el paso d), con
cada uno de los autovectores de la matriz de covarianzas de los
vectores media de cada clase.
La etapa de preprocesamiento de las imágenes de
entrada comprende preferentemente las siguientes etapas:
- \bullet
- ejecutar un procedimiento de detección de caras localizando el área que contiene puntos de interés;
- \bullet
- normalizar el tamaño de las imágenes de entrada siendo las dimensiones preferentes de 25x25 píxeles;
- \bullet
- ecualizar el histograma asociado a las imágenes de entrada normalizadas;
- \bullet
- aplicar una máscara para eliminar el fondo de las imágenes normalizadas y ecualizadas.
\vskip1.000000\baselineskip
El procedimiento de detección de caras puede ser
automático o manual, en cuyo caso se localiza el área rectangular
donde se encuentra la cara o alternativamente posición de los ojos y
centro de la boca.
El dispositivo automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes,
comprende:
- \bullet
- unos medios de adquisición de imágenes configurados para capturar imágenes y conectados a unos medios de procesamiento;
- \bullet
- los medios de procesamiento configurados para la realización de dos etapas:
- \bullet
- una etapa de entrenamiento que a su vez comprende:
- t)
- preprocesar una pluralidad de imágenes de entrada para adecuarlas a su posterior procesamiento;
- u)
- dividir las imágenes de entrada en N grupos para realizar un procedimiento de validación cruzada obteniendo N-1 grupos de imágenes de entrenamiento para entrenar un clasificador y un grupo de imágenes de prueba para probar dicho clasificador;
- v)
- realizar Análisis de Componentes Principales (PCA) sobre las imágenes de entrenamiento, I, correspondientes a los N-1 grupos obtenidos en la etapa u);
- w)
- elegir K autovectores del PCA, con K=1 en la primera iteración de la etapa de entrenamiento;
- x)
- obtener M, matriz de la base del PCA, cuyas columnas son los K autovectores elegidos en la etapa w);
- y)
- obtener Q, matriz media de las imágenes de entrenamiento I;
- z)
- proyectar las imágenes de entrenamiento I sobre el espacio PCA obteniendo un vector de coeficientes i igual a i=M^{T}(I-Q) por cada imagen de entrenamiento I;
- aa)
- ejecutar el Análisis Discriminante Lineal de Fisher (LDA) sobre el conjunto de vectores de coeficientes i provenientes de la etapa g), obteniendo como resultado la matriz de proyección, W, sobre el espacio LDA;
\newpage
- bb)
- proyectar cada imagen de las imágenes de entrenamiento, I, sobre el espacio unidimensional de LDA obtenido según m=WM^{T}(I-Q)=P(I-Q), donde P=WM^{T} es la matriz de proyección PCA y LDA;
- cc)
- construir un clasificador biclase utilizando los vectores de m correspondientes a cada imagen de las imágenes de entrenamiento I;
- dd)
- clasificar las imágenes del grupo de prueba con el clasificador construido en la etapa cc) calculando y almacenando la tasa de acierto del grupo de prueba correspondiente;
- ee)
- volver al paso v) hasta utilizar cada uno de los N grupos una vez como grupo de prueba para la validación cruzada;
- ff)
- calcular la media de las tasas de acierto de las N pruebas realizadas;
- gg)
- actualizar K sumándole una unidad hasta K igual al número de píxeles de las imágenes de entrada y volver al paso u);
- hh)
- elegir la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, con mayor tasa de acierto;
- ii)
- construir un segundo clasificador biclase utilizando la totalidad de imágenes de entrada y las matrices P y Q elegidas en la etapa hh);
- \bullet
- una etapa de clasificación que a su vez comprende:
- jj)
- preprocesar una imagen Im;
- kk)
- proyectar la imagen Im, utilizando la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, elegidas en la etapa hh) del entrenamiento, mediante m=P(Im-Q);
- ll)
- clasificar m con el segundo clasificador construido en la etapa ii).
\vskip1.000000\baselineskip
Preferentemente, los medios de procesamiento
están configurados para elegir los K autovectores del PCA,
seleccionando entre:
- \bullet
- un método basado en autovalores que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor autovalor asociado;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación;
- \bullet
- un método basado en la discriminación entre las clases del clasificador de cada autovector del PCA que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor valor asociado según un criterio de discriminación entre las clases respecto a las que se clasifica;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación.
\vskip1.000000\baselineskip
De manera preferente, los medios de
procesamiento encargados de elegir los K autovectores del PCA a
partir de la discriminación entre las clases del clasificador, están
configurados para calcular dicha discriminación sumando las
correlaciones al cuadrado de cada uno de los autovectores del PCA
elegidos en el paso w), con cada uno de los autovectores de la
matriz de covarianzas de los vectores media de cada clase.
Los medios de procesamiento configurados para
realizar el preprocesamiento de las imágenes de entrada realizarán
preferentemente las siguientes etapas:
- \bullet
- ejecutar un procedimiento de detección de caras localizando el área que contiene puntos de interés;
- \bullet
- normalizar el tamaño de las imágenes de entrada;
- \bullet
- ecualizar el histograma asociado a las imágenes de entrada normalizadas;
- \bullet
- aplicar una máscara para eliminar el fondo de las imágenes normalizadas y ecualizadas.
\vskip1.000000\baselineskip
La detección de caras puede ser automática o
manual, en cuyo caso los medios de procesamiento localizan el área
rectangular donde se encuentra la cara o alternativamente posición
de los ojos y centro de la boca.
A continuación, para facilitar la comprensión de
la invención, a modo ilustrativo pero no limitativo se describirá
una realización de la invención que hace referencia a una serie de
figuras.
La figura 1 muestra posibles imágenes de entrada
al procedimiento de clasificación descrito. En la primera fila se
muestran las imágenes originales y en la segunda, el resultado de
aplicar a dichas imágenes una máscara elíptica para eliminar el
fondo y ecualizarlas.
La figura 2 muestra los resultados del
procedimiento de entrenamiento con validación cruzada y el método 1
como selección de autovectores de PCA antes del LDA. El eje
horizontal muestra el índice de autovectores de PCA ordenados, de
izquierda a derecha, de mayor a menor variabilidad y el eje
vertical, muestra el porcentaje de acierto después de añadir todos
los autovectores de mayor variabilidad hasta ese punto.
La figura 3 muestra los resultados del
procedimiento de entrenamiento con validación cruzada y el método 2
como selección de autovectores de PCA antes del LDA. El eje
horizontal muestra el índice de autovectores de PCA ordenados, de
izquierda a derecha, de mayor a menor importancia y el eje vertical,
muestra el porcentaje de acierto después de añadir todos los
autovectores de mayor importancia hasta ese punto.
La figura 4 muestra la proyección de todas las
imágenes de la base de datos UCN sobre el espacio PCA+LDA
(entrenamiento con método 1) obtenido con la base de datos UCN y 430
autovectores de PCA retenidos.
La figura 5 muestra la proyección de todas las
imágenes de la galería "fa" de la base de datos FERET sobre el
espacio PCA+LDA (entrenamiento con método 1) obtenido con la base de
datos UCN y 430 autovectores de PCA retenidos.
La figura 6 muestra un esquema del procedimiento
automático propuesto para establecer el sexo al que pertenecen los
rostros que aparecen en imágenes.
La figura 7 muestra un esquema del procedimiento
propuesto para entrenar el dispositivo de reconocimiento de
sexo.
Para demostrar la presente invención, se han
evaluado las dos aproximaciones basadas en LDA explicadas con
anterioridad y se han comparado con el clasificador SVM+RBF de la
patente US6990217 debido a que es uno de los dos mejores
procedimientos presentados hasta la fecha, siendo el otro el de
Baluja y Rowley, y teniendo ambos la misma tasa de acierto en la
clasificación.
En los experimentos realizados se ha utilizado
una base de datos no pública de la Universidad Católica del Norte
(Chile), a la que llamaremos UCN, la base de datos estándar Color
FERET y la base de datos Productive Aging Lab Face (PAL) de la
Universidad de Tejas en Dallas.
- \bullet
- La base de datos UCN consiste en imágenes frontales (una por cada individuo) de estudiantes y profesores de la UCN. Fueron tomadas con cámaras con diferente calidad de imagen. Hay 10.700 individuos, 5646 hombres y 5054 mujeres. En los experimentos realizados se han utilizado 5628 imágenes de hombres y 5041 imágenes de mujeres dado que el detector de caras utilizado no fue capaz de detectar algunas caras.
- \bullet
- La base de datos Color FERET es un recurso disponible públicamente para la investigación en análisis facial. Consiste en múltiples imágenes de 994 individuos, 591 hombres y 403 mujeres. En este caso, se utilizó una única imagen por sujeto de la galería "fa" de la base de datos. En los experimentos realizados sólo se utilizaron 402 imágenes de mujeres dado que el detector de caras perdió una cara de mujer.
- \bullet
- La base de datos PAL se encuentra disponible únicamente para investigación. Consiste en imágenes frontales de 576 individuos. Imágenes del perfil derecho y de algunas expresiones faciales están disponibles pero únicamente para algunos sujetos. Hay 219 hombres y 357 mujeres divididos en cuatro grupos dependiendo de su edad: 18-29, 30-49, 50-69 y 70-93.
\newpage
Antes de clasificar se recortan y redimensionan
las imágenes a 25x25 píxeles utilizando un procedimiento automático
de detección de caras. Cuando se utiliza alineación manual también
se utilizó la información sobre la posición de los ojos y del centro
de la boca. Adicionalmente, se realizó la ecualización del
histograma con el fin de obtener cierta independencia a los cambios
de iluminación. Finalmente se aplicó una máscara con forma elíptica
para que eliminase los píxeles del fondo y únicamente permitiese
visualizar la textura de la cara.
En el primer experimento se realizaron pruebas
sobre diferentes bases de datos, utilizando un esquema de validación
cruzada con 5 grupos (para SVM+RBF y LDA) y el procedimiento de
entrenamiento anteriormente descrito para PCA+LDA y para
PCA-M+LDA. En la Tabla 1 se muestran los mejores
resultados obtenidos donde entre paréntesis se indica el número de
vectores soporte para SVM y el número de autovectores de PCA
retenidos antes de realizar LDA.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Las condiciones experimentales de la realización
de "FERET alineada" (imágenes alineadas manualmente) son
similares a las de Baluja y Rowley salvo porque se mantienen los
sujetos con la misma identidad en un único grupo dado que se utiliza
sólo una imagen por individuo. Los mejores resultados con LDA sobre
"FERET alineada", utilizando 794 imágenes de entrenamiento y
199 de prueba, es 76,78% de acierto. Este experimento confirma el
mal resultado en el uso de LDA obtenido por la patente US6990217.
Dicha patente reportó un porcentaje de acierto del 86,07%,
claramente mejor que el ahora presentado, pero la razón de la
diferencia es que, para algunas de las identidades, la evaluación
realizada en la patente situaba a sujetos con las mismas identidades
en diferentes grupos de validación, además, utilizaba un mayor
número de imágenes (alrededor de 2000).
Por otro lado, los resultados para el LDA en la
base de datos UCN, con alrededor de 10.000 imágenes, es 92,15%. Con
ello, se puede concluir que 794 imágenes no aportan suficiente
información para que LDA pueda encontrar la dirección de proyección
adecuada en un espacio de 625 dimensiones. Sin embargo,
incrementando el número de imágenes de entrenamiento a 10.000 se
tiene suficientes datos para que el LDA llegue a ser competitivo
incluso con el clasificador SVM+RBF con 93,12% de acierto y 92,15%
para el LDA en caso de la base de datos UCN.
Por último, se analizan los resultados para las
aproximaciones PCA+LDA de la presente invención. En cualquiera de
los dos casos, PCA+LDA (Método 1) o PCA-M+LDA
(Método 2), se ha realizado validación cruzada con 5 grupos
incrementando de forma iterativa el número de autovectores retenidos
en el PCA. En la Tabla 1 se presentan los mejores resultados
obtenidos de este procedimiento iterativo. Los resultados más
interesantes son los de los experimentos con la base de datos FERET
en la Tabla 1. Mientras que el LDA global (sin PCA previo) no es
capaz de aprender la mejor dirección de proyección utilizando sólo
794 imágenes, sin embargo, tanto PCA+LDA como
PCA-M+LDA son capaces de conseguirlo, incluso logran
una tasa de acierto ligeramente mejor que SVM+RBF.
Por tanto, ambas versiones del procedimiento
presentado en esta invención (PCA+LDA o
PCA-M-LDA) permiten lograr una tasa
de acierto de 93% comparable con los mejores procedimientos de
clasificación de género.
En el segundo experimento se realizó el cruce de
diferentes bases de datos, se entrenó con todas las imágenes de una
base de datos y se probó con todas las imágenes de otra
completamente diferente. Con este experimento se muestran las
capacidades de generalización conseguidas por los diferentes
procedimientos de clasificación probadas. En la Tabla 2 se muestran
los resultados conseguidos y para el caso de SVM+RBF se escribe
entre paréntesis el número de vectores soporte empleados.
\vskip1.000000\baselineskip
En el segundo experimento se utilizó el mejor
número de vectores soporte (para el SVM+RBF) o autovectores de PCA
obtenidos en los experimentos anteriores (para PCA+LDA y
PCA-M+LDA). De nuevo, cuando se entrena con la base
de datos FERET (en este caso con las imágenes recortadas utilizando
únicamente el detector facial) y se prueba con UCN ("FERET/UCN"
en la Tabla 2) los resultados son malos para el clasificador LDA.
Por contra, cuando se entrena con UCN y se prueba con FERET
("UCN/FERET"), la aproximación LDA compite favorablemente con
el resto de procedimientos de clasificación. Más aun, aunque el
mejor resultado cuando se entrena con FERET y se prueba con UCN
("FERET/UCN") se consigue para el clasificador SVM+RBF
(81,11%), el segundo mejor es el PCA+LDA con una tasa marginalmente
inferior de 80,63%. Cuando entrenamos con UCN y probamos con FERET
("UCN/FERET") también se logra un resultado similar, es decir,
el mejor resultado es para el clasificador SVM+RBF con un 90,13%
pero el segundo mejor es el PCA+LDA con un 88,41%, un resultado muy
cercano. Un resultado obvio de este experimento es que cuantos más
datos utilizamos en el entrenamiento (UCN tiene alrededor de 10.000
imágenes) mejor es la capacidad de generalización que exhibirán los
clasificadores así entrenados. En el resultado "FERET/PAL" cabe
destacar que mientras el clasificador SVM+RBF no generaliza bien, ya
que entrenando con FERET presenta una tasa de acierto muy baja sobre
la base de datos PAL, el procedimiento propuesto obtiene resultados
mucho mejores en ambas versiones: PCA+LDA y
PCA-M+LDA.
Si se consideran los tiempos de ejecución, el
procedimiento de Baluja y Rowley es el más rápido publicado hasta la
fecha. En él, se utilizan diferencias de niveles de gris de dos
píxeles, una característica que es muy rápida de calcular. Su
procedimiento, es capaz de obtener la misma tasa de acierto que el
SVM+RBF, con únicamente 1000 comparaciones de píxeles (19,53
microsegundos de tiempo de ejecución para imágenes de 20x20
píxeles). Observando el número de vectores soporte utilizados en el
caso "FERET alineada" de la Tabla 1 (435 vectores soporte),
necesitaremos realizar 435x25x25=271.875 operaciones a nivel de
píxel para clasificar una imagen. En el caso PCA+LDA o
PCA-M+LDA el tamaño de la matriz de proyección es
independiente del número de autovectores de PCA utilizados. Las
matrices de proyección PCA+LDA y PCA-M+LDA son, de
hecho, un vector fila con tantos componentes como el número de
píxeles en la imagen, lo que resulta en 1x25x25=625 operaciones a
nivel de píxel. Por otro lado, el número de operaciones a nivel de
píxel necesarias utilizando SVM+RBF en la base de datos UCN sería de
3104x25x25=1.940.000.
Por tanto, el tiempo de ejecución del
procedimiento propuesto (PCA+LDA o PCA-M+LDA) es
comparable en requisitos de cómputo al de Baluja y Rowley, sin
embargo, el procedimiento propuesto presenta, como ventaja
adicional, una considerable reducción de la complejidad tanto en el
entrenamiento como en la clasificación.
La realización preferida de la presente
invención consistiría en un dispositivo en una cámara de adquisición
de imágenes digitales conectada a un sistema de procesamiento de
imágenes en el que para cada imagen capturada se detectarían los
posibles rostros, se recortarían al tamaño de 25x25 píxeles, se
colocaría una máscara elíptica, se ecualizaría y se clasificaría
mediante el procedimiento presentado utilizando el método 1 de
elección de componentes principales en el entrenamiento.
Como aplicaciones industriales posibles de la
invención, entre otras, se pueden destacar:
- \bullet
- Dispositivos de medición de audiencia de televisión que necesitan obtener información demográfica sobre los televidentes.
- \bullet
- Dispositivos de presentación de vídeos publicitarios ("marketing dinámico") que miden la audiencia incluyendo información demográfica.
- \bullet
- Estudios de mercado en centros comerciales, tiendas, bancos o cualquier otro comercio mediante dispositivos que utilizan una cámara para contar personas y extraer información demográfica.
- \bullet
- Quioscos interactivos de información que presenten una interfaz de diálogo avanzada (un vendedor virtual, por ejemplo) utilizando procesamiento de lenguaje natural y que necesiten de información sobre el usuario extraída automáticamente, como puede ser el género de la persona, para mejorar la interacción.
- \bullet
- Reconocimiento de caras para el desbloqueo de sistemas o terminales de acceso, autenticación en servicios ofrecidos por operadores telefónicos, etc.
- \bullet
- Mejora disponible para los sistemas de recuperación de información.
\vskip1.000000\baselineskip
Una vez descrita de forma clara la invención, se
hace constar que las realizaciones particulares anteriormente
descritas son susceptibles de modificaciones de detalle siempre que
no alteren el principio fundamental y la esencia de la
invención.
Claims (8)
1. Procedimiento automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes,
caracterizado porque comprende:
- \bullet
- una etapa de entrenamiento que a su vez comprende:
- a)
- preprocesar una pluralidad de imágenes de entrada para adecuarlas a su posterior procesamiento;
- b)
- dividir las imágenes de entrada en N grupos para realizar un procedimiento de validación cruzada obteniendo N-1 grupos de imágenes de entrenamiento para entrenar un clasificador y un grupo de imágenes de prueba para probar dicho clasificador;
- c)
- realizar Análisis de Componentes Principales (PCA) sobre las imágenes de entrenamiento, I, correspondientes a los N-1 grupos obtenidos en la etapa b);
- d)
- elegir K autovectores del PCA, con K=1 en la primera iteración de la etapa de entrenamiento;
- e)
- obtener M, matriz de la base del PCA, cuyas columnas son los K autovectores elegidos en la etapa d);
- f)
- obtener Q, matriz media de las imágenes de entrenamiento I;
- g)
- proyectar las imágenes de entrenamiento I sobre el espacio PCA obteniendo un vector de coeficientes i igual a i=M^{T}(I-Q) por cada imagen de entrenamiento I;
- h)
- ejecutar el Análisis Discriminante Lineal de Fisher (LDA) sobre el conjunto de vectores de coeficientes i provenientes de la etapa g), obteniendo como resultado la matriz de proyección, W, sobre el espacio LDA;
- i)
- proyectar cada imagen de las imágenes de entrenamiento, I, sobre el espacio unidimensional de LDA obtenido según m=WM^{T}(I-Q)=P(I-Q), donde P=WM^{T} es la matriz de proyección PCA y LDA;
- j)
- construir un clasificador biclase utilizando los vectores de m correspondientes a cada imagen de las imágenes de entrenamiento I;
- k)
- clasificar las imágenes del grupo de prueba con el clasificador construido en la etapa j) calculando y almacenando la tasa de acierto del grupo de prueba correspondiente;
- l)
- volver al paso c) hasta utilizar cada uno de los N grupos una vez como grupo de prueba para la validación cruzada;
- m)
- calcular la media de las tasas de acierto de las N pruebas realizadas;
- n)
- actualizar K sumándole una unidad hasta K igual al número de píxeles de las imágenes de entrada y volver al paso b);
- o)
- elegir la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, con mayor tasa de acierto;
- p)
- construir un segundo clasificador biclase utilizando la totalidad de imágenes de entrada y las matrices P y Q elegidas en la etapa o);
- \bullet
- una etapa de clasificación que a su vez comprende:
- q)
- preprocesar una imagen Im;
- r)
- proyectar la imagen Im, utilizando la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, elegidas en la etapa o) del entrenamiento, mediante m'=P(Im-Q);
- s)
- clasificar m' con el segundo clasificador construido en la etapa p).
\newpage
2. Procedimiento automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
la reivindicación anterior, caracterizado porque la elección
de los K autovectores del PCA se realiza seleccionando entre:
- \bullet
- un método basado en autovalores que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor autovalor asociado;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación;
- \bullet
- un método basado en la discriminación entre las clases del clasificador de cada autovector del PCA que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor valor asociado según un criterio de discriminación entre las clases respecto a las que se clasifica;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación.
\vskip1.000000\baselineskip
3. Procedimiento automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
la reivindicación 2, caracterizado porque la elección de los
K autovectores del PCA a partir de la discriminación entre las
clases del clasificador, se calcula sumando las correlaciones al
cuadrado de cada uno de los autovectores del PCA elegidos en el paso
d), con cada uno de los autovectores de la matriz de covarianzas de
los vectores media de cada clase.
4. Procedimiento automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
cualquiera de las reivindicaciones anteriores, caracterizado
porque el preprocesamiento de las imágenes de entrada comprende las
siguientes etapas:
- \bullet
- ejecutar un procedimiento de detección de caras localizando el área que contiene puntos de interés;
- \bullet
- normalizar el tamaño de las imágenes de entrada;
- \bullet
- ecualizar el histograma asociado a las imágenes de entrada normalizadas;
- \bullet
- aplicar una máscara para eliminar el fondo de las imágenes normalizadas y ecualizadas.
\vskip1.000000\baselineskip
5. Dispositivo automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes,
caracterizado porque comprende:
- \bullet
- unos medios de adquisición de imágenes configurados para capturar imágenes y conectados a unos medios de procesamiento;
- \bullet
- los medios de procesamiento configurados para la realización de dos etapas:
- \bullet
- una etapa de entrenamiento que a su vez comprende:
- t)
- preprocesar una pluralidad de imágenes de entrada para adecuarlas a su posterior procesamiento;
- u)
- dividir las imágenes de entrada en N grupos para realizar un procedimiento de validación cruzada obteniendo N-1 grupos de imágenes de entrenamiento para entrenar un clasificador y un grupo de imágenes de prueba para probar dicho clasificador;
- v)
- realizar Análisis de Componentes Principales (PCA) sobre las imágenes de entrenamiento, I, correspondientes a los N-1 grupos obtenidos en la etapa u);
- w)
- elegir K autovectores del PCA, con K=1 en la primera iteración de la etapa de entrenamiento;
- x)
- obtener M, matriz de la base del PCA, cuyas columnas son los K autovectores elegidos en la etapa w);
- y)
- obtener Q, matriz media de las imágenes de entrenamiento I;
- z)
- proyectar las imágenes de entrenamiento I sobre el espacio PCA obteniendo un vector de coeficientes i igual a i=M^{T}(I-Q) por cada imagen de entrenamiento I;
- aa)
- ejecutar el Análisis Discriminante Lineal de Fisher (LDA) sobre el conjunto de vectores de coeficientes i provenientes de la etapa g), obteniendo como resultado la matriz de proyección, W, sobre el espacio LDA;
- bb)
- proyectar cada imagen de las imágenes de entrenamiento, I, sobre el espacio unidimensional de LDA obtenido según m=WM^{T}(I-Q)=P(I-Q), donde P=WM^{T} es la matriz de proyección PCA y LDA;
- cc)
- construir un clasificador biclase utilizando los vectores de m correspondientes a cada imagen de las imágenes de entrenamiento I;
- dd)
- clasificar las imágenes del grupo de prueba con el clasificador construido en la etapa cc) calculando y almacenando la tasa de acierto del grupo de prueba correspondiente;
- ee)
- volver al paso v) hasta utilizar cada uno de los N grupos una vez como grupo de prueba para la validación cruzada;
- ff)
- calcular la media de las tasas de acierto de las N pruebas realizadas;
- gg)
- actualizar K sumándole una unidad hasta K igual al número de píxeles de las imágenes de entrada y volver al paso u);
- hh)
- elegir la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, con mayor tasa de acierto;
- ii)
- construir un segundo clasificador biclase utilizando la totalidad de imágenes de entrada y las matrices P y Q elegidas en la etapa hh);
- \bullet
- una etapa de clasificación que a su vez comprende:
- jj)
- preprocesar una imagen Im;
- kk)
- proyectar la imagen Im, utilizando la matriz de proyección PCA y LDA, P, y la matriz media de las imágenes de entrenamiento, Q, elegidas en la etapa hh) del entrenamiento, mediante m=P(Im-Q);
- ll)
- clasificar m con el segundo clasificador construido en la etapa ii).
\vskip1.000000\baselineskip
6. Dispositivo automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
la reivindicación 5, caracterizado porque los medios de
procesamiento están configurados para elegir los K autovectores del
PCA, seleccionando entre:
- \bullet
- un método basado en autovalores que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor autovalor asociado;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación;
- \bullet
- un método basado en la discriminación entre las clases del clasificador de cada autovector del PCA que comprende:
- \bullet
- ordenar los autovectores del PCA de mayor a menor valor asociado según un criterio de discriminación entre las clases respecto a las que se clasifica;
- \bullet
- tomar iterativamente K autovectores, incrementando en cada iteración el valor de K en una unidad, para obtener el número de autovectores del PCA que mayor tasa de acierto obtenga en la clasificación.
\vskip1.000000\baselineskip
7. Dispositivo automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
la reivindicación 6, caracterizado porque los medios de
procesamiento encargados de elegir los K autovectores del PCA a
partir de la discriminación entre las clases del clasificador, están
configurados para calcular dicha discriminación sumando las
correlaciones al cuadrado de cada uno de los autovectores del PCA
elegidos en el paso w), con cada uno de los autovectores de la
matriz de covarianzas de los vectores media de cada clase.
8. Dispositivo automático para establecer el
sexo al que pertenecen los rostros que aparecen en imágenes, según
cualquiera de las reivindicaciones 5-7,
caracterizado porque los medios de procesamiento están
configurados para realizar el preprocesamiento de las imágenes de
entrada comprendiendo dicho preprocesamiento las siguientes
etapas:
- \bullet
- ejecutar un procedimiento de detección de caras localizando el área que contiene puntos de interés;
- \bullet
- normalizar el tamaño de las imágenes de entrada;
- \bullet
- ecualizar el histograma asociado a las imágenes de entrada normalizadas;
- \bullet
- aplicar una máscara para eliminar el fondo de las imágenes normalizadas y ecualizadas.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES201030025A ES2339100B2 (es) | 2010-01-14 | 2010-01-14 | Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES201030025A ES2339100B2 (es) | 2010-01-14 | 2010-01-14 | Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2339100A1 true ES2339100A1 (es) | 2010-05-14 |
ES2339100B2 ES2339100B2 (es) | 2010-09-21 |
Family
ID=42126183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES201030025A Active ES2339100B2 (es) | 2010-01-14 | 2010-01-14 | Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2339100B2 (es) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137909A (en) * | 1995-06-30 | 2000-10-24 | The United States Of America As Represented By The Secretary Of The Navy | System and method for feature set reduction |
WO2001091041A1 (en) * | 2000-05-26 | 2001-11-29 | University Of Surrey | Personal identity authentication process and system |
US20050123202A1 (en) * | 2003-12-04 | 2005-06-09 | Samsung Electronics Co., Ltd. | Face recognition apparatus and method using PCA learning per subgroup |
US20070160296A1 (en) * | 2006-01-11 | 2007-07-12 | Samsung Electronics Co., Ltd. | Face recognition method and apparatus |
-
2010
- 2010-01-14 ES ES201030025A patent/ES2339100B2/es active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137909A (en) * | 1995-06-30 | 2000-10-24 | The United States Of America As Represented By The Secretary Of The Navy | System and method for feature set reduction |
WO2001091041A1 (en) * | 2000-05-26 | 2001-11-29 | University Of Surrey | Personal identity authentication process and system |
US20050123202A1 (en) * | 2003-12-04 | 2005-06-09 | Samsung Electronics Co., Ltd. | Face recognition apparatus and method using PCA learning per subgroup |
US20070160296A1 (en) * | 2006-01-11 | 2007-07-12 | Samsung Electronics Co., Ltd. | Face recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
ES2339100B2 (es) | 2010-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lal et al. | Study of face recognition techniques: A survey | |
Zuo et al. | Real-time embedded face recognition for smart home | |
Kumar et al. | Real time face recognition using adaboost improved fast PCA algorithm | |
Hsu et al. | Face detection in color images | |
CN101965588A (zh) | 经高维数据分类的识别 | |
KR20120069922A (ko) | 얼굴 인식 장치 및 그 방법 | |
Olszewska | Automated face recognition: Challenges and solutions | |
Santarcangelo et al. | Gender recognition: methods, datasets and results | |
Thuseethan et al. | Eigenface based recognition of emotion variant faces | |
Ravi et al. | A study on face recognition technique based on Eigenface | |
Putro et al. | Adult image classifiers based on face detection using Viola-Jones method | |
KR101727833B1 (ko) | 얼굴인식을 위한 판별분석 기반의 복합 특징 벡터 생성 장치 및 방법 | |
Boodoo et al. | Robust multi biometric recognition using face and ear images | |
Tin | Robust Algorithm for face detection in color images | |
Sagana et al. | Object Recognition System for Visually Impaired People | |
Vaquero et al. | Attribute-based people search | |
Ekenel et al. | Video-based face recognition evaluation in the chil project-run 1 | |
Képešiová et al. | An effective face detection algorithm | |
ES2339100B2 (es) | Dispositivo y procedimiento automatico para establecer el sexo al que pertenecen los rostros que aparecen en imagenes. | |
Cui | A scheme of human face recognition in complex environments | |
Liu et al. | Smile detection in unconstrained scenarios using self-similarity of gradients features | |
Yadappanavar et al. | Machine learning approach for smile detection in real time images | |
CN111723612A (zh) | 人脸识别和人脸识别网络的训练方法和装置、存储介质 | |
Kaur et al. | An analysis on gender classification and age estimation approaches | |
Oh et al. | Person recognition in social media photos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EC2A | Search report published |
Date of ref document: 20100514 Kind code of ref document: A1 |
|
FG2A | Definitive protection |
Ref document number: 2339100B2 Country of ref document: ES |