ES2573952B1 - Método para la cuantificación de la carga emocional mediante el movimiento de los labios - Google Patents

Método para la cuantificación de la carga emocional mediante el movimiento de los labios Download PDF

Info

Publication number
ES2573952B1
ES2573952B1 ES201500005A ES201500005A ES2573952B1 ES 2573952 B1 ES2573952 B1 ES 2573952B1 ES 201500005 A ES201500005 A ES 201500005A ES 201500005 A ES201500005 A ES 201500005A ES 2573952 B1 ES2573952 B1 ES 2573952B1
Authority
ES
Spain
Prior art keywords
lips
emotion
emotional
quantification
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES201500005A
Other languages
English (en)
Other versions
ES2573952R1 (es
ES2573952A2 (es
Inventor
Carlos Manuel TRAVIESO GONZÁLEZ
Carmelo Ruymán QUINTANA SANTANA
Jesús Bernardino ALONSO HERNÁNDEZ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad de las Palmas de Gran Canaria
Original Assignee
Universidad de las Palmas de Gran Canaria
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad de las Palmas de Gran Canaria filed Critical Universidad de las Palmas de Gran Canaria
Priority to ES201500005A priority Critical patent/ES2573952B1/es
Publication of ES2573952A2 publication Critical patent/ES2573952A2/es
Publication of ES2573952R1 publication Critical patent/ES2573952R1/es
Application granted granted Critical
Publication of ES2573952B1 publication Critical patent/ES2573952B1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

La presente invención se refiere a un método para la determinación de la cuantificación de la carga emocional (o Quantification of Arousal, en inglés) a través del movimiento de los labios, a partir de imágenes faciales, las cuales se obtienen de la grabación en vídeo de un diálogo del sujeto a evaluar.

Description

5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Metodo para la cuantificacion de la carga emocional mediante el movimiento de los labios.
La presente invention se refiere a un metodo para la determination de la cuantificacion de la carga emocional (o Quantification of Arousal, en ingles) a traves del movimiento de los labios, a partir de imagenes faciales, las cuales se obtienen de la grabacion en video de un dialogo del sujeto a evaluar.
Antecedentes de la invencion
Actualmente, existen numerosos estudios y desarrollos basados en la relation entre el hombre en su plano flsico y sus emociones. En ellos se intentan analizar el por que y el como se producen estas emociones, intentando relacionar los fenomenos o reacciones, flsicos e internos del cuerpo humano, con el fin de responder a estas cuestiones, y ser capaz de distinguir dichas emociones.
Estos estudios no solo ayudan a comprender y diferenciar las emociones, sino que sirven de ayuda para la detection de patologlas neurodegenerativas o diferentes enfermedades mentales, como el slndrome de Asperger, el autismo, etc., donde sus principales slntomas se relacionan directamente con el reconocimiento, o la propia falta de interpretation de las emociones. Tambien ayudan a controlar situaciones de estres, en trabajos como operaciones quirurgicas, o cuya necesidad de concentration sea alta, un largo etcetera de posibilidades. Por ello, su analisis y deteccion es de suma importancia en los tiempos actuales y futuros.
Es clave distinguir entre el tipo o clase de emotion y la carga emocional que lleva consigo la emocion; ya que ambas son dos definiciones totalmente diferentes. La emocion ha sido trabajada en los ultimos anos, pero la carga emocional o su intensidad, es algo que se esta empezando a investigar. En particular, para information extralda de la zona facial, la emocion ha sido ampliamente estudiada, pero la carga emocional o la intensidad con la que se manifiesta a partir del movimiento labial, no ha sido estudiada, y esta propuesta muestra un metodo para su cuantificacion.
En el estudio de emociones, varias son las investigaciones, que relacionan ciertas caracterlsticas biometricas, con dichas emociones, con el fin de intensificar y diferenciar el estado emocional del individuo. Por tanto las modalidades usadas son varias para esta finalidad. Asl, por ejemplo, el analisis de imagenes faciales, han sido utilizadas como base para detectar emociones que se manifiestan flsicamente. No hay que confundir la emocion con el grado de la emocion. Ejemplos de la deteccion de la emocion se pueden encontrar en los siguientes artlculos y patentes:
i) P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. Proc. of CVPR, paginas 511-518, 2001
ii) T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation lnvariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, Julio, 2002.
5
10
15
20
25
30
35
40
45
iii) Timo Ahonen, Abdenour Hadid and Matti Pietikainen, Face Recognition with Local Binary Patterns, Proc. Eighth European Conf. Computer Vision, pp. 469-481, 2004.
iv) Jo Chang-yeon, ''Face Detection using LBP features", CS 229 Final Project Report, Diciembre 12, 2008.
v)
http://www.sc.ehu.es/ccwalirx/gwdip3/imageprocessing.pdf Pagina web donde se encuentra el libro: ''The image processing Handbook Sixth Edition", John C. Russ, editorial CRC Press, pag. 269
vi) Antonio Manuel Rojas Latorre, "Reconocimiento biometrico de las personas basado en los labios", PFC EITE-ULPGC, Septiembre 2011.
vii) H. Shirgahi, S. Shamshirband, H. Motameni and P. Valipour, "A New Approach for Detection by Movement of Lips Base on Image Processing and Fuzzy Decision", Septiembre 2008.
viii) Anuj Mehra, Mahender Kumawat, Rajiv Ranjan, Bipul Pandey, Sushil Ranjan, Anupam Shukla y Ritu Tiwari, ''Expert System for Speaker Identification Using Lip Features with PCA", Second International Workshop on Intelligent Systems and Applications (ISA), paginas 1 -4, Wuhan (China), 2010.
ix) Nicolas EVENO, Alice CAPLIER, Pierre-Y ves COULON, ''A Parametric Model for Realistic Lip Segmentation", 2002.
x) Ojala, T., Pietikainen, M., Harwood, D.: Un estudio comparativo de las medidas de la textura con la clasificacion basada en las distribuciones de caracterlsticas, reconocimiento de formas, paginas 51-59, 29 (1996)
xi) Ekman, P., Friesen, W., ''Facial Action Coing System: A Technique for the Measurement of Facial Movements", Cosulting Psychologist Press, Palo Alto, CA, 1978.
xii) Bashar, F., Khan, A., Ahmed, F., & Kabir, M. Robust facial expression recognition based on median ternary pattern (MTP). In Electrical Information and Communication Technology (EICT), 2013 International Conference on (pp. 1-5). IEEE, Febrero, 2014.
xiii) LoBue, V., Matthews, K., Harvey, T., & Thrasher, C., "Pick on someone your own size: The detection of threatening facial expressions posed by both child and adult models''. Journal of experimental child psychology, 118, 134-142.2014.
xiv) Pantic, M., Patras, I., "Dynamics of Facial Expression: Recognition of Facial Actions and Their Temporal Segments From Face Profile Image Sequences", IEEE Transactions on System, Man and Cybernetics-Part B: Cybernetics, vol. 36, no.2, pp. 443-449, April 2006.
xv) Huang, Yi, et al. "Human emotion recognition using the adaptive sub-layer- compensation based facial edge detection". Circuits and Systems (ISCAS), 2013 IEEE International Symposium on. IEEE, 2013.
5
10
15
20
25
30
35
40
45
50
xvi) Fu, M. H., Kuo, Y.H., Lee, K. R., "Fusing Remote Control Usage and Facial Expression for Emotion Recognition" Fourth International Conference on Innovative Computing, Information and Control, pp. 132-135, Kaohsiung, December 7-9, 2009.
xvii) Jose Gustavo Hernandez Travieso, "Sistema detector de emociones basado en imagenes faciales", PFC EITE-ULPGC, Julio 2011.
xviii) WO2010133661 Al (TESSERA TECHNOLOGIES IRELAND LIMITED) "Identifying facial expressions in acquired digital images".
Otra modalidad usada a la hora obtener una correcta deteccion de la emocion, es en el estudio de senales fisiologicas, como el EEG tal como se puede comprobar en los siguientes trabajos:
xix) Mikhail, M., EI-Ayat, K., Coan, J. A., & Allen, J. J. Using minimal number of electrodes for emotion detection using brain signals produced from a new elicitation technique. International Journal of Autonomous and Adaptive Communications Systems, 6(1), 8097,2013.
xx) Petrantonakis, P. C., Hadjileontiadis, L. J., "Emotion Recognition from EEG Using High Order Crossing", IEEE Transactions on Information Technology in Biomedicine, vol. 14, no. 2,pp. 186-197,2010.
Ademas, la deteccion morfologica de los labios, ha ayudado a detectar 3 diferentes emociones, como la alegrla, tristeza o sorpresa. Igualmente es emocion, pero nunca se detecta su grado. Ejemplo de ello se puede encontrar en el siguiente artlculo:
xxi) Ulrik Soderstrom and Haibo Li, "Emotion recognition and estimation from tracked lip features'', 2007.
Otra modalidad biometrica utilizada para detectar y distinguir diferentes tipos de emociones, ha sido el analisis de la conductividad de la piel, temperatura corporal, electromiograma, volumen respiratorio, ritmo cardiaco y presion sangulnea:
xxii) Gouizi, K., Reguig, F.B., Maaoui, C., "Analysis Physiological Signals for Emotion Recognition'', 7° International Workshop on Systems, Signal Processing and their Applications (WOSSPA), pp. 147-150, 2011.
La voz puede ser otra modalidad biometrica por la que se puede detectar la emocion, con la ayuda de ciertas caracterlsticas de la voz, como la calidad de voz, el tono de pronunciation, etc., que permiten identificar diferentes emociones. Las siguientes investigaciones que hacen referencia a esta llnea de trabajo, son los siguientes:
xxiii) Kuchibhotla, Swama, et al. "Speech Emotion Recognition Using Regularized Discriminant Analysis". Proceedings of the International Conference on Frontiers of Intelligent Computing: Theory and Applications (FICTA) 2013. Springer International Publishing, 2014.
xxiv) Moataz M. H. EIAyadi, Mohamed S.Kamel, and Fakhri Karray, "Speech emotion recognition using gaussian mixture vector autoregressive models''. International Journal of Engineering and Advanced Technology (IJEAT) Volume-1, Issue-5, June 2012.
5
10
15
20
25
30
35
40
45
50
xxv) Jean Vroomen, Rene Collier, Sylvie Mozziconacci, ''Duration an intonation m emotional speech". Proc. Eurospeech '93. Berlin, Germany, 1993, pp 577-580.
Desde este enfoque, las emociones son detectadas a partir de ciertas modalidades y calculando ciertos parametros, ya sean de la voz, cara, a nivel neuronal, etc. A modo de resumen, esto se logra con ciertas caracterlsticas propias o patrones cualificados en varias senales fisiologicas/biometricas. Pero otro enfoque en el estudio de la Psicologla emocional, es caracterizar los parametros fundamentales de la experiencia emocional. En este sentido, las emociones se puede catalogar por placenteras o no, y positivas o negativas.
A este concepto se le denomina 'Valencia afectiva''. Otra caracterlstica fundamental es la intensidad emocional o nivel de excitacion, que en psicologla se le denomina Arousal (este es el parametro que trata de cuantificar la invencion propuesta). Estas dos medidas ayudan a conocer ciertos parametros de conducta, a tener un control de las emociones, a caracterizarlas, etc. Bajo este enfoque, existen varios estudios en el que se detectan y cualifican estos parametros de Valencia y Arousal. Como ejemplo se presentan las siguientes investigaciones, donde se cuantifican estos niveles a partir de diferentes modalidades fisiologicas y biometricas; por ejemplo, mediante el empleo de senales obtenidas con el EEG y otras senales fisiologicas:
xxvi) Duru, D. G., Deniz Duru, A., Barkana, D. E., Sanli, O., & Ozkan, M. ''Assessment of surgeon's stress level and alertness using EEG during laparoscopic simple nephrectomy". In Neural Engineering (NER), 2013 6th International IEEE/EMBS Conference on (pp. 452-455). IEEE. Noviembre 2013
xxvii) Hidalgo-Munoz, A. R., et al. "EEG study on affective valence elicited by novel and familiar pictures using ERD/ERS and SVM-RFE". Medical & biological engineering & computing 52.2 (2014): 149-158.
xxviii) Gerber, Andrew J., et al. "An affective circumplex model of neural systems subserving valence, arousal, and cognitive overlay during the appraisal of emotional faces". Neuropsychologia 46.8: 2129-2139,2008.
El analisis de las caracterlsticas de la voz, en una locucion o dialogo, tambien ha facilitado la tarea de cuantificar los niveles de Valencia y Arousal:
xxix) Arias, Juan Pablo, Carlos Busso, and Nestor Becerra Yoma. "Shape-based modeling of the fundamental frequency con tour for emotion detection in speech". Computer Speech & Language 28.1 (2014): 278-294.
xxx) Kuchibhotla, Swama, et al. "Speech Emotion Recognition Using Regularized Discriminant Analysis". Proceedings of the International Conference on Frontiers of Intelligent Computing: Theory and Applications (FICTA) 2013. Springer International Publishing, 2014.
xxxi) Patricia Hernandez, Jesus B. Alonso, Miguel-Angel Ferrer-Ballester, Carlos M. Travieso-Gonzalez, Juan R. Orozco-Arroyave, Nonlinear Dynamics Characterization of Emotional Speech, Neurocomputing, Ed. Elsevier, (ISBN: 0925-2312), Berlin, 2012.
5
10
15
20
25
30
35
40
45
50
Por tanto, se puede observar que la detection del grado de emotion se realiza por modalidades totalmente diferentes a esta propuesta y bajo este punto de vista, no se ha encontrado ninguna investigation que relacione la cuantificacion del nivel emocional con el movimiento de los labios.
Otras investigaciones y estudios diferentes a los anteriormente mostrados se centran en determinar la localization de la cara y de los labios, y determinar algunas actividades, pero no se centran en determinar el grado y cuantificacion de la emocion, que es el objeto de esta propuesta; tal y como se puede observar en las siguientes patentes:
xxxii) xiii) WO2012128382 A1 (SHARP KABUSHIKI KAISHA) "Device and method for lip motion detection''
xxxiii) WO2011079458 A1 (NOKIA CORPORATION) ''Method and apparatus for local binary pattern based facial feature localization"
xxxiv) WO2011074014 A1 (TATA CONSULTANCY SERVICES LTD.) ''A system for lip corner detection using vision based approach''
xxxv) WO2011055224 A1 (INSTITUT POLYTECHNIQUE DE GRENOBLE) "Device and method for detecting and monitoring the inner and outer contours of the lips"
xxxvi) US2014050392 A1 (SAMSUNG ELECTRONICS CO., LTD.) "Method and
apparatus for detecting and tracking lips''
xxxvii) US2013271361 A1 (SAMSUNG ELECTRONICS CO., LTD.) ''Method and
apparatus for detecting talking segments in a video sequence using visual cues"
xxxviii) US2013226587 A1 (HONG KONG BAPTIST UNIVERSITY) "Lip-password based speaker verification system''
xxxix) CN1710595 A (UNIV SHANGHAI JIAOTONG) "Mouth comer positioning method in eludes histogram of the said area is analyzed and treatment of threshold value is carried out for the area so as to obtain binary image''
xl) CN102129683 A (UNIV SHANGHAI) "Automatically lip image division method, involves making horizontal set function as zero, using five-point balancing process for processing Iip image outline, and removing edge burr for outline to obtain Iast lip outline"
No se debera confundir con determinar el tipo de emocion, pues en el caso referido en esta invention solo interesa el grado de la emocion y no su tipo. Muchos trabajos han sido desarrollados en la deteccion de la emocion, pero no en la deteccion del grado de la emocion a partir del movimiento de los labios. Cabe destacar que fundamentalmente se ha reconocido el grado de la emocion por la voz, pero el unico trabajo que usa el movimiento de los labios para la deteccion del grado o carga de la emocion detectado es el referido en esta propuesta. El usar otra modalidad, como el movimiento de los labios al hablar, es una nueva via para analizar el grado de la emocion, y serla un modo mas que anadir a los sistemas actuales ya existentes basados en electroencefalograma, voz, o medidas corporales. Esta nueva forma de medirlo da mucha mas riqueza a un posible estudio multimodal.
5
10
15
20
25
30
35
40
45
50
La presente invention tiene por objeto la cuantificacion de la carga emocional, en contraposition a la detection del tipo de emotion. La invencion, por tanto, tendrla potenciales aplicaciones en la deteccion de patologlas neurodegenerativas o diferentes enfermedades mentales, como Alzheimer, Parkinson, slndrome de Asperger, autismo, etc., donde sus principales slntomas se relacionan directamente con el reconocimiento, o la propia falta de interpretation de las emociones, con independencia de la emocion, por lo que se ha identificado como problema tecnico a resolver gracias a la presente invencion la cuantificacion del grado de la emocion, solution no hallada en el estado de la tecnica, y no la identification de la emocion, problema que ya han resuelto otras invenciones. La cuantificacion del grado de emocion tambien ayuda a controlar situaciones de estres, en trabajos como operaciones quirurgicas, o cuya necesidad de concentration sea alta, un largo etcetera de posibilidades. Por ello, su analisis y deteccion es de suma importancia en los tiempos actuales y futuros.
Cabe concluir tras estos antecedentes, que los estudios que se han desarrollado hasta el momento y que han tenido como parametro caracterlstico los labios, han sido utilizados basicamente para el reconocimiento biometrico, para distinguir el tipo de emocion, incluso para reconocer sus caracterlsticas morfologicas. El metodo propuesto, a diferencia de lo observado en el estado de la tecnica, relaciona el nivel de carga emocional o excitation, y el movimiento de los labios, durante el tiempo en que la persona se encuentre hablando, y presenta la ventaja de no ser invasivo, pues con una sola camara pudiera captar y analizar el video (vease la figura 1), manteniendo un grado de colaboracion por parte del usuario muy bajo o nulo; a diferencia de la voz, que requiere un direccionamiento del microfono mas el ruido ambiente, o sensores fisiologicos de contacto directo al cuerpo humano.
Sumario de la invencion
La presente invencion se refiere a un metodo para la determination de la cuantificacion de la carga emocional a partir del movimiento de los labios siguiendo cinco pasos:
i) Deteccion de la zona bocal: Primeramente se realiza una deteccion facial, y se aplican varios subprocesos para obtener la region de interes (ROI), que en este caso son los labios, con el fin de distinguirlos.
ii) Deteccion de los labios mediante una transformation de la colorimetrla: Se realiza una transformada de color automatizada, con la cual se consigue segmentar el color rojo de los labios, esto favorece la lectura del movimiento labial, diferenciandolo de cualquier otra parte de la boca, como puede ser la barba, granos, manchas, sombras, etc.
iii) Filtrado de realce y binarizacion de los labios: Despues de esta transformada se realizan varios procesados de realce, y mejora de la imagen, para luego ser binarizada.
iv) Deteccion de labio superior e inferior mediante transformacion en polares: Una vez obtenidos los labios perfectamente diferenciados, el proceso sigue realizando una transformacion a polares, con el fin de separar ambos labios en dos regiones, esto facilita la implantation de un sistema con acumuladores, donde registra y almacena los movimientos de los labios.
v) Cuantificacion del grado de la emocion mediante el estudio estadlstico del movimiento labial: Estos movimientos son analizados estadlsticamente y se logra evaluar el Indice de
5
10
15
20
25
30
35
40
45
50
carga o intensidad emocional, a traves del movimiento de los labios, producidos por los momentos en el que un paciente o persona se encuentre realizando la prueba.
Se han establecido 3 grados de carga emocional: neutra, baja y alta, simplificando de enorme manera los diferentes grados de emocion o Arousal. Estas cargas, pueden llegarse a relacionar con diferentes tipos de emociones, segun sea el nivel con el que hayan sido detectadas.
Descripcion de las figuras
La figura 1 muestra de forma esquematica la interfaz basica desarrollada.
La figura 2 muestra de forma esquematica los subprocesos que componen el metodo.
La figura 3 muestra de forma esquematica el patron local binario.
La figura 4 muestra de forma esquematica el efecto Umbralizar - Procesado Morfologico.
La figura 5 muestra de forma esquematica el efecto Abrir y Cerrar - Procesado Morfologico.
La figura 6 muestra de forma esquematica el efecto erosionar - Procesado Morfologico.
La figura 7 muestra de forma esquematica el efecto Dilatar - Procesado Morfologico.
La figura 8 muestra de forma esquematica el efecto Suavizar - Procesado Morfologico.
La figura 9 muestra de forma esquematica la transformation a polares, con ambos labios separados y con una muestra de los acumuladores.
La figura 10 muestra de forma esquematica el detector de contornos.
La figura 11 muestra de forma esquematica un ejemplo de grafica obtenida tres diferentes cargas emocionales, Baja, Media y Alta.
La figura 12 muestra de forma esquematica un ejemplo del termometro - grado emocion.
Descripcion detallada de una realizacion preferida de la invencion
Aunque la invencion se describe en terminos de una realizacion especlfica preferida, sera facilmente evidente para los expertos en esta tecnica que se pueden hacer diversas modificaciones, redisposiciones y reemplazos. El alcance de la invencion esta definido por las reivindicaciones adjuntas a la misma.
La invencion propuesta consiste en un metodo que aplica varios subprocesos hasta llegar a la cuantificacion del grado de la emocion. El primero, realiza una detection facial y un recorte de la zona de interes (ROI), los labios (i). A continuation, se aplica un preprocesado de imagen para contratar los labios frente al resto del ROI; mediante una transformacion del color (ii). Esta imagen pasa a ser tratada, en la misma etapa, por diversos procesados, para realzar y mejorar los labios obtenidos (iii).
5
10
15
20
25
30
35
40
45
50
Con los labios detectados, se realiza una transformation de coordenadas, concretamente a polares, con el fin de separar ambos labios, en dos partes diferentes; para asl, registrar y analizar todos sus movimientos (iv). Estos movimientos seran evaluados estadlsticamente, y obtener asl un Indice o nivel de carga emocional (v).
A continuation, se describen en detalle los subprocesos enumerados previamente.
(i) En el sistema de detection facial, se emplea el metodo LBP, del ingles, Local Binary Pattern. Este patron es un descriptor de micro-imagenes bastante robusto, Figura 3. Su modo de funcionamiento es bastante sencillo, se trata de un operador, que consiste en una simple matriz 3X3, donde los valores de la imagen se binarizan por el metodo de umbralizacion, tomando como referencia el valor central y evaluando cada vecino, tomando como resultado un 0 o 1, segun supera o no dicho umbral. De este modo, se obtendra una cadena de 8 bits que etiqueta a dicho pixel central. Si se procesa toda la imagen con este patron, se logra etiquetar toda la imagen. Con estas etiquetas, se puede construir un histograma completo de la imagen, pero para identificar cada parte de un rostro, es importante tener information espacial. Por ello se recurre a dividir la imagen en Rm regiones. De este modo se extraera informacion de cada region de forma independiente, obteniendo finalmente un histograma espacial, concatenando cada uno de los histogramas, obtenidos en cada region.
El potencial de este operador es que a diferencia de muchos otros este metodo consigue ser bastante robusto y eficiente ante cambios de luz, con lo que para imagenes en movimiento esta tecnica es muy eficaz.
Una vez obtenida la imagen facial, se realiza un recorte de la zona de la boca, empleando un metodo donde consigue separar la parte de la boca, segmentando el rostro, en varias proporciones equitativas. Si se divide el rostro horizontalmente y verticalmente en 3/4 partes, facilmente se puede extraer la parte de la boca, localizada en la parte inferior de la misma.
(ii) Una vez obtenido el recorte de la boca, la imagen se separa en tres canales de color: rojo, verde y azul. Estos canales son procesados, para realizar una transformada de color, mediante la ecuacion:
Transformada_ de_ color = Azul+Rojo - escalar*Verde
Esta transformada ayudara a diferenciar el color de los labios del resto de la boca. Su modo de funcionamiento se explica mediante el trabajo que desempena el escalar que multiplica al canal verde. Gracias a este factor, se consigue controlar el color verde, que es el que mayormente afecta a las otras partes de la boca, como puede ser la piel. Por ello, de forma automatizada, se varla el valor de este escalar, cuyo parametro fundamental de control es la media resultante de dicha transformada. Esta media, esta estimada para lograr diferenciar de la mejor forma posible, la parte de los labios. De modo que diferentes zonas de la boca, como la barba, manchas, etc. son discriminadas para poder evaluar correctamente el movimiento labial. De forma emplrica se ha establecido un rango de valores idoneos que van de -18 a -30, siendo este ultimo el mas agresivo.
(iii) A la salida de la transformada de color, se obtienen los labios, pero no siempre se consigue que esten bien definidos. Los brillos, manchas, ruido, y la resolution de las
5
10
15
20
25
30
35
40
45
50
imagenes, provoca que existan partes con falta de information, pequenas discontinuidades, orificios etc., que pueden ser mejoradas mediante la utilization de procesados morfologicos, como son la dilatation, erosion o el suavizado.
En la erosion (vease la Figura 6), se consigue eliminar pequenos puntos, que pueden aparecer alrededor de la boca, la barba, pecas etc., pueden ser los causantes de los mismos. Por lo contrario, el proceso de dilatacion ayuda a tapar pequenos huecos, y orificios, que se pueden encontrar en los labios, como se puede ver en la figura 7. Para continuar mejorando los labios, se empleo un suavizado tipo "Gaussiano" (figura 8), con el cual no se perdla mucha definition, y terminaba de mejorar pequenas imperfecciones. Una vez realizadas los diferentes procesados morfologicos iniciales, la imagen se binariza, utilizando un umbral que se establece por el metodo de OTSU, figura 4, que usa el valor de la media de la imagen como dicho umbral, para dicha binarizacion. De este modo se obtienen de color blanco los labios, procesados.
Una vez binarizada, se ha procedido a utilizar otros procedimientos morfologicos, como apertura y cierre, que realizan operaciones combinadas de dilatacion y erosion, con el fin de afinar un poco mas las posibles imperfecciones, que se puedan encontrar en los labios, sobre todo en los momentos de apertura de la boca, figura 5.
(iv) Aun realizando estas operaciones, siempre pueden existir pequenos defectos en la imagen, como manchas, sombras u orificios que perjudican la diferenciacion de los labios. Por ello se ejecuta un detector de contorno, cuyo umbral se realiza respecto al tamano de los diferentes contornos cerrados que se pueden encontrar en la imagen. Por ello, solo se dara a la salida del detector de bordes, al mas grande que corresponded al de los labios, vease la figura 10.
Con estos procesados, se tendran los labios de tal forma que se pueda cuantificar perfectamente la apertura y cierre de los mismos. Para ello y para facilitar esta tarea, se recurre a realizar una transformation de coordenadas, de cartesianas a polares. Antes de esto es necesario localizar el centro de masas de la imagen, que corresponde al centro de los labios detectados. A la salida de la transformacion, se obtiene una imagen como la de la figura 9. Donde gracias a esta transformacion, se pueden separar y medir, ambos labios, tanto el superior como el inferior.
(v) Para la medida de la apertura y cierre de los labios, se emplean dos matrices superpuestas en las zonas de trabajo de los labios, con el fin de operar como acumuladores, donde se van rellenando segun corresponda, en cada momento. Un punto importante a tener en cuenta en este momento es que para diferenciar los movimientos mlnimos de los labios, con respecto a la boca cerrada, es necesario realizar un calibrado inicial para determinar este umbral. Para ello se determina un metodo de calibrado en el que se exige a la persona a evaluar mantener la boca cerrada durante un determinado tiempo, que equivaldrla a unos 140 frames, para tener una coleccion de valores suficientes con los que cuantificar el estado de la boca cerrada. En cambio para la boca abierta, se establece un valor que se ha obtenido de forma emplrica, bajo diversas pruebas.
Despues del calibrado, los valores de los acumuladores obtenidos se normalizan y se van almacenando en un vector de 50 elementos, lo cual es necesario para relacionar los estados anteriores con el actual a analizar, y asl evidenciar los diferentes estados. Para ello, en cada frame se calcula la media y la varianza instantanea de dicho vector. Estos
valores sirven de ayuda, para evaluar los movimientos y variaciones de las aperturas y cierres de la boca, mediante la siguiente formula:
nivelDeCargaEmocional = (a x varianza) + (P x media)
5
donde a y P son variables ajustables para alcanzar el mejor nivel de la deteccion de la carga emocional.
En este punto, basta con representar los diferentes valores que se obtienen en cada 10 frame con la formula anterior. Mediante los experimentos realizados con las diferentes bases de datos trabajadas, se han determinado 3 umbrales diferentes, establecidos de forma emplrica, que corresponden a tres cargas emocionales diferentes: baja, neutra y alta (veanse las figuras 11 y 12). Esto se ha estimado asl para simplificar de cierto modo los diversos grados de nivel de excitacion emocional. Los valores son los siguientes:
15
Bajo: 5 < x < 20 Neutro: 20 < x < 35 20 Alto: 35 < x

Claims (1)

  1. ES 2 573 952 A2
    REIVINDICACIONES
    1. Metodo para el calculo de la cuantificacion de la carga emocional (Arousal) mediante el estudio estadlstico del movimiento de los labios, en el transcurso de una conversation o 5 de cualquier otra forma de expresion no verbal, registrado mediante un metodo de captation de imagenes en movimiento que comprende:
    (i) Medida de la apertura y cierre de los labios mediante matrices superpuestas en las zonas de trabajo de los labios, con el fin de operar como acumuladores,
    10
    (ii) Diferenciacion de los movimientos mlnimos de los labios, con respecto a la boca cerrada, mediante un calibrado inicial que implica el registro en frames de la imagen captada de los labios para determinar un umbral que cuantifique el estado de la boca cerrada y un valor para la boca abierta,
    15
    (iii) Normalization y almacenamiento de los valores de los acumuladores obtenidos para relacionar los estados anteriores con el actual a analizar, y asl evidenciar los diferentes estados,
    20 (iv) Representation de los diferentes valores que se obtienen en cada frame mediante un
    numero de umbrales diferentes que corresponden a grados de nivel de excitation emocional diferentes.
ES201500005A 2014-12-12 2014-12-12 Método para la cuantificación de la carga emocional mediante el movimiento de los labios Active ES2573952B1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES201500005A ES2573952B1 (es) 2014-12-12 2014-12-12 Método para la cuantificación de la carga emocional mediante el movimiento de los labios

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201500005A ES2573952B1 (es) 2014-12-12 2014-12-12 Método para la cuantificación de la carga emocional mediante el movimiento de los labios

Publications (3)

Publication Number Publication Date
ES2573952A2 ES2573952A2 (es) 2016-06-13
ES2573952R1 ES2573952R1 (es) 2016-12-30
ES2573952B1 true ES2573952B1 (es) 2017-10-24

Family

ID=56098519

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201500005A Active ES2573952B1 (es) 2014-12-12 2014-12-12 Método para la cuantificación de la carga emocional mediante el movimiento de los labios

Country Status (1)

Country Link
ES (1) ES2573952B1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2971764A1 (es) * 2024-04-10 2024-06-06 Univ Valencia Politecnica Metodo y equipo de analisis de la experiencia de usuario

Also Published As

Publication number Publication date
ES2573952R1 (es) 2016-12-30
ES2573952A2 (es) 2016-06-13

Similar Documents

Publication Publication Date Title
Merghani et al. A review on facial micro-expressions analysis: datasets, features and metrics
Wang et al. Exploiting spatial redundancy of image sensor for motion robust rPPG
CN107945173B (zh) 一种基于深度学习的皮肤疾病检测方法以及系统
CN111524608B (zh) 智能检测与防疫系统和方法
Jafari et al. Automatic detection of melanoma using broad extraction of features from digital images
Liu et al. Multi-channel remote photoplethysmography correspondence feature for 3d mask face presentation attack detection
Ghosal et al. sHEMO: Smartphone spectroscopy for blood hemoglobin level monitoring in smart anemia-care
Anishchenko Machine learning in video surveillance for fall detection
Monwar et al. Pain recognition using artificial neural network
Shih An unsupervised hair segmentation and counting system in microscopy images
CN115937953A (zh) 心理变化检测方法、装置、设备及存储介质
Lucio et al. Simultaneous iris and periocular region detection using coarse annotations
Gorbova et al. Going deeper in hidden sadness recognition using spontaneous micro expressions database
Dhanashree et al. Fingernail analysis for early detection and diagnosis of diseases using machine learning techniques
Anderson et al. Robust real-time face tracker for cluttered environments
TWI430776B (zh) 智慧型影像膚質檢測系統及方法
ES2573952B1 (es) Método para la cuantificación de la carga emocional mediante el movimiento de los labios
Rew et al. Hybrid Segmentation Scheme for Skin Features Extraction Using Dermoscopy Images.
CN111814738A (zh) 基于人工智能的人脸识别方法、装置、计算机设备及介质
Dixit et al. Multi-feature based automatic facial expression recognition using deep convolutional neural network
CN116092157A (zh) 一种智能面舌诊方法、系统及智能设备
Tang et al. A machine learning approach to tongue motion analysis in 2d ultrasound image sequences
Mannem et al. A SegNet based image enhancement technique for air-tissue boundary segmentation in real-time magnetic resonance imaging video
Nwogu et al. An automated process for deceit detection
AthishMon et al. Recognizing spontaneous emotion from the eye region under different head poses

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2573952

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20171024