ES2261706T3

ES2261706T3 - Metodo y aparato para analisis de la conversacion.

Info

Publication number: ES2261706T3
Application number: ES02755609T
Authority: ES
Inventors: Yoav Degani; Yishai Zamir
Original assignee: VoiceSense Ltd
Current assignee: VoiceSense Ltd
Priority date: 2001-08-09
Filing date: 2002-08-07
Publication date: 2006-11-16
Anticipated expiration: 2022-08-07
Also published as: EP1423846B1; ATE322067T1; DE60210295D1; US20040249634A1; IL144818A0; IL144818A; CA2456625A1; CA2456625C; EP1423846A1; DE60210295T2; WO2003015079A1; US7606701B2

Abstract

Método para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de: obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo dichos bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud; derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono- ascendente y tono-descendente en dichas secuencias de los bloques; comparación de dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual dicha pluralidad de parámetros secundarios seleccionados de la conversación son seleccionados de la lista de: (a) Longitud media de silencios cortos y / o frecuencia de silencios cortos; (b) Longitud media de segmentos de tono regular y / o frecuencia de los segmentos de tono regular; (c) Promedio de la longitud de los segmentos de tono ascendente y / o frecuencia de los segmentos de tono ascendente y / o promedio de la longitud de los segmentos de tono descendente y / o frecuencia de los segmentos de tono descendente; y (d) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

Description

Método y aparato para análisis de la conversación.

La presente invención se refiere al campo del análisis de voz y de la conversación y en particular al análisis de las características acústicas y prosódicas de la conversación.

Antecedentes de la invención

Se sabe desde hace mucho tiempo que ciertas características de voz llevan información con respecto al estado emocional del que habla. Mucho tiempo atrás en 1934, Lynch observó diferencias en las características de los tiempos y del tono entre la conversación factual y emocional. (Lynch, G.E. (1934). A Phonophotographic Study of Trained and Untrained Voices Reading Factual and Dramatic Material, Arch. Speech. 1 9-25.)

Desde entonces, numerosos estudios han demostrado las correlaciones entre varias características de conversación no-verbal y los estados emocionales específicos, y los esfuerzos de investigación se han dirigido hacia distintos aspectos del fenómeno de conversación emocional. Una línea de investigación se centra en la identificación de los soportes de emoción dentro de la señal de conversación, y los estudios mostraron estructuras complejas de correlación entre el tono (la entonación fundamental de la voz, que depende del número de vibraciones de las cuerdas vocales por segundo), la amplitud, tiempos, duración, ritmo, contornos de la envolvente y demás variables de la palabra así como el estado emocional del que habla. Una segunda área de investigación trata de explorar la expresión de distintas dimensiones emocionales en la conversación, y los estudios sugieren correlaciones entre los elementos constituyentes de la conversación y las dimensiones que caracterizan el estado emocional del sujeto. Otro esfuerzo de investigación se centra en la revelación de las correlaciones características entre las partes de conversación y varios estados emocionales, incluidas las emociones primarias, como la ira, las emociones secundarias, como el aburrimiento, por ejemplo, y las situaciones específicas de tensión, como la ansiedad, carga de trabajo y mentira, por ejemplo. Todavía otra área de investigación trata de señalar las diferencias en las estructuras emocionales de conversación entre distintos individuos, distintos grupos de individuos, según la categorización por sexo, edad, cultura y tipo de personalidad, por ejemplo, y aun entre las estructuras de voz correspondientes a distintos estados fisiológicos de los mismos individuos.

Tres extensas revistas de literatura, que resumen los distintos descubrimientos referentes a la expresión oral de la emoción, fueron publicadas por Murray, I.R. and Arnott, J.L., (1993), Towards the Simulation of Emotion in Synthetic Speech: A review of the Literature on Human Vocal Emotion, Journal of the Acoustical Society of America, vol. 93 (2), 1097-1108, por Frick, R.W. (1985), Communicating Emotion: The Role of Prosodic Features, Psychology Bulletin, 97, 412-429, y por Scherer, K.R. (1986), Vocal Affect Expression: A Review and a Model for Future Research, Psychology Bulletin, 99, 143-165. Todos estos escritores enfatizan la naturaleza fragmentada de la investigación en este campo, y señalan que la investigación de la emoción vocal forma solamente una parte aislada y muy pequeña de la literatura general sobre emociones y la literatura general sobre análisis de la palabra. Estos análisis apoyan la noción de que las características de la voz humana varían con respecto a la expresión de la emoción; pero destacan la complejidad de la interacción entre fisiología, psicología y palabra en cuanto a las emociones. Recalcan también la necesidad de modelos generalizados sobre una comprensión más coherente de los fenómenos.

Recientemente, algunos estudios se han acercado a la tarea de una clasificación automática de la expresión vocal de distintos estados emocionales mediante la utilización de modelos estadísticos de reconocimiento de las estructuras. Se consiguió un éxito relativo, véase Dellaert, F. Polzin, T.S. and Waibel, A. (1996), Recognizing emotions in speech. In Proc. ICSLP, Philadelphia PA, USA, 1996 and Amir, N. and Ron, S. (1998), Towards an automatic classification of emotions in speech. In Proc. ICSLP, Sydney, 1998, por ejemplo.

El campo de la emoción en la palabra está levantando un interés creciente, y en Belfast, en septiembre de 2001, se celebró un taller especial dedicado a este asunto (Taller ISCA sobre Palabra y Emoción - documentos presentados: http://www.qub.ac.uk/en/isca/proceedings/index.html). Los documentos, teóricos y empíricos, revelan una vez más la complejidad del fenómeno, la falta de datos y los distintos aspectos involucrados.

Con respecto a la detección de la emoción a través del análisis de la conversación, la literatura destaca varios problemas, todavía sin resolver. Quisiéramos enfatizar dos de los problemas más importantes:

El primer problema es la falta de un modelo unificado de correlativos acústicos emocionales, que permitan que los distintos contenidos emocionales en la conversación sean dirigidos por un indicador general; el estado actual de la investigación permite solamente señalar correlaciones acústicas aisladas con los estados emocionales específicos.

El segundo problema es la dificultad en superar las distintas estructuras de expresión de la palabra de distintas personas que hablan, lo que tiende a disimular las diferencias emocionales. La investigación anterior ha tratado de confrontar el último problema mediante la obtención de características de referencia de la palabra del individuo sometido a prueba, o de grupos específicos de individuos. Siendo las referencias mediciones anteriores de la línea de base (no-emocionales) de un sujeto específico, o los perfiles específicos emocionales de la conversación de grupos relativamente homogéneos de sujetos, como todos los sujetos que padecen depresión, por ejemplo.

\newpage

Durante años se han registrado varias patentes sobre este campo. Estas patentes se caracterizan principalmente por tener las mismas limitaciones descritas anteriormente en cuanto a la investigación académica, a saber, que se centran en los estados emocionales específicos y dependen de las mediciones de referencia anteriores. Las patentes varían también de forma significativa en sus procedimientos y parámetros de medición.

Fuller, en tres Patentes desde 1974, (US 3.855.416; US 3.855.417 y US 3.855.418) sugiere un método para indicar la tensión en la conversación y para determinar si un sujeto está mintiendo o diciendo la verdad. El método sugerido mide el contenido vibrato (modulación rápida de la fonación) y la amplitud óptima normalizada de la señal de conversación, y se dirige particularmente a analizar la conversación de un sujeto interrogado.

Bell et al., en 1976 (Patente US 3.971.034) sugirió también un método para detectar la tensión psicológica a lo largo de la conversación. El método descrito se basa principalmente en la medición de los cambios de modulación infrasónica en la voz.

Williamson, en dos patentes de 1978 y 1979 (US 4.093.821 y US 4.142.067) describe un método para determinar el estado emocional de una persona, mediante el análisis de las perturbaciones de frecuencia en la estructura de la conversación. El análisis se basa principalmente en las mediciones de la primera frecuencia formante de la conversación, pero sin embargo, las diferencias que corresponden a los distintos estados emocionales no se especifican claramente: en la primera patente, el aparato indica principalmente la tensión con respecto a la relajación, mientras que en la segunda patente, el usuario del dispositivo debe aplicar la "integración visual y la interpretación de la salida visualizada" para "adoptar ciertas decisiones con respecto al estado emocional".

Jones, en 1984 (Patente US 4.490.840), sugiere un método para determinar las estructuras de voz-estilo (resonancia, calidad), conversación-estilo (variable-monótona, cortada-suave, etc.) y perceptual-estilo (sensorio-interno, odio-amor, etc.), basándose en distintas características de voces, incluidos seis picos y pausas espectrales dentro de la señal de conversación. Sin embargo, el inventor establece que "la presencia del contenido emocional específico no es de interés para la invención revelada aquí".

Silverman, en dos patentes de 1987 y 1992 (US 4.675.904 y US 5.148.483) sugiere un método para detectar la predisposición suicida a partir de las estructuras de la conversación de una persona, mediante la identificación de la disminución sustancial sobre la conclusión de la elocución y la baja modulación en amplitud durante la elocución.

Ron, en 1997 (Patente US 5.647.834) describe un sistema de regulación de la biorretroacción basada en la conversación que permite que un sujeto controle y cambie su estado emocional. Se extrae una señal de indicación emocional de la conversación del sujeto (no se describe en la patente el método de medición) y se compara con las mediciones fisiológicas en línea del sujeto que sirven de referencia para su condición emocional. Entonces el sujeto puede intentar cambiar la señal de indicación con el fin de conseguir el control de su estado emocional.

Bogdashevsky, et al., en una patente de 1999, (US 6.006.188) sugiere un método para determinar las características psicológicas o fisiológicas de un sujeto basándose en la creación de bases específicas antes del conocimiento para ciertos estados psicológicos y fisiológicos. El proceso descrito implica la creación de grupos homogéneos de sujetos según su evaluación psicológica (por ejemplo, grupos de diagnóstico de la personalidad según las clasificaciones psicológicas comunes), el análisis de sus únicas estructuras de conversación (basándose en los coeficientes cepstrales) y la formación de bases específicas de conocimiento para estos grupos. La correspondencia con ciertos grupos psicológicos y fisiológicos puede realizarse mediante la comparación de las estructuras de conversación de un individuo (a quien se pide que diga un texto de 30 frases similar al texto utilizado por el grupo de referencia), con las características de las bases de conocimiento del grupo. La patente reivindica permitir el diagnóstico psicológico verbal de las condiciones relativamente constantes, tal como la comparación del estado mental antes y después de la terapia y perfil de personalidad, por ejemplo.

Pertrushin, en el año 2000 (patente US 6.151.571), describe un método para controlar una conversación entre dos personas que hablan, detectar una emoción de al menos una de las personas, determinar si la emoción es una de las tres emociones negativas (ira, tristeza o miedo) y luego comunicar la emoción negativa a una tercera parte. Con respecto al proceso de reconocimiento de la emoción, la patente detalla las etapas necesarias para obtener estos resultados: primero, se recomienda la realización de un experimento con los sujetos objetivo, con el fin "de determinar qué partes de una voz son las más fiables como indicadores de la emoción". Se sugiere utilizar un conjunto de las locuciones más fiables de este experimento como "entrenamiento y datos de prueba para los algoritmos de reconocimiento de las estructuras accionados por un ordenador". La segunda etapa es la extracción de las características para los estados emocionales basados en los datos recogidos. La patente sugiere varios métodos posibles de extracción de características mediante la utilización de una variedad de características de la conversación. La tercera etapa consiste en reconocer las emociones basadas en las características extraídas. Se ofrecen dos aproximaciones - redes neurales y conjuntos de clasificadores. Los conjuntos de datos previamente recogidos (que representan las emociones) pueden ser utilizados para entrenar los algoritmos para que determinen las emociones correctamente. Se presentan unos aparatos ejemplares así como las técnicas para mejorar la detección de la emoción.

Slaney, en una patente de 2001 (US 6.173.260) describe un sistema de clasificación emocional de la conversación. El sistema descrito se basa en un procedimiento empírico que extrae la mejor combinación de características de la conversación (distintas mediciones del tono y de la forma espectral de la envolvente), que caracteriza un conjunto determinado de elocuciones identificadas de acuerdo con las clases predefinidas de emoción. Después de haber "entrenado" el sistema en el conjunto determinado de elocuciones, puede utilizar las características extraídas para otra clasificación de otras elocuciones en estas clases emocionales. Sin embargo, el procedimiento no presenta ningún indicador emocional general, y asume solamente que se pueden extraer empíricamente distintas características emocionales para distintas situaciones emocionales.

Dos solicitudes publicadas de PCT por Liberman se refieren también a la emoción en la conversación. Liberman, en 1999 (WO 99/31653), sugiere un método para determinar ciertos estados emocionales a través de la conversación, incluida la tensión emocional y los estados relacionados con la mentira, como la falsedad, confusión e incertidumbre, la disonancia psicológica, sarcasmo, exageración. El procedimiento se basa en la información por medición de la entonación de la conversación, en particular, mesetas y picos en la envolvente de la señal de conversación, mediante la utilización de elocuciones previas de la persona que habla como referencia de la línea de base.

Liberman, en el año 2000 (WO 00/62270) describe un aparato para controlar los estados emocionales inconscientes de un individuo a partir de unas muestras de conversación proporcionadas por teléfono a un analizador de voz. Los indicadores emocionales incluyen un nivel de actividad cognitiva subconsciente, un nivel de actividad emocional subconsciente, un nivel de anticipación, un nivel de atención, una "comunicación amorosa" y un despertar sexual. El método utilizado, se basa en el análisis del espectro de frecuencias de la conversación, en el cual el espectro de frecuencias se divide en cuatro regiones de frecuencias y se reivindica que el porcentaje más alto de frecuencias en una de las regiones refleja la dominancia de uno de los estados emocionales anteriores. Se sugiere que la actividad cognitiva estaría en correlación con las frecuencias más bajas, atención/concentración con las principales frecuencias del espectro, la actividad emocional con las frecuencias altas, y el nivel de anticipación con las frecuencias más altas.

La mayoría de las patentes anteriormente mencionadas (Fuller, Bell, Jones, Silverman y Liberman) identifican los estados emocionales específicos como la tensión, la mentira o una tendencia al suicidio, mediante la correlación de las características específicas de la conversación y estas condiciones emocionales. Dos de las patentes (Williamson, Ron) asumen que los correlativos apropiados de conversación de los estados emocionales se dan como entrada e ignoran totalmente la tarea de describir algún indicador general de las características emocionales de la conversación. Tres de las patentes (Bogdashevsky, Petrushin y Slaney), sugieren unos procedimientos para la extracción de los correlativos específicos de la conversación mediante "el aprendizaje" de determinadas clases emocionales de elocuciones de conversación. Por lo tanto, ninguna de las patentes anteriormente mencionadas sugiere un indicador basado en una conversación generalizada del despertar emocional en sí, que describa la expresión vocal de la respuesta emocional creada por un amplio registro de distintos estados emocionales.

Además, con el fin de superar las diferencias entre individuos, algunas de estas patentes (Fuller, Williamson), requieren un experto especializado para analizar manualmente los resultados. Otras patentes (Ron, Liberman) requieren una comparación de las mediciones de conversación de los sujetos con las mediciones previas de la línea de base del mismo individuo, como referencia. Otras patentes (Bogdashevsky, Petrushin y Slaney) requieren un proceso previo de aprendizaje de las características de conversación de grupos específicos de individuos o fenómenos psicológicos específicos, para que se utilicen como referencia.

Por lo tanto, ninguna de las patentes anteriores analizadas en este arte denso sugiere un indicador de conversación emocional que sea resistente, y que tenga validez más allá de las distintas emociones y más allá de las diferencias entre los individuos específicos y los grupos específicos. Esta invención se dirige a proporcionar este indicador general, resistente, del despertar emocional, mediante análisis de la conversación, que sea insensible a las diferencias entre los sujetos y a los tipos particulares de emoción, pero sensible al despertar emocional en sí.

Resumen de la invención

La presente invención se dirige a la provisión de un indicador general del despertar emocional de un sujeto, mediante análisis de la conversación, aplicable a un amplio registro de distintos estados emocionales. Este indicador emocional de la conversación es válido más allá de las diferencias de estructura de la conversación entre individuos específicos o grupos específicos de individuos, y no requiere la comparación de una muestra de conversación procedente de un sujeto con una muestra de referencia de conversación obtenida anteriormente, del mismo sujeto.

De acuerdo con la presente invención se proporciona un método tal como se reivindica en la reivindicación 1 para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de: obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo los bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud; derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono-ascendente y tono-descendente en las secuencias de los bloques; comparación de los parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual la pluralidad de parámetros secundarios seleccionados de la conversación está seleccionada a partir de la lista de: longitud media de pausa y/o frecuencia de pausa; longitud media de silencios cortos y/o frecuencia de silencios cortos; longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular; promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y la dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

Preferentemente, el método de derivación incluye además la derivación de una pluralidad de parámetros secundarios seleccionados de la conversación indicativos de las características de pausa y silencio de la muestra de conversación que se está analizando, incluyendo opcionalmente el análisis de la irregularidad de paso y ritmo, tono, y amplitud de la muestra de conversación que se está analizando.

Opcionalmente, la etapa para la obtención de una muestra de conversación comprende la etapa de entrada de un archivo de voz digitalizada. Como alternativa, la etapa de obtención de una muestra de conversación comprende la etapa de capturar ejemplares de conversación y el muestreo y digitalización de los ejemplares de conversación en una unidad de muestreo y digitalización de la voz para formar un archivo de voz digitalizada.

Opcionalmente, la etapa de preprocesamiento incluye: la obtención de las muestras de voz digitalizada, la normalización de dichas muestras de voz, la filtración de datos, la reducción de ruidos, la segmentación de las muestras de voz en segmentos de silencio y conversación, la división de los segmentos de conversación en bloques, y el procesamiento de los bloques por autocorrelación, para calcular los parámetros de tono y amplitud de voz por bloque.

En una realización, el método descrito anteriormente puede adaptarse para analizar una señal de conversación incluida una pluralidad de voces interactivas, que comprende además las etapas adicionales de: separar las voces interactivas en canales individuales de voz, obtener muestras de voz digitalizada, realizar la normalización de las muestras en cada canal de interés, realizar la filtración de datos en cada canal de interés, realizar la reducción de ruidos en cada canal de interés, realizar la segmentación de silencios y conversación y dividir los segmentos de conversación en bloques en cada canal de interés, así como procesar la autocorrelación para calcular los parámetros de tono y amplitud de la voz por bloque en cada canal de interés.

Opcionalmente, la etapa de comparar los parámetros secundarios de conversación con valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, incluye la comparación de al menos dos categorías de parámetros secundarios de voz con los valores predefinidos que representan la conversación no-emocional, seleccionándose las categorías a partir de la lista de longitud media de pausa y/o frecuencia de pausa; longitud media de silencios cortos y/o frecuencia de silencios cortos; longitud media de los segmentos de tono regular y/o frecuencia de los segmentos de tono regular; promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y la dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

Opcionalmente, el método comprende además el cálculo de un grado de fiabilidad basado en al menos un factor seleccionado a partir de la lista de: calidad del segmento de voz; significado de la decisión de despertar emocional, y coherencia de los resultados específicos de los segmentos con los resultados de los segmentos previos de conversión.

Preferentemente, la calidad del segmento de voz se determina basándose en el nivel de ruido, tamaño de los datos muestreados, y calidad de los datos muestreados.

Preferentemente, el significado de la decisión de despertar emocional se determina, basándose en el número de parámetros participantes y el grado de desviación dentro de cada parámetro.

Opcionalmente, existe una etapa adicional de procesamiento de estructuras para detectar las estructuras emocionales que se manifiestan durante un eje de tiempo.

En un segundo aspecto, la presente invención se dirige a un aparato con unos medios dispuestos para ejecutar el método de análisis de la conversación según la reivindicación 1, que comprende: una unidad de entrada de voz, una unidad de preprocesamiento para las muestras de preprocesamiento de voz procedentes de la unidad de entrada de voz, una unidad principal de procesamiento para procesar dichas muestras preprocesadas de voz y detectar el despertar emocional procedente de las mismas; y una unidad principal de salida de indicadores para dar salida a una indicación sobre el despertar emocional.

Opcionalmente, la unidad de entrada de voz incluye una unidad de captura de voz y una unidad de muestreo y digitalización de voz acoplada a la unidad de captura de voz para muestrear y digitalizar la entrada de voz capturada.

Opcionalmente, la unidad de entrada de voz incluye un micrófono, una interfaz a un reproductor audio, una interfaz a un teléfono alámbrico, inalámbrico o móvil, una interfaz a Internet u otra red, una interfaz a un ordenador, una interfaz a un organizador personal electrónico o a cualquier otro equipo electrónico, una interfaz a un juguete.

Preferentemente, la unidad de muestreo y digitalización de voz está seleccionada a partir de una tarjeta de sonido, o un dispositivo de muestreo y digitalización de voz basado en un chip DSP.

\newpage

Preferentemente, la unidad principal de salida de indicadores está seleccionada a partir de un dispositivo de salida local, una pantalla, un altavoz, un archivo, una unidad de almacenamiento o dispositivo de comprobación; o una interfaz a un ordenador remoto, a Internet, a otra red, a un teléfono alámbrico, inalámbrico o móvil, a un juego por ordenador, a un juguete, a un organizador electrónico personal o cualquier otro equipo electrónico de salida.

Opcionalmente, todas las unidades anteriormente mencionadas se instalan en una unidad pequeña, móvil, basada en un chip DSP. Como alternativa, algunas de las unidades pueden estar alejadas físicamente de otras unidades, y el aparato puede comprender además una interfaz para permitir la comunicación de datos entre las unidades.

Las unidades de preprocesamiento y procesamiento pueden incorporarse alternativamente en una herramienta de software capaz de integrarse en una fuente externa de entrada digitalizada de voz y en un dispositivo externo de salida.

Por parámetro primario de conversación, tal como se utiliza aquí, se entienden los valores absolutos de los parámetros como los de tono o intensidad. Por parámetro secundario de conversación, se entiende la variación en los valores absolutos de los parámetros utilizados aquí. Por lo tanto los parámetros secundarios de conversación son estadísticas derivadas que son generalmente menos propensas a las diferencias culturales, de edad y de género, interferencia de fondo, calidad de señal analizada y demás factores deformantes, y los parámetros secundarios de conversación utilizados para indicar el despertar emocional en las realizaciones preferidas de la presente invención, están seleccionados como particularmente resistentes, con baja sensibilidad a las diferencias entre individuos y a la interferencia de fondo.

Breve descripción de los dibujos

La presente invención se entenderá y apreciará mejor a partir de la siguiente descripción detallada tomada conjuntamente con los dibujos, en los cuales:

La Fig. 1, es una ilustración en diagrama de bloques de un aparato construido y operativo de acuerdo con una realización de la presente invención.

La Fig. 2, es un diagrama de proceso de una unidad de preprocesamiento construida y operativa de acuerdo con una realización de la presente invención.

La Fig. 3, es un diagrama de proceso de una unidad principal de procesamiento construida y operativa de acuerdo con una realización de la presente invención.

Descripción detallada de la invención

La presente invención se refiere a un método y aparato para detectar el despertar emocional a través del análisis de la conversación. El término "conversación emocional" se utiliza aquí, con respecto a un segmento de conversación en el cual la persona que habla se expresa de una forma emocional. La conversación no-emocional se refiere a un segmento de conversación en el cual la persona que habla no se expresa de una forma emocional. Las descripciones anteriores de experiencias y sentimientos o futuras expectativas de eventos deseados o no deseados pueden considerarse como conversación emocional solamente si el sentimiento o evento concreto descrito o deseado se expresa actualmente de forma emocional. La documentación y patentes analizadas anteriormente, apoyan claramente el fenómeno de que distintos estados emocionales, cuando se expresan oralmente, cambian las características de la conversación de un sujeto, en comparación con las características de la conversación no-emocional. Sin embargo, la provisión de un indicador general que pueda determinar un nivel de despertar emocional de un persona a través del análisis de la conversación sigue siendo una tarea muy difícil, debido principalmente a tres factores:

1. Distintos estados emocionales afectan de manera diferente a las características de conversación de un individuo.

2. Las características de la voz y la conversación varían significativamente entre individuos.

3. Distinta intensidad emocional (de la misma emoción) afecta a distintos elementos de la conversación hasta distintos puntos.

Con el fin de superar el efecto de estos factores, la mayoría de las patentes e investigaciones existentes siguen dos directrices: separan la medición de los distintos tipos de emoción y utilizan muestras anteriores para obtener una línea de base de referencia.

La presente invención sugiere un método de análisis de conversación, automático y en tiempo real para indicar la existencia de un nivel de despertar emocional generalizado de un sujeto en un tiempo determinado, más allá de los estados específicos de emoción y más allá de las diferencias específicas entre individuos, sin utilizar una línea de base de conversación de referencia específica del propio sujeto.

La eliminación de la necesidad de una línea de base de referencia específica, la generalización de las características de la voz de despertar emocional más allá de los estados emocionales específicos y el método de detección emocional basándose en las tendencias de tonos dentro del segmento de conversación son tres nuevas características de la presente invención,

1. Despertar Emocional más allá de los Estados Emocionales Específicos

Una suposición central que sirve de base a la presente invención es que la conversación no-emocional refleja un estado de equilibrio, y que la conversación emocional refleja una desviación de este equilibrio. Se conoce el despertar emocional por ser una desviación de un equilibrio fisiológico en ciertos estados emocionales como la tensión, por ejemplo. Se expresa en cambios en las variables del sistema autonómico, como el ritmo de los latidos cardíacos, la actividad muscular, la resistencia galvánica de la piel, la presión sanguínea y la temperatura sanguínea. De una manera correspondiente, se propone que los cambios en las estructuras de conversación durante el despertar emocional puedan reflejar una desviación del estado no-emocional equilibrado, ordenado, y la presente invención se basa en el principio de que las características de la conversación durante el despertar emocional son menos sistemáticas y más desordenadas que las características de la conversación no-emocional. La violación del ritmo ordenado de conversación que corresponde al despertar o excitación emocional extrema, como el llanto o grito, por ejemplo, está claro para la mayoría de los oyentes. Existen cambios similares, correspondientes en las estructuras ordenadas de conversación que expresan también los niveles menores de excitación.

Aunque distintos estados emocionales puedan producir distintas características de conversación, se sugiere que un factor común de las características de conversación en muchos estados diferentes, emocionalmente despiertos, radica en la irregularidad de las estructuras de la conversación cuando se compara con la naturaleza más sistemática de la conversación no-emocional. De forma similar, aunque distintos individuos que están emocionalmente despiertos, o excitados, puedan tener distintas características de conversación, se sugiere no obstante que casi todos los individuos normales emocionalmente despiertos, tienen estructuras de conversación menos ordenadas si se compara con sus estructuras de conversación generales, no-emocionalmente despiertas. La presente invención se centra en la medición de la matriz de este factor común, como indicador que señala el despertar emocional general de los individuos.

Tal como se expone en la literatura, se ha descubierto que la expresión de los distintos estados emocionales tenía una correlación con las características específicas de la conversación. Por contraste, proponemos aquí, que dos tipos de variables tiendan a caracterizar el "despertar emocional" mismo, más que los estados emocionales específicos. La primera variable, denominada aquí presencia de tono constante, es el grado de presencia de los períodos de tonos regulares dentro del segmento de conversación, y la segunda variable es el nivel de coherencia de las distintas características de conversación, que es una medición del ordenamiento de la estructura de conversación.

Presencia de tono constante: Como regla general, se sugiere que la conversación emocional se caracteriza por la presencia más baja de períodos de tonos regulares y por la presencia más alta de períodos de tonos cambiantes (ascendentes o descendentes) lo que significa que la conversación emocional muestra un número más pequeño por segundo y una longitud media más corta de períodos de tonos regulares dentro del segmento de conversación en comparación con la conversación no-emocional regular. Debe observarse que no sugerimos que la conversación emocional se caracterice siempre por una variación/registro más alto de tonos o por una frecuencia más alta de cambios de dirección de los tonos(ascendente/descendente) dentro del segmento de conversación, ya que las últimas variables se ven más afectadas por los estados emocionales específicos, por las diferencias individuales y por la sonoridad de la conversación. Por contraste, sugerimos que los parámetros de presencia de tonos constantes se ven menos afectados por los factores de intervención anteriores, que lo es la variación/registro/frecuencia más alta de tonos de los parámetros de cambios. En consecuencia, son muy indicativos del despertar emocional.

Nivel de coherencia de las distintas características de conversación: Tal como se ha mencionado, se sugiere que la irregularidad en las estructuras de la conversación tiene relación con la expresión emocional.

El comportamiento general, menos ordenado de las características de conversación es evidente a través de la incoherencia más alta de varias variables de conversación, tal como la longitud y dispersión de los intervalos entre las pausas y los silencios secuenciales, la longitud de las pausas y de los silencios mismos así como la longitud, frecuencia y dispersión de distintos tipos de segmentos de no-silencio (por ejemplo la longitud de los períodos de tonos ascendentes y descendentes). De forma similar a la medición de la presencia de tonos regulares, se pone énfasis en la medición de eventos en la escala de tiempos - número por segundo, longitudes, intervalos y dispersión de las variables específicas de conversación o períodos agrupados dentro del segmento de conversación. Estas variables basadas en el tiempo generalmente se ven menos afectadas que las variables de tonos y amplitud por los factores de intervención y derivación. La detección de una combinación de desviaciones en algunas de estas variables procedentes de una estructura ordenada de conversación puede revelar la irregularidad en las estructuras de la conversación que tienen relación con el despertar emocional.

2. Superación del Efecto de las Estructuras de Conversación de los Individuos

Tal como se ha establecido anteriormente, las estructuras de voz y conversación varían significativamente de una persona a otra. Algunas de estas diferencias son de naturaleza general. Por ejemplo, estadísticamente, la conversación de las mujeres tiene un tono más alto que la conversación de los hombres. Otras diferencias son más específicas. Por ejemplo, la conversación de un individuo posee las características típicas de tono de este individuo, y existen muchas otras tendencias de conversación que caracterizan la conversación de individuos particulares, como la conversación monótona, conversación pausada, etc.

\newpage

En las realizaciones de la presente invención, para superar los efectos de derivación debidos a las características generales de las estructuras de conversación de los individuos, la determinación del nivel general de despertar emocional del sujeto hace un uso selectivo de los parámetros secundarios del tono de voz, y un uso selectivo de los parámetros secundarios de la amplitud de voz.

Utilización de los parámetros secundarios de conversación más que de los primarios: El análisis de la conversación de acuerdo con las realizaciones de la presente invención utiliza principalmente los parámetros secundarios de voz y conversación y hace caso omiso de los parámetros primarios.

Con el propósito de esta solicitud, el término parámetros secundarios de voz implica los parámetros que derivan de los parámetros primarios de tono y amplitud, y no los parámetros primarios mismos. Los parámetros primarios se ven muy afectados por las diferencias entre individuos, y por lo tanto no se tienen en consideración, o al menos no se les considera mucho en los análisis realizados de acuerdo con la presente invención. Por lo tanto, el valor de frecuencia de la voz, o el tono mismo, no se utiliza generalmente como parámetro, ya que varía significativamente entre distintas personas. Sin embargo, se da importancia a los cambios de tonos dentro de los segmentos de conversación, ya que éstos contribuyen a los valores relativos, más que absolutos, y se ven, por lo tanto, menos afectados por las diferencias entre individuos.

Utilización selectiva de los parámetros secundarios de tonos de voz: Los parámetros secundarios de voz son también sensibles, hasta cierto grado, a las diferencias entre las estructuras de conversación de distintos individuos. El procesamiento de conversación de la presente invención ignora la mayoría de los parámetros secundarios más afectados por estas diferencias.

Un ejemplo de un parámetro secundario de tono de voz no utilizado, es el registro de cambio de tonos. Se considera como un parámetro secundario, ya que representa solamente los cambios relativos del tono de la persona que habla, y no el tono mismo. Sin embargo, como este parámetro tiene una importante correlación con el valor de tono concreto, a menudo se ve notablemente afectado por las diferencias entre individuos, y no sólo por el estado del despertar emocional en sí. En consecuencia, el procesamiento de conversación de acuerdo con la presente invención, ignora típicamente este parámetro, y, del mismo modo, otros parámetros secundarios que varían significativamente con el individuo.

Utilización selectiva de los parámetros secundarios de amplitud de voz: Numerosos parámetros de amplitud de voz, tanto primarios como secundarios, se ven más afectados por las diferencias de conversación entre individuos que los parámetros de tono. Los parámetros de amplitud son también muy sensibles a la calidad general de la señal de voz analizada, los cuales son afectados desfavorablemente por los efectos ambientales, como la interferencia, como el ruido del sonido, y por el ruido electrónico asociado a los distintos componentes del equipo de análisis. En consecuencia, la determinación de la existencia del despertar emocional de acuerdo con la presente invención pone poco énfasis en los parámetros de amplitud, tanto primarios como secundarios.

3. Superación de los Efectos de Intensidad

Aunque la magnitud del despertar emocional de un sujeto sea indicado a veces por la magnitud (volumen) de la conversación misma, no es siempre el caso. Por ejemplo, cuando una persona grita de ira, normalmente su tono de voz, amplitud de voz y aumento de velocidad de la conversación, provocan también el incremento correspondiente en muchos parámetros secundarios de la conversación, sin embargo, el perfil de conversación de alguien que grita de ira puede ser muy distinto del perfil de conversación de alguien que muestra una forma menos excitada de ira, aunque ambos representen el despertar emocional. Por ejemplo, existen personas que demuestran la ira hablando tranquila y pausadamente.

La presente invención se centra en la detección del despertar emocional en sí, y no solamente el despertar emocional intenso, o el despertar emocional que corresponde a cualquier emoción particular. Además, como las diferencias en el volumen de conversación que no están relacionadas con el despertar emocional pueden afectar a las características de conversación de una forma indirecta, por ejemplo al influir en el nivel de volubilidad de ciertos parámetros de conversación, es importante minimizar, lo más posible, los efectos del volumen de conversación sobre el procesamiento de la conversación. Esto puede realizarse siguiendo las mismas directrices que las que se han detallado antes con respecto a la superación de los efectos de las estructuras individuales de conversación, incluida la utilización selectiva del tono principalmente secundario y los parámetros de amplitud. Además, para reducir aun más la sensibilidad del procesamiento al efecto de la magnitud de voz, se realiza preferentemente un procesamiento adicional. La principal influencia que tiene el volumen audible de la conversación sobre la conversación es al aumentar o disminuir los registros de sus parámetros. En consecuencia, el procesamiento de la conversación de la presente invención hace generalmente una clasificación inicial de cada segmento procesado de conversación de acuerdo con una de las varias clases típicas de comportamiento en los registros de parámetros. Esta clasificación inicial permite que el procesamiento utilice distintos criterios para determinar la existencia del despertar emocional en distintas clases de registros de parámetros.

\newpage

4. Determinación de la Existencia del Despertar Emocional

Tal como se ha mencionado anteriormente, después de minimizar los distintos efectos de derivación, se ha descubierto que las características de conversación que están asociadas de forma más directa al despertar emocional son el grado de presencia del tono constante, irregularidad de los pasos, ritmo y demás indicadores de la estructura de conversación.

De forma más específica, el algoritmo de la presente invención utiliza una combinación de al menos dos, y

- preferentemente más de las siguientes categorías de parámetros de conversación:

\bullet: Longitud media de pausa y/o frecuencia de pausa

\bullet: Longitud media de los silencios cortos y/o frecuencia de los silencios cortos

\bullet: Longitud media de los segmento de tono regular y/o frecuencia de los segmentos de tono regular

\bullet: Longitud media de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o longitud media de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente

\bullet: Dispersión de la amplitud dentro de los segmentos de tono regular de la conversación.

Por "pausas" se quiere decir silencios relativamente largos en la conversación. Las pausas son típicamente interrupciones de aproximadamente 0,25 - 1,5 segundos en la conversación, que aparecen normalmente entre las frases, por ejemplo.

Por "silencios cortos", se quiere decir interrupciones con duraciones de menos de aproximadamente 0,25 segundos. Los silencios cortos son silencios que aparecen típicamente entre palabras y entre sílabas.

Los "segmentos de tono regular" son segmentos continuos de conversación que se caracterizan por tener un tono relativamente estable, es decir, un tono que varía entre tolerancias preestablecidas.

Por contraste, los "segmentos de tono ascendente y descendente" son segmentos caracterizados por una tendencia continua y definida ascendente y descendente del tono.

La determinación del despertar emocional con un alto grado de certeza requiere que una combinación de al menos dos, (preferentemente más), de los parámetros anteriores se desvíen simultáneamente de los valores no-emocionales. Sin embargo, preferentemente la decisión sobre si el sujeto muestra realmente un despertar emocional puede tomarse dependiendo del grado de desviación de cada parámetro, con registros y valores que caracterizan la regularidad para cada parámetro que haya sido determinado por el análisis de amplias muestras de datos de conversación tomadas de la población general.

Con respecto ahora a la Fig. 1, se muestra una ilustración de diagrama de bloques de un aparato para detectar el despertar emocional construido y operativo de acuerdo con una realización de la presente invención. El aparato incluye una unidad de entrada de voz 10, una unidad de muestreo y digitalización de voz 12, una unidad de preprocesamiento 14, una unidad principal de procesamiento 16 y una unidad principal de salida de indicadores 18. La unidad de entrada de voz 10 puede ser cualquier dispositivo que lleve datos de voz humana de cualquier forma - micrófono, teléfono alámbrico, teléfono inalámbrico o móvil, cualquier dispositivo reproductor audio (como un magnetófono, disco compacto), archivos digitalizados de voz, conexión de internet (voz por IP, cable, satélite o cualquier otro método). La unidad de muestreo y digitalización de voz 12 puede ser una tarjeta de sonido de ordenador, un chip DSP específico o cualquier otro dispositivo de muestro y digitalización.

El procedimiento de determinación del despertar emocional, de acuerdo con la presente invención, es como sigue (con algunas variaciones entre distintas realizaciones del aparato). El diagrama de proceso en la Fig. 2 detalla la etapa de preprocesamiento y el diagrama de proceso en la Fig. 3 detalla la principal etapa de procesamiento.

(a) Preprocesamiento: La función de preprocesamiento sirve para preparar los datos en bruto para el procesamiento mismo. De forma más específica, sirve para obtener los parámetros de tono y amplitud por cada bloque de conversación de una longitud predefinida. El procesador es una unidad de CPU, que puede ser la CPU de un PC, o puede ser un chip DSP especializado, específico o realmente cualquier otro dispositivo adecuado de procesamiento. El preprocesamiento incluye los siguientes pasos de procesamiento, que son ampliamente reconocidos por los que están familiarizados con el arte del procesamiento de señales (Fig. 2):

\bullet Obtención de muestras digitalizadas de voz (bloque 20).

\bullet Separación de la conversación grupal en muestras de canales de voz individuales cuando se requiere. Por ejemplo, cuando la entrada de voz es una conversación por teléfono, se divide preferentemente en dos canales de voz, representando cada uno una persona hablando, posiblemente mediante muestreo separado con una señal que se obtiene por ejemplo a través del micrófono de uno de los teléfonos (bloque 22). Obviamente, las pausas y la longitud de las frases de diálogo son significativamente distintas de las de monólogo, y estas diferencias son valoradas y tenidas en cuenta.

\bullet Normalización de los valores de las muestras - realizadas para ambos canales (bloque 24).

\bullet Filtración de los datos - realizada para ambos canales (bloque 26).

\bullet Reducción de ruidos - realizada par ambos canales (bloque 28).

\bullet Iniciación de la segmentación y del cálculo de los parámetros básicos para el primer canal (bloque 30).

\bullet La segmentación de los silencios y de la conversación así como la división de los segmentos de conversación en bloques (bloque 32) se realizan para el primer canal.

\bullet La autocorrelación (bloque 34) para calcular el tono y la amplitud se realiza para el primer canal.

\bullet Cuando hay dos personas hablando, los pasos de segmentación y autocorrelación (bloques 30, 32, 34 anteriores) se realizan ahora para el segundo canal de voz, si existe (bloques 36 y 38).

Las salidas de los pasos de preprocesamiento son secuencias de bloques de segmentos de conversación caracterizadas por tener valores de tono y amplitud por bloque y longitudes para los segmentos de silencio y pausa.

(b) Procesamiento : El procedimiento principal de procesamiento proporciona una indicación del despertar emocional. Puede realizarse en el mismo procesador de CPU en el cual se llevó a cabo el preprocesamiento, o como alternativa, en una unidad distinta de CPU. La unidad de procesamiento puede ser la CPU de un PC, un chip específico de DSP o cualquier otro dispositivo adecuado de procesamiento. El procedimiento de procesamiento incluye los siguientes pasos de procesamiento, por cada canal (Fig. 3):

\bullet Selección de un segmento de conversación, corto, típicamente de 3-6 segundos de conversación, para el procesamiento (bloque 40).

\bullet Cálculo de los parámetros asociados a la pausa del segmento de conversación, incluido el número medio de pausas por segundo y la longitud media de pausas (bloque 42).

\bullet Cálculo de los parámetros asociados al silencio del segmento de conversación, incluido el número medio de silencios por segundo y la longitud media de silencios (bloque 43).

\bullet Determinación de qué secuencias de segmentos de los bloques son secuencias de segmentos que tienen bloques de tonos regulares, mediante el marcado de los bloques consecutivos que tienen un tono relativamente constante (es decir, dentro de unas tolerancias aceptables) (bloque 44).

\bullet Determinación de qué secuencia de segmentos de los bloques muestran tendencias de tono ascendente o descendente (bloque 46).

\bullet Cálculo de los parámetros secundarios de tonos del segmento de conversación, tal como el número medio por segundo y la longitud media de los períodos de tonos ascendentes, descendentes o regulares y la dispersión de amplitud de los períodos de tonos regulares (bloque 47).

\bullet Clasificación del segmento procesado de conversación en una de varias categorías de registros típicos de parámetros, con el fin de diferenciar los segmentos con distintas magnitudes de conversación (bloque 48).

\bullet Determinación de la indicación de despertar emocional del segmento de conversación. Este indicador se basa en la comparación de los parámetros de voz calculados con los valores predefinidos que representan la conversación no-emocional, y la calificación de la combinación de irregularidades (bloque 50).

Si existiera un segundo canal, es decir, al tomar ejemplares de dos participantes en una conversación (bloques 52 y 54), se llevan a cabo los mismos pasos de procesamiento 40 a 50 sobre la muestra procedente del segundo canal.

\bullet Preferentemente, el método incluye también el cálculo de un grado de fiabilidad - basándose en una combinación de varios factores, que incluye típicamente la calidad del segmento de voz (nivel de ruidos, tamaño de los datos muestreados, calidad de los datos muestreados), significado de la decisión de despertar emocional (número de parámetros participantes, grado de desviación de cada parámetro), coherencia de los resultados específicos de los segmentos con los segmentos de conversación anteriores (unos cambios emocionales deberían seguir las estructuras razonables con respecto al número de cambios, su intensidad, su longitud y conexión entre emociones en un período determinado de tiempo).

\newpage

\bullet Procesamiento de las estructuras - El procesamiento puede incluir otra capa que detecta ciertas estructuras emocionales que se revelan con el paso del tiempo, o cuando se comparan con otros resultados. Por ejemplo, cuando se analiza una conversación, la comparación de los estados emocionales de las dos personas que hablan permite la detección de las estructuras en la comunicación interpersonal, tal como el apego, despego, cortesía, atmósfera y progreso de la conversación.

(c) Salida: (Fig. 1, bloque 18) - Los resultados de medición de la emoción pueden ser enviados a varias salidas de acuerdo con la configuración específica del aparato utilizado, y de acuerdo con la aplicación específica. Normalmente, se enviará la salida a un display en tiempo real del usuario (visual, vocal o textual). Puede estar comunicada con un usuario remoto a través de cualquier tipo de red y puede ser registrada o almacenada en cualquier clase de salida o dispositivo de almacenamiento o archivo.

5. Aparatos y Aplicaciones Posibles

Como ejemplo, se presentan dos aparatos básicos para la ejecución de la patente, aunque cualquier otro aparato adecuado pueda ser empleado como alternativa:

(a) Una pequeña unidad, móvil basada en un chip DSP. Este aparato puede servir de pequeña unidad móvil para la detección del despertar emocional en el análisis en tiempo real o fuera de línea. Puede utilizarse como dispositivo autónomo en las interacciones verbales interpersonales. Como alternativa, puede conectarse a los dispositivos de entrada o salida como un ordenador, magnetófono, teléfono alámbrico, inalámbrico o móvil, organizador electrónico personal, Internet o cualquier otra red, con el fin de obtener varias entradas de voz locales o remotas y para mostrarse o comunicarse a varias salidas locales o remotas. Puede integrarse también como hardware en otros dispositivos, como teléfonos alámbricos, inalámbricos o móviles, juegos de ordenador, juguetes, ordenadores u otro equipo electrónico. El aparato incluye un micrófono (o cualquier otra interfaz de entrada), discriminador digital, procesador y display (o cualquier otra interfaz de salida).

(b) Una herramienta basada en un software. Este aparato puede servir de herramienta basada en un ordenador para le detección del despertar emocional en un análisis en tiempo real o fuera de línea. Puede utilizarse como herramienta de software autónoma para el análisis de los archivos digitalizados de voz. Como alternativa, puede conectarse a través de las interfaces del ordenador a cualquier dispositivo de entrada/salida, con el fin de obtener cualquier entrada de voz local o remota, y mostrarse o comunicarse a varias salidas locales o remotas, tal como micrófonos, magnetófonos, teléfonos alámbricos, inalámbricos o móviles, Internet o cualquier otra red, otros ordenadores o cualquier otro equipo electrónico La herramienta de software puede integrarse también como subsistema en otro sistema. Estos sistemas incluyen por ejemplo el software de la central de llamadas/contactos, o el hardware que controla, registra o analiza las conversaciones, varios entrenadores de situación y personales o cualquier sistema de control, de enseñanza o de contrarreacción. La herramienta de software de emoción se instalará típicamente en un entorno de ordenador que incluye típicamente un micrófono (o cualquier otra interfaz de entrada), la unidad de muestreo y digitalización, procesador, display (o cualquier otra interfaz de salida) y cualquier otra interfaz externa relevante.

Se valorará el hecho de que la presente invención tenga un rango muy amplio de posibles aplicaciones y ejecuciones. Se relacionan a continuación algunas de las posibilidades como ejemplos solamente. Sin embargo, la utilización de la presente invención no se limita a estas aplicaciones descritas aquí.

El control de las emociones puede utilizarse para mejorar la comercialización, ventas, servicio y relaciones con los clientes, especialmente en el entorno de la central de llamadas. El control de la emoción, la contrarreacción y supervisión de las interacciones de servicio/ventas pueden instalarse en un entorno en tiempo real, así como en el análisis fuera de línea. El control puede ser ejecutado con ambos aparatos, descritos anteriormente: puede integrarse como herramienta de software en otros productos de la central de llamadas, como las herramientas de registro, productos CRM (gestión de relaciones con los clientes), herramientas de entrenamiento o software de e-comercio. Puede instalarse como herramienta de software autónoma en la central de llamadas, entornos de CRM o de e-comercio y puede integrarse también en varios dispositivos de hardware en estos entornos como unidad basada en un chip de DSP. Se puede utilizar también una pequeña unidad basada en un chip de DSP como pequeña unidad independiente para controlar las interacciones cara a cara del agente-cliente.

El control de las emociones puede utilizarse para mejorar el proceso de entrenamiento de personas profesionales mediante la mejora del conocimiento de las estructuras verbales emocionales así como no-emocionales, tal como se expresan en la voz de una persona hablando. Además, la herramienta de control puede utilizarse con un propósito de demostración (análisis de los segmentos de conversación de distintas emociones y distintas estructuras de expresión de la emoción) y para el entrenamiento en el control de la expresión de la emoción (contrarreacción de las emociones del usuario más recompensa por modificar la estructura de emoción o expresión).

El control de las emociones puede utilizarse como herramienta de asistencia en varias tareas de gestión interpersonal, tal como entrevistas o negociaciones, en las reuniones, o aun cuando se habla simplemente por teléfono.

El control de las emociones puede ser útil como herramienta adicional para pruebas psicológicas, y para el diagnóstico y tratamiento de enfermedades específicas, incluidas por ejemplo las enfermedades psiquiátricas. Este control puede realizarse durante las conversaciones en tiempo real, o en el análisis fuera de línea de una conversación grabada, y se puede utilizar en interacciones cara a cara, o cuando la interacción tiene lugar a través del teléfono o en telecomunicación oral por Internet.

La publicidad puede beneficiarse también del control emocional, al añadir un valor significativo al proceso de medir y evaluar las actitudes de la gente en cuestionarios orales, grupos de enfoque, y demás métodos.

Se puede utilizar el control de las emociones para ayudar en la terapia de la conversación y para incrementar la relajación así como lograr mayor control sobre los estados emocionales positivos y negativos. La alteración del estado emocional puede conseguirse como resultado directo del aumento de conocimiento, o a través de un procedimiento similar a un mecanismo de biorretroacción. Una aplicación importante puede consistir en la asistencia a numerosos programas cuyo objetivo es la reducción del comportamiento violento entre niños y adultos, donde el control puede ayudar a demostrar y modificar las estructuras de la ira verbal.

La utilización del control emocional puede proporcionar una calidad añadida a los juegos electrónicos o por ordenador, los juegos tanto educativos como recreativos. El control emocional puede formar parte también de juguetes y juegos que interactúan con un niño y le reflejan su estado emocional.

El control emocional de acuerdo con la presente invención puede utilizarse también para mejorar el reconocimiento de la conversación en varias aplicaciones, y para intensificar la interacción entre un ordenador o robot y su usuario, al permitir que el dispositivo eléctrico responda al estado emocional de la gente que se encuentra alrededor.

El control de la emoción puede utilizarse incluso como herramienta para detectar algunos estados mentales, que tienen características distintivas de la voz, como el cansancio.

Se valorará que la invención no se limite a lo que ha sido descrito anteriormente sólo como ejemplo. Mas bien, la invención está limitada únicamente por las reivindicaciones que siguen.

Claims

1. Método para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de:

obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo dichos bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud;

derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono-ascendente y tono-descendente en dichas secuencias de los bloques; comparación de dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual dicha pluralidad de parámetros secundarios seleccionados de la conversación son seleccionados de la lista de:

(a) Longitud media de silencios cortos y/o frecuencia de silencios cortos;

(b) Longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular;

(c) Promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y

(d) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

2. Método según la reivindicación 1, caracterizado porque dicho paso de derivación incluye además la derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de pausas y silencios de la muestra de conversación que se está analizando.

3. Método según la reivindicación 1 ó 2, que incluye el análisis de la irregularidad de paso y ritmo, tono y amplitud de la muestra de conversación que se está analizando.

4. Método según cualquiera de las reivindicaciones 1 a 3, caracterizado porque dicha pluralidad de parámetros secundarios seleccionados de conversación incluye además la longitud media de pausa y(/o) frecuencia de pausa.

5. Método según cualquiera de las reivindicaciones 1 a 4, caracterizado porque dicho paso de obtención de una muestra de conversación comprende el paso de introducción de un archivo digitalizado de voz.

6. Método según cualquiera de las reivindicaciones 1 a 4, caracterizado porque dicho paso de obtener una muestra de conversación comprende el paso de capturar unos ejemplares de conversación y muestrear y digitalizar los ejemplares de conversación en una unidad de muestreo y digitalización de la voz para formar un archivo de voz digitalizada.

7. Método según cualquiera de las reivindicaciones 1 a 6, caracterizado porque el paso de preprocesamiento incluye:

la obtención de las muestras de voz digitalizada,

la normalización de dichas muestras de voz,

la filtración de datos,

la reducción de ruidos,

la segmentación de dichas muestras de voz en segmentos de silencio y conversación, la división de los segmentos de conversación en bloques, y

el procesamiento de dichos bloques por autocorrelación, para calcular los parámetros de tono y amplitud de voz por bloque.

8. Método según cualquiera de las reivindicaciones 1 a 7, adaptado para analizar una señal de conversación que incluye una pluralidad de voces que interactúan, que comprende además:

separar las voces interactivas en canales individuales de voz,

realizar la normalización de las muestras en cada canal de interés,

realizar la filtración de datos en cada canal de interés,

realizar la reducción de ruidos en cada canal de interés,

realizar la segmentación de silencios y conversación y dividir los segmentos de conversación en bloques en cada canal de interés, y

procesar la autocorrelación para calcular los parámetros de tono y amplitud de la voz por bloque en cada canal de interés.

9. Método según cualquier reivindicación anterior, caracterizado porque el paso de derivación incluye:

marcado del segmento de conversación de una longitud predefinida para el procesamiento;

cálculo de los parámetros asociados a las pausas para dicho segmento de conversación;

cálculo de los parámetros asociados a los silencios para dicho segmento de conversación;

unión de los bloques en secuencias de bloques categorizadas como secuencias de bloques que tienen tendencias de tono ascendente, secuencias de bloques que tienen tendencias de tono descendente y secuencias de bloques que tienen tendencias de tono regular;

cálculo de los parámetros asociados al tono dentro del segmento de conversación, seleccionándose dichos parámetros asociados al tono a partir de la lista de frecuencias y longitudes medias de las secuencias de bloques caracterizados porque tienen tendencias de tono ascendente, descendente o regular, y dispersión media de amplitud de las secuencias de bloques que tienen un tono regular, así como clasificación del segmento de conversación en una o varias categorías de registro típico de parámetros.

10. Método según cualquier reivindicación anterior, caracterizado porque el paso de comparar dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional incluye la comparación de al menos dos categorías de parámetros secundarios de voz con los valores predefinidos que representan la conversación no-emocional, seleccionándose dichas categorías a partir de la lista de:

(a) Longitud media de pausa y/o frecuencia de pausa;

(b) Longitud media de silencios cortos y/o frecuencia de silencios cortos;

(c) Longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular;

(d) Promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y

(e) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

11. Método según cualquier reivindicación anterior, que comprende además el cálculo de un grado de fiabilidad basado en al menos un factor seleccionado a partir de la lista de: calidad del segmento de voz; significado de la decisión de despertar emocional, y coherencia de los resultados específicos de los segmentos con los resultados de los segmentos previos de conversión.

12. Método según la reivindicación 11, caracterizado porque dicha calidad del segmento de voz se determina basándose en el nivel de ruidos, tamaño de los datos muestreados y calidad de los datos muestreados.

13. Método según la reivindicación 11, caracterizado porque dicho significado de la decisión de despertar emocional se determina basándose en el número de parámetros participantes y el grado de desviación dentro de cada parámetro.

14. Método según cualquiera de las reivindicaciones anteriores, que comprende además el procesamiento de las estructuras para detectar las estructuras emocionales que se revelan a lo largo de un eje de tiempo.

15. Aparato con unos medios dispuestos para ejecutar el método de análisis de la conversación según la reivindicación 1, que comprende:

una unidad de entrada de voz;

una unidad de preprocesamiento para las muestras de preprocesameinto de voz procedentes de la unidad de entrada de voz;

una unidad principal de procesamiento para procesar dichas muestras preprocesadas de voz y detectar el despertar emocional procedente de las mismas; y

una unidad principal de salida de indicadores para dar salida a una indicación sobre el despertar emocional.

16. Aparato según la reivindicación 15, caracterizado porque dicha unidad de entrada de voz incluye una unidad de captura de voz y una unidad de muestreo y digitalización de voz acoplada a dicha unidad de captura de voz para la entrada de la voz capturada de muestreo y digitalización.

17. Aparato según la reivindicación 15 ó 16, caracterizado porque dicha unidad de entrada de voz incluye al menos una de las siguientes: un micrófono, una interfaz a un reproductor audio, una interfaz a un teléfono alámbrico, inalámbrico o móvil, una interfaz a Internet u otra red, una interfaz a un ordenador, una interfaz a un organizador personal electrónico o a cualquier otro equipo electrónico, o una interfaz a un juguete.

18. Aparato según la reivindicación 16, caracterizado porque dicha unidad de muestreo y digitalización de voz está seleccionada a partir de una tarjeta de sonido o un dispositivo de muestreo y digitalización de voz basado en un chip DSP.

19. Aparato según la reivindicación 15, caracterizado porque dicha unidad principal de salida de los indicadores está seleccionada a partir de un dispositivo de salida local, una pantalla, un altavoz, un archivo, una unidad de almacenamiento o dispositivo de comprobación; o una interfaz a un ordenador remoto, a Internet, a otra red, a un teléfono alámbrico, inalámbrico o móvil, a un juego por ordenador, a un juguete, a un organizador electrónico personal o cualquier otro equipo electrónico de salida.

20. Aparato según cualquiera de las reivindicaciones 15 a 19, caracterizado porque todas las citadas unidades están instaladas en una pequeña unidad móvil basada en un chip DSP,

21. Aparato según cualquiera de las reivindicaciones 15 a 20, caracterizado porque algunas de dichas unidades están físicamente distanciadas de otras unidades, y porque dicho aparato comprende además una interfaz para permitir la comunicación de datos entre dichas unidades.

22. Aparato según cualquiera de las reivindicaciones 15 a 21, caracterizado porque dichas unidades de preprocesamiento y dichas unidades de procesamiento están incorporadas dentro de una herramienta de software capaz de integrarse con una fuente externa de entrada de voz digitalizada y con un dispositivo externo de salida.