ES2261706T3 - Metodo y aparato para analisis de la conversacion. - Google Patents

Metodo y aparato para analisis de la conversacion.

Info

Publication number
ES2261706T3
ES2261706T3 ES02755609T ES02755609T ES2261706T3 ES 2261706 T3 ES2261706 T3 ES 2261706T3 ES 02755609 T ES02755609 T ES 02755609T ES 02755609 T ES02755609 T ES 02755609T ES 2261706 T3 ES2261706 T3 ES 2261706T3
Authority
ES
Spain
Prior art keywords
conversation
tone
voice
emotional
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02755609T
Other languages
English (en)
Inventor
Yoav Degani
Yishai Zamir
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceSense Ltd
Original Assignee
VoiceSense Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceSense Ltd filed Critical VoiceSense Ltd
Application granted granted Critical
Publication of ES2261706T3 publication Critical patent/ES2261706T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

Método para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de: obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo dichos bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud; derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono- ascendente y tono-descendente en dichas secuencias de los bloques; comparación de dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual dicha pluralidad de parámetros secundarios seleccionados de la conversación son seleccionados de la lista de: (a) Longitud media de silencios cortos y / o frecuencia de silencios cortos; (b) Longitud media de segmentos de tono regular y / o frecuencia de los segmentos de tono regular; (c) Promedio de la longitud de los segmentos de tono ascendente y / o frecuencia de los segmentos de tono ascendente y / o promedio de la longitud de los segmentos de tono descendente y / o frecuencia de los segmentos de tono descendente; y (d) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.

Description

Método y aparato para análisis de la conversación.
La presente invención se refiere al campo del análisis de voz y de la conversación y en particular al análisis de las características acústicas y prosódicas de la conversación.
Antecedentes de la invención
Se sabe desde hace mucho tiempo que ciertas características de voz llevan información con respecto al estado emocional del que habla. Mucho tiempo atrás en 1934, Lynch observó diferencias en las características de los tiempos y del tono entre la conversación factual y emocional. (Lynch, G.E. (1934). A Phonophotographic Study of Trained and Untrained Voices Reading Factual and Dramatic Material, Arch. Speech. 1 9-25.)
Desde entonces, numerosos estudios han demostrado las correlaciones entre varias características de conversación no-verbal y los estados emocionales específicos, y los esfuerzos de investigación se han dirigido hacia distintos aspectos del fenómeno de conversación emocional. Una línea de investigación se centra en la identificación de los soportes de emoción dentro de la señal de conversación, y los estudios mostraron estructuras complejas de correlación entre el tono (la entonación fundamental de la voz, que depende del número de vibraciones de las cuerdas vocales por segundo), la amplitud, tiempos, duración, ritmo, contornos de la envolvente y demás variables de la palabra así como el estado emocional del que habla. Una segunda área de investigación trata de explorar la expresión de distintas dimensiones emocionales en la conversación, y los estudios sugieren correlaciones entre los elementos constituyentes de la conversación y las dimensiones que caracterizan el estado emocional del sujeto. Otro esfuerzo de investigación se centra en la revelación de las correlaciones características entre las partes de conversación y varios estados emocionales, incluidas las emociones primarias, como la ira, las emociones secundarias, como el aburrimiento, por ejemplo, y las situaciones específicas de tensión, como la ansiedad, carga de trabajo y mentira, por ejemplo. Todavía otra área de investigación trata de señalar las diferencias en las estructuras emocionales de conversación entre distintos individuos, distintos grupos de individuos, según la categorización por sexo, edad, cultura y tipo de personalidad, por ejemplo, y aun entre las estructuras de voz correspondientes a distintos estados fisiológicos de los mismos individuos.
Tres extensas revistas de literatura, que resumen los distintos descubrimientos referentes a la expresión oral de la emoción, fueron publicadas por Murray, I.R. and Arnott, J.L., (1993), Towards the Simulation of Emotion in Synthetic Speech: A review of the Literature on Human Vocal Emotion, Journal of the Acoustical Society of America, vol. 93 (2), 1097-1108, por Frick, R.W. (1985), Communicating Emotion: The Role of Prosodic Features, Psychology Bulletin, 97, 412-429, y por Scherer, K.R. (1986), Vocal Affect Expression: A Review and a Model for Future Research, Psychology Bulletin, 99, 143-165. Todos estos escritores enfatizan la naturaleza fragmentada de la investigación en este campo, y señalan que la investigación de la emoción vocal forma solamente una parte aislada y muy pequeña de la literatura general sobre emociones y la literatura general sobre análisis de la palabra. Estos análisis apoyan la noción de que las características de la voz humana varían con respecto a la expresión de la emoción; pero destacan la complejidad de la interacción entre fisiología, psicología y palabra en cuanto a las emociones. Recalcan también la necesidad de modelos generalizados sobre una comprensión más coherente de los fenómenos.
Recientemente, algunos estudios se han acercado a la tarea de una clasificación automática de la expresión vocal de distintos estados emocionales mediante la utilización de modelos estadísticos de reconocimiento de las estructuras. Se consiguió un éxito relativo, véase Dellaert, F. Polzin, T.S. and Waibel, A. (1996), Recognizing emotions in speech. In Proc. ICSLP, Philadelphia PA, USA, 1996 and Amir, N. and Ron, S. (1998), Towards an automatic classification of emotions in speech. In Proc. ICSLP, Sydney, 1998, por ejemplo.
El campo de la emoción en la palabra está levantando un interés creciente, y en Belfast, en septiembre de 2001, se celebró un taller especial dedicado a este asunto (Taller ISCA sobre Palabra y Emoción - documentos presentados: http://www.qub.ac.uk/en/isca/proceedings/index.html). Los documentos, teóricos y empíricos, revelan una vez más la complejidad del fenómeno, la falta de datos y los distintos aspectos involucrados.
Con respecto a la detección de la emoción a través del análisis de la conversación, la literatura destaca varios problemas, todavía sin resolver. Quisiéramos enfatizar dos de los problemas más importantes:
El primer problema es la falta de un modelo unificado de correlativos acústicos emocionales, que permitan que los distintos contenidos emocionales en la conversación sean dirigidos por un indicador general; el estado actual de la investigación permite solamente señalar correlaciones acústicas aisladas con los estados emocionales específicos.
El segundo problema es la dificultad en superar las distintas estructuras de expresión de la palabra de distintas personas que hablan, lo que tiende a disimular las diferencias emocionales. La investigación anterior ha tratado de confrontar el último problema mediante la obtención de características de referencia de la palabra del individuo sometido a prueba, o de grupos específicos de individuos. Siendo las referencias mediciones anteriores de la línea de base (no-emocionales) de un sujeto específico, o los perfiles específicos emocionales de la conversación de grupos relativamente homogéneos de sujetos, como todos los sujetos que padecen depresión, por ejemplo.
\newpage
Durante años se han registrado varias patentes sobre este campo. Estas patentes se caracterizan principalmente por tener las mismas limitaciones descritas anteriormente en cuanto a la investigación académica, a saber, que se centran en los estados emocionales específicos y dependen de las mediciones de referencia anteriores. Las patentes varían también de forma significativa en sus procedimientos y parámetros de medición.
Fuller, en tres Patentes desde 1974, (US 3.855.416; US 3.855.417 y US 3.855.418) sugiere un método para indicar la tensión en la conversación y para determinar si un sujeto está mintiendo o diciendo la verdad. El método sugerido mide el contenido vibrato (modulación rápida de la fonación) y la amplitud óptima normalizada de la señal de conversación, y se dirige particularmente a analizar la conversación de un sujeto interrogado.
Bell et al., en 1976 (Patente US 3.971.034) sugirió también un método para detectar la tensión psicológica a lo largo de la conversación. El método descrito se basa principalmente en la medición de los cambios de modulación infrasónica en la voz.
Williamson, en dos patentes de 1978 y 1979 (US 4.093.821 y US 4.142.067) describe un método para determinar el estado emocional de una persona, mediante el análisis de las perturbaciones de frecuencia en la estructura de la conversación. El análisis se basa principalmente en las mediciones de la primera frecuencia formante de la conversación, pero sin embargo, las diferencias que corresponden a los distintos estados emocionales no se especifican claramente: en la primera patente, el aparato indica principalmente la tensión con respecto a la relajación, mientras que en la segunda patente, el usuario del dispositivo debe aplicar la "integración visual y la interpretación de la salida visualizada" para "adoptar ciertas decisiones con respecto al estado emocional".
Jones, en 1984 (Patente US 4.490.840), sugiere un método para determinar las estructuras de voz-estilo (resonancia, calidad), conversación-estilo (variable-monótona, cortada-suave, etc.) y perceptual-estilo (sensorio-interno, odio-amor, etc.), basándose en distintas características de voces, incluidos seis picos y pausas espectrales dentro de la señal de conversación. Sin embargo, el inventor establece que "la presencia del contenido emocional específico no es de interés para la invención revelada aquí".
Silverman, en dos patentes de 1987 y 1992 (US 4.675.904 y US 5.148.483) sugiere un método para detectar la predisposición suicida a partir de las estructuras de la conversación de una persona, mediante la identificación de la disminución sustancial sobre la conclusión de la elocución y la baja modulación en amplitud durante la elocución.
Ron, en 1997 (Patente US 5.647.834) describe un sistema de regulación de la biorretroacción basada en la conversación que permite que un sujeto controle y cambie su estado emocional. Se extrae una señal de indicación emocional de la conversación del sujeto (no se describe en la patente el método de medición) y se compara con las mediciones fisiológicas en línea del sujeto que sirven de referencia para su condición emocional. Entonces el sujeto puede intentar cambiar la señal de indicación con el fin de conseguir el control de su estado emocional.
Bogdashevsky, et al., en una patente de 1999, (US 6.006.188) sugiere un método para determinar las características psicológicas o fisiológicas de un sujeto basándose en la creación de bases específicas antes del conocimiento para ciertos estados psicológicos y fisiológicos. El proceso descrito implica la creación de grupos homogéneos de sujetos según su evaluación psicológica (por ejemplo, grupos de diagnóstico de la personalidad según las clasificaciones psicológicas comunes), el análisis de sus únicas estructuras de conversación (basándose en los coeficientes cepstrales) y la formación de bases específicas de conocimiento para estos grupos. La correspondencia con ciertos grupos psicológicos y fisiológicos puede realizarse mediante la comparación de las estructuras de conversación de un individuo (a quien se pide que diga un texto de 30 frases similar al texto utilizado por el grupo de referencia), con las características de las bases de conocimiento del grupo. La patente reivindica permitir el diagnóstico psicológico verbal de las condiciones relativamente constantes, tal como la comparación del estado mental antes y después de la terapia y perfil de personalidad, por ejemplo.
Pertrushin, en el año 2000 (patente US 6.151.571), describe un método para controlar una conversación entre dos personas que hablan, detectar una emoción de al menos una de las personas, determinar si la emoción es una de las tres emociones negativas (ira, tristeza o miedo) y luego comunicar la emoción negativa a una tercera parte. Con respecto al proceso de reconocimiento de la emoción, la patente detalla las etapas necesarias para obtener estos resultados: primero, se recomienda la realización de un experimento con los sujetos objetivo, con el fin "de determinar qué partes de una voz son las más fiables como indicadores de la emoción". Se sugiere utilizar un conjunto de las locuciones más fiables de este experimento como "entrenamiento y datos de prueba para los algoritmos de reconocimiento de las estructuras accionados por un ordenador". La segunda etapa es la extracción de las características para los estados emocionales basados en los datos recogidos. La patente sugiere varios métodos posibles de extracción de características mediante la utilización de una variedad de características de la conversación. La tercera etapa consiste en reconocer las emociones basadas en las características extraídas. Se ofrecen dos aproximaciones - redes neurales y conjuntos de clasificadores. Los conjuntos de datos previamente recogidos (que representan las emociones) pueden ser utilizados para entrenar los algoritmos para que determinen las emociones correctamente. Se presentan unos aparatos ejemplares así como las técnicas para mejorar la detección de la emoción.
Slaney, en una patente de 2001 (US 6.173.260) describe un sistema de clasificación emocional de la conversación. El sistema descrito se basa en un procedimiento empírico que extrae la mejor combinación de características de la conversación (distintas mediciones del tono y de la forma espectral de la envolvente), que caracteriza un conjunto determinado de elocuciones identificadas de acuerdo con las clases predefinidas de emoción. Después de haber "entrenado" el sistema en el conjunto determinado de elocuciones, puede utilizar las características extraídas para otra clasificación de otras elocuciones en estas clases emocionales. Sin embargo, el procedimiento no presenta ningún indicador emocional general, y asume solamente que se pueden extraer empíricamente distintas características emocionales para distintas situaciones emocionales.
Dos solicitudes publicadas de PCT por Liberman se refieren también a la emoción en la conversación. Liberman, en 1999 (WO 99/31653), sugiere un método para determinar ciertos estados emocionales a través de la conversación, incluida la tensión emocional y los estados relacionados con la mentira, como la falsedad, confusión e incertidumbre, la disonancia psicológica, sarcasmo, exageración. El procedimiento se basa en la información por medición de la entonación de la conversación, en particular, mesetas y picos en la envolvente de la señal de conversación, mediante la utilización de elocuciones previas de la persona que habla como referencia de la línea de base.
Liberman, en el año 2000 (WO 00/62270) describe un aparato para controlar los estados emocionales inconscientes de un individuo a partir de unas muestras de conversación proporcionadas por teléfono a un analizador de voz. Los indicadores emocionales incluyen un nivel de actividad cognitiva subconsciente, un nivel de actividad emocional subconsciente, un nivel de anticipación, un nivel de atención, una "comunicación amorosa" y un despertar sexual. El método utilizado, se basa en el análisis del espectro de frecuencias de la conversación, en el cual el espectro de frecuencias se divide en cuatro regiones de frecuencias y se reivindica que el porcentaje más alto de frecuencias en una de las regiones refleja la dominancia de uno de los estados emocionales anteriores. Se sugiere que la actividad cognitiva estaría en correlación con las frecuencias más bajas, atención/concentración con las principales frecuencias del espectro, la actividad emocional con las frecuencias altas, y el nivel de anticipación con las frecuencias más altas.
La mayoría de las patentes anteriormente mencionadas (Fuller, Bell, Jones, Silverman y Liberman) identifican los estados emocionales específicos como la tensión, la mentira o una tendencia al suicidio, mediante la correlación de las características específicas de la conversación y estas condiciones emocionales. Dos de las patentes (Williamson, Ron) asumen que los correlativos apropiados de conversación de los estados emocionales se dan como entrada e ignoran totalmente la tarea de describir algún indicador general de las características emocionales de la conversación. Tres de las patentes (Bogdashevsky, Petrushin y Slaney), sugieren unos procedimientos para la extracción de los correlativos específicos de la conversación mediante "el aprendizaje" de determinadas clases emocionales de elocuciones de conversación. Por lo tanto, ninguna de las patentes anteriormente mencionadas sugiere un indicador basado en una conversación generalizada del despertar emocional en sí, que describa la expresión vocal de la respuesta emocional creada por un amplio registro de distintos estados emocionales.
Además, con el fin de superar las diferencias entre individuos, algunas de estas patentes (Fuller, Williamson), requieren un experto especializado para analizar manualmente los resultados. Otras patentes (Ron, Liberman) requieren una comparación de las mediciones de conversación de los sujetos con las mediciones previas de la línea de base del mismo individuo, como referencia. Otras patentes (Bogdashevsky, Petrushin y Slaney) requieren un proceso previo de aprendizaje de las características de conversación de grupos específicos de individuos o fenómenos psicológicos específicos, para que se utilicen como referencia.
Por lo tanto, ninguna de las patentes anteriores analizadas en este arte denso sugiere un indicador de conversación emocional que sea resistente, y que tenga validez más allá de las distintas emociones y más allá de las diferencias entre los individuos específicos y los grupos específicos. Esta invención se dirige a proporcionar este indicador general, resistente, del despertar emocional, mediante análisis de la conversación, que sea insensible a las diferencias entre los sujetos y a los tipos particulares de emoción, pero sensible al despertar emocional en sí.
Resumen de la invención
La presente invención se dirige a la provisión de un indicador general del despertar emocional de un sujeto, mediante análisis de la conversación, aplicable a un amplio registro de distintos estados emocionales. Este indicador emocional de la conversación es válido más allá de las diferencias de estructura de la conversación entre individuos específicos o grupos específicos de individuos, y no requiere la comparación de una muestra de conversación procedente de un sujeto con una muestra de referencia de conversación obtenida anteriormente, del mismo sujeto.
De acuerdo con la presente invención se proporciona un método tal como se reivindica en la reivindicación 1 para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de: obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo los bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud; derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono-ascendente y tono-descendente en las secuencias de los bloques; comparación de los parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual la pluralidad de parámetros secundarios seleccionados de la conversación está seleccionada a partir de la lista de: longitud media de pausa y/o frecuencia de pausa; longitud media de silencios cortos y/o frecuencia de silencios cortos; longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular; promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y la dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.
Preferentemente, el método de derivación incluye además la derivación de una pluralidad de parámetros secundarios seleccionados de la conversación indicativos de las características de pausa y silencio de la muestra de conversación que se está analizando, incluyendo opcionalmente el análisis de la irregularidad de paso y ritmo, tono, y amplitud de la muestra de conversación que se está analizando.
Opcionalmente, la etapa para la obtención de una muestra de conversación comprende la etapa de entrada de un archivo de voz digitalizada. Como alternativa, la etapa de obtención de una muestra de conversación comprende la etapa de capturar ejemplares de conversación y el muestreo y digitalización de los ejemplares de conversación en una unidad de muestreo y digitalización de la voz para formar un archivo de voz digitalizada.
Opcionalmente, la etapa de preprocesamiento incluye: la obtención de las muestras de voz digitalizada, la normalización de dichas muestras de voz, la filtración de datos, la reducción de ruidos, la segmentación de las muestras de voz en segmentos de silencio y conversación, la división de los segmentos de conversación en bloques, y el procesamiento de los bloques por autocorrelación, para calcular los parámetros de tono y amplitud de voz por bloque.
En una realización, el método descrito anteriormente puede adaptarse para analizar una señal de conversación incluida una pluralidad de voces interactivas, que comprende además las etapas adicionales de: separar las voces interactivas en canales individuales de voz, obtener muestras de voz digitalizada, realizar la normalización de las muestras en cada canal de interés, realizar la filtración de datos en cada canal de interés, realizar la reducción de ruidos en cada canal de interés, realizar la segmentación de silencios y conversación y dividir los segmentos de conversación en bloques en cada canal de interés, así como procesar la autocorrelación para calcular los parámetros de tono y amplitud de la voz por bloque en cada canal de interés.
Opcionalmente, la etapa de comparar los parámetros secundarios de conversación con valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, incluye la comparación de al menos dos categorías de parámetros secundarios de voz con los valores predefinidos que representan la conversación no-emocional, seleccionándose las categorías a partir de la lista de longitud media de pausa y/o frecuencia de pausa; longitud media de silencios cortos y/o frecuencia de silencios cortos; longitud media de los segmentos de tono regular y/o frecuencia de los segmentos de tono regular; promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y la dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.
Opcionalmente, el método comprende además el cálculo de un grado de fiabilidad basado en al menos un factor seleccionado a partir de la lista de: calidad del segmento de voz; significado de la decisión de despertar emocional, y coherencia de los resultados específicos de los segmentos con los resultados de los segmentos previos de conversión.
Preferentemente, la calidad del segmento de voz se determina basándose en el nivel de ruido, tamaño de los datos muestreados, y calidad de los datos muestreados.
Preferentemente, el significado de la decisión de despertar emocional se determina, basándose en el número de parámetros participantes y el grado de desviación dentro de cada parámetro.
Opcionalmente, existe una etapa adicional de procesamiento de estructuras para detectar las estructuras emocionales que se manifiestan durante un eje de tiempo.
En un segundo aspecto, la presente invención se dirige a un aparato con unos medios dispuestos para ejecutar el método de análisis de la conversación según la reivindicación 1, que comprende: una unidad de entrada de voz, una unidad de preprocesamiento para las muestras de preprocesamiento de voz procedentes de la unidad de entrada de voz, una unidad principal de procesamiento para procesar dichas muestras preprocesadas de voz y detectar el despertar emocional procedente de las mismas; y una unidad principal de salida de indicadores para dar salida a una indicación sobre el despertar emocional.
Opcionalmente, la unidad de entrada de voz incluye una unidad de captura de voz y una unidad de muestreo y digitalización de voz acoplada a la unidad de captura de voz para muestrear y digitalizar la entrada de voz capturada.
Opcionalmente, la unidad de entrada de voz incluye un micrófono, una interfaz a un reproductor audio, una interfaz a un teléfono alámbrico, inalámbrico o móvil, una interfaz a Internet u otra red, una interfaz a un ordenador, una interfaz a un organizador personal electrónico o a cualquier otro equipo electrónico, una interfaz a un juguete.
Preferentemente, la unidad de muestreo y digitalización de voz está seleccionada a partir de una tarjeta de sonido, o un dispositivo de muestreo y digitalización de voz basado en un chip DSP.
\newpage
Preferentemente, la unidad principal de salida de indicadores está seleccionada a partir de un dispositivo de salida local, una pantalla, un altavoz, un archivo, una unidad de almacenamiento o dispositivo de comprobación; o una interfaz a un ordenador remoto, a Internet, a otra red, a un teléfono alámbrico, inalámbrico o móvil, a un juego por ordenador, a un juguete, a un organizador electrónico personal o cualquier otro equipo electrónico de salida.
Opcionalmente, todas las unidades anteriormente mencionadas se instalan en una unidad pequeña, móvil, basada en un chip DSP. Como alternativa, algunas de las unidades pueden estar alejadas físicamente de otras unidades, y el aparato puede comprender además una interfaz para permitir la comunicación de datos entre las unidades.
Las unidades de preprocesamiento y procesamiento pueden incorporarse alternativamente en una herramienta de software capaz de integrarse en una fuente externa de entrada digitalizada de voz y en un dispositivo externo de salida.
Por parámetro primario de conversación, tal como se utiliza aquí, se entienden los valores absolutos de los parámetros como los de tono o intensidad. Por parámetro secundario de conversación, se entiende la variación en los valores absolutos de los parámetros utilizados aquí. Por lo tanto los parámetros secundarios de conversación son estadísticas derivadas que son generalmente menos propensas a las diferencias culturales, de edad y de género, interferencia de fondo, calidad de señal analizada y demás factores deformantes, y los parámetros secundarios de conversación utilizados para indicar el despertar emocional en las realizaciones preferidas de la presente invención, están seleccionados como particularmente resistentes, con baja sensibilidad a las diferencias entre individuos y a la interferencia de fondo.
Breve descripción de los dibujos
La presente invención se entenderá y apreciará mejor a partir de la siguiente descripción detallada tomada conjuntamente con los dibujos, en los cuales:
La Fig. 1, es una ilustración en diagrama de bloques de un aparato construido y operativo de acuerdo con una realización de la presente invención.
La Fig. 2, es un diagrama de proceso de una unidad de preprocesamiento construida y operativa de acuerdo con una realización de la presente invención.
La Fig. 3, es un diagrama de proceso de una unidad principal de procesamiento construida y operativa de acuerdo con una realización de la presente invención.
Descripción detallada de la invención
La presente invención se refiere a un método y aparato para detectar el despertar emocional a través del análisis de la conversación. El término "conversación emocional" se utiliza aquí, con respecto a un segmento de conversación en el cual la persona que habla se expresa de una forma emocional. La conversación no-emocional se refiere a un segmento de conversación en el cual la persona que habla no se expresa de una forma emocional. Las descripciones anteriores de experiencias y sentimientos o futuras expectativas de eventos deseados o no deseados pueden considerarse como conversación emocional solamente si el sentimiento o evento concreto descrito o deseado se expresa actualmente de forma emocional. La documentación y patentes analizadas anteriormente, apoyan claramente el fenómeno de que distintos estados emocionales, cuando se expresan oralmente, cambian las características de la conversación de un sujeto, en comparación con las características de la conversación no-emocional. Sin embargo, la provisión de un indicador general que pueda determinar un nivel de despertar emocional de un persona a través del análisis de la conversación sigue siendo una tarea muy difícil, debido principalmente a tres factores:
1. Distintos estados emocionales afectan de manera diferente a las características de conversación de un individuo.
2. Las características de la voz y la conversación varían significativamente entre individuos.
3. Distinta intensidad emocional (de la misma emoción) afecta a distintos elementos de la conversación hasta distintos puntos.
Con el fin de superar el efecto de estos factores, la mayoría de las patentes e investigaciones existentes siguen dos directrices: separan la medición de los distintos tipos de emoción y utilizan muestras anteriores para obtener una línea de base de referencia.
La presente invención sugiere un método de análisis de conversación, automático y en tiempo real para indicar la existencia de un nivel de despertar emocional generalizado de un sujeto en un tiempo determinado, más allá de los estados específicos de emoción y más allá de las diferencias específicas entre individuos, sin utilizar una línea de base de conversación de referencia específica del propio sujeto.
La eliminación de la necesidad de una línea de base de referencia específica, la generalización de las características de la voz de despertar emocional más allá de los estados emocionales específicos y el método de detección emocional basándose en las tendencias de tonos dentro del segmento de conversación son tres nuevas características de la presente invención,
1. Despertar Emocional más allá de los Estados Emocionales Específicos
Una suposición central que sirve de base a la presente invención es que la conversación no-emocional refleja un estado de equilibrio, y que la conversación emocional refleja una desviación de este equilibrio. Se conoce el despertar emocional por ser una desviación de un equilibrio fisiológico en ciertos estados emocionales como la tensión, por ejemplo. Se expresa en cambios en las variables del sistema autonómico, como el ritmo de los latidos cardíacos, la actividad muscular, la resistencia galvánica de la piel, la presión sanguínea y la temperatura sanguínea. De una manera correspondiente, se propone que los cambios en las estructuras de conversación durante el despertar emocional puedan reflejar una desviación del estado no-emocional equilibrado, ordenado, y la presente invención se basa en el principio de que las características de la conversación durante el despertar emocional son menos sistemáticas y más desordenadas que las características de la conversación no-emocional. La violación del ritmo ordenado de conversación que corresponde al despertar o excitación emocional extrema, como el llanto o grito, por ejemplo, está claro para la mayoría de los oyentes. Existen cambios similares, correspondientes en las estructuras ordenadas de conversación que expresan también los niveles menores de excitación.
Aunque distintos estados emocionales puedan producir distintas características de conversación, se sugiere que un factor común de las características de conversación en muchos estados diferentes, emocionalmente despiertos, radica en la irregularidad de las estructuras de la conversación cuando se compara con la naturaleza más sistemática de la conversación no-emocional. De forma similar, aunque distintos individuos que están emocionalmente despiertos, o excitados, puedan tener distintas características de conversación, se sugiere no obstante que casi todos los individuos normales emocionalmente despiertos, tienen estructuras de conversación menos ordenadas si se compara con sus estructuras de conversación generales, no-emocionalmente despiertas. La presente invención se centra en la medición de la matriz de este factor común, como indicador que señala el despertar emocional general de los individuos.
Tal como se expone en la literatura, se ha descubierto que la expresión de los distintos estados emocionales tenía una correlación con las características específicas de la conversación. Por contraste, proponemos aquí, que dos tipos de variables tiendan a caracterizar el "despertar emocional" mismo, más que los estados emocionales específicos. La primera variable, denominada aquí presencia de tono constante, es el grado de presencia de los períodos de tonos regulares dentro del segmento de conversación, y la segunda variable es el nivel de coherencia de las distintas características de conversación, que es una medición del ordenamiento de la estructura de conversación.
Presencia de tono constante: Como regla general, se sugiere que la conversación emocional se caracteriza por la presencia más baja de períodos de tonos regulares y por la presencia más alta de períodos de tonos cambiantes (ascendentes o descendentes) lo que significa que la conversación emocional muestra un número más pequeño por segundo y una longitud media más corta de períodos de tonos regulares dentro del segmento de conversación en comparación con la conversación no-emocional regular. Debe observarse que no sugerimos que la conversación emocional se caracterice siempre por una variación/registro más alto de tonos o por una frecuencia más alta de cambios de dirección de los tonos(ascendente/descendente) dentro del segmento de conversación, ya que las últimas variables se ven más afectadas por los estados emocionales específicos, por las diferencias individuales y por la sonoridad de la conversación. Por contraste, sugerimos que los parámetros de presencia de tonos constantes se ven menos afectados por los factores de intervención anteriores, que lo es la variación/registro/frecuencia más alta de tonos de los parámetros de cambios. En consecuencia, son muy indicativos del despertar emocional.
Nivel de coherencia de las distintas características de conversación: Tal como se ha mencionado, se sugiere que la irregularidad en las estructuras de la conversación tiene relación con la expresión emocional.
El comportamiento general, menos ordenado de las características de conversación es evidente a través de la incoherencia más alta de varias variables de conversación, tal como la longitud y dispersión de los intervalos entre las pausas y los silencios secuenciales, la longitud de las pausas y de los silencios mismos así como la longitud, frecuencia y dispersión de distintos tipos de segmentos de no-silencio (por ejemplo la longitud de los períodos de tonos ascendentes y descendentes). De forma similar a la medición de la presencia de tonos regulares, se pone énfasis en la medición de eventos en la escala de tiempos - número por segundo, longitudes, intervalos y dispersión de las variables específicas de conversación o períodos agrupados dentro del segmento de conversación. Estas variables basadas en el tiempo generalmente se ven menos afectadas que las variables de tonos y amplitud por los factores de intervención y derivación. La detección de una combinación de desviaciones en algunas de estas variables procedentes de una estructura ordenada de conversación puede revelar la irregularidad en las estructuras de la conversación que tienen relación con el despertar emocional.
2. Superación del Efecto de las Estructuras de Conversación de los Individuos
Tal como se ha establecido anteriormente, las estructuras de voz y conversación varían significativamente de una persona a otra. Algunas de estas diferencias son de naturaleza general. Por ejemplo, estadísticamente, la conversación de las mujeres tiene un tono más alto que la conversación de los hombres. Otras diferencias son más específicas. Por ejemplo, la conversación de un individuo posee las características típicas de tono de este individuo, y existen muchas otras tendencias de conversación que caracterizan la conversación de individuos particulares, como la conversación monótona, conversación pausada, etc.
\newpage
En las realizaciones de la presente invención, para superar los efectos de derivación debidos a las características generales de las estructuras de conversación de los individuos, la determinación del nivel general de despertar emocional del sujeto hace un uso selectivo de los parámetros secundarios del tono de voz, y un uso selectivo de los parámetros secundarios de la amplitud de voz.
Utilización de los parámetros secundarios de conversación más que de los primarios: El análisis de la conversación de acuerdo con las realizaciones de la presente invención utiliza principalmente los parámetros secundarios de voz y conversación y hace caso omiso de los parámetros primarios.
Con el propósito de esta solicitud, el término parámetros secundarios de voz implica los parámetros que derivan de los parámetros primarios de tono y amplitud, y no los parámetros primarios mismos. Los parámetros primarios se ven muy afectados por las diferencias entre individuos, y por lo tanto no se tienen en consideración, o al menos no se les considera mucho en los análisis realizados de acuerdo con la presente invención. Por lo tanto, el valor de frecuencia de la voz, o el tono mismo, no se utiliza generalmente como parámetro, ya que varía significativamente entre distintas personas. Sin embargo, se da importancia a los cambios de tonos dentro de los segmentos de conversación, ya que éstos contribuyen a los valores relativos, más que absolutos, y se ven, por lo tanto, menos afectados por las diferencias entre individuos.
Utilización selectiva de los parámetros secundarios de tonos de voz: Los parámetros secundarios de voz son también sensibles, hasta cierto grado, a las diferencias entre las estructuras de conversación de distintos individuos. El procesamiento de conversación de la presente invención ignora la mayoría de los parámetros secundarios más afectados por estas diferencias.
Un ejemplo de un parámetro secundario de tono de voz no utilizado, es el registro de cambio de tonos. Se considera como un parámetro secundario, ya que representa solamente los cambios relativos del tono de la persona que habla, y no el tono mismo. Sin embargo, como este parámetro tiene una importante correlación con el valor de tono concreto, a menudo se ve notablemente afectado por las diferencias entre individuos, y no sólo por el estado del despertar emocional en sí. En consecuencia, el procesamiento de conversación de acuerdo con la presente invención, ignora típicamente este parámetro, y, del mismo modo, otros parámetros secundarios que varían significativamente con el individuo.
Utilización selectiva de los parámetros secundarios de amplitud de voz: Numerosos parámetros de amplitud de voz, tanto primarios como secundarios, se ven más afectados por las diferencias de conversación entre individuos que los parámetros de tono. Los parámetros de amplitud son también muy sensibles a la calidad general de la señal de voz analizada, los cuales son afectados desfavorablemente por los efectos ambientales, como la interferencia, como el ruido del sonido, y por el ruido electrónico asociado a los distintos componentes del equipo de análisis. En consecuencia, la determinación de la existencia del despertar emocional de acuerdo con la presente invención pone poco énfasis en los parámetros de amplitud, tanto primarios como secundarios.
3. Superación de los Efectos de Intensidad
Aunque la magnitud del despertar emocional de un sujeto sea indicado a veces por la magnitud (volumen) de la conversación misma, no es siempre el caso. Por ejemplo, cuando una persona grita de ira, normalmente su tono de voz, amplitud de voz y aumento de velocidad de la conversación, provocan también el incremento correspondiente en muchos parámetros secundarios de la conversación, sin embargo, el perfil de conversación de alguien que grita de ira puede ser muy distinto del perfil de conversación de alguien que muestra una forma menos excitada de ira, aunque ambos representen el despertar emocional. Por ejemplo, existen personas que demuestran la ira hablando tranquila y pausadamente.
La presente invención se centra en la detección del despertar emocional en sí, y no solamente el despertar emocional intenso, o el despertar emocional que corresponde a cualquier emoción particular. Además, como las diferencias en el volumen de conversación que no están relacionadas con el despertar emocional pueden afectar a las características de conversación de una forma indirecta, por ejemplo al influir en el nivel de volubilidad de ciertos parámetros de conversación, es importante minimizar, lo más posible, los efectos del volumen de conversación sobre el procesamiento de la conversación. Esto puede realizarse siguiendo las mismas directrices que las que se han detallado antes con respecto a la superación de los efectos de las estructuras individuales de conversación, incluida la utilización selectiva del tono principalmente secundario y los parámetros de amplitud. Además, para reducir aun más la sensibilidad del procesamiento al efecto de la magnitud de voz, se realiza preferentemente un procesamiento adicional. La principal influencia que tiene el volumen audible de la conversación sobre la conversación es al aumentar o disminuir los registros de sus parámetros. En consecuencia, el procesamiento de la conversación de la presente invención hace generalmente una clasificación inicial de cada segmento procesado de conversación de acuerdo con una de las varias clases típicas de comportamiento en los registros de parámetros. Esta clasificación inicial permite que el procesamiento utilice distintos criterios para determinar la existencia del despertar emocional en distintas clases de registros de parámetros.
\newpage
4. Determinación de la Existencia del Despertar Emocional
Tal como se ha mencionado anteriormente, después de minimizar los distintos efectos de derivación, se ha descubierto que las características de conversación que están asociadas de forma más directa al despertar emocional son el grado de presencia del tono constante, irregularidad de los pasos, ritmo y demás indicadores de la estructura de conversación.
De forma más específica, el algoritmo de la presente invención utiliza una combinación de al menos dos, y
- preferentemente más de las siguientes categorías de parámetros de conversación:
\bullet
Longitud media de pausa y/o frecuencia de pausa
\bullet
Longitud media de los silencios cortos y/o frecuencia de los silencios cortos
\bullet
Longitud media de los segmento de tono regular y/o frecuencia de los segmentos de tono regular
\bullet
Longitud media de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o longitud media de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente
\bullet
Dispersión de la amplitud dentro de los segmentos de tono regular de la conversación.
Por "pausas" se quiere decir silencios relativamente largos en la conversación. Las pausas son típicamente interrupciones de aproximadamente 0,25 - 1,5 segundos en la conversación, que aparecen normalmente entre las frases, por ejemplo.
Por "silencios cortos", se quiere decir interrupciones con duraciones de menos de aproximadamente 0,25 segundos. Los silencios cortos son silencios que aparecen típicamente entre palabras y entre sílabas.
Los "segmentos de tono regular" son segmentos continuos de conversación que se caracterizan por tener un tono relativamente estable, es decir, un tono que varía entre tolerancias preestablecidas.
Por contraste, los "segmentos de tono ascendente y descendente" son segmentos caracterizados por una tendencia continua y definida ascendente y descendente del tono.
La determinación del despertar emocional con un alto grado de certeza requiere que una combinación de al menos dos, (preferentemente más), de los parámetros anteriores se desvíen simultáneamente de los valores no-emocionales. Sin embargo, preferentemente la decisión sobre si el sujeto muestra realmente un despertar emocional puede tomarse dependiendo del grado de desviación de cada parámetro, con registros y valores que caracterizan la regularidad para cada parámetro que haya sido determinado por el análisis de amplias muestras de datos de conversación tomadas de la población general.
Con respecto ahora a la Fig. 1, se muestra una ilustración de diagrama de bloques de un aparato para detectar el despertar emocional construido y operativo de acuerdo con una realización de la presente invención. El aparato incluye una unidad de entrada de voz 10, una unidad de muestreo y digitalización de voz 12, una unidad de preprocesamiento 14, una unidad principal de procesamiento 16 y una unidad principal de salida de indicadores 18. La unidad de entrada de voz 10 puede ser cualquier dispositivo que lleve datos de voz humana de cualquier forma - micrófono, teléfono alámbrico, teléfono inalámbrico o móvil, cualquier dispositivo reproductor audio (como un magnetófono, disco compacto), archivos digitalizados de voz, conexión de internet (voz por IP, cable, satélite o cualquier otro método). La unidad de muestreo y digitalización de voz 12 puede ser una tarjeta de sonido de ordenador, un chip DSP específico o cualquier otro dispositivo de muestro y digitalización.
El procedimiento de determinación del despertar emocional, de acuerdo con la presente invención, es como sigue (con algunas variaciones entre distintas realizaciones del aparato). El diagrama de proceso en la Fig. 2 detalla la etapa de preprocesamiento y el diagrama de proceso en la Fig. 3 detalla la principal etapa de procesamiento.
(a) Preprocesamiento: La función de preprocesamiento sirve para preparar los datos en bruto para el procesamiento mismo. De forma más específica, sirve para obtener los parámetros de tono y amplitud por cada bloque de conversación de una longitud predefinida. El procesador es una unidad de CPU, que puede ser la CPU de un PC, o puede ser un chip DSP especializado, específico o realmente cualquier otro dispositivo adecuado de procesamiento. El preprocesamiento incluye los siguientes pasos de procesamiento, que son ampliamente reconocidos por los que están familiarizados con el arte del procesamiento de señales (Fig. 2):
\bullet Obtención de muestras digitalizadas de voz (bloque 20).
\bullet Separación de la conversación grupal en muestras de canales de voz individuales cuando se requiere. Por ejemplo, cuando la entrada de voz es una conversación por teléfono, se divide preferentemente en dos canales de voz, representando cada uno una persona hablando, posiblemente mediante muestreo separado con una señal que se obtiene por ejemplo a través del micrófono de uno de los teléfonos (bloque 22). Obviamente, las pausas y la longitud de las frases de diálogo son significativamente distintas de las de monólogo, y estas diferencias son valoradas y tenidas en cuenta.
\bullet Normalización de los valores de las muestras - realizadas para ambos canales (bloque 24).
\bullet Filtración de los datos - realizada para ambos canales (bloque 26).
\bullet Reducción de ruidos - realizada par ambos canales (bloque 28).
\bullet Iniciación de la segmentación y del cálculo de los parámetros básicos para el primer canal (bloque 30).
\bullet La segmentación de los silencios y de la conversación así como la división de los segmentos de conversación en bloques (bloque 32) se realizan para el primer canal.
\bullet La autocorrelación (bloque 34) para calcular el tono y la amplitud se realiza para el primer canal.
\bullet Cuando hay dos personas hablando, los pasos de segmentación y autocorrelación (bloques 30, 32, 34 anteriores) se realizan ahora para el segundo canal de voz, si existe (bloques 36 y 38).
Las salidas de los pasos de preprocesamiento son secuencias de bloques de segmentos de conversación caracterizadas por tener valores de tono y amplitud por bloque y longitudes para los segmentos de silencio y pausa.
(b) Procesamiento : El procedimiento principal de procesamiento proporciona una indicación del despertar emocional. Puede realizarse en el mismo procesador de CPU en el cual se llevó a cabo el preprocesamiento, o como alternativa, en una unidad distinta de CPU. La unidad de procesamiento puede ser la CPU de un PC, un chip específico de DSP o cualquier otro dispositivo adecuado de procesamiento. El procedimiento de procesamiento incluye los siguientes pasos de procesamiento, por cada canal (Fig. 3):
\bullet Selección de un segmento de conversación, corto, típicamente de 3-6 segundos de conversación, para el procesamiento (bloque 40).
\bullet Cálculo de los parámetros asociados a la pausa del segmento de conversación, incluido el número medio de pausas por segundo y la longitud media de pausas (bloque 42).
\bullet Cálculo de los parámetros asociados al silencio del segmento de conversación, incluido el número medio de silencios por segundo y la longitud media de silencios (bloque 43).
\bullet Determinación de qué secuencias de segmentos de los bloques son secuencias de segmentos que tienen bloques de tonos regulares, mediante el marcado de los bloques consecutivos que tienen un tono relativamente constante (es decir, dentro de unas tolerancias aceptables) (bloque 44).
\bullet Determinación de qué secuencia de segmentos de los bloques muestran tendencias de tono ascendente o descendente (bloque 46).
\bullet Cálculo de los parámetros secundarios de tonos del segmento de conversación, tal como el número medio por segundo y la longitud media de los períodos de tonos ascendentes, descendentes o regulares y la dispersión de amplitud de los períodos de tonos regulares (bloque 47).
\bullet Clasificación del segmento procesado de conversación en una de varias categorías de registros típicos de parámetros, con el fin de diferenciar los segmentos con distintas magnitudes de conversación (bloque 48).
\bullet Determinación de la indicación de despertar emocional del segmento de conversación. Este indicador se basa en la comparación de los parámetros de voz calculados con los valores predefinidos que representan la conversación no-emocional, y la calificación de la combinación de irregularidades (bloque 50).
Si existiera un segundo canal, es decir, al tomar ejemplares de dos participantes en una conversación (bloques 52 y 54), se llevan a cabo los mismos pasos de procesamiento 40 a 50 sobre la muestra procedente del segundo canal.
\bullet Preferentemente, el método incluye también el cálculo de un grado de fiabilidad - basándose en una combinación de varios factores, que incluye típicamente la calidad del segmento de voz (nivel de ruidos, tamaño de los datos muestreados, calidad de los datos muestreados), significado de la decisión de despertar emocional (número de parámetros participantes, grado de desviación de cada parámetro), coherencia de los resultados específicos de los segmentos con los segmentos de conversación anteriores (unos cambios emocionales deberían seguir las estructuras razonables con respecto al número de cambios, su intensidad, su longitud y conexión entre emociones en un período determinado de tiempo).
\newpage
\bullet Procesamiento de las estructuras - El procesamiento puede incluir otra capa que detecta ciertas estructuras emocionales que se revelan con el paso del tiempo, o cuando se comparan con otros resultados. Por ejemplo, cuando se analiza una conversación, la comparación de los estados emocionales de las dos personas que hablan permite la detección de las estructuras en la comunicación interpersonal, tal como el apego, despego, cortesía, atmósfera y progreso de la conversación.
(c) Salida: (Fig. 1, bloque 18) - Los resultados de medición de la emoción pueden ser enviados a varias salidas de acuerdo con la configuración específica del aparato utilizado, y de acuerdo con la aplicación específica. Normalmente, se enviará la salida a un display en tiempo real del usuario (visual, vocal o textual). Puede estar comunicada con un usuario remoto a través de cualquier tipo de red y puede ser registrada o almacenada en cualquier clase de salida o dispositivo de almacenamiento o archivo.
5. Aparatos y Aplicaciones Posibles
Como ejemplo, se presentan dos aparatos básicos para la ejecución de la patente, aunque cualquier otro aparato adecuado pueda ser empleado como alternativa:
(a) Una pequeña unidad, móvil basada en un chip DSP. Este aparato puede servir de pequeña unidad móvil para la detección del despertar emocional en el análisis en tiempo real o fuera de línea. Puede utilizarse como dispositivo autónomo en las interacciones verbales interpersonales. Como alternativa, puede conectarse a los dispositivos de entrada o salida como un ordenador, magnetófono, teléfono alámbrico, inalámbrico o móvil, organizador electrónico personal, Internet o cualquier otra red, con el fin de obtener varias entradas de voz locales o remotas y para mostrarse o comunicarse a varias salidas locales o remotas. Puede integrarse también como hardware en otros dispositivos, como teléfonos alámbricos, inalámbricos o móviles, juegos de ordenador, juguetes, ordenadores u otro equipo electrónico. El aparato incluye un micrófono (o cualquier otra interfaz de entrada), discriminador digital, procesador y display (o cualquier otra interfaz de salida).
(b) Una herramienta basada en un software. Este aparato puede servir de herramienta basada en un ordenador para le detección del despertar emocional en un análisis en tiempo real o fuera de línea. Puede utilizarse como herramienta de software autónoma para el análisis de los archivos digitalizados de voz. Como alternativa, puede conectarse a través de las interfaces del ordenador a cualquier dispositivo de entrada/salida, con el fin de obtener cualquier entrada de voz local o remota, y mostrarse o comunicarse a varias salidas locales o remotas, tal como micrófonos, magnetófonos, teléfonos alámbricos, inalámbricos o móviles, Internet o cualquier otra red, otros ordenadores o cualquier otro equipo electrónico La herramienta de software puede integrarse también como subsistema en otro sistema. Estos sistemas incluyen por ejemplo el software de la central de llamadas/contactos, o el hardware que controla, registra o analiza las conversaciones, varios entrenadores de situación y personales o cualquier sistema de control, de enseñanza o de contrarreacción. La herramienta de software de emoción se instalará típicamente en un entorno de ordenador que incluye típicamente un micrófono (o cualquier otra interfaz de entrada), la unidad de muestreo y digitalización, procesador, display (o cualquier otra interfaz de salida) y cualquier otra interfaz externa relevante.
Se valorará el hecho de que la presente invención tenga un rango muy amplio de posibles aplicaciones y ejecuciones. Se relacionan a continuación algunas de las posibilidades como ejemplos solamente. Sin embargo, la utilización de la presente invención no se limita a estas aplicaciones descritas aquí.
El control de las emociones puede utilizarse para mejorar la comercialización, ventas, servicio y relaciones con los clientes, especialmente en el entorno de la central de llamadas. El control de la emoción, la contrarreacción y supervisión de las interacciones de servicio/ventas pueden instalarse en un entorno en tiempo real, así como en el análisis fuera de línea. El control puede ser ejecutado con ambos aparatos, descritos anteriormente: puede integrarse como herramienta de software en otros productos de la central de llamadas, como las herramientas de registro, productos CRM (gestión de relaciones con los clientes), herramientas de entrenamiento o software de e-comercio. Puede instalarse como herramienta de software autónoma en la central de llamadas, entornos de CRM o de e-comercio y puede integrarse también en varios dispositivos de hardware en estos entornos como unidad basada en un chip de DSP. Se puede utilizar también una pequeña unidad basada en un chip de DSP como pequeña unidad independiente para controlar las interacciones cara a cara del agente-cliente.
El control de las emociones puede utilizarse para mejorar el proceso de entrenamiento de personas profesionales mediante la mejora del conocimiento de las estructuras verbales emocionales así como no-emocionales, tal como se expresan en la voz de una persona hablando. Además, la herramienta de control puede utilizarse con un propósito de demostración (análisis de los segmentos de conversación de distintas emociones y distintas estructuras de expresión de la emoción) y para el entrenamiento en el control de la expresión de la emoción (contrarreacción de las emociones del usuario más recompensa por modificar la estructura de emoción o expresión).
El control de las emociones puede utilizarse como herramienta de asistencia en varias tareas de gestión interpersonal, tal como entrevistas o negociaciones, en las reuniones, o aun cuando se habla simplemente por teléfono.
El control de las emociones puede ser útil como herramienta adicional para pruebas psicológicas, y para el diagnóstico y tratamiento de enfermedades específicas, incluidas por ejemplo las enfermedades psiquiátricas. Este control puede realizarse durante las conversaciones en tiempo real, o en el análisis fuera de línea de una conversación grabada, y se puede utilizar en interacciones cara a cara, o cuando la interacción tiene lugar a través del teléfono o en telecomunicación oral por Internet.
La publicidad puede beneficiarse también del control emocional, al añadir un valor significativo al proceso de medir y evaluar las actitudes de la gente en cuestionarios orales, grupos de enfoque, y demás métodos.
Se puede utilizar el control de las emociones para ayudar en la terapia de la conversación y para incrementar la relajación así como lograr mayor control sobre los estados emocionales positivos y negativos. La alteración del estado emocional puede conseguirse como resultado directo del aumento de conocimiento, o a través de un procedimiento similar a un mecanismo de biorretroacción. Una aplicación importante puede consistir en la asistencia a numerosos programas cuyo objetivo es la reducción del comportamiento violento entre niños y adultos, donde el control puede ayudar a demostrar y modificar las estructuras de la ira verbal.
La utilización del control emocional puede proporcionar una calidad añadida a los juegos electrónicos o por ordenador, los juegos tanto educativos como recreativos. El control emocional puede formar parte también de juguetes y juegos que interactúan con un niño y le reflejan su estado emocional.
El control emocional de acuerdo con la presente invención puede utilizarse también para mejorar el reconocimiento de la conversación en varias aplicaciones, y para intensificar la interacción entre un ordenador o robot y su usuario, al permitir que el dispositivo eléctrico responda al estado emocional de la gente que se encuentra alrededor.
El control de la emoción puede utilizarse incluso como herramienta para detectar algunos estados mentales, que tienen características distintivas de la voz, como el cansancio.
Se valorará que la invención no se limite a lo que ha sido descrito anteriormente sólo como ejemplo. Mas bien, la invención está limitada únicamente por las reivindicaciones que siguen.

Claims (22)

1. Método para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de:
obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo dichos bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud;
derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono-ascendente y tono-descendente en dichas secuencias de los bloques; comparación de dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual dicha pluralidad de parámetros secundarios seleccionados de la conversación son seleccionados de la lista de:
(a) Longitud media de silencios cortos y/o frecuencia de silencios cortos;
(b) Longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular;
(c) Promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y
(d) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.
2. Método según la reivindicación 1, caracterizado porque dicho paso de derivación incluye además la derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de pausas y silencios de la muestra de conversación que se está analizando.
3. Método según la reivindicación 1 ó 2, que incluye el análisis de la irregularidad de paso y ritmo, tono y amplitud de la muestra de conversación que se está analizando.
4. Método según cualquiera de las reivindicaciones 1 a 3, caracterizado porque dicha pluralidad de parámetros secundarios seleccionados de conversación incluye además la longitud media de pausa y(/o) frecuencia de pausa.
5. Método según cualquiera de las reivindicaciones 1 a 4, caracterizado porque dicho paso de obtención de una muestra de conversación comprende el paso de introducción de un archivo digitalizado de voz.
6. Método según cualquiera de las reivindicaciones 1 a 4, caracterizado porque dicho paso de obtener una muestra de conversación comprende el paso de capturar unos ejemplares de conversación y muestrear y digitalizar los ejemplares de conversación en una unidad de muestreo y digitalización de la voz para formar un archivo de voz digitalizada.
7. Método según cualquiera de las reivindicaciones 1 a 6, caracterizado porque el paso de preprocesamiento incluye:
la obtención de las muestras de voz digitalizada,
la normalización de dichas muestras de voz,
la filtración de datos,
la reducción de ruidos,
la segmentación de dichas muestras de voz en segmentos de silencio y conversación, la división de los segmentos de conversación en bloques, y
el procesamiento de dichos bloques por autocorrelación, para calcular los parámetros de tono y amplitud de voz por bloque.
8. Método según cualquiera de las reivindicaciones 1 a 7, adaptado para analizar una señal de conversación que incluye una pluralidad de voces que interactúan, que comprende además:
separar las voces interactivas en canales individuales de voz,
realizar la normalización de las muestras en cada canal de interés,
realizar la filtración de datos en cada canal de interés,
realizar la reducción de ruidos en cada canal de interés,
realizar la segmentación de silencios y conversación y dividir los segmentos de conversación en bloques en cada canal de interés, y
procesar la autocorrelación para calcular los parámetros de tono y amplitud de la voz por bloque en cada canal de interés.
9. Método según cualquier reivindicación anterior, caracterizado porque el paso de derivación incluye:
marcado del segmento de conversación de una longitud predefinida para el procesamiento;
cálculo de los parámetros asociados a las pausas para dicho segmento de conversación;
cálculo de los parámetros asociados a los silencios para dicho segmento de conversación;
unión de los bloques en secuencias de bloques categorizadas como secuencias de bloques que tienen tendencias de tono ascendente, secuencias de bloques que tienen tendencias de tono descendente y secuencias de bloques que tienen tendencias de tono regular;
cálculo de los parámetros asociados al tono dentro del segmento de conversación, seleccionándose dichos parámetros asociados al tono a partir de la lista de frecuencias y longitudes medias de las secuencias de bloques caracterizados porque tienen tendencias de tono ascendente, descendente o regular, y dispersión media de amplitud de las secuencias de bloques que tienen un tono regular, así como clasificación del segmento de conversación en una o varias categorías de registro típico de parámetros.
10. Método según cualquier reivindicación anterior, caracterizado porque el paso de comparar dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional incluye la comparación de al menos dos categorías de parámetros secundarios de voz con los valores predefinidos que representan la conversación no-emocional, seleccionándose dichas categorías a partir de la lista de:
(a) Longitud media de pausa y/o frecuencia de pausa;
(b) Longitud media de silencios cortos y/o frecuencia de silencios cortos;
(c) Longitud media de segmentos de tono regular y/o frecuencia de los segmentos de tono regular;
(d) Promedio de la longitud de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o promedio de la longitud de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente; y
(e) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.
11. Método según cualquier reivindicación anterior, que comprende además el cálculo de un grado de fiabilidad basado en al menos un factor seleccionado a partir de la lista de: calidad del segmento de voz; significado de la decisión de despertar emocional, y coherencia de los resultados específicos de los segmentos con los resultados de los segmentos previos de conversión.
12. Método según la reivindicación 11, caracterizado porque dicha calidad del segmento de voz se determina basándose en el nivel de ruidos, tamaño de los datos muestreados y calidad de los datos muestreados.
13. Método según la reivindicación 11, caracterizado porque dicho significado de la decisión de despertar emocional se determina basándose en el número de parámetros participantes y el grado de desviación dentro de cada parámetro.
14. Método según cualquiera de las reivindicaciones anteriores, que comprende además el procesamiento de las estructuras para detectar las estructuras emocionales que se revelan a lo largo de un eje de tiempo.
15. Aparato con unos medios dispuestos para ejecutar el método de análisis de la conversación según la reivindicación 1, que comprende:
una unidad de entrada de voz;
una unidad de preprocesamiento para las muestras de preprocesameinto de voz procedentes de la unidad de entrada de voz;
una unidad principal de procesamiento para procesar dichas muestras preprocesadas de voz y detectar el despertar emocional procedente de las mismas; y
una unidad principal de salida de indicadores para dar salida a una indicación sobre el despertar emocional.
16. Aparato según la reivindicación 15, caracterizado porque dicha unidad de entrada de voz incluye una unidad de captura de voz y una unidad de muestreo y digitalización de voz acoplada a dicha unidad de captura de voz para la entrada de la voz capturada de muestreo y digitalización.
17. Aparato según la reivindicación 15 ó 16, caracterizado porque dicha unidad de entrada de voz incluye al menos una de las siguientes: un micrófono, una interfaz a un reproductor audio, una interfaz a un teléfono alámbrico, inalámbrico o móvil, una interfaz a Internet u otra red, una interfaz a un ordenador, una interfaz a un organizador personal electrónico o a cualquier otro equipo electrónico, o una interfaz a un juguete.
18. Aparato según la reivindicación 16, caracterizado porque dicha unidad de muestreo y digitalización de voz está seleccionada a partir de una tarjeta de sonido o un dispositivo de muestreo y digitalización de voz basado en un chip DSP.
19. Aparato según la reivindicación 15, caracterizado porque dicha unidad principal de salida de los indicadores está seleccionada a partir de un dispositivo de salida local, una pantalla, un altavoz, un archivo, una unidad de almacenamiento o dispositivo de comprobación; o una interfaz a un ordenador remoto, a Internet, a otra red, a un teléfono alámbrico, inalámbrico o móvil, a un juego por ordenador, a un juguete, a un organizador electrónico personal o cualquier otro equipo electrónico de salida.
20. Aparato según cualquiera de las reivindicaciones 15 a 19, caracterizado porque todas las citadas unidades están instaladas en una pequeña unidad móvil basada en un chip DSP,
21. Aparato según cualquiera de las reivindicaciones 15 a 20, caracterizado porque algunas de dichas unidades están físicamente distanciadas de otras unidades, y porque dicho aparato comprende además una interfaz para permitir la comunicación de datos entre dichas unidades.
22. Aparato según cualquiera de las reivindicaciones 15 a 21, caracterizado porque dichas unidades de preprocesamiento y dichas unidades de procesamiento están incorporadas dentro de una herramienta de software capaz de integrarse con una fuente externa de entrada de voz digitalizada y con un dispositivo externo de salida.
ES02755609T 2001-08-09 2002-08-07 Metodo y aparato para analisis de la conversacion. Expired - Lifetime ES2261706T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IL144818 2001-08-09
IL144818A IL144818A (en) 2001-08-09 2001-08-09 Method and apparatus for speech analysis

Publications (1)

Publication Number Publication Date
ES2261706T3 true ES2261706T3 (es) 2006-11-16

Family

ID=11075679

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02755609T Expired - Lifetime ES2261706T3 (es) 2001-08-09 2002-08-07 Metodo y aparato para analisis de la conversacion.

Country Status (8)

Country Link
US (1) US7606701B2 (es)
EP (1) EP1423846B1 (es)
AT (1) ATE322067T1 (es)
CA (1) CA2456625C (es)
DE (1) DE60210295T2 (es)
ES (1) ES2261706T3 (es)
IL (1) IL144818A (es)
WO (1) WO2003015079A1 (es)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018111066A1 (es) * 2016-12-15 2018-06-21 Pacheco Navarro Diana Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917366B1 (en) * 2000-03-24 2011-03-29 Exaudios Technologies System and method for determining a personal SHG profile by voice analysis
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
EP1632083A4 (en) * 2003-11-05 2007-05-02 Nice Systems Ltd DEVICE AND METHOD FOR PERFORMING EVENT DIRECTED CONTENT ANALYSIS
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US7945006B2 (en) * 2004-06-24 2011-05-17 Alcatel-Lucent Usa Inc. Data-driven method and apparatus for real-time mixing of multichannel signals in a media server
WO2006059325A1 (en) * 2004-11-30 2006-06-08 Oded Sarel Method and system of indicating a condition of an individual
US8738370B2 (en) * 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
BRPI0621991A2 (pt) * 2006-10-03 2011-12-27 Andrey Evgenievich Nazdratenko mÉtodo para determinaÇço do estado de estresse de uma pessoa de acordo com sua voz e um dispositivo para execuÇço do dito mÉtodo
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
WO2009086033A1 (en) 2007-12-20 2009-07-09 Dean Enterprises, Llc Detection of conditions from sound
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8031075B2 (en) 2008-10-13 2011-10-04 Sandisk Il Ltd. Wearable device for adaptively recording signals
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US8943394B2 (en) * 2008-11-19 2015-01-27 Robert Bosch Gmbh System and method for interacting with live agents in an automated call center
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
US8676172B2 (en) 2009-06-29 2014-03-18 Nokia Solutions And Networks Oy Generating relational indicators based on analysis of telecommunications events
US20120116186A1 (en) * 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US20110082698A1 (en) * 2009-10-01 2011-04-07 Zev Rosenthal Devices, Systems and Methods for Improving and Adjusting Communication
DE102010012427B4 (de) 2010-03-23 2014-04-24 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
US20110294099A1 (en) * 2010-05-26 2011-12-01 Brady Patrick K System and method for automated analysis and diagnosis of psychological health
US20110295597A1 (en) * 2010-05-26 2011-12-01 Brady Patrick K System and method for automated analysis of emotional content of speech
EP2418643A1 (en) 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
EP2438863A1 (en) * 2010-10-05 2012-04-11 Phibio Science AB System and methods for analysis of pause time durations in speech.
US9711137B2 (en) 2011-11-10 2017-07-18 At&T Intellectual Property I, Lp Network-based background expert
US20140095402A1 (en) * 2012-09-28 2014-04-03 Hireiq Solutions, Inc. System and Method of Scoring Candidate Audio Responses for a Hiring Decision
US9535899B2 (en) 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
US20140297551A1 (en) * 2013-04-02 2014-10-02 Hireiq Solutions, Inc. System and Method of Evaluating a Candidate Fit for a Hiring Decision
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US9894405B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Object discovery and exploration in video content
US10939175B2 (en) 2014-03-11 2021-03-02 Amazon Technologies, Inc. Generating new video content from pre-recorded video
US9747727B2 (en) 2014-03-11 2017-08-29 Amazon Technologies, Inc. Object customization and accessorization in video content
US9892556B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Real-time exploration of video content
US10375434B2 (en) 2014-03-11 2019-08-06 Amazon Technologies, Inc. Real-time rendering of targeted video content
US10092833B2 (en) 2014-06-27 2018-10-09 Amazon Technologies, Inc. Game session sharing
US9393486B2 (en) 2014-06-27 2016-07-19 Amazon Technologies, Inc. Character simulation and playback notification in game session replay
US9409083B2 (en) 2014-06-27 2016-08-09 Amazon Technologies, Inc. Spawning new timelines during game session replay
WO2016035069A1 (en) * 2014-09-01 2016-03-10 Beyond Verbal Communication Ltd System for configuring collective emotional architecture of individual and methods thereof
WO2016057781A1 (en) 2014-10-08 2016-04-14 The University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
US10293260B1 (en) 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
US10300394B1 (en) 2015-06-05 2019-05-28 Amazon Technologies, Inc. Spectator audio analysis in online gaming environments
US10970843B1 (en) 2015-06-24 2021-04-06 Amazon Technologies, Inc. Generating interactive content using a media universe database
US10864447B1 (en) 2015-06-29 2020-12-15 Amazon Technologies, Inc. Highlight presentation interface in a game spectating system
US10363488B1 (en) 2015-06-29 2019-07-30 Amazon Technologies, Inc. Determining highlights in a game spectating system
US10484439B2 (en) 2015-06-30 2019-11-19 Amazon Technologies, Inc. Spectating data service for a spectating system
US11071919B2 (en) 2015-06-30 2021-07-27 Amazon Technologies, Inc. Joining games from a spectating system
US10632372B2 (en) 2015-06-30 2020-04-28 Amazon Technologies, Inc. Game content interface in a spectating system
US10376795B2 (en) 2015-06-30 2019-08-13 Amazon Technologies, Inc. Game effects from spectating community inputs
US10345897B2 (en) 2015-06-30 2019-07-09 Amazon Technologies, Inc. Spectator interactions with games in a specatating system
US10390064B2 (en) 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US9665567B2 (en) * 2015-09-21 2017-05-30 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
CN105632486B (zh) * 2015-12-23 2019-12-17 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN107193841B (zh) * 2016-03-15 2022-07-26 北京三星通信技术研究有限公司 媒体文件加速播放、传输及存储的方法和装置
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
US20190043526A1 (en) * 2017-01-18 2019-02-07 Hewlett-Packard Development Company, L.P. Stress management through voice data analysis
EP3392884A1 (en) 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
US11887622B2 (en) * 2018-09-14 2024-01-30 United States Department Of Veteran Affairs Mental health diagnostics using audio data
US11132993B1 (en) 2019-05-07 2021-09-28 Noble Systems Corporation Detecting non-verbal, audible communication conveying meaning
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
CN112349266B (zh) * 2019-08-09 2024-07-09 深圳Tcl数字技术有限公司 一种语音编辑方法及相关设备
DE102019133684A1 (de) * 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung
US11074926B1 (en) 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
EP4115414A4 (en) 2020-03-03 2024-04-17 Vrbl Llc VERBAL COMMUNICATION ANALYSIS
US20230096357A1 (en) * 2021-09-30 2023-03-30 Sony Interactive Entertainment Inc. Emotion detection & moderation based on voice inputs
US11775739B2 (en) 2021-10-26 2023-10-03 Sony Interactive Entertainment LLC Visual tagging and heat-mapping of emotion
US20230154487A1 (en) * 2021-11-15 2023-05-18 Chu-Ying HUANG Method, system and device of speech emotion recognition and quantization based on deep learning
US11573635B1 (en) 2022-01-04 2023-02-07 United Arab Emirates University Face mask for accurate location of sensors relative to a users face, a communication enabling face mask and a communication system including the face mask

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
IL108401A (en) 1994-01-21 1996-12-05 Hashavshevet Manufacture 1988 Method and apparatus for indicating the emotional state of a person
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
IL122632A0 (en) 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018111066A1 (es) * 2016-12-15 2018-06-21 Pacheco Navarro Diana Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11942194B2 (en) 2018-06-19 2024-03-26 Ellipsis Health, Inc. Systems and methods for mental health assessment

Also Published As

Publication number Publication date
EP1423846B1 (en) 2006-03-29
ATE322067T1 (de) 2006-04-15
DE60210295D1 (de) 2006-05-18
US20040249634A1 (en) 2004-12-09
IL144818A0 (en) 2002-06-30
IL144818A (en) 2006-08-20
CA2456625A1 (en) 2003-02-20
CA2456625C (en) 2012-03-06
EP1423846A1 (en) 2004-06-02
DE60210295T2 (de) 2006-12-07
WO2003015079A1 (en) 2003-02-20
US7606701B2 (en) 2009-10-20

Similar Documents

Publication Publication Date Title
ES2261706T3 (es) Metodo y aparato para analisis de la conversacion.
Johns-Lewis Prosodic differentiation of discourse modes
Thomas Sociophonetics: an introduction
US10478111B2 (en) Systems for speech-based assessment of a patient's state-of-mind
Low et al. Influence of acoustic low-level descriptors in the detection of clinical depression in adolescents
Ballard et al. Developmental trajectory for production of prosody: Lexical stress contrastivity in children ages 3 to 7 years and in adults
KR101248353B1 (ko) 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
Hall et al. A longitudinal investigation of speaking rate in preschool children who stutter
ES2242634T3 (es) Detector de emociones telefonico con realimentacion al operador.
EP1222448B1 (en) System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US3971034A (en) Physiological response analysis method and apparatus
CN110494916A (zh) 用于心脏疾病的口头定期筛查
Hammersley et al. Voice identification by humans and computers
Ozdas et al. Analysis of vocal tract characteristics for near-term suicidal risk assessment
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP2004514178A (ja) 音声の分析の方法及び装置
KR20220048381A (ko) 말 장애 평가 장치, 방법 및 프로그램
US20030182116A1 (en) Audio psychlogical stress indicator alteration method and apparatus
Illner et al. Toward automated articulation rate analysis via connected speech in Dysarthrias
Mitsuyoshi et al. Mental status assessment of disaster relief personnel by vocal affect display based on voice emotion recognition
Mohamad Jamil et al. A flexible speech recognition system for cerebral palsy disabled
Grigorev et al. An Electroglottographic Method for Assessing the Emotional State of the Speaker
Künzel Non-contemporary speech samples: Auditory detectability of an 11 year delay and its effect on automatic speaker identification.
Sigmund et al. Statistical analysis of glottal pulses in speech under psychological stress
Karakoc et al. Visual and auditory analysis methods for speaker recognition in digital forensic