ES2261706T3 - Metodo y aparato para analisis de la conversacion. - Google Patents
Metodo y aparato para analisis de la conversacion.Info
- Publication number
- ES2261706T3 ES2261706T3 ES02755609T ES02755609T ES2261706T3 ES 2261706 T3 ES2261706 T3 ES 2261706T3 ES 02755609 T ES02755609 T ES 02755609T ES 02755609 T ES02755609 T ES 02755609T ES 2261706 T3 ES2261706 T3 ES 2261706T3
- Authority
- ES
- Spain
- Prior art keywords
- conversation
- tone
- voice
- emotional
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 230000002996 emotional effect Effects 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims description 18
- 230000001174 ascending effect Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 10
- 238000009795 derivation Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000037007 arousal Effects 0.000 abstract 2
- 230000008451 emotion Effects 0.000 description 47
- 238000005259 measurement Methods 0.000 description 15
- 238000011160 research Methods 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 239000000523 sample Substances 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000665848 Isca Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000035790 physiological processes and functions Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010001488 Aggression Diseases 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Abstract
Método para determinar el despertar emocional de un sujeto mediante el análisis de la conversación, que comprende los pasos de: obtención de una muestra de conversación; preprocesamiento de la muestra de conversación en segmentos de conversación activa y silenciosa y división de los segmentos de conversación activa en secuencias de bloques de misma longitud; teniendo dichos bloques parámetros primarios de conversación incluidos los parámetros de tono y amplitud; derivación de una pluralidad de parámetros secundarios seleccionados de conversación indicativos de las características de tendencias al tono-regular, tono- ascendente y tono-descendente en dichas secuencias de los bloques; comparación de dichos parámetros secundarios de conversación con los valores predefinidos, independientes del sujeto, que representan la conversación no-emocional para generar un resultado de procesamiento indicativo del despertar emocional, y producción del resultado procesado generado en un dispositivo de salida, en el cual dicha pluralidad de parámetros secundarios seleccionados de la conversación son seleccionados de la lista de: (a) Longitud media de silencios cortos y / o frecuencia de silencios cortos; (b) Longitud media de segmentos de tono regular y / o frecuencia de los segmentos de tono regular; (c) Promedio de la longitud de los segmentos de tono ascendente y / o frecuencia de los segmentos de tono ascendente y / o promedio de la longitud de los segmentos de tono descendente y / o frecuencia de los segmentos de tono descendente; y (d) Dispersión media de amplitud dentro de los segmentos de tono regular de la conversación.
Description
Método y aparato para análisis de la
conversación.
La presente invención se refiere al campo del
análisis de voz y de la conversación y en particular al análisis de
las características acústicas y prosódicas de la conversación.
Se sabe desde hace mucho tiempo que ciertas
características de voz llevan información con respecto al estado
emocional del que habla. Mucho tiempo atrás en 1934, Lynch observó
diferencias en las características de los tiempos y del tono entre
la conversación factual y emocional. (Lynch, G.E. (1934). A
Phonophotographic Study of Trained and Untrained Voices Reading
Factual and Dramatic Material, Arch. Speech. 1
9-25.)
Desde entonces, numerosos estudios han
demostrado las correlaciones entre varias características de
conversación no-verbal y los estados emocionales
específicos, y los esfuerzos de investigación se han dirigido hacia
distintos aspectos del fenómeno de conversación emocional. Una línea
de investigación se centra en la identificación de los soportes de
emoción dentro de la señal de conversación, y los estudios mostraron
estructuras complejas de correlación entre el tono (la entonación
fundamental de la voz, que depende del número de vibraciones de las
cuerdas vocales por segundo), la amplitud, tiempos, duración, ritmo,
contornos de la envolvente y demás variables de la palabra así como
el estado emocional del que habla. Una segunda área de investigación
trata de explorar la expresión de distintas dimensiones emocionales
en la conversación, y los estudios sugieren correlaciones entre los
elementos constituyentes de la conversación y las dimensiones que
caracterizan el estado emocional del sujeto. Otro esfuerzo de
investigación se centra en la revelación de las correlaciones
características entre las partes de conversación y varios estados
emocionales, incluidas las emociones primarias, como la ira, las
emociones secundarias, como el aburrimiento, por ejemplo, y las
situaciones específicas de tensión, como la ansiedad, carga de
trabajo y mentira, por ejemplo. Todavía otra área de investigación
trata de señalar las diferencias en las estructuras emocionales de
conversación entre distintos individuos, distintos grupos de
individuos, según la categorización por sexo, edad, cultura y tipo
de personalidad, por ejemplo, y aun entre las estructuras de voz
correspondientes a distintos estados fisiológicos de los mismos
individuos.
Tres extensas revistas de literatura, que
resumen los distintos descubrimientos referentes a la expresión oral
de la emoción, fueron publicadas por Murray, I.R. and Arnott, J.L.,
(1993), Towards the Simulation of Emotion in Synthetic Speech: A
review of the Literature on Human Vocal Emotion, Journal of the
Acoustical Society of America, vol. 93 (2),
1097-1108, por Frick, R.W. (1985), Communicating
Emotion: The Role of Prosodic Features, Psychology Bulletin, 97,
412-429, y por Scherer, K.R. (1986), Vocal
Affect Expression: A Review and a Model for Future Research,
Psychology Bulletin, 99, 143-165. Todos estos
escritores enfatizan la naturaleza fragmentada de la investigación
en este campo, y señalan que la investigación de la emoción vocal
forma solamente una parte aislada y muy pequeña de la literatura
general sobre emociones y la literatura general sobre análisis de la
palabra. Estos análisis apoyan la noción de que las características
de la voz humana varían con respecto a la expresión de la emoción;
pero destacan la complejidad de la interacción entre fisiología,
psicología y palabra en cuanto a las emociones. Recalcan también la
necesidad de modelos generalizados sobre una comprensión más
coherente de los fenómenos.
Recientemente, algunos estudios se han acercado
a la tarea de una clasificación automática de la expresión vocal de
distintos estados emocionales mediante la utilización de modelos
estadísticos de reconocimiento de las estructuras. Se consiguió un
éxito relativo, véase Dellaert, F. Polzin, T.S. and Waibel, A.
(1996), Recognizing emotions in speech. In Proc. ICSLP, Philadelphia
PA, USA, 1996 and Amir, N. and Ron, S. (1998), Towards an automatic
classification of emotions in speech. In Proc. ICSLP, Sydney, 1998,
por ejemplo.
El campo de la emoción en la palabra está
levantando un interés creciente, y en Belfast, en septiembre de
2001, se celebró un taller especial dedicado a este asunto (Taller
ISCA sobre Palabra y Emoción - documentos presentados:
http://www.qub.ac.uk/en/isca/proceedings/index.html). Los
documentos, teóricos y empíricos, revelan una vez más la complejidad
del fenómeno, la falta de datos y los distintos aspectos
involucrados.
Con respecto a la detección de la emoción a
través del análisis de la conversación, la literatura destaca varios
problemas, todavía sin resolver. Quisiéramos enfatizar dos de los
problemas más importantes:
El primer problema es la falta de un modelo
unificado de correlativos acústicos emocionales, que permitan que
los distintos contenidos emocionales en la conversación sean
dirigidos por un indicador general; el estado actual de la
investigación permite solamente señalar correlaciones acústicas
aisladas con los estados emocionales específicos.
El segundo problema es la dificultad en superar
las distintas estructuras de expresión de la palabra de distintas
personas que hablan, lo que tiende a disimular las diferencias
emocionales. La investigación anterior ha tratado de confrontar el
último problema mediante la obtención de características de
referencia de la palabra del individuo sometido a prueba, o de
grupos específicos de individuos. Siendo las referencias mediciones
anteriores de la línea de base (no-emocionales) de
un sujeto específico, o los perfiles específicos emocionales de la
conversación de grupos relativamente homogéneos de sujetos, como
todos los sujetos que padecen depresión, por ejemplo.
\newpage
Durante años se han registrado varias patentes
sobre este campo. Estas patentes se caracterizan principalmente por
tener las mismas limitaciones descritas anteriormente en cuanto a la
investigación académica, a saber, que se centran en los estados
emocionales específicos y dependen de las mediciones de referencia
anteriores. Las patentes varían también de forma significativa en
sus procedimientos y parámetros de medición.
Fuller, en tres Patentes desde 1974, (US
3.855.416; US 3.855.417 y US 3.855.418) sugiere un método para
indicar la tensión en la conversación y para determinar si un sujeto
está mintiendo o diciendo la verdad. El método sugerido mide el
contenido vibrato (modulación rápida de la fonación) y la amplitud
óptima normalizada de la señal de conversación, y se dirige
particularmente a analizar la conversación de un sujeto
interrogado.
Bell et al., en 1976 (Patente US
3.971.034) sugirió también un método para detectar la tensión
psicológica a lo largo de la conversación. El método descrito se
basa principalmente en la medición de los cambios de modulación
infrasónica en la voz.
Williamson, en dos patentes de 1978 y 1979 (US
4.093.821 y US 4.142.067) describe un método para determinar el
estado emocional de una persona, mediante el análisis de las
perturbaciones de frecuencia en la estructura de la conversación. El
análisis se basa principalmente en las mediciones de la primera
frecuencia formante de la conversación, pero sin embargo, las
diferencias que corresponden a los distintos estados emocionales no
se especifican claramente: en la primera patente, el aparato indica
principalmente la tensión con respecto a la relajación, mientras que
en la segunda patente, el usuario del dispositivo debe aplicar la
"integración visual y la interpretación de la salida
visualizada" para "adoptar ciertas decisiones con respecto al
estado emocional".
Jones, en 1984 (Patente US 4.490.840), sugiere
un método para determinar las estructuras de
voz-estilo (resonancia, calidad),
conversación-estilo
(variable-monótona, cortada-suave,
etc.) y perceptual-estilo
(sensorio-interno, odio-amor, etc.),
basándose en distintas características de voces, incluidos seis
picos y pausas espectrales dentro de la señal de conversación. Sin
embargo, el inventor establece que "la presencia del contenido
emocional específico no es de interés para la invención revelada
aquí".
Silverman, en dos patentes de 1987 y 1992 (US
4.675.904 y US 5.148.483) sugiere un método para detectar la
predisposición suicida a partir de las estructuras de la
conversación de una persona, mediante la identificación de la
disminución sustancial sobre la conclusión de la elocución y la baja
modulación en amplitud durante la elocución.
Ron, en 1997 (Patente US 5.647.834) describe un
sistema de regulación de la biorretroacción basada en la
conversación que permite que un sujeto controle y cambie su estado
emocional. Se extrae una señal de indicación emocional de la
conversación del sujeto (no se describe en la patente el método de
medición) y se compara con las mediciones fisiológicas en línea del
sujeto que sirven de referencia para su condición emocional.
Entonces el sujeto puede intentar cambiar la señal de indicación con
el fin de conseguir el control de su estado emocional.
Bogdashevsky, et al., en una patente de
1999, (US 6.006.188) sugiere un método para determinar las
características psicológicas o fisiológicas de un sujeto basándose
en la creación de bases específicas antes del conocimiento para
ciertos estados psicológicos y fisiológicos. El proceso descrito
implica la creación de grupos homogéneos de sujetos según su
evaluación psicológica (por ejemplo, grupos de diagnóstico de la
personalidad según las clasificaciones psicológicas comunes), el
análisis de sus únicas estructuras de conversación (basándose en los
coeficientes cepstrales) y la formación de bases específicas de
conocimiento para estos grupos. La correspondencia con ciertos
grupos psicológicos y fisiológicos puede realizarse mediante la
comparación de las estructuras de conversación de un individuo (a
quien se pide que diga un texto de 30 frases similar al texto
utilizado por el grupo de referencia), con las características de
las bases de conocimiento del grupo. La patente reivindica permitir
el diagnóstico psicológico verbal de las condiciones relativamente
constantes, tal como la comparación del estado mental antes y
después de la terapia y perfil de personalidad, por ejemplo.
Pertrushin, en el año 2000 (patente US
6.151.571), describe un método para controlar una conversación entre
dos personas que hablan, detectar una emoción de al menos una de las
personas, determinar si la emoción es una de las tres emociones
negativas (ira, tristeza o miedo) y luego comunicar la emoción
negativa a una tercera parte. Con respecto al proceso de
reconocimiento de la emoción, la patente detalla las etapas
necesarias para obtener estos resultados: primero, se recomienda la
realización de un experimento con los sujetos objetivo, con el fin
"de determinar qué partes de una voz son las más fiables como
indicadores de la emoción". Se sugiere utilizar un conjunto de
las locuciones más fiables de este experimento como "entrenamiento
y datos de prueba para los algoritmos de reconocimiento de las
estructuras accionados por un ordenador". La segunda etapa es la
extracción de las características para los estados emocionales
basados en los datos recogidos. La patente sugiere varios métodos
posibles de extracción de características mediante la utilización de
una variedad de características de la conversación. La tercera etapa
consiste en reconocer las emociones basadas en las características
extraídas. Se ofrecen dos aproximaciones - redes neurales y
conjuntos de clasificadores. Los conjuntos de datos previamente
recogidos (que representan las emociones) pueden ser utilizados para
entrenar los algoritmos para que determinen las emociones
correctamente. Se presentan unos aparatos ejemplares así como las
técnicas para mejorar la detección de la emoción.
Slaney, en una patente de 2001 (US 6.173.260)
describe un sistema de clasificación emocional de la conversación.
El sistema descrito se basa en un procedimiento empírico que extrae
la mejor combinación de características de la conversación
(distintas mediciones del tono y de la forma espectral de la
envolvente), que caracteriza un conjunto determinado de elocuciones
identificadas de acuerdo con las clases predefinidas de emoción.
Después de haber "entrenado" el sistema en el conjunto
determinado de elocuciones, puede utilizar las características
extraídas para otra clasificación de otras elocuciones en estas
clases emocionales. Sin embargo, el procedimiento no presenta ningún
indicador emocional general, y asume solamente que se pueden extraer
empíricamente distintas características emocionales para distintas
situaciones emocionales.
Dos solicitudes publicadas de PCT por Liberman
se refieren también a la emoción en la conversación. Liberman, en
1999 (WO 99/31653), sugiere un método para determinar ciertos
estados emocionales a través de la conversación, incluida la tensión
emocional y los estados relacionados con la mentira, como la
falsedad, confusión e incertidumbre, la disonancia psicológica,
sarcasmo, exageración. El procedimiento se basa en la información
por medición de la entonación de la conversación, en particular,
mesetas y picos en la envolvente de la señal de conversación,
mediante la utilización de elocuciones previas de la persona que
habla como referencia de la línea de base.
Liberman, en el año 2000 (WO 00/62270) describe
un aparato para controlar los estados emocionales inconscientes de
un individuo a partir de unas muestras de conversación
proporcionadas por teléfono a un analizador de voz. Los indicadores
emocionales incluyen un nivel de actividad cognitiva subconsciente,
un nivel de actividad emocional subconsciente, un nivel de
anticipación, un nivel de atención, una "comunicación amorosa"
y un despertar sexual. El método utilizado, se basa en el análisis
del espectro de frecuencias de la conversación, en el cual el
espectro de frecuencias se divide en cuatro regiones de frecuencias
y se reivindica que el porcentaje más alto de frecuencias en una de
las regiones refleja la dominancia de uno de los estados emocionales
anteriores. Se sugiere que la actividad cognitiva estaría en
correlación con las frecuencias más bajas, atención/concentración
con las principales frecuencias del espectro, la actividad emocional
con las frecuencias altas, y el nivel de anticipación con las
frecuencias más altas.
La mayoría de las patentes anteriormente
mencionadas (Fuller, Bell, Jones, Silverman y Liberman) identifican
los estados emocionales específicos como la tensión, la
mentira o una tendencia al suicidio, mediante la correlación de las
características específicas de la conversación y estas
condiciones emocionales. Dos de las patentes (Williamson, Ron)
asumen que los correlativos apropiados de conversación de los
estados emocionales se dan como entrada e ignoran totalmente la
tarea de describir algún indicador general de las características
emocionales de la conversación. Tres de las patentes (Bogdashevsky,
Petrushin y Slaney), sugieren unos procedimientos para la extracción
de los correlativos específicos de la conversación mediante "el
aprendizaje" de determinadas clases emocionales de elocuciones de
conversación. Por lo tanto, ninguna de las patentes anteriormente
mencionadas sugiere un indicador basado en una conversación
generalizada del despertar emocional en sí, que describa la
expresión vocal de la respuesta emocional creada por un amplio
registro de distintos estados emocionales.
Además, con el fin de superar las diferencias
entre individuos, algunas de estas patentes (Fuller, Williamson),
requieren un experto especializado para analizar manualmente los
resultados. Otras patentes (Ron, Liberman) requieren una comparación
de las mediciones de conversación de los sujetos con las mediciones
previas de la línea de base del mismo individuo, como referencia.
Otras patentes (Bogdashevsky, Petrushin y Slaney) requieren un
proceso previo de aprendizaje de las características de conversación
de grupos específicos de individuos o fenómenos psicológicos
específicos, para que se utilicen como referencia.
Por lo tanto, ninguna de las patentes anteriores
analizadas en este arte denso sugiere un indicador de conversación
emocional que sea resistente, y que tenga validez más allá de las
distintas emociones y más allá de las diferencias entre los
individuos específicos y los grupos específicos. Esta invención se
dirige a proporcionar este indicador general, resistente, del
despertar emocional, mediante análisis de la conversación, que sea
insensible a las diferencias entre los sujetos y a los tipos
particulares de emoción, pero sensible al despertar emocional en
sí.
La presente invención se dirige a la provisión
de un indicador general del despertar emocional de un sujeto,
mediante análisis de la conversación, aplicable a un amplio registro
de distintos estados emocionales. Este indicador emocional de la
conversación es válido más allá de las diferencias de estructura de
la conversación entre individuos específicos o grupos específicos de
individuos, y no requiere la comparación de una muestra de
conversación procedente de un sujeto con una muestra de referencia
de conversación obtenida anteriormente, del mismo sujeto.
De acuerdo con la presente invención se
proporciona un método tal como se reivindica en la reivindicación 1
para determinar el despertar emocional de un sujeto mediante el
análisis de la conversación, que comprende los pasos de: obtención
de una muestra de conversación; preprocesamiento de la muestra de
conversación en segmentos de conversación activa y silenciosa y
división de los segmentos de conversación activa en secuencias de
bloques de misma longitud; teniendo los bloques parámetros primarios
de conversación incluidos los parámetros de tono y amplitud;
derivación de una pluralidad de parámetros secundarios seleccionados
de conversación indicativos de las características de tendencias al
tono-regular, tono-ascendente y
tono-descendente en las secuencias de los bloques;
comparación de los parámetros secundarios de conversación con los
valores predefinidos, independientes del sujeto que representan la
conversación no-emocional para generar un resultado
de procesamiento indicativo del despertar emocional, y producción
del resultado procesado generado en un dispositivo de salida, en el
cual la pluralidad de parámetros secundarios seleccionados de la
conversación está seleccionada a partir de la lista de: longitud
media de pausa y/o frecuencia de pausa; longitud media de silencios
cortos y/o frecuencia de silencios cortos; longitud media de
segmentos de tono regular y/o frecuencia de los segmentos de tono
regular; promedio de la longitud de los segmentos de tono ascendente
y/o frecuencia de los segmentos de tono ascendente y/o promedio de
la longitud de los segmentos de tono descendente y/o frecuencia de
los segmentos de tono descendente; y la dispersión media de amplitud
dentro de los segmentos de tono regular de la conversación.
Preferentemente, el método de derivación incluye
además la derivación de una pluralidad de parámetros secundarios
seleccionados de la conversación indicativos de las características
de pausa y silencio de la muestra de conversación que se está
analizando, incluyendo opcionalmente el análisis de la irregularidad
de paso y ritmo, tono, y amplitud de la muestra de conversación que
se está analizando.
Opcionalmente, la etapa para la obtención de una
muestra de conversación comprende la etapa de entrada de un archivo
de voz digitalizada. Como alternativa, la etapa de obtención de una
muestra de conversación comprende la etapa de capturar ejemplares de
conversación y el muestreo y digitalización de los ejemplares de
conversación en una unidad de muestreo y digitalización de la voz
para formar un archivo de voz digitalizada.
Opcionalmente, la etapa de preprocesamiento
incluye: la obtención de las muestras de voz digitalizada, la
normalización de dichas muestras de voz, la filtración de datos, la
reducción de ruidos, la segmentación de las muestras de voz en
segmentos de silencio y conversación, la división de los segmentos
de conversación en bloques, y el procesamiento de los bloques por
autocorrelación, para calcular los parámetros de tono y amplitud de
voz por bloque.
En una realización, el método descrito
anteriormente puede adaptarse para analizar una señal de
conversación incluida una pluralidad de voces interactivas, que
comprende además las etapas adicionales de: separar las voces
interactivas en canales individuales de voz, obtener muestras de voz
digitalizada, realizar la normalización de las muestras en cada
canal de interés, realizar la filtración de datos en cada canal de
interés, realizar la reducción de ruidos en cada canal de interés,
realizar la segmentación de silencios y conversación y dividir los
segmentos de conversación en bloques en cada canal de interés, así
como procesar la autocorrelación para calcular los parámetros de
tono y amplitud de la voz por bloque en cada canal de interés.
Opcionalmente, la etapa de comparar los
parámetros secundarios de conversación con valores predefinidos,
independientes del sujeto, que representan la conversación
no-emocional para generar un resultado de
procesamiento indicativo del despertar emocional, incluye la
comparación de al menos dos categorías de parámetros secundarios de
voz con los valores predefinidos que representan la conversación
no-emocional, seleccionándose las categorías a
partir de la lista de longitud media de pausa y/o frecuencia de
pausa; longitud media de silencios cortos y/o frecuencia de
silencios cortos; longitud media de los segmentos de tono regular
y/o frecuencia de los segmentos de tono regular; promedio de la
longitud de los segmentos de tono ascendente y/o frecuencia de los
segmentos de tono ascendente y/o promedio de la longitud de los
segmentos de tono descendente y/o frecuencia de los segmentos de
tono descendente; y la dispersión media de amplitud dentro de los
segmentos de tono regular de la conversación.
Opcionalmente, el método comprende además el
cálculo de un grado de fiabilidad basado en al menos un factor
seleccionado a partir de la lista de: calidad del segmento de voz;
significado de la decisión de despertar emocional, y coherencia de
los resultados específicos de los segmentos con los resultados de
los segmentos previos de conversión.
Preferentemente, la calidad del segmento de voz
se determina basándose en el nivel de ruido, tamaño de los datos
muestreados, y calidad de los datos muestreados.
Preferentemente, el significado de la decisión
de despertar emocional se determina, basándose en el número de
parámetros participantes y el grado de desviación dentro de cada
parámetro.
Opcionalmente, existe una etapa adicional de
procesamiento de estructuras para detectar las estructuras
emocionales que se manifiestan durante un eje de tiempo.
En un segundo aspecto, la presente invención se
dirige a un aparato con unos medios dispuestos para ejecutar el
método de análisis de la conversación según la reivindicación 1, que
comprende: una unidad de entrada de voz, una unidad de
preprocesamiento para las muestras de preprocesamiento de voz
procedentes de la unidad de entrada de voz, una unidad principal de
procesamiento para procesar dichas muestras preprocesadas de voz y
detectar el despertar emocional procedente de las mismas; y una
unidad principal de salida de indicadores para dar salida a una
indicación sobre el despertar emocional.
Opcionalmente, la unidad de entrada de voz
incluye una unidad de captura de voz y una unidad de muestreo y
digitalización de voz acoplada a la unidad de captura de voz para
muestrear y digitalizar la entrada de voz capturada.
Opcionalmente, la unidad de entrada de voz
incluye un micrófono, una interfaz a un reproductor audio, una
interfaz a un teléfono alámbrico, inalámbrico o móvil, una interfaz
a Internet u otra red, una interfaz a un ordenador, una interfaz a
un organizador personal electrónico o a cualquier otro equipo
electrónico, una interfaz a un juguete.
Preferentemente, la unidad de muestreo y
digitalización de voz está seleccionada a partir de una tarjeta de
sonido, o un dispositivo de muestreo y digitalización de voz basado
en un chip DSP.
\newpage
Preferentemente, la unidad principal de salida
de indicadores está seleccionada a partir de un dispositivo de
salida local, una pantalla, un altavoz, un archivo, una unidad de
almacenamiento o dispositivo de comprobación; o una interfaz a un
ordenador remoto, a Internet, a otra red, a un teléfono alámbrico,
inalámbrico o móvil, a un juego por ordenador, a un juguete, a un
organizador electrónico personal o cualquier otro equipo electrónico
de salida.
Opcionalmente, todas las unidades anteriormente
mencionadas se instalan en una unidad pequeña, móvil, basada en un
chip DSP. Como alternativa, algunas de las unidades pueden estar
alejadas físicamente de otras unidades, y el aparato puede
comprender además una interfaz para permitir la comunicación de
datos entre las unidades.
Las unidades de preprocesamiento y procesamiento
pueden incorporarse alternativamente en una herramienta de software
capaz de integrarse en una fuente externa de entrada digitalizada de
voz y en un dispositivo externo de salida.
Por parámetro primario de conversación, tal como
se utiliza aquí, se entienden los valores absolutos de los
parámetros como los de tono o intensidad. Por parámetro secundario
de conversación, se entiende la variación en los valores absolutos
de los parámetros utilizados aquí. Por lo tanto los parámetros
secundarios de conversación son estadísticas derivadas que son
generalmente menos propensas a las diferencias culturales, de edad y
de género, interferencia de fondo, calidad de señal analizada y
demás factores deformantes, y los parámetros secundarios de
conversación utilizados para indicar el despertar emocional en las
realizaciones preferidas de la presente invención, están
seleccionados como particularmente resistentes, con baja
sensibilidad a las diferencias entre individuos y a la interferencia
de fondo.
La presente invención se entenderá y apreciará
mejor a partir de la siguiente descripción detallada tomada
conjuntamente con los dibujos, en los cuales:
La Fig. 1, es una ilustración en diagrama de
bloques de un aparato construido y operativo de acuerdo con una
realización de la presente invención.
La Fig. 2, es un diagrama de proceso de una
unidad de preprocesamiento construida y operativa de acuerdo con una
realización de la presente invención.
La Fig. 3, es un diagrama de proceso de una
unidad principal de procesamiento construida y operativa de acuerdo
con una realización de la presente invención.
La presente invención se refiere a un método y
aparato para detectar el despertar emocional a través del análisis
de la conversación. El término "conversación emocional" se
utiliza aquí, con respecto a un segmento de conversación en el cual
la persona que habla se expresa de una forma emocional. La
conversación no-emocional se refiere a un segmento
de conversación en el cual la persona que habla no se expresa de una
forma emocional. Las descripciones anteriores de experiencias y
sentimientos o futuras expectativas de eventos deseados o no
deseados pueden considerarse como conversación emocional solamente
si el sentimiento o evento concreto descrito o deseado se expresa
actualmente de forma emocional. La documentación y patentes
analizadas anteriormente, apoyan claramente el fenómeno de que
distintos estados emocionales, cuando se expresan oralmente, cambian
las características de la conversación de un sujeto, en comparación
con las características de la conversación
no-emocional. Sin embargo, la provisión de un
indicador general que pueda determinar un nivel de despertar
emocional de un persona a través del análisis de la conversación
sigue siendo una tarea muy difícil, debido principalmente a tres
factores:
1. Distintos estados emocionales afectan de
manera diferente a las características de conversación de un
individuo.
2. Las características de la voz y la
conversación varían significativamente entre individuos.
3. Distinta intensidad emocional (de la misma
emoción) afecta a distintos elementos de la conversación hasta
distintos puntos.
Con el fin de superar el efecto de estos
factores, la mayoría de las patentes e investigaciones existentes
siguen dos directrices: separan la medición de los distintos tipos
de emoción y utilizan muestras anteriores para obtener una línea de
base de referencia.
La presente invención sugiere un método de
análisis de conversación, automático y en tiempo real para indicar
la existencia de un nivel de despertar emocional generalizado de un
sujeto en un tiempo determinado, más allá de los estados específicos
de emoción y más allá de las diferencias específicas entre
individuos, sin utilizar una línea de base de conversación de
referencia específica del propio sujeto.
La eliminación de la necesidad de una línea de
base de referencia específica, la generalización de las
características de la voz de despertar emocional más allá de los
estados emocionales específicos y el método de detección emocional
basándose en las tendencias de tonos dentro del segmento de
conversación son tres nuevas características de la presente
invención,
Una suposición central que sirve de base a la
presente invención es que la conversación
no-emocional refleja un estado de equilibrio, y que
la conversación emocional refleja una desviación de este equilibrio.
Se conoce el despertar emocional por ser una desviación de un
equilibrio fisiológico en ciertos estados emocionales como la
tensión, por ejemplo. Se expresa en cambios en las variables del
sistema autonómico, como el ritmo de los latidos cardíacos, la
actividad muscular, la resistencia galvánica de la piel, la presión
sanguínea y la temperatura sanguínea. De una manera correspondiente,
se propone que los cambios en las estructuras de conversación
durante el despertar emocional puedan reflejar una desviación del
estado no-emocional equilibrado, ordenado, y la
presente invención se basa en el principio de que las
características de la conversación durante el despertar emocional
son menos sistemáticas y más desordenadas que las características de
la conversación no-emocional. La violación del ritmo
ordenado de conversación que corresponde al despertar o excitación
emocional extrema, como el llanto o grito, por ejemplo, está claro
para la mayoría de los oyentes. Existen cambios similares,
correspondientes en las estructuras ordenadas de conversación que
expresan también los niveles menores de excitación.
Aunque distintos estados emocionales puedan
producir distintas características de conversación, se sugiere que
un factor común de las características de conversación en muchos
estados diferentes, emocionalmente despiertos, radica en la
irregularidad de las estructuras de la conversación cuando se
compara con la naturaleza más sistemática de la conversación
no-emocional. De forma similar, aunque distintos
individuos que están emocionalmente despiertos, o excitados, puedan
tener distintas características de conversación, se sugiere no
obstante que casi todos los individuos normales emocionalmente
despiertos, tienen estructuras de conversación menos ordenadas si se
compara con sus estructuras de conversación generales,
no-emocionalmente despiertas. La presente invención
se centra en la medición de la matriz de este factor común, como
indicador que señala el despertar emocional general de los
individuos.
Tal como se expone en la literatura, se ha
descubierto que la expresión de los distintos estados emocionales
tenía una correlación con las características específicas de la
conversación. Por contraste, proponemos aquí, que dos tipos de
variables tiendan a caracterizar el "despertar
emocional" mismo, más que los estados emocionales
específicos. La primera variable, denominada aquí presencia de
tono constante, es el grado de presencia de los períodos de
tonos regulares dentro del segmento de conversación, y la segunda
variable es el nivel de coherencia de las distintas
características de conversación, que es una medición del
ordenamiento de la estructura de conversación.
Presencia de tono constante: Como regla
general, se sugiere que la conversación emocional se caracteriza por
la presencia más baja de períodos de tonos regulares y por la
presencia más alta de períodos de tonos cambiantes (ascendentes o
descendentes) lo que significa que la conversación emocional muestra
un número más pequeño por segundo y una longitud media más corta de
períodos de tonos regulares dentro del segmento de conversación en
comparación con la conversación no-emocional
regular. Debe observarse que no sugerimos que la conversación
emocional se caracterice siempre por una variación/registro más alto
de tonos o por una frecuencia más alta de cambios de dirección de
los tonos(ascendente/descendente) dentro del segmento de
conversación, ya que las últimas variables se ven más afectadas por
los estados emocionales específicos, por las diferencias
individuales y por la sonoridad de la conversación. Por contraste,
sugerimos que los parámetros de presencia de tonos constantes se ven
menos afectados por los factores de intervención anteriores, que lo
es la variación/registro/frecuencia más alta de tonos de los
parámetros de cambios. En consecuencia, son muy indicativos del
despertar emocional.
Nivel de coherencia de las distintas
características de conversación: Tal como se ha mencionado, se
sugiere que la irregularidad en las estructuras de la conversación
tiene relación con la expresión emocional.
El comportamiento general, menos ordenado de las
características de conversación es evidente a través de la
incoherencia más alta de varias variables de conversación, tal como
la longitud y dispersión de los intervalos entre las pausas y los
silencios secuenciales, la longitud de las pausas y de los silencios
mismos así como la longitud, frecuencia y dispersión de distintos
tipos de segmentos de no-silencio (por ejemplo la
longitud de los períodos de tonos ascendentes y descendentes). De
forma similar a la medición de la presencia de tonos regulares, se
pone énfasis en la medición de eventos en la escala de tiempos -
número por segundo, longitudes, intervalos y dispersión de las
variables específicas de conversación o períodos agrupados dentro
del segmento de conversación. Estas variables basadas en el tiempo
generalmente se ven menos afectadas que las variables de tonos y
amplitud por los factores de intervención y derivación. La detección
de una combinación de desviaciones en algunas de estas variables
procedentes de una estructura ordenada de conversación puede revelar
la irregularidad en las estructuras de la conversación que tienen
relación con el despertar emocional.
Tal como se ha establecido anteriormente, las
estructuras de voz y conversación varían significativamente de una
persona a otra. Algunas de estas diferencias son de naturaleza
general. Por ejemplo, estadísticamente, la conversación de las
mujeres tiene un tono más alto que la conversación de los hombres.
Otras diferencias son más específicas. Por ejemplo, la conversación
de un individuo posee las características típicas de tono de este
individuo, y existen muchas otras tendencias de conversación que
caracterizan la conversación de individuos particulares, como la
conversación monótona, conversación pausada, etc.
\newpage
En las realizaciones de la presente invención,
para superar los efectos de derivación debidos a las características
generales de las estructuras de conversación de los individuos, la
determinación del nivel general de despertar emocional del
sujeto hace un uso selectivo de los parámetros secundarios
del tono de voz, y un uso selectivo de los parámetros
secundarios de la amplitud de voz.
Utilización de los parámetros secundarios de
conversación más que de los primarios: El análisis de la
conversación de acuerdo con las realizaciones de la presente
invención utiliza principalmente los parámetros secundarios de voz y
conversación y hace caso omiso de los parámetros primarios.
Con el propósito de esta solicitud, el término
parámetros secundarios de voz implica los parámetros que derivan de
los parámetros primarios de tono y amplitud, y no los parámetros
primarios mismos. Los parámetros primarios se ven muy afectados por
las diferencias entre individuos, y por lo tanto no se tienen en
consideración, o al menos no se les considera mucho en los análisis
realizados de acuerdo con la presente invención. Por lo tanto, el
valor de frecuencia de la voz, o el tono mismo, no se utiliza
generalmente como parámetro, ya que varía significativamente entre
distintas personas. Sin embargo, se da importancia a los cambios de
tonos dentro de los segmentos de conversación, ya que éstos
contribuyen a los valores relativos, más que
absolutos, y se ven, por lo tanto, menos afectados por las
diferencias entre individuos.
Utilización selectiva de los parámetros
secundarios de tonos de voz: Los parámetros secundarios de voz
son también sensibles, hasta cierto grado, a las diferencias entre
las estructuras de conversación de distintos individuos. El
procesamiento de conversación de la presente invención ignora la
mayoría de los parámetros secundarios más afectados por estas
diferencias.
Un ejemplo de un parámetro secundario de tono de
voz no utilizado, es el registro de cambio de tonos.
Se considera como un parámetro secundario, ya que representa
solamente los cambios relativos del tono de la persona que habla, y
no el tono mismo. Sin embargo, como este parámetro tiene una
importante correlación con el valor de tono concreto, a
menudo se ve notablemente afectado por las diferencias entre
individuos, y no sólo por el estado del despertar emocional en sí.
En consecuencia, el procesamiento de conversación de acuerdo con la
presente invención, ignora típicamente este parámetro, y, del mismo
modo, otros parámetros secundarios que varían significativamente con
el individuo.
Utilización selectiva de los parámetros
secundarios de amplitud de voz: Numerosos parámetros de
amplitud de voz, tanto primarios como secundarios, se ven más
afectados por las diferencias de conversación entre individuos que
los parámetros de tono. Los parámetros de amplitud son también muy
sensibles a la calidad general de la señal de voz analizada, los
cuales son afectados desfavorablemente por los efectos ambientales,
como la interferencia, como el ruido del sonido, y por el ruido
electrónico asociado a los distintos componentes del equipo de
análisis. En consecuencia, la determinación de la existencia del
despertar emocional de acuerdo con la presente invención pone poco
énfasis en los parámetros de amplitud, tanto primarios como
secundarios.
Aunque la magnitud del despertar emocional de un
sujeto sea indicado a veces por la magnitud (volumen) de la
conversación misma, no es siempre el caso. Por ejemplo, cuando una
persona grita de ira, normalmente su tono de voz, amplitud de voz y
aumento de velocidad de la conversación, provocan también el
incremento correspondiente en muchos parámetros secundarios de la
conversación, sin embargo, el perfil de conversación de alguien que
grita de ira puede ser muy distinto del perfil de conversación de
alguien que muestra una forma menos excitada de ira, aunque ambos
representen el despertar emocional. Por ejemplo, existen personas
que demuestran la ira hablando tranquila y pausadamente.
La presente invención se centra en la detección
del despertar emocional en sí, y no solamente el despertar emocional
intenso, o el despertar emocional que corresponde a cualquier
emoción particular. Además, como las diferencias en el volumen de
conversación que no están relacionadas con el despertar emocional
pueden afectar a las características de conversación de una forma
indirecta, por ejemplo al influir en el nivel de volubilidad de
ciertos parámetros de conversación, es importante minimizar, lo más
posible, los efectos del volumen de conversación sobre el
procesamiento de la conversación. Esto puede realizarse siguiendo
las mismas directrices que las que se han detallado antes con
respecto a la superación de los efectos de las estructuras
individuales de conversación, incluida la utilización selectiva del
tono principalmente secundario y los parámetros de amplitud.
Además, para reducir aun más la sensibilidad del procesamiento al
efecto de la magnitud de voz, se realiza preferentemente un
procesamiento adicional. La principal influencia que tiene el
volumen audible de la conversación sobre la conversación es al
aumentar o disminuir los registros de sus parámetros. En
consecuencia, el procesamiento de la conversación de la presente
invención hace generalmente una clasificación inicial de cada
segmento procesado de conversación de acuerdo con una de las varias
clases típicas de comportamiento en los registros de parámetros.
Esta clasificación inicial permite que el procesamiento utilice
distintos criterios para determinar la existencia del despertar
emocional en distintas clases de registros de parámetros.
\newpage
Tal como se ha mencionado anteriormente, después
de minimizar los distintos efectos de derivación, se ha descubierto
que las características de conversación que están asociadas de forma
más directa al despertar emocional son el grado de presencia del
tono constante, irregularidad de los pasos, ritmo y demás
indicadores de la estructura de conversación.
De forma más específica, el algoritmo de la
presente invención utiliza una combinación de al menos dos, y
- preferentemente más de las siguientes
categorías de parámetros de conversación:
- \bullet
- Longitud media de pausa y/o frecuencia de pausa
- \bullet
- Longitud media de los silencios cortos y/o frecuencia de los silencios cortos
- \bullet
- Longitud media de los segmento de tono regular y/o frecuencia de los segmentos de tono regular
- \bullet
- Longitud media de los segmentos de tono ascendente y/o frecuencia de los segmentos de tono ascendente y/o longitud media de los segmentos de tono descendente y/o frecuencia de los segmentos de tono descendente
- \bullet
- Dispersión de la amplitud dentro de los segmentos de tono regular de la conversación.
Por "pausas" se quiere decir
silencios relativamente largos en la conversación. Las pausas son
típicamente interrupciones de aproximadamente 0,25 - 1,5 segundos en
la conversación, que aparecen normalmente entre las frases, por
ejemplo.
Por "silencios cortos", se quiere
decir interrupciones con duraciones de menos de aproximadamente 0,25
segundos. Los silencios cortos son silencios que aparecen
típicamente entre palabras y entre sílabas.
Los "segmentos de tono regular" son
segmentos continuos de conversación que se caracterizan por tener un
tono relativamente estable, es decir, un tono que varía entre
tolerancias preestablecidas.
Por contraste, los "segmentos de tono
ascendente y descendente" son segmentos caracterizados por
una tendencia continua y definida ascendente y descendente del
tono.
La determinación del despertar emocional con un
alto grado de certeza requiere que una combinación de al menos dos,
(preferentemente más), de los parámetros anteriores se desvíen
simultáneamente de los valores no-emocionales. Sin
embargo, preferentemente la decisión sobre si el sujeto muestra
realmente un despertar emocional puede tomarse dependiendo del grado
de desviación de cada parámetro, con registros y valores que
caracterizan la regularidad para cada parámetro que haya sido
determinado por el análisis de amplias muestras de datos de
conversación tomadas de la población general.
Con respecto ahora a la Fig. 1, se muestra una
ilustración de diagrama de bloques de un aparato para detectar el
despertar emocional construido y operativo de acuerdo con una
realización de la presente invención. El aparato incluye una unidad
de entrada de voz 10, una unidad de muestreo y digitalización de voz
12, una unidad de preprocesamiento 14, una unidad principal de
procesamiento 16 y una unidad principal de salida de indicadores 18.
La unidad de entrada de voz 10 puede ser cualquier dispositivo que
lleve datos de voz humana de cualquier forma - micrófono, teléfono
alámbrico, teléfono inalámbrico o móvil, cualquier dispositivo
reproductor audio (como un magnetófono, disco compacto), archivos
digitalizados de voz, conexión de internet (voz por IP, cable,
satélite o cualquier otro método). La unidad de muestreo y
digitalización de voz 12 puede ser una tarjeta de sonido de
ordenador, un chip DSP específico o cualquier otro dispositivo de
muestro y digitalización.
El procedimiento de determinación del despertar
emocional, de acuerdo con la presente invención, es como sigue (con
algunas variaciones entre distintas realizaciones del aparato). El
diagrama de proceso en la Fig. 2 detalla la etapa de
preprocesamiento y el diagrama de proceso en la Fig. 3 detalla la
principal etapa de procesamiento.
(a) Preprocesamiento: La función de
preprocesamiento sirve para preparar los datos en bruto para el
procesamiento mismo. De forma más específica, sirve para obtener los
parámetros de tono y amplitud por cada bloque de conversación de una
longitud predefinida. El procesador es una unidad de CPU, que puede
ser la CPU de un PC, o puede ser un chip DSP especializado,
específico o realmente cualquier otro dispositivo adecuado de
procesamiento. El preprocesamiento incluye los siguientes pasos de
procesamiento, que son ampliamente reconocidos por los que están
familiarizados con el arte del procesamiento de señales (Fig.
2):
\bullet Obtención de muestras digitalizadas de
voz (bloque 20).
\bullet Separación de la conversación grupal
en muestras de canales de voz individuales cuando se requiere. Por
ejemplo, cuando la entrada de voz es una conversación por teléfono,
se divide preferentemente en dos canales de voz, representando cada
uno una persona hablando, posiblemente mediante muestreo separado
con una señal que se obtiene por ejemplo a través del micrófono de
uno de los teléfonos (bloque 22). Obviamente, las pausas y la
longitud de las frases de diálogo son significativamente distintas
de las de monólogo, y estas diferencias son valoradas y tenidas en
cuenta.
\bullet Normalización de los valores de las
muestras - realizadas para ambos canales (bloque 24).
\bullet Filtración de los datos - realizada
para ambos canales (bloque 26).
\bullet Reducción de ruidos - realizada par
ambos canales (bloque 28).
\bullet Iniciación de la segmentación y del
cálculo de los parámetros básicos para el primer canal (bloque
30).
\bullet La segmentación de los silencios y de
la conversación así como la división de los segmentos de
conversación en bloques (bloque 32) se realizan para el primer
canal.
\bullet La autocorrelación (bloque 34) para
calcular el tono y la amplitud se realiza para el primer canal.
\bullet Cuando hay dos personas hablando, los
pasos de segmentación y autocorrelación (bloques 30, 32, 34
anteriores) se realizan ahora para el segundo canal de voz, si
existe (bloques 36 y 38).
Las salidas de los pasos de preprocesamiento son
secuencias de bloques de segmentos de conversación caracterizadas
por tener valores de tono y amplitud por bloque y longitudes para
los segmentos de silencio y pausa.
(b) Procesamiento : El procedimiento
principal de procesamiento proporciona una indicación del despertar
emocional. Puede realizarse en el mismo procesador de CPU en el cual
se llevó a cabo el preprocesamiento, o como alternativa, en una
unidad distinta de CPU. La unidad de procesamiento puede ser la CPU
de un PC, un chip específico de DSP o cualquier otro dispositivo
adecuado de procesamiento. El procedimiento de procesamiento incluye
los siguientes pasos de procesamiento, por cada canal (Fig. 3):
\bullet Selección de un segmento de
conversación, corto, típicamente de 3-6 segundos de
conversación, para el procesamiento (bloque 40).
\bullet Cálculo de los parámetros asociados a
la pausa del segmento de conversación, incluido el número medio de
pausas por segundo y la longitud media de pausas (bloque 42).
\bullet Cálculo de los parámetros asociados al
silencio del segmento de conversación, incluido el número medio de
silencios por segundo y la longitud media de silencios (bloque
43).
\bullet Determinación de qué secuencias de
segmentos de los bloques son secuencias de segmentos que tienen
bloques de tonos regulares, mediante el marcado de los bloques
consecutivos que tienen un tono relativamente constante (es decir,
dentro de unas tolerancias aceptables) (bloque 44).
\bullet Determinación de qué secuencia de
segmentos de los bloques muestran tendencias de tono ascendente o
descendente (bloque 46).
\bullet Cálculo de los parámetros secundarios
de tonos del segmento de conversación, tal como el número medio por
segundo y la longitud media de los períodos de tonos ascendentes,
descendentes o regulares y la dispersión de amplitud de los períodos
de tonos regulares (bloque 47).
\bullet Clasificación del segmento procesado
de conversación en una de varias categorías de registros típicos de
parámetros, con el fin de diferenciar los segmentos con distintas
magnitudes de conversación (bloque 48).
\bullet Determinación de la indicación de
despertar emocional del segmento de conversación. Este indicador se
basa en la comparación de los parámetros de voz calculados con los
valores predefinidos que representan la conversación
no-emocional, y la calificación de la combinación de
irregularidades (bloque 50).
Si existiera un segundo canal, es decir, al
tomar ejemplares de dos participantes en una conversación (bloques
52 y 54), se llevan a cabo los mismos pasos de procesamiento 40 a 50
sobre la muestra procedente del segundo canal.
\bullet Preferentemente, el método incluye
también el cálculo de un grado de fiabilidad - basándose en una
combinación de varios factores, que incluye típicamente la calidad
del segmento de voz (nivel de ruidos, tamaño de los datos
muestreados, calidad de los datos muestreados), significado de la
decisión de despertar emocional (número de parámetros participantes,
grado de desviación de cada parámetro), coherencia de los resultados
específicos de los segmentos con los segmentos de conversación
anteriores (unos cambios emocionales deberían seguir las estructuras
razonables con respecto al número de cambios, su intensidad, su
longitud y conexión entre emociones en un período determinado de
tiempo).
\newpage
\bullet Procesamiento de las estructuras - El
procesamiento puede incluir otra capa que detecta ciertas
estructuras emocionales que se revelan con el paso del tiempo, o
cuando se comparan con otros resultados. Por ejemplo, cuando se
analiza una conversación, la comparación de los estados emocionales
de las dos personas que hablan permite la detección de las
estructuras en la comunicación interpersonal, tal como el apego,
despego, cortesía, atmósfera y progreso de la conversación.
(c) Salida: (Fig. 1, bloque 18) - Los
resultados de medición de la emoción pueden ser enviados a varias
salidas de acuerdo con la configuración específica del aparato
utilizado, y de acuerdo con la aplicación específica. Normalmente,
se enviará la salida a un display en tiempo real del usuario
(visual, vocal o textual). Puede estar comunicada con un usuario
remoto a través de cualquier tipo de red y puede ser registrada o
almacenada en cualquier clase de salida o dispositivo de
almacenamiento o archivo.
Como ejemplo, se presentan dos aparatos básicos
para la ejecución de la patente, aunque cualquier otro aparato
adecuado pueda ser empleado como alternativa:
(a) Una pequeña unidad, móvil basada en un
chip DSP. Este aparato puede servir de pequeña unidad móvil para
la detección del despertar emocional en el análisis en tiempo real o
fuera de línea. Puede utilizarse como dispositivo autónomo en las
interacciones verbales interpersonales. Como alternativa, puede
conectarse a los dispositivos de entrada o salida como un ordenador,
magnetófono, teléfono alámbrico, inalámbrico o móvil, organizador
electrónico personal, Internet o cualquier otra red, con el fin de
obtener varias entradas de voz locales o remotas y para mostrarse o
comunicarse a varias salidas locales o remotas. Puede integrarse
también como hardware en otros dispositivos, como teléfonos
alámbricos, inalámbricos o móviles, juegos de ordenador, juguetes,
ordenadores u otro equipo electrónico. El aparato incluye un
micrófono (o cualquier otra interfaz de entrada), discriminador
digital, procesador y display (o cualquier otra interfaz de
salida).
(b) Una herramienta basada en un
software. Este aparato puede servir de herramienta basada en un
ordenador para le detección del despertar emocional en un análisis
en tiempo real o fuera de línea. Puede utilizarse como herramienta
de software autónoma para el análisis de los archivos digitalizados
de voz. Como alternativa, puede conectarse a través de las
interfaces del ordenador a cualquier dispositivo de entrada/salida,
con el fin de obtener cualquier entrada de voz local o remota, y
mostrarse o comunicarse a varias salidas locales o remotas, tal como
micrófonos, magnetófonos, teléfonos alámbricos, inalámbricos o
móviles, Internet o cualquier otra red, otros ordenadores o
cualquier otro equipo electrónico La herramienta de software puede
integrarse también como subsistema en otro sistema. Estos sistemas
incluyen por ejemplo el software de la central de
llamadas/contactos, o el hardware que controla, registra o analiza
las conversaciones, varios entrenadores de situación y personales o
cualquier sistema de control, de enseñanza o de contrarreacción. La
herramienta de software de emoción se instalará típicamente en un
entorno de ordenador que incluye típicamente un micrófono (o
cualquier otra interfaz de entrada), la unidad de muestreo y
digitalización, procesador, display (o cualquier otra interfaz de
salida) y cualquier otra interfaz externa relevante.
Se valorará el hecho de que la presente
invención tenga un rango muy amplio de posibles aplicaciones y
ejecuciones. Se relacionan a continuación algunas de las
posibilidades como ejemplos solamente. Sin embargo, la utilización
de la presente invención no se limita a estas aplicaciones descritas
aquí.
El control de las emociones puede utilizarse
para mejorar la comercialización, ventas, servicio y relaciones con
los clientes, especialmente en el entorno de la central de llamadas.
El control de la emoción, la contrarreacción y supervisión de las
interacciones de servicio/ventas pueden instalarse en un entorno en
tiempo real, así como en el análisis fuera de línea. El control
puede ser ejecutado con ambos aparatos, descritos anteriormente:
puede integrarse como herramienta de software en otros productos de
la central de llamadas, como las herramientas de registro, productos
CRM (gestión de relaciones con los clientes), herramientas de
entrenamiento o software de e-comercio. Puede
instalarse como herramienta de software autónoma en la central de
llamadas, entornos de CRM o de e-comercio y puede
integrarse también en varios dispositivos de hardware en estos
entornos como unidad basada en un chip de DSP. Se puede utilizar
también una pequeña unidad basada en un chip de DSP como pequeña
unidad independiente para controlar las interacciones cara a cara
del agente-cliente.
El control de las emociones puede utilizarse
para mejorar el proceso de entrenamiento de personas profesionales
mediante la mejora del conocimiento de las estructuras verbales
emocionales así como no-emocionales, tal como se
expresan en la voz de una persona hablando. Además, la herramienta
de control puede utilizarse con un propósito de demostración
(análisis de los segmentos de conversación de distintas emociones y
distintas estructuras de expresión de la emoción) y para el
entrenamiento en el control de la expresión de la emoción
(contrarreacción de las emociones del usuario más recompensa por
modificar la estructura de emoción o expresión).
El control de las emociones puede utilizarse
como herramienta de asistencia en varias tareas de gestión
interpersonal, tal como entrevistas o negociaciones, en las
reuniones, o aun cuando se habla simplemente por teléfono.
El control de las emociones puede ser útil como
herramienta adicional para pruebas psicológicas, y para el
diagnóstico y tratamiento de enfermedades específicas, incluidas por
ejemplo las enfermedades psiquiátricas. Este control puede
realizarse durante las conversaciones en tiempo real, o en el
análisis fuera de línea de una conversación grabada, y se puede
utilizar en interacciones cara a cara, o cuando la interacción tiene
lugar a través del teléfono o en telecomunicación oral por
Internet.
La publicidad puede beneficiarse también del
control emocional, al añadir un valor significativo al proceso de
medir y evaluar las actitudes de la gente en cuestionarios orales,
grupos de enfoque, y demás métodos.
Se puede utilizar el control de las emociones
para ayudar en la terapia de la conversación y para incrementar la
relajación así como lograr mayor control sobre los estados
emocionales positivos y negativos. La alteración del estado
emocional puede conseguirse como resultado directo del aumento de
conocimiento, o a través de un procedimiento similar a un mecanismo
de biorretroacción. Una aplicación importante puede consistir en la
asistencia a numerosos programas cuyo objetivo es la reducción del
comportamiento violento entre niños y adultos, donde el control
puede ayudar a demostrar y modificar las estructuras de la ira
verbal.
La utilización del control emocional puede
proporcionar una calidad añadida a los juegos electrónicos o por
ordenador, los juegos tanto educativos como recreativos. El control
emocional puede formar parte también de juguetes y juegos que
interactúan con un niño y le reflejan su estado emocional.
El control emocional de acuerdo con la presente
invención puede utilizarse también para mejorar el reconocimiento de
la conversación en varias aplicaciones, y para intensificar la
interacción entre un ordenador o robot y su usuario, al permitir que
el dispositivo eléctrico responda al estado emocional de la gente
que se encuentra alrededor.
El control de la emoción puede utilizarse
incluso como herramienta para detectar algunos estados mentales, que
tienen características distintivas de la voz, como el cansancio.
Se valorará que la invención no se limite a lo
que ha sido descrito anteriormente sólo como ejemplo. Mas bien, la
invención está limitada únicamente por las reivindicaciones que
siguen.
Claims (22)
1. Método para determinar el despertar emocional
de un sujeto mediante el análisis de la conversación, que comprende
los pasos de:
obtención de una muestra de conversación;
preprocesamiento de la muestra de conversación en segmentos de
conversación activa y silenciosa y división de los segmentos de
conversación activa en secuencias de bloques de misma longitud;
teniendo dichos bloques parámetros primarios de conversación
incluidos los parámetros de tono y amplitud;
derivación de una pluralidad de parámetros
secundarios seleccionados de conversación indicativos de las
características de tendencias al tono-regular,
tono-ascendente y tono-descendente
en dichas secuencias de los bloques; comparación de dichos
parámetros secundarios de conversación con los valores predefinidos,
independientes del sujeto, que representan la conversación
no-emocional para generar un resultado de
procesamiento indicativo del despertar emocional, y producción del
resultado procesado generado en un dispositivo de salida, en el cual
dicha pluralidad de parámetros secundarios seleccionados de la
conversación son seleccionados de la lista de:
(a) Longitud media de silencios cortos y/o
frecuencia de silencios cortos;
(b) Longitud media de segmentos de tono regular
y/o frecuencia de los segmentos de tono regular;
(c) Promedio de la longitud de los segmentos de
tono ascendente y/o frecuencia de los segmentos de tono ascendente
y/o promedio de la longitud de los segmentos de tono descendente y/o
frecuencia de los segmentos de tono descendente; y
(d) Dispersión media de amplitud dentro de los
segmentos de tono regular de la conversación.
2. Método según la reivindicación 1,
caracterizado porque dicho paso de derivación incluye además
la derivación de una pluralidad de parámetros secundarios
seleccionados de conversación indicativos de las características de
pausas y silencios de la muestra de conversación que se está
analizando.
3. Método según la reivindicación 1 ó 2, que
incluye el análisis de la irregularidad de paso y ritmo, tono y
amplitud de la muestra de conversación que se está analizando.
4. Método según cualquiera de las
reivindicaciones 1 a 3, caracterizado porque dicha pluralidad
de parámetros secundarios seleccionados de conversación incluye
además la longitud media de pausa y(/o) frecuencia de pausa.
5. Método según cualquiera de las
reivindicaciones 1 a 4, caracterizado porque dicho paso de
obtención de una muestra de conversación comprende el paso de
introducción de un archivo digitalizado de voz.
6. Método según cualquiera de las
reivindicaciones 1 a 4, caracterizado porque dicho paso de
obtener una muestra de conversación comprende el paso de capturar
unos ejemplares de conversación y muestrear y digitalizar los
ejemplares de conversación en una unidad de muestreo y
digitalización de la voz para formar un archivo de voz
digitalizada.
7. Método según cualquiera de las
reivindicaciones 1 a 6, caracterizado porque el paso de
preprocesamiento incluye:
la obtención de las muestras de voz
digitalizada,
la normalización de dichas muestras de voz,
la filtración de datos,
la reducción de ruidos,
la segmentación de dichas muestras de voz en
segmentos de silencio y conversación, la división de los segmentos
de conversación en bloques, y
el procesamiento de dichos bloques por
autocorrelación, para calcular los parámetros de tono y amplitud de
voz por bloque.
8. Método según cualquiera de las
reivindicaciones 1 a 7, adaptado para analizar una señal de
conversación que incluye una pluralidad de voces que interactúan,
que comprende además:
separar las voces interactivas en canales
individuales de voz,
realizar la normalización de las muestras en
cada canal de interés,
realizar la filtración de datos en cada canal de
interés,
realizar la reducción de ruidos en cada canal de
interés,
realizar la segmentación de silencios y
conversación y dividir los segmentos de conversación en bloques en
cada canal de interés, y
procesar la autocorrelación para calcular los
parámetros de tono y amplitud de la voz por bloque en cada canal de
interés.
9. Método según cualquier reivindicación
anterior, caracterizado porque el paso de derivación
incluye:
marcado del segmento de conversación de una
longitud predefinida para el procesamiento;
cálculo de los parámetros asociados a las pausas
para dicho segmento de conversación;
cálculo de los parámetros asociados a los
silencios para dicho segmento de conversación;
unión de los bloques en secuencias de bloques
categorizadas como secuencias de bloques que tienen tendencias de
tono ascendente, secuencias de bloques que tienen tendencias de tono
descendente y secuencias de bloques que tienen tendencias de tono
regular;
cálculo de los parámetros asociados al tono
dentro del segmento de conversación, seleccionándose dichos
parámetros asociados al tono a partir de la lista de frecuencias y
longitudes medias de las secuencias de bloques caracterizados
porque tienen tendencias de tono ascendente, descendente o regular,
y dispersión media de amplitud de las secuencias de bloques que
tienen un tono regular, así como clasificación del segmento de
conversación en una o varias categorías de registro típico de
parámetros.
10. Método según cualquier reivindicación
anterior, caracterizado porque el paso de comparar dichos
parámetros secundarios de conversación con los valores predefinidos,
independientes del sujeto que representan la conversación
no-emocional para generar un resultado de
procesamiento indicativo del despertar emocional incluye la
comparación de al menos dos categorías de parámetros secundarios de
voz con los valores predefinidos que representan la conversación
no-emocional, seleccionándose dichas categorías a
partir de la lista de:
(a) Longitud media de pausa y/o frecuencia de
pausa;
(b) Longitud media de silencios cortos y/o
frecuencia de silencios cortos;
(c) Longitud media de segmentos de tono regular
y/o frecuencia de los segmentos de tono regular;
(d) Promedio de la longitud de los segmentos de
tono ascendente y/o frecuencia de los segmentos de tono ascendente
y/o promedio de la longitud de los segmentos de tono descendente y/o
frecuencia de los segmentos de tono descendente; y
(e) Dispersión media de amplitud dentro de los
segmentos de tono regular de la conversación.
11. Método según cualquier reivindicación
anterior, que comprende además el cálculo de un grado de fiabilidad
basado en al menos un factor seleccionado a partir de la lista de:
calidad del segmento de voz; significado de la decisión de despertar
emocional, y coherencia de los resultados específicos de los
segmentos con los resultados de los segmentos previos de
conversión.
12. Método según la reivindicación 11,
caracterizado porque dicha calidad del segmento de voz se
determina basándose en el nivel de ruidos, tamaño de los datos
muestreados y calidad de los datos muestreados.
13. Método según la reivindicación 11,
caracterizado porque dicho significado de la decisión de
despertar emocional se determina basándose en el número de
parámetros participantes y el grado de desviación dentro de cada
parámetro.
14. Método según cualquiera de las
reivindicaciones anteriores, que comprende además el procesamiento
de las estructuras para detectar las estructuras emocionales que se
revelan a lo largo de un eje de tiempo.
15. Aparato con unos medios dispuestos para
ejecutar el método de análisis de la conversación según la
reivindicación 1, que comprende:
una unidad de entrada de voz;
una unidad de preprocesamiento para las muestras
de preprocesameinto de voz procedentes de la unidad de entrada de
voz;
una unidad principal de procesamiento para
procesar dichas muestras preprocesadas de voz y detectar el
despertar emocional procedente de las mismas; y
una unidad principal de salida de indicadores
para dar salida a una indicación sobre el despertar emocional.
16. Aparato según la reivindicación 15,
caracterizado porque dicha unidad de entrada de voz incluye
una unidad de captura de voz y una unidad de muestreo y
digitalización de voz acoplada a dicha unidad de captura de voz para
la entrada de la voz capturada de muestreo y digitalización.
17. Aparato según la reivindicación 15 ó 16,
caracterizado porque dicha unidad de entrada de voz incluye
al menos una de las siguientes: un micrófono, una interfaz a un
reproductor audio, una interfaz a un teléfono alámbrico, inalámbrico
o móvil, una interfaz a Internet u otra red, una interfaz a un
ordenador, una interfaz a un organizador personal electrónico o a
cualquier otro equipo electrónico, o una interfaz a un juguete.
18. Aparato según la reivindicación 16,
caracterizado porque dicha unidad de muestreo y
digitalización de voz está seleccionada a partir de una tarjeta de
sonido o un dispositivo de muestreo y digitalización de voz basado
en un chip DSP.
19. Aparato según la reivindicación 15,
caracterizado porque dicha unidad principal de salida de los
indicadores está seleccionada a partir de un dispositivo de salida
local, una pantalla, un altavoz, un archivo, una unidad de
almacenamiento o dispositivo de comprobación; o una interfaz a un
ordenador remoto, a Internet, a otra red, a un teléfono alámbrico,
inalámbrico o móvil, a un juego por ordenador, a un juguete, a un
organizador electrónico personal o cualquier otro equipo electrónico
de salida.
20. Aparato según cualquiera de las
reivindicaciones 15 a 19, caracterizado porque todas las
citadas unidades están instaladas en una pequeña unidad móvil basada
en un chip DSP,
21. Aparato según cualquiera de las
reivindicaciones 15 a 20, caracterizado porque algunas de
dichas unidades están físicamente distanciadas de otras unidades, y
porque dicho aparato comprende además una interfaz para permitir la
comunicación de datos entre dichas unidades.
22. Aparato según cualquiera de las
reivindicaciones 15 a 21, caracterizado porque dichas
unidades de preprocesamiento y dichas unidades de procesamiento
están incorporadas dentro de una herramienta de software capaz de
integrarse con una fuente externa de entrada de voz digitalizada y
con un dispositivo externo de salida.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IL144818 | 2001-08-09 | ||
IL144818A IL144818A (en) | 2001-08-09 | 2001-08-09 | Method and apparatus for speech analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2261706T3 true ES2261706T3 (es) | 2006-11-16 |
Family
ID=11075679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02755609T Expired - Lifetime ES2261706T3 (es) | 2001-08-09 | 2002-08-07 | Metodo y aparato para analisis de la conversacion. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7606701B2 (es) |
EP (1) | EP1423846B1 (es) |
AT (1) | ATE322067T1 (es) |
CA (1) | CA2456625C (es) |
DE (1) | DE60210295T2 (es) |
ES (1) | ES2261706T3 (es) |
IL (1) | IL144818A (es) |
WO (1) | WO2003015079A1 (es) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018111066A1 (es) * | 2016-12-15 | 2018-06-21 | Pacheco Navarro Diana | Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes |
US10748644B2 (en) | 2018-06-19 | 2020-08-18 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11120895B2 (en) | 2018-06-19 | 2021-09-14 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917366B1 (en) * | 2000-03-24 | 2011-03-29 | Exaudios Technologies | System and method for determining a personal SHG profile by voice analysis |
JP2005031259A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 自然言語処理方法 |
EP1632083A4 (en) * | 2003-11-05 | 2007-05-02 | Nice Systems Ltd | DEVICE AND METHOD FOR PERFORMING EVENT DIRECTED CONTENT ANALYSIS |
US8687792B2 (en) * | 2004-04-22 | 2014-04-01 | Hewlett-Packard Development Company, L.P. | System and method for dialog management within a call handling system |
US7945006B2 (en) * | 2004-06-24 | 2011-05-17 | Alcatel-Lucent Usa Inc. | Data-driven method and apparatus for real-time mixing of multichannel signals in a media server |
WO2006059325A1 (en) * | 2004-11-30 | 2006-06-08 | Oded Sarel | Method and system of indicating a condition of an individual |
US8738370B2 (en) * | 2005-06-09 | 2014-05-27 | Agi Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
JP2007041988A (ja) * | 2005-08-05 | 2007-02-15 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US20070094270A1 (en) * | 2005-10-21 | 2007-04-26 | Callminer, Inc. | Method and apparatus for the processing of heterogeneous units of work |
BRPI0621991A2 (pt) * | 2006-10-03 | 2011-12-27 | Andrey Evgenievich Nazdratenko | mÉtodo para determinaÇço do estado de estresse de uma pessoa de acordo com sua voz e um dispositivo para execuÇço do dito mÉtodo |
US8166109B2 (en) * | 2007-06-21 | 2012-04-24 | Cisco Technology, Inc. | Linking recognized emotions to non-visual representations |
US8721554B2 (en) | 2007-07-12 | 2014-05-13 | University Of Florida Research Foundation, Inc. | Random body movement cancellation for non-contact vital sign detection |
WO2009086033A1 (en) | 2007-12-20 | 2009-07-09 | Dean Enterprises, Llc | Detection of conditions from sound |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US8031075B2 (en) | 2008-10-13 | 2011-10-04 | Sandisk Il Ltd. | Wearable device for adaptively recording signals |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
US8943394B2 (en) * | 2008-11-19 | 2015-01-27 | Robert Bosch Gmbh | System and method for interacting with live agents in an automated call center |
US8788270B2 (en) * | 2009-06-16 | 2014-07-22 | University Of Florida Research Foundation, Inc. | Apparatus and method for determining an emotion state of a speaker |
US8676172B2 (en) | 2009-06-29 | 2014-03-18 | Nokia Solutions And Networks Oy | Generating relational indicators based on analysis of telecommunications events |
US20120116186A1 (en) * | 2009-07-20 | 2012-05-10 | University Of Florida Research Foundation, Inc. | Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data |
US20110082698A1 (en) * | 2009-10-01 | 2011-04-07 | Zev Rosenthal | Devices, Systems and Methods for Improving and Adjusting Communication |
DE102010012427B4 (de) | 2010-03-23 | 2014-04-24 | Zoobe Gmbh | Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern |
US20110294099A1 (en) * | 2010-05-26 | 2011-12-01 | Brady Patrick K | System and method for automated analysis and diagnosis of psychological health |
US20110295597A1 (en) * | 2010-05-26 | 2011-12-01 | Brady Patrick K | System and method for automated analysis of emotional content of speech |
EP2418643A1 (en) | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
EP2438863A1 (en) * | 2010-10-05 | 2012-04-11 | Phibio Science AB | System and methods for analysis of pause time durations in speech. |
US9711137B2 (en) | 2011-11-10 | 2017-07-18 | At&T Intellectual Property I, Lp | Network-based background expert |
US20140095402A1 (en) * | 2012-09-28 | 2014-04-03 | Hireiq Solutions, Inc. | System and Method of Scoring Candidate Audio Responses for a Hiring Decision |
US9535899B2 (en) | 2013-02-20 | 2017-01-03 | International Business Machines Corporation | Automatic semantic rating and abstraction of literature |
US9311294B2 (en) * | 2013-03-15 | 2016-04-12 | International Business Machines Corporation | Enhanced answers in DeepQA system according to user preferences |
US20140297551A1 (en) * | 2013-04-02 | 2014-10-02 | Hireiq Solutions, Inc. | System and Method of Evaluating a Candidate Fit for a Hiring Decision |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
US9413891B2 (en) | 2014-01-08 | 2016-08-09 | Callminer, Inc. | Real-time conversational analytics facility |
US9894405B2 (en) | 2014-03-11 | 2018-02-13 | Amazon Technologies, Inc. | Object discovery and exploration in video content |
US10939175B2 (en) | 2014-03-11 | 2021-03-02 | Amazon Technologies, Inc. | Generating new video content from pre-recorded video |
US9747727B2 (en) | 2014-03-11 | 2017-08-29 | Amazon Technologies, Inc. | Object customization and accessorization in video content |
US9892556B2 (en) | 2014-03-11 | 2018-02-13 | Amazon Technologies, Inc. | Real-time exploration of video content |
US10375434B2 (en) | 2014-03-11 | 2019-08-06 | Amazon Technologies, Inc. | Real-time rendering of targeted video content |
US10092833B2 (en) | 2014-06-27 | 2018-10-09 | Amazon Technologies, Inc. | Game session sharing |
US9393486B2 (en) | 2014-06-27 | 2016-07-19 | Amazon Technologies, Inc. | Character simulation and playback notification in game session replay |
US9409083B2 (en) | 2014-06-27 | 2016-08-09 | Amazon Technologies, Inc. | Spawning new timelines during game session replay |
WO2016035069A1 (en) * | 2014-09-01 | 2016-03-10 | Beyond Verbal Communication Ltd | System for configuring collective emotional architecture of individual and methods thereof |
WO2016057781A1 (en) | 2014-10-08 | 2016-04-14 | The University Of Florida Research Foundation, Inc. | Method and apparatus for non-contact fast vital sign acquisition based on radar signal |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
US11100557B2 (en) | 2014-11-04 | 2021-08-24 | International Business Machines Corporation | Travel itinerary recommendation engine using inferred interests and sentiments |
US9833200B2 (en) | 2015-05-14 | 2017-12-05 | University Of Florida Research Foundation, Inc. | Low IF architectures for noncontact vital sign detection |
US10293260B1 (en) | 2015-06-05 | 2019-05-21 | Amazon Technologies, Inc. | Player audio analysis in online gaming environments |
US10300394B1 (en) | 2015-06-05 | 2019-05-28 | Amazon Technologies, Inc. | Spectator audio analysis in online gaming environments |
US10970843B1 (en) | 2015-06-24 | 2021-04-06 | Amazon Technologies, Inc. | Generating interactive content using a media universe database |
US10864447B1 (en) | 2015-06-29 | 2020-12-15 | Amazon Technologies, Inc. | Highlight presentation interface in a game spectating system |
US10363488B1 (en) | 2015-06-29 | 2019-07-30 | Amazon Technologies, Inc. | Determining highlights in a game spectating system |
US10484439B2 (en) | 2015-06-30 | 2019-11-19 | Amazon Technologies, Inc. | Spectating data service for a spectating system |
US11071919B2 (en) | 2015-06-30 | 2021-07-27 | Amazon Technologies, Inc. | Joining games from a spectating system |
US10632372B2 (en) | 2015-06-30 | 2020-04-28 | Amazon Technologies, Inc. | Game content interface in a spectating system |
US10376795B2 (en) | 2015-06-30 | 2019-08-13 | Amazon Technologies, Inc. | Game effects from spectating community inputs |
US10345897B2 (en) | 2015-06-30 | 2019-07-09 | Amazon Technologies, Inc. | Spectator interactions with games in a specatating system |
US10390064B2 (en) | 2015-06-30 | 2019-08-20 | Amazon Technologies, Inc. | Participant rewards in a spectating system |
US9665567B2 (en) * | 2015-09-21 | 2017-05-30 | International Business Machines Corporation | Suggesting emoji characters based on current contextual emotional state of user |
CN105632486B (zh) * | 2015-12-23 | 2019-12-17 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN107193841B (zh) * | 2016-03-15 | 2022-07-26 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
US10244113B2 (en) * | 2016-04-26 | 2019-03-26 | Fmr Llc | Determining customer service quality through digitized voice characteristic measurement and filtering |
US20190043526A1 (en) * | 2017-01-18 | 2019-02-07 | Hewlett-Packard Development Company, L.P. | Stress management through voice data analysis |
EP3392884A1 (en) | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
US11887622B2 (en) * | 2018-09-14 | 2024-01-30 | United States Department Of Veteran Affairs | Mental health diagnostics using audio data |
US11132993B1 (en) | 2019-05-07 | 2021-09-28 | Noble Systems Corporation | Detecting non-verbal, audible communication conveying meaning |
US10896686B2 (en) | 2019-05-29 | 2021-01-19 | Capital One Services, Llc | Methods and systems for providing images for facilitating communication |
US10878800B2 (en) * | 2019-05-29 | 2020-12-29 | Capital One Services, Llc | Methods and systems for providing changes to a voice interacting with a user |
CN112349266B (zh) * | 2019-08-09 | 2024-07-09 | 深圳Tcl数字技术有限公司 | 一种语音编辑方法及相关设备 |
DE102019133684A1 (de) * | 2019-12-10 | 2021-06-10 | Sennheiser Electronic Gmbh & Co. Kg | Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung |
US11074926B1 (en) | 2020-01-07 | 2021-07-27 | International Business Machines Corporation | Trending and context fatigue compensation in a voice signal |
EP4115414A4 (en) | 2020-03-03 | 2024-04-17 | Vrbl Llc | VERBAL COMMUNICATION ANALYSIS |
US20230096357A1 (en) * | 2021-09-30 | 2023-03-30 | Sony Interactive Entertainment Inc. | Emotion detection & moderation based on voice inputs |
US11775739B2 (en) | 2021-10-26 | 2023-10-03 | Sony Interactive Entertainment LLC | Visual tagging and heat-mapping of emotion |
US20230154487A1 (en) * | 2021-11-15 | 2023-05-18 | Chu-Ying HUANG | Method, system and device of speech emotion recognition and quantization based on deep learning |
US11573635B1 (en) | 2022-01-04 | 2023-02-07 | United Arab Emirates University | Face mask for accurate location of sensors relative to a users face, a communication enabling face mask and a communication system including the face mask |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
IL108401A (en) | 1994-01-21 | 1996-12-05 | Hashavshevet Manufacture 1988 | Method and apparatus for indicating the emotional state of a person |
US5995924A (en) * | 1997-05-05 | 1999-11-30 | U.S. West, Inc. | Computer-based method and apparatus for classifying statement types based on intonation analysis |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
US6173260B1 (en) * | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
IL122632A0 (en) | 1997-12-16 | 1998-08-16 | Liberman Amir | Apparatus and methods for detecting emotions |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6477491B1 (en) * | 1999-05-27 | 2002-11-05 | Mark Chandler | System and method for providing speaker-specific records of statements of speakers |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
-
2001
- 2001-08-09 IL IL144818A patent/IL144818A/en active IP Right Grant
-
2002
- 2002-08-07 ES ES02755609T patent/ES2261706T3/es not_active Expired - Lifetime
- 2002-08-07 CA CA2456625A patent/CA2456625C/en not_active Expired - Lifetime
- 2002-08-07 US US10/485,254 patent/US7606701B2/en active Active
- 2002-08-07 WO PCT/IL2002/000648 patent/WO2003015079A1/en not_active Application Discontinuation
- 2002-08-07 DE DE60210295T patent/DE60210295T2/de not_active Expired - Lifetime
- 2002-08-07 AT AT02755609T patent/ATE322067T1/de not_active IP Right Cessation
- 2002-08-07 EP EP02755609A patent/EP1423846B1/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018111066A1 (es) * | 2016-12-15 | 2018-06-21 | Pacheco Navarro Diana | Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes |
US10748644B2 (en) | 2018-06-19 | 2020-08-18 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11120895B2 (en) | 2018-06-19 | 2021-09-14 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11942194B2 (en) | 2018-06-19 | 2024-03-26 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
Also Published As
Publication number | Publication date |
---|---|
EP1423846B1 (en) | 2006-03-29 |
ATE322067T1 (de) | 2006-04-15 |
DE60210295D1 (de) | 2006-05-18 |
US20040249634A1 (en) | 2004-12-09 |
IL144818A0 (en) | 2002-06-30 |
IL144818A (en) | 2006-08-20 |
CA2456625A1 (en) | 2003-02-20 |
CA2456625C (en) | 2012-03-06 |
EP1423846A1 (en) | 2004-06-02 |
DE60210295T2 (de) | 2006-12-07 |
WO2003015079A1 (en) | 2003-02-20 |
US7606701B2 (en) | 2009-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2261706T3 (es) | Metodo y aparato para analisis de la conversacion. | |
Johns-Lewis | Prosodic differentiation of discourse modes | |
Thomas | Sociophonetics: an introduction | |
US10478111B2 (en) | Systems for speech-based assessment of a patient's state-of-mind | |
Low et al. | Influence of acoustic low-level descriptors in the detection of clinical depression in adolescents | |
Ballard et al. | Developmental trajectory for production of prosody: Lexical stress contrastivity in children ages 3 to 7 years and in adults | |
KR101248353B1 (ko) | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 | |
Hall et al. | A longitudinal investigation of speaking rate in preschool children who stutter | |
ES2242634T3 (es) | Detector de emociones telefonico con realimentacion al operador. | |
EP1222448B1 (en) | System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters | |
US3971034A (en) | Physiological response analysis method and apparatus | |
CN110494916A (zh) | 用于心脏疾病的口头定期筛查 | |
Hammersley et al. | Voice identification by humans and computers | |
Ozdas et al. | Analysis of vocal tract characteristics for near-term suicidal risk assessment | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
JP2004514178A (ja) | 音声の分析の方法及び装置 | |
KR20220048381A (ko) | 말 장애 평가 장치, 방법 및 프로그램 | |
US20030182116A1 (en) | Audio psychlogical stress indicator alteration method and apparatus | |
Illner et al. | Toward automated articulation rate analysis via connected speech in Dysarthrias | |
Mitsuyoshi et al. | Mental status assessment of disaster relief personnel by vocal affect display based on voice emotion recognition | |
Mohamad Jamil et al. | A flexible speech recognition system for cerebral palsy disabled | |
Grigorev et al. | An Electroglottographic Method for Assessing the Emotional State of the Speaker | |
Künzel | Non-contemporary speech samples: Auditory detectability of an 11 year delay and its effect on automatic speaker identification. | |
Sigmund et al. | Statistical analysis of glottal pulses in speech under psychological stress | |
Karakoc et al. | Visual and auditory analysis methods for speaker recognition in digital forensic |