ES2283082T3

ES2283082T3 - Aparatos y procedimientos para detectar emociones.

Info

Publication number: ES2283082T3
Application number: ES98960070T
Authority: ES
Inventors: Amir Liberman
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-12-16
Filing date: 1998-12-16
Publication date: 2007-10-16
Anticipated expiration: 2018-12-16
Also published as: JP4309053B2; AU770410B2; HU226537B1; DE69837107D1; BR9814288A; CA2313526C; WO1999031653A1; CA2313526A1; PT1038291E; HUP0101836A3; IL122632A0; EP1038291B1; PL341296A1; EP1038291A4; DE69837107T2; TW446933B; US6638217B1; TR200001765T2; AU1575099A; EP1038291A1

Abstract

Un aparato para detectar el estado emocional de un individuo, comprendiendo el aparato: un analizador de voz operable para analizar un segmento de voz de un espécimen (32) de voz muestreada, generado por el individuo, y para derivar directamente del mismo información de entonación, en donde dicha información de entonación incluye al menos una entre información correspondiente al número de picos dentro del segmento de voz, información correspondiente al número de mesetas dentro del segmento de voz e información correspondiente a la longitud de las mesetas dentro del segmento de voz; y un emisor de informes sobre emociones, operable para generar una indicación de salida del estado emocional del individuo, basada en dicha información de entonación; en el cual un pico es una característica en el espécimen de voz que incluye una secuencia de primera muestra, muestra media y tercera muestra adyacentes; tanto la primera muestra como la tercera muestra son más altas o más bajas que la muestra media; y en el cual una meseta es un segmento plano en el espécimen de voz, en el cual la longitud del segmento plano es mayor que un predeterminado umbral mínimo, y es menor que un predeterminado umbral máximo, y en el cual una diferencia de amplitud entre muestras consecutivas en el segmento plano es menor que un umbral de amplitud predeterminado.

Description

Aparatos y procedimientos para detectar emociones.

\global\parskip0.900000\baselineskip

Campo de la invención

La presente invención se refiere a aparatos y procedimientos para monitorizar estados emocionales.

Antecedentes de la invención

La Solicitud Publicada PCT WO 97/01984 (PCT/IL96/00027) describe un procedimiento para efectuar la regulación de biorrespuesta de al menos una variable fisiológica, característica del estado emocional de un sujeto, incluyendo a fin de producir una señal de indicación, y de utilizar la señal de indicación para proporcionar al sujeto las etapas de monitorizar al menos un parámetro del habla característico del estado emocional del sujeto, una indicación de al menos dicha variable fisiológica. Un sistema permite que el procedimiento se lleve a cabo en modalidad autónoma o por medio de la línea telefónica, en cuyo caso la señal de indicación puede derivarse en una ubicación alejada del sujeto. La información correspondiente al estado emocional del sujeto puede transmitirse vocalmente a un tercero alejado, o bien textualmente a través de Internet, y procesarse luego según se requiera.

La Solicitud Publicada de Patente Europea Nº 94850185.3 (Publicación Nº 306 664 537 A2) describe un procedimiento y aparato para determinar tensiones en una secuencia hablada. A partir de una secuencia reconocida en el discurso hablado, se crea un modelo del discurso. Comparando la secuencia hablada con el discurso modelado, se obtiene una diferencia entre ellos.

La Patente Estadounidense 1.384.721 describe un procedimiento y aparato para el análisis de respuestas fisiológicas.

La Patente Estadounidense 3.855.416 concedida a Fuller describe un procedimiento y aparato para el análisis de la fonación, que conduce a decisiones válidas de verdad/mentira por la evaluación de componentes fundamentales ponderados de vibrato de la energía vocal.

La Patente Estadounidense 3.855.417 concedida a Fuller describe un procedimiento y aparato para el análisis de la fonación, que conduce a decisiones válidas de verdad/mentira por la comparación de regiones de energía espectral.

La Patente Estadounidense 3.855.418 concedida a Fuller describe un procedimiento y aparato para el análisis de la fonación, que conduce a decisiones válidas de verdad/mentira por la evaluación de componentes de vibrato.

Las revelaciones de todas las publicaciones mencionadas en la especificación y de las publicaciones aquí citadas se incorporan a la presente por referencia.

La Patente Estadounidense 4.093.821 concedida a Williamson describe un procedimiento y aparato para determinar el estado emocional de una persona, determinando mesetas en la señal de su discurso, demodulada en frecuencia.

Resumen de la invención

La presente invención busca proporcionar aparatos y procedimientos mejorados para monitorizar estados emocionales, según lo definido en las reivindicaciones independientes de esta patente.

Las realizaciones preferidas de la invención se especifican en las reivindicaciones dependientes.

Se proporciona así, según una realización preferida de la presente invención, un aparato para detectar el estado emocional de un individuo, incluyendo el aparato un analizador de voz, operable para ingresar una muestra de habla generada por el individuo, y para derivar de la misma información de entonación, y un emisor de informes de emociones, operable para generar una indicación de salida del estado emocional del individuo, basada en la información de entonación.

Además, según una realización preferida de la presente invención, el espécimen de habla se proporciona por teléfono al analizador de voz.

Además, según una realización preferida de la presente invención, el informe sobre el estado emocional del individuo incluye un informe de detección de mentiras basado en el estado emocional del individuo.

Además, según una realización preferida de la presente invención, la información de entonación incluye información de entonación multidimensional.

Además, según una realización preferida de la presente invención, la información multidimensional incluye al menos información tridimensional.

Además, según una realización preferida de la presente invención, la información multidimensional incluye al menos información de dimensión 4.

Además, según una realización preferida de la presente invención, la información de entonación incluye información correspondiente a picos.

Además, según una realización preferida de la presente invención, la información correspondiente a picos incluye el número de picos en un periodo predeterminado de tiempo.

Además, según una realización preferida de la presente invención, la información correspondiente a los picos incluye la distribución de los picos en el tiempo.

Adicionalmente según una realización preferida de la presente invención, la información de entonación incluye información correspondiente a las mesetas.

Además, según una realización preferida de la presente invención, la información correspondiente a mesetas incluye el número de mesetas en un periodo predeterminado de tiempo.

Además, según una realización preferida de la presente invención, la información correspondiente a las mesetas incluye información correspondiente a la longitud de las mesetas.

Adicionalmente según una realización preferida de la presente invención, la información correspondiente a la longitud de las mesetas incluye una longitud promedio de meseta para un periodo predeterminado de tiempo.

Además, según una realización preferida de la presente invención, la información correspondiente a la longitud de mesetas incluye el error estándar de la longitud de meseta para un periodo predeterminado de tiempo.

También se proporciona, según otra realización preferida de la presente invención, un sistema de detección de mentiras que incluye un analizador multidimensional de voz, operable para ingresar una muestra de habla generada por un individuo y para cuantificar una pluralidad de características de la muestra de habla, y un emisor de informes, evaluador de credibilidad, operable para generar una indicación de salida de la credibilidad del individuo, incluyendo la detección de mentiras, basada en la pluralidad de características cuantificadas.

Se proporciona adicionalmente, según otra realización preferida de la presente invención, un procedimiento de detección que incluye recibir una muestra de habla generada por un individuo y cuantificar una pluralidad de características de la muestra de habla, y que genera una indicación de salida de la credibilidad del individuo, incluyendo la detección de mentiras, basada en la pluralidad de características cuantificadas.

Más acorde con una realización preferida de la presente invención, la muestra de habla incluye una onda principal del habla con un periodo, y en la cual el analizador vocal es operable para analizar la muestra de habla a fin de determinar la tasa de ocurrencia de mesetas, indicando cada meseta que una onda local de frecuencia relativamente baja está superpuesta sobre la onda principal del discurso, y el emisor de informes de emociones es operable para proporcionar una indicación adecuada de salida, basada en la tasa de ocurrencia de mesetas. Por ejemplo, el emisor de informes de emociones puede proporcionar una indicación adecuada de salida cuando se halla que cambia la tasa de ocurrencia de mesetas.

De manera similar, cada pico indica que una onda local de frecuencia relativamente alta está superpuesta sobre la onda principal del discurso. Una ventaja particular de analizar mesetas y picos, según se muestra y describe aquí, es que pueden analizarse esencialmente todas las frecuencias de la onda del discurso.

También se proporciona, según otra realización preferida de la presente invención, un procedimiento para detectar el estado emocional, y que incluye el establecimiento de una gama característica multidimensional que caracteriza la gama de emociones de un individuo en reposo, monitorizando al individuo en cuanto a una pluralidad de parámetros correspondientes a las emociones, en el transcurso de un primer periodo, durante el cual el individuo está en un estado emocionalmente neutro, y definiendo la gama característica multidimensional como una función de la gama de la pluralidad de parámetros correspondientes a las emociones durante el primer periodo, y monitorizando al individuo en cuanto a la pluralidad de parámetros correspondientes a las emociones, en el transcurso de un segundo periodo, durante el cual se desea detectar el estado emocional del individuo, para obtener de tal manera una medición de la pluralidad de parámetros correspondientes a las emociones, y ajustando la medición para tener en cuenta la gama.

También se proporciona, según otra realización preferida de la presente invención, un procedimiento para detectar el estado emocional de un individuo, incluyendo el procedimiento recibir una muestra de habla generada por el individuo y derivar de la misma información de entonación, y generar una indicación de salida del estado emocional del individuo, basada en la información de entonación.

Breve descripción de los dibujos

La presente invención será comprendida y apreciada a partir de la siguiente descripción detallada, tomada conjuntamente con los dibujos, en los cuales:

La Fig. 1A es una ilustración gráfica de un sistema para la monitorización en línea del estado emocional de una persona que habla,

\global\parskip1.000000\baselineskip

La Fig. 1B es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para la monitorización en línea del estado emocional de una persona que habla,

La Fig. 2 es una ilustración gráfica de un segmento de voz que incluye un cierto número de picos,

La Fig. 3 es una ilustración gráfica de un segmento de voz que incluye un cierto número de mesetas,

La Fig. 4 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 40 de la Fig. 1B,

La Fig. 5 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para implementar la etapa de construcción del perfil emotivo veraz/neutro de la Fig. 1B,

La Fig. 6 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 90 de la Fig. 1B en un segmento específico,

La Fig. 7 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 100 de la Fig. 1B,

La Fig. 8 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 105 de la Fig. 1B,

La Fig. 9 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en modalidad de diseño, justo antes de iniciar la aplicación del Apéndice A,

La Fig. 10 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en la modalidad de ejecución del sistema del Apéndice A, durante la calibración para un sujeto específico,

La Fig. 11 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en la modalidad de ejecución del sistema del Apéndice A, durante la evaluación de un sujeto, y

La Fig. 12 es una ilustración de diagrama de flujo simplificado de un sistema preferido para realizar el procedimiento de la Fig. 1B.

Se adjunta a la presente el siguiente apéndice, que ayuda a la comprensión y apreciación de una realización preferida de la invención aquí mostrada y descrita:

El Apéndice A es un listado de ordenador de una implementación preferida en software de una realización preferida de la invención aquí mostrada y descrita.

Descripción detallada de las realizaciones preferidas

Una porción de la revelación de este documento de patente contiene material que está sujeto a la protección de derechos de autor. El dueño de los derechos de autor no tiene objeción en la reproducción por facsímil, por cualquier persona, del documento de patente o de la revelación de la patente, según aparece en el fichero o registros de patente de la Oficina de Patentes y Marcas, pero se reserva por otra parte absolutamente todos los derechos de autor.

La Fig. 1A es una ilustración gráfica de un sistema para la monitorización en línea del estado emocional de una persona que habla. Según se muestra, una entrada de voz, que llega por una línea telefónica, en la realización ilustrada, es recibida por el sistema. El sistema analiza la entrada de voz a fin de obtener una indicación del estado emocional de la persona que habla, indicación que, preferiblemente, se proporciona al usuario en tiempo real, p. ej., sobre la pantalla de visualización, según se muestra.

La Fig. 1B es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para la monitorización en línea del estado emocional de una persona que habla. El procedimiento de la Fig. 1B, preferiblemente, incluye las siguientes etapas:

Etapa 10 de inicialización: Se definen constantes tales como los valores umbral de diversos parámetros, que definen gamas que se consideran indicadoras de diversas emociones, según se describe en detalle más adelante.

Etapa 20: Registrar una voz, periódicamente o a pedido. Por ejemplo, pueden grabarse continuamente segmentos de 0,5 segundos de voz, es decir, cada 0,5 segundos. Alternativamente, pueden considerarse segmentos de cualquier otra longitud adecuada, que puedan o no solaparse. Por ejemplo, los segmentos adyacentes pueden solaparse casi totalmente, excepto para una muestra, o unas pocas.

Digitalizar la grabación de la voz.

Adicional o alternativamente, pueden tomarse muestras de segmentos solapados de la grabación.

Etapa 30: Analizar el segmento de voz a fin de marcar la porción crucial del segmento de voz, es decir, la porción del segmento de voz que se piensa que contiene efectivamente información vocal, a diferencia del ruido de fondo. Un criterio adecuado para la detección de información de voz es la amplitud, p. ej., la primera instancia de amplitud que supera un umbral se considera el comienzo de la información de voz, y el final de la información de voz se considera el punto después del cual no se halla ningún sonido que supere un umbral para una duración predeterminada.

Preferiblemente, las muestras en la porción crucial están normalizadas, p. ej., amplificando las muestras para aprovechar la gama entera de amplitud que pueda caber en la memoria, p. ej., unidades de amplitud +/- 127, si se utiliza memoria de 8 bits.

Etapa 40: Contar picos y mesetas en la porción crucial. Calcular la longitud de cada meseta identificada, y calcular la longitud media de mesetas para la porción crucial y el error estándar para la longitud de meseta.

Un "pico" es un rasgo con forma de muesca. Por ejemplo, el término "pico" puede definirse como:

a. una secuencia de 3 muestras adyacentes en las cuales ambas muestras primera y tercera son más altas que la muestra del medio, o bien

b. una secuencia de 3 muestras adyacentes en las cuales ambas muestras primera y tercera son más bajas que la muestra del medio.

Preferiblemente, se declara un pico incluso si las muestras primera y tercera difieren sólo muy levemente de la muestra del medio, es decir, no hay, preferiblemente, ningún valor umbral mínimo para la diferencia entre muestras. Sin embargo, hay, preferiblemente, un valor umbral mínimo para la línea base del pico, es decir, los picos que ocurren a una amplitud muy baja se descartan porque se consideran vinculados con el ruido de fondo, en lugar de la voz.

La Fig. 2 es una ilustración gráfica de un segmento 32 de voz, incluyendo un cierto número de picos 34.

Una "meseta" es una planicie local en la onda de voz. Por ejemplo, una meseta puede definirse como una secuencia plana cuya longitud es mayor que un umbral mínimo predeterminado, y menor que un umbral máximo predeterminado. El umbral máximo se requiere para diferenciar la planicie local de un periodo de silencio. Una secuencia puede considerarse como plana si la diferencia de amplitud entre muestras consecutivas es menor que un umbral predeterminado, tal como 5 unidades de amplitud si se emplea memoria de 8 bits.

La Fig. 3 es una ilustración gráfica de un segmento 36 de voz, incluyendo un cierto número de mesetas 38. En el Apéndice A, las mesetas se denominan "saltos".

El sistema de la presente invención funciona típicamente en una de dos modalidades:

a. Calibración - construcción de un perfil del estado emocional veraz/neutro del sujeto, monitorizando un sujeto mientras el sujeto no está mintiendo y/o está en un estado emocional neutro.

b. Evaluación - Comparación del habla de un sujeto con el perfil del estado emocional veraz/neutro del sujeto, según lo establecido durante la calibración, a fin de establecer el estado emocional y/o si el sujeto está siendo veraz o no.

Si el sistema debe emplearse en la modalidad de calibración, el procedimiento continúa desde la etapa 50 hasta la etapa 60. Si el sistema debe utilizarse en la modalidad de evaluación, el procedimiento continúa desde la etapa 50 hasta la etapa 80.

Etapa 60: Si se llega a la etapa 60, esto indica que el segmento actual ha sido procesado con fines de calibración. Por lo tanto, la información de picos y mesetas derivada en la etapa 40 se almacena en una tabla de calibración.

Los procesos de las etapas 20 - 50 se denominan aquí "procesos de ingreso de grabación de voz". Si hay más grabaciones de voz a ingresar con fines de calibración, el procedimiento vuelve a la etapa 20. Si se ha completado el ingreso de todas las grabaciones de voz con fines de calibración (etapa 70), el procedimiento continúa en la etapa 80.

Etapa 80: Construcción de perfil del estado emocional veraz/neutro para el sujeto que está siendo evaluado actualmente. Esto completa la operación en modalidad de calibración. A continuación, el sistema ingresa en la modalidad de evaluación, en la cual las grabaciones de la voz del sujeto se comparan con su perfil emocional veraz/neutro a fin de identificar instancias de falsedad o emoción intensificada. El perfil del sujeto, típicamente, refleja las tendencias centrales de la información de picos/mesetas, y está típicamente ajustado para tener en cuenta fenómenos de la situación de calibración. Por ejemplo, debido a la tensión natural al comienzo del proceso de calibración, las grabaciones iniciales de voz pueden ser menos fiables que las grabaciones de voz subsiguientes. Preferiblemente, para obtener una indicación fiable de tendencias centrales, pueden descartarse las entradas extremas en la tabla de calibración.

Las etapas desde la 90 en adelante corresponden a la modalidad de evaluación.

Etapa 90: Comparar de información de picos/mesetas del segmento actual con el perfil emocional veraz/neutro calculado en la etapa 80.

Etapa 100: Aplicar umbrales a los resultados del proceso de comparación de la etapa 90 a fin de categorizar el segmento actual como indicador de diversas emociones y/o de falsedad.

Etapa 105: Optativamente, compensar el arrastre. El término "arrastre" se refiere a un estado emocional residual que se arrastra desde un estado emocional "efectivo" ocasionado por una primera situación percibida, en la cual el estado emocional residual perdura después de que la primera situación percibida ya ha acabado. Un ejemplo de una implementación adecuada para la etapa 105 se describe aquí en el diagrama de flujo de la Fig. 8.

Etapa 110: Exhibir un mensaje que indica la categoría determinada en la etapa 100.

Etapa 120: Si hay segmentos de voz adicionales para analizar, volver a la etapa 20. En caso contrario, acabar. Puede emplearse cualquier número adecuado m de segmentos para la calibración, tal como 5 segmentos.

La Fig. 4 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 40 de la Fig. 1B. Según lo descrito anteriormente, en la etapa 40, la información de pico/meseta se genera para la porción crucial de un segmento actual de grabación de voz.

La longitud actual de la meseta se denomina "jj".

"Jjmapa(jj)" es el número de mesetas cuya longitud es exactamente jj.

"Meseta" es el contador que cuenta el número de mesetas, independientemente de su longitud.

"Pico" es el contador que cuenta el número de picos.

n es el número de muestras en una porción crucial en evaluación.

En la etapa 150, se reinician los contadores de picos y mesetas.

En la etapa 160, se inicia el bucle sobre todas las muestras de la porción crucial. El bucle se inicia en la primera muestra crucial y termina en la última muestra crucial, menos 2.

En la etapa 164 se registran las amplitudes de las muestras en el bucle.

En las etapas 170 y 180 se detectan los picos y, en las etapas 190, 195, 200 y 210, se detectan las mesetas.

En la etapa 200, si la longitud de la meseta candidata está entre cotas razonables, tal como entre 3 y 20, incrementar el número de mesetas de longitud jj e incrementar Mesetas, el número total de mesetas. En caso contrario, es decir, si la longitud de la meseta candidata es menor que 3 o mayor que 20, la candidata a meseta no se considera una meseta.

Ya se considere o no la candidata a meseta como una meseta "real", la longitud de la meseta, jj, se fija en cero (etapa 210).

La etapa 220 es el final del bucle, es decir, el punto en el cual todas las muestras en la secuencia han sido comprobadas.

En la etapa 230, calcular el promedio (JPR) y el error estándar (JQ) de la variable jjmapa de longitud de meseta.

En la etapa 240, calcular PMT y JMT. PMT es el número promedio de picos por muestra, preferiblemente normalizado de manera adecuada. JMT es el número promedio de mesetas por muestra, preferiblemente normalizado de manera adecuada.

Según la realización ilustrada, la detección del estado emocional es multidimensional, es decir, el estado emocional deriva de la información vocal por medio de una pluralidad de variables intermedias, preferiblemente independientes.

La Fig. 5 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para implementar la etapa de construcción del perfil emocional veraz/neutro de la Fig. 1B.

En la Fig. 5, PMT(i) es el valor de PMT para el segmento i.

MinPMT es el mínimo valor de PMT medido en cualquiera de los m segmentos.

MaxPMT es el máximo valor de PMT medido en cualquiera de los m segmentos.

MinJMT es el mínimo valor de JMT medido en cualquiera de los m segmentos.

MaxJMT es el máximo valor de JMT medido en cualquiera de los m segmentos.

MinJQ es el mínimo valor de JQ medido en cualquiera de los m segmentos.

MaxJQ es el máximo valor de JQ medido en cualquiera de los m segmentos.

ResPMT es el tamaño de la gama de valores de PMT hallados durante la calibración. Más en general, ResPMT puede comprender cualquier indicación adecuada de la magnitud de la variación en el número de picos que pueden esperarse, cuando el sujeto está en un estado emocional veraz/neutro. Por lo tanto, si el número de picos en un segmento de voz es no normativo, con relación a ResPMT, entonces puede decirse que el sujeto está en un estado emocional no neutro, tal como un estado emocional caracterizado por la agitación o incluso la desazón. ResPMT, por lo tanto, es típicamente una entrada al proceso de evaluación de los valores de PMT generados durante circunstancias emocionales desconocidas.

ResJMT es el tamaño de la gama de valores de JMT hallados durante la calibración. Más en general, ResJMT puede comprender cualquier indicación adecuada de la magnitud de la variación en el número de mesetas que pueden esperarse, cuando el sujeto está en un estado emocional veraz/neutro. Por lo tanto, si el número de mesetas en un segmento de voz es no normativo, con relación a ResPMT, entonces puede decirse que el sujeto está en un estado emocional no neutro, tal como un estado emocional caracterizado por una sensación de contradicción interna o disonancia cognitiva. ResJMT, por lo tanto, es típicamente una entrada al proceso de evaluación de los valores de JMT generados durante circunstancias emocionales desconocidas.

ResJQ es el tamaño de la gama de los valores de JQ hallados durante la calibración, que sirve como un valor de línea base para la evaluación de valores de JQ generados durante circunstancias emocionales desconocidas.

Se aprecia que la línea base no debe ser necesariamente una línea base de dimensión 4, según se muestra en la Fig. 5, sino que, alternativamente, puede ser incluso unidimensional, o puede tener mucho más de 4 dimensiones.

La Fig. 6 es una ilustración de diagrama de flujo simplificado de un procedimiento preferido para realizar la etapa 90 de la Fig. 1B en un segmento específico. Como se ha descrito anteriormente, en la etapa 90, la información de pico/meseta de un segmento actual se compara con la línea base de emoción veraz/neutra calculada en la etapa 80.

La etapa 400 es una etapa de inicialización.

La etapa 410 calcula la desviación de una porción crucial actual con respecto al perfil previamente calculado del estado emocional veraz/neutro del sujeto. En la realización ilustrada, la desviación comprende un valor de dimensión cuatro que incluye un primer componente correspondiente al número de picos, un segundo componente correspondiente al número de mesetas, un tercer componente correspondiente al error estándar en la longitud de la meseta y un cuarto componente correspondiente a la longitud promedio de meseta. Sin embargo, se aprecia que pueden emplearse distintos componentes en distintas aplicaciones. Por ejemplo, en algunas aplicaciones, la distribución de picos (uniforme, errática, etc.) durante un intervalo temporal puede ser útil para derivar información con respecto al estado emocional del sujeto.

"Puntocontrol_{P}" es un valor umbral que caracteriza la gama aceptable de razones entre el número promedio de picos en circunstancias emocionales veraces/neutras, y el número específico de picos en la porción crucial actual.

"Puntocontrol_{J}" es un valor umbral que caracteriza la gama aceptable de razones entre el número promedio de mesetas en circunstancias emocionales veraces/neutras, y el número especifico de mesetas en la porción crucial actual.

"Puntocontrol_{Q}" es un valor umbral que caracteriza la gama aceptable de razones entre el error estándar promedio del número de mesetas en circunstancias emocionales veraces/neutras, y el error estándar específico en el número de mesetas en la porción crucial actual.

"Puntocontrol_{M}" es un valor umbral que caracteriza la gama aceptable de razones entre la longitud promedio de la meseta en circunstancias emocionales veraces/neutras, y la específica longitud promedio de la meseta en la porción crucial actual.

Las etapas 420-470 actualizan el perfil del sujeto para tener en cuenta la nueva información acopiada a partir del segmento actual. En la realización ilustrada, sólo se actualizan los valores de ResPMT y de ResJMT, y sólo si la desviación de una porción crucial actual con respecto al perfil previamente calculado del estado emocional veraz/neutro del sujeto es bien muy grande (p. ej., supera valores tope predeterminados) o bien muy pequeño (p. ej., queda por debajo de ciertos valores base predeterminados, típicamente negativos). Si la desviación de la porción crucial actual con respecto al perfil veraz/neutro no es ni muy grande ni muy pequeña (p. ej., queda entre los valores tope y base), el perfil del sujeto, típicamente, se deja intacto en esta etapa.

En las etapas 460 y 470, si zzPMT y zzJMT, respectivamente, están muy cerca de cero, entonces se aumenta la sensibilidad del sistema disminuyendo, respectivamente, ResPMT y ResJMT.

La etapa 480 genera combinaciones adecuadas, típicamente específicas para la aplicación, de los componentes de desviación calculados en la etapa 410. Estas combinaciones se utilizan como base para criterios adecuados de clasificación emocional, tales como los criterios de clasificación emocional especificados en la Fig. 7. Los criterios de clasificación emocional de la Fig. 7 determinan si se clasifica o no al sujeto como que está exagerando, como que no está siendo veraz, como que está evadiéndose, como que está confundido o inseguro, como que está agitado, o como que está sarcástico. Sin embargo, se aprecia que pueden emplearse distintas clasificaciones emocionales en distintas situaciones.

En la realización ilustrada, la información de PMT se utiliza principalmente para determinar el nivel de agitación. Más específicamente, se utiliza zzPMT para determinar el valor de crAGITA, que también puede depender de parámetros adicionales, tales como crTENSION. Por ejemplo, un valor de crAGITA entre 70 y 120 puede considerarse normal, mientras que los valores entre 120 y 160 pueden considerarse indicadores de agitación media, y los valores que superan 160 pueden considerarse indicadores de agitación en alto grado.

En la realización ilustrada, la información de JMT se emplea principalmente para determinar los sentimientos de disonancia sicológica. Por ejemplo, un valor de zzJMT entre 0,6 y 1,2 puede considerarse normal, mientras que un valor de entre 1,2 y 1,7 puede considerarse indicador de confusión o incertidumbre. Un valor que supera 1,7 puede considerarse indicador de autopercepción vocal por parte del sujeto, y/o un intento del sujeto para controlar su voz.

En la realización ilustrada, los valores de zzJQ y de crTENSION se utilizan principalmente para determinar el nivel de tensión. Por ejemplo, un valor de crTENSION entre 70 y 120 puede considerarse normal, mientras que los valores por encima de 120 pueden considerarse indicadores de alta tensión.

En la realización ilustrada, la información de JPR se utiliza para determinar la magnitud del pensamiento empleado en palabras o frases habladas. Por ejemplo, si crPENSAMIENTO supera un valor de 100, entonces la magnitud de pensamiento empleado en una última frase hablada es mayor que la magnitud de pensamiento empleado en la fase de calibración. Esto significa que la persona está pensando acerca de lo que está diciendo más de cuanto lo hacía en la fase de calibración. Si el valor es menor que 100, la persona está pensando acerca de lo que está diciendo menos de cuanto lo hacía en la fase de calibración.

En la realización ilustrada, el parámetro crMENTIRA se utiliza para determinar la veracidad. Un valor de crMENTIRA de 50 puede considerarse indicador de falta de veracidad, los valores entre 50 y 60 pueden considerarse indicadores de sarcasmo o humor, los valores entre 60 y 130 pueden considerarse indicadores de veracidad, los valores entre 130 y 170 pueden considerarse indicadores de inexactitud o exageración, y los valores por encima de 170 pueden considerarse indicadores de falta de veracidad.

Con referencia nuevamente a la Fig. 6, los parámetros mencionados anteriormente pueden recibir los siguientes valores:

1000

Se aprecia que todos los valores numéricos son meros ejemplos y son, típicamente, dependientes de la aplicación.

La Fig. 7 ilustra el procedimiento para convertir los diversos parámetros en mensajes que puedan exhibirse, como se muestra, por ejemplo, en la Fig. 1.

La Fig. 8 representa un procedimiento para el ajuste fino del estado emocional veraz/neutro.

El Apéndice A es un listado de ordenador de una implementación en software de una realización preferida de la invención aquí mostrada y descrita, que difiere levemente de la realización aquí mostrada y descrita con referencia a los dibujos.

Un procedimiento adecuado para generar la implementación en software es el siguiente:

a. En un ordenador personal equipado con un micrófono, una tarjeta de sonido y el software Visual Basic™ Versión 5, generar un nuevo proyecto.

La configuración de grabación de la tarjeta de sonido puede funcionar de acuerdo a los siguientes parámetros: 11 KHz, 8 bits, mono, PCM.

b. Colocar un objeto temporizador sobre el formulario por omisión que aparece en el nuevo proyecto. El objeto temporizador se llama "temporizador1".

c. Colocar un objeto de control de multimedios MCI sobre el formulario. Este objeto se llama "controlmm1".

d. Colocar 5 objetos de etiqueta sobre el formulario. Estas etiquetas se llaman etiqueta1, etiqueta2, etiqueta3, etiqueta4 y etiqueta6.

e. Crear 4 vectores de etiquetas sobre el formulario. Renombrar los vectores de la siguiente manera: PMT(0..4), JMT(0..4), JQ(0..4), JPR(0..4).

f. Colocar un botón de comando sobre el formulario y cambiar, en las propiedades, su título a "FIN". El botón de comando se llama "comando1".

g. Generar código para el formulario tecleando el contenido de las páginas del Apéndice A con el encabezamiento "formulario1".

h. Añadir un módulo al proyecto. Generar código para el módulo tecleando el contenido de las páginas del Apéndice A con el encabezamiento "Detector_de_sentimientos".

i. Conectar un micrófono al ordenador personal.

j. Pulsar F5 o "Ejecutar" ("Run") a fin de iniciar la aplicación.

La Fig. 9 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en modalidad de diseño, justo antes de iniciar la aplicación.

La Fig. 10 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en modalidad de ejecución, durante la calibración de un sujeto específico.

La Fig. 11 es una ilustración gráfica de una visualización en pantalla que ilustra el formulario, en modalidad de ejecución, durante la evaluación de un sujeto.

Los valores de la variable CoR_msjX en el Apéndice A son los siguientes:

1 - veracidad, 2 - sarcasmo, 3 - agitación, 4 - confusión/incertidumbre, 5 - suma agitación, 6 - manipulación vocal, 7 - mentira/afirmación falsa, 8 - exageración/inexactitud.

Las variables que llevan datos de la porción crucial actual tienen nombres que comienzan por los siguientes caracteres: cor_.

Los factores de línea base tienen nombres que comienzan por los siguientes caracteres: cal_.

Los factores de punto de control tienen nombres que comienzan por los siguientes caracteres: pc_.

ResPMT y resJMT se llaman, respectivamente, ResP y ResJ.

La Fig. 12 es una ilustración, de diagrama de bloques funcionales simplificado, de un sistema para detectar estados emocionales, que se construye y que funciona según una realización preferida de la presente invención, y que es operable para realizar el procedimiento de la Fig. 1B. Según se muestra, el sistema de la Fig. 12 incluye un dispositivo de ingreso de voz, tal como una grabadora 700 de cinta, un micrófono 710 o teléfono 720, que genera habla, la cual es ingresada por una estación 735 de trabajo de detección de emociones, por medio de un convertidor analógico/digital (A/D) 740. Una grabadora 750 de ventana de voz, típicamente, particiona las señales entrantes, que representan el habla, en ventanas o segmentos de voz, que son analizados por un analizador 770 de ventanas de voz. El analizador de ventanas de voz compara las ventanas o segmentos de voz con los datos de calibración almacenados en la unidad 770. Los datos de calibración, típicamente, se derivan individualmente para cada sujeto individual, según lo anteriormente descrito en detalle. Se proporciona una unidad de visualización o impresora 780 a fin de exhibir o imprimir un informe del estado emocional, preferiblemente en línea, para el usuario del sistema.

Se aprecia que los componentes de software de la presente invención, si se desea, pueden implementarse en forma de ROM (memoria de sólo lectura). Los componentes de software, generalmente, pueden implementarse en hardware, si se desea, utilizando técnicas convencionales.

Se aprecia que la realización específica descrita en el Apéndice está concebida sólo para proporcionar una revelación extremadamente detallada de la presente invención, y no está concebida como limitación.

Se aprecia que las diversas características de la invención que, para mayor claridad, se describen en los contextos de realizaciones separadas, también pueden proporcionarse en combinación en una única realización. Y viceversa: diversas características de la invención que, para mayor brevedad, se describen en el contexto de una única realización, también pueden proporcionarse por separado o en cualquier subcombinación adecuada.

Las personas versadas en la técnica apreciarán que la presente invención no está limitada a lo que se ha mostrado y descrito en particular en lo precedente. En cambio, el ámbito de la presente invención está definido sólo por las reivindicaciones siguientes:

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

Claims

1. Un aparato para detectar el estado emocional de un individuo, comprendiendo el aparato:

un analizador de voz operable para analizar un segmento de voz de un espécimen (32) de voz muestreada, generado por el individuo, y para derivar directamente del mismo información de entonación, en donde dicha información de entonación incluye al menos una entre información correspondiente al número de picos dentro del segmento de voz, información correspondiente al número de mesetas dentro del segmento de voz e información correspondiente a la longitud de las mesetas dentro del segmento de voz; y

un emisor de informes sobre emociones, operable para generar una indicación de salida del estado emocional del individuo, basada en dicha información de entonación;

en el cual un pico es una característica en el espécimen de voz que incluye una secuencia de primera muestra, muestra media y tercera muestra adyacentes; tanto la primera muestra como la tercera muestra son más altas o más bajas que la muestra media; y

en el cual una meseta es un segmento plano en el espécimen de voz, en el cual la longitud del segmento plano es mayor que un predeterminado umbral mínimo, y es menor que un predeterminado umbral máximo, y en el cual una diferencia de amplitud entre muestras consecutivas en el segmento plano es menor que un umbral de amplitud predeterminado.

2. El aparato según la reivindicación 1, en el cual dicho espécimen (32) de voz se proporciona por teléfono (720) a dicho analizador de voz.

3. El aparato según la reivindicación 1, en el cual dicho informe sobre el estado emocional del individuo incluye un informe de detección de mentiras basado en el estado emocional del individuo.

4. El aparato según cualquiera de las reivindicaciones 1-3, en el cual dicha información de entonación comprende información de entonación multidimensional.

5. El aparato según la reivindicación 4, en el cual dicha información de entonación multidimensional comprende al menos información tridimensional.

6. El aparato según la reivindicación 4, en el cual dicha información de entonación multidimensional comprende al menos información de dimensión 4.

7. El aparato según la reivindicación 1, en el cual dicha información de entonación incluye información correspondiente al número de picos dentro del segmento de voz y dicho estado emocional incluye el nivel de excitación.

8. El aparato según la reivindicación 1, en el cual dicha información de entonación incluye información correspondiente al número de picos dentro del segmento de voz, y dicha información correspondiente al número de picos incluye información correspondiente a la distribución de picos a lo largo del tiempo.

9. El aparato según la reivindicación 1, en el cual dicha información de entonación incluye información correspondiente al número de mesetas dentro del segmento de voz y dicho estado emocional incluye sentimientos de disonancia sicológica.

10. El aparato según la reivindicación 1, en el cual dicha información de entonación incluye información correspondiente a la longitud de las mesetas dentro del segmento de voz, y dicha información correspondiente a la longitud de las mesetas incluye una longitud media de meseta para un periodo de tiempo predeterminado.

11. El aparato según la reivindicación 10, en el cual dicho estado emocional incluye el número de pensamientos empleados en palabras o frases habladas.

12. El aparato según la reivindicación 10, en el cual dicha información de entonación incluye información correspondiente a la longitud de las mesetas dentro del segmento de voz, y dicha información correspondiente a la longitud de mesetas comprende un error estándar de la longitud de la meseta para un periodo de tiempo predeterminado.

13. El aparato según la reivindicación 12, en el cual dicho estado emocional incluye el nivel de estrés.

14. El aparato según la reivindicación 7, en el cual dicho estado emocional incluye la veracidad.

15. El aparato según la reivindicación 1, en el cual dicho analizador de voz comprende un analizador de voz multidimensional, operable para ingresar un espécimen (32) de voz generado por el individuo, y para cuantificar una pluralidad de características de dicho espécimen (32) de voz; y

en el cual dicho emisor de informes sobre emociones comprende un emisor de informes evaluador de credibilidad operable para generar una indicación de salida de la credibilidad del individuo, incluyendo la detección de mentiras, basada en dicha pluralidad de características cuantificadas.

16. Aparato según una cualquiera de las reivindicaciones 1-6, 9-13, en el cual dicho espécimen (32) de voz comprende una onda principal de voz con un periodo, y en el cual dicho analizador de voz es operable para analizar el espécimen (32) de voz a fin de determinar la tasa de ocurrencia de las mesetas (38), indicando cada meseta que una onda local de baja frecuencia está superpuesta sobre la onda principal de voz; y

en el cual el emisor de informes sobre emociones es operable para proporcionar una indicación de salida adecuada basada en la tasa de ocurrencia de las mesetas (38).

17. Un procedimiento para detectar el estado emocional de un individuo, comprendiendo el procedimiento:

recibir un segmento de voz de un espécimen (32) de voz muestreada, generado por el individuo, y derivar directamente del mismo información de entonación, en donde dicha información de entonación incluye al menos una entre la información correspondiente al número de picos dentro del segmento de voz, la información correspondiente al número de mesetas dentro del segmento de voz y la información correspondiente a la longitud de las mesetas dentro del segmento de voz; y

generar una indicación de salida del estado emocional del individuo, basada en dicha información de entonación;

en el cual un pico es una característica en el espécimen de voz que incluye una secuencia de primera muestra, muestra media y tercera muestra adyacentes; tanto la primera muestra como la tercera muestra son más altas o más bajas que la muestra media, y en el cual una meseta es un segmento plano en el espécimen de voz, en el cual la longitud del segmento plano es mayor que un umbral mínimo predeterminado, y es menor que un umbral máximo predeterminado, y en el cual una diferencia de amplitud entre muestras consecutivas en el segmento plano es menor que un umbral de amplitud predeterminado.

18. El procedimiento según la reivindicación 17, en el cual dicha recepción del espécimen de voz se hace por teléfono.

19. Un procedimiento según la reivindicación 17, en el cual dicha derivación de información de entonación comprende:

cuantificar una pluralidad de características de dicho espécimen (32) de voz; y

en el cual dicha generación de una indicación de salida comprende:

generar una indicación de salida de la credibilidad del individuo, incluyendo la detección de mentiras, basada en dicha pluralidad de características cuantificadas.

20. El procedimiento según cualquiera de las reivindicaciones 17-19, en el cual dicha información de entonación incluye información correspondiente al número de picos dentro del segmento de voz y la derivación de información de entonación incluye:

derivar información de entonación multidimensional.

21. El procedimiento según la reivindicación 17, en el cual dicha información de entonación incluye información correspondiente al número de picos dentro del segmento de voz y la derivación de información de entonación
incluye:

contar el número de picos en un periodo de tiempo predeterminado dentro del segmento de voz.

22. El procedimiento según la reivindicación 21, en el cual dicho estado emocional incluye el nivel de agitación.

23. El procedimiento según la reivindicación 17, en el cual dicha información de entonación incluye información correspondiente al número de picos dentro del segmento de voz y la derivación de la información de entonación incluye:

calcular la distribución de picos a lo largo del tiempo dentro del segmento de voz.

24. El procedimiento según la reivindicación 17, en el cual dicha información de entonación incluye información correspondiente al número de mesetas dentro del segmento de voz y la derivación de información de entonación incluye:

contar el número de mesetas en un periodo de tiempo predeterminado.

25. El procedimiento según la reivindicación 24, en el cual dicho estado emocional incluye sentimientos de disonancia sicológica.

26. El procedimiento según la reivindicación 17, en el cual dicha información de entonación incluye información correspondiente a la longitud de las mesetas dentro del segmento de voz y la derivación de la información de entonación incluye:

calcular una longitud media de meseta para un periodo de tiempo predeterminado.

27. El procedimiento según la reivindicación 26, en el cual dicho estado emocional incluye la cantidad de pensamientos empleados en palabras o frases habladas.

28. El procedimiento según la reivindicación 26, en el cual la derivación de la información de entonación incluye adicionalmente:

calcular un error estándar de longitud de meseta para el periodo de tiempo predeterminado.

29. El procedimiento según la reivindicación 28, en el cual dicho estado emocional incluye el nivel de estrés.

30. El procedimiento según la reivindicación 17, en el cual dicho estado emocional incluye la veracidad.

31. El procedimiento según la reivindicación 17, en el cual la recepción de un segmento de voz comprende:

establecer una gama de características que caracterizan la gama de emociones del individuo en reposo mediante:

monitorizar al individuo para dicha información de entonación en el transcurso de un primer periodo, durante el cual el individuo está en un estado emocional neutro; y

definir la gama de características como una función de la gama de la información de entonación durante dicho primer periodo; y

en el cual dicha generación de una indicación de salida comprende:

monitorizar al individuo para dicha información de entonación en el transcurso de un segundo periodo, durante el cual se desea detectar el estado emocional del individuo, para obtener por ello una medición de dicha información de entonación, y ajustar dicha medición para tener en cuenta dicha gama de características.