ES2964705T3

ES2964705T3 - Plataformas móviles y portátiles de captura y retroalimentación de vídeo para la terapia de trastornos mentales

Info

Publication number: ES2964705T3
Application number: ES17810680T
Authority: ES
Inventors: Catalin Voss; Nicholas Haber; Dennis Wall; Aaron Kline; Terry Winograd
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2016-05-06
Filing date: 2017-05-08
Publication date: 2024-04-09
Anticipated expiration: 2037-05-08
Also published as: EP4296935A2; US11937929B2; US20210022657A1; US20240215882A1; WO2017213780A1; US20170319123A1; US11089985B2; KR20190025549A; JP2019522300A; JP2021057057A; CA3023241A1; EP3452935A4; CN109475294A; CN109475294B; US10835167B2; JP6815486B2; US20220202330A1; EP4296935A3; EP3452935B1; EP3452935A1

Abstract

Los sistemas de terapia de salud mental y conductual de acuerdo con varias realizaciones de la invención incluyen una cámara portátil y/o una variedad de sensores (acelerómetro, micrófono, entre otros) conectados a un sistema informático que incluye una pantalla, salida de audio, salida holográfica y /o salida vibrotáctil para reconocer automáticamente señales sociales de imágenes capturadas por al menos una cámara y proporcionar esta información al usuario a través de una o más salidas tales como (pero no limitadas a) mostrar una imagen, mostrar una superposición holográfica, generar una señal audible y/o generar una vibración. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Plataformas móviles y portátiles de captura y retroalimentación de vídeo para la terapia de trastornos mentales

Campo de la invención

La presente invención se refiere a proporcionar sistemas y métodos para usar sistemas de captura de vídeo móviles y portátiles para proporcionar terapia para trastornos del comportamiento. En particular, el sistema informático ejecuta un sistema de software que utiliza clasificadores para detectar expresiones en rostros visibles dentro de las imágenes capturadas por el sistema y proporciona retroalimentación al usuario como parte de su tratamiento terapéutico. Los documentos US 2014/063236 A1 y US 2015/099946 A1 divulgan sistemas de procesamiento de imágenes de la técnica anterior.

Antecedentes

Se sabe que los trastornos mentales como autismo, ansiedad, depresión, trastornos bipolares, esquizofrenia, lesión cerebral traumática, enfermedad de Alzheimer y Parkinson afectan negativamente a las interacciones sociales. Por ejemplo, aproximadamente uno de cada 68 niños y uno de cada 46 niños tiene autismo y tiene dificultades para reconocer las expresiones faciales, hacer contacto visual y participar en interacciones sociales debido a su afección.

Adquirir o recuperar tales habilidades sociales puede requerir una intervención conductual intensiva que a menudo es costosa, de difícil acceso y de administración de manera inconsistente. La referencia de atención actual para el autismo y algunos otros trastornos, por ejemplo, implica una "terapia con tarjetas didácticas" que implica una minuciosa memorización de emociones faciales. Como resultado, muchos niños con autismo no logran desarrollar habilidades sociales básicas y pueden retroceder rápidamente por un camino de aislamiento que empeora sus síntomas.

Sumario de la invención

Se divulgan sistemas y métodos para usar sistemas de captura de vídeo móviles y portátiles para proporcionar terapia para trastornos de salud mental y del comportamiento de acuerdo con diversas realizaciones de la invención. De acuerdo con la invención, un sistema de procesamiento de imágenes incluye: al menos una cámara para capturar imágenes de un entorno circundante; un monitor, al menos un procesador y un procesador con memoria; y el software ordena al por lo menos un procesador: obtener datos que comprenden una secuencia de imágenes capturadas por al menos una cámara; detectar un rostro para al menos una persona dentro de una pluralidad de imágenes; detectar al menos una señal emocional en el rostro basándose en la pluralidad de imágenes usando un clasificador; identificar al menos una emoción basándose en la señal emocional; y mostrar al menos una etiqueta indicadora de emoción en tiempo real para proporcionar retroalimentación terapéutica; en donde el clasificador se entrena utilizando un conjunto de datos de entrenamiento de datos de señales emocionales estadísticamente representativos, y en donde el software ordena al por lo menos un procesador que lleve a cabo además una calibración del clasificador para un individuo objetivo complementando el conjunto de datos de entrenamiento con al menos una imagen del individuo objetivo y una etiqueta proporcionada por el usuario correspondiente de la señal emocional del individuo objetivo y reentrenar el clasificador para el individuo objetivo utilizando la señal emocional y la etiqueta correspondiente de la señal emocional del individuo objetivo.

En una realización adicional, el sistema incluye un sistema portátil de captura de vídeo que incluye al menos una cámara orientada hacia afuera.

En una realización adicional más, del grupo se selecciona el sistema portátil de captura de vídeo: un casco de realidad virtual, un casco de realidad mixta, un casco de realidad aumentada y gafas que incluyen un visualizador frontal.

En otra realización, el sistema portátil de captura de vídeo se comunica con al menos un dispositivo móvil y al menos un procesador se está ejecutando en al menos un dispositivo móvil.

En aún una realización adicional, el software ordena al por lo menos un procesador obtener datos suplementarios que incluyen datos capturados de al menos un sensor seleccionado del grupo: un micrófono, un acelerómetro, un giroscopio, un sensor de seguimiento ocular, un sensor de seguimiento de la cabeza, un sensor de temperatura corporal, un sensor de frecuencia cardíaca, un sensor de presión arterial y un sensor de conductividad de la piel.

En aun otra realización, el software ordena al por lo menos un procesador para que muestre al menos una etiqueta indicadora de emoción en tiempo real para proporcionar retroalimentación terapéutica realizando al menos una de las acciones de mostrar una etiqueta dentro de una pantalla de visualización frontal, generando una señal audible, generando una vibración, mostrando una superposición holográfica y mostrando una imagen.

En otra realización más, el software ordena al por lo menos un procesador que procese datos de imágenes a una resolución más alta dentro de una región de interés relacionada con una cara detectada dentro de una imagen.

En aun otra realización más, la región de interés es una región delimitadora alrededor de la cara detectada, donde el procesamiento de datos también utiliza un filtro de media móvil para suavizar la región delimitadora de interés.

Nuevamente en una realización adicional, el software ordena al por lo menos un procesador que realice una estimación y resta de características neutrales en al menos una persona mediante: realización de detección de rostros; realizar seguimiento de caras de puntos fiduciales; realizar el registro de la cara a un tamaño y pose canónicos; realizar preprocesamiento de normalización de iluminación; generar un Histograma de degradados para extraer características en una región de interés sobre la cara; y realizar la clasificación de la expresión de la cara mediante un clasificador de regresión logística; y filtrado de la clasificación resultante

Nuevamente en otra realización más, la señal emocional incluye información seleccionada del grupo que consiste en expresiones faciales, movimientos de los músculos faciales, lenguaje corporal, gestos, postura del cuerpo, acontecimientos de contacto visual, postura de la cabeza, características de una conversación, inquietud e información sobre ansiedad.

De acuerdo con la invención, el clasificador se entrena utilizando un conjunto de datos de entrenamiento de datos de expresión social estadísticamente representativos y que proporciona señales sociales basadas en acontecimientos.

De acuerdo con la invención, el software ordena al por lo menos un procesador que complemente el conjunto de entrenamiento con datos etiquetados por el usuario de los individuos objetivo.

Nuevamente en otra realización más, el software ordena al por lo menos un procesador que entrene al clasificador utilizando los datos de entrenamiento y los datos etiquetados por el usuario de los individuos objetivo de modo que, según la invención, el clasificador logre un mayor rendimiento al detectar al menos una señal emocional en la cara de los individuos objetivo comparados con el desempeño del clasificador detectando al menos una señal emocional frente a otros individuos en los datos de entrenamiento.

Nuevamente en otra realización, el software ordena al por lo menos un procesador: solicitar a un usuario que etiquete datos para un individuo objetivo con al menos una etiqueta de señal emocional; y almacenar los datos etiquetados por el usuario para el individuo objetivo en la memoria.

Todavía en otra realización más, el software ordena al por lo menos un procesador almacenar datos de expresión social y proporciona una interfaz de usuario para la revisión de los datos de expresión social.

En aún otra realización adicional más, el clasificador es una máquina de regresión que proporciona una salida continua correspondiente a una señal social.

En aún otra realización adicional más, el clasificador se entrena como clasificador visual dependiente del tiempo utilizando datos de vídeo de expresiones faciales estándar y con secuencias de conversación expresivas.

Todavía en otra realización más, el software dirige el al menos un procesador para detectar acontecimientos de mirada usando al menos un dato de seguimiento ocular orientado hacia adentro de una cámara orientada hacia un usuario del sistema de procesamiento de imágenes junto con datos de vídeo orientado hacia afuera de una cámara orientada en dirección opuesta al usuario.

Nuevamente en aún otra realización adicional, el software dirige el al menos un procesador para que proporcione una revisión de las interacciones sociales registradas entre un usuario y la al menos una persona y proporciona datos de comportamiento del usuario generados como reacción a las interacciones registradas.

En aún otra realización más, realizar una estimación y resta de características neutrales en la cara de la al menos una persona incluye realizar una resta de expresiones neutrales basada en los resultados de un primer clasificador de expresiones entrenado en características sustraídas neutrales y un segundo clasificador neutral/expresivo de 2 clases entrenado en característicasbrutas(no restadas neutras), en donde las características de referencia se establecen y luego se restan para corregir la variación de la interfaz y la iluminación.

En una realización, un sistema de terapia conductual incluye: al menos una cámara para capturar imágenes de un entorno circundante; al menos un procesador y un procesador con memoria; donde el software dirige el al menos un procesador para que muestre, para cada una de varias imágenes previamente almacenadas en la memoria del sistema, una imagen de la cara de una persona que expresa una emoción particular, donde la imagen está asociada con la emoción particular; recibir una entrada de un usuario que ve la imagen con respecto a una emoción que el usuario ha seleccionado para ilustrar la emoción retratada por la cara de la persona; determinar si la entrada recibida del usuario coincide con la emoción particular asociada con la imagen particular; y proporcionar comentarios al usuario en función de sus selecciones.

En otra realización, un sistema de terapia conductual incluye: al menos una cámara para capturar imágenes de un entorno circundante; al menos un procesador y un procesador con memoria; donde el software dirige el al menos un procesador para: capturar vídeo de una persona en tiempo real; detectar una emoción para la cara de la persona usando al menos un clasificador; proporcionar una indicación sobre una emoción diferente que se debe provocar en la persona y que actualmente no se está detectando; determinar si la emoción ha sido provocada dentro de un período de tiempo determinado; y proporcionar retroalimentación a un usuario del sistema con respecto a su capacidad para provocar la emoción.

Breve descripción de los dibujos

La descripción se entenderá mejor con referencia a las siguientes figuras y gráficos de datos, que se presentan como diversas realizaciones de la divulgación y no deben interpretarse como una descripción completa del alcance de la divulgación, en donde:

la figura 1 ilustra un sistema de terapia conductual de acuerdo con una realización de la invención.

La figura 2 muestra una descripción general esquemática de un sistema de comportamiento en el que un dispositivo de captura portátil proporciona vídeo egocéntrico y otros datos sensoriales a un dispositivo informático de acuerdo con una realización de la invención.

La figura 3 ilustra un dispositivo de captura portátil que es un par de gafas inteligentes que proporciona vídeo egocéntrico y otros datos sensoriales a un dispositivo informático móvil de acuerdo con una realización de la invención.

La figura 4 ilustra un sistema de reconocimiento de acciones sociales que puede generar señales sociales a partir de datos sensoriales de acuerdo con una realización de la invención.

La figura 5 proporciona una vista ampliada de una interacción de un rastreador facial y procesos de reconocimiento de unidad de acción/expresión facial utilizados de acuerdo con una realización de la invención.

La figura 6 ilustra un proceso para integrar datos de vídeo orientados hacia afuera y posiblemente datos de seguimiento ocular orientados hacia adentro para detectar acontecimientos de mirada mutua o mirada unidireccional que pueden dar como resultado señales sociales de acuerdo con una realización de la invención. La figura 7 ilustra un proceso para integrar datos de vídeo orientados hacia afuera y posiblemente datos de seguimiento ocular orientados hacia adentro para detectar acontecimientos de mirada mutua o mirada unidireccional que pueden dar como resultado señales sociales de acuerdo con una realización de la invención. La figura 8 ilustra un sistema que produce información social o una señal para darse al usuario y a otros usuarios del dispositivo de acuerdo con una realización de la invención.

La figura 9 ilustra un proceso para la corrección de etiquetas de datos de entrenamiento para su uso en clasificadores de entrenamiento de acuerdo con una realización de la invención.

La figura 10 ilustra un ejemplo de un sistema de aprendizaje automático de alta dimensión de acuerdo con una realización de la invención.

La figura 11 ilustra un proceso mediante el cual un flujo de paquetes de monturas entre las gafas portátiles y el teléfono móvil puede alternar entre incluir una montura facial "completa" y una montura "ampliada" de acuerdo con una realización de la invención.

La figura 12 ilustra varios tipos de retroalimentación visual que se pueden mostrar en una pantalla de visualización frontal de acuerdo con una realización de la invención.

La figura 13 ilustra una aplicación que se ejecuta en un dispositivo móvil que proporciona una indicación de una emoción que se está detectando para una persona de acuerdo con una realización de la invención.

La figura 14 ilustra un sistema de revisión que puede contener una vista similar a un suministro de noticias de las grabaciones de sesiones anteriores en orden cronológico de acuerdo con una realización de la invención.

La figura 15 ilustra varios Ul para seleccionar varias configuraciones de la aplicación de acuerdo con una realización de la invención.

La figura 16 ilustra una aplicación que se ejecuta en un dispositivo móvil que proporciona una indicación de una emoción que se está detectando para una persona de acuerdo con una realización de la invención.

La figura 17 ilustra varios Ul de un dispositivo móvil que ejecuta un sistema de terapia conductual de acuerdo con una realización de la invención.

La figura 18 ilustra una interfaz de usuario mediante la cual una aplicación de revisión permite a los usuarios y cuidadores revisar las actividades registradas a lo largo del día de acuerdo con una realización de la invención. La figura 19 ilustra un algoritmo para la resta neutra de acuerdo con una realización de la invención.

La figura 20 ilustra los resultados de un estudio particular que muestra las puntuaciones de SRS desde el inicio hasta la conclusión.

La figura 21 ilustra un gráfico para un estudio particular que muestra el cambio en las puntuaciones SRS desde el inicio hasta la conclusión.

Descripción detallada

Volviendo ahora a los dibujos, se ilustran sistemas y métodos para usar sistemas de captura de vídeo móviles y portátiles para proporcionar terapia para trastornos de salud mental y del comportamiento de acuerdo con diversas realizaciones de la invención. La llegada de dispositivos móviles y portátiles (como gafas inteligentes como Google Glass y dispositivos que incluyen pantallas de realidad mixta similares a las Microsoft Hololens) presenta la oportunidad de desarrollar aplicaciones que lleven la experiencia de aprendizaje social al hogar de los pacientes, por ejemplo, dando señales sociales mínimamente intrusivas en tiempo real en un sistema portátil, revisando ciertos indicadores de progreso conductual observables y mensurables, como (pero no limitados a) la cantidad y el tipo de contacto visual, o revisando grabaciones de vídeo de interacción emocional para identificar qué salió bien o mal en una situación determinada. En la siguiente descripción detallada, se divulgan sistemas para usar enfoques de captura de vídeo móviles y portátiles como terapia de trastornos del comportamiento, así como varios métodos novedosos que habilitan este sistema y pueden ser útiles en otros ámbitos similares de tareas de reconocimiento social médicas o no médicas.

Los sistemas de terapia conductual según varias realizaciones de la invención incluyen una cámara portátil y/o una variedad de sensores (acelerómetro, micrófono, entre varios otros) conectados a un sistema informático que incluye una pantalla, salida de audio, salida holográfica y/o salida vibrotáctil para reconocer automáticamente señales sociales de imágenes capturadas por al menos una cámara y proporcionar esta información al usuario a través de una o más salidas tales como (pero no limitadas a) mostrar una imagen, mostrando una superposición holográfica, generando una señal audible y/o generar una vibración. En una serie de realizaciones, el sistema portátil de terapia conductual toma la forma de una realidad aumentada, casco de realidad mixta o de realidad virtual que incorpora una cámara y depende de procesadores dentro del casco y/o procesador(es) en un teléfono móvil en comunicación con el casco a través de una conexión de datos por cable y/o inalámbrica para procesar datos de imágenes y generar visualizaciones. En determinadas realizaciones, el sujeto (un individuo con un trastorno mental) usa auriculares que capturan fotogramas de vídeo a través de una cámara orientada hacia afuera junto con otros datos fisiológicos (por ejemplo, temperatura corporal, frecuencia cardíaca) y datos conductuales/sensoriales (por ejemplo, señales de audio, seguimiento visual, seguimiento de cabeza, etc.) y envía estos datos a una aplicación que se ejecuta en un teléfono móvil en tiempo real. En varias realizaciones, un sistema informático ejecuta un sistema de software que utiliza clasificadores para detectar rostros y/o acontecimientos expresivos en rostros visibles dentro de imágenes capturadas por la cámara. En una serie de realizaciones, el sistema informático también es capaz de identificar otras señales sociales a partir de imágenes capturadas y/u otros datos de sensores. En determinadas realizaciones, se utiliza un sistema de aprendizaje automático para entrenar uno o más clasificadores basándose en un conjunto de datos de entrenamiento de datos de expresión social estadísticamente representativos. El sistema informático puede utilizar los clasificadores para identificar y/o calcular la probabilidad de señales sociales específicas (por ejemplo, sobre las emociones de las personas con las que interactúa el sujeto) y puede transmitir la presencia de caras detectadas y/o señales sociales detectadas al usuario a través de audio. y/o retroalimentación visual. Además, el sistema informático puede almacenar los datos de interacción social localmente o mediante un servicio de almacenamiento remoto y puede proporcionar una interfaz de usuario para una revisión seleccionada de estos datos.

A continuación se describe, de conformidad con muchas realizaciones de la invención, múltiples modificaciones que se pueden realizar en el sistema y una serie de métodos utilizados para habilitar varios componentes del sistema, calibración de los componentes de aprendizaje automático del sistema para que funcionen bien para participantes particulares y sus cuidadores, entrenar activamente el sistema para mejorar el rendimiento de esas personas, ampliar las capacidades de los componentes de aprendizaje automático e integrar el sistema propuesto en el contexto de la terapia conductual común.

A un nivel alto, el sistema de terapia conductual portátil en muchas realizaciones puede realizar una variedad de funciones que incluyen (pero no se limitan a) cualquier combinación de lo siguiente:

1. Durante las interacciones sociales no estructuradas que forman parte de la vida cotidiana del paciente (por ejemplo, la cena), el dispositivo portátil se puede utilizar como ayuda para la interacción social en tiempo real. 2. Para proporcionar modos de interacción más atractivos, el sistema puede incluir actividades gamificadas específicas que fomenten el refuerzo conductual de la manera que mejor aproveche el sistema y/o proporcione un valor terapéutico adecuado. Un ejemplo de tal actividad es un juego en el que se desafía a un grupo de niños a "capturar" un cierto número de emociones seleccionadas provocándolas en otra persona (por ejemplo, un adulto, hermano) que hace la cara que contiene la emoción, por ejemplo, haciendo un cumplido para provocar una cara feliz. Otro ejemplo es recompensar a los pacientes por imitar las expresiones de los demás.

3. Después de períodos de uso, los pacientes y sus cuidadores pueden revisar las actividades registradas desde el punto de vista del paciente (refiriéndose a las interacciones de otros entre sí y hacia el paciente), así como las reacciones del paciente a esas situaciones en forma de datos fisiológicos y de comportamiento (por ejemplo, contacto visual realizado, expresiones imitadas, etc.).

4. Después del uso del sistema, los datos resultantes pueden complementarse con algún etiquetado dirigido por el usuario (por ejemplo, en la aplicación de reconocimiento de expresiones, un usuario podría corregir secuencias clasificadas "incorrectamente" en un vídeo). Los datos (quizás reetiquetados) se pueden usar para mejorar los componentes de aprendizaje automático del sistema para mejorar la precisión del reconocimiento de la tarea dada o aprender a reconocer acontecimientos sociales interactivos más allá de la tarea dada.

Naturalmente, cualquier combinación de estas características puede ser apropiada para usuarios de diferentes condiciones, edades, familias, etcétera.

A continuación se describirán varios componentes del sistema que se utilizan para habilitar estas características en muchas realizaciones de la invención y cómo interactúan a un alto nivel, luego se explicará cómo se pueden implementar las características 1-4 específicamente, y luego se describirán algunas extensiones de cómo el sistema podría diseñarse de manera diferente sin dejar de perseguir objetivos terapéuticos similares.

Sistema de tecnología de terapia conductual

Volviendo a los dibujos, lafigura 1ilustra un sistema de tecnología de terapia conductual de acuerdo con una realización de la invención que incluye un dispositivo informático107que permite la realización de métodos de procesamiento de datos y de interfaz de usuario similares a los descritos en el presente documento. Un dispositivo informático puede ser, por ejemplo, un teléfono inteligente, ordenador de sobremesa, ordenador portátil, televisión inteligente, reloj inteligente, gafas inteligentes y otros ordenadores comúnmente descritas. El procesador105del dispositivo informático ejecuta programas informáticos escritos en la memoria106.El procesador funciona junto con el dispositivo de E/S.101para dirigir datos a la memoria o almacenamiento remoto y para enviar datos desde la memoria o almacenamiento remoto al procesador para su procesamiento o a la red de comunicaciones. El procesador puede ser, por ejemplo, cualquier procesador disponible comercialmente, o una pluralidad de procesadores, adaptado para su uso en el ordenador del usuario (por ejemplo, procesadores multinúcleo Intel® Xeon®, Intel® microarquitectura Nehalem, procesadores multinúcleo AMD Opterón™, etc.). Como apreciará un experto en la materia, el procesador también puede incluir componentes que permiten que el dispositivo informático se conecte a sensores tal como una cámara, así como una pantalla, teclado, ratón, esfera móvil, panel táctil y/o cualquier otro dispositivo de entrada/salida del usuario (no se muestra) o para ver contenido (por ejemplo, una tarjeta gráfica o de vídeo).

La memoria puede almacenar las instrucciones del ordenador de la presente invención y datos (por ejemplo, datos sin procesar, datos analizados, contenido de vídeo, etc.). De esta manera, la memoria puede incluir tanto memoria no volátil como discos duros, una memoria flash, discos ópticos y similares, y memorias volátiles tales como SRAM, DRAM, SDRAM y similares, como lo requieren diversas realizaciones de la presente invención. Como apreciará un experto en la materia, aunque la memoria se representa como un solo componente, se pueden reenviar múltiples tipos diferentes de memoria y la memoria también puede ser un componente o dispositivo separado conectado o en comunicación con la computadora del usuario (por ejemplo, como almacenamiento remoto). De esta manera, en algunas realizaciones, partes de la memoria que almacenan datos pueden implementarse como almacenamiento conectado a la red (NAS), red de área de almacenamiento (SAN), almacenamiento de acceso directo (DAS) o cualquier combinación de los mismos, incluyendo, por ejemplo, múltiples unidades de disco duro. Adicionalmente, dichos datos pueden almacenarse en una o más bases de datos, tablas o campos. Como se puede apreciar fácilmente, el almacenamiento específico utilizado depende en gran medida de los requisitos de datos de una aplicación específica.

En el sistema ilustrado, uno o más de dichos dispositivos informáticos, ejecutan un programa de procesamiento del comportamiento108que se puede implementar como una aplicación almacenada en la memoria del sistema informático para procesar diversos datos sensoriales103y generar alguna información situacional (como si una cara está presente, cantidad de contacto visual realizado, etc.) y/o una señal social, que contiene información sobre la interacción social registrada en los datos de comportamiento, a una salida, tal como una pantalla, dispositivo vibrotáctil, dispositivo de audio o algún otro dispositivo(104)en tiempo real. Una señal social depende de la situación y puede basarse en múltiples sensores. Por ejemplo, los datos de vídeo de una cámara orientada hacia fuera se pueden procesar utilizando un módulo de aprendizaje automático (descrito con más detalle en la descripción de la característica (1) a continuación) para reconocer emociones faciales en personas en el campo de visión del usuario. Naturalmente, los datos de vídeo pueden referirse a datos de imágenes en movimiento independientemente de su velocidad de fotogramas en cualquier formato apropiado, tal como RGB, escala de grises, etc. y estos datos pueden contener información de profundidad y pueden capturarse desde diversos dispositivos tales como un conjunto de cámaras monoculares o de visión múltiple (por ejemplo, estéreo) o cámaras infrarrojas. En una realización del sistema, la postura de la cabeza y/o la mirada del paciente a partir de los datos del acelerómetro y/o del seguimiento ocular se utilizan para descubrir acontecimientos de mirada mutua que ocurren entre el paciente y otras personas y adaptar la señal social en función de estos datos. Los detalles de los métodos que se pueden utilizar en diversas realizaciones de la invención se analizan a continuación con referencia a lasfiguras 4-10.En un ejemplo que ilustra la combinación de diferentes datos sensoriales, utilizando el reconocimiento de expresiones faciales en los datos de vídeo recibidos desde la cámara orientada hacia fuera, el procesamiento de datos de audio en sonido recibido desde un micrófono y el seguimiento ocular en datos de vídeo recibidos desde una cámara de seguimiento ocular infrarroja, el motor de procesamiento conductual puede reconocer que el paciente está hablando extensamente sobre un tema que tal vez ya no interese a su interlocutor, lo que resulta en cada vez menos miradas mutuas y expresiones negativas. Una señal social apropiada calculada por el sistema en este caso puede ser, "Pausa: haz una pregunta". En otras realizaciones, el sistema de terapia conductual puede generar cualquiera de una variedad de señales de retroalimentación según sea apropiado para los requisitos de una aplicación específica.

Lafigura 2muestra una descripción general esquemática de una realización específica del sistema de ayuda conductual en el que un dispositivo de captura portátil201proporciona vídeo egocéntrico y otros datos sensoriales.

202a un dispositivo informático203,que procesa los datos para reconocer acciones sociales (como expresiones faciales) de las personas que interactúan con el paciente, así como la respuesta del paciente a esas acciones, y calcula señales sociales apropiadas (por ejemplo, sobre emociones) que a su vez se transmiten al paciente a través de uno o más dispositivos de salida204.

En general, en muchas realizaciones de la presente invención, un dispositivo portátil permite al menos uno de los siguientes: capturar datos de vídeo (en el sentido definido anteriormente) y/o proporcionar retroalimentación al usuario (por ejemplo, visual, a través de una pantalla de visualización frontal o audio, a través de un altavoz o auricular de conducción ósea). Los ejemplos comerciales comunes que admiten tanto comentarios como captura de vídeo incluyen Google Glass, Vuzix M100, Epson BT-200, ODG R6 y Microsoft Hololens. Los dispositivos capaces de proporcionar información únicamente (y tal vez capturar datos de audio o fisiológicos) incluyen el Motorola Moto Hint, por ejemplo. El dispositivo portátil puede o no ser en sí mismo un dispositivo informático en el sentido descrito en lafigura 1anteriormente.

Volviendo al ejemplo de lafigura 2, el paciente usa el dispositivo informático portátil de una manera que captura vídeo egocéntrico desde su punto de vista (por ejemplo, mediante montaje en el pecho o en la cabeza). El paciente (también denominado "portador", "usuario" o "sujeto") generalmente es un individuo con uno o más problemas de conducta o trastornos mentales como autismo, ansiedad, trastornos bipolares, depresión, esquizofrenia, Alzheimer y Parkinson utilizando el sistema como parte de alguna forma de terapia administrada, como una intervención conductual o como una ayuda para el aprendizaje. En algunas formas de terapia, el usuario puede, sin embargo, ser el cuidador y no el propio individuo con el trastorno mental. El portador obtiene vídeo y otros datos sensoriales202,por ejemplo, datos fisiológicos, tales como frecuencia cardíaca, presión arterial, conductividad de la piel, mediciones grabadas y/o datos adicionales de los ojos del paciente a través de un rastreador ocular o la cara del paciente. En general, un "rastreador ocular" puede ser un dispositivo de hardware utilizado para monitorizar los movimientos oculares de una persona que interactúa con el sistema que puede usar una cámara más, sensores de profundidad, fuentes de iluminación infrarroja y otros componentes que normalmente se encuentran en dichos dispositivos destinados a identificar la posición de la pupila y/o la dirección de la mirada. El rastreador ocular puede ser cualquier sistema disponible comercialmente, como las gafas Tobii Pro o las gafas SMI Eye Tracking 2, o podría ser simplemente una cámara monocular (quizás complementada con una fuente de luz que emite infrarrojos). El rastreador ocular genera datos de vídeo por sí solo que pueden ser posprocesados en software mediante el sistema más grande que incorpora el rastreador ocular (como en el caso del rastreador ocular del Pupil Labs Project) o dicho procesamiento puede implementarse en el propio hardware de seguimiento ocular (como en el caso de los sistemas de seguimiento ocular Tobii o SMI).

Los datos sensoriales complementarios de diversas fuentes se transmiten junto con los datos de vídeo externos al dispositivo informático203.Al ejecutar las etapas de un programa de seguimiento del comportamiento, luego, una señal social calculada se transmite a uno o más dispositivos de salida (que pueden incluir el dispositivo informático203y el propio dispositivo portátil201, en caso de que sean capaces de generar datos) y se emiten para proporcionar retroalimentación en tiempo real al paciente y a su cuidador.

En una realización específica del sistema de lafigura 2,una cámara egocéntrica (conectada mediante cable o conexión de red como WiFi o bluetooth) puede servir como dispositivo de entrada, mientras que un auricular (también conectado mediante cable o conexión de red como WiFi o bluetooth) puede servir como dispositivo de salida de audio. En este caso, el procesamiento móvil envía la salida adecuada directamente al altavoz del auricular.

En muchas realizaciones, el dispositivo de captura portátil puede emparejarse con un dispositivo móvil que proporciona los recursos computacionales para procesar las imágenes que se capturan. Lafigura 3describe una realización en la que el dispositivo de captura portátil es un par de gafas inteligentes302que proporciona vídeo egocéntrico y otros datos sensoriales202a un dispositivo informático móvil303,que procesa los datos para reconocer acciones sociales (como expresiones faciales) de las personas que interactúan con el paciente, así como la respuesta del paciente a esas acciones, y calcula señales sociales apropiadas (por ejemplo, sobre emociones) que a su vez se transmiten al paciente a través de una pantalla frontal o salida de audio de las gafas inteligentes302y/o el dispositivo móvil303.

Esta retroalimentación se puede diseñar de manera que otras personas (como cuidadores o pacientes) puedan notarla o no, dependiendo de los objetivos terapéuticos. Haciendo referencia a lafigura 12, la retroalimentación visual puede, por ejemplo, consistir en texto201,color202o un emoticono203o cualquier combinación de los mismos mostrada en una pantalla de visualización frontal. Dicha retroalimentación puede ser discreta (es decir, informativa de un acontecimiento específico) o cambiar con el tiempo (por ejemplo, una puntuación como la puntuación del "nivel de interés actual" que indica a un paciente el nivel de interés de su interlocutor204).La retroalimentación de audio incluye un narrador que lee en voz alta las emociones nombradas o lee pistas específicas, así como una variedad de divertidos efectos de sonido asociados con emociones u otras señales sociales. Dependiendo de la plataforma de hardware elegida como dispositivo portátil, la retroalimentación visual se puede ampliar para superponer información sobre la visión del mundo a través de una proyección holográfica (por ejemplo, cuando se utiliza un sistema de realidad mixta como Microsoft Hololens en lugar de Google Glass). En su forma más simple, esto toma las interfaces de retroalimentación "controladas por pantalla" de lafigura 12y los proyecta cerca de la persona a la que hace referencia la señal social. En una realización más compleja de este enfoque, se puede localizar la retroalimentación sobre las señales sociales. Por ejemplo, una señal emocional como "Feliz" puede resaltar la expresión individual superponiendo una figura en la boca de una persona y alertando al usuario sobre la localidad de la expresión. La retroalimentación también puede incluir la confirmación de que el usuario está viendo y interactuando con una cara, a través de señales visuales, de audio o vibratorias. Esto puede variar desde simplemente mostrar si y/o dónde se detecta una cara, a una medida más sensible temporalmente que indica el compromiso con alguien dentro del campo de visión del usuario, a retroalimentación direccional, localizada o no localizada con los que puede interactuar un usuario fuera del campo de visión. Dicha retroalimentación puede transmitir implícita o explícitamente una recompensa por el compromiso. La retroalimentación también puede incluir sugerencias al usuario sobre cómo responder a ciertas señales o situaciones sociales a medida que ocurren.

Volviendo a lafigura 3, además de la retroalimentación social en tiempo real, la información situacional se puede transmitir de nuevo al dispositivo portátil para su uso en una interfaz que implica una actividad gamificada, como se describe más adelante.

En lafigura 2y lafigura 3,el vídeo y otros datos sensoriales pueden transmitirse en tiempo real (utilizando un modelo de transmisión y quizás de compresión apropiado, aunque es posible que desee omitir la compresión para aplicaciones de baja latencia) o puede almacenarse en caché para procesamiento futuro. Además, una versión de cualquier dato de vídeo que contenga una mayor densidad de información (es decir, color o resolución) del vídeo puede almacenarse en caché en el dispositivo portátil para transmisión futura, además de transmitir fotogramas de menor resolución para fines en tiempo real.

En muchas realizaciones, el dispositivo portátil puede incluir cualquiera de diversos sensores, incluyendo cámaras internas y externas, acelerómetros, giroscopios, una pantalla de visualización frontal y un micrófono. Unas gafas portátiles301que incluyen una cámara orientada hacia fuera, un acelerómetro, una pantalla de visualización frontal y/o un micrófono de acuerdo con una realización de la invención se ilustra en lafigura 3.Se puede conectar un rastreador ocular a este dispositivo mediante un dispositivo que se conecta mediante un cable a las gafas portátiles o al dispositivo móvil. En determinadas realizaciones del sistema, la "unidad" de ayuda conductual incluye un par de gafas portátiles (como Google Glass con sistema operativo Android) y un teléfono móvil (tal como un Nexus 6), que están conectados a través de una red inalámbrica. Las gafas portátiles pueden actuar como un dispositivo de entrada sensorial para vídeo y datos de postura de la cabeza, así como un dispositivo de salida a través de un altavoz de conducción ósea, auricular opcional y pantalla de visualización frontal. Para ahorrar la duración limitada de la batería y la potencia de procesamiento de las gafas, muchas de las tareas computacionales intensivas, como el procesamiento de fotogramas, la codificación de vídeo y el almacenamiento de datos se pueden manejar en el teléfono. Cuando los usuarios quieren iniciar o finalizar una nueva actividad, pueden usar la aplicación móvil, que puede utilizar un protocolo de comunicaciones ligero para activar la actividad correcta en las gafas portátiles y solicita a las gafas que comiencen a capturar fotogramas de la cámara a una velocidad de aproximadamente 30 fotogramas por segundo utilizando un flujo de paquetes UDP. Esto se puede implementar de manera que ahorre batería generando un punto de acceso en el teléfono y conectando las gafas portátiles como cliente a la red WiFi. Cuando se captura un nuevo fotograma, el fotograma completo y otros datos del sensor, así como una imagen de alta resolución del área de la cara, se pueden transmitir al teléfono para su procesamiento. El teléfono puede codificar y almacenar los datos de vídeo de forma paralela y/o ejecutar el fotograma a través de un canal de reconocimiento de expresiones. Luego puede transmitir a las gafas un paquete de resultados que incluye metadatos sobre las caras rastreadas y expresiones. Las gafas pueden interpretar el resultado y mostrar la señal social apropiada (ya sea en la pantalla o como audio). Este proceso puede ocurrir en tiempo real con una latencia inferior a 50 ms.

Refiriéndose al proceso descrito en lafigura 11,el flujo de paquetes de fotogramas entre las gafas portátiles y el teléfono móvil puede alternar entre incluir el marco facial "completo" y un marco "ampliado" que representa una determinada región de interés (por ejemplo, una cara) en mayor resolución para un procesamiento más granular. Sobre la entrada de información situacional desde el motor de procesamiento del comportamiento.1101el proceso (que se implementa más fácilmente en el sistema de captura de cámara portátil en la realización específica de lafigura 3o en cualquier otro dispositivo informático en el sistema en otras realizaciones consistentes con lafigura 1),una región de interés (por ejemplo, dado por puntos fiduciales rastreados en una cara o por un rectángulo delimitador u otra forma alrededor del cuerpo de una persona). Según el flujo temporal de estas regiones y posiblemente otros datos asociados del dispositivo portátil, se calcula una nueva región de interés estimada, se filtra y se envía un recorte de alta resolución a esta región al motor de procesamiento de comportamiento. En una realización simplista de este método, la información situacional enviada incluye los límites de una cara rastreada. En base a estos límites, se puede calcular un recorte inicial de tamaño de marco fijo de modo que los límites de la cara estén incluidos más centralmente en el marco. Esto se mantiene como "estimación actual" y todos los marcos se recortan según esta estimación hasta que la información situacional contenga un área de interés que esté fuera de la estimación actual en el marco original o no contenga un área de interés para algún número fijo de marcos. En otra realización más compleja del sistema, se utiliza una media móvil o un filtro de Kalman para "suavizar" una región delimitadora de interés alrededor de la estimación facial actual que se actualiza en cada fotograma. Como se puede apreciar fácilmente, se puede utilizar cualquiera de diversos procesos según sea apropiado para los requisitos de una aplicación específica de acuerdo con diversas realizaciones de la invención.

Volviendo a la arquitectura general del sistema, se describieron varias realizaciones con modificaciones funcionalmente similares de una configuración de alto nivel junto con métodos que permiten a un experto en la técnica implementar estas configuraciones. Naturalmente, estos pueden ampliarse aún más y no deben considerarse limitantes. En diversas realizaciones de lasfiguras 2-3,se pueden ampliar u omitir varios componentes del sistema. En lafigura 2, por ejemplo, el dispositivo de captura portátil y la unidad de procesamiento móvil pueden ser el mismo dispositivo en lugar de dos entidades separadas conectadas a través de una conexión de red (por ejemplo, uno puede pensar en un teléfono inteligente con cámara integrada). Esto simplifica enormemente la arquitectura del sistema descrito en asociación, ya que no se requiere conexión en red para comunicarse entre dos aplicaciones distintas. Sin embargo, requiere el uso de un dispositivo informático portátil, capaz de ejecutar el procesamiento requerido para implementar (al menos un subconjunto de) las características que se describen a continuación. En otra realización más, el sistema de lasfiguras 1-3puede ampliarse con un dispositivo informático que se utiliza únicamente como una "estación de revisión" para revisar los datos y los conocimientos recopilados del sistema principal de captura y retroalimentación en tiempo real (por ejemplo, vídeos y estadísticas de comportamiento). En resumen, en estas realizaciones se puede emplear una variedad de sistemas de hardware disponibles comercialmente (como se ha analizado anteriormente), con compensaciones en coste, funcionalidad y obstrucción, que pueden ser apropiados para ciertas aplicaciones específicas de la presente invención, por ejemplo en terapia conductual.

(1) Sistema de reconocimiento de acción social y señales sociales no estructuradas:

Si bien la sección anterior explicó cómo "conectar" dicho motor a nuestro sistema, esta sección se centra en la creación de un sistema de procesamiento de datos y aprendizaje automático que pueda utilizarse para generar señales sociales útiles.

Haciendo referencia a lafigura 4, se ilustra un sistema de reconocimiento de acciones sociales de acuerdo con una realización de la invención que puede generar señales sociales a partir de datos sensoriales. La realización ilustrada se basa en un mecanismo de captura de datos (audio, vídeo, acelerómetro, etc.)407que luego se introduce en un sistema de procesamiento que genera información social408(expresiones faciales, movimientos de los músculos faciales, lenguaje corporal, gestos, postura del cuerpo, acontecimientos de contacto visual, postura de la cabeza, características de la conversación, inquietud u otras apariencias de ansiedad, etc.) relevantes para los datos entregados, ejecutado en tiempo real en un flujo de datos o fuera de línea en un conjunto de datos.

A un nivel alto, el sistema de reconocimiento de acciones sociales incluye un sistema de inteligencia artificial y un conjunto de reglas integradas. El sistema de inteligencia artificial (IA) normalmente puede incluir una serie de etapas de preprocesamiento, un clasificador de aprendizaje automático y una etapa de posprocesamiento. La salida del sistema IA puede pasarse al sistema "cableado" (aquí como parte del motor de procesamiento de comportamiento406)que puede implementar un conjunto de reglas y generar una señal social final.

Estos componentes del sistema de aprendizaje automático generalmente se pueden implementar como una máquina de regresión o clasificación. En el caso de la regresión, el sistema de IA suele producir señales sociales continuas (por ejemplo, una puntuación de "felicidad"). En el caso de la clasificación, normalmente produce una señal basada en un acontecimiento (por ejemplo, un momento de "enfado"). Como saben los expertos en aprendizaje automático, dependiendo de la implementación de los clasificadores, por lo general, el sistema se puede configurar fácilmente para convertir entre estos dos tipos de señales. Las señales de salida discretas y continuas a menudo se tratan de manera diferente en sus interfaces de retroalimentación, como se ha tratado en la sección anterior.

Varias realizaciones del sistema de interacción social pueden emplear varios subsistemas tales como un módulo de seguimiento facial.403,un módulo de reconocimiento de expresiones401,un módulo de seguimiento de la mirada402,un módulo de procesamiento de audio404,un módulo de procesamiento de datos del acelerómetro405y un motor de procesamiento de comportamiento que calcula el resultado final, cableado como se representa en la figura. Naturalmente, se puede utilizar cualquier combinación de estos módulos dependiendo de la aplicación del sistema.

Para describir estos módulos con el detalle apropiado, es útil considerar sus entradas y procesos por separado. En primer lugar, considerando la interacción de las partes403y401,lafigura 5proporciona una vista ampliada508sobre la interacción del rastreador facial y los procesos de reconocimiento de unidad de acción/expresión facial utilizados en varias realizaciones de la invención. Restringir la atención a los datos de vídeo, la entrada al proceso se proporciona una imagen a la vez, con el objetivo de generar información social relevante para cada marco. Los métodos descritos en el presente documento se centran principalmente en procesar la entrada de una cámara monocular, pero como apreciará un experto en la materia, el novedoso sistema propuesto puede ampliarse procesando entradas de sensores adicionales y manteniendo aún la estructura del procesamiento, grabación y revisión descrita en el presente documento.

Un proceso para identificar una expresión facial o una acción facial puede incluir las siguientes piezas: (1) detección de caras501y/o (2) seguimiento de caras de puntos fiduciales502,(3) registro de la cara a un tamaño y postura canónicos503,(4) técnicas de preprocesamiento de normalización de iluminación504,(5) histograma de extracción de características de degradados en una región de interés sobre la cara505,(6) clasificación de la expresión de la cara mediante un clasificador de regresión logística entrenado con datos de imágenes506y (7) filtrado de la clasificación resultante507.Uno de esos procesos de procesamiento se describe en el artículo "A practical approach to real-time neutral subtraction for facial expression recognition" de Nick Haber, Catalin Voss, Dennis Wall, Azar Fazel y Terry Winograd, presentado en la Conferencia de Invierno del IEEE sobre Aplicaciones de Visión por Ordenador (WACV), 2016. Lafigura 5da ejemplos de cómo cada una de estas operaciones se puede lograr utilizando enfoques conocidos en la literatura. Por ejemplo, el registro en la etapa (3) es un procedimiento geométrico obvio, y la normalización de la iluminación en la etapa (4) se puede lograr utilizando el método de Tan, Xiaoyang y Bill Triggs. "Conjuntos de características de textura locales mejorados para el reconocimiento facial en condiciones de iluminación difíciles". Image Processing, IEEE Transactions on 19.6 (2010): 1635-1650. Una encuesta sobre algoritmos candidatos alternativos para el reconocimiento de expresiones faciales que pueden reemplazar el proceso completo508se da en el artículo de F. Dela Torre y J. Cohn: "Facial expression analysis". En T. B. Moeslund, A. Hilton, V. Krger y L. Sigal, editores, Visual Analysis of Humans, páginas 377-409, Springer London, 2011.

Se describen varios métodos para hacer que estos enfoques sean prácticos en situaciones de tiempo real en el contexto del sistema descrito en el presente documento.

El primero, denominado resta neutra, se describe con detalle a continuación y también se describe en el artículo "A practical approach to real-time neutral subtraction for facial expression recognition", aprende una estimación de las características neutrales de la cara del sujeto en tiempo real y las resta de las características extraídas. Esto tiene el fin de mejorar la robustez del sistema sobre la iluminación y la variación entre sujetos.

El segundo consiste en tomar los resultados de la clasificación fotograma por fotograma del sistema de reconocimiento de expresiones y suavizarlos a lo largo del tiempo: la clasificación tiene inherentemente ruido a lo largo del tiempo que puede mitigarse asumiendo cierta continuidad a lo largo del tiempo, conduciendo así a una mejor experiencia de usuario. Se puede aplicar cualquier algoritmo que tome como entrada, en el momento t, todos los fotogramas vistos hasta el momento t inclusive, y utiliza estos datos para hacer una predicción para el tiempo t. Muchas realizaciones de esto implican simplemente mantener un amortiguamiento de tamaño fijo que contiene la secuencia de fotogramas más reciente y proporcionar al usuario resultados sólo cuando una fracción fija de los fotogramas se clasifica como expresión. En varias realizaciones, la dependencia del tiempo se añade explícitamente al modelo a través de un modelo oculto de Markov (por ejemplo, véase J. Wang, S. Wang y Q. Ji, "Early Facial Expression Recognition Using Hidden Markov Models", Pattern Recognition (ICPR), 201422nd International Conference on, Estocolmo, 2014, pág.

4594-4599), o un campo aleatorio condicional (véase, por ejemplo, R. Walecki, O. Rudovic, V. Pavlovic y M. Pantic, "Variable-state latent conditional random fields for facial expression recognition and action unit detection", Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on, Liubliana, 2015, pág. 1-8) y proporciona al usuario la salida suavizada proporcionada por el modelo. En varias realizaciones, las redes neuronales convolucionales de retroalimentación se utilizan junto con redes neuronales recurrentes como LSTM (Sepp Hochreiter y Jürgen Schmidhuber (1997). Long short-term memory. Neural Computation 9 (8): 1735-1780.) y g Ru (K. Cho, B. van Merrienboer, D. Bahdanau e Y. Bengio. Sobre las propiedades de la traducción automática neuronal: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259, 2014), relaciones de aprendizaje que generalizan los HMM y CRF. En particular, dada la dependencia espacial de los datos, una realización puede emplear puertas convolucionales LSTM o GRU (como las que se ven en Choy, Christopher B.; Xu, Danfei; Gwak, JunYoung; Chen, Kevin; Savarese, Silvio. 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction. Eprint arXiv:1604.00449, 04/2016), adaptando estos métodos recurrentes convolucionales directamente a la tarea de reconocimiento de expresiones a partir de secuencias de fotogramas. Aprender un modelo apropiado depende de las interacciones más específicas del usuario que se esperan y, como tal, tales realizaciones requerirían modelos particulares aprendidos a través de datos recopilados en estos casos de uso terapéutico.

Un problema particular de suavizado que pueden abordar los sistemas de acuerdo con muchas realizaciones de la invención es el del reconocimiento de expresiones mientras se habla: los algoritmos estándar dan retroalimentación no deseada cuando el sujeto está hablando debido a pequeñas y rápidas variaciones en la expresión durante la conversación. Si bien los esfuerzos de suavización mencionados anteriormente pueden mitigar muchas cosas, varias realizaciones del sistema implican una detección explícita (sin dar salida) cuando se reconoce que el sujeto está hablando. Esto se puede lograr entrenando clasificadores visuales dependientes del tiempo destinados explícitamente a reconocer secuencias de vídeo en las que el sujeto está hablando. Varias realizaciones implican el uso de señales de audio para saber cuándo el sujeto está hablando. Ciertas realizaciones se basan en el entrenamiento de clasificadores dependientes del tiempo (por ejemplo, campos aleatorios condicionales o redes neuronales recurrentes) para reconocer no sólo expresiones faciales estándar sino también "habla neutral". "habla feliz", "habla triste", y así sucesivamente. Los modelos dependientes del tiempo en este contexto pueden resultar útiles, como cuestión primordial a la hora de manejar datos en los que un sujeto está hablando es que, en cualquier fotograma dado, el sujeto puede tener una expresión que se interpretaría de manera diferente si se mantuviera durante un período de tiempo más largo. Estos modelos dependientes del tiempo podrían entrenarse con datos de vídeo de expresiones faciales estándar junto con secuencias de conversación expresivas.

En términos generales, se puede obtener una mejor experiencia de usuario cuando el sistema está predispuesto a predecir una expresión neutral (y, por ejemplo, no dar comentarios) cuando no esté seguro, y los algoritmos anteriores pueden tener un "sesgo neutral" incorporado, lo cual se puede lograr ajustando los parámetros estándar de los clasificadores.

Muchas realizaciones detectan acontecimientos de mirada utilizando uno o más datos de seguimiento ocular orientados hacia adentro junto con datos de vídeo orientados hacia afuera. Pasando al módulo402, las FIGS. 6y7proporcionan dos métodos para integrar datos de vídeo orientados hacia afuera y posiblemente datos de seguimiento ocular orientados hacia adentro para detectar acontecimientos de mirada mutua o mirada unidireccional que pueden dar como resultado señales sociales de acuerdo con una realización de la invención. Al igual que con el reconocimiento de expresiones faciales, ambos métodos implican detectar, rastrear, registrar y preprocesar datos de imágenes faciales. El método de lafigura 6se basa en un enfoque geométrico, donde se estiman simultáneamente la mirada del usuario y de un sujeto seguido frente al usuario, en relación con cada una de sus posiciones, que también se estiman. Esto combina dichos datos para producir una predicción de acontecimientos de mirada mutua. El método de lafigura 7puede utilizar un clasificador de aprendizaje automático directamente, combinando los datos de las características extraídas del sujeto externo (puntos fiduciales, características de textura, salida de la red neuronal) junto con características del usuario (seguimiento ocular, mediciones del acelerómetro) junto con valores reales de acontecimientos de mirada (mutua) para aprender un predictor de estos acontecimientos. El seguimiento de los alumnos se puede realizar de diversas formas en tiempo real; véanse, por ejemplo, (Timm, Fabian y Erhardt Barth. Accurate Eye Centre Localisation by Means of Gradients. VISAPP 2011 - Proceedings of the Sixth International Conference on Computer Vision Theory and Applications, Vilamoura, Algarve, Portugal, 5-7 de marzo de 2011), así como el proyecto de código abierto (Pupil Labs. https://pupil-labs.com/pupil/. Consultado el 2 de mayo de 2016).

Pasando al módulo404,muchas realizaciones del sistema pueden integrar señales de audio y el sistema puede proporcionar retroalimentación después de analizar el contenido expresivo, por ejemplo, utilizando los exitosos modelos dependientes del tiempo explorados en M. Wollmer, A. Metallinou, N. Katsamanis, B. Schuller y S. Narayanan, "Analyzing the memory of BLSTm Neural Networks for enhanced emotion classification in dyadic spoken interactions", Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on, Kyoto, 2012, pág. 4157 4160. Una versión de esto puede simplemente proporcionar señales de reconocimiento de expresiones basadas únicamente en el tono, mientras que otro puede aumentar esto prestando atención, hasta cierto punto limitado, al contenido de la conversación. En todos los casos, las señales de audio pueden ser grabadas por cualquiera de los dispositivos constituyentes y transmitidas/sincronizadas con información visual e introducidas en el dispositivo de clasificación.

Pasando al módulo405,los datos del acelerómetro desde varias ubicaciones (montado en la cabeza, montado en el brazo, etc.) pueden incorporarse al proceso de reconocimiento de la interacción social mediante la detección de acontecimientos socialmente relevantes específicos, como comportamientos obsesivos (temblores, movimientos repetidos, etc.) o gestos (sacudir la cabeza, asentir con la cabeza, mover la cabeza hacia adelante, etc.). Muchos sistemas portátiles proporcionan "API de reconocimiento de gestos" que son adecuadas para tales fines, pero se pueden utilizar sistemas de aprendizaje automático más complejos para permitir este tipo de reconocimiento. En la literatura académica se describen diversos enfoques adecuados para convertir los datos del acelerómetro temporal en clasificaciones de gestos y los procesos específicos utilizados dependen en gran medida de los requisitos de una aplicación determinada. Además, los datos del acelerómetro se pueden utilizar para extraer datos fisiológicos, como mediciones de frecuencia cardíaca, directamente o junto con otros sensores. El artículo (J. Hernández, Y. Li, J. M. Rehg y R. W Picard, "BioGlass: Physiological parameter estimation using a head-mounted wearable device", Wireless Mobile Communication and Healthcare (Mobihealth), 2014 EAI 4th International Conference on, Athens, 2014, pág.

55-58) ilustra cómo hacer esto y proporciona una prueba de concepto, demostrando que un sistema de este tipo puede funcionar de manera sólida en situaciones de la vida real. Estos datos pueden ser utilizados por el motor de procesamiento del comportamiento406junto con otros datos para permitir el juego (por ejemplo, recompensar a un usuario por imitar expresiones como un movimiento de cabeza) o cambiar la salida de señales sociales (por ejemplo, evitar enviar demasiadas señales sociales durante un momento de sobrecarga sensorial/sacudida obsesiva).

Por último, todo esto se puede integrar en el motor de procesamiento de la conducta406.Representado en lafigura 8,el sistema puede combinar los resultados de todos los sistemas anteriores y producir información social o una señal para dar al usuario y a otros usuarios del dispositivo. El sistema puede utilizar uno o más de los siguientes componentes: (1) reconocimiento de expresiones faciales (de unidades de acción, expresiones universales y/o expresiones más complejas), en forma de clasificador y modelos de regresión que toman como entrada datos de vídeo (visuales y/o audio), (2) reglas de comportamiento discriminatorias, (3) una implementación de un juego que permite la interacción social (descrito enAplicaciones de juegosmás adelante), (4) seguimiento de la mirada, (5) datos de postura de la cabeza/acelerómetro, (6) modelos de mirada mutua y (7) filtros de los anteriores para la producción de resultados fluidos a lo largo del tiempo. Luego, el sistema decide qué información social relevante o señales se deben proporcionar al usuario o a otros usuarios (una realización en forma de juego, donde múltiples componentes físicos son simultáneamente interfaces para los usuarios).

Dirigir la atención nuevamente hacia un reconocimiento más amplio de la acción social, muchos de los sistemas descritos para el reconocimiento de expresiones faciales pueden ampliarse al reconocimiento de acciones más complejas que las emociones básicas en los rostros.

Más allá de la cara y el audio, el sistema también puede incorporar lenguaje corporal y plantear información para dar señales sociales, apoyándonos en sistemas propios de clasificación así como en trabajos altamente desarrollados en materia de reconocimiento de actividades. Esto puede emplear avances recientes en el seguimiento de posturas, como el artículo de M. Dantone, J. Gall, C. Leistner y L. Van Gool, "Human Pose Estimation Using Body Parts Dependent Joint Regressors", Computer Vision and Pattern Rcognition (CVPR), 2013 IEEE Conference on, Portland,<o>R, 2013, págs. 3041-3048, utilizando la misma secuencia de vídeo utilizada para el reconocimiento de expresiones faciales. Usando información de la postura y otras señales obtenidas a través del vídeo, el sistema puede introducir datos en varios sistemas altamente desarrollados para el reconocimiento de actividades (véase, por ejemplo, R. Bodor, B. Jackson y N. Papanikolopoulos. Vision-based human tracking and activity recognition. En Proc. of the 11th Mediterranean Conf. on Control and Automation, junio de 2003, así como m K Fiaz y B. Ijaz, "Vision based human activity tracking using artificial neural networks", Intelligent and Advanced Systems (ICIAS), 2010 International Conference on, Kuala Lumpur, Malasia, 2010, pág. 1-5). El sistema también puede tomar dichos datos de vídeo y el reconocimiento de expresiones mencionado anteriormente para inferir estados emocionales más complejos (usando, por ejemplo, el algoritmo cubierto en R. El Kaliouby y P. Robinson, "Mind reading machines: automated inference of cognitive mental states from vídeo", Systems, Man and Cybernetics, 2004 IEEE International Conference on, La Haya, 2004, pág. 682-688 vol. 1), tal como ansiedad, aburrimiento o atención, durante períodos de tiempo más largos, entregando señales sociales después de haber notado tal estado durante un período de tiempo más largo. Estos se pueden combinar con otros sensores, incluyendo, aunque sin limitación, seguimiento de mirada y acelerómetro, para combinar el conocimiento del mundo circundante con el conocimiento del usuario para poder adaptar la retroalimentación en consecuencia.

Volviendo al sistema de reconocimiento de la interacción social de lafigura 4,en muchas realizaciones, los distintos subcomponentes de este sistema se pueden reemplazar por un sistema de aprendizaje automático de alta dimensión, gratuito, de registro y preprocesamiento. Un ejemplo de un sistema de aprendizaje automático de alta dimensión de acuerdo con una realización de la invención se ilustra en lafigura 10,donde al introducir1001,un único sistema de aprendizaje automático puede predecir información social y/o señales directamente a partir de una concatenación de los diversos datos de entrada. Varias arquitecturas de redes neuronales convolucionales profundas, empezando por AlexNet (Alex Krizhevsky, Ilya Sutskever y Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25. Páginas: 1106-1114, 2012) y el más reciente GoogLeNet (Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Going Deeper With Convolutions. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, páginas 1-9), ambas arquitecturas ampliamente disponibles, han demostrado la capacidad de realizar reconocimiento de objetos, tareas de segmentación y localización sin ningún registro o preprocesamiento de imágenes. Luego, el aprendizaje por transferencia se puede aplicar al dominio de la computación afectiva con una pequeña cantidad de datos. Estas arquitecturas se pueden utilizar para generar características que luego se pueden ajustar y utilizar en cualquiera de las arquitecturas de redes neuronales recurrentes anteriores (conv-LSTM o GRU, así como LSTM y GRU generales). Otra realización utiliza redes neuronales convolucionales dispersas (véase Joan Bruna y Stéphane Mallat. Invariant Scattering Convolution Networks. arxiv.org/pdf/1203.1513, 2012).

En muchas realizaciones, el sistema también puede emplear diversas estrategias para calibrar el reconocimiento de la acción social en los usuarios, incluida la calibración del reconocimiento de expresiones para tener en cuenta las diferencias entre sujetos. Esto puede implicar la captura de datos sobre individuos específicos, que se puede obtener a través de varios modos, incluyendo acontecimientos de captura de datos para el propósito de calibración y datos previamente capturados en la ejecución del sistema de reconocimiento de acciones sociales. En muchas realizaciones, luego, el sistema puede consultar a uno o más usuarios para determinar la verdad básica. Este puede ser un ingrediente clave para mejorar la tasa de precisión de un clasificador general en el sistema de reconocimiento de acciones sociales para superar las tasas más modernas en individuos específicos (como la familia de un paciente o un grupo de cuidadores). Una vez que los datos, ya sea etiquetados o sin etiquetar, se ha reunido en una familia objetivo, el sistema puede aplicar ampliamente métodos de adaptación de dominio, cuyo objetivo es aumentar la precisión en una distribución objetivo de datos (la familia objetivo) teniendo en cuenta pocos datos de la distribución objetivo y muchos datos de una distribución fuente (todos los demás). El cuidadoso equilibrio que debe lograrse a través de cualquiera de estas técnicas es que el modelo debe funcionar bien con los datos recopilados sobre el grupo objetivo de cuidadores (por ejemplo, la familia del usuario), pero también es, en general, sólido, ya que cualquier esfuerzo de recopilación de datos sobre una familia determinada no puede tener en cuenta todas las iluminaciones, cambios de aspecto e inclusión de otros individuos en actividades con el sistema. Muchas realizaciones proporcionan un ajuste simple de los parámetros de peso a través de un descenso de degradado estocástico en el modelo general aprendido, que puede utilizar una selección cuidadosa de parámetros de algoritmo (como la tasa de aprendizaje y el término de regularización) que es específico del dominio y se alcanza a través de datos. Varias realizaciones utilizan un enfoque bayesiano jerárquico, en donde diferentes familias pueden tener modelos entrenados con diferentes pesos, pero sujeto a la condición de que los pesos de cada familia se extraigan de una distribución común. Esto tiene el efecto de complementar automáticamente el conocimiento de los datos de una familia con el conocimiento de los datos de todas las demás. Ambos enfoques pueden tener la clara ventaja de que, tras la captura de datos sobre la familia objetivo, el modelo se puede adaptar en el dispositivo sin ningún recurso más allá del modelo general, que se puede almacenar de forma compacta en todos los dispositivos. Esto puede permitir una calibración rápida. Ciertas realizaciones del sistema pueden utilizar el mayor recurso de todos los datos utilizados para entrenar el modelo general y, por lo tanto, todos los datos podrían mantenerse localmente o el cálculo se puede realizar en cooperación entre el dispositivo local y un recurso informático externo (tal como mediante cargar los datos al recurso informático externo o realizar cálculos en paralelo con la comunicación regular). Esta realización puede utilizar todos los datos, complementando los datos de destino con datos de origen ponderados (la mayoría de los algoritmos de aprendizaje automático disponibles, tal como SVM y regresiones logísticas, admite la ponderación de datos, y se puede hacer que cualquier algoritmo lo haga remuestreando los datos proporcionalmente a las ponderaciones), las ponderaciones pueden determinarse mediante un criterio de relevancia entre los datos de origen y los datos de destino. Uno de esos criterios de relevancia se puede encontrar en Y. Q. Miao, R. Araujo y M. S. Kamel, "Cross-Domain Facial Expression Recognition Using Supervised Kernel Mean Matching", Machine Learning and Applications (ICMLA), 2012 11th International Conference on, Boca Raton, FL, 2012, pág. 316-332.

En muchas realizaciones, tras una clasificación de aprendizaje automático y la llegada a una señal social, se pueden utilizar varias técnicas de posprocesamiento para mantener al mínimo el número de falsos positivos y reducir el daño terapéutico potencial que puede surgir de clasificaciones erróneas.

En primer lugar, el número de señales proporcionadas se puede mantener al mínimo utilizando un algoritmo de filtrado, tal como un filtro de media móvil, un filtro de paso bajo en el dominio del tiempo u otro modelo adecuado, para reducir la sobrecarga sensorial posiblemente asociada con una gran cantidad de alertas de señales.

Además, para abordar los desafíos del ruido proveniente del motor de procesamiento del comportamiento, los sistemas de acuerdo con varias realizaciones de la invención usan un indicador visual en el dispositivo portátil para indicarle al paciente cuándo el sistema está funcionando correctamente basándose en la obtención de una puntuación de confianza del motor de procesamiento conductual, de modo que un paciente pueda distinguir la falta de una señal de una posible señal falsa negativa. En un sistema de realidad mixta, la señal social puede localizarse en una cara particular, por ejemplo, una flecha que apunta a esa cara o un círculo alrededor de la cara o una parte particular de ella.

(2) Aplicaciones de juegos:

Dada la descripción general de la arquitectura y la parte (1) del sistema de acuerdo con muchas realizaciones, un experto en la técnica puede apreciar fácilmente cómo la parte (2) se puede implementar en todo el dispositivo y parte principalportátil y móvil(3) se pueden implementar solo en el dispositivo móvil.

En muchas realizaciones, dado un sistema de reconocimiento de la acción social y de una infraestructura de comunicaciones, el sistema portátil puede servir como plataforma para diversos juegos que permitan la interacción social. En muchas realizaciones del sistema, estos juegos los activa el cuidador en el dispositivo móvil y luego se inician en el dispositivo portátil. El dispositivo portátil puede transmitir marcos de datos al dispositivo móvil como se describió anteriormente y utilizar "información situacional" extraída del procesamiento de comportamiento transmitido desde el dispositivo móvil para guiar la lógica del juego. Las indicaciones del juego se pueden transmitir a través de una variedad de mecanismos de retroalimentación (audio, visual, etc.) al igual que otras señales sociales discutidas anteriormente. Por ejemplo, los pacientes que usan el dispositivo portátil son recompensados por establecer contacto visual con otras personas. Se puede lograr una puntuación más alta o algún otro tipo de recompensa cuando el sistema de reconocimiento de acciones sociales reconoce el contacto visual cara a cara con alta probabilidad. En otro ejemplo, un paciente puede ser recompensado por imitar una determinada acción social, tal como un movimiento de cabeza.

En otro ejemplo, el cuidador puede elegir emociones para recrear y el usuario es recompensado por adivinarlas correctamente. Se puede utilizar el seguimiento de la puntuación y los niveles de emociones cada vez más complejas o sutiles para ampliar la participación del usuario a medida que mejora su reconocimiento de las recreaciones. En otros ejemplos, los juegos pueden ser activados por el usuario y no por el cuidador, por entrada del panel táctil, comando de voz u otros métodos. Por ejemplo, se puede alentar al usuario a usar el dispositivo portátil durante un período prolongado de tiempo y "recopilar" caras o emociones cada vez que las vea, dando al usuario un mayor control sobre el juego. En varias realizaciones, los juegos utilizados en la plataforma pueden implicar el uso de varias tecnologías de detección de ubicación (incluidas, entre otras, Tecnología GPS) para colocar o encontrar artículos de interés en ciertos lugares al estilo de una búsqueda del tesoro. La variedad de juegos ofrecidos también puede incluir métodos mediante los cuales el usuario y el cuidador pueden recopilar puntuaciones en los juegos y realizar un seguimiento de su progreso general a lo largo del tiempo. Al usuario y/o cuidador también se le pueden presentar oportunidades para personalizar la interfaz de usuario del sistema como un sistema de recompensa por completar una serie de sesiones de la variedad de juegos ofrecidos.

(3) Aplicación de revisión:

La aplicación de revisión de datos de acuerdo con muchas realizaciones de la invención toma datos recopilados a través de la participación de (1) y los presenta de una manera que puede ser revisada por el usuario y aquellos que interactúan con el usuario a través de la participación de (1).

Haciendo referencia a lafigura 18, en determinadas realizaciones, la aplicación de revisión permite a los usuarios y cuidadores revisar las actividades registradas a lo largo del día. Los vídeos pueden presentarse con "momentos emocionales" seleccionados automáticamente y resaltados en una interfaz que permite a los usuarios visualizar su aspecto en los vídeos (incluida información sobre el tipo de acción social reconocida) y acceder a ellos para verlos. Los aspectos más destacados emocionales se pueden extraer utilizando los métodos descritos anteriormente. En un entorno terapéutico de ejemplo, se anima a los cuidadores a revisar estos momentos con sus pacientes (y si así lo desean, potencialmente, terapeutas conductuales y/u otros cuidadores).

En determinadas realizaciones, el sistema de revisión de padres es una aplicación móvil que se ejecuta en el mismo teléfono que el programa de procesamiento de comportamiento social que realiza el reconocimiento de emociones computacionalmente intensivo. Lafigura 13y lafigura 16ilustran una aplicación que se ejecuta en un dispositivo móvil 301, proporcionar una indicación de una emoción 302 que se está detectando para una persona de acuerdo con una realización de la invención. Como se representa en lafigura 14, el sistema de revisión puede contener una vista similar a un suministro de noticias de las grabaciones de la sesión anterior en orden cronológico. Los usuarios del sistema de revisión tienen la posibilidad en cualquier momento de ver, ocultar o eliminar permanentemente vídeos del suministro de noticias. Lafigura 15ilustra varias interfaces de Ul para seleccionar varias configuraciones de la aplicación de acuerdo con una realización de la invención.

En determinadas realizaciones, el sistema de revisión puede consistir en la presentación de vídeoclips cortos inmediatamente después de una sesión de vídeo, representando solo los "momentos emocionales" seleccionados automáticamente y pidiendo al usuario y/o cuidador que los revise como parte del final de la sesión. Esto podría integrar y habilitar aún más las tareas descritas en (4) Aprendizaje activo y en línea. Los momentos emocionales también pueden ser revisados y reetiquetados por el niño o el cuidador en cualquier momento a través de una vista tipo rollo de fotos, permitiendo la oportunidad de obtener datos de etiquetado adicionales a lo largo del tiempo.

Los datos estadísticos extraídos de vídeo y resultados sensoriales se pueden almacenar en esta aplicación y se pueden transmitir a un servidor adicional para su procesamiento sin carga. Dichos datos y las estadísticas resultantes (que pueden calcularse de forma remota o en el dispositivo móvil) se pueden presentar en varias visualizaciones (como gráficos circulares, gráficas, etc.) como medidas de progreso y/o logros.

(4) Aprendizaje activo y en línea

Haciendo referencia a lafigura 7 y la figura 9, los sistemas de aprendizaje automático generalmente empleados por los sistemas de acuerdo con muchas realizaciones de la invención se pueden configurar para consultar a los usuarios de diversas maneras con el fin de mejorar el modelo. En varias realizaciones de dicha consulta es preguntar a los usuarios, después de un uso terapéutico del dispositivo, si varias instancias se clasificaron correctamente; esto puede servir como herramienta de aprendizaje para el usuario, también. De esta forma, las imágenes y/o secuencias de vídeo que capturaron la expresión se pueden anotar con información real y confiar en ellas para entrenar clasificadores actualizados. Varias realizaciones de dicha consulta consisten en pedir a los usuarios o al personal de soporte que corrijan las etiquetas del conjunto de datos. En ambos casos, las consultas se pueden administrar a través de una pantalla gráfica simple en cualquier parte del sistema o en una consola separada, en la que se muestran imágenes o una secuencia de imágenes en formato fijo o de vídeo, junto con una pregunta del tipo "¿La expresión actual es _____?" con la opción de cambiar la expresión de la predicción. En ambos casos, no es factible pedirle a los humanos que corrijan manualmente las etiquetas fotograma por fotograma, por lo que estas realizaciones pueden adoptar una perspectiva de aprendizaje activo (véase Burr Settles,Active Learning,Morgan y Claypool, 2012, cuya divulgación se incorpora en su totalidad en el presente documento por referencia), que se basan en una variedad de heurísticas para seleccionar los datos que se utilizarán en estas consultas. Estas heurísticas incluyen la selección de datos con máxima entropía posterior (dado un clasificador probabilístico) o una consulta por desacuerdo, en el que se utilizan varios clasificadores simultáneamente y se pregunta a los usuarios cuando se puede tener suficiente desacuerdo. Como los datos están estructurados con una dependencia del tiempo, las consultas a menudo tienen en cuenta cierta sensación de continuidad o fluidez a lo largo del tiempo. En determinadas realizaciones, tal proceso consiste simplemente en hacer que pequeños bloques de puntos de datos consecutivos tengan la misma etiqueta. Varias realizaciones implican la adaptación de técnicas de extracción de información de texto - para detalles, véase Aron Culotta, Trausti Kristjansson, Andrew McCallum y Paul Viola. Corrective feedback and persistent learning for information extraction. Artificial Intelligence, Volumen 170 Número 14-15, Octubre de 2006, Páginas 1101-1122; Muchos procesos entrenan un modelo de campo aleatorio condicional utilizando datos dependientes del tiempo y, consultando al usuario utilizando una estimación de confianza obtenida por su algoritmo "restringido hacia adelante-hacia atrás", las correcciones de etiquetas se pueden propagar en el dominio del tiempo mediante su algoritmo de "Viterbi restringido". Al corregir las etiquetas, el modelo se puede actualizar utilizando estos datos con nuevas etiquetas. Esto viene en dos versiones: la actualización local de un modelo utilizado por el dispositivo que realizó las consultas al usuario (en el caso de que el usuario final respondiera las consultas) y el modelo global al que se adaptan los modelos locales. En el caso local, se puede usar cualquiera de una variedad de criterios heurísticos (cambio de entropía, fracción de tiempo equivocada, por ejemplo) para decidir volver a entrenar o actualizar el modelo local o globalmente, utilizando cualquiera de los métodos de adaptación de dominio cubiertos en (1). En el caso global, los sistemas implementados pueden transmitir periódicamente datos que tuvieron una corrección a un recurso informático central, y los datos aumentan los datos de entrenamiento generales para el modelo global. Al actualizar el modelo global, los nuevos parámetros del modelo pueden transmitirse a los sistemas implementados. Esto se puede extender más allá de los campos aleatorios condicionales para aplicarse a muchos modelos de reconocimiento de expresiones que dependen del tiempo, incluidas las redes neuronales recurrentes.

Un mecanismo de etiquetado/retroalimentación de datos mencionado en el párrafo anterior puede ser una integración con un juego/medida de resultados que solicite a los usuarios que reconozcan expresiones como una medida de esta habilidad. Haciendo referencia a laFigura 17, entregado a través de una interfaz de computadora o teléfono, la medida de resultado puede pedirle al usuario y a los cuidadores que identifiquen expresiones encontradas en los datos; los fotogramas consultados pueden ser una combinación de caras de las que el algoritmo está bastante seguro (dando ejemplos inequívocos para que los usuarios las evalúen) y caras de las que el algoritmo no está bastante seguro; medido por la entropía o las estrategias de consulta por desacuerdo mencionadas anteriormente, por ejemplo, para proporcionar puntos de datos útiles para mejorar los clasificadores de reconocimiento de expresiones. El uso de múltiples etiquetadores (niños y cuidadores) que dan varias señales puede reducir el error, y un módulo que mide la razonabilidad de las etiquetas (utilizando el nivel de acuerdo de los etiquetadores humanos junto con algoritmos de aprendizaje automático) puede decidir si un etiquetador experto adicional debe determinar el verdadero valor de la expresión, la aportación humana debe tomarse como valor verdadero o los datos deben descartarse.

Resta de características neutrales

Los métodos para el reconocimiento automatizado de expresiones faciales: identificar caras como felices, triste, enfadado, etc. - normalmente se basan en la clasificación de características extraídas de imágenes. Estas características, diseñadas para codificar información de forma y textura, pueden depender tanto de (1) la expresión que hace un individuo como (2) las características físicas del individuo y las condiciones de iluminación de la imagen. Para reducir el efecto de (2), algunos enfoques establecen una "línea de base" para un individuo y restan la característica neutral de la línea de base de este individuo. Esta información extra neutral a menudo no está disponible, en particular, para la clasificación salvaje en tiempo real de un sujeto nunca antes visto. Por tanto, para implementar la "resta neutral", muchas realizaciones estiman las características neutrales de un individuo. Asimismo, muchas realizaciones extienden la resta neutral a diferentes espacios de características de visión por computadora como un método para corregir la variación de la interfaz y la iluminación. Muchas realizaciones proporcionan además un método simple en tiempo real que es robusto a los desequilibrios de clases y, en principio, funciona con una amplia clase de opciones de características.

Muchas realizaciones utilizan un enfoque que no requiere el entrenamiento de un modelo complejo específico de un sujeto y, por lo tanto, puede adaptarse a un nuevo sujeto en tiempo real. En particular, dejar Xs ser los sujetos característica variable aleatoria, y dejar ys ser la característica (oculta) del rostro neutral (inexpresivo) del sujeto. Si

xs = f ( v s,8e) (1)

cuando5ees una variable independiente del sujeto que, en cambio, depende de la expresión actual e, entonces el reconocimiento de expresiones se puede reducir a (1) estimar vs para el sujeto y (2) aprender un modelo de clasificación5e^mi.En particular, si se hace el supuesto simplificador de que

Xs = vs+ Se,(2)

entonces, suponiendo que existen estimaciones vs para vs, entrenar y probar en características restadas neutrales * s =xs ~E- (3) ;;La ecuación (2) es en general una aproximación lineal. Hay razones para creer que esto es una buena aproximación para muchas características de apariencia bajo el tratamiento de preprocesamiento (Sección "Línea de base: Extracción de características" que se analiza a continuación, en primer lugar, normalización de iluminación, algunas realizaciones pueden calcular características en imágenes alineadas que permiten que se apliquen los argumentos estándar para la resta de fondo. Por tanto, funciones como HOG y SIFT pueden funcionar bien. Esto tiene sentido intuitivo para los rasgos geométricos: si algún subespacio del espacio de rasgos da la distancia entre las cejas y la nariz, entonces no esta cantidad, sino que la diferencia entre la cantidad de distancia actual y la cantidad en un estado neutral puede correlacionarse mejor con una expresión como sorpresa. La misma intuición se puede aplicar a una variedad de espacios característicos. Las características basadas en la apariencia, como SIFT y HOG, pueden generar un clasificador que preste atención a la apariencia de las líneas en la frente, y dicho clasificador podría decidir que un sujeto con arrugas está perpetuamente enojado. La resta neutral permite corregir esto. Es razonable esperar que pueda ayudar a las funciones basadas en la apariencia con una variedad de variaciones, incluyendo iluminación, tono de piel y, hasta cierto punto, vello facial. ;;Contribución ;;Muchas realizaciones proporcionan un proceso simple para estimar vs para cada tema y clasificar marcos con expresiones, entregando clasificación de expresiones en tiempo real. En muchas realizaciones, el proceso toma como entrada un clasificador neutro/expresivo (2 clases), entrenado en las características sin procesar(Xs)de todos los fotogramas, así como un clasificador de expresiones (incluido neutral, por lo tanto, clase 7 u 8) en las características conresta neutral,cuando vs se estima como la media de todas las características con neutral como valor verdadero. En tiempo de ejecución, el clasificador de 2 clases puede permitir que el proceso obtenga una estimación inicial de la característica neutral y actualice continuamente esa estimación. ;;En muchas realizaciones, este proceso tiene una serie de ventajas. En primer lugar, puede proporcionar resultados en tiempo real con poco retraso en el procesamiento, no requiere entrenamiento de ningún modelo complejo específico de un sujeto. Si bien el rendimiento puede variar, puede ser independiente de los tipos de clasificadores de entrada utilizados y puede que no requiera ninguna salida probabilística de los clasificadores. En principio, también puede ser independiente de una amplia variedad de características geométricas y de aspecto. Asimismo, como se describe más adelante, en muchas realizaciones, se ha demostrado que funciona bien con las funciones HOG. La capacitación y la evaluación se pueden realizar fotograma por fotograma y no imponen exigencias fuertes de datos por encima de las necesidades de los clasificadores de entrada (y pueden no requerir que disponer de ejemplos de todas las clases de todos los sujetos de entrenamiento). Por último, puede limitar el grado en que el desequilibrio de clases en el momento de la prueba afecta a la estimación de la característica neutral. ;;Se puede objetar que incluir "neutral" como clase en la tarea de clasificación puede aumentar la precisión con un modelo neutral restado: un simple umbral en la norma de la característica neutral restada funciona bien para clasificar un ejemplo como neutral o no neutral. Sin embargo, (1) en el reconocimiento de expresiones en tiempo real, reconocer la cara neutral puede ser importante, dado que un sujeto a menudo no será expresivo ni siquiera en entornos conversacionales y (2) los experimentos realizados revelan que para tareas de clasificación más difíciles, el efecto general de la resta neutral puede ser sustancial incluso cuando la tarea de clasificación no incluye "neutral". A continuación se describe un proceso propuesto para la estimación y resta de características neutrales en tiempo real junto con resultados experimentales. ;;Estimación y resta de características neutrales en tiempo real ;;Dada una tarea de clasificación de mapear imágenes a etiquetasYde expresión. Sea el número de clasesK.En muchas realizaciones, el proceso toma como entrada un ^-clasificador de expresiones de claseFentrenado en características restadas neutrales, así como un clasificador neutral/expresivo de 2 clasesGeentrenado en características brutas (no restadas neutras). Más específicamente, los datos de entrenamiento dados {(Xs,/,ys,i)| s eSi e Is}con s sujetos de parametrización e índicesIspara los fotogramas de sujeto s. En el momento del entrenamiento, para cada sujeto, el proceso puede calcular la característica neutral media ;;; ;;; donde es el numero de características neutrales para el sujeto s. Muchas realizaciones pueden entonces calcularXs,i=xs,i-Vspara cada fotograma.Fpuede ser entrenado en los datos preprocesados {(xs,/,ys,;)| s e S,i e Is},con cualquier elección de algoritmo. Entrenar un clasificador expresivo general.Ge,muchas realizaciones pueden utilizar las características sin formatoxs,;para todos s eidisponible y modifique las etiquetas para que sean neutrales siys,;es neutral y expresivo por lo demás. Al entrenar estos clasificadores, dependiendo del método de aprendizaje utilizado, es posible que muchas realizaciones deban prestar atención al equilibrio y submuestreo/sobremuestreo/ponderación de una o varias clases. ;;[x■) ;En el momento de la prueba, muchas realizaciones reciben un flujo v s,iyt= i, de características para el sujeto s, en orden cronológico. Muchas realizaciones pueden permitir un período de amortiguamiento, durante el cual no se hacen predicciones y, en cambio, todos los fotogramas pueden clasificarse conGe,tomando la media de todos los fotogramas etiquetados como neutrales como una primera estimación de vs. Este período de amortiguamiento se puede elegir de varias maneras; por ejemplo, después de que se haya visto un número determinado de características etiquetadas como neutrales, o después de que la media de las características etiquetadas como neutrales vea un cambio menor que un cierto umbral. En muchas realizaciones, simplemente estableciendo una cantidad de fotogramas para que se vean antes de finalizar el período de amortiguamente, correspondiente a un par de segundos, puede lograr una alta precisión. En el algoritmo ¡lustrado en lafigura 19,muchas realizaciones resumen esta decisión mediante ;amortiguamente (^ Xs.0 i= i g e) dóndejes el fotograma actual, devuelve verdadero si el proceso todavía está en el período de amortiguamente y falso si el período de amortiguamiento puede finalizar. ;;Después del período de amortiguamiento, es decir, en el fotogramaja,el proceso en muchas realizaciones puede retroceder y hacer predicciones para los fotogramas 1 ajausando la estimación Vs:F(Xs,j- Vs) da estas predicciones. Después de esto, para cada característicaxsjeso se ve, el proceso puede actualizar la estimación de la característica neutral. Esto puede realizarse de varias maneras. En muchas realizaciones, la versión más simple es simplemente actualizar la media Vs: siknes el número de características neutrales vistas antesxsj,y el proceso ha estimado Vs para la característica neutral, entonces síGeclasificaxsjcomo neutral, el proceso puede simplemente actualizarse ;;; ;;; e incrementarknpor uno; sixsjno está clasificado como neutral, no se realiza ninguna actualización.Si Gm¡da una salida probabilística, entonces muchas realizaciones pueden tener una expectativa de Vs, ponderando todas las características vistas por la probabilidad de que cada una sea neutral. ;;Sin salidas probabilísticas, muchas realizaciones todavía tienen varias opciones de actualización. Por ejemplo,laactualización de xs,j' a Vs podría depender de su distancia de la estimación actual: muchas realizaciones podrían reducir su contribución a la estimación en relación con la Ecuación (5), útil si le preocupan los valores atípicos (si, por ejemplo, el rastreador de caras no es fiable). O, en muchas realizaciones, si se espera que Vs cambiará en tiempo de ejecución; por ejemplo, si se espera que la iluminación cambie significativamente, muchas realizaciones pueden hacer que actualice la estimación de vs más rápido en relación con la ecuación (5). Más en general, muchas realizaciones pueden ;permitir que se recopile un número definido de estadísticas de todos los fotogramas vistos hasta ahoraMví.incluyendo las decisiones deGe,y aplicar un filtro para estimar vs. En la figura 19, la elección de la actualización ;definido ((® *,i)í-i))-realizada se denomina Actualización (vs, , Ge),

donde "definido" se refiere a una restricción a un número definido de estadísticas recopiladas del flujo de características (para fines de memoria, muchas realizaciones no quieren almacenarlos en caché todos).

Un filtro de paso bajo, tal como una media móvil exponencial, puede proporcionar un medio sencillo entre la capacidad de adaptarse a una situación cambiante vs y contabilidad del ruido. La modificación de la Ecuación (5) puede ser sencilla: en lugar de ponderar todos los ejemplos clasificados como neutrales porGeigualmente, muchas realizaciones pueden dar mayor peso a las más recientes, con una caída exponencial de peso.

ar)vs, 0 <a< 1 (6)

Si bien un filtro de Kalman puede resultar más robusto, sus actualizaciones pueden ser computacionalmente costosas para grandes dimensiones estatales, con el que muchas realizaciones del proceso pueden necesitar trabajar.

En muchas realizaciones, la media móvil exponencial protege contra el ruido y se adapta rápidamente a una situación cambiante vs, lo que se puede esperar cuando cambia la iluminación (a pesar de las técnicas de normalización de la iluminación destinadas a mitigar esto), o más drásticamente, cuando un usuario "entrega" el clasificador a otro usuario. Debido a la falta de bases de datos que tengan cambios apropiados en la iluminación (como el encendido de una luz en una habitación; muchas realizaciones requieren cambios de iluminación más consistentes que los que se pueden encontrar en la base de datos de Multi-Pie).

Después de la actualización del presupuesto vs, muchas realizaciones hacen la predicaciónF(xs , j-vs).El algoritmo se conoce como algoritmo de resta y estimación neutral (NES). Aunque lo anterior describe un proceso particular para realizar una estimación y resta neutrales, se puede utilizar cualquiera de una variedad de mecanismos para realizar estimaciones y restas neutrales según sea apropiado para los requisitos de aplicaciones específicas de acuerdo con muchas realizaciones de la invención.

Calibración del dispositivo

La informática afectiva que modela y reconoce características de las conversaciones sociales naturales requiere datos de interacción social natural. En particular, la única forma de modelar verdaderamente una conversación social natural es aprender de los datos de interacción social natural. Sin embargo, esto conlleva graves dificultades de etiquetado. En particular, etiquetar datos para algo tan simple como las llamadas expresiones universales (por ejemplo, feliz, triste, enfadado, sorprendido, asustado y disgustado) de una manera precisa y sensible al tiempo requiere mucha mano de obra. En consecuencia, muchas realizaciones utilizan técnicas de preanotación de aprendizaje activo y no supervisado que abaratan enormemente el proceso de etiquetado.

En resumen, se pueden utilizar técnicas no supervisadas y predicciones ruidosas para consultar a expertos humanos, pidiéndoles que etiqueten una pequeña fracción de los datos e infiriendo etiquetas sobre el resto de los datos a través de la forma de los datos. Para ello, muchas realizaciones adaptan diversas técnicas generales de aprendizaje activo junto con sistemas que han tenido éxito en la anotación gramatical de texto. En primer lugar, muchas realizaciones recopilan datos de vídeo conversacionales no estructurados en sesiones de laboratorio con participantes con un desarrollo típico y refinan este esquema de anotación previa en el laboratorio con etiquetadores expertos. Después de perfeccionar este esquema de preanotación en el laboratorio con etiquetadores expertos, muchas realizaciones lo implementan para usuarios (n = 100) del sistema terapéutico, consultar a los usuarios para ayudar a etiquetar mejor sus propios datos, recopilación colectiva de datos eficaz para el etiquetado de datos a través del aprendizaje humano en el circuito.

Reconocimiento de expresiones personalizado

En sintonía con los esfuerzos anteriores, muchas realizaciones proporcionan técnicas de adaptación de dominio para adaptar los sistemas de reconocimiento de expresiones a usuarios particulares. La adaptación del dominio es una tarea de aprendizaje automático que intenta funcionar bien con datos extraídos de alguna distribución objetivo para la cual hay pocos datos etiquetados o no etiquetados, dado que hay más datos abundantes extraídos de una o varias distribuciones de fuentes relacionadas pero distintas. En particular, la tarea de funcionar bien con los datos de interacción social natural de algún conjunto objetivo de individuos (la familia para la cual está diseñada la terapia), y la mayoría de los datos que consisten en otros individuos, a menudo capturados en laboratorio artificial, entornos planificados. Si bien un modelo general puede funcionar bien en la mayoría de las personas, existe una variación considerable en la precisión entre los sujetos, debido a la variación natural en la expresión entre las personas. En un contexto terapéutico, un sistema de reconocimiento que funciona mal en individuos relevantes para la terapia representa un esfuerzo fallido. Por consiguiente, el desarrollo del reconocimiento de expresiones personalizado puede ser imperativo. Esto se puede lograr mediante una combinación de adaptación de dominio supervisada y en línea no supervisada.

En la adaptación de dominio en línea no supervisada, se proporcionan datos sin etiquetar para la distribución objetivo y se adaptan sin volver a entrenar un modelo en todos los datos y una variedad de técnicas (por ejemplo, cascada_en línea, multiobjeto_en línea, entre varios otros) existen para hacer uso de esto. Esto puede considerarse como un acontecimiento de calibración pasiva: el sistema puede tomar datos sobre el tema en cuestión y adaptar el modelo en tiempo real. Muchas realizaciones del sistema emplean una versión ad hoc de esto (por ejemplo, resta neutra), de modo que se construye una estimación de la cara neutral (no expresiva) del usuario actual y se resta de la cara actual. Muchas realizaciones del sistema optimizan este proceso, empleando métodos como hier_bayes para descubrir una adaptación aproximadamente óptima.

En la adaptación de dominio supervisada, de acuerdo con la invención, el sistema recopila datos etiquetados sobre los individuos objetivo y adapta el modelo general para funcionar mejor con ellos, permitiendo un reentrenamiento más completo (no necesariamente en tiempo real). Esto puede suceder de dos formas: pedir a los usuarios del sistema que representen expresiones y pedirles que confirmen/corrijan las etiquetas de los datos de interacción social natural recopilados en ellos. Ambos, a distintos niveles, enfrentan el problema potencialmente grave de la escasez vibratoria, donde los datos recopilados sobre el usuario podrían, aparte de ser escasos, no tener ciertos tipos de variaciones importantes incorporadas. Muchas realizaciones del sistema pueden adaptarse a los datos del usuario sin dañar la solidez que tiene el modelo general ante esta variación.

Muchas realizaciones del sistema utilizan técnicas bayesianas jerárquicas (por ejemplo, hier_bayes) para adaptar los modelos, permitiendo una adaptación bastante rápida y computacionalmente económica tanto en contextos supervisados y en línea no supervisados. Esto se puede hacer en dos fases. En la primera fase, el sistema puede tomar los datos de vídeo naturalistas recopilados en el subobjetivo anterior y realizar una validación cruzada dejando un sujeto fuera: con los datos de origen como los conjuntos de datos académicos antes mencionados combinados con todos los demás sujetos y los datos de entrenamiento objetivo en un pequeño subconjunto de los datos del sujeto objetivo, el sistema puede validar el modelo con el resto de los datos de interacción social natural del objetivo, etiquetados a través de los resultados del objetivo anterior. En la segunda fase, el sistema puede implementar el sistema terapéutico a los participantes (n = 100), etiquetando datos a través de los dos paradigmas discutidos anteriormente. Aunque lo anterior describe el uso de una técnica bayesiana jerárquica para adaptar modelos, se puede utilizar cualquiera de una variedad de técnicas según sea apropiado para los requisitos de aplicaciones específicas de acuerdo con muchas realizaciones de la invención.

Redes neuronales convolucionales y recurrentes

Las redes neuronales convolucionales han demostrado ser particularmente potentes en tareas de reconocimiento de imágenes, considerando que ciertas arquitecturas de redes neuronales recurrentes están resultando útiles para tratar con datos secuenciales (por ejemplo, subtítulos, escritura). Muchas realizaciones aplican estas técnicas para tareas de reconocimiento de expresiones de vídeo dependientes del tiempo. En particular, se cree que la profundidad de la red es particularmente susceptible a la adaptación del dominio y los métodos bayesianos jerárquicos discutidos anteriormente pueden resultar particularmente fructíferos para esta clase de estudiantes. Muchas realizaciones del sistema aplican esto como arquitectura de modelo principal para el desarrollo de adaptación de dominio discutido anteriormente, con clasificadores lineales que se ejecutan en características HOG como línea base.

Resultados experimentales de varios estudios

Se han realizado varios estudios sobre diversos aspectos del sistema conductual. Por ejemplo, se ha construido un prototipo de Google Glass que rastrea automáticamente los acontecimientos expresivos en los rostros utilizando la cámara exterior de las Glass y un sistema de aprendizaje automático entrenado con más de 800.000 muestras de datos de expresión que detecta 8 emociones con alta precisión (-90 %). El modelo prototipo fue diseñado para calcular unidades de acción que surgen de movimientos de los músculos faciales asociados con expresiones emocionales y para funcionar en tiempo real en una amplia variedad de rostros, posición/postura de la cabeza y condiciones de luz. Luego se probó en 20 participantes con autismo y 20 participantes de control. Tras el consentimiento y el fenotipado utilizando una batería de autismo estándar (por ejemplo, SRS), a cada uno de los 40 participantes (edad promedio de 6 años) se les colocaron las gafas para autismo y el rastreador de pupilas montado en la cabeza mientras estaban sentados frente a una pantalla de ordenador. La pantalla mostró tres lotes de caras equilibrados según la variación facial (por ejemplo, raza/etnia) durante 6 segundos junto con dos imágenes alternas de "distractores" estandarizados sociales y no sociales de la base de datos "Alto interés en el autismo". Los sujetos intentaron identificar la emoción de las caras en la pantalla sin retroalimentación emocional (Lote 1), con retroalimentación proporcionada a través de la pantalla "de visualización frontal" de la unidad Glass (Lote 2), y nuevamente sin retroalimentación (Lote 3). Los resultados mostraron que los niños se adaptaron rápidamente al uso del dispositivo (varios lo llamaron un "superpoder") y proporcionaron datos preliminares necesarios para ajustar la interfaz de retroalimentación; los participantes de menor funcionamiento y más jóvenes prefirieron la retroalimentación social de audio a la visual, obligando a construir un nuevo software para cambiar los modos. Todos los participantes con autismo exhibieron puntuaciones iniciales más bajas en la tarea de clasificación de expresiones que los niños neurotípicos. Sin embargo, mostraron mejoras significativas en las puntuaciones en el lote 3 y en aproximadamente 15 minutos, con puntuaciones que alcanzan el mismo nivel que las presentadas por los controles neurotípicos (en presentación). El análisis de los datos de seguimiento ocular recopilados en este estudio coincidió con el hallazgo de que los niños con autismo centran su mirada en la boca en lugar de en los ojos cuando miran caras, lo que explica en parte las clasificaciones erróneas de las emociones antes de la retroalimentación de Glass. Estos datos respaldan la hipótesis de que incluso un uso limitado puede generar ganancias mensurables y motivó el plan para hacer avanzar la tecnología a un estado apto para su uso en el hogar y fuera de los entornos de laboratorio clínico.

En otro estudio, se envió una realización del Autism Glass a casa con 14 familias (edad media = 9,57 años, SD=3,37; n=3 mujeres) y se evaluaron los cambios desde el inicio hasta la conclusión (después de varios meses usando Glass) a través de evaluaciones y observaciones de los padres, principalmente por la Escala de Respuesta Social segunda edición (SRS-2), un "juego de adivinanzas de emociones" (EGG) para evaluar lo bien que los niños etiquetaron correctamente las emociones en persona (de 40 preguntas) e informes cualitativos de los padres. Se utilizaron medidas repetidas para ANOVA unidireccional para analizar los cambios en las puntuaciones tanto de SRS-2 como de EGG. También se pidió a los participantes que proporcionaran comentarios sobre la interfaz de la aplicación móvil. Se lograron los siguientes resultados, como se ilustra en la Figura 20 y la Figura 21. Se produjo una disminución significativa con el tiempo en las puntuaciones totales del SRS-2 en un promedio de 7,14 puntos (F(1,13)=33,20, p=<0,001, las puntuaciones más altas indican una mayor gravedad del TEA). Las puntuaciones de EGG también aumentaron significativamente en un promedio de 9,55 respuestas correctas a lo largo del tiempo (F(1,10)=11,89, p=<0,01). Se grabaron y analizaron más de 5000 minutos de datos de vídeo. Los padres informaron aumentos en el contacto visual y una mayor agudeza social. Además, los participantes compartieron comentarios innovadores que llevaron a cambios en el diseño de la experiencia del usuario en la aplicación móvil.

La Descripción de la invención anterior se ha presentado con fines de ilustración y descripción. No pretende ser exhaustiva ni limitar la invención a las formas precisas desveladas. Pueden ser posibles otras modificaciones y variaciones a la luz de las enseñanzas anteriores. Las realizaciones se han elegido y descrito con el fin de explicar mejor los principios de la invención y su aplicación práctica para permitir así a otros expertos en la materia utilizar mejor la invención en diversas realizaciones y diversas modificaciones según se adecuen al uso particular contemplado. Se pretende que se interprete que las reivindicaciones adjuntas incluyen otras realizaciones alternativas de la invención; incluyendo estructuras, componentes, métodos y medios equivalentes.

Cualquier método enumerado se puede llevar a cabo en el orden de los acontecimientos enumerados o en cualquier otro orden que sea lógicamente posible dentro del alcance de la reivindicación independiente 1. Además, cada componente del sistema y/o etapa del método presentado debe considerarse un "medio para" o "paso para" realizar la función descrita para dicho componente del sistema y/o etapa del método. De esta manera, cualquier lenguaje de reivindicación dirigido a un "medio para" o "etapa para" realizar una función citada se refiere al componente del sistema y/o etapa del método en la memoria descriptiva que realiza la función citada, así como sus equivalentes.

Claims

REIVINDICACIONES

1. Un sistema de procesamiento de imágenes, que comprende:

al menos una cámara para capturar imágenes de un entorno circundante;

un monitor, al menos un procesador (105) y un software de memoria (106);

en donde el software ordena al por lo menos un procesador a:

obtener datos (103, 202) que comprenden una secuencia de imágenes capturadas por al menos una cámara; detectar una cara (501) para al menos una persona dentro de una pluralidad de imágenes en la secuencia de imágenes;

detectar al menos una señal emocional (506) en la cara basándose en la pluralidad de imágenes usando un clasificador;

identificar al menos una emoción (302) basándose en la señal emocional; y

mostrar al menos una etiqueta indicadora de emoción en tiempo real para proporcionar retroalimentación terapéutica;

en donde el clasificador se entrena utilizando un conjunto de datos de entrenamiento de datos de señales emocionales estadísticamente representativos ycaracterizado por queel software ordena al por lo menos un procesador para que lleve a cabo además una calibración del clasificador para un individuo objetivo complementando el conjunto de datos de entrenamiento con al menos una imagen del individuo objetivo y una etiqueta proporcionada por el usuario correspondiente de la señal emocional del individuo objetivo y reentrenar el clasificador para el individuo objetivo utilizando la señal emocional y la etiqueta correspondiente de la señal emocional del individuo objetivo.

2. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el sistema comprende un sistema portátil de captura de vídeo (201) que comprende al menos una cámara orientada hacia fuera, en donde el sistema portátil de captura de vídeo (201) se selecciona del grupo que consiste en un casco de realidad virtual, un casco de realidad mixta, un casco de realidad aumentada y unas gafas que comprenden una visualización frontal.

3. El sistema de procesamiento de imágenes de la reivindicación 2, en donde el sistema portátil de captura de vídeo (201) se comunica con al menos un dispositivo móvil (301), en donde el al menos un procesador se está ejecutando en al menos un dispositivo móvil (301).

4. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el software ordena al por lo menos un procesador obtener datos suplementarios que comprenden datos capturados de al menos un sensor seleccionado del grupo que consiste en un micrófono, un acelerómetro, un giroscopio, un sensor de seguimiento ocular, un sensor de seguimiento de la cabeza, un sensor de temperatura corporal, un sensor de frecuencia cardíaca, un sensor de presión arterial y un sensor de conductividad de la piel.

5. El sistema de procesamiento de imágenes de la reivindicación 1, en donde mostrar al menos una etiqueta indicadora de emoción en tiempo real para proporcionar retroalimentación terapéutica comprende además realizar al menos uno de mostrar una etiqueta dentro de una pantalla de visualización frontal, mostrando una superposición holográfica y mostrando una imagen.

6. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el software ordena al por lo menos un procesador que procese datos de imágenes a una resolución más alta dentro de una región de interés relacionada con una cara detectada dentro de una imagen.

7. El sistema de procesamiento de imágenes de la reivindicación 6, en donde la región de interés es una región delimitadora alrededor de la cara detectada, en donde procesar los datos de la imagen comprende además utilizar un filtro de media móvil para suavizar la región delimitadora de interés.

8. El sistema de procesamiento de imágenes de la reivindicación 7, en donde el software ordena al por lo menos un procesador que realice una estimación y resta de características neutrales en al menos una persona mediante:

- realizar un seguimiento de los puntos fiduciarios;

- realizar el registro de la cara según el tamaño y la postura canónicos;

- realizar un preprocesamiento de normalización de la iluminación;

- generar un histograma de degradados de extracción de características en una región de interés sobre la cara; y realizar la clasificación de la expresión de la cara mediante un clasificador de regresión logística; y

- filtrado de la clasificación resultante.

9. El sistema de procesamiento de imágenes de la reivindicación 1, en donde la señal emocional comprende información seleccionada del grupo que consiste en expresiones faciales, movimientos de los músculos faciales, lenguaje corporal, gestos, postura del cuerpo, acontecimientos de contacto visual, postura de la cabeza, características de una conversación, inquietud e información sobre ansiedad.

10. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el software ordena al por lo menos un procesador que entrene al clasificador utilizando el conjunto de datos de entrenamiento y los datos etiquetados por el usuario de los individuos objetivo.

11. El sistema de procesamiento de imágenes de la reivindicación 10, en donde el software ordena al por lo menos un procesador a:

solicitar a un usuario que etiquete los datos del individuo objetivo con al menos una etiqueta de señal emocional; y

almacenar los datos etiquetados por el usuario para el individuo objetivo en la memoria.

12. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el software ordena al por lo menos un procesador almacenar datos de expresión social y proporciona una interfaz de usuario para la revisión de los datos de expresión social.

13. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el clasificador es una máquina de regresión que proporciona una salida continua correspondiente a una señal social.

14. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el clasificador se entrena como clasificador visual utilizando datos de vídeo de expresiones faciales estándar y con secuencias de conversación expresivas.

15. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el software ordena al por lo menos un procesador que realice al menos uno de los siguientes:

- detectar acontecimientos de mirada usando al menos datos de seguimiento ocular orientados hacia adentro desde una cámara orientada hacia un usuario del sistema de procesamiento de imágenes junto con datos de vídeo orientados hacia afuera desde una cámara orientada en dirección opuesta al usuario;

- proporcionar una revisión de las interacciones sociales registradas entre un usuario y al menos una persona y proporcionar datos de comportamiento del usuario generados como reacción a las interacciones sociales registradas;

- realizar una estimación y resta de características neutrales en la cara detectada de al menos una persona realizando una resta de expresiones neutrales usando las salidas de un primer clasificador de expresión entrenado en características neutrales restadas y un segundo clasificador neutral/expresivo de 2 clases entrenado en las característicasbrutas(no restadas neutras), en donde las características de referencia se establecen y luego se restan para corregir la variación de la interfaz y la iluminación.

16. El sistema de procesamiento de imágenes de la reivindicación 1, en donde el sistema comprende un teléfono inteligente, ordenador de sobremesa, un ordenador portátil o tableta.

17. El sistema de procesamiento de imágenes de una cualquiera de las reivindicaciones 1 a 16 para su uso en el tratamiento del autismo.