ES2940634T3 - Mapeo de la dirección de la mirada - Google Patents

Mapeo de la dirección de la mirada Download PDF

Info

Publication number
ES2940634T3
ES2940634T3 ES16760841T ES16760841T ES2940634T3 ES 2940634 T3 ES2940634 T3 ES 2940634T3 ES 16760841 T ES16760841 T ES 16760841T ES 16760841 T ES16760841 T ES 16760841T ES 2940634 T3 ES2940634 T3 ES 2940634T3
Authority
ES
Spain
Prior art keywords
image
gaze
user
scene
predefined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16760841T
Other languages
English (en)
Inventor
André Algotsson
Anders Clausen
Jesper Högström
Jonas Högström
Tobias Lindgren
Rasmus Petersson
Mårten Skogö
Wilkey Wong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tobii AB
Original Assignee
Tobii AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tobii AB filed Critical Tobii AB
Application granted granted Critical
Publication of ES2940634T3 publication Critical patent/ES2940634T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Lubricants (AREA)
  • Semiconductor Lasers (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

Se divulga un método para determinar la correspondencia entre una dirección de la mirada y un entorno alrededor de un dispositivo portátil. El dispositivo portátil puede incluir un dispositivo de seguimiento ocular y un sensor de imagen orientado hacia el exterior. El método puede incluir recibir un parámetro de entrada y al menos una imagen de escena desde el sensor de imagen orientado hacia el exterior. El método puede incluir además determinar, con al menos el dispositivo de seguimiento ocular, al menos una dirección de la mirada de un usuario del dispositivo portátil en un momento correspondiente al momento en que la imagen de la escena fue capturada por el sensor de imagen orientado hacia el exterior. El método puede incluir además determinar, basándose al menos en parte en el parámetro de entrada, que una imagen de escena particular incluye al menos una parte de una imagen predefinida. Además, el método puede incluir la determinación, en función de al menos una dirección de la mirada, (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Mapeo de la dirección de la mirada
Referencia cruzada a solicitudes relacionadas
Esta solicitud reivindica la prioridad de la solicitud de patente no provisional US-14/954.026 presentada el 30 de noviembre de 2015, que reivindica el beneficio de la solicitud de patente provisional de la patente US-62/202.582 presentada el 7 de agosto de 2015 y titulada “ GAZE DIRECTION MAPPING” .
Antecedentes de la invención
US-2013/083064 A1 se refiere a un aparato audiovisual personal que incluye una cámara para capturar imágenes de una escena y un iluminador IR para determinar la dirección de la mirada del usuario, que describe el preámbulo de la reivindicación 1.
US-2013/050258 A1 describe un dispositivo de visualización que se monta en la cabeza, que proporciona una imagen de realidad aumentada asociada a un objeto del mundo real y que también incluye una cámara de orientación frontal y un sensor de determinación de la dirección de la mirada. La entrada del usuario puede proporcionarse para asociar uno o más flujos de datos a un objeto en la imagen de realidad aumentada.
US-8-558-759 B1 se refiere a un dispositivo informático ponible, que incluye una pantalla montada en la cabeza y una cámara que rastrea lo que se ve a través de la pantalla, sin seguimiento de los ojos. El dispositivo puede reconocer gestos de las manos realizados por el usuario para ejecutar acciones específicas relacionadas con los gestos de las manos.
US-2015/049113 A1 describe un método y un aparato para realizar búsquedas visuales en línea a través de un dispositivo de realidad aumentada que tiene una pantalla óptica montada en la cabeza para ver a través de ella. La vista del usuario se proporciona con información adicional de un modelo informático, permitiendo que el usuario trabaje con el mundo real físico y lo examine, mientras se le proporciona más información sobre los objetos en él.
El objetivo de la presente invención es proporcionar sistemas y métodos para mapear la dirección de la mirada de al menos una persona con respecto al entorno alrededor de la persona, y en particular, para proporcionar sistemas y métodos que usan un enfoque de visión informática combinado con un dispositivo ponible usando al menos información de una cámara escenográfica vinculada con el dispositivo ponible.
Breve descripción de la invención
El objetivo de la invención se logra mediante un método según la reivindicación 1.
También se describe un método para determinar una correspondencia entre una dirección de la mirada y un entorno alrededor de un dispositivo ponible. El dispositivo ponible puede incluir un dispositivo de seguimiento ocular y un sensor de imágenes orientado hacia el exterior. El método puede incluir recibir al menos una imagen de una escena del sensor de imágenes orientado hacia el exterior. El método también puede incluir determinar, con al menos el dispositivo de seguimiento ocular, al menos una dirección de la mirada de un portador del dispositivo ponible en un punto en el tiempo correspondiente a cuando la imagen de la escena fue capturada por el sensor de imágenes orientado hacia el exterior. El método puede incluir además determinar, basándose al menos en parte en un parámetro de entrada, que una imagen de una escena particular incluya al menos una parte de una imagen predefinida. El método puede incluir adicionalmente determinar, basándose en la al menos una dirección de la mirada, al menos un punto de mirada en la imagen de la escena particular. Además, el método puede incluir determinar un valor de confianza que es una representación de la probabilidad de que el al menos un punto de mirada esté relacionado con el punto mapeado en la imagen predefinida.
También se describe un método para determinar una correspondencia entre una dirección de la mirada y un entorno alrededor de un dispositivo ponible. El dispositivo ponible puede incluir un dispositivo de seguimiento ocular y un sensor de imágenes orientado hacia el exterior. El método puede incluir recibir al menos una imagen de una escena del sensor de imágenes orientado hacia el exterior. El método también puede incluir determinar, con al menos el dispositivo de seguimiento ocular, al menos una dirección de la mirada de un portador del dispositivo ponible en un punto en el tiempo correspondiente a cuando la imagen de la escena fue capturada por el sensor de imágenes orientado hacia el exterior. El método puede incluir además determinar, basándose al menos en parte en un parámetro de entrada, que una imagen de una escena particular incluya al menos una parte de una imagen predefinida. El método puede incluir adicionalmente determinar, basándose en la al menos una dirección de la mirada, al menos un punto de mirada en la imagen de la escena particular. Además, el método puede incluir determinar un valor de calidad que es una representación de un grado de error en el al menos un punto de mirada determinado en la imagen de la escena particular.
Los ejemplos de representados en las Figuras 2 y 4, junto con su descripción adjunta, no forman parte de la invención, pero se retienen para el contexto.
Breve descripción de los dibujos
La presente invención se describe junto con las figuras adjuntas:
La Figura 1 es una vista axonométrica de un dispositivo ponible que tiene un dispositivo de seguimiento ocular y una cámara escenográfica para su uso en varias realizaciones de la invención;
la Figura 2 es un diagrama de bloques de un método para determinar un punto de mirada con respecto a una imagen predefinida encontrada en una imagen de una escena;
la Figura 3 es un diagrama de bloques de un método de la invención para, basándose en la retroalimentación del usuario, actualizar un parámetro de entrada usado para identificar imágenes predefinidas en una imagen de una escena;
la Figura 4 es un diagrama de bloques de un método para determinar valores de confianza y calidad relacionados con puntos de mirada que corresponden a apariciones de una imagen predefinida; y
la Figura 5 es un diagrama de bloques de un sistema informático ilustrativo que puede utilizarse en al menos alguna parte de los aparatos o sistemas de la presente invención, o implementar al menos alguna parte de los métodos de la presente invención.
Descripción detallada de la invención
La descripción que sigue proporciona únicamente realizaciones ilustrativas, y no pretende limitar el alcance, la aplicabilidad ni la configuración de la descripción. Más bien, la siguiente descripción de las realizaciones ilustrativas proporcionará a los expertos en la técnica una descripción habilitante para implementar una o más realizaciones ilustrativas.
Por ejemplo, cualquier detalle analizado con respecto a una realización puede estar presente o no en todas las versiones contempladas de esa realización. De la misma manera, cualquier detalle analizado con respecto a una realización puede estar presente o no en todas las versiones contempladas de otras realizaciones analizadas en la presente memoria. Finalmente, la ausencia del análisis de cualquier detalle con respecto a la realización de la presente memoria será un reconocimiento implícito de que tal detalle puede estar presente o no en cualquier versión de cualquier realización analizada en la presente memoria.
En la siguiente descripción, se dan detalles específicos para proporcionar una comprensión completa de las realizaciones. Sin embargo, un experto en la técnica entenderá que las realizaciones pueden ponerse en práctica sin estos detalles específicos. Por ejemplo, los circuitos, sistemas, redes, procesos y otros elementos de la invención pueden mostrarse como componentes en forma de diagrama en bloque para no complicar las realizaciones con detalles innecesarios. En otros casos, los circuitos, procesos, algoritmos, estructuras y técnicas muy conocidos pueden mostrarse sin detalles innecesarios para evitar complicar las realizaciones.
Además, cabe señalar que pueden describirse realizaciones individuales como un procedimiento que se ilustra como un flujograma, un diagrama de flujo, un diagrama de flujo de datos, un diagrama estructural o un diagrama de bloques. Aunque un diagrama de flujo puede describir las operaciones como un proceso secuencial, muchas de las operaciones pueden realizarse en paralelo o al mismo tiempo. Además, se puede reorganizar el orden de las operaciones. Un proceso puede terminarse cuando se completen sus operaciones, pero podría tener etapas adicionales no analizadas o incluidas en una figura. Asimismo, no todas las operaciones de cualquier proceso particularmente descrito pueden ocurrir en todas las realizaciones. Un proceso puede corresponder a un método, una función, un procedimiento, una subrutina, un subprograma, etc. Cuando un proceso corresponde a una función, su terminación corresponde a un retorno de la función a la función de llamada o a la función principal.
La expresión “ medio legible por máquina” incluye, pero sin limitación, dispositivos de almacenamiento transitorios y no transitorios, portátiles o fijos, dispositivos ópticos de almacenamiento, canales inalámbricos y diversos otros medios capaces de almacenar, contener o transmitir una o más instrucciones y/o datos. Un segmento de código o instrucciones ejecutables por máquina pueden representar un procedimiento, una función, un subprograma, un programa, una rutina, una subrutina, un módulo, un paquete de software, una clase o cualquier combinación de instrucciones, estructuras de datos o sentencias de programa. Un segmento de código puede acoplarse a otro segmento de código o a un circuito de hardware al pasar y/o recibir información, datos, argumentos, parámetros o contenido de memoria. La información, los argumentos, los parámetros, los datos, etc. pueden pasarse, enviarse o transmitirse a través de cualquier medio adecuado que incluye compartir la memoria, pasar el mensaje, pasar el identificador, transmisión de red, etc.
Además, las realizaciones de la invención pueden implementarse, al menos en parte, ya sea manual o automáticamente. Pueden ejecutarse implementaciones manuales o automáticas, o al menos asistidas, mediante el uso de máquinas, hardware, software, firmware, software personalizado, microcódigo, lenguajes descriptivos de hardware, o cualquier combinación de los mismos. Cuando se implementan en software, firmware, software personalizado o microcódigo, el código de programa o los segmentos de código para realizar las tareas necesarias pueden almacenarse en un medio legible por máquina. Uno o más procesadores pueden realizar las tareas necesarias.
Los dispositivos ponibles son dispositivos que puede llevar puesto un usuario, típicamente adoptan la forma de un par de gafas, un casco y/o similares. Estas gafas pueden incorporar diversas formas de sensores, pantallas y/o electrónica. Por ejemplo, un dispositivo ponible puede contener un sensor de imágenes para capturar imágenes o vídeo de una escena alrededor de un portador.
El dispositivo ponible también puede contener un dispositivo de seguimiento ocular. Por ejemplo, Tobii AB de Danderyd, Estocolmo, Suecia, ofrece a la venta un dispositivo ponible de este tipo llamado “Tobii Pro Glasses 2” . Este dispositivo incluye una cámara escenográfica combinada con un dispositivo de seguimiento ocular. Por lo tanto, es posible combinar imágenes capturadas por la cámara escenográfica con información del dispositivo de seguimiento ocular, para determinar dónde está mirando un usuario en una escena particular.
Además, es posible incorporar en el dispositivo ponible un dispositivo posicional tal como un sistema microelectromecánico (MEMS), que puede incluir un giroscopio, un acelerómetro y/o similar. Un sistema de este tipo se describe en la publicación de solicitud de patente US-2015/0061995, publicada el 5 de marzo de 2015 y titulada “ PORTABLE EYE TRACKING DEVICE” , cuya descripción completa se incorpora aquí como referencia, a todos los efectos, como si se expusiera en su totalidad en la presente memoria.
Sin embargo, lo que se requiere es un método o sistema para determinar dónde ha mirado un usuario en el entorno que lo rodea, y si un usuario ha mirado determinados artículos que pueden encontrarse de manera coherente o incoherente en diferentes lugares en el entorno, sin la necesidad de una gran cantidad de procesamiento manual. Otra ventaja es que un sistema de este tipo puede determinar la ubicación de un usuario y mapear el entorno a su alrededor. Las realizaciones de la presente invención buscan proporcionar tales métodos y sistemas.
Según un ejemplo, que no se considera parte de la presente invención, se proporciona un método para mapear un entorno usando información de un dispositivo ponible. La información del dispositivo ponible se obtiene típicamente de un sensor de imágenes. En una realización, el sensor de imágenes se orienta hacia el exterior desde el dispositivo ponible, mientras que el dispositivo ponible también está equipado con un aparato de seguimiento ocular. El aparato de seguimiento ocular puede comprender al menos un sensor de imágenes y al menos un iluminador infrarrojo, estando el sensor de imágenes y el iluminador orientados hacia al menos un ojo de un portador. En la práctica, el iluminador infrarrojo emite luz infrarroja sobre la córnea de un usuario, y el sensor de imágenes captura una imagen que incluye el reflejo de la luz infrarroja. Un controlador puede entonces analizar esta imagen capturada para determinar una dirección de la mirada de un usuario. También se pueden emplear otros métodos de seguimiento ocular.
Uno de estos dispositivos ponibles se muestra en la Figura 1. El dispositivo ponible 100 está construido con una montura de gafas que incluye el dispositivo 110 de seguimiento ocular, el sensor 120 de imágenes (también denominado en la presente memoria “cámara escenográfica” ) y la unidad 130 de control. El dispositivo 110 de seguimiento ocular y el sensor 120 de imágenes pueden transmitir información obtenida de ellos a la unidad 130 de control para el procesamiento y/o la comunicación inalámbrica o por cable de vuelta a otro dispositivo/sistema informático/procesador (no mostrado). La alimentación para el dispositivo 110 de seguimiento ocular y el sensor 120 de imágenes también se puede proporcionar a través de la unidad 130 de control.
Usando el hardware anterior o similar, un método puede caracterizarse por las siguientes etapas:
1. Obtener una imagen, imágenes o vídeo de una escena, desde un sensor de imágenes orientado hacia el exterior en un dispositivo ponible.
2. Capturar una dirección de la mirada del portador del dispositivo ponible, en un punto en el tiempo correspondiente a cuando se obtuvo la imagen, imágenes o vídeo de la escena en la etapa 1.
3. Buscar la imagen, imágenes o vídeo de la escena de la etapa 1 para buscar la presencia de una imagen predefinida basándose en el parámetro de entrada (es decir, el parámetro de entrada es una instrucción del usuario que identifica el objeto de interés buscado en las imágenes de la escena). Por lo tanto, el parámetro de entrada podría ser información que especifique una representación visual del objeto de interés (incluido su tamaño y forma). La imagen predefinida también podría comprender un mensaje de texto (una cadena de texto), potencialmente en cualquier fuente o formato.
4. Para cada aparición de la imagen predefinida encontrada en la etapa 3, mapear las direcciones de la mirada de la etapa 2 como puntos de mirada en la imagen, imágenes o vídeo de la escena particular en los que aparece la imagen predefinida.
5. Determinar un valor de confianza para cada punto de mirada mapeado en la etapa 4. El valor de confianza puede representar la probabilidad de que el punto de mirada mapeado esté relacionado con la imagen predefinida. El valor de confianza también puede incluir un mensaje tal como “ocultado” , “poca luz” , etc., que proporcione una indicación de las características de detección de la dirección de la mirada asociadas al punto de mirada mapeado.
Como parte preliminar de las etapas anteriores, determinadas entradas o parámetros pueden definirse para mejorar la precisión de las etapas. Estas entradas y parámetros se denominan a continuación en la presente memoria “parámetros de entrada” y se describirán con más detalle a continuación. En algunos ejemplos, estas entradas las proporciona un usuario, pero también pueden proporcionarse automáticamente.
Opcionalmente, puede determinarse una medida de calidad para determinar la calidad de los datos de seguimiento ocular basándose en cualquier posible fuente de error. Estas fuentes de error pueden, por ejemplo, incluir un seguidor ocular, una entrada de usuario y errores relacionados con la temporización entre la cámara escenográfica y los datos del seguidor ocular, etc. Este último podría ilustrarse de la siguiente manera: Si los datos de seguimiento ocular se capturan a 50 Hz, y el sensor orientado hacia el exterior a 25 Hz, los movimientos de cabeza rápidos crearán ambigüedades sobre en qué parte de la escena estaba mirando realmente el usuario. Estas situaciones podrían reconocerse registrando una puntuación de menor calidad del mapeo (también denominada en la presente memoria valor o medida de calidad).
En situaciones en las que los puntos mapeados han recibido puntuaciones de alta confianza, pero puntuaciones de baja calidad, los puntos de mirada mapeados no deben interpretarse como puntos singulares, sino más bien como “ áreas de mirada” más grandes donde es probable que el usuario haya mirado. Por el contrario, cuando la puntuación de confianza es baja, pero la puntuación de calidad es alta, el usuario debe inspeccionar los puntos manualmente y corregirlos si es necesario ya que el mapeo puede ser inexacto.
Considérese el método anterior en el contexto de un posible ejemplo de su uso previsto. Un usuario entra a un supermercado llevando puesto un dispositivo ponible. El dispositivo ponible está equipado con una cámara escenográfica orientada hacia el exterior y un dispositivo de seguimiento de dirección de la mirada. La cámara escenográfica orientada hacia el exterior graba un vídeo de escena de la escena frente al usuario, el dispositivo de seguimiento de dirección de la mirada registra la mirada del usuario en relación con esa escena. Este vídeo de escena y la información de la mirada se transmiten a un dispositivo de procesamiento. El dispositivo de procesamiento se ha cargado con una imagen predefinida, por ejemplo, una caja de cereales o un anaquel específico que contiene muchos productos. El dispositivo de procesamiento analiza entonces el vídeo de escena entrante y, opcionalmente, la información de la mirada para buscar la presencia de la imagen predefinida. Cuando se encuentra la imagen predefinida, se almacena la dirección de la mirada con respecto a esa imagen predefinida (que puede representarse por un punto de mirada en el vídeo de escena, o en un fotograma de imagen específico del vídeo). Para cada dirección de mirada individual, se asigna un valor que representa el nivel de confianza en la precisión de esa dirección de mirada. La información de calidad también puede almacenarse para direcciones de mirada individuales.
La transmisión al dispositivo de procesamiento, y el análisis mediante este, se puede realizar en tiempo real o se puede realizar en el vídeo de escena previamente grabado y la información de la mirada.
Las realizaciones de la presente invención y ejemplos no reivindicados se describirán ahora con más detalle.
Parámetros de entrada
La provisión del parámetro de entrada permite que el método de la presente invención funcione de una manera más eficaz. La siguiente es una descripción del posible parámetro de entrada.
Puntos mapeados manualmente. Un punto de imagen (posiblemente la posición de un punto de mirada proporcionado por el seguidor ocular) que ha sido identificado manualmente por un usuario o algoritmo separado como perteneciente a o mapeado para, una aparición en una imagen predefinida. El punto de imagen puede estar relacionado con cualquier artículo dentro de la imagen, imágenes o vídeo capturados por el sensor de imágenes orientado hacia el exterior. De este modo, el punto se define tanto en la imagen predefinida como en una imagen de vídeo desde la cámara orientada hacia el exterior.
Área mapeada manualmente de los puntos de interés. En la imagen, imágenes o vídeo capturados por el sensor de imágenes orientado hacia el exterior se puede identificar un área de interés. Esta puede ser una aparición de la imagen predefinida, o puede ser otro artículo de interés dentro de la imagen, imágenes o vídeo. Un ejemplo de un método apropiado para proporcionar este parámetro de entrada es permitir que un usuario arrastre una versión transparente y/o transformada de al menos una parte de la imagen predefinida sobre la imagen, imágenes o vídeo. El usuario puede alterar la forma de esta versión de la imagen predefinida arrastrando los puntos límite con un ratón u otro dispositivo señalador, de modo que el usuario pueda emparejar esta versión de la imagen predefinida con una aparición de la imagen predefinida en la imagen, imágenes o vídeo. Esto permite al usuario proporcionar al método de la presente invención una entrada que muestra claramente un ejemplo del mapeo de una imagen predefinida a una aparición de la imagen predefinida en la imagen, imágenes o vídeo.
Presencia de imagen predefinida. Un usuario puede indicar manualmente la presencia de una imagen predefinida en una o más imágenes o vídeos desde el sensor de imágenes orientado hacia el exterior. El presente método puede realizarse entonces con más detalle en esas imágenes o vídeos, en particular las etapas 3-5 pueden realizarse varias veces, o a una velocidad más lenta, en las imágenes o vídeos marcados, ya que existe una alta probabilidad de que exista una aparición de la imagen predefinida.
Retroalimentación automática. El método de la presente invención puede proporcionar una salida opcional en forma de aparición resaltada de la imagen predefinida. A continuación, un usuario puede revisar estas apariciones resaltadas para corregir cualquier error. El presente método puede usar entonces esta información corregida como una entrada en las etapas 3-5. Para explicarlo con mayor detalle, el presente método puede proporcionar apariciones resaltadas de la imagen predefinida en una imagen, imágenes o vídeo al finalizar la ejecución del presente método al menos una vez, pero preferiblemente varias veces. El usuario puede entonces ajustar estas apariciones resaltadas alterando su forma y/o ubicación para mapear mejor las apariciones reales de la imagen predefinida. El presente método puede usar entonces estos datos actualizados cuando el método se ejecute nuevamente.
Etapa 3 - identificación de imagen predefinida
A continuación se describirá la etapa 3 de algunos métodos de la presente invención. Típicamente, el dispositivo ponible proporciona datos de vídeo grabados mediante un sensor de imágenes orientado hacia el exterior. Estos datos de vídeo comprenden una serie de imágenes o fotogramas. Según realizaciones de la presente invención, estas imágenes y fotogramas individuales se analizan para localizar cada aparición de una imagen predefinida o al menos una parte de esta imagen predefinida. La imagen predefinida se ha proporcionado previamente. El proceso de analizar una imagen para determinar una similitud entre esa imagen y otras imágenes es un proceso bien conocido en el campo de la visión informática. Típicamente, se realiza mediante las características coincidentes de las dos imágenes para encontrar correspondencias.
Está previsto que las realizaciones de la presente invención funcionen con cualquier método de emparejamiento de una imagen predefinida a una imagen o fotograma de vídeo.
Etapa 4 - mapeo de la dirección de la mirada
El dispositivo ponible captura información relacionada con la dirección de la mirada del portador. Esta información de dirección de la mirada puede estar en forma de coordenadas x, y individuales que representan direcciones de la mirada y se almacena para cada imagen o fotograma en los datos de vídeo. La dirección de la mirada también puede estar en forma de coordenadas tridimensionales x, y, z, utilizando la ubicación del ojo. Esta forma de información de dirección de la mirada es ventajosa cuando se usa con modelos tridimensionales como se analiza más adelante en este documento. Una vez que se ha encontrado una aparición de la imagen predefinida en la etapa 3, se extraen direcciones de la mirada que se superponen a la ubicación de la imagen predefinida.
Etapa 5 - determinación del valor de confianza
Para cada dirección de la mirada encontrada en la etapa 4, es ventajoso determinar un valor que represente la probabilidad de que el usuario realmente mirara el objeto que es el sujeto de la imagen predefinida. Esto se denomina valor de confianza.
Un valor de confianza está estrictamente relacionado con el estado de un punto de mirada mapeado, no refleja la calidad de la información de seguimiento ocular obtenida de un seguidor ocular. Sin embargo, un valor de confianza bajo puede proporcionar información respecto a lo que ha provocado la baja confianza. Por ejemplo, el valor de confianza puede indicar áreas con objetos ocultadores, intervalos con un gran desenfoque de movimiento creado por los movimientos del usuario, o quizás que el anaquel que se está viendo en una tienda ha cambiado mucho en comparación con la imagen predefinida porque se han eliminado o añadido varios envases.
Los valores de confianza pueden calcularse de muchas maneras. Por ejemplo, pueden calcularse comparando la similitud entre áreas locales en la imagen predefinida y la imagen del sensor orientado hacia el exterior, o detectando determinados eventos que pueden afectar la confianza en el mapeo. Un experto en la técnica puede conocer y entender otros métodos.
Un ejemplo de un método basado en la similitud para determinar un valor de confianza es extraer subconjuntos pequeños de la imagen de vídeo alrededor de un punto de mirada, y subconjuntos pequeños de la imagen predefinida alrededor del punto de mirada. Los dos subconjuntos pueden compararse entonces para determinar la similitud y esto puede ser usando el mismo o un método similar al descrito en la etapa 3, o puede ser diferente. A continuación, se puede asignar un valor que represente el nivel de similitud entre los dos subconjuntos.
Otro método basado en la similitud es crear un modelo 3D de la imagen predefinida. El valor de confianza se puede calcular entonces comparando la información 3D local y medir su similitud (por ejemplo, un objeto esférico coincidirá poco con un objeto plano, aunque su aspecto en las imágenes 2D pueda ser similar).
A continuación se muestran dos ejemplos de cómo se puede construir un modelo 3D para una imagen predefinida:
1. Encontrar correspondencias en las características entre la imagen predefinida y el vídeo/imagen del sensor orientado hacia el exterior y triangular los puntos usando una estructura a partir del movimiento.
2. Utilizar varias imágenes en lugar de una única imagen predefinida. Cada imagen muestra la misma escena, pero desde un punto de vista diferente. Los puntos pueden triangularse a continuación encontrándose correspondencias en las características entre las imágenes y calculándose los parámetros de la cámara extrínsecos para cada imagen.
Un ejemplo de un método basado en eventos para calcular valores de confianza es usar la información 3D para detectar cambios en el entorno. Por ejemplo, digamos que un objeto se retira de un anaquel en una tienda. Si se detecta esta acción, las realizaciones de la presente invención pueden marcar toda el área con una etiqueta tal como “ modificado” y proporcionar valores de confianza bajos a cada punto de mirada que corresponda a esa área.
Una vez determinado un valor de confianza, puede usarse de varias maneras. Por ejemplo, puede usarse para filtrar direcciones de la mirada con valores de confianza bajos, o para marcar esas direcciones de la mirada para otra acción, tal como una nueva ejecución del proceso de mapeo o análisis manual.
Entornos no estáticos
La ejecución de la presente invención en un entorno no estático, tal como un supermercado, presenta desafíos únicos. En un entorno de este tipo, la imagen, las imágenes y el vídeo capturados por el sensor de imágenes orientado hacia el exterior cambian a medida que el entorno alrededor del portador del dispositivo que contiene el sensor de imágenes cambia. La presente invención gestiona un problema de este tipo permitiendo la provisión de varias imágenes predefinidas que representan un único punto de vista capturado en diferentes momentos. De esta manera, se puede generar un modelo para demostrar cómo ha cambiado el entorno con el tiempo. Esto puede usarse como una entrada en la determinación de valores de confianza.
Además, es posible determinar una medida de calidad o confianza que represente el grado de cambio en el entorno.
Información tridimensional
La construcción de mundos tridimensionales y el mapeo de la mirada sin ninguna etapa anterior se han sugerido antes en el siguiente artículo: Susan M. Munn, Jeff B. Pelz (2008), “ 3D point-of-regard, position and head orientation from a portable monocular video-based eye tracker” . Este enfoque no aborda suficientemente el problema de la oclusión, los movimientos rápidos, las malas condiciones de iluminación y el desenfoque del movimiento. La falta de otros sensores externos también plantea una pesada carga computacional en el sistema.
Por lo tanto, se ha propuesto mapear datos de mirada a un modelo tridimensional (3D) de un entorno alrededor del portador de un dispositivo ponible. Este proceso puede requerir el uso de una cámara 3D para construir un mapa 3D de un entorno antes de que un usuario con un dispositivo ponible entre en el entorno, después de que el usuario interactúe con el entorno se usa un proceso para determinar la correspondencia entre el mapa 3D y el contenido de la cámara orientada hacia el exterior en el dispositivo ponible. Esto puede verse en el siguiente artículo: Lucas Paletta, Katrin Santner, Gerald Fritz (2013), “An integrated system for 3D gaze recovery and semantic analysis of human attention” .
Según algunas realizaciones de la presente invención, se proporciona un proceso mejorado y más eficaz. Este aspecto de algunas realizaciones proporciona el montaje de un sensor 3D o similar en el dispositivo ponible. Al montar el sensor 3D en el dispositivo ponible, se puede construir un mapa 3D del entorno del usuario cuando el usuario está en el entorno. Un sensor 3D adecuado sería fácilmente evidente para un experto en la técnica, sin embargo algunos ejemplos adecuados son sensores que usan luz estructurada, o sensores de tiempo de propagación, o quizás toma de imágenes de cámaras estéreo clásicas con o sin iluminación activa. Mediante el uso de un sensor 3D en tiempo real, es posible permitir el mapeo de la mirada en entornos no estáticos.
Preferiblemente, la información del sensor 3D se combina con información del dispositivo MEMS. La información del dispositivo MEMS proporciona datos relacionados con la orientación y la posición del dispositivo ponible, combinando estos datos con información del sensor 3D es posible ajustar la información 3D de manera que sea precisa cuando el usuario esté en movimiento.
A modo de ejemplo, existen muchos entornos en los que las cámaras 3D que usan iluminación activa funcionan mal. Un ejemplo son los entornos con mucha luz solar; o estudios en los que se utilizan muchos seguidores oculares ponibles al mismo tiempo. En estos casos, los datos MEMS pueden usarse para rellenar huecos donde la información de la cámara 3D no sea fiable, sea incompleta o errónea, ya que los sensores no se ven afectados por las condiciones de iluminación.
Seguimiento de varias imágenes
Según una realización de la presente invención, se proporciona un sistema que permite a un usuario introducir muchas imágenes predefinidas simultáneamente. Durante el proceso, el sistema busca relaciones entre las imágenes (por ejemplo: el sistema puede ubicar 3 imágenes que se producen juntas, ya que son parte del mismo anaquel, por ejemplo). Esto se puede hacer mapeando cada imagen en el mundo 3D y comprobando la proximidad, o puede lograrse de otras maneras como entendería fácilmente un experto en la técnica.
Este sistema es muy eficiente, ya que se analizan muchas imágenes predefinidas a diferencia de la ejecución de un proceso separado individualmente para cada imagen.
En otra mejora, es ventajoso permitir que un usuario introduzca información respecto a una relación entre imágenes predefinidas antes del comienzo del proceso de mapeo. Por ejemplo, algunas imágenes predefinidas pueden agruparse como pertenecientes a un anaquel o entorno específico. Su relación topológica también puede proporcionarse (por ejemplo, “ la imagen 1 se ubica a la izquierda de la imagen 3” , etc.).
Análisis del comportamiento humano
El método anterior puede usarse para analizar el comportamiento humano en un entorno. Por ejemplo, cuando al menos una persona lleva un dispositivo ponible según realizaciones de la presente invención, la información capturada por la cámara escenográfica puede combinarse con la información de la posición y la información de la mirada para mapear el entorno alrededor de un usuario. Por lo tanto, es posible construir un mapa 3D del entorno alrededor del usuario, el camino que el usuario ha recorrido en ese entorno y los atributos del viaje del usuario en ese entorno. Los atributos podrían incluir la ubicación, la dirección de la mirada, la velocidad de desplazamiento, la dirección de desplazamiento, la distancia vertical desde el suelo, etc. Solo a modo de ejemplo, uno de estos escenarios en el que esto puede ser útil es en el caso de un supermercado u otra tienda grande. Tradicionalmente, para mapear los recorridos del usuario por el supermercado, debe conocerse un mapa del suelo de la tienda y luego se deben recopilar datos respecto al usuario dentro de la tienda. Estos pueden ser datos posicionales recogidos por un dispositivo de posición que mida la ubicación, velocidad, etc. de un usuario.
Por lo tanto, las realizaciones de la presente invención proporcionan mejoras inmediatas, ya que los usuarios pueden ubicarse en la tienda llevando puesto un dispositivo ponible según estas realizaciones. Mientras llevan puestos estos dispositivos, los dispositivos pueden crear un mapa del entorno alrededor de cada usuario. Al combinar este mapa con información de la mirada e información de la posición del usuario, muchas realizaciones permiten la construcción del mapa de la tienda (entorno) junto con las direcciones de la mirada del usuario, información de la posición, velocidad, dirección y similares. Por lo tanto, es posible proporcionar una visualización de usuarios dentro de un entorno de tienda y representar no solo su posición y recorridos dentro de la tienda, sino también su velocidad de movimiento y las áreas particulares dentro de la tienda que atraen la mirada del usuario.
Como ventaja adicional a esta realización, es posible proporcionar un ángulo de visión para cada dirección de mirada mapeada, indicando el ángulo desde el que el usuario vio el punto de mirada mapeado. La dirección de la mirada es el vector de mirada desde el punto de vista del usuario, mientras que el ángulo de visión es el vector desde el punto de mirada en el objetivo hasta el usuario. Para calcular el ángulo de visión, se debe usar la información de posición.
Este aspecto de algunas realizaciones permite la creación de mapas térmicos que representan el recorrido o las áreas de actividad de un usuario en un entorno, siempre que se haya determinado tanto la posición como la información de ángulo relacionadas con la mirada de un usuario. El mapa térmico es una representación visual de un entorno con regiones resaltadas que muestran áreas que recibieron la mayor atención de los usuarios. Esta representación visual puede ajustarse basándose en el ángulo de visión o cualquier otro atributo de un usuario. Por ejemplo, la información de la mirada de varios usuarios y los atributos dentro del entorno (como se ha descrito anteriormente) pueden combinarse para proporcionar una representación visual que muestre qué áreas en el entorno recibieron la mayor atención. Este resaltado puede adoptar la forma de un mapa térmico tradicional donde, por ejemplo, un color parecido al rojo, naranja y similares muestre áreas de mucha atención, mientras que los colores parecidos al azul, verde y similares muestren áreas de poca atención. Sin embargo, cualquier forma de representación visual puede usarse, tal como formas, logotipos, imágenes, etc.
Artículos ocultados
Al analizar imágenes capturadas de la cámara escenográfica - por ejemplo, durante la etapa 4 de algunas realizaciones, para proporcionar un valor de confianza como se describe en la etapa 5 - es posible combinar la información de la mirada proporcionada por el sistema de detección de mirada. Si hay oclusiones (objetos móviles o inmóviles que obstaculicen la vista) en las imágenes capturadas por la cámara escenográfica, se presentan problemas. Algunas realizaciones representan estos problemas de dos maneras, en primer lugar proporcionando un valor de confianza como se proporciona en la etapa 5, donde un objeto ocultado recibirá un valor de confianza bajo si se mapea en la imagen predefinida (alternativamente se definirá como no mapeado a la imagen predefinida y en este caso, más probablemente, con un alto valor de confianza), en segundo lugar, a través del uso de datos MEMS cuando se construye un mapa 3D del entorno. Por ejemplo, la creación de un mapa de un entorno 3D será difícil ya que cualquier algoritmo usado debe distinguir con precisión entre el entorno estático y los objetos ocultados, y/o cualquier dirección de mirada mapeada será inválida ya que el usuario está mirando el objeto ocultador en lugar del entorno que está representado en la imagen predefinida. Por lo tanto, para solucionar y resolver estos problemas, según un aspecto de algunas realizaciones, es posible utilizar información del sensor MEMS.
En un primer caso, para resolver el problema de que los algoritmos utilizados para construir un mapa de un entorno 3D deben distinguir entre el entorno estático y los objetos ocultados, se propone filtrar objetos móviles buscando la imagen de áreas que se comporten de manera incongruente con el movimiento estimado de la cámara. Un ejemplo de un filtro adecuado es el siguiente:
1. Determinar los datos MEMS como una primera entrada.
2. Calcular el movimiento de todos los puntos característicos en la imagen.
3. Comparar con el movimiento esperado proporcionado por los sensores MEMS.
4. Marcar todos los puntos característicos que no siguen el movimiento esperado como valores atípicos.
5. Utilizar valores típicos para determinar el movimiento verdadero de la cámara y generar (triangular) el mundo 3D.
Además, al proporcionar información posicional del usuario de un dispositivo ponible, es posible combinar datos obtenidos previamente (tales como una visita previa de un usuario a un lugar específico en un entorno) con los datos de la cámara escenográfica recién obtenidos, para procesar y eliminar oclusiones.
Para resolver el problema de las direcciones de mirada no válidas cuando un usuario esté mirando una oclusión en lugar del sujeto de la imagen predefinida, se propone asignar un valor de baja confianza a la dirección de mirada mapeada, de modo que la dirección de mirada mapeada se filtrará o se ignorará. De forma alternativa, el día de la mirada puede no estar mapeado en la imagen predefinida, en cuyo caso es probable que tenga un valor de alta confianza.
Transición entre escenas
Cuando se analizan escenas secuenciales capturadas por la cámara escenográfica, en algunas circunstancias puede haber distorsión entre escenas, esto puede deberse a la agitación u otro movimiento del dispositivo ponible. En una situación de este tipo, es posible usar la información de posición derivada de la información proporcionada por el dispositivo MEMS - tal como ubicación, orientación, rotación, etc. para compensar este movimiento. Por ejemplo, si una primera imagen de escena es capturada por la cámara escenográfica y la información de la mirada se aplica a esa escena, la siguiente escena capturada puede rotarse ligeramente debido a que el dispositivo ponible se mueve en la cabeza de un usuario. La información MEMS para el punto en el tiempo de la captura de cada escena puede usarse para determinar el cambio en la posición y la orientación del dispositivo ponible en el momento de la captura de cada escena, si hay una discrepancia entre los dos, la información de escena puede ajustarse en consecuencia.
Para mejorar la comprensión de este aspecto de determinadas realizaciones, considérese el siguiente ejemplo: Un usuario mira un anaquel en una tienda, este anaquel corresponde a una imagen predefinida. Después de esta mirada, un usuario puede girar su cabeza y mirar en otra dirección durante un par de segundos, antes de volver su mirada al anaquel. Mediante el uso de los datos MEMS, estos movimientos pueden reconstruirse usando información obtenida por el sensor de imágenes orientado hacia el exterior dado un punto de partida conocido, y es posible obtener información respecto a la ubicación esperada de la imagen desde el sensor de imágenes orientado hacia el exterior en la última parte del vídeo/de la serie de imágenes desde el sensor de imágenes orientado hacia el exterior. Este enfoque proporciona muchos beneficios:
1. El tiempo para buscar el vídeo/la serie de imágenes desde el sensor de imágenes orientado hacia el exterior se reduce, ya que a través del uso de datos MEMS es posible aproximar en qué parte del vídeo/la serie de imágenes del sensor de imágenes orientado hacia el exterior buscar la imagen predefinida.
2. Se proporciona solidez frente al desenfoque de movimiento. Considérese una secuencia larga de movimientos rápidos de cabeza. Estos serán muy difíciles de seguir utilizando solo información visual del sensor de imágenes orientado hacia el exterior, sin embargo, a través del uso de información MEMS, es posible aproximar el movimiento entre cada escena/imagen estable del sensor de imágenes orientado hacia el exterior. Esto hará la búsqueda de imágenes, el mapeo de la mirada y la localización 3D del usuario mucho más fáciles.
Existen dos componentes clave para este aspecto:
1. Los datos MEMS proporcionan una estructura rápida y sólida frente al movimiento, como se ha explicado anteriormente.
2. Además, es posible refinar los datos MEMS mediante fusión del sensor con el movimiento obtenido del sensor de imágenes orientado hacia el exterior. A través de esto, es posible compensar la deriva y otras imprecisiones en el sensor MEMS. Después de haberse realizado esto, es posible emitir los datos de movimiento refinado.
Análisis de la mirada en un entorno 3d
Al analizar la información de la mirada, es ventajoso considerar el conocimiento de un entorno 3D. Por ejemplo, es posible crear filtros de fijación 3D. A modo de ejemplo, esto tiene la siguiente utilidad: Una persona está caminando alrededor de una mesa, fijando constantemente su mirada en un determinado objeto 3D (por ejemplo, una taza de café). Mediante el uso del conocimiento del entorno 3D, es posible determinar de manera segura que el usuario estaba mirando al mismo objeto, aunque la posición del usuario y el ángulo de visión cambiaba constantemente.
Este conocimiento del entorno 3D también permite un mapeo preciso de la información de la mirada sobre estructuras complejas que son difíciles de capturar en una imagen bidimensional, tal como una escultura.
Además, es posible utilizar un modelo 3D como entrada (o varias imágenes del mismo objeto tomadas desde diferentes puntos de vista), en lugar de una imagen predefinida.
El filtro para detectar objetos móviles (como se ha descrito anteriormente) también puede usarse para seguir objetos móviles específicos, tales como un balón de fútbol. Para lograrlo, se obtiene el primer conocimiento de un entorno 3D de todas las partes estáticas del mundo (como se ha descrito anteriormente); a continuación, la identificación y localización de todas las partes móviles se comparan con el conocimiento del entorno 3D y finalmente se mapea la información de la mirada al conocimiento del entorno 3D. Por ejemplo, esta información puede usarse para determinar cuándo un comprador levanta un artículo de un anaquel antes de mirarlo y devolverlo; usando el filtro, es posible para la presente invención marcar este evento.
Area de interés
Según otro aspecto de algunas realizaciones, es posible identificar un área de interés (Area Of Interest - AOI) en una imagen proporcionada por un sensor de imágenes orientado hacia el exterior. Esta AOI puede usarse de varias maneras. Por ejemplo, es posible observar la aparición de un AOI en cualquier vídeo/serie de imágenes proporcionados por el sensor de imágenes orientado hacia el exterior. Por lo tanto, es posible analizar un vídeo capturado por el sensor de imágenes orientado hacia el exterior, mapear la información de la mirada al vídeo como se ha descrito anteriormente y a continuación emitir una métrica que indique en qué porcentaje de la longitud del vídeo un AOI era visible para un usuario (definiéndose visible como presente en una imagen proporcionada por el sensor de imágenes orientado hacia el exterior), y en qué porcentaje del vídeo el usuario miró la AOI. Al conocer cuándo una AOI está presente en un fotograma del vídeo, también es posible analizar la información de la mirada para determinar el tiempo que se tardó desde cuando la AOI se hizo visible a un usuario hasta cuando el usuario miró por primera vez la AOI.
Además, usando la información de movimiento de un dispositivo ponible según determinadas realizaciones, es posible determinar cuándo un usuario se está aproximando a un área de interés (p. ej., una persona que camina hacia un determinado póster publicitario o anaquel en una tienda). Esto se puede lograr usando la información de movimiento del usuario. También puede lograrse simplemente encontrando la AOI en la imagen y calculando su tamaño relativo en la imagen del vídeo. A medida que el usuario se acerca a la instantánea, ocupará un espacio mayor y mayor en la grabación.
Una vez que la AOI se ha encontrado con precisión en la imagen de vídeo, es posible dibujar los límites de la AOI cuando se grabe el vídeo. Por lo tanto, durante la reproducción del vídeo, será más fácil que un ser humano vea la AOI. También es posible superponer mapas térmicos computarizados en el vídeo en directo. Para hacerlo, los puntos de imagen en la imagen predefinida deben transformarse al dominio de la imagen de vídeo. Esta es la transformación inversa a la realizada cuando se mapea la dirección de la mirada en la etapa 4 como se ha analizado en la presente memoria. También se puede lograr de otras maneras, como entendería un experto en la técnica.
Entrada del usuario
Según una mejora adicional de algunas realizaciones, se propone además un sistema en el que el usuario puede proporcionar información al sistema de mapeo antes de la ejecución de los algoritmos. Ejemplos de esta información podrían ser:
1. Ubicaciones de fotogramas de vídeo en los que la AOI es visible y fácil de encontrar
2. Puntos de correspondencia entre fotogramas en el vídeo y la imagen predefinida (mapeados manualmente por el usuario)
3. Rectángulo limítrofe que muestra la ubicación aproximada de la AOI en un fotograma de vídeo
Al permitir que un usuario proporcione esta información, los métodos descritos en la presente memoria pueden dirigirse a estas áreas resaltadas por el usuario, o los parámetros en los métodos pueden ajustarse. Esto permite realizar un mapeo más eficiente entre una dirección de mirada capturada e imágenes predefinidas.
Combinación con análisis manual
Es un objeto de algunas realizaciones de la presente invención aliviar el largo proceso de análisis manual de imágenes y vídeo grabados por un sensor de imágenes orientado hacia el exterior de un dispositivo ponible. Es posible usar realizaciones de la presente memoria, junto con análisis manual, para reducir el tiempo total necesario para el análisis. De esta manera, es posible utilizar los valores de confianza generados para determinar qué puntos o secciones de miradas mapeadas del vídeo grabado desde la cámara escenográfica requieren un análisis adicional.
Este aspecto funciona de la siguiente manera:
1. Obtener una imagen, imágenes o vídeo desde un sensor de imágenes orientado hacia el exterior en un dispositivo ponible.
2. Capturar una dirección de mirada del portador del dispositivo ponible, en un punto en el tiempo similar a cuando se obtuvo la imagen, imágenes o vídeo en la etapa 1.
3. Buscar la imagen, imágenes o vídeo de la etapa 1 para buscar la presencia de una imagen predefinida. 4. Para cada aparición encontrada en la etapa 3, mapear las direcciones de mirada de la etapa 2 a la imagen predefinida.
5. Determinar valores de confianza para cada dirección de mirada mapeada en la etapa 4. El valor de confianza representa la probabilidad de que la dirección de la mirada esté relacionada con el punto mapeado en la imagen predefinida como “ocultado” , “ poco iluminado” , etc., lo que proporciona una indicación del estado de la dirección de la mirada mapeada.
6. Realizar un análisis manual para determinar si un dato de mirada está relacionado con la imagen predefinida, para los datos de mirada con un valor de confianza que cumpla con criterios determinados.
No es necesario realizar el análisis manual para cada dirección de mirada, sino que puede seleccionarse una dirección de mirada representativa para determinadas partes de los datos capturados.
Los criterios determinados pueden ser un valor de baja confianza, un valor de confianza dentro de un determinado intervalo o un valor de confianza que tenga un mensaje predefinido tal como “ocultado” , “entrada adicional” , etc. Además, es posible que las direcciones de mirada mapeadas y calculadas automáticamente puedan ajustarse manualmente basándose en únicamente la preferencia de un usuario. Por ejemplo, un usuario puede revisar todas, o un subconjunto de, las direcciones de mirada mapeadas y decidir independientemente cuál ajustar manualmente. El ajuste manual puede ser marcar la dirección de mirada mapeada como relevante, no relevante, cambiar el sujeto de la dirección de mirada mapeada, etc.
Como mejora adicional, es posible visualizar los valores de confianza como un gráfico representado con el tiempo, esto permite que el usuario determine fácilmente qué partes del vídeo/la imagen del sensor de imágenes orientado hacia el exterior requiere un trabajo manual adicional, y también recibir una visión global de la calidad del mapeo. Interacción de la mirada
Según algunas realizaciones, se proporciona un sistema y método para mapear puntos de mirada desde un seguidor ocular ponible para una o más imágenes predefinidas. La imagen predefinida puede ser capturada además por el sensor de imágenes orientado hacia el exterior. Este mapeo permite la interacción entre un usuario y el entorno. Por ejemplo, cuando un usuario mira una pintura en un museo, las realizaciones pueden mapear la información de la mirada a la pintura y usar los sistemas y métodos descritos en la presente memoria para identificar que el usuario está mirando a una pintura particular. Esta información puede comunicarse entonces a un sistema externo (o interno) que puede leer en voz alta información sobre la pintura desde un altavoz (o auricular). Además, es posible crear herramientas de interacción, donde un usuario puede “ hacer clic” en un botón que simplemente esté pintado en una pared.
Como ejemplo adicional, se pueden usar datos de los sensores de imágenes orientados hacia el exterior de varias personas que se mueven por un área para crear un mapa. El mapa combina los datos de manera que sea posible seleccionar artículos en el mapa, por ejemplo estanterías en una tienda. La imagen predefinida puede crearse entonces uniendo los datos de varios sensores de imágenes orientados hacia el exterior.
Imágenes predefinidas parcialmente dinámicas
Además, es posible utilizar imágenes predefinidas parcialmente dinámicas en muchas realizaciones de la presente invención. A través de ello, se proporciona una imagen predefinida con áreas dinámicas de la imagen marcadas. Estas áreas dinámicas a menudo difieren entre varios casos de la imagen predefinida y, por lo tanto, cuando la imagen predefinida se compara con una imagen capturada por una cámara escenográfica orientada hacia el exterior, las áreas dinámicas pueden excluirse de las etapas de procesamiento de imágenes. Esto permitiría la identificación correcta de la imagen predefinida.
Información general aplicable a cualquier realización de la presente invención
Aunque la presente invención se ha descrito con referencia a un dispositivo MEMS que actúa como sensor posicional, o un sensor que mide el cambio en la posición y/u orientación y/o aceleración, es posible usar otras realizaciones de la presente invención con cualquier forma de dispositivo que proporcione información posicional. Esto incluye dispositivos externos al dispositivo ponible, por ejemplo, pueden usarse cámaras externas para capturar una ubicación del dispositivo ponible; estas cámaras pueden usar marcadores infrarrojos y/o pueden colocarse retroreflectores en el dispositivo ponible. Un experto en la técnica entendería fácilmente los dispositivos posicionales.
Aunque las realizaciones de la presente invención se han descrito con referencia a una imagen predefinida. Debe entenderse que se puede usar cualquier información en lugar de la imagen predefinida. Por ejemplo, en lugar de una imagen, pueden usarse características de un objeto o imagen. De esta manera, en lugar de proporcionar una imagen de una pelota, es posible proporcionar características de la pelota (“esférica” , “ negra” , etc.).
Aunque las realizaciones de la presente invención se han descrito con referencia a un sensor de imágenes orientado hacia el exterior, también se contempla que pueda haber más de un sensor de imágenes orientado hacia el exterior. Por ejemplo, si se proporcionan dos sensores de imágenes orientados hacia el exterior, se pueden obtener datos estéreo de los dos sensores de imágenes y estos datos estéreo permiten un cálculo más fácil de la información 3D como entendería fácilmente un experto en la técnica.
Realizaciones ilustrativas ilustradas
La Figura 2 muestra un diagrama de bloques de un método 200 para determinar una correspondencia entre una dirección de mirada y un entorno alrededor de un dispositivo ponible, donde el dispositivo ponible incluye un dispositivo de seguimiento ocular y un sensor de imágenes orientado hacia el exterior. Este método no se considera que forme parte de la presente invención.
En el bloque 210, se puede recibir un parámetro de entrada que permitirá que el método 200 determine qué imagen o imágenes predefinidas harán que se mapee un punto de mirada en una imagen de una escena dada. Como se ha analizado anteriormente, el parámetro de entrada puede recibirse de un usuario, pero también puede determinarse automáticamente en algunas realizaciones.
En el bloque 220, se reciben imágenes o vídeos de una escena del sensor de imágenes. En el bloque 230, se determina una dirección de la mirada del usuario del dispositivo ponible correspondiente en el tiempo a las imágenes o vídeo recibidos.
En el bloque 240, basándose en el parámetro de entrada, las imágenes o vídeo se analizan para determinar si incluyen y cuándo incluyen la o las imágenes predefinidas (o alguna parte de estas). En el bloque 250, para cada imagen particular dentro de las imágenes o el vídeo que incluye la imagen predefinida, se determina un punto de mirada en tales imágenes o vídeo basándose en la dirección de la mirada. Las posiciones relativas de la imagen predefinida y el punto de mirada pueden analizarse a continuación mediante otros procesos para extraer correlaciones y/o conclusiones sobre la reacción del usuario al objeto representado por la imagen predefinida.
La Figura 3 muestra un diagrama de bloques de un método 300 de la invención para determinar una correspondencia entre una dirección de mirada y un entorno alrededor de un dispositivo ponible, donde el dispositivo ponible incluye un dispositivo de seguimiento ocular y un sensor de imágenes orientado hacia el exterior.
En el bloque 310, se reciben imágenes o vídeos de una escena del sensor de imágenes. En el bloque 320, se determina una dirección de la mirada del usuario del dispositivo ponible correspondiente en el tiempo a las imágenes o vídeo recibidos.
En el bloque 330, basándose en un parámetro de entrada, las imágenes o vídeo se analizan para determinar si incluyen y cuándo incluyen la o las imágenes predefinidas (o alguna parte de esta). Como se ha analizado anteriormente, el parámetro de entrada puede recibirse de un usuario, pero también puede determinarse automáticamente en algunas realizaciones.
En el bloque 340, para cada imagen particular dentro de las imágenes o el vídeo que incluye la imagen predefinida, se determina un punto de mirada en tales imágenes o vídeo basándose en la dirección de la mirada.
En el bloque 350, la imagen de la escena se muestra con una indicación visual superpuesta, donde la indicación visual superpuesta corresponde a la imagen predefinida (o al menos alguna parte de esta). En el bloque 360, se puede recibir la retroalimentación del usuario respecto al ajuste de la indicación visual superpuesta. Solo a modo de ejemplo, el usuario puede manipular el tamaño y la forma de un polígono que se superponga a la imagen predefinida.
En el bloque 370, el parámetro de entrada originalmente usado para determinar la presencia de la imagen predefinida se ajusta basándose, al menos en parte, en la retroalimentación del usuario. En el bloque 380, se analiza una imagen de escena futura basándose en el parámetro de entrada ajustado para determinar si la imagen predefinida está presente.
La Figura 4 muestra un diagrama de bloques de otro método 400 para determinar una correspondencia entre una dirección de mirada y un entorno alrededor de un dispositivo ponible, donde el dispositivo ponible comprende un dispositivo de seguimiento ocular y un sensor de imágenes orientado hacia el exterior. Este método no se considera que forme parte de la presente invención.
En el bloque 410, se reciben imágenes o vídeos de una escena del sensor de imágenes. En el bloque 420, se determina una dirección de la mirada del usuario del dispositivo ponible correspondiente en el tiempo a las imágenes o vídeo recibidos.
En el bloque 430, basándose en un parámetro de entrada, las imágenes o vídeo se analizan para determinar si incluyen y cuándo incluyen la o las imágenes predefinidas (o alguna parte de esta). Como se ha analizado anteriormente, el parámetro de entrada puede recibirse de un usuario, pero también puede determinarse automáticamente en algunas realizaciones.
En el bloque 440, para cada imagen particular dentro de las imágenes o el vídeo que incluye la imagen predefinida, se determina un punto de mirada en tales imágenes o vídeo basándose en la dirección de la mirada.
En el bloque 450, se puede determinar un valor de confianza que es una representación de la probabilidad de que el al menos un punto de mirada esté relacionado con el punto mapeado en la imagen predefinida. De forma alternativa o adicional, en el bloque 460, se puede determinar un valor de calidad que es una representación de un grado de error en al menos un punto de mirada determinado en la imagen de la escena particular.
Ejemplo de hardware capaz de implementar uno o más de los métodos descritos
La Figura 5 es un diagrama de bloques que ilustra un sistema informático 500 ilustrativo en el que pueden implementarse ejemplos de los métodos descritos, incluidos los dos cubiertos por la presente invención y los no cubiertos por la presente invención. Este ejemplo ilustra un sistema informático 500 tal como el que puede utilizarse, en su totalidad, en parte o con diversas modificaciones, para proporcionar las funciones de los componentes de la invención como los analizados anteriormente. Por ejemplo, varias funciones del dispositivo de seguimiento ocular ponible pueden controlarse mediante el sistema informático 500.
El sistema informático 500 se muestra comprendiendo elementos de hardware que pueden estar acoplados eléctricamente a través de un bus 580. Los elementos de hardware pueden incluir una o más unidades 510 centrales de procesamiento, uno o más dispositivos 520 de entrada (p. ej., un ratón, un teclado, un dispositivo de seguimiento ocular, etc.) y uno o más dispositivos 530 de salida (p. ej., un dispositivo de visualización, una impresora, etc.). El sistema informático 500 también puede incluir uno o más dispositivos 540 de almacenamiento. A modo de ejemplo, el uno o más dispositivos 540 de almacenamiento pueden ser unidades de disco, dispositivos ópticos de almacenamiento, un dispositivo de almacenamiento en estado sólido tal como una memoria de acceso aleatorio (“ RAM” ) y/o una memoria de solo lectura (“ ROM” ), que pueden ser programables, actualizables por memoria flash y/o similares.
El sistema informático 500 puede incluir de forma adicional un lector 550 de medios de almacenamiento legibles por ordenador, un sistema 560 de comunicaciones (p. ej., un módem, una tarjeta de red (inalámbrica o por cable), un dispositivo de comunicación de infrarrojos, un dispositivo Bluetooth™, un dispositivo de comunicación celular, etc.) y una memoria 8570 de trabajo, que puede incluir dispositivos RAM y ROM como se ha descrito anteriormente. En algunas realizaciones, el sistema informático 500 puede incluir también una unidad 590 de aceleración del procesamiento, que puede incluir un procesador de señales digitales, un procesador para un fin concreto y/o similares.
El lector 550 de medios de almacenamiento legibles por ordenador puede conectarse además a un medio de almacenamiento legible por ordenador (y, opcionalmente, en combinación con el o los dispositivo(s) 540 de almacenamiento) que representan de manera integral dispositivos de almacenamiento remotos, locales, fijos y/o extraíbles, más medios de almacenamiento para contener de forma temporal y/o más permanente información legible por ordenador. El sistema 560 de comunicaciones puede permitir que los datos se intercambien con una red, sistema, ordenador y/u otro componente descrito anteriormente.
El sistema informático 500 también puede comprender elementos de software, que se muestran actualmente ubicados dentro de una memoria 570 de trabajo, que incluye un sistema 574 operativo y/u otro código 578. Debe apreciarse que las realizaciones alternativas de un sistema informático 500 pueden tener numerosas variaciones con respecto a lo descrito anteriormente. Por ejemplo, también podría utilizarse hardware personalizado y/o podrían implementarse elementos particulares en hardware, software (incluido software portátil, tal como applets) o ambos. Además, también puede producirse la conexión a otros dispositivos informáticos, tales como dispositivos de entrada/salida de red y de captación de datos.
El software del sistema informático 500 puede incluir un código 578 para aplicar alguna o todas las funciones de los diversos elementos de la arquitectura, como se describe en la presente memoria. Por ejemplo, un software, almacenado en y/o ejecutado por un sistema informático, tal como el sistema 500, puede proporcionar las funciones del dispositivo de seguimiento ocular ponible y/u otros componentes de la invención tales como los analizados anteriormente. Los métodos implementables mediante software en algunos de estos componentes se han analizado anteriormente con mayor detalle.
Ahora, la invención se ha descrito en detalle con fines de claridad y comprensión. Sin embargo, se apreciará que pueden hacerse determinados cambios y modificaciones dentro del ámbito de las reivindicaciones adjuntas.

Claims (6)

  1. REIVINDICACIONES
    i. Un método para determinar una correspondencia entre una dirección de mirada y un entorno alrededor de un dispositivo ponible (100), en donde el dispositivo ponible (100) comprende un dispositivo (110) de seguimiento ocular y un sensor (120) de imágenes orientado hacia fuera, y en donde el método comprende:
    recibir (310) al menos una imagen de una escena del sensor (120) de imágenes orientado hacia fuera;
    determinar (320), con al menos el dispositivo (110) de seguimiento ocular, al menos una dirección de la mirada de un portador del dispositivo ponible (100) en un punto en el tiempo correspondiente a cuando la imagen de la escena fue capturada por el sensor (120) de imágenes orientado hacia fuera;
    determinar (330), basándose al menos en parte en un parámetro de entrada, que una imagen de la escena particular incluya al menos una parte de una imagen predefinida;
    determinar (340), basándose en la al menos una dirección de la mirada, al menos un punto de mirada en la imagen de la escena particular;
    caracterizado por que el método comprende, además:
    hacer (350) que la imagen de la escena se muestre con una indicación visual superpuesta, en donde la indicación visual superpuesta corresponde a, al menos, una parte de la imagen predefinida;
    recibir (360) la retroalimentación del usuario con respecto al ajuste de la indicación visual superpuesta;
    ajustar (370) el parámetro de entrada basándose, al menos en parte, en la retroalimentación del usuario; y
    determinar (380), basándose en el parámetro de entrada ajustado, que una imagen de escena futura incluya al menos una parte de la imagen predefinida.
  2. 2. El método según la reivindicación 1, en donde el parámetro de entrada comprende:
    una indicación proporcionada manualmente de que existe la imagen predefinida en la imagen de escena.
  3. 3. El método según la reivindicación 1, en donde el parámetro de entrada comprende:
    una cadena de texto encontrada en la imagen predefinida.
  4. 4. El método según la reivindicación 1, en donde el parámetro de entrada comprende:
    una representación visual de la imagen predefinida.
  5. 5. El método según la reivindicación 1, en donde la indicación visual superpuesta comprende:
    una representación de un área de interés determinada basándose al menos en el parámetro de entrada.
  6. 6. El método según la reivindicación 1, en donde la indicación visual superpuesta comprende:
    una representación de un área en la que aparece la imagen predefinida en la imagen de la escena.
ES16760841T 2015-08-07 2016-08-05 Mapeo de la dirección de la mirada Active ES2940634T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562202582P 2015-08-07 2015-08-07
US14/954,026 US9829976B2 (en) 2015-08-07 2015-11-30 Gaze direction mapping
PCT/US2016/045717 WO2017027352A1 (en) 2015-08-07 2016-08-05 Gaze direction mapping

Publications (1)

Publication Number Publication Date
ES2940634T3 true ES2940634T3 (es) 2023-05-10

Family

ID=56877112

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16760841T Active ES2940634T3 (es) 2015-08-07 2016-08-05 Mapeo de la dirección de la mirada

Country Status (5)

Country Link
US (3) US9829976B2 (es)
EP (1) EP3332285B1 (es)
CN (2) CN108351522B (es)
ES (1) ES2940634T3 (es)
WO (1) WO2017027352A1 (es)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533375A (zh) * 2015-06-29 2018-01-02 埃西勒国际通用光学公司 场景图像分析模块
US9829976B2 (en) * 2015-08-07 2017-11-28 Tobii Ab Gaze direction mapping
US9870051B2 (en) * 2015-08-07 2018-01-16 Tobii Ab Gaze direction mapping
US11579686B2 (en) * 2016-03-07 2023-02-14 Apple Inc. Method and device for carrying out eye gaze mapping
JP6744747B2 (ja) * 2016-04-01 2020-08-19 キヤノン株式会社 情報処理装置およびその制御方法
WO2017176330A1 (en) * 2016-04-08 2017-10-12 Google Inc. Encoding image data at a head mounted display device based on pose information
EP3276530A1 (en) * 2016-07-29 2018-01-31 Neopost Technologies Assisted manual mail sorting system and method
JP6996514B2 (ja) * 2016-10-26 2022-01-17 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11269405B2 (en) * 2017-08-31 2022-03-08 Tobii Ab Gaze direction mapping
US11556741B2 (en) 2018-02-09 2023-01-17 Pupil Labs Gmbh Devices, systems and methods for predicting gaze-related parameters using a neural network
EP3750028B1 (en) 2018-02-09 2022-10-19 Pupil Labs GmbH Devices, systems and methods for predicting gaze-related parameters
US11393251B2 (en) 2018-02-09 2022-07-19 Pupil Labs Gmbh Devices, systems and methods for predicting gaze-related parameters
US10748021B2 (en) * 2018-05-11 2020-08-18 Samsung Electronics Co., Ltd. Method of analyzing objects in images recorded by a camera of a head mounted device
CN110547759A (zh) * 2018-05-31 2019-12-10 托比股份公司 鲁棒会聚信号
US10885882B2 (en) * 2018-12-06 2021-01-05 Tobii Ab Reducing aliasing artifacts in foveated rendering using cross-resolution modulation
CN109782902A (zh) * 2018-12-17 2019-05-21 中国科学院深圳先进技术研究院 一种操作提示方法及眼镜
EP3912013A1 (en) 2019-01-16 2021-11-24 Pupil Labs GmbH Methods for generating calibration data for head-wearable devices and eye tracking system
SE543332C2 (en) * 2019-02-19 2020-12-01 Tobii Ab Method, computer program and head mountable arrangement for assisting a subject to acquire spatial information about an environment
EP3979896A1 (en) 2019-06-05 2022-04-13 Pupil Labs GmbH Devices, systems and methods for predicting gaze-related parameters
CN113467605B (zh) 2020-03-31 2024-04-02 托比股份公司 用于对可视化数据进行预处理的方法、计算机程序产品和处理电路系统
US11503998B1 (en) 2021-05-05 2022-11-22 Innodem Neurosciences Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases
US11630510B2 (en) 2021-06-23 2023-04-18 Huawei Technologies Co., Ltd. System, method and storage medium for 2D on-screen user gaze estimation
CN114092674B (zh) * 2022-01-24 2022-04-22 北京派瑞威行互联技术有限公司 多媒体数据分析方法和系统

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2378338A (en) * 2001-07-31 2003-02-05 Hewlett Packard Co Automatic identification of features of interest within a video signal
GB0229625D0 (en) * 2002-12-19 2003-01-22 British Telecomm Searching images
CN101344919B (zh) * 2008-08-05 2012-08-22 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101441513B (zh) * 2008-11-26 2010-08-11 北京科技大学 一种利用视觉进行非接触式人机交互的系统
WO2010118292A1 (en) * 2009-04-09 2010-10-14 Dynavox Systems, Llc Calibration free, motion tolerant eye-gaze direction detector with contextually aware computer interaction and communication methods
EP2549914B1 (en) * 2010-03-22 2019-06-05 Koninklijke Philips N.V. System and method for tracking the point of gaze of an observer
CA2815461C (en) * 2010-10-21 2019-04-30 Lockheed Martin Corporation Head-mounted display apparatus employing one or more fresnel lenses
EP2499963A1 (en) * 2011-03-18 2012-09-19 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Method and apparatus for gaze point mapping
US8643680B2 (en) * 2011-04-08 2014-02-04 Amazon Technologies, Inc. Gaze-based content display
US20120257035A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Systems and methods for providing feedback by tracking user gaze and gestures
US8510166B2 (en) * 2011-05-11 2013-08-13 Google Inc. Gaze tracking system
US8558759B1 (en) 2011-07-08 2013-10-15 Google Inc. Hand gestures to signify what is important
US9342610B2 (en) 2011-08-25 2016-05-17 Microsoft Technology Licensing, Llc Portals: registered objects as virtualized, personalized displays
US9606992B2 (en) 2011-09-30 2017-03-28 Microsoft Technology Licensing, Llc Personal audio/visual apparatus providing resource management
US20130083003A1 (en) * 2011-09-30 2013-04-04 Kathryn Stone Perez Personal audio/visual system
US9135508B2 (en) * 2011-12-20 2015-09-15 Microsoft Technology Licensing, Llc. Enhanced user eye gaze estimation
US10109056B2 (en) * 2012-04-02 2018-10-23 Thomson Licensing Method for calibration free gaze tracking using low cost camera
WO2014015521A1 (en) * 2012-07-27 2014-01-30 Nokia Corporation Multimodal interaction with near-to-eye display
EP2709060B1 (en) * 2012-09-17 2020-02-26 Apple Inc. Method and an apparatus for determining a gaze point on a three-dimensional object
US9019174B2 (en) * 2012-10-31 2015-04-28 Microsoft Technology Licensing, Llc Wearable emotion detection and feedback system
US20140191927A1 (en) * 2013-01-09 2014-07-10 Lg Electronics Inc. Head mount display device providing eye gaze calibration and control method thereof
US10359841B2 (en) * 2013-01-13 2019-07-23 Qualcomm Incorporated Apparatus and method for controlling an augmented reality device
EP2790126B1 (en) * 2013-04-08 2016-06-01 Cogisen SRL Method for gaze tracking
US9965062B2 (en) * 2013-06-06 2018-05-08 Microsoft Technology Licensing, Llc Visual enhancements based on eye tracking
US9189095B2 (en) * 2013-06-06 2015-11-17 Microsoft Technology Licensing, Llc Calibrating eye tracking system by touch input
US10387729B2 (en) 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content
US10152495B2 (en) 2013-08-19 2018-12-11 Qualcomm Incorporated Visual search in real world using optical see-through head mounted display with augmented reality and user interaction tracking
CN105960193A (zh) 2013-09-03 2016-09-21 托比股份公司 便携式眼睛追踪设备
US10165176B2 (en) * 2013-10-31 2018-12-25 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems
CN104199544B (zh) * 2014-08-28 2018-06-22 华南理工大学 基于视线跟踪的广告定向投放方法
US9547365B2 (en) * 2014-09-15 2017-01-17 Google Inc. Managing information display
KR20170011362A (ko) 2015-07-22 2017-02-02 삼성전자주식회사 영상 처리 장치 및 그 방법
US9870051B2 (en) 2015-08-07 2018-01-16 Tobii Ab Gaze direction mapping
US9829976B2 (en) 2015-08-07 2017-11-28 Tobii Ab Gaze direction mapping

Also Published As

Publication number Publication date
CN112666714B (zh) 2023-03-24
US10114459B2 (en) 2018-10-30
US20190011986A1 (en) 2019-01-10
EP3332285A1 (en) 2018-06-13
US9829976B2 (en) 2017-11-28
CN108351522B (zh) 2021-02-05
EP3332285B1 (en) 2023-02-15
US20170038835A1 (en) 2017-02-09
US10228763B2 (en) 2019-03-12
WO2017027352A1 (en) 2017-02-16
CN108351522A (zh) 2018-07-31
US20180088668A1 (en) 2018-03-29
CN112666714A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
ES2940634T3 (es) Mapeo de la dirección de la mirada
US10078377B2 (en) Six DOF mixed reality input by fusing inertial handheld controller with hand tracking
US10331209B2 (en) Gaze direction mapping
KR102493749B1 (ko) 동적 환경에서의 좌표 프레임의 결정
US10852847B2 (en) Controller tracking for multiple degrees of freedom
US9779512B2 (en) Automatic generation of virtual materials from real-world materials
US10636185B2 (en) Information processing apparatus and information processing method for guiding a user to a vicinity of a viewpoint
US20180053352A1 (en) Occluding augmented reality content or thermal imagery for simultaneous display
CN114185427A (zh) 用于并发测距和建图的系统和方法
US20180053055A1 (en) Integrating augmented reality content and thermal imagery
EP3695381B1 (en) Floor detection in virtual and augmented reality devices using stereo images
WO2016027627A1 (ja) 角膜反射位置推定システム、角膜反射位置推定方法、角膜反射位置推定プログラム、瞳孔検出システム、瞳孔検出方法、瞳孔検出プログラム、視線検出システム、視線検出方法、視線検出プログラム、顔姿勢検出システム、顔姿勢検出方法、および顔姿勢検出プログラム
US11915453B2 (en) Collaborative augmented reality eyewear with ego motion alignment
US10475415B1 (en) Strobe tracking of head-mounted displays (HMDs) in virtual, augmented, and mixed reality (xR) applications
US10719944B2 (en) Dynamic object tracking
JP2004265222A (ja) インタフェース方法、装置、およびプログラム
US20210302587A1 (en) Power-efficient hand tracking with time-of-flight sensor
US11269405B2 (en) Gaze direction mapping
US11651502B2 (en) Systems and methods for updating continuous image alignment of separate cameras
US11450014B2 (en) Systems and methods for continuous image alignment of separate cameras
KR20220148922A (ko) 지리 공간 이미지 표면화 및 선택
JP6670682B2 (ja) 位置検出方法及び位置検出システム
US20230274384A1 (en) Image alignment using corner and line features