ES2334079B1 - Expositor virtual. - Google Patents

Expositor virtual. Download PDF

Info

Publication number
ES2334079B1
ES2334079B1 ES200700749A ES200700749A ES2334079B1 ES 2334079 B1 ES2334079 B1 ES 2334079B1 ES 200700749 A ES200700749 A ES 200700749A ES 200700749 A ES200700749 A ES 200700749A ES 2334079 B1 ES2334079 B1 ES 2334079B1
Authority
ES
Spain
Prior art keywords
image
user
virtual
computer
exhibitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES200700749A
Other languages
English (en)
Other versions
ES2334079A1 (es
Inventor
Maria Dolores Afonso Suarez
Cayetano Guerra Artal
Modesto Castrillon Santana
Mario Hernandez Tejera
Jose Javier Lorenzo Navarro
Oscar Deniz Suarez
Antonio Falcon Martel
Juan Mendez Rodriguez
Jorge Cabrera Gamez
Daniel Hernandez Sosa
Josep Isern Gonzalez
Antonio Carlos Dominguez Brito
Luis Anton Canalis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad de las Palmas de Gran Canaria
Original Assignee
Universidad de las Palmas de Gran Canaria
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad de las Palmas de Gran Canaria filed Critical Universidad de las Palmas de Gran Canaria
Priority to ES200700749A priority Critical patent/ES2334079B1/es
Publication of ES2334079A1 publication Critical patent/ES2334079A1/es
Application granted granted Critical
Publication of ES2334079B1 publication Critical patent/ES2334079B1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06K9/00221
    • G06K9/00228
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

Expositor virtual.
La presente invención hace referencia a un expositor virtual que permite la interacción hombre-máquina con el objetivo de que el usuario obtenga en tiempo real una imagen de sí mismo a la cuál se le pueda añadir de forma virtual complementos de carácter estético.
El expositor virtual está constituido por un soporte multimedia y multimodal que consta de una cámara de vídeo digital de alta resolución, una computadora, un software de reconocimiento y tratamiento de imágenes y una pantalla táctil que permiten la realización de las tareas de detección y localización, en coordenadas de la imagen, de las características faciales del usuario, elección de artículos de la librería de imágenes y modificación del menú de interacción hombre-máquina. Por lo tanto, el principal problema que resuelve este dispositivo es el tiempo que se pierde a la hora de probarse distintos complementos hasta encontrar el adecuado.
La principal aplicación industrial de esta invención es la de promoción y venta de distintos complementos tanto para el hombre como para la mujer, en áreas comerciales y de pública concurrencia.

Description

Expositor virtual.
Sector de la técnica
La invención se encuadra en el sector técnico de las tecnologías de la información y las telecomunicaciones, más concretamente en el área de la interacción hombre-máquina.
Estado de la técnica
El análisis de imágenes por medio de ordenadores es una ciencia que crece rápidamente. Se encuentra en pleno desarrollo, ya no ofrece solamente soluciones al área de la robótica o del control de calidad, continuamente surgen nuevas aplicaciones como por ejemplo el reconocimiento automático de facciones o del iris.
La detección de caras es un preproceso necesario para cualquier sistema de reconocimiento facial o de análisis de la expresión facial. Sin embargo, ha sido un problema poco tratado, o considerado menor dentro de los sistemas categóricos: reconocimiento y análisis de expresiones. Tal es así que distintos sistemas de reconocimiento asumen que la cara ha sido ya detectada antes de realizar la comparación con los modelos conocidos.
Recientemente el marco de detección descrito en [ViolaOl-cvpr] y ya integrado en la biblioteca OpenCV, permite trabajar a partir de rutinas veloces y efectivas de detección. En este marco se dispone de un detector para la detección de rostros mostrados en vista frontal y boca.
Los sistemas de tiempo real son sistemas informáticos que se encuentran en multitud de aplicaciones, desde la electrónica de consumo hasta el control de procesos industriales complejos. Están presentes en prácticamente todos los aspectos de nuestra sociedad, como teléfonos móviles, automóviles, control del tráfico, procesos automáticos de fabricación, etc... Además cada vez se fabrica un mayor número de máquinas que incluyen sistemas controlados por computador.
El sistema planteado, sobre el que se reivindica la patente, es un sistema de tiempo real empotrado, es decir, el sistema informático se encuentra físicamente incluido en un sistema de ingeniería más complejo. Este sistema presenta una solución basada en la integración de distintos dispositivos entre los cuáles destaca el uso de elementos que forman parte de un sistema de visión por computador y que incluye un módulo de detección de características faciales, un módulo de seguimiento de ojos y un módulo gráfico para la adición de los elementos digitales que forman el cuerpo de esta tecnología. La tecnología planteada permite la interacción hombre-máquina con el objetivo que el usuario obtenga en tiempo real una imagen de sí mismo a la cuál puede añadirle de forma virtual complementos de carácter
estético.
Descripción detallada de ta invención
La presente invención implementada por ordenador hace referencia a un expositor virtual conformado por una serie de dispositivos y por un software que detecta y localiza, en coordenadas de la imagen, las características faciales del usuario mediante técnicas basadas en visión por computador y realiza una adición automática de elementos sintéticos a la imagen del usuario.
El expositor virtual está constituido por un soporte multimedia y multimodal en el cuál el usuario puede probarse virtualmente determinados artículos o complementos. Para ello la imagen es captada por una cámara de vídeo de alta resolución y procesada por un ordenador mediante un software de tratamiento de imágenes.
El software procesa la imagen captada por la cámara mediante la detección y localización, en coordenadas de la imagen, de las características faciales del usuario mediante técnicas basadas en visión por computador. Una vez detectadas, se realiza una adición de elementos sintéticos a la imagen del usuario, de tal manera que este obtenga la ilusión óptica de llevar algún determinado tipo de artículo puesto. La imagen, una vez procesada, es mostrada en el monitor para ser vista en tiempo real por el usuario y alcanzar el efecto de espejo.
Dentro de la gama de artículos, pertenecientes a la librería y a la base de datos, que pueden ser mostrados digitalmente junto con la imagen del usuario, podemos encontrar gafas, pendientes, collares, maquillaje, etc...
Modo de realización de la invención
La adquisición de las imágenes comienza con la digitalización de las caras a procesar mediante una cámara de vídeo digital de alta resolución (1), como se muestra en la figura 2. Estas imágenes son transferidas a la computadora (2) en el tamaño y frecuencias adecuadas.
Mediante un software instalado en la computadora se lleva a cabo el procesamiento de las imágenes. Este software realiza la detección de las diferentes características faciales necesarias para la detección precisa de los ojos.
La aproximación basada en visión por computador normalmente divide la detección de los ojos en dos tareas, en primer lugar se localiza una ventana con los ojos, es decir una pequeña área de la imagen donde probablemente se encuentran los ojos. Después de esto se aplican una o más técnicas de aproximación. Nuestra propuesta hace uso de un sistema de detección de la cara que proporciona en tiempo real múltiples detecciones a diferentes resoluciones. Una vez que la cara es detectada, se localizan los ojos. El detector de caras muestra dos etapas, la primera se centra en la búsqueda de la cara y la segunda, una vez que esta ha sido detectada, realiza su seguimiento.
Al comienzo de una sesión de interacción, cuando no hay individuos en el campo de visión, o no se ha detectado presencia en un intervalo de tiempo, la aproximación hace uso de dos detectores de cambio de ventanas que se basan en la detección del marco del objeto. Estos dos detectores, integrados en la versión OpenCV, son los detectores de la vista frontal de la cara y del contexto local basado en el detector de la cara. El último logra mejores ratios de reconocimiento para imágenes con bajas resoluciones, si la cabeza y los hombros están visibles. El tamaño mínimo buscado es de 24x24 y 20x20 pixels. Para no malgastar tiempo de proceso, los detectores se ejecutan
alternativamente.
Para cualquier cara que se haya detectado, el sistema intenta detectar los ojos asumiendo que es una vista frontal de la misma, y por tanto su localización verificaría alguna restricción de apariencia y geométrica. Las tareas que se realizan para localizarlos son:
\sqbullet
Detección de la piel. Una vez detectada la cara, se modela su color de piel utilizando espacio de color normalizado rojo-verde, considerando justo el centro de la cara que haya sido proporcionado por cualquiera de los detectores basados en los de Viola-Jones. El sistema, de forma heurística, elimina los elementos que no son parte de la cara, por ejemplo el cuello, y le hace corresponder una elipse, para posteriormente poder rotar verticalmente su posición.
\sqbullet
Localización de los ojos. En este punto la aproximación busca candidatos a ojos en las áreas en las que hay más probabilidad de encontrarlos dentro de la zona de la cara, considerando que la misma presenta una vista frontal. Se testean varios pares de candidatos de acuerdo a su apariencia y se elige uno de ellos. Las tareas utilizadas para esto son:
a)
Áreas negras: Los ojos son más negros que el resto de piel que se encuentra a su alrededor.
b)
Detectores de ojos basados en los detectores de Viola-Jones: Como la posición de los ojos puede ser más o menos estimada y por tanto limitada, un detector de ojos basado en el de Viola-Jones ofrece resultados rápidos. El detector busca ojos con un tamaño mínimo de 16x12 pixels. Para caras pequeñas, se realiza un aumento a escala antes de realizar la búsqueda.
c)
Detectores de pares de ojos basados en los detectores de Viola-Jones: Si alguna de las anteriores falla, el par de ojos detectados puede dar otra aproximación para la posición de los mismos, y así luego aplicar los pasos a) y b) de nuevo. El tamaño mínimo del patrón buscado es 22x5 pixels.
Cada cara detectada muestra distintas características Xi=<pos, size, color, eyespos, eyespattern, facepattern>. Las normas se aplican de acuerdo a estas características y en un orden que tiene en cuenta el coste de cómputo y la fiabilidad. Las normas consideradas son:
\sqbullet
Seguimiento de ojos: Un algoritmo de seguimiento de ojos rápido se aplica en el área previamente detectada que los rodea.
\sqbullet
Detector de cara: Se aplica un detector de cara de Viola-Jones en un área que cubre la detección anterior.
\sqbullet
Detector del contexto local de la cara: Si las técnicas anteriores fallan, el detector de contexto local se aplica en un área que incluye la detección previa.
\sqbullet
Color de la piel: Se busca el color de la piel en la ventana de búsqueda que contiene la detección previa, y se testean los nuevos tamaños y posiciones.
\sqbullet
Seguimiento de la cara: Si cualquiera de las anteriores falla, el patrón de cara previamente almacenado se busca en un área que cubre la detección previa.
Estas técnicas se aplican siguiendo este orden hasta que una de ellas encuentra la cara que se buscaba. Cuando se detecta la cara, el color de la piel se utiliza para la detección de los ojos, de forma similar al procedimiento ya descrito.
Una vez localizados los ojos se lleva a cabo el seguimiento de estos para mantener sus coordenadas en la imagen continuamente ubicadas, según se muestra en la figura 3.
Por último se realiza una superposición de la imagen digital de un artículo sobre la imagen de su cara, como muestra la figura 1, para lograr la sensación visual de llevarlo puesto.
Mediante un monitor se muestra, al usuario, la imagen ya procesada que será reflejada 90 grados una vez incida sobre el cristal espejo para su correcta visualización.
El cristal espejo es un elemento, perteneciente al expositor virtual, que permite lograr el efecto de espejo desde la perspectiva del usuario. Según se muestra en la figura 2 la parte identificada como (4a) se corresponde con la parte del cristal, y la parte designada como (4b) se corresponde con la parte del espejo.
Desde su posición, tal y como se muestra en la figura 2, el usuario podrá visualizar su imagen reflejada con el artículo seleccionado superpuesto de forma virtual. Además a través de una pantalla táctil el usuario podrá seleccionar los diferentes modelos de artículos que pertenecen a la librería.
Se hace uso de una librería de mezcla multimedia (MML), de desarrollo propio, implementada en DirectShow. DirectShow es una API (Application Programming Interface - Interfaz de programación de aplicaciones) estándar desarrollado por Microsoft para el almacenamiento, codificación y traducción de contenidos multimedia como vídeo y audio que se toman como origen. Se realiza mediante el uso de una estructura de filtros interconectados, que se clasifican en tres categorías: fuente u origen, transformación y filtros de traducción. La librería multimedia implementada está desarrollada con Microsoft DirectShow ampliándolo para ofrecer un solapamiento de diferentes capas y cambiar su orden de acuerdo a algún tipo de prioridad en tiempo de ejecución. Cada capa puede ser una imagen, vídeo previamente almacenado, vídeo capturado on-line desde una cámara, o modelos de animación en 3D. En la figura 4 se muestra un gráfico con los filtros del DirectShow.
La arquitectura del software está diseñada como un gráfico más de los filtros del DirectShow, donde el filtro del vídeo fuente corresponde a la imagen de entrada del usuario. La detección de las características de la cara y las rutinas de seguimiento también se encuentran encapsuladas dentro del filtro que proporciona la posición de los ojos en coordenadas (x,y). Con esta localización el filtro MML fija o encaja el artículo seleccionado por el usuario, mediante la pantalla táctil, en el lugar correcto de la imagen.
Descripción de las figuras
En la figura 1 se ilustra cómo la imagen de uno de los artículos de la librería es superpuesto a la imagen real del usuario.
En la figura 2 se representa el esquema funcional de la invención constituido por un soporte multimedia y multimodal, con una cámara de vídeo digital de alta resolución, una computadora, un software de reconocimiento y tratamiento de imágenes, una pantalla táctil y un cristal espejo; que permiten la realización de las tareas de identificación de caracteres faciales, elección de artículos de la librería de imágenes, modificación del menú para interacción entre el usuario y la computadora y procesado de imágenes.
En la figura 3 se describe el procedimiento de seguimiento de los ojos para mantener sus coordenadas en la imagen continuamente ubicadas.
Para describir el procedimiento propuesto denotaremos p como un punto que corresponde a la representación visual de un objeto en \phi en un tiempo t, por ejemplo: p corresponde a la plantilla T en el espacio definido por R^{mxn} Se establece una distancia d en \phi. La distancia d entre dos puntos p_{1} y p_{2} se calcula de acuerdo a la norma L_{2}. Esta distancia se utilizará en la imagen de entrada y la plantilla para obtener la mejor correspondencia posible.
Después de aplicar la función distancia entre la imagen y el patrón deslizando la plantilla sobre la ventana de búsqueda, aparecerá un número variable de mínimos locales, entre ellos el que nos interesa.
En \phi el vector p corresponde al patrón de referencia, esto es, la vista del objeto que nos interesa. El vector m_{1} corresponderá al mínimo absoluto considerando que es el objeto visual que más se asemeja al objeto de interés. La existencia de más mínimos locales, m_{2} y m_{3}, implica que hay objetos que se asemejan en cierto grado al objeto de interés. Son los llamados objetos de contexto. Estos objetos, de la misma manera que el objeto de interés, también tienen su propia curva de transformación visual incluida en su copia en el espacio próximo. Aunque por simplicidad estos objetos de contexto permanecerán estáticos.
La curva de transformación visual del objeto que centra nuestro interés es el lugar geométrico de los puntos correspondientes a la diferencia mínima después del proceso de correspondencia en imágenes de entrada, en un tiempo determinado. Esta curva se compondrá de los vectores más cercanos m_{1}, m'_{1}, m''_{1}, ... al patrón de referencia p. Por tanto m_{1} corresponde al punto más cercano a p en el momento t=0, m'_{1} corresponde al punto más cercano a p en t=1, etc. Sin embargo si existiera al menos un objeto en el contexto, m_{2}, y el patrón de referencia p no se actualizara, esto podría ocurrir después de un determinado número de encuadres, el mínimo absoluto no se correspondería con el objeto real de interés sino con el objeto que más se asemeja del contexto, tal y como muestra la figura 3. De este modo el área de la ventana de búsqueda correspondiente al punto m_{2} se tomará como el objeto de interés, dando como resultado un error en el proceso de seguimiento, este es un error muy común de técnicas de actualización que no actualizan el patrón. El origen del problema está en la falta de actualización o actualización con un coeficiente inapropiado del patrón de referencia.
En la figura 4 se muestra un gráfico con los filtros del DirectShow.
Aplicación industrial
La principal aplicación industrial de esta invención es la de promoción y venta de distintos complementos tanto para el hombre como para la mujer, en áreas comerciales y de pública concurrencia.

Claims (3)

1. Expositor virtual para servicios en áreas comerciales y con fines de atracción al público en general. Constituido por un soporte multimedia y multimodal, con una cámara de vídeo digital de alta resolución, una computadora, un software de procesado de imágenes y gestión y una pantalla táctil, caracterizado porque muestra, en tiempo real, la imagen original del usuario a la que se le han añadido virtualmente y de forma realista artículos elegidos por él mismo desde el menú como: gafas, pendientes, collares, maquillajes, y cualquier clase de complemento estético sobre el busto del usuario.
2. Expositor virtual según reivindicación 1 en el cuál el software, de desarrollo propio, cargado y ejecutado en la computadora es el encargado del procesamiento de la imagen del usuario e integrarle a la misma el elemento seleccionado.
3. Expositor virtual según reivindicación 1 en el cuál la librería de mezcla multimedia, de desarrollo propio, permite la superposición de diferentes capas y cambia su orden de acuerdo a algún tipo de prioridad en tiempo de ejecución. Cada capa puede ser una imagen, vídeo previamente almacenado, vídeo capturado on-line desde una cámara o modelos de animación en 3D.
ES200700749A 2007-03-09 2007-03-09 Expositor virtual. Active ES2334079B1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES200700749A ES2334079B1 (es) 2007-03-09 2007-03-09 Expositor virtual.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES200700749A ES2334079B1 (es) 2007-03-09 2007-03-09 Expositor virtual.

Publications (2)

Publication Number Publication Date
ES2334079A1 ES2334079A1 (es) 2010-03-04
ES2334079B1 true ES2334079B1 (es) 2010-10-13

Family

ID=41683653

Family Applications (1)

Application Number Title Priority Date Filing Date
ES200700749A Active ES2334079B1 (es) 2007-03-09 2007-03-09 Expositor virtual.

Country Status (1)

Country Link
ES (1) ES2334079B1 (es)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697502B2 (en) * 2000-12-14 2004-02-24 Eastman Kodak Company Image processing method for detecting human figures in a digital image
US20030174869A1 (en) * 2002-03-12 2003-09-18 Suarez Anthony P. Image processing apparatus, image processing method, program and recording medium
JP4277534B2 (ja) * 2003-02-12 2009-06-10 オムロン株式会社 画像編集装置および画像編集方法
JP4124084B2 (ja) * 2003-10-02 2008-07-23 セイコーエプソン株式会社 画像処理装置、画像処理方法、および、画像処理プログラム

Also Published As

Publication number Publication date
ES2334079A1 (es) 2010-03-04

Similar Documents

Publication Publication Date Title
CN111833458B (zh) 图像显示方法及装置、设备、计算机可读存储介质
Miksik et al. The semantic paintbrush: Interactive 3d mapping and recognition in large outdoor spaces
US20160225164A1 (en) Automatic generation of virtual materials from real-world materials
US20150378433A1 (en) Detecting a primary user of a device
CN112148118A (zh) 生成物理环境中的人的姿势信息
CN109559371A (zh) 一种用于三维重建的方法和装置
CN106575450A (zh) 通过反照率模型、系统和方法的增强现实内容渲染
KR20150126938A (ko) 증강 및 가상 현실을 위한 시스템 및 방법
CN110709897A (zh) 用于插入到图像中的图像内容的阴影生成
KR102209745B1 (ko) 광고 및 쇼핑 등 정보를 표시하기 위하여 사용자의 투영 영상 인식을 통한 미러 디스플레이의 정보 표시 장치 및 방법
US20200257121A1 (en) Information processing method, information processing terminal, and computer-readable non-transitory storage medium storing program
CN110473293A (zh) 虚拟对象处理方法及装置、存储介质和电子设备
CN108629248A (zh) 一种实现增强现实的方法及设备
CN110717391A (zh) 一种基于视频图像的身高测量方法、系统、装置和介质
CN114332374A (zh) 一种虚拟显示方法、设备以及存储介质
CN105989573A (zh) 一种基于360度数字全景技术提供展馆导览信息的方法及系统
WO2020101892A1 (en) Patch tracking image sensor
CN111627117A (zh) 画像展示特效的调整方法、装置、电子设备及存储介质
US10542916B2 (en) Method and apparatus for tracking hand and/or wrist rotation of a user performing exercise
JP2009104426A (ja) インタラクティブ看板システム
CN111862340A (zh) 增强现实数据呈现方法、装置、显示设备和存储介质
Orhei et al. A novel edge detection operator for identifying buildings in augmented reality applications
CN114529640B (zh) 一种运动画面生成方法、装置、计算机设备和存储介质
ES2334079B1 (es) Expositor virtual.
Li et al. A tutorial explaining a machine vision model that emulates human performance when it recovers natural 3D scenes from 2D images

Legal Events

Date Code Title Description
EC2A Search report published

Date of ref document: 20100304

Kind code of ref document: A1

FG2A Definitive protection

Ref document number: 2334079B1

Country of ref document: ES