ES2228251B1 - Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion. - Google Patents
Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion.Info
- Publication number
- ES2228251B1 ES2228251B1 ES200301070A ES200301070A ES2228251B1 ES 2228251 B1 ES2228251 B1 ES 2228251B1 ES 200301070 A ES200301070 A ES 200301070A ES 200301070 A ES200301070 A ES 200301070A ES 2228251 B1 ES2228251 B1 ES 2228251B1
- Authority
- ES
- Spain
- Prior art keywords
- dimensional
- image
- user
- vector
- interface device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Position Input By Displaying (AREA)
Abstract
Comprende dos captadores de imágenes, (2) y (2''), que forman un sistema de visión estereoscópico, situados sobre un mismo plano perpendicular al suelo (6), con sus ejes centrales, (3) y (3''), cortándose con un ángulo distinto de cero sobre un punto O origen del sistema de referencia del conjunto. Los captadores de imagen, (2) y (2''), están conectados a un ordenador (5), y este tiene una salida de vídeo (7) hacia una pantalla (8), en la que se muestra el punto de intersección (12) de la prolongación de un vector director tridimensional en coordenadas mundo (11) que representa la dirección en que apunta un elemento señalador (10) portado por un usuario (1). El método de operación del dispositivo descrito comprende las etapas de; a) Digitalización (101) (101'') de las imágenes. b) Segmentación (102) (102'') del elemento señalador (10). c) Determinación de puntos representativos (103) (103'') del elemento señalador (10). d) Triangulación (104) para obtener un vector director tridimensional. e) Transformación (105) de este vector a coordenadas mundo.
Description
Dispositivo de interfaz natural no invasiva para
la interacción con un sistema informático y método de
operación.
La presente invención tiene por objeto un
dispositivo que permite relacionar a un usuario con un sistema
informático, posibilitando a aquel para señalar y posicionar
objetos remotos, pudiendo ser éstos objetos físicos o virtuales.
Este dispositivo interfaz resulta especialmente útil en situaciones
con un elevado flujo de usuarios, en situaciones en que un usuario
no puede quedar ligado al sistema informático ni perder tiempo en
una preparación previa, y en situaciones en que los usuarios no
pueden pasar por un entrenamiento inicial de la interacción ni por
una fase larga de adaptación. Existen diversas técnicas de
implementación de estos sistemas y la presente invención presenta
una nueva técnica que, respecto a las situaciones descritas, aporta
soluciones a los inconvenientes de las técnicas precedentes,
manteniendo las ventajas de las anteriores.
Dentro del ámbito de la informática conocido por
"Interacción Persona Ordenador" y en concreto dentro del
"Diseño de Interfaces" para la interacción persona ordenador
se persigue siempre el diseño de interfaces que aporten las
siguientes características principales:
- \bullet
- Que sean de uso "natural" para los usuarios; es decir, que su aprendizaje sea corto y su uso claro (lo que a veces se describe como interfaces "intuitivas").
- \bullet
- Que sean "no invasivas"; es decir, que no supongan una molestia para el usuario por tener que llevar encima cables, marcadores, dispositivos, etc., que puedan suponer un apéndice incómodo y restrictivo (lo que a menudo se describe como interfaces "transparentes").
- \bullet
- Que sean "robustas"; es decir, que soporten uso intensivo e incluso mal uso y que su mantenimiento sea mínimo.
En la historia de la Interacción Persona
Ordenador, el diseño de interfaces para poder señalar objetos en la
pantalla del ordenador ha sido de gran importancia. El hecho de
poder apuntar a un objeto gráfico en pantalla, mediante por ejemplo
un dispositivo tipo ratón, ha sido el desencadenante que ha
permitido el desarrollo de las interfaces gráficas de usuario
modernas. El dar la posibilidad de control sobre un cursor o el
poder conocer dónde el usuario está señalando, es pues un tema de
gran importancia en el diseño de aplicaciones informáticas.
Analizando una primera técnica utilizada con la
finalidad de dar al usuario la posibilidad de señalar y posicionar
objetos en un sistema controlado por ordenador, encontramos el
campo de las interfaces de control de cursores. Existe una
diversidad considerable de interfaces de este tipo. La interfaz de
control de cursor más difundida es el "ratón", pero existen
muchos otros tipos de interfaces físicas como son la "palanca de
juego", la "bola de seguimiento", la "alfombrilla de
tacto", la "tableta digitalizadora", etc. Un ejemplo
concreto de dispositivo de control de cursores es el del documento
EP 819 282. Esta interfaz es una evolución de la palanca de juego,
dando seis grados de libertad; tres de desplazamiento en cada uno
de los ejes del espacio tridimensional y tres de rotación también
respecto a cada uno de los tres ejes coordenados. Evidentemente no
es necesario utilizar siempre los seis grados de libertad; esto
dependerá de la aplicación informática concreta. La forma en que
esta interfaz permite al usuario señalar y posicionar objetos, en
el sistema informático de control, se basa en que una pequeña
palanca de juego, que el usuario toma entre sus dedos pulgar e
índice, puede ser desplazada en tres direcciones según los tres
ejes tridimensionales asociados al sistema de referencia local del
dispositivo. La palanca también puede rotarse en tres sentidos. La
versatilidad de este dispositivo permite a un usuario posicionar un
cursor tanto en el plano de la pantalla, como en el espacio
tridimensional proyectado sobre el plano de la pantalla. Sin
embargo, esta versatilidad le confiere una dificultad de
aprendizaje considerable que hace que un usuario novel deba pasar
por una fase de adaptación y aprendizaje considerable. Además,
aunque su diseño es muy compacto y puede situarse en zonas de
dimensiones muy reducidas, como por ejemplo delante de un teclado
de un ordenador portátil, resulta una interfaz poco robusta en un
uso intensivo siendo propensa a desgaste y débil frente a golpes y
malos tratos. Estos inconvenientes son comunes a todos los
dispositivos de control de cursores por el hecho de estar basados en
dispositivos físicos que el usuario manipula.
Así pues, de forma genérica, estos dispositivos
presentan los siguientes inconvenientes:
- \bullet
- El usuario debe manipular algún tipo de elemento físico el cual está sujeto a desgaste y maltrato debido a la posibilidad de sufrir golpes, tirones, caídas, etc.
- \bullet
- La mayoría de estos elementos físicos están ligados al ordenador por un cable con lo cual el usuario ve restringida y dificultada su usabilidad.
- \bullet
- Los que son inalámbricos requieren baterías para su funcionamiento haciendo su uso más caro y/o incómodo por el cambio o recarga de estas baterías.
\newpage
- \bullet
- La relación del movimiento del dispositivo físico con respecto al movimiento del cursor resulta poco natural y por lo tanto requieren de una fase importante de aprendizaje y adaptación por parte del usuario.
- \bullet
- Estos elementos físicos no siempre están correctamente adaptados desde un punto de vista ergonómico, provocando problemas físicos en los usuarios.
Por lo tanto no resultan adecuados para las
aplicaciones de interés de la presente invención anteriormente
indicadas.
Una segunda técnica para dar al usuario la
posibilidad de señalar y posicionar objetos remotos, es mediante la
captura de la posición de ciertos puntos de referencia del cuerpo
del usuario, a través de una o múltiples cámaras de vídeo. En los
sistemas que realizan una captura fiable en tiempo real, se
utilizan o bien marcadores auto iluminados, como en el documento US
6,437,820, o bien marcadores reflectantes como en el documento US
5,459,793. Por marcador auto iluminado se entiende un objeto, por lo
general semiesférico, con algún sistema de emisión de luz en su
interior y que emite luz en todas direcciones por igual de manera
uniforme. Por marcador reflectante se entiende un objeto, por lo
general semiesférico, cubierto de un material que refleja luz (de
uno o diversos colores) que incide sobre él, de manera uniforme en
todas direcciones por igual y con un alto grado de reflectividad.
En estos dispositivos el usuario debe llevar un marcador
(reflectante o auto iluminado) en cada punto de su cuerpo del que
se desea hacer un seguimiento. El usuario debe moverse dentro de
una zona definida por las cámaras de vídeo de modo que éstas capten
los marcadores y mediante unos cálculos de triangulación puedan
resolver su posición en el espacio físico tridimensional en el que
se encuentra el usuario. Estos sistemas, siendo adecuados para la
captura de movimiento del cuerpo entero del usuario, permiten una
gran diversidad de movimientos de todo el cuerpo más allá de la
necesaria para un señalamiento y posicionamiento de un cursor u
objeto. No obstante, son un referente para la presente invención
debido a que utilizan sistemas de captación de imagen y mediante el
cálculo de la posición de una mano y su codo (u hombro) asociado,
se podría deducir un método sencillo para señalar y posicionar
objetos remotos.
Ahora bien, estos dispositivos presentan los
siguientes inconvenientes:
- \bullet
- Requieren de una compleja preparación durante la cual el usuario debe colocarse los marcadores y debe someterse al calibrado del sistema.
- \bullet
- Los marcadores suponen una incomodidad para el usuario y le limitan parcialmente el movimiento.
- \bullet
- Los marcadores son propensos a recibir golpes que provoquen su caída y/o desplazamiento con el consiguiente desajuste del sistema y requiriendo un recalibrado.
- \bullet
- Es frecuente que el sistema se vea afectado por la ocultación temporal de uno o varios marcadores de forma que esos puntos del cuerpo quedan indefinidos.
Por lo tanto, estos sistemas tampoco resultan
adecuados en las aplicaciones de interés de la presente
invención.
Una tercera técnica sería la de los dispositivos
basados en un conjunto emisor-captador. Un buen
ejemplo de estos dispositivos es el descrito en el documento US
5,453,686. En este sistema se sitúa un conjunto captador en cada
posición del cuerpo del usuario de la que se desea detectar la
orientación y/o posición. Este conjunto captador es una tríada de
bobinas que se encarga de captar las señales emitidas por el
conjunto emisor que es un generador de campo electromagnético. El
conjunto captador se encarga de transmitir estas señales captadas,
ya sea por cables o por radiofrecuencia, a un módulo de cálculo el
cual contrasta aquella señal emitida por el conjunto emisor con
respecto a la captada por el conjunto captador y a partir de estas
diferencias extraer posición y/u orientación del conjunto captador
y, en consecuencia, de la parte del cuerpo del usuario sobre la
cual se ha instalado. De forma similar a la técnica anterior, estos
sistemas permiten una gran diversidad de movimientos de todo el
cuerpo del usuario, mucho más completa de lo que se plantea en la
presente invención, pero se relacionan con la presente invención
por el hecho de que situando un único conjunto captador en la mano
del usuario se puede obtener de forma inmediata la dirección en que
señala su brazo.
No obstante, los principales inconvenientes de
estos sistemas son parecidos a los anteriores siendo los
siguientes:
- \bullet
- Requieren un gran tiempo de preparación en la compleja colocación de los captadores.
- \bullet
- Los captadores requieren cableados incómodos que les une al ordenador de cálculo, limitando los movimientos del usuario. Incluso en los sistemas considerados inalámbricos, los captadores deben cablearse hasta un modulo central que debe llevar encima el usuario (habitualmente en la cintura) y es este módulo el que se puede considerar inalámbrico al comunicarse con el ordenador de cálculo por radiofrecuencia. Así pues, aún en este caso, el usuario debe llevar cables desde los captadores hasta el módulo central.
- \bullet
- Los captadores suponen una incomodidad para el usuario, resultando poco robustos al desgaste físico o al maltrato debido a la posibilidad de sufrir golpes, tirones de cables, caídas, etc.
Finalmente, existe una cuarta técnica de
dispositivos que constituyen la técnica anterior más próxima de la
presente invención. Estos son los que se basan en la captura de la
silueta del cuerpo del usuario, respecto a un plano de referencia,
mediante una única cámara de vídeo. Un referente clásico de estos
sistemas es el descrito en el documento US 4,843,568. La captura por
cámara de vídeo de la imagen del usuario se realiza de forma que el
eje de la cámara sea perpendicular al plano de referencia; es
decir, al plano en que se capta la silueta del usuario. El cuerpo
del usuario, o parte de él, es segmentado del fondo y a partir de
esta imagen del cuerpo aislado se derivan todos los cálculos.
Generalmente el usuario tiene delante una pantalla en la que ve el
entorno gráfico con el que interactúa. Dentro de este entorno
generado por el ordenador se inserta su silueta para poder
interactuar con los objetos. Esta interacción es una interacción en
tercera persona, en contraposición a las otras técnicas
anteriores y a la de la presente invención, en las que la
interacción se realiza en primera persona. Lo que esto
significa es que la interacción en primera persona da al usuario
una relación directa con los objetos controlados por el ordenador,
pudiendo señalarlos y manipularlos sin necesidad de ningún
intermediario. Es decir, cuando el usuario señala un objeto, desde
su punto de vista está señalando en la dirección del objeto. En
cambio en la interacción en tercera persona, el usuario interactúa
con los objetos a través de la representación de su silueta de
forma que desde su punto de vista, si quiere señalar a un objeto en
la pantalla que se encuentra a la derecha de su silueta, el usuario
no podrá señalar hacia el objeto, sino que deberá señalar hacia su
derecha de forma que sea la silueta la que "señale" al
objeto.
Estos sistemas se caracterizan por la importante
propiedad de ser no invasivos, no requiriendo ningún tipo de
marcador o dispositivo sobre el cuerpo del usuario, pero presentan
los siguientes inconvenientes claros:
- \bullet
- La forma en que un usuario puede señalar a objetos del entorno gráfico es a partir de una visión en tercera persona, con lo cual requiere de un cierto aprendizaje del control de su silueta. Es decir, el usuario interactúa con los objetos virtuales de forma indirecta a través de su silueta y en consecuencia, no resultan interfaces naturales.
- \bullet
- Estos sistemas requieren fondos constantes para poder segmentar fácilmente la figura del usuario. De hecho en gran parte de ellos, el fondo se requiere que sea tipo croma azul o verde o una cortina negra.
- \bullet
- Estas interfaces tan sólo detectan información bidimensional.
- \bullet
- Existen problemas de ocultación cuando se está haciendo el seguimiento de un punto del cuerpo que pasa por delante/detrás de alguna otra parte del cuerpo.
Ninguna de las cuatro técnicas descritas resulta
adecuada en aplicaciones en las que el flujo de usuarios sea muy
elevado, ni tampoco en aplicaciones en las que el usuario requiera
poder empezar a interactuar sin necesidad de una fase previa de
preparación, ni calibrado, ni adaptación, ni aprendizaje.
Así pues, es un objetivo de la presente invención
la creación de una interfaz de interacción entre un usuario y un
sistema informático a través de la dirección en que señala el
usuario, de forma que;
- \bullet
- dé una interacción natural al usuario:
- \circ
- tanto por tiempo mínimo de aprendizaje,
- \circ
- como por relación de movimiento,
- \circ
- como por ergonomía.
- \bullet
- no requiera de cables ni sea invasiva para el usuario.
- \bullet
- no requiera marcadores (ni auto iluminados, ni reflectantes), ni otros receptores sobre el usuario.
- \bullet
- no requiera de ningún dispositivo físico que pudiera sufrir desgaste ni malos tratos.
- \bullet
- no existan problemas de ocultación ni de ambigüedad en la detección.
- \bullet
- permita señalar en primera persona.
- \bullet
- tenga un sistema de referencia propio que la relacione con las coordenadas de mundo de los objetos.
La creciente demanda de sistemas interactivos
para aplicaciones de uso masivo, por ejemplo en parques temáticos o
museos, ha abierto líneas de investigación sobre aplicaciones
interactivas con grandes flujos de usuarios. Por otro lado, la
evolución de los sistemas de captación de imágenes ha permitido una
significativa reducción de tamaño y coste de éstos. Esto, aunado al
avance en el conocimiento del diseño de interfaces, ha permitido la
integración de diversos dispositivos en una configuración novedosa
que aporta las ventajas arriba descritas y que no se encuentra en
el Estado de la Técnica.
El método de operación del dispositivo de
interfaz objeto de la invención está basado en el cálculo del
vector director tridimensional (es decir, en el espacio
3-D) que define la dirección en que señala el
elemento señalador del usuario. Esto se realiza a partir de la
captación del movimiento de dicho elemento señalador mediante dos
dispositivos de captación de imagen que forman un par
estereoscópico. A partir de las imágenes captadas por cada uno de
los captadores de imagen se extraen los elementos necesarios para
la correcta triangulación del vector director tridimensional. En el
contexto de este documento llamaremos elemento señalador al
brazo u otro objeto (varilla, bastón, muleta, etc.) con el que el
usuario señala hacia los objetos controlados por el ordenador.
La configuración básica exige que los dos
captadores de imágenes del par estereoscópico deberán estar
situados sobre un mismo plano, de forma que sus ejes centrales se
crucen en un punto formando un ángulo distinto de cero. Este plano
formado por los captadores de imágenes es el plano epipolar del
sistema que contiene a los ejes centrales de los captadores de
imagen. Con respecto a este plano, el elemento señalador,
controlado por el usuario, cruzará siempre este plano de forma que
el elemento señalador nunca sea paralelo al mismo. Así pues, el
usuario extiende el elemento señalador en dirección a los objetos
(bien físicos, bien virtuales) con los que desea interactuar y el
elemento señalador deberá entrar en la zona de captación del par
estereoscópico de captadores de imágenes al cruzar el plano
epipolar que contiene los ejes centrales de cada uno de los
captadores de imágenes.
Cada captador obtendrá una imagen con una vista
del elemento señalador, el cual deberá ser segmentado del fondo. La
captación del elemento señalador no requiere de ningún tipo de
marcador auto iluminado ni reflectante, ni ningún dispositivo
receptor, con lo que la interfaz resulta absolutamente inalámbrica,
no invasiva y robusta. Esta segmentación resulta muy sencilla
debido a que el elemento señalador nunca puede estar oculto por
ningún otro objeto, y el elemento señalador tiene unas
características formales y funcionales muy claras y definidas.
Gracias a esto tampoco se requiere que el fondo sea especialmente
liso ni mucho menos de tipo croma.
Una vez segmentado el elemento señalador en cada
una de las dos imágenes captadas por cada uno de los dos captadores
de imagen, se calcula su eje principal y se obtienen sus puntos
extremos. Se puede considerar que estos puntos extremos definen dos
vectores directores bidimensionales en el plano respectivo de cada
imagen. El experto en la materia entenderá que la segmentación y
obtención de los vectores directores bidimensionales también puede
realizarse mediante la técnica de calcular los momentos de inercia
de la imagen del elemento señalador.
Los dos vectores directores bidimensionales (de
los planos de las imágenes), que están referenciados a un mismo
sistema de ejes, son puestos en correspondencia por triangulación
para restituir un vector director tridimensional en coordenadas de
imagen, gracias al par estereoscópico de captadores. Finalmente
este vector director tridimensional es transformado al sistema de
referencia mundo en el que la interfaz está instalada, con el
objetivo de ponerlo en correspondencia con la posición concreta del
elemento señalador y con respecto a los objetos de interacción.
La obtención del vector director tridimensional
en coordenadas mundo permite mapear sobre una pantalla la posición
de un cursor de modo que el usuario obtiene una visión en primera
persona del punto al que está señalando. A partir del control de
este cursor el usuario puede interactuar con el entorno de trabajo
generado por el ordenador.
Esta configuración de interfaz parte de la idea
que el señalar con el brazo (u otro elemento) resulta una forma muy
natural de interactuar con nuestro entorno. Prácticamente cualquier
cultura incorpora este gesto tan sencillo y su aprendizaje se
realiza a una edad tan temprana que se realiza sin pensar y con
mucha precisión. La configuración también parte del análisis de
cómo un usuario señala, qué posiciones adopta y qué formas podrían
ser las más óptimas para captar este gesto.
La captación mediante un par estereoscópico y la
acción del usuario, señalando en primera persona, permite resolver
positivamente todos los inconvenientes planteados en las técnicas
descritas en los antecedentes:
- \bullet
- El usuario no requiere manipular ningún tipo de elemento físico. Por esta razón la interfaz no sufre ningún desgaste ni puede ser sometida a ningún maltrato. Esto supone una enorme ventaja en cuanto a costes de mantenimiento y a tiempo de funcionamiento.
- \bullet
- Al no haber elementos físicos a manipular, no existen problemas de ergonomía que puedan provocar molestias en los usuarios.
- \bullet
- También, la no existencia de ningún elemento físico a manipular permite que el sistema sea totalmente inalámbrico dando plena libertad al usuario. Además no requiere de ningún tipo de baterías como en los ratones inalámbricos ni sistemas de comunicación por radiofrecuencia.
- \bullet
- La fase de aprendizaje es extremadamente corta debido a que cualquier usuario de prácticamente cualquier cultura y sociedad sabe señalar. Esto significa que la interfaz aporta una interacción totalmente natural y la fase de adaptación se puede obviar totalmente.
- \bullet
- Gracias a que no se requieren marcadores de ningún tipo, el tiempo de preparación del usuario es nulo y no existen elementos incómodos. Es decir, el usuario llega, se sitúa frente a la interfaz y directamente empieza a señalar e interactuar.
\newpage
- \bullet
- No existen restricciones concretas de condiciones de espacio e iluminación, las cuales pueden ser fijadas adecuadamente según cada instalación concreta.
- \bullet
- Tampoco existen restricciones de vestimenta del usuario.
- \bullet
- Gracias a que este sistema no requiere de fondos constantes para poder segmentar fácilmente la figura del usuario su instalación y utilización resulta mucho más sencilla.
- \bullet
- La visión desde el punto de vista del usuario da una referencia clara y directa del punto al que está señalando. Es decir, se aporta una interacción en primera persona que resulta muy natural para el usuario.
- \bullet
- El vector director obtenido es tridimensional aunque su cálculo se realice a partir de información bidimensional. Al ser un vector director lo que se obtiene, por oposición a un punto absoluto en el espacio, éste es independiente de escala y permite que la interfaz se pueda construir a cualquier tamaño, adaptándola al tipo de aplicación y de elemento señalador de forma óptima.
- \bullet
- Debido a que cada captador de imágenes ve tan sólo el elemento señalador, resulta muy poco probable que aparezcan problemas de ocultación.
- \bullet
- Esta interfaz es fácilmente transportable e incluso puede situarse sobre algún tipo de vehículo de forma que usuario y interfaz compartan un único sistema de referencia moviéndose conjuntamente el uno con el otro. Esto aporta una potencialidad enorme para poder aplicar la interfaz a aplicaciones móviles.
Como se puede observar, la innovación de esta
interfaz proviene, principalmente, de la integración concreta de
sus componentes de una forma antes no realizada. La formalización y
soluciones tecnológicas de esta integración definen una nueva forma
de interacción persona ordenador con las ventajas arriba citadas.
Esto abre enormes posibilidades de desarrollo de nuevas
experiencias interactivas de gran formato y de gran volumen y flujo
de usuarios en ámbitos tan diversos como la museología, ayuda a
discapacitados, parques temáticos, la domótica, las presentaciones
audiovisuales, etc.
Para completar la descripción que antecede y con
objeto de ayudar a una mejor comprensión de las características de
la invención, se va a realizar una descripción detallada de una
realización preferida en base a un juego de dibujos que se
acompañan a esta memoria descriptiva, y en donde con carácter
meramente orientativo y no limitativo se ha representado lo
siguiente:
La figura 1 muestra una vista frontal del
dispositivo de la invención.
La figura 2 muestra una vista en perspectiva del
dispositivo de la invención.
La figura 3 muestra una vista frontal del usuario
en relación al dispositivo de la invención.
La figura 4 muestra los puntos extremos del
elemento señalador (el brazo) que definen los vectores directores
bidimensionales de los captadores de imagen. También muestra los
elementos básicos de la geometría epipolar del sistema.
La figura 5 muestra el diagrama de flujo de las
etapas esenciales del método de operación.
La figura 6 muestra una vista frontal del
dispositivo de la invención con los captadores de imagen en un
plano horizontal elevado.
La figura 7 muestra una vista frontal del
dispositivo de la invención con los captadores de imagen en el
plano del suelo.
La figura 8 muestra una vista frontal del
dispositivo de la invención cuando los ejes de los captadores de
imagen no forman un ángulo recto.
En las figuras anteriores las referencias
numéricas corresponden a las siguientes partes y elementos;
1 | Usuario. |
2 y 2' | Captadores de imágenes. |
3 y 3' | Ejes centrales de los captadores de imágenes. |
4 y 4' | Enlaces de los captadores de imágenes al ordenador. |
5 | Ordenador. |
6 | Suelo. |
7 | Salida de vídeo. |
8 | Pantalla. |
10 | Elemento señalador. |
11 | Vector director tridimensional en coordenadas mundo. |
12 | Punto de intersección del vector director tridimensional en coordenadas mundo (11) |
sobre la pantalla (8). | |
20 y 20' | Imágenes bidimensionales. |
30 | Zona de captación de la interfaz. |
40 y 40' | Vectores directores bidimensionales. |
101 y 101' | Digitalización. |
102 y 102' | Segmentación. |
103 y 103' | Determinación de los puntos representativos. |
104 | Triangulación. |
105 | Transformación del vector tridimensional en coordenadas mundo. |
Como ejemplo de realización vamos a pasar a
describir un dispositivo para señalar objetos en una pantalla, que
utiliza la interfaz objeto de la presente invención:
Las figuras 1 y 2 ilustran los principales
componentes de la interfaz, de acuerdo con una realización
preferida de la invención, que consiste en dos captadores de
imágenes, (2) y (2'), que forman un sistema de visión artificial de
dos puntos, es decir, un sistema estereoscópico. Estos captadores
deben estar situados sobre un mismo plano, perpendicular al suelo
(6), con sus ejes centrales, (3) y (3'), convergiendo sobre un
punto origen O, el cual es el origen del sistema de referencia del
conjunto, y formando un ángulo recto entre sí; es decir, los dos
ejes principales de los captadores son ortogonales. Con esta
configuración se consigue la máxima precisión de triangulación. El
sistema de referencia (figura 2) es un sistema de ejes cartesiano
tridimensional (x_{M}, y_{M}, z_{M}), el cual llamaremos
"ejes de mundo". Los captadores de imagen, (2) y (2'), están
conectados a un ordenador (5), mediante enlaces (4) y (4'),
adecuados para que los dispositivos de captura digital de imágenes
del ordenador (5) puedan efectivamente digitalizar las imágenes
provenientes de los captadores de imagen (2) y (2'), de forma
simultánea y en tiempo real. El ordenador (5), tiene una salida de
vídeo (7) hacia una pantalla (8), para dar referencia visual de la
interacción.
El funcionamiento de la interfaz se basa en que
el usuario (1) deberá situarse de modo que al señalar con el
elemento señalador (10), en este caso su brazo, éste cruce el plano
formado por los captadores de imágenes (2) y (2') y sus ejes
centrales (3) y (3'). De esta forma, el elemento señalador (10)
entrará en la zona de captación (30) de los captadores de imágenes
(2) (2'). Así, estos captarán sus imágenes respectivas (20) y (20')
(Fig. 3), en las cuales aparecerá una vista del elemento señalador
(10). La imagen (20) captada por un captador (2) será la vista
lateral que da referencia del movimiento vertical
(arriba-abajo) del elemento señalador (10), mientras
que la otra imagen (20'), captada por el otro captador (2'), será
la vista cenital que da referencia del movimiento horizontal
(derecha-izquierda) del elemento señalador (10).
Estas imágenes bidimensionales (20) y (20') son enviadas al
ordenador (5) mediante los enlaces (4) y (4') para que sean
digitalizadas.
A partir de las imágenes digitalizadas del
elemento señalador (10) el ordenador (5) realiza todo el proceso de
análisis de las imágenes, para después realizar los cálculos
necesarios hasta obtener la dirección en que señala el usuario; es
decir, el vector director tridimensional en coordenadas mundo vdM
(11) (ver figura 2). Una vez calculado este vector director, el
ordenador (5) puede calcular el punto de intersección (12) sobre la
pantalla (8) al que el usuario (1) está señalando, y colocar allí
el icono de un cursor mediante el enlace de vídeo (7) que va del
ordenador (5) a la pantalla (8).
A continuación se describen las etapas del método
de operación del dispositivo interfaz que permiten pasar de las
imágenes bidimensionales (20) y (20') captadas por los captadores
de imagen (2) y (2') hasta el vector director tridimensional en
coordenadas mundo vdM (11), que da la dirección en que señala el
usuario (1). Ver el diagrama de flujo de la figura 5.
- En primer lugar, cada imagen bidimensional (20) (20'), es digitalizada por el ordenador (5) para obtener una copia de cada una en formato digital en la memoria del ordenador.
- Cada imagen es entonces analizada mediante algoritmos de procesado de imágenes digitales. El análisis consiste en segmentar el elemento señalador (10), es decir, aislarlo del fondo y demás elementos que aparezcan en la imagen para obtener su representación como objeto único de la imagen (ver figura 3). Esta segmentación puede ser realizada mediante cualquiera de las técnicas de segmentación conocidas para el experto en el campo del procesado de imágenes digitales; un ejemplo muy simple sería mediante la técnica de "substracción del fondo".
- Una vez segmentado el elemento señalador (10) en ambas imágenes, se detectan los puntos representativos de los ejes mayores del elemento señalador (10) en cada una. Estos puntos representativos serán típicamente los puntos extremos del brazo (ver figura 4). Estos puntos extremos definen un vector director bidimensional (40) (40'), para cada una de las imágenes bidimensionales (20) y (20'). Estas, están relacionadas entre sí por la geometría epipolar de la configuración del par estereoscópico formado por los dos captadores de imágenes (2) (2'). Ver figura 4, donde C y C' son los centros de los dos captadores y e y e' son los epipolos definidos sobre las imágenes.
- El proceso de cálculo de la triangulación del vector director tridimensional en coordenadas mundo vdM (11), correspondiente a la dirección en que señala el usuario, y se basa en haber obtenido previamente la reconstrucción métrica del sistema de cámaras sin necesidad de calibrado de las mismas. Este proceso se realizaría en el momento del montaje del dispositivo de interfaz y no debería repetirse hasta que se deba reinstalar la interfaz en algún otro sitio. Es decir, sería un proceso fuera del ámbito del cálculo en tiempo real del vector director tridimensional. Los pasos genéricos de este proceso son los siguientes, que serán conocidos para cualquier persona con conocimientos de la técnica:
- (i)
- Calcular la reconstrucción proyectiva (P, P', {X_{i}}), donde P y P' son las matrices de los captadores de imágenes, es decir, las matrices que definen la proyección que realizan en la captación de imágenes. X_{i} son los puntos que define la reconstrucción a partir de la correspondencia entre unos puntos dados en las imágenes: x_{i} \leftarrow \rightarrow x'_{i}. Los pasos para obtener esta reconstrucción proyectiva son:
- \bullet
- Calcular la matriz fundamental del sistema estereoscópico a partir de las correspondencias x_{i} \leftarrow \rightarrow x'_{i}, entre unos puntos determinados sobre las dos imágenes bidimensionales (20) (20').
- \bullet
- Calcular las matrices de las cámaras P y P' a partir de la matriz fundamental.
- (ii)
- Rectificación de la reconstrucción proyectiva a una reconstrucción métrica por método directo; es decir, calcular la homografía H tal que X_{Ei} = H X_{i} para cinco o más puntos X_{Ei} de control con posiciones Euclídeas conocidas.
- Como quedará claro para cualquier experto en la materia, la reconstrucción proyectiva es insuficiente ya que no respeta los ángulos y en la triangulación posterior nos daría un vector director tridimensional deformado. Se requiere pues llegar a una reconstrucción métrica para que el vector director tenga la orientación correcta. Por otro lado, no es necesario llegar a una reconstrucción euclídea ya que no estamos buscando puntos exactos en el espacio físico; nos basta con tan sólo el vector director.
- Así pues, tras la etapa de segmentación (102) (102') y la etapa de determinación de los puntos representativos (103) (103') del elemento señalador (10) se pueden poner en correspondencia dichos puntos y aplicar la etapa de triangulación (104). De esta forma se obtienen dos puntos en el espacio tridimensional, según una reconstrucción métrica en coordenadas de imagen, y a partir de estos dos puntos se obtiene de forma inmediata el vector director tridimensional en coordenadas de imagen que llamaremos vdl.
- Para cualquier experto en la materia quedará claro que en lugar de aplicar una triangulación sobre los puntos determinados en cada imagen bidimensional (20) (20'), se pueden obtener los vectores directores bidimensionales (40) (40') para cada imagen (a partir de los puntos representativos obtenidos) y entonces aplicar una triangulación sobre los vectores directores bidimensionales (40) (40') en lugar de hacerlo sobre los puntos representativos. El resultado es el mismo, obteniendo un vector director tridimensional en coordenadas de imagen vdl que aún mantiene las ambigüedades Euclídeas (translación, orientación y escalado) en coordenadas mundo.
- Conociendo cual es la posición global del sistema estereoscópico del dispositivo de interfaz con respecto al entorno físico en que opera (es decir, en relación a la pantalla (8) en la que se proyectan los objetos a controlar) se obtiene una matriz de transformación a coordenadas mundo, M. Con esta matriz se transforma el vector director tridimensional en coordenadas de imagen vdl en el vector director tridimensional en coordenadas mundo que se estaba buscando: vdM (11).
Una buena referencia bibliográfica para la
realización de estos cálculos es el libro: Hartley,R., Zisserman,
A., "Multiple View Geometry in Computer Vision", Cambridge
University Press, 2001.
Será evidente para un experto en la materia que
existen otras posibles realizaciones de la interfaz. Por ejemplo,
por lo que se refiere a la colocación de los captadores de
imágenes, 2 y 2', se puede rotar todo el conjunto -45º respecto al
eje z_{M} (ver figura 6). Esta opción muestra ventajas sobre la
configuración base descrita arriba en los siguientes puntos: ambos
captadores de imágenes pueden sujetarse a un techo o a un único
soporte horizontal superior; existen menos interferencias de
objetos móviles sobre el captador de imagen lateral (2'); y da una
mejor cobertura a los movimientos del elemento señalador (10).
Otra opción sería rotar todo el conjunto 135º
respecto al eje z_{M} (ver figura 7). Esta opción muestra
ventajas sobre la configuración base descrita arriba en los
siguientes puntos: ambos captadores de imágenes pueden sujetarse a
un suelo o a un único soporte horizontal inferior; existen menos
interferencias de objetos móviles laterales sobre el captador
lateral (2'); da una mejor cobertura a los movimientos del elemento
señalador (10) y no requiere de ningún tipo de soporte por encima
del usuario (1).
Una opción más sería la de orientar los
captadores de forma que sus ejes centrales (3) y (3') no sean
ortogonales, es decir, no formen un ángulo recto (\alpha \neq
90º) (ver figura 8). En concreto, cuando \alpha < 90º, esta
opción muestra la ventaja, sobre la configuración base descrita
arriba, de que los captadores de imagen (2) (2') pueden situarse
más juntos, formando un sistema más compacto, aunque tiene la
desventaja de que la resolución de los vectores directores
obtenidos resulta menos precisa.
Por lo que respecta a la detección de la
dirección de cualquier otro elemento señalador, como por ejemplo
una parte del cuerpo del usuario (dedo, mano, pierna, etc.) o de
cualquier objeto que lleve consigo el usuario, como por ejemplo:
una muleta, una "varita mágica", un bastón, etc., la
configuración esencial del sistema no se ve alterada y tan sólo
requiere de una adaptación de escala y/o de posición y/o de
orientación con respecto al usuario. Por lo que se refiere a los
algoritmos y cálculos, tampoco supone ninguna modificación
esencial.
El conjunto de la interfaz puede también situarse
sobre un vehículo, de forma que el usuario y la interfaz se muevan
juntos manteniendo las posiciones y orientaciones relativas entre
sí. El vehículo puede ser una cinta transportadora, un vehículo con
ruedas de movimiento libre o sobre raíles, una cabina de
simulación, o cualquier otro sistema de desplazamiento y/o
rotación. El cálculo del vector director con respecto al sistema de
referencia formado por la interfaz dentro del ámbito del vehículo,
no se ve alterado en absoluto. En todo caso se deberá conocer la
posición y/u orientación del vehículo con respecto al entorno
físico para poder transformar el vector director tridimensional vdM
(11) adecuadamente y así poder saber en todo momento hacia dónde
señala el usuario en relación al entorno físico. Esto puede ser de
enorme utilidad en aplicaciones interactivas para parques temáticos
o bien para aplicaciones de ayuda a discapacitados en sillas de
ruedas.
Los captadores de imágenes (2) y (2') pueden ser
cámaras de vídeo tanto analógicas como digitales, CMOS o CCD, en
blanco y negro o en color, entrelazadas o progresivas, NTSC, PAL,
CCIR o cualquier otro sistema de vídeo, su resolución puede variar
dependiendo de la precisión requerida por el sistema y las lentes
pueden variar dependiendo del área necesaria a cubrir por el
sistema. Incluso, para algunas aplicaciones, pudieran ser otro tipo
de captadores que operasen fuera del rango visible de la luz. Así
pues, las únicas restricciones son: que puedan captar imágenes en
tiempo real (típicamente 25 ó 30 imágenes por segundo según sea el
sistema de vídeo) y que puedan ser conectadas a un sistema
informático de captura digital de imágenes.
En aplicaciones en las que la visualización de
los objetos se realiza a través de una pantalla de proyección, la
correcta apreciación de las imágenes por parte del usuario depende
de que haya una iluminación muy controlada en el espacio físico en
el que se encuentra instalada la interfaz. Por otro lado, la
interfaz requiere que el elemento señalador esté bien iluminado
para que la digitalización y segmentación sean robustas. En estos
casos no se puede iluminar correctamente el elemento señalador con
luz visible ya que provocaría una interferencia visual con la
proyección. Por lo tanto puede ser de gran utilidad utilizar una
iluminación fuera del rango visible con captadores de imágenes
adecuados. Un ejemplo de esto sería iluminar en el rango de los
"infrarrojos cercanos" (aproximadamente de 800 nm a 950 nm de
longitud de onda) para poder compensar la posible falta de
iluminación en la captación sin afectar las condiciones ambientales
definidas por la aplicación. Los captadores de imágenes podrían ser
cámaras CCD en blanco y negro que por lo general son sensibles a
este rango de frecuencias. Estas cámaras también pueden llevar
adaptado un filtro que deje pasar tan sólo los infrarrojos de forma
que no vean el rango visible. De esta forma todo el sistema
trabajaría bajo el rango de los infrarrojos cercanos sin afectar ni
la visualización ni el rendimiento.
Claims (9)
1. Dispositivo de interfaz natural, no invasiva,
para la interacción con un sistema informático que permite obtener
un vector director tridimensional en coordenadas mundo (11) a
partir de un elemento señalador (10), caracterizado por
comprender; dos captadores de imagen (2) (2') dispuestos en un plano
vertical, cuyos ejes (3) (3') se cortan en un punto con un ángulo
distinto de 0º, y un ordenador (5) conectado a los dos captadores
de imagen (2) (2'); de tal manera programado que permita la
obtención del vector director tridimensional en coordenadas mundo
(11) a partir de las imágenes bidimensionales (20) (20')
suministradas por los captadores de imagen (2) (2') para señalar
cualquier objeto, sea virtual o físico, que sea controlado por el
sistema informático con el que se comunica la interfaz.
2. Dispositivo de interfaz natural de acuerdo con
la reivindicación 1 caracterizado porque los ejes (3) (3')
de los captadores de imagen (2) (2') forman un ángulo de 90º,
siendo uno de ellos horizontal y el otro vertical.
3. Dispositivo de interfaz natural de acuerdo con
la reivindicación 1, caracterizado porque los captadores de
imagen (2) (2') son cámaras de vídeo operando en el espectro
visible.
4. Dispositivo de interfaz natural de acuerdo con
la reivindicación 1, caracterizado porque los captadores de
imagen (2) (2') son cámaras operando fuera del espectro
visible.
5. Dispositivo de interfaz natural de acuerdo con
la reivindicación 4, caracterizado porque los captadores de
imagen (2) (2') operan en el espectro infrarrojo.
6. Dispositivo de interfaz natural de acuerdo con
la reivindicación 1, caracterizado porque el elemento
señalador (10) está constituido por el brazo de un usuario (1).
7. Método de operación del dispositivo de
interfaz natural de las reivindicaciones 1 a 6,
caracterizado por comprender las siguientes etapas;
- a)
- Digitalización (101) (101'); en la que partiendo de la imagen bidimensional (20) (20') suministrada por los captadores de imagen (2) (2') se obtiene una copia en formato digital en la memoria de un ordenador (5).
- b)
- Segmentación (102) (102'); en la que el elemento señalador (10) es aislado del fondo y demás elementos que aparezcan en la imagen bidimensional (20) (20') para obtener su representación como objeto único de la imagen.
- c)
- Determinación de puntos representativos (103) (103'); en la que se define un vector director bidimensional (40) (40') para cada una de las imágenes bidimensionales (20) y (20').
- d)
- Triangulación (104); en la que partiendo de los dos vectores directores bidimensionales (40) (40') se obtiene un vector director tridimensional en coordenadas de imagen.
- e)
- Transformación (105); en la que el vector director tridimensional en coordenadas de imagen da lugar al vector director tridimensional en coordenadas mundo (11).
8. Método de operación de acuerdo con la
reivindicación 7, caracterizado porque la etapa de
triangulación (104) para la determinación del vector director
tridimensional en coordenadas de imagen comprende las siguientes
subetapas;
- i)
- Calcular la reconstrucción proyectiva (P, P', {X_{i}}), donde P y P' son las matrices de los captadores de imágenes, es decir, las matrices que definen la proyección que realizan en la captación de imágenes, siendo X_{i} los puntos que define la reconstrucción a partir de la correspondencia entre unos puntos dados en las imágenes
- ii)
- Corrección de la reconstrucción proyectiva a una reconstrucción métrica mediante homografía.
9. Método de operación de acuerdo con la
reivindicación 7, caracterizado porque la etapa de
transformación (105) para la determinación del vector director
tridimensional en coordenadas mundo (11) consiste en que conociendo
cual es la posición global del sistema estereoscópico del
dispositivo de interfaz con respecto al entorno físico en que opera
(es decir, en relación a la pantalla (8) en la que se proyectan los
objetos a controlar) se obtiene una matriz de transformación a
coordenadas mundo, M.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200301070A ES2228251B1 (es) | 2003-05-09 | 2003-05-09 | Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200301070A ES2228251B1 (es) | 2003-05-09 | 2003-05-09 | Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2228251A1 ES2228251A1 (es) | 2005-04-01 |
ES2228251B1 true ES2228251B1 (es) | 2006-02-16 |
Family
ID=34530961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200301070A Expired - Fee Related ES2228251B1 (es) | 2003-05-09 | 2003-05-09 | Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion. |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2228251B1 (es) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2767404B1 (fr) * | 1997-08-12 | 1999-10-22 | Matra Systemes Et Information | Procede de production de donnees cartographiques par stereovision |
DE10007891C2 (de) * | 2000-02-21 | 2002-11-21 | Siemens Ag | Verfahren und Anordnung zur Interaktion mit einer in einem Schaufenster sichtbaren Darstellung |
-
2003
- 2003-05-09 ES ES200301070A patent/ES2228251B1/es not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
"Affordable 3D face tracking using projective vision". D.O. GORODNICHY; S. MALIK y G. ROTH. In Proceedings of International Conference on Vision Interface 2002, Calgary, Alberta, Canada. Mayo 2002, páginas 383-390. * |
"Real-time input of 3D pose and gestures of a user's hand and its applications for HCI". SATO Y.; SAITO M. y KOIKE H. In Proceedings IEEE Virtual Reality 2001. Yokohama, Japan. 13-17 Marzo 2001, páginas 79-86. * |
Also Published As
Publication number | Publication date |
---|---|
ES2228251A1 (es) | 2005-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9618602B2 (en) | Method and apparatus for using gestures to control a laser tracker | |
CN104271046B (zh) | 用于跟踪和引导传感器和仪器的方法和系统 | |
US7405725B2 (en) | Movement detection device and communication apparatus | |
CN104756045B (zh) | 用于跟踪由关节连接的身体部位的可佩戴传感器 | |
CN105518576B (zh) | 根据手势的控制装置操作 | |
US9229540B2 (en) | Deriving input from six degrees of freedom interfaces | |
US7826641B2 (en) | Apparatus and method for determining an absolute pose of a manipulated object in a real three-dimensional environment with invariant features | |
ES2271272T3 (es) | Sistema de visualizacion de video interactivo. | |
KR102065687B1 (ko) | 무선 손목 컴퓨팅과 3d 영상화, 매핑, 네트워킹 및 인터페이스를 위한 제어 장치 및 방법 | |
US20160098095A1 (en) | Deriving Input from Six Degrees of Freedom Interfaces | |
US7257255B2 (en) | Capturing hand motion | |
US20190053858A1 (en) | Method and Apparatus for Wide Area Multi-Body 6D Pose Tracking System | |
US20150238276A1 (en) | Device and method for assisting laparoscopic surgery - directing and maneuvering articulating tool | |
CN107238396A (zh) | 超声换能器的姿态恢复 | |
CN106415200B (zh) | 包括可追踪设备和构造成安装在人体上的挽具的超便携式坐标测量机器 | |
CN108700939A (zh) | 用于增强现实的系统和方法 | |
US20150097937A1 (en) | Single-camera motion capture system | |
US9536322B1 (en) | Implementation of multi-camera tracking applications using rich color transition curve target sequences | |
US10782780B2 (en) | Remote perception of depth and shape of objects and surfaces | |
TW200842665A (en) | Cursor controlling device and method for image apparatus and image system | |
KR20030075399A (ko) | 모션마우스 시스템 및 방법 | |
CN107374574B (zh) | 一种用于确定内窥镜胶囊体内位姿的装置 | |
WO2004094943A1 (ja) | モーションキャプチャ方法、モーションキャプチャ装置、及びモーションキャプチャ用マーカ | |
US20190339768A1 (en) | Virtual reality interaction system and method | |
GB2566924A (en) | Positioning system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EC2A | Search report published |
Date of ref document: 20050401 Kind code of ref document: A1 |
|
FG2A | Definitive protection |
Ref document number: 2228251B1 Country of ref document: ES |
|
FD2A | Announcement of lapse in spain |
Effective date: 20230526 |