ES2228251B1

ES2228251B1 - Dispositivo de interfaz natural no invasiva para la interaccion con un sistema informatico y metodo de operacion.

Info

Publication number: ES2228251B1
Application number: ES200301070A
Authority: ES
Inventors: Narcis Pares I Burgues
Original assignee: Universitat Pompeu Fabra UPF
Current assignee: Universitat Pompeu Fabra UPF
Priority date: 2003-05-09
Filing date: 2003-05-09
Publication date: 2006-02-16
Anticipated expiration: 2023-05-09
Also published as: ES2228251A1

Abstract

Comprende dos captadores de imágenes, (2) y (2''), que forman un sistema de visión estereoscópico, situados sobre un mismo plano perpendicular al suelo (6), con sus ejes centrales, (3) y (3''), cortándose con un ángulo distinto de cero sobre un punto O origen del sistema de referencia del conjunto. Los captadores de imagen, (2) y (2''), están conectados a un ordenador (5), y este tiene una salida de vídeo (7) hacia una pantalla (8), en la que se muestra el punto de intersección (12) de la prolongación de un vector director tridimensional en coordenadas mundo (11) que representa la dirección en que apunta un elemento señalador (10) portado por un usuario (1). El método de operación del dispositivo descrito comprende las etapas de; a) Digitalización (101) (101'') de las imágenes. b) Segmentación (102) (102'') del elemento señalador (10). c) Determinación de puntos representativos (103) (103'') del elemento señalador (10). d) Triangulación (104) para obtener un vector director tridimensional. e) Transformación (105) de este vector a coordenadas mundo.

Description

Dispositivo de interfaz natural no invasiva para la interacción con un sistema informático y método de operación.

Objeto y campo de la invención

La presente invención tiene por objeto un dispositivo que permite relacionar a un usuario con un sistema informático, posibilitando a aquel para señalar y posicionar objetos remotos, pudiendo ser éstos objetos físicos o virtuales. Este dispositivo interfaz resulta especialmente útil en situaciones con un elevado flujo de usuarios, en situaciones en que un usuario no puede quedar ligado al sistema informático ni perder tiempo en una preparación previa, y en situaciones en que los usuarios no pueden pasar por un entrenamiento inicial de la interacción ni por una fase larga de adaptación. Existen diversas técnicas de implementación de estos sistemas y la presente invención presenta una nueva técnica que, respecto a las situaciones descritas, aporta soluciones a los inconvenientes de las técnicas precedentes, manteniendo las ventajas de las anteriores.

Dentro del ámbito de la informática conocido por "Interacción Persona Ordenador" y en concreto dentro del "Diseño de Interfaces" para la interacción persona ordenador se persigue siempre el diseño de interfaces que aporten las siguientes características principales:

\bullet: Que sean de uso "natural" para los usuarios; es decir, que su aprendizaje sea corto y su uso claro (lo que a veces se describe como interfaces "intuitivas").

\bullet: Que sean "no invasivas"; es decir, que no supongan una molestia para el usuario por tener que llevar encima cables, marcadores, dispositivos, etc., que puedan suponer un apéndice incómodo y restrictivo (lo que a menudo se describe como interfaces "transparentes").

\bullet: Que sean "robustas"; es decir, que soporten uso intensivo e incluso mal uso y que su mantenimiento sea mínimo.

Antecedentes de la invención

En la historia de la Interacción Persona Ordenador, el diseño de interfaces para poder señalar objetos en la pantalla del ordenador ha sido de gran importancia. El hecho de poder apuntar a un objeto gráfico en pantalla, mediante por ejemplo un dispositivo tipo ratón, ha sido el desencadenante que ha permitido el desarrollo de las interfaces gráficas de usuario modernas. El dar la posibilidad de control sobre un cursor o el poder conocer dónde el usuario está señalando, es pues un tema de gran importancia en el diseño de aplicaciones informáticas.

Analizando una primera técnica utilizada con la finalidad de dar al usuario la posibilidad de señalar y posicionar objetos en un sistema controlado por ordenador, encontramos el campo de las interfaces de control de cursores. Existe una diversidad considerable de interfaces de este tipo. La interfaz de control de cursor más difundida es el "ratón", pero existen muchos otros tipos de interfaces físicas como son la "palanca de juego", la "bola de seguimiento", la "alfombrilla de tacto", la "tableta digitalizadora", etc. Un ejemplo concreto de dispositivo de control de cursores es el del documento EP 819 282. Esta interfaz es una evolución de la palanca de juego, dando seis grados de libertad; tres de desplazamiento en cada uno de los ejes del espacio tridimensional y tres de rotación también respecto a cada uno de los tres ejes coordenados. Evidentemente no es necesario utilizar siempre los seis grados de libertad; esto dependerá de la aplicación informática concreta. La forma en que esta interfaz permite al usuario señalar y posicionar objetos, en el sistema informático de control, se basa en que una pequeña palanca de juego, que el usuario toma entre sus dedos pulgar e índice, puede ser desplazada en tres direcciones según los tres ejes tridimensionales asociados al sistema de referencia local del dispositivo. La palanca también puede rotarse en tres sentidos. La versatilidad de este dispositivo permite a un usuario posicionar un cursor tanto en el plano de la pantalla, como en el espacio tridimensional proyectado sobre el plano de la pantalla. Sin embargo, esta versatilidad le confiere una dificultad de aprendizaje considerable que hace que un usuario novel deba pasar por una fase de adaptación y aprendizaje considerable. Además, aunque su diseño es muy compacto y puede situarse en zonas de dimensiones muy reducidas, como por ejemplo delante de un teclado de un ordenador portátil, resulta una interfaz poco robusta en un uso intensivo siendo propensa a desgaste y débil frente a golpes y malos tratos. Estos inconvenientes son comunes a todos los dispositivos de control de cursores por el hecho de estar basados en dispositivos físicos que el usuario manipula.

Así pues, de forma genérica, estos dispositivos presentan los siguientes inconvenientes:

\bullet: El usuario debe manipular algún tipo de elemento físico el cual está sujeto a desgaste y maltrato debido a la posibilidad de sufrir golpes, tirones, caídas, etc.

\bullet: La mayoría de estos elementos físicos están ligados al ordenador por un cable con lo cual el usuario ve restringida y dificultada su usabilidad.

\bullet: Los que son inalámbricos requieren baterías para su funcionamiento haciendo su uso más caro y/o incómodo por el cambio o recarga de estas baterías.

\newpage

\bullet: La relación del movimiento del dispositivo físico con respecto al movimiento del cursor resulta poco natural y por lo tanto requieren de una fase importante de aprendizaje y adaptación por parte del usuario.

\bullet: Estos elementos físicos no siempre están correctamente adaptados desde un punto de vista ergonómico, provocando problemas físicos en los usuarios.

Por lo tanto no resultan adecuados para las aplicaciones de interés de la presente invención anteriormente indicadas.

Una segunda técnica para dar al usuario la posibilidad de señalar y posicionar objetos remotos, es mediante la captura de la posición de ciertos puntos de referencia del cuerpo del usuario, a través de una o múltiples cámaras de vídeo. En los sistemas que realizan una captura fiable en tiempo real, se utilizan o bien marcadores auto iluminados, como en el documento US 6,437,820, o bien marcadores reflectantes como en el documento US 5,459,793. Por marcador auto iluminado se entiende un objeto, por lo general semiesférico, con algún sistema de emisión de luz en su interior y que emite luz en todas direcciones por igual de manera uniforme. Por marcador reflectante se entiende un objeto, por lo general semiesférico, cubierto de un material que refleja luz (de uno o diversos colores) que incide sobre él, de manera uniforme en todas direcciones por igual y con un alto grado de reflectividad. En estos dispositivos el usuario debe llevar un marcador (reflectante o auto iluminado) en cada punto de su cuerpo del que se desea hacer un seguimiento. El usuario debe moverse dentro de una zona definida por las cámaras de vídeo de modo que éstas capten los marcadores y mediante unos cálculos de triangulación puedan resolver su posición en el espacio físico tridimensional en el que se encuentra el usuario. Estos sistemas, siendo adecuados para la captura de movimiento del cuerpo entero del usuario, permiten una gran diversidad de movimientos de todo el cuerpo más allá de la necesaria para un señalamiento y posicionamiento de un cursor u objeto. No obstante, son un referente para la presente invención debido a que utilizan sistemas de captación de imagen y mediante el cálculo de la posición de una mano y su codo (u hombro) asociado, se podría deducir un método sencillo para señalar y posicionar objetos remotos.

Ahora bien, estos dispositivos presentan los siguientes inconvenientes:

\bullet: Requieren de una compleja preparación durante la cual el usuario debe colocarse los marcadores y debe someterse al calibrado del sistema.

\bullet: Los marcadores suponen una incomodidad para el usuario y le limitan parcialmente el movimiento.

\bullet: Los marcadores son propensos a recibir golpes que provoquen su caída y/o desplazamiento con el consiguiente desajuste del sistema y requiriendo un recalibrado.

\bullet: Es frecuente que el sistema se vea afectado por la ocultación temporal de uno o varios marcadores de forma que esos puntos del cuerpo quedan indefinidos.

Por lo tanto, estos sistemas tampoco resultan adecuados en las aplicaciones de interés de la presente invención.

Una tercera técnica sería la de los dispositivos basados en un conjunto emisor-captador. Un buen ejemplo de estos dispositivos es el descrito en el documento US 5,453,686. En este sistema se sitúa un conjunto captador en cada posición del cuerpo del usuario de la que se desea detectar la orientación y/o posición. Este conjunto captador es una tríada de bobinas que se encarga de captar las señales emitidas por el conjunto emisor que es un generador de campo electromagnético. El conjunto captador se encarga de transmitir estas señales captadas, ya sea por cables o por radiofrecuencia, a un módulo de cálculo el cual contrasta aquella señal emitida por el conjunto emisor con respecto a la captada por el conjunto captador y a partir de estas diferencias extraer posición y/u orientación del conjunto captador y, en consecuencia, de la parte del cuerpo del usuario sobre la cual se ha instalado. De forma similar a la técnica anterior, estos sistemas permiten una gran diversidad de movimientos de todo el cuerpo del usuario, mucho más completa de lo que se plantea en la presente invención, pero se relacionan con la presente invención por el hecho de que situando un único conjunto captador en la mano del usuario se puede obtener de forma inmediata la dirección en que señala su brazo.

No obstante, los principales inconvenientes de estos sistemas son parecidos a los anteriores siendo los siguientes:

\bullet: Requieren un gran tiempo de preparación en la compleja colocación de los captadores.

\bullet: Los captadores requieren cableados incómodos que les une al ordenador de cálculo, limitando los movimientos del usuario. Incluso en los sistemas considerados inalámbricos, los captadores deben cablearse hasta un modulo central que debe llevar encima el usuario (habitualmente en la cintura) y es este módulo el que se puede considerar inalámbrico al comunicarse con el ordenador de cálculo por radiofrecuencia. Así pues, aún en este caso, el usuario debe llevar cables desde los captadores hasta el módulo central.

\bullet: Los captadores suponen una incomodidad para el usuario, resultando poco robustos al desgaste físico o al maltrato debido a la posibilidad de sufrir golpes, tirones de cables, caídas, etc.

Finalmente, existe una cuarta técnica de dispositivos que constituyen la técnica anterior más próxima de la presente invención. Estos son los que se basan en la captura de la silueta del cuerpo del usuario, respecto a un plano de referencia, mediante una única cámara de vídeo. Un referente clásico de estos sistemas es el descrito en el documento US 4,843,568. La captura por cámara de vídeo de la imagen del usuario se realiza de forma que el eje de la cámara sea perpendicular al plano de referencia; es decir, al plano en que se capta la silueta del usuario. El cuerpo del usuario, o parte de él, es segmentado del fondo y a partir de esta imagen del cuerpo aislado se derivan todos los cálculos. Generalmente el usuario tiene delante una pantalla en la que ve el entorno gráfico con el que interactúa. Dentro de este entorno generado por el ordenador se inserta su silueta para poder interactuar con los objetos. Esta interacción es una interacción en tercera persona, en contraposición a las otras técnicas anteriores y a la de la presente invención, en las que la interacción se realiza en primera persona. Lo que esto significa es que la interacción en primera persona da al usuario una relación directa con los objetos controlados por el ordenador, pudiendo señalarlos y manipularlos sin necesidad de ningún intermediario. Es decir, cuando el usuario señala un objeto, desde su punto de vista está señalando en la dirección del objeto. En cambio en la interacción en tercera persona, el usuario interactúa con los objetos a través de la representación de su silueta de forma que desde su punto de vista, si quiere señalar a un objeto en la pantalla que se encuentra a la derecha de su silueta, el usuario no podrá señalar hacia el objeto, sino que deberá señalar hacia su derecha de forma que sea la silueta la que "señale" al objeto.

Estos sistemas se caracterizan por la importante propiedad de ser no invasivos, no requiriendo ningún tipo de marcador o dispositivo sobre el cuerpo del usuario, pero presentan los siguientes inconvenientes claros:

\bullet: La forma en que un usuario puede señalar a objetos del entorno gráfico es a partir de una visión en tercera persona, con lo cual requiere de un cierto aprendizaje del control de su silueta. Es decir, el usuario interactúa con los objetos virtuales de forma indirecta a través de su silueta y en consecuencia, no resultan interfaces naturales.

\bullet: Estos sistemas requieren fondos constantes para poder segmentar fácilmente la figura del usuario. De hecho en gran parte de ellos, el fondo se requiere que sea tipo croma azul o verde o una cortina negra.

\bullet: Estas interfaces tan sólo detectan información bidimensional.

\bullet: Existen problemas de ocultación cuando se está haciendo el seguimiento de un punto del cuerpo que pasa por delante/detrás de alguna otra parte del cuerpo.

Ninguna de las cuatro técnicas descritas resulta adecuada en aplicaciones en las que el flujo de usuarios sea muy elevado, ni tampoco en aplicaciones en las que el usuario requiera poder empezar a interactuar sin necesidad de una fase previa de preparación, ni calibrado, ni adaptación, ni aprendizaje.

Así pues, es un objetivo de la presente invención la creación de una interfaz de interacción entre un usuario y un sistema informático a través de la dirección en que señala el usuario, de forma que;

\bullet: dé una interacción natural al usuario:

\circ: tanto por tiempo mínimo de aprendizaje,

\circ: como por relación de movimiento,

\circ: como por ergonomía.

\bullet: no requiera de cables ni sea invasiva para el usuario.

\bullet: no requiera marcadores (ni auto iluminados, ni reflectantes), ni otros receptores sobre el usuario.

\bullet: no requiera de ningún dispositivo físico que pudiera sufrir desgaste ni malos tratos.

\bullet: no existan problemas de ocultación ni de ambigüedad en la detección.

\bullet: permita señalar en primera persona.

\bullet: tenga un sistema de referencia propio que la relacione con las coordenadas de mundo de los objetos.

Descripción de la invención

La creciente demanda de sistemas interactivos para aplicaciones de uso masivo, por ejemplo en parques temáticos o museos, ha abierto líneas de investigación sobre aplicaciones interactivas con grandes flujos de usuarios. Por otro lado, la evolución de los sistemas de captación de imágenes ha permitido una significativa reducción de tamaño y coste de éstos. Esto, aunado al avance en el conocimiento del diseño de interfaces, ha permitido la integración de diversos dispositivos en una configuración novedosa que aporta las ventajas arriba descritas y que no se encuentra en el Estado de la Técnica.

El método de operación del dispositivo de interfaz objeto de la invención está basado en el cálculo del vector director tridimensional (es decir, en el espacio 3-D) que define la dirección en que señala el elemento señalador del usuario. Esto se realiza a partir de la captación del movimiento de dicho elemento señalador mediante dos dispositivos de captación de imagen que forman un par estereoscópico. A partir de las imágenes captadas por cada uno de los captadores de imagen se extraen los elementos necesarios para la correcta triangulación del vector director tridimensional. En el contexto de este documento llamaremos elemento señalador al brazo u otro objeto (varilla, bastón, muleta, etc.) con el que el usuario señala hacia los objetos controlados por el ordenador.

La configuración básica exige que los dos captadores de imágenes del par estereoscópico deberán estar situados sobre un mismo plano, de forma que sus ejes centrales se crucen en un punto formando un ángulo distinto de cero. Este plano formado por los captadores de imágenes es el plano epipolar del sistema que contiene a los ejes centrales de los captadores de imagen. Con respecto a este plano, el elemento señalador, controlado por el usuario, cruzará siempre este plano de forma que el elemento señalador nunca sea paralelo al mismo. Así pues, el usuario extiende el elemento señalador en dirección a los objetos (bien físicos, bien virtuales) con los que desea interactuar y el elemento señalador deberá entrar en la zona de captación del par estereoscópico de captadores de imágenes al cruzar el plano epipolar que contiene los ejes centrales de cada uno de los captadores de imágenes.

Cada captador obtendrá una imagen con una vista del elemento señalador, el cual deberá ser segmentado del fondo. La captación del elemento señalador no requiere de ningún tipo de marcador auto iluminado ni reflectante, ni ningún dispositivo receptor, con lo que la interfaz resulta absolutamente inalámbrica, no invasiva y robusta. Esta segmentación resulta muy sencilla debido a que el elemento señalador nunca puede estar oculto por ningún otro objeto, y el elemento señalador tiene unas características formales y funcionales muy claras y definidas. Gracias a esto tampoco se requiere que el fondo sea especialmente liso ni mucho menos de tipo croma.

Una vez segmentado el elemento señalador en cada una de las dos imágenes captadas por cada uno de los dos captadores de imagen, se calcula su eje principal y se obtienen sus puntos extremos. Se puede considerar que estos puntos extremos definen dos vectores directores bidimensionales en el plano respectivo de cada imagen. El experto en la materia entenderá que la segmentación y obtención de los vectores directores bidimensionales también puede realizarse mediante la técnica de calcular los momentos de inercia de la imagen del elemento señalador.

Los dos vectores directores bidimensionales (de los planos de las imágenes), que están referenciados a un mismo sistema de ejes, son puestos en correspondencia por triangulación para restituir un vector director tridimensional en coordenadas de imagen, gracias al par estereoscópico de captadores. Finalmente este vector director tridimensional es transformado al sistema de referencia mundo en el que la interfaz está instalada, con el objetivo de ponerlo en correspondencia con la posición concreta del elemento señalador y con respecto a los objetos de interacción.

La obtención del vector director tridimensional en coordenadas mundo permite mapear sobre una pantalla la posición de un cursor de modo que el usuario obtiene una visión en primera persona del punto al que está señalando. A partir del control de este cursor el usuario puede interactuar con el entorno de trabajo generado por el ordenador.

Esta configuración de interfaz parte de la idea que el señalar con el brazo (u otro elemento) resulta una forma muy natural de interactuar con nuestro entorno. Prácticamente cualquier cultura incorpora este gesto tan sencillo y su aprendizaje se realiza a una edad tan temprana que se realiza sin pensar y con mucha precisión. La configuración también parte del análisis de cómo un usuario señala, qué posiciones adopta y qué formas podrían ser las más óptimas para captar este gesto.

La captación mediante un par estereoscópico y la acción del usuario, señalando en primera persona, permite resolver positivamente todos los inconvenientes planteados en las técnicas descritas en los antecedentes:

\bullet: El usuario no requiere manipular ningún tipo de elemento físico. Por esta razón la interfaz no sufre ningún desgaste ni puede ser sometida a ningún maltrato. Esto supone una enorme ventaja en cuanto a costes de mantenimiento y a tiempo de funcionamiento.

\bullet: Al no haber elementos físicos a manipular, no existen problemas de ergonomía que puedan provocar molestias en los usuarios.

\bullet: También, la no existencia de ningún elemento físico a manipular permite que el sistema sea totalmente inalámbrico dando plena libertad al usuario. Además no requiere de ningún tipo de baterías como en los ratones inalámbricos ni sistemas de comunicación por radiofrecuencia.

\bullet: La fase de aprendizaje es extremadamente corta debido a que cualquier usuario de prácticamente cualquier cultura y sociedad sabe señalar. Esto significa que la interfaz aporta una interacción totalmente natural y la fase de adaptación se puede obviar totalmente.

\bullet: Gracias a que no se requieren marcadores de ningún tipo, el tiempo de preparación del usuario es nulo y no existen elementos incómodos. Es decir, el usuario llega, se sitúa frente a la interfaz y directamente empieza a señalar e interactuar.

\newpage

\bullet: No existen restricciones concretas de condiciones de espacio e iluminación, las cuales pueden ser fijadas adecuadamente según cada instalación concreta.

\bullet: Tampoco existen restricciones de vestimenta del usuario.

\bullet: Gracias a que este sistema no requiere de fondos constantes para poder segmentar fácilmente la figura del usuario su instalación y utilización resulta mucho más sencilla.

\bullet: La visión desde el punto de vista del usuario da una referencia clara y directa del punto al que está señalando. Es decir, se aporta una interacción en primera persona que resulta muy natural para el usuario.

\bullet: El vector director obtenido es tridimensional aunque su cálculo se realice a partir de información bidimensional. Al ser un vector director lo que se obtiene, por oposición a un punto absoluto en el espacio, éste es independiente de escala y permite que la interfaz se pueda construir a cualquier tamaño, adaptándola al tipo de aplicación y de elemento señalador de forma óptima.

\bullet: Debido a que cada captador de imágenes ve tan sólo el elemento señalador, resulta muy poco probable que aparezcan problemas de ocultación.

\bullet: Esta interfaz es fácilmente transportable e incluso puede situarse sobre algún tipo de vehículo de forma que usuario y interfaz compartan un único sistema de referencia moviéndose conjuntamente el uno con el otro. Esto aporta una potencialidad enorme para poder aplicar la interfaz a aplicaciones móviles.

Como se puede observar, la innovación de esta interfaz proviene, principalmente, de la integración concreta de sus componentes de una forma antes no realizada. La formalización y soluciones tecnológicas de esta integración definen una nueva forma de interacción persona ordenador con las ventajas arriba citadas. Esto abre enormes posibilidades de desarrollo de nuevas experiencias interactivas de gran formato y de gran volumen y flujo de usuarios en ámbitos tan diversos como la museología, ayuda a discapacitados, parques temáticos, la domótica, las presentaciones audiovisuales, etc.

Breve descripción de las figuras

Para completar la descripción que antecede y con objeto de ayudar a una mejor comprensión de las características de la invención, se va a realizar una descripción detallada de una realización preferida en base a un juego de dibujos que se acompañan a esta memoria descriptiva, y en donde con carácter meramente orientativo y no limitativo se ha representado lo siguiente:

La figura 1 muestra una vista frontal del dispositivo de la invención.

La figura 2 muestra una vista en perspectiva del dispositivo de la invención.

La figura 3 muestra una vista frontal del usuario en relación al dispositivo de la invención.

La figura 4 muestra los puntos extremos del elemento señalador (el brazo) que definen los vectores directores bidimensionales de los captadores de imagen. También muestra los elementos básicos de la geometría epipolar del sistema.

La figura 5 muestra el diagrama de flujo de las etapas esenciales del método de operación.

La figura 6 muestra una vista frontal del dispositivo de la invención con los captadores de imagen en un plano horizontal elevado.

La figura 7 muestra una vista frontal del dispositivo de la invención con los captadores de imagen en el plano del suelo.

La figura 8 muestra una vista frontal del dispositivo de la invención cuando los ejes de los captadores de imagen no forman un ángulo recto.

En las figuras anteriores las referencias numéricas corresponden a las siguientes partes y elementos;

1	Usuario.
2 y 2'	Captadores de imágenes.
3 y 3'	Ejes centrales de los captadores de imágenes.
4 y 4'	Enlaces de los captadores de imágenes al ordenador.
5	Ordenador.
6	Suelo.

7	Salida de vídeo.
8	Pantalla.
10	Elemento señalador.
11	Vector director tridimensional en coordenadas mundo.
12	Punto de intersección del vector director tridimensional en coordenadas mundo (11)
	sobre la pantalla (8).
20 y 20'	Imágenes bidimensionales.
30	Zona de captación de la interfaz.
40 y 40'	Vectores directores bidimensionales.
101 y 101'	Digitalización.
102 y 102'	Segmentación.
103 y 103'	Determinación de los puntos representativos.
104	Triangulación.
105	Transformación del vector tridimensional en coordenadas mundo.

Descripción detallada de una realización preferida

Como ejemplo de realización vamos a pasar a describir un dispositivo para señalar objetos en una pantalla, que utiliza la interfaz objeto de la presente invención:

Las figuras 1 y 2 ilustran los principales componentes de la interfaz, de acuerdo con una realización preferida de la invención, que consiste en dos captadores de imágenes, (2) y (2'), que forman un sistema de visión artificial de dos puntos, es decir, un sistema estereoscópico. Estos captadores deben estar situados sobre un mismo plano, perpendicular al suelo (6), con sus ejes centrales, (3) y (3'), convergiendo sobre un punto origen O, el cual es el origen del sistema de referencia del conjunto, y formando un ángulo recto entre sí; es decir, los dos ejes principales de los captadores son ortogonales. Con esta configuración se consigue la máxima precisión de triangulación. El sistema de referencia (figura 2) es un sistema de ejes cartesiano tridimensional (x_{M}, y_{M}, z_{M}), el cual llamaremos "ejes de mundo". Los captadores de imagen, (2) y (2'), están conectados a un ordenador (5), mediante enlaces (4) y (4'), adecuados para que los dispositivos de captura digital de imágenes del ordenador (5) puedan efectivamente digitalizar las imágenes provenientes de los captadores de imagen (2) y (2'), de forma simultánea y en tiempo real. El ordenador (5), tiene una salida de vídeo (7) hacia una pantalla (8), para dar referencia visual de la interacción.

El funcionamiento de la interfaz se basa en que el usuario (1) deberá situarse de modo que al señalar con el elemento señalador (10), en este caso su brazo, éste cruce el plano formado por los captadores de imágenes (2) y (2') y sus ejes centrales (3) y (3'). De esta forma, el elemento señalador (10) entrará en la zona de captación (30) de los captadores de imágenes (2) (2'). Así, estos captarán sus imágenes respectivas (20) y (20') (Fig. 3), en las cuales aparecerá una vista del elemento señalador (10). La imagen (20) captada por un captador (2) será la vista lateral que da referencia del movimiento vertical (arriba-abajo) del elemento señalador (10), mientras que la otra imagen (20'), captada por el otro captador (2'), será la vista cenital que da referencia del movimiento horizontal (derecha-izquierda) del elemento señalador (10). Estas imágenes bidimensionales (20) y (20') son enviadas al ordenador (5) mediante los enlaces (4) y (4') para que sean digitalizadas.

A partir de las imágenes digitalizadas del elemento señalador (10) el ordenador (5) realiza todo el proceso de análisis de las imágenes, para después realizar los cálculos necesarios hasta obtener la dirección en que señala el usuario; es decir, el vector director tridimensional en coordenadas mundo vdM (11) (ver figura 2). Una vez calculado este vector director, el ordenador (5) puede calcular el punto de intersección (12) sobre la pantalla (8) al que el usuario (1) está señalando, y colocar allí el icono de un cursor mediante el enlace de vídeo (7) que va del ordenador (5) a la pantalla (8).

A continuación se describen las etapas del método de operación del dispositivo interfaz que permiten pasar de las imágenes bidimensionales (20) y (20') captadas por los captadores de imagen (2) y (2') hasta el vector director tridimensional en coordenadas mundo vdM (11), que da la dirección en que señala el usuario (1). Ver el diagrama de flujo de la figura 5.

a) Digitalización (101) (101')

: En primer lugar, cada imagen bidimensional (20) (20'), es digitalizada por el ordenador (5) para obtener una copia de cada una en formato digital en la memoria del ordenador.

b) Segmentación (102) (102')

: Cada imagen es entonces analizada mediante algoritmos de procesado de imágenes digitales. El análisis consiste en segmentar el elemento señalador (10), es decir, aislarlo del fondo y demás elementos que aparezcan en la imagen para obtener su representación como objeto único de la imagen (ver figura 3). Esta segmentación puede ser realizada mediante cualquiera de las técnicas de segmentación conocidas para el experto en el campo del procesado de imágenes digitales; un ejemplo muy simple sería mediante la técnica de "substracción del fondo".

c) Determinación de puntos representativos (103) (103')

: Una vez segmentado el elemento señalador (10) en ambas imágenes, se detectan los puntos representativos de los ejes mayores del elemento señalador (10) en cada una. Estos puntos representativos serán típicamente los puntos extremos del brazo (ver figura 4). Estos puntos extremos definen un vector director bidimensional (40) (40'), para cada una de las imágenes bidimensionales (20) y (20'). Estas, están relacionadas entre sí por la geometría epipolar de la configuración del par estereoscópico formado por los dos captadores de imágenes (2) (2'). Ver figura 4, donde C y C' son los centros de los dos captadores y e y e' son los epipolos definidos sobre las imágenes.

d) Triangulación (104)

: El proceso de cálculo de la triangulación del vector director tridimensional en coordenadas mundo vdM (11), correspondiente a la dirección en que señala el usuario, y se basa en haber obtenido previamente la reconstrucción métrica del sistema de cámaras sin necesidad de calibrado de las mismas. Este proceso se realizaría en el momento del montaje del dispositivo de interfaz y no debería repetirse hasta que se deba reinstalar la interfaz en algún otro sitio. Es decir, sería un proceso fuera del ámbito del cálculo en tiempo real del vector director tridimensional. Los pasos genéricos de este proceso son los siguientes, que serán conocidos para cualquier persona con conocimientos de la técnica:

(i): Calcular la reconstrucción proyectiva (P, P', {X_{i}}), donde P y P' son las matrices de los captadores de imágenes, es decir, las matrices que definen la proyección que realizan en la captación de imágenes. X_{i} son los puntos que define la reconstrucción a partir de la correspondencia entre unos puntos dados en las imágenes: x_{i} \leftarrow \rightarrow x'_{i}. Los pasos para obtener esta reconstrucción proyectiva son:

\bullet: Calcular la matriz fundamental del sistema estereoscópico a partir de las correspondencias x_{i} \leftarrow \rightarrow x'_{i}, entre unos puntos determinados sobre las dos imágenes bidimensionales (20) (20').

\bullet: Calcular las matrices de las cámaras P y P' a partir de la matriz fundamental.

(ii): Rectificación de la reconstrucción proyectiva a una reconstrucción métrica por método directo; es decir, calcular la homografía H tal que X_{Ei} = H X_{i} para cinco o más puntos X_{Ei} de control con posiciones Euclídeas conocidas.

: Como quedará claro para cualquier experto en la materia, la reconstrucción proyectiva es insuficiente ya que no respeta los ángulos y en la triangulación posterior nos daría un vector director tridimensional deformado. Se requiere pues llegar a una reconstrucción métrica para que el vector director tenga la orientación correcta. Por otro lado, no es necesario llegar a una reconstrucción euclídea ya que no estamos buscando puntos exactos en el espacio físico; nos basta con tan sólo el vector director.

: Así pues, tras la etapa de segmentación (102) (102') y la etapa de determinación de los puntos representativos (103) (103') del elemento señalador (10) se pueden poner en correspondencia dichos puntos y aplicar la etapa de triangulación (104). De esta forma se obtienen dos puntos en el espacio tridimensional, según una reconstrucción métrica en coordenadas de imagen, y a partir de estos dos puntos se obtiene de forma inmediata el vector director tridimensional en coordenadas de imagen que llamaremos vdl.

: Para cualquier experto en la materia quedará claro que en lugar de aplicar una triangulación sobre los puntos determinados en cada imagen bidimensional (20) (20'), se pueden obtener los vectores directores bidimensionales (40) (40') para cada imagen (a partir de los puntos representativos obtenidos) y entonces aplicar una triangulación sobre los vectores directores bidimensionales (40) (40') en lugar de hacerlo sobre los puntos representativos. El resultado es el mismo, obteniendo un vector director tridimensional en coordenadas de imagen vdl que aún mantiene las ambigüedades Euclídeas (translación, orientación y escalado) en coordenadas mundo.

e) Transformación a coordenadas mundo (105)

: Conociendo cual es la posición global del sistema estereoscópico del dispositivo de interfaz con respecto al entorno físico en que opera (es decir, en relación a la pantalla (8) en la que se proyectan los objetos a controlar) se obtiene una matriz de transformación a coordenadas mundo, M. Con esta matriz se transforma el vector director tridimensional en coordenadas de imagen vdl en el vector director tridimensional en coordenadas mundo que se estaba buscando: vdM (11).

Una buena referencia bibliográfica para la realización de estos cálculos es el libro: Hartley,R., Zisserman, A., "Multiple View Geometry in Computer Vision", Cambridge University Press, 2001.

Será evidente para un experto en la materia que existen otras posibles realizaciones de la interfaz. Por ejemplo, por lo que se refiere a la colocación de los captadores de imágenes, 2 y 2', se puede rotar todo el conjunto -45º respecto al eje z_{M} (ver figura 6). Esta opción muestra ventajas sobre la configuración base descrita arriba en los siguientes puntos: ambos captadores de imágenes pueden sujetarse a un techo o a un único soporte horizontal superior; existen menos interferencias de objetos móviles sobre el captador de imagen lateral (2'); y da una mejor cobertura a los movimientos del elemento señalador (10).

Otra opción sería rotar todo el conjunto 135º respecto al eje z_{M} (ver figura 7). Esta opción muestra ventajas sobre la configuración base descrita arriba en los siguientes puntos: ambos captadores de imágenes pueden sujetarse a un suelo o a un único soporte horizontal inferior; existen menos interferencias de objetos móviles laterales sobre el captador lateral (2'); da una mejor cobertura a los movimientos del elemento señalador (10) y no requiere de ningún tipo de soporte por encima del usuario (1).

Una opción más sería la de orientar los captadores de forma que sus ejes centrales (3) y (3') no sean ortogonales, es decir, no formen un ángulo recto (\alpha \neq 90º) (ver figura 8). En concreto, cuando \alpha < 90º, esta opción muestra la ventaja, sobre la configuración base descrita arriba, de que los captadores de imagen (2) (2') pueden situarse más juntos, formando un sistema más compacto, aunque tiene la desventaja de que la resolución de los vectores directores obtenidos resulta menos precisa.

Por lo que respecta a la detección de la dirección de cualquier otro elemento señalador, como por ejemplo una parte del cuerpo del usuario (dedo, mano, pierna, etc.) o de cualquier objeto que lleve consigo el usuario, como por ejemplo: una muleta, una "varita mágica", un bastón, etc., la configuración esencial del sistema no se ve alterada y tan sólo requiere de una adaptación de escala y/o de posición y/o de orientación con respecto al usuario. Por lo que se refiere a los algoritmos y cálculos, tampoco supone ninguna modificación esencial.

El conjunto de la interfaz puede también situarse sobre un vehículo, de forma que el usuario y la interfaz se muevan juntos manteniendo las posiciones y orientaciones relativas entre sí. El vehículo puede ser una cinta transportadora, un vehículo con ruedas de movimiento libre o sobre raíles, una cabina de simulación, o cualquier otro sistema de desplazamiento y/o rotación. El cálculo del vector director con respecto al sistema de referencia formado por la interfaz dentro del ámbito del vehículo, no se ve alterado en absoluto. En todo caso se deberá conocer la posición y/u orientación del vehículo con respecto al entorno físico para poder transformar el vector director tridimensional vdM (11) adecuadamente y así poder saber en todo momento hacia dónde señala el usuario en relación al entorno físico. Esto puede ser de enorme utilidad en aplicaciones interactivas para parques temáticos o bien para aplicaciones de ayuda a discapacitados en sillas de ruedas.

Los captadores de imágenes (2) y (2') pueden ser cámaras de vídeo tanto analógicas como digitales, CMOS o CCD, en blanco y negro o en color, entrelazadas o progresivas, NTSC, PAL, CCIR o cualquier otro sistema de vídeo, su resolución puede variar dependiendo de la precisión requerida por el sistema y las lentes pueden variar dependiendo del área necesaria a cubrir por el sistema. Incluso, para algunas aplicaciones, pudieran ser otro tipo de captadores que operasen fuera del rango visible de la luz. Así pues, las únicas restricciones son: que puedan captar imágenes en tiempo real (típicamente 25 ó 30 imágenes por segundo según sea el sistema de vídeo) y que puedan ser conectadas a un sistema informático de captura digital de imágenes.

En aplicaciones en las que la visualización de los objetos se realiza a través de una pantalla de proyección, la correcta apreciación de las imágenes por parte del usuario depende de que haya una iluminación muy controlada en el espacio físico en el que se encuentra instalada la interfaz. Por otro lado, la interfaz requiere que el elemento señalador esté bien iluminado para que la digitalización y segmentación sean robustas. En estos casos no se puede iluminar correctamente el elemento señalador con luz visible ya que provocaría una interferencia visual con la proyección. Por lo tanto puede ser de gran utilidad utilizar una iluminación fuera del rango visible con captadores de imágenes adecuados. Un ejemplo de esto sería iluminar en el rango de los "infrarrojos cercanos" (aproximadamente de 800 nm a 950 nm de longitud de onda) para poder compensar la posible falta de iluminación en la captación sin afectar las condiciones ambientales definidas por la aplicación. Los captadores de imágenes podrían ser cámaras CCD en blanco y negro que por lo general son sensibles a este rango de frecuencias. Estas cámaras también pueden llevar adaptado un filtro que deje pasar tan sólo los infrarrojos de forma que no vean el rango visible. De esta forma todo el sistema trabajaría bajo el rango de los infrarrojos cercanos sin afectar ni la visualización ni el rendimiento.

Claims

1. Dispositivo de interfaz natural, no invasiva, para la interacción con un sistema informático que permite obtener un vector director tridimensional en coordenadas mundo (11) a partir de un elemento señalador (10), caracterizado por comprender; dos captadores de imagen (2) (2') dispuestos en un plano vertical, cuyos ejes (3) (3') se cortan en un punto con un ángulo distinto de 0º, y un ordenador (5) conectado a los dos captadores de imagen (2) (2'); de tal manera programado que permita la obtención del vector director tridimensional en coordenadas mundo (11) a partir de las imágenes bidimensionales (20) (20') suministradas por los captadores de imagen (2) (2') para señalar cualquier objeto, sea virtual o físico, que sea controlado por el sistema informático con el que se comunica la interfaz.

2. Dispositivo de interfaz natural de acuerdo con la reivindicación 1 caracterizado porque los ejes (3) (3') de los captadores de imagen (2) (2') forman un ángulo de 90º, siendo uno de ellos horizontal y el otro vertical.

3. Dispositivo de interfaz natural de acuerdo con la reivindicación 1, caracterizado porque los captadores de imagen (2) (2') son cámaras de vídeo operando en el espectro visible.

4. Dispositivo de interfaz natural de acuerdo con la reivindicación 1, caracterizado porque los captadores de imagen (2) (2') son cámaras operando fuera del espectro visible.

5. Dispositivo de interfaz natural de acuerdo con la reivindicación 4, caracterizado porque los captadores de imagen (2) (2') operan en el espectro infrarrojo.

6. Dispositivo de interfaz natural de acuerdo con la reivindicación 1, caracterizado porque el elemento señalador (10) está constituido por el brazo de un usuario (1).

7. Método de operación del dispositivo de interfaz natural de las reivindicaciones 1 a 6, caracterizado por comprender las siguientes etapas;

a): Digitalización (101) (101'); en la que partiendo de la imagen bidimensional (20) (20') suministrada por los captadores de imagen (2) (2') se obtiene una copia en formato digital en la memoria de un ordenador (5).

b): Segmentación (102) (102'); en la que el elemento señalador (10) es aislado del fondo y demás elementos que aparezcan en la imagen bidimensional (20) (20') para obtener su representación como objeto único de la imagen.

c): Determinación de puntos representativos (103) (103'); en la que se define un vector director bidimensional (40) (40') para cada una de las imágenes bidimensionales (20) y (20').

d): Triangulación (104); en la que partiendo de los dos vectores directores bidimensionales (40) (40') se obtiene un vector director tridimensional en coordenadas de imagen.

e): Transformación (105); en la que el vector director tridimensional en coordenadas de imagen da lugar al vector director tridimensional en coordenadas mundo (11).

8. Método de operación de acuerdo con la reivindicación 7, caracterizado porque la etapa de triangulación (104) para la determinación del vector director tridimensional en coordenadas de imagen comprende las siguientes subetapas;

i): Calcular la reconstrucción proyectiva (P, P', {X_{i}}), donde P y P' son las matrices de los captadores de imágenes, es decir, las matrices que definen la proyección que realizan en la captación de imágenes, siendo X_{i} los puntos que define la reconstrucción a partir de la correspondencia entre unos puntos dados en las imágenes

ii): Corrección de la reconstrucción proyectiva a una reconstrucción métrica mediante homografía.

9. Método de operación de acuerdo con la reivindicación 7, caracterizado porque la etapa de transformación (105) para la determinación del vector director tridimensional en coordenadas mundo (11) consiste en que conociendo cual es la posición global del sistema estereoscópico del dispositivo de interfaz con respecto al entorno físico en que opera (es decir, en relación a la pantalla (8) en la que se proyectan los objetos a controlar) se obtiene una matriz de transformación a coordenadas mundo, M.