ES2639862A1 - Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada - Google Patents

Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada Download PDF

Info

Publication number
ES2639862A1
ES2639862A1 ES201700463A ES201700463A ES2639862A1 ES 2639862 A1 ES2639862 A1 ES 2639862A1 ES 201700463 A ES201700463 A ES 201700463A ES 201700463 A ES201700463 A ES 201700463A ES 2639862 A1 ES2639862 A1 ES 2639862A1
Authority
ES
Spain
Prior art keywords
sound
module
sounds
spectrograms
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
ES201700463A
Other languages
English (en)
Other versions
ES2639862B1 (es
Inventor
Gonzalo Pascual RAMOS JIMÉNEZ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad de Malaga
Original Assignee
Universidad de Malaga
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad de Malaga filed Critical Universidad de Malaga
Priority to ES201700463A priority Critical patent/ES2639862B1/es
Publication of ES2639862A1 publication Critical patent/ES2639862A1/es
Application granted granted Critical
Publication of ES2639862B1 publication Critical patent/ES2639862B1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada. La invención refiere un dispositivo que comprende medios de montaje sobre la cabeza del usuario; al menos una pantalla; al menos un micrófono; al menos un altavoz; y un módulo de procesamiento de datos, dicho módulo comprendiendo sub-módulos de tratamiento de sonidos y de imágenes, y de salida de datos, y opcionalmente de posicionamiento y orientación, y responsable de, entre otros, la correlación de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad física que emite dicho sonido y la eliminación del sonido junto con la imagen correspondiente a la entidad física, así como, alternativamente, la eliminación de una imagen o de un sonido correlacionados si se elimina el sonido o la imagen correspondiente, respectivamente. La invención también refiere un método de generación de un entorno de realidad aumentada mediante el dispositivo referido.

Description

5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Dispositivo de montaje sobre la cabeza para perception de realidad aumentada.
Campo de la invencion
La presente invencion se refiere a un dispositivo de montaje sobre la cabeza de un usuario para la percepcion de realidad aumentada. En concreto se pretende que el usuario obtenga, parcialmente, una percepcion de la realidad pero con ciertas modificaciones tal y como se explicara en mayor detalle a continuation.
Antecedentes de la invencion
Son conocidos diversos dispositivos de montaje sobre la cabeza de un usuario para realidad virtual en los que el usuario tiene una percepcion visual de un escenario completamente diferente a la realidad.
Ademas, son conocidos diversos dispositivos de realidad aumentada que principalmente se refieren a anteojos que superponen ciertas imagenes sobre la realidad para dotar al usuario de una experiencia mixta entre la realidad y la virtualidad. Conforme a lo anterior, y en el contexto de la presente invencion, se entenderan comprendidas dentro del concepto de realidad aumentada evoluciones o variantes respecto de la misma, tales como realidad mixta (traduction de la expresion en ingles "mixed reality"), realidad mediada (por computador; traduccion de la expresion en ingles "(computer-)mediated reality"), realidad sustitucional (traduccion de la expresion en ingles "substitutional reality"), o realidad integrada (traduccion de la expresion en ingles "integrated reality"), por ejemplo.
Sin embargo, los dispositivos de la tecnica anterior se han enfocado exclusivamente en el aspecto visual dejando de lado, por ejemplo, el sonido por lo que la experiencia de realidad aumentada es incompleta.
Descripcion de la invencion
La presente invencion da a conocer un dispositivo de montaje sobre la cabeza para percepcion de realidad aumentada que comprende un modulo de recoleccion de imagenes, un modulo de recoleccion de sonidos, un modulo de tratamiento de datos y un modulo de salida que comprende una pantalla y altavoces.
En particular, el dispositivo de la presente invencion se caracteriza porque el modulo de tratamiento de datos dispone de diversos modulos para el tratamiento del sonido a fin de dar al usuario una experiencia completa que no solo se basa en la percepcion visual sino que le da igual importancia a la percepcion auditiva.
En concreto, la presente invencion da a conocer un dispositivo de montaje sobre la cabeza de un usuario para la percepcion de realidad aumentada que comprende:
• medios de montaje sobre la cabeza del usuario;
• al menos una pantalla;
• al menos un microfono;
• al menos un altavoz; y
5
10
15
20
25
30
35
40
45
50
• un modulo de procesamiento de datos, dicho modulo comprendiendo a su vez un sub-modulo de tratamiento de imagenes, un sub-modulo de tratamiento de sonidos y un sub-modulo de salida de datos,
comprendiendo el sub-modulo de tratamiento de sonidos medios de descomposicion de los sonidos recibidos mediante el al menos un microfono en una serie de espectrogramas y medios de correlation de dichos espectrogramas con espectrogramas de una biblioteca a fin de identificar que entidad flsica produce el sonido.
Preferentemente, la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante al menos una de las siguientes tecnicas: Template Matching, SVM, Deep Learning, y/o redes neuronales, por ejemplo perceptron multicapa MLP.
Por otra parte, la correlacion de los espectrogramas generados a partir de los sonidos recibidos puede comprender, por ejemplo, la generation de imagenes de los espectrogramas recibidos, la biblioteca comprendiendo ademas imagenes de espectrogramas. De esta manera la correlacion y analisis de los espectrogramas no se realiza en funcion de comparaciones entre seis de datos sino comparacion de imagenes.
El sub-modulo de salida de datos del dispositivo de la presente invention puede comprender medios de eliminacion de algunos sonidos cuyos espectrogramas han sido identificados. De forma analoga, el sub-modulo de salida de datos tambien puede comprender medios de adicion de sonidos, por ejemplo, sonidos almacenados en la base de datos.
Preferentemente, el sub-modulo de salida de datos comprende medios de selection de espectrogramas, medios de seleccion de imagenes y medios de transmision de las imagenes y/o espectrogramas seleccionados a al menos una pantalla y/o altavoz.
El sub-modulo de salida de datos puede estar provisto de una entrada proveniente del sub-modulo de tratamiento de imagenes, una entrada proveniente del sub-modulo de tratamiento de sonidos y dispone de medios de correlacion de al menos una de las entradas del sub-modulo de tratamiento de imagenes con al menos una de las entradas del sub-modulo de tratamiento de sonidos.
Por otra parte, el sub-modulo de salida de datos puede disponer de medios de elimination de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen. De igual manera, el sub-modulo de salida de datos puede disponer de medios de eliminacion de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.
Opcionalmente, el dispositivo objeto de la presente invencion dispone de medios de posicionamiento, por ejemplo, mediante un sistema GNSS (siglas de la expresion en ingles ''Global Navigation Satellite System", sistema global de navegacion por satelite), tal como GPS, GLONASS, Galileo, etc. Del mismo modo, el dispositivo puede disponer de medios para determinar la orientacion del dispositivo, tales como acelerometros,
Es otro objetivo de la presente invencion dar a conocer un metodo de generacion de un entorno de realidad aumentada mediante un dispositivo que comprende
• medios de montaje sobre la cabeza del usuario;
• al menos una pantalla;
5
10
15
20
25
30
35
40
45
50
al menos un microfono;
• al menos un altavoz; y
• un modulo de procesamiento de datos; que comprende las etapas de:
I. obtencion de imagenes a traves de al menos una camara;
II. obtencion de sonidos a traves de al menos un microfono;
III. procesamiento de datos que a su vez comprende la correlation de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad flsica que emite dicho sonido y la elimination del sonido junto con la imagen correspondiente a la entidad flsica; y
IV. reproduction a traves de la al menos una pantalla y/o del al menos un altavoz de las imagenes y/o sonidos que no han sido eliminadas en la etapa III.
Para la correlacion de los sonidos recibidos se pueden obtener previamente una serie de espectrogramas correspondientes a los sonidos recibidos y/o realizar alguna comparacion de los sonidos recibidos con una base de datos de sonidos.
Preferentemente, dicha base de datos de sonidos se encuentra en una memoria del dispositivo aunque, alternativamente, la base de datos de sonidos se puede encontrar en un servidor remoto al dispositivo, por ejemplo, en la nube.
Adicionalmente, la correlacion de los sonidos recibidos con una imagen recibida puede comprender el procesamiento mediante tecnicas de inteligencia artificial como, por ejemplo, Template Matching, SVM, Deep Learning, y/o redes neuronales, por ejemplo perceptron multicapa MLP.
Mas preferentemente, la etapa IV comprende la reproduccion a traves de la al menos una pantalla y/o del al menos un altavoz de al menos una imagen y/o un sonido almacenados en la base de datos y adicionales a los obtenidos en la etapa l.
Adicionalmente a la correlacion de sonidos e imagenes comprendida en la etapa III de procesamiento de datos, dicha etapa III puede comprender la eliminacion de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen, as! como la eliminacion de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.
Breve description de los dibujos
En las figuras adjuntas se muestran, de manera ilustrativa y no limitativa, dos ejemplos de realization del sistema segun la presente invention, en las que:
- La figura 1 es un ejemplo de dispositivo segun la presente invencion.
- La figura 2 es un diagrama de flujo del funcionamiento de un dispositivo segun la presente invencion, haciendo enfasis en el sub-modulo de tratamiento de sonidos del modulo de procesamiento de datos y en la interaction de dicho sub-modulo y los sub- modulos de tratamiento de imagenes y de salida de datos.
5
10
15
20
25
30
35
40
45
50
Descripcion detallada de un modo de realizacion
La figura 1 muestra un dispositivo segun la presente invention. En esta figura se observan las partes principales del dispositivo (1) que son al menos una camara (2) ubicada, por ejemplo, en la parte delantera del dispositivo a fin de obtener las imagenes de un punto determinado al que se encuentre mirando el usuario, al menos un microfono (3) para captar sonidos del ambiente y, con respecto a la salida hacia el usuario, dispone de al menos una pantalla (4) y al menos un altavoz (5).
Alternativamente, el dispositivo puede comprender camaras en los laterales (por ejemplo, una en cada lateral) y/o en la parte trasera del dispositivo a fin de permitir la captation de imagenes antes de que el usuario cambie la orientacion del dispositivo.
El dispositivo dispone de medios de montaje sobre la cabeza del usuario que pueden ser, por ejemplo, un par de patillas para su montaje sobre la cabeza del usuario o una section de un casco que cubra al menos parcialmente la cabeza y, preferentemente, las orejas del usuario y disponga de los altavoces en la vecindad de las orejas de dicho usuario, tal y como se muestra en la figura 1.
Dado que el objetivo de la presente invencion es presentar al usuario una realidad modificada, se concibe que, en un aspecto especialmente preferente de la presente invencion, se dispongan medios para que el usuario vea las imagenes seleccionadas por el dispositivo e, igualmente, escuche los sonidos seleccionados. En consecuencia, se contempla que la al menos una pantalla (4) comprendida en el dispositivo objeto de la presente invencion no permita ver al usuario a traves de ella (es decir, que no sea transparente), siendo preferentemente de tipo NED (siglas en ingles de la expresion "Near Eye Display" o pantalla cercana al ojo), asl como que, adicionalmente, en una realizacion con dos altavoces (5), estos tengan forma de auriculares del tipo "sobre la oreja" a fin de que dispongan de medios de reduction de ruido para evitar que se escuchen ruidos exteriores que puedan interferir con la information perceptible por el usuario.
Segun la presente invencion, se capturan sonidos y/o imagenes del entorno del usuario. Posteriormente, mediante medios de procesamiento de datos, se seleccionan cuales de las imagenes y/o sonidos capturados seran finalmente enviados al usuario. Adicionalmente, se contempla la posibilidad de anadir sonidos y/o imagenes provenientes de una base de datos y que no se encuentran en el entorno del usuario.
Adicionalmente, el dispositivo de la figura 1 dispone de medios de posicionamiento y orientation (6). De esta manera, se dispone de la position del dispositivo respecto a un eje de coordenadas X, Y, Z asl como la orientacion del dispositivo.
En cuanto al tratamiento de datos, el dispositivo dispone de un modulo de tratamiento de datos, preferentemente en tiempo real. Los datos que debe gestionar el dispositivo son principalmente: imagenes, sonidos, posicion y orientacion del dispositivo y salida de datos. En consecuencia, el modulo de tratamiento de datos dispone de sub-modulos para tratar cada uno de estos tipos datos.
Sub-modulo de tratamiento de imagenes (40)
El objetivo del sub-modulo de imagenes (40) es, por una parte, obtener una serie de imagenes, en concreto imagenes de lo que vena el usuario si no tuviera el dispositivo asl como de su entorno. Para esto el sub-modulo de tratamiento de imagenes dispone de
5
10
15
20
25
30
35
40
45
50
entrada de imagenes obtenidas por camaras y medios de tratamiento de dichas imagenes a fin de adaptarlas a pantallas, preferentemente tipo NED.
Preferentemente, el sub-modulo de tratamiento de imagenes puede disponer tambien de una serie de bibliotecas de objetos a fin de, entre otros, poder identificar los objetos que esta observando el usuario y poder clasificarlos en una serie de objetos conocidos. En definitiva, en la base de datos se disponen imagenes de objetos y se dispone information identificativa de cada objeto (por ejemplo, una referencia o su nombre). De esta manera, al captar la imagen de un objeto se procede a comparar con la base de datos si existen objetos similares y, si hay una coincidencia con un objeto de la base de datos, se procede a clasificar el objeto segun la informacion identificativa del mismo.
Ademas, esta identification de objetos puede dotar al dispositivo de la capacidad de dar una mayor informacion al usuario indicandole, por ejemplo mediante texto, informacion relevante respecto a los objetos que esta observando.
Otra posible utilization de la identificacion de objetos es la posibilidad de, en el submodulo de salida de datos que se describe mas adelante, eliminar la imagen de objetos reales de la informacion perceptible por el usuario; asl se puede evitar que el usuario tenga acceso a imagenes determinadas. En llnea con esta posible utilizacion, una realization preferente de la invention comprende no solo la elimination de dichas imagenes de objetos reales de dicha informacion perceptible por el usuario, sino tambien la inclusion de imagenes de objetos no reales (virtuales), almacenados y disponibles a partir de bibliotecas de objeto como las referidas anteriormente, en dicha informacion perceptibles por el usuario, asl como, en su caso, su posterior eliminacion.
En un ejemplo de realizacion, el usuario observa en su entorno una maquina. En primer lugar, se capta la imagen de la maquina y se procede a consultar la base de datos para localizar imagenes similares. Las imagenes de la base de datos estan relacionadas con al menos un campo referente a informacion identificativa, por ejemplo, que es un objeto realizado por el hombre. En consecuencia, el dispositivo procede a marcar la imagen obtenida con la informacion de que es un objeto realizado por el hombre.
Tras identificar la imagen, el dispositivo puede estar configurado, por ejemplo, para eliminar todos los objetos realizados por el hombre por lo que, en el sub-modulo de salida, se eliminarla dicha imagen.
Adicionalmente, en el sub-modulo de salida se podrla reemplazar dicha imagen anadiendo, por ejemplo, una planta en su lugar a fin de evitar que el usuario pueda tropezar al moverse haciendo uso del dispositivo.
Sub-modulo de tratamiento de sonidos (20)
El sub-modulo de tratamiento de sonidos (20) incluye la captation del sonido entrante que es captado, preferentemente, a traves del al menos un microfono (3) del dispositivo. Para la captacion de sonido ambiente, el dispositivo puede comprender dos o mas microfonos (3) dispuestos, por ejemplo, en los laterales del dispositivo. Alternativamente, dichos microfonos pueden, ademas, detectar la direction del sonido recibido, en el caso de microfonos direccionales. Alternativamente, los medios de procesamiento de datos pueden comprender medios de tratamiento de sonidos para identificar una posicion estimada de la proveniencia del sonido.
Una vez captado el sonido, se procede a la realizacion de un filtrado del ruido (21). El filtrado del ruido puede realizarse mediante cualquiera de las tecnicas conocidas y
5
10
15
20
25
30
35
40
45
50
comprendidas en el estado de la tecnica, tales como el uso de un filtro Wiener, alternativamente, la presente invention contempla la utilization tambien tecnicas de Inteligencia Artificial (IA) similares a las que se usaran en las siguientes fases del procesamiento.
Otra de las etapas que contempla la presente invencion se refiere a la descomposicion e identification de sonidos (22). El objetivo de esta etapa es discernir entre los diferentes sonidos detectados y, una vez clasificados poder identificar a que corresponden los sonidos detectados.
La presente invencion contempla la descomposicion por frecuencias del sonido a fin de tener para cada sonido un espectrograma que comprende al menos la frecuencia y la intensidad. Una vez se dispone de la descomposicion de cada sonido en frecuencias e intensidades se procede a utilizar algoritmos de inteligencia artificial.
En concreto, la descomposicion de e identificacion de sonidos (22) se realiza a partir del espectrograma de frecuencias e intensidad, y por medio de distintas tecnicas de Aprendizaje Automatico, tales como Deep Learning, Template Matching, SVM (siglas de la expresion en ingles "Support Vector Machines"), y otros tipos de redes neuronales.
Una vez se dispone del espectrograma se procede a clasificar los sonidos entrantes y diferenciarlos unos de otros. Dichas tecnicas utilizaran una base de datos de sonidos, alternativamente, dicha base de datos de sonido puede ser una base de sonidos accesible mediante internet. Las tecnicas mencionadas son complementarias, de manera que combinaciones entre ellas tambien son posibles para realizar la citada descomposicion e identificacion.
Con el fin de clasificar los sonidos, mediante Template Matching es posible identificar que tan parecidos son dos espectrogramas de datos. En consecuencia, se pueden comparar los sonidos recibidos con una base de datos de sonidos (26), estando dicha base de datos de sonidos almacenada en el dispositivo o, alternativamente, en un servidor y accediendo a ellos, preferentemente en tiempo real o casi real.
Por otra parte las SVM (siglas de la expresion en ingles "Support Vector Machines") indican que probabilidad hay de que cada sonido entrante se corresponda con alguno de los almacenados en la base de datos de sonidos (26). Para ello se generan los vectores del sonido, a partir del espectrograma, y se comparan con los vectores disponibles.
Las redes neuronales (p.e. perceptron multicapa - MLP) tambien trabajan con vectores y se pueden utilizar como unico mecanismo de identificacion o en combination con otras tecnicas para complementar la information. Ademas, si bien su entrenamiento suele ser mas lento, su aplicacion para clasificar suele ser muy rapida, lo cual nos conviene en vistas a trabajar en tiempo real.
En el caso de las redes neuronales, para su entrenamiento se puede hacer enfasis en diferentes propiedades del sonido, en particular, es especialmente ventajosa la utilizacion del par frecuencia-intensidad para identificar a que corresponde cada sonido. Alternativamente, ante un par frecuencia-intensidad desconocido se puede preguntar al usuario que sonido es para que el usuario lo identifique y la red neuronal tenga un aprendizaje continuo, una vez el usuario ha identificado un sonido nuevo se puede incorporar a la base de datos de sonidos (26) o mejorar el algoritmo en caso de que ya estuviese almacenado mediante el entrenamiento de la red neuronal.
5
10
15
20
25
30
35
40
45
50
En una realization especialmente preferentemente, la tecnica para identificar a que corresponde cada sonido captado es mediante Deep Learning, utilizando los espectrogramas como imagenes sobre las que aprender.
Un detalle destacable es que si bien las fases de aprendizaje (y por tanto entrenamiento) de los algoritmos de aprendizaje citados pueden durar un cierto tiempo, lo importante es que la fase de aplicacion de la aprendido (prediction o clasificacion) si puede hacerse muy rapido, incluso en tiempo real o casi real.
Dichos espectrogramas, posteriormente, pasan por una fase de ponderacion para obtener la descomposicion e identification de los sonidos. Estos resultados se pasarlan a la siguiente fase, la de elimination de sonidos, pero a su vez tambien se le pasarla un informe de dichos resultados a los procesos que controlan los requerimientos de la realidad integrada. Estos datos se procesaran en el sub-modulo de salida de datos (30) a fin de determinar que sonidos han de mantenerse, cuales han de eliminarse (en la fase de elimination de sonidos (23)) y cuales nuevos han de incorporarse (en la fase de inclusion de sonidos (24)).
Volviendo al ejemplo de realization en base al que se explico el sub-modulo de tratamiento de imagenes, el microfono del dispositivo capta la sumatoria de una pluralidad de sonidos que se encuentran en el ambiente. Mediante los medios de filtrado se eliminan, por ejemplo, sonidos que no son interesantes para su procesamiento y que pueden considerarse como ruido.
Mediante la descomposicion por frecuencias se separan los sonidos a fin de obtener, por ejemplo, el sonido correspondiente a una maquina tal como un coche o sonidos de aves. Para cada uno de estos sonidos se obtiene un espectrograma en el que se pueden identificar las frecuencias asl como las intensidades de sonido en cada una de dichas frecuencias.
Para al menos uno de dichos espectrogramas se realiza una busqueda y una comparacion con sonidos almacenados en la base de datos a fin de identificar a que objeto corresponde dicho espectrograma.
Retornando al ejemplo anterior se habra identificado que un sonido corresponde a un coche y otro sonido corresponde a un ave.
Sub-modulo de posicionamiento y orientation del dispositivo
El dispositivo objeto de la presente invention dispone de medios de posicionamiento, por ejemplo, mediante un sistema GNSS (siglas de la expresion en ingles "Global Navigation Satellite System", sistema global de navegacion por satelite), tal como GPS, GLONASS, Galileo, etc.
Adicionalmente, el sistema dispone de medios para determinar la orientation del dispositivo, en particular mediante acelerometros, Alternativamente se podrlan utilizar unidades de medicion de inercia (IMU) o otros tipos de sensores tridimensionales de orientation mas complejos como AHRS (siglas de la expresion en ingles "Attitude and Heading Reference System").
En una realizacion preferente de la invencion, el dispositivo puede determinar la posicion (X, Y, Z) mediante un sistema de geo posicionamiento (por ejemplo, un sistema GNSS). Adicionalmente, el dispositivo puede conocer su orientation (direction, elevation, angulo de alabeo) mediante al menos un acelerometro.
5
10
15
20
25
30
35
En un ejemplo de realization de la presente invention, el sistema dispone de un mapa virtual geo-referenciado, de manera que el sistema dispone de information posicional del usuario (mediante dichos medios de posicionamiento) y emite a traves del modulo de salida al menos parcialmente imagenes de dicho mapa virtual geo-referenciado.
Sub-modulo de salida de datos (30)
Los datos de entrada al sub-modulo de salida de datos (30) comprenden, al menos, unas imagenes previamente identificadas en el sub-modulo de tratamiento de imagenes y unos sonidos previamente identificados en el sub-modulo de tratamiento de sonidos.
En el sub-modulo de salida de datos se procede a correlacionar las imagenes captadas con los sonidos captados mediante la informacion identificativa obtenida de las bases de datos, si bien se contempla la posible gestion de imagenes y sonidos que no precisan o para los que no se desea realizar correlation alguna con sonidos o imagenes, respectivamente.
Por ejemplo, volviendo a los ejemplos anteriores, mediante las camaras se ha obtenido una imagen que, tras el procesamiento de dicha imagen en el sub-modulo de tratamiento de imagenes se ha identificado que corresponde a una maquina. Por otra parte, del submodulo de tratamiento de sonidos se ha identificado que hay un sonido correspondiente a un coche y un sonido correspondiente a un ave.
El sub-modulo de salida analiza las referencias identificativas y correlaciona el espectrograma correspondiente al coche con la imagen captada de la maquina de manera que, si los requerimientos del sistema requieren la elimination de la maquina, el sub-modulo de salida no solo elimina la imagen de la maquina sino el sonido correspondiente a la misma.
Alternativamente, el sub-modulo de salida puede incluir la imagen de un ave (por ejemplo, obteniendola de la base de datos) ya que ha identificado que hay un sonido que corresponde a la misma.
Finalmente, el sub-modulo de salida dispone de medios de comunicacion con la al menos una pantalla (4), y el al menos un altavoz (5) a fin de enviar las imagenes y/o sonidos determinados.

Claims (25)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    1. Dispositivo de montaje sobre la cabeza de un usuario para la perception de realidad aumentada que comprende:
    • medios de montaje sobre la cabeza del usuario;
    • al menos una pantalla;
    • al menos un microfono;
    • al menos un altavoz; y
    • un modulo de procesamiento de datos, dicho modulo comprendiendo a su vez un sub-modulo de tratamiento de Imagenes, un sub-modulo de tratamiento de sonidos y un sub-modulo de salida de datos,
    caracterizado por que el sub-modulo de tratamiento de sonidos comprende medios de descomposicion de los sonidos recibidos mediante el al menos un microfono en una serie de espectrogramas y medios de correlation de dichos espectrogramas con espectrogramas de una biblioteca a fin de identificar que entidad flsica produce el sonido.
  2. 2. Dispositivo segun la reivindicacion 1 caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante Template Matching.
  3. 3. Dispositivo segun la reivindicacion 1 caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante redes neuronales.
  4. 4. Dispositivo segun la reivindicacion 1 caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante SVM.
  5. 5. Dispositivo segun la reivindicacion 1 caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante perceptron multicapa MLP.
  6. 6. Dispositivo segun la reivindicacion 1 caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante Deep Learning.
  7. 7. Dispositivo segun cualquiera de las reivindicaciones anteriores caracterizado por que la correlacion de los espectrogramas generados a partir de los sonidos recibidos comprende la generation de imagenes de los espectrogramas recibidos y, ademas, la biblioteca comprende imagenes de espectrogramas.
  8. 8. Dispositivo segun cualquiera de las reivindicaciones anteriores caracterizado por que el sub-modulo de salida de datos comprende medios de elimination de algunos sonidos cuyos espectrogramas han sido identificados.
  9. 9. Dispositivo segun cualquiera de las reivindicaciones anteriores caracterizado por que el sub-modulo de salida de datos comprende medios de adicion de sonidos.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
  10. 10. Dispositivo segun cualquiera de las reivindicaciones anteriores caracterizado porque el sub-modulo de salida de datos comprende medios de selection de espectrogramas, medios de seleccion de imagenes y medios de transmision de las imagenes y/o espectrogramas seleccionados a al menos una pantalla y/o altavoz.
  11. 11. Dispositivo segun cualquiera de las reivindicaciones anteriores caracterizado porque el sub-modulo de salida de datos dispone de una entrada proveniente del sub-modulo de tratamiento de imagenes, una entrada proveniente del sub-modulo de tratamiento de sonidos y dispone de medios de correlation de al menos una de las entradas del submodulo de tratamiento de imagenes con al menos una de las entradas del sub-modulo de tratamiento de sonidos.
  12. 12. Dispositivo segun la reivindicacion 11 caracterizado por que el sub-modulo de salida de datos dispone de medios de elimination de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen.
  13. 13. Dispositivo segun la reivindicacion 11 caracterizado por que el sub-modulo de salida de datos dispone de medios de eliminacion de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.
  14. 14. Dispositivo segun cualquiera de las reivindicaciones 1 a 13 caracterizado por que el modulo de procesamiento de datos comprende ademas un sub-modulo de posicionamiento y orientation del dispositivo.
  15. 15. Metodo de generation de un entorno de realidad aumentada en un dispositivo de acuerdo a cualquiera de las reivindicaciones 1 a 14 caracterizado por que comprende las etapas de:
    I. obtencion de imagenes a traves de al menos una camara;
    II. obtencion de sonidos a traves de al menos un microfono;
    III. procesamiento de datos que a su vez comprende la correlacion de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad flsica que emite dicho sonido y la eliminacion del sonido junto con la imagen correspondiente a la entidad flsica; y
    IV. reproduction a traves de la al menos una pantalla y/o del al menos un altavoz de las imagenes y/o sonidos que no han sido eliminadas en la etapa III.
  16. 16. Metodo segun la reivindicacion 15 caracterizado por que para la correlacion de los sonidos recibidos se obtienen previamente una serie de espectrogramas correspondientes a los sonidos recibidos.
  17. 17. Metodo segun cualquiera de las reivindicaciones 15 o 16 caracterizado por que para la correlacion de los sonidos recibidos comprende una comparacion con una base de datos de sonidos.
  18. 18. Metodo segun la reivindicacion 17 caracterizado por que la base de datos de sonidos se encuentra en un servidor remoto al dispositivo.
  19. 19. Metodo segun cualquiera de las reivindicaciones 15 a 18 caracterizado por que la correlacion de los sonidos recibidos con una imagen recibida comprenden el procesamiento mediante redes neuronales.

  20. 20. Metodo segun cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

    correlacion de los sonidos recibidos con una imagen recibida comprenden el
    procesamiento mediante SVM.

    5 21. Metodo segun cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

    correlacion de los sonidos recibidos con una imagen recibida comprenden el
    procesamiento mediante perceptron multicapa.
  21. 22. Metodo segun cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

    10 correlacion de los sonidos recibidos con una imagen recibida comprenden el
    procesamiento mediante Deep Learning.
  22. 23. Metodo segun cualquiera de las reivindicaciones 15 a 22 caracterizado porque la etapa IV comprende la reproduction a traves de la al menos una pantalla y/o del al
    15 menos un altavoz de al menos una imagen y/o un sonido almacenados en la base de datos adicionales a los obtenidos en la etapa l.
  23. 24. Metodo segun cualquiera de las reivindicaciones 15 a 23 caracterizado por que la etapa III comprende la elimination de una imagen correlacionada con un sonido si se
    20 elimina el sonido correspondiente a dicha imagen.
  24. 25. Metodo segun cualquiera de las reivindicaciones 15 a 24 caracterizado por que la etapa III comprende la eliminacion de un sonido correlacionado con una imagen si se elimina la imagen correspondiente a dicho sonido.
    25
  25. 26. Metodo segun cualquiera de las reivindicaciones 15 a 25 caracterizado por que comprende la incorporacion o asociacion de datos de posicionamiento y orientacion a los datos procesados en la etapa III.
ES201700463A 2017-03-31 2017-03-31 Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada Active ES2639862B1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES201700463A ES2639862B1 (es) 2017-03-31 2017-03-31 Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201700463A ES2639862B1 (es) 2017-03-31 2017-03-31 Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada

Publications (2)

Publication Number Publication Date
ES2639862A1 true ES2639862A1 (es) 2017-10-30
ES2639862B1 ES2639862B1 (es) 2018-09-10

Family

ID=60151146

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201700463A Active ES2639862B1 (es) 2017-03-31 2017-03-31 Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada

Country Status (1)

Country Link
ES (1) ES2639862B1 (es)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4952931A (en) * 1987-01-27 1990-08-28 Serageldin Ahmedelhadi Y Signal adaptive processor
US7676372B1 (en) * 1999-02-16 2010-03-09 Yugen Kaisha Gm&M Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US20150279109A1 (en) * 2010-12-22 2015-10-01 Intel Corporation Object mapping techniques for mobile augmented reality applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4952931A (en) * 1987-01-27 1990-08-28 Serageldin Ahmedelhadi Y Signal adaptive processor
US7676372B1 (en) * 1999-02-16 2010-03-09 Yugen Kaisha Gm&M Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US20150279109A1 (en) * 2010-12-22 2015-10-01 Intel Corporation Object mapping techniques for mobile augmented reality applications

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Sigtia Siddharth et al. AUTOMATIC ENVIRONMENTAL SOUND RECOGNITION: PERFORMANCE VERSUS COMPUTATIONAL COST. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 20161101 IEEE, USA. , 01/11/2016, Vol. 24, Nº 11, Páginas 2096 - 2107 [en línea][recuperado el 16/10/2017]. Recuperado de Internet (URL:URL://http://ieeexplore.ieee.org/abstract/document/7515194/), ISSN 2329-9290, (DOI: doi:10.1109/TASLP.2016.2592698) Apartado II *
Wikipedia. DEEP LEARNING. 29/03/2017, [en línea][recuperado el 16/10/2017]. Recuperado de Internet (URL:https://en.wikipedia.org/w/index.php?title=Deep_learning&oldid=772888814 ), *
Wikipedia. LEARNING VECTOR QUANTIZATION. 26/10/2016, [en línea][recuperado el 16/10/2017]. Recuperado de Internet (URL:https://en.wikipedia.org/w/index.php?title=Learning_vector_quantization&oldid=746220062 ), *

Also Published As

Publication number Publication date
ES2639862B1 (es) 2018-09-10

Similar Documents

Publication Publication Date Title
US10279739B2 (en) Modifying an audio panorama to indicate the presence of danger or other events of interest
US20240105156A1 (en) Adaptive anc based on environmental triggers
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
US20130250078A1 (en) Visual aid
US9298994B2 (en) Detecting visual inattention based on eye convergence
KR102358274B1 (ko) 동적 환경에서의 좌표 프레임의 결정
US10038966B1 (en) Head-related transfer function (HRTF) personalization based on captured images of user
CN106575039B (zh) 具有确定用户眼镜特性的眼睛跟踪设备的平视显示器
US20160080874A1 (en) Gaze-based audio direction
US9554229B2 (en) Amplifying audio-visual data based on user's head orientation
Tapu et al. A survey on wearable devices used to assist the visual impaired user navigation in outdoor environments
JP7284252B2 (ja) Arにおける自然言語翻訳
CA2898750A1 (en) Devices and methods for the visualization and localization of sound
US10645297B2 (en) System, method, and program for adjusting angle of camera
CN116134838A (zh) 使用个性化声音简档的音频系统
KR20220050215A (ko) 개별화된 공간 오디오 생성을 위한 빔포밍을 통한 귓바퀴 정보 추론
ES2639862B1 (es) Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada
CN112751582A (zh) 用于交互的可穿戴装置、交互方法及设备、存储介质
ES2692828T3 (es) Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición
Nguyen et al. A vision aid for the visually impaired using commodity dual-rear-camera smartphones
CN107334609B (zh) 一种向目标对象播放音频信息的系统和方法
CN115428421A (zh) 用于提供增强现实内容的设备和方法
FR3038101A1 (fr) Procede de guidage d'un individu et systeme de navigation
US10694567B1 (en) Systems and methods for establishing a data connection
JP7384222B2 (ja) 情報処理装置、制御方法及びプログラム

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2639862

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20180910