ES2639862B1

ES2639862B1 - Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada

Info

Publication number: ES2639862B1
Application number: ES201700463A
Authority: ES
Inventors: Gonzalo Pascual RAMOS JIMÉNEZ
Original assignee: Universidad de Malaga
Current assignee: Universidad de Malaga
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-09-10
Anticipated expiration: 2037-03-31
Also published as: ES2639862A1

Abstract

Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada. La invención refiere un dispositivo que comprende medios de montaje sobre la cabeza del usuario; al menos una pantalla; al menos un micrófono; al menos un altavoz; y un módulo de procesamiento de datos, dicho módulo comprendiendo sub-módulos de tratamiento de sonidos y de imágenes, y de salida de datos, y opcionalmente de posicionamiento y orientación, y responsable de, entre otros, la correlación de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad física que emite dicho sonido y la eliminación del sonido junto con la imagen correspondiente a la entidad física, así como, alternativamente, la eliminación de una imagen o de un sonido correlacionados si se elimina el sonido o la imagen correspondiente, respectivamente. La invención también refiere un método de generación de un entorno de realidad aumentada mediante el dispositivo referido.

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCIÓN

Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada.

Campo de la invención

La presente invención se refiere a un dispositivo de montaje sobre la cabeza de un usuario para la percepción de realidad aumentada. En concreto se pretende que el usuario obtenga, parcialmente, una percepción de la realidad pero con ciertas modificaciones tal y como se explicará en mayor detalle a continuación.

Antecedentes de la invención

Son conocidos diversos dispositivos de montaje sobre la cabeza de un usuario para realidad virtual en los que el usuario tiene una percepción visual de un escenario completamente diferente a la realidad.

Además, son conocidos diversos dispositivos de realidad aumentada que principalmente se refieren a anteojos que superponen ciertas imágenes sobre la realidad para dotar al usuario de una experiencia mixta entre la realidad y la virtualidad. Conforme a lo anterior, y en el contexto de la presente invención, se entenderán comprendidas dentro del concepto de realidad aumentada evoluciones o variantes respecto de la misma, tales como realidad mixta (traducción de la expresión en inglés "mixed reality"), realidad mediada (por computador; traducción de la expresión en inglés "(computer-)mediated reality"), realidad sustitucional (traducción de la expresión en inglés "substitutional reality"), o realidad integrada (traducción de la expresión en inglés "integrated reality"), por ejemplo.

Sin embargo, los dispositivos de la técnica anterior se han enfocado exclusivamente en el aspecto visual dejando de lado, por ejemplo, el sonido por lo que la experiencia de realidad aumentada es incompleta.

Descripción de la invención

La presente invención da a conocer un dispositivo de montaje sobre la cabeza para percepción de realidad aumentada que comprende un módulo de recolección de imágenes, un módulo de recolección de sonidos, un módulo de tratamiento de datos y un módulo de salida que comprende una pantalla y altavoces.

En particular, el dispositivo de la presente invención se caracteriza porque el módulo de tratamiento de datos dispone de diversos módulos para el tratamiento del sonido a fin de dar al usuario una experiencia completa que no solo se basa en la percepción visual sino que le da igual importancia a la percepción auditiva.

En concreto, la presente invención da a conocer un dispositivo de montaje sobre la cabeza de un usuario para la percepción de realidad aumentada que comprende:

• medios de montaje sobre la cabeza del usuario;

• al menos una pantalla;

• al menos un micrófono;

• al menos un altavoz; y

5

10

15

20

25

30

35

40

45

50

• un módulo de procesamiento de datos, dicho módulo comprendiendo a su vez un sub-módulo de tratamiento de imágenes, un sub-módulo de tratamiento de sonidos y un sub-módulo de salida de datos,

comprendiendo el sub-módulo de tratamiento de sonidos medios de descomposición de los sonidos recibidos mediante el al menos un micrófono en una serie de espectrogramas y medios de correlación de dichos espectrogramas con espectrogramas de una biblioteca a fin de identificar qué entidad física produce el sonido.

Preferentemente, la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante al menos una de las siguientes técnicas: Template Matching, SVM, Deep Learning, y/o redes neuronales, por ejemplo perceptrón multicapa MLP.

Por otra parte, la correlación de los espectrogramas generados a partir de los sonidos recibidos puede comprender, por ejemplo, la generación de imágenes de los espectrogramas recibidos, la biblioteca comprendiendo además imágenes de espectrogramas. De esta manera la correlación y análisis de los espectrogramas no se realiza en función de comparaciones entre seis de datos sino comparación de imágenes.

El sub-módulo de salida de datos del dispositivo de la presente invención puede comprender medios de eliminación de algunos sonidos cuyos espectrogramas han sido identificados. De forma análoga, el sub-módulo de salida de datos también puede comprender medios de adición de sonidos, por ejemplo, sonidos almacenados en la base de datos.

Preferentemente, el sub-módulo de salida de datos comprende medios de selección de espectrogramas, medios de selección de imágenes y medios de transmisión de las imágenes y/o espectrogramas seleccionados a al menos una pantalla y/o altavoz.

El sub-módulo de salida de datos puede estar provisto de una entrada proveniente del sub-módulo de tratamiento de imágenes, una entrada proveniente del sub-módulo de tratamiento de sonidos y dispone de medios de correlación de al menos una de las entradas del sub-módulo de tratamiento de imágenes con al menos una de las entradas del sub-módulo de tratamiento de sonidos.

Por otra parte, el sub-módulo de salida de datos puede disponer de medios de eliminación de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen. De igual manera, el sub-módulo de salida de datos puede disponer de medios de eliminación de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.

Opcionalmente, el dispositivo objeto de la presente invención dispone de medios de posicionamiento, por ejemplo, mediante un sistema GNSS (siglas de la expresión en inglés ''Global Navigation Satellite System", sistema global de navegación por satélite), tal como GPS, GLONASS, Galileo, etc. Del mismo modo, el dispositivo puede disponer de medios para determinar la orientación del dispositivo, tales como acelerómetros,

Es otro objetivo de la presente invención dar a conocer un método de generación de un entorno de realidad aumentada mediante un dispositivo que comprende

• medios de montaje sobre la cabeza del usuario;

• al menos una pantalla;

5

10

15

20

25

30

35

40

45

50

• al menos un micrófono;

• al menos un altavoz; y

• un módulo de procesamiento de datos; que comprende las etapas de:

I. obtención de imágenes a través de al menos una cámara;

II. obtención de sonidos a través de al menos un micrófono;

III. procesamiento de datos que a su vez comprende la correlación de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad física que emite dicho sonido y la eliminación del sonido junto con la imagen correspondiente a la entidad física; y

IV. reproducción a través de la al menos una pantalla y/o del al menos un altavoz de las imágenes y/o sonidos que no han sido eliminadas en la etapa III.

Para la correlación de los sonidos recibidos se pueden obtener previamente una serie de espectrogramas correspondientes a los sonidos recibidos y/o realizar alguna comparación de los sonidos recibidos con una base de datos de sonidos.

Preferentemente, dicha base de datos de sonidos se encuentra en una memoria del dispositivo aunque, alternativamente, la base de datos de sonidos se puede encontrar en un servidor remoto al dispositivo, por ejemplo, en la nube.

Adicionalmente, la correlación de los sonidos recibidos con una imagen recibida puede comprender el procesamiento mediante técnicas de inteligencia artificial como, por ejemplo, Template Matching, SVM, Deep Learning, y/o redes neuronales, por ejemplo perceptrón multicapa MLP.

Más preferentemente, la etapa IV comprende la reproducción a través de la al menos una pantalla y/o del al menos un altavoz de al menos una imagen y/o un sonido almacenados en la base de datos y adicionales a los obtenidos en la etapa l.

Adicionalmente a la correlación de sonidos e imágenes comprendida en la etapa III de procesamiento de datos, dicha etapa III puede comprender la eliminación de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen, así como la eliminación de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.

Breve descripción de los dibujos

En las figuras adjuntas se muestran, de manera ilustrativa y no limitativa, dos ejemplos de realización del sistema según la presente invención, en las que:

- La figura 1 es un ejemplo de dispositivo según la presente invención.

- La figura 2 es un diagrama de flujo del funcionamiento de un dispositivo según la presente invención, haciendo énfasis en el sub-módulo de tratamiento de sonidos del módulo de procesamiento de datos y en la interacción de dicho sub-módulo y los submódulos de tratamiento de imágenes y de salida de datos.

5

10

15

20

25

30

35

40

45

50

Descripción detallada de un modo de realización

La figura 1 muestra un dispositivo según la presente invención. En esta figura se observan las partes principales del dispositivo (1) que son al menos una cámara (2) ubicada, por ejemplo, en la parte delantera del dispositivo a fin de obtener las imágenes de un punto determinado al que se encuentre mirando el usuario, al menos un micrófono (3) para captar sonidos del ambiente y, con respecto a la salida hacia el usuario, dispone de al menos una pantalla (4) y al menos un altavoz (5).

Alternativamente, el dispositivo puede comprender cámaras en los laterales (por ejemplo, una en cada lateral) y/o en la parte trasera del dispositivo a fin de permitir la captación de imágenes antes de que el usuario cambie la orientación del dispositivo.

El dispositivo dispone de medios de montaje sobre la cabeza del usuario que pueden ser, por ejemplo, un par de patillas para su montaje sobre la cabeza del usuario o una sección de un casco que cubra al menos parcialmente la cabeza y, preferentemente, las orejas del usuario y disponga de los altavoces en la vecindad de las orejas de dicho usuario, tal y como se muestra en la figura 1.

Dado que el objetivo de la presente invención es presentar al usuario una realidad modificada, se concibe que, en un aspecto especialmente preferente de la presente invención, se dispongan medios para que el usuario vea las imágenes seleccionadas por el dispositivo e, igualmente, escuche los sonidos seleccionados. En consecuencia, se contempla que la al menos una pantalla (4) comprendida en el dispositivo objeto de la presente invención no permita ver al usuario a través de ella (es decir, que no sea transparente), siendo preferentemente de tipo NED (siglas en inglés de la expresión "Near Eye Display" o pantalla cercana al ojo), así como que, adicionalmente, en una realización con dos altavoces (5), éstos tengan forma de auriculares del tipo "sobre la oreja" a fin de que dispongan de medios de reducción de ruido para evitar que se escuchen ruidos exteriores que puedan interferir con la información perceptible por el usuario.

Según la presente invención, se capturan sonidos y/o imágenes del entorno del usuario. Posteriormente, mediante medios de procesamiento de datos, se seleccionan cuáles de las imágenes y/o sonidos capturados serán finalmente enviados al usuario. Adicionalmente, se contempla la posibilidad de añadir sonidos y/o imágenes provenientes de una base de datos y que no se encuentran en el entorno del usuario.

Adicionalmente, el dispositivo de la figura 1 dispone de medios de posicionamiento y orientación (6). De esta manera, se dispone de la posición del dispositivo respecto a un eje de coordenadas X, Y, Z así como la orientación del dispositivo.

En cuanto al tratamiento de datos, el dispositivo dispone de un módulo de tratamiento de datos, preferentemente en tiempo real. Los datos que debe gestionar el dispositivo son principalmente: imágenes, sonidos, posición y orientación del dispositivo y salida de datos. En consecuencia, el módulo de tratamiento de datos dispone de sub-módulos para tratar cada uno de estos tipos datos.

Sub-módulo de tratamiento de imágenes (40)

El objetivo del sub-módulo de imágenes (40) es, por una parte, obtener una serie de imágenes, en concreto imágenes de lo que vería el usuario si no tuviera el dispositivo así como de su entorno. Para esto el sub-módulo de tratamiento de imágenes dispone de

5

10

15

20

25

30

35

40

45

50

entrada de imágenes obtenidas por cámaras y medios de tratamiento de dichas imágenes a fin de adaptarlas a pantallas, preferentemente tipo NED.

Preferentemente, el sub-módulo de tratamiento de imágenes puede disponer también de una serie de bibliotecas de objetos a fin de, entre otros, poder identificar los objetos que está observando el usuario y poder clasificarlos en una serie de objetos conocidos. En definitiva, en la base de datos se disponen imágenes de objetos y se dispone información identificativa de cada objeto (por ejemplo, una referencia o su nombre). De esta manera, al captar la imagen de un objeto se procede a comparar con la base de datos si existen objetos similares y, si hay una coincidencia con un objeto de la base de datos, se procede a clasificar el objeto según la información identificativa del mismo.

Además, esta identificación de objetos puede dotar al dispositivo de la capacidad de dar una mayor información al usuario indicándole, por ejemplo mediante texto, información relevante respecto a los objetos que está observando.

Otra posible utilización de la identificación de objetos es la posibilidad de, en el submódulo de salida de datos que se describe más adelante, eliminar la imagen de objetos reales de la información perceptible por el usuario; así se puede evitar que el usuario tenga acceso a imágenes determinadas. En línea con esta posible utilización, una realización preferente de la invención comprende no sólo la eliminación de dichas imágenes de objetos reales de dicha información perceptible por el usuario, sino también la inclusión de imágenes de objetos no reales (virtuales), almacenados y disponibles a partir de bibliotecas de objeto como las referidas anteriormente, en dicha información perceptibles por el usuario, así como, en su caso, su posterior eliminación.

En un ejemplo de realización, el usuario observa en su entorno una máquina. En primer lugar, se capta la imagen de la máquina y se procede a consultar la base de datos para localizar imágenes similares. Las imágenes de la base de datos están relacionadas con al menos un campo referente a información identificativa, por ejemplo, que es un objeto realizado por el hombre. En consecuencia, el dispositivo procede a marcar la imagen obtenida con la información de que es un objeto realizado por el hombre.

Tras identificar la imagen, el dispositivo puede estar configurado, por ejemplo, para eliminar todos los objetos realizados por el hombre por lo que, en el sub-módulo de salida, se eliminarla dicha imagen.

Adicionalmente, en el sub-módulo de salida se podría reemplazar dicha imagen añadiendo, por ejemplo, una planta en su lugar a fin de evitar que el usuario pueda tropezar al moverse haciendo uso del dispositivo.

Sub-módulo de tratamiento de sonidos (20)

El sub-módulo de tratamiento de sonidos (20) incluye la captación del sonido entrante que es captado, preferentemente, a través del al menos un micrófono (3) del dispositivo. Para la captación de sonido ambiente, el dispositivo puede comprender dos o más micrófonos (3) dispuestos, por ejemplo, en los laterales del dispositivo. Alternativamente, dichos micrófonos pueden, además, detectar la dirección del sonido recibido, en el caso de micrófonos direccionales. Alternativamente, los medios de procesamiento de datos pueden comprender medios de tratamiento de sonidos para identificar una posición estimada de la proveniencia del sonido.

Una vez captado el sonido, se procede a la realización de un filtrado del ruido (21). El filtrado del ruido puede realizarse mediante cualquiera de las técnicas conocidas y

5

10

15

20

25

30

35

40

45

50

comprendidas en el estado de la técnica, tales como el uso de un filtro Wiener, alternativamente, la presente invención contempla la utilización también técnicas de Inteligencia Artificial (IA) similares a las que se usarán en las siguientes fases del procesamiento.

Otra de las etapas que contempla la presente invención se refiere a la descomposición e identificación de sonidos (22). El objetivo de esta etapa es discernir entre los diferentes sonidos detectados y, una vez clasificados poder identificar a que corresponden los sonidos detectados.

La presente invención contempla la descomposición por frecuencias del sonido a fin de tener para cada sonido un espectrograma que comprende al menos la frecuencia y la intensidad. Una vez se dispone de la descomposición de cada sonido en frecuencias e intensidades se procede a utilizar algoritmos de inteligencia artificial.

En concreto, la descomposición de e identificación de sonidos (22) se realiza a partir del espectrograma de frecuencias e intensidad, y por medio de distintas técnicas de Aprendizaje Automático, tales como Deep Learning, Template Matching, SVM (siglas de la expresión en inglés "Support Vector Machines"), y otros tipos de redes neuronales.

Una vez se dispone del espectrograma se procede a clasificar los sonidos entrantes y diferenciarlos unos de otros. Dichas técnicas utilizarán una base de datos de sonidos, alternativamente, dicha base de datos de sonido puede ser una base de sonidos accesible mediante internet. Las técnicas mencionadas son complementarias, de manera que combinaciones entre ellas también son posibles para realizar la citada descomposición e identificación.

Con el fin de clasificar los sonidos, mediante Template Matching es posible identificar que tan parecidos son dos espectrogramas de datos. En consecuencia, se pueden comparar los sonidos recibidos con una base de datos de sonidos (26), estando dicha base de datos de sonidos almacenada en el dispositivo o, alternativamente, en un servidor y accediendo a ellos, preferentemente en tiempo real o casi real.

Por otra parte las SVM (siglas de la expresión en inglés "Support Vector Machines") indican qué probabilidad hay de que cada sonido entrante se corresponda con alguno de los almacenados en la base de datos de sonidos (26). Para ello se generan los vectores del sonido, a partir del espectrograma, y se comparan con los vectores disponibles.

Las redes neuronales (p.e. perceptrón multicapa - MLP) también trabajan con vectores y se pueden utilizar como único mecanismo de identificación o en combinación con otras técnicas para complementar la información. Además, si bien su entrenamiento suele ser más lento, su aplicación para clasificar suele ser muy rápida, lo cual nos conviene en vistas a trabajar en tiempo real.

En el caso de las redes neuronales, para su entrenamiento se puede hacer énfasis en diferentes propiedades del sonido, en particular, es especialmente ventajosa la utilización del par frecuencia-intensidad para identificar a que corresponde cada sonido. Alternativamente, ante un par frecuencia-intensidad desconocido se puede preguntar al usuario que sonido es para que el usuario lo identifique y la red neuronal tenga un aprendizaje continuo, una vez el usuario ha identificado un sonido nuevo se puede incorporar a la base de datos de sonidos (26) o mejorar el algoritmo en caso de que ya estuviese almacenado mediante el entrenamiento de la red neuronal.

5

10

15

20

25

30

35

40

45

50

En una realización especialmente preferentemente, la técnica para identificar a que corresponde cada sonido captado es mediante Deep Learning, utilizando los espectrogramas como imágenes sobre las que aprender.

Un detalle destacable es que si bien las fases de aprendizaje (y por tanto entrenamiento) de los algoritmos de aprendizaje citados pueden durar un cierto tiempo, lo importante es que la fase de aplicación de la aprendido (predicción o clasificación) si puede hacerse muy rápido, incluso en tiempo real o casi real.

Dichos espectrogramas, posteriormente, pasan por una fase de ponderación para obtener la descomposición e identificación de los sonidos. Estos resultados se pasarían a la siguiente fase, la de eliminación de sonidos, pero a su vez también se le pasaría un informe de dichos resultados a los procesos que controlan los requerimientos de la realidad integrada. Estos datos se procesarán en el sub-módulo de salida de datos (30) a fin de determinar qué sonidos han de mantenerse, cuáles han de eliminarse (en la fase de eliminación de sonidos (23)) y cuáles nuevos han de incorporarse (en la fase de inclusión de sonidos (24)).

Volviendo al ejemplo de realización en base al que se explicó el sub-módulo de tratamiento de imágenes, el micrófono del dispositivo capta la sumatoria de una pluralidad de sonidos que se encuentran en el ambiente. Mediante los medios de filtrado se eliminan, por ejemplo, sonidos que no son interesantes para su procesamiento y que pueden considerarse como ruido.

Mediante la descomposición por frecuencias se separan los sonidos a fin de obtener, por ejemplo, el sonido correspondiente a una máquina tal como un coche o sonidos de aves. Para cada uno de estos sonidos se obtiene un espectrograma en el que se pueden identificar las frecuencias así como las intensidades de sonido en cada una de dichas frecuencias.

Para al menos uno de dichos espectrogramas se realiza una búsqueda y una comparación con sonidos almacenados en la base de datos a fin de identificar a que objeto corresponde dicho espectrograma.

Retornando al ejemplo anterior se habrá identificado que un sonido corresponde a un coche y otro sonido corresponde a un ave.

Sub-módulo de posicionamiento y orientación del dispositivo

El dispositivo objeto de la presente invención dispone de medios de posicionamiento, por ejemplo, mediante un sistema GNSS (siglas de la expresión en inglés "Global Navigation Satellite System", sistema global de navegación por satélite), tal como GPS, GLONASS, Galileo, etc.

Adicionalmente, el sistema dispone de medios para determinar la orientación del dispositivo, en particular mediante acelerómetros, Alternativamente se podrían utilizar unidades de medición de inercia (IMU) o otros tipos de sensores tridimensionales de orientación más complejos como AHRS (siglas de la expresión en inglés "Attitude and Heading Reference System").

En una realización preferente de la invención, el dispositivo puede determinar la posición (X, Y, Z) mediante un sistema de geo posicionamiento (por ejemplo, un sistema GNSS). Adicionalmente, el dispositivo puede conocer su orientación (dirección, elevación, ángulo de alabeo) mediante al menos un acelerómetro.

5

10

15

20

25

30

35

En un ejemplo de realización de la presente invención, el sistema dispone de un mapa virtual geo-referenciado, de manera que el sistema dispone de información posicional del usuario (mediante dichos medios de posicionamiento) y emite a través del módulo de salida al menos parcialmente imágenes de dicho mapa virtual geo-referenciado.

Sub-módulo de salida de datos (30)

Los datos de entrada al sub-módulo de salida de datos (30) comprenden, al menos, unas imágenes previamente identificadas en el sub-módulo de tratamiento de imágenes y unos sonidos previamente identificados en el sub-módulo de tratamiento de sonidos.

En el sub-módulo de salida de datos se procede a correlacionar las imágenes captadas con los sonidos captados mediante la información identificativa obtenida de las bases de datos, si bien se contempla la posible gestión de imágenes y sonidos que no precisan o para los que no se desea realizar correlación alguna con sonidos o imágenes, respectivamente.

Por ejemplo, volviendo a los ejemplos anteriores, mediante las cámaras se ha obtenido una imagen que, tras el procesamiento de dicha imagen en el sub-módulo de tratamiento de imágenes se ha identificado que corresponde a una máquina. Por otra parte, del submódulo de tratamiento de sonidos se ha identificado que hay un sonido correspondiente a un coche y un sonido correspondiente a un ave.

El sub-módulo de salida analiza las referencias identificativas y correlaciona el espectrograma correspondiente al coche con la imagen captada de la máquina de manera que, si los requerimientos del sistema requieren la eliminación de la máquina, el sub-módulo de salida no solo elimina la imagen de la máquina sino el sonido correspondiente a la misma.

Alternativamente, el sub-módulo de salida puede incluir la imagen de un ave (por ejemplo, obteniéndola de la base de datos) ya que ha identificado que hay un sonido que corresponde a la misma.

Finalmente, el sub-módulo de salida dispone de medios de comunicación con la al menos una pantalla (4), y el al menos un altavoz (5) a fin de enviar las imágenes y/o sonidos determinados.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Dispositivo de montaje sobre la cabeza de un usuario para la percepción de realidad aumentada que comprende:

• medios de montaje sobre la cabeza del usuario;

• al menos una pantalla;

• al menos un micrófono;

• al menos un altavoz; y

• un módulo de procesamiento de datos, dicho módulo comprendiendo a su vez un sub-módulo de tratamiento de Imágenes, un sub-módulo de tratamiento de sonidos y un sub-módulo de salida de datos,

caracterizado por que el sub-módulo de tratamiento de sonidos comprende medios de descomposición de los sonidos recibidos mediante el al menos un micrófono en una serie de espectrogramas y medios de correlación de dichos espectrogramas con espectrogramas de una biblioteca a fin de identificar qué entidad física produce el sonido.
2. Dispositivo según la reivindicación 1 caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante Template Matching.
3. Dispositivo según la reivindicación 1 caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante redes neuronales.
4. Dispositivo según la reivindicación 1 caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante SVM.
5. Dispositivo según la reivindicación 1 caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante perceptrón multicapa MLP.
6. Dispositivo según la reivindicación 1 caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos con espectrogramas de una biblioteca se realiza mediante Deep Learning.
7. Dispositivo según cualquiera de las reivindicaciones anteriores caracterizado por que la correlación de los espectrogramas generados a partir de los sonidos recibidos comprende la generación de imágenes de los espectrogramas recibidos y, además, la biblioteca comprende imágenes de espectrogramas.
8. Dispositivo según cualquiera de las reivindicaciones anteriores caracterizado por que el sub-módulo de salida de datos comprende medios de eliminación de algunos sonidos cuyos espectrogramas han sido identificados.
9. Dispositivo según cualquiera de las reivindicaciones anteriores caracterizado por que el sub-módulo de salida de datos comprende medios de adición de sonidos.

5

10

15

20

25

30

35

40

45

50
10. Dispositivo según cualquiera de las reivindicaciones anteriores caracterizado porque el sub-módulo de salida de datos comprende medios de selección de espectrogramas, medios de selección de imágenes y medios de transmisión de las imágenes y/o espectrogramas seleccionados a al menos una pantalla y/o altavoz.
11. Dispositivo según cualquiera de las reivindicaciones anteriores caracterizado porque el sub-módulo de salida de datos dispone de una entrada proveniente del sub-módulo de tratamiento de imágenes, una entrada proveniente del sub-módulo de tratamiento de sonidos y dispone de medios de correlación de al menos una de las entradas del submódulo de tratamiento de imágenes con al menos una de las entradas del sub-módulo de tratamiento de sonidos.
12. Dispositivo según la reivindicación 11 caracterizado por que el sub-módulo de salida de datos dispone de medios de eliminación de una imagen correlacionada si se elimina el sonido correspondiente a dicha imagen.
13. Dispositivo según la reivindicación 11 caracterizado por que el sub-módulo de salida de datos dispone de medios de eliminación de un sonido correlacionado si se elimina la imagen correspondiente a dicho sonido.
14. Dispositivo según cualquiera de las reivindicaciones 1 a 13 caracterizado por que el módulo de procesamiento de datos comprende además un sub-módulo de posicionamiento y orientación del dispositivo.
15. Método de generación de un entorno de realidad aumentada en un dispositivo de acuerdo a cualquiera de las reivindicaciones 1 a 14 caracterizado por que comprende las etapas de:

I. obtención de imágenes a través de al menos una cámara;

II. obtención de sonidos a través de al menos un micrófono;

III. procesamiento de datos que a su vez comprende la correlación de al menos uno de los sonidos recibidos con una imagen recibida correspondiente a la entidad física que emite dicho sonido y la eliminación del sonido junto con la imagen correspondiente a la entidad física; y

IV. reproducción a través de la al menos una pantalla y/o del al menos un altavoz de las imágenes y/o sonidos que no han sido eliminadas en la etapa III.
16. Método según la reivindicación 15 caracterizado por que para la correlación de los sonidos recibidos se obtienen previamente una serie de espectrogramas correspondientes a los sonidos recibidos.
17. Método según cualquiera de las reivindicaciones 15 ó 16 caracterizado por que para la correlación de los sonidos recibidos comprende una comparación con una base de datos de sonidos.
18. Método según la reivindicación 17 caracterizado por que la base de datos de sonidos se encuentra en un servidor remoto al dispositivo.
19. Método según cualquiera de las reivindicaciones 15 a 18 caracterizado por que la correlación de los sonidos recibidos con una imagen recibida comprenden el procesamiento mediante redes neuronales.
20. Método según cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

correlación de los sonidos recibidos con una imagen recibida comprenden el

procesamiento mediante SVM.

5 21. Método según cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

correlación de los sonidos recibidos con una imagen recibida comprenden el

procesamiento mediante perceptrón multicapa.
22. Método según cualquiera de las reivindicaciones 15 a 18 caracterizado por que la

10 correlación de los sonidos recibidos con una imagen recibida comprenden el

procesamiento mediante Deep Learning.
23. Método según cualquiera de las reivindicaciones 15 a 22 caracterizado porque la etapa IV comprende la reproducción a través de la al menos una pantalla y/o del al

15 menos un altavoz de al menos una imagen y/o un sonido almacenados en la base de datos adicionales a los obtenidos en la etapa l.
24. Método según cualquiera de las reivindicaciones 15 a 23 caracterizado por que la etapa III comprende la eliminación de una imagen correlacionada con un sonido si se

20 elimina el sonido correspondiente a dicha imagen.
25. Método según cualquiera de las reivindicaciones 15 a 24 caracterizado por que la etapa III comprende la eliminación de un sonido correlacionado con una imagen si se elimina la imagen correspondiente a dicho sonido.

25
26. Método según cualquiera de las reivindicaciones 15 a 25 caracterizado por que comprende la incorporación o asociación de datos de posicionamiento y orientación a los datos procesados en la etapa III.