ES2597155B1 - Sistema portátil de interpretación sonora o táctil del entorno para un invidente - Google Patents

Sistema portátil de interpretación sonora o táctil del entorno para un invidente Download PDF

Info

Publication number
ES2597155B1
ES2597155B1 ES201530825A ES201530825A ES2597155B1 ES 2597155 B1 ES2597155 B1 ES 2597155B1 ES 201530825 A ES201530825 A ES 201530825A ES 201530825 A ES201530825 A ES 201530825A ES 2597155 B1 ES2597155 B1 ES 2597155B1
Authority
ES
Spain
Prior art keywords
sound
signal
tactile
region
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
ES201530825A
Other languages
English (en)
Other versions
ES2597155A1 (es
Inventor
Antonio QUESADA HERVÁS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eyesynth S L
Eyesynth SL
Original Assignee
Eyesynth S L
Eyesynth SL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to ES201530825A priority Critical patent/ES2597155B1/es
Application filed by Eyesynth S L, Eyesynth SL filed Critical Eyesynth S L
Priority to PT168069409T priority patent/PT3308759T/pt
Priority to EP16806940.9A priority patent/EP3308759B1/en
Priority to JP2018516636A priority patent/JP6771548B2/ja
Priority to ES16806940T priority patent/ES2780725T3/es
Priority to BR112017026545-1A priority patent/BR112017026545B1/pt
Priority to CN201680034434.0A priority patent/CN107708624B/zh
Priority to CA2986652A priority patent/CA2986652A1/en
Priority to AU2016275789A priority patent/AU2016275789B2/en
Priority to ARP160101728A priority patent/AR104959A1/es
Priority to DK16806940.9T priority patent/DK3308759T3/da
Priority to US15/578,636 priority patent/US11185445B2/en
Priority to MX2017015146A priority patent/MX2017015146A/es
Priority to PCT/ES2016/070441 priority patent/WO2016198721A1/es
Priority to KR1020177037503A priority patent/KR102615844B1/ko
Priority to RU2017144052A priority patent/RU2719025C2/ru
Publication of ES2597155A1 publication Critical patent/ES2597155A1/es
Application granted granted Critical
Publication of ES2597155B1 publication Critical patent/ES2597155B1/es
Priority to IL255624A priority patent/IL255624B/en
Priority to CONC2017/0012744A priority patent/CO2017012744A2/es
Priority to HK18107660.4A priority patent/HK1248093A1/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F9/00Methods or devices for treatment of the eyes; Devices for putting-in contact lenses; Devices to correct squinting; Apparatus to guide the blind; Protective devices for the eyes, carried on the body or in the hand
    • A61F9/08Devices or methods enabling eye-patients to replace direct visual perception by another kind of perception
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B3/00Audible signalling systems; Audible personal calling systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • A61H2003/063Walking aids for blind persons with electronic detecting or guiding means with tactile perception
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Vascular Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Pain & Pain Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)
  • Rehabilitation Tools (AREA)
  • Studio Devices (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

El diseño presentado es un sistema de comprensión visual para invidentes. Está compuesto por unas gafas especiales con cámaras 3D y un software que convierte información espacial y visual en señales sonoras o táctiles comprensibles para el invidente. Las señales pueden ser sonido sintetizado que permite identificar formas y ubicarlas en el espacio. Ello permite percibir volúmenes y espacios, además con un nivel de detalle sin precedentes. El uso de auriculares cocleares o señales sonoras o táctiles permiten largas sesiones de uso, sin interferir con el oído. En el caso del sonido, es preferiblemente no verbal, lo que elimina la barrera de idioma y facilita el aprendizaje.

Description

Campo técnico de la invención
La invención se relaciona con los dispositivos de asistencia a personas con alguna limitación o minusvalía. En particular, la invención se refiere a un sistema de ayuda orientado principalmente a personas ciegas y deficientes visuales.
Antecedentes de la invención o Estado de la Técnica
Tradicionalmente, los usuarios con discapacidad visual dependen de ayudas básicas, como bastones y perros guía para desplazarse o reconocer su entorno.
Aunque se han desarrollado sistemas que emplean un mayor nivel tecnológico, a menudo resultan invasivos y complejos de manejar. También suelen ser demasiado caros para que su uso deje de ser exclusivo.
Habitualmente, los sistemas actuales suelen medir distancias a un punto, por ejemplo mediante el empleo de un láser, avisando acústicamente si un objeto se interpone en la trayectoria o no. Tales sistemas no proporcionan un análisis volumétrico de la escena, ni su respuesta tiene matices asociados a cambios de posición, tamaño o geometría (curvas, aristas, posición respecto a la línea de horizonte).
Por otra parte, un análisis de una escena a través de la medición distancias con muchos puntos precisa una gran capacidad de computación que generalmente lo hace inviable para emplearse en tiempo real y/o en un dispositivo que sea portátil.
Por lo tanto, existe una necesidad de sistemas efectivos para ayudar a personas con discapacidad visual capaces de facilitar una descripción comprensible del entorno.
Breve descripción de la invención
La invención es principalmente aplicable a personas con problemas de visión. No obstante, podría ser aplicable en otro tipo de escenarios y circunstancias donde no se pueda emplear el sentido de la vista o sea preciso un sistema de guiado alternativo.
La asistencia para personas se facilita con una descripción del entorno mediante una interpretación de los objetos y obstáculos que existen alrededor que se transmite a través de una señal háptica. La generación de la señal háptica se hace a partir de un procesamiento de imágenes estéreo para obtener una representación de zonas más oscuras que se corresponden con regiones más lejanas en tanto que los otras más claras se asocian a zonas situadas más cerca. Por señal háptica se debe entender una señal sonora o táctil (por ejemplo mediante pulsos de vibración).
Es objeto de la invención presente invención un sistema portátil de interpretación sonora o táctil del entorno para un invidente que comprende:
-
dos cámaras, separadas entre sí, para captar simultáneamente una imagen del entorno,
-
unos medios de procesamiento que combinan ambas imágenes en tiempo real y establecen al menos una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento además dividen la franja vertical en una pluralidad de regiones; definen, para cada región, una señal sonora o táctil en función de su profundidad y de su altura en la imagen; definen una señal sonora o táctil de salida a partir de las señales sonora o táctil de cada región de la franja vertical;
-
unos medios de reproducción de la señal sonora o táctil de salida.
Preferentemente, en el modo de funcionamiento denominado de rastreo, la franja vertical es central en la imagen combinada y el usuario al moverse escanea el entorno.
Preferentemente, en el modo de funcionamiento denominado de paisaje completo, se establecen una pluralidad de franjas verticales laterales en la imagen combinada a cada lado de la franja vertical central, y se define una señal sonora o táctil lateral izquierda y lateral derecha a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente, el usuario sin moverse puede escanear el entorno.
Preferentemente, los medios de reproducción reproducen en estéreo combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha.
Preferentemente, los medios de procesamiento definen una intensidad sonora o táctil de la señal sonora o táctil en función de la altura de la región en la franja vertical.
Preferentemente, los medios de procesamiento definen una frecuencia de la señal sonora o táctil en función de la profundidad de la región.
Preferentemente, la profundidad de una región se determina en función del nivel de gris sobre un mapa de profundidad de la imagen del entorno.
Preferentemente, la región comprende al menos un píxel.
Preferentemente, el sistema comprende una estructura soporte para ser llevada por el usuario donde se pueden ubicar los medios de reproducción y las dos cámaras.
Opcionalmente, la señal sonora o táctil puede ser táctil en unas realizaciones. Por ejemplo, mediante un polímero electroactivo (EAP) o mediante una membrana de un elastómero capaz de modificar su forma en respuesta a voltaje. También de forma mecánica, mediante un pequeño motor generador de vibraciones.
Alternativamente, la señal sonora o táctil puede ser sonora en otras realizaciones.
Preferentemente, la frecuencia de dicha señal sonora se elige dentro del intervalo entre 100 Hz y 18000 Hz.
Preferentemente, los medios de reproducción son unos auriculares cocleares. Ventajosamente, deja libre el oído y se recibe la señal vía ósea. Se consigue que el
usuario pueda conversar a la vez sin que ello interfiera con la señal sonora generada o viceversa.
Preferentemente, la estructura soporte se elige entre al menos diadema, soporte de cuello, soporte pectoral, soporte en hombro.
unas gafas, una
S
Preferiblemente, la señal sonora generada es no-verbal para evitar saturar al usuario con continuos mensajes que, tras un uso prolongado, producen molestias y cansancio. En cambio, un mensaje no-verbal es más rápido de reconocer y puede simultanearse con otras tareas. Una ventaja es que la invención es utilizable sin barreras lingüísticas.
10
Breve descripción de las figuras
FIG. 1 muestra un diagrama de bloques simplificado.
FIG. 2 muestra la imagen pixelada de un toroide.
FIG. 3 muestra imagen pixelada del toroide procesada.
[5
FIG. 4 muestra un diagrama de flujo simplificado.
FIG. 5 muestra una realización de la invención como gafas.
Descripción detallada de la invención
20
Para mayor claridad, se describe un ejemplo de realización de la invención con referencia a las figuras sin carácter limitante y enfocado a señales sonora O táctiles sonoras.
25
En la FIG. 1 se muestran varios bloques correspondientes al sistema. Las imágenes se adquieren mediante un par de cámaras 3i , 3d en estéreo. Preferiblemente, se sitúan a ambos lados de la cara y a la altura de los ojos del usuario para facilitar el enfoque hacia la región de interés con movimientos de cabeza. Las cámaras 3i , 3d están alineadas en paralelo.
30
La propia circuitería de las cámaras 3i, 3d hace un pre-procesado de la imagen captada para servir un flujo de imágenes estable, evitando artefactos y aberraciones geométricas o cromáticas. La circuitería de los sensores ofrece una pareja de imágenes sincronizada en el tiempo.
35
Como resultado, este fluj o de vídeo se transmite hacia una unidad de proceso 2. La unidad de proceso 2 es preferiblemente un diseño de hardware específico que implementa el algoritmo de conversión de imágenes a audio. Para comunicar las cámaras 3i, 3d con la unidad de proceso 2 se ha previsto un cable 6. En otras realizaciones más complejas se contempla la transmisión inalámbrica.
La unidad de proceso 2 convierte las imágenes estereoscópicas en un mapa de profundidad en escala de grises. Previamente, se genera un mapa de disparidad (sin información de escala).
Por mapa de profundidad se entiende imagen en escala de grises en el que el color negro absoluto significa máxima lejanía (en función de la escala que usemos) y el color blanco puro significa cercanía máxima (en función de la escala que usemos). El resto de la gama de grises especifica distancias intermedias.
Por mapa de disparidad se entiende la imagen resultante que se obtiene a partir de la superposición de un par de imágenes estéreo, a las que se somete a un proceso matemático. El mapa de disparidad binocular expresa en una imagen las diferencias a nivel de pixel que hay entre dos imágenes estéreo. Se aplica un algoritmo matemático de disparidad. Teniendo la distancia entre cámaras y unos ficheros de calibración de las mismas, podemos trasladar la diferencia entre píxeles a distancias reales. Gracias a este proceso, se sabe a qué distancia de la cámara se encuentra cada porción (tamaño pixel) de la imagen tomada. Se emplea una escala de grises para expresar esa distancia.
A continuación se hace una conversión a mapa de profundidad. Tras un proceso matemático en el que se aplica escala distancias/nivel de gris, se obtiene un mapa de profundidad .
A partir del mapa de profundidad generado, se aplica un algoritmo de converslon desarrollado a tal efecto que permite que los datos espaciales de profundidad se conviertan a audio.
El resultado es que con una pareja de imágenes iniciales en estéreo, se consigue una señal sonora no-verbal en estéreo que se transmite al usuario a través de unos auriculares cocleares 4i, 4d. Así se logra definir un lenguaje audiovisual que traslada intuitivamente al usuario información visual a información auditiva con fidelidad .
En la FIG. 2 aparece un ejemplo de mapa de profundidad en baja resolución de un toroide. Cada pixel del mapa de profundidad tiene asociada una coordenada (X,Y) que corresponde con las posiciones de pixel capturados por las cámaras. Además cada pixel tiene asociado un nivel de gris (G) que proporciona información sobre la profundidad, es decir la distancia a la que se encuentra la región asociada a dicho pixel.
La FIG. 3 ilustra simplificadamente una división de la columna o franja vertical central en 3 zonas según su nivel de gris. La zona "A" es negra, la zona "B" es blanca y la zona ~C" que es gris. Según lo anterior, se asocian 3 valores de intensidad diferentes a cada zona (silencio para zona "AH, volumen máximo para zona "B" y una intensidad sonora media para la zona "C". Se ha de entender que habitualmente se definen muchos más rangos de nivel de gris y por tanto de intensidad sonora asociada. La señal sonora se compone sumando las señales individuales correspondientes a los pixeles de cada zona.
Con la información proveniente del mapa de profundidad se construye una matriz o
tabla con la información del entorno en ese momento. Esta información debe ser
convertida en audio de acuerdo con las siguientes consideraciones.
Con cada par de fotogramas estéreo se hace un mapeo de disparidad: Dada la diferencia entre píxeles de las imágenes y teniendo los datos de cámaras (FOV, distancia interocular, calibración específica) se pueden establecer triangulaciones, por tanto asociar pixeles a distancias en el mundo real. Con esta información, se procesa la imagen para dar un mapa de profundidad. Es una imagen de contorno de los objetos y escala de grises expresando sus volúmenes y distancias reales. De esta forma, tenemos una sola imagen conjunta que contiene información espacial de la escena.
Ejemplo de funcionamiento en Modo Rastreo: Tomamos la FtG.3. Para analizar la imagen habremos de mover la cabeza de izquierda a derecha en gesto de negación. Así, el cursor central (en rojo) rastreará por completo el toroide. El sonido generado se oirá en el centro del panorama estéreo (ya que siempre será el centro del eje de nuestra visión) Con este rastreo se delimitan el tamaño horizontal del objeto (el movimiento de nuestro cuello nos servirá como referencia) y el tamaño vertical nos lo dará el rango de frecuencias.
Modo Paisaje Completo. Tomemos para analizar la FIG.2. En este caso no se tiene que mover el cuello para interpretar lo que hay delante. La parte derecha del toroide sonará a la derecha en el panorama estéreo. Análogamente sonarán las partes centrales e izquierdas. El nivel de apertura del panorama estéreo nos indicará el tamaño horizontal del toroide . El tamaño vertical vendrá expresado por el rango de frecuencias, tal y como en el modo Rastreo.
La correspondencia de la imagen con el sonido estéreo es la siguiente: Partiendo de imagen de un paisaje, la señal sonora corresponde a las zonas que analiza . La zona izda . de la imagen sonará en el panorama estéreo izquierdo. La zona derecha en el panorama estéreo derecho. La zona central por tanto, en el centro del panorama estéreo (o lo que es lo mismo, 50% izquierda + 50% derecha)
El rango de frecuencias que especifican el factor altura tiene un valor de 100Hz a 18000Hz, divididos en 128 fragmentos iguales. Hemos elegido ese rango porque es lo suficientemente ancho para mostrar sonido con detalle y lo suficientemente estrecho para que una persona media los pueda abarcar sin problemas (el rango humano de sonido va de 20Hz a 20000Hz). La frecuencia base (100Hz) se asocia a la primera fila inferior de píxeles en pantalla. La frecuencia superior (18000Hz) a la fila superior de pixeles. Entre medio se asignan los demás fragmentos de frecuencia . Si la imagen tuviese 128 pixeles de altura, cada fila correspondería a un fragmento. Si cambiamos la resolución, se asignarán los fragmentos proporcionalmente a la altura. Este método sirve para sistemas con potencia computacional baja. Si disponemos de potencia bruta en la que la síntesis de sonido se genera en tiempo real, haremos la división del rango de frecuencias entre el número de pixeles de altura y asignaremos cada segmento de frecuencia a cada pixel, sin interpolaciones o promediados.
El factor distancia espacial respecto al usuario (eje Z) se asocia al factor volumen generado por el algoritmo, de manera que un pixel negro no tendrá volumen perceptible (o sea, -infinito) y un pixel blanco tendrá el máximo volumen (OdB). Esta escala será flexible y adaptativa al uso de distintos rangos de medida (40cm, 2m, 6m)
La duración del sonido por pixel es directamente proporcional a su "presencia" en pantalla. Si un pixel permanece continuamente blanco, el sonido se repetirá continuamente. Nota: Al ser ruido blanco (de naturaleza aleatoria) no se
perciben patrones de repetición cíclica ("Ioops") o puntos de corte y repetición en el sonido.
5
El análisis de columna central sólo se usa en el modo rastreo. En principio, se puede emplear una columna central de 1 pixel de anchura. No obstante, a fin de suavizar el sonido y evitar artefactos, se promediarán los valores de pixel de las 3 columnas centrales, o incluso 5, dependiendo de la resolución del mapa de profundidad (dependiente del poder de computación).
lO
Se asocia al valor en la escala de grises de un pixel, una intensidad de volumen (1). Así, el pixel con valores 0.0.0 (modelo RGB) corresponde con una región alejada y la intensidad asociada es silencio (1=0). Un pixel con valores 255.255.255 se corresponde con una región muy próxima y el volumen de la señal es máximo (1= O dB). De esta manera, cada pixel puede verse como una "unidad de sonido" con la que hace una composición de audio. Preferiblemente, la frecuencia sonora abarca desde los 100Hz hasta los 18000Hz.
15
De acuerdo con el modo de funcionamiento, la posición X del pixel podrá interpretarse de dos maneras.
20
Modo rastreo: Solamente sonarán las señales correspondientes a los pixeles de la columna central (X=1/2 de la resolución horizontal de pantalla, Y=O a Y=n, donde n es el tamaño vertical de la pantalla en pixeles). Se rastrea de la escena cuando el usuario mueve la cabeza con el gesto de negación. Esto es análogo al rastreo con un bastón.
25
Modo Paisaje Completo: Sonarán simultáneamente varias columnas de pixeles asociados a la escena. Con este modo, no es necesario rastrear. La imagen se representa (o "suena") al completo. Por ejemplo, cuanto más a la derecha estén los pixeles, más sonará en la derecha del panorama estéreo. Igualmente para las regiones centrales y de la izquierda.
Nota: El modo Paisaje Completo requiere de potencia computacional alta, por lo que dependiendo de las prestaciones de la unidad de proceso 2, en vez de sonar todas las columnas de la imagen, se puede optimizar usando 5 columnas: Central, 45°, -45°, 80°, _80°. Pueden usarse más columnas en función de la potencia de proceso.
30 35
La posición Y del pixel (altura del objeto) definirá cómo suena en términos de frecuencia: Usaremos un filtro paso-banda (o una frecuencia senoidal generada, o un sample precalculado con un rango específico de frecuencia [alternativas en función de la potencia de cálculo del dispositivo]), con el que los píxeles de la zona alta sonarán agudos y los de la zona baja sonarán graves. El espectro de sonido que abarcará cada pixel vendrá definido por el número de píxeles que tendrá Y.
Ejemplo sencillo:
40
Para aclarar cómo se hace la generación de sonido a partir de la imagen de profundidad, se presenta este ejemplo. Supongamos se ha seleccionado el modo rastreo y se ha obtenido una imagen de profundidad como la F1G. 3 en la que solamente se distinguen 3 niveles de gris como aproximación. Por tanto, en la columna central hay (de abajo a arriba):
10 píxeles negros, 12 píxeles blancos, 2 pixeles negros, 8 píxeles grises y 15 píxeles negros. Supongamos que se asigna al blanco: O dB; al gris: -30 dB Y al negro _00 dB.
La intensidad de la señal que en ese instante sería la mezcla analógica de todas las señales.
El usuario apreciaría diferentes frecuencias según la posición en altura del pixel. Más grave en los píxeles de menor altura y más aguda para los de mayor altura. El sonido generado por esta columna se puede dividir en una componente grave con una intensidad sonora alta (zona B) y una componente de intensidad sonora intermedia de frecuencia más aguda (zona C).
Esta señal se generaría para los dos canales izquierdo y derecho (y se reproduciría respectivamente en los auriculares 4i, 4d).
Cuando el usuario cambia la posición de las cámaras al girar la cabeza, se modificará la imagen de profundidad y con ello la señal sonora asociada.
En la FIG. 4 se ve un diagrama de fluj o con algunos de los pasos importantes que se llevan a cabo en la modalidad de rastreo. Un primer paso P1 de captura de imágenes por las cámaras 3i,3d, un paso de procesado P2 para generar el mapa de profundidad, un paso de asignación P3 para asociar frecuencia e intensidad sonora a cada píxel o grupos de píxeles de la columna central del mapa de profundidad, un paso P4 de generación de la señal sonora resultante correspondiente a la columna central.
En la FIG. 5 se ilustra una realización de la invención implementada en unas gafas 1. No obstante, se puede implementar en otro tipo de productos que sirvan de soporte. Por ejemplo, puede implementarse en una gorra, diadema, soporte de cuello, soporte
pectoral, soporte en hombro. la ventaja de las gafas es que son cómodas de llevar y permiten por un lado la colocación de los auriculares 4i, 4d en la posición deseada y por otro el enfoque preciso de las cámaras 3i, 3d a la región de interés. La unidad de proceso 2 se diseña para ser portada por el usuario en un bolsillo o en un cinturón. Se prevé en un futuro reducir su tamaño para integrarla junto con las gafas 1. Al estar separadas, un cable 6 lleva la información captada por las cámaras 3i, 3d a la unidad de proceso 2. Por otra parte, una vez procesada esta información, la unidad de proceso 2 transmite a los auriculares 4i, 4d las señales de audio correspondientes.
la cantidad de información y detalle que presenta el sonido permite identificar formas y espacios con precisión inédita hasta el momento. En los ensayos realizados con invidentes, se ha constatado que permite reconocer formas concretas por cómo es el sonido que llevan asociado tras un corto periodo de entrenamiento. Por ejemplo, botellas, vasos y platos en una mesa tienen características sonoras que permiten distinguirlos.
Para transmitir el sonido se emplea preferiblemente auriculares cocleares que permiten dejar libre el canal auditivo. Con esto mejora la comodidad del usuario, rebajando ampliamente el cansancio auditivo y siendo mucho más higiénicos para sesiones de uso prologado.
En una realización se prevé una interfaz asociada con la unidad de procesamiento 2 con un botón de selección de rango para determinar la Distancia de Análisis. Por ejemplo: cerca, normal y lejos, con distancias de 40cm, 2m y 6m, respectivamente. Al pulsar el botón se irán seleccionando distancias cíclicamente. La selección de rango sirve típicamente para adecuar el alcance a distintos escenarios y circunstancias. Por
ejemplo para ubicar objetos en una mesa: 40cm; para moverse por casa 2m ; y para cruzar la calle: 6m.
En una realización se prevé que la interfaz asociada con la unidad de procesamiento 2, disponga de un botón de Modo de Análisis. La selección entre modos será cíclica.
S
Modo Rastreo: Análisis solamente en la zona central de la imagen. El usuario girará la cabeza cíclicamente de izquierda a derecha rastreando la escena de un modo análogo a como lo haría con un bastón. El sonido es monoaural.
10 15
Modo Paisaje completo: El análisis de se realiza sobre toda la imagen. El sonido es estéreo. De esta manera, el usuario puede percibir las formas y los espacios en todo el campo de visión simultáneamente. Por ejemplo, a la izquierda (panorama estéreo izquierda) se percibe una columna, en el centro (panorama estéreo central) se percibe una mesa baja y a la derecha (panorama estéreo derecha) el paso está libre. Este modo de exploración es más complejo en términos de sonido, al ofrecer más información que el Modo Rastreo. Es sencillo de dominar aunque precisa algo más de entrenamiento.

Claims (14)

  1. REIVINDICACIONES
    1. Sistema portátil de interpretación sonora o táctil del entorno para un invidente caracterizado por que comprende:
    -
    dos cámaras (3i,3d), separadas entre sí, configuradas para captar simultáneamente una imagen del entorno,
    -
    unos medios de procesamiento (2) configurados para combinar ambas imágenes en tiempo real y para establecer al menos una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento (2) están además configurados para dividir la franja vertical en una pluralidad de regiones; definir, para cada región, una señal sonora o táctil en función de la profundidad de la región y de la altura de la región; definir una señal sonora o táctil de salida a partir de las señales sonoras o táctiles de cada región de la franja vertical;
    -
    unos medios de generación (4i,4d) de la señal sonora O táctil de salida.
  2. 2.
    Sistema según la reivindicación 1, caracterizado por que la franja vertical es central en la imagen combinada.
  3. 3.
    Sistema según la reivindicación 2, caracterizado por que además los medios de procesamiento (2) establecen una pluralidad de franjas verticales laterales en la imagen combinada a cada lado de la franja vertical central, y por que definen una señal sonora o táctil lateral izquierda y lateral derecha a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente.
  4. 4.
    Sistema según la reivindicación 3, caracterizado por que los medios de generación (4i,4d) operan en estéreo combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha.
  5. 5.
    Sistema según una cualquiera de las reivindicaciones anteriores, caracterizado por que los medios de procesamiento (2) definen una intensidad de la señal sonora o táctil en función de la profundidad de la región.
  6. 6.
    Sistema según la reivindicación 5, caracterizado por que los medios de procesamiento (2) definen una frecuencia de la señal sonora o táctil en función de la altura de la región en la franja vertical.
  7. 7.
    Sistema según la reivindicación 6, caracterizado por que los medios de procesamiento (2) determinan la profundidad de una región se en función de la
    codificación del color en escala de grises sobre un mapa de profundidad de la imagen del entorno.
  8. 8.
    Sistema según la reivindicación 7, caracterizado por que la región comprende al menos un píxel.
  9. 9.
    Sistema según una cualquiera de las reivindicaciones anteriores, caracterizado por que comprende una estructura soporte (1) para ser llevada por el usuario configurada para ubicar los medios de reproducción (4i.4d) y las dos cámaras (3i.3d).
  10. 10.
    Sistema según una cualquiera de las reivindicaciones anteriores, caracterizado por que la señal sonora o táctil es una señal táctil.
  11. 11.
    Sistema según una cualquiera de las reivindicaciones anteriores, caracterizado por que la señal sonora o táctil es una señal sonora.
  12. 12.
    Sistema según la reivindicación 11 , caracterizado por que la frecuencia de la señal sonora tiene se elige dentro del intervalo entre 100 Hz y 18000 Hz.
  13. 13.
    Sistema según la reivindicación 12. caracterizado por que los medios de generación (4i,4d) son unos auriculares cocleares.
  14. 14.
    Sistema según una cualquiera de las reivindicaciones anteriores, caracterizado por que la estructura soporte se elige entre al menos
    -
    unasgafas(1).
    -
    una diadema,
    -
    soporte de cuello,
    -
    soporte pectoral,
    -
    soporte en hombro.
ES201530825A 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente Expired - Fee Related ES2597155B1 (es)

Priority Applications (19)

Application Number Priority Date Filing Date Title
ES201530825A ES2597155B1 (es) 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente
JP2018516636A JP6771548B2 (ja) 2015-06-12 2016-06-10 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム
US15/578,636 US11185445B2 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch
ES16806940T ES2780725T3 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
BR112017026545-1A BR112017026545B1 (pt) 2015-06-12 2016-06-10 Sistema portátil que permite que pessoas cegas ou deficientes visuais interpretem o ambiente ao redor através de som ou de toque
CN201680034434.0A CN107708624B (zh) 2015-06-12 2016-06-10 允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统
CA2986652A CA2986652A1 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
AU2016275789A AU2016275789B2 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
ARP160101728A AR104959A1 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
PCT/ES2016/070441 WO2016198721A1 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
PT168069409T PT3308759T (pt) 2015-06-12 2016-06-10 Sistema portátil que permite a pessoas invisuais ou com deficiência visual interpretarem o meio ambiente por meio de som ou de toque
MX2017015146A MX2017015146A (es) 2015-06-12 2016-06-10 Sistema portatil de interpretacion sonora o tactil del entorno para personas invidentes o con deficiencia visual.
EP16806940.9A EP3308759B1 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
KR1020177037503A KR102615844B1 (ko) 2015-06-12 2016-06-10 맹인 또는 시각 장애인에게 소리 또는 촉각에 의하여 주변환경을 이해할 수 있도록 하는 휴대용 시스템
RU2017144052A RU2719025C2 (ru) 2015-06-12 2016-06-10 Портативная система, обеспечивающая восприятие слепыми или слабовидящими людьми окружающего пространства посредством звука или касания
DK16806940.9T DK3308759T3 (da) 2015-06-12 2016-06-10 Bærbart system, der gør det muligt for blinde eller synshæmmede personer at fortolke omgivelserne ved hjælp af lyd eller berøring
IL255624A IL255624B (en) 2015-06-12 2017-11-13 A portable system that allows blind or visually impaired people to decipher the immediate environment using sound or touch
CONC2017/0012744A CO2017012744A2 (es) 2015-06-12 2017-12-12 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
HK18107660.4A HK1248093A1 (zh) 2015-06-12 2018-06-13 允許盲人或視障人士通過聲音或觸覺了解周圍環境的便携式系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201530825A ES2597155B1 (es) 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente

Publications (2)

Publication Number Publication Date
ES2597155A1 ES2597155A1 (es) 2017-01-16
ES2597155B1 true ES2597155B1 (es) 2017-09-18

Family

ID=57504615

Family Applications (2)

Application Number Title Priority Date Filing Date
ES201530825A Expired - Fee Related ES2597155B1 (es) 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente
ES16806940T Active ES2780725T3 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES16806940T Active ES2780725T3 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual

Country Status (18)

Country Link
US (1) US11185445B2 (es)
EP (1) EP3308759B1 (es)
JP (1) JP6771548B2 (es)
KR (1) KR102615844B1 (es)
CN (1) CN107708624B (es)
AR (1) AR104959A1 (es)
AU (1) AU2016275789B2 (es)
BR (1) BR112017026545B1 (es)
CA (1) CA2986652A1 (es)
CO (1) CO2017012744A2 (es)
DK (1) DK3308759T3 (es)
ES (2) ES2597155B1 (es)
HK (1) HK1248093A1 (es)
IL (1) IL255624B (es)
MX (1) MX2017015146A (es)
PT (1) PT3308759T (es)
RU (1) RU2719025C2 (es)
WO (1) WO2016198721A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3551279B8 (en) * 2016-12-07 2023-10-11 Cortigent, Inc. Depth filter for visual prostheses
CN107320296A (zh) * 2017-06-23 2017-11-07 重庆锦上医疗器械有限公司 视觉信号的空间三维声音表达系统及方法
US10299982B2 (en) * 2017-07-21 2019-05-28 David M Frankel Systems and methods for blind and visually impaired person environment navigation assistance
CN108245385B (zh) * 2018-01-16 2019-10-29 曹醒龙 一种帮助视障人士出行的装置
JP7415139B2 (ja) * 2019-01-11 2024-01-17 ダイキン工業株式会社 環境条件記憶装置、環境条件記憶方法、操作装置、及び環境認識装置
CN113678141A (zh) * 2019-02-12 2021-11-19 Can-U-C有限公司 用于盲人和视力受损人员的立体声装置
EP4061004A4 (en) 2020-04-30 2023-06-07 Shenzhen Shokz Co., Ltd. BONE CONDUCTION EARPHONES
CN111862932B (zh) * 2020-07-02 2022-07-19 北京科技大学 一种将图像转化为声音的可穿戴助盲系统及方法
KR20220008659A (ko) 2020-07-14 2022-01-21 김재현 시각 장애인 전용 목걸이
CN111862024A (zh) * 2020-07-14 2020-10-30 四川深瑞视科技有限公司 基于深度信息增强投影的工件检测系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3172075A (en) * 1959-11-27 1965-03-02 Nat Res Dev Apparatus for furnishing information as to positioning of objects
EP0008120B1 (en) 1978-08-14 1984-02-15 Leslie Kay Method of and apparatus for providing information as to the existence and/or position of objects
EP0410045A1 (en) 1989-07-27 1991-01-30 Koninklijke Philips Electronics N.V. Image audio transformation system, particularly as a visual aid for the blind
KR100586893B1 (ko) * 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US20070016425A1 (en) * 2005-07-12 2007-01-18 Koren Ward Device for providing perception of the physical environment
US20090122648A1 (en) * 2007-11-12 2009-05-14 Trustees Of Boston University Acoustic mobility aid for the visually impaired
PT104120B (pt) * 2008-06-30 2010-11-23 Metro Do Porto S A Sistema de orientação, navegação e informação especialmente adaptado para pessoas cegas ou amblíopes
US9370459B2 (en) * 2009-06-19 2016-06-21 Andrew Mahoney System and method for alerting visually impaired users of nearby objects
WO2013018090A1 (en) * 2011-08-01 2013-02-07 Abir Eliahu System and method for non-visual sensory enhancement

Also Published As

Publication number Publication date
EP3308759B1 (en) 2019-11-27
HK1248093A1 (zh) 2018-10-12
US11185445B2 (en) 2021-11-30
AR104959A1 (es) 2017-08-30
RU2017144052A (ru) 2019-07-12
CO2017012744A2 (es) 2018-02-20
KR102615844B1 (ko) 2023-12-21
JP2018524135A (ja) 2018-08-30
BR112017026545B1 (pt) 2022-07-12
CN107708624A (zh) 2018-02-16
WO2016198721A1 (es) 2016-12-15
DK3308759T3 (da) 2020-03-02
IL255624A (en) 2018-01-31
CA2986652A1 (en) 2016-12-15
JP6771548B2 (ja) 2020-10-21
BR112017026545A2 (pt) 2018-08-14
RU2719025C2 (ru) 2020-04-16
PT3308759T (pt) 2020-04-01
AU2016275789A1 (en) 2018-01-25
EP3308759A4 (en) 2019-02-27
RU2017144052A3 (es) 2019-10-29
KR20180018587A (ko) 2018-02-21
US20180177640A1 (en) 2018-06-28
AU2016275789B2 (en) 2021-03-11
ES2780725T3 (es) 2020-08-26
CN107708624B (zh) 2021-12-14
EP3308759A1 (en) 2018-04-18
ES2597155A1 (es) 2017-01-16
MX2017015146A (es) 2018-03-28
IL255624B (en) 2021-04-29

Similar Documents

Publication Publication Date Title
ES2597155B1 (es) Sistema portátil de interpretación sonora o táctil del entorno para un invidente
CN108604439B (zh) 增强现实系统中定向音频的技术
CN204744865U (zh) 基于听觉的为视觉障碍人士传达周围环境信息的装置
US10130513B2 (en) Active confocal imaging systems and methods for visual prostheses
US20070016425A1 (en) Device for providing perception of the physical environment
US20070211947A1 (en) System for seeing using auditory feedback
Brimijoin et al. Undirected head movements of listeners with asymmetrical hearing impairment during a speech-in-noise task
CA2898750A1 (en) Devices and methods for the visualization and localization of sound
González-Mora et al. Seeing the world by hearing: Virtual Acoustic Space (VAS) a new space perception system for blind people.
JP2015041936A (ja) 画像表示装置、並びに画像処理装置及び画像処理方法
JP2022549548A (ja) オーディオコンテンツを提示するときに触覚コンテンツのレベルを調整するための方法およびシステム
WO2019142432A1 (ja) 情報処理装置、情報処理方法及び記録媒体
Ghaderi et al. A wearable mobility device for the blind using retina-inspired dynamic vision sensors
ES2692828T3 (es) Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición
Bălan et al. Assistive it for visually imapired people
JP2022548811A (ja) 触覚コンテンツを制御するための方法およびシステム
Barde et al. A Bone Conduction Based Spatial Auditory Display As Part of a Wearable Hybrid Interface
ES2517765A1 (es) Dispositivo y método de análisis, almacenamiento y representación espacial mediante sonidos
Guido et al. Sistemas de Medición de HRTFS Individuales: Revisión del Estado del Arte y Desarrollos en Argentina
RU2723357C1 (ru) Устройство для незрячих на основе сенсорного замещения
Matta et al. Auditory eyes: Representing visual information in sound and tactile cues
US11259134B2 (en) Systems and methods for enhancing attitude awareness in telepresence applications
Moon et al. Impaired Visual Capability Augmenting Framework based on reconfiguring sensory-brain pathway
JP2011067479A (ja) 画像聴覚化装置
Silva et al. Perceiving graphical and pictorial information via touch and hearing

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2597155

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20170918

FD2A Announcement of lapse in spain

Effective date: 20211203