ES2332103T3 - Dispositivo y procedimiento para reducir el tartamudeo. - Google Patents
Dispositivo y procedimiento para reducir el tartamudeo. Download PDFInfo
- Publication number
- ES2332103T3 ES2332103T3 ES05824945T ES05824945T ES2332103T3 ES 2332103 T3 ES2332103 T3 ES 2332103T3 ES 05824945 T ES05824945 T ES 05824945T ES 05824945 T ES05824945 T ES 05824945T ES 2332103 T3 ES2332103 T3 ES 2332103T3
- Authority
- ES
- Spain
- Prior art keywords
- channels
- components
- speech
- frequency
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 208000003028 Stuttering Diseases 0.000 claims abstract description 26
- 230000003321 amplification Effects 0.000 claims abstract description 24
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 230000009467 reduction Effects 0.000 claims description 13
- 230000005465 channeling Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000004075 alteration Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000006073 displacement reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F5/00—Orthopaedic methods or devices for non-surgical treatment of bones or joints; Nursing devices; Anti-rape devices
- A61F5/58—Apparatus for correcting stammering or stuttering
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Orthopedic Medicine & Surgery (AREA)
- Vascular Medicine (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Nursing (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Circuit For Audible Band Transducer (AREA)
- Treatments For Attaching Organic Compounds To Fibrous Goods (AREA)
- Separation Using Semi-Permeable Membranes (AREA)
- Separation By Low-Temperature Treatments (AREA)
- Noise Elimination (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Heat Treatment Of Strip Materials And Filament Materials (AREA)
- Vehicle Body Suspensions (AREA)
- Ticket-Dispensing Machines (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
Dispositivo portátil de reducción de tartamudeo, que comprende: a) un receptor de señal de audio para recibir señales de habla correspondientes a la voz de un usuario; b) medios de conversión de entrada en comunicación con dicho receptor de señal de audio para convertir dichas señales de habla y ruido mezclado con dichas señales de habla en componentes del dominio de la frecuencia; c) medios de canalización en comunicación con dichos medios de conversión para separar dichos componentes del dominio de la frecuencia en una primera pluralidad predeterminada de canales; d) medios de desplazamiento de frecuencia para desplazar la frecuencia de un segundo número predeterminado de dicho primer número predeterminado de canales, en el que dicho segundo número predeterminado es inferior a dicho primer número predeterminado de canales; e) medios de identificación en comunicación con dicha pluralidad de canales para identificar qué canales de dicha pluralidad de canales contienen sustancialmente más componentes del dominio de la frecuencia correspondientes a habla que componentes de frecuencia correspondientes a ruido; f) medios de amplificación en comunicación con dichos medios de identificación, en donde dichos medios de amplificación pueden ajustarse para amplificar relativamente canales identificados que contienen sustancialmente más componentes correspondientes a habla que componentes correspondientes a ruido; y g) medios de conversión de salida en comunicación con dichos medios de amplificación para convertir dichos componentes de frecuencia en señales del dominio del tiempo que contienen habla amplificada.
Description
Dispositivo y procedimiento para reducir el
tartamudeo.
La presente invención se refiere a un
dispositivo y procedimiento para reducir el tartamudeo. En
particular, la presente invención se refiere a dispositivos
electrónicos y procedimientos que emplean realimentación de audio
con alteración para minimizar el tartamudeo.
El ruido de fondo continúa siendo un problema
molesto para las personas que llevan dispositivos auditivos que
incorporan realimentación de audio con alteración para minimizar el
tartamudeo. Normalmente, las personas que se benefician de la
realimentación de audio con alteración tienen una sensibilidad
auditiva normal. Por lo tanto, esta población especial experimenta
las molestias del ruido de fondo en mayor medida que las personas
que usan audífonos como tratamiento para la pérdida auditiva.
En la actualidad, existen algunos dispositivos
antitartamudeo que reducen el ruido de fondo. Por ejemplo, Casa
Futura Technologies de 720 31^{st} Street, Boulder, Colorado,
utiliza diversos procedimientos para minimizar el impacto de ruido
de fondo. Su enfoque principal parece ser el uso de micrófonos
direccionales de cancelación de ruido que recogen la voz de un
usuario mientras rechazan en cierto modo el ruido de fondo. Casa
Futura incorpora también filtros de alta frecuencia para atenuar el
ruido de fondo por encima del rango vocal normal del usuario.
También usan técnicas de expansión a modo de audífono para
amplificar la voz del usuario al tiempo que reducen el ruido de
fondo. Además, Casa Futura usa un conmutador activado por voz para
activar la amplificación de voz cuando el usuario habla y
desactivarla cuando el usuario deja de hablar.
Más allá de la reducción del ruido de fondo, la
mayoría de los fabricantes de tecnología antitartamudeo emplean
también realimentación con alteración de frecuencia (FAF,
frequency-altered feedback) para mejorar la
fluidez de las personas que tartamudean. En la actualidad, la
mayoría de los fabricantes desplazan la totalidad del rango de
frecuencias de audibilidad con el fin de producir efectos de FAF en
el usuario (véase por ejemplo Stuart A et al:
"Self-Contained
In-the-Ear Device to Deliver Altered
Auditor, Feedback: Applications for Stuttering", Annals of
Biomedical Engineering vol. 31, n.º 2,febrero de 2003, págs.
233-237, XP002476955. La frecuencia de audibilidad
usada por la mayoría de los fabricantes está entre 20 y 6000 Hz.
Otros usan un rango reducido desde entre 60 y 3500 Hz. En
cualquiera de los casos, la totalidad del rango de frecuencias se
desplaza o bien de manera ascendente o descendente para usarse como
realimentación para el usuario. Sin embargo, el desplazamiento de
la totalidad del rango de frecuencias de audibilidad tiende a
estropear la frecuencia de habla fundamental, produciendo por tanto
distorsión de voz perceptible por el usuario. Por lo tanto, la
distorsión de voz es una queja fundamental entre los usuarios.
Aunque todos los enfoques anteriores tienen
cierta eficacia, no son del todo ideales. Por ejemplo, el documento
WO/9400085 describe un corrector de habla digital para personas
tartamudas en el que se aplica realimentación con desplazamiento de
frecuencia sólo a la banda de frecuencia inferior. Lo que se
necesita es una tecnología de realimentación con alteración de
frecuencia que reduzca significativamente la distorsión de voz
perceptible dentro de los componentes de habla usados como
realimentación para el usuario. Además, existe la necesidad de un
dispositivo antitartamudeo con funciones de atenuación de ruido
exclusivas que pueden aumentar de manera significativa el tiempo
que un paciente tartamudo puede tolerar llevar puesto su dispositivo
antitartamudeo.
Según la presente invención, se proporciona un
dispositivo portátil de reducción de tartamudeo y un procedimiento
correspondiente según cualquiera de las reivindicaciones
adjuntas.
Específicamente, el receptor de señal de audio
comprende un transductor de audio de entrada en comunicación con un
circuito de conversor analógico a digital. Medios de conversión de
entrada para convertir las señales de habla y ruido mezclado con
las señales de habla en componentes del dominio de la frecuencia
están en comunicación con el receptor de señal de audio. Los medios
de conversión de entrada preferidos son un procesador de señal
digital programado con un algoritmo de transformada rápida de
Fourier. Medios de canalización en comunicación con los medios de
conversión separan los componentes del dominio de la frecuencia en
una pluralidad de canales. Los medios de canalización preferidos
son una pluralidad de filtros digitales. Preferiblemente, los
filtros digitales se implementan a través de software o firmware
ejecutable por el procesador de señal digital.
Medios de identificación en comunicación con la
pluralidad de canales identifican qué canales de la pluralidad de
canales contienen sustancialmente más componentes del dominio de la
frecuencia correspondientes a habla que componentes de frecuencia
correspondientes a ruido. Los medios de identificación preferidos
son un procesador de señal digital que tiene software que busca en
la pluralidad de canales para identificar canales que contienen
predominantemente señales de habla o predominantemente ruido. Los
medios de amplificación que amplifican de manera relativa señales
identificadas como habla están en comunicación con los medios de
identificación. En particular, los medios de amplificación pueden
ajustarse para amplificar exclusivamente los canales identificados
como que contienen sustancialmente más componentes correspondientes
a habla que componentes correspondientes a ruido. Los medios de
amplificación preferidos son un procesador de señal digital que
tiene software que puede ejecutarse para aumentar la amplitud de
componentes correspondientes a habla. Medios de conversión de
salida en comunicación con los medios de amplificación convierten
los componentes de frecuencia en señales discretas del dominio del
tiempo que contienen habla amplificada. Los medios de conversión de
salida preferidos son un procesador de señal digital que incluye
software o firmware para implementar una transformada rápida de
Fourier inversa. Un conversor digital a analógico recibe las señales
discretas del dominio del tiempo y las convierte en señales
analógicas para su salida a un transductor de audio de salida, tal
como un altavoz de frecuencia de audio.
El procedimiento de la presente invención puede
emplear procesamiento de señal digital sofisticado para analizar
señales de entrada de audio y clasificarlas en diversos grupos. En
un primer procedimiento, las señales de entrada de audio se
analizan tanto en el dominio del tiempo como en el de la frecuencia
de modo que la voz del usuario se identifica con precisión y se
mantiene de manera efectiva mientras que se reducen otras señales
indeseables tales como ruido de fondo. En particular, la presente
invención filtra de manera inteligente las señales de audio
entrantes y las clasifica como deseables o indeseables. Tras la
clasificación, las señales de audio recibidas indeseables se
reducen de manera eficaz o bien mediante su propia atenuación o
mediante la amplificación de las señales de audio deseables o
mediante una combinación tanto de atenuación de ruido como de
amplificación de señal deseable.
En una realización preferida, el espectro de
habla o voz se divide en bandas de 500 Hz o inferiores. Sólo una o
dos de estas bandas de 500 Hz o inferiores se desplazan en
frecuencia a continuación. Además, se prefiere desplazar sólo las
bandas dentro de un determinado rango. Por ejemplo, pueden
seleccionarse dos bandas por debajo de 1000 Hz como las bandas que
van a desplazarse, dejando todas las bandas por encima de 1000 Hz en
su frecuencia natural. De este modo, hay mucho menos impacto sobre
el habla reconstruida que se usa como realimentación. Dicho de otro
modo, desde el punto de vista de la percepción de habla,
b-FAF no altera las frecuencias que constituyen
información de habla que es exclusiva del usuario. Por lo tanto,
b-FAF ofrece mucha menos distorsión al tiempo que
conserva todos los buenos atributos de FAF tradicional.
En funcionamiento, el dispositivo portátil de
reducción de tartamudeo de la presente invención se coloca en
comunicación con al menos uno de los oídos del usuario. El
dispositivo se alimenta y el transductor de audio de entrada recibe
una señal mezclada constituida por el habla del usuario junto con
cualquier ruido ambiental o interno. El conversor digital a
analógico convierte la señal mezclada en un flujo de señal digital
que se analiza por el procesador de señal digital. El procesador de
señal digital usa el firmware de transformada rápida de Fourier
para canalizar el flujo digital en el número predeterminado de
canales. El procesador de señal digital extrae y usa uno o más
caracteres de la señal mezclada para determinar qué canales
contienen predominantemente habla y qué canales contienen
predominantemente ruido. Los canales que contienen predominantemente
componentes de habla se amplifican respecto a los canales que
contienen predominantemente ruido. La amplificación relativa de los
canales que contienen predominantemente habla se consigue aumentando
relativamente la amplitud de componentes dentro de esos canales al
tiempo que se dejan los canales que contienen ruido en sus
amplitudes originales o atenuando los canales que contienen ruido
al tiempo que se dejan los canales dominados por los componentes de
habla en sus amplitudes originales o amplificando canales dominados
por los componentes de habla al tiempo que también se atenúan los
canales dominados por el ruido. El procesador de señal digital
también altera la frecuencia del segundo número predeterminado de
canales. Este flujo de datos digitales procesado se transforma
entonces en una señal del dominio del tiempo usando la transformada
rápida de Fourier inversa programada en el procesador de señal
digital. La señal resultante se convierte entonces de su forma
digital en una señal analógica para su salida al altavoz a través
del conversor analógico a digital. Estos y otros aspectos de la
presente invención serán evidentes para los expertos en la técnica
tras la lectura de la siguiente descripción de la realización
preferida.
La figura 1 es un diagrama de bloques del
dispositivo portátil de reducción de tartamudeo de la presente
invención.
La figura 2 es un diagrama de bloques que
ilustra un trayecto para señales.
La figura 3 es un diagrama de bloques que
representa la extracción de características pertenecientes a señales
de habla mezcladas con ruido.
La figura 4 es un diagrama de bloques que
muestra la clasificación de las características usadas para ajustar
amplificadores.
La figura 5 es un diagrama de barras de una
señal de audio de banda ancha debida a ruido interno de
micrófono.
La figura 6 es un diagrama lineal de la
característica de intensidad de una señal de habla típica.
La figura 7 es un diagrama de bloques del
proceso preferido para establecer de manera dinámica el umbral para
la amplificación de señal.
La figura 8 es un gráfico que muestra una señal
de habla típica sin ninguna alteración de frecuencia.
La figura 9 es un gráfico que muestra un
espectro de habla con alteración de frecuencia típico de la técnica
anterior.
La figura 10 es un gráfico que muestra un
espectro de habla con alteración de frecuencia de banda según la
presente invención.
La figura 11 es un diagrama de bloques que
representa el flujo de señal para la realimentación con alteración
de frecuencia de banda de la presente invención.
La figura 12 es un gráfico que compara los
resultados antes y después de la realimentación con alteración
basada en base de la presente invención.
La realización preferida de la presente
invención se basa en procesamiento multicanal que mejora las señales
de habla suprimiendo el ruido de fondo indeseable utilizando un
principio de sustracción espectral. El objetivo de suprimir el
ruido de fondo indeseable es aumentar la inteligibilidad del habla
en el ruido.
La figura 1 es un diagrama de bloques del
dispositivo portátil de reducción de tartamudeo de la presente
invención. Tal como se muestra en la figura 1, el dispositivo de la
presente invención comprende generalmente un micrófono que puede
usarse como un transductor de audio de entrada. Un conversor
analógico-digital en comunicación con el micrófono
convierte las señales de audio analógicas recibidas por el micrófono
en un flujo de audio digital. Un procesador de señal digital (DSP)
en comunicación con el conversor analógico a digital recibe el flujo
de audio digital y lo procesa según los procedimientos de la
presente invención. Un conversor digital a analógico en
comunicación con el procesador de señal digital convierte un flujo
de audio digital procesado en señales analógicas para su emisión.
Un altavoz en comunicación con el conversor digital a analógico
transmite las ondas sonoras correspondientes a las señales
analógicas de salida del conversor digital a analógico. Una fuente
de alimentación tal como una batería electroquímica alimenta el
dispositivo. Un interruptor eléctrico de encendido/apagado puede
usarse para apagar el dispositivo cuando no se usa para conservar la
duración de la batería. No se muestran características opcionales
tales como filtros pasabajos analógicos que pueden añadirse entre el
micrófono y el conversor analógico a digital y entre el conversor
digital a analógico y el altavoz. Además, el dispositivo de la
presente invención se aloja preferiblemente en una carcasa de canal
detrás de la oreja o dentro del oído tales como cualquiera de las
mostradas en la figura 5A y 5B de la patente estadounidense
6.754.632 de Kalinowski et al., cuyo contenido se incorpora
por referencia como si se mencionara en su totalidad en el presente
documento.
La figura 2 es un diagrama de bloques que
ilustra un trayecto para señales. En primer lugar, una señal de
audio entrante que contiene una mezcla de habla y ruido se convierte
del dominio del tiempo al dominio de la frecuencia. Dicho de otro
modo, la señal de audio entrante se divide en diversos componentes
de frecuencia para su procesamiento. Estos componentes de
frecuencia se agrupan entonces según un conjunto de criterios
preestablecidos. Por ejemplo, en esta fase, los componentes de
frecuencia de habla se identifican y se amplifican, y los
componentes de frecuencia atribuidos al ruido se mantienen a su
nivel actual o preferiblemente se atenúan. Por tanto, se aumenta la
relación señal a ruido de la señal de audio.
Con el fin de realizar las etapas anteriores,
debe identificarse al menos un carácter de las señales. La
intensidad de señal, la relación de cambio de intensidad y o la
duración son todas características de las señales de habla y de
ruido mezcladas que pueden utilizarse para agrupar los componentes
de frecuencia de la señal. Las figuras 3 y 4 son diagramas de
bloques que representan la extracción de características
pertenecientes a señales de habla mezcladas con ruido, por lo que
se usan las características para ajustar los amplificadores usados
para amplificar los componentes de frecuencia de habla. En la figura
3, se realiza el seguimiento de una señal del dominio del tiempo
mezclada (es decir, habla mezclada con ruido) mediante funciones de
seguimiento de máximo y mínimo que capturan las intensidades mínima
y máxima de la señal. Un parámetro de modulación junto con un
factor de tiempo y estrategias de combinación extraen un carácter de
la señal. El carácter de señal experimenta clasificación tal como
se muestra en la figura 4. Los resultados de la clasificación se
usan entonces para ajustar una pluralidad de amplificadores
ajustables.
La figura 5 ilustra la señal de audio de banda
ancha debida al ruido interno de un micrófono. El ruido tiende a
ser continuo mientras que el habla es mucho menos continua. Por lo
tanto, un carácter de esta señal de ruido interno es una intensidad
bien proporcionada. Por el contrario, tal como se muestra en la
figura 6, la característica de intensidad de habla no está bien
proporcionada y cambia rápidamente. Por lo tanto, en este caso, la
diferencia en las características de intensidad entre los
componentes de habla y los componentes de ruido de la señal
mezclada puede compararse para establecer un umbral dinámico para la
amplificación.
Las estrategias para extraer las
características, identificar o procesar las señales se preestablecen
según los diversos entornos de funcionamiento esperados. Puede
usarse un proceso denominado "entrenamiento" para los fines de
esta solicitud para analizar las entradas típicas para determinar
las diferentes estrategias en consecuencia. El entrenamiento puede
implementarse en un ordenador personal típico equipado con una
tarjeta de sonido y software de procesamiento de señales de audio.
Por ejemplo, una señal mezclada constituida por una ráfaga de tonos
de 1000 Hz y ruido blanco puede procesarse como sigue. Cada 1000 ms
hay una ráfaga de tonos que tiene una amplitud de pico máximo de 0
dBmv y una amplitud mínima de -10 dBmv. Por otro lado, la amplitud
máxima de ruido blanco nunca llega a 0 dBmv. Por lo tanto, puede
usarse la amplitud de pico máximo de 0 dBmv como una característica
identificable de la ráfaga de tonos de 1000 Hz. Por lo tanto, si un
contenido de señal mezclada supera -10 dBmv, entonces el contenido
de señal se reconoce como parte de la ráfaga de tonos y se
amplifica. Por el contrario, si un contenido de señal mezclada no
supera -10 dBmv el contenido se reconoce como ruido y el contenido
no se amplifica.
En el caso a modo de ejemplo anterior, el umbral
de amplificación se fija en un valor de -10 dBmv. Los umbrales de
amplificación fijos tales como este se usan normalmente con técnicas
de expansión de bajo nivel usadas para reducir el ruido interno de
un audífono típico. Sin embargo, estas técnicas de expansión de bajo
nivel usadas normalmente que tienen un umbral de amplificación fijo
no son eficaces para reducir el ruido común para dispositivos de
reducción de tartamudeo porque si el umbral es demasiado bajo, no
puede suprimirse el ruido interno completamente. De nuevo entonces,
si el umbral fijo es demasiado alto, señales débiles deseables
tales como un susurro no se amplificarán.
La novedosa técnica de expansión de nivel bajo
de la presente invención resuelve este problema usando un umbral de
amplificación dinámico en lugar de un umbral de amplificación fijo.
La figura 7 es un diagrama de bloques del proceso preferido para
establecer de manera dinámica el umbral para la amplificación de
señal. La técnica de expansión de nivel bajo de la presente
invención analiza la señal de entrada en primer lugar, y a
continuación establece de manera dinámica el umbral de
amplificación en un nivel más alto para suprimir el ruido interno
cuando no hay señales de habla presentes o por el contrario,
establece de manera dinámica el umbral de amplificación en un nivel
más bajo cuando hay señales de habla para amplificar. En particular,
la energía instantánea de los canales de uno a n se comparan cada
una frente a la energía instantánea de todos los canales. Se usan
entonces estrategias de comparación para establecer un umbral de
amplificación dinámico. Como resultado de esta técnica de
procesamiento novedosa, cualquier señal de habla recibida por el
dispositivo enmascarará el ruido interno débil de modo que el ruido
sea significativamente tolerable para el usuario.
La invención también proporciona un
procedimiento para reducir de manera significativa la distorsión de
habla indeseable presente en los dispositivos de reducción de
tartamudeo basados en realimentación con alteración de frecuencia
(FAF) de la técnica anterior. El procedimiento proporcionado por la
presente invención separa cualquier señal de audio recibida en
varias bandas estrechas. En la realización preferida cada una de las
bandas estrechas tiene un ancho de banda de 500 Hz o inferior. Las
figuras 8, 9 y 10 representan el espectro de una señal de habla que
tiene amplitudes (A) frente al aumento de la frecuencia (f). La
figura 8 muestra el espectro de una señal de habla sin ninguna
alteración de frecuencia. La figura 9 muestra un espectro de habla
con alteración de frecuencia (curva inferior) típico de la técnica
anterior en comparación con el espectro de habla sin alteración de
la figura 8. La figura 10 muestra el espectro de habla con
alteración de banda (curva inferior) proporcionado por la presente
invención en comparación con el espectro de habla sin alteración de
la figura 8.
La figura 11 representa el flujo de señal para
la realimentación con alteración de frecuencia de banda de la
presente invención. Cualquier señal de habla procesada por el bloque
de transformada rápida de Fourier (FFT) se separa en bandas
estrechas de 1 a n. Las bandas adyacentes se mezclan entonces y se
desplazan en frecuencia mediante un nivel ponderado. Las bandas que
tienen un nivel ponderado correspondiente a desplazamiento cero
permanecen a su frecuencia natural, mientras que las que tienen un
nivel ponderado correspondiente a un desplazamiento positivo o
negativo se desplazan en frecuencia de manera ascendente o
descendente respectivamente.
La figura 12 representa los resultados antes y
después de la realimentación con alteración de frecuencia basada en
base según la presente invención. El gráfico superior de la figura
12 representa un espectro de señal de prueba que tiene una banda
estrecha centrada en 1000 Hz antes de b-FAF. El
gráfico inferior de la figura 12 representa los resultados de
b-FAF después de haberse desplazado la banda
estrecha de 1000 Hz de manera ascendente varios cientos de Hz.
A los expertos en la técnica se les ocurrirán
algunas modificaciones y mejoras tras la lectura de la descripción
anterior. Por ejemplo, las técnicas de realimentación de la técnica
anterior tales como realimentación auditiva retardada (DAF) y
realimentación auditiva enmascarada (MAF) podrían combinarse con la
realimentación con alteración de frecuencia de banda
(b-FAF) de la presente invención para reducir
adicionalmente el tartamudeo en pacientes que necesitan estas
medidas adicionales.
Claims (9)
1. Dispositivo portátil de reducción de
tartamudeo, que comprende:
- a)
- un receptor de señal de audio para recibir señales de habla correspondientes a la voz de un usuario;
- b)
- medios de conversión de entrada en comunicación con dicho receptor de señal de audio para convertir dichas señales de habla y ruido mezclado con dichas señales de habla en componentes del dominio de la frecuencia;
- c)
- medios de canalización en comunicación con dichos medios de conversión para separar dichos componentes del dominio de la frecuencia en una primera pluralidad predeterminada de canales;
- d)
- medios de desplazamiento de frecuencia para desplazar la frecuencia de un segundo número predeterminado de dicho primer número predeterminado de canales, en el que dicho segundo número predeterminado es inferior a dicho primer número predeterminado de canales;
- e)
- medios de identificación en comunicación con dicha pluralidad de canales para identificar qué canales de dicha pluralidad de canales contienen sustancialmente más componentes del dominio de la frecuencia correspondientes a habla que componentes de frecuencia correspondientes a ruido;
- f)
- medios de amplificación en comunicación con dichos medios de identificación, en donde dichos medios de amplificación pueden ajustarse para amplificar relativamente canales identificados que contienen sustancialmente más componentes correspondientes a habla que componentes correspondientes a ruido; y
- g)
- medios de conversión de salida en comunicación con dichos medios de amplificación para convertir dichos componentes de frecuencia en señales del dominio del tiempo que contienen habla amplificada.
2. Dispositivo portátil de reducción de
tartamudeo según la reivindicación 1, en el que dichos medios de
conversión de entrada están compuestos por una transformada rápida
de Fourier y dichos medios de conversión de salida están compuestos
por una transformada rápida de Fourier inversa.
3. Dispositivo portátil de reducción de
tartamudeo según la reivindicación 1, en el que dichos medios de
canalización están compuestos por una pluralidad de filtros
digitales.
4. Dispositivo portátil de reducción de
tartamudeo según la reivindicación 1, en el que dichos medios de
identificación usan una característica de señal para identificar
señales respecto a ruido, seleccionándose dicha característica de
señal del grupo que consiste en intensidad, relación de cambio de
intensidad, duración y combinaciones de las mismas.
5. Dispositivo portátil de reducción de
tartamudeo según la reivindicación 1, que incluye además medios de
ajuste de umbral de amplificación dinámico que pueden establecer
dicho umbral en un nivel alto para suprimir el ruido interno cuando
no está recibiéndose ninguna señal de habla y para establecer dicho
umbral en un nivel bajo cuando se recibe una señal de habla.
6. Procedimiento para reducir el tartamudeo
proporcionando realimentación audible a una persona que usa un
dispositivo portátil de reducción de tartamudeo, comprendiendo
dicho procedimiento:
- a)
- recibir una señal de audio correspondiente al habla de la persona;
- b)
- convertir dicha señal de audio en componentes del dominio de la frecuencia;
- c)
- canalizar dichos componentes del dominio de la frecuencia en un primer número predeterminado de canales;
- d)
- desplazar la frecuencia de un segundo número predeterminado de dicho primer número predeterminado de canales, en donde dicho segundo número predeterminado de canales es inferior a dicho primer número predeterminado de canales; y
- e)
- identificar cuál de dicho primer número predeterminado de canales contiene sustancialmente más componentes del dominio de la frecuencia correspondientes a habla que componentes del dominio de la frecuencia correspondientes a ruido;
- f)
- aumentar las amplitudes de componentes del dominio de la frecuencia dentro de los canales identificados como que contienen sustancialmente más componentes correspondientes a habla que componentes correspondientes a ruido respecto a las amplitudes de componentes del dominio de la frecuencia dentro de canales que contienen sustancialmente más componentes de ruido que de habla; y
- g)
- convertir dichos componentes del dominio de la frecuencia canalizados de dicho primer número predeterminado de canales en una señal del dominio del tiempo audible.
7. Procedimiento según la reivindicación 6, en
el que cada uno de dicho primer número predeterminado de canales
tiene un ancho de banda no superior a 500 Hz.
8. Procedimiento según la reivindicación 6, en
el que dicho segundo número predeterminado de bandas de frecuencia
estrechas es uno y dicho primer número predeterminado de canales es
más de uno.
9. Procedimiento según la reivindicación 6, en
el que dicho segundo número predeterminado de canales comprende
canales adyacentes.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US1722 | 1987-01-09 | ||
US11/001,722 US7292985B2 (en) | 2004-12-02 | 2004-12-02 | Device and method for reducing stuttering |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2332103T3 true ES2332103T3 (es) | 2010-01-26 |
Family
ID=36565550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05824945T Active ES2332103T3 (es) | 2004-12-02 | 2005-11-21 | Dispositivo y procedimiento para reducir el tartamudeo. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7292985B2 (es) |
EP (1) | EP1817769B1 (es) |
AT (1) | ATE441922T1 (es) |
DE (1) | DE602005016454D1 (es) |
DK (1) | DK1817769T3 (es) |
ES (1) | ES2332103T3 (es) |
PL (1) | PL1817769T3 (es) |
WO (1) | WO2006060243A2 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398213B1 (en) * | 2005-05-17 | 2008-07-08 | Exaudios Technologies | Method and system for diagnosing pathological phenomenon using a voice signal |
US7591779B2 (en) * | 2005-08-26 | 2009-09-22 | East Carolina University | Adaptation resistant anti-stuttering devices and related methods |
US8392176B2 (en) * | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
US20080261183A1 (en) * | 2007-04-23 | 2008-10-23 | Steven Donaldson | Device for treating stuttering and method of using the same |
CN101452507A (zh) * | 2007-12-06 | 2009-06-10 | 深圳富泰宏精密工业有限公司 | 手持行动电子装置语音认证系统及方法 |
EP2193767B1 (en) * | 2008-12-02 | 2011-09-07 | Oticon A/S | A device for treatment of stuttering |
US8213635B2 (en) * | 2008-12-05 | 2012-07-03 | Microsoft Corporation | Keystroke sound suppression |
US20130267766A1 (en) | 2010-08-16 | 2013-10-10 | Purdue Research Foundation | Method and system for training voice patterns |
US9532897B2 (en) | 2009-08-17 | 2017-01-03 | Purdue Research Foundation | Devices that train voice patterns and methods thereof |
US8571873B2 (en) | 2011-04-18 | 2013-10-29 | Nuance Communications, Inc. | Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal |
WO2013108255A1 (en) * | 2012-01-18 | 2013-07-25 | Steinberg-Shapira Shirley | Method and device for stuttering alleviation |
US8682678B2 (en) * | 2012-03-14 | 2014-03-25 | International Business Machines Corporation | Automatic realtime speech impairment correction |
US9928754B2 (en) * | 2013-03-18 | 2018-03-27 | Educational Testing Service | Systems and methods for generating recitation items |
US20180197438A1 (en) | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
JP7276438B2 (ja) * | 2019-05-23 | 2023-05-18 | 日本電信電話株式会社 | 評価装置、訓練装置、それらの方法、およびプログラム |
US11727949B2 (en) * | 2019-08-12 | 2023-08-15 | Massachusetts Institute Of Technology | Methods and apparatus for reducing stuttering |
US11589154B1 (en) * | 2021-08-25 | 2023-02-21 | Bose Corporation | Wearable audio device zero-crossing based parasitic oscillation detection |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
PL168523B1 (pl) * | 1992-06-19 | 1996-02-29 | Andrzej Czyzewski | Sposób korekcji wymowy osób jakajacych sie PL PL PL |
JP3626492B2 (ja) * | 1993-07-07 | 2005-03-09 | ポリコム・インコーポレイテッド | 会話の品質向上のための背景雑音の低減 |
DE4330243A1 (de) * | 1993-09-07 | 1995-03-09 | Philips Patentverwaltung | Sprachverarbeitungseinrichtung |
US5794203A (en) * | 1994-03-22 | 1998-08-11 | Kehoe; Thomas David | Biofeedback system for speech disorders |
US6072885A (en) * | 1994-07-08 | 2000-06-06 | Sonic Innovations, Inc. | Hearing aid device incorporating signal processing techniques |
US5500902A (en) * | 1994-07-08 | 1996-03-19 | Stockham, Jr.; Thomas G. | Hearing aid device incorporating signal processing techniques |
US5647834A (en) * | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
US5961443A (en) * | 1996-07-31 | 1999-10-05 | East Carolina University | Therapeutic device to ameliorate stuttering |
US6044162A (en) * | 1996-12-20 | 2000-03-28 | Sonic Innovations, Inc. | Digital hearing aid using differential signal representations |
US5937377A (en) * | 1997-02-19 | 1999-08-10 | Sony Corporation | Method and apparatus for utilizing noise reducer to implement voice gain control and equalization |
US5940798A (en) * | 1997-12-31 | 1999-08-17 | Scientific Learning Corporation | Feedback modification for reducing stuttering |
US6356067B1 (en) * | 1998-08-10 | 2002-03-12 | Sony/Tektronix Corporation | Wide band signal analyzer with wide band and narrow band signal processors |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6754632B1 (en) * | 2000-09-18 | 2004-06-22 | East Carolina University | Methods and devices for delivering exogenously generated speech signals to enhance fluency in persons who stutter |
-
2004
- 2004-12-02 US US11/001,722 patent/US7292985B2/en active Active
-
2005
- 2005-11-21 PL PL05824945T patent/PL1817769T3/pl unknown
- 2005-11-21 WO PCT/US2005/042346 patent/WO2006060243A2/en active Application Filing
- 2005-11-21 EP EP05824945A patent/EP1817769B1/en not_active Expired - Fee Related
- 2005-11-21 AT AT05824945T patent/ATE441922T1/de not_active IP Right Cessation
- 2005-11-21 DK DK05824945T patent/DK1817769T3/da active
- 2005-11-21 ES ES05824945T patent/ES2332103T3/es active Active
- 2005-11-21 DE DE602005016454T patent/DE602005016454D1/de active Active
Also Published As
Publication number | Publication date |
---|---|
DK1817769T3 (da) | 2009-11-02 |
EP1817769B1 (en) | 2009-09-02 |
US20060122826A1 (en) | 2006-06-08 |
WO2006060243A2 (en) | 2006-06-08 |
ATE441922T1 (de) | 2009-09-15 |
PL1817769T3 (pl) | 2010-02-26 |
US7292985B2 (en) | 2007-11-06 |
WO2006060243A3 (en) | 2007-02-08 |
EP1817769A2 (en) | 2007-08-15 |
DE602005016454D1 (de) | 2009-10-15 |
EP1817769A4 (en) | 2008-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2332103T3 (es) | Dispositivo y procedimiento para reducir el tartamudeo. | |
US7191127B2 (en) | System and method for speech enhancement | |
EP3566469B1 (en) | Speech intelligibility enhancing system | |
EP1819195B1 (en) | Method and system for providing hearing assistance to a user | |
US20060109983A1 (en) | Signal masking and method thereof | |
US20040199380A1 (en) | Signal processing circuit and method for increasing speech intelligibility | |
US20080069385A1 (en) | Amplifier and Method of Amplification | |
US20110044481A1 (en) | Method and system for providing hearing assistance to a user | |
KR20200138050A (ko) | 콘텍스트에 기초한 주변 사운드 향상 및 음향 노이즈 소거 | |
ATE527970T1 (de) | Aktive störgeräuschunterdrückung bei hörhilfegeräten | |
DK2617127T3 (en) | METHOD AND SYSTEM TO PROVIDE HEARING ASSISTANCE TO A USER / METHOD AND SYSTEM FOR PROVIDING HEARING ASSISTANCE TO A USER | |
US20110105034A1 (en) | Active voice cancellation system | |
GB2091065A (en) | Hearing aids | |
Kuk et al. | New technology for effortless hearing: A “Unique” perspective | |
Edwards | Beyond amplification: Signal processing techniques for improving speech intelligibility in noise with hearing aids | |
JP3938322B2 (ja) | 補聴器の調整方法と補聴器 | |
Kąkol et al. | A study on signal processing methods applied to hearing aids | |
Killion | Compression: distinctions | |
JP2002051108A (ja) | 電話装置および着信音制御方法 | |
KR200497417Y1 (ko) | 의사소통 보조장치 | |
US20050091060A1 (en) | Hearing aid for increasing voice recognition through voice frequency downshift and/or voice substitution | |
CN217849683U (zh) | 一种蓝牙助听电路、蓝牙助听装置和耳机 | |
KR102184649B1 (ko) | 치과 치료용 소리 제어 시스템 및 방법 | |
JP2009232431A (ja) | 「音声拡張器付携帯電話(助聴力携帯)」 | |
Schum | The audiology in Agil |